CN108595439B - 一种文字传播路径分析方法及系统 - Google Patents

一种文字传播路径分析方法及系统 Download PDF

Info

Publication number
CN108595439B
CN108595439B CN201810435632.9A CN201810435632A CN108595439B CN 108595439 B CN108595439 B CN 108595439B CN 201810435632 A CN201810435632 A CN 201810435632A CN 108595439 B CN108595439 B CN 108595439B
Authority
CN
China
Prior art keywords
manuscript
internet
statement
vector
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810435632.9A
Other languages
English (en)
Other versions
CN108595439A (zh
Inventor
孙彩霞
罗引
黄泰文
皇秋曼
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Wenge Technology Co ltd filed Critical Beijing Zhongke Wenge Technology Co ltd
Priority to CN201810435632.9A priority Critical patent/CN108595439B/zh
Publication of CN108595439A publication Critical patent/CN108595439A/zh
Application granted granted Critical
Publication of CN108595439B publication Critical patent/CN108595439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文字传播路径分析方法及系统,该分析方法包括:将互联网稿件和参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;通过计算相应的汉明距离判断互联网稿件与参考稿件是否有共有语句;当互联网稿件与参考稿件有共有语句时,且互联网稿件不包含预设关键词时,确定互联网稿件与参考稿件采用关系的种类。在本发明实施例中,根据互联网稿件和参考稿件分别得到对应语句维度向量,通过语句维度向量计算互联网稿件和参考稿件的汉明距离,利用互联网稿件和参考稿件的汉明距离和互联网稿件是否包含预设关键词确认互联网稿件与参考稿件的采用关系,为用户提供了不同稿件之间关系的处理方法,提高工作的效率。

Description

一种文字传播路径分析方法及系统
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种文字传播路径分析方法及系统。
背景技术
随着物联网的快速发展和大数据的兴起,人们对数据的需求越来越多,不仅要求数据量多,对数据质量的要求也提高。数据质量的好坏直接决定了通过大数据分析后得到的结论的优劣,好的数据将大大提升分析结果的准确性。在这样的环境下,数据采集的技术尤为重要。
而在数据采集过程中,不同互联网数据之间的关系是确认互联网数据流向和传播范围的重要依据,但是在浩如烟海的互联网文件中,寻找到不同文件之间的关系,单纯的依靠人力实现是不可能实现这一目标。
发明内容
为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种文字传播路径分析方法,包括:
获取互联网稿件,将所述互联网稿件和预存储的参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;
计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离;通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句;
若是,则判断所述互联网稿件是否包含预设关键词,当所述互联网稿件不包含所述预设关键词时,通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类。
基于上述技术方案,本发明实施例还可以做出如下改进。
可选的,该文字传播路径分析方法还包括:当所述互联网稿件包括所述预设关键词时,通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量;
当所述稿件质量大于或等于第一预设阈值时,所述互联网稿件与所述参考稿件为采用关系;
或,当所述稿件质量小于所述第一预设阈值时,所述互联网稿件与所述参考稿件为非采用关系。
可选的,所述通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量,具体包括:
去除所述互联网稿件和所述参考稿件中的停留词,将所述互联网稿件和所述参考稿件进行分句分别得到互联网稿件语句和参考稿件语句;
通过ROUGE算法计算任一所述互联网稿件语句与每个所述参考稿件语句的ROUGE值,取所有ROUGE值中的最大值作为所述互联网稿件语句的语句质量,同理,得到每个互联网稿件语句的语句质量;
当任一所述语句质量大于或等于所述第一预设阈值时,所述互联网稿件与所述参考稿件为采用关系;根据所述语句质量大于或等于所述第一预设阈值的互联网稿件语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类;所述采用关系的种类包括:全部采用、绝大部分采用、大部分采用、部分采用、少部分采用和极少部分采用;
或者,当所有所述语句质量均小于所述第一预设阈值时,所述互联网稿件与所述参考稿件为非采用关系。
可选的,所述将所述互联网稿件和所述参考稿件分别按语句向量化之前,该方法还包括:
计算所述互联网稿件与参考稿件的稿件相似度值,判断所述稿件相似度值是否大于或等于第二预设阈值;
当所述稿件相似度值小于所述第二预设阈值时,所述互联网稿件与所述参考稿件为非采用关系;
或,当所述稿件相似度值大于或等于所述第二预设阈值时,将所述互联网稿件和所述参考稿件分别按语句向量化。
可选的,所述计算所述互联网稿件与参考稿件的稿件相似度值,具体包括:
分别提取所述互联网稿件和参考稿件的特征关键词,并将相应的特征关键词转化为互联网稿件向量和参考稿件向量;
计算所述互联网稿件向量与所述参考稿件向量的余弦值作为所述稿件相似度值。
可选的,所述将所述互联网稿件和所述参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量,具体包括:
将所述互联网稿件按语句进行拆分,得到互联网数据语句;
通过tf-idf算法对每个所述互联网数据语句进行处理,得到每个所述互联网数据语句对应的互联网数据语句向量;
通过所有互联网数据语句向量生成所述互联网稿件的互联网稿件语句维度向量A={ai},其中,ai为所述互联网数据语句向量;i=1,2,3,……,m,m为所述互联网数据语句的数量;
将所述参考稿件按语句进行拆分,得到预设数据语句;
通过tf-idf算法对每个所述预设数据语句进行处理,得到每个所述预设数据语句对应的预设数据语句向量;
通过所有预设数据语句向量生成所述参考稿件的参考稿件语句维度向量B={bj},其中,bj为所述互联网数据语句向量;j=1,2,3,……,n,n为所述预设数据语句的数量。
可选的,所述计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离,具体包括:
通过SimHash算法得到所述互联网数据语句向量ai的第一签名向量ai'和所述预设数据语句向量bj的第二签名向量bj';
分别计算每个第一签名向量ai'与每个第二签名向量bj'的汉明距离d(ai',bj'),当d(ai',bj')<=3时,距离矩阵Sij中的元素sij=1,当d(ai',bj')>3时,所述距离矩阵Sij中的元素sij=0,将所述距离矩阵Sij作为所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离。
可选的,所述通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句,具体包括:
判断所述距离矩阵Sij中是否存在如下序列Lijk,是则,所述互联网稿件与所述参考稿件有共有语句,否则,互联网稿件与所述参考稿件无共有语句;
其中,所述序列Lijk满足如下条件:所述序列Lijk中的每一个元素lijk对应的所述距离矩阵Sij的元素sij=1;针对所述序列Lijk中的元素li1j1k1和li2j2k2,若k1<k2,则i1<i2且j1<j2;所述序列Lijk的长度Length(L)满足
Figure BDA0001650067310000041
Figure BDA0001650067310000042
其中,length(A)表示所述互联网数据语句向量ai或所述第一签名向量ai'的长度,length(B)表示所述预设数据语句向量bj或所述第二签名向量bj'的长度,
Figure BDA0001650067310000043
可选的,通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类,具体包括:
当所述序列Lijk的长度Length(L)满足Length(L)=length(A)=length(B)时,所述互联网稿件与所述参考稿件完全一致;
当所述序列Lijk的长度Length(L)满足
Figure BDA0001650067310000044
且Length(L)=length(B)时,所述互联网稿件与所述参考稿件为完全采用关系;
当所述序列Lijk的长度Length(L)满足
Figure BDA0001650067310000051
且Length(L)=length(A)时,所述互联网稿件与所述参考稿件为完全采用关系;
当所述序列Lijk的长度Length(L)满足
Figure BDA0001650067310000052
Figure BDA0001650067310000053
所述互联网稿件与所述参考稿件为部分采用关系。
本发明实施例还提供了一种文字传播路径分析系统,该分析系统基于内存计算的开源分布式计算框架,包括:服务器,用于实现上述任一所述的文字传播路径分析方法。
本发明的上述技术方案与现有技术相比具有如下优点:在本发明实施例中,将互联网稿件和参考稿件进行处理分别得到对应语句维度向量,通过语句维度向量计算互联网稿件和参考稿件的汉明距离,利用互联网稿件和参考稿件的汉明距离和互联网稿件是否包含预设关键词确认互联网稿件与参考稿件的采用关系,为用户提供了不同稿件之间关系的处理方法,提高工作的效率。
附图说明
图1是本发明实施例提供的一种文字传播路径分析方法流程示意图;
图2是本发明另一实施例提供的一种文字传播路径分析方法流程示意图;
图3是本发明又一实施例提供的一种文字传播路径分析方法流程示意图;
图4是本发明又一实施例提供的一种文字传播路径分析方法流程示意图其二;
图5是本发明又一实施例提供的一种文字传播路径分析方法流程示意图其三;
图6是本发明又一实施例提供的一种文字传播路径分析方法流程示意图其四;
图7是本发明又一实施例提供的一种文字传播路径分析方法流程示意图其五。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种文字传播路径分析方法,包括:
S11、获取互联网稿件,将互联网稿件和预存储的参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量。
具体的,将互联网稿件和参考稿件按语句进行拆分,并分别将每一个语句向量化,分别进行拼接得到与互联网稿件相对应的互联网稿件语句维度向量。
S12、计算互联网稿件语句维度向量与参考稿件语句维度向量的汉明距离。
具体的,汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个字符串对应位不同的数量,在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数,在此处使用汉明距离用于计算两个语句维度向量的汉明距离,即一个向量中的单元与另一个向量中单元的汉明距离。
S13、通过汉明距离判断互联网稿件与参考稿件是否有共有语句。
具体的,上述步骤中对汉明距离进行了解释,汉明距离用于判断两个字符串对应位置的不同字符的个数,即两个字符串对应位置的不同字符的个数越少,两个字符串的相似度越高,汉明距离为0时,两个字符串完全一致,由此通过汉明距离来判断互联网稿件和参考稿件是否有共有语句。
S14、若是,则判断互联网稿件是否包含预设关键词。
S15、当互联网稿件不包含预设关键词时,通过共有语句的比例确定互联网稿件与参考稿件采用关系的种类。
具体的,当通过汉明距离判断互联网稿件和参考稿件中存在共有语句时,判断互联网稿件中是否存在预设关键词,该预设关键词包括:预先存储在数据库中的模板化词语,这类词语包含并没有实际含义,但在部分特殊文章中会占据一定篇幅,比如,“公报”、“演讲”、“会议”、“全会”等关键词,此处是对预设关键词进行解释,并用于对预设关键词的具体限定,预设关键词可由用户根据实际情况进行具体限定。
上述实施例中,通过将不同稿件分别转化为相应的语句维度向量,并计算不同语句维度向量的汉明距离,通过汉明距离的大小判断不同稿件之间是否存在共有语句,将不包含预设关键词且存在共有语句的互联网稿件与参考稿件确认为具有采用关系,并将根据共有语句的比例确认采用关系的种类,比如,完全采用、部分采用、少部分采用等采用关系。
如图2所示,本发明实施例提供的一种文字传播路径分析方法,包括:
S21、获取互联网稿件,将互联网稿件和预存储的参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量。
具体的,将互联网稿件和参考稿件按语句进行拆分,并分别将每一个语句向量化,分别进行拼接得到与互联网稿件相对应的互联网稿件语句维度向量。
S22、计算互联网稿件语句维度向量与参考稿件语句维度向量的汉明距离。
具体的,汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个字符串对应位不同的数量,在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数,在此处使用汉明距离用于计算两个语句维度向量的汉明距离,即一个向量中的单元与另一个向量中单元的汉明距离。
S23、通过汉明距离判断互联网稿件与参考稿件是否有共有语句。
具体的,上述步骤中对汉明距离进行了解释,汉明距离用于判断两个字符串对应位置的不同字符的个数,即两个字符串对应位置的不同字符的个数越少,两个字符串的相似度越高,汉明距离为0时,两个字符串完全一致,由此通过汉明距离来判断互联网稿件和参考稿件是否有共有语句。
S24、若是,则判断互联网稿件是否包含预设关键词。
S25、当互联网稿件包括预设关键词时,通过互联网稿件和参考稿件计算互联网稿件的稿件质量。
具体的,当互联网稿件包括预设关键词时,该互联网稿件与参考稿件有可能是因为模板化语句的原因,出现大量共有语句,此时计算该互联网稿件的稿件质量,减少模板化语句造成互联网稿件与参考稿件之间的共有语句过多的情况。
其中,如图3所示,计算互联网稿件的稿件质量,具体包括:
S31、去除互联网稿件和参考稿件中的停留词,将互联网稿件和参考稿件进行分句分别得到互联网稿件语句和参考稿件语句。
具体的,对互联网稿件和参考稿件进行去噪,过滤掉其中的无用词,然后对互联网稿件和参考稿件分句分别得到对应的语句,用于计算互联网稿件的稿件质量。
S32、通过ROUGE算法计算任一互联网稿件语句与每个参考稿件语句的ROUGE值,取所有ROUGE值中的最大值作为互联网稿件语句的语句质量,同理,得到每个互联网稿件语句的语句质量。
具体的,ROUGE算法最开始是用在自动文摘中对机器摘要进行内部评测的方法,基于摘要中n元词的共现信息来评价摘要。其主要思想是通过专家从原文中抽取摘要形成人工摘要,将机器摘要和人工摘要进行对比,通过统计二者之间重叠的n元词数目,来评价摘要的质量,本方案中将拆分后的互联网稿件语句与每个参考稿件语句分别计算相应的ROUGE值,并将其中最大的ROUGE值作为该互联网稿件语句的ROUGE值,同理得到每个互联网稿件语句的语句质量。
S33、当任一语句质量大于或等于第一预设阈值时,互联网稿件与参考稿件为采用关系;根据语句质量大于或等于第一预设阈值的互联网稿件语句的比例确定互联网稿件与参考稿件采用关系的种类;采用关系的种类包括:全部采用、绝大部分采用、大部分采用、部分采用、少部分采用和极少部分采用。
S34、或者,当所有语句质量均小于第一预设阈值时,互联网稿件与参考稿件为非采用关系。
具体的,当互联网稿件中任一语句质量大于或等于预设阈值时,即可判断该互联网稿件与参考稿件为采用关系,具体的采用关系可根据语句质量大于预设阈值的数量决定,当护栏网稿件中的所有语句质量均小于预设阈值时,互联网稿件与参考稿件为非采用关系。
S26、当稿件质量大于或等于第一预设阈值时,互联网稿件与参考稿件为采用关系。
S27、或,当稿件质量小于第一预设阈值时,互联网稿件与参考稿件为非采用关系。
具体的,根据稿件质量与预设阈值的大小比较,判断互联网稿件是否为采用关系,避免模板化语句的互联网稿件出现误判。
在本实施例中,在互联网稿件中包括预设关键词时,通过互联网稿件和参考稿件计算该互联网稿件的稿件质量,通过稿件质量判断该互联网稿件与参考稿件的采用关系。
在一个具体的实施例中,如图4所示,本发明实施例提供的一种文字传播路径分析方法,与图1所示文字传播路径分析方法,区别在于,包括:
S41、计算互联网稿件与参考稿件的稿件相似度值。
S42、判断稿件相似度值是否大于或等于第二预设阈值。
具体的,本步骤直接计算互联网稿件与参考稿件的稿件相似度值,相比较于图1所示的文字传播路径方法中的计算过程,直接计算稿件之间的相似度值较为快速。
其中,如图5所示,计算互联网稿件与参考稿件的稿件相似度值,具体包括:
S51、分别提取互联网稿件和参考稿件的特征关键词,并将相应的特征关键词转化为互联网稿件向量和参考稿件向量;
S52、计算互联网稿件向量与参考稿件向量的余弦值作为稿件相似度值。
具体的,在本步骤中通过计算互联网稿件与参考稿件转化的向量间的余弦值作为互联网稿件和参考稿件的稿件相似度值,以加快处理进度。比如,假设互联网稿件X和参考稿件Y对应向量分别是:
x1,x2,x3,...,x6400
y1,y2,y3,...,y6400
那么,它们之间的余弦距离可以用它们之间夹角的余弦值来表示:
Figure BDA0001650067310000111
当两条新闻向量夹角余弦等于1时,这两条新闻完全重复;当夹角的余弦值接近于1时,两条新闻越相似;夹角的余弦越小,两条新闻越不相似。
S43a、当稿件相似度值小于第二预设阈值时,互联网稿件与参考稿件为非采用关系。
S43b、或,当稿件相似度值大于或等于第二预设阈值时,将互联网稿件和参考稿件分别按语句向量化,执行如图1所示文字传播路径分析方法中的步骤。
在本实施例中,通过快速计算互联网稿件与参考稿件之间的稿件相似度值,快速过滤掉其中稿件相似度值较低的互联网稿件,减少后续工作计算量,提高工作效率。
在一个具体的实施例中,如图6所示,本发明实施例提供的一种文字传播路径分析方法,与图1所示文字传播路径分析方法,区别在于,包括:
S61、将互联网稿件按语句进行拆分,得到互联网数据语句。
S62、通过tf-idf算法对每个互联网数据语句进行处理,得到每个互联网数据语句对应的互联网数据语句向量。
具体的,tfidf算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,在本步骤中,通过tfidf算法确认每个互联网语句中的词语的重要程度,然后根据语句中词语的重要程度将互联网数据语句向量化,得到互联网数据语句向量。
S63、通过所有互联网数据语句向量生成互联网稿件的互联网稿件语句维度向量A={ai},其中,ai为互联网数据语句向量;i=1,2,3,……,m,m为互联网数据语句的数量。
具体的,将互联网数据语句向量按互联网数据语句的顺序,生成对应的互联网稿件语句维度向量。
S63、将参考稿件按语句进行拆分,得到预设数据语句。
S64、通过tf-idf算法对每个预设数据语句进行处理,得到每个预设数据语句对应的预设数据语句向量。
S65、通过所有预设数据语句向量生成参考稿件的参考稿件语句维度向量B={bj},其中,bj为互联网数据语句向量;j=1,2,3,……,n,n为预设数据语句的数量。
在本实施例中,将互联网稿件中的每个语句生成对应的语句向量,而后通过语句向量构建对应的互联网稿件语句维度向量,对参考稿件做相同的处理,得到参考稿件对应的参考稿件语句维度向量,用于计算互联网稿件和参考稿件的汉明距离。
在本实施例中,如图7所示,本发明实施例提供的一种文字传播路径分析方法,与图1所示文字传播路径分析方法,区别在于,包括:
S71、通过SimHash算法得到互联网数据语句向量ai的第一签名向量ai'和预设数据语句向量bj的第二签名向量bj'。
具体的,SimHash算法是用来网页去重最常用的hash方法,hash方法是把任意长度的输入,通过散列算法,变换成固定长度的输出,该输出就是散列值,而不同的文章输出的哈希值是不一样的,由于不同的hash规则,只有完全一致的输入,才能生成一样的输出,所以,此处通过哈希值对互联网数据语句向量进行处理,减少数据处理量,同时,由于生成的签名向量的长度一致,方便汉明距离的计算。
S72、分别计算每个第一签名向量ai'与每个第二签名向量bj'的汉明距离d(ai',bj'),当d(ai',bj')<=3时,距离矩阵Sij中的元素sij=1,当d(ai',bj')>3时,距离矩阵Sij中的元素sij=0,将距离矩阵Sij作为互联网稿件语句维度向量与参考稿件语句维度向量的汉明距离。
具体的,计算互联网稿件与参考稿件对应的第一签名向量和第二签名向量的汉明距离,当汉明距离小于或等于3时,即该第一签名向量和第二签名向量至多有三个不一致时,即可认为第一签名向量和第二签名向量对应的语句相似,由此构建一个矩阵作为该互联网稿件语句维度向量和参考稿件语句维度向量的汉明距离。
在本实施例中,通过哈希算法将语句向量对应转化为签名向量,通过计算不同稿件的签名向量之间的汉明距离,并根据汉明距离的大小进行赋值,最终构建一个距离矩阵作为互联网稿件语句维度向量与参考稿件语句维度向量的汉明距离,即互联网稿件与参考稿件的汉明距离。
S73、判断距离矩阵Sij中是否存在如下序列Lijk,是则,互联网稿件与参考稿件有共有语句,否则,互联网稿件与参考稿件无共有语句。
其中,序列Lijk满足如下条件:序列Lijk中的每一个元素lijk对应的距离矩阵Sij的元素sij=1;针对序列Lijk中的元素li1j1k1和li2j2k2,若k1<k2,则i1<i2且j1<j2;序列Lijk的长度Length(L)满足
Figure BDA0001650067310000131
Figure BDA0001650067310000132
其中,length(A)表示互联网数据语句向量ai或第一签名向量ai'的长度,length(B)表示预设数据语句向量bj或第二签名向量bj'的长度,
Figure BDA0001650067310000133
具体的,根据距离矩阵中为1的单元的分布,查看是否满足序列即可根据距离矩阵判断互联网稿件和参考稿件是否有共有语句,其中序列的意思是,在距离矩阵中存在这样一个序列,k表示元素在序列中的位置,i表示该元素对应距离矩阵中第一签名向量的位置,j表示该元素对应距离矩阵中第二签名向量的位置,即序列中的后一个元素和前一个元素在距离矩阵中是向右下分布的,且该矩阵的长度至少大于或等于互联网数据语句向量、第一签名向量、预设数据语句向量bj或第二签名向量bj'的长度的预设比例值。
其中,通过序列判断互联网稿件与参考稿件是否有共有语句,包括:
当序列Lijk的长度Length(L)满足Length(L)=length(A)=length(B)时,互联网稿件与参考稿件完全一致;
当序列Lijk的长度Length(L)满足
Figure BDA0001650067310000141
且Length(L)=length(B)时,互联网稿件与参考稿件为完全采用关系;
当序列Lijk的长度Length(L)满足
Figure BDA0001650067310000142
且Length(L)=length(A)时,互联网稿件与参考稿件为完全采用关系;
当序列Lijk的长度Length(L)满足
Figure BDA0001650067310000143
Figure BDA0001650067310000144
互联网稿件与参考稿件为部分采用关系。
本发明实施例还提供了一种文字传播路径分析系统,该分析系统基于内存计算的开源分布式计算框架,包括:服务器。
在本实施例中,服务器,用于获取互联网稿件,将互联网稿件和预存储的参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量。
在本实施例中,服务器,还用于计算互联网稿件语句维度向量与参考稿件语句维度向量的汉明距离;通过汉明距离判断互联网稿件与参考稿件是否有共有语句。
在本实施例中,服务器,还用于当互联网稿件与参考稿件有共有语句时,则判断互联网稿件是否包含预设关键词,当互联网稿件不包含预设关键词时,通过共有语句的比例确定互联网稿件与参考稿件采用关系的种类。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种文字传播路径分析方法,其特征在于,包括:
获取互联网稿件,将所述互联网稿件和预存储的参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;
计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离;通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句;
若是,则判断所述互联网稿件是否包含预设关键词,当所述互联网稿件不包含所述预设关键词时,通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类;
当所述互联网稿件包括所述预设关键词时,通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量;当所述稿件质量大于或等于第一预设阈值时,所述互联网稿件与所述参考稿件为采用关系;或,当所述稿件质量小于所述第一预设阈值时,所述互联网稿件与所述参考稿件为非采用关系;
所述通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量,具体包括:去除所述互联网稿件和所述参考稿件中的停留词,将所述互联网稿件和所述参考稿件进行分句分别得到互联网稿件语句和参考稿件语句;通过ROUGE算法计算任一所述互联网稿件语句与每个所述参考稿件语句的ROUGE值,取所有ROUGE值中的最大值作为所述互联网稿件语句的语句质量,同理,得到每个互联网稿件语句的语句质量;当任一所述语句质量大于或等于所述第一预设阈值时,所述互联网稿件与所述参考稿件为采用关系;根据所述语句质量大于或等于所述第一预设阈值的互联网稿件语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类;所述采用关系的种类包括:全部采用、绝大部分采用、大部分采用、部分采用、少部分采用和极少部分采用;或者,当所有所述语句质量均小于所述第一预设阈值时,所述互联网稿件与所述参考稿件为非采用关系。
2.根据权利要求1所述的文字传播路径分析方法,其特征在于,所述将所述互联网稿件和所述参考稿件分别按语句向量化之前,该方法还包括:
计算所述互联网稿件与参考稿件的稿件相似度值,判断所述稿件相似度值是否大于或等于第二预设阈值;
当所述稿件相似度值小于所述第二预设阈值时,所述互联网稿件与所述参考稿件为非采用关系;
或,当所述稿件相似度值大于或等于所述第二预设阈值时,将所述互联网稿件和所述参考稿件分别按语句向量化。
3.根据权利要求2所述的文字传播路径分析方法,其特征在于,所述计算所述互联网稿件与参考稿件的稿件相似度值,具体包括:
分别提取所述互联网稿件和参考稿件的特征关键词,并将相应的特征关键词转化为互联网稿件向量和参考稿件向量;
计算所述互联网稿件向量与所述参考稿件向量的余弦值作为所述稿件相似度值。
4.根据权利要求1-3中任一所述的文字传播路径分析方法,其特征在于,所述将所述互联网稿件和所述参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量,具体包括:
将所述互联网稿件按语句进行拆分,得到互联网数据语句;
通过tf-idf算法对每个所述互联网数据语句进行处理,得到每个所述互联网数据语句对应的互联网数据语句向量;
通过所有互联网数据语句向量生成所述互联网稿件的互联网稿件语句维度向量A={ai},其中,ai为所述互联网数据语句向量;i=1,2,3,……,m,m为所述互联网数据语句的数量;
将所述参考稿件按语句进行拆分,得到预设数据语句;
通过tf-idf算法对每个所述预设数据语句进行处理,得到每个所述预设数据语句对应的预设数据语句向量;
通过所有预设数据语句向量生成所述参考稿件的参考稿件语句维度向量B={bj},其中,bj为所述预设数据语句向量;j=1,2,3,……,n,n为所述预设数据语句的数量。
5.根据权利要求4所述的文字传播路径分析方法,其特征在于,所述计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离,具体包括:
通过SimHash算法得到所述互联网数据语句向量ai的第一签名向量ai'和所述预设数据语句向量bj的第二签名向量bj';
分别计算每个第一签名向量ai'与每个第二签名向量bj'的汉明距离d(ai',bj'),当d(ai',bj')<=3时,距离矩阵Sij中的元素sij=1,当d(ai',bj')>3时,所述距离矩阵Sij中的元素sij=0,将所述距离矩阵Sij作为所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离。
6.根据权利要求5所述的文字传播路径分析方法,其特征在于,所述通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句,具体包括:
判断所述距离矩阵Sij中是否存在如下序列Lijk,是则,所述互联网稿件与所述参考稿件有共有语句,否则,互联网稿件与所述参考稿件无共有语句;
其中,所述序列Lijk满足如下条件:所述序列Lijk中的每一个元素lijk对应的所述距离矩阵Sij的元素sij=1;针对所述序列Lijk中的元素li1j1k1和li2j2k2,若k1<k2,则i1<i2且j1<j2;所述序列Lijk的长度Length(L)满足
Figure FDA0003355623150000031
Figure FDA0003355623150000032
其中,length(A)表示所述互联网数据语句向量ai或所述第一签名向量ai'的长度,length(B)表示所述预设数据语句向量bj或所述第二签名向量bj'的长度,
Figure FDA0003355623150000041
7.根据权利要求6所述的一种文字传播路径分析方法,其特征在于,通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类,具体包括:
当所述序列Lijk的长度Length(L)满足Length(L)=length(A)=length(B)时,所述互联网稿件与所述参考稿件完全一致;
当所述序列Lijk的长度Length(L)满足
Figure FDA0003355623150000042
且Length(L)=length(B)时,所述互联网稿件与所述参考稿件为完全采用关系;
当所述序列Lijk的长度Length(L)满足
Figure FDA0003355623150000043
且Length(L)=length(A)时,所述互联网稿件与所述参考稿件为完全采用关系;
当所述序列Lijk的长度Length(L)满足
Figure FDA0003355623150000044
Figure FDA0003355623150000045
所述互联网稿件与所述参考稿件为部分采用关系。
8.一种文字传播路径分析系统,该分析系统基于内存计算的开源分布式计算框架,其特征在于,包括:服务器,用于实现如权利要求1-7中任一所述的文字传播路径分析方法。
CN201810435632.9A 2018-05-04 2018-05-04 一种文字传播路径分析方法及系统 Active CN108595439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810435632.9A CN108595439B (zh) 2018-05-04 2018-05-04 一种文字传播路径分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810435632.9A CN108595439B (zh) 2018-05-04 2018-05-04 一种文字传播路径分析方法及系统

Publications (2)

Publication Number Publication Date
CN108595439A CN108595439A (zh) 2018-09-28
CN108595439B true CN108595439B (zh) 2022-04-12

Family

ID=63635999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810435632.9A Active CN108595439B (zh) 2018-05-04 2018-05-04 一种文字传播路径分析方法及系统

Country Status (1)

Country Link
CN (1) CN108595439B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270183B (zh) * 2020-10-21 2024-03-19 北京钛氪新媒体科技有限公司 一种基于文本的新闻传播效果监测系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751423A (zh) * 2008-12-08 2010-06-23 北大方正集团有限公司 一种稿件查重的方法及系统
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN105095162A (zh) * 2014-05-19 2015-11-25 腾讯科技(深圳)有限公司 文本相似度确定方法、装置、电子设备及系统
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN106202055A (zh) * 2016-07-27 2016-12-07 湖南蚁坊软件有限公司 一种针对长文本的相似性判定方法
CN106708947A (zh) * 2016-11-25 2017-05-24 成都寻道科技有限公司 一种基于大数据的网络文章转发识别方法
CN107169011A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
CN107168997A (zh) * 2017-03-30 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创评估方法、装置及存储介质
CN107463605A (zh) * 2017-06-21 2017-12-12 北京百度网讯科技有限公司 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751423A (zh) * 2008-12-08 2010-06-23 北大方正集团有限公司 一种稿件查重的方法及系统
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN105095162A (zh) * 2014-05-19 2015-11-25 腾讯科技(深圳)有限公司 文本相似度确定方法、装置、电子设备及系统
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN106202055A (zh) * 2016-07-27 2016-12-07 湖南蚁坊软件有限公司 一种针对长文本的相似性判定方法
CN106708947A (zh) * 2016-11-25 2017-05-24 成都寻道科技有限公司 一种基于大数据的网络文章转发识别方法
CN107168997A (zh) * 2017-03-30 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创评估方法、装置及存储介质
CN107169011A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
CN107463605A (zh) * 2017-06-21 2017-12-12 北京百度网讯科技有限公司 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于布尔模型的网页查重算法研究;连浩;《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》;20061015(第10期);第I139-110页 *
大规模Web主题并行分析算法研究与应用;吴新宇;《https://d.wanfangdata.com.cn/thesis/ChJUaGVzaXNOZXdTMjAyMTA1MTkSCFkyODUxOTU3GghxNG0xcG93ag%3D%3D》;20151231;第1页 *
结合汉明距离及语义的文本相似度量方法研究;鲍乾;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170415(第4期);第I138-602页 *

Also Published As

Publication number Publication date
CN108595439A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN110781684B (zh) 验证和校正用于文本分类的训练数据
CN107168954B (zh) 文本关键词生成方法及装置和电子设备及可读存储介质
US9805025B2 (en) Standard exact clause detection
KR101715118B1 (ko) 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
US20210026835A1 (en) System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders
CN111611807B (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
US9348901B2 (en) System and method for rule based classification of a text fragment
JP2009537901A (ja) 検索による注釈付与
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
US11520982B2 (en) Generating corpus for training and validating machine learning model for natural language processing
US20200073890A1 (en) Intelligent search platforms
WO2021043087A1 (zh) 文字布局方法、装置、电子设备及计算机可读存储介质
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
Avasthi et al. Processing large text corpus using N-gram language modeling and smoothing
Singh et al. Sentiment analysis using lexicon based approach
CN109241272B (zh) 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
WO2023033942A1 (en) Efficient index lookup using language-agnostic vectors and context vectors
CN108595439B (zh) 一种文字传播路径分析方法及系统
Tian et al. Chinese short text multi-classification based on word and part-of-speech tagging embedding
US20210342534A1 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
WO2022100071A1 (zh) 语音文本聚类方法和装置
CN111078886B (zh) 基于dmcnn的特殊事件提取系统
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
Keyan et al. Multi-document and multi-lingual summarization using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant