CN104679728A - 一种文本相似度检测方法 - Google Patents

一种文本相似度检测方法 Download PDF

Info

Publication number
CN104679728A
CN104679728A CN201510064979.3A CN201510064979A CN104679728A CN 104679728 A CN104679728 A CN 104679728A CN 201510064979 A CN201510064979 A CN 201510064979A CN 104679728 A CN104679728 A CN 104679728A
Authority
CN
China
Prior art keywords
similarity
word
lexical item
vocabulary
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510064979.3A
Other languages
English (en)
Other versions
CN104679728B (zh
Inventor
陈瑛
高万林
季烜
任延昭
张港红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN201510064979.3A priority Critical patent/CN104679728B/zh
Publication of CN104679728A publication Critical patent/CN104679728A/zh
Application granted granted Critical
Publication of CN104679728B publication Critical patent/CN104679728B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种文本相似度检测方法,包含如下步骤:根据百度百科词条的分类标签构建类词典;输入需要对比的两篇中文文献,并分别对两篇中文文献进行预处理;将两篇所述中文文献中的词语进行过滤,去除重复词语,生成词项集,并将所述词项集中的词项分为专业词汇集和普通词汇集;将两篇所述中文文献的中的两个句子中的专业词汇对齐,并且将两个句子中的普通词汇对齐,并分别计算各个词汇相对于其对应性质的词汇的相似度;计算两篇所述中文文献中各个句子的相似度。本发明的方法很大程度上节省了人力资源,提高了计算机网络系统对中文的判别准确度和判别速度。

Description

一种文本相似度检测方法
技术领域
本发明涉及自然语言处理领域,更具体涉及一种文本相似度检测方法。
背景技术
随着计算机技术的飞速发展和互联网的快速普及,人类的信息交流变得越来越方便快捷,这为一些人的剽窃、抄袭等不道德的行为提供了很大的便利条件。特别地,在高校中,由于教师没有足够的时间和精力对论文式作业进行抄袭检查,同时又缺乏有效的抄袭自动检测工具,所以学生抄袭现象越来越严重。针对这一问题,本发明进行中文论文式作业(简称“中文论文”)的抄袭自动检测技术研究。
其实,论文抄袭检测是一个文档相似度检测问题,即检测两篇文档的相似度,如果相似度足够高,可以视之为抄袭。目前,针对论文抄袭的文档相似度计算和检测方法可以分为两大类:基于数字指纹的和基于词频统计的。前者适合全文抄袭即“一字不漏”的复制,计算量比较小;后者适合带有增删改等操作的复杂式抄袭,计算量比较大。目前,随着防抄袭软件的日益流行,为避免被识破,抄袭者往往合成多个论文,并在原文基础上进行一定程度的修改。针对这种现象,本发明重点研究基于词频统计的文档相似度计算方法,提高对复杂式抄袭的自动检测效果。
目前,大部分文档相似度计算技术都是针对英文展开,特别是著名的国际评测Semantic Textual Similarity(STS)。STS是专门针对英文文档相似度计算举办的一个评测,其极大地汇集了各种文档相似度计算技术,有效地推动了文档相似度计算的研究。相对英文,中文存在分词、资源相对比较缺乏等问题。首先,中文分词错误还直接影响后续的相似度计算效果。其次,由于缺乏像英文WordNet这样大规模的词典,基于词典的词相似计算在中文论文抄袭自动检测中往往应用不够广泛或实际效果不好,这导致目前的中文论文抄袭自动检测装置或方法不能很好地检测到哪些专业论文的抄袭现象,而高校论文往往具有很强的专业性、领域性。因此,需要开发针对专业论文的中文论文抄袭自动检测方法。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是提出一种文本相似度检测方法,能够根据不同的领域,采用不同策略对相似度进行自动检测和判断,同时节省人力资源,提高计算机网络系统对中文的判别准确度和判别速度。
(二)技术方案
为了解决上述技术问题,本发明提供了一种文本相似度检测方法,所述方法包括以下步骤:
S1、根据百度百科词条的分类标签构建类词典;
S2、输入需要对比的两篇中文文献,并分别对两篇中文文献进行预处理;
S3、将两篇所述中文文献中的词语进行过滤,去除重复词语,生成词项集,并将所述词项集中的词项分为专业词汇集和普通词汇集;
S4、将两篇所述中文文献的中的两个句子中的专业词汇对齐,并且将两个句子中的普通词汇对齐,并分别计算各个词汇相对于其对应性质的词汇的相似度;
S5、计算两篇所述中文文献中各个句子的相似度。
优选地,所述步骤S1中,采用迭代的方法提取每一个词条的所有的祖先节点以及权重,所述祖先节点为对应词条的上位词,对应的所述权重反应了所述词条与其祖先节点的语义关系:权重越大,对应的空间距离越小,语义越相近。
优选地,所述步骤S2中,对中文文献进行预处理具体包括:
将所述中文文献按标点符号进行分句;对所有的句子进行分词,同时去除其中的停用词、单字和标点符号。
优选地,将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤:
S31、如果词项是百度百科词条,并且所述词条的分类标签将其标注为通用词典的常用词,则所述词项为普通词汇,否则进行步骤S32;
S32、如果词项出现在美国宾州树库资源库中,结合所述词项在美国宾州树库资源库中的词性标签POS和如下规则判断其是否为普通词汇:若所述词项不出现在类词典中,则所属词项为普通词汇;若所述词项出现在类词典中,并且所述词项的前k个按照权重排序的祖先节点均不含中文文献所属领域的代表词汇,则该词项为普通词汇,否则为专业词汇,其中k>1;
S33、由普通词汇构成普通词汇集,由专业词汇构成专业词汇集。
优选地,所述步骤S4中计算各个词汇相对于其对应性质的词汇的相似度具体包括:
对于所述普通词汇的相似度的计算:一个句子中的普通词汇,通过采用基于潜在语义分析LSA算法,分别计算其与另一句子中各个普通词汇的相似度,并选择得到的多个相似度值中的最大值作为所述普通词汇对应的相似度的值;
对于所述专业词汇的相似度的计算:一个句子中的专业词汇,通过采用基于类词典的词相似度计算方法,分别计算其与另一句子中各个专业词汇的相似度,并选择得到的多个相似度值中的最大值作为所述专业词汇对应的相似度的值。
优选地,所述基于类词典的词相似度计算中,对于每个词项,其在类词典中的祖先节点和权重构成一个向量,词项用向量来表示,词相似度计算转化成向量相似度计算。
优选地,所述步骤S5具体为:
对于两篇所述中文文献中的各个句子,分别计算其包含的各个词汇的相似度的平均值,作为对应句子的相似度。
优选地,所述方法还包括以下步骤:
S7、把句子相似度的计算结果传递给计算机客户端,并进行可视化展示。
(三)有益效果
本发明提供了一种文本相似度检测方法,本发明提供的方法根据词汇类型(专业词汇和普通词汇)采用不同策略对词相似度进行自动检测和判断,很大程度上节省了人力资源,提高了计算机网络系统对中文的判别准确度和判别速度;本发明的方法不仅可以应用于中文论文查重,也可以用于其它的中文专利文献和非专利文献的自动检测。
附图说明
图1为本发明的一种文本相似度检测方法流程图;
图2为本发明的一个较佳实施例的一种文本相似度检测方法流程图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种文本相似度检测方法流程图;所述方法包括以下步骤:
S1、根据百度百科词条的分类标签构建类词典;
S2、输入需要对比的两篇中文文献,并分别对两篇中文文献进行预处理;
S3、将两篇所述中文文献中的词语进行过滤,去除重复词语,生成词项集,并将所述词项集中的词项分为专业词汇集和普通词汇集;
S4、将两篇所述中文文献的中的两个句子中的专业词汇对齐,并且将两个句子中的普通词汇对齐,并分别计算各个词汇相对于其对应性质的词汇的相似度;
S5、计算两篇所述中文文献中各个句子的相似度。
所述步骤S1中,采用迭代的方法提取每一个词条的所有的祖先节点以及权重,所述祖先节点为对应词条的上位词,对应的所述权重反应了所述词条与其祖先节点在真实本体中的相对关系(即对应的所述权重反应了所述词条与其祖先节点的语义关系):权重越大,对应的空间距离越小,语义越接近。
所述步骤S2中,对中文文献进行预处理具体包括:将所述中文文献按标点符号进行分句;对所有的句子进行分词,同时去除其中的停用词、单字和标点符号。
将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤:
S31、如果词项是百度百科词条,并且所述词条的分类标签将其标注为通用词典的常用词(例如,“词语”、“词汇”、“词典”、“汉语”等),,则所述词项为普通词汇,否则进行步骤S32;
S32、如果词项出现在美国宾州树库资源库中,结合所述词项在美国宾州树库资源库中的词性标签POS和如下规则判断其是否为普通词汇:若所述词项不出现在类词典中,则所属词项为普通词汇;若所述词项出现在类词典中,并且所述词项的前k个按照权重排序的祖先节点均不含中文文献所属领域的代表词汇,则该词项为普通词汇,否则为专业词汇,其中k>1;其中,领域代表词汇人工给定,例如,针对经济类论文,领域代表词汇为“经济”、“金融”、以及“管理”;
S33、由普通词汇构成普通词汇集,由专业词汇构成专业词汇集。
所述步骤S4中计算各个词汇相对于其对应性质的词汇的相似度具体包括:对于所述普通词汇的相似度的计算:一个句子中的普通词汇,通过采用基于潜在语义分析LSA算法,分别计算其与另一句子中各个普通词汇的相似度,并选择得到的多个相似度值中的最大值作为所述普通词汇对应的相似度的值;对于所述专业词汇的相似度的计算:一个句子中的专业词汇,通过采用基于类词典的词相似度计算方法,分别计算其与另一句子中各个专业词汇的相似度,并选择得到的多个相似度值中的最大值作为所述专业词汇对应的相似度的值。
所述基于类词典的词相似度计算中,对于每个词项,其在类词典中的祖先节点和权重构成一个向量,词项用向量来表示,词相似度计算转化成向量相似度计算。
所述步骤S5具体为:对于两篇所述中文文献中的各个句子,分别计算其包含的各个词汇的相似度的平均值,作为对应句子的相似度。
所述方法还包括以下步骤:S7、把句子相似度的计算结果传递给计算机客户端,并进行可视化展示。
实施例:
步骤一、根据网络百科词条分类标签自动构建类词典;
由于网络百科词条的分类标签往往给出了该词条的上位节点,所以根据词条的分类标签信息,采用迭代式方法可以自动提取词项c的所有祖先节点。
在类词典中,每个词项c都有一组<祖先节点pj,权重wj>。每个祖先节点pj是词项c在真实本体中的上位词,其相应的权重wj反映了祖先节点pj和词项c在真实本体中的相对关系(即相对的空间距离)。并且,权重wj越大,空间距离越小(即,祖先节点pj在真实本体中越靠近词项c),反之亦然。
下面给出类词典自动构建方法,其中,参数K是控制迭代的次数,λ是控制在迭代过程中所提取出的祖先节点的权重的衰减速度:
输入:给定词项c;可追溯的最远的祖先节点距离K;权重衰减系数λ;
输出:祖先节点权重表hypernym2WeightTable;
程序方法:
步骤1.初始化
i初始化为0;/*i代表从给定词项c开始,沿着网络百科的本体往上追溯的层数*/
currentWordList初始化为空;/*存储第i层的词项*/
currentParentList初始化为空;/*存储currentWordList中词项的父节点*/
hypernym2WeightTable初始化为空;
把c加入到currentWordList;
步骤2.迭代式提取祖先节点并进行相应的权重学习
while i<K/*从给定词项c开始,沿着网络百科本体往上追溯,最多追溯到K层祖先节点*/
currentParentList清空;
i++;
对于currentWordList中的每个词项,提取其分类标签,加入到currentParentList中;
对于每个分类标签,按照公式(1)更新hypernym2WeightTable中该分类标签的权重。其中,公式右边的w是该分类标签在hypernym2WeightTable中的原来的权重
w = w + 1 i &lambda; - - - ( 1 )
步骤二:在服务器上建立中文数据库,搭建服务器与客户端之间的访问链接,该客户端可以是计算机或便携式终端设备。
步骤三:向计算机客户端输入需要检测比对的中文论文,对维基百科中的数据进行预处理。
对中文论文进行分句及预处理,将文章按标点符号进行分句,对所有的句子进行分词,同时去除其中的停用词,单字和标点符号。
步骤四:对中文论文词语进行分类,分为专业词汇和普通词汇。
专业词汇和普通词汇分离:其实,专业词汇和普通词汇的划分有时候是相对而言的。例如,“规划”在很多情况下是普通词汇,但是在经济领域,“规划”很可能是专业词汇。所以,本文采用如下方式判断给定词项c是否是普通词汇。
1)如果词项c是百度百科词条,并且该词条的分类标签包括“词语”、“词汇”、“词典”、“汉语”等词汇,则词项c视为普通词汇。这主要是因为分类标签是“词语”、“词汇”、“词典”、“汉语”的词项c往往是通用词典(例如,新华词典)中的常用词;
2)如果词项c在宾州树库中,并且根据POS可以判断其是普通名称词汇,那么:
2.1)如果词项c不出现在类词典中,则词项c定为普通词汇。这主要是因为百度百科中大部分词条是专有名词,特别是那些类词典中的词条;
2.2)如果词项c出现在类词典中,并且词项c的前k(优选的k=10)个祖先节点(按照权重排序)都不含该论文所属领域的代表词汇,则词项c定为普通词汇。这些领域代表词汇人工给定,这样是描述该领域。例如,针对经济类论文,领域代表词汇为“经济”、“金融”、以及“管理”。这主要是针对有些专业词汇已经非常通俗化,成为普通词汇。
步骤五、对每句话的词语进行对齐。
根据词汇类型,进行词对齐。即,给定两个句子S1(S1=c1-1,c1-2…c1-m)和S2(S2=c2-1,c2-2…c2-n),句子S1中的专业词汇和句子S2中的专业词汇对齐,句子S1中的普通词汇和句子S2中的普通词汇对齐,再进行混合型词语相似度计算。
步骤六、进行混合型词语相似度计算,具体包括:
普通词汇间的相似度计算采用基于LSA的词相似度计算方法,专业词汇间的相似度计算采用基于类词典的词相似度计算方法。
基于类词典的词相似度计算:对于每个词项c,其在类词典中的<祖先节点pj,权重wj>可以构成一个向量,所以词项c可以用向量来表示。词相似度计算就可以转化成向量相似度计算(本专利采用余弦值进行计算)。
例如,根据表1,“法国”与“德国”的相似度为0.6873,“法国”与“淮南”的相似度为0.0132,“德国”与“淮南”的相似度为0.0332,这说明本文的基于类词典的词相似度计算方法可以有效地从语义角度计算词之间的相似性。
句子S1中词c1-1的相似度为与S2中的所有词语所求的相似度的最大值。
步骤七、计算句子相似度,具体包括:
句子S1的相似度为各个词语c1-1,c1-2…c1-m相似度的平均值。
表1
法国 德国 淮南
国家1.8566203 欧洲1.3713240 安徽1.2859490
欧洲1.8566203 国家1.2779490 行政区划1.1936620
地理1.8566203 发达国家1.18566203 城市1.039625
旅游1.0 西欧1.0 豆腐之乡1.0
图书0.2005740 政治0.5558981 煤炭之都1.0
政治0.1856620 图书0.5200231 图书0.426236
书籍0.07925 地理0.5112361 书籍0.3651990
历史0.06325 世界0.2779491 合肥0.2182870
为了检测本发明公开的混合型相似度方法的有效性,本专利对计算机专业的作业、经济专业论文进行了测试。
首先,给出计算机专业的作业、经济专业的作业、以及经济专业的万方论文这三类文档在写作方式上的初步统计数据(见表2)。从表2,可以看出不同的文档来源、不同的作者专业在写作上存在一定的差别。首先,相对高校的论文式作业,万方论文数据库中的论文的句子更长(即平均字数更多),这代表其写作更正式,也跟符合论文发表的要求。其次,经济专业的学生貌似更习惯采用长论文的写作方式(平均句数),这可能也是文科跟理工科学生在写作上的一大区别。当然,对于经济专业的万方论文,由于论文发表往往有一定的页数限制,所以其篇幅不会过长。
表2
平均句数(每篇文档) 平均字数(每个句子)
计算机专业的作业 84.5 41.4
经济专业的作业 107.9 44.8
经济专业的万方论文 92.2 56.2
其次,给出分别采用基于LSA的句子相似度计算和混合型句子相似度计算得到的句子相似度值的分布情况(见表3)。可以发现无论是何种相似度计算方法,~50%的相似度值都落在0.6~0.8中,~30%的相似度值都落在0.8~1.0中。
表3
0~0.6 0.6~0.7 0.7~0.8 0.8~0.9 0.9~1.0
基于LSA 14.9% 23.3% 30.8% 14.4% 16.6%
混合型 18.9% 25.3% 30.0% 10.9% 14.9%
最后,给出分别采用基于LSA的句子相似度计算和混合型句子相似度计算得到的论文抄袭检测效果(见表4)。对于每一种句子相似度计算方法,首先,选定一个相似度阈值(在本次实验中是0.8),从论文抄袭检测系统输出的结果中取出相似度值大于给定阈值的所有对句子;其次,对这些对句子进行人工标注,判断每对句子中是否存在抄袭现象;最后,对所有的人工标注过的每对句子进行统计,得到该论文抄袭检测系统的准确率。
从表4,可以观察到:无论是计算机专业还是经济专业,相比基于LSA的句子相似度计算方法,混合型句子相似度计算方法在效果都有一定的提高。
表4
如图2所示,上述实施例的方法可总结为:搭建服务器与客户端的访问连接,之后两篇文献输入并进行预处理,之后自动构建类词库,可以实现构件号类词库,之后进行词语过滤并分类,之后判断词汇类型,并分为普通词汇和专业词汇,之后将两句话之间的词汇进行对齐,计算两句话的相似度,并将结果进行传递和可视化展示。
本发明提供的方法不仅可以应用于中文论文查重,也可以用于其它的中文专利文献和非专利文献的自动检测。此外,在文献相似度检测领域,需要明确如下概念:词语去重以后是词项,词项和词条意思相同,但词条是网络百科中用的,词项是本体中用的。
以上实施方式仅用于说明本发明,而非对本发明的限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行各种组合、修改或者等同替换,都不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种文本相似度检测方法,其特征在于,所述方法包括以下步骤:
S1、根据百度百科词条的分类标签构建类词典;
S2、输入需要对比的两篇中文文献,并分别对两篇中文文献进行预处理;
S3、将两篇所述中文文献中的词语进行过滤,去除重复词语,生成词项集,并将所述词项集中的词项分为专业词汇集和普通词汇集;
S4、将两篇所述中文文献中的两个句子中的专业词汇对齐,并且将两个句子中的普通词汇对齐,并分别计算各个词汇相对于其对应性质的词汇的相似度;
S5、计算两篇所述中文文献中各个句子的相似度。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,采用迭代的方法提取每一个词条的所有的祖先节点以及权重,所述祖先节点为对应词条的上位词,对应的所述权重反应了所述词条与其祖先节点的语义关系:权重越大,对应的空间距离越小,语义越相近。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2中,对中文文献进行预处理具体包括:
将所述中文文献按标点符号进行分句;对所有的句子进行分词,同时去除其中的停用词、单字和标点符号。
4.根据权利要求3所述的方法,其特征在于,将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤:
S31、如果词项是百度百科词条,并且所述词条的分类标签将其标注为通用词典的常用词,则所述词项为普通词汇,否则进行步骤S32;
S32、如果词项出现在美国宾州树库资源库中,结合所述词项在美国宾州树库资源库中的词性标签POS和如下规则判断其是否为普通词汇:若所述词项不出现在类词典中,则所属词项为普通词汇;若所述词项出现在类词典中,并且所述词项的前k个按照权重排序的祖先节点均不含中文文献所属领域的代表词汇,则该词项为普通词汇,否则为专业词汇,其中k>1;
S33、由普通词汇构成普通词汇集,由专业词汇构成专业词汇集。
5.根据权利要求4所述的方法,其特征在于,所述步骤S4中计算各个词汇相对于其对应性质的词汇的相似度具体包括:
对于所述普通词汇的相似度的计算:一个句子中的普通词汇,通过采用基于潜在语义分析LSA算法,分别计算其与另一句子中各个普通词汇的相似度,并选择得到的多个相似度值中的最大值作为所述普通词汇对应的相似度的值;
对于所述专业词汇的相似度的计算:一个句子中的专业词汇,通过采用基于类词典的词相似度计算方法,分别计算其与另一句子中各个专业词汇的相似度,并选择得到的多个相似度值中的最大值作为所述专业词汇对应的相似度的值。
6.根据权利要求5所述的方法,其特征在于,所述基于类词典的词相似度计算中,对于每个词项,其在类词典中的祖先节点和权重构成一个向量,词项用向量来表示,词相似度计算转化成向量相似度计算。
7.根据权利要求6所述的方法,其特征在于,所述步骤S5具体为:
对于两篇所述中文文献中的各个句子,分别计算其包含的各个词汇的相似度的平均值,作为对应句子的相似度。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括以下步骤:
S6、把句子相似度的计算结果传递给计算机客户端,并进行可视化展示。
CN201510064979.3A 2015-02-06 2015-02-06 一种文本相似度检测方法 Expired - Fee Related CN104679728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510064979.3A CN104679728B (zh) 2015-02-06 2015-02-06 一种文本相似度检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510064979.3A CN104679728B (zh) 2015-02-06 2015-02-06 一种文本相似度检测方法

Publications (2)

Publication Number Publication Date
CN104679728A true CN104679728A (zh) 2015-06-03
CN104679728B CN104679728B (zh) 2018-08-31

Family

ID=53314792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510064979.3A Expired - Fee Related CN104679728B (zh) 2015-02-06 2015-02-06 一种文本相似度检测方法

Country Status (1)

Country Link
CN (1) CN104679728B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701206A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种基于采样的文献检测方法及系统
CN105893503A (zh) * 2016-03-30 2016-08-24 浙江传媒学院 一种内容无关的文本快速过滤方法
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106126497A (zh) * 2016-06-21 2016-11-16 同方知网数字出版技术股份有限公司 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
CN106547753A (zh) * 2015-09-16 2017-03-29 腾讯科技(深圳)有限公司 一种信息分析方法及电子设备
WO2017059797A1 (zh) * 2015-10-10 2017-04-13 阿里巴巴集团控股有限公司 地址的分析方法及装置
CN106776880A (zh) * 2016-11-22 2017-05-31 广东技术师范学院 一种基于图文识别的论文重查系统及其方法
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN106844314A (zh) * 2017-02-21 2017-06-13 北京焦点新干线信息技术有限公司 一种文章的查重方法及装置
CN106934010A (zh) * 2017-03-09 2017-07-07 深圳市华第时代科技有限公司 自动查重方法及装置
CN107038216A (zh) * 2017-03-09 2017-08-11 百度在线网络技术(北京)有限公司 论文查重方法、装置、设备及存储介质
CN108108596A (zh) * 2017-12-13 2018-06-01 上海掌门科技有限公司 一种用于生成文字作品的数字指纹的方法与设备
CN108170761A (zh) * 2017-12-23 2018-06-15 合肥弹刚信息科技有限公司 一种基于海量文献信息的可视化分析系统及其方法
CN108363767A (zh) * 2018-02-07 2018-08-03 深圳中兴网信科技有限公司 文件录入方法、装置、计算机设备和可读存储介质
CN108461111A (zh) * 2018-03-16 2018-08-28 重庆医科大学 中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质
CN108681574A (zh) * 2018-05-07 2018-10-19 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN109213972A (zh) * 2017-07-06 2019-01-15 阿里巴巴集团控股有限公司 确定文档相似度的方法、装置、设备和计算机存储介质
CN109409848A (zh) * 2018-11-28 2019-03-01 厦门市美亚柏科信息股份有限公司 开放式流程的节点智能推荐方法、终端设备及存储介质
CN109472019A (zh) * 2018-10-11 2019-03-15 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
WO2019056793A1 (zh) * 2017-09-25 2019-03-28 平安科技(深圳)有限公司 简历识别装置、方法及计算机可读存储介质
CN110019674A (zh) * 2017-11-21 2019-07-16 盛霆信息技术(上海)有限公司 一种文本抄袭检测方法及系统
CN110188180A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 相似问题的确定方法、装置、电子设备及可读存储介质
CN110321466A (zh) * 2019-06-14 2019-10-11 广发证券股份有限公司 一种基于语义分析的证券资讯查重方法及系统
CN111639496A (zh) * 2020-05-12 2020-09-08 中信银行股份有限公司 一种基于智能加权分词技术的文本相似度计算方法和系统
CN112016306A (zh) * 2020-08-28 2020-12-01 重庆邂智科技有限公司 基于词性对齐的文本相似度计算方法
CN112395866A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单数据匹配方法及装置
CN112699657A (zh) * 2020-12-30 2021-04-23 广东德诚大数据科技有限公司 一种异常文本的检测方法、装置、电子设备及存储介质
CN113254604A (zh) * 2021-07-15 2021-08-13 山东大学 一种基于参考规范的专业文本生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1529263A (zh) * 2003-09-18 2004-09-15 北京邮电大学 中文文本自动分词和判别文本抄袭的装置和方法
US20100145940A1 (en) * 2008-12-09 2010-06-10 International Business Machines Corporation Systems and methods for analyzing electronic text
CN102662987A (zh) * 2012-03-14 2012-09-12 华侨大学 一种基于百度百科的网络文本语义的分类方法
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1529263A (zh) * 2003-09-18 2004-09-15 北京邮电大学 中文文本自动分词和判别文本抄袭的装置和方法
US20100145940A1 (en) * 2008-12-09 2010-06-10 International Business Machines Corporation Systems and methods for analyzing electronic text
CN102662987A (zh) * 2012-03-14 2012-09-12 华侨大学 一种基于百度百科的网络文本语义的分类方法
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁智斌 等: "文本相似性在抄袭问题中的应用研究", 《华北科技学院学报》 *
黄承慧 等: "一种结合词项语义信息和TF-IDF方法的文本相似度量方法", 《计算机学报》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547753B (zh) * 2015-09-16 2021-12-10 腾讯科技(深圳)有限公司 一种信息分析方法及电子设备
CN106547753A (zh) * 2015-09-16 2017-03-29 腾讯科技(深圳)有限公司 一种信息分析方法及电子设备
CN106569994A (zh) * 2015-10-10 2017-04-19 阿里巴巴集团控股有限公司 地址的分析方法及装置
CN106569994B (zh) * 2015-10-10 2019-02-26 阿里巴巴集团控股有限公司 地址的分析方法及装置
US11113474B2 (en) 2015-10-10 2021-09-07 Advanced New Technologies Co., Ltd. Address analysis using morphemes
WO2017059797A1 (zh) * 2015-10-10 2017-04-13 阿里巴巴集团控股有限公司 地址的分析方法及装置
CN106815197B (zh) * 2015-11-27 2020-07-31 北京国双科技有限公司 文本相似度的确定方法和装置
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN105701206A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种基于采样的文献检测方法及系统
CN105701206B (zh) * 2016-01-13 2018-10-09 湖南通远网络科技有限公司 一种基于采样的文献检测方法及系统
CN105893503B (zh) * 2016-03-30 2019-05-14 浙江传媒学院 一种内容无关的文本快速过滤方法
CN105893503A (zh) * 2016-03-30 2016-08-24 浙江传媒学院 一种内容无关的文本快速过滤方法
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106126497A (zh) * 2016-06-21 2016-11-16 同方知网数字出版技术股份有限公司 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
CN106776880A (zh) * 2016-11-22 2017-05-31 广东技术师范学院 一种基于图文识别的论文重查系统及其方法
CN106844314B (zh) * 2017-02-21 2019-10-18 北京焦点新干线信息技术有限公司 一种文章的查重方法及装置
CN106844314A (zh) * 2017-02-21 2017-06-13 北京焦点新干线信息技术有限公司 一种文章的查重方法及装置
CN106934010A (zh) * 2017-03-09 2017-07-07 深圳市华第时代科技有限公司 自动查重方法及装置
CN107038216B (zh) * 2017-03-09 2021-10-26 百度在线网络技术(北京)有限公司 论文查重方法、装置、设备及存储介质
CN107038216A (zh) * 2017-03-09 2017-08-11 百度在线网络技术(北京)有限公司 论文查重方法、装置、设备及存储介质
CN109213972A (zh) * 2017-07-06 2019-01-15 阿里巴巴集团控股有限公司 确定文档相似度的方法、装置、设备和计算机存储介质
WO2019056793A1 (zh) * 2017-09-25 2019-03-28 平安科技(深圳)有限公司 简历识别装置、方法及计算机可读存储介质
CN110019674A (zh) * 2017-11-21 2019-07-16 盛霆信息技术(上海)有限公司 一种文本抄袭检测方法及系统
CN108108596A (zh) * 2017-12-13 2018-06-01 上海掌门科技有限公司 一种用于生成文字作品的数字指纹的方法与设备
CN108170761A (zh) * 2017-12-23 2018-06-15 合肥弹刚信息科技有限公司 一种基于海量文献信息的可视化分析系统及其方法
CN108363767A (zh) * 2018-02-07 2018-08-03 深圳中兴网信科技有限公司 文件录入方法、装置、计算机设备和可读存储介质
CN108461111A (zh) * 2018-03-16 2018-08-28 重庆医科大学 中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质
CN108681574A (zh) * 2018-05-07 2018-10-19 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN108681574B (zh) * 2018-05-07 2021-11-05 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN109472019A (zh) * 2018-10-11 2019-03-15 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
CN109472019B (zh) * 2018-10-11 2023-02-10 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
CN109409848A (zh) * 2018-11-28 2019-03-01 厦门市美亚柏科信息股份有限公司 开放式流程的节点智能推荐方法、终端设备及存储介质
CN110188180B (zh) * 2019-05-31 2021-06-01 腾讯科技(深圳)有限公司 相似问题的确定方法、装置、电子设备及可读存储介质
CN110188180A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 相似问题的确定方法、装置、电子设备及可读存储介质
CN110321466B (zh) * 2019-06-14 2023-09-15 广发证券股份有限公司 一种基于语义分析的证券资讯查重方法及系统
CN110321466A (zh) * 2019-06-14 2019-10-11 广发证券股份有限公司 一种基于语义分析的证券资讯查重方法及系统
CN111639496A (zh) * 2020-05-12 2020-09-08 中信银行股份有限公司 一种基于智能加权分词技术的文本相似度计算方法和系统
CN112016306A (zh) * 2020-08-28 2020-12-01 重庆邂智科技有限公司 基于词性对齐的文本相似度计算方法
CN112016306B (zh) * 2020-08-28 2023-10-20 重庆邂智科技有限公司 基于词性对齐的文本相似度计算方法
CN112395866A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单数据匹配方法及装置
CN112395866B (zh) * 2020-11-17 2024-02-02 中国外运股份有限公司 报关单数据匹配方法及装置
CN112699657A (zh) * 2020-12-30 2021-04-23 广东德诚大数据科技有限公司 一种异常文本的检测方法、装置、电子设备及存储介质
CN113254604B (zh) * 2021-07-15 2021-10-01 山东大学 一种基于参考规范的专业文本生成方法及装置
CN113254604A (zh) * 2021-07-15 2021-08-13 山东大学 一种基于参考规范的专业文本生成方法及装置

Also Published As

Publication number Publication date
CN104679728B (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN104679728A (zh) 一种文本相似度检测方法
Wissler et al. The Gold Standard in Corpus Annotation.
CN105279252A (zh) 挖掘相关词的方法、搜索方法、搜索系统
Rahab et al. Siaac: Sentiment polarity identification on arabic algerian newspaper comments
Das et al. Part of speech tagging in odia using support vector machine
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN106445906A (zh) 领域词典中中长词词组的生成方法及装置
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
CN103593431A (zh) 网络舆情分析方法和装置
Chowdhury et al. Unsupervised abstractive summarization of bengali text documents
Kettunen et al. Names, right or wrong: Named entities in an OCRed historical Finnish newspaper collection
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
CN106355455A (zh) 一种从网购用户评论中抽取产品特征信息的方法
Litvinova et al. Authorship attribution of Russian forum posts with different types of n-gram features
Silva et al. Towards automatic building of document keywords
Sultan et al. Towards automatic identification of core concepts in educational resources
Giannakopoulos et al. N-gram Graphs: Representing Documents and Document Sets in Summary System Evaluation.
Ye et al. Summarizing product aspects from massive online review with word representation
Tian et al. Research of product ranking technology based on opinion mining
Ishisaka et al. Detecting nasty comments from BBS posts
Zhang et al. Extracting Product Features and Sentiments from Chinese Customer Reviews.
Gupta et al. Automatic quiz generator
Bhagavatula et al. Language independent named entity identification using Wikipedia
Agirrezabal KU-CST at the Profiling Fake News spreaders Shared Task.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180831

Termination date: 20220206

CF01 Termination of patent right due to non-payment of annual fee