CN104679728A

CN104679728A - 一种文本相似度检测方法

Info

Publication number: CN104679728A
Application number: CN201510064979.3A
Authority: CN
Inventors: 陈瑛; 高万林; 季烜; 任延昭; 张港红
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2015-06-03
Anticipated expiration: 2035-02-06
Also published as: CN104679728B

Abstract

本发明公开了一种文本相似度检测方法，包含如下步骤：根据百度百科词条的分类标签构建类词典；输入需要对比的两篇中文文献，并分别对两篇中文文献进行预处理；将两篇所述中文文献中的词语进行过滤，去除重复词语，生成词项集，并将所述词项集中的词项分为专业词汇集和普通词汇集；将两篇所述中文文献的中的两个句子中的专业词汇对齐，并且将两个句子中的普通词汇对齐，并分别计算各个词汇相对于其对应性质的词汇的相似度；计算两篇所述中文文献中各个句子的相似度。本发明的方法很大程度上节省了人力资源，提高了计算机网络系统对中文的判别准确度和判别速度。

Description

一种文本相似度检测方法

技术领域

本发明涉及自然语言处理领域，更具体涉及一种文本相似度检测方法。

背景技术

随着计算机技术的飞速发展和互联网的快速普及，人类的信息交流变得越来越方便快捷，这为一些人的剽窃、抄袭等不道德的行为提供了很大的便利条件。特别地，在高校中，由于教师没有足够的时间和精力对论文式作业进行抄袭检查，同时又缺乏有效的抄袭自动检测工具，所以学生抄袭现象越来越严重。针对这一问题，本发明进行中文论文式作业(简称“中文论文”)的抄袭自动检测技术研究。

其实，论文抄袭检测是一个文档相似度检测问题，即检测两篇文档的相似度，如果相似度足够高，可以视之为抄袭。目前，针对论文抄袭的文档相似度计算和检测方法可以分为两大类：基于数字指纹的和基于词频统计的。前者适合全文抄袭即“一字不漏”的复制，计算量比较小；后者适合带有增删改等操作的复杂式抄袭，计算量比较大。目前，随着防抄袭软件的日益流行，为避免被识破，抄袭者往往合成多个论文，并在原文基础上进行一定程度的修改。针对这种现象，本发明重点研究基于词频统计的文档相似度计算方法，提高对复杂式抄袭的自动检测效果。

目前，大部分文档相似度计算技术都是针对英文展开，特别是著名的国际评测Semantic Textual Similarity(STS)。STS是专门针对英文文档相似度计算举办的一个评测，其极大地汇集了各种文档相似度计算技术，有效地推动了文档相似度计算的研究。相对英文，中文存在分词、资源相对比较缺乏等问题。首先，中文分词错误还直接影响后续的相似度计算效果。其次，由于缺乏像英文WordNet这样大规模的词典，基于词典的词相似计算在中文论文抄袭自动检测中往往应用不够广泛或实际效果不好，这导致目前的中文论文抄袭自动检测装置或方法不能很好地检测到哪些专业论文的抄袭现象，而高校论文往往具有很强的专业性、领域性。因此，需要开发针对专业论文的中文论文抄袭自动检测方法。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是提出一种文本相似度检测方法，能够根据不同的领域，采用不同策略对相似度进行自动检测和判断，同时节省人力资源，提高计算机网络系统对中文的判别准确度和判别速度。

(二)技术方案

为了解决上述技术问题，本发明提供了一种文本相似度检测方法，所述方法包括以下步骤：

S1、根据百度百科词条的分类标签构建类词典；

S2、输入需要对比的两篇中文文献，并分别对两篇中文文献进行预处理；

S3、将两篇所述中文文献中的词语进行过滤，去除重复词语，生成词项集，并将所述词项集中的词项分为专业词汇集和普通词汇集；

S4、将两篇所述中文文献的中的两个句子中的专业词汇对齐，并且将两个句子中的普通词汇对齐，并分别计算各个词汇相对于其对应性质的词汇的相似度；

S5、计算两篇所述中文文献中各个句子的相似度。

优选地，所述步骤S1中，采用迭代的方法提取每一个词条的所有的祖先节点以及权重，所述祖先节点为对应词条的上位词，对应的所述权重反应了所述词条与其祖先节点的语义关系：权重越大，对应的空间距离越小，语义越相近。

优选地，所述步骤S2中，对中文文献进行预处理具体包括：

将所述中文文献按标点符号进行分句；对所有的句子进行分词，同时去除其中的停用词、单字和标点符号。

优选地，将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤：

S31、如果词项是百度百科词条，并且所述词条的分类标签将其标注为通用词典的常用词，则所述词项为普通词汇，否则进行步骤S32；

S32、如果词项出现在美国宾州树库资源库中，结合所述词项在美国宾州树库资源库中的词性标签POS和如下规则判断其是否为普通词汇：若所述词项不出现在类词典中，则所属词项为普通词汇；若所述词项出现在类词典中，并且所述词项的前k个按照权重排序的祖先节点均不含中文文献所属领域的代表词汇，则该词项为普通词汇，否则为专业词汇，其中k＞1；

S33、由普通词汇构成普通词汇集，由专业词汇构成专业词汇集。

优选地，所述步骤S4中计算各个词汇相对于其对应性质的词汇的相似度具体包括：

对于所述普通词汇的相似度的计算：一个句子中的普通词汇，通过采用基于潜在语义分析LSA算法，分别计算其与另一句子中各个普通词汇的相似度，并选择得到的多个相似度值中的最大值作为所述普通词汇对应的相似度的值；

对于所述专业词汇的相似度的计算：一个句子中的专业词汇，通过采用基于类词典的词相似度计算方法，分别计算其与另一句子中各个专业词汇的相似度，并选择得到的多个相似度值中的最大值作为所述专业词汇对应的相似度的值。

优选地，所述基于类词典的词相似度计算中，对于每个词项，其在类词典中的祖先节点和权重构成一个向量，词项用向量来表示，词相似度计算转化成向量相似度计算。

优选地，所述步骤S5具体为：

对于两篇所述中文文献中的各个句子，分别计算其包含的各个词汇的相似度的平均值，作为对应句子的相似度。

优选地，所述方法还包括以下步骤：

S7、把句子相似度的计算结果传递给计算机客户端，并进行可视化展示。

(三)有益效果

本发明提供了一种文本相似度检测方法，本发明提供的方法根据词汇类型(专业词汇和普通词汇)采用不同策略对词相似度进行自动检测和判断，很大程度上节省了人力资源，提高了计算机网络系统对中文的判别准确度和判别速度；本发明的方法不仅可以应用于中文论文查重，也可以用于其它的中文专利文献和非专利文献的自动检测。

附图说明

图1为本发明的一种文本相似度检测方法流程图；

图2为本发明的一个较佳实施例的一种文本相似度检测方法流程图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种文本相似度检测方法流程图；所述方法包括以下步骤：

S1、根据百度百科词条的分类标签构建类词典；

S5、计算两篇所述中文文献中各个句子的相似度。

所述步骤S1中，采用迭代的方法提取每一个词条的所有的祖先节点以及权重，所述祖先节点为对应词条的上位词，对应的所述权重反应了所述词条与其祖先节点在真实本体中的相对关系(即对应的所述权重反应了所述词条与其祖先节点的语义关系)：权重越大，对应的空间距离越小，语义越接近。

所述步骤S2中，对中文文献进行预处理具体包括：将所述中文文献按标点符号进行分句；对所有的句子进行分词，同时去除其中的停用词、单字和标点符号。

将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤：

S31、如果词项是百度百科词条，并且所述词条的分类标签将其标注为通用词典的常用词(例如，“词语”、“词汇”、“词典”、“汉语”等)，，则所述词项为普通词汇，否则进行步骤S32；

S32、如果词项出现在美国宾州树库资源库中，结合所述词项在美国宾州树库资源库中的词性标签POS和如下规则判断其是否为普通词汇：若所述词项不出现在类词典中，则所属词项为普通词汇；若所述词项出现在类词典中，并且所述词项的前k个按照权重排序的祖先节点均不含中文文献所属领域的代表词汇，则该词项为普通词汇，否则为专业词汇，其中k＞1；其中，领域代表词汇人工给定，例如，针对经济类论文，领域代表词汇为“经济”、“金融”、以及“管理”；

所述步骤S4中计算各个词汇相对于其对应性质的词汇的相似度具体包括：对于所述普通词汇的相似度的计算：一个句子中的普通词汇，通过采用基于潜在语义分析LSA算法，分别计算其与另一句子中各个普通词汇的相似度，并选择得到的多个相似度值中的最大值作为所述普通词汇对应的相似度的值；对于所述专业词汇的相似度的计算：一个句子中的专业词汇，通过采用基于类词典的词相似度计算方法，分别计算其与另一句子中各个专业词汇的相似度，并选择得到的多个相似度值中的最大值作为所述专业词汇对应的相似度的值。

所述基于类词典的词相似度计算中，对于每个词项，其在类词典中的祖先节点和权重构成一个向量，词项用向量来表示，词相似度计算转化成向量相似度计算。

所述步骤S5具体为：对于两篇所述中文文献中的各个句子，分别计算其包含的各个词汇的相似度的平均值，作为对应句子的相似度。

所述方法还包括以下步骤：S7、把句子相似度的计算结果传递给计算机客户端，并进行可视化展示。

实施例：

步骤一、根据网络百科词条分类标签自动构建类词典；

由于网络百科词条的分类标签往往给出了该词条的上位节点，所以根据词条的分类标签信息，采用迭代式方法可以自动提取词项c的所有祖先节点。

在类词典中，每个词项c都有一组<祖先节点p_j,权重w_j>。每个祖先节点p_j是词项c在真实本体中的上位词，其相应的权重w_j反映了祖先节点p_j和词项c在真实本体中的相对关系(即相对的空间距离)。并且，权重w_j越大，空间距离越小(即，祖先节点p_j在真实本体中越靠近词项c)，反之亦然。

下面给出类词典自动构建方法，其中，参数K是控制迭代的次数，λ是控制在迭代过程中所提取出的祖先节点的权重的衰减速度：

输入：给定词项c；可追溯的最远的祖先节点距离K；权重衰减系数λ；

输出：祖先节点权重表hypernym2WeightTable；

程序方法：

步骤1.初始化

i初始化为0；/*i代表从给定词项c开始，沿着网络百科的本体往上追溯的层数*/

currentWordList初始化为空；/*存储第i层的词项*/

currentParentList初始化为空；/*存储currentWordList中词项的父节点*/

hypernym2WeightTable初始化为空；

把c加入到currentWordList；

步骤2.迭代式提取祖先节点并进行相应的权重学习

while i<K/*从给定词项c开始，沿着网络百科本体往上追溯，最多追溯到K层祖先节点*/

currentParentList清空；

i++；

对于currentWordList中的每个词项，提取其分类标签，加入到currentParentList中；

对于每个分类标签，按照公式(1)更新hypernym2WeightTable中该分类标签的权重。其中，公式右边的w是该分类标签在hypernym2WeightTable中的原来的权重

w = w + \frac{1}{i^{λ}} - - - (1)

步骤二：在服务器上建立中文数据库，搭建服务器与客户端之间的访问链接，该客户端可以是计算机或便携式终端设备。

步骤三：向计算机客户端输入需要检测比对的中文论文，对维基百科中的数据进行预处理。

对中文论文进行分句及预处理，将文章按标点符号进行分句，对所有的句子进行分词，同时去除其中的停用词，单字和标点符号。

步骤四：对中文论文词语进行分类，分为专业词汇和普通词汇。

专业词汇和普通词汇分离：其实，专业词汇和普通词汇的划分有时候是相对而言的。例如，“规划”在很多情况下是普通词汇，但是在经济领域，“规划”很可能是专业词汇。所以，本文采用如下方式判断给定词项c是否是普通词汇。

1)如果词项c是百度百科词条，并且该词条的分类标签包括“词语”、“词汇”、“词典”、“汉语”等词汇，则词项c视为普通词汇。这主要是因为分类标签是“词语”、“词汇”、“词典”、“汉语”的词项c往往是通用词典(例如，新华词典)中的常用词；

2)如果词项c在宾州树库中，并且根据POS可以判断其是普通名称词汇，那么：

2.1)如果词项c不出现在类词典中，则词项c定为普通词汇。这主要是因为百度百科中大部分词条是专有名词，特别是那些类词典中的词条；

2.2)如果词项c出现在类词典中，并且词项c的前k(优选的k＝10)个祖先节点(按照权重排序)都不含该论文所属领域的代表词汇，则词项c定为普通词汇。这些领域代表词汇人工给定，这样是描述该领域。例如，针对经济类论文，领域代表词汇为“经济”、“金融”、以及“管理”。这主要是针对有些专业词汇已经非常通俗化，成为普通词汇。

步骤五、对每句话的词语进行对齐。

根据词汇类型，进行词对齐。即，给定两个句子S1(S1＝c1-1,c1-2…c1-m)和S2(S2＝c2-1,c2-2…c2-n)，句子S1中的专业词汇和句子S2中的专业词汇对齐，句子S1中的普通词汇和句子S2中的普通词汇对齐，再进行混合型词语相似度计算。

步骤六、进行混合型词语相似度计算，具体包括：

普通词汇间的相似度计算采用基于LSA的词相似度计算方法，专业词汇间的相似度计算采用基于类词典的词相似度计算方法。

基于类词典的词相似度计算：对于每个词项c，其在类词典中的<祖先节点pj,权重wj>可以构成一个向量，所以词项c可以用向量来表示。词相似度计算就可以转化成向量相似度计算(本专利采用余弦值进行计算)。

例如，根据表1，“法国”与“德国”的相似度为0.6873，“法国”与“淮南”的相似度为0.0132，“德国”与“淮南”的相似度为0.0332，这说明本文的基于类词典的词相似度计算方法可以有效地从语义角度计算词之间的相似性。

句子S1中词c1-1的相似度为与S2中的所有词语所求的相似度的最大值。

步骤七、计算句子相似度，具体包括：

句子S1的相似度为各个词语c1-1,c1-2…c1-m相似度的平均值。

表1

法国	德国	淮南
			国家1.8566203	欧洲1.3713240	安徽1.2859490
欧洲1.8566203	国家1.2779490	行政区划1.1936620
			地理1.8566203	发达国家1.18566203	城市1.039625
旅游1.0	西欧1.0	豆腐之乡1.0
			图书0.2005740	政治0.5558981	煤炭之都1.0
政治0.1856620	图书0.5200231	图书0.426236
			书籍0.07925	地理0.5112361	书籍0.3651990
历史0.06325	世界0.2779491	合肥0.2182870

为了检测本发明公开的混合型相似度方法的有效性，本专利对计算机专业的作业、经济专业论文进行了测试。

首先，给出计算机专业的作业、经济专业的作业、以及经济专业的万方论文这三类文档在写作方式上的初步统计数据(见表2)。从表2，可以看出不同的文档来源、不同的作者专业在写作上存在一定的差别。首先，相对高校的论文式作业，万方论文数据库中的论文的句子更长(即平均字数更多)，这代表其写作更正式，也跟符合论文发表的要求。其次，经济专业的学生貌似更习惯采用长论文的写作方式(平均句数)，这可能也是文科跟理工科学生在写作上的一大区别。当然，对于经济专业的万方论文，由于论文发表往往有一定的页数限制，所以其篇幅不会过长。

表2

	平均句数(每篇文档)	平均字数(每个句子)
			计算机专业的作业	84.5	41.4
经济专业的作业	107.9	44.8
			经济专业的万方论文	92.2	56.2

其次，给出分别采用基于LSA的句子相似度计算和混合型句子相似度计算得到的句子相似度值的分布情况(见表3)。可以发现无论是何种相似度计算方法，～50％的相似度值都落在0.6～0.8中，～30％的相似度值都落在0.8～1.0中。

表3

	0～0.6	0.6～0.7	0.7～0.8	0.8～0.9	0.9～1.0
						基于LSA	14.9％	23.3％	30.8％	14.4％	16.6％
混合型	18.9％	25.3％	30.0％	10.9％	14.9％

最后，给出分别采用基于LSA的句子相似度计算和混合型句子相似度计算得到的论文抄袭检测效果(见表4)。对于每一种句子相似度计算方法，首先，选定一个相似度阈值(在本次实验中是0.8)，从论文抄袭检测系统输出的结果中取出相似度值大于给定阈值的所有对句子；其次，对这些对句子进行人工标注，判断每对句子中是否存在抄袭现象；最后，对所有的人工标注过的每对句子进行统计，得到该论文抄袭检测系统的准确率。

从表4，可以观察到：无论是计算机专业还是经济专业，相比基于LSA的句子相似度计算方法，混合型句子相似度计算方法在效果都有一定的提高。

表4

如图2所示，上述实施例的方法可总结为：搭建服务器与客户端的访问连接，之后两篇文献输入并进行预处理，之后自动构建类词库，可以实现构件号类词库，之后进行词语过滤并分类，之后判断词汇类型，并分为普通词汇和专业词汇，之后将两句话之间的词汇进行对齐，计算两句话的相似度，并将结果进行传递和可视化展示。

本发明提供的方法不仅可以应用于中文论文查重，也可以用于其它的中文专利文献和非专利文献的自动检测。此外，在文献相似度检测领域，需要明确如下概念：词语去重以后是词项，词项和词条意思相同，但词条是网络百科中用的，词项是本体中用的。

以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种文本相似度检测方法，其特征在于，所述方法包括以下步骤：

S1、根据百度百科词条的分类标签构建类词典；

S4、将两篇所述中文文献中的两个句子中的专业词汇对齐，并且将两个句子中的普通词汇对齐，并分别计算各个词汇相对于其对应性质的词汇的相似度；

S5、计算两篇所述中文文献中各个句子的相似度。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，采用迭代的方法提取每一个词条的所有的祖先节点以及权重，所述祖先节点为对应词条的上位词，对应的所述权重反应了所述词条与其祖先节点的语义关系：权重越大，对应的空间距离越小，语义越相近。

3.根据权利要求2所述的方法，其特征在于，所述步骤S2中，对中文文献进行预处理具体包括：

4.根据权利要求3所述的方法，其特征在于，将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤：

5.根据权利要求4所述的方法，其特征在于，所述步骤S4中计算各个词汇相对于其对应性质的词汇的相似度具体包括：

6.根据权利要求5所述的方法，其特征在于，所述基于类词典的词相似度计算中，对于每个词项，其在类词典中的祖先节点和权重构成一个向量，词项用向量来表示，词相似度计算转化成向量相似度计算。

7.根据权利要求6所述的方法，其特征在于，所述步骤S5具体为：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括以下步骤：

S6、把句子相似度的计算结果传递给计算机客户端，并进行可视化展示。