CN101980196A

CN101980196A - 文章比对方法与装置

Info

Publication number: CN101980196A
Application number: CN 201010523647
Authority: CN
Inventors: 高万林; 张树亮; 臧金玉; 卢帅州; 赵佳宁
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2010-10-25
Filing date: 2010-10-25
Publication date: 2011-02-23

Abstract

本发明公开了一种文章比对方法与装置。该方法包括：接收用户输入的关键字，用搜索引擎的原理在系统数据库中搜索得到相关联的文章，将所述相关联的文章实体化，形成文章集；接收用户输入的、作为比对对象的用户文章，基于相对熵和余弦定理，将所述用户文章与所述文章集中的每一篇文章进行相似度比对；根据相似度，确定比对结果。本发明根据关键词搜索相关文章，基于相对熵和余弦定理的原理，将自己的文章与搜索到的文章进行分析比对，有效的提高了比对速度、比对精度以及比对的准确度。

Description

文章比对方法与装置

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种文章比对方法与装置。

背景技术

目前使用的反剽窃系统主要有两种，一种是某网站的文章检测系统，包括了TMLC，SMLC，AMLC三套系统。TMLC为专门为研究生院等部门提供检测服务，仅限检测研究生毕业论文。可检测涉及抄袭与剽窃、伪造、篡改等学术不端文献。SMLC专门为社科期刊编辑部提供检测服务，仅限检测社科期刊稿件。可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端文献等问题。AMLC专门为科技期刊编辑部提供检测服务，仅限检测科技期刊稿件。可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端行为。

另外一种是某大学的ROST系统，目前已在全国20多所高校院系和100多家期刊社推广使用。可以自动将文档切割为多个50-200字(可自定义)的小文本，通过混合引擎与188亿个网页和490万篇文献进行匹配，标示出每个文本块与文献库中的文献的最大相似度。由此软件统计出相似度≥95％(基本原封不动拷贝)与相似度≥80％(拷贝后略作修改)的字数所占总字数比例。软件把这个比例作为相似程度参考衡量指标。ROST反剽窃系统与其他系统最大的不同之处在于覆盖了188亿个网页以及490万篇文章。

但是，上述技术存在如下缺陷：

1.前一种方法中各套系统只能检测本单位内部的文章，不能检索本单位之外的文章，相似度比对精度不够、比对信息显示不明确。而且没有对外的接口，外部人无缘此系统。

2.后一种方法作者已经停止更新，其缺点有数据维护困难，相似度比对进度不够、比对信息显示不明确。

综上可知，现有的文章比对系统存在缺陷有比对速度慢、比对精度低且准确度低、比对信息显示不明确、比对库不全面且相对维护困难、用户少且访问困难。

发明内容

本发明的目的在于提供一种章比对方法与装置，基于本发明，能够针对用户的需求，根据关键词搜索相关文章，再将自己的文章与搜索到的文章进行分析比对，以克服比对速度慢、比对精度低、准确度低等缺陷。

一方面，本发明一种文章比对方法，包括如下步骤：文章集获取步骤，接收用户输入的关键字，用搜索引擎的原理在系统数据库中搜索得到相关联的文章，将所述相关联的文章实体化，形成文章集；相似度比对步骤，接收用户输入的、作为比对对象的用户文章，基于相对熵和余弦定理，将所述用户文章与所述文章集中的每一篇文章进行相似度比对；结果获取步骤，根据相似度，确定比对结果。

上述文章比对方法，优选所述系统数据库通过如下方式创建：抓取步骤，抓取文章并存储；分类步骤，将存储的文章进行分类，类别包括期刊、学术论文、专利文献、会议论文、标准文献；分析步骤，按类别分析文章，确定文章的标题、作者、关键词、内容摘要；索引创建步骤，用所述标题、作者、关键词和内容摘要创建数据库索引。

上述文章比对方法，优选所述相似度比对步骤包括如下步骤：特征向量计算步骤，基于相对熵，计算所述文章集中，每一篇文章的特征向量；以及，计算所述用户文章的特征向量；夹角计算步骤，利用余弦定理的原理，计算所述文章集中的每一篇文章对应的特征向量与所述用户文章的特征向量之间的夹角；根据所述夹角，确定相似度。

上述文章比对方法，优选所述每一篇文章的特征向量以及用户文章的特征向量的计算是通过词频率-逆向文档频率的统计获取的。

另一方面，本发明一种文章比对装置，包括如下步骤：文章集获取模块、相似度比对模块和结果获取模块。文章集获取模块用于接收用户输入的关键字，用搜索引擎的原理在系统数据库中搜索得到相关联的文章，将所述相关联的文章实体化，形成文章集；相似度比对模块用于接收用户输入的、作为比对对象的用户文章，基于相对熵和余弦定理，将所述用户文章与所述文章集中的每一篇文章进行相似度比对；结果获取模块用于根据相似度，确定比对结果。

上述文章比对装置，优选所述文章集获取模块中的系统数据库通过如下方式创建：抓取文章并存储；将存储的文章进行分类，类别包括期刊、学术论文、专利文献、会议论文、标准文献；按类别分析文章，确定文章的标题、作者、关键词、内容摘要；用所述标题、作者、关键词和内容摘要创建数据库索引。

上述文章比对装置，优选所述相似度比对模块包括：特征向量计算单元，用于基于相对熵，计算所述文章集中，每一篇文章的特征向量；以及，计算所述用户文章的特征向量；夹角计算单元，用于利用余弦定理的原理，计算所述文章集中的每一篇文章对应的特征向量与所述用户文章的特征向量之间的夹角；相似度确定单元，用于根据所述夹角单元，确定相似度。

上述文章比对装置，优选所述特征向量计算单元中，每一篇文章的特征向量以及用户文章的特征向量的计算是通过词频率-逆向文档频率的统计获取的。

相对于现有技术而言，本发明根据关键词搜索相关文章，基于相对熵和余弦定理的原理，将自己的文章与搜索到的文章进行分析比对，有效的提高了比对速度、比对精度以及比对的准确度。

附图说明

图1为本发明文章比对方法实施例的步骤流程图；

图2为本发明实施提供的根据关键词查找索引库得出数据库中相关联的文章集，用比对对象(文章)与文章集比对，得到所有与比对对象相似的文章以及“比对信息”的示意图；

图3为本发明文章比对装置实施例的结构示意图；

图4为本发明文章比对装置实施例中，相似度比对模块的结构简图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，图1为本发明文章比对方法实施例的步骤流程图，包括如下步骤：

文章集获取步骤S110，接收用户输入的关键字，用搜索引擎的原理在系统数据库中搜索得到相关联的文章，将所述相关联的文章实体化，形成文章集；相似度比对步骤S120，接收用户输入的、作为比对对象的用户文章，基于相对熵和余弦定理，将所述用户文章与所述文章集中的每一篇文章进行相似度比对；结果获取步骤S130，根据相似度，确定比对结果。

以某文章的比对为例：

图2为本发明的实施提供了文章比对的流程示意图，如图2所示，本实施例的文章比对主要包括以下步骤：

一、比对系统数据库的构建：

通过多种渠道，如经济手段或与对方协商或网络爬虫，充实数据库，并对数据进行分类、分析，创建数据库索引。

1、网络爬虫：在对方允许的情况下通过httpclient网络爬虫抓取对方的文章。

2、数据分类：将存储设备中的数据进行分类，类别有期刊、学术论文、专利文献、会议论文、标准文献等。

3、数据分析：按类别分析的各种文章，分析出标题、作者、关键词、内容摘要、内容等。

4、创建数据库索引：用标题、作者、关键词和内容摘要做数据库索引，所用技术为搜索引擎Lucene的索引库创建功能。

二、文章比对

1、用户输入关键字，用搜索引擎的原理搜索得到相关联的文章，将文章实体化作为文章集。具体涉及的技术是Lucene。

Lucene是某软件基金会某项目组的一个子项目，是一个开放源代码的全文检索引擎工Lucene具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。作为一个开放源代码项目，Lucene从问世之后，引发了开放源代码社群的巨大反响，程序员们不仅使用它构建具体的全文检索应用，而且将之集成到各种系统软件中去，以及构建Web应用，甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。某软件基金会的网站使用了Lucene作为全文检索的引擎，某公司的开源软件eclipse[9]的2.1版本中也采用了Lucene作为帮助子系统的全文索引引擎，相应的该公司的商业软件Web Sphere[10]中也采用了Lucene。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。Lucene是一个高性能、可伸缩的信息搜索(IR)库。它使你可以为你的应用程序添加索引和搜索能力。Lucene是用java实现的成熟的、免费的开源项目，并且基于在某软件许可[ASF，License]。同样，Lucene是当前与近几年内非常流行的免费的Java信息搜索(IR)库。

2、用户上传自己的文章作为比对对象，与形成的文章集进行相似度比对，具体比对用到了“相对熵”和余弦定理俩个概念；

相对熵：用来衡量两个正函数是否相似，对于两个完全相同的函数，它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词(在语法上和语义上)是否同义，或者两篇文章的内容是否相近，这是信息熵在本系统中的主要应用。利用相对熵，可以到出信息检索中最重要的一个概念：词频率-逆向文档频率(TF/IDF)。如：

短语“原子能的应用”可以分成三个关键词：原子能、的、应用。根据直觉和经验，包含这三个词多的文献应该比包含它们少的文献相关。当然，这个办法有一个明显的漏洞，就是长的文献比短的文献占便宜，因为长的文献总的来讲包含的关键词要多些。因此需要根据文献的长度，对关键词的次数进行归一化，也就是用关键词的次数除以文献的总字数。我们把这个商称为“关键词的频率”，比如，在某个一共有一千词的文献中“原子能”、“的”和“应用”分别出现了2次、35次和5次，那么它们的词频就分别是0.002、0.035和0.005。我们将这三个数相加，其和0.042就是相应文献和查询“原子能的应用”相关性的一个简单的度量。概括地讲，如果一个查询包含关键词w1，w2，...wN，它们在一篇特定文献中的词频分别是：TF1，TF2...TFN。那么，这个查询和该文献的相关性就是：TF1+TF2+...+TFN。这样算有一个漏洞。在上面的例子中，词“的”占了总词频的80％以上，而它对确定文献的主题几乎没有用。我们称这种词叫“应删除词”(Stopwords)，也就是说在度量相关性是不应考虑它们的频率。在汉语中，应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后，上述文献的相似度就变成了0.007，其中“原子能”贡献了0.002，“应用”贡献了0.005。

还有另一个小的漏洞。在汉语中，“应用”是个很通用的词，而“原子能”是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件：

1.一个词预测主题能力越强，权重就越大，反之，权重就越小。我们在文献中看到“原子能”这个词，或多或少地能了解文献的主题。我们看到“应用”一次，对主题基本上还是一无所知。因此，“原子能“的权重就应该比应用大。

2.应删除词的权重应该是零。很容易发现，如果一个关键词只在很少的文献中出现，我们通过它就容易锁定搜索目标，它的权重也就应该大。反之如果一个词在大量文献中出现，我们看到它仍然不很清楚要找什么内容，因此它应该小。概括地讲，假定一个关键词w在Dw个网页中出现过，那么Dw越大，w的权重越小，反之亦然。在信息检索中，使用最多的权重是“逆文本频率指数”(Inverse document frequency缩写为IDF)，它的公式为log(D/Dw)其中D是全部文献数。比如，我们假定中文文献数是D＝10亿，应删除词“的”在所有的文献中都出现，即Dw＝10亿，那么它的IDF＝log(10亿/10亿)＝log(1)＝0。假如专用词“原子能”在两百万个文献中出现，即Dw＝200万，则它的权重IDF＝log(500)＝6.2。又假定通用词“应用”，出现在五亿个文献中，它的权重IDF＝log(2)则只有0.7。也就只说，在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用IDF，上述相关性计算个公式就由词频的简单求和变成了加权求和，即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。在上面的例子中，该网页和“原子能的应用”的相关性为0.0161，其中“原子能”贡献了0.0126，而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。

余弦定理在文章比对上的应用：

计算机其实读不懂文章，它只能快速计算。这就要求我们设计一个算法来算出任意两篇文章的相似性。为了做到这一点，需要想办法用一组数字来描述一篇文章。对于一篇文章中的所有实词，我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。和文章有关的那些实词频率高，TF/IDF值很大。按照这些实词在词汇表的位置对它们的TF/IDF值排序。比如，词汇表有六万四千个词，分别为

单词编号汉字词

------------------

1阿

2啊

3阿斗

4阿姨

...

789服装

...

64000做作

在一篇文章中，这64,000个词的TF/IDF值分别为

单词编号TF/IDF值

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

1 0

2 0.0034

3 0

4 0.00052

5 0

...

789 0.034

...

64000 0.075

如果单词表中的某个词在文章中没有出现，对应的值为零，那么这64,000个数，组成一个64,000维的向量。我们就用这个向量来代表这篇文章，并成为文章的特征向量。如果两篇文章的特征向量相近，则对应的文章内容相似，可以得到比对信息。

向量实际上是多维空间中有方向的线段。如果两个向量的方向一致，即夹角接近零，那么这两个向量就相近。而要确定两个向量方向是否一致，这就要用到余弦定理计算向量的夹角了。余弦定理描述了三角形中任何一个夹角和三个边的关系，换句话说，给定三角形的三条边，可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为a，b和c，对应的三个角为A，B和C，那么角A的余弦--

\cos A = \frac{b^{2} + c^{2} - a^{2}}{2 bc}

如果将三角形的两边b和c看成是两个向量，那么上述公式等价于

\cos A = \frac{< b, c >}{| b | | c |}

其中分母表示两个向量b和c的长度，分子表示两个向量的内积。举一个具体的例子，假如文章X和文章Y对应向量分别是x1，x2，...x64000和y1，y2，...，y64000，那么它们夹角的余弦等于，

\cos θ = \frac{x_{1} y_{1} + x_{2} y_{2} + . . . + x_{64000} y_{64000}}{\sqrt{{x^{2}}_{1} + {x^{2}}_{2} + . . . + {x^{2}}_{64000}} + \sqrt{{y^{2}}_{1} + {y^{2}}_{2} + . . . + {y^{2}}_{64000}}}

当两条文章向量夹角的余弦等于一时，这两篇文章完全重复；当夹角的余弦接近于一时，两篇文章相似，可以得出比对信息；夹角的余弦越小，两篇文章越不相关。

比对系统的大体流程是：首先将数据库中的文章分类做好索引，然后用用户给定的关键词找出相关联的文章，将文章实体化为文章集，并计算出每一篇文章的TF/IDF值。按照文章、章节，然后是句子逐层比较，首先计算出比对对象的TF/IDF值，然后计算出章节的TF/IDF，与文章集中的每一篇进行比对，最后计算出句子的TF/IDF，应用的余弦定理，比对并显示出比对对象与文章集中每一篇文章的比对信息。

另一方面，本发明还公开了一种文章比对装置。参照图3，该装置包括：

文章集获取模块30，用于接收用户输入的关键字，用搜索引擎的原理在系统数据库中搜索得到相关联的文章，将所述相关联的文章实体化，形成文章集；相似度比对模块32，用于接收用户输入的、作为比对对象的用户文章，基于相对熵和余弦定理，将所述用户文章与所述文章集中的每一篇文章进行相似度比对；结果获取模块34，用于根据相似度，确定比对结果。

其中，文章集获取模块30中的系统数据库通过如下方式创建：抓取文章并存储；将存储的文章进行分类，类别包括期刊、学术论文、专利文献、会议论文、标准文献；按类别分析文章，确定文章的标题、作者、关键词、内容摘要；用所述标题、作者、关键词和内容摘要创建数据库索引。

在一个实施例中，参照图4，所述相似度比对模块32包括：特征向量计算单元321，用于基于相对熵，计算所述文章集中，每一篇文章的特征向量；以及，计算所述用户文章的特征向量；夹角计算单元322，用于利用余弦定理的原理，计算所述文章集中的每一篇文章对应的特征向量与所述用户文章的特征向量之间的夹角；相似度确定单元323，用于根据所述夹角单元，确定相似度。其中，特征向量计算单元321中，每一篇文章的特征向量以及用户文章的特征向量的计算是通过词频率-逆向文档频率的统计获取的。

以上对本发明文章比对方法与装置做了说明。其中，文章比对装置的原理与文章比对方法原理相同，相关之处相互参照即可，在此不再赘述。

以上对本发明所提供的一种文章比对方法与装置进行详细介绍，本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文章比对方法，其特征在于，包括如下步骤：

文章集获取步骤，接收用户输入的关键字，用搜索引擎的原理在系统数据库中搜索得到相关联的文章，将所述相关联的文章实体化，形成文章集；

相似度比对步骤，接收用户输入的、作为比对对象的用户文章，基于相对熵和余弦定理，将所述用户文章与所述文章集中的每一篇文章进行相似度比对；

结果获取步骤，根据相似度，确定比对结果。

2.根据权利要求1所述的文章比对方法，其特征在于，所述系统数据库通过如下方式创建：

抓取步骤，抓取文章并存储；

分类步骤，将存储的文章进行分类，类别包括期刊、学术论文、专利文献、会议论文、标准文献；

分析步骤，按类别分析文章，确定文章的标题、作者、关键词、内容摘要；

索引创建步骤，用所述标题、作者、关键词和内容摘要创建数据库索引。

3.根据权利要求2所述的文章比对方法，其特征在于，所述相似度比对步骤包括如下步骤：

特征向量计算步骤，基于相对熵，计算所述文章集中，每一篇文章的特征向量；以及，计算所述用户文章的特征向量；

夹角计算步骤，利用余弦定理的原理，计算所述文章集中的每一篇文章对应的特征向量与所述用户文章的特征向量之间的夹角；

根据所述夹角，确定相似度。

4.根据权利要求3所述的文章比对方法，其特征在于，所述每一篇文章的特征向量以及用户文章的特征向量的计算是通过词频率-逆向文档频率的统计获取的。

5.一种文章比对装置，其特征在于，包括如下步骤：

文章集获取模块，用于接收用户输入的关键字，用搜索引擎的原理在系统数据库中搜索得到相关联的文章，将所述相关联的文章实体化，形成文章集；

相似度比对模块，用于接收用户输入的、作为比对对象的用户文章，基于相对熵和余弦定理，将所述用户文章与所述文章集中的每一篇文章进行相似度比对；

结果获取模块，用于根据相似度，确定比对结果。

6.根据权利要求5所述的文章比对装置，其特征在于，所述文章集获取模块中的系统数据库通过如下方式创建：

抓取文章并存储；将存储的文章进行分类，类别包括期刊、学术论文、专利文献、会议论文、标准文献；按类别分析文章，确定文章的标题、作者、关键词、内容摘要；用所述标题、作者、关键词和内容摘要创建数据库索引。

7.根据权利要求6所述的文章比对装置，其特征在于，所述相似度比对模块包括：

特征向量计算单元，用于基于相对熵，计算所述文章集中，每一篇文章的特征向量；以及，计算所述用户文章的特征向量；

夹角计算单元，用于利用余弦定理的原理，计算所述文章集中的每一篇文章对应的特征向量与所述用户文章的特征向量之间的夹角；

相似度确定单元，用于根据所述夹角单元，确定相似度。

8.根据权利要求7所述的文章比对装置，其特征在于，所述特征向量计算单元中，每一篇文章的特征向量以及用户文章的特征向量的计算是通过词频率-逆向文档频率的统计获取的。