CN101369279A

CN101369279A - 一种基于计算机检索系统的学术论文相似度的检测方法

Info

Publication number: CN101369279A
Application number: CNA2008101560518A
Authority: CN
Inventors: 王秀红; 鞠时光
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2008-09-19
Filing date: 2008-09-19
Publication date: 2009-02-18

Abstract

本发明涉及一种基于计算机检索系统的学术论文相似度检测方法，目的在于利用学术论文的结构和语言特征，提供具有针对性的检索模型和相似度算法，从而提高论文送审时专家审稿的速度和效率。实现上述发明目的的技术方案是：一种基于计算机检索系统的学术论文复制检测方法，其步骤包括：在服务器上建立学术论文源数据库的步骤；在服务器上建立一个用于储存被检测学术论文的学术论文数据的储存空间的步骤；在服务器上建立用于供用户输入包括检索条件的交互窗口步骤；提交被检学术论文步骤：根据设定的检索条件，建立被检学术论文数据并储存；将被检学术论文数据与源数据库中的数据进行比较的步骤；服务器将比较结果数据提交给用户的步骤。

Description

一种基于计算机检索系统的学术论文相似度的检测方法

技术领域

本发明涉及计算机信息检索领域，具体涉及计算机互联网络上的知识产权保护，通过计算机检索系统检测学术论文的相似度，防止学术论文剽窃的方法。

背景技术

随着学术界的学术不端日益暴露出来，学术论文抄袭剽窃引起社会的广泛关注。其严重程度已到了“学术腐败”的地步。抄袭的表现多种多样：有些在语言文字的表达形式上改成同义词或颠倒语句的表达顺序等多种面具，但在文章框架、主要观点和主要论据上却没有大的变化；有些直接“节选”别人的内容；有些是同一篇文章翻译成不同的语言再发表，或其他自我抄袭，“换汤不换药”地一稿多投；有些是综合运用多种手段，将多个别人的文章“拼接”而成自己的等等。抄袭和剽窃“手段”的越来越“高明”，给抄袭剽窃检测带来很大困难。抄袭检测又叫复制检测、剽窃检测或副本检测，根据检测对象性质不同可分为图像、声音和文本复制检测。学术论文抄袭检测是文本复制检测的一种，归根到底是判断两篇学术文献(包括期刊论文、会议论文、专利文献、书等多种文载体形式，以下简称为“学术论文”)的相似程度。“召回率”和“精准率”是判断检测算法好坏的两个重要指标。

Manber(1994)提出一个sif工具，sif工具提出的“近似指纹”，是用基于字符串匹配的方法来度量文件之间的相似性；Brin等在“数字图书馆”工程中首次提出文本复制检测机制COPS(copy protection system)系统与相应算法，奠定了论文抄袭检测系统的基础；Garcia-Molin(1995)提出SCAM(Stanford copy analysis method)原型，改进COPS系统，用于发现知识产权冲突，是使用基于词频统计的方法来度量文本相似性，后来把检测范围从单个注册数据库扩展到分布式数据库上以及在Web上探测文本复制的方法；贝尔实验室的Heintze开发了KOALA系统用于剽窃检测，采用与sif基本相同的算法；Si和Leong等人建立的CHEC系统首次把文档结构信息引入到文本相似性度量中；Kelly和Adam V.(2001，USPatent 6976170)提出的用于剽窃检测的方法为将文档中的句子一一对比，从而计算相似度断定是否为抄袭。Stein(2005)提出一种方法，这种方法能产生一种“指纹”，在某种程度上能有效防止修改；以及MeyerzuEissen(2006)等提出通过根据写作风格上的变化来分析单篇文档，从而决定是否有潜在抄袭等等方法。美国学校首先引入Turnitin侦探剽窃数据库，用于防止论文抄袭。张斯喆(中国专利号：ZL 03157183.2)通过对中文文本进行自动分词，然后通过计算它们的相似度，从而判别文本是否抄袭。鲍军鹏(中国专利号：ZL 03134562.X)通过文本的结构信息和语义信息提取文本特征，运用文本剽窃判定模块中设定的探针法估计待检测文本特征和特征库中的文本特征的最大共同语义并给出文本雷同度量，从而判别文本是否抄袭。沈阳(中国专利号：ZL 200610166577.5)是通过先找到存储空间内的格式遗留，再将这些遗留格式附近文档的关键词或/和句子或/和段落与文献库中的文献内容进行比较，从而减少了被检测文档的数据量，加快反剽窃或转载文档检测速度。张履平(中国专利号：ZL 200310110386.3)通过对已植入水印的文章进行特征撷取，根据所取得的词汇输入搜寻引擎以搜寻相关可疑文章，再根据与原文比对结果取得的句子进行水印解析，最后将所取得的水印信息与原来的水印比对，从而判断是否为剽窃。

事实上，由于剽窃形式的多样性和隐蔽性、语法和句法的复杂性等，目前主要采用的“数字指纹”和“词频统计”两大类抄袭识别技术已经不能满足实际的剽窃检测需求，会造成很多漏检和误检，其“召回率”和“精准率”都有待提高。如何把握并充分利用学术论文的结构和语言特征，提供具有针对性的检索模型和相似度算法及其实现系统，对学术论文剽窃检测进行更精确的判断至关重要。

发明内容

本发明目的是克服现有技术的缺陷，提供一种基于计算机检索系统的学术论文相似度检测方法，该方法能把握并充分利用学术论文的结构和语言特征，提供具有针对性的检索模型和相似度算法，学对术论文抄袭检测的精度高，并能增强计算机检索系统的运行效率和效果，从而提高论文送审时专家审稿的速度和效率。

实现上述发明目的的技术方案是：一种基于计算机检索系统的学术论文复制检测方法，该方法步骤包括：

(1)在服务器上建立学术论文源数据库的步骤；

(2)在服务器上建立一个用于储存被检测学术论文的学术论文数据的储存空间的步骤；

(3)在服务器上建立用于供用户输入包括检索条件的交互窗口步骤；

(4)提交被检学术论文步骤：根据设定的检索条件，建立被检学术论文数据并储存；

(5)将被检学术论文数据与源数据库中的数据进行比较的步骤；

(6)服务器将比较结果数据提交给用户的步骤。

上述方案中，学术论文源数据库为某一学科领域学术论文语料库。

上述方案中，步骤(4)的学术论文数据为根据检索条件而建立的学术论文数据列表结构，它包括论文编号、论文题名、摘要、关键词、正文、参考文献等元数据项。

上述方案中，步骤(4)中检索条件进一步包括学术论文来源。

上述方案中，步骤(5)中进一步包括设定相似度阈值。

上述方案中，步骤(5)的比较方法是基于：通过对所建的学术论文语料库进行深层加工、统计和学习，获取大规模真实语料中的语言知识，从而建立的基于学术论文语料库的统计语言模型。

上述方案中，步骤(5)的比较方法是基于：将学术论文结构化，通过赋予不同元数据项以不同的权函数，利用卷积方法，得出的学术论文相似度计算方法。

上述方案中，步骤(6)中比较结果包括：相似度高于设定阀值的抄袭和被抄袭的学术论文来源，及其元数据项信息。

与现有技术相比，本发明方法具有以下优点：

1、构建的完备学术论文方面的专门语料库，有别于现有的语料库的内容：针对性强；减少了计算机检索系统计算的时间和空间开消；

2、基于学术论文语料库的统计语言模型：充分把握和利用学术论文的语言特征，针对性强；比布尔模型(侧重于结构化查询)更为灵活；匹配方式为模糊匹配，更附合检索的实际；克服了传统概率模型(侧重于权重计算)在概率估计上的不足；且优于向量空间模型(对权重进行显式标准化，来消除文档长度对结果的影响，侧重于利用相关性文档估计权重)；

3、通过将文档结构化，给元数据配以加权函数，利用卷积计算相似度：提高了学术论文抄袭检测的精度；增强了计算机检索系统的运行效率和效果。

4、使用此方法，可极大的加快学术论文比较速度。

附图说明

图1为本发明方法实施例的步骤流程图

图2为本发明方法学术论文相似度计算步骤流程图

图3为本发明方法基于的硬件结构框图

具体实施方式

下面结合附图做进一步说明。

如图1所示，本发明基于计算机检索系统的学术论文复制检测方法实施例，其方法步骤包括：

(1)在服务器上建立学术论文源数据库(某一专业领域的学术论文语料库)的步骤。

数据库包括文献全文、文献元数据索引库、文献关键词句库；

该步骤是前期需要进行的基本数据准备，数据库(学术论文语料库)的数据来源主要有纸质文档、已经数字化的图书、期刊、报纸、会议论文、学位论文、专利文献、其它学术论文数据库、外文数据库、学术论文网页等。

对于纸质文档可通过数字扫描系统将文献扫入语料库服务器上，应用图文识别模块将文献从图片状态转化为要识别的格式或非格式字符状态。对于其它语言学术论文，调用翻译软件翻译之后导入到语料库。利用搜索引擎将学术论文网页构建出语料库。

完成基本数据准备之后，系统进入元数据提出和元数据加权、匹配和聚类阶段。对于元数据项提取，可以采用目前较为成熟的各种数据挖掘和字符串匹配技术，也可以在定义一个算法接口，只要符合该接口的规范即可进行元数据项提取和加权，进行匹配和聚类，将每个学术论文的元数据项提取出来，将相关论文依据关键词语句进行适当归类。

建立的语料库包括学术论文全文及基本属性库、论文关键词句库、元数据索引库。在系统实施时，可以让每个数据库对应一台服务器。如果IO数据量小的情况下，可以让所有数据库都运行在一台服务器上。当数据量极为庞大时，每个子数据库都可以使用多台服务器并行处理。

举例说明如下：从中国学术期刊数据库中检索出来某一专业领域的所有学术论文。将这些论文进行关键词句解析。同时提取题名、摘要、关键词、分类号、正文、参考文献等元数据库字段内容。建立的语料库至少包括全文库、论文属性库、题名索引库、关键词索引库、文摘索引库等子库。

(2)在服务器上建立一个用于储存被检测论文数据的存储空间的步骤。

(3)在服务器上建立用于供用户输入包括检索条件的交互窗口的步骤。

检索条件包括论文来源。

如表1所示，检索条件可为：收录论文的数据库的名称、母体文献来源、和论文的作者单位。通过文档来源，可直接获得所检测出有抄袭的论文本身。

表1

论文输入条件	例子	说明
论文输入条件	例子	说明	数据库名称	中国科技期刊数据库	收录该论文的数据库名称
母体文献	计算机科学-2008年2期	计算机科学2008年第2期发表的论文	数据库名称	中国科技期刊数据库	收录该论文的数据库名称
母体文献	计算机科学-2008年2期	计算机科学2008年第2期发表的论文	单位名称	中国科学院软件研究所	中国科学院软件研究所所发论文

检索条件可以使用健盘输入鼠标输入、语音输入等各类输入信息的交互手段。在非字符输入时，系统增加将用户输入转化为字符输入的模块，将用户输入的其它媒体转化为字符类型的论文来源。

系统提供一个用户可设定预设接收报告或者报告通知的存储空间的交互接口。这个存储空间可以是电子邮箱，手机短信等交互窗口。用户使用该接口可以设定报告或者报告通知发送何处，以便用户可以即时获得报告信息。例如用户设定为某个邮箱接收报告通知或者报告本身。系统根据用户设定，定期或不定期发送剽窃报告本身或者报告通知给用户。

系统提供一个用户设定多长时间给自已发送剽窃报告的交互接口。例如可以是每天一次，每周一次或每月一次等。

系统提供一个接口，给论文送审时专家审稿用，此时送审的论文还没有出版，系统提供给评审专家的抄袭报告信息只是被抄袭对象论文的相关信息，具体传递的信息项目可以根据要求定制。

举例说明如下：系统构建交互窗口，审稿专家提交要待审的论文，系动自动在建立好的该论文涉及专业的语料库中进行论文相似度比对，超过设定的阀值时，系统自动将被抄袭对象论文的相关信息发送给审稿专家的定制的邮箱或手机短信。

(4)根据用户输入的检索条件，建立数据库并存储的步骤。

论文数据为符合检索条件而建立的论文数据列表结构，它包括论文ID编号、母体文献来源(对于已经出版的检测论文)、关键词内容、题名内容、摘要内容等元数据项内容。

举例说明如下：假设待检测的论文标记为i，则建立的检测论文数据库其存储的待检测论文的数据包括论文ID编号IDi、论文题名Ti、作者Aui、母体文献来源STi摘要Ai、关键词Ki等信息。

(5)将学术论文数据与数据库中的数据进行比较的步骤。

服务器在获得用户提交的检测论文数据后，系统在语料库中自动根据本发明的相似度计算方法将待检测的论文与语料库中的论文进行相似度计算，当相似度超过设定阀值时，系统自动判断该检测论文为抄袭的论文。

本步骤需要有全文比较软件或自己实现的软件模块。

举例说明如下：系统取得文档的ID号，依据该号可以将系统中的各文档题名T、作者Au、母体文献来源ST摘要Ab、关键词K等元数据字段信息取出。分别对各元数据字段进行对比，利用设定的权函数求卷积，得加权后的综合相似度，综合相似度高于某一阀值的论文显示出来。

依据相似论文的ID编号可以找到相应的论文元数据库项信息。

(6)服务器将比较结果数据提交给用户的步骤。

服务器将比较结果或者报告的通知发送到用户参预先设定的存储空间。例如服务器将报告通知发送至用户邮箱中，告知用户已经比较出抄袭结果；或者建立抄袭论文数据库。当系统判断论文为抄袭论文时，先从抄袭论文来源数据库结构中依照某种顺序取出论文各元数据内容存储至抄袭论文数据结构中，再将语料库中被抄袭论文的输入条件信息存储至抄袭论文数据结构的抄袭对象中，同时记录下相似度计算值。

举例说明如下：系统获得用户要检测的论文元数据项内容，包括论文题名Tii、作者Aui、母体文献来源STi摘要Abi、关键词Ki等信息。系统在语料库中查找，找到与检测论文相似度超过设定阀值的论文两篇01和02，此时系统首先将抄袭论文的输入条件Aui、Tii、Sti、Aui和Kyi等字段信息内容存储至数据结构中；再将被抄袭对象对应的论文输入条件Au01、Ti 01、St 01、Ab 01和Ky 01，以及Au 02、Ti 02、St 02、Ab 02和Ky 02，以及与语料库中论文01和02的相似度值Si 01和Si 02等存储至数据结构中。对于相似度超过60％的，用色彩警示。

在最终报告交互界面中，系统的相似论文基本属性中包括相似论文来源及其元数据相关信息，用户点击这些论文来源后，可查看被抄袭论文相关信息，可再次人工审核这些相似论文是否真正为剽窃。

如图2所示，本实施例中的步骤(5)，将学术论文数据与数据库中的数据进行比较的步骤，涉及的硬件有：扫描仪，用于将待检测的文档数字化的；计算机，用于将数字化的文档根据元数据项结构化；且在根据本发明的相似度计算方法设计的模块中，计算被检测论文的相似度并与设定的阀值比较，判断是否为抄袭。具体算法举例如下：

将待检测的学术论文的题名Ti1、关键词Ky1、摘要Ab1、正文Te1、参考文献Re1等元数据字段抽取出来，与语料库中的已有论文的相应元数据字段内容题名Ti2、关键词Ky2、摘要Ab2、正文Tx2、参考文献Re2进行相似度计算，计算时，在篇名字段前给以0.25，0.4，0.15，0.1和0.1的加权系数。建立的统计语言模型计算待测论文和语料库中的已出版的论文同一元数据字段的内容相似程度，Sim_Tii，Sim_Kyi，Sim_Abi，Sim_Tei，Sim_Rei，卷积后得整篇论文的与语料库中任一篇论文j的相似程度值计算公式为：Similarity_paper_j＝0.25×Sim_Tij+0.4×Sim_Kyj+0.15×Sim_Abj+0.1×Sim_Txj+0.1×Sim_Rej；再计算与待检测论文最相似度的那个最大的相似度Max_Similarity＝Max{Similarity_paper_j}；如果Max_Similarity大于设定的阀值40％，则判断为疑是抄袭，这样的论文需要审稿专家仔细认真的审，如果Max_Similarity大于80％，这样的论文极有可能存在抄袭，需要审稿专家特别注意。在计算相似度值后，计算机系统记录下相似度高于设定阀值的抄袭和被抄袭的学术论文来源，相似度值，及其各元数据项信息(包括作者信息)。本实施例中的各元数据项相似度计算过程中加权系数可以根据需要做适当调整为其它数值，但系数总和为1。

如图3所示，硬件系统通过数字扫描设备将纸质文档扫描成电子文档，存储于文件服务器中；在文件服务器中进行相似度计算，并将相似度高于设定阀值的抄袭和被抄袭的学术论文来源，相似度值，及其元数据项等信息保存于文件服务器中。以上相关信息可以通过邮件服务器发送到客户端计算机，用户收到邮件后可以通过与其连接的打印机打印结果；或者将相似度计算结果发送到应用服务器；或者发送到发布服务器，然后发布服务器再通过数字通讯发送到用户手机。本发明中的用户可以为学术论文审稿专家、可以为打击学术论文抄袭的人员或其它需要学术论文相似度计算的人员。

Claims

1.一种基于计算机检索系统的学术论文相似度的检测方法，其特征在于：其方法步骤包括：

(1)在服务器上建立学术论文源数据库的步骤；

(6)服务器将比较结果数据提交给用户的步骤。

2.根据权利要求1所述的检测方法，其特征是，所述学术论文源数据库为某一学科领域学术论文语料库。

3.根据权利要求1所述的检测方法，其特征是，所述步骤(4)的学术论文数据包括论文编号、论文题名、摘要、关键词、正文和参考文献元数据项。

4.根据权利要求1所述的检测方法，其特征是，所述步骤(4)中检索条件进一步包括学术论文来源。

5.根据权利要求1所述的检测方法，其特征是，所述步骤(5)中进一步包括设定相似度阈值。

6.根据权利要求1所述的检测方法，其特征是，所述步骤(5)中进一步包括相似度计算步骤：将待检学术论文以及源数据库中的所有论文结构化，通过赋予不同元数据项以不同的权函数，利用卷积方法，得出的待检学术论文的相似度。

7.根据权利要求1所述的检测方法，其特征是，所述学术检索条件包括学术论文来源。

8.根据权利要求5所述的检测方法，其特征在是，所述步骤(6)中比较结果包括：相似度高于设定阀值的抄袭和被抄袭的学术论文来源，及其元数据项信息。