CN103544326A

CN103544326A - 基于译文特征与内容的中英文跨语种抄袭识别方法

Info

Publication number: CN103544326A
Application number: CN201310567555.XA
Authority: CN
Inventors: 刘功申; 张昊; 袁松翔; 孟魁; 宁蔚
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2013-11-14
Filing date: 2013-11-14
Publication date: 2014-01-29

Abstract

本发明提供了一种基于译文特征与内容的中英文跨语种抄袭识别方法，包括：第一步骤，用于对需要检测的文章进行词法与句法分析，以便为译文特征抽取做准备；第二步骤，用于进行译文特征抽取及数据统计，然后按照词数为基准进行归一化处理，最后得到各特征的每万词出现次数的具体数据指标；第三步骤，用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值；第四步骤，用于判定抄袭值是否超过阈值，而且，如果抄袭值没有超过预定的阈值，则判定本文章为非抄袭文章，如果抄袭值超过预定的阈值，则处理进入基于内容的抄袭算法流程。

Description

基于译文特征与内容的中英文跨语种抄袭识别方法

技术领域

本发明涉及文本内容处理领域，更具体地说，本发明涉及一种基于译文特征与内容的中英文跨语种抄袭识别方法。

背景技术

国内对于复制检测技术的研究已经进行了很长时间，但是这些研究几乎全部集中在中文文章的相互抄袭检测上，而对跨语种的抄袭检测研究较少。

在国内现有的一些中英文跨语种抄袭检测技术中，所采用的思路主要是借鉴国外对跨语种抄袭检测所采用的思路即：文翻译成目标语言，然后进行基于关键字的启发式搜索，然后对搜索后的结果进行详细分析，匹配关键词最后判定是否抄袭。

但是，这种研究思路首先受限于英文与中文语种差距较大翻译效果不佳，其次忽略了中文作为世界上最复杂的语言所具有的一些特征。所以，现有的一些中英文跨语种抄袭检测技术的检测识别效果并不理想。

发明内容

本发明所要解决的技术问题是针对现有技术中存在上述缺陷，提供一种能够有效进行中英文跨语种抄袭检测的基于译文特征与内容的中英文跨语种抄袭识别方法。

为了实现上述技术目的，根据本发明，提供了一种基于译文特征与内容的中英文跨语种抄袭识别方法，其包括：

第一步骤，用于对需要检测的文章进行词法与句法分析，以便为译文特征抽取做准备；

第二步骤，用于进行译文特征抽取及数据统计，然后按照词数为基准进行归一化处理，最后得到各特征的每万词出现次数的具体数据指标；

第三步骤，用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值；

第四步骤，用于判定抄袭值是否超过阈值，而且，如果抄袭值没有超过预定的阈值，则判定本文章为非抄袭文章，如果抄袭值超过预定的阈值，则处理进入基于内容的抄袭算法流程。

优选地，内容的抄袭算法流程包括下述步骤：

第五步骤，用于将待检测文档进行分词处理，并进行词性标注；

第六步骤，用于去除停用词，获得文档的词干向量，根据各个词干在文章中出现的次数词频来决定文档的关键词；

第七步骤，用于将关键词翻译为英语以得到相应的英文关键词；

第八步骤，用于使用英文关键词利用已词干化的英文文档语料库中进行检索，获得可能是被抄袭的文档；

第九步骤，用于比较待识别文档与检索出的文档，获得待识别文档与检索出的文档之间的相似度；

第十步骤，用于将待识别文档与检索出的文档之间的相似度与预先设定的相似度阈值进行比较，以确定是否抄袭，其中如果待识别文档与检索出的文档之间的相似度大于相似度阈值，则判定本文章为抄袭文章。

优选地，在第九步骤中，若在检索出的文档的句子中找到待识别文档的原词匹配，则相似度被确定为第一相似度值；若在检索出的文档的句子中找到待识别文档的一级同义词匹配，则相似度被确定为小于第一相似度值的第二相似度值；若在检索出的文档的句子中找到待识别文档的二级同义词匹配，则相似度记为被确定为小于第二相似度值的第三相似度值；若在检索出的文档的句子中发现待识别文档的多个同义词匹配，则相似度被确定为数值较大的相似度值；若在检索出的文档的句子中没有发现待识别文档的同义词匹配，则相似度被确定为小于第三相似度值的第四相似度值。

优选地，如果待识别文档与检索出的文档之间的相似度不大于相似度阈值，那么则可以进行进一步的其它判定，例如人工检索。

优选地，第一相似度值为1，第二相似度值为0.8，第一相似度值为0.3，第四相似度值为0，并且相似度阈值的取值范围为0.5至0.8。

优选地，相似度阈值为0.6。

优选地，在第三步骤中，决策树以及支持向量机的生成是通过针对一个抄袭语料库以及将一个非抄袭语料库分别执行第一步骤和第二步骤而生成的。

优选地，在第八步骤中，采用倒排索引检索方法进行检索来使用英文关键词利用已词干化的英文文档语料库中进行检索。

优选地，在第一步骤中可采用ICTCLAS分词算法来进行词法与句法分析。

附图说明

结合附图，并通过参考下面的详细描述，将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征，其中：

图1根据本发明实施例的基于译文特征与内容的中英文跨语种抄袭识别方法的流程图。

需要说明的是，附图用于说明本发明，而非限制本发明。注意，表示结构的附图可能并非按比例绘制。并且，附图中，相同或者类似的元件标有相同或者类似的标号。

具体实施方式

为了使本发明的内容更加清楚和易懂，下面结合具体实施例和附图对本发明的内容进行详细描述。

本发明针对现有技术存在的不足，提出了基于中文译文特征的中英抄袭识别方法。主要思想是，首先通过中文的特殊性来找出那些不符合中文习惯的译文特征来判定文章是否为跨语种抄袭。然后将判断抄袭概率如果抄袭概率比较大那么采取基于内容的抄袭算法，来最终判定文章是否抄袭。

具体地说，图1根据本发明实施例的基于译文特征与内容的中英文跨语种抄袭识别方法的流程图。

如图1所示，根据本发明实施例的基于译文特征与内容的中英文跨语种抄袭识别方法包括：

第一步骤S1，用于对需要检测的文章进行词法与句法分析，以便为译文特征抽取做准备。例如，在第一步骤S1中可采用中科院的ICTCLAS（InstituteofComputingTechnology,ChineseLexicalAnalysisSystem）分词算法来进行词法与句法分析。

第二步骤S2，用于进行译文特征抽取及数据统计（例如，数据统计包括统计句式、代词、虚词、标点符号、句长以及滥用词等各项特征），然后按照词数为基准进行归一化处理，最后得到各特征的每万词出现次数的具体数据指标。

第三步骤S3，用于将这些数据指标放入已经生成好的决策树以及支持向量机SVM(SupportVectorMachine）中进行运算以计算出抄袭值。其中，在第三步骤S3中，优选地，决策树以及支持向量机SVM的生成可以是通过针对一个抄袭语料库（例如，该抄袭语料库可以是一个由英文翻译成中文的文章组成的语料库）以及将一个非抄袭语料库（例如，该非抄袭语料库可以是一个由各个核心期刊与会议的论文集组合成的语料库）分别执行第一步骤S1和第二步骤S2而生成的。

第四步骤S4，用于判定抄袭值是否超过阈值。而且，如果抄袭值没有超过预定的阈值，则判定本文章为非抄袭文章（第十一步骤S11）；如果抄袭值超过预定的阈值，则处理进入基于内容的抄袭算法流程。

优选地，如图1所示，内容的抄袭算法流程包括下述步骤：

第五步骤S5，用于将待检测文档进行分词处理，并进行词性标注。

第六步骤S6，用于去除停用词，获得文档的词干向量，根据各个词干在文章中出现的次数词频TF(TermFrequency)来决定文档的关键词。

第七步骤S7，用于例如通过机器翻译，将关键词翻译为英语以得到相应的英文关键词。

第八步骤S8，用于使用英文关键词利用已词干化的英文文档语料库（即，作为可能的被抄袭对象的文档的已词干化的英文文档的语料库）中进行检索（例如，可采用倒排索引检索方法进行检索），获得可能是被抄袭的文档（即，从作为可能的被抄袭对象的文档中获得可能被抄袭的文档）。

第九步骤S9，用于比较待识别文档与检索出的文档，获得待识别文档与检索出的文档之间的相似度。

其中，在具体实施例中，优选地，若在检索出的文档的句子中找到待识别文档的原词匹配，则相似度被确定为第一相似度值（例如，β=1）；若在检索出的文档的句子中找到待识别文档的一级同义词匹配，则相似度被确定为小于第一相似度值的第二相似度值（例如，β=0.8）；若在检索出的文档的句子中找到待识别文档的二级同义词匹配，则相似度记为被确定为小于第二相似度值的第三相似度值（例如，β=0.3）；若在检索出的文档的句子中发现待识别文档的多个同义词匹配，则相似度被确定为数值较大的相似度值；若在检索出的文档的句子中没有发现待识别文档的同义词匹配，则相似度被确定为小于第三相似度值的第四相似度值（例如，β=0）。

第十步骤S10，用于将待识别文档与检索出的文档之间的相似度与预先设定的相似度阈值（例如，可以将相似度阈值的取值范围设定为0.5至0.8；在优选示例中，可以将相似度阈值设定为0.6）进行比较，以确定是否抄袭。如果待识别文档与检索出的文档之间的相似度大于相似度阈值，则判定本文章为抄袭文章（第十二步骤S12）。

另一方面，例如，如果待识别文档与检索出的文档之间的相似度不大于相似度阈值，那么则可以进行进一步的其它判定，例如人工检索（第十三步骤S13）。

更具体地说，以一篇文章为例，我们对文章进行分词并统计以下译文特征：“代词”、“语气词”、“被动”、“当”、“一句多代”、“们”、“分号”、“顿号(、)”出现的频率将这些数值放入SVM与决策树中进行对比从而加权得到抄袭判定的值，如果值没有超过判定抄袭的阈值那么判定为非抄袭算法并且处理结束。当该值超过判定抄袭的阈值，则对原文进行获取关键字然后进行机器翻译在英文语料库中进行查询算出相似度，如果加权后的相似度大于0.6就认为用户文章是抄袭。

本发明至少具有这样的优点，即，在中英文跨语种抄袭领域引入了一个全新的观点，可以开辟一条新的研究道路即基于译文特征的中英文跨语种抄袭检测，通过中文的特殊性来找出那些不符合中文习惯的方面来判定文章是否是抄袭。这样可以抛开翻译效果不佳以及搜索范围小等常规思路所带来的缺点，另辟蹊径已达到抄袭检测的目的。

此外，需要说明的是，除非特别说明或者指出，否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等，而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。

可以理解的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于译文特征与内容的中英文跨语种抄袭识别方法，其特征在于包括：

2.根据权利要求1所述的基于译文特征与内容的中英文跨语种抄袭识别方法，其特征在于，内容的抄袭算法流程包括下述步骤：

3.根据权利要求2所述的基于译文特征与内容的中英文跨语种抄袭识别方法，其特征在于，在第九步骤中，若在检索出的文档的句子中找到待识别文档的原词匹配，则相似度被确定为第一相似度值；若在检索出的文档的句子中找到待识别文档的一级同义词匹配，则相似度被确定为小于第一相似度值的第二相似度值；若在检索出的文档的句子中找到待识别文档的二级同义词匹配，则相似度记为被确定为小于第二相似度值的第三相似度值；若在检索出的文档的句子中发现待识别文档的多个同义词匹配，则相似度被确定为数值较大的相似度值；若在检索出的文档的句子中没有发现待识别文档的同义词匹配，则相似度被确定为小于第三相似度值的第四相似度值。

4.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法，其特征在于，如果待识别文档与检索出的文档之间的相似度不大于相似度阈值，那么则可以进行进一步的其它判定，例如人工检索。

5.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法，其特征在于，第一相似度值为1，第二相似度值为0.8，第一相似度值为0.3，第四相似度值为0，并且相似度阈值的取值范围为0.5至0.8。

6.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法，其特征在于，相似度阈值为0.6。

7.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法，其特征在于，在第三步骤中，决策树以及支持向量机的生成是通过针对一个抄袭语料库以及将一个非抄袭语料库分别执行第一步骤和第二步骤而生成的。

8.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法，其特征在于，在第八步骤中，采用倒排索引检索方法进行检索来使用英文关键词利用已词干化的英文文档语料库中进行检索。

9.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法，其特征在于，在第一步骤中可采用ICTCLAS分词算法来进行词法与句法分析。