CN108509414A

CN108509414A - 基于排序的抄袭检测文本匹配方法

Info

Publication number: CN108509414A
Application number: CN201810198863.2A
Authority: CN
Inventors: 孔蕾蕾; 韩中元; 齐浩亮
Original assignee: Heilongjiang Institute of Technology
Current assignee: Heilongjiang Institute of Technology
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-09-07
Anticipated expiration: 2038-03-09
Also published as: CN108509414B

Abstract

基于排序的抄袭检测文本匹配方法，涉及抄袭检测技术领域。本发明为了实现高模糊抄袭的检测，解决基于启发式方法依赖专家经验、无法融合抄袭检测中各类有效的特征的问题。将抄袭文本的匹配形式化为一个排序任务，给出一个可疑文本片段，该方法应用基于序对的排序学习方法获得源文档中该片段最可能抄袭的片段。本发明引入机器翻译的评价指标METEOR来捕获词汇相似和语义相似。应用PAN2012和PAN 2013的抄袭检测数据集对该方法进行了评价，并与PAN2013、2013和2014评测中获得最好性能的方法进行了比较。在高模糊抄袭和总结抄袭子集上，本发明相对基线方法在评价指标Plagdet上分别提高了22％和43％。本发明方法时间效率也优于基线方法。

Description

基于排序的抄袭检测文本匹配方法

技术领域

本发明涉及一种抄袭检测文本匹配方法，涉及抄袭检测技术领域。

背景技术

抄袭文本匹配是抄袭检测的核心任务，该任务致力于获取可疑文档和它抄袭的源文档匹配的抄袭片段(Potthast et al.,2012a；2013a；2014)。研究者针对抄袭文本匹配开展了大量的工作，其中大部分研究基于启发式的方法，应用词或者字符表示可疑文档和抄袭源文档，然后通过计算可疑文档和源文档片段中重叠的字符、单词，或通过文本向量的相似来识别确切的或可能的抄袭匹配。

这类方法在低模糊抄袭检测上取得了良好的性能，而在高模糊抄袭检测上的性能却不令人满意。例如，以PlagDet得分为评价指标(PAN定义的抄袭检测的主要评价指标，最高分为1.0)，在抄袭检测评测PAN@CLEF 2012的无模糊抄袭检测子集上最高的PlagDet为0.9451，在PAN@CLEF 2012的低模糊抄袭检测子集上，最高的PlagDet为0.8441。然而，与简单的复制和粘贴源文挡的无模糊抄袭或者简单的修改源文档的低模糊抄袭不同，在高模糊的抄袭中，文本通常使用词汇和句法释义、句子的缩减、组合、重组、概念泛化和特化等手段来躲避抄袭检测(Alzahrani et al.,2012)。面对抄袭文档会大篇幅的改动、大部分的单词和短语都被替换的情况，启发式方法在高模糊抄袭的文本匹配中没有取得令人满意的性能。例如，在PAN@CLEF 2012高模糊抄袭子集上，PlagDet的最高分仅为0.4067，在总结性抄袭子集上，PlagDet的最高分仅为0.6101(Potthast et al.,2012a；2013a)。

单凭专家经验和启发式规则设计的抄袭匹配方法受到它所在的框架的限制，特别是在实践中，很难向启发式方法中添加在抄袭检测的研究中已被确认的有效的特征来捕获高模糊抄袭的匹配文本。因此，在基于启发式的文本匹配方法中，系统性能的改善只能依赖于修改原启发式方法的参数或者开发新的启发式方法实现。

现有技术中针对基于启发式的文本匹配方法存在的问题没有给出相应的解决方案。

发明内容

本发明的目的是提供一种基于排序的抄袭检测文本匹配方法，为了解决基于启发式方法依赖专家经验，致使检测性能不佳的问题。

本发明为解决上述技术问题采取的技术方案是：

一种基于排序的抄袭检测文本匹配方法，所述方法的实现过程为：

步骤1、构建基于排序的抄袭文本匹配模型：

设f为基于排序的抄袭文本匹配模型，f是关于的线性函数，定义如下：

其中，称f为基于排序的抄袭文本匹配模型；表示利用源文档片段与抄袭文档片段对所构建的描述源文档片段与抄袭文档片段抄袭程度的特征向量，表示权重向量，将使用基于序对的排序学习的方法获得；

将基于步骤2获取，将基于步骤3的学习算法获得；

步骤2、基于METEOR评价指标提取排序特征

给出可疑文档d_plg中的片段s_i，将选择s_i的抄袭源形式化为给定一个可疑文档的片段s_i，对源文档的片段列表d_src＝{(r₁,r₂,......,r_q)}的每个文本片段r_j，利用机器翻译评价指标METEOR的精确率Precision、召回率Recall、F1值、F均值Fmean、惩罚度Penalty和METEOR得分METEOR Score六个评价指标构建特征向量将作为排序学习的特征向量；的每一维为METEOR的一个评价指标，分别为Precision、Recall、F1、Fmean、Penalty和METEOR Score；其计算方法如表1的公式所示：

表1基于METEOR的特征

步骤3、根据抄袭文本匹配的排序算法，学习排序模型f，获得权重向量具体过程为：

定义和是一对文本片段(s_i,r_u)和(s_i,r_v)的特征向量，y_i,u和y_i,v分别表示s_i与r_u以及s_i与r_v的抄袭程度；用＞表示偏序关系，如果y_i,u＞y_i,v，表示对于可疑文档片段s_i，r_u排序在r_v前面，即下列不等式成立：

对于偏序关系y_i,u＞y_i,v，如果则模型f发生了一个错误；因此，损失函数应该与定义在训练数据集上的排序错误相关；

排序错误发生在f将一个非抄袭匹配文档对排在抄袭匹配文档对之前，即：

其中，如果π是真，则[[π]]为0，否则[[π]]为1；最小化式(3)意味着排序学习系统应该在假设空间H上学习一个排序函数f∈H，使得f在训练数据T的n个可疑文档片段上，最大化下列不等式的数目：

直接优化上述问题被证明是NP难的；

使用松弛变量(非负)ξ_i,j,k 式(4)可被表示为：

进一步的，等式(5)可被重写为：

用新的向量表示偏好关系y_i,u＞y_i,v；令z表示r_u和r_v，的排序，则有：

根据r_u和r_v的排序，赋予向量一个正的标签z＝+1或一个负的标签z＝-1；

由此，式(6)的优化问题转化为在序对上的分类问题；等式(7)等价于在序对向量上解决下面的二次最优化问题：

最小化:

使得:

ξ_u,v,k≥0,k＝1,...,n

其中，项控制模型的复杂度；

式(8)为：使用定义在文档序对上的Hinge损失，对于可疑文档片段s_i，x_i,u为抄袭匹配对应的向量，x_i,v不是抄袭匹配对应的向量，y_u,v＝1，那么如果以边界1大于则没有损失，否则，损失为ξ_u,v,k；对于经Ranking SVM学到的优化向量则最终的排序函数f为：

式中，表示源文档片段与抄袭文档片段对的特征向量，表示算法学到的最优的权重向量，表示最优权重向量与特征向量的线性组合。

进一步地，步骤1所述基于排序的抄袭文本匹配模型的构建过程为：

设可疑文档d_plg＝{(s₁,s₂,......,s_p)}，d_plg的抄袭源文档d_src＝{(r₁,r₂,......,r_q)}，其中s_i和r_j分别是文档d_plg和d_src的文本片段(例如一个句子)；

定义p和q分别是d_plg和d_src中的文本片段的数目；

给定s_i∈d_plg,表示在d_src中找到s_i最可能的抄袭匹配；

对于一个文本片段对(s_i,r_j)，设y_i,j是表明s_i和r_j抄袭匹配程度的标签；设在文本d_src中，r_u是s_i的抄袭匹配，r_v不是s_i的抄袭匹配，则希望：

y_i,u>y_i,v (10)

给定一个文本片段对(s_i,r_j)，设函数的输出与y_i,j成正比：

其中是函数f的参数；

根据不等式(10)和(11)，函数f应满足下列不等式

不等式(12)定义了两个文本片段对(s_i,r_u)和(s_i,r_v)之间的偏序关系；给定s_i∈d_plg,基于在d_src中找到si最可能的抄袭匹配的目标，认为文本片段对间的相对顺序比准确的预测每一个文本片段对的抄袭程度更重要，使用函数f，得到d_src中的文本片段关于s_i的抄袭程度的列表

在中，假设s_i的抄袭匹配文本排序在非抄袭匹配文本前面，则下列不等式成立：

其中，是d_src中s_i的抄袭匹配文本的数目，q是d_src中文本片段的总数；

给定一个s_i∈d_plg，排序列表L⁽ⁱ⁾的前个文本片段可视为s_i的抄袭匹配；因此，估计r_j是s_i的抄袭匹配可以通过排序d_src上的文本片段实现；通过学习函数f，使得排序列表中抄袭匹配片段尽可能的排序在非抄袭片段前面；当给定一个新的可疑文档中的文本片段s_m时，使用学到的函数f得到的关于s_m排序列表在中，s_m的抄袭匹配通过截取的前个文本片段实现。

本发明的有益效果是：

针对基于启发式的文本匹配方法存在的问题，本发明提出使用统计机器学习的方法识别抄袭匹配，提出基于排序的抄袭检测文本匹配方法(Ranking-based Text MatchingApproach for Plagiarism Detection,RTMAPD)。一方面，该方法能够克服基于启发式的方法基于专家经验设计，难以融合各种特征，特别是高模糊抄袭的特征(比如词汇特征、语义特征)的问题；另一方面，该方法也能够较好的解决训练数据集中正例和反例的数据不平衡问题。特别的，为了考虑高模糊抄袭中同义词的替换、语义的相关等问题，使用了机器翻译的评价指标METEOR(Banerjee and Lavie,2005)的各种评价指标来评价可疑文本片段和每个源文档片段的相似度，将评价结果用于构建排序所需的词汇特征和语义特征。

本发明方法将抄袭文本的匹配形式化为一个排序任务，给出一个可疑文本片段，该方法应用基于序对的排序学习方法获得源文档中该片段最可能抄袭的片段。特别的，本发明引入机器翻译的评价指标METEOR来捕获词汇相似和语义相似。

发明的创新点是用排序学习的方法解决抄袭检测的问题，这种方法在高模糊抄袭中性能更好。

本发明方法在PAN@CLEF 2012和PAN@CLEF 2013的抄袭检测文本对齐数据集上进行了评价，并与PAN 2013、2013和2014评测中获得最好性能的方法进行了比较。实验结果展示，与基线方法相比，本发明方法的性能在五个不同的抄袭类型的十二个文档集合上获得了具有统计意义的显著提升。特别是在高模糊抄袭和总结抄袭子集上，本发明方法相对基线方法在评价指标Plagdet上分别提高了22％和43％。此外，本发明方法时间效率也优于基线方法。

附图说明

图1为PAN@CLEF 2012Training Corpus数据集的2000个随机案例的余弦距离和Jaccard系数的得分分布图，

图中，x和y坐标分别是抄袭片段与源片段对的余弦距离和Jaccard系数，(a)中noobfuscation表示抄袭片段与源片段采取了无模糊的抄袭，(b)中low obfuscation表示抄袭片段与源片段采取了低模糊的抄袭，(c)中summary obfuscation表示抄袭片段对源片段采取了的总结式的抄袭，(d)中paraphrase obfuscation表示抄袭片段与源片段采取了高模糊的释义抄袭；

图2为本发明的基于排序的抄袭文本匹配模型原理示意图；

图3为不同文本匹配方法的运行时间比较曲线图，即本发明所提RTMAPD方法与基线方法Kong12和Sanchez-Perez14的运行时间进行的比较。

具体实施方式

如图1至图2所示，本实施方式针对所述的基于排序的抄袭检测文本匹配方法具体说明如下：

1关于抄袭

通常，抄袭可分为低模糊抄袭(如完全复制，部分复制，简单修改)和高模糊抄袭(包括释义抄袭，总结抄袭，跨语言抄袭等)(Alzahrani et al.,2012)。高模糊抄袭检测性能较低是目前抄袭检测的最大问题，启发式方法远未在高模糊抄袭检测上获得令人满意的性能。其原因主要在于高模糊抄袭文本与源文本词汇的差别较大，词汇匹配的数目很少，难以准确地识别出抄袭匹配。

2抄袭匹配问题分析

为说明问题，本发明在PAN@CLEF 2012Training Corpus中随机选择了1000个抄袭片段(记为绿色点)和1000个非抄袭片段(记为红点)，使用现有抄袭匹配的两个主要方法，余弦距离和Jaccard系数，对基于启发式的词匹配方法进行了分析。图1显示了这些抄袭片段的分布，x和y坐标分别是抄袭片段对的余弦距离和Jaccard系数。

图1表明，余弦距离和Jaccard系数对于抄袭案例和非抄袭案例，在无模糊和低模糊子集上的区分很清晰，而在总结模糊子集和高模糊子集上则混合在一起，无法分辨。

另一方面，抄袭文本匹配存在正例和反例的数据不平衡问题：在训练语料库中抄袭文本与非抄袭文本按字符计算的长度比为1:20。这意味着只有5％的文本片段可被用于构建训练用例。He与Garcia提出，大部分标准的算法都假设或希望类的分布是平衡的，或者误分类的代价是相等的，否则，当面对复杂的不平衡数据集的时候，这些算法无法保证良好的精度(He and Garcia,2009)。

上面的分析展示了抄袭文本匹配需要面对的两个方面的挑战：高模糊抄袭文本的匹配和训练数据不平衡。

3基于排序的抄袭文本匹配方法

提出了基于排序的抄袭匹配算法，描述了基于METEOR评价指标的特征。

首先给出抄袭文本匹配的形式化定义，然后，提出使用基于序对的排序学习算法解决抄袭文本匹配问题。最后，给出了基于机器翻译METEOR评价指标的排序学习特征，以此捕获文本的词汇和语义相似。

3.1基于排序的抄袭文本匹配模型

设可疑文档d_plg＝{(s₁,s₂,......,s_p)}，d_plg的抄袭源文档d_src＝{(r₁,r₂,......,r_q)}，其中s_i和r_j分别是文档d_plg和d_src的文本片段(例如一个句子)。p和q分别是d_plg和d_src中的文本片段的数目。给定s_i∈d_plg,我们想在d_src中找到s_i最可能的抄袭匹配。对于一个文本片段对(s_i,r_j)，设y_i,j是表明s_i和r_j抄袭匹配程度的标签。设在文本d_src中，r_u是s_i的抄袭匹配，r_v不是s_i的抄袭匹配，则我们希望：

y_i,u>y_i,v (1)

给定一个文本片段对(s_i,r_j)，设函数的输出与y_i,j成正比：

其中是函数f的参数。

根据不等式(1)和(2)，函数f应满足下列不等式

不等式(3)定义了两个文本片段对(s_i,r_u)和(s_i,r_v)之间的偏序关系。给定s_i∈d_plg,由于我们的目标是在d_src中找到si最可能的抄袭匹配。因此，我们认为文本片段对间的相对顺序比准确的预测每一个文本片段对的抄袭程度更重要。因此，使用函数f，我们可以得到d_src中的文本片段关于s_i的抄袭程度的列表在中，假设s_i的抄袭匹配文本排序在非抄袭匹配文本前面，则下列不等式成立：

其中，是d_src中s_i的抄袭匹配文本的数目，q是d_src中文本片段的总数。

理想中，给定一个s_i∈d_plg，排序列表L⁽ⁱ⁾的前个文本片段可视为s_i的抄袭匹配。因此，估计r_j是s_i的抄袭匹配可以通过排序d_src上的文本片段实现。因此，我们尝试学习函数f，使得排序列表中抄袭匹配片段尽可能的排序在非抄袭片段前面。当给定一个新的可疑文档中的文本片段s_m时，使用学到的函数f就可以得到的关于s_m排序列表在中，s_m的抄袭匹配可以通过简单的截取的前个文本片段实现。上面的过程可用图2描述的基于排序的抄袭文本匹配模型描述如下：

针对图2所描述的基于排序的抄袭文本匹配模型，举例说明如下。设抄袭文本片段的句子分别为s₁、s₂、s₃和s₄，源文本片段的句子分别为r₁、r₂、r₃和r₄。根据数据集的标注，文本片段对(s₁,r₁)是一个抄袭匹配。简单起见，设抄袭匹配的标签是1(y_1,1＝1)，非抄袭匹配(s₁,r₂),(s₁,r₃)和(s₁,r₄)的标签是0(y_1,2＝0，y_1,3＝0，y_1,4＝0)，则抄袭匹配和非抄袭匹配可记录为(s₁,r₁,1)、(s₁,r₂,0)、(s₁,r₃,0)和(s₁,r₄,0)，且s₁的排序列表可表示为排序列表可作为训练用例来学习函数f。得出一个新文本片段s₂，和源文档中的句子集合，使用学到的函数f，s₂的排序列表的可能为如果将设为1，则文本片段对(s₁,r₂)将是一个抄袭文本匹配。

3.2抄袭文本匹配的排序算法

本节给出抄袭文本匹配的排序算法，学习图2对应的排序模型f。

给出可疑文档d_plg中的片段s_i，定义和是文本片段(s_i,r_u)和(s_i,r_v)的特征向量(特征向量的获取将在3.3描述)，其中y_i,u和y_i,v分别表示s_i与r_u和r_v的抄袭程度。设函数f是关于的线性函数：

用＞表示偏序关系，如果y_i,u＞y_i,v，表示对于可疑文档片段s_i，r_u排序在r_v前面，即下列不等式成立：

换句话说，对于偏序关系y_i,u＞y_i,v，如果则模型f发生了一个错误。因此，损失函数应该与定义在训练数据集上的排序错误相关。根据Collins等人的方法(Collins and Koo,2005)，排序错误发生在f将一个非抄袭匹配文档对排在抄袭匹配文档对之前，即：

其中，如果π是真，则[[π]]为0，否则[[π]]为1。最小化式(8)意味着排序学习系统应该在假设空间H上学习一个排序函数f∈H，使得f在训练数据T的n个可疑文档片段上，最大化下列不等式的数目：

直接优化上述问题被证明是NP难的(Joachims,2002)。Herbrich等人提出将上述学习问题形式化为在序对样例上的分类问题(Herbrich et al.,1999)。使用松弛变量(非负) 等式(8)可被表示为：

进一步的，等式(9)可被重写为：

注意，此处应用了新的向量表示偏好关系y_i,u＞y_i,v。令z表示r_u和r_v,的排序，则我们有：

这意味着根据r_u和r_v的排序，可以赋予向量一个正的标签z＝+1或一个负的标签z＝-1。由此，式(10)的优化问题转化为在序对上的分类问题。接受SVM(Cortesand Vapnik,1995)最大化正例和反例边界的思想，应用Ranking SVM，等式(11)等价于在序对向量上解决下面的二次最优化问题：

最小化:

使得:

ξ_u,v,k≥0,k＝1,...,n

其中，项控制模型的复杂度。式(11)可以理解为：使用定义在文档序对上的Hinge损失，对于可疑文档片段s_i，x_i,u为抄袭匹配对应的向量，x_i,v不是抄袭匹配对应的向量，y_u,v＝1，那么如果以边界1大于则没有损失，否则，损失为ξ_u,v,k。对于经RankingSVM学到的优化向量则最终的排序函数f为：

其中表示源文档片段与抄袭文档片段对的特征，表示算法要学习的特征权重向量，表示特征向量和特征权重向量的组合。

3.3基于METEOR评价指标的特征

在3.1中，本发明将选择s_i的抄袭源形式化为给定一个可疑文档的片段s_i，对源文档的片段列表d_src＝{(r₁,r₂,......,r_q)}的每个文本片段r_j，计算r_j是s_i的抄袭匹配文本的概率问题。在机器翻译(Machine Learning)中，使用评价指标评估是否一个机器翻译系统生成的翻译结果与源句子语义相等。受机器翻译的评价指标的启发，本发明将s_i视为r_j的应用同一种语言撰写的“翻译”文本，则，s_i对r_j的抄袭程度可以通过评价文本对(s_i,r_j)的翻译质量决定。由此，将机器翻译的评价指标引入到对文本抄袭程度的计算中。

据我们了解，尚未有研究使用机器翻译指标评价文本的抄袭程度。仅在与抄袭检测相似的文本释义识别领域有使用机器翻译的评价指标的研究。例如，Finch等人使用机器翻译的BLUE、NIST、WER和PER指标作为文本释义识别的特征(Finch et al.,2005)，Wan等人使用了BLUE评价指标作为文本释义识别特征(Wan et al.,2006)，Madnani等人对各类机器翻译指标在释义识别中的性能进行了比较(Madnani et al.,2012)等。

在机器翻译的评价指标中，本发明选择了METEOR(Banerjee and Lavie,2005)评价指标作为排序函数的特征。METEOR是一种基于unigram的词汇匹配，通过使用分段确切匹配、Porter stemmer映射和基于WordNet的同义词映射，每个可疑文档片段s和它的备选片段r不仅可以基于词和字符串比较，还能解决词的形态变异(例如具有唯一词干)以及处理同义词替换。其中，后两种特征特别适合检测高模糊的抄袭。

给定一对可疑文档片段s和源文档片段r，表示为(s,r)，本发明选择了METEOR的Precision、Recall、F1、Fmean、Penalty和METEOR Score作为特征。

该指标如表1所示。

表1基于METEOR的特征

4实验

第4节报告了实验结果与先进的文本对齐方法的性能比较。

本节报告本发明方法在抄袭检测数据集上的实验结果。4.1节介绍了实验所使用的数据集，4.2节介绍了抄袭检测的评价指标，4.3节介绍了实验的设置，包括基线方法的描述和参数训练，4.3节以PlagDet、Recall、Precision和Granularity为评价指标，展示了无论在低模糊抄袭检测还是高模糊抄袭检测中本发明方法均能够具有统计有效性地优于基线方法。

4.1数据集

在2012、2013和2014年评测抄袭检测文本对齐算法的公共可用文本对齐数据集PAN上，我们评价了本发明所提出的方法。根据PAN@CLEF的官方运行设置，本发明将这些数据及标注为PAN12training corpus、PAN12testing corpus,PAN13testing corpus1andPAN13testing corpus2。这些数据集包含PAN设计的各种抄袭类型，实验所用数据集的每一个子集的统计信息如表2和表3所示。

表2 PAN 2012文本对齐数据集统计信息

表3 PAN 2013文本对齐数据集统计信息

4.2实验设置

4.2.1基线方法

为了比较本发明方法的有效性，本发明选择Kong12(Kong et al.2012)和Sanchez-Perez14作为强基线方法。

Kong12方法在PAN@CLEF 2012的评测中，以PlagDet为评价指标，获得了PAN12testing corpus数据集以全部子集为评价对象的第一名(Potthast et al.,2012a)和PAN13 testing corpus2全部子集为评价对象的第一名(Potthast et al.,2013a)。该方法提出使用余弦距离和Jaccard系数以句子为单位获得抄袭匹配(Kong et al.2012)，然后使用一个启发式算法来合并这些匹配。详情可参考(Kong et al.2012)和(Kong etal.2013)。

Sanchez-Perez14在PAN@CLEF 2014的评测中，获得了PAN13testing corpus2上总分第一名(Potthast et al.2014；Sanchez et al.,2014)。类似于Kong等人(Kong etal.2012)的方法，Sanchez-Perez等人应用余弦距离和Dice系数计算两个句子的相似度，当相似度分别大于一个阈值的时，该句对被识别为抄袭匹配。一个类似于Kong12的基于启发式的方法被用于合并抄袭匹配。

另外，为了比较本发明所提方法的性能，本发明也选择了Oberreuter12和R.Torrejón13两个方法作为基线方法，其中Oberreuter12使用了基于字符的特征，R.Torrejón13使用了基于词的特征。

Oberreuter12以PlagDet为评价指标，该方法在PAN@CLEF 2013中获得了PAN12testing corpus总分的第一名和PAN13testing corpus总分的第二名(Potthast etal.2013a)。Oberreuter12方法应用了字符的18-gram作为特征来获得确切的匹配。

R.Torrejón13在2013年提交给PAN的所有算法中获得了总分第一名(Potthast etal.2013a)。该方法应用排序的词的3-gram和两种排序的词的1-skip-3-gram为特征来获得可疑文档和源文档的确切的匹配(Torrejón and Ramos,2013)。

下文中将本发明所提方法标注为RTMAPD。

4.2.2性能评价指标

本发明选择PAN@CLEF的官方的评价指标Precision,Recall,PlagDet和Granularity作为文本对齐的评价指标。

设S为数据集中的抄袭案例集合，R是抄袭检测算法检测出的抄袭案例结合，将一个抄袭案例描述为：s＝<s_plg,d_plg,s_src,d_src>，s∈S，表示d_plg和d_src中对应的抄袭字符，它存在于d_plg和d_src的抄袭片段s_plg和s_src中。类似的，一个抄袭片段r∈R，为抄袭检测算法检测出的抄袭案例。基于上述符号描述，PAN将S下的R的精确率Precision、召回率Recall定义为：

其中，如果r检测出了s，则s∩r等于r∩s，否则，s∩r为Φ。

为融合精确率和召回率，PAN定义了粒度指标Granularity：

其中，S_R∈S是S中包含的R中检测到的真正的抄袭案例，R_S∈R是R中包含的R所检测到的真正抄袭案例。

上述所有评价指标最终整合为一个单一的整体评价指标PlagDet用于评价文本对齐的性能，其定义如下所示：

其中，F1是Precision和Recall的加权调和平均数，其定义如下：

4.2.3参数训练

构建训练数据。为了学习排序模型，本发明利用了PAN12training corpus来构建训练数据。对于PAN12training corpus上抄袭案例的集合s＝<s_plg,d_plg,s_src,d_src>，首先将s_plg和s_src拆分为句子，对于s_plg中的句子s_i，s_src中与s_j具有最高余弦相似度的句子r_j被选作s_j的对应的抄袭匹配，用作训练数据中的正例。其他在d_src中却不在s_src中的句子按照它们与s_i余弦相似度排序，然后与s_i组合作为反例。训练中为每一个s_i构建了一个正例和二十个反例。

学习排序模型。在训练数据上使用学习了一个排序模型。

匹配获取。从效率和灵活性的角度出发，本发明的匹配获取采用了两个独立的步骤：备选抄袭匹配生成和抄袭匹配排序。在备选抄袭匹配生成中，可以文档和源文档首先被拆分成有一个句子组成的文本片段，然后使用Porter算法进行了词干提取并去除了停用词。首先在源文档中选择了与可疑文档的每个句子s_i的余弦相似度大于t₁的最高的前m句子，将这些句子与s_i组合作为备选抄袭匹配。

与信息检索中存在多个与查询相关的文档不同，对于抄袭文本片段s_i，仅有有限的n个抄袭源与其对应，而通常n又仅为1。故抄袭文本匹配问题中，利用学到的模型重排序备选抄袭匹配并且选择前n个句子作为s_i的抄袭匹配。

其中，参数t₁、m和n均基于训练数据以获得最优的PlagDet为目标训练，它们的取值分别是t₁＝0.31、m＝20、n＝1。

为了公平的与PAN评测中的基线方法比较，获得连续的抄袭片段，合并识别到的抄袭匹配文本，实验使用了与基线方法Kong12(Kong et al.,2012)一致的抄袭片段对齐方法：同样的抄袭匹配合并算法和后处理算法。该方法应用了一个基于启发式的算法将可疑文档和抄袭源文档中位置连续的片段或句子间距在一定距离阈值内的片段合并为对齐的抄袭片段。在后处理过程中，保留那些Jaccard系数高于阈值t₂的文本片段作为最终的抄袭文本片段。遵循基线方法Kong12，实验中将t₂设置为0.32(Kong et al.,2012)。

4.3实验结果

实验结果报告了本发明方法和基线方法在每一种抄袭类型上的PlagDet值。同时，实验结果中也列出了精确率Precision、召回率Recall和粒度Granularity作为参考。加重的值表示每一个抄袭类型子集上最好的结果，括号中的数字展示了本发明所提方法较基线方法的相对提升幅度，*展示了本发明应用单边t校验在p<0.05时具有统计有效性的优于基线方法Kong12和Sanchez-Perez14。斜体展示了在提交给PAN12和PAN13的所有算法中，不同抄袭类型子集上最高的PlagDet得分。实验中所报告的实验结果均是基于TIRA(Gollubetal.2012)评价平台上的评测结果或发布在文献(Potthast et al.,2012；2013；2014)中的结果。本发明方法称为RTMAPD。

表4和表5对比了RTMAPD和Kong 12的文本对齐性能。同时，为了比较的目的，根据(Potthast et al.,2012a；2013a)的报告，本发明也列出了Sanchez-Perez14、Oberreuter12和R.Torrejón三个方法在PAN12testing corpus和PAN13testing corpus2上的结果。

另外，在表4(e)中，我们也给出了Suchomel13的结果，该方法在PAN 2013总结抄袭子集上获得了第一名(Suchomel et al.,2013)。由于无法获得除Kong12外其他基线方法的细节，我们没有列出RTMAPD与这些方法的统计有效性分析。从实验结果可以看到，RTMAPD在两个数据集的十个子集上均获得了最好的结果。

表4RTMAPD与基线方法在PAN12Testing Corpus上使用抄袭片段对齐算法的文本对齐性能比较

(a)PAN12-Entire-Corpus

(b)PAN12-no-obfuscation-sub-corpus

(c)PAN12-low-obfuscation-sub-corpus

(d)PAN12-artificial-high-sub-corpus

(e)PAN12-simulated-paraphrase-sub-corpus

表5RTMAPD与基线方法在PAN13Testing Corpus2上使用抄袭片段对齐算法的文本对齐性能比较

(a)PAN13-Entire-Corpus2

(b)PAN13-no-obfuscation-sub-corpus

(c)PAN13-random-obfuscation-sub-corpus

(d)PAN13-translation-sub-corpus

(e)PAN13-summary-sub-corpus

表6比较了RTMAPD与基线方法在PAN13Testing Corpus1上的文本对齐性能。由于方法Oberreuter12和方法R.Torrejón13没有出现在PAN@CLEF 2013对数据集PAN13Testing Corpus1的评测报告中，我们也没有获得这些方法的运行细节和算法细节，因此下面的表格只列出了Kong12和Sanchez-Perez14的性能。

表6RTMAPD与基线方法在PAN13testing corpus 1上使用抄袭片段对齐算法的文本对齐性能比较

(a)PAN13-Entire-corpus

(b)PAN13-no-obfuscation-sub-corpus

(c)PAN13-random-obfuscation-sub-corpus

(d)PAN13-translation-obfuscation-sub-corpus

(e)PAN13-summary-obfuscation-sub-corpus

如表4、5和6所示，抄袭片段对齐通过将短的抄袭文本片段合并为对齐的长抄袭片段，改善了系统的召回率Precision和精确率Recall，从而使Granularity降低，提升了文本对齐的整体性能PlagDet。在与基线方法Kong12使用同样的合并算法的情况下，RTMAPD在大部分数据子集上具有统计有效性的用于基线方法。特别地，在高模糊抄袭检测子集PAN12artificial high sub-corpus、PAN12summary sub-corpus和两个摘要抄袭检测子集PAN13summary obfuscation sub-corpus上，RTMAPD显著地改善了文本被其他性能，这说明RTMAPD方法更适用于检测高模糊抄袭。在表4(e)、5(e)和6(e)上，RTMAPD的PlagDet指标比基线方法的最高分高于6.48％、11.53％和8.46％(Kong12and Sanchez-Perez14)。从这些实验结果可以看出本发明所提方法在结合了抄袭匹配合并后能够获得比基线方法更好的文本对齐性能。这也说明融合本发明提出的抄袭文本匹配算法，可以极大的提升文本对齐的性能。

在需要处理大量数据的需求下，模型的效率问题也是算法设计中非常重要的方面。在工作中，我们对本发明所提方法与基线方法Kong12和Sanchez-Perez14的运行时间进行了比较，图3展示了不同文本对齐方法的有效性比较。所有的方法都在同一台机器上以单线程运行，机器的主要配置为Xeon CPU E5-2620 2.00GHz和32GB RAM。所有的方法使用了同样的输入，计时从获得输入到产生文本对齐结果为止。

图3说明RTMAPD的处理时间低于基线方法。分析其主要原因在于合并匹配的抄袭匹配的时候计算量的缩减。提现方法而言，在可疑文档和抄袭源文档中超过一定阈值的相似句对均被作为抄袭匹配的备选参与合并过程，但是对于RTMAPD而言，每一个可以文档中的句子，只有一个源文档中的句子作为其匹配，这极大的缩减了需要合并的匹配抄袭匹配的数量。这也说明本发明所提方法更适用于大规模数据量的应用。

5结论(对本发明技术效果的验证)

抄袭文本匹配是抄袭检测的核心任务，在当前研究中，基于启发式的方法，是获取抄袭文本匹配的主要方法，正如我们所知，与机器学习方法相比，基于启发式的方法缺乏持续改进的能力。然而，统计机器学习方法尚未被应用在抄袭文本匹配中。针对上述问题，本发明提出应用基于序对的排序学习方法解决抄袭检测的高模糊抄袭文本匹配问题，并提出使用机器翻译的METEOR评价指标来捕获词汇与语义的相似性。应用PAN2012和PAN2013的抄袭检测数据集对该方法进行了评价，并与PAN2013、2013和2014评测中获得最好性能的方法进行了比较。实验结果展示，与基线方法相比，本文方法的性能在五个不同的抄袭类型的十二个文档集合上获得了具有统计意义的显著提升。特别是在高模糊抄袭和总结抄袭子集上，本文方法相对基线方法在评价指标Plagdet上分别提高了22％和43％。此外，本文方法时间效率也优于基线方法。

本发明还可有其它多种实施方式或实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

本发明中的参考文献

[1]Potthast M,Gollub T,Hagen M,et al."Overview of the 4thinternational competition on plagiarism detection".Proc.CLEF 2012Conferenceand Labs of the Evaluation Forum,Evaluation Labs and Work-shop-working NotesPapers.The Rome,Italy,pp.101–128,Sept.2012.

[2]Potthast M,Hagen M,Gollub T,et al."Overview of the 5thinternational competition on plagiarism detection".Proc.CLEF 2013Conferenceand Labs of the Evaluation Forum.The Valencia,Spain,Sept.2013.

[3]Potthast M,Hagen M,Beyer A et al."Overview of the 6thinternational competition on plagiarism detection".Proc.CLEF 2014Conferenceand Labs of the Evaluation Forum,Evaluation Labs and Work-shop-Working NotesPapers.The Sheffield,UK,pp.845–876.Sept.2014.

[4]Alzahrani S M,Salim N."On the use of fuzzy information retrievalfor gauging similarity of Arabic documents".Proc.2nd IEEE InternationalConference on the Applications of Digital Information and Web Technologies,ICADIWT'09.The London,UK,pp.539-544,Aug.2009.

[5]Banerjee S,Lavie A."METEOR:An automatic metric for MT Evaluationwith Improved Correlation with Human Judgments".Proc.ACL Workshop onIntrinsic and Extrinsic Evaluation Measures for Machine Translation and/orSummarization.pp.65-72,Jun.2005.

[6]Grozea C,Gehl C,Popescu M."ENCOPLOT:Pairwise sequence matching inlinear time applied to plagiarism detection".Proc.3rd PAN Workshop onUncovering Plagiarism,Authorship,and Social Software Misuse.San Sebastian,Spain,pp.10-17,Sept.2009.

[7]Oberreuter,G.Carrillo-Cisneros,D.Scherson,I.D.,&Velásquez,J.D."Submission to the 4th International Competition on Plagiarism Detection".CLEF2012 Conference and Labs of the Evaluation Forum,Evaluation Labs and Work-shop-working Notes Papers.The Rome,Italy,Sept.2012.

[8]Torrejón D A R,Manuel J,Ramos M."Text alignment module in CoReMo2.1 plagiarism detector notebook for PAN at CLEF 2013".Proc.CLEF 2013Conference and Labs of the Evaluation Forum.The Valencia,Spain,Sept.2013.

[9]A,Basile C,Degli Esposti M,et al."Word length n-Gramsfor text re-use detection".Proc.International Conference on Intelligent TextProcessing and Computational Linguistics.Springer Berlin Heidelberg,pp.687-699,Hanoi,Vietnam,Mar.2010.

[10]A,Rosso P."On automatic plagiarism detection based onN-grams comparison".Proc.of European conference on InformationRetrieval.Toulouse,France,pp.696-700,Apr.2009.

[11]Murugesan M,Jiang W,Clifton C,et al."Efficient privacy-preservingsimilar document detection".The International Journal on Very Large DataBases.vol.19,no.4,pp.457-475,2010.

[12]Zhang H,Chow T W S."A coarse-to-fine framework to efficientlythwart plagiarism".Pattern recognition.vol.44,no.2,pp.471-487,2010.

[13]Leilei K,Haoliang Q,Shuai W,et al."Approaches for candidatedocument retrieval and detailed comparison of plagiarism detection".Proc.CLEF2012 Conference and Labs of the Evaluation Forum,Evaluation Labs and Work-shop-working Notes Papers.The Rome,Italy,Sept.2012.

[14]Sanchez-Perez M.A.,Sidorov G.,Gelbukh A.F."A Winning Approach toText Alignment for Text Reuse Detection at PAN 2014".Proc.CLEF 2014Conference and Labs of the Evaluation Forum,Evaluation Labs and Work-shop-Working Notes Papers.The Sheffield,UK,pp.1004-1011.Sept.2014.

[15]Elhadi M,Al-Tobi A."Use of Text Syntactical Structures inDetection of Document Duplicates".Proc.3rd IEEE International Conference onDigital Information Management.The London,UK,pp.520-525,Nov.2008.

[16]Potthast M,A,Stein B,et al."Cross-languageplagiarism detection".Language Resources and Evaluation,vol.45,no.1,pp.45-62,2011.

[17]Alvi F,Stevenson M,Clough P D."Hashing and Merging Heuristics forText Reuse Detection".Proc.CLEF 2014 Conference and Labs of the EvaluationForum,Evaluation Labs and Work-shop-Working Notes Papers.The Sheffield,UK,pp.939-946.Sept.2014.

[18]Glinos D.S."A Hybrid Architecture for Plagiarism Detection".Proc.CLEF 2014 Conference and Labs of the Evaluation Forum,Evaluation Labsand Work-shop-Working Notes Papers.The Sheffield,UK,pp.958-965.Sept.2014.

[19]Abnar S,Dehghani M,Zamani H,et al."Expanded N-Grams for semantictext alignment notebook for PAN at CLEF 2014".Proc.CLEF 2014 Conference andLabs of the Evaluation Forum,Evaluation Labs and Work-shop-Working NotesPapers.The Sheffield,UK,Sept.2014.

[20]Lyon C,Barrett R,Malcolm J."A theoretical basis to the automateddetection of copying between texts,and its practical implementation in theFerret plagiarism and collusion detector".Plagiarism:Prevention,Practice andPolicies.pp.15-22,2004.

[21]Su Z,Ahn B R,Eom K Y,et al."Plagiarism Detection Using theLevenshtein Distance and Smith-Waterman Algorithm".Proc.3rd IEEEInternational Conference on Innovative Computing Information and Control,IEEEComputer Society.pp.569,2008.

[22]Elhadi M,Al-Tobi A."Duplicate Detection in Documents and WebpagesUsing Improved Longest Common Subsequence and Documents SyntacticalStructures".Proc.4th International Conference on Computer Sciences andConvergence Information Technology,Seoul,Korea,Nov.,2009.

[23]He H,Garcia E A."Learning from Imbalanced Data".IEEE Transactionson knowledge and data engineering.vol.21,no.9,pp.1263-1284,2009.

[24]Collins M,Koo T."Discriminative reranking for natural languageparsing".Computational Linguistics.vol.31,no.1,pp.25-70,2005.

[25]Joachims T."Optimizing search engines using clickthrough data".Proc.8th ACM SIGKDD international conference on Knowledge discovery and datamining,ACM.The Edmonto,pp.133-142,Jul.2002.

[26]Herbrich R,Graepel T,Obermayer K."Large margin rank boundariesfor ordinal regression".pp.115-132,2000.

[27]Cortes C,Vapnik V."Support-vector networks".Machinelearning.vol.20,no.3,pp.273-297,1995.

[28]Torrejón D A R,Ramos J M M."CoReMo 2.3 Plagiarism Detector TextAlignment Module-Notebook for PAN at CLEF 2014".Proc.CLEF 2014 Conference andLabs of the Evaluation Forum,Evaluation Labs and Work-shop-Working NotesPapers.The Sheffield,UK,Sept.2014.

[29]Gollub T,Burrows S,Stein B."First experiences with TIRA forreproducible evaluation in information retrieval".Proc.SIGIR 12 Workshop onOpen Source Information Retrieval(OSIR12),Portland,Oregon,pp.52–55,Aug.2012.

[30]Suchomel,Jan Kasprzak,and Michal Brandejs."Diverse Queriesand Feature Type Selection for Plagiarism Discovery—Notebook for PAN at CLEF2013".Proc.CLEF 2012 Conference and Labs of the Evaluation Forum.TheValencia,Spain,Sept.2013.

Claims

1.一种基于排序的抄袭检测文本匹配方法，其特征在于，所述方法的实现过程为：

步骤1、构建基于排序的抄袭文本匹配模型：

将基于步骤2获取，将基于步骤3的学习算法获得；

步骤2、基于METEOR评价指标提取排序特征

表1基于METEOR的特征

定义和是一对文本片段(s_i,r_u)和(s_i,r_v)的特征向量，y_i,u和y_i,v分别表示s_i与r_u以及s_i与r_v的抄袭程度；用＞表示偏序关系，如果表示对于可疑文档片段s_i，r_u排序在r_v前面，即下列不等式成立：

对于偏序关系如果则模型f发生了一个错误；因此，损失函数应该与定义在训练数据集上的排序错误相关；

直接优化上述问题被证明是NP难的；

使用松弛变量(非负)式(4)可被表示为：

进一步的，等式(5)可被重写为：

用新的向量表示偏好关系令z表示r_u和r_v，的排序，则有：

最小化:

使得:if y_u,v,k＝1,

ξ_u,v,k≥0,k＝1,...,n

其中，项控制模型的复杂度；

2.根据权利要求1所述的一种基于排序的抄袭检测文本匹配方法，其特征在于，步骤1所述基于排序的抄袭文本匹配模型的构建过程为：

定义p和q分别是d_plg和d_src中的文本片段的数目；

给定s_i∈d_plg,表示在d_src中找到s_i最可能的抄袭匹配；

y_i,u>y_i,v(10)给定一个文本片段对(s_i,r_j)，设函数的输出与y_i,j成正比：

其中是函数f的参数；

根据不等式(10)和(11)，函数f应满足下列不等式