CN106960003A

CN106960003A - 抄袭检测中的基于机器学习的源检索的查询生成方法

Info

Publication number: CN106960003A
Application number: CN201710080673.6A
Authority: CN
Inventors: 孔蕾蕾; 齐浩亮; 韩中元; 韩咏; 郝振元
Original assignee: Heilongjiang Institute of Technology
Current assignee: Heilongjiang Institute of Technology
Priority date: 2017-02-15
Filing date: 2017-02-15
Publication date: 2017-07-18

Abstract

抄袭检测中的基于机器学习的源检索的查询生成方法，涉及信息检索技术领域，具体涉及到信息检索技术中、查询的生成技术。本发明解决了现有技术的源检索技术中，采用基于启发式方法进行查询生成的方法存在的依赖专家经验、缺乏持续改进的能力的问题。本发明所述的方法为：针对一个可疑文档片段s_k，采用现有n种查询生成方法获得一组备选查询集合将该集合内的所有备选查询进行排序，获得一个排序列表；将所述排序列表的前面m个查询作为可疑文档片断s_k的查询本发明克服了现有源检索技术领域中针对查询生成方法的固有研究思路，而是充分的利用了不同源检索方法在同一可疑文档片段上具有不同源检索性能的特点。

Description

抄袭检测中的基于机器学习的源检索的查询生成方法

技术领域

本发明涉及信息检索技术领域，具体涉及到信息检索技术中、查询的生成技术。

背景技术

随着计算机网络技术的发展和普及，网络资源被广泛的应用，进而推动了网络搜索引擎的迅速发展。搜索引擎能够让人们充分利用网络资源进行学习、沟通和娱乐。网络资源和搜索引擎技术的发展在给人们带来方便的同时，也带来了一些负面作用，例如：在教学、科研领域中，有些人利用网络资源和搜索引擎进行抄袭，对于这种抄袭现象、社会中称之为学术造假。随着这种学术造假事件的频频曝光，催生出一种鉴别这种“学术造假”的新技术，即：抄袭检索技术。该抄袭检索技术的主要目的是针对一篇可能存在抄袭的文档(以下称：可疑文档)在网络资源中进行检索，进而获得抄袭源的文档集合的技术。

近年来，抄袭检测已经吸引了学术界和工业领域的巨大关注(Potthast et al.,2012a)，针对抄袭及其自动检测的问题，研究者开展了大量的研究，开发了许多针对抄袭检测的软件。在抄袭检测的研究领域中，最值得注意的是欧盟跨语言评估论坛(Cross-Language Evaluation Forum，CLEF)组织的抄袭检测算法的评测，该评测加速了抄袭检测算法及其相关研究的发展。抄袭检测与其他两个原创性检查任务一起，被CLEF称为PAN(International Evaluation Competition on Uncovering Plagiarism,Authorship,andSocial Software Misuse，抄袭、作者身份识别及社会性软件滥用国际评测)。

现有的抄袭检索技术的过程一般为三个步骤，参见图1所示：

第一步，抄袭源检索(以下简称“源检索”)，识别出可疑文档d_susp的备选抄袭源文档集合D_src。

第二步，文本对齐，对于备选抄袭源文档集合D_src中的每篇文档d_src∈D_src，将其与可疑文档d_susp进行一一比对，识别出具体的备选抄袭片段。

第三步，后处理，即：对识别出的备选抄袭片段进行过滤，从而获得决策最终的抄袭文本片段。

该种检索技术与原有信息检索技术的主要区别在于：一、在信息检索中，查询由用户提出，并显式的提交给搜索引擎，而抄袭检测涉及的检索技术只提供待检测的可疑文档文档，而不提供明确的查询，需要根据待检测文档提取需提交给搜索引擎的查询；二、检索结果一般为多个查询检索结果的并集，并且该并集中的多篇文档要分别与可疑文档的具体片段对应，即：要确定文档中某段文字的抄袭对象具体是哪篇文章。

从上述现有抄袭检索技术的基本过程能够获知，源检索是抄袭检测技术中的核心任务之一。源检索，是指从可疑文档检索出它的抄袭源文档的过程。国际评测组织PAN@CLEF定义了源检索的具体任务，并且构建了用于评价抄袭源检索算法的公共数据集。抄袭源检索的定义为：给定一篇可疑文档和一个web搜索引擎，源检索的任务是检索出可疑文档所复用的抄袭源文档的集合。即：源检索需要检索的范围是web规模的文档集合，就意味着源检索需要将可疑文档片段与web规模的文档集合要做穷尽的一一比较来获得对应的抄袭源，这种对比的工作量是相当大的。现有的源检索的基本过程，参见图2所示：

查询的生成，首先，将可疑文档d_susp的文本按照现有文本划分规则划分为若干文本片段；所述现有文本划分规则采用现有的文本检索技术中常用的文本划分方法即可，例如：可以是按照句子进行划分、按照段落进行划分等等；然后，从一个给定的可疑文本片段中提取若干词，由所述的若干词组成用于源检索的查询，完成查询的生成；

检索，根据获得的查询的集合，根据源检索算法安排相应查询提交给搜索引擎的顺序，并下载搜索引擎的检索结果，既：文档；

下载过滤，应用过滤算法过滤检索到的所有文档，获得需要进一步与可疑文档对齐的文档，然后下载这些文档，这些文档的集合就是备选抄袭源文档集合D_src。

从上述源检索的基本过程能够确定，源检索的过程主要包含两个主要的部分：查询的生成和下载过滤。显然，“查询”的质量将直接影响源检索的整体性能，因此，查询的生成被认为是源检索算法中最重要的部分之一，即：查询的质量越好，检索到与可疑文档匹配的抄袭源文档的机会越多、准确率也越高。

鉴于上述原因，近年来，研究者针对可疑文档的查询的生成开展了大量研究工作。总结起来，现有方法主要基于启发式方法实现的。例如：使用文档级或段落级的高词频词(term-frequency,TF)做为查询(Prakash and Saha,2014)、使用具有高词频-逆文档频率的词 (term frequency-inverse document frequency,TFIDF)做为查询(Kong et al.,2012；Elizalde, 2013；Suchomel et al.,2012)、使用命名实体做为查询(Elizalde,2013)、使用文档级的稀有词做为查询(Haggag and El-Beltagy,2013)或者仅使用名词、动词和形容词做为查询 (Jayapal,2012；Williams et al.,2013；Williams et al.,2014a；Zubarev and Sochenkov,2014)等。虽然这些启发式方法在源检索中达到了一定的性能，比如在PAN@CLEF2013中获得了第一名的Williams方法，在fscore上取得了0.47的结果(Potthast et al.,2013a)。然而，启发式方法缺乏理论支持，很难确定启发式方法所找到的解决方案是否是最优方案。这使得基于启发式的方法缺乏持续改进的能力，针对源检索性能的改进只能通过不断的修改原方法的参数和尝试新的启发式方法获得。

发明内容

为了解决现有技术的源检索技术中，采用基于启发式方法进行查询生成的方法存在的缺乏持续改进的能力的问题，本发明提供了一种抄袭检测中的基于机器学习的源检索的查询生成方法。

本发明所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法为：

针对一个可疑文档片段s_k，采用现有n种查询生成方法获得一组备选查询集合将该集合内的所有备选查询进行排序，获得一个排序列表；

将所述排序列表的前面m个查询作为可疑文档片断s_k的查询

所述备选查询集合中的备选查询，是采用n种现有源检索查询的生成方法针对可疑文档片断s_k获得的，其中是采用现有查询生成方法1在可疑文档片断 s_k上获得的备选查询。

所述现有查询生成方法为TF、TFIDF、EW，BM25或者Williams等现有任何一种查询生成方法。

上述将备选查询集合内的所有备选查询进行排序的原则是依据每个查询对应的源检索的评价指标的从高到低进行排序。所述排序是采用机器学习方法实现的。

上述机器学习方法中的训练用例T，是通过源检索的现有数据构建的，具体方法为：

所述训练用例T由针对源检索的现有数据中的可疑文档d_susp中所有片断的训练用例组成的数据集合，其中可疑文档d_susp中第k个片段s_k对应的训练用例为：

其中，表示可疑文档片段d_susp中的第k个片段s_k中的第i个备选查询，i为正整数：

函数表示现有查询生成方法i，

为备选查询的质量标签，它表示以备选查询为查询执行源检索时的评价指标，

标签通过：获得，其中eval()是评价源检索性能的函数，sr()为检索函数，为使用备选查询作为查询、通过检索函数sr()获得的返回检索的结果的文档集合；

将训练用例中的所有数据依据标签组成多个偏序关系，形成针对第k个片段 s_k的训练用例。

在现有技术中，在同样的文本片段上，采用不同方法生成的查询可以获得不同的源检索结果，但确没有一种方法生成的查询能在所有的文本片段上始终优于其他方法。

针对不同查询对源检索性能的影响，在一些随机选择的数据上进行了如下分析，参见图 3所示：

首先将可疑文档拆分成片段，每个可疑文档片段由5个句子组成。然后，在每个可疑文档片段上，分别使用5个查询生成方法，TF(Prakash and Saha,2014),TFIDF(Kong etal., 2012；Elizalde,2013；Suchomel et al.,2012),EW(Gillam,2013),BM25(Kong etal., 2012),Williams(Williams et al.,2013；2014a；2014b)，提取出5组不同的查询。分别应用这 5组不同的查询执行源检索，以F-score为评价指标评价不同查询的源检索性能，在10个可疑文本片段上，则5个方法所获得的F-score参见图3所示。

根据图3所示能够确定，每种查询生成方法在不同的文本片段上都可能取得最高的 F-score。例如，在可疑文档片段1上，TF方法获得了最高的F-score，而在可疑文档片段2和8上，TFIDF方法获得了最高的F-score，在可疑文档片段4,7,9上，Williams方法获得了最高的F-score，在可疑文档片段4上，Williams和BM25方法均获得了最高的F-score。

这种现象在源检索中广泛存在。采用上述5个方法在3500段可疑文本片段上的统计获得最高的F-score的次数，统计结果为：

Method	TF	TFIDF	EW	BM25	Williams
						最优次数	1260	1445	1285	1363	1391

上述表格中获得最高的F-score的次数统计的总次数之和不为3500，其原因在于，在同样的文本片段上，不同方法在同一文本片段上可能生成了相同的查询，或者检索到了同样的源文档，或者检索到的真正的抄袭源文档的数目相同，因此获得了同样的F-score，因为在一个可疑文本片段上取得同样F-score的方法被分别加入到其各自最高次数统计的数据中，故统计数字的和不为3500。

重新审视图3的例子。在可疑文档片段1上，TF方法选择的查询获得了最佳的F-score，但是在可疑文档片段2上，TFIDF方法获得了最佳的F-score，EW方法获得的F-score优于 BM25方法和Williams方法生成的查询，并且这三个方法的F-score均优于其他两个方法。因此，在不同的文本片段上，每个基线方法都有机会获得最好的源检索性能。另一方面，不同查询在同一文档片段上可以获得不同的源检索性能。这使得在一个可疑文档片段上，可以观察到一些查询比其他查询的源检索性能更好，基于此，可以获得不同查询关于源检索性能 F-score的一个排序。本发明用符号“>>”定义这种排序偏好，则可疑文档片段1上的排序信息可以表示为：

此处，表示该查询是经方法i在可疑文档片段s₁上提取出来的。

显然，在一个给定的可疑文档片段s_i上，当执行源检索的时候，哪一组查询可能获得最佳的源检索性能呢？对于片段1来说，是最好的选择，在片段1上，TF方法可以获得最高的F-score；对于片段2来说，是最好的选择，在片段2上，TFIDF方法可以获得最高的F-score；但是对于可疑文本片段3来说，EW方法和TFIDF方法提取的查询都是该文本片段最好的查询选择，因为它们获得了同样最高的Fscore值。但是，在这个文本片段上，如果我们选择了TF方法生成的查询，则Fscore将低于0.2。可见，不同查询在同一文档片段上源检索的性能差异较大。因此，利用不同查询在同一文本片段上的性能差异，可以获得具有偏序关系的不同查询依据源检索评价指标的偏序序对，源检索查询生成的目标是获得每个文本片段上最好的那些查询。本发明将源检索的查询生成问题形式化为一个排序问题，算法的目标是根据源检索的评价指标，在每个文本片段上对不同的查询排序，然后选择排序在前面的那些查询。

本发明克服了现有源检索技术领域中针对查询生成方法的固有研究思路，而是充分的利用了不同源检索方法在同一可疑文档片段上具有不同源检索性能的特点。在一个可疑文档片段上，不同的查询生成方法产生了不同的查询，应用这些查询执行源检索产生了不同的源检索性能。本发明的目标是利用排序学习方法选择那些更可能获得好的源检索性能的查询，这为抄袭检测的源检索提出了一个框架。对于一个新的查询生成方法，应用本发明提出的方法，可以很容易的将新的查询生成方法获得的查询融合到该框架中，用于生成备选的查询。

值得注意的是，因为文档的关键词提取任务和源检索任务的目标不同，文档的关键词并不一定适用于直接作为源检索的查询词。源检索的查询生成的目标是应用生成的查询词检索抄袭源，而文档的关键词提取任务的目标是找到精确而简洁的表示文档内容的词。正如我们所知，抄袭通常通过释义和总结等手段来改变文本的外表(Alzahrani etal.,2012)，源文档中的词通常被抄袭者刻意的替换和改变。因此，代表文档片段主题的关键词对于源检索而言并不一定是好的查询词。因此，本发明并没有采用关键词作为源检索的查询词。

使用局部排序的方法优化源检索在段落级上的性能是本发明主要采取的策略。最终可疑文档的抄袭源是每个段落上查询检索结果的并集。对于一篇可疑文档来说，以评价指标为例，每个文档片段上对F-score的局部优化并不意味着全篇可疑文档F-score的优化。然而，由于不能获取抄袭发生的具体片段，在每个片段上检索抄袭源是源检索必要步骤。在这个条件下，目标被转化为获得每个片段上最好的F-score。在发明中，上述过程通过使用排序学习方法在每个文本片段上选择最好的查询实现F-score的优化。

查询生成是抄袭检测源检索的核心任务。当前研究主要使用了基于启发式的方法。正如我们所知，与机器学习方法相比，启发式方法缺乏持续改进的能力。然而，机器学习在源检索的查询生成中尚未获得应用。为解决这一问题，本发明将源检索的查询生成形式化到一个排序学习框架下，使用基于序对的排序学习来解决源检索的查询生成问题，同时，本发明也提出了源检索训练用例的构造方法。

附图说明

图1是现有抄袭检索技术的过程示意图。

图2是现有源检索算法的过程示意图。

图3是不同查询在同一文本片段上获得不同的源检索性能，图中表示的一共有10个可疑文本片段分别采用五种查询生成方法获得的查询应用于源检索中对应的原检索性能的对比。图中纵坐标表示采用评价指标F-score获得的评价结果，横坐标表示可疑文本片段 (Suspicious Document Segments)；图中的“┼”表示采用TF查询生成方法获得的查询应用于源检索中对应的源检索性能，“▉”表示采用TFIDF查询生成方法获得的查询应用于源检索中对应的源检索性能，“▲”表示采用EW查询生成方法获得的查询应用于源检索中对应的源检索性能，“◇”表示采用BM25查询生成方法获得的查询应用于源检索中对应的源检索性能，“＊”表示采用Williams查询生成方法获得的查询应用于源检索中对应的源检索性能。

图4是本发明所述的基于机器学习的抄袭检测中源检索的查询的生成方法示意图。

图5是抄袭检测检索训练用例在一个文本片断s_k上的构建过程。

具体实施方式

具体实施方式一、本实施方式所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法为：

将所述排序列表的前面m个查询作为可疑文档片断s_k的查询

本实施方式中，所述备选查询集合的备选查询，是采用现有源检索查询生成方法在可疑文档片断s_k中提取的，其中是采用现有查询生成方法1在可疑文档片断s_k上提取出来的备选查询。

本实施方式中所述的现有源检索查询生成方法是现有已知的查询生成方法，例如：TF、 TFIDF、使用命名实体做查询、使用文档级的稀有词做查询或者仅使用名词、动词和形容词做查询。

具体实施方式二、本实施方式是对具体实施方式一所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法的进一步限定，本实施方式中，将该集合内的所有备选查询进行排序的原则是依据每个查询对应的源检索的评价指标的从高到低进行排序。

所述源检索的评价指标，是指现有对源检索的检索结果进行评价的评价方法获得的指标，表示源检索的质量的好坏。本实施方式中，限定对被选查询的排序依据是源检索的评价指标，即：选择评价指标相对比较高的查询方法获得的查询作为最终的查询，进而提高源检索的质量。

具体实施方式三、本实施方式是对具体实施方式一所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法的进一步限定，本实施方式中，所述排序是采用机器学习方法实现的。

具体实施方式四、本实施方式是对具体实施方式三所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法的进一步限定，本实施方式中，所述机器学习方法中的训练用例T，是通过源检索的现有数据构建的，具体方法为：

函数表示现有查询生成方法i，

具体实施例：下面通过举例方式进一步说明本实施方式所述的训练用例T的构建过程。

参见图5所示，可疑文档片段s₂为：

In what follows,we give a detailed overview of Barack Obama'sFamily.We shed light on himself,his immediate and extended family,includingmaternal and paternal relations.Moreover, we give insights into the relationsof Michelle Obama,Barack Obama's wife,as well as some distant relations ofboth.Barack Obama Barack Hussein Obama II is the 44th and current Presidentof the United States.He is the first African American to hold theoffice.Obama was the junior United States Senator from Illinois from2005until he resigned following his election to the presidency.

首先，选择现有的五种查询生成方法TF、TFIDF、EW、BM25与Williams方法，分别针对片断s₂获得五个备选查询的方法可以描述为：

采用TF方法获得的备选查询：

采用TFIDF方法获得的备选查询：

采用EW方法获得的备选查询：

采用BM25方法获得的备选查询：

采用Williams方法获得的备选查询：

表示采用第i种查询生成方法获得查询的函数。

上述每组备选查询中，分别计算片段s₂中每个词的TF、TFIDF、EW、BM25与Williams值，然后按分值降序排序，将排序在前10的词组成一个查询，获得了最终的五个备选查询：

设检索函数sr为ChatNoir(Potthast et al.,2012b)提供的抄袭源检索函数，应用评价指标F-score(Potthast et al.,2013a)作为评价函数eval，得到上述五个备选查询对应的评价结果：

则针对片断s₂上的一组训练用例表示如下：

使用上面的训练用例，则可以获得片断s₂上的7个偏序关系：

上述具有偏序关系的查询将作为训练用例提交给学习算法学习排序函数以得到s₂上的备选查询的排序列表。

具体实施方式五、本实施方式是对具体实施方式五所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法的进一步限定，本实施方式中，所述现有查询生成方法为TF、 TFIDF、EW，BM25或者Williams。

具体实施方式六、本实施方式是对具体实施方式五所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法的进一步限定，本实施方式中，所述评价源检索性能的函数 eval()为现有针对源检索的性能的评价系统的函数。

具体实施方式七、本实施方式是对具体实施方式五所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法的进一步限定，本实施方式中，所述评价源检索性能函数 eval()为源检索的评价指标函数F-score(F-score是正确抄袭源文档的函数)。

具体实施方式八、本实施方式是对具体实施方式五所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法的进一步限定，本实施方式中，采用机器学习方法实现排序方法中，基于训练用例T实现备选查询排序的学习算法为：

将训练用例表示为其中是备选查询的特征向量，为表示备选查询与第k个文档片段s_k、以及第j个可疑文档d_j之间的匹配关系，

给出一个独立同分布的训练用例集合T，该训练数据集包含n个可疑文档片段s_k，设s_k上查询的目标排序为表示根据每个查询的标签获得的查询的实际排序：

进一步，问题被转化为在一个排序函数的集合F中选择一个排序函数f，使得在排序函数f的作用下，s_k上的排序最大可能的近似于其实际排序考虑下面的线性排序函数：

其中是通过学习调节的权重向量，是的特征向量。

算法需要在包含n个可疑文档片段的训练数据集T上找到使下面的不等式数目成立最多的权重向量

直接生成上面的结果被证明是NP难问题(Hoffgen et al.,1995)，通过引入一个非负的松弛变量使得上述公式转换成：

进一步，将上述等式被重写，获得重写后的等式：

通过上述重写后获得的等式，排序问题等价于在序对向量上的分类问题。基于序对向量，定义u⁺和u^-分别为在训练数据集合上为学习参数的所需的正例和反例，如下所示：

正例：

反例：

考虑训练数据的规模(仅有几千个有效的序对)，采用典型的适用于小样本的学习算法 SVM(Cortes and Vapnik,1995)最大化正例和反例的边界，学习排序函数，则重写后的等式通过在序对向量上最小化等式实现，

其中，c是表明对训练错误的惩罚系数，我们使用Ranking SVM(Joachims,2002)学习优化的

上述提及的特征向量在表达同一个训练用例时有12个表达方式，分别是：

其中，k_m表示中的一个词，C表示文档集合，|dj|表示文档dj中词项的数目，N是文档集合中包含的所有文档数，tf(k_m,d_j)表示词k_m在文档dj中出现的次数，即词频(TermFrequency)，idf(k_m)表示词km的逆文档频率，其定义如下：

其中n_k是文档集合C中的至少出现了一次词km的文档的数目，avdl和avsl是文档d_j和 s_k中平均的词项数，k₁和b是两个常量参数，设置为k₁＝2.0，b＝0.75。

上述12个特征向量是通过下述方法获取的：

对于来说，除了可疑文档d_j和可疑文档片段s_k，没有任何其他可以利用的信息。参考标准的文档检索特征(Cao et al.,2006；Nallapati,2004)，设计了仅由一个查询和一个文档决定的特征。设是备选查询，s_k是所来源的可疑文档片段，d_j是s_k所属的文档。将视作查询，s_k与d_j分别视作文档，得到了12个用于表达一个训练用例的特征向量在一些特征值上应用了log来缩减大数的影响。

下面，通过实验验证本发明所述的方法获得的技术效果：

本实验所采用的数据集：

采用基于Webis2012文本复用数据集Webis-TRC-2012(Potthast et al.,2013b)作为本实验的数据集，文献(Potthast et al.,2013b)详细描述了该数据集的构建和结构。在PAN2013 训练数据和测试数据上，对本发明提出的方法做出了评价。这两个数据集均来自 Webis-TRC-2012(Potthast et al.,2013a；2014)，分别包含了40和58个可疑文档。数据集的统计信息如下表所示。

实验数据集统计信息

根据PAN的设置，本实验选择抄袭源文档集合ClueWeb 09数据集。该集合包含 1,040,809,705个web页面，由10种语言组成，其中一半是英语((Potthast et al.,2013a)。ClueWeb09是每年TREC评估会议上被广泛接受的评估检索模型的数据集。

本实验所采用的性能指标为：

给定一个可疑文档d_susp，d_susp包含了抄袭的文本片段，这些文本片段来源于源文档集合 D_src中的文档。设源检索算法的检索结果的文档集合为D_ret，PAN用精确率、召回率和F-score 来评价源检索算法。

由于D_src来源于ClueWeb数据集，ClueWeb包含了部分相同或相似的web文档，PAN将这些文档称为“重复文档”，因此评价源检索算法必须考虑这些相同或相近的web文档的影响。对于任一d_ret∈D_ret，评价指标计算方法使用一个重复文档检测器来判断d_ret是否是一个正确的检测结果(Potthast et al.,2013a；2014)，即，是否存在一个d_susp的真正的抄袭源d_src∈D_src与d_ret为重复文档。对于文本对d_src和d_susp，如果下面的条件满足，则可将d_ret视为一个正确的检测结果：(1)d_ret＝d_src,(2)d_ret和d_src的3-gram的Jaccard相似度大于0.8，或者 5-gram的Jaccard相似度大于0.5，或者8-gram的Jaccard相似度大于0，或者(3)已知d_susp的片段是从d_src复用来的，这些片段包含在d_ret中。文献(Hagen et al.,2015)详细描述了上述定义。本发明中，如果文档d₁是d₂的正确的检测结果，则记为positiveDet(d₁,d₂)。定义：

基于上述描述，PAN将源检索的精确率Precision定义为：

召回率Recall定义为：

则性能指标F-score为：作评价查询的质量函数eval。

为了评价源检索结果D_ret的性能，PAN计算源检索算法提交给搜索引擎的查询数和请求的下载数以及当第一个抄袭源被检索到时，已向搜索引擎提交的查询数和请求的下载数。这几个评价指标被PAN标记为Total Workload of Queries and Downloads，Workload to the First Detection of Queries and Downloads。从源检索代价的角度看，这些性能指标的值越小越好。

具体实验设置：

本实验选择了Williams方法(Williams et al.,2014b)作为强基线方法与本发明提出的基于机器学习的查询生成方法做对比。Williams方法是PAN抄袭检测评测中最成功的源检索方法，在PAN 2013和PAN 2014的评测中，均获得了最高的F-score(Potthast etal.,2013a； 2014)。

Williams方法假设动词、名词和形容词更可能是查询词，因此，他们严格限制查询仅由动词、名词和形容词组成。在他们的方法中，可疑文档首先被分成文本片段，每个文本片段由五个句子组成，然后使用斯坦福大学开发的词性标注工具Stanford POS Tagger(Toutanova et al.,2003)分析每个文本片段中词的词性，仅将动词、名词和形容词保留。然后，每个文本片段上提取了三个查询，每个查询依次由所获得的动词、名词和形容词组成。实验中，将该方法标注为Williams。

同时，我们也选择了TFIDF方法作为基线方法，该方法在源检索中获得了广泛的应用 (Potthast et al.,2013a；2014)。实验中将其标注为TFIDF。

TFIDF方法根据文本片段中每个词的词频(term frequency，TF)和逆文档频率(inverse document frequency，IDF)的积来评价每个词的重要性。为了比较的目的，除了查询生成外，其他源检索步骤均沿用了Williams的方法，也选择了五个句子一个片段。与Williams方法不同，TFIDF方法依据词的tf·idf值生成查询来代替Williams方法使用名词、动词和形容词获得查询。参照PAN评测中使用tf·idf方法的算法设置(Potthast etal.,2013a；2014)，对于每个段落，移除了停用词，然后依据词的tf·idf值排序段落中的每个词。实验中，词的逆文档频率使用了华尔街日报数据集(Wall Street Journal)。参照Williams方法，前三十个tf·idf 值最高的词被选出构成了三个查询，每个查询包含十个词。尽管TFIDF是个非常简单的查询生成方法，但是，实验中我们发现在源检索中TFIDF方法的性能甚至好于Williams方法。考虑到该方法的代表性和良好的性能，实验中也选择了TFIDF作为基线方法。

实验中源检索的过程：

除了查询生成外，本发明和基线方法的其他源检索过程都参照了Williams方法(Williams et al.,2013；2014b)。

查询生成：

实验中选择了Williams和TFIDF方法在每个文本片段上各获得三组备选查询。为了排序备选查询，我们使用Ranking SVM训练了一个排序函数。训练过程中仅对参数c(训练错误惩罚系数)。应用学到的排序函数，对每一个文档片段上的六组备选查询排序。与基线方法一致，在每个文本片段上选择排序在前面的三个查询作为该片段的查询。

检索：

实验使用了ChatNoir(PAN提供及建议的搜索引擎)作为检索抄袭源的搜索引擎(Potthast et al.,2012b)。ChatNoir是索引了ClueWeb09的唯一公共可用的搜索引擎(Potthast et al.,2012b)，它的排序算法基于经典的BM25F并且融合了PageRank和SpamRank排序方法。应用本发明的查询生成方法获得的查询被依据提取顺序提交给ChatNoir。对于每个查询，本发明方法和基线方法均保留了检索结果的前三个，并将这三个检索结果合并到最终该篇可疑文档的源检索结果集合中。

下载过滤：

根据Williams方法(Williams et al.,2013；2014b)，在训练数据上使用LDA(Linear Discriminant Analysis)训练了一个分类器来过滤检索结果。分类器构建和特征描述详见文献 (Williams et al.,2013)和(Williams et al.,2014b)。

参数训练：

实验使用二折交叉校验法来训练参数。PAN 2013Training Corpus和PAN2013Testing Corpus 2交叉被用作训练和测试数据。这样的实验设置的附加收益是本发明的实验结果可以直接与PAN源检索评测的实验结果比较。本发明的方法被标注为QGML(Query Generation based on Machine Learning)。

当训练排序函数的时候，选择了源检索的主要评价指标F-score作为评价函数eval来标注每个查询Q_(sk) ⁽ⁱ⁾的质量。

实验结果与分析：

实验结果分两类报告：无下载过滤算法作用的结果和应用下载过滤算法的结果。无下载过滤的结果用于验证应用本发明提出的查询生成方法改善查询的质量，在无附加算法作用在源检索结果的条件下，本发明能否提升源检索的性能。应用下载过滤算法的结果用于检验源检索整体性能是否可以通过本发明提出的查询生成方法获得提升。

在下面的实验结果中，我们报告了本发明和基线方法的F-score值。同时报告了Precision, Recall,Total Workload of Queries and Downloads，以及Workload to theFirst Detection of Queries and Downloads的结果。加重的数值表示每类指标上最好的结果，括号中的数字表示 QGML较基线方法的相对提升幅度，*表示使用单边t校验，当p<0.05时实验结果具有统计有效性。

第一类报告、无下载过滤算法作用的结果报告：

表1和表2展示了无下载过滤时，本发明方法QGML和基线方法的对比结果。

表1、无下载过滤时在PAN 2013Testing Corpus 2上的源检索结果

表2、无下载过滤时在PAN 2013Training Corpus上的源检索结果

如表4和表5所示，在两个数据集上，与基线方法相比，QGML在源检索的主要评价指标F-score上的性能均显著好于基线方法，并且在评价指标Total Workload ofDownloads和 the Workload to First Detection of Queries and Downloads上几乎与基线方法持平甚至低于基线方法。以PAN 2013Testing Corpus 2上的实验结果为例，QGML在评价指标F-score上较 Williams方法和TFIDF分别相对提升45.95％和30.38％，相应的精确率Precision分别提升 58.33％和34.53％。然而，相对于基线方法Williams，QGML的召回率仅下降了10％，但是较基线方法TFIDF，QGML的召回率提高了11.82％。这些数字展示了基于机器学习的查询生成方法比基于启发式的基线方法更有效。

上面两个实验的目的是证明查询的改善是否能直接提升源检索性能，因此在检索结果上，我们没有应用任何附加的下载过滤算法。无下载过滤意味着我们没有利用任何附加的信息来提升源检索的性能，源检索的性能直接由查询的质量决定。表1和表2的结果展示了，应用机器学习方法能够有效的改善源检索生成查询的质量，从而带来源检索性能的提升。

在上面两个实验中，我们分别从PAN 2013Training Corpus的40个可疑文档中提取了 299.18个查询，从PAN 2013Testing Corpus 2的58个文档中平均提取了343.36查询来构造训练用例。有效的偏好序对数仅有2403和3016个。在如此小规模的训练数据集上，实验结果展示了QGML能够学到一个有效的排序函数来从备选查询中生成更好的查询来改善源检索的质量。

注意到表1和表2的源检索性能指标F-score和Precision均低于PAN评测汇报的结果，其主要原因在于没有对检索结果进行任何过滤，这使得检索到的文档的集合D_ret包含了全部前n个检索结果，即|D_ret|的值过高，从而导致了较低的Precision，进一步导致了过低的F-score。实验展示了当对检索结果进行过滤后，Precision将获得显著的提高。

第一类报告、应用下载过滤的结果报告

表3和表4展示了当应用下载过滤算法时，源检索的结果。注意，实验中，所有的方法均使用了Williams的下载过滤方法。

表3、应用下载过滤时在PAN 2013Testing Corpus 2上的源检索结果

表4应用下载过滤时在PAN 2013Training Corpus上的源检索结果

如表3和表4所示，下载过滤会过滤掉许多噪声文档，较大的提高了精确率，从而提升了F-score的值。在同样的下载过滤算法对源检索结果过滤的情况下，QGML具有统计有效性(p<0.05)的优于基线方法。在表3中，GQML的F-score值较Williams方法相对提高了7.12％，较TFIDF方法相对提高了6.55％。在表4中，GQML的F-score值较Williams方法相对提高了8.39％，较TFIDF方法相对提高了6.24％。从结果中可以看出本发明提出的基于机器学习的查询生成方法获得了比基线方法更好的性能，融合了本发明提出的查询生成方法将提升源检索的整体性能。

本发明充分的利用了不同源检索方法在同一可疑文档片段上具有不同源检索性能的特点。在一个可疑文档片段上，不同的查询生成方法产生了不同的查询，应用这些查询执行源检索产生了不同的源检索性能。本发明的目标是利用排序学习方法选择那些更可能获得好的源检索性能的查询，这为抄袭检测的源检索提出了一个框架。对于一个新的查询生成方法，应用本发明提出的方法，可以很容易的将新的查询生成方法获得的查询融合到该框架中，用于生成备选的查询。

在PAN数据集上，实验结果展示了在检索代价与基线方法相似甚至更低的前提下，本发明显著的优于先进的基线方法。

Claims

1.一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，所述方法为：

将所述排序列表的前面m个查询作为可疑文档片断s_k的查询

2.根据权利要求1所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，所述备选查询集合中的备选查询，是采用n种现有源检索查询的生成方法针对可疑文档片断s_k获得的，其中是采用现有查询生成方法1在可疑文档片断s_k上获得的备选查询。

3.根据权利要求1所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，所述现有查询生成方法为TF、TFIDF、EW，BM25或者Williams。

4.根据权利要求1所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，将备选查询集合内的所有备选查询进行排序的原则是依据每个查询对应的源检索的评价指标的从高到低进行排序。

5.根据权利要求1所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，所述排序是采用机器学习方法实现的。

6.根据权利要求5所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，所述机器学习方法中的训练用例T，是通过源检索的现有数据构建的，具体方法为：

T_{(s_{k})} = {t_{(s_{k})}^{(i)} | t_{(s_{k})}^{(i)} = (y_{(s_{k})}^{(i)}, Q_{(s_{k})}^{(i)})}

函数表示现有查询生成方法i，

将训练用例中的所有数据依据标签组成多个偏序关系，形成针对第k个片段s_k的训练用例。

7.根据权利要求5所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，所述评价源检索性能的函数eval()为现有针对源检索的性能的评价系统的函数。

8.根据权利要求5所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，所述评价源检索性能函数eval()为源检索的评价指标函数F-score。

9.根据权利要求6所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，采用机器学习方法实现排序方法中，基于训练用T例实现备选查询排序的学习算法：

训练用例集合T包含n个可疑文档片段s_k，基于可疑文档片段s_k上查询的目标排序为表示根据每个查询的标签获得的查询的实际排序：

(Q_{(s_{k})}^{(i)}, Q_{(s_{k})}^{(j)}) &Element; \overset{&RightArrow;}{w} (s_{k}) &DoubleLeftRightArrow; \overset{&RightArrow;}{w} x_{(s_{k})}^{(i)} > \overset{&RightArrow;}{w} x_{(s_{k})}^{(j)},

其中是通过学习调节的权重向量，是的特征向量，

在包含n个可疑文档片段的训练数据集T上找到使下面的不等式数目成立最多的权重向量

&ForAll; (Q_{(s_{1})}^{(i)}, Q_{(s_{1})}^{(j)}) {&Element;}_{(s_{1})}^{*} : \overset{&RightArrow;}{w} (s_{1}) &DoubleLeftRightArrow; \overset{&RightArrow;}{w} x_{(s_{1})}^{(i)} > \overset{&RightArrow;}{w} x_{(s_{1})}^{(j)},

......，

&ForAll; (Q_{(s_{n})}^{(i)}, Q_{(s_{n})}^{(j)}) {&Element;}_{(s_{n})}^{*} : \overset{&RightArrow;}{w} (s_{n}) &DoubleLeftRightArrow; \overset{&RightArrow;}{w} x_{(s_{n})}^{(i)} > \overset{&RightArrow;}{w} x_{(s_{n})}^{(j)},

直接生成上面的结果被证明是NP难问题，通过引入一个非负的松弛变量使得上述公式转换成：

&ForAll; (Q_{(s_{1})}^{(i)}, Q_{(s_{1})}^{(j)}) {&Element;}_{(s_{1})}^{*} : \overset{&RightArrow;}{w} (s_{1}) &DoubleLeftRightArrow; \overset{&RightArrow;}{w} x_{(s_{1})}^{(i)} > \overset{&RightArrow;}{w} x_{(s_{1})}^{(j)} + 1 - ξ_{i, j, 1},

......，

&ForAll; (Q_{(s_{n})}^{(i)}, Q_{(s_{n})}^{(j)}) {&Element;}_{(s_{n})}^{*} : \overset{&RightArrow;}{w} (s_{n}) &DoubleLeftRightArrow; \overset{&RightArrow;}{w} x_{(s_{n})}^{(i)} > \overset{&RightArrow;}{w} x_{(s_{n})}^{(j)} + 1 - ξ_{i, j, n},

进一步，将上述等式被重写，获得重写后的等式：

\overset{&RightArrow;}{w} x_{(s_{1})}^{(i)} - \overset{&RightArrow;}{w} x_{(s_{1})}^{(j)} = \overset{&RightArrow;}{w} (x_{(s_{1})}^{(i)} - x_{(s_{1})}^{(j)}) > 1 - ξ_{i, j, 1},

......，

\overset{&RightArrow;}{w} x_{(s_{n})}^{(i)} - \overset{&RightArrow;}{w} x_{(s_{n})}^{(j)} = \overset{&RightArrow;}{w} (x_{(s_{n})}^{(i)} - x_{(s_{n})}^{(j)}) > 1 - ξ_{i, j, n},

通过上述重写后获得的等式，排序问题等价于在序对向量上的分类问题，基于序对向量，定义u⁺和u^-分别为在训练数据集合上为学习参数的所需的正例和反例，如下所示：

正例：

反例：

采用典型的适用于小样本的学习算法SVM最大化正例和反例的边界，学习排序函数，则重写后的等式通过在序对向量上最小化等式实现，

其中，c是表明对训练错误的惩罚系数，使用Ranking SVM学习优化的

10.根据权利要求9所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法，其特征在于，特征向量用于表达同一个训练用例有12个特征向量：

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (t f (k_{m}, s_{k}) + 1),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (t f (k_{m}, d_{j}) + 1),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (\frac{| C |}{t f (k_{m}, C)} + 1),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (I D F (k_{m})),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (\frac{t f (k_{m}, s_{k})}{| s_{k} |} + 1),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (\frac{t f (k_{m}, d_{j})}{| d_{j} |} + 1),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (\frac{t f (k_{m}, s_{k})}{| s_{k} |} \cdot \frac{| C |}{t f (k_{m}, C)} + 1),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (\frac{t f (k_{m}, d_{j})}{| d_{j} |} \cdot \frac{|| C ||}{t f (k_{m}, C)} + 1),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (\frac{t f (k_{m}, s_{k})}{| s_{k} |} \cdot i d f (k_{m}) + 1),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} l o g (\frac{t f (k_{m}, d_{j})}{| d_{j} |} \cdot i d f (k_{m}) + 1),

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} \frac{t f (k_{m}, s_{k}) \cdot i d f (k_{m}) \cdot (k_{1} + 1)}{t f (k_{m}, s_{k}) + k_{1} \cdot (1 - b + b \cdot \frac{L E N (s_{k})}{a v s l})},

\underset{k_{m} &Element; Q_{(s_{k})}^{(i)}}{Σ} \frac{t f (k_{m}, d_{j}) \cdot i d f (k_{m}) \cdot (k_{1} + 1)}{t f (k_{m}, d_{j}) + k_{1} \cdot (1 - b + b \cdot \frac{L E N (d_{j})}{a v d l})},

{IDF}_{k} = \log_{2} (\frac{N}{n_{k}}) + 1

其中n_k是文档集合C中的至少出现了一次词km的文档的数目，avdl和avsl是文档d_j和s_k中平均的词项数，k₁和b是两个常量参数，设置为k₁＝2.0，b＝0.75。