CN108829791B

CN108829791B - 抄袭源检索排序模型构建方法和抄袭源检索排序方法

Info

Publication number: CN108829791B
Application number: CN201810557843.XA
Authority: CN
Inventors: 孔蕾蕾; 韩中元; 齐浩亮
Original assignee: Heilongjiang Institute of Technology
Current assignee: Heilongjiang Institute of Technology
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2022-04-05
Anticipated expiration: 2038-06-01
Also published as: CN108829791A

Abstract

本发明提供了一种抄袭源检索排序模型构建方法和抄袭源检索排序方法。抄袭源检索排序模型构建方法基于参考文档的每个抄袭源文档与该参考文档之间的聚合度，利用训练样本、通过基于序对的排序学习方式对预定排序逻辑回归模型进行训练，直至预定损失函数的值最小，预定损失函数包括第一和第二子损失函数，第一子损失函数表示基于参考文档的抄袭源文档和非抄袭源文档构成的序对的排序错误带来的损失，而第二子损失函数表示由具有不同的聚合度的抄袭源文档构成的序对的排序错误带来的损失。抄袭源检索排序方法利用上述获得的排序模型对可疑文档的检索结果进行重排序。本发明的上述技术能够在抄袭检测中对可疑文档的源检索结果进行更准确地排序。

Description

抄袭源检索排序模型构建方法和抄袭源检索排序方法

技术领域

本发明涉及信息检索技术，尤其涉及一种抄袭源检索排序模型构建方法和抄袭源检索排序方法。

背景技术

在抄袭检测源检索的一般过程中，抄袭源检索算法通常对检索结果实施过滤来获得最终与可疑文档进行文本对齐的抄袭源文档。其中，过滤的性能对源检索的性能至关重要，是源检索不可或缺的关键步骤。

目前，现有的源检索过滤技术主要采取启发式方法。然而，启发式方法难于融合更多有效特征，其性能的提升依赖于专家的经验和对有效过滤特征的发现。

与启发式方法相比，机器学习方法具有更多先进性，将源检索的过滤形式化为一个机器学习任务允许过滤模型利用许多机器学习领域已经开发好的复杂的方法，融合来自各个方面不同的特征，克服启发式方法对于专家经验的依赖。然而，目前仅有Williams等人使用基于分类的机器学习方法(Williams K,Chen H H,Giles C L.Classifying andTanking Search Engine Results as Potential Sources ofPlagiarism[C].Proceedings ofthe 2014ACM Symposium on Document Engineering.FortCollins,CO,USA,September 16-19,2014.ACM,2014:97-106.)来解决源检索的过滤问题。

然而，以上现有技术均存在源检索过滤结果较不准确的问题。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，本发明提供了一种，以至少解决现有技术存在的抄袭源检索过滤结果较不准确的问题。

根据本发明的一个方面，提供了一种基于检索结果聚合性损失的抄袭源检索排序模型构建方法，其特征在于，该抄袭源检索排序模型构建方法包括：获取参考文档以及所述参考文档的抄袭源文档和非抄袭源文档；确定所述参考文档的多个查询；根据所述参考文档的每个查询分别进行检索，得到该参考文档的多次检索结果；确定所述参考文档的每个抄袭源文档在该参考文档的多次检索中被检索到的次数，以根据该次数计算所述参考文档的每个抄袭源文档与该参考文档之间的聚合度；提取所述参考文档的抄袭源文档和非抄袭源文档各自的特征向量，作为训练样本，并设定每个训练样本的标签；利用所述训练样本、通过迭代计算方式对预定逻辑回归模型进行训练，直至预定损失函数的值最小，以将当前的预定逻辑回归模型作为最终获得的抄袭源检索排序模型；其中，所述预定损失函数包括第一子损失函数和第二子损失函数，所述第一子损失函数表示基于所述参考文档的抄袭源文档和非抄袭源文档构成的序对的排序错误带来的损失，而所述第二子损失函数表示由具有不同的聚合度的抄袭源文档构成的序对的排序错误带来的损失；所述参考文档的抄袭源文档和非抄袭源文档构成的序对的排序错误包括：所述参考文档的抄袭源文档排在其非抄袭源文档之后；所述具有不同的聚合度的抄袭源文档构成的序对的排序错误包括：高聚合度的抄袭源文档排在低聚合度的抄袭源文档之后。

进一步地，计算所述参考文档的每个抄袭源文档与该参考文档之间的聚合度包括：针对所述参考文档的每个抄袭源文档，将该抄袭源文档在所述参考文档的多次检索中被检索到的次数作为该抄袭源文档与所述参考文档之间的聚合度的值。

进一步地，每个训练样本的标签包括第一标签和第二标签，其中：所述参考文档的抄袭源文档的特征向量对应的第一标签为1，而所述参考文档的非抄袭源文档的特征向量对应的第一标签为0；所述参考文档的抄袭源文档的特征向量对应的第二标签为其相应的聚合度。

进一步地，在每一次迭代时，对所述参考文档的抄袭源文档和非抄袭源文档进行一次重排序，作为本次迭代的当前排序结果，以计算本次迭代的当前排序结果对应的预定损失函数的值。

进一步地，所述的计算本次迭代的当前排序结果对应的预定损失函数的值包括：将当前排序结果中的每个抄袭源文档分别与每个非抄袭源文档组成序对，得到多个第一类序对，根据所有第一类序对的排序错误计算当前排序结果的第一子损失函数；将当前排序结果中聚合度不同的每两个抄袭源组成序对，作为多个第二类序对，根据所有第二类序对的排序错误计算当前排序结果的第二子损失函数；根据当前排序结果的第一子损失函数的值和第二子损失函数的值，获得本次迭代的当前排序结果对应的预定损失函数的值。

进一步地，在每一次迭代时，所述的对所述参考文档的抄袭源文档和非抄袭源文档进行一次重排序包括：调整所述参考文档的抄袭源文档和非抄袭源文档中至少部分文档的顺序。

进一步地，所述预定损失函数定义为：

L(h_w,b；S)表示所述预定损失函数，Cost_E(·)表示所述第一子损失函数，Cost_A(·)表示所述第二子损失函数；h_w,b为假设函数，S为训练数据集，m为训练数据集所包含的样本数目，s⁽ⁱ⁾是第i个查询q⁽ⁱ⁾检索到的文档所构成的文档序对的总数，

为第i个训练用例的特征向量，

为

的标签，x_u及x_v为训练集中构成排序序对的文档u和v的特征向量；

其中，Cost_E(·)定义在E(i)上，E⁽ⁱ⁾是检索结果中排序错误的抄袭源文档和非抄袭源文档的序对集合，定义为：

agg(d_u)为文档d_u的聚合度，agg(d_v)为文档d_v的聚合度，

为第i个查询检索到的结果d_u的标签，

为第i个查询检索到的结果d_v的标签，f_w,b(x_u)及f_w,b(x_v)分别为以x_u和x_v为特征向量的逻辑回归模型；

Cost_A(·)定义在A(i)上，A⁽ⁱ⁾是检索结果中聚合度高的检索结果排序在聚合度低的检索结果之后的序对的集合，定义为：

根据本发明的另一方面，还提供了一种基于检索结果聚合性损失的抄袭源检索排序方法，该抄袭源检索排序方法包括如上所述的抄袭源检索排序模型构建方法，以获得所述抄袭源检索排序模型；所述抄袭源检索排序方法还包括：获得可疑文档，并确定该可疑文档的多个查询，并提取所述可疑文档的特征向量；根据该可疑文档的每个查询分别进行检索，得到该可疑文档的多次检索结果，将该可疑文档的多次检索结果所包括的文档作为候选文档；利用所述抄袭源检索排序模型及所述可疑文档的特征向量，对该可疑文档的所有候选文档进行重排序，获得最终的排序结果。

进一步地，所述抄袭源检索排序方法还包括：针对每个候选文档，将该候选文档在所述可疑文档的多次检索中被检索到的次数作为该候选文档与所述可疑文档之间的聚合度的值；针对所述可疑文档的多个查询，在预定数据库中获得包含所述多个查询中至少一个查询的检索结果；根据检索结果与所述多个查询之间的相关性，计算各个检索结果的聚合度；至少基于所述各个检索结果的聚合度，对检索结果进行过滤。

进一步地，在所述最终的排序结果中，保留聚合度高于第一预设阈值的候选文档；或在所述最终的排序结果中，保留聚合度最高的预定数目个候选文档。

本发明的抄袭源检索排序模型构建方法和抄袭源检索排序方法，所构建的排序模型能够对抄袭源检索结果进行有效、准确地排序，从而使得最终检索结果更加准确。

相比于现有技术，本发明通过将抄袭源检索的过滤形式化到排序学习的框架下，提出基于排序逻辑回归模型实现该框架，进一步，将由查询的上下文相关性所引发的检索结果的全局特征定义为检索结果的聚合性(聚合度)，由此获得基于聚合性损失的抄袭源检索过滤模型，利用该模型能够对可疑文档的抄袭源检索结果进行更准确地排序，使得抄袭源文档能够排在非抄袭源的前面，且使得被抄袭程度越高的文档排的位置越靠前。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示意性地示出本发明的基于检索结果聚合性损失的抄袭源检索排序模型构建方法的一个示例性处理的流程图；

图2是示意性地示出本发明的基于检索结果聚合性损失的抄袭源检索排序方法的一个示例性处理的流程图；

图3是示出抄袭源检索中检索结果的聚合性的示意图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

抄袭源检索以获得可疑文档的抄袭源文档为目标，这使得抄袭源检索与一般的信息检索具有一个重要的差别：查询相关性引发的检索结果的全局性。

在典型的信息检索任务中，不同查询之间没有相互关系，而在抄袭源检索中，查询均来自同一篇可疑文档具有逻辑关系的文本片段，查询之间具有上下文关系，不再是彼此孤立的。本申请将抄袭源检索的这个特点称为抄袭源检索的查询相关性。

信息检索以排序与单个查询相关的文档为目标，对于一个查询来说，文档根据它们与查询的相关性排序，而多个查询的检索结果之间没有关系。而在抄袭源检索中，可疑文档的一个或多个片段可能均抄袭了同一篇源文档，这使得从这些文本片段提取的多个查询的检索结果都可能检索到同一篇源文档。从全局的角度可以观察到不同的查询检索到了同样的文档，很多检索结果在最终的结果列表出现了多次。本申请将抄袭源检索的这个特点称为检索结果的聚合性，并使用聚合度衡量检索结果文档d_j所具有的聚合性程度。

申请人发现，无论是基于启发式的检索结果过滤方法还是Williams等人提出的基于分类的检索结果过滤方法，当给定一篇可疑文档时，由于无法预知抄袭发生的具体位置，这两种方法都是将可疑文档划分为片段，从每个片段生成查询，再依据可疑文档中查询提取的顺序向搜索引擎提交这些查询，然后依次过滤每个查询的检索结果。然而，在这个过程中，每个检索结果被独立地看待，忽略了获得这些检索结果的查询之间的上下文关系使这些检索结果所具有的全局特征。

由此，本发明的实施例提供了一种基于检索结果聚合性损失的抄袭源检索排序模型构建方法，该抄袭源检索过滤方法包括：获取参考文档以及所述参考文档的抄袭源文档和非抄袭源文档；确定所述参考文档的多个查询；根据所述参考文档的每个查询分别进行检索，得到该参考文档的多次检索结果；确定所述参考文档的每个抄袭源文档在该参考文档的多次检索中被检索到的次数，以根据该次数计算所述参考文档的每个抄袭源文档与该参考文档之间的聚合度；提取所述参考文档的抄袭源文档和非抄袭源文档各自的特征向量，作为训练样本，并设定每个训练样本的标签；利用所述训练样本、通过迭代计算方式对预定逻辑回归模型进行训练，直至预定损失函数的值最小，以将当前的预定逻辑回归模型作为最终获得的抄袭源检索排序模型；其中，所述预定损失函数包括第一子损失函数和第二子损失函数，所述第一子损失函数表示基于所述参考文档的抄袭源文档和非抄袭源文档构成的序对的排序错误带来的损失，而所述第二子损失函数表示由具有不同的聚合度的抄袭源文档构成的序对的排序错误带来的损失；所述参考文档的抄袭源文档和非抄袭源文档构成的序对的排序错误包括：所述参考文档的抄袭源文档排在其非抄袭源文档之后；所述具有不同的聚合度的抄袭源文档构成的序对的排序错误包括：高聚合度的抄袭源文档排在低聚合度的抄袭源文档之后。

图1示出了本发明的抄袭源检索排序模型构建方法。

如图1所示，在步骤S110中，获取参考文档以及参考文档的抄袭源文档和非抄袭源文档。然后，执行步骤S120。

其中，参考文档的数量可以是多个，例如可以选择若干篇预定论文作为多个参考文档，且已知其中每一篇预定论文的抄袭源文档和非抄袭源文档。

在步骤S120中，确定参考文档的多个查询。然后，执行步骤S130。其中，对于每一篇参考文档，所获得的查询的数量可以是相同的，或者可以是不同的。例如，对于多篇参考文档中的每一篇，可以分别确定N₀个查询，N₀例如为3、5或10等。

例如，可以采用与现有技术类似的方法获得多个查询。查询可以是一个词，或一句话，或者也可以是一段话，等等。

在步骤S130中，根据参考文档的每个查询分别进行检索，得到该参考文档的多次检索结果。然后，执行步骤S140。

在步骤S140中，确定参考文档的每个抄袭源文档在该参考文档的多次检索中被检索到的次数，以根据该次数计算参考文档的每个抄袭源文档与该参考文档之间的聚合度。然后，执行步骤S150。

例如，对于某篇参考文档A，假设已知其抄袭源文档是文档B、C和D，则其余文档判定为该参考文档A的非抄袭源文档。对于参考文档A，采用5个查询检索3次，假设第一次检索结果中包含文档B、但不包含文档C和D，第二次检索结果中包含文档B和C、但不包含文档D，而第三次检索结果中包含文档B和D、但不包含文档C，这样，文档B在上述多次检索(这里是3次)中被检索到的次数是3，文档C在上述多次检索中被检索到的次数是1，文档D在上述多次检索中被检索到的次数也是1。由此，文档B与参考文档A之间的聚合度为3，文档C与参考文档A之间的聚合度为1，文档D与参考文档A之间的聚合度也为1。

在步骤S150中，提取参考文档的抄袭源文档和非抄袭源文档各自的特征向量，作为训练样本，并设定每个训练样本的标签。然后，执行步骤S160。

其中，上述特征向量例如可以采用表1所示的多种特征(特征编号1-20的特征)所构成的特征向量。

表1

这样，在步骤S160中，利用训练样本、通过迭代计算方式对预定逻辑回归模型进行训练，直至预定损失函数的值最小，以将当前的预定逻辑回归模型作为最终获得的抄袭源检索排序模型。处理结束。

其中，预定损失函数包括第一子损失函数和第二子损失函数，第一子损失函数表示基于参考文档的抄袭源文档和非抄袭源文档构成的序对的排序错误带来的损失，而第二子损失函数表示由具有不同的聚合度的抄袭源文档构成的序对的排序错误带来的损失。

上述参考文档的抄袭源文档和非抄袭源文档构成的序对的排序错误包括：参考文档的抄袭源文档排在其非抄袭源文档之后；

上述具有不同的聚合度的抄袭源文档构成的序对的排序错误包括：高聚合度的抄袭源文档排在低聚合度的抄袭源文档之后。

根据本发明的实施例，计算所述参考文档的每个抄袭源文档与该参考文档之间的聚合度例如包括：针对所述参考文档的每个抄袭源文档，将该抄袭源文档在所述参考文档的多次检索中被检索到的次数作为该抄袭源文档与所述参考文档之间的聚合度的值。

根据本发明的实施例，每个训练样本的标签例如包括第一标签和第二标签，其中：所述参考文档的抄袭源文档的特征向量对应的第一标签为1，而所述参考文档的非抄袭源文档的特征向量对应的第一标签为0；所述参考文档的抄袭源文档的特征向量对应的第二标签为其相应的聚合度。

根据本发明的实施例，在每一次迭代时，可以对所述参考文档的抄袭源文档和非抄袭源文档进行一次重排序，作为本次迭代的当前排序结果，以计算本次迭代的当前排序结果对应的预定损失函数的值。

根据本发明的实施例，所述的计算本次迭代的当前排序结果对应的预定损失函数的值例如包括：将当前排序结果中的每个抄袭源文档分别与每个非抄袭源文档组成序对，得到多个第一类序对，根据所有第一类序对的排序错误计算当前排序结果的第一子损失函数；将当前排序结果中聚合度不同的每两个抄袭源组成序对，作为多个第二类序对，根据所有第二类序对的排序错误计算当前排序结果的第二子损失函数；根据当前排序结果的第一子损失函数的值和第二子损失函数的值，获得本次迭代的当前排序结果对应的预定损失函数的值。

根据本发明的实施例，在每一次迭代时，所述的对所述参考文档的抄袭源文档和非抄袭源文档进行一次重排序例如包括：调整所述参考文档的抄袭源文档和非抄袭源文档中至少部分文档的顺序。

根据本发明的实施例，所述预定损失函数可以定义为：

为第i个训练用例的特征向量，

为

agg(d_u)为文档d_u的聚合度，agg(d_v)为文档d_v的聚合度，

为第i个查询检索到的结果d_u的标签，

此外，本发明还提供了一种基于检索结果聚合性损失的抄袭源检索排序方法，该抄袭源检索排序方法包括如上所述的抄袭源检索排序模型构建方法，以获得所述抄袭源检索排序模型；所述抄袭源检索排序方法还包括：获得可疑文档，并确定该可疑文档的多个查询，并提取所述可疑文档的特征向量；根据该可疑文档的每个查询分别进行检索，得到该可疑文档的多次检索结果，将该可疑文档的多次检索结果所包括的文档作为候选文档；利用所述抄袭源检索排序模型及所述可疑文档的特征向量，对该可疑文档的所有候选文档进行重排序，获得最终的排序结果。

图2示出了上述基于检索结果聚合性损失的抄袭源检索排序方法的一个示例性处理。

如图2所示，抄袭源检索排序方法包括上文所描述的步骤S110～S160，通过步骤S110～S160获得训练好的抄袭源检索排序模型，然后执行步骤S210。

在步骤S210中，获得可疑文档，并确定该可疑文档的多个查询，并提取所述可疑文档的特征向量。然后，执行步骤S220。

其中，可疑文档的特征向量例如可以采用表1所示的多种特征(特征编号1-20的特征)所构成的特征向量。

在步骤S220中，根据该可疑文档的每个查询分别进行检索，得到该可疑文档的多次检索结果，将该可疑文档的多次检索结果所包括的文档作为候选文档。然后，执行步骤S230。

在步骤S230中，利用所述抄袭源检索排序模型及所述可疑文档的特征向量，对该可疑文档的所有候选文档进行重排序，获得最终的排序结果。

根据本发明的实施例，所述抄袭源检索排序方法例如还包括：针对每个候选文档，将该候选文档在所述可疑文档的多次检索中被检索到的次数作为该候选文档与所述可疑文档之间的聚合度的值；针对所述可疑文档的多个查询，在预定数据库中获得包含所述多个查询中至少一个查询的检索结果；根据检索结果与所述多个查询之间的相关性，计算各个检索结果的聚合度；至少基于所述各个检索结果的聚合度，对检索结果进行过滤。

根据本发明的实施例，在所述最终的排序结果中，例如可以保留聚合度高于第一预设阈值的候选文档。

根据本发明的实施例，在所述最终的排序结果中，例如可以保留聚合度最高的预定数目个候选文档。

优选实施例

应当理解的是，本发明提供了一种基于检索结果聚合性损失的抄袭源检索排序模型构建方法和一种基于检索结果聚合性损失的抄袭源检索排序方法，其中，抄袭源检索排序模型构建方法相当于“训练阶段”，而抄袭源检索排序方法包括“训练阶段”和“测试阶段”。也即，在抄袭源检索排序方法中，先通过抄袭源检索排序模型构建方法获得一个排序模型(相当于“训练阶段”)，再利用这个排序模型对可疑文档的检索结果进行实际排序处理(相当于“测试阶段”)。

由此，在下文中，在“训练阶段”(即构建模型、训练模型期间)所采用的“可疑文档”即相当于上文中所提到的参考文档，而在“测试阶段”(即利用已训练的模型对实际要排序的检索结果进行排序的过程)所采用的“可疑文档”相当于上文中结合图2所描述的可疑文档。

公式(1)从引起检索结果聚合性的相关查询数目的角度定义了度量检索结果的聚合性的方法：

其中，给定查询q⁽ⁱ⁾，r⁽ⁱ⁾表示查询q⁽ⁱ⁾的检索结果的集合，D_ret为可疑文档d_plg的全部检索结果的集合，D_ret＝∪r⁽ⁱ⁾，d_j∈D_ret，n为可疑文档d_plg上提取的查询总数。函数sign(d_j,r⁽ⁱ⁾)的定义如下：

为了展现抄袭源检索中检索结果的聚合性，图3给出了一个示例。其中，横轴为文档d_j的聚合性，纵轴是具有相同聚合性的检索结果文档的数目。以可疑文档001(即参考文档)为例，点(5,5)表示在可疑文档001中，聚合性为5的检索结果有5个，即有5个源文档被从d_plg中提取的不同的查询检索到了5次，点(9,1)表示聚合性为9的检索结果1个，即有1个文档被不同查询检索到了9次。

图3中，001中的点(10,1)对应了某文档，该文档是一篇来自Wikipedia(维基百科)的文章，001的多个片段均抄袭了该文档，因此，来自这些片段的不同的查询均检索到了该文档。比如，在001的第一部分以“Barack Obama's Family”为题介绍了Obama家族，其中，有大量的篇幅介绍Obama在不同阶段的受教育经历，这部分内容均来自上述文档所标记的Wikipedia的这篇文章。这个示例从一个侧面表明了抄袭源检索检索结果的聚合性，即不同的查询由于其来自相关的可疑文档片段，因此，它们检索到了同样的文档。该现象在抄袭源检索中是普遍存在的现象。

本申请对PAN 2013Training Corpus数据集中抄袭源的聚合度和非抄袭源的聚合度比较发现，具有高聚合度的检索结果更可能是抄袭源。比如，当聚合度为1(即可疑文档中只有一个查询检索到了当前检索结果文档)时，当前检索结果文档不是抄袭源的概率是81.70％，是抄袭源的概率仅为0.37％。当聚合度为11时，当前检索结果文档不是抄袭源的概率是0.03％，是抄袭源的概率为14.2％。当检索结果的聚合度大于20时，大部分非抄袭源的概率为0，即检索结果绝大部分是抄袭源。

上面的分析说明，抄袭源检索的检索结果具有聚合性，且高聚合度的检索结果更可能是抄袭源。本申请将利用抄袭源检索过滤的聚合性特性，提出基于检索结果聚合性的抄袭源检索过滤排序学习算法。

模型的学习框架

设依据可疑文档d_plg提取的查询的集合为Q＝{q⁽¹⁾,q⁽²⁾,...,q⁽ⁿ⁾}，其中n是d_plg上的查询的总数，且每一个查询q⁽ⁱ⁾都对应着一个检索结果的列表

其中m表示检索结果的数目，每个检索结果

的上标表示查询的编号，下标表示检索结果的文档编号。

设

为可疑文档d_plg的第i个查询q⁽ⁱ⁾检索到的第j个文档

的特征向量，

∈L＝{+1，-1}为

的标签，用于标记d_j是否为d_plg的真正的抄袭源，其定义如下：

其中，r⁽ⁱ⁾表示可疑文档d_plg的真正抄袭源的集合，函数sign(d_j,r⁽ⁱ⁾)的定义如下：

该标签定义了检索结果d_j是否为抄袭源文档。依据上述定义，则训练用例的集合S可以表示为：

其中，其中，n为d_plg上查询的总数，m为查询q⁽ⁱ⁾检索到的结果的数目。

设S中的特征向量x_u＝x_j ⁽ⁱ⁾，x_v＝x_k ⁽ⁱ⁾(j≠k且y_j ⁽ⁱ⁾≠y_k ⁽ⁱ⁾)，令x_u表示正例，即抄袭源文档的向量，x_v表示反例，即非抄袭源文档的向量。如本申请在第3章所述，在基于序对的排序学习方法中，利用特征向量的标签，可以构建S上特征向量的偏序关系。设x_u,v＝(x_u,x_v)表示排序一致的序对，即y_u>y_v，此时正例x_u排在了反例x_v的前面，其目标值为y_u,v＝1。x_v,u＝(x_v,x_u)表示不一致的序对，即在排序列表中，y_u<y_v，此时正例x_u排在了反例x_v的后面，其目标值为y_v,u＝-1。排序模型的目标是在假设空间H中找到一个h∈H，该h可以满足最小化在排序列表中的不一致序对的数目，即：

其中，w表示特征权重向量，且Ψ(·):x_u,x_v→R。

在公式(6)中，如果排序列表中的不一致序对数目最小，即正确地获得了所有的文档序对的排序，则意味着应用学到的排序函数h，可以对训练数据上一个查询的检索结果重排序，使真正的抄袭源排在检索结果列表的前面。基于训练数据和测试数据独立同分布的假设，应用h也将获得训练数据上正确的文档排序。

利用S上具有偏序关系的训练用例，可以构建一个新的训练集S'：

S'＝{(x_u,v,y_u,v)|1≤u≤m,1≤v≤m} (7)

仿照排序支持向量机(Ranking SVM)^[116]构造特征向量的方法，令新的特征向量x等于特征向量x_u和x_v的差，即x＝x_u-x_v，则公式(6)可以进一步变换为公式(8)的形式：

从而，S上的排序问题可以转化为S'上的分类问题。

根据公式(8)得到最优的参数w后，对于一个类别未知的抄袭源检索结果文档，设x为该文档的特征向量，则Ψ'(w,x)就是模型对该文档预测的分值。则根据对比预测分值和设定的阈值，判定新检索到的文档是否是抄袭源文档。

令Ψ(w,x_u,x_v)＝Ψ'(w,x_u)-Ψ'(w,x_v)，则公式(8)可以变化为：

由此，建立了基于排序的抄袭源检索过滤问题的框架。下面提出关注检索结果聚合性损失的排序学习方法解决抄袭源检索过滤问题。

模型的学习算法

在已有的分类模型中，逻辑回归(Logistic Regression，LR)模型是性能表现最好的模型之一。逻辑回归模型无需事先假设数据的分布而直接对分类的可能性建模，而且可以得到近似概率预测^[126]，复杂度低，具有良好的属性性质，在企业界得到了广泛的应用。与支持向量机(Support Vector Machine)模型相比，逻辑回归模型的时间和空间复杂度明显更低。鉴于以上因素，本申请使用逻辑回归函数定义Ψ'(w,x)，即：

利用公式(10)，公式(9)可以变化为：

模型的损失函数

利用检索结果的聚合性，训练数据上模型的损失包括了两种类型：一是基于抄袭源文档和非抄袭源文档构成的序对的排序错误带来的损失，用Cost_E(·)表示，另一类是由具有不同的聚合度的检索结果构成的序对的排序错误带来的损失，用Cost_A(·)表示。利用这两类损失，将损失函数定义为：

其中，Cost_E(·)定义在E(i)上，E⁽ⁱ⁾是检索结果中错误排序的抄袭源文档和非抄袭源文档的序对集合，定义为：

本申请将单个错误分类的样本(x_u,x_v)的损失定义为：

公式(13)可以理解为，当y_u,v＝1，

时，将一个正例样本判为了反例，或者，当y_u,v＝-1，但是

时，将一个反例样本判为了正例，都意味着发生了一个错误的排序，均将产生损失，且损失的大小为|f_w,b(x_u)-f_w,b(x_v)|，否则损失函数为0。

如抄袭源检索的问题描述中所述，聚合度高的文档更可能是抄袭源文档，因此，排序算法如果将一个具有高聚合度的文档排序在聚合度低的文档之后应该受到更大的惩罚。为此，对于训练集合A⁽ⁱ⁾，定义排序损失为：

以此加大具有高聚合度的文档排序在聚合度低的文档之后的损失。其中，I(x_u)和I(x_v)分别表示向量x_u和x_v所代表的检索结果文档d_u和d_v的自信息，I(x_u)-I(x_v)的含义为构成序对的两个文档d_u和d_v所包含的自信息的差。自信息的概念来自于Shannon提出的信息论^[128]，自信息I(a_i)的含义可以理解为：如果事件a_i未发生，自信息表示事件a_i发生的不确定性，如果事件a_i已发生，自信息表示事件a_i含有的信息量。在抄袭源检索问题中，文档

表示可疑文档d_plg的查询检索到了该文档，

的聚合性越大，判断

是否为抄袭源所含有的不确定性越小，该检索结果所含有的信息量越小。反之，

的聚合性越小，判断

是否为抄袭源所含有的不确定性越大，该检索结果所含有的信息量越大。即，给定d_plg，如果仅有一个查询检索到了文档

则

是否为真正的抄袭源的不确定性大于有多个查询检索到了文档

据此，本申请以自信息差的形式对当前排序函数对具有不同聚合度的检索结果文档错误排序所构成的序对加以不同的惩罚。根据[128]和[129]，自信息定义为：

其中，p(x_j)利用文档d_j的聚集性定义，如式(29)所示：

其中，agg(d_j)为文档d_j的聚合度，分母部分为整个文档集上所有文档的聚合度的和，用于归一化p(x_j)，使其具有概率的形式。

定义在A(i)上，也利用公式(13)估计。

模型的训练

在模型的训练中，以基于序对的排序学习方法训练模型，目标是在训练数据上使错误序对数最小。错误序对数最小，等价于在训练数据上求解使损失函数最小的参数w和b。本申请使用错误驱动的更新方式，采用随机梯度下降法对参数求解。

对于任意的w₀和b₀，应用梯度下降法最小化目标函数^[127]，L(h_w,b；τ)对w求偏导：

由于：

故：

L(h_w,b；S)对b求偏导，则：

对于错误序对，w和b依据下式更新：

其中，η(0<η<＝1)为学习速率，用于控制学习过程中梯度下降的速度，s为查询的检索结果序对的总数目。在模型的学习中，以迭代的方式实现最小化损失函数L(h；S)的目标。

在本实施例中，实验数据集使用了根据Webis 2012文本复用数据集Webis-TRC-2012^[11]构建的PAN@CLEF 2013抄袭源检索评测的训练数据PAN2013 Training Corpus和测试数据PAN2013 Test Corpus 2。

根据PAN的设置，本申请选择ClueWeb 09数据集作为抄袭源文档集合。该集合包含1,040,809,705个web页面，由10种语言组成。ClueWeb 09是当前TREC¹评估会议上被广泛接受的评估检索模型的数据集。

表1实验数据集统计信息

Tab.1Statistics for experimental corpus

本申请使用PAN@CLEF定义的抄袭源检索的评价指标评价本申请方法。

给定一个可疑文档d_plg，d_plg包含了抄袭的文本片段，这些文本片段来源于源文档集合D_src中的文档。设抄袭源检索算法的检索结果的文档集合为D_ret，PAN@CLEF用F-score、精确率Precision和召回率Recall来评价抄袭源检索算法的性能，用向搜索引擎提交的总查询数(Total Workload of Queries)、从搜索引擎下载的备选源文档数(TotalWorkloadof Downloads)、检测到第一个抄袭源时已提交给搜索引擎的查询数(Workload to theFirst Detection of Queries)和检测到第一个抄袭源时已下载的备选源文档数(Workload to the First Detection of Downloads)四个指标来评价抄袭源检索算法的检索代价。

由于D_src来源于ClueWeb 09数据集，ClueWeb 09中包含了很多相同或相似的Web文档，PAN将这些文档称为“重复文档”(Duplicate Document)，PAN在评

价抄袭源检索算法时，考虑了这些重复文档的影响。对于任一d_ret∈D_ret，评价指标计算方法使用一个重复文档检测器来判断d_ret是否是一个正确的检测结果^[2,3]，即，是否存在一个d_plg的真正的抄袭源d_src∈D_src与d_ret为重复文档。对于文本对(d_src,d_plg)，如果下面的条件满足，则可将d_ret视为一个正确的检测结果：(1)d_ret＝d_src，(2)d_ret和d_src的3-gram的Jaccard相似度大于0.8，或者5-gram的Jaccard相似度大于0.5，或者8-gram的Jaccard相似度大于0，或者(3)已知d_plg的片段是从d_src复用来的，这些片段包含在d_ret中。文献[121]详细描述了上述定义。本申请中，如果文档d₁是d₂的正确的检测结果，则记为positiveDet(d₁,d₂)。定义：

基于上述描述，PAN将抄袭源检索的精确率Precision和召回率Recall定义为^[2]：

精确率表示检索到的确切的抄袭源与检索到的文档的比率，该指标评价了一个算法检索到正确抄袭源的能力。召回率表示检索到的确切的抄袭源与全部抄袭源的比率。高的精确率可以通过只保留具有高可信度为抄袭源的文档而获得，因此，一般情况下高精确率都以低召回率为代价。类似的，高召回率可以通过牺牲精确率，保留大量的检索结果获得。因此，信息检索中提出了F_β这个指标来获得精确率和召回率的折中，F_β定义如下：

PAN所定义的抄袭源检索指标F-score就是等式(3-21)中当β＝1时的F-score，如公式(3-22)所示：

为评价抄袭源检索的代价，PAN设计了四个评价抄袭源检索算法检索代价的指标。第一个抄袭源检索代价的评价指标是Total Workload of Queries(TWQ)，表示抄袭源检索算法提交给搜索引擎的平均总查询数目，计算如下：

其中，d_j为可疑文档，query(d_j)为从可疑文档d_j提取的查询数目，n为全部可疑文档数。

第二个抄袭源检索代价的评价指标是Total Workload of Downloads(TWD)，表示抄袭源检索算法向搜索引擎请求的检索结果的平均总下载数目，计算方法如下：

其中，download(d_j)为可疑文档d_j向搜索引擎所请求的全部下载文档的数目，其他参数同(3-23)。

第三个抄袭源检索代价的评价指标是Workload to the First Detection ofQueries(WFDQ)，表示检索到一个抄袭源时已向搜索引擎提交的查询数：

其中，firstQuery(d_j)为检测到第一个抄袭源时抄袭源检索算法已提交给搜索引擎的查询数，其他参数同(3-23)。

第四个抄袭源检索代价的评价指标是Workload to the First Detection ofDownloads(WFDD)，表示检测到第一个抄袭源时检索算法已请求下载的检索结果的数目，其定义如下：

其中，firstDownload(d_j)为可疑文档d_j的查询中检测到第一个抄袭源时抄袭源检索算法已请求下载的检索结果数，其他参数同(3-23)。

从抄袭源检索代价的角度看，这些性能指标的值越小越好。

通过以上描述可知，本申请提出的基于检索结果聚合性的排序学习算法能够解决抄袭源检索的过滤问题。与现有的抄袭源检索过滤方法不同的是，本申请将抄袭源检索过滤形式化为一个排序学习问题，并关注了由于查询的上下文相关性引发的检索结果的聚合性。实验结果表明,本申请提出的基于检索结果聚合性损失的排序学习算法的抄袭源检索性能具有统计有效性的优于现有技术。与PAN@CLEF 2013最好的结果Doc-Snippet-Intersection相比，本申请提出的Aggregation_{RankLR+AggregationCost-Prob}方法绝对提升幅度为15.08％，相对提升幅度为34.99％。精确率和召回率都大幅度提升。与基线方法中取得了最好的F-score的方法Williams_LDA-Prob相比，本申请提出的Aggregation_{RankLR+AggregationCost-Prob}方法绝对提升幅度为7.34％，相对提升幅度为14.44％，在精确率持平的情况下，召回率获得了显著提高。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于检索结果聚合性损失的抄袭源检索排序模型构建方法，其特征在于，该抄袭源检索排序模型构建方法包括：

获取参考文档以及所述参考文档的抄袭源文档和非抄袭源文档；

确定所述参考文档的多个查询；

根据所述参考文档的每个查询分别进行检索，得到该参考文档的多次检索结果；

确定所述参考文档的每个抄袭源文档在该参考文档的多次检索中被检索到的次数，以根据该次数计算所述参考文档的每个抄袭源文档与该参考文档之间的聚合度；

提取所述参考文档的抄袭源文档和非抄袭源文档各自的特征向量，作为训练样本，并设定每个训练样本的标签；

利用所述训练样本、通过迭代计算方式对预定逻辑回归模型进行训练，直至预定损失函数的值最小，以将当前的预定逻辑回归模型作为最终获得的抄袭源检索排序模型；

其中，所述预定损失函数包括第一子损失函数和第二子损失函数，所述第一子损失函数表示基于所述参考文档的抄袭源文档和非抄袭源文档构成的序对的排序错误带来的损失，而所述第二子损失函数表示由具有不同的聚合度的抄袭源文档构成的序对的排序错误带来的损失；

所述参考文档的抄袭源文档和非抄袭源文档构成的序对的排序错误包括：所述参考文档的抄袭源文档排在其非抄袭源文档之后；

所述具有不同的聚合度的抄袭源文档构成的序对的排序错误包括：高聚合度的抄袭源文档排在低聚合度的抄袭源文档之后。

2.根据权利要求1所述的抄袭源检索排序模型构建方法，其特征在于，所述的计算所述参考文档的每个抄袭源文档与该参考文档之间的聚合度包括：

针对所述参考文档的每个抄袭源文档，将该抄袭源文档在所述参考文档的多次检索中被检索到的次数作为该抄袭源文档与所述参考文档之间的聚合度的值。

3.根据权利要求1所述的抄袭源检索排序模型构建方法，其特征在于，每个训练样本的标签包括第一标签和第二标签，其中：

所述参考文档的抄袭源文档的特征向量对应的第一标签为1，而所述参考文档的非抄袭源文档的特征向量对应的第一标签为0；所述参考文档的抄袭源文档的特征向量对应的第二标签为其相应的聚合度。

4.根据权利要求1所述的抄袭源检索排序模型构建方法，其特征在于，在每一次迭代时，对所述参考文档的抄袭源文档和非抄袭源文档进行一次重排序，作为本次迭代的当前排序结果，以计算本次迭代的当前排序结果对应的预定损失函数的值。

5.根据权利要求4所述的抄袭源检索排序模型构建方法，其特征在于，所述的计算本次迭代的当前排序结果对应的预定损失函数的值包括：

将当前排序结果中的每个抄袭源文档分别与每个非抄袭源文档组成序对，得到多个第一类序对，根据所有第一类序对的排序错误计算当前排序结果的第一子损失函数；

将当前排序结果中聚合度不同的每两个抄袭源组成序对，作为多个第二类序对，根据所有第二类序对的排序错误计算当前排序结果的第二子损失函数；

根据当前排序结果的第一子损失函数的值和第二子损失函数的值，获得本次迭代的当前排序结果对应的预定损失函数的值。

6.根据权利要求4所述的抄袭源检索排序模型构建方法，其特征在于，在每一次迭代时，所述的对所述参考文档的抄袭源文档和非抄袭源文档进行一次重排序包括：调整所述参考文档的抄袭源文档和非抄袭源文档中至少部分文档的顺序。

7.根据权利要求1-6中任一项所述的抄袭源检索排序模型构建方法，其特征在于，所述预定损失函数定义为：

为第i个训练用例的特征向量，

为

的标签，x_u及x_v为训练集中构成排序序对的文档u和v的特征向量，h为排序函数；

其中，Cost_E(·)定义在E⁽ⁱ⁾上，E⁽ⁱ⁾是检索结果中排序错误的抄袭源文档和非抄袭源文档的序对集合，定义为：

agg(d_u)为文档d_u的聚合度，agg(d_v)为文档d_v的聚合度，

为第i个查询检索到的结果d_u的标签，

Cost_A(·)定义在A⁽ⁱ⁾上，A⁽ⁱ⁾是检索结果中聚合度高的检索结果排序在聚合度低的检索结果之后的序对的集合，定义为：

。

8.一种基于检索结果聚合性损失的抄袭源检索排序方法，其特征在于，该抄袭源检索排序方法包括如权利要求1-7中任一项所述的抄袭源检索排序模型构建方法，以获得所述抄袭源检索排序模型；所述抄袭源检索排序方法还包括：

获得可疑文档，并确定该可疑文档的多个查询，并提取所述可疑文档的特征向量；

根据该可疑文档的每个查询分别进行检索，得到该可疑文档的多次检索结果，将该可疑文档的多次检索结果所包括的文档作为候选文档；

利用所述抄袭源检索排序模型及所述可疑文档的特征向量，对该可疑文档的所有候选文档进行重排序，获得最终的排序结果。

9.根据权利要求8所述的抄袭源检索排序方法，其特征在于，所述抄袭源检索排序方法还包括：

针对每个候选文档，将该候选文档在所述可疑文档的多次检索中被检索到的次数作为该候选文档与所述可疑文档之间的聚合度的值；

针对所述可疑文档的多个查询，在预定数据库中获得包含所述多个查询中至少一个查询的检索结果；

根据检索结果与所述多个查询之间的相关性，计算各个检索结果的聚合度；

至少基于所述各个检索结果的聚合度，对检索结果进行过滤。

10.根据权利要求9所述的抄袭源检索排序方法，其特征在于：

在所述最终的排序结果中，保留聚合度高于第一预设阈值的候选文档；或

在所述最终的排序结果中，保留聚合度最高的预定数目个候选文档。

11.根据权利要求8所述的抄袭源检索排序方法，其特征在于：