CN110930114B

CN110930114B - 一种抵御串谋的众包方法

Info

Publication number: CN110930114B
Application number: CN201911141515.2A
Authority: CN
Inventors: 孙海龙; 刘旭东; 陈鹏鹏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2022-08-23
Anticipated expiration: 2039-11-20
Also published as: CN110930114A

Abstract

本发明提出一种抵御串谋的众包方法，包括以下步骤：步骤1，请求者通过众包平台来发布任务；步骤2，众包平台根据平台的协议和一定的约束条件来进行任务分配；步骤3，任务处理，然后进行答案收集；步骤4，对收集的答案进行串谋检测，如果为正常工人的答案则跳转至步骤6，如果为串谋工人的答案跳转至步骤5；步骤5，对串谋工人的答案进行处理；步骤6，进行答案汇聚，并把汇聚结果提交给请求者。

Description

一种抵御串谋的众包方法

技术领域

本发明涉及一种众包方法，尤其涉及一种抵御串谋的众包方法。

背景技术

众包旨在利用人群智能去解决对于机器较难的任务。目前，众包已经在许多应用中取得了成功，如图片标注、数据收集、软件开发等。众包过程主要分为两阶段，即答案收集和答案汇聚。答案收集主要负责把每一个任务分配给合适的工人进行处理，并收回答案。答案汇聚主要关注如何利用多个工人的答案汇聚出高质量的结果。在众包过程中，保障工人工作的独立性是实现人类群体智能的前提条件。然而，在实际众包应用中，工人之间往往却存在协作关系。另外，工人在平台之外甚至组成了隐式的协作网络。虽然工人之间的协作往往有利于提高任务完成的质量，但是协作带来的频繁交互往往能够给工人之间串谋提供了方便。为了在付出尽量少劳动力的条件下获得尽量高额的报酬，部分工人往往形成串谋小组。在串谋小组中，往往只有一个工人会像正常工人那样付出劳动并完成任务，剩下的工人会抄袭正常做题工人的大部分任务的答案。在这种情况下，收集到的答案中将会存在大量由于串谋行为产生的重复答案。因为大多数众包答案汇聚方法都是基于答案出现的频率进行结果推理的，所以出现的频率越高的候选答案则认为越可能是正确答案。串谋行为产生的重复答案将会影响甚至主导众包最后的结果。因此如何有效地抵御众包中的串谋行为是一个重要的问题。

串谋行为能够影响甚至主导众包的结果，有效地检测并合理地处理串谋行为对众包的质量保障至关重要。然而现存技术不能有效地检测和处理众包中的串谋行为。

在串谋检测方面，现有基于工人答案相似度的串谋检测方法的检测结果往往具有高假阳性。这是因为，实际上高能力的正常工人往往也会提交大量重复且正确的答案。显然他们提交的答案往往相似度较高。而现有基于工人答案相似度的串谋检测技术容易把这部分答案错判为串谋行为产生的答案。另外，现有的基于工人能力表现变化率的检测方法往往具有高假阴性。这是因为这种方法假设串谋工人是提交完全重复的答案的。但是在实际上，一些串谋者为了躲避检测，除了抄袭一部分任务之外，他们也会独自地完成一部分任务，并提交答案。因此，几乎不存在工人在所有任务上的答案序列是完全相同的。然而，基于工人表现变化率的串谋检测方法是基于串谋工人在所有任务上的答案序列是完全相同的假设条件的。因此，此类方法往往会错把串谋工人产生的答案误判为正常工人的答案。

在串谋处理方面，现有的串谋处理技术对检测出来的串谋工人的答案进行直接删除可能会降低最后众包结果质量。在工人的串谋过程中，在串谋小组中，往往只有一个众包工人像正常工人一样来处理任务，而剩下的工人会抄袭这个唯一正常做题的工人的大部分答案。

因此，串谋工人的答案质量和被抄袭工人的能力极其相关。当被抄袭的工人能力较高时，串谋行为会产生更多的高质量并且重复的答案，在这种情况下，串谋产生的答案有利于众包最终结果的质量。直接消除这些高质量的答案往往会导致答案汇聚结果质量的下降。

发明内容

综上所述，现有技术不能较好地抵御众包中的串谋行为。为此，本发明针对现有技术存在的问题，提出了一种抵御串谋的众包方法，其中，主要包括两个环节，串谋行为检测和串谋答案处理。

一种抵御串谋的众包方法，其特征在于，包括以下步骤：

步骤1，请求者通过众包平台来发布任务；

步骤2，众包平台根据平台的协议和一定的约束条件来进行任务分配；

步骤3，任务处理，然后进行答案收集；

步骤4，对收集的答案进行串谋检测，如果为正常工人的答案则跳转至步骤6，如果为串谋工人的答案跳转至步骤5；

步骤5，对串谋工人的答案进行处理；

步骤6，进行答案汇聚，并把汇聚结果提交给请求者。

进一步，所述步骤4中，所述串谋检测的流程包括以下步骤：

步骤4-1，在完成答案收集之后，首先计算工人答案的观察一致性，l_1j和l_2j分别为工人w₁和工人wx对于任务t_j提交的答案，T₁为工人w₁完成的任务集合，T₂为工人w₂完成的任务集合，工人答案的观察一致性π_o为

其中，

然后计算工人答案的期望一致性，设

为随机分布在任务集合

中的黄金测试任务，并且

为

的真值，则第i个工人w_i的能力为

工人答案的期望一致性计算如下:

其中，K为任务的候选答案的个数，x_k为第k个候选答案，y_j为任务t_j的真值，i,j为正整数。

步骤4-2，计算工人的串谋可能性，利用公式(2)计算工人w₁的能力a₁和工人w₂的能力a₂，得到工人答案的观察一致性和工人答案的期望一致性后，计算工人的串谋可能性Z：

其中，

步骤4-3，判断工人是否为串谋工人，在得到串谋可能性Z之后，若串谋可能性大于阈值p，则判定工人w₁和工人w₂为串谋工人；若串谋可能性小于阈值p，则判定工人w₁和工人w₂为正常工人。

3.如权利要求1所述的方法，其特征在于，步骤5中，所述串谋处理的流程包括以下步骤：

步骤5-1,鉴定正常工人并保留正常工人的答案，对于串谋小组

被抄袭者ω_ld鉴定为：

其中，n′为小组

中串谋者在黄金测试任务集合中提交相同答案的任务数量，n^*为n′个任务中串谋者提交正确答案的任务数量，a_i为通过黄金测试任务估计出的工人能力。

步骤5-2,然后计算串谋答案可用性

为正常工人的集合，删除串谋小组

中抄袭者的工人集合为

保留串谋小组

中抄袭者的工人集合为

工人集合

中工人的平均能力为：

工人集合

中工人的平均能力

串谋答案可用性为

步骤5-3，计算串谋答案可用性的理论阈值。对应工人集合

的平均任务完成率为：

其中，n表示任务数量，T_i为工人w_i完成的任务集合，工人集合

的平均任务完成率为

在一个串谋小组中，串谋工人进行抄袭的概率α为：

其中，c为串谋小组

包含的工人数目，l_ij为工人w_i在任务t_j上的答案，

为串谋小组

在任务集合

上提交的答案集合。

最后串谋答案可用性的理论阈值为

其中，m为工人集合

包含的工人数目。

步骤5-4，判断是否保留串谋答案集合，

为正常工人

在任务集合

上提交的答案集合，对于每一个串谋小组

进行可用性与阈值的判断，所述可用性与阈值的判断的方式为，如果串谋答案可用性

大于阈值η_d，则保留串谋小组中串谋产生的答案

如果串谋答案可用性

小于阈值η_d，则删除串谋小组中串谋答案

其中L_ld为被抄袭者在任务集合

上提交的答案集合，对所有串谋小组进行上述可用性与阈值的判断后，最后将答案集合

提交后进行答案汇聚

在串谋行为检测方面，不同于基于工人相似度和基于工人能力变化率的串谋检测方法，本发明提出的串谋检测方法从包含正常重复答案的答案集合中判定出串谋产生的重复答案，并不假设串谋产生的答案序列是完全重复的。

在串谋答案处理方面，不同于现存的串谋答案处理方法，本发明提出一种串谋答案处理方法不仅能够删除对众包结果质量有害的串谋答案，而且能够保留对众包结果质量有利的串谋答案，从而提高众包结果的质量。

附图说明

图1为本发明的整体流程图；

图2为对串谋答案进行处理时的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出一种抵御串谋的众包方法，如图1所示，包括以下步骤：

步骤1，请求者通过众包平台来发布任务；

步骤3，任务处理，然后进行答案收集；

步骤5，对串谋工人的答案进行处理；

步骤6，进行答案汇聚，并把汇聚结果提交给请求者。

在所述步骤1中，请求者在众包平台上根据其具体需求发布任务如图片标注，语音识别等。这里的众包平台是指通用的众包平台如AMT。

在所述步骤2中，众包平台根据平台的协议和一定的约束条件来进行任务分配。例如通用平台AMT通常采用PULL的方式发布任务。在任务被发布以后，工人会在平台上面搜索并选择自己感兴趣的任务。

在所述步骤3中，任务选择完成后，工人会对选定的任务进行处理。处理完成后，处理结果会返回给请求者。请求者收到处理结果后会对其进行整理，对处理结果中明显错误的答案进行数据清洗。

在所述步骤4中，串谋检测是基于工人答案的观察一致性和工人答案的期望一致性计算工人的串谋可能性的。其能够在包含正常重复答案的答案集合中判定出串谋产生的重复答案。不同于基于工人能力变化率的串谋检测方法，该发明并不假设串谋产生的答案序列是完全重复的。串谋检测流程包括以下步骤。

步骤4-1，在完成答案收集之后，计算工人答案的观察一致性和工人答案的期望一致性。首先计算工人答案的观察一致性。l_1j和l_2j分别为工人w₁和工人w₂对于任务t_j提交的答案。T₁为工人w₁完成的任务集合，T₂为工人w₂完成的任务集合，工人答案的观察一致性π_o根据公式1计算如下

其中，

计算工人答案的期望一致性，设

为随机分布在任务集合

中的黄金测试任务，并且

为

的Ground truth，则第i个工人w_i的能力估计如下：

工人答案的期望一致性可以计算如下:

其中，我们用

表示某事件发生的概率。K为任务的候选答案的个数，x_k为第k个候选答案，

为任务t_j的真值Ground truth。

步骤4-2，计算工人的串谋可能性，利用公式(2)计算工人w₁的能力a₁和工人w₂的能力a₂，其中候选答案个数K是提前给出的。在得到工人答案的观察一致性和工人答案的期望一致性后，可以通过下式得到工人的串谋可能性Z：

其中，

步骤4-3，在得到串谋可能性Z之后，若串谋可能性大于阈值p，则判定工人w₁和工人w₂为串谋工人；若串谋可能性小于阈值p，则判定工人w₁和工人w₂为正常工人。对于m对工人，我们获得一个m×m的矩阵R。其中R_i，i′＝1表示工人w_i和工人w_i′被鉴定为串谋工人，反之工人w_i和工人w_i′被鉴定为正常工人。关于成对工人的检测结果可以表示为一个无向无权图，其中点对应工人，如果两个点之间存在一条边表示两个工人被鉴定为存在串谋关系。无向无权图中的各个连通组件对应各串谋小组，而对无向无环图进行广度优先搜索算法求解可以得到图中的连通组件(即串谋小组)。

在所述步骤5中进行串谋答案处理的具体方式如图2所示，

步骤5-1，鉴定正常工人并保留正常工人的答案，对于串谋小组

被抄袭者w_ld鉴定为：

其中，n′为串谋小组

中串谋者在黄金测试任务集合中提交相同答案的任务数量，

为

个任务中串谋者提交正确答案的任务数量，a_i为通过黄金测试任务估计出的第i个工人能力；

步骤5-2，然后计算串谋答案可用性

正常工人的集合，删除串谋小组

中抄袭者的工人集合为

保留串谋小组

中抄袭者的工人集合为

工人集合

中工人的平均能力为：

工人集合

中工人的平均能力

串谋答案可用性为

步骤5-3，计算串谋答案可用性的理论阈值。对应工人集合

的平均任务完成率为：

其中，

为任务数量，T_i为工人w_i完成的任务集合，工人集合

的平均任务完成率为

在一个串谋小组中，串谋工人进行抄袭的概率

为：

其中，

为串谋小组

包含的工人数目，l_ij为工人w_i在任务t_j上的答案，

为串谋小组

在任务集合

上提交的答案集合。

最后串谋答案可用性的理论阈值为

其中，m为工人集合

包含的工人数目；

步骤5-4，判断是否保留串谋答案集合，

为正常工人

在任务集合

上提交的答案集合，对于每一个串谋小组

大于阈值η_d，则保留串谋小组中串谋产生的答案

如果串谋答案可用性

小于阈值η_d，则删除串谋小组中串谋答案

其中L_ld为被抄袭者在任务集合

提交后进行答案汇聚。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。