CN104599084B

CN104599084B - 一种群体计算的质量控制方法及装置

Info

Publication number: CN104599084B
Application number: CN201510076468.3A
Authority: CN
Inventors: 孙海龙; 刘旭东; 方毅立; 张日崇; 怀进鹏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-02-12
Filing date: 2015-02-12
Publication date: 2017-11-03
Anticipated expiration: 2035-02-12
Also published as: CN104599084A

Abstract

本发明提供一种群体计算的质量控制方法及装置。本发明一种群体计算的质量控制方法，包括：将待处理的众包任务集合划分成多个子任务集合；从子任务集合中选择测试任务，并确定测试任务的难度系数和准确答案；确定第一子任务集合和第二子任务集合；根据测试任务的难度系数确定第一子任务集合中子任务的难度系数；根据测试任务评估工人的能力系数，并根据工人的能力系数以及第一子任务集合中子任务的难度系数确定工人完成子任务的准确度；根据准确度获取第一子任务集合中子任务的完成结果，并获取第二子任务集合中子任务的完成结果。本发明提高了众包任务完成的准确率，也在一定程度上控制了花费。

Description

一种群体计算的质量控制方法及装置

技术领域

本发明涉及计算机技术，尤其涉及一种群体计算的质量控制方法及装置。

背景技术

众包(crowdsourcing)指的是一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。近年来，众包在很多领域获得了广泛的应用，众包任务发布者将任务发布在众包平台，通过众包平台，收集大量的数据或者任务完成的结果，这些数据质量越高越好，即主要指收集的数据的广泛性或者完成任务结果的准确性，目前群体计算研究的主要问题集中在控制众包平台的发布任务的花费、控制结果收集和最终答案汇聚的质量。

目前对于众包技术质量控制研究主要基于以下几点：(1)参与者能力分析与选择：由于众包平台参与者来自大众群体，良莠不齐，为了能使得众包任务得以正常完成，怎样判断参与者能力和怎样选用参与者以及如何有效地结合工人因素、请求人的任务优化目标进行在线任务分配是个问题；(2)任务分割与结果汇聚：由于很多任务单个人难于完成，并且众包参与者之间的合作关系较弱。所以如何将一个任务数目庞大的任务集分割成单个参与者能够单独完成的量也是一个很大的挑战。由于众包系统更适合于微观任务，因此为了支持复杂任务，需要把复杂的任务集划分为数目较少的微观任务系列，然后把微观任务系列分发给任务完成者(也称作工人)，并收集工人对微观任务的答案，最后整合工人答案来完成初始的复杂任务。

目前群体计算的研究主要集中在“实名制平台”(所谓实名制即为：平台或者发包者可以根据工人的基本资料获得用户的资料或者工人的信息)，主要通过建立任务和工人的映射关系，从而提高任务完成的质量，然而对于一些平台，参与者的能力良莠不齐及平台本身存在一些恶意的用户，发包方难于获得用户的信息和用户完成历史信息，难于估计参与完成任务的工人的能力，从而较难控制结果收集和最终答案汇聚的质量。

发明内容

本发明提供一种群体计算的质量控制方法及装置，解决了现有技术中较难控制结果收集和最终答案汇聚的质量的问题。

第一方面，本发明提供一种群体计算的质量控制方法，包括：

将待处理的众包任务集合划分成多个任务类别的子任务集合；

从所述子任务集合中选择测试任务，并确定所述测试任务的难度系数和准确答案；

确定第一子任务集合和第二子任务集合；其中，所述第一子任务集合为加入所述测试任务的子任务集合，所述第二子任务集合为未加入所述测试任务的子任务集合；

根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数；

根据所述测试任务的难度系数和准确答案评估工人的能力系数，并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度；

根据所述准确度获取所述第一子任务集合中子任务的完成结果，并获取所述第二子任务集合中子任务的完成结果。

可选地，所述将待处理的众包任务集合划分成多个任务类别的子任务集合，包括：

利用谱聚类的聚类方法将所述待处理的众包任务集合划分成多个所述子任务集合。

可选地，所述从所述子任务集合中选择测试任务，包括：

计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量；其中，所述子任务集合的个数为k；所述k为大于1的整数；

从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的N_k/k个子任务，得到N_k(k-1)/k个子任务，并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务，将所述N_k个子任务作为测试任务；其中，所述N_k为预设的测试任务的个数，且为大于1的整数。

可选地，所述计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量，包括：

将所述子任务集合T_i及其他任意子任务集合T_j组成任务类序对＜T_i,T_j＞，所述T_i中的子任务t不属于T_i类的概率p_ij(t)＝dis(t-u_j)/(dis(t-u_i)+dis(t-u_j))；其中，dis(·)为计算欧式距离的函数；u_i表示所述T_i的特征值的均值；u_j表示所述T_j的特征值的均值；i为1到k的整数；j为1到k的整数；i不等于j；

则所述T_i中的所述子任务t包含所述T_i的信息量为：I_ij(t)＝-logp_ij(t)。

可选地，所述从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的N_k/k个子任务，得到N_k(k-1)/k个子任务，并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务，将所述N_k个子任务作为测试任务，包括：

从每个所述k-1个任务类序对中选择包含信息量最大的子任务的集合为：T'_ij＝{argmax({I_ij(t_l)|t_l∈(T_i/T'_ij))}∪T'_ij；其中，t_l∈(T_i/T'_ij)表示子任务t_l属于所述T_i，但不属于所述T'_ij；所述T'_ij的初始值为空集，所述T'_ij的元素个数为N_k/k；

根据所述T'_ij得到所述k-1个任务类序对中包含N_k(k-1)/k个子任务的集合为：其中，T为所述众包任务集合；argmax(·)函数用于求出使信息量最大的子任务；

从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务的集合为：其中，t_l∈(T_i/T_i″)表示子任务t_l属于所述T_i，但不属于所述T_i″；所述T_i″的初始值为空集，所述T_i″的元素个数为N_k/k；表示所述k-1个任务类序对中t_l包含所述T_i的信息量之和；argmin(·)函数用于求出使信息量最小的子任务；

将所述T_i″集合中的N_k/k个子任务和所述T_i'集合中的N_k(k-1)/k个子任务作为N_k个测试任务。

可选地，所述根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数，包括：

根据所述测试任务t_m的特征向量为e＝(x₁,x₂,…,x_N)，建立多元线性回归模型如下：

d_m＝β₀+β₁x₁+β₂x₂+…+β_Nx_N+ε；其中，ε～N(0,σ²)；

根据所述多元线性回归模型计算得到β₀,β₁,β₂,…,β_N；其中，N为所述特征向量的维数；m为1到N_k的整数。

确定所述子任务的特征向量W＝(w₁,w₂,…,w_N)，并根据所述特征向量和所述β₀,β₁,β₂,…,β_N计算所述子任务的难度系数d'。

可选地，所述根据所述测试任务的难度系数和准确答案评估工人的能力系数，包括：

设工人的能力系数为a，测试任务为所述测试任务的难度系数为所述测试任务的准确答案为将所述测试任务的完成结果表示为

根据先验概率分布，工人提供的所述测试任务的完成结果o_m为正确答案的概率服从如下公式(1)的分布：

所述o_m为错误答案的概率服从如下公式(2)的分布：

其中，θ(x)为赫维赛德阶跃函数；m为1到N_k的整数；

利用最大化后验分布可求得下述公式(3)：

对所述公式(3)采用极大似然估计方法，获取所述能力系数a。

可选地，所述根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度，包括：

根据所述能力系数a和所述子任务的难度系数d'，利用如下公式计算所述工人完成所述子任务的准确度：

其中，f为所述子任务的完成结果。

可选地，所述根据所述准确度获取所述第一子任务集合中子任务的完成结果，包括：

选取准确度大于预设的准确度阈值的工人的完成结果，作为所述子任务的完成结果；

所述获取所述第二子任务集合中子任务的完成结果，包括：

利用多数决定原则确定所述第二子任务集合中子任务的完成结果。

第二方面，本发明实施例提供一种群体计算的质量控制装置，包括：

划分模块，用于将待处理的众包任务集合划分成多个任务类别的子任务集合；

确定模块，用于从所述子任务集合中选择测试任务，并确定所述测试任务的难度系数和准确答案；

所述确定模块，还用于确定第一子任务集合和第二子任务集合；其中，所述第一子任务集合为加入所述测试任务的子任务集合，所述第二子任务集合为未加入所述测试任务的子任务集合；

所述确定模块，还用于根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数；

所述确定模块，还用于根据所述测试任务的难度系数和准确答案评估工人的能力系数，并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度；

获取模块，用于根据所述准确度获取所述第一子任务集合中子任务的完成结果，并获取所述第二子任务集合中子任务的完成结果。

本发明一种群体计算的质量控制方法及装置，在一些难于获得或者获得不了网络用户信息的平台下，由于用户针对各类问题的回答的能力不同，并且问题的复杂程度也不同，将复杂多样的众包任务集合利用聚类算法进行划分，分成多个子任务集合，并利用信息熵的方法提取出典型的子任务进行评估，从而决定哪些子任务集合需要加入测试任务，哪些子任务集合不需要加入测试任务，并根据测试任务的难度系数确定加入测试任务的子任务集合中子任务的难度系数以及工人的能力系数，确定完成结果的准确度，根据准确度确定最终完成结果，这样一方面解决了难度较大任务的结果汇聚问题，可以提高最终完成结果的准确率，另一方面在简单任务中不加入测试任务，也在一定程度上控制了花费。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明群体计算的质量控制方法实施例的流程图；

图2为本发明方法实施例的原理图；

图3为本发明方法实施例的体系结构图；

图4为本发明方法实施例的任务划分示意图；

图5为本发明群体计算的质量控制装置实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前，众包已经渗透到了人们生活中的方方面面，大量的众包任务通过网络发布并由未知的人完成，面对未知的结果的众包任务，如何评测结果，获得准确的答案，成为了一个关键问题。若平台可提供用户的相关历史信息及个人信息，可以统计归纳出该用户的完成众包任务的能力，从而选取能力较高的用户来完成众包任务。但是大量的众包平台，仍然难于获得用户的历史信息及私人信息，使得发包人难于判断用户提交答案的准确性，当然对于一些简单的任务，则可直接用多数决定原则(majority rule)的方法来汇聚结果，且结果汇聚的质量较高，但是对于复杂的任务群，直接使用该方法获得的结果往往是错的，因此本发明的主要目标是针对复杂任务集，通过穿插一些测试任务，并在结果汇聚中用测试任务来评估参与者的能力，从而实时性剔除能力低的工人提交的结果，从而提高复杂任务的结果的准确率，满足发包方的需求。

图1为本发明群体计算的质量控制方法实施例的流程图。图2为本发明方法实施例的原理图。图3为本发明方法实施例的体系结构图。如图1所示，本实施例的方法可以包括：

步骤101、将待处理的众包任务集合划分成多个任务类别的子任务集合；

步骤102、从所述子任务集合中选择测试任务，并确定所述测试任务的难度系数和准确答案；

步骤103、确定第一子任务集合和第二子任务集合；其中，所述第一子任务集合为加入所述测试任务的子任务集合，所述第二子任务集合为未加入所述测试任务的子任务集合；

步骤104、根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数；

步骤105、根据所述测试任务的难度系数和准确答案评估工人的能力系数，并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度；

步骤106、根据所述准确度获取所述第一子任务集合中子任务的完成结果，并获取所述第二子任务集合中子任务的完成结果。

具体来说，如图2、图3所示，本发明的质量控制方法是一个复杂的任务优化过程，也是一个很实用的众包平台匿名承包流程。从群体计算的角度来看，本发明利用自动化的方法把复杂的众包任务分成多类微任务，即将待处理的众包任务集合划分成多个任务类别的子任务集合，然后将子任务集合交给多个工人解决(图3中的网络用户即工人)，然后再将子任务集合中子任务的完成结果组合成最优结果；因为发包方提交的众包任务中的任务庞大繁杂，随意分发难于获得高质量的结果，因此可通过数据挖掘的方法完成子任务集合的类别划分；划分类别之后，要从所述子任务集合中选择测试任务，并确定所述测试任务的难度系数，确定所述测试任务的难度系数的过程可通过专家决策，如何抽取有代表性的测试任务给专家评估是至关重要的，如果过高的评估了任务的难度，选取的测试任务过多，就会设置一些冗余的测试任务来评估子任务完成结果的准确率，则会加大费用，若过低的评估了测试任务的难度，则获得的结果会不准确。例如可以从这些各个任务类别的子任务集合中将任意两个子任务类别中不能确定的和最能确定的多个任务作为测试任务交给专家评估；

选择测试任务之后，还要确定哪些子任务集合需要加入测试任务，哪些不需要加入测试任务，即确定第一子任务集合和第二子任务集合，将所述第一子任务集合和所述第二子任务集合进行发布；其中，所述第一子任务集合为加入所述测试任务的子任务集合，所述第二子任务集合为未加入所述测试任务的子任务集合；所述第一子任务集合可能包含多个类别的子任务集合，所述第二子任务集合也可能包含多个类别的子任务集合；发布时第一子任务集合包含的多个子任务集合中加入的测试任务相同，多个字任务集合可以不是同时发布的。

然后根据所述测试任务的难度系数确定第一子任务集合中子任务的难度系数；发布的众包任务集合中包括：第一子任务集合和第二子任务集合；第一子任务集合中还包括测试任务的正确答案；最终会根据该测试任务的难度系数以及正确答案评估工人的能力系数，并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度；根据所述准确度获取所述第一子任务集合中子任务的完成结果，即将准确度高的工人的完成结果作为最终第一子任务集合中该子任务的完成结果，并获取第二子任务集合中子任务的完成结果；第二子任务集合中子任务的完成结果直接利用多数决定原则(majority rule)获取。

对于复杂的任务来说，由于用户的能力可能不高，所以将多数决定原则用于结果汇聚得到的结果难于满足发包方的要求，而且对于结果也难于评估，而对于那些简单的任务如果加上测试任务的话，则增加了用户的费用，降低了流程的效率，因此可采用本发明实施例的质量控制方法来解决上述问题。

本实施例，在一些难于获得或者获得不了网络用户信息的平台下，由于用户针对各类问题的回答的能力不同，并且问题的复杂程度也不同，将复杂多样的众包任务集合利用聚类算法进行划分，分成多个子任务集合，并利用信息熵的方法提取出典型的子任务让专家评估，从而决定哪些子任务集合需要加入测试任务，哪些子任务集合不需要加入测试任务，最终根据子任务完成结果的准确度确定完成结果，这样一方面解决了难度较大任务的结果汇聚问题，可以提高完成结果的准确率，另一方面在简单任务中不加入测试任务，也在一定程度上控制了花费。

图4为本发明方法实施例的任务划分示意图。

在上述实施例的基础上，进一步的，所述将待处理的众包任务集合划分成多个任务类别的子任务集合，包括：

具体来说，对于众包任务集合来说，如何做出合理的任务类别划分是关键，可利用谱聚类的方法将待处理的众包任务集合划分成多个任务类别的子任务集合，即当发包方上传包含很多各类复杂的子任务的众包任务集合时，可将所述众包任务集合按照各种属性分类。本实施例以图片中实体的匹配任务集合为例，以如下的图片匹配任务的特征来给出谱聚类的任务类别划分算法：

建立众包任务中各个子任务之间的近似矩阵，最后利用谱聚类方法进行分类。如通过图像匹配的特征提取：灰度值近似度、ASIFT值近似度(轮廓及灰度值变化率近似度)、任务发放形式近似度和任务特征近似度，然后利用谱聚类的方法生成近似矩阵W，其中的元素表示任务之间的近似度。如图4所示为各个类别即为划分后的子任务集合，可将众包任务划分为3类子任务集合。

进一步的，所述从所述子任务集合中选择测试任务，包括：

进一步的，所述计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量，包括：

进一步的，所述从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的N_k/k个子任务，得到N_k(k-1)/k个子任务，并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务，将所述N_k个子任务作为测试任务，包括：

具体来说，选择测试任务主要是选取经典的样例来评估众包任务集合，可以在子任务集合中选择和别的子任务集合的类别容易混淆的的子任务和与其他类别的子任务集合区别度较大的子任务，选择测试任务时，首先计算子任务包含所述子任务集合的信息量：根据目前分好的多个任务类别的k个子任务集合，计算出各个子任务集合的各个特征值的均值，将该子任务集合及其他任意子任务集合组成k-1个任务类序对＜T_i,T_j＞，因此可得所述T_i中的子任务t不属于T_i类的概率p_ij(t)＝dis(t-u_j)/(dis(t-u_i)+dis(t-u_j))；则该子任务t不为T_i类的概率为：1-p_ij(t)。则所述T_i中的所述子任务t包含所述T_i的信息量为：I_ij(t)＝-logp_ij(t)；其中，dis(·)为计算欧式距离的函数；u_i表示所述T_i的特征值的均值；u_j表示所述T_j的特征值的均值；i为1到k的整数；j为1到k的整数；i不等于j。

假设我们将抽取N_k个子任务作为测试任务，则每个任务类序对中选择包含信息量最大的N_k/k个子任务，所述N_k/k个子任务的信息量从最大值降序排列，即选择最大信息量、第二大信息量等组成N_k/k子任务的集合，即从每个所述k-1个任务类序对中选择包含信息量最大的子任务的集合为：T'_ij＝{argmax({I_ij(t_l)|t_l∈(T_i/T'_ij))}∪T'_ij；其中，t_l∈(T_i/T'_ij)表示子任务t_l属于所述T_i，但不属于所述T'_ij；所述T'_ij的初始值为空集，所述T'_ij的元素个数为N_k/k；根据所述T'_ij得到所述k-1个任务类序对中包含N_k(k-1)/k个子任务的集合为：其中，T为所述众包任务集合；argmax(·)函数用于求出使信息量最大的子任务；

从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务的集合为：T_i″＝{argmin({I_i(t_l)|t_l∈(T_i/T_i″)}∪T_i″；其中，t_l∈(T_i/T_i″)表示子任务t_l属于所述T_i，但不属于所述T_i″；所述T_i″的初始值为空集，所述T_i″的元素个数为N_k/k；表示所述k-1个任务类序对中t_l包含所述T_i的信息量之和；argmin(·)函数用于求出使信息量最小的子任务；

选择出测试任务之后，专家给出该测试任务的难度系数以及正确答案。

进一步的，所述根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数，包括：

d_m＝β₀+β₁x₁+β₂x₂+…+β_Nx_N+ε；其中，ε～N(0,σ²)；

根据所述多元线性回归模型计算得到β₀,β₁,β₂,…,β_N；其中，N为所述特征向量的维数。

具体来说，m为1到N_k的整数，根据所述测试任务t_m的特征向量为e＝(x₁,x₂,…,x_N)，建立多元线性回归模型如下：

d_m＝β₀+β₁x₁+β₂x₂+…+β_Nx_N+ε；其中，ε～N(0,σ²)；

则多元线性回归模型包含N_k个方程，根据所述测试任务t_m的特征向量，以及所述测试任务的难度系数，可估计出β₀,β₁,β₂,…,β_N的值，N与N_k可以不相等，即可大于N_k或小于N_k，也可以等于N_k；ε～N(0,σ²)为误差；

然后确定所述子任务的特征向量W＝(w₁,w₂,…,w_N)，并根据所述特征向量和所述β₀,β₁,β₂,…,β_N计算所述子任务的难度系数d'，d'＝β₀+β₁w₁+β₂w₂+…+β_Nw_N。

进一步的，所述根据所述测试任务的难度系数和准确答案评估工人的能力系数，包括：

所述o_m为错误答案的概率服从如下公式(2)的分布：

其中，θ(x)为赫维赛德阶跃函数；m为1到N_k的整数；

利用最大化后验分布可求得：

对公式(3)采用极大似然估计方法，获取所述能力系数a。

具体来说，假设我们设置了包含多个子任务的的众包任务集合，其中还包含了多个测试任务，可以根据贝叶斯模型获取到工人的能力系数。

所述o_m为错误答案的概率服从如下公式(2)的分布：

其中，θ(x)为赫维赛德阶跃函数；m为1到N_k的整数；

利用最大化后验分布可求得：

对公式(3)采用极大似然估计方法，获取所述能力系数a。

进一步的，所述根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度，包括：

其中，f为所述子任务的完成结果。

具体来说，根据所述工人的能力系数a以及所述第一子任务集合的难度系数d'，可得出工人完成该子任务的准确度为：

进一步的，所述根据所述准确度获取所述第一子任务集合中子任务的完成结果，包括：

所述获取所述第二子任务集合中子任务的完成结果，包括：

利用多数决定原则获取所述第二子任务集合中子任务的完成结果。

具体来说，对于第一子任务集合中子任务，可以根据各个第一子任务集合中子任务的完成结果的准确度确定该子任务最终的完成结果，即选择准确度高的工人的完成结果作为最终的完成结果，对于第二子任务集合中子任务来说，可以将该第二子任务集合中子任务的结果直接使用多数决定原则确定该子任务最终的完成结果，即多数人赞成的答案为正确答案。

最后将第一子任务集合和第二子任务集合中的所有子任务的完成结果提交给发布方，完成任务。

图5为本发明群体计算的质量控制装置实施例的结构示意图，如图5所示，本实施例的群体计算的质量控制装置可以包括：划分模块501、确定模块502和获取模块503，其中，划分模块501，用于将待处理的众包任务集合划分成多个任务类别的子任务集合；

确定模块502，用于从所述子任务集合中选择测试任务，并确定所述测试任务的难度系数和准确答案；

所述确定模块502，还用于确定第一子任务集合和第二子任务集合；其中，所述第一子任务集合为加入所述测试任务的子任务集合，所述第二子任务集合为未加入所述测试任务的子任务集合；

所述确定模块502，还用于根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数；

所述确定模块502，还用于根据所述测试任务的难度系数和准确答案评估工人的能力系数，并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度；

获取模块503，用于根据所述准确度获取所述第一子任务集合中子任务的完成结果，并获取所述第二子任务集合中子任务的完成结果。

本实施例的群体计算的质量控制装置可以设置于应用服务器上。

进一步的，划分模块501，具体用于：

进一步的，所述确定模块502，具体用于：

d_m＝β₀+β₁x₁+β₂x₂+…+β_Nx_N+ε；其中，ε～N(0,σ²)；

进一步的，所述确定模块502，具体用于：

所述o_m为错误答案的概率服从如下公式(2)的分布：

其中，θ(x)为赫维赛德阶跃函数；m为1到N_k的整数；

利用最大化后验分布可求得下述公式(3)：

对公式(3)采用极大似然估计方法，获取所述能力系数a。

进一步的，所述确定模块502，具体用于：

其中，f为所述子任务的完成结果。

进一步的，所述获取模块503，具体用于：

选取准确度大于预设的准确度阈值的工人的完成结果，作为所述第一子任务集合中所述子任务的完成结果；

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种群体计算的质量控制方法，其特征在于，包括：

根据所述准确度获取所述第一子任务集合中子任务的完成结果，并获取所述第二子任务集合中子任务的完成结果；

其中，所述从所述子任务集合中选择测试任务，包括：计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量；其中，所述子任务集合的个数为k；所述k为大于1的整数；从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的N_k/k个子任务，得到N_k(k-1)/k个子任务，并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务，将所述N_k个子任务作为测试任务；其中，所述N_k为预设的测试任务的个数，且为大于1的整数；

所述从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的N_k/k个子任务，得到N_k(k-1)/k个子任务，并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务，将所述N_k个子任务作为测试任务，包括：

从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务的集合为：其中，t_l∈(T_i/T_i”)表示子任务t_l属于所述T_i，但不属于所述T_i”；所述T_i”的初始值为空集，所述T_i”的元素个数为N_k/k；表示所述k-1个任务类序对中t_l包含所述T_i的信息量之和；argmin(·)函数用于求出使信息量最小的子任务；

将所述T_i”集合中的N_k/k个子任务和所述T_i'集合中的N_k(k-1)/k个子任务作为N_k个测试任务；

所述根据所述测试任务的难度系数和准确答案评估工人的能力系数，包括：

所述o_m为错误答案的概率服从如下公式(2)的分布：

其中，θ(x)为赫维赛德阶跃函数；m为1到N_k的整数；

利用最大化后验分布可求得下述公式(3)：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>=</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> <mo>&CircleTimes;</mo> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>&NotEqual;</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> <mo>|</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Pi;</mo> <mrow> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>&NotEqual;</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> </mrow> <mi>K</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>&NotEqual;</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> <mo>|</mo> <msub> <mi>d</mi> <mi>m</mi> </msub> <mo>;</mo> <mi>a</mi> <mo>)</mo> </mrow> <msubsup> <mo>&Pi;</mo> <mrow> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>=</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> </mrow> <mi>K</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>=</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> <mo>|</mo> <msub> <mi>d</mi> <mi>m</mi> </msub> <mo>;</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

对所述公式(3)采用极大似然估计方法，获取所述能力系数a。

2.根据权利要求1所述的方法，其特征在于，所述将待处理的众包任务集合划分成多个任务类别的子任务集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量，包括：

将所述子任务集合T_i及其他任意子任务集合T_j组成任务类序对<T_i,T_j>，所述T_i中的子任务t不属于T_j类的概率p_ij(t)＝dis(t-u_j)/(dis(t-u_i)+dis(t-u_j))；其中，dis(·)为计算欧式距离的函数；u_i表示所述T_i的特征值的均值；u_j表示所述T_j的特征值的均值；i为1到k的整数；j为1到k的整数；i不等于j；

则所述T_i中的所述子任务t包含所述T_j的信息量为：I_ij(t)＝-log p_ij(t)。

4.根据权利要求3所述的方法，其特征在于，所述根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数，包括：

d_m＝β₀+β₁x₁+β₂x₂+…+β_Nx_N+ε；其中，ε～N(0,σ²)；

根据所述多元线性回归模型计算得到β₀,β₁,β₂,…,β_N；其中，N为所述特征向量的维数；m为1到N_k的整数；

5.根据权利要求4所述的方法，其特征在于，所述根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度，包括：

其中，f为所述子任务的完成结果。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述准确度获取所述第一子任务集合中子任务的完成结果，包括：

所述获取所述第二子任务集合中子任务的完成结果，包括：

7.一种群体计算的质量控制装置，其特征在于，包括：

获取模块，用于根据所述准确度获取所述第一子任务集合中子任务的完成结果，并获取所述第二子任务集合中子任务的完成结果；

其中，所述确定模块，具体用于：计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量；其中，所述子任务集合的个数为k；所述k为大于1的整数；从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的N_k/k个子任务，得到N_k(k-1)/k个子任务，并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务，将所述N_k个子任务作为测试任务；其中，所述N_k为预设的测试任务的个数，且为大于1的整数；

所述确定模块，具体还用于：

从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的N_k/k个子任务的集合为：其中，t_l∈(T_i/T_i”)表示子任务t_l属于所述T_i，但不属于所述T_i”；所述T_i”的初始值为空集，所述T_i”的元素个数为N_k/k；表示所述k-1个任务类序对中t_l包含所述T_i的信息量之和；arg min(·)函数用于求出使信息量最小的子任务；

所述确定模块，具体还用于：

所述o_m为错误答案的概率服从如下公式(2)的分布：

其中，θ(x)为赫维赛德阶跃函数；m为1到N_k的整数；

利用最大化后验分布可求得下述公式(3)：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>=</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> <mo>&CircleTimes;</mo> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>&NotEqual;</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> <mo>|</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Pi;</mo> <mrow> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>&NotEqual;</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> </mrow> <mi>K</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>&NotEqual;</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> <mo>|</mo> <msub> <mi>d</mi> <mi>m</mi> </msub> <mo>;</mo> <mi>a</mi> <mo>)</mo> </mrow> <msubsup> <mo>&Pi;</mo> <mrow> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>=</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> </mrow> <mi>K</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>m</mi> </msub> <mo>=</mo> <msub> <mi>GT</mi> <mi>m</mi> </msub> <mo>|</mo> <msub> <mi>d</mi> <mi>m</mi> </msub> <mo>;</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

对所述公式(3)采用极大似然估计方法，获取所述能力系数a。