CN106228029A

CN106228029A - 基于众包的量化问题求解方法和装置

Info

Publication number: CN106228029A
Application number: CN201610786238.0A
Authority: CN
Inventors: 孙海龙; 王旭; 胡可凡; 方毅立
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2016-12-14
Anticipated expiration: 2036-08-30
Also published as: CN106228029B

Abstract

本发明实施例提供一种基于众包的量化问题求解方法和装置。本发明基于众包的量化问题求解方法，包括：根据众包工人j在时刻t的能力、众包工人j的偏差b_j和量化问题i的汇聚结果μ_i构建众包工人j对于量化问题i的回答r_i,j的生成模型；接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入；利用EM算法对生成模型中的众包工人j在时刻t的能力、众包工人j的偏差b_j和量化问题i的汇聚结果μ_i进行推导，确定量化问题i的汇聚结果μ_i的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差b_j的值。本发明实施例可以有效提升量化问题的汇聚结果的准确度。

Description

基于众包的量化问题求解方法和装置

技术领域

本发明实施例涉及数据挖掘技术，尤其涉及一种基于众包的量化问题求解方法和装置。

背景技术

众包已被证明是一种解决许多问题非常有效的方法。它将计算机难以处理的任务(数据标注、图片识别等)交给人群进行处理，已经被广泛用于互联网服务和数据处理：百科、图片标注、问答系统、社会化新闻、推荐系统等，得到了学术界和工业界的高度重视。量化估值问题(量化问题)广泛应用于现实生活之中，例如在智慧城市中，利用路口的监控摄像头记录的车流进行车流计数(vehicle counting)，从而监控实时路况，进行智能交通规划避免拥堵；又例如在生物学研究中的细胞计数(cell counting)问题，需要统计大量显微镜图片内的微生物或者细胞数目，进行实验结果分析；又例如人群计数问题，商场根据摄像头采集到的图片，对不同区域的人流量进行计数统计，从而能够进行更合理更科学的商业分析和建筑设计。为了解决量化估值问题，基于计算机图像学的方法，业界提出了众多解决方法，然而图像学方法受制于图片的背景，环境，计数对象的特征等各种因素的影响，并不能非常准确地得到计数结果，比如在商场的人流量计数中，由于背景环境复杂，会出现人部分被障碍物挡住，或者图片中几个人图像重叠在一起的现象，图像学方法往往难以很好处理，造成结果的不准确。并且基于图像学的方法需要考虑场景背景环境和需要计数的对象特征的因素，对每一种不同计数场景和对象都重新设计算法，这是十分耗时耗力的。

使用众包(crowdsourcing)的方法解决量化估值问题，首先能克服图像学方法中场景的局限性问题，招募的众包工人可以解决任何场景下的计数问题，而不需要重新设计算法；其次面对图片中复杂的背景环境，众包工人也能够利用人的智慧轻松判断出是否其中是否有需要计数的对象。由于众包市场(例如著名的众包市场亚马逊土耳其机器人www.mturk.com或者众包之花www.crowdflower.com)上众包工人受到各种条件的限制，众包工人的质量参差不齐，因此对于能力未知的众包工人提供的答案，众包雇主并不能完全相信答案的质量，大部分众包平台为了增加答案的可信度和准确度，每个量化问题一般都会让多个众包工人给出回答，之后将多个回答汇聚成一个较为准确的答案，这就叫做众包结果汇聚。学术界对于结果汇聚问题提出了多种多样的解决方法，最为朴素的就是少数服从多数的方法(Majority Voting)，将答案的多数选项作为最终的汇聚结果。

然而上述利用众包解决量化估值问题的方法，其得到的汇聚结果的准确度不高。

发明内容

本发明实施例提供一种基于众包的量化问题求解方法和装置，有效提升量化问题的汇聚结果的准确度。

第一方面，本发明实施例提供一种基于众包的量化问题求解方法，包括：

根据众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i构建众包工人j对于量化问题i的回答r_i,j的生成模型，所述生成模型为

接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入；

利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i进行推导，确定量化问题i的汇聚结果μ_i的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差b_j的值；

其中，回答量化问题i的众包工人的总个数为U_i，j分别取1至U_i中的正整数。

在本实现方式中，在进行量化问题的结果汇聚过程中考虑众包工人的能力，可以有效提升量化问题的汇聚结果的准确性。

结合第一方面，在第一方面的一种可能的实现方式中，所述接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入，包括：

以周期L向众包工人j发送量化问题i，i分别取1至L；

接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入。

本实现方式中，将量化问题以周期L进行划分，在一个周期中利用上述方法确定量化问题i的汇聚结果μ_i的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差b_j的值，其中，众包工人j在时刻t的能力的值以及众包工人j的偏差b_j的值可以应用于下一个周期的计算，从而可以进一步提升量化问题的汇聚结果的准确性。

结合第一方面上述任一种可能的实现方式，在第一方面的一种可能的实现方式中，所述众包工人j来自众包工人池，所述方法还包括：

分别计算众包工人池中所有众包工人的系统贡献值；

根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人。

所述分别计算众包工人池中所有众包工人的系统贡献值，包括：

根据公式计算众包工人j的系统贡献值y_j。

所述根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人，包括：

比较众包工人j的系统贡献值y_j与预设阈值；

若众包工人j的系统贡献值y_j小于预设阈值，则将众包工人j从众包工人池中剔除，获取更新后的众包工人池；

若众包工人j的系统贡献值y_j不小于预设阈值，则将众包工人j保留在众包工人池中，获取更新后的众包工人池；

其中，j分别取1至N，N为众包工人池中众包工人的总个数。

本实现方式中，根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人，使得在后续量化问题的结果汇聚过程中，回答的众包工人为能力较好的众包工人，从而可以进一步提升量化问题的汇聚结果的准确性。

第二方面，本发明实施例提供一种基于众包的量化问题求解装置，包括：

生成模型模块，用于根据众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i构建众包工人j对于量化问题i的回答r_i,j的生成模型，所述生成模型为

接收模块，用于接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入；

处理模块，用于利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i进行推导，确定量化问题i的汇聚结果μ_i的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差b_j的值；

本发明实施例基于众包的量化问题求解方法和装置，通过接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入，利用EM算法对关于众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i的生成模型进行推导，确定量化问题i的汇聚结果μ_i的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差b_j的值，从而在进行量化问题的结果汇聚过程中考虑众包工人的能力，可以有效提升量化问题的汇聚结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于众包的量化问题求解方法实施例一的流程图；

图2为在真实数据集上得出的众包工人给出量化估值错误频率直方图；

图3为众包工人的能力随着回答量化问题的数目的变化曲线示意图；

图4为本发明实施例的结果汇聚模型示意图；

图5为本发明基于众包的量化问题求解方法实施例二的流程图；

图6为本发明基于众包的量化问题求解装置实施例一的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

使用众包的方法解决量化问题时，通常存在着大量能力未知并且能力参差不齐的众包工人，为了实时汇聚出量化问题的结果，并且保证汇聚结果和众包工人的质量，缩减众包成本，本发明的基于众包的量化问题求解方法的主体思想具体可以包括以下几个步骤，以实现实时的使用众包工人对于量化问题的回答，确定众包工人在不同时刻的能力，并根据众包工人的动态变化的能力值准确地确定量化问题的汇聚结果。第一步：通过众包平台招募众包工人并收集众包工人对量化问题的回答；第二步：利用无监督的结果汇聚方法，对这段时间内回答完成的量化问题进行结果汇聚，得到这些问题的汇聚结果真值；第三步：结合汇聚出的问题的汇聚结果，利用卡尔曼滤波方法计算这段时间内众包工人们的动态的能力值；第四步：计算出的能力值将用于筛选出不合格的众包工人，一方面降低成本，另一方面提高汇聚结果的准确性；最后进入下一阶段，留下合格的众包工人并收集这些合格众包工人对量化问题的回答，重复以上四个步骤，直至结束。

图1为本发明基于众包的量化问题求解方法实施例一的流程图，如图1所示，本实施例的方法可以包括：

步骤101、根据众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i构建众包工人j对于量化问题i的回答r_i,j的生成模型，所述生成模型为

具体的，该生成模型具体为在众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i时，众包工人j对于量化问题i的回答r_i,j为正态分布。

步骤102、接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入。

具体的，可以通过众包平台将量化问题i下发给各个众包工人，各个众包工人分别对量化问题i进行回答，并将对于量化问题i的回答返回给众包平台，本发明实施例的方法具体可以通过众包平台接收各个众包工人对于量化问题i的回答，并将各个众包工人对于量化问题i的回答作为EM算法的输入，以执行下述步骤103。

步骤103、利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i进行推导，确定量化问题i的汇聚结果μ_i的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差b_j的值。

可选的，步骤103中利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i进行推导，具体可以包括：

执行E步骤：根据所述众包工人j对于量化问题i的回答r_i,j、众包工人j在时刻t的能力和众包工人j的偏差b_j，利用公式(1)确定第n次迭代的量化问题i的汇聚结果μ_i的真值

执行M步骤：根据E步骤中确定的和所述众包工人j对于量化问题i的回答r_i,j，利用公式(2)确定第n次迭代的众包工人j的偏差的值并且利用公式(3)确定众包工人j在时刻t的能力时刻t分别取不同的时间点；

b_{j}^{(n)} = \frac{Σ_{i = 1}^{Q_{j}} (r_{i, j} - μ_{i})}{| Q_{j} |} - - - (2)

其中，n＝1时，所述众包工人j在时刻t的能力的值为初始化的任意值，所述众包工人j的偏差b_j的值为初始化的任意值，n大于1时，所述众包工人j在时刻t的能力的值为n-1次迭代中确定的的值，所述众包工人j的偏差b_j的值为n-1次迭代中确定的Q_j为众包工人j回答的量化问题集合；

重复执行E步骤和M步骤，直至系统收敛。

其中，判断系统是否收敛的方法具体为：在每一轮EM算法执行后，利用该轮计算出的参数计算下面公式：

如果该轮计算出的结果和上一轮计算出的结果相差小于阈值ε，则确定系统收敛。

可选的，步骤102具体可以包括：以周期L向众包工人j发送量化问题i，i分别取1至L；接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入。

具体的，由于众包工人的能力会随着回答量化问题发生变化，所以可以将很多个量化问题以周期L进行划分，每个周期内有L个量化问题被分发到众包平台并接收众包工人对于该L个量化问题的回答，并将众包工人对于该L个量化问题的回答作为EM算法的输入，执行步骤103的EM算法，计算出该周期内的各量化问题的汇聚结果的真值、各众包工人的动态能力(众包工人在不同时刻的能力的值)以及各众包工人的偏差的值。

其中，周期L的具体取值可以根据实际需求进行灵活设置。

进一步的，在每个周期利用EM算法计算出各量化问题的汇聚结果的真值、各众包工人的动态能力(众包工人在不同时刻的能力的值)以及各众包工人的偏差的值，之后，还可以对众包工人进行筛选，具体的：分别计算众包工人池中所有众包工人的系统贡献值；根据各众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人。

其中，所述分别计算众包工人池中所有众包工人的系统贡献值，具体可以为：根据公式(5)计算众包工人j的系统贡献值y_j。

其中，所述根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人，具体可以为：比较众包工人j的系统贡献值y_j与预设阈值；若众包工人j的系统贡献值y_j小于预设阈值，则将众包工人j从众包工人池中剔除，获取更新后的众包工人池；若众包工人j的系统贡献值y_j不小于预设阈值，则将众包工人j保留在众包工人池中，获取更新后的众包工人池；其中，j分别取1至N，N为众包工人池中众包工人的总个数。

本实施例，通过接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入，利用EM算法对关于众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i的生成模型进行推导，确定量化问题i的汇聚结果μ_i的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差b_j的值，从而在进行量化问题的结果汇聚过程中考虑众包工人的能力，可以有效提升量化问题的汇聚结果的准确性。

下面采用几个具体的实施例，对图1所示方法实施例的技术方案进行详细说明。

本发明实施例在汇聚量化问题的结果的真值时，需要考虑以下几个特征，从而利用这些特征结合无监督学习算法进行结果汇聚。具体可以包括：众包工人回答问题时的方差(variance)、偏差(bias)以及众包工人的能力的动态性。

图2为在真实数据集上得出的众包工人给出量化估值错误频率直方图，该真实数据集具体可以包括量化问题以及其对应的真实答案，可以将该真实数据集中的量化问题通过众包平台分发给众包工人，并收集众包工人返回的对于量化问题的回答，根据众包工人对于量化问题的回答和真实数据集中该量化问题的真实答案，可以绘制出如图2所示的错误频率直方图，其中错误具体定义为：error＝response-ground_truth_i，其中，response为众包工人对于量化问题的回答，ground_truth_i为该量化问题的真实答案，从图2可以得出，众包工人对于量化问题的回答的错误呈现高斯分布(Gaussian distribution)，并且错误频率的最高点在真实答案的附近。通过分析可以定义众包工人对于量化问题的回答的生成模型是高斯模型，高斯分布的方差是众包工人的偏差，其用于反映众包工人的回答离高斯分布均值的分散程度，高斯分布的均值是真实答案μ和偏差b的和，偏差的物理意义是指众包工人在给出回答时和真实答案的平均距离。

进一步的，由图2还可以进一步得出众包工人的能力并不是一成不变的结论，众包工人的能力会受到不同因素的影响，例如，经验不足的众包工人在回答若干量化问题后会变得熟练，能力上升；或者工人在完成若干量化问题的回答后注意力下降从而能力下降。

为了进一步更为直观的表现众包工人的能力的动态性，绘制出图3所示的示意图，图3为众包工人的能力随着回答量化问题的数目的变化曲线示意图，如图3所示，其中，本发明实施例使用身份为26557959的众包工人做示意性说明，该示意图的横轴为众包工人按照时间顺序完成量化问题的序号，纵轴为deviation，其具体定义为deviation＝response-groundTruth-bias，如图3所示众包工人的能力随着完成量化问题的数目的增大而变化。因此在利用众包工人得出量化问题的汇聚结果的真值时需要捕捉众包工人的能力的变化，并将这种变化加入到结果汇聚的过程中。下面对于如何捕捉众包工人的能力的变化进行具体说明。

具体的，本发明实施例使用线性动态系统思想(linear dynamic system)刻画众包工人的能力的变化模型。并利用卡尔曼滤波算法计算在该变化模型中每一时刻众包工人的能力值。

具体的，首先构建众包工人的能力的变化模型：

众包工人的能力的变化模型可以使用线性动态系统来刻画。众包工人在t时刻的能力可以看成是t-1时刻的能力加上随机变量。线性动态系统中的隐藏状态对应于众包工人在该时刻的能力线性动态系统中的状态转移方程为:

其中，ω是服从高斯分布的随机变量：ω～N(0,λ²)。高斯分布的均值为0，λ为方差，说明t时刻的能力相比于上一时刻没有固定的变化模式，是上一时刻的能力随机变化而来，λ控制变化的剧烈程度。

在每一个时刻，系统只有当前众包工人对于量化问题的回答，众包工人的能力值并不能直接得到，因此本发明实施例利用期望E(|r_i,j,t-μ_i-b_j|)来估计当前时刻众包工人的能力值，其中r_i,j,t是众包工人j当前时刻对题目i的回答，r_i,j,t等于r_i,j，μ_i是量化问题i的汇聚结果的真值，b_j是众包工人j的偏差。由于

因此，可以利用当前时刻众包工人的回答，以及量化问题的汇聚结果的真值和众包工人的偏差来估计当前时刻工人的能力(观察值)，具体可以参见公式(4)

进一步，利用卡尔曼滤波算法捕捉众包工人的能力变化：

具体的，基于上述在线性动态系统中的工人能力变化模型和工人能力的观察模型，由于卡尔曼滤波算法是在线性动态系统中对隐藏变量的最优估计算法，本发明实施例利用卡尔曼滤波算法，对众包工人在不同时刻的能力进行最优估计。

定义：在t-1时刻，根据t-1时刻的观察值，推导出众包工人的能力为根据t-1时刻的众包工人的能力值，预测在t时刻工人的能力是一个服从高斯分布的变量：

其中，P_t|t-1是预测值的方差，并且P_t|t-1＝P_t-1|t-1+λ。向前进入到t时刻，根据公式(4)得到当前时刻众包工人j的能力的观察值，对于所有在t时刻回答问题的众包工人，使用公式(3)更新众包工人的能力：

其中，K_t为卡尔曼增益(Kalman Gain)，并且K_t＝P_t|t-1(P_t|t-1+γ)。同时更新P_t|t：

P_t|t＝(1-K_t)P_t|t-1 (9)

每当新的时间点到来，根据公式(3)计算众包工人的新的观察值，根据上一个时间点t-1时得到的P_t-1|t-1，递归地根据(8)(3)(9)计算当前时间点t的新的工人的能力值即通过上述过程分别确定众包工人j在时刻t的能力

进一步，实时的结果汇聚：

由于计算观察变量的公式(4)中，对工人能力的预测需要依靠当前量化问题的汇聚结果的真值和众包工人的偏差的值，而系统对量化问题的真值和众包工人的偏差都是未知的，如果要实时对量化问题进行结果汇聚，需要实时地计算汇聚结果的真值，众包工人的偏差和工人的当前能力值。本发明实施例对于建立的回答生成模型，使用EM算法对这些变量进行计算。

具体的，图4为本发明实施例的结果汇聚模型示意图，如图4所示，本发明实施例可以同时确定出众包工人的动态的能力，量化问题的结果，以及众包工人的偏差。其中，圆形节点表示各变量，其中μ_i表示量化问题i的真实答案，阴影节点r_i,j表示唯一的观察值，即众包工人的回答，b_j表示众包工人j的偏差，众包工人j在当前时间节点t的能力值由上一个时间节点t-1的能力根据公式(6)过渡而来。黑框表示重复的变量。因为μ～N(u,v)，其中，u和v表示对变量μ的先验。众包工人对于量化问题i的回答r_i,j的生成模型为

本发明实施例具体使用EM算法对上述生成模型中的各个变量进行推导，进而确定各个变量的具体取值。具体的，EM算法分为E步和M步，E步和M步相互迭代，直到系统收敛。在E步，对于每一个量化问题i，基于上一轮EM算法迭代中的参数，计算量化问题的汇聚结果的真值μ_i，在第n轮迭代时，根据公式(1)计算得到在M步时，利用在E步得到的利用梯度下降法根据公式(2)计算该轮的生成模型的参数之后，上述实施例中介绍的卡尔曼滤波的方法，用公式(3)计算每一个时刻众包工人的能力。E步和M步循环迭代进行，直到系统收敛，得到最终的每个量化问题的汇聚结果μ_i的真值，每个众包工人在不同时刻的能力的值，和每个众包工人的偏差b_j。

基于上述生成模型，本发明实施例进一步提出一种实时的对于不合格的众包工人的选定和筛除的方法。不合格的众包工人不仅降低量化问题的汇聚结果的质量，还造成众包雇主成本的浪费。因此及时地筛除不合格的众包工人可以有效提升众包系统的效率。本发明实施例基于上述生成模型确定的众包工人的动态能力，结合量化问题的汇聚结果的真值和众包工人的偏差，根据公式(5)确定在近一段时间内的众包工人的功能函数用以衡量工人对系统的贡献值，从而排序并筛选掉不合格工人。其中，公式(5)衡量了在一定周期内众包工人对系统的贡献大小。

图5为本发明基于众包的量化问题求解方法实施例二的流程图，如图5所示，本实施例的方法可以包括：

步骤201、通过众包平台收集众包工人池中的众包工人对于L个量化问题的回答。

步骤2021、执行EM算法的E步骤，确定每个量化问题的汇聚结果的真值。

步骤2022、执行EM算法的M步骤，利用卡尔曼滤波算法确定众包工人的能力和众包工人的偏差。

重复执行步骤2021和步骤2022，直至收敛。

步骤203、利用公式(5)计算当前周期内每个众包工人的系统贡献值，并将不合格的众包工人从众包工人池中筛除。

使用更新后的众包工人池执行下一个周期的L个问题的回答，即步骤201。

本发明实施例，在利用众包进行量化问题的结果汇聚过程中，考虑了众包工人的能力变化的动态能力，从而可以显著提高量化问题的汇聚结果的准确性，并且将计算得到的众包工人的能力用于实时的工人选择，解决了复杂的实时筛选和剔除不合格工人的问题，能够准确地剔除掉不合格的众包工人，一方面可以提高后续量化问题的汇聚结果的准确性，另一方面降低众包成本。

图6为本发明基于众包的量化问题求解装置实施例一的结构示意图，如图6所示，本实施例的装置可以包括：生成模型模块11、接收模块12和处理模块13，其中，生成模型模块11，用于根据众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i构建众包工人j对于量化问题i的回答r_i,j的生成模型，所述生成模型为接收模块12，用于接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入；处理模块13，用于利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i进行推导，确定量化问题i的汇聚结果μ_i的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差b_j的值；其中，回答量化问题i的众包工人的总个数为U_i，j分别取1至U_i中的正整数。

可选的，所述处理模块13用于利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i进行推导，具体可以包括：

执行E步骤：根据所述众包工人j对于量化问题i的回答r_i,j、众包工人j在时刻t的能力和众包工人j的偏差b_j，利用公式确定第n次迭代的量化问题i的汇聚结果μ_i的真值

执行M步骤：根据E步骤中确定的和所述众包工人j对于量化问题i的回答r_i,j，利用公式确定第n次迭代的众包工人j的偏差的值并且利用公式确定众包工人j在时刻t的能力时刻t分别取不同的时间点；

其中，n＝1时，所述众包工人j在时刻t的能力的值为初始化的任意值，所述众包工人j的偏差b_j的值为初始化的任意值，n大于1时，所述众包工人j在时刻t的能力的值为n-1次迭代中确定的的值，所述众包工人j的偏差b_j的值为n-1次迭代中确定的Q_j为众包工人j回答的量化问题集合，

重复执行E步骤和M步骤，直至系统收敛。

可选的，所述接收模块12用于接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入，包括：

以周期L向众包工人j发送量化问题i，i分别取1至L；

可选的，所述众包工人j来自众包工人池，所述装置还包括更新模块14，用于：

分别计算众包工人池中所有众包工人的系统贡献值；

可选的，所述更新模块14用于分别计算众包工人池中所有众包工人的系统贡献值，具体可以包括：

根据公式计算众包工人j的系统贡献值y_j。

所述更新模块用于根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人，包括：

比较众包工人j的系统贡献值y_j与预设阈值；

其中，j分别取1至N，N为众包工人池中众包工人的总个数。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于众包的量化问题求解方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i进行推导，包括：

重复执行E步骤和M步骤，直至系统收敛。

3.根据权利要求1或2所述的方法，其特征在于，所述接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入，包括：

以周期L向众包工人j发送量化问题i，i分别取1至L；

4.根据权利要求3所述的方法，其特征在于，所述众包工人j来自众包工人池，所述方法还包括：

分别计算众包工人池中所有众包工人的系统贡献值；

5.根据权利要求4所述的方法，其特征在于，所述分别计算众包工人池中所有众包工人的系统贡献值，包括：

根据公式计算众包工人j的系统贡献值y_j。

比较众包工人j的系统贡献值y_j与预设阈值；

其中，j分别取1至N，N为众包工人池中众包工人的总个数。

6.一种基于众包的量化问题求解装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述处理模块用于利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差b_j和量化问题i的汇聚结果μ_i进行推导，包括：

重复执行E步骤和M步骤，直至系统收敛。

8.根据权利要求6或7所述的装置，其特征在于，所述接收模块用于接收众包工人j对于量化问题i的回答r_i,j，将所述众包工人j对于量化问题i的回答r_i,j作为最大期望EM算法的输入，包括：

以周期L向众包工人j发送量化问题i，i分别取1至L；

9.根据权利要求8所述的装置，其特征在于，所述众包工人j来自众包工人池，所述装置还包括更新模块，用于：

分别计算众包工人池中所有众包工人的系统贡献值；

10.根据权利要求9所述的装置，其特征在于，所述更新模块用于分别计算众包工人池中所有众包工人的系统贡献值，包括：

根据公式计算众包工人j的系统贡献值y_j。

比较众包工人j的系统贡献值y_j与预设阈值；

其中，j分别取1至N，N为众包工人池中众包工人的总个数。