CN106228029A - 基于众包的量化问题求解方法和装置 - Google Patents

基于众包的量化问题求解方法和装置 Download PDF

Info

Publication number
CN106228029A
CN106228029A CN201610786238.0A CN201610786238A CN106228029A CN 106228029 A CN106228029 A CN 106228029A CN 201610786238 A CN201610786238 A CN 201610786238A CN 106228029 A CN106228029 A CN 106228029A
Authority
CN
China
Prior art keywords
rent
mass
workman
value
quantification problem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610786238.0A
Other languages
English (en)
Other versions
CN106228029B (zh
Inventor
孙海龙
王旭
胡可凡
方毅立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201610786238.0A priority Critical patent/CN106228029B/zh
Publication of CN106228029A publication Critical patent/CN106228029A/zh
Application granted granted Critical
Publication of CN106228029B publication Critical patent/CN106228029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种基于众包的量化问题求解方法和装置。本发明基于众包的量化问题求解方法,包括:根据众包工人j在时刻t的能力、众包工人j的偏差bj和量化问题i的汇聚结果μi构建众包工人j对于量化问题i的回答ri,j的生成模型;接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入;利用EM算法对生成模型中的众包工人j在时刻t的能力、众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值。本发明实施例可以有效提升量化问题的汇聚结果的准确度。

Description

基于众包的量化问题求解方法和装置
技术领域
本发明实施例涉及数据挖掘技术,尤其涉及一种基于众包的量化问题求解方法和装置。
背景技术
众包已被证明是一种解决许多问题非常有效的方法。它将计算机难以处理的任务(数据标注、图片识别等)交给人群进行处理,已经被广泛用于互联网服务和数据处理:百科、图片标注、问答系统、社会化新闻、推荐系统等,得到了学术界和工业界的高度重视。量化估值问题(量化问题)广泛应用于现实生活之中,例如在智慧城市中,利用路口的监控摄像头记录的车流进行车流计数(vehicle counting),从而监控实时路况,进行智能交通规划避免拥堵;又例如在生物学研究中的细胞计数(cell counting)问题,需要统计大量显微镜图片内的微生物或者细胞数目,进行实验结果分析;又例如人群计数问题,商场根据摄像头采集到的图片,对不同区域的人流量进行计数统计,从而能够进行更合理更科学的商业分析和建筑设计。为了解决量化估值问题,基于计算机图像学的方法,业界提出了众多解决方法,然而图像学方法受制于图片的背景,环境,计数对象的特征等各种因素的影响,并不能非常准确地得到计数结果,比如在商场的人流量计数中,由于背景环境复杂,会出现人部分被障碍物挡住,或者图片中几个人图像重叠在一起的现象,图像学方法往往难以很好处理,造成结果的不准确。并且基于图像学的方法需要考虑场景背景环境和需要计数的对象特征的因素,对每一种不同计数场景和对象都重新设计算法,这是十分耗时耗力的。
使用众包(crowdsourcing)的方法解决量化估值问题,首先能克服图像学方法中场景的局限性问题,招募的众包工人可以解决任何场景下的计数问题,而不需要重新设计算法;其次面对图片中复杂的背景环境,众包工人也能够利用人的智慧轻松判断出是否其中是否有需要计数的对象。由于众包市场(例如著名的众包市场亚马逊土耳其机器人www.mturk.com或者众包之花www.crowdflower.com)上众包工人受到各种条件的限制,众包工人的质量参差不齐,因此对于能力未知的众包工人提供的答案,众包雇主并不能完全相信答案的质量,大部分众包平台为了增加答案的可信度和准确度,每个量化问题一般都会让多个众包工人给出回答,之后将多个回答汇聚成一个较为准确的答案,这就叫做众包结果汇聚。学术界对于结果汇聚问题提出了多种多样的解决方法,最为朴素的就是少数服从多数的方法(Majority Voting),将答案的多数选项作为最终的汇聚结果。
然而上述利用众包解决量化估值问题的方法,其得到的汇聚结果的准确度不高。
发明内容
本发明实施例提供一种基于众包的量化问题求解方法和装置,有效提升量化问题的汇聚结果的准确度。
第一方面,本发明实施例提供一种基于众包的量化问题求解方法,包括:
根据众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi构建众包工人j对于量化问题i的回答ri,j的生成模型,所述生成模型为
接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入;
利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值;
其中,回答量化问题i的众包工人的总个数为Ui,j分别取1至Ui中的正整数。
在本实现方式中,在进行量化问题的结果汇聚过程中考虑众包工人的能力,可以有效提升量化问题的汇聚结果的准确性。
结合第一方面,在第一方面的一种可能的实现方式中,所述接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入,包括:
以周期L向众包工人j发送量化问题i,i分别取1至L;
接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入。
本实现方式中,将量化问题以周期L进行划分,在一个周期中利用上述方法确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值,其中,众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值可以应用于下一个周期的计算,从而可以进一步提升量化问题的汇聚结果的准确性。
结合第一方面上述任一种可能的实现方式,在第一方面的一种可能的实现方式中,所述众包工人j来自众包工人池,所述方法还包括:
分别计算众包工人池中所有众包工人的系统贡献值;
根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人。
所述分别计算众包工人池中所有众包工人的系统贡献值,包括:
根据公式计算众包工人j的系统贡献值yj
所述根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人,包括:
比较众包工人j的系统贡献值yj与预设阈值;
若众包工人j的系统贡献值yj小于预设阈值,则将众包工人j从众包工人池中剔除,获取更新后的众包工人池;
若众包工人j的系统贡献值yj不小于预设阈值,则将众包工人j保留在众包工人池中,获取更新后的众包工人池;
其中,j分别取1至N,N为众包工人池中众包工人的总个数。
本实现方式中,根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人,使得在后续量化问题的结果汇聚过程中,回答的众包工人为能力较好的众包工人,从而可以进一步提升量化问题的汇聚结果的准确性。
第二方面,本发明实施例提供一种基于众包的量化问题求解装置,包括:
生成模型模块,用于根据众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi构建众包工人j对于量化问题i的回答ri,j的生成模型,所述生成模型为
接收模块,用于接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入;
处理模块,用于利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值;
其中,回答量化问题i的众包工人的总个数为Ui,j分别取1至Ui中的正整数。
本发明实施例基于众包的量化问题求解方法和装置,通过接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入,利用EM算法对关于众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi的生成模型进行推导,确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值,从而在进行量化问题的结果汇聚过程中考虑众包工人的能力,可以有效提升量化问题的汇聚结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于众包的量化问题求解方法实施例一的流程图;
图2为在真实数据集上得出的众包工人给出量化估值错误频率直方图;
图3为众包工人的能力随着回答量化问题的数目的变化曲线示意图;
图4为本发明实施例的结果汇聚模型示意图;
图5为本发明基于众包的量化问题求解方法实施例二的流程图;
图6为本发明基于众包的量化问题求解装置实施例一的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
使用众包的方法解决量化问题时,通常存在着大量能力未知并且能力参差不齐的众包工人,为了实时汇聚出量化问题的结果,并且保证汇聚结果和众包工人的质量,缩减众包成本,本发明的基于众包的量化问题求解方法的主体思想具体可以包括以下几个步骤,以实现实时的使用众包工人对于量化问题的回答,确定众包工人在不同时刻的能力,并根据众包工人的动态变化的能力值准确地确定量化问题的汇聚结果。第一步:通过众包平台招募众包工人并收集众包工人对量化问题的回答;第二步:利用无监督的结果汇聚方法,对这段时间内回答完成的量化问题进行结果汇聚,得到这些问题的汇聚结果真值;第三步:结合汇聚出的问题的汇聚结果,利用卡尔曼滤波方法计算这段时间内众包工人们的动态的能力值;第四步:计算出的能力值将用于筛选出不合格的众包工人,一方面降低成本,另一方面提高汇聚结果的准确性;最后进入下一阶段,留下合格的众包工人并收集这些合格众包工人对量化问题的回答,重复以上四个步骤,直至结束。
图1为本发明基于众包的量化问题求解方法实施例一的流程图,如图1所示,本实施例的方法可以包括:
步骤101、根据众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi构建众包工人j对于量化问题i的回答ri,j的生成模型,所述生成模型为
具体的,该生成模型具体为在众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi时,众包工人j对于量化问题i的回答ri,j为正态分布。
步骤102、接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入。
其中,回答量化问题i的众包工人的总个数为Ui,j分别取1至Ui中的正整数。
具体的,可以通过众包平台将量化问题i下发给各个众包工人,各个众包工人分别对量化问题i进行回答,并将对于量化问题i的回答返回给众包平台,本发明实施例的方法具体可以通过众包平台接收各个众包工人对于量化问题i的回答,并将各个众包工人对于量化问题i的回答作为EM算法的输入,以执行下述步骤103。
步骤103、利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值。
可选的,步骤103中利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,具体可以包括:
执行E步骤:根据所述众包工人j对于量化问题i的回答ri,j、众包工人j在时刻t的能力和众包工人j的偏差bj,利用公式(1)确定第n次迭代的量化问题i的汇聚结果μi的真值
执行M步骤:根据E步骤中确定的和所述众包工人j对于量化问题i的回答ri,j,利用公式(2)确定第n次迭代的众包工人j的偏差的值并且利用公式(3)确定众包工人j在时刻t的能力时刻t分别取不同的时间点;
b j ( n ) = Σ i = 1 Q j ( r i , j - μ i ) | Q j | - - - ( 2 )
其中,n=1时,所述众包工人j在时刻t的能力的值为初始化的任意值,所述众包工人j的偏差bj的值为初始化的任意值,n大于1时,所述众包工人j在时刻t的能力的值为n-1次迭代中确定的的值,所述众包工人j的偏差bj的值为n-1次迭代中确定的Qj为众包工人j回答的量化问题集合;
重复执行E步骤和M步骤,直至系统收敛。
其中,判断系统是否收敛的方法具体为:在每一轮EM算法执行后,利用该轮计算出的参数计算下面公式:
如果该轮计算出的结果和上一轮计算出的结果相差小于阈值ε,则确定系统收敛。
可选的,步骤102具体可以包括:以周期L向众包工人j发送量化问题i,i分别取1至L;接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入。
具体的,由于众包工人的能力会随着回答量化问题发生变化,所以可以将很多个量化问题以周期L进行划分,每个周期内有L个量化问题被分发到众包平台并接收众包工人对于该L个量化问题的回答,并将众包工人对于该L个量化问题的回答作为EM算法的输入,执行步骤103的EM算法,计算出该周期内的各量化问题的汇聚结果的真值、各众包工人的动态能力(众包工人在不同时刻的能力的值)以及各众包工人的偏差的值。
其中,周期L的具体取值可以根据实际需求进行灵活设置。
进一步的,在每个周期利用EM算法计算出各量化问题的汇聚结果的真值、各众包工人的动态能力(众包工人在不同时刻的能力的值)以及各众包工人的偏差的值,之后,还可以对众包工人进行筛选,具体的:分别计算众包工人池中所有众包工人的系统贡献值;根据各众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人。
其中,所述分别计算众包工人池中所有众包工人的系统贡献值,具体可以为:根据公式(5)计算众包工人j的系统贡献值yj
其中,所述根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人,具体可以为:比较众包工人j的系统贡献值yj与预设阈值;若众包工人j的系统贡献值yj小于预设阈值,则将众包工人j从众包工人池中剔除,获取更新后的众包工人池;若众包工人j的系统贡献值yj不小于预设阈值,则将众包工人j保留在众包工人池中,获取更新后的众包工人池;其中,j分别取1至N,N为众包工人池中众包工人的总个数。
本实施例,通过接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入,利用EM算法对关于众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi的生成模型进行推导,确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值,从而在进行量化问题的结果汇聚过程中考虑众包工人的能力,可以有效提升量化问题的汇聚结果的准确性。
下面采用几个具体的实施例,对图1所示方法实施例的技术方案进行详细说明。
本发明实施例在汇聚量化问题的结果的真值时,需要考虑以下几个特征,从而利用这些特征结合无监督学习算法进行结果汇聚。具体可以包括:众包工人回答问题时的方差(variance)、偏差(bias)以及众包工人的能力的动态性。
图2为在真实数据集上得出的众包工人给出量化估值错误频率直方图,该真实数据集具体可以包括量化问题以及其对应的真实答案,可以将该真实数据集中的量化问题通过众包平台分发给众包工人,并收集众包工人返回的对于量化问题的回答,根据众包工人对于量化问题的回答和真实数据集中该量化问题的真实答案,可以绘制出如图2所示的错误频率直方图,其中错误具体定义为:error=response-ground_truthi,其中,response为众包工人对于量化问题的回答,ground_truthi为该量化问题的真实答案,从图2可以得出,众包工人对于量化问题的回答的错误呈现高斯分布(Gaussian distribution),并且错误频率的最高点在真实答案的附近。通过分析可以定义众包工人对于量化问题的回答的生成模型是高斯模型,高斯分布的方差是众包工人的偏差,其用于反映众包工人的回答离高斯分布均值的分散程度,高斯分布的均值是真实答案μ和偏差b的和,偏差的物理意义是指众包工人在给出回答时和真实答案的平均距离。
进一步的,由图2还可以进一步得出众包工人的能力并不是一成不变的结论,众包工人的能力会受到不同因素的影响,例如,经验不足的众包工人在回答若干量化问题后会变得熟练,能力上升;或者工人在完成若干量化问题的回答后注意力下降从而能力下降。
为了进一步更为直观的表现众包工人的能力的动态性,绘制出图3所示的示意图,图3为众包工人的能力随着回答量化问题的数目的变化曲线示意图,如图3所示,其中,本发明实施例使用身份为26557959的众包工人做示意性说明,该示意图的横轴为众包工人按照时间顺序完成量化问题的序号,纵轴为deviation,其具体定义为deviation=response-groundTruth-bias,如图3所示众包工人的能力随着完成量化问题的数目的增大而变化。因此在利用众包工人得出量化问题的汇聚结果的真值时需要捕捉众包工人的能力的变化,并将这种变化加入到结果汇聚的过程中。下面对于如何捕捉众包工人的能力的变化进行具体说明。
具体的,本发明实施例使用线性动态系统思想(linear dynamic system)刻画众包工人的能力的变化模型。并利用卡尔曼滤波算法计算在该变化模型中每一时刻众包工人的能力值。
具体的,首先构建众包工人的能力的变化模型:
众包工人的能力的变化模型可以使用线性动态系统来刻画。众包工人在t时刻的能力可以看成是t-1时刻的能力加上随机变量。线性动态系统中的隐藏状态对应于众包工人在该时刻的能力线性动态系统中的状态转移方程为:
其中,ω是服从高斯分布的随机变量:ω~N(0,λ2)。高斯分布的均值为0,λ为方差,说明t时刻的能力相比于上一时刻没有固定的变化模式,是上一时刻的能力随机变化而来,λ控制变化的剧烈程度。
在每一个时刻,系统只有当前众包工人对于量化问题的回答,众包工人的能力值并不能直接得到,因此本发明实施例利用期望E(|ri,j,ti-bj|)来估计当前时刻众包工人的能力值,其中ri,j,t是众包工人j当前时刻对题目i的回答,ri,j,t等于ri,j,μi是量化问题i的汇聚结果的真值,bj是众包工人j的偏差。由于
因此,可以利用当前时刻众包工人的回答,以及量化问题的汇聚结果的真值和众包工人的偏差来估计当前时刻工人的能力(观察值),具体可以参见公式(4)
进一步,利用卡尔曼滤波算法捕捉众包工人的能力变化:
具体的,基于上述在线性动态系统中的工人能力变化模型和工人能力的观察模型,由于卡尔曼滤波算法是在线性动态系统中对隐藏变量的最优估计算法,本发明实施例利用卡尔曼滤波算法,对众包工人在不同时刻的能力进行最优估计。
定义:在t-1时刻,根据t-1时刻的观察值,推导出众包工人的能力为根据t-1时刻的众包工人的能力值,预测在t时刻工人的能力是一个服从高斯分布的变量:
其中,Pt|t-1是预测值的方差,并且Pt|t-1=Pt-1|t-1+λ。向前进入到t时刻,根据公式(4)得到当前时刻众包工人j的能力的观察值,对于所有在t时刻回答问题的众包工人,使用公式(3)更新众包工人的能力:
其中,Kt为卡尔曼增益(Kalman Gain),并且Kt=Pt|t-1(Pt|t-1+γ)。同时更新Pt|t
Pt|t=(1-Kt)Pt|t-1 (9)
每当新的时间点到来,根据公式(3)计算众包工人的新的观察值,根据上一个时间点t-1时得到的Pt-1|t-1,递归地根据(8)(3)(9)计算当前时间点t的新的工人的能力值即通过上述过程分别确定众包工人j在时刻t的能力
进一步,实时的结果汇聚:
由于计算观察变量的公式(4)中,对工人能力的预测需要依靠当前量化问题的汇聚结果的真值和众包工人的偏差的值,而系统对量化问题的真值和众包工人的偏差都是未知的,如果要实时对量化问题进行结果汇聚,需要实时地计算汇聚结果的真值,众包工人的偏差和工人的当前能力值。本发明实施例对于建立的回答生成模型,使用EM算法对这些变量进行计算。
具体的,图4为本发明实施例的结果汇聚模型示意图,如图4所示,本发明实施例可以同时确定出众包工人的动态的能力,量化问题的结果,以及众包工人的偏差。其中,圆形节点表示各变量,其中μi表示量化问题i的真实答案,阴影节点ri,j表示唯一的观察值,即众包工人的回答,bj表示众包工人j的偏差,众包工人j在当前时间节点t的能力值由上一个时间节点t-1的能力根据公式(6)过渡而来。黑框表示重复的变量。因为μ~N(u,v),其中,u和v表示对变量μ的先验。众包工人对于量化问题i的回答ri,j的生成模型为
本发明实施例具体使用EM算法对上述生成模型中的各个变量进行推导,进而确定各个变量的具体取值。具体的,EM算法分为E步和M步,E步和M步相互迭代,直到系统收敛。在E步,对于每一个量化问题i,基于上一轮EM算法迭代中的参数,计算量化问题的汇聚结果的真值μi,在第n轮迭代时,根据公式(1)计算得到在M步时,利用在E步得到的利用梯度下降法根据公式(2)计算该轮的生成模型的参数之后,上述实施例中介绍的卡尔曼滤波的方法,用公式(3)计算每一个时刻众包工人的能力。E步和M步循环迭代进行,直到系统收敛,得到最终的每个量化问题的汇聚结果μi的真值,每个众包工人在不同时刻的能力的值,和每个众包工人的偏差bj
基于上述生成模型,本发明实施例进一步提出一种实时的对于不合格的众包工人的选定和筛除的方法。不合格的众包工人不仅降低量化问题的汇聚结果的质量,还造成众包雇主成本的浪费。因此及时地筛除不合格的众包工人可以有效提升众包系统的效率。本发明实施例基于上述生成模型确定的众包工人的动态能力,结合量化问题的汇聚结果的真值和众包工人的偏差,根据公式(5)确定在近一段时间内的众包工人的功能函数用以衡量工人对系统的贡献值,从而排序并筛选掉不合格工人。其中,公式(5)衡量了在一定周期内众包工人对系统的贡献大小。
图5为本发明基于众包的量化问题求解方法实施例二的流程图,如图5所示,本实施例的方法可以包括:
步骤201、通过众包平台收集众包工人池中的众包工人对于L个量化问题的回答。
步骤2021、执行EM算法的E步骤,确定每个量化问题的汇聚结果的真值。
步骤2022、执行EM算法的M步骤,利用卡尔曼滤波算法确定众包工人的能力和众包工人的偏差。
重复执行步骤2021和步骤2022,直至收敛。
步骤203、利用公式(5)计算当前周期内每个众包工人的系统贡献值,并将不合格的众包工人从众包工人池中筛除。
使用更新后的众包工人池执行下一个周期的L个问题的回答,即步骤201。
本发明实施例,在利用众包进行量化问题的结果汇聚过程中,考虑了众包工人的能力变化的动态能力,从而可以显著提高量化问题的汇聚结果的准确性,并且将计算得到的众包工人的能力用于实时的工人选择,解决了复杂的实时筛选和剔除不合格工人的问题,能够准确地剔除掉不合格的众包工人,一方面可以提高后续量化问题的汇聚结果的准确性,另一方面降低众包成本。
图6为本发明基于众包的量化问题求解装置实施例一的结构示意图,如图6所示,本实施例的装置可以包括:生成模型模块11、接收模块12和处理模块13,其中,生成模型模块11,用于根据众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi构建众包工人j对于量化问题i的回答ri,j的生成模型,所述生成模型为接收模块12,用于接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入;处理模块13,用于利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值;其中,回答量化问题i的众包工人的总个数为Ui,j分别取1至Ui中的正整数。
可选的,所述处理模块13用于利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,具体可以包括:
执行E步骤:根据所述众包工人j对于量化问题i的回答ri,j、众包工人j在时刻t的能力和众包工人j的偏差bj,利用公式确定第n次迭代的量化问题i的汇聚结果μi的真值
执行M步骤:根据E步骤中确定的和所述众包工人j对于量化问题i的回答ri,j,利用公式确定第n次迭代的众包工人j的偏差的值并且利用公式确定众包工人j在时刻t的能力时刻t分别取不同的时间点;
其中,n=1时,所述众包工人j在时刻t的能力的值为初始化的任意值,所述众包工人j的偏差bj的值为初始化的任意值,n大于1时,所述众包工人j在时刻t的能力的值为n-1次迭代中确定的的值,所述众包工人j的偏差bj的值为n-1次迭代中确定的Qj为众包工人j回答的量化问题集合,
重复执行E步骤和M步骤,直至系统收敛。
可选的,所述接收模块12用于接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入,包括:
以周期L向众包工人j发送量化问题i,i分别取1至L;
接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入。
可选的,所述众包工人j来自众包工人池,所述装置还包括更新模块14,用于:
分别计算众包工人池中所有众包工人的系统贡献值;
根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人。
可选的,所述更新模块14用于分别计算众包工人池中所有众包工人的系统贡献值,具体可以包括:
根据公式计算众包工人j的系统贡献值yj
所述更新模块用于根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人,包括:
比较众包工人j的系统贡献值yj与预设阈值;
若众包工人j的系统贡献值yj小于预设阈值,则将众包工人j从众包工人池中剔除,获取更新后的众包工人池;
若众包工人j的系统贡献值yj不小于预设阈值,则将众包工人j保留在众包工人池中,获取更新后的众包工人池;
其中,j分别取1至N,N为众包工人池中众包工人的总个数。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于众包的量化问题求解方法,其特征在于,包括:
根据众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi构建众包工人j对于量化问题i的回答ri,j的生成模型,所述生成模型为
接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入;
利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值;
其中,回答量化问题i的众包工人的总个数为Ui,j分别取1至Ui中的正整数。
2.根据权利要求1所述的方法,其特征在于,所述利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,包括:
执行E步骤:根据所述众包工人j对于量化问题i的回答ri,j、众包工人j在时刻t的能力和众包工人j的偏差bj,利用公式确定第n次迭代的量化问题i的汇聚结果μi的真值
执行M步骤:根据E步骤中确定的和所述众包工人j对于量化问题i的回答ri,j,利用公式确定第n次迭代的众包工人j的偏差的值并且利用公式确定众包工人j在时刻t的能力时刻t分别取不同的时间点;
其中,n=1时,所述众包工人j在时刻t的能力的值为初始化的任意值,所述众包工人j的偏差bj的值为初始化的任意值,n大于1时,所述众包工人j在时刻t的能力的值为n-1次迭代中确定的的值,所述众包工人j的偏差bj的值为n-1次迭代中确定的Qj为众包工人j回答的量化问题集合,
重复执行E步骤和M步骤,直至系统收敛。
3.根据权利要求1或2所述的方法,其特征在于,所述接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入,包括:
以周期L向众包工人j发送量化问题i,i分别取1至L;
接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入。
4.根据权利要求3所述的方法,其特征在于,所述众包工人j来自众包工人池,所述方法还包括:
分别计算众包工人池中所有众包工人的系统贡献值;
根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人。
5.根据权利要求4所述的方法,其特征在于,所述分别计算众包工人池中所有众包工人的系统贡献值,包括:
根据公式计算众包工人j的系统贡献值yj
所述根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人,包括:
比较众包工人j的系统贡献值yj与预设阈值;
若众包工人j的系统贡献值yj小于预设阈值,则将众包工人j从众包工人池中剔除,获取更新后的众包工人池;
若众包工人j的系统贡献值yj不小于预设阈值,则将众包工人j保留在众包工人池中,获取更新后的众包工人池;
其中,j分别取1至N,N为众包工人池中众包工人的总个数。
6.一种基于众包的量化问题求解装置,其特征在于,包括:
生成模型模块,用于根据众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi构建众包工人j对于量化问题i的回答ri,j的生成模型,所述生成模型为
接收模块,用于接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入;
处理模块,用于利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,确定量化问题i的汇聚结果μi的真值、众包工人j在时刻t的能力的值以及众包工人j的偏差bj的值;
其中,回答量化问题i的众包工人的总个数为Ui,j分别取1至Ui中的正整数。
7.根据权利要求6所述的装置,其特征在于,所述处理模块用于利用EM算法对所述生成模型中的众包工人j在时刻t的能力众包工人j的偏差bj和量化问题i的汇聚结果μi进行推导,包括:
执行E步骤:根据所述众包工人j对于量化问题i的回答ri,j、众包工人j在时刻t的能力和众包工人j的偏差bj,利用公式确定第n次迭代的量化问题i的汇聚结果μi的真值
执行M步骤:根据E步骤中确定的和所述众包工人j对于量化问题i的回答ri,j,利用公式确定第n次迭代的众包工人j的偏差的值并且利用公式确定众包工人j在时刻t的能力时刻t分别取不同的时间点;
其中,n=1时,所述众包工人j在时刻t的能力的值为初始化的任意值,所述众包工人j的偏差bj的值为初始化的任意值,n大于1时,所述众包工人j在时刻t的能力的值为n-1次迭代中确定的的值,所述众包工人j的偏差bj的值为n-1次迭代中确定的Qj为众包工人j回答的量化问题集合,
重复执行E步骤和M步骤,直至系统收敛。
8.根据权利要求6或7所述的装置,其特征在于,所述接收模块用于接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入,包括:
以周期L向众包工人j发送量化问题i,i分别取1至L;
接收众包工人j对于量化问题i的回答ri,j,将所述众包工人j对于量化问题i的回答ri,j作为最大期望EM算法的输入。
9.根据权利要求8所述的装置,其特征在于,所述众包工人j来自众包工人池,所述装置还包括更新模块,用于:
分别计算众包工人池中所有众包工人的系统贡献值;
根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人。
10.根据权利要求9所述的装置,其特征在于,所述更新模块用于分别计算众包工人池中所有众包工人的系统贡献值,包括:
根据公式计算众包工人j的系统贡献值yj
所述更新模块用于根据众包工人的系统贡献值和预设阈值更新所述众包工人池中的众包工人,包括:
比较众包工人j的系统贡献值yj与预设阈值;
若众包工人j的系统贡献值yj小于预设阈值,则将众包工人j从众包工人池中剔除,获取更新后的众包工人池;
若众包工人j的系统贡献值yj不小于预设阈值,则将众包工人j保留在众包工人池中,获取更新后的众包工人池;
其中,j分别取1至N,N为众包工人池中众包工人的总个数。
CN201610786238.0A 2016-08-30 2016-08-30 基于众包的量化问题求解方法和装置 Active CN106228029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610786238.0A CN106228029B (zh) 2016-08-30 2016-08-30 基于众包的量化问题求解方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610786238.0A CN106228029B (zh) 2016-08-30 2016-08-30 基于众包的量化问题求解方法和装置

Publications (2)

Publication Number Publication Date
CN106228029A true CN106228029A (zh) 2016-12-14
CN106228029B CN106228029B (zh) 2019-02-22

Family

ID=58071307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610786238.0A Active CN106228029B (zh) 2016-08-30 2016-08-30 基于众包的量化问题求解方法和装置

Country Status (1)

Country Link
CN (1) CN106228029B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909262A (zh) * 2017-11-13 2018-04-13 北京航空航天大学 一种众包代价复杂度的获取方法
CN108596800A (zh) * 2018-04-13 2018-09-28 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN111652269A (zh) * 2020-04-22 2020-09-11 浙江盈狐云数据科技有限公司 一种基于群智交互的主动机器学习方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599084A (zh) * 2015-02-12 2015-05-06 北京航空航天大学 一种群体计算的质量控制方法及装置
CN104599085A (zh) * 2015-02-12 2015-05-06 北京航空航天大学 一种众包模式下的用户激励方法和众包系统
US20150178659A1 (en) * 2012-03-13 2015-06-25 Google Inc. Method and System for Identifying and Maintaining Gold Units for Use in Crowdsourcing Applications
CN105184653A (zh) * 2015-09-08 2015-12-23 苏州大学 一种面向社交网络的基于信任的众包工人筛选方法
US20150382227A1 (en) * 2012-12-21 2015-12-31 Qualcomm Incorporated Adaptive Control of Crowdsourcing Data Using Mobile Device Generated Parameters

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178659A1 (en) * 2012-03-13 2015-06-25 Google Inc. Method and System for Identifying and Maintaining Gold Units for Use in Crowdsourcing Applications
US20150382227A1 (en) * 2012-12-21 2015-12-31 Qualcomm Incorporated Adaptive Control of Crowdsourcing Data Using Mobile Device Generated Parameters
CN104599084A (zh) * 2015-02-12 2015-05-06 北京航空航天大学 一种群体计算的质量控制方法及装置
CN104599085A (zh) * 2015-02-12 2015-05-06 北京航空航天大学 一种众包模式下的用户激励方法和众包系统
CN105184653A (zh) * 2015-09-08 2015-12-23 苏州大学 一种面向社交网络的基于信任的众包工人筛选方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YILI FANG 等: "A model for aggregating contributions of synergistic crowdsourcing workflows", 《PROCEEDINGS OF THE TWENTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
YUE FAN 等: "Truthful Incentive Mechanisms for Dynamic and Heterogeneous Tasks in Mobile Crowdsourcing", 《2015 IEEE 27TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE》 *
冯剑红 等: "众包技术研究综述", 《计算机学报》 *
唐思: "众包质量控制算法及评价框架研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张志强 等: "众包质量控制策略及评估算法研究", 《计算机学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909262A (zh) * 2017-11-13 2018-04-13 北京航空航天大学 一种众包代价复杂度的获取方法
CN107909262B (zh) * 2017-11-13 2022-01-07 北京航空航天大学 一种众包代价复杂度的获取方法
CN108596800A (zh) * 2018-04-13 2018-09-28 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN108596800B (zh) * 2018-04-13 2022-05-13 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN111652269A (zh) * 2020-04-22 2020-09-11 浙江盈狐云数据科技有限公司 一种基于群智交互的主动机器学习方法及装置
CN111652269B (zh) * 2020-04-22 2023-06-13 浙江盈狐云数据科技有限公司 一种基于群智交互的主动机器学习方法及装置

Also Published As

Publication number Publication date
CN106228029B (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
US11544522B2 (en) Methods, systems, and computer readable mediums for determining a system state of a power system using a convolutional neural network
EP3822880A1 (en) Load prediction method and apparatus based on neural network
Bernal et al. Financial market time series prediction with recurrent neural networks
CN110308658A (zh) 一种pid参数整定方法、装置、系统及可读存储介质
US20220215246A1 (en) Method for constructing and training decentralized migration diagram neural network model for production process
CN106228029A (zh) 基于众包的量化问题求解方法和装置
CN104156943B (zh) 基于非支配邻域免疫算法的多目标模糊聚类图像变化检测方法
CN111310902A (zh) 神经网络模型的训练方法、边坡位移预测方法及相关装置
CN112541584A (zh) 深度神经网络模型并行模式选择方法
CN106529185A (zh) 一种古建筑位移的组合预测方法及系统
CN114970926A (zh) 一种模型训练方法、企业经营风险预测方法和装置
CN108960528A (zh) 员工离职原因的预测方法及相关装置
CN103209005B (zh) 一种基于图形模型的跳频序列预测系统
van der Mei et al. Artificial intelligence potential in power distribution system planning
CN116436098B (zh) 一种电力设备的多设备联运控制方法及系统
CN103679267A (zh) 基于无标记样本的rbf神经网络构建方法及其装置
CN113537354B (zh) 一种基于深度学习的含水层结构阶段式随机反演识别方法
CN105227410A (zh) 基于自适应神经网络的服务器负载检测的方法及系统
CN114218504A (zh) 阻断路段识别方法、装置、电子设备及存储介质
Bayram et al. Analysis of cost and schedule variances in construction works with artificial intelligence approaches: The case of Turkey
Nadagouda et al. Switched hawkes processes
CN106301880A (zh) 一种确定网络关系稳定度、互联网业务推荐方法和设备
CN111860920A (zh) 旅行时间预测方法及装置
CN109685308A (zh) 一种复杂系统关键路径评估方法及系统
CN116933040B (zh) 一种基于大数据技术的供电最高负荷中短期预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant