CN110097277A

CN110097277A - 基于时间窗的众包任务的动态分配方法

Info

Publication number: CN110097277A
Application number: CN201910348569.XA
Authority: CN
Inventors: 王宁; 王凯梅
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-08-06
Anticipated expiration: 2039-04-28
Also published as: CN110097277B

Abstract

本发明提供了一种众包任务的动态分配方法。该方法包括基于收集到的上一时间窗内工人返回的任务的回答，利用答案决策方法更新任务各选项为正确答案的后验概率，更新任务的答案可信度，更新工人质量；构建加权二分图，利用本发明提出的考虑领域的任务答案可信度连续预测方法，计算加权二分图中每条边的权值，权值即为预测该边连接的工人回答该边连接的任务后该任务获得的答案可信度增益；将加权二分图中所有边的权值进行比较，优先将权值最大的边相连的任务分配给对应的工人。可以在满足任务答案可信度阈值要求下最小化任务需要的工人数量，从而降低成本。

Description

基于时间窗的众包任务的动态分配方法

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种基于时间窗的众包任务的动态分配方法。

背景技术

众包是通过互联网上群众的智慧来解决一些计算机难以处理的问题，如判断两个记录是否属于同一实体、语言翻译、图像标注等等。工人希望获得更多报酬，任务发布者则希望花费最少的钱保证任务快速高质量地完成，因此，如何平衡任务的完成质量、所需成本和完成时间三者的关系一直是众包领域的研究重点。在任务质量保证方面，通常采取将一个任务分配给多个工人获取冗余答案的方法实现；在成本和时间控制方面，要么在任务发布之前经过机器预处理减少任务的数量，要么在任务设计阶段根据任务之间的关系来消减任务数量，从而达到降低成本和减少任务完成时间的目的。除此之外，报酬激励的方式可以吸引工人选择任务，减少任务完成时间，但与此同时也会增加成本。合理地分配任务不仅可以有效地控制任务质量，还可以对任务的成本和完成时间进行控制，因此，有效的任务分配是平衡三者的重要手段。

现有技术中的众包任务分配方法大都聚焦于固定成本条件下最大化任务质量。JuFan等人提出一个工人回答某任务的准确率可以通过该工人对相似任务的表现计算，通过将任务分配给高质量的工人来提高任务的完成质量。但他们的方法并没有考虑到任务的难易程度，每个任务需要的工人数量是固定的，简单的任务可能仅需少量工人就可以高质量完成，这样的分配方式会造成不必要的成本浪费。另外，工人每次仅可请求一个任务，对于微任务来说，工人完成任务需要的时间比较短，可能造成工人能力的浪费。Yudian Zheng等人提出考虑任务所属领域和工人完成各领域任务的质量，利用贝叶斯公式预测工人回答后任务获得的信息增益，对每个到来的工人分配具有最大信息增益的k个任务。该任务分配算法也是固定每个任务需要的工人数量，对于大型众包平台来说，每分钟到来的工人可能成百上千，后到的工人有可能更适合该任务。

Xuan Liu等人利用多数投票算法计算任务的答案达到某答案可信度阈值时需要的工人数量，并提出当答案达到答案可信度阈值时提前终止分配的方案以降低成本，但该算法没有考虑工人的到来顺序对分配的影响，难以给出全局最佳的分配方案。

总之，目前现有技术中的众包任务分配算法存在问题如下：

(1)固定每个任务需要的工人数量，没有考虑任务难易程度的区别，造成在简单任务上浪费人力，而对于困难任务，可能因工人数量不够导致完成质量低。

(2)没有考虑工人的到来顺序对任务需要工人数量的影响，不能给出全局最佳的分配方案。

发明内容

本发明的实施例提供了一种基于时间窗的众包任务的动态分配方法，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种基于时间窗的众包任务的动态分配方法，包括：

基于收集到的上一时间窗内工人返回的所述任务的回答，利用答案决策方法计算所述任务各选项为正确答案的后验概率，更新所述任务的答案可信度，更新工人质量；

预测当前时间窗内的可用工人集中的工人回答可分配任务集中的任务后该任务获得的可信度增益；

构建加权二分图，该加权二分图中的节点为当前时间窗内的可分配任务集和可用工人集，在所述加权二分图中的每一个工人节点和每一个任务节点之间构造一条边，每条边的权值为预测该边连接的工人回答该边连接的任务后该任务获得的答案可信度增益，将所述加权二分图中的所有边的权值进行比较，优先将权值最大的边相连的任务分配给对应的工人。

优选地，所述的基于收集到的上一时间窗内工人返回的所述任务的回答，利用答案决策方法计算所述任务各选项为正确答案的后验概率，更新所述任务的答案可信度，更新工人质量，包括：

设先验概率表示基于已收集的工人答案集A_i，任务t_i属于第k个领域时，第a个选项是正确答案的概率，根据工人w_j对任务t_i的回答和工人质量更新任务t_i属于第k个领域时，第a个选项是正确答案的概率

对每个任务，计算各选项为正确答案的概率，任务t_i中第a个选项为正确答案的概率的计算公式如下：

其中，为任务t_i属于第k个领域的概率，工人的初始质量来源于资格测试，后续的工人质量更新是在更新任务质量之后，根据更新后的任务质量对工人质量进行更新，采用增量式更新的方式，存储工人回答过的任务所属领域的概率之和；

其中，表示工人w历史回答的任务属于第k个领域的概率之和，工人质量更新后，为工人w在第k个领域的质量，为工人w对任务t_i的回答为的概率。

优选地，预测当前时间窗内的可用工人集中的工人回答可分配任务集中的任务后该任务获得的可信度增益，包括：

设先验概率为任务t_i属于第k个领域时第a个选项是正确答案的概率，基于己收集的上一时间窗内工人返回的工人答案集A_i计算得出；

在当前时间窗内分配任务之前，根据任务t_i各选项为正确答案的概率以及工人w_j的质量预测工人回答为每个选项的概率，选取回答概率最大的选项作为工人w_j对于任务t_i的答案

其中，为任务t_i属于第k个领域的概率，为工人w_j对第k个领域的任务回答正确的概率，z为领域的总数；

基于上述工人回答计算任务t_i属于第k个领域时各选项为正确答案的后验概率，任务t_i共有l个选项，选项集合L中的第a个选项为正确答案的后验概率的计算公式为；

预测工人w回答后任务t_i的答案可信度的计算公式为：

设为根据当前收集到的工人回答计算出的任务t_i的答案可信度；

则预测工人w回答后任务t_i的答案可信度增益ConfGain(t，w)的计算公式为：

。

优选地，所述的构建加权二分图，该加权二分图中的节点为当前时间窗内的可分配任务集和可用工人集，在所述加权二分图中的每一个工人节点和每一个任务节点之间构造一条边，每条边的权值为预测该边连接的工人回答该边连接的任务后该任务获得的答案可信度增益，将所述加权二分图中的所有边的权值进行比较，优先将权值最大的边相连的任务分配给对应的工人，包括：

构建加权二分图，该加权二分图中的节点为当前时间窗内的可分配任务集和可用工人集，在所述加权二分图中的每一个工人节点和每一个任务节点之间构造一条边，该边权值可根据上述任务答案可信度连续预测方法进行计算；

对所述加权二分图中所有的边按权值从大到小进行排序，依次对每条边进行判断，如果对应工人没有余力，即该工人已经获得足够任务，或预测任务能够达到答案可信度阈值，则将该边删除；

如果对应任务之前已经分配给某个工人，但边的权值没有更新，则需更新加权二分图，重新计算与该任务相连的所有边的权值，在更新加权二分图的过程中可将与没有余力的工人相连的边和预测可以达到答案可信度阈值的任务相连的边删除，然后对所有边重新排序；如果该任务已经更新，则将该任务和该工人加入到分配集合中，更新任务预测答案可信度，工人余力减1，并将此边删除；

将所述加权二分图中的所有边的权值进行比较，优先将权值最大的边相连的任务分配给权值最大的边相连的工人。

优选地，所述的方法还包括：

计算工人w_j对任务t_i的擅长程度adept(t_i，w_j)

计算工人w_j对任务t_i的效用函数σ(t_i，w_j)：

其中，为当前时间窗内任务t_i的实际答案可信度；

将所述加权二分图中的每条边的权值更新为该边连接的工人对该边连接的任务的效用函数。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例的方法针对众包任务难度不一以及工人质量参差不齐的特点，提出了考虑领域的任务答案可信度连续预测方法，并计算任务答案可信度增益。本发明提出的基于时间窗的分配方式可以在全局范围内考虑工人回答任务后的答案可信度增益，分配具有最大答案可信度增益的工人-任务匹配对，可以在满足任务答案可信度阈值要求下最小化任务需要的工人数量，从而降低成本。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种任务答案可信度的连续预测流程图；

图2为本发明实施例提供的一种基于时间窗的众包任务的动态分配方法的处理流程图；

图3为本发明实施例提供的一种基于时间窗的众包任务的动态分配方法的优化算法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当本发明称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出了一种满足答案可信度要求的成本最小化的众包任务分配算法，该算法考虑工人的到来顺序，根据任务的实际情况分配合适的工人(包括需要的工人数)，具有较高的任务完成准确度和执行效率。

本发明综合考虑任务完成的质量、成本和时间三个目标，提出一种基于时间窗的众包任务动态分配算法。首先，通过已收集到的答案和工人的质量预测工人可能的回答以及回答某选项后的任务答案可信度的变化，为了预测时间窗内工人回答任务后的答案可信度变化，本发明实施例设计了一种基于贝叶斯的答案可信度连续预测方法，预测某任务由一组工人回答后答案可信度的变化；其次，考虑回答任务的工人顺序对完成该任务需要的工人数量的影响，采用在一个时间窗内对任务进行分配的方式，预测该时间窗内的每个工人回答每个任务后得到的任务答案可信度增益，选择具有最大答案可信度增益的一对工人和任务进行分配，该方法可保证完成所有任务需要的工人数量最少即成本最低。最后，对该任务分配算法进行优化，给出时间复杂度较低的近似算法，以便有效地应用到大型众包平台中。

本发明实施例提出的基于贝叶斯的答案可信度连续预测方法如下：

在任务分配前，工人对任务的回答是未知的，因此本发明需要预测工人可能给出的答案。在一个时间窗内，一个任务可能分配给多个工人，本发明提出基于贝叶斯的答案可信度连续预测方法，对一个任务由多个工人回答后的答案可信度进行预测。

定义1(可分配任务集)给定任务集合T＝(t₁，t₂，t₃….，t_m)，如某一任务的答案达到答案可信度阈值δ，则视为该任务完成，对于在某个时间窗开始前未完成的任务集T_a，T_a为该时间窗的可分配任务集。

在某个时间窗内的任务分配之前，收集上一个时间窗的工人答案，利用贝叶斯决策方法计算每个选项是正确答案的概率。

定义2(可用工人集)在某个时间窗内向众包平台发起任务请求的工人视为该时间窗的可用工人集W＝(w₁，w₂，w₃，…，w_n)。

本发明用一维向量和分别表示任务t_i属于领域集{d₁，d₂，…，d_z}的概率和工人w_j在领域集{d₁，d₂，…，d_z}上的质量，且工人w_j在某时间窗请求的任务数，称作工人能力，用c_j表示。上述z表示领域的总数，领域表示任务涉及的范围，有经济、教育、环境、体育等领域。如众包问题(也称任务)“最著名的CRA球员是哪一位？”属于体育领域。

在如AMT这样的大型众包平台中，一分钟内到来的工人数可达成百上千，而在工人活跃度不高的众包平台上，单位时间内到来的工人则不多，因此，时间窗的大小可以视具体情况而定。工人的初始质量由资格测试获取，此后，工人质量是动态更新的，在每个时间窗分配任务之前，根据工人回答过的任务答案以及结果来更新工人质量。

基于贝叶斯的任务答案可信度连续预测方法分两步完成：

(1)预测工人给出的答案为各选项的概率，选取工人最可能回答的选项作为该工人给出的答案。如公式(1)所示，本发明根据任务t_i各选项为正确答案的概率以及工人w_j的质量估计工人回答为每个选项的概率，选取回答概率最大的选项作为工人w_j对于任务t_i的答案

其中，为任务t_i属于第k个领域的概率，为工人w_j对第k个领域的任务回答正确的概率，为任务t_i属于第k个领域时，第a个选项是正确答案的概率。

(2)预测工人回答为任务属于第k个领域时各选项为正确答案的后验概率。

其中，任务t_i共有l个选项，为先验概率，表示t_i属于第k个领域时，第a个选项是正确答案的概率。

对于选项集合L，为任务t_i的答案可信度

本发明实施例提供的一种任务的答案可信度连续预测流程图如图1所示。

定义3(答案可信度增益)设当前任务t_i的真值的答案可信度为预测工人w回答后该任务真值的答案可信度为那么答案可信度增益为：

若在当前时间窗内，还没有为任务t_i分配工人，可根据当前收集到的工人回答计算任务真值的答案可信度，可根据公式(1)、公式(2)、公式(3)计算，公式(1)和(2)中的先验概率由当前收集到的工人回答计算得出。

若在该时间窗已经为任务t_i分配了n个工人，分配工人集为那么为预测工人集中的工人依次回答该任务后真值的答案可信度，可根据公式(1)、公式(2)、公式(3)计算，公式(1)和(2)中的先验概率为中最后一名工人w_n回答属于领域k的任务后，正确答案为第a个选项的概率。

4.1任务动态分配算法

任务动态分配算法的主要目标是在某个时间窗内为请求任务的工人分配任务，在满足答案可信度阈值的条件下，使得完成所有任务需要的工人数量最少，规定每个工人在该时间窗内最多可获得c个任务。

定义4(质量限定下最小化成本问题)假设工人回答每个任务获取的报酬是相同的，最小化成本问题可以转化为最小化需要的工人数量问题。质量限定下最小化成本问题(Minimize Cost under Quality Restriction-MCQR)定义为：对于任务集T中的每个任务t_i，Ans(t_i)表示回答任务t_i的工人数量，在答案可信度不低于发布者要求的答案可信度δ的前提下，即使得完成所有任务需要的工人数量最少，即：

本发明实施例提供的一种基于时间窗的众包任务的动态分配方法的处理流程如图2所示，包括以下的处理步骤：

步骤1、根据上一时间窗收集到的工人回答，更新任务各选项为正确答案的后验概率，并计算任务答案可信度，更新工人质量。

计算每个任务属于第k个领域时各选项为正确答案的后验概率：

其中，友示基于己收集的工人答案集A_i，任务t_i属于第k个领域时，第a个选项是正确答案的概率。然后将乍为先验概率，计算工人w_j对任务t_i的回答为并且任务t_i属于第k个领域时，第a个选项是正确答案的概率。在任务还没有被任何工人回答之前，被初始化为1/l，即任务共有l个选项，每个选项是正确答案的概率相等。

在对任务质量更新之后，需要对工人质量进行更新，工人质量是通过该工人的历史回答计算得到的，为了避免每当收到工人回答时都要重新统计己统计过的工人回答的任务信息，可采用增量式更新，并存储工人回答过的任务所属领域的概率之和。

其中，表示工人w历史回答的任务属于第k个领域的概率之和，工人质量更新后，为工人w在第k个领域的质量，为工人w对任务t_i的回答为的概率。工人的初始质量来源于资格测试，即当一个新的工人请求做任务时，首先将一些己知标准答案的任务分配给他，然后根据工人的回答情况对其质量进行初始化。

步骤2、构建加权二分图。加权二分图中的节点为当前时间窗内的可分配任务集和可用工人集，在每一个工人和任务之间构造一条边，边的权值为工人回答后预测任务可获得的答案可信度增益。

步骤3、根据加权二分图生成任务的分配方案。

首先对加权二分图中所有的边按权值从大到小进行排序，依次对每条边进行判断，如果对应工人没有余力，即该工人已经获得c个任务，或预测任务能够达到答案可信度阈值，则将该边删除。如果对应任务之前已经分配给某个工人，但边的权值没有更新，则需更新加权二分图，重新计算与该任务相连的所有边的权值，在更新加权二分图的过程中可将与没有余力的工人相连的边和预测可以达到答案可信度阈值的任务相连的边删除，然后对所有边重新排序。如果该任务已经更新，则将该任务和该工人加入到分配集合中，更新任务预测答案可信度，工人余力减1，并将此边删除。

本发明实施例提供的一种上述任务动态分配算法的优化算法的处理流程如图3所示，包括如下的处理过程：

在前面提到的任务分配方案中，当任务已经分配给某工人时，需要更新其他工人对此任务回答后的答案可信度增益，然后对边重新排序，随着工人数量和任务数量的增多，算法时间复杂度会很大。实际上，MCQR问题的本质是选择对提高任务质量最有益的工人，基于工人对擅长领域的任务回答正确的可能性更大的特点，本发明可以计算工人w_j对任务t_i的擅长程度adept(t_i，w_j)

考虑到如果在当前时间窗内任务答案可信度很接近阈值，那么该任务不需要质量很高的工人也可以完成任务，因此将任务当前达到的答案可信度作为惩罚，工人w_j对任务t_i的效用函数σ(t_i，w_j)：

其中，为当前时间窗内任务t_i实际答案可信度。

通过采用效用函数σ(t_i，w_j)作为权值构建加权二分图可以避免每当任务分配给新的工人时，需要对该任务和其他工人所连的边的权值进行更新的情况，进而避免加权二分图的更新，降低了任务分配的时间复杂度。

综上所述，本发明实施例提出了一种基于时间窗的众包任务动态分配算法，该方法针对众包任务难度不一以及工人质量参差不齐的特点，提出了考虑领域的任务答案可信度连续预测方法，并计算任务答案可信度增益。其次，本发明提出基于时间窗的分配方式，可以在全局范围内考虑工人回答任务后的答案可信度增益，分配具有最大答案可信度增益的工人一任务匹配对，可以在满足任务答案可信度阈值要求下最小化任务需要的工人数量，从而降低成本。

本发明实施例为了解决任务和工人规模较大的场景下分配算法的时间效率问题，提出利用工人对任务的擅长程度来进行任务分配，避免了加权二分图的多次排序过程，降低了任务分配的时间复杂度，使算法可以扩展到大型众包平台上。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于时间窗的众包任务的动态分配方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的基于收集到的上一时间窗内工人返回的所述任务的回答，利用答案决策方法计算所述任务各选项为正确答案的后验概率，更新所述任务的答案可信度，更新工人质量，包括：

其中，为任务t_i属于第k个领域的概率,工人的初始质量来源于资格测试，后续的工人质量更新是在更新任务质量之后，根据更新后的任务质量对工人质量进行更新，采用增量式更新的方式，存储工人回答过的任务所属领域的概率之和；

3.根据权利要求1或2所述的方法，其特征在于，预测当前时间窗内的可用工人集中的工人回答可分配任务集中的任务后该任务获得的可信度增益，包括：

设先验概率为任务t_i属于第k个领域时第a个选项是正确答案的概率，基于已收集的上一时间窗内工人返回的工人答案集A_i计算得出；

预测工人w回答后任务t_i的答案可信度的计算公式为：

。

4.根据权利要求3所述的方法，其特征在于，所述的构建加权二分图，该加权二分图中的节点为当前时间窗内的可分配任务集和可用工人集，在所述加权二分图中的每一个工人节点和每一个任务节点之间构造一条边，每条边的权值为预测该边连接的工人回答该边连接的任务后该任务获得的答案可信度增益，将所述加权二分图中的所有边的权值进行比较，优先将权值最大的边相连的任务分配给对应的工人，包括：

5.根据权利要求4所述的方法，其特征在于，所述的方法还包括：

计算工人w_j对任务t_i的擅长程度adept(t_i，w_j)

计算工人w_j对任务t_i的效用函数σ(t_i，w_j)：

其中，为当前时间窗内任务t_i的实际答案可信度；