CN106462818A

CN106462818A - 评估众包环境中的工作者

Info

Publication number: CN106462818A
Application number: CN201580031164.3A
Authority: CN
Inventors: S·E·K·伊甸; R·M·帕特尔; S·J·R·谢尔福德; H·吴; D·A·莫尔纳; E·J·霍维茨
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-06-09
Filing date: 2015-06-05
Publication date: 2017-02-22
Also published as: US20150356488A1; EP3152711A1; WO2015191368A1

Abstract

这里描述了一种众包环境，其使用单阶段或多阶段方法来评估工作者关于所识别任务所执行的工作的质量。在多阶段情况下，评估系统在第一阶段确定工作者是否对应于垃圾代理。在第二阶段，针对非垃圾工作者，该评估系统确定该工作者在未来执行期望(例如，准确)工作的倾向性。该评估系统基于包括关注工作者的特征(其描述特定工作者所执行的工作)、关注任务的特征(其描述在该众包环境中执行的任务)和关注系统的特征(其描述该众包环境的配置的多个方面)的特征的集合进行操作。根据一个说明性方面，该评估系统使用至少一个模型执行其分析，该模型使用任意类型的监管机器学习技术所产生。

Description

评估众包环境中的工作者

背景技术

一种计算机实施的众包系统通过将任务实例分发至人类工作者的群体并且随后收集工作者针对该任务的响应而进行操作。在一些情况下，该众包系统可以针对工作者的个别贡献而代表赞助或“拥有”该任务的实体对他或她进行回馈。例如，该众包系统可以针对每个工作者所完成的每项任务而为他或她给予少量金钱。

众包系统并不对其工作者所执行的工作提供直接监管。众包系统还可以不对被允许关于任务进行工作的工作者施加限制(或施加最小程度的限制)。作为结果，不同工作者所执行工作的质量可能有所变化。一些工作者是勤奋的并且执行高质量的响应。其他工作者不同程度上提供较低质量的工作。实际上，在质量范围的一端，一些工作者可能对应于为了财政收益和/或为实现其他恶意目的而快速执行大量低质量工作的垃圾代理(spamagent)。例如，在一些情况下，这些垃圾代理可以表示针对任务提交无意义响应的自动软件程序。

除了其他缺陷之外，低质量工作的存在可以使得任务拥有者所分配的财政资源快速耗尽，但是却没有为任务拥有者提供任意好处。

发明内容

根据一个说明性实施方式，这里描述了一种众包环境，其使用多阶段方法来评估由工作者关于所识别任务所执行的工作的质量。在第一阶段，评估系统确定工作者是否对应于垃圾代理。该评估系统在确定工作者为良性或“诚实”实体而非垃圾代理时调用第二阶段。在第二阶段，该评估系统确定工作者在未来执行期望工作的倾向性。期望性可以以不同方式进行评定；在一种情况下，执行期望工作的工作者对应于针对所识别任务可靠地提供准确响应的某个工作者。在另一个说明性实施方式中，该评估系统可以在单个集成的处理阶段执行垃圾分析和质量分析。

根据一个说明性方面，该评估系统可以基于涉及到当前所考虑的工作者关于所识别任务而执行的工作的特征的集合来进行操作。更具体地，该特征可以包括关注工作者的特征、关注任务的特征和关注系统的特征等。

每个关注工作者的特征对该众包环境中的至少一个工作者所执行的工作进行表征。例如，一个关注工作者的特征可以对工作者所执行的工作量进行表征。另一个关注工作者的特征可以对工作者在过去所执行工作的准确性进行表征等。

每个关注任务的特征对该众包环境中所执行的至少一项任务进行表征。例如，一个关注任务的特征可以对所识别任务针对垃圾相关活动的敏感性进行表征。另一个关注任务的特征可以对所识别任务的评定的难度水平进行表征等。

每个关注系统的特征对该众包环境的整体配置的一个方面进行表征。例如，一个关注系统的特征可以对众包环境的激励结构进行描述。另一个关注系统的特征可以识别众包环境为了减少垃圾相关活动和低质量工作的出现所采用的功能(如果存在)。

总体上，上文所描述的特征中的至少一些可以对应于元级别特征，元级别特征中的每一个对工作者在其中执行工作的上下文进行描述，而并不对工作者所执行的工作进行具体参考。例如，一种关注任务的特征可以对应于元级别特征，因为其描述了所识别任务本身，而并未对工作者所执行的工作进行参考。

另外，至少一些特征可以描述该众包环境的实际方面，例如对应于组件、事件、状况等。其他特征可以对应于关注信念的特征，关注信念的特征中的每一个涉及到工作者对于该众包环境的实际方面的感知。例如，至少一个关注信念的特征描述了工作者对所识别任务对于垃圾相关活动的敏感性和/或该众包环境检测垃圾相关活动的能力的感知。

根据另一个说明性方面，至少该质量分析使用一个或多个模型进行操作。训练系统可以使用任意类型的监管机器学习技术产生(多个)模型。在一个实施方式中，该质量分析可以使用多个特定于任务的模型，每一个用于分析关于特定任务或任务类型所执行的工作。在另一个实施方式中，该质量分析可以连同元级别特征一起使用至少一个任务无关的模型用于分析关于多个不同任务和任务类型所执行的工作。

上文的方法可以以各种类型的系统、设备、组件、方法、计算机可读存储或媒体、数据结构、图形用户界面呈现形式、制造品等来表明。

提供本发明内容以简化形式对构思的选择进行介绍；这些构思将在下文中在具体实施方式中进一步进行描述。本发明内容并非意标识所请求保护主题的关键特征或必要特征，也并非意在被用来对所请求保护主题的范围进行限制。

附图说明

图1示出了使用单阶段或多阶段方法对工作者所执行的工作进行评估的说明性众包环境。

图2示出了可以用来实施图1的众包环境的计算机实施的设备。

图3示出了作为图1的众包环境的组件的工作者评估系统的一个实施方式。

图4示出了图形模型，其表示了表达图1的众包环境中的变量间的关系的一个方式。

图5示出了与图1的众包环境相关联的说明性特性，其包括关注工作者的特性、关注任务的特性和关注系统的特性。

图6-8示出了作为图3的工作者评估系统的组件的声誉评估模块的三个相应实施方式。

图9是示出图3的工作者评估系统的一个说明性操作方式的流程图。

图10是示出作为图1的众包环境的组件的特征提取系统的一个操作方式的流程图。

图11是示出作为图1的众包环境的另一个组件的训练系统的一个操作方式的流程图。

图12示出了可以被用来实施之前附图中所示特征的任意方面的说明性计算功能。

相同的数字贯穿本公开和附图被用来指代同样的组件和特征。系列100的数字指代原本出现在图1中的特征，系列200的数字指代原本出现在图2中的特征，系列300的数字指代原本出现在图3中的特征等。

具体实施方式

本公开如下进行组织。部分A描述了用于对众包环境中工作者所执行工作的质量进行评估的说明性功能，其反映了工作者在未来执行相同质量的工作的倾向性。部分B阐述了对部分A的功能的操作进行解释的说明性方法。部分C阐述了可以被用来描述该众包环境的代表性特征的采样。部分D描述了可以被用来实施部分A-C中所描述特征的任意方面的说明性计算功能。

作为初步事项，附图中的一些在一个或多个结构化组件的上下文中对构思进行了描述，结构化组件以各种方式被称为功能、模块、特征、要素等。图中所示出的各种组件可以通过任意物理和有形机制以任意方式来实施，例如通过在计算机设备上运行的软件、硬件(例如，芯片实施的逻辑功能)等和/或它们的任意组合来实施。在一种情况下，所图示的图中的各种组件被划分为不同单元可以反映出实际实施方式中对相对应的不同物理和有形组件的使用。备选地或此外，图中所图示的任意单一组件可以由多个实际的物理组件来实施。备选地或此外，图中对任意两个或更多单独组件的描绘可以反映出单个实际的物理组件所执行的不同功能。进而有待描述的图12提供了有关附图中所示功能的一个说明性物理实施方式的另外的细节。

其他附图以流程图的形式对构思进行描述。以这种形式，某些操作被描述为构成以某种顺序执行的不同块。这样的实施方式是说明性而非限制性的。这里所描述的某些块可以被分组在一起并且以单个操作来执行，某些块可以被划分为多个组件块，并且某些块可以以不同于这里所图示的顺序来执行(包括执行块的并行方式)。流程图中所示出的块可以由物理和有形机制以任意方式来实施，例如通过在计算机设备上运行的软件、硬件(例如，芯片实施的逻辑功能)等和/或它们的任意组合来实施。

就术语而言，短语“被配置为”涵盖了任意种类的物理和有形功能可以被构建以执行所识别操作的任意方式。功能可以被配置为例如使用在计算机设备上运行的软件、硬件(例如，芯片实施的逻辑功能)等和/或它们的任意组合来执行操作。

术语“逻辑”涵盖了用于执行任务的任意物理和有形功能。例如，流程图中所图示的每项操作对应于用于执行该操作的逻辑组件。操作例如可以使用在计算机设备上运行的软件、硬件(例如，芯片实施的逻辑功能)等和/或它们的任意组合来来执行。当由计算设备所实施时，逻辑组件表示作为计算系统的物理部分的电气组件，而与如何实施无关。

以下解释可以将一个或多个特征标识为是“可选的”。这种声明并不应当被解读为是可以被认为是可选的特征的穷尽指示；也就是说，虽然并未在文中明确标识，但是其他特征可以被认为是可选的。另外，对于单个实体的任意描述都并非意在排除使用多个这样的实体；类似地，多个实体的描述并非意在排除使用单个实体。最后，术语“示例性”或“说明性”是指可能的许多实施方式中的一个实施方式。

A.说明性众包环境

图1示出了众包环境102的逻辑视图。该众包环境包括或者可以被概念化为包括执行不同的相应功能的一个或多个模块。如下文将要参考图2所描述的，不同的物理实施方式可以使用不同的计算机实施的系统来执行功能。

首先，数据收集系统104向这里被称为工作者16的多个参与者提供任务。更具体地，在一种情况下，数据收集系统104可以使用计算机网络来向与相应工作者106相关联的用户计算机设备(未示出)传递任务。数据收集系统104可以使用基于拉取的策略、基于推送的策略或者二者的组合来分发任务。在基于拉取的策略中，每个个体工作者与数据收集系统104进行交互以请求任务；作为响应，数据收集系统104将任务转发给工作者。在基于推送的策略中，数据收集系统104基于一些之前的部署而独立地将任务转发至工作者106，而并不接收工作者106的个体独立请求。

作为这里所使用的术语，“任务”可以对应于被分派给工作者的所指定工作单元。例如，在一个说明性任务中，工作者可以被呈现以两个数据项，并且被要求基于任意所指定的(多个)选择因素来选择哪个数据项较好。在另一个说明性任务中，工作者可以被呈现以多选问题，并且被要求在指定选项中选择正确回答。在另一个说明性任务中，用户可以被要求以开放性方式提供针对提问或问题的响应，也就是说，以并不局限于所指定回答集合的方式。在另一个说明性任务中，工作者可以被要求对存在歧义的数据项进行解释等。以上示例作为示例而非限制而被引用。

“任务类型”更一般地涉及到具有一个或多个共同特性的一般活动类别。换句话说，任务类型可以是指可以被用来产生特定种类的任务的不同实例化的任务模板。例如，任务类型可以对应于基于所识别的(多个)选择因素而判断两个图像中哪一个较好的一般活动。该任务类型中对应于相应的个体任务的不同实例化可以关于不同图像配对来执行。

赞助任务的实体被称为任务拥有者。在一些情况下，数据收集系统104可以为一个拥有者服务，拥有者是例如管理整个众包环境102的实体。在其他情况下，数据收集系统104可以表示可以被多个任务拥有者所访问的一般平台。也就是说，任务拥有者(未示出)可以将任务提交至数据收集系统104。数据收集系统104随后可以与工作者106进行交互以收集针对任务的响应。

工作者可以以任意特定于环境的方式和特定于任务的方式来执行任务。例如，在许多情况下，工作者可以使用他或她的用户计算设备来接收任务，对所请求的工作进行解释，执行工作并且随后将他或她的响应发送回数据收集系统104。仅引用一个说明性示例，假设任务要求用户选择关于所指定查询而被判断为最为相关的搜索结果项。工作者可以点击或者以其他方式选择搜索结果项，并且随后将该选择以电子方式传送至数据收集系统104。数据收集系统104可选地可以基于任意特定于环境的业务部署而响应于执行任务向工作者提供任意类型的回馈。在一些情况下，该回馈可以对应于金钱回馈。

在以上所引用的示例中，工作者106本身对应于人类参与者。该人类参与者可以是一般公众的成员和/或基于任意一个或多个因素所选择的用户群体。此外或备选地，工作者106中的至少一些可以构成执行工作的自动代理，例如对应于被配置为执行具体任务的软件程序。例如，假设一种任务要求用户将英语的短语翻译为德语的相对应短语。第一工作者可以对应于人类参与者，而第二工作者可以对应于自动翻译引擎。通常，众包系统102可以使用不同业务范例以初始地确定哪些工作者106被允许对任务进行工作；在一种情况下，在没有新的工作者具有恶意企图的预先知识的情况下，众包系统102对于参与众包活动的该新的工作者并不施加限制。

实际上，大量工作者106可以被证明是尝试认真地执行给予他们的任务的良性或诚实的实体。然而，就如同在任意工作场所中一样，一些工作者可能与其他工作者相比以更加令人满意的方式执行工作。这里，工作者的响应的期望性可以基于任意量度或量度组合进行判定。在许多情况下，工作者主要基于他或她的响应的准确性进行判断。也就是说，高质量的工作者具有提供高百分比的准确响应的倾向性，而低质量的工作者具有提供低百分比的准确响应的倾向性。

但是，除准确性之外或者替代准确性的其他因素也可以被用来判断工作者的期望性。例如，在一种情形中，向工作者所提出的问题可能并没有规范的正确回答。在该情况下，期望的响应可以被定义为诚实或真实的响应，意味着匹配用户对于该问题的实际主观评估的响应。例如，假设用户从图像集合中选择了一个图像，要求该图像对于他或她最具吸引力；该用户在所选择的图像从用户观点来看实际上是对于他或她最具吸引力的图像时真实地回答。

然而，工作者106的子类可以对应于垃圾代理。垃圾代理是指关于所考虑的任务出于恶意的目的执行低质量工作的任意实体。例如，垃圾代理可以仅出于从众包环境102生成欺诈性收入的目的而针对至少一些任务快速生成大量无意义的回答。在其他(较不常见的)情况下，垃圾代理可以主要出于使得经由众包环境102所收集的响应执行的任意分析出现偏差的目的而提交无意义的工作。在图1中，工作者108和110以符号表示两个代表性的垃圾代理。在一些情况下，一个实体可能关于所考虑的一些任务充当垃圾代理，而关于其他任务则不是。实体关于特定任务的选择性可以取决于任务本身的性质和/或与任务存在于其中的上下文相关联的一个或多个因素。在其他情况下，实体可能在所有情况下针对所有任务都充当垃圾代理。

在一些情况下，垃圾代理可以表示以人工地尽可能快地执行非期望工作的人类参与者。在其他情况下，垃圾代理可以表示征用任意类型的软件工具来执行非期望工作的人类参与者。在其他情况下，垃圾代理可以对应于执行非期望工作的全自动程序。例如，垃圾代理可以表示伪装成实际人类参与者的机器人(bot)计算机程序。在一些情况下，机器人计算机程序可以作为计算机病毒已经感染用户计算设备的结果而存在于该设备上。

无论其身份和来源如何，垃圾代理都是众包环境102中的非期望行动者。在许多情况下，垃圾代理可以浪费任务拥有者所分配的众包预算，而并未对任务拥有者提供任意好处。更直接地来讲，垃圾代理从任务拥有者有效地窃取金钱。此外或备选地，垃圾代理在经由众包环境102所收集的响应中产生了噪声，这可以使得任务拥有者寻求基于该响应所执行的任意分析都失真。实际上，在一些情况下，多个垃圾代理可以通过故意勾结或偶然事件而一起工作以错误地使得针对任务的一致性的确定偏差。

数据收集系统104可以将工作者106的响应存储或在数据存储112中。(如这里所使用的，单数术语“数据存储”是指在一个地点提供或在多个地点分布的一个或多个底层物理存储机制)。该响应构成原始收集数据，在该数据还没有被分析的程度上。例如，原始数据可以包括工作者针对多选问题的回答。原始数据还可以指定工作者106已经为回答该问题所花费的时间量等。

分析引擎114基于该工作者的先前行为以及其他因素来确定每个工作者提供期望工作的倾向性。同样，工作的期望性可以以任意方式进行判定；例如，在一种情况下，工作者在他或她针对任务提供高百分比的准确和/或真实响应时提供期望工作。

在一种情况下，分析引擎114对之前对众包环境102作出过贡献的所有工作者执行分析。或者，分析引擎114可以针对那些工作者的子集执行分析，诸如具有高于所规定阈值的活动水平的那些工作者，和/或最近(例如在所识别的时间窗口内)对众包环境作出过贡献的那些工作者。分析引擎114也可以关于所有任务(或任务类型)或者仅关于在任意基础上所选择的任务(或任务类型)的子集执行其分析。至于定时，分析引擎114可以在任意基础上执行其分析，基础是诸如周期性基础、事件驱动的基础或者它们的任意组合。例如，在一种事件驱动的情况下，分析引擎114可以实时地执行其分析，例如在每个工作者已经对任务或者甚至任务的一部分提交了响应之后。

分析引擎114可以包括与工作者评估系统118相结合的特征提取系统116。特征提取系统116识别特征，该特征连同关于每项特定任务每个特定工作者所执行的工作在其中被执行的上下文一起对该工作进行描述。如下文将要给出的，特征提取系统116可以产生关注于众包环境102的不同部分或方面的不同特征类型，例如至少包括关注工作者的特征、关注任务的特征和关注系统的特征等。每个关注工作者的特征对至少一个工作者在众包环境102中所执行的工作进行表征。每个关注任务的特征对众包环境102中所执行的至少一项任务进行表征。每个关注系统的特征对众包环境102的整体配置的一个方面进行表征。以下解释将提供每种类型的特征示例的示例。总体上，上文所描述的特征中的至少一些还可以对应于元级别特征，元级别特征对工作者在其中被评估的上下文进行描述而并不明确涉及到该工作者所执行的工作。例如，至少一些元级别特征可以对任务(或任务类型)本身的特性进行描述。特征提取系统116可以将所提取的特征存储在数据存储120中。

上文所描述的特征涉及到众包环境102的实际方面。例如，关注系统的特征可以描述一项任务的特定响应简档(profile)，例如，指示大多数工作者在对该任务进行响应时选择了选项A而不是选项B。其他特征可以涉及到工作者对于众包环境102的一个方面的主观感知。这些特征在这里被称为关注信念的特征。例如，特定的关注信念的特征可以描述用户对于一项任务的响应简档的知识或者针对该响应简档的主观反应。

工作者评估系统118基于特征而生成声誉得分。该声誉得分反映了工作者在未来执行期望工作的倾向性。在一种情况下，工作者评估系统118使用两个或多个阶段来生成声誉得分。更具体地，在一个实施方式中，在垃圾分析的第一阶段中，工作者评估系统118可以针对工作者确定指示该所考虑的工作者是否构成垃圾代理的垃圾得分。工作者评估系统118可以在工作者被确定为是诚实(非垃圾)工作者时执行第二阶段。在第二阶段的质量分析中，工作者评估系统118可以针对工作者确定声誉得分。在另一个实施方式中，评估系统118可以在单个处理阶段中执行其垃圾分析和质量分析。

更具体地，在一种情况下，评估系统118可以针对所考虑的每项任务(或每种任务类型)而为每个工作者生成垃圾得分。此外或备选地，评估系统118可以针对所有任务而为工作者计算整体垃圾得分，例如通过针对不同的相应任务(或任务类型)而将针对该工作者的个体声誉得分进行平均，或者取最低的声誉得分作为该工作者的代表性垃圾得分。类似地，评估系统118可以针对所考虑的每个工作者和每项任务计算声誉得分，和/或针对所有任务为工作者计算整体声誉得分。数据存储122可以存储评估系统118所产生的得分，包括垃圾得分和声誉得分。

评估系统118可以基于一个或多个模型124来执行以上操作。(多个)模型124针对所考虑的工作者和任务将输入特征转换为输出特征(例如，垃圾得分和声誉得分)。在一种情况下，训练系统126可以通过基于数据存储128中所标记的训练数据而应用监管机器学习处理来产生(多个)模型。更具体地，训练系统126产生任意一个或多个类型的模型，包括但并不局限于：计算特征的加权和的线性模型、决策树模型、随机森林模型、神经网络、基于聚类的模型、概率图形模型(诸如贝叶斯分层模型)等。此外，可以使用任意的增强技术来产生模型。增强技术通过连续学习弱学习者的集合而操作，并且随后产生将个体弱学习者的贡献进行组合的最终模型。该增强技术对在每次迭代应用于训练数据的权重进行调节，由此将关注点放在在该技术的先前迭代中被不正确分类的示例上。

评估后动作系统130(为了简明称为“动作系统”)基于评估系统118所生成的垃圾和/或声誉得分而执行一些动作。在一种情况下，动作系统130可以基于工作者的(多个)得分而防止他或她接收到另外的任务，例如基于工作者构成垃圾代理的假设或者确信工作者构成具有执行所识别任务的低能力的诚实实体。更具体地，动作系统130可以始终都完全阻挡工作者；或者动作系统130可以针对所定义的超时时段将工作者挂起。备选地或此外，动作系统130可以基于工作者的(多个)得分而对他或她被允许执行的工作量进行节制，而并不完全阻止该工作者执行工作。备选地或此外，动作系统130可以基于工作者的(多个)得分而将他或她置于提高的未来审查之下。备选地或此外，动作系统130可以基于工作者的(多个)得分而前摄性地将他或她针对其具有最大已证明熟练度的任务路由给他或她。

备选地或此外，动作系统130可以向工作者通知关于所识别任务或所有任务他或她的(多个)得分。备选地或此外，动作系统130可以根据工作者的(多个)得分向他或她发送警告消息，和/或向适当机构通知工作者的可能恶意行为。备选地或此外，动作系统130可以将工作者的(多个)得分用作在基于高质量工作者与低质量工作者相比值得更大的回馈(例如，奖金)的前提而计算向该工作者给予的回馈中的一个因素。备选地或此外，动作系统130可以基于工作者的(多个)得分而向他或她提供某种类型的非金钱奖励，诸如通过将该工作者指定为“月度工作者”，和/或在计算机可访问的排行榜等上公开该工作者的成就等。

备选地或此外，动作系统130可以使用工作者的(多个)得分来确定与该工作者针对任务的响应相关联的置信度水平。动作系统130进而可以在计算各种聚合工作测量时，诸如在形成一致性测量等时，使用该置信度水平来对工作者的响应进行加权。以这样的方法，具有高声誉得分的工作者所进行的响应将在一致性中施加与具有较低声誉得分的工作者所进行的响应相比更大的影响。

上文所提到的评估后操作是作为示例而非限制进行描述；动作系统130还可以执行上文所未提到的另外的操作。

图2示出了可以被用来实施图1的众包环境102的计算机实施的设备。该设备包括用于实施数据收集系统104、特征提取系统116、评估系统118、训练系统126和动作系统130的工作处理架构202。该系统(104,116,118,126,130)中的每一个可以对应于与一个或多个存储机制和/或其他数据处理设备(诸如路由器、负载平衡器等)相结合的一个或多个服务器计算设备。

在一种情况下，单个实体在单个地点或者以分布式的方式在多个地点实施工作处理架构202的所有系统(104,116,118,126,130)。在另一种情况下，两个或更多个实体可以实施工作处理架构202的相应部分。例如，第一实体可以实施数据收集系统104。第二实体可以实施工作处理架构202的其余组件。也就是说，第二实体可以利用数据收集系统104的单独服务来收集来自工作者106的响应。第二实体可以利用工作处理架构202的其余组件对该响应进行处理，例如通过基于该响应生成一个或多个模型，并且随后将那些模型应用于实时操作阶段。

每个工作者可以经由任意类型的相应用户计算设备与数据收集系统104进行交互。例如，第一工作者使用第一本地计算设备204，第二工作者使用第二计算设备等。用户设备的说明性类型可以包括但并不局限于：台式计算设备、膝上计算设备、游戏机设备、机顶盒设备、平板类型的计算设备、智能电话、媒体消费设备、可穿戴计算设备等。另外，在一些实施方式中，动作系统140可以经由工作者的相应用户计算设备与他们进行交互。例如，动作系统130可以经由工作者的设备向他们通知他们的声誉得分。

至少一个计算机网络208可以将工作者的用户计算设备与工作处理架构202的组件进行耦合。在一些实施方式中，工作处理架构202的组件也可以经由计算机网络208互相进行交互。计算机网络208可以对应于局域网、广域网(例如，互联网)、点对点链接，或者它们的组合。

在一些实施方式中，工作处理架构202完全由集中部署的计算和存储资源来实施，计算和存储资源在关于每个工作者的位置处于远程的一个或多个位置处被提供。例如，工作处理架构202可以由至少一个数据中心来提供，并且工作者可以对应于在地理上分散于广阔区域的公众的成员。在另一种情况下，工作处理架构202可以由公司的企业系统的一个或多个服务器所提供，并且工作者可以对应于该公司的雇员。具有不同的相应范围的其他集中部署的实施方式也是可能的。在其他实施方式中，一个或多个本地计算设备可以执行工作处理架构202的一个或多个方面。例如，一个或多个本地计算设备可以计算特征中的至少一些，并且随后将那些特征转发至工作处理架构202的位于远程的组件。(多个)本地计算设备可以对应于工作者所使用的用户(客户端)计算设备(例如，设备204、206)，和/或在相应工作者的附近所提供的任意其他计算设备(诸如监视工作者所执行的工作的单独监视设备)。

图3示出了评估系统118的一个实施方式。在这里所说明的上下文中，评估系统118关于所识别任务(或任务类型)而为所考虑的特定工作者生成声誉得分。

在一个实施方式中，评估系统118包括垃圾评估模块302和声誉评估模块304。垃圾评估模块302生成垃圾得分，其反应了工作者关于所识别任务(或任务类型)对应于垃圾代理的可能性。垃圾评估模块302可以使用至少一个垃圾评估模型306来执行其操作。垃圾评估模型306通过基于(下文所描述的)多个输入特征生成垃圾得分而进行操作。

声誉评估模块304生成声誉得分，其反应了工作者针对所考虑的任务(或任务类型)执行期望(例如，准确)工作的倾向性。声誉评估模块304可以使用至少一个声誉评估模型308来执行该操作。声誉评估模型308通过基于(下文所描述的)多个输入特征生成声誉得分而进行操作。垃圾评估模块302所生成的垃圾得分可以对应于声誉评估模型308所接收到的一个输入特征。

垃圾评估模型306可以对应于在离线监管机器学习处理中或者基于某种其他模型生成技术所产生的至少一个模型。同样，声誉评估模型308可以对应于在离线监管机器学习处理中或者基于某种其他模型生成技术所产生的至少一个模型。部分B提供了有关可以被用来产生模型(306、308)的训练操作的另外的细节。

图3中所描绘的评估系统118构成了多阶段系统，其中垃圾评估模块302首先进行操作，随后是声誉评估模块304(假设垃圾评估模块302指示工作者并不是垃圾代理)。在另一个实施方式中，评估系统118使用集成模块来针对所考虑的工作者和任务生成垃圾得分和声誉得分。该单个模块可以使用在监管机器学习处理中离线产生和/或通过其他技术所产生的一个或多个模型。

更一般地，在以下解释中，评估系统118被称为对个体任务或任务类型执行其分析；然而，为了简化解释，括号中的短语“(或任务类型)”将并不在每种情况下都明确指出。换句话说，在一些实施方式中，评估系统118可以通过对任务所属的任务类型执行分析而对该任务执行其分析，虽然这并非始终都被明确指出。

现在来到图4和5，这些示图描述了特征提取系统116可以通过其使用特征的集合对众包环境102进行表征的一种方式。如上文所提到的，评估系统118接受这些特征作为输入信号。注意到，下文所描述的特征是作为示例而非限制被阐述；其他实施方式可以使用在任意方面都与下文所描述的特征不同的特征的集合。

以图4开始，该示图示出了描述众包环境102中的不同变量可以如何对工作者的垃圾得分和声誉得分的计算进行影响的概率图形模型402。在一个实施方式中，评估系统118使用图形模型402本身来生成得分。在另一种情况下，评估系统118基于某种其他模型来生成得分；然而，即使在这种情况下，图形模型402也用作用于对可以被馈送至评估系统118的不同特征进行解释的有用工具。

更具体地，图4包括表示众包环境102的不同方面的多个节点。例如，以实线绘制的节点反映了众包环境102中的实际组件、事件、状况等。这些节点在这里被称为实际方面节点。将实际方面节点连接在一起的箭头表示实际方面变量间的可能依赖性。这些关系要被理解为表示一种特定环境，其涉及到系统组件、工作者和任务的特定集合。其他环境设置可以表现出实际方面节点间的其他依赖性。通常，在一个实施方式中，模型开发者可以人工地定义图形模型402中的节点间的关系，例如基于他或她对于众包环境102的性质的理解。备选地或此外，机器学习训练操作可以提供对于节点间的关系以及节点的重要性水平的理解。

以虚线所绘制的每个节点表示工作者对于众包环境102的特定方面的信念和感知。每个这样的节点在这里被称为关注信念的节点。例如，如下文将要描述的，图4中的一个实际节点反映了众包环境102中存在意在检测垃圾相关活动的功能。补充的关注信念的节点(在相对应的实际方面节点附近以虚线所绘制)反映了特定工作者对于该系统使用所识别功能来检测垃圾相关活动的知识。

在任意的特定环境设置中，在关注信念的变量和其他关注信念的变量之间以及在关注信念的变量和实际方面变量之间也存在关系。诸如图4所示的概率图形模型类型的任意种类的统计模型都可以数学地表达这些关系。这样的模型的视觉描绘因此将包括：连接关注信念的节点(与用户的状态的信念和感知相关联)与其他关注信念的节点的箭头；连接关注信念的节点与实际方面节点的箭头；以及连接实际方面节点与其他实际方面节点的箭头。然而，为了不产生过于混乱的描绘，图4省略了涉及到用户的信念和感知的关系的描绘。然而，以下解释将提供涉及到关注信念的节点的可能依赖性的一些示例。

图4将总体上以自下而上的方式进行解释。作为开始，节点404表示对工作者的行为进行描述的一个或多个变量。该工作者的行为进而可以使用针对该工作者的垃圾得分和声誉得分进行表达，垃圾得分和声誉得分可以使用单阶段模型或多阶段模型来计算。如上文所阐述的，图形模型402中的其他节点表示其他变量，其他变量描述众包环境102中相应的其他方面，一些变量涉及到实际方面，而其他变量涉及到所考虑的工作者的信念。这些其他变量直接或间接地被馈送至节点404中，指示众包环境102的相对应方面直接或间接地影响工作者的行为。

例如，实际方面节点406反映了所考虑的工作者关于所识别的一个或多个任务的历史专门知识或技能水平。工作者的专门知识可以在工作者已经在先前时机回答了特定任务(或多个任务)的准确性方面对其本身进行证明。此外或备选地，工作者的专门知识可以关联于该工作者已经对所考虑的特定类型的一个或多个任务进行响应的时间长度，该工作者已经整体上活跃的天数等。通常，工作者的专门知识可以被预期对工作者的声誉得分施加正面影响，使得更高技能的工作者与更低技能的工作者相比将具有更高的声誉得分；另一方面，工作者的垃圾得分可以被预期随着工作者的专门知识的水平的增长而降低。该节点406的关注信念的对应方可以描述工作者对于他或她自己的技能水平的感知。

实际方面节点408与反映了工作者与所考虑的任务(或多个任务)的当前从事的一个或多个变量相关联。换句话说，该节点408反映了工作者在最近某个时间帧内的活动水平，例如如用户刚刚完成的一个或多个任务，或者用户在当前众包会话中的活动，或者用户在当前一天过程中的活动等所反映的。作为一部分，工作者的当前从事可以由该工作者最近在特定任务上所花费的时间量(例如，用户的停留时间)、用户在最近时间帧中(例如，在当前一天中)已经完成的任务数量、用户的当前活动水平与其他用户的当前活动水平的比较等所表现。在许多情况下，非常快速地(相对于某种所指定的标准)对任务进行回答和/或在短时间段内(相对于某种所指定的标准)对大量任务进行回答的工作者可以对应于低质量工作者或垃圾代理，为低的声誉得分和高的垃圾得分是做出解释。该节点408的主观的关注信念的对应方可以反映工作者对于他自己相对于其他用户的从事水平的感知等。

不同因素可以对工作者与任务的从事进行影响，诸如众包环境102的当前激励结构，其由与实际方面节点410相关联的(多个)变量所反映。更具体地，该激励结构定义了众包环境102在完成任务时向其工作者所给予的回馈(如果存在)的类型和多少以及给予那些回馈的状况。提供相对更大回馈和/或提供相对频繁回馈的激励结构可以被预期增加工作者与任务的从事。对应方的关注信念的节点可以描述工作者理解众包环境102的激励结构的程度，特别是当存在与可能并非轻易被所有工作者明白的激励结构进行“博弈”的方式时。

实际方面节点412与反应所考虑的任务的难度或复杂度的一个或多个变量相关联。任务的复杂度可以以不同方式影响工作者的行为。例如，任务的复杂度水平会凸显所考虑的工作者的相应强度和弱点，例如由用户是否能够正确对任务进行回答所反映的。并且出于该原因，任务的复杂度水平可以被认为与工作者的声誉相关行为有关。

另外，与更复杂的任务相比，垃圾代理可以更能够利用“简单”任务。出于该原因，任务的复杂度可以被认为还对所考虑的工作者的垃圾相关行为进行影响。例如，要求在两个二元选项之间进行简单选择的任务与要求工作者输入复杂的输入序列的任务相比可以表示更容易被攻击的目标，尤其是在该输入序列在任务实例的每次呈现时变化的情况下。换句话说，机器人可以成功模仿由第一种任务而不是第二种任务所要求的响应的种类。针对垃圾代理，节点412的关注信念的对应方可以测量工作者所理解的可以如何对任务的困难水平进行利用以利用该任务的程度。

一个实际方面节点414与反映出工作者产生垃圾或低质量响应的倾向性的一个或多个变量相关联。众包环境102中的不同因素可以进而对该因素进行影响。例如，(如由节点410所反映的)提供大量和/或频繁回馈的当前激励结构可以被预期鼓励垃圾代理(以及诚实工作者)执行大量任务。另一方面，垃圾代理在财务回馈很少或没有时可以放弃其欺诈活动。然而，即使对于低支付的任务，一些垃圾代理仍然可以被其他恶意目标所驱使，诸如期望破坏众包环境102的正常操作。对应方的关注信念的节点可以反映出工作者对于他们的行为本质上被归类为垃圾相关的认知。

实际方面节点416指示所考虑的工作者之前是否在众包环境102中提交垃圾的行为中已经被抓住过。实际方面节点418指示所考虑的工作者当前被抓住例如在当前事务中从事类似垃圾的活动。反映当前活动或先前活动的这样的状态对工作者在当前时机应当被正式标记为垃圾代理的可能性进行影响。换句话说，与节点416和418相关联的变量对由节点414所反映的结论进行影响。

节点416的关注信念的对应方可以反映出工作者对于他或她类似垃圾的活动在先前时机实际上已经被检测到的知识。节点418的关注信念的对应方反映出工作者对于他或她将被抓住在当前事务中进行类似垃圾的活动的可能性的感知。

实际方面节点420反映了众包环境102检测垃圾代理的垃圾相关活动的能力。对应方的关注信念的节点可以描述工作者对于众包环境102检测工作者的非期望活动的能力的感知。如图4中所图示的，环境102检测垃圾的实际能力可以影响工作者将实际进行垃圾的可能性(由实际方面节点418所反映的)。虽然图4中并未示出，但是工作者对于环境检测垃圾的能力的感知将也可能影响他或她对于他或她将被抓住在当前事务中制造垃圾的主观评估。并且用户在该方面的信念也可以影响该用户将制造垃圾的实际可能性(同样，如节点418所反映的)。这是两个关注信念的节点之间以及关注信念的节点和实际方面节点之间的一种可能关系的示例。如上文所提到的，图4总体上省略了这些关系以促进说明，并且因为这些关系本质上是特定于环境的(意味着它们并不是固定的，并且可以针对不同设置而变化)。

如实际方面节点420所反映的环境检测垃圾的能力进而可以取决于一个或多个其他因素。例如，如上文所提到的，一些任务使得自己与其他任务相比更多地被垃圾制造者所利用。图4通过实际方面节点422反映了当前任务的客观垃圾敏感性。例如，考虑在两个选项之间提供二元选择的第一种类的任务。进一步假设该任务的响应简档朝向选项中的一个(例如，选项“A”)发生偏差。在该情形中，垃圾代理可能在没有将其本身与诚实工作者进行区分的情况下自动针对选项“A”提交大量响应。作为对比，考虑要求自由形式的回答、复杂的交互序列等的任务。与第一类型的任务相比，垃圾代理针对这种类型的问题所进行的毫无意义的回答将更容易是显而易见的。

涉及到实际方面节点422的对应方的关注信念的节点可以反映出垃圾代理识别出当前任务容易被利用的能力。例如，基于对于任务的响应简档的知识的垃圾代理可以处于对其进行利用的更有效的位置。工作者在该方面中的知识可以以不同方式进行评定。例如，假设众包环境102保存有关特定任务的响应简档的统计信息。工作者对于该信息的知识可以基于该工作者已经通过合法通道或不正当地访问了该信息的证据进行判定。在其他情况下，工作者对于任务的可利用性的理解可以间接地从他或她针对具有不同的相应结构的不同类型的任务的行为进行推导。

上文的解释可以被概括为任意关注信念的节点。在一些情况下，特征提取系统116能够提取用户了解或理解特定信息或者已经针对该信息采用了特定主观立场或姿态的证据。在其他情况下，工作者的精神状态可以基于他或她的行为被间接推导。实际上，环境102甚至可以给出专门被设计为暴露用户的精神状态的任务，因为这涉及到他们执行垃圾相关工作的倾向性。

检测垃圾相关活动的实际能力(如实际方面节点420所反映的)还可以取决于作为整体的众包环境102的一个或多个实际特征，如由与实际方面节点424相关联的一个或多个变量所反映。例如，节点424可以部分反映出众包环境102可能独立于分析引擎114而用来检测和/或阻碍垃圾代理和低质量工作者的其他测量。例如，节点424可以指示众包环境102是否使用了任意补充功能(例如，防火墙、病毒保护引擎、垃圾检测引擎、CAPTCHA接口等)来独立地减少众包系统102中垃圾引擎的普及。节点424还可以对众包环境102在其检测到垃圾代理时所应用的策略和惩罚规定进行描述。

顶级的实际方面节点424还可以表示作为整体的众包环境102的其他方面。这些方面可以部分影响众包环境102所托管的任务的性质(如实际方面节点412和422所反映)、众包环境102的激励结构(如实际方面节点410所反映)等。顶级节点420还可以提供与众包环境102相关联的典型工作者群体的概况、众包环境102所托管的任务集合、众包环境102所针对的市场、与众包环境102相关联的业务量负载等。

例如，关于上文所描述的系统级别的因素，迎合熟练工作者(例如，科学家、技师等)的众包环境可以比针对一般公众开放的众包环境表现出较少的垃圾。另外，要求用户在针对任务进行响应之前提供个人凭证的众包环境可以被认为比允许匿名参与的众包环境表现出更少的垃圾等。

一个或多个对应方的关注信念的节点可以描述工作者对于与实际方面节点424相关联的任意上文所描述的客观因素的理解和/或主观响应。

图4示出了上文所描述的每个节点(404-424)以及每个对应方的关注信念的节点都利用符号“F”进行注释。该注释指示特征提取系统116可以对描述众包环境102中与图4中的每个相应实际方面节点相关联的每个方面以及与每个关注信念的节点相关联的有关该实际方面的每个信念的一个或多个特征进行制定。为了引用一个示例，考虑实际方面节点412，其可以表示与所识别任务相关联的难度。特征提取系统116可以生成描述与该任务相关联的回答数量的第一特征，其可以用作该任务的难度水平的一个代理表示。特征提取系统116可以生成描述与该任务相关联的回答分布的第二特征，其可以用作难度水平的另一个代理表示。也就是说，高度复杂的任务可以被期望与简单任务相比生成更宽的回答分布。

虽然图4中并未示出，但是特征提取系统116还可以识别描述节点间的关系的特征。在另一种情况下，特征提取系统116可以仅生成与节点而并非节点间的关系相关联的特征。然而在后者的情况下，训练系统126可以在训练处理期间自动发现节点间的关系，即使这些关系事先并未明确定义。

作为关于图4的最后说明，上文的描述是基于分析引擎114在工作者与众包环境102进行交互时执行垃圾得分和声誉得分的实时生成的假设。在另一种情况下，如上文所给出的，分析引擎114可以以非实时的基础(例如以周期性的基础)来执行其分析。在该情况下，分析引擎114可以定义用户的“当前”行为以对应于用户的最近行为，而无论其在何时发生。此外或备选地，分析引擎114可以将任意先前时间定义为当前时间，并且关于该所指定的时间执行分析。

图5描述了表示众包环境102中与图4相比的不同特性502的另一种方式。如所示出的，众包环境102可以沿至少三条主要描述轴线进行表达，例如通过将该环境概念化为具有关注工作者的特性集合504，关注任务的特性集合506以及关注系统的特性集合508。换句话说，图5将与图4中的节点404-424相关联的变量分组为三个主要类别：工作者类别、任务类别和系统类别。其他特性(510、512、514)描述了关注信念的特性，例如涉及到工作者对于相对应的实际的关注工作、关注任务和关注系统的特性(504、506、508)的感知。其他特性(未示出)可以描述上文所描述多个方面间的关系。

每个关注工作者的特性表示至少一个工作者在众包环境102中所执行的工作。例如，一个关注工作者的特性可以表示该工作者所执行的当前工作量。该特性因此可以涉及到与图4的实际方面节点408相关联的(多个)变量。另一个关注工作者的特性可以表示该工作者所执行的工作的历史准确性。该特性因此可以部分涉及到与图4中的实际方面节点406相关联的(多个)变量。

每个关注任务的特性表示在众包环境102中所执行的至少一项任务。例如，一个关注任务的特性可以表示所识别任务针对被垃圾制造者所利用的客观敏感性。该特性可以对应于与图4中的实际方面节点422相关联的(多个)变量。另一个关注任务的特性可以表示所识别任务的评定难度水平等。该特性对应于与图4中的实际方面节点412和422相关联的(多个)变量。

每个关注系统的特性表示众包环境102的配置的实际方面。例如，一个关注系统的特性可以描述众包环境102的激励结构。该特性可以涉及到与图4中的实际方面节点410相关联的(多个)变量。另一个关注系统的特性可以标识众包环境所采用以减少垃圾相关活动和低质量工作的出现的功能(如果存在)。该特性可以给出与图4中的实际方面节点424相关联的(多个)变量。上文的每个特性可以以上文关于图4所描述的方式而具有主观的关注信念的对应方。

图5指示实际特性的三个单独范畴可以至少部分重叠。例如，在描述工作者与所识别任务的从事时，关注工作者的特性也可以对任务的性质进行参考。然而该特征的主要关注点在于工作者所执行的工作。另一方面，关注任务的特征可以通过描述工作者已经对该任务进行响应的方式而尝试捕捉任务的性质。虽然该关注任务的特性对工作者的行为进行了参考，但是其主要意图或关注点是描述任务的性质，而不是直接捕捉任意一个工作者的行为。类似地，不同的关注信念的范畴可以互相交叉，以及与不同的实际方面范畴交叉。

总体上，上文所描述的特性中的至少一些可以对应于元级别特性，元级别特性中的每一个描述其中工作由工作者所执行的上下文，但是并不对该工作者所执行的工作进行具体参考。例如，一个关注任务的特性可以对应于元级别特性，因为其描述了所识别任务本身，而并不参考工作者所执行的工作。

关注工作者的特征的集合可以被用来表达实际方面的关注工作者的特性，关注任务的特征的集合可以被用来表达实际方面的关注任务的特性，并且关注系统的特征的集合可以被用来表达实际方面的关注系统的特性。关注信念的特征的集合可以以类似方式被建立。

另外，元级别特征的集合对应于众包环境102的元级别特性。在一些实施方式中，训练系统126可以使用元级别特征来产生可以应用于许多不同任务而并不仅是具体的个体任务的至少一个模型。换句话说，元级别特征(除了关注工作者的特征等之外)的使用用来对训练系统126所产生的(多个)模型进行概括，这使得它们可以适配于许多不同的任务，即使是还没有被应用于众包环境102的新任务。许多元级别特征将描述众包环境102的实际方面。但是也可能对一些关注信念的元级别特征进行制定，诸如通过表达大多数工作者关于特定任务所共享的信念；该特征可以被认为是元级别特征，因为其并非狭窄地关注于任意一个工作者的行为，而是可以用作总体上描述任务的另一种方式。换句话说，这样的特征描述了针对任务的聚合主观响应。

每个个体特征可以在描述其特性时利用特征空间的一个或多个维度。图5列举了每种相应特征类别的代表性维度。首先考虑关注工作者的特征的集合。关注工作者的特征可以涉及到任意工作者相关的范围，例如通过标识单个工作者所执行的工作、一种类型或类别的工作者所执行的工作或者所有工作者所执行的工作。此外或备选地，关注工作者的特征可以描述所考虑的工作者的至少一个非行为属性，诸如该工作者的ID、该工作者的人口统计特性的某个方面、该工作者的垃圾相关状态(和/或其他状态)等。

此外或备选地，关注工作者的特征可以参考任意时间范围来描述工作者的行为，诸如工作者所完成的最近任务(或多个任务)，或者之前的工作者活动的涵盖更广的时间范围。此外或备选地，关注工作者的特征可以在任意任务范围的上下文中描述工作者的行为，诸如具体任务、任务类型(例如，与任务所属的任务类别相关联)、所有任务等。

此外或备选地，关注工作者的特征可以描述工作者关于任意一个或多个任务的(多个)响应的准确性。此外或备选地，关注工作者的特征可以在工作者所执行的工作数量的上下文中描述工作者的行为等。

此外或备选地，关注工作者的特征使用任意一个或多个量度来表达上文阐述的任意特性。在一些情况下，该量度尝试在并不参考任意其他行为的情况下测量用户的所识别行为。例如，关注工作者的特征可以通过确定工作者已经在对任务进行回复中花费了多少时间来表达该工作者与当前任务的从事，该时间从该工作者开始该任务的时点进行测量(并且被称为停留时间)。在其他情况下，该量度尝试将该工作者的当前行为与该工作者的先前行为进行比较，先前行为通过一些时间范围进行测量。在其他情况下，该量度尝试将该工作者的行为相对于其他工作者的行为进行比较。在其他情况下，该量度尝试将一个或多个工作者跨不同任务或者关于一个任务类别中的多个任务的行为进行比较等。

量度本身可以利用任意(多个)数学运算，诸如(多个)平均值计算、(多个)方差计算、(多个)熵计算、(多个)比率计算、(多个)最小值和/或最大值计算等。另外，在一些情况下，评估系统118可以通过首先排除垃圾代理在所考虑的输入数据集合中的贡献来执行计算。

一些量度还可以将工作者的响应与正确性、真实性或一些其他期望性表达的一些标准进行比较。在第一种情况下，针对任务的正确的(或以其他方式期望的)响应被事先定义。这样的标准可以被比喻地称为黄金标准，并且其所涉及的任务可以被称为黄金集合任务。在第二种情况下，针对任务的正确的(或以其他方式期望的)响应通过一个或多个工作者的一致性进行定义。

一致性进而可以以任意特定于环境的方式进行定义。在一种情况下，工作者间的一致性无论何时在提供特定响应的人的百分比超过规定阈值时被认为被建立，假设已经执行任务的总人数也超过了另一个规定阈值。另外，在一些实施方式中，特征提取系统116可以依赖于已知具有满意的声誉得分的工作者群体来建立一致性。另外，在一些实施方式中，特征提取系统116可以在计算一致性时形成工作者所给出的回答的加权平均值，其中权重基于与相应工作者相关联的声誉得分。

接下来考虑关注任务的特征的集合。关注任务的特征可以涉及到任意任务相关的范围，例如通过描述单个任务的特性、任务类型的特性或者所有任务的特性。备选地或此外，关注任务的特征可以描述一个或多个任务的任意属性，诸如(多个)任务的结构属性或者(多个)任务的响应简档。任务的结构描述该任务的用户接口特性，例如由对问题进行措辞的方式和/或与其回答相关联的选项范围等所定义。任务的响应简档描述了一个或多个工作者已经针对该任务所提供的响应。该响应简档进而可以关于任意时间范围、工作者相关范围和/或任务相关范围进行表达。最后，如上文所提到的，关注任务的特征可以使用任意(多个)量度来描述其特性。

最后考虑关注系统的特征的集合。在实际方面特征的范畴，一个或多个关注系统的特征可以表征众包环境102所针对的市场。该市场可以涉及到任务的主题、任务的目标受众等。一个或多个其他关注系统的特征可以标识众包环境102是否采用了任意补充功能(诸如防火墙、垃圾检测引擎等)来减少垃圾代理和低质量工作的出现。一个或多个其他关注系统的特征可以对众包环境102的激励结构进行描述。一个或多个其他关注系统的特征可以标识参与众包环境102的工作者群体的一些高级方面，诸如通过描述以每天为基础的平均工作者数量、当前工作者数量等。一个或多个其他关注系统的特征可以描述众包环境102所托管的任务的一些高级方面，诸如当前被托管的任务数量、那些任务的来源等。一个或多个其他关注系统的特征可以描述众包环境102的业务量特性的某一方面，诸如其吞吐量、峰值负载等。进一步重复提到，上文所描述的任意特征都可以具有主观对应方，其对应于工作者针对众包环境102的特定实际方面的知识和/或主观反应。

(下文的)部分C提供了可以在一个非限制性的众包环境中使用的一些特征的代表性采样。然而，该部分中所描述的特征以及以上所阐述的维度是作为示例而非限制被阐述。其他众包环境可以采用在任意方面与这里所描述的特征相比不同的特征集合。

现在来到图6-8，这些示图示出了图3的声誉评估模块304的三个相应实例化(602、702、802)，它们可以对应于独立的模块或者与垃圾评估模块302集成的模块。在图6的情况下，声誉评估模块602包括多个特定于任务的模型(例如，模型604,606,…608)。每个特定于任务的模型被配置为针对特定任务或任务类型执行分析。声誉评估模块602可以选择应用特定的特定于任务的模型以适应当前所考虑的任务。

在图7的情况下，声誉评估模块702提供单个全局任务无关的模型704。全局任务无关的模型704被配置为针对多个任务执行分析，例如通过以上文所描述的方式利用元级别特征的使用。在另一个实施方式中(未示出)，多个任务无关的模型可以针对不同的任务族群执行分析。每个族群是指具有一个或多个共同特性的任务类别。在该实施例中，声誉评估模块702可以选择特定的任务无关的模型来适应所考虑的任务种类。

在图8的情况下，声誉评估模块802提供在相应阶段执行它们的分析的两个或更多个模型(804,806,…808)。也就是说，第一模型804的输出向第二模型806提供输入，第二模型806的输出向第三模型(未示出)提供输入等。为了引用图8所示配置的一个应用，第一模型804可以确定所考虑的任务的类型。第一模型804随后可以调用最适合处理该任务的特定第二模型。或者，不同阶段的分析可以被用来确定工作者声誉的不同方面，诸如基于准确性的分量、基于时间线的分量、基于数量的分量等。

实施(图3的)声誉评估模块304的其他方式也是可能的。另外，上文的描述是以评估系统118针对每个工作者以及针对每项工作执行单独分析的假设所进行的预测。但是此外或备选地，训练系统126可以生成被设计为关于工作者已经执行或可以执行的所有任务而针对用户生成单个声誉得分的一个或多个模型。

B.说明性处理

图9-11以流程图的形式解释了图1的众包环境102的不同部分的操作。由于在环境102的操作之下的原理已经在部分A中进行了描述，因此某些操作在该部分中以概述的方式给出。

以图9作为开始，该示图示出了对图3的工作者评估系统118的操作的一种说明性方式进行概括的处理902。在框904，评估系统118接收涉及到工作者关于所识别任务已经执行的工作的特征的集合。特征提取系统116基于数据收集系统104所提供的原始数据计算那些特征。在框906，评估系统118基于特征中的至少一些执行垃圾分析以确定反映工作者构成垃圾代理的可能性的垃圾得分。在框908，评估系统118基于特征中的至少一些关于所识别任务执行质量分析以确定反映工作者提供被评定为期望(例如，准确)的工作的倾向性的声誉得分。在一种情况下，评估系统118作为单个整体操作的一部分来执行该垃圾分析和质量分析。在另一种情况下，评估系统118在质量分析之前执行垃圾分析，其中该质量分析取决于垃圾分析的结果而执行。也就是说，在该情况下，评估系统118在确定工作者为诚实实体(即不是垃圾代理)时执行垃圾分析。在框910，评估系统118基于垃圾得分和/或声誉得分执行任意动作。

图10示出了描述特征提取系统116的一种操作方式的处理1002。在框1004，特征提取系统116生成关注工作者的特征的子集，关注工作者的特征的子集中的每一个关注工作者的特征对至少一个工作者在众包环境102中所执行的工作进行表征。在框1006，特征提取系统116生成关注任务的特征的子集，关注任务的特征的子集中的每一个关注任务的特征对众包环境102中所执行的至少一项任务进行表征。在框1008，特征提取系统116生成关注系统的特征的子集，关注系统的特征的子集中的每一个关注系统的特征对众包环境102的配置的一个方面进行表征。这些框(1004、1006、1008)可以以任意顺序来执行。上文所描述的每种类别的特征可以进一步被划分为实际方面特征(其描述众包环境102中的实际组件、事件、状况等)和关注信念的特征(其描述工作者对于实际方面的感知)。另外，处理1002中所收集的特征中的一些可以对应于元级别特征，在元级别特征对其中工作者执行工作的上下文进行表征，而并不明确参考特定工作者所执行的工作的程度上。元级别特征的一个类别例如通过描述所考虑的任务的结构、与任务相关联的响应的分布等对所考虑的任务进行表征。

图11示出了描述训练系统126的一种操作方式的处理1102。在框1102，训练系统126对由多个训练示例所组成的训练集进行编译。在框1104，训练系统126使用监管机器学习处理基于该训练集产生至少一个模型。

更具体地，每个训练示例可以包括连同标记一起对其中特定先前工作者已经对特定任务执行了先前工作的至少一个先前时机以及其中该先前工作被执行的上下文进行描述的特征的集合。训练系统126可以依赖于特征提取系统116来生成这些特征。例如，该特征可以包括任意上文所描述的关注工作者的特征、关注任务的特征和关注系统的特征，其中的一些特征可以涉及到众包环境103的实际方面，而其他特征可以涉及到所考虑的工作者的感知。一些特征可选地还可以对其他特征间的关系进行描述。

与训练示例相关联的标签对应于先前工作者的活动的评估。例如，考虑其中所开发的模型对应于图3的垃圾评估模型306的情况；这里，结果指示工作者是否对应于垃圾代理。接下来考虑其中所开发的模型对应于图3的声誉评估模型308的情况；这里，在一个情况下，结果表示工作者的回答的准确性。工作者的回答的准确性可以以上文所描述的任意方式进行评定，诸如通过对预定义的正确回答(针对黄金集合任务)、基于一致性的正确回答进行参考等。

在一种情况下，训练系统126还可以将权重与反映标签来源的每个训练示例相关联。例如，训练系统126可以向具有从预先建立的正确的(或以其他方式期望的)响应导出的标签的训练示例分派最有利的权重。训练系统126可以向具有从基于一致性的正确的(或以其他方式期望的)响应导出的标签的训练示例分派较不有利的权重。

在一个实施方式中，训练系统126可以以使得上文所描述的两阶段处理并行的方式生成(图3的)声誉评估模型308。更具体地，训练系统126可以首先从训练集中去除对应于垃圾代理所执行的工作的示例，以产生去除了垃圾的训练集。训练系统126之后可以基于该去除了垃圾的训练集对声誉评估模型308进行训练。对于单阶段模型，训练系统126可以无需去除与垃圾代理相关联的示例的初步步骤。

在图6的上下文中，训练系统126可以针对相应任务或任务类型产生多个特定于任务的模型(604,606,…608)。在图7的上下文中，训练系统126产生应用于多个任务和任务类型的至少一个任务无关的模型704。在图8的上下文中，训练系统126产生与多个分析阶段相关联的多个模型(804,806,…808)。另外，训练系统126还可以单独产生训练评估模型306用于由垃圾评估模块302使用，也就是说，在依赖于两阶段分析技术的那些实施方式中。

训练系统126可以使用相同的机器学习技术来训练每个模型，或者使用不同的相应技术来训练不同的相应模型。此外或备选地，评估系统118可以通过除了机器学习技术之外的某种技术来构建一个或多个模型。例如，在两阶段分析技术中，评估系统118可以使用算法技术来实施垃圾评估模型306，并且使用机器学习技术来构建声誉评估模型308。

在一个非限制性实施方式中，训练系统126使用增强型决策树方法来产生至少一个模型。在该情况下，该模型定义了具有与决策树的不同部分相关联的不同分析域的空间。该模型可以使用元级别特征来针对所考虑的特定任务或上下文标识所要利用的特定分析域。换句话说，以上文所描述的方式所产生的模型可以被概念化为适用于不同相应任务或上下文的不同模型的聚集；元级别特征用作基于所考虑的任务或上下文而激活整个模型内的特定子模型的信号。该训练处理自动确定决策树模型的结构。

更一般地，该训练处理具有例如基于分派给特定特征的权重而自动标识与不同特征相关联的重要性水平的效果。可选地，开发者可能希望从其针对评估系统118所部署的(多个)模型中排除执行不佳的特征的子集。该规定将降低(多个)模型的复杂度，并且相对应地减少运行(多个)模型所必需的系统资源消耗。

在另一个实施方式中，训练系统126可以使用任意技术来生成与概率图形模型相关联的参数的数值，上述模型是诸如图4所示的图形模型402。例如，训练系统126可以使用任意马尔科夫链蒙特卡洛技术(诸如Gibbs采样)、任意变化方法以及任意环路置信传播方法等来生成数值。

虽然在图11中并未表示，但是训练系统126可以以已知方式使用测试集和验证集来评估并完成其所生成的(多个)模型。例如，训练系统126可以使用这些集合来生成与(多个)模型相关联的参数数值。

进一步注意到，训练系统126在其实时操作的过程中可以基于评估系统118所分派的得分而动态地更新数据存储128中的训练示例。训练系统128可以在任意基础上基于经更新的训练数据来更新其(多个)模型。例如，训练系统126可以在周期性的基础上(例如，每周、每月等)和/或在事件驱动的基础上对其(多个)模型进行更新。

C.代表性特征

该部分描述了特征提取系统116可以在众包环境102的一个非限制性实施方式中产生的一些特征的采样。(下文的)第一批特征是指一个或多个工作者关于一个或多个所识别任务而执行的工作者相关行为。

CurrentDwellTime.该特征描述了工作者在最近任务上所花费的时间量。

NumberOfTasksCompleted.该特征描述了工作者所完成的任务的数量。

NumberOfCorrectSystemConsensusTasks.该特征描述了工作者针对已经达到一致性的任务所完成的正确的(基于正确性的一致性标准)任务的数量。

RatioOfCorrectSystemConsensusTasks.该特征描述了工作者针对任务的正确响应的数量除以该工作者所完成的也达到一致性的任务的数量。

NumberOfTasksOfThisTypeByWorker.该特征描述了工作者已经完成的指定类型的任务的数量。

NumberOfTasksOfThisTypeByOthers.该特征描述了所有其他工作者已经完成的指定类型的任务的总数。

DiffNumberOfTasksOfThisTypeTotalNumberOfTasksByOthers.该特征描述了上文刚才所提到的两个特征之间的差值。

NumberOfUniqueWorkersForTasksOfThisType.该特征描述了已经对指定类型的任务进行了工作的工作者的数量。

PercentageDoneByWorker.该特征描述了众包环境102中已经由工作者所执行的已完成任务的百分比。

MeanDwellTimeWorker.该特征描述了当前工作者关于一项或多项任务的平均停留时间。

MeanDwellTimeOthers.该特征描述了所有其他工作者关于一项或多项任务的平均停留时间。

MeanDwellTimeDifference.该特征描述了上文刚才所提到的两个特征之间的差值。

IsCurrentDwellLongerThanWorkerAverage.该特征在为真的情况下指示工作者的当前停留时间长于工作者的平均停留时间。

CurrentDwellDiffWithWorkerAverage.该特征描述了工作者的当前停留时间和工作者的平均停留时间之间的差值。

CurrentDwellDiffWithOthersAverage.该特征描述了工作者的当前停留时间和其他工作者的平均停留时间之间的差值。

MinDwellTime.该特征描述了工作者关于某个时间范围和/或任务选择的最小停留时间。

MaxDwellTime.该特征描述了工作者关于某个时间范围和/或任务选择的最大停留时间。

DiffDwellMinMean.该特征描述了工作者的最小停留时间和平均停留时间之间的差值。

DiffDwellMaxMean.该特征描述了工作者的最大停留时间和平均停留时间之间的差值。

DifferenceShannonBetweenWorkerOnTask.该特征描述了工作者的投票熵(voteentropy)和其他工作者的投票熵之间的差值。

NumDataPoints.该特征描述了众包环境102已经收集的涉及到工作者的数据点的数量。

SpamScore.该特征描述了图3的垃圾评估模块302所计算的垃圾得分。

GoldHitSetAgreement.该特征描述了其中工作者同意正确回答的黄金标准任务的比率。所要回顾的是，黄金标准任务是具有通过定义所建立的已知正确回答的任务。

NumDaysActiveForThisWorker.该特征描述了工作者已经在众包环境中活跃的天数。

AverageJudgementsDoneForThisWorkerPerActiveDay.该特征描述了工作者在每个活跃天所完成的任务的平均数量。

AverageJudgementsPerHourForThisWorker.该特征描述了工作者每小时所完成的判别的平均数量。

MaxVoteProb.该特征描述了工作者最常见的回答在针对任务的可能回答集合中的比率。

MinVoteProb.该特征描述了工作者最不常见的回答在针对任务的可能回答集合中的比率。

Variance该特征描述了工作者的投票分布的变化。

以下列表提供了关注任务的特征的采样。

TaskConsensusRatio.该特征描述了关于已经达到一致性的该类型的任务的总数的该类型的任务的数量。

TaskCorrectConsensus.该特征描述了与一致性相符的响应在已经达到一致性的该类型的任务中的比率。

TaskMaxVote.该特征描述了针对当前类型的任务最流行的回答的可能性。

TaskMinVote.该特征描述了针对当前类型的任务的最不流行的回答的可能性。

TaskVoteVariance.该特征描述了针对当前的类型的任务的投票分布的变化。

TaskMaxCons.该特征描述了当前类型的任务中最流行的一致性的可能性。

TaskMinCons.该特征描述了当前类型的任务中最不流行的一致性的可能性。

TaskConsVariance.该特征描述了当前类型的任务中一致性分布的变化。

NumberOfAnswers.该特征描述了针对指定任务的回答的数量。

D.代表性计算功能

图12示出了可以被用来实施图1的环境102(例如如图2的计算设备所实施)的任意方面的计算功能1202。例如，图12中所示类型的计算功能1202可以被用于实施图2的工作处理架构202的任意(多个)组件，和/或工作者用来与工作处理架构202进行交互的用户计算设备(204、206…)的任意方面。在所有情况下，计算功能1202表示一个或多个物理且有形的处理机制。

计算功能1202可以包括一个或多个处理设备1204，诸如一个或多个中央处理单元(CPU)、和/或一个或多个图形处理单元(GPU)等。

计算功能1202还可以包括用于存储诸如代码、设置、数据等的任意种类的信息的任意存储资源1206。例如，并不作为限制，存储资源1206可以包括以下的任意一个：任意(多种)类型的RAM、任意(多种)类型的ROM、闪存设备、硬盘、光学盘等。更一般地，任意存储资源可以使用用于存储信息的任意技术。另外，任意存储资源可以提供易失性或非易失性信息保存。另外，任意存储资源可以代表计算功能1202的固定或可移除组件。计算功能1202可以在处理设备1204执行存储在任意存储资源或存储资源组合中的指令时执行上文所描述的任意功能。

至于术语，任意存储资源1206或存储资源1206的任意组合可以被视为计算机可读介质。在多种情况下，计算机可读介质表示某种形式的物理和有形的实体。术语计算机可读介质还包括传播信号，传播信号例如经由物理管道和/或空气或其他无线介质等来传送或接收。然而，特定术语“计算可读存储介质”和“计算机可读介质设备”明确地排除传播信号本身，但是包括所有其他形式的计算机可读介质。

计算功能1202还包括用于与任意存储资源进行交互的一个或多个驱动机制1208，诸如硬盘驱动机制、光学盘驱动机制等。

计算功能1202还包括用于(经由输入设备1212)接收各种输入，以及用于(经由输出设备1214)提供各种输出的输入/输出模块1210。说明性的输入设备包括键盘设备、鼠标输入设备、触摸屏输入设备、数字化垫、一个或多个视频相机、一个或多个深度相机、自由空间手势识别机制、一个或多个麦克风、语音识别机制、任意移动检测机制(例如，加速计、陀螺仪等)等。一个特定输出机制可以包括呈现设备1216和相关联的图形用户界面(GUI)1218。其他输出设备包括打印机、模型生成机制、触觉输出机制、档案机制(用于存储输出信息)等。计算功能1202还可以包括用于经由一个或多个通信管道1222与其他设备交换数据的一个或多个网络接口1220。一条或多条通信总线1224将上文所描述的组件通信地耦合在一起。

(多个)通信管道1222可以以任意方式来实施，例如，通过局域网、广域网(例如，互联网)、点对点连接等，或其任意组合。(多个)通信管道1222可以包括由任意协议或协议的组合管理的硬连线的链路、无线链路、路由器、网关功能、名称服务器等的任意组合。

作为替代或此外，前述部分中所描述的任意功能可以至少部分由一个或多个硬件逻辑组件来执行。作为示例而非限制，计算功能1202可以使用以下的一个或多个来实施：现场可编程门阵列(FPGA)；专用集成电路(ASIC)；专用标准产品(ASSP)；片上系统(SOC)；复杂可编程逻辑器件(CPLD)等。

最后，这里所描述的功能可以采用各种机制来确保任意用户数据都以符合可应用法律、社会规范以及个体用户的预期和偏好的方式被处理。例如，该功能可以允许用户明确选择加入(并且随后明确选择退出)该功能的提供。该功能还可以提供适当安全机制来确保用户数据的隐私性(诸如数据清理机制、加密机制、密码保护机制等)。

另外，该描述在说明性的挑战或问题的上下文中描述了各种构思。这种解释方式不构成其他人以这里所指定的方式理解和/或明确表达挑战或问题的表示。此外，所要求保护的主题也不限于解决所提到的任意或全部挑战/问题的实施方式。

更一般地，虽然已经以结构特征和/或方法动作专用的语言对本主题进行了描述，但是可以理解的是，所附权利要求中限定的主题不必限于上文描述的具体特征或动作。相反，上文描述的具体特征和动作是作为实施权利要求的示例形式而公开的。

Claims

1.一种由一个或多个计算设备实施的用于对众包环境中的工作进行评估的方法，包括：

接收与工作相关联的特征的集合，所述工作已由工作者使用计算设备在所述众包环境中关于识别任务而执行；

基于所述特征中的至少一些特征执行垃圾分析，以确定反映所述工作者构成垃圾代理的可能性的垃圾得分；

基于所述特征中的至少一些特征执行质量分析，以确定反映所述工作者提供关于所述识别工作而被评定为期望的工作的倾向性的声誉得分；以及

基于所述垃圾得分和/或所述声誉得分执行动作，以减少经由所述众包环境收集的响应中的噪声，所述动作对应于以下各项中的一项或多项：

基于所述垃圾得分和/或所述声誉得分，至少关于超时时段防止所述工作者接收另外的任务；和/或

基于所述垃圾得分和/或所述声誉得分，对所述工作者被允许执行的工作量进行节制；和/或

基于所述垃圾得分和/或所述声誉得分，将任务路由至针对所述任务他或她具有最大已证明熟练度的工作者，

所述质量分析基于由监管机器学习处理产生的至少一个声誉评估模型的应用。

2.根据权利要求1所述的方法，

其中所述垃圾分析在第一阶段执行，并且所述质量分析在第二阶段执行，

以及其中所述质量分析在确定所述工作者并非垃圾代理时执行。

3.根据权利要求1所述的方法，其中所述特征的至少一个子集对应于关注工作者的特征，所述关注工作者的特征中的每个表征由至少一个工作者在所述众包环境中执行的工作。

4.根据权利要求1所述的方法，其中所述特征的至少一个子集对应于关注任务的特征，所述关注任务的特征中的每个表征在所述众包环境中执行的至少一项任务。

5.根据权利要求1所述的方法，其中所述特征的至少一个子集对应于关注系统的特征，所述关注系统的特征中的每个表征所述众包环境的配置的方面。

6.根据权利要求1所述的方法，其中所述特征的至少一个子集对应于关注信念的特征，所述关注信念的特征中的每个表征涉及到由所述工作者对于所述众包环境的实际方面的感知，

其中至少一个关注信念的特征描述由所述工作者对于所述识别任务针对垃圾相关活动的敏感性和/或所述众包环境检测所述垃圾相关活动的能力的感知。

7.根据权利要求1所述的方法，其中在所述质量分析中使用的所述至少一个声誉评估模型对应于特定于任务的模型，所述特定于任务的模型应用于所述识别任务并且从特定于任务的模型的集合中进行选择。

8.根据权利要求1所述的方法，其中在所述质量分析中使用的所述至少一个声誉评估模型对应于任务无关的模型，所述任务无关的模型应用于多个不同任务。

9.根据权利要求1所述的方法，进一步包括以如下方式产生所述至少一个声誉评估模型：

对由多个训练示例组成的训练集进行编译，每个训练示例包括：

与先前工作者关于先前任务执行的先前工作相关联的特征的集合以及所述先前工作被执行的上下文；以及

描述所述先前任务的评定结果的标签；

去除与垃圾代理相关联的任意训练示例，以提供去除垃圾的训练集；以及

使用所述监管机器学习处理以基于所述去除垃圾的训练集产生所述至少一个声誉评估模型。

10.实施众包环境的至少一部分的至少一个计算设备，包括：

特征提取系统，其用于生成涉及到工作的多个特征，所述工作已由工作者使用计算设备在所述众包环境中关于识别任务而执行，

所述特征的子集对应于特定于工作者的特征，所述特定于工作者的特征中的每个表征由所述工作者在所述众包环境中执行的工作，以及

所述特征的另一子集对应于元级别特征，所述元级别特征中的每个表征由所述工作者执行工作的上下文，而并不具体参考由所述工作者执行的所述工作；

工作者评估系统，包括：

垃圾评估模块，其被配置为基于所述多个特征中的至少一些特征，确定反映所述工作者构成垃圾代理的可能性的垃圾得分；以及

声誉评估模块，其被配置为基于所述多个特征中的至少一些特征，确定反映所述工作者提供关于所述识别工作而被评定为期望的工作的倾向性的声誉得分；以及

动作系统，其被配置为基于所述垃圾得分和/或所述声誉得分执行动作，以减少经由所述众包环境收集的响应中的噪声，所述动作对应于以下各项中的一项或多项：

基于所述垃圾得分和/或所述声誉得分，将任务路由至针对所述任务他或她其具有最大已证明熟练度的工作者，

所述声誉评估模块被配置为在确定所述工作者并非垃圾代理时执行所述声誉评估模块的分析，以及

所述工作评估模块被配置为基于监管机器学习处理中产生的至少一个声誉评估模型的应用来执行所述工作评估模块的分析。

11.根据权利要求3所述的方法，其中至少一个关注工作者的特征表征由所述工作者执行的工作量。

12.根据权利要求3所述的方法，其中至少一个关注工作者的特征表征由所述工作者执行的工作的准确性。

13.根据权利要求4所述的方法，其中至少一个关注任务的特征表征所述识别任务针对垃圾相关活动的敏感性。

14.根据权利要求4所述的方法，其中至少一个关注任务的特征表征所述识别任务的估定难度水平。

15.根据权利要求5所述的方法，

其中至少一个关注系统的特征描述所述众包环境的激励结构，以及

其中至少一个其他关注系统的特征描述由所述众包环境采用以减少垃圾相关活动和低质量工作的出现的任意功能。