CN110930114B - 一种抵御串谋的众包方法 - Google Patents
一种抵御串谋的众包方法 Download PDFInfo
- Publication number
- CN110930114B CN110930114B CN201911141515.2A CN201911141515A CN110930114B CN 110930114 B CN110930114 B CN 110930114B CN 201911141515 A CN201911141515 A CN 201911141515A CN 110930114 B CN110930114 B CN 110930114B
- Authority
- CN
- China
- Prior art keywords
- collusion
- worker
- answer
- answers
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/101—Collaborative creation, e.g. joint development of products or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出一种抵御串谋的众包方法,包括以下步骤:步骤1,请求者通过众包平台来发布任务;步骤2,众包平台根据平台的协议和一定的约束条件来进行任务分配;步骤3,任务处理,然后进行答案收集;步骤4,对收集的答案进行串谋检测,如果为正常工人的答案则跳转至步骤6,如果为串谋工人的答案跳转至步骤5;步骤5,对串谋工人的答案进行处理;步骤6,进行答案汇聚,并把汇聚结果提交给请求者。
Description
技术领域
本发明涉及一种众包方法,尤其涉及一种抵御串谋的众包方法。
背景技术
众包旨在利用人群智能去解决对于机器较难的任务。目前,众包已经在许多应用中取得了成功,如图片标注、数据收集、软件开发等。众包过程主要分为两阶段,即答案收集和答案汇聚。答案收集主要负责把每一个任务分配给合适的工人进行处理,并收回答案。答案汇聚主要关注如何利用多个工人的答案汇聚出高质量的结果。在众包过程中,保障工人工作的独立性是实现人类群体智能的前提条件。然而,在实际众包应用中,工人之间往往却存在协作关系。另外,工人在平台之外甚至组成了隐式的协作网络。虽然工人之间的协作往往有利于提高任务完成的质量,但是协作带来的频繁交互往往能够给工人之间串谋提供了方便。为了在付出尽量少劳动力的条件下获得尽量高额的报酬,部分工人往往形成串谋小组。在串谋小组中,往往只有一个工人会像正常工人那样付出劳动并完成任务,剩下的工人会抄袭正常做题工人的大部分任务的答案。在这种情况下,收集到的答案中将会存在大量由于串谋行为产生的重复答案。因为大多数众包答案汇聚方法都是基于答案出现的频率进行结果推理的,所以出现的频率越高的候选答案则认为越可能是正确答案。串谋行为产生的重复答案将会影响甚至主导众包最后的结果。因此如何有效地抵御众包中的串谋行为是一个重要的问题。
串谋行为能够影响甚至主导众包的结果,有效地检测并合理地处理串谋行为对众包的质量保障至关重要。然而现存技术不能有效地检测和处理众包中的串谋行为。
在串谋检测方面,现有基于工人答案相似度的串谋检测方法的检测结果往往具有高假阳性。这是因为,实际上高能力的正常工人往往也会提交大量重复且正确的答案。显然他们提交的答案往往相似度较高。而现有基于工人答案相似度的串谋检测技术容易把这部分答案错判为串谋行为产生的答案。另外,现有的基于工人能力表现变化率的检测方法往往具有高假阴性。这是因为这种方法假设串谋工人是提交完全重复的答案的。但是在实际上,一些串谋者为了躲避检测,除了抄袭一部分任务之外,他们也会独自地完成一部分任务,并提交答案。因此,几乎不存在工人在所有任务上的答案序列是完全相同的。然而,基于工人表现变化率的串谋检测方法是基于串谋工人在所有任务上的答案序列是完全相同的假设条件的。因此,此类方法往往会错把串谋工人产生的答案误判为正常工人的答案。
在串谋处理方面,现有的串谋处理技术对检测出来的串谋工人的答案进行直接删除可能会降低最后众包结果质量。在工人的串谋过程中,在串谋小组中,往往只有一个众包工人像正常工人一样来处理任务,而剩下的工人会抄袭这个唯一正常做题的工人的大部分答案。
因此,串谋工人的答案质量和被抄袭工人的能力极其相关。当被抄袭的工人能力较高时,串谋行为会产生更多的高质量并且重复的答案,在这种情况下,串谋产生的答案有利于众包最终结果的质量。直接消除这些高质量的答案往往会导致答案汇聚结果质量的下降。
发明内容
综上所述,现有技术不能较好地抵御众包中的串谋行为。为此,本发明针对现有技术存在的问题,提出了一种抵御串谋的众包方法,其中,主要包括两个环节,串谋行为检测和串谋答案处理。
一种抵御串谋的众包方法,其特征在于,包括以下步骤:
步骤1,请求者通过众包平台来发布任务;
步骤2,众包平台根据平台的协议和一定的约束条件来进行任务分配;
步骤3,任务处理,然后进行答案收集;
步骤4,对收集的答案进行串谋检测,如果为正常工人的答案则跳转至步骤6,如果为串谋工人的答案跳转至步骤5;
步骤5,对串谋工人的答案进行处理;
步骤6,进行答案汇聚,并把汇聚结果提交给请求者。
进一步,所述步骤4中,所述串谋检测的流程包括以下步骤:
步骤4-1,在完成答案收集之后,首先计算工人答案的观察一致性,l1j和l2j分别为工人w1和工人wx对于任务tj提交的答案,T1为工人w1完成的任务集合,T2为工人w2完成的任务集合,工人答案的观察一致性πo为
工人答案的期望一致性计算如下:
其中,K为任务的候选答案的个数,xk为第k个候选答案,yj为任务tj的真值,i,j为正整数。
步骤4-2,计算工人的串谋可能性,利用公式(2)计算工人w1的能力a1和工人w2的能力a2,得到工人答案的观察一致性和工人答案的期望一致性后,计算工人的串谋可能性Z:
步骤4-3,判断工人是否为串谋工人,在得到串谋可能性Z之后,若串谋可能性大于阈值p,则判定工人w1和工人w2为串谋工人;若串谋可能性小于阈值p,则判定工人w1和工人w2为正常工人。
3.如权利要求1所述的方法,其特征在于,步骤5中,所述串谋处理的流程包括以下步骤:
在一个串谋小组中,串谋工人进行抄袭的概率α为:
最后串谋答案可用性的理论阈值为
步骤5-4,判断是否保留串谋答案集合,为正常工人在任务集合上提交的答案集合,对于每一个串谋小组进行可用性与阈值的判断,所述可用性与阈值的判断的方式为,如果串谋答案可用性大于阈值ηd,则保留串谋小组中串谋产生的答案如果串谋答案可用性小于阈值ηd,则删除串谋小组中串谋答案其中Lld为被抄袭者在任务集合上提交的答案集合,对所有串谋小组进行上述可用性与阈值的判断后,最后将答案集合提交后进行答案汇聚
在串谋行为检测方面,不同于基于工人相似度和基于工人能力变化率的串谋检测方法,本发明提出的串谋检测方法从包含正常重复答案的答案集合中判定出串谋产生的重复答案,并不假设串谋产生的答案序列是完全重复的。
在串谋答案处理方面,不同于现存的串谋答案处理方法,本发明提出一种串谋答案处理方法不仅能够删除对众包结果质量有害的串谋答案,而且能够保留对众包结果质量有利的串谋答案,从而提高众包结果的质量。
附图说明
图1为本发明的整体流程图;
图2为对串谋答案进行处理时的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出一种抵御串谋的众包方法,如图1所示,包括以下步骤:
步骤1,请求者通过众包平台来发布任务;
步骤2,众包平台根据平台的协议和一定的约束条件来进行任务分配;
步骤3,任务处理,然后进行答案收集;
步骤4,对收集的答案进行串谋检测,如果为正常工人的答案则跳转至步骤6,如果为串谋工人的答案跳转至步骤5;
步骤5,对串谋工人的答案进行处理;
步骤6,进行答案汇聚,并把汇聚结果提交给请求者。
在所述步骤1中,请求者在众包平台上根据其具体需求发布任务如图片标注,语音识别等。这里的众包平台是指通用的众包平台如AMT。
在所述步骤2中,众包平台根据平台的协议和一定的约束条件来进行任务分配。例如通用平台AMT通常采用PULL的方式发布任务。在任务被发布以后,工人会在平台上面搜索并选择自己感兴趣的任务。
在所述步骤3中,任务选择完成后,工人会对选定的任务进行处理。处理完成后,处理结果会返回给请求者。请求者收到处理结果后会对其进行整理,对处理结果中明显错误的答案进行数据清洗。
在所述步骤4中,串谋检测是基于工人答案的观察一致性和工人答案的期望一致性计算工人的串谋可能性的。其能够在包含正常重复答案的答案集合中判定出串谋产生的重复答案。不同于基于工人能力变化率的串谋检测方法,该发明并不假设串谋产生的答案序列是完全重复的。串谋检测流程包括以下步骤。
步骤4-1,在完成答案收集之后,计算工人答案的观察一致性和工人答案的期望一致性。首先计算工人答案的观察一致性。l1j和l2j分别为工人w1和工人w2对于任务tj提交的答案。T1为工人w1完成的任务集合,T2为工人w2完成的任务集合,工人答案的观察一致性πo根据公式1计算如下
工人答案的期望一致性可以计算如下:
步骤4-2,计算工人的串谋可能性,利用公式(2)计算工人w1的能力a1和工人w2的能力a2,其中候选答案个数K是提前给出的。在得到工人答案的观察一致性和工人答案的期望一致性后,可以通过下式得到工人的串谋可能性Z:
步骤4-3,在得到串谋可能性Z之后,若串谋可能性大于阈值p,则判定工人w1和工人w2为串谋工人;若串谋可能性小于阈值p,则判定工人w1和工人w2为正常工人。对于m对工人,我们获得一个m×m的矩阵R。其中Ri,i′=1表示工人wi和工人wi′被鉴定为串谋工人,反之工人wi和工人wi′被鉴定为正常工人。关于成对工人的检测结果可以表示为一个无向无权图,其中点对应工人,如果两个点之间存在一条边表示两个工人被鉴定为存在串谋关系。无向无权图中的各个连通组件对应各串谋小组,而对无向无环图进行广度优先搜索算法求解可以得到图中的连通组件(即串谋小组)。
在所述步骤5中进行串谋答案处理的具体方式如图2所示,
最后串谋答案可用性的理论阈值为
步骤5-4,判断是否保留串谋答案集合,为正常工人在任务集合上提交的答案集合,对于每一个串谋小组进行可用性与阈值的判断,所述可用性与阈值的判断的方式为,如果串谋答案可用性大于阈值ηd,则保留串谋小组中串谋产生的答案如果串谋答案可用性小于阈值ηd,则删除串谋小组中串谋答案其中Lld为被抄袭者在任务集合上提交的答案集合,对所有串谋小组进行上述可用性与阈值的判断后,最后将答案集合提交后进行答案汇聚。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (1)
1.一种抵御串谋的众包方法,其特征在于,包括以下步骤:
步骤1,请求者通过众包平台来发布任务;
步骤2,众包平台根据平台的协议和一定的约束条件来进行任务分配;
步骤3,任务处理,然后进行答案收集;
步骤4,对收集的答案进行串谋检测,如果为正常工人的答案则跳转至步骤6,如果为串谋工人的答案跳转至步骤5;
步骤5,对串谋工人的答案进行处理;
步骤6,进行答案汇聚,并把汇聚结果提交给请求者;
所述串谋检测的流程包括以下步骤:
步骤4-1,在完成答案收集之后,首先计算工人答案的观察一致性,l1j和l2j分别为工人w1和工人w2对于任务tj提交的答案,T1为工人w1完成的任务集合,T2为工人w2完成的任务集合,工人答案的观察一致性πo为
工人答案的期望一致性计算如下:
其中,K为任务的候选答案的个数,xk为第k个候选答案,yj为任务tj的真值,i,j为正整数;
步骤4-2,计算工人的串谋可能性,利用公式(2)计算工人w1的能力a1和工人w2的能力a2,得到工人答案的观察一致性和工人答案的期望一致性后,计算工人的串谋可能性Z:
步骤4-3,判断工人是否为串谋工人,在得到串谋可能性Z之后,若串谋可能性大于阈值p,则判定工人w1和工人w2为串谋工人;若串谋可能性小于阈值p,则判定工人w1和工人w2为正常工人;
所述串谋处理的流程包括以下步骤:
在一个串谋小组中,串谋工人进行抄袭的概率α为:
最后串谋答案可用性的理论阈值为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911141515.2A CN110930114B (zh) | 2019-11-20 | 2019-11-20 | 一种抵御串谋的众包方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911141515.2A CN110930114B (zh) | 2019-11-20 | 2019-11-20 | 一种抵御串谋的众包方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110930114A CN110930114A (zh) | 2020-03-27 |
CN110930114B true CN110930114B (zh) | 2022-08-23 |
Family
ID=69850468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911141515.2A Active CN110930114B (zh) | 2019-11-20 | 2019-11-20 | 一种抵御串谋的众包方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110930114B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767055A (zh) * | 2017-10-24 | 2018-03-06 | 北京航空航天大学 | 一种基于串谋检测的众包结果汇聚方法及装置 |
CN109471943A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于数据处理的众包任务答案确定方法及相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2557344A1 (en) * | 2006-08-28 | 2008-02-28 | Consumer Contact Ulc | Data collection system and method |
-
2019
- 2019-11-20 CN CN201911141515.2A patent/CN110930114B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767055A (zh) * | 2017-10-24 | 2018-03-06 | 北京航空航天大学 | 一种基于串谋检测的众包结果汇聚方法及装置 |
CN109471943A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于数据处理的众包任务答案确定方法及相关设备 |
Non-Patent Citations (2)
Title |
---|
Adaptive Result Inference for Collecting Quantitative Data With Crowdsourcing;Hailong Sun 等;《IEEE Internet of Things Journal 》;20171030;第4卷(第5期);1389-1398 * |
基于社交平台的众包质量控制算法研究;丁岳伟等;《软件导刊》;20171215(第12期);139-152 * |
Also Published As
Publication number | Publication date |
---|---|
CN110930114A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110213164B (zh) | 一种基于拓扑信息融合的识别网络关键传播者的方法及装置 | |
EP3719708A1 (en) | Model test method and device | |
CN106886572B (zh) | 基于Markov逻辑网的知识图谱关系类型推测方法及其装置 | |
CN110377804A (zh) | 培训课程数据的推送方法、装置、系统及存储介质 | |
CN112615888B (zh) | 一种网络攻击行为的威胁评估方法及装置 | |
CN110647447A (zh) | 用于分布式系统的异常实例检测方法、装置、设备和介质 | |
CN110930114B (zh) | 一种抵御串谋的众包方法 | |
CN102546235B (zh) | 云计算环境下面向web应用的性能诊断方法和系统 | |
US7797136B2 (en) | Metrics to evaluate process objects | |
CN111292062A (zh) | 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质 | |
CN116243680A (zh) | 一种黑盒域适应的工业设备诊断方法、系统及存储介质 | |
CN110880117A (zh) | 虚假业务识别方法、装置、设备和存储介质 | |
CN109492677A (zh) | 基于贝叶斯理论的时变网络链路预测方法 | |
WO2023102844A1 (zh) | 剪枝模块的确定方法、装置及计算机可读存储介质 | |
CN113435482B (zh) | 一种判断开放集的方法、装置及其设备 | |
CN115640518A (zh) | 用户识别模型的训练、用户识别方法和装置 | |
CN112948469B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN113888318A (zh) | 风险检测方法及系统 | |
CN113837368A (zh) | 一种在联邦学习中评估各参与方数据价值的控制方法及装置 | |
CN107423759A (zh) | 低维逐次投影寻踪聚类模型综合评价方法、装置及应用 | |
CN105847065B (zh) | 一种网元设备误配置检测方法及检测设备 | |
CN112632364A (zh) | 新闻传播速度测评方法和系统 | |
CN106301880A (zh) | 一种确定网络关系稳定度、互联网业务推荐方法和设备 | |
WO2022219810A1 (ja) | 情報提示装置、情報提示方法、及びプログラム | |
KR102155881B1 (ko) | 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 검수자 능력 평가를 통한 검수자 트레이드 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |