CN107122786B - 一种众包学习方法及装置 - Google Patents
一种众包学习方法及装置 Download PDFInfo
- Publication number
- CN107122786B CN107122786B CN201610105501.5A CN201610105501A CN107122786B CN 107122786 B CN107122786 B CN 107122786B CN 201610105501 A CN201610105501 A CN 201610105501A CN 107122786 B CN107122786 B CN 107122786B
- Authority
- CN
- China
- Prior art keywords
- value
- moment
- tasks
- annotator
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 102000051759 human factor J Human genes 0.000 claims abstract description 184
- 108700008420 human factor J Proteins 0.000 claims abstract description 184
- 239000003550 marker Substances 0.000 claims description 55
- 238000011156 evaluation Methods 0.000 abstract description 30
- 238000002372 labelling Methods 0.000 description 64
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000008451 emotion Effects 0.000 description 8
- 230000002996 emotional effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 238000012358 sourcing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Labeling Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种众包学习方法及装置,一种众包学习方法,包括:获取M个标注者对K个任务在T个时刻的标注,以使所述K个任务中的每个任务在所述T个时刻的每个时刻得到至少一个标注值;获得所述T个时刻中的每个时刻对应的捕获因子J;基于所述T个时刻中的每个时刻对应的捕获因子J和标注值分别对所述T个时刻进行标注的标注者准确度进行更新。本发明实施例通过判断捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,而捕获因子J的值与任务集的数量K以及K个任务在时刻Ti被分配的次数有关,从而使得任务集以及任务被分配的次数参与标注者的能力评价,加强能力评价的可靠性,提高众包学习的准确度。
Description
技术领域
本发明涉及计算机领域,具体涉及一种众包学习方法及装置。
背景技术
众包是指问题发布者将问题以公开招标的方式传播给未知的解决方案提供者群体,是一种公布式的问题解决模式,众包的发展为获取人工标注数据提供了一个新的方法,众包获取人工标注数据具有廉价、快速、规模大和方便控制等优点,因此得到了机器学习研究人员的广泛关注。
众包标注数据虽然方便,但是会由于众包工作者的态度、能力、对问题理解的差异、问题本身是比较难标注等问题而导致众包工作者给出错误的标签,从而使得众包标注数据存在质量问题。
目前,为了解决众包标注数据存在的质量问题,先后提出了个人分类器模式和鲁棒个人分类器模型,但是个人分类器模型并未对每个标注者进行能力区分,所以并不能改善众包学习质量,而鲁棒个人分类器模型中即使对每个标注者加入了能力分数的概念,但是由于该能力分数定义过于简单,导致对标注者的能力判断结果不可靠。
发明内容
本申请的目的在于提供了一种众包学习方法及装置,以期可以高效准确地对标注者能力进行评价。
本发明实施例第一方面公开了一种众包学习方法,包括:在众包平台中获取M个标注者对K个任务在T个时刻的标注,以使该K个任务中的每个任务在该T个时刻的每个时刻得到至少一个标注值,其中,M、K、T均为正整数;再在众包平台获得该T个时刻中的每个时刻所对应的捕获因子J,其中,所述T个时刻中的每个时刻Ti对应的捕获因子J根据所述K的取值以及所述K个任务在所述时刻Ti被分配的次数确定,所述时刻Ti为所述T个时刻中的任意一个时刻;最后再基于该T个时刻中的每个时刻对应的捕获因子J的取值和标注值分别对该T个时刻进行标注的标注者准确度进行更新。
通过判断捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,而捕获因子J的值与任务集的数量K以及K个任务在时刻Ti被分配的次数有关,从而使得任务集以及任务被分配的次数参与标注者的能力评价,加强能力评价的可靠性,提高众包学习的准确度。
结合本发明实施例第一方面第一种实现方式,在本发明实施例第一方面第二种实现方式中,基于所述T个时刻中的每个时刻对应的捕获因子J和标注值对所述T个时刻进行标注的标注者准确度进行更新包括:
若该T个时刻中的时刻Ti的捕获因子J的取值为1,则基于该T个时刻的标注值更新时刻Ti中进行标注的标注者准确度;若该T个时刻中的时刻Ti的捕获因子J的取值为0,则不更新标注者准确度。
通过捕获因子J的取值来决定是否对标注者准确度进行更新,只在捕获因子J的取值为1时对当前时刻进行标注的标注者准确度进行更新,而在J的取值为0时不对标注者准确度进行更新,从而加强更新准确度,也提高更新效率。
结合本发明实施例第一方面第二种实现方式,在本发明实施例第一方面第三种实现方式中,所述方法还包括:
若时刻Ti的捕获因子J的取值为0,则在时刻Ti将M个标注者中标注者准确度大于第一预设准确度阈值的标注者作为合格标注者进行输出。从而实现了对合格标注者的筛选。
结合本发明实施例第一方面第二种实现方式,或本发明实施例第一方面第三种实现方式,在本发明实施例第一方面第四种实现方式中,所述获得所述T个时刻中的每个时刻的捕获因子J,包括:
当该K的取值大于或等于第一预设控制阈值C1且该K个任务在时刻Ti被分配的次数大于或等于第二预设控制阈值C2时,将所述时刻Ti对应的J的取值确定0;当该K的取值小于第一预设控制阈值C1或该K个任务在时刻Ti被分配的次数小于第二预设控制阈值C2时,将所述时刻Ti对应的J的取值确定为1。
结合本发明实施例第一方面第二种实现方式,在本发明实施例第一方面第五种实现方式中,所述时刻Ti对应的J的取值还根据所述时刻Ti的标注者历史准确度确定。
结合本发明实施例第一方面第五种实现方式,在本发明实施例第一方面第六种实现方式中,所述获得所述T个时刻中每个时刻对应的捕获因子J的取值,包括:
当该K的取值大于或等于第一预设控制阈值C1、该K个任务在时刻Ti被分配的次数大于或等于第二预设控制阈值C2以及时刻Ti的标注者历史准确度小于或等于第三预设控制阈值C3时,将所述时刻Ti对应的J的取值确定为0;
当该K的取值小于第一预设控制阈值C1、或该K个任务在时刻Ti被分配的次数小于第二预设控制阈值C2、或时刻Ti的标注者历史准确度小于第三预设控制阈值C3时,将所述时刻Ti对应的J的取值确定为1。
结合本发明实施例第一方面第二种实现方式,或本发明实施例第一方面第三种实现方式,或本发明实施例第一方面第四种实现方式,或本发明实施例第一方面第四种实现方式,或本发明实施例第一方面第五种实现方式,或本发明实施例第一方面第六种实现方式,在本发明实施例第一方面第七种实现方式中,所述基于所述T个时刻中的标注值更新所述时刻Ti进行标注的标注者准确度,包括:
当该M个标注者中的标注者Mn在该T个时刻中的时刻Ti前的时刻对该K个任务中的任务Kj的平均标注值大于预设标注阈值时,确定任务Kj在时刻Ti的标注值为1,当该M个标注者中的标注者Mn在该T个时刻中的时刻Ti前的时刻对该K个任务中的任务Kj的平均标注值小于或等于预设标注阈值时,确定任务Kj时刻Ti的标注值为0,从而更新该M个标注者中的标注者Mn在时刻Ti对该K个任务的标注值;
将更新后的该M个标注者中的标注者Mn在所述时刻Ti对该K个任务中的每个任务的标注值,与该K个任务中的每个任务的标准标注值进行对比,从而更新该M个标注者在时刻Ti的标注者准确度,该标准标注值为根据预设规则利用以上至少一个标注值计算得到。从而实现了在时刻Ti对标注者准确度的更新,确定标注者能力。
结合本发明实施例第一方面第七种实现方式,在本发明实施例第一方面第八种实现方式中,所述方法还包括:
在该T个时刻的最后一个时刻,若该捕获因子J的取值为1,则将该M个标注者中标注者准确度大于或等于第二预设准确度阈值的标注者确定为合格标注者,并将确定出来的合格标注者进行输出。从而实现对合格标注者的筛选。
结合本发明实施例第一方面第七种实现方式,或本发明实施例第一方面第八种实现方法中,在本发明实施例第一方面第九种实现方式中,确定该M个标注者对该K个任务中的任务Kj在该T个时刻的至少一个标注值中占比最大的标注值为所述任务Kj的标准标注值。
本发明实施例第二方面公开了一种众包学习装置,所述众包学习装置包括用于执行本发明实施例第一方面任一方法的部分或全部步骤的功能单元。
在一些可能的实现方式中,根据K的取值以及该K个任务在所述时刻Ti被分配的次数NK(t)确定捕获因子J的定义为:
其中,J(t)为时刻Ti的捕获因子;
在一些可能的实现方式中,根据K的取值、该K个任务在所述时刻Ti被分配的次数NK(t)、以及标注者历史准确度A(t)={A1,A2,A3,…}确定捕获因子J的定义为:
在一些可能的实现方式中,若预设标注阈值为C0,标准标注值为L(k),标注者Mn在T个时刻中的时刻Ti前的时刻对K个任务中的各个任务的标注值为Ck(t),更新后的标注者Mn的标注者准确度为An,则:
其中,G为K个任务使An中I取值为1时的Ck(t)的个数,C0为参考历史平均标注结果所取得一个预设标注阈值。
在一些可能的实施方式中,该预设标注阈值C0的取值与γ相同,例如根据经验取值为0.6。
本发明实施例中,众包平台首先获取M个标注者对K个任务在T个时刻的标注,以使K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值,再获得捕获因子J,该捕获因子J的取值根据K的取值以及K个任务在时刻Ti被分配的次数确定,并在T个时刻中的每个时刻基于捕获因子J和标注值分别对各个时刻进行标注的标注者准确度进行更新。通过判断捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,而捕获因子J的值与任务集的数量K以及K个任务在时刻Ti被分配的次数有关,从而使得任务集以及任务被分配的次数参与标注者的能力评价,加强能力评价的可靠性,提高众包学习的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1-a是现有技术提供的亚马逊土尔其机器人(Amazon Mechanical Turk)众包平台示意图;
图1-b是本发明实施例提供的一种众包学习方法的第一实施例流程示意图;
图1-c为本发明实施例提供的多数标注者投票示意图;
图2是本发明实施例提供的一种众包学习方法的第二实施例流程示意图;
图3是本发明实施例提供的一种众包学习方法的第三实施例流程示意图;
图4是本发明实施例提供的一种众包学习装置的第一实施例的结构示意图;
图5是本发明实施例提供的一种众包学习装置的第二实施例的结构示意图;
图6是本发明实施例提供的一种众包学习装置的第三实施例的结构示意图。
具体实施方式
本发明实施例提供了一种众包学习方法及装置,以期可以高效准确地对标注者能力进行评价。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例的一种众包学习方法,一种众包学习方法包括:
获取M个标注者对K个任务在T个时刻的标注,以使所述K个任务中的每个任务在所述T个时刻的每个时刻得到至少一个标注值,其中,M、K、T均为正整数;获得所述T个时刻中的每个时刻对应的捕获因子J,其中,所述T个时刻中的时刻Ti对应的捕获因子J根据所述K的取值以及所述K个任务在所述时刻Ti被分配的次数确定,所述时刻Ti为所述T个时刻中的任意一个时刻;基于所述T个时刻中的每个时刻对应的捕获因子J和标注值分别对所述T个时刻进行标注的标注者准确度进行更新。
首先参见图1-a,图1-a是现有技术提供的亚马逊土尔其机器人(AmazonMechanical Turk)众包平台示意图;本发明实施例通过图1-a所示的众包平台来对众包平台进行说明。Amazon Mechanical Turk众包平台是由亚马逊公司提供的一个网络服务应用程序接口,其中,左边是提供给任务发布者的,右边是提供给众包工作者的。在AmazonMechanical Turk众包平台上,人们可以在上面自由发布任务和完成任务,AmazonMechanical Turk将问题发布到平台上,作为人工智能任务发布出去,网络上的人可以自由选择自己可以做的人工智能任务。这些任务可能是写产品描述,对移动语音搜索查询作出回答或选择对应某一主题的最佳照片,也可能是对某一任务进行标注(例如标注某一图片是否对应某一主题,从而可对该图片标注为1或0)等。当任务发布者提出一个任务,应用程序就会将这一任务发送到一个任务列表中,想执行任务的人,称为众包工作者(在本发明实施例中针对对任务进行标注的情况,所以在本发明实施例中,众包工作者统称为标注者),可以浏览任务列表,选择自己想完成的任务,任务完成并且提交之后,会传给任务发布者,这样任务发布者可以收集到他们发布的任务的答案。
参见图1-b,图1-b是本发明实施例提供的一种众包学习方法的第一实施例流程示意图。如图1-b所示,本发明实施例提供的众包学习方法可以包括以下步骤:
S101、获取M个标注者对K个任务在T个时刻的标注,以使所述K个任务中的每个任务在所述T个时刻的每个时刻得到至少一个标注值,其中,M、K、T均为正整数。
在本发明实施例中,由一定数量的标注者在众包平台在一定时间内对一定数量的任务进行标注,可以将该时间段分为若干个时刻分别进行标注,每个时刻将全部任务分配给部分或全部标注者进行标注,并且在该时间段内,由于任务的性质未发生变化,所以该任务的标准标注值将保持不变。
可选地,该众包平台可以为Amazon Mechanical Turk、CrowdFlower等。
其中,标注者是指通过众包平台对任务进行标注的人工标注者群体,该标注者一般为来自业余人士或志愿者利用其空余时间进行任务的标注,在本发明实施例中,标注者数量M为在T个时刻中参与某项任务的所有标注者总数。
其中,任务是指无法使用电脑直接分析使用的非结构化数据,从而在众包平台中通过人工标注者来进行标注以解决问题或得到信息,例如可以为对新浪微博中某条信息所传播的感情进行标注为高兴、难过等。
优选地,在本发明的一些可能的实施方式中,标注者的总数量M和任务的总数量K均为大数据,可以为上千或上万的数值。
在本发明实施例中,由M个标注者对K个任务在T个时刻进行标注时,每个任务被分配的次数将大于或等于1次,从而使得K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值。
更进一步地,可将占比最多的标注值做为每个任务在当前时刻的标注值,由M个标注者对K个任务在T个时刻进行标注的示意图可参见图1-c所示,图1-c为本发明实施例提供的多数标注者投票示意图。
举例说明,在本发明的一些可能的实施方式中,当需要对50个任务进行标注时,可以在10个时刻将这50个任务分配给100个标注者进行标注,在某个时刻下,可以同时将这50个任务在这100个标注者中平均进行分配;也可以将这50个任务中的部分任务只分给一个标注者进行标注,另外一部分任务同时分给多个标注者进行标注,也可以将这50个任务分配给其中的40个标注者,从而在该时刻下每个标注者可获得大于或等于1个任务进行标注,最终使得每个时刻下每个任务都获得至少一个标注值。
更进一步地,该标注值为0与1之间的一个标注值,例如若对某条微博进行感情色彩标注时,可确定标注为高兴时为1,标注为生气时为0;更进一步地,还可确定其它感情色彩的标注值为0和1之间的数值;
更进一步地,对于原始标注值不是0和1之间的数值,可将原始标注值归一化至0和1之间的数值,例如若对某条微博进行感情色彩标注时,若标注高兴为3,平静为2,生气为0,则最终可将这三个标注值归一化至0和1之间的数值,即感情色彩为高兴、平静、生气时的标注值分别为1、0.5和0。
S102、获得所述T个时刻中的每个时刻对应的捕获因子J,其中,所述T个时刻中的时刻Ti对应的捕获因子J根据所述K的取值以及所述K个任务在所述时刻Ti被分配的次数确定,所述时刻Ti为所述T个时刻中的任意一个时刻。
其中,捕获因子J为用于对当前标注者标注情况进行区分的一个参数,通过判断捕获因子J的值去确定是否进一步执行二类分析,或直接输出合格标注者。捕获因子J的值与任务的总数量K的取值以及K个任务在当前时刻被分配的次数有关。
优选地,在本发明实施例中,每个时刻都将对K个任务进行分配,所以K个任务中的每个任务在时刻Ti被分配的次数Nk为i次(若i=1…T)。
可以理解,通过任务的总数量K的取值以及K个任务在当前时刻被分配的次数来确定捕获因子J的值,从而可以在任务的总数量满足一定条件以及K个任务在当前时刻被分配的次数满足一定条件时才进一步对标注者准确度进行更新并输出合格标注者,否则就可以直接输出合格标注者,使得对标注者能力评价的过程更为简便。
S103、基于所述T个时刻中的每个时刻对应的捕获因子J和标注值分别对所述T个时刻进行标注的标注者准确度进行更新。
其中,标注者准确度是指用于对标注者能力进行评价的一个参数,该标注者准确度为一个小于1的正数,标注者标注能力越强,也即标注者既往标注结果准确率高,则标注者准确度高,否则标注者准确度低。
在本发明实施例中,在T个时刻中的每个时刻Ti都需要利用当前时刻对应的捕获因子J去判断是否需要进一步对标注者准确度进行更新,若判断是时,则再在时刻Ti利用M个标注者在T个时刻对K个任务的标注值对Ti时刻参与标注的标注者的标注者准确度进行更新,否则,则不对该时刻的标注者准确度进行更新。
更进一步地,当完成各个时刻的标注者准确度更新后,根据该标注者准确度输出合格标注者。
可以看出,本实施例的方案中,获取M个标注者对K个任务在T个时刻的标注,以使K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值,再获得捕获因子J,该捕获因子J的取值根据K的取值以及K个任务在时刻Ti被分配的次数确定,并在T个时刻中的每个时刻基于捕获因子J和标注值分别对各个时刻进行标注的标注者准确度进行更新。通过判断捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,而捕获因子J的值与任务集的数量K以及K个任务在时刻Ti被分配的次数有关,从而使得任务集以及任务被分配的次数参与标注者的能力评价,加强能力评价的可靠性,提高众包学习的准确度。
更进一步地,通过捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,从而不需每次都进行标注者准确度更新,减少标注者能力评价计算量,大大的提高了众包学习的效率。
可选地,在本发明的一些可能的实施方式中,基于所述T个时刻中的每个时刻对应的捕获因子J和标注值对所述T个时刻进行标注的标注者准确度进行更新包括:
若所述T个时刻中所述时刻Ti的捕获因子J的取值为1,则基于所述T个时刻的标注值更新所述时刻Ti进行标注的标注者准确度;
若所述时刻Ti的捕获因子J的取值为0,则不对所述时刻Ti进行标注的标注者准确度进行更新。
其中,时刻Ti进行标注的标注者可以为M个标注者中的部分标注者或者全部标注者。
可以理解,通过捕获因子J的取值来决定是否对标注者准确度进行更新,只在捕获因子J的取值为1时对当前时刻进行标注的标注者准确度进行更新,而在J的取值为0时不对标注者准确度进行更新,从而加强更新准确度,也提高更新效率。
可选地,在本发明的一些可能的实施方式中,所述获得所述T个时刻中的每个时刻对应的捕获因子J的取值,包括:
当所述K的取值大于或等于第一预设控制阈值C1且所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为1。
其中,第一预设控制阈值C1是指在计算捕获因子J时用于对任务集的数量进行控制的一个阈值,第二预设控制阈值C2是指在计算捕获因子J时用于对K个任务在时刻Ti被分配的次数进行控制的一个阈值,也即只有在任务集的数量K大于或等于C1且K个任务在时刻Ti被分配的次数大于或等于C2时,不需要进一步更新标注者准确度而直接确定合格标注者,此时确定捕获因子J的取值为0;而在任务集的数量K小于C1或K个任务在Ti时刻被分配的次数小于C2时,则需要进一步更新标注者准确度来确定合格标注者,此时确定捕获因子J的取值为1。
具体地,若设K个任务在时刻Ti被分配的次数为NK(t),当前时刻的捕获因子为J(t),则定义:
其中,n(Sm)指m个可能的标注者子集的个数,例如,若|Sm|=5,且取标注者个数不少于3的子集为可能的标注者子集,则n(Sm)=16;
α为一个大于0的实数;ε是一个有界常数,γ也为一实数,且0<γ≤1,amin为最小错误概率,即历史标注者进行标注的过程中的最小错误概率,α、ε、γ及amin的取值可根据经验进行赋值,即可根据每个任务的标注情况具体进行赋值。
优选地,在本发明的一些可能的实施方式中,γ的取值为0.6。
可以理解,在任务集的数量K小于一定数值或K个任务在时刻Ti被分配的次数少于一定数值时确定捕获因子J的值为1,也即分配给标注者的任务不充分,或者任务被分配的次数不足,需要进行进一步对标注者准确度进行更新,否则可以直接输出当前时刻的合格标注者。
可选地,在本发明的一些可能的实施方式中,所述时刻Ti对应的J的取值还根据所述时刻Ti的标注者历史准确度确定。
可以理解,通过进一步利用标注者历史准确度计算捕获因子J的取值,从而使得捕获因子J的取值与当前标注状态相关性更大。
可选地,在本发明的一些可能的实施方式中,所述获得所述T个时刻中的每个时刻对应的捕获因子J的取值,包括:
当所述K的取值大于或等于第一预设控制阈值C1、所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值以及所述时刻Ti的标注者历史准确度小于或等于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1、或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2、或所述时刻Ti的标注者历史准确度小于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为1。
其中,第三预设阈值C3是指在计算捕获因子J时用于对标注者历史准确度进行控制的一个阈值。
具体地,若设Ti时刻M个标注者历史准确度集合为A(t)={A1,A2,A3,…},A集合中的数值区间为[0,1],当前时刻的捕获因子为J(t),则定义:
其中,C3中γ的取值为和C2中γ同一个参数取值,优选地,在本发明实施例中γ取值可为0.6。
可以理解,将标注者历史准确度加入判断捕获因子J的值,将使得捕获因子J的计算更为精确。在历史准确度大于一定的数值时,说明标注者质量合格,此时可直接输出合格标注者,而当标注者历史准确度小于或等于一定的数值时,此时说明标注者质量需要进一步进行确定,所以此时需要进一步对标注者准确度进行更新,使得对标注者准确度的计算更为可靠。
可选地,在本发明的一些可能的实施方式中,所述基于所述T个时刻的标注值更新所述时刻Ti进行标注的标注者准确度,包括:
取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值大于预设标注阈值的标注值为1,取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值小于或等于预设标注阈值的标注值为0,以更新所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务的标注值;
根据所述更新后的所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务中的每个任务的标注值与所述K个任务中的每个任务的标准标注值进行对比,以更新所述M个标注者在时刻Ti的标注者准确度,所述标准标注值为根据预设规则利用所述至少一个标注值计算得到。
其中,M个标注者中的标注者Mn在T个时刻中的时刻Ti前的时刻对K个任务中的任务Kj的平均标注值是指标注者Mn对任务Kj在T个时刻中的时刻Ti前的时刻中的所有标注值的平均,从而该平均标注值能较为准确地反应标注者M在时刻Ti对任务Kj的标注情况;
预设标注阈值是指用于与平均标注值进行对照,根据任务Kj的平均标注值确定标注值的参考标注阈值,从而以更新标注者准确度的一个参数,预设标注阈值可根据经验以及实际任务的标注场景进行确定,可选地,在本发明的一些可能的实施方式中,该预设标注阈值可以取值为0.5或0.6;
标准标注值为K个任务在标注时段的一个较为准确的标注值,该标准标注值可以为事先给出的一个标准的标注值,例如,对于微博“我今天很高兴”所传播的感情的可以认为高兴,从而可以在标注的时候将标注该条微博为高兴时的标注值,并确定该值为标注标注值。
更进一步地,标准标注值也为0和1之间的数值,或若原始标注值不为0和1之间的数值时,需将标准标注值归一化至0和1之间的数值,标准标注值的取值方法与归一化的方法与标注者对任务的取值方法与归一化方法一样。可选地,在本发明的一些可能的实施方式中,该标准标注值可以是由专家对该K个任务进行标注的一个相对准确的结果,也可以为根据预设规则利用M个标注者在T个时刻的标注结果进行确定。
具体地,在本发明的一些可能的实施方式中,所述M个标注者对所述K个任务中的任务Kj在所述T个时刻的至少一个标注值中占比最大的标注值为所述任务Kj的标准标注值。
具体地,若设预设标注阈值为C0,标准标注值为L(k),标注者Mn在T个时刻中的时刻Ti前的时刻对K个任务中的各个任务的标注值为Ck(t),更新后的标注者Mn的标注者准确度为An,则:
其中,G为K个任务使An中I取值为1时的Ck(t)的个数。
其中,C0为参考历史平均标注结果所取得一个预设标注阈值,该预设标注阈值可根据实际标注场景进行调整。在本发明实施例中,该预设标注阈值C0的取值与γ相同,例如,可以为0.6或0.5。
在本发明实施例中,从i=1时开始,也即从第一个时刻开始,依次对M个标注者中的各个标注者利用上述方法更新标注者准确度。
举例说明,在本发明的一些可能的实施方式中,对于M个标注者中的某个标注者来说,他在第一个时刻对其中5个任务都分别进行了标注,设标注结果为[0,1,0,0,1],若第一个标注者在第2个时刻依然对该5个任务进行标注,且标注值为[1,1,1,0,0],则第一个标注者在第二个时刻对5个任务的平均标注值为两者的平均,即为[0.5,1,0.5,0,0.5],根据经验取预设标注阈值为0.6,则计算得到第一个标注者在第2个时刻对5个任务的标注值为[0,1,0,0,0],若此时的标注标注值为[0,1,1,0,0],则对比得到5个任务的标注值中有四个与标准标注值相同,根据标注者准确度的计算公式An%可以得到标注者准确度为80%。可以理解,利用上述方法,可以在捕获因子J的取值为1时,进一步对标注者准确度进行更新以便于更准确地区分合格标注者。
可选地,在本发明的一些可能的实施方式中,所述方法还包括:
在所述T个时刻的最后一个时刻,若所述捕获因子J的取值为1,则将所述M个标注者中标注者准确度大于或等于第二预设准确度阈值的标注者作为合格标注者进行输出。
其中,第二预设准确度阈值是指在捕获因子J的取值为1时,用于对标注者准确度进行判断以区分合格标注者的标注者准确度的阈值。
可以理解,通过在T个时刻中的最后一个时刻利用标注者准确度来确定合格标注者,从而完成对标注者质量的评价,筛选出合格标注者,以便在下次标注时通过选择合格标注者进行标注以得到更好的标注结果。
可选地,在本发明的一些可能的实施方式中,所述方法还包括:
若所述时刻Ti的捕获因子J的取值为0,则在所述时刻Ti将所述M个标注者中标注者准确度大于第一预设准确度阈值的标注者作为合格标注者进行输出。
其中,第一预设准确度阈值是指在捕获因子J的取值为0时,用于对标注者准确度进行判断以区分合格标注者的标注者准确度的阈值。
具体地,在本发明的一些可能的实施方式中,当J=0时,算法进入线性搜索阶段,利用线性搜索特性计算合格标注者集合Si,即算法根据当时质量估计来选择最优标注者来标记待标记的任务。
具体地,若设标注者准确度为Q,第一预设准确度阈值为Q1,则合格标注者集合Si为M个标注者中标注者准确度Q大于或等于第一预设准确度阈值Q1的标注者。
可选地,在本发明的另一些可能的实施方式中,Si=arg maxS=MΩ(%S)。
上式中,函数Ω(%S)代表在多数规则情况下,获得正确标记的概率分布函数,能使该函数最大化的标注者集合就是最优标注者集合Si。
可以理解,在捕获因子J的取值为0时,可以认为对标注者准确度的评价是合理的,所以此时不需要对标注者准确度进行更新而直接输出合格标注者即可完成对标注者质量的正确评价,准确的筛选出来合格标注者,以便在下次标注时通过选择合格标注者进行标注以得到更好的标注结果。
参见图2,图2是本发明实施例提供的一种众包学习方法的第二实施例流程示意图。如图2所示,本发明实施例提供的众包学习方法的第二实施例可以包括以下步骤:
S201、获取M个标注者对K个任务在T个时刻的标注,以使K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值。
其中,M、K、T均为正整数。
S202、获得T个时刻中时刻Ti的捕获因子J的取值。
其中,上述T个时刻中的时刻Ti对应的捕获因子J根据K的取值以及K个任务在时刻Ti被分配的次数确定,时刻Ti为上述T个时刻中的任意一个时刻。
本发明实施例提供的众包学习方法的第二实施例的步骤S201和步骤S202和本发明实施例提供的众包学习方法的第一实施例的步骤S101和步骤S102相同,在此不再赘述。
在本发明实施例中,由于捕获因子J的取值用于确定是否对标注者准确度进行二类分析的一个参数,所以捕获因子J的取值可以为一个二类取值的数。
优选地,捕获因子J的取值可以为0或1,从而可以在捕获因子J的取值为0时不对标注者准确度进行更新,在捕获因子J的取值为1时对标注者准确度进行二次分析更新。
可选地,在本发明的一些可能的实施方式中,所述获得所述T个时刻中所述时刻Ti的捕获因子J的取值,包括:
当所述K的取值大于或等于第一预设控制阈值C1且所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为1。
其中,第一预设控制阈值C1是指在计算捕获因子J时用于对任务集的数量进行控制的一个阈值,第二预设控制阈值C2是指在计算捕获因子J时用于对K个任务在时刻Ti被分配的次数进行控制的一个阈值,也即只有在任务集的数量K大于或等于C1且K个任务在时刻Ti被分配的次数大于或等于C2时,不需要进一步更新标注者准确度而直接确定合格标注者,此时确定捕获因子J的取值为0;而在任务集的数量K小于C1或K个任务在Ti时刻被分配的次数小于C2时,则需要进一步更新标注者准确度来确定合格标注者,此时确定捕获因子J的取值为1。
具体地,若设K个任务在时刻Ti被分配的次数为NK(t),当前时刻的捕获因子为J(t),则定义:
其中,n(Sm)指m个可能的标注者子集的个数,例如,若|Sm|=5,且取标注者个数不少于3的子集为可能的标注者子集,则n(Sm)=16;
α为一个大于0的实数;ε是一个有界常数,γ也为一实数,且0<γ≤1,amin为最小错误概率,即历史标注者进行标注的过程中的最小错误概率,α、ε、γ及amin的取值可根据经验进行赋值,即可根据每个任务的标注情况具体进行赋值。
优选地,在本发明的一些可能的实施方式中,γ的取值为0.6。
可以理解,在任务集的数量K小于一定数值或K个任务在时刻Ti被分配的次数少于一定数值时确定捕获因子J的值为1,也即分配给标注者的任务不充分,或者任务被分配的次数不足,需要进行进一步对标注者准确度进行更新,否则可以直接输出当前时刻的合格标注者。
可选地,在本发明的一些可能的实施方式中,所述时刻Ti对应的J的取值还根据所述时刻Ti的标注者历史准确度确定。
可以理解,通过进一步利用标注者历史准确度计算捕获因子J的取值,从而使得捕获因子J的取值与当前标注状态相关性更大。
可选地,在本发明的一些可能的实施方式中,所述获得所述T个时刻中的每个时刻Ti的捕获因子J的取值,包括:
当所述K的取值大于或等于第一预设控制阈值C1、所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值以及所述时刻Ti的标注者历史准确度小于或等于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1、或所述K个任务在所述时刻Ti被分配的次数小于第二预设控制阈值C2、或所述时刻Ti的标注者历史准确度小于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为1。
其中,第三预设阈值C3是指在计算捕获因子J时用于对标注者历史准确度进行控制的一个阈值。
具体地,若设Ti时刻M个标注者历史准确度集合为A(t)={A1,A2,A3,…},A集合中的数值区间为[0,1],当前时刻的捕获因子为J(t),则定义:
其中,C3中γ的取值为和C2中γ同一个参数取值,优选地,在本发明实施例中γ取值可为0.6。
可以理解,将标注者历史准确度加入判断捕获因子J的值,将使得捕获因子J的计算更为精确。在历史准确度大于一定的数值时,说明标注者质量合格,此时可直接输出合格标注者,而当标注者历史准确度小于或等于一定的数值时,此时说明标注者质量需要进一步进行确定,所以此时需要进一步对标注者准确度进行更新,使得对标注者准确度的计算更为可靠。
S203、若T个时刻中时刻Ti的捕获因子J的取值为1,则基于T个时刻的标注值更新时刻Ti进行标注的标注者准确度。
更进一步地,在本发明的一些可能的实施方式中,所述基于所述T个时刻的标注值更新所述时刻Ti进行标注的标注者准确度,包括:
取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值大于预设标注阈值的标注值为1,取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值小于或等于预设标注阈值的标注值为0,以更新所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务的标注值;
根据所述更新后的所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务中的每个任务的标注值与所述K个任务中的每个任务的标准标注值进行对比,以更新所述M个标注者在时刻Ti的标注者准确度,所述标准标注值为根据预设规则利用所述至少一个标注值计算得到。
其中,预设标注阈值是指用于根据任务Kj的平均标注值确定标注值的参考标注阈值,标准标注值是指任务Kj的准确的标注值,该标注值可以事先给出的一个标准的标注值,在本发明实施例中,也可以是根据M个标注者在T个时刻对K个任务的标注值进行确定的。
具体地,若设预设标注阈值为C0,标准标注值为L(k),标注者Mn在T个时刻中的时刻Ti前的时刻对K个任务中的各个任务的标注值为Ck(t),更新后的标注者Mn的标注者准确度为An,则:
其中,G为K个任务使An中I取值为1时的Ck(t)的个数。
在本发明实施例中,从i=1时开始,也即从第一个时刻开始,依次对M个标注者中的各个标注者利用上述方法更新标注者准确度。
可以理解,利用上述方法,可以在捕获因子J的取值为1时,进一步对标注者准确度进行更新以便于更准确地区分合格标注者。
S204、若T个时刻中时刻Ti的捕获因子J的取值为0,则在时刻Ti将M个标注者中标注者准确度大于第一预设准确度阈值的标注者作为合格标注者进行输出。
具体地,在本发明的一些可能的实施方式中,当J=0时,算法进入线性搜索阶段,利用线性搜索特性计算合格标注者集合Si,即算法根据当时质量估计来选择最优标注者来标记待标记的任务。
具体地,若设标注者准确度为Q,第一预设准确度阈值为Q1,则合格标注者集合Si为M个标注者中标注者准确度Q大于或等于第一预设准确度阈值Q1的标注者。
可选地,在本发明的另一些可能的实施方式中,Si=arg maxS=MΩ(%S)。
上式中,函数Ω(%S)代表在多数规则情况下,获得正确标记的概率分布函数,能使该函数最大化的标注者集合就是最优标注者集合Si。
可以理解,在捕获因子J的取值为0时,可以认为对标注者准确度的评价是合理的,所以此时不需要对标注者准确度进行更新而直接输出合格标注者即可完成对标注者质量的正确评价,准确的筛选出来合格标注者,以便在下次标注时通过选择合格标注者进行标注以得到更好的标注结果。
可以看出,本实施例的方案中,获取M个标注者对K个任务在T个时刻的标注,以使K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值,再获得捕获因子J,该捕获因子J的取值根据K的取值以及K个任务在时刻Ti被分配的次数确定,并在T个时刻中的每个时刻基于捕获因子J和标注值分别对各个时刻进行标注的标注者准确度进行更新。通过判断捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,而捕获因子J的值与任务集的数量K以及K个任务在时刻Ti被分配的次数有关,从而使得任务集以及任务被分配的次数参与标注者的能力评价,加强能力评价的可靠性,提高众包学习的准确度。
更进一步地,通过捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,从而不需每次都进行标注者准确度更新,减少标注者能力评价计算量,大大的提高了众包学习的效率。
参见图3,图3是本发明实施例提供的一种众包学习方法的第三实施例流程示意图。如图3所示,本发明实施例提供的众包学习方法的第三实施例可以包括以下步骤:
S301、获取M个标注者对K个任务在T个时刻的标注,以使K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值。
其中,M、K、T均为正整数。
S302、获得T个时刻中时刻Ti的捕获因子J的取值。
其中,T个时刻中的时刻Ti对应的捕获因子J根据K的取值以及K个任务在时刻Ti被分配的次数确定。
其中,时刻Ti为T个时刻中的任意一个时刻。
本发明实施例提供的众包学习方法的第三实施例的步骤S301至步骤S302和本发明实施例提供的众包学习方法的第二实施例的步骤S201和步骤S203相同,在此不再赘述。
S303、若时刻Ti的捕获因子J的取值为1,则取M个标注者中的标注者Mn在T个时刻中的时刻Ti前的时刻对K个任务中的任务Kj的平均标注值大于预设标注阈值的标注值为1,取M个标注者中的标注者Mn在T个时刻中的时刻Ti前的时刻对K个任务中的任务Kj的平均标注值小于或等于预设标注阈值的标注值为0,以更新M个标注者中的标注者Mn在时刻Ti对K个任务的标注值。
举例说明,对于M个标注者中的某个标注者来说,他在第一个时刻对其中5个任务都分别进行了标注,设标注结果为[0,1,0,0,1],若第一个标注者在第2个时刻依然对该5个任务进行标注,且标注值为[1,1,1,0,0],则第一个标注者在第二个时刻对5个任务的平均标注值为两者的平均,即为[0.5,1,0.5,0,0.5],取预设标注阈值为0.6,则计算得到第一个标注者在第2个时刻对5个任务的标注值为[0,1,0,0,0]。
S304、根据更新后的所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务中的每个任务的标注值与K个任务中的每个任务的标准标注值进行对比,以更新M个标注者在时刻Ti的标注者准确度。
其中,标准标注值为根据预设规则利用M个标注者对K个任务的至少一个标注值计算得到。
具体地,在本发明的一些可能的实施方式中,所述M个标注者对所述K个任务中的任务Kj在所述T个时刻的至少一个标注值中占比最大的标注值为所述任务Kj的标准标注值。
举例说明,若在T个时刻中,任务K1接收到M个标注者中的5个标注者的标注,其中,4个标注者将任务K1标注为1,1个标注者将任务K1标注为0,则将任务K1的标准标注值确定为1。
具体地,若设预设标注阈值为C0,标准标注值为L(k),标注者Mn在T个时刻中的时刻Ti前的时刻对K个任务中的各个任务的标注值为Ck(t),更新后的标注者Mn的标注者准确度为An,则:
其中,G为K个任务中使An中I取值为1时的Ck(t)的个数。
优选地,预设标注阈值C0的取值为0.6。
更进一步地,若标注者对任务的标注值不为1或0,则可以将标注值同等归为1或0,再利用上式进行计算。
在本发明实施例中,从i=1时开始,也即从第一个时刻开始,依次对M个标注者中的各个标注者利用上述方法更新标注者准确度。
S305、在T个时刻的最后一个时刻,若捕获因子J的取值为1,则将M个标注者中标注者准确度大于或等于第二预设准确度阈值的标注者作为合格标注者进行输出。
更进一步地,在T个时刻的最后一个时刻时,若此时计算捕获因子J的取值为1,利用前述方法首先对标注者准确度进行更新,再将M个标注者中标注者准确度大于或等于第二预设准确度阈值的标注者作为合格标注者进行输出,从而能实现对合格标注者的准确挑选。
举例说明,若第二预设准确度阈值为0.85,则在T个时刻的最后一个时刻对标注者准确度进行更新后,将标注者准确度大于0.85的标注者输出为合格标注者。
S306、若时刻Ti的捕获因子J的取值为0,则在时刻Ti将M个标注者中标注者准确度大于第一预设准确度阈值的标注者作为合格标注者进行输出。
举例说明,若第一预设准确度阈值为0.85,则在捕获因子J的取值为0时,直接输出标注者准确度大于0.85的标注者。
可以看出,本实施例的方案中,获取M个标注者对K个任务在T个时刻的标注,以使K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值,再获得捕获因子J,该捕获因子J的取值根据K的取值以及K个任务在时刻Ti被分配的次数确定,并在T个时刻中的每个时刻基于捕获因子J和标注值分别对各个时刻进行标注的标注者准确度进行更新。通过判断捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,而捕获因子J的值与任务集的数量K以及K个任务在时刻Ti被分配的次数有关,从而使得任务集以及任务被分配的次数参与标注者的能力评价,加强能力评价的可靠性,提高众包学习的准确度。
更进一步地,通过捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,从而不需每次都进行标注者准确度更新,减少标注者能力评价计算量,大大的提高了众包学习的效率。
本发明实施例还提供一种众包学习装置,该众包学习装置包括:
获取模块,用于获取M个标注者对K个任务在T个时刻的标注,以使所述K个任务中的每个任务在所述T个时刻的每个时刻得到至少一个标注值,其中,M、K、T均为正整数;
获得模块,用于获得所述T个时刻中的每个时刻对应的捕获因子J,其中,所述T个时刻中的时刻Ti对应的捕获因子J根据所述K的取值以及所述K个任务在所述时刻Ti被分配的次数确定,所述时刻Ti为所述T个时刻中的任意一个时刻;
更新模块,用于基于所述T个时刻中的每个时刻对应的捕获因子J和标注值分别对所述T个时刻进行标注的标注者准确度进行更新。
具体的,请参见图4,图4是本发明实施例提供的一种众包学习装置的第一实施例的结构示意图,用于实现本发明实施例公开的众包学习方法。其中,如图4所示,该众包学习装置400可以包括:
获取模块410、获得模块420和更新模块430。
获取模块410,用于获取M个标注者对K个任务在T个时刻的标注,以使所述K个任务中的每个任务在所述T个时刻的每个时刻得到至少一个标注值,其中,M、K、T均为正整数。
在本发明实施例中,由一定数量的标注者在众包平台在一定时间内对一定数量的任务进行标注,可以将该时间段分为若干个时刻分别进行标注,每个时刻将全部任务分配给部分或全部标注者进行标注,并且在该时间段内,由于任务的性质未发生变化,所以该任务的标准标注值将保持不变。
可选地,该众包平台可以为Amazon Mechanical Turk、CrowdFlower等。
其中,标注者是指通过众包平台对任务进行标注的人工标注者群体,该标注者一般为来自业余人士或志愿者利用其空余时间进行任务的标注,在本发明实施例中,标注者数量M为在T个时间中参与某项任务的所有标注者总数。
其中,任务是指无法使用电脑直接分析使用的非结构化数据,从而在众包平台中通过人工标注者来进行标注以解决问题或得到信息,例如可以为对新浪微博中某条信息所传播的感情进行标注为高兴、难过等。
优选地,在本发明的一些可能的实施方式中,标注者的总数量M和任务的总数量K均为大数据,可以为上千或上万的数值。
在本发明实施例中,由M个标注者对K个任务在T个时刻进行标注时,每个任务被分配的次数将大于或等于1次,从而使得K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值。
更进一步地,可将占比最多的标注值做为每个任务在当前时刻的标注值,由M个标注者对K个任务在T个时刻进行标注的示意图可参见图1-c所示,图1-c为本发明实施例提供的多数标注者投票示意图。举例说明,在本发明的一些可能的实施方式中,当需要对50个任务进行标注时,可以在10个时刻将这50个任务分配给100个标注者进行标注,在某个时刻下,可以同时将这50个任务在这100个标注者中平均进行分配;也可以将这50个任务中的部分任务只分给一个标注者进行标注,另外一部分任务同时分给多个标注者进行标注,也可以将这50个任务分配给其中的40个标注者,从而在该时刻下每个标注者可获得大于或等于1个任务进行标注,最终使得每个时刻下每个任务都获得至少一个标注值。
更进一步地,该标注值为0与1之间的一个标注值,例如若对某条微博进行感情色彩标注时,可确定标注为高兴时为1,标注为生气时为0;更进一步地,还可确定其它感情色彩的标注值为0和1之间的数值;
更进一步地,对于原始标注值不是0和1之间的数值,可将原始标注值归一化至0和1之间的数值,例如若对某条微博进行感情色彩标注时,若标注高兴为3,平静为2,生气为0,则最终可将这三个标注值归一化至0和1之间的数值,即感情色彩为高兴、平静、生气时的标注值分别为1、0.5和0。
计算模块420,用于获得所述T个时刻中的每个时刻对应的捕获因子J,其中,所述T个时刻中的时刻Ti对应的捕获因子J根据所述K的取值以及所述K个任务在所述时刻Ti被分配的次数确定,所述时刻Ti为所述T个时刻中的任意一个时刻。
其中,捕获因子J为用于对当前标注者标注情况进行区分的一个参数,通过判断捕获因子J的值去确定是否进一步执行二类分析,或直接输出合格标注者。捕获因子J的值与任务的总数量K的取值以及K个任务在当前时刻被分配的次数有关。
优选地,在本发明实施例中,每个时刻都将对K个任务进行分配,所以K个任务中的每个任务在时刻Ti被分配的次数Nk为i次(若i=1…T)。
可以理解,通过任务的总数量K的取值以及K个任务在当前时刻被分配的次数来确定捕获因子J的值,从而可以在任务的总数量满足一定条件以及K个任务在当前时刻被分配的次数满足一定条件时才进一步对标注者准确度进行更新并输出合格标注者,否则就可以直接输出合格标注者,使得对标注者能力评价的过程更为简便。
更新模块430,用于基于所述T个时刻中的每个时刻对应的捕获因子J和标注值分别对所述T个时刻进行标注的标注者准确度进行更新。
其中,标注者准确度是指用于对标注者能力进行评价的一个参数,该标注者准确度为一个小于1的正数,标注者标注能力越强,也即标注者既往标注结果准确率高,则标注者准确度高,否则标注者准确度低。
在本发明实施例中,在T个时刻中的每个时刻Ti都需要利用当前时刻对应的捕获因子J去判断是否需要进一步对标注者准确度进行更新,若判断是时,则再在时刻Ti利用M个标注者在T个时刻对K个任务的标注值对Ti时刻参与标注的标注者的标注者准确度进行更新,否则,则不对该时刻的标注者准确度进行更新。
更进一步地,当完成各个时刻的标注者准确度更新后,根据该标注者准确度输出合格标注者。
可以理解的是,本实施例的众包学习装置400的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
可以看出,本实施例的方案中,众包学习装置400获取M个标注者对K个任务在T个时刻的标注,以使K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值,再获得捕获因子J,该捕获因子J的取值根据K的取值以及K个任务在时刻Ti被分配的次数确定,并在T个时刻中的每个时刻基于捕获因子J和标注值分别对各个时刻进行标注的标注者准确度进行更新。众包学习装置400通过判断捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,而捕获因子J的值与任务集的数量K以及K个任务在时刻Ti被分配的次数有关,从而使得任务集以及任务被分配的次数参与标注者的能力评价,加强能力评价的可靠性,提高众包学习的准确度。
更进一步地,众包学习装置400通过捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,从而不需每次都进行标注者准确度更新,减少标注者能力评价计算量,大大的提高了众包学习的效率。
请参阅图5,图5是本发明实施例提供的一种众包学习装置的第二实施例的结构示意图,用于实现本发明实施例公开的众包学习方法。其中,图5所示的众包学习装置是由图4所示的众包学习装置进行优化得到的。图5所示的众包学习装置除了包括图4所示的众包括学习装置的模块外,还有以下扩展:
可选地,在本发明的一些可能的实施方式中,所述更新模块530用于:
若所述T个时刻中所述时刻Ti的捕获因子J的取值为1,则基于所述T个时刻的标注值更新所述时刻Ti进行标注的标注者准确度;
若所述时刻Ti的捕获因子J的取值为0,则不对所述时刻Ti进行标注的标注者准确度进行更新。
其中,时刻Ti进行标注的标注者可以为M个标注者中的部分标注者或者全部标注者。
可以理解,通过捕获因子J的取值来决定是否对标注者准确度进行更新,只在捕获因子J的取值为1时对当前时刻进行标注的标注者准确度进行更新,而在J的取值为0时不对标注者准确度进行更新,从而加强更新准确度,也提高更新效率。
可选地,在本发明的一些可能的实施方式中,所述获得模块520,用于:
当所述K的取值大于或等于第一预设控制阈值C1且所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为1。
其中,第一预设控制阈值C1是指在计算捕获因子J时用于对任务集的数量进行控制的一个阈值,第二预设控制阈值C2是指在计算捕获因子J时用于对K个任务在时刻Ti被分配的次数进行控制的一个阈值,也即只有在任务集的数量K大于或等于C1且K个任务在时刻Ti被分配的次数大于或等于C2时,不需要进一步更新标注者准确度而直接确定合格标注者,此时确定捕获因子J的取值为0;而在任务集的数量K小于C1或K个任务在Ti时刻被分配的次数小于C2时,则需要进一步更新标注者准确度来确定合格标注者,此时确定捕获因子J的取值为1。
具体地,若设K个任务在时刻Ti被分配的次数为NK(t),当前时刻的捕获因子为J(t),则定义:
其中,n(Sm)指m个可能的标注者子集的个数,例如,若|Sm|=5,且取标注者个数不少于3的子集为可能的标注者子集,则n(Sm)=16;
α为一个大于0的实数;ε是一个有界常数,γ也为一实数,且0<γ≤1,amin为最小错误概率,即历史标注者进行标注的过程中的最小错误概率,α、ε、γ及amin的取值可根据经验进行赋值,即可根据每个任务的标注情况具体进行赋值。
优选地,在本发明的一些可能的实施方式中,γ的取值为0.6。
可以理解,在任务集的数量K小于一定数值或K个任务在时刻Ti被分配的次数少于一定数值时确定捕获因子J的值为1,也即分配给标注者的任务不充分,或者任务被分配的次数不足,需要进行进一步对标注者准确度进行更新,否则可以直接输出当前时刻的合格标注者。
可选地,在本发明的一些可能的实施方式中,所述时刻Ti对应的J的取值还根据所述时刻Ti的标注者历史准确度确定。
可以理解,通过进一步利用标注者历史准确度计算捕获因子J的取值,从而使得捕获因子J的取值与当前标注状态相关性更大。
可选地,在本发明的一些可能的实施方式中,所述获得模块520,还用于:
当所述K的取值大于或等于第一预设控制阈值C1、所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2以及所述时刻Ti的标注者历史准确度小于或等于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1、或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2、或所述时刻Ti的标注者历史准确度小于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为1。
其中,第三预设阈值C3是指在计算捕获因子J时用于对标注者历史准确度进行控制的一个阈值。
具体地,若设Ti时刻M个标注者历史准确度集合为A(t)={A1,A2,A3,…},A集合中的数值区间为[0,1],当前时刻的捕获因子为J(t),则定义:
其中,C3中γ的取值为和C2中γ同一个参数取值,优选地,在本发明实施例中γ取值可为0.6。
可以理解,将标注者历史准确度加入判断捕获因子J的值,将使得捕获因子J的计算更为精确。在历史准确度大于一定的数值时,说明标注者质量合格,此时可直接输出合格标注者,而当标注者历史准确度小于或等于一定的数值时,此时说明标注者质量需要进一步进行确定,所以此时需要进一步对标注者准确度进行更新,使得对标注者准确度的计算更为可靠。
可选地,在本发明的一些可能的实施方式中,所述更新模块530,用于:
第一更新子单元531,用于取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值大于预设标注阈值的标注值为1,取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值小于或等于预设标注阈值的标注值为0,以更新所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务的标注值;
第二更新子单元532,根据所述更新后的所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务中的每个任务的标注值与所述K个任务中的每个任务的标准标注值进行对比,以更新所述M个标注者在时刻Ti的标注者准确度,所述标准标注值为根据预设规则利用所述至少一个标注值计算得到。
其中,M个标注者中的标注者Mn在T个时刻中的时刻Ti前的时刻对K个任务中的任务Kj的平均标注值是指标注者Mn对任务Kj在T个时刻中的时刻Ti前的时刻中的所有标注值的平均,从而该平均标注值能较为准确地反应标注者M在时刻Ti对任务Kj的标注情况;
预设标注阈值是指用于与平均标注值进行对照,根据任务Kj的平均标注值确定标注值的参考标注阈值,从而以更新标注者准确度的一个参数,预设标注阈值可根据经验以及实际任务的标注场景进行确定,可选地,在本发明的一些可能的实施方式中,该预设标注阈值可以取值为0.5或0.6;
标准标注值为K个任务在标注时段的一个较为准确的标注值,该标准标注值可以为事先给出的一个标准的标注值,例如,对于微博“我今天很高兴”所传播的感情的可以认为高兴,从而可以在标注的时候将标注该条微博为高兴时的标注值,并确定该值为标注标注值。
更进一步地,标准标注值也为0和1之间的数值,或若原始标注值不为0和1之间的数值时,需将标准标注值归一化至0和1之间的数值,标准标注值的取值方法与归一化的方法与标注者对任务的取值方法与归一化方法一样。
可选地,在本发明的一些可能的实施方式中,该标准标注值可以是由专家对该K个任务进行标注的一个相对准确的结果,也可以为根据预设规则利用M个标注者在T个时刻的标注结果进行确定。
具体地,在本发明的一些可能的实施方式中,所述M个标注者对所述K个任务中的任务Kj在所述T个时刻的至少一个标注值中占比最大的标注值为所述任务Kj的标准标注值。
具体地,若设预设标注阈值为C0,标准标注值为L(k),标注者Mn在T个时刻中的时刻Ti前的时刻对K个任务中的各个任务的标注值为Ck(t),更新后的标注者Mn的标注者准确度为An,则:
其中,G为K个任务使An中I取值为1时的Ck(t)的个数。
其中,C0为参考历史平均标注结果所取得一个预设标注阈值,在本发明实施例中,该预设标注阈值C0的取值与γ相同,例如,可以为0.6或0.5。
在本发明实施例中,从i=1时开始,也即从第一个时刻开始,依次对M个标注者中的各个标注者利用上述方法更新标注者准确度。
举例说明,在本发明的一些可能的实施方式中,对于M个标注者中的某个标注者来说,他在第一个时刻对其中5个任务都分别进行了标注,设标注结果为[0,1,0,0,1],若第一个标注者在第2个时刻依然对该5个任务进行标注,且标注值为[1,1,1,0,0],则第一个标注者在第二个时刻对5个任务的平均标注值为两者的平均,即为[0.5,1,0.5,0,0.5],根据经验取预设标注阈值为0.6,则计算得到第一个标注者在第2个时刻对5个任务的标注值为[0,1,0,0,0],若此时的标注标注值为[0,1,1,0,0],则对比得到5个任务的标注值中有四个与标准标注值相同,根据标注者准确度的计算公式An%可以得到标注者准确度为80%。
可以理解,利用上述方法,可以在捕获因子J的取值为1时,进一步对标注者准确度进行更新以便于更准确地区分合格标注者。
可选地,在本发明的一些可能的实施方式中,所述众包学习装置500还包括:
输出模块540,用于若所述时刻Ti的捕获因子J的取值为0,则在所述时刻Ti将所述M个标注者中标注者准确度大于第一预设准确度阈值的标注者作为合格标注者进行输出。
其中,第一预设准确度阈值是指在捕获因子J的取值为0时,用于对标注者准确度进行判断以区分合格标注者的标注者准确度的阈值。
具体地,在本发明的一些可能的实施方式中,当J=0时,算法进入线性搜索阶段,利用线性搜索特性计算合格标注者集合Si,即算法根据当时质量估计来选择最优标注者来标记待标记的任务。
具体地,若设标注者准确度为Q,第一预设准确度阈值为Q1,则合格标注者集合Si为M个标注者中标注者准确度Q大于或等于第一预设准确度阈值Q1的标注者。
可选地,在本发明的另一些可能的实施方式中,Si=arg maxS=MΩ(%S)。
上式中,函数Ω(%S)代表在多数规则情况下,获得正确标记的概率分布函数,能使该函数最大化的标注者集合就是最优标注者集合Si。
可以理解,在捕获因子J的取值为0时,可以认为对标注者准确度的评价是合理的,所以此时不需要对标注者准确度进行更新而直接输出合格标注者即可完成对标注者质量的正确评价,准确的筛选出来合格标注者,以便在下次标注时通过选择合格标注者进行标注以得到更好的标注结果。
可选地,在本发明的一些可能的实施方式中,所述输出模块540,还用于:
在所述T个时刻的最后一个时刻,若所述捕获因子J的取值为1,则将所述M个标注者中标注者准确度大于或等于第二预设准确度阈值的标注者作为合格标注者进行输出。
其中,第二预设准确度阈值是指在捕获因子J的取值为1时,用于对标注者准确度进行判断以区分合格标注者的标注者准确度的阈值。
可以理解,通过在T个时刻中的最后一个时刻利用标注者准确度来确定合格标注者,从而完成对标注者质量的评价,筛选出合格标注者,以便在下次标注时通过选择合格标注者进行标注以得到更好的标注结果。
可以理解的是,本实施例的众包学习装置500的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
可以看出,本实施例的方案中,众包学习装置500获取M个标注者对K个任务在T个时刻的标注,以使K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值,再获得捕获因子J,该捕获因子J的取值根据K的取值以及K个任务在时刻Ti被分配的次数确定,并在T个时刻中的每个时刻基于捕获因子J和标注值分别对各个时刻进行标注的标注者准确度进行更新。众包学习装置500通过判断捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,而捕获因子J的值与任务集的数量K以及K个任务在时刻Ti被分配的次数有关,从而使得任务集以及任务被分配的次数参与标注者的能力评价,加强能力评价的可靠性,提高众包学习的准确度。
更进一步地,众包学习装置500通过捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,从而不需每次都进行标注者准确度更新,减少标注者能力评价计算量,大大的提高了众包学习的效率。
参见图6,图6是本发明实施例提供的一种众包学习装置的第三实施例的结构示意图,如图6所示,该众包学习装置600可以包括:至少一个总线601、与总线相连的至少一个处理器602以及与总线相连的至少一个存储器603。
其中,处理器602通过总线601,调用存储器603中存储的代码以用于获取M个标注者对K个任务在T个时刻的标注,以使所述K个任务中的每个任务在所述T个时刻的每个时刻得到至少一个标注值,其中,M、K、T均为正整数;
获得所述T个时刻中的每个时刻对应的捕获因子J,其中,所述T个时刻中的时刻Ti对应的捕获因子J根据所述K的取值以及所述K个任务在所述时刻Ti被分配的次数确定,所述时刻Ti为所述T个时刻中的任意一个时刻;
基于所述T个时刻中的每个时刻对应的捕获因子J和标注值分别对所述T个时刻进行标注的标注者准确度进行更新。
可选地,在本发明的另一些可能的实施方式中,所述处理器602基于所述T个时刻中的每个时刻对应的捕获因子J和标注值对所述T个时刻中的所述时刻Ti进行标注的标注者准确度进行更新包括:
若所述T个时刻中所述时刻Ti的捕获因子J的取值为1,则基于所述T个时刻的标注值更新所述时刻Ti进行标注的标注者准确度;
若所述时刻Ti的捕获因子J的取值为0,则不对所述时刻Ti进行标注的标注者准确度进行更新。
可选地,在本发明的另一些可能的实施方式中,所述处理器602还用于:
若所述时刻Ti的捕获因子J的取值为0,则在所述时刻Ti将所述M个标注者中标注者准确度大于第一预设准确度阈值的标注者作为合格标注者进行输出。
可选地,在本发明的另一些可能的实施方式中,所述处理器602获得所述T个时刻中每个时刻Ti的捕获因子J,包括:
当所述K的取值大于或等于第一预设控制阈值C1且所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为1。
可选地,在本发明的另一些可能的实施方式中,所述时刻Ti对应的J的取值还根据所述时刻Ti的标注者历史准确度确定。
可选地,在本发明的另一些可能的实施方式中,所述处理器602获得所述T个时刻中的每个时刻Ti对应的捕获因子J,包括:
当所述K的取值大于或等于第一预设控制阈值C1、所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2以及所述时刻Ti的标注者历史准确度小于或等于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1、或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2、或所述时刻Ti的标注者历史准确度小于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为1。
可选地,在本发明的另一些可能的实施方式中,所述处理器602基于所述T个时刻的标注值更新所述时刻Ti进行标注的标注者准确度,包括:
取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值大于预设标注阈值的标注值为1,取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值小于或等于预设标注阈值的标注值为0,以更新所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务的标注值;
根据所述更新后的所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务中的每个任务的标注值与所述K个任务中的每个任务的标准标注值进行对比,以更新所述M个标注者在时刻Ti的标注者准确度,所述标准标注值为根据预设规则利用所述至少一个标注值计算得到。
可选地,在本发明的另一些可能的实施方式中,所述处理器602还用于:
在所述T个时刻的最后一个时刻,若所述捕获因子J的取值为1,则将所述M个标注者中标注者准确度大于或等于第二预设准确度阈值的标注者作为合格标注者进行输出。
可选地,在本发明的另一些可能的实施方式中,所述M个标注者对所述K个任务中的任务Kj在所述T个时刻的至少一个标注值中占比最大的标注值为所述任务Kj的标准标注值。
可以理解的是,本实施例的众包学习装置600的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
可以看出,本实施例的方案中,众包学习装置600获取M个标注者对K个任务在T个时刻的标注,以使K个任务中的每个任务在T个时刻的每个时刻得到至少一个标注值,再获得捕获因子J,该捕获因子J的取值根据K的取值以及K个任务在时刻Ti被分配的次数确定,并在T个时刻中的每个时刻基于捕获因子J和标注值分别对各个时刻进行标注的标注者准确度进行更新。众包学习装置400通过判断捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,而捕获因子J的值与任务集的数量K以及K个任务在时刻Ti被分配的次数有关,从而使得任务集以及任务被分配的次数参与标注者的能力评价,加强能力评价的可靠性,提高众包学习的准确度。更进一步地,众包学习装置600通过捕获因子J的值来决定是否进一步进行标注者准确度的更新以识别标注者质量,从而不需每次都进行标注者准确度更新,减少标注者能力评价计算量,大大的提高了众包学习的效率。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任何众包学习方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明的各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (19)
1.一种众包学习方法,其特征在于,所述方法包括:
在众包平台获取M个标注者对K个任务在T个时刻的标注,以使所述K个任务中的每个任务在所述T个时刻的每个时刻得到至少一个标注值,其中,M、K、T均为正整数;其中,任务是指无法使用电脑直接分析使用的非结构化数据,所述众包平台为Amazon Mechanical Turk或CrowdFlower;
在所述众包平台获得所述T个时刻中的每个时刻对应的捕获因子J,其中,所述T个时刻中的时刻Ti对应的捕获因子J根据所述K的取值以及所述K个任务在所述时刻Ti被分配的次数确定,所述时刻Ti为所述T个时刻中的任意一个时刻;
基于所述T个时刻中的每个时刻对应的捕获因子J和标注值分别对所述T个时刻进行标注的标注者准确度进行更新;
其中,所述获得所述T个时刻中的每个时刻对应的捕获因子J,包括:
当所述K的取值大于或等于第一预设控制阈值C1且所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为1;
或者,所述时刻Ti对应的J的取值还根据所述时刻Ti的标注者历史准确度确定;所述获得所述T个时刻中的每个时刻对应的捕获因子J,包括:
当所述K的取值大于或等于第一预设控制阈值C1、所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2以及所述时刻Ti的标注者历史准确度小于或等于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1、或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2、或所述时刻Ti的标注者历史准确度小于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为1。
2.根据权利要求1所述的方法,其特征在于,基于所述T个时刻中的每个时刻对应的捕获因子J和标注值对所述T个时刻进行标注的标注者准确度进行更新包括:
若所述T个时刻中所述时刻Ti的捕获因子J的取值为1,则基于所述T个时刻的标注值更新所述时刻Ti进行标注的标注者准确度;
若所述时刻Ti的捕获因子J的取值为0,则不对所述时刻Ti进行标注的标注者准确度进行更新。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述时刻Ti的捕获因子J的取值为0,则在所述时刻Ti将所述M个标注者中标注者准确度大于第一预设准确度阈值的标注者作为合格标注者进行输出。
4.根据权利要求3所述的方法,其特征在于,所述获得所述T个时刻中的每个时刻对应的捕获因子J,包括:
当所述K的取值大于或等于第一预设控制阈值C1且所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为1。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述基于所述T个时刻中的标注值更新所述时刻Ti进行标注的标注者准确度,包括:
取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值大于预设标注阈值的标注值为1,取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值小于或等于预设标注阈值的标注值为0,以更新所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务的标注值;
根据所述更新后的所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务中的每个任务的标注值与所述K个任务中的每个任务的标准标注值进行对比,以更新所述M个标注者在时刻Ti的标注者准确度,所述标准标注值为根据预设规则利用所述至少一个标注值计算得到。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述T个时刻的最后一个时刻,若所述捕获因子J的取值为1,则将所述M个标注者中标注者准确度大于或等于第二预设准确度阈值的标注者作为合格标注者进行输出。
7.根据权利要求5所述的方法,其特征在于,所述M个标注者对所述K个任务中的任务Kj在所述T个时刻的至少一个标注值中占比最大的标注值为所述任务Kj的标准标注值。
8.根据权利要求6所述的方法,其特征在于,所述M个标注者对所述K个任务中的任务Kj在所述T个时刻的至少一个标注值中占比最大的标注值为所述任务Kj的标准标注值。
9.一种众包学习装置,其特征在于,所述装置包括:
获取模块,用于在众包平台获取M个标注者对K个任务在T个时刻的标注,以使所述K个任务中的每个任务在所述T个时刻的每个时刻得到至少一个标注值,其中,M、K、T均为正整数;其中,任务是指无法使用电脑直接分析使用的非结构化数据,所述众包平台为AmazonMechanical Turk或CrowdFlower;
获得模块,用于在所述众包平台获得所述T个时刻中的每个时刻对应的捕获因子J,其中,所述T个时刻中的时刻Ti对应的捕获因子J根据所述K的取值以及所述K个任务在所述时刻Ti被分配的次数确定,所述时刻Ti为所述T个时刻中的任意一个时刻;
更新模块,用于基于所述T个时刻中的每个时刻对应的捕获因子J和标注值分别对所述T个时刻进行标注的标注者准确度进行更新;
其中,所述获得模块用于:
当所述K的取值大于或等于第一预设控制阈值C1且所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为1;
或者,所述时刻Ti对应的J的取值还根据所述时刻Ti的标注者历史准确度确定;
所述获得模块用于:
当所述K的取值大于或等于第一预设控制阈值C1、所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2以及所述时刻Ti的标注者历史准确度小于或等于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1、或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2、或所述时刻Ti的标注者历史准确度小于第三预设控制阈值C3时,确定所述时刻Ti对应的J的取值为1。
10.根据权利要求9所述的装置,其特征在于,所述更新模块,用于:
若所述时刻Ti的捕获因子J的取值为1,则基于所述T个时刻中的标注值更新所述时刻Ti进行标注的标注者准确度;
若所述时刻Ti的捕获因子J的取值为0,则不对所述标注者准确度进行更新。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
输出模块,用于若所述时刻Ti的捕获因子J的取值为0,则在所述时刻Ti将所述M个标注者中标注者准确度大于第一预设准确度阈值的标注者作为合格标注者进行输出。
12.根据权利要求11所述的装置,其特征在于,所述获得模块,用于:
当所述K的取值大于或等于第一预设控制阈值C1且所述K个任务在所述T个时刻中所述时刻Ti被分配的次数大于或等于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为0;
当所述K的取值小于第一预设控制阈值C1或所述K个任务在所述T个时刻中所述时刻Ti被分配的次数小于第二预设控制阈值C2时,确定所述时刻Ti对应的J的取值为1。
13.根据权利要求10所述的装置,其特征在于,所述更新模块,包括:
第一更新子单元,用于取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值大于预设标注阈值的标注值为1,取所述M个标注者中的标注者Mn在所述T个时刻中的时刻T前的时刻i对所述K个任务中的任务Kj的平均标注值小于或等于预设标注阈值的标注值为0,以更新所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务的标注值;
第二更新子单元,根据所述更新后的所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务中的每个任务的标注值与所述K个任务中的每个任务的标准标注值进行对比,以更新所述M个标注者在时刻Ti的标注者准确度,所述标准标注值为根据预设规则利用所述至少一个标注值计算得到。
14.根据权利要求9至13任一项所述的装置,其特征在于,所述更新模块,包括:
第一更新子单元,用于取所述M个标注者中的标注者Mn在所述T个时刻中的时刻Ti前的时刻对所述K个任务中的任务Kj的平均标注值大于预设标注阈值的标注值为1,取所述M个标注者中的标注者Mn在所述T个时刻中的时刻T前的时刻i对所述K个任务中的任务Kj的平均标注值小于或等于预设标注阈值的标注值为0,以更新所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务的标注值;
第二更新子单元,根据所述更新后的所述M个标注者中的标注者Mn在所述时刻Ti对所述K个任务中的每个任务的标注值与所述K个任务中的每个任务的标准标注值进行对比,以更新所述M个标注者在时刻Ti的标注者准确度,所述标准标注值为根据预设规则利用所述至少一个标注值计算得到。
15.根据权利要求14所述的装置,其特征在于,
所述装置中的输出模块用于:
在所述T个时刻的最后一个时刻,若所述捕获因子J的取值为1,则将所述M个标注者中标注者准确度大于或等于第二预设准确度阈值的标注者作为合格标注者进行输出。
16.根据权利要求14所述的装置,其特征在于,所述M个标注者对所述K个任务中的任务Kj在所述T个时刻的至少一个标注值中占比最大的标注值为所述任务Kj的标准标注值。
17.根据权利要求15所述的装置,其特征在于,所述M个标注者对所述K个任务中的任务Kj在所述T个时刻的至少一个标注值中占比最大的标注值为所述任务Kj的标准标注值。
18.一种存储介质,其特征在于,所述存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行权利要求1至8任意一项所述的方法。
19.一种众包学习装置,其特征在于,包括:至少一个总线、与总线相连的至少一个处理器以及与总线相连的至少一个存储器;
其中,处理器通过总线调用存储器中存储的代码,以用于执行权利要求1至8任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610105501.5A CN107122786B (zh) | 2016-02-25 | 2016-02-25 | 一种众包学习方法及装置 |
PCT/CN2016/100135 WO2017143773A1 (zh) | 2016-02-25 | 2016-09-26 | 一种众包学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610105501.5A CN107122786B (zh) | 2016-02-25 | 2016-02-25 | 一种众包学习方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122786A CN107122786A (zh) | 2017-09-01 |
CN107122786B true CN107122786B (zh) | 2021-01-08 |
Family
ID=59685838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610105501.5A Active CN107122786B (zh) | 2016-02-25 | 2016-02-25 | 一种众包学习方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107122786B (zh) |
WO (1) | WO2017143773A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705034B (zh) * | 2017-10-26 | 2021-06-29 | 医渡云(北京)技术有限公司 | 众包平台实现方法及装置、存储介质和电子设备 |
CN108197835B (zh) * | 2018-02-05 | 2022-02-15 | 北京航空航天大学 | 任务分配方法、装置、计算机可读存储介质及电子设备 |
CN109686157B (zh) * | 2018-12-10 | 2021-04-30 | 武汉精立电子技术有限公司 | 一种兼具复判与考试功能的面板复检系统 |
CN110472054B (zh) * | 2019-08-15 | 2023-05-23 | 北京爱数智慧科技有限公司 | 一种数据处理方法和装置 |
CN111030764B (zh) * | 2019-10-31 | 2021-02-02 | 武汉大学 | 一种基于随机博弈在线学习的众包用户信息年龄管理方法 |
CN113326890B (zh) * | 2021-06-17 | 2023-07-28 | 北京百度网讯科技有限公司 | 标注数据处理方法、相关装置及计算机程序产品 |
CN114611715B (zh) * | 2022-05-12 | 2022-08-23 | 之江实验室 | 基于标注者可靠度时序建模的众包主动学习方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2570974A1 (en) * | 2011-09-13 | 2013-03-20 | ExB Asset Management GmbH | Automatic crowd sourcing for machine learning in information extraction |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324620B (zh) * | 2012-03-20 | 2016-04-27 | 北京百度网讯科技有限公司 | 一种对标注结果进行纠偏的方法和装置 |
US20150262111A1 (en) * | 2014-03-12 | 2015-09-17 | Nanyang Technological University | Apparatus and method for efficient task allocation in crowdsourcing |
CN104133769B (zh) * | 2014-08-02 | 2017-01-25 | 哈尔滨理工大学 | 基于心理学行为分析的众包欺诈检测方法 |
CN104573359B (zh) * | 2014-12-31 | 2017-08-08 | 浙江大学 | 一种基于任务难度与标注者能力的众包标注数据整合方法 |
CN104599084B (zh) * | 2015-02-12 | 2017-11-03 | 北京航空航天大学 | 一种群体计算的质量控制方法及装置 |
CN104794573B (zh) * | 2015-04-17 | 2018-05-29 | 上海交通大学 | 产品评估任务中的结果估计方法及众包众测平台 |
-
2016
- 2016-02-25 CN CN201610105501.5A patent/CN107122786B/zh active Active
- 2016-09-26 WO PCT/CN2016/100135 patent/WO2017143773A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2570974A1 (en) * | 2011-09-13 | 2013-03-20 | ExB Asset Management GmbH | Automatic crowd sourcing for machine learning in information extraction |
Also Published As
Publication number | Publication date |
---|---|
CN107122786A (zh) | 2017-09-01 |
WO2017143773A1 (zh) | 2017-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122786B (zh) | 一种众包学习方法及装置 | |
EP3169060B1 (en) | Electronic meeting intelligence | |
US10373273B2 (en) | Evaluating an impact of a user's content utilized in a social network | |
CN108920675B (zh) | 一种信息处理的方法、装置、计算机存储介质及终端 | |
CN109299344A (zh) | 排序模型的生成方法、搜索结果的排序方法、装置及设备 | |
CN110377804A (zh) | 培训课程数据的推送方法、装置、系统及存储介质 | |
CN111178410A (zh) | 违规图片的识别方法及装置 | |
CN107040457B (zh) | 一种即时通信方法和装置 | |
CN107465599A (zh) | 一种即时通讯中的日程设置方法及装置 | |
CN107256428A (zh) | 数据处理方法、数据处理装置、存储设备及网络设备 | |
CN111917560B (zh) | 通信方法、装置和设备 | |
US20140030681A1 (en) | Activity-oriented Studying Method in an Online-to-offline Manner | |
US11226991B2 (en) | Interest tag determining method, computer device, and storage medium | |
CN111144215A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110472558B (zh) | 图像处理方法和装置 | |
CN116168119B (zh) | 图像编辑方法、装置、电子设备、存储介质及程序产品 | |
CN111223015B (zh) | 课程推荐方法、装置及终端设备 | |
CN112052316A (zh) | 模型评估方法、装置、存储介质及电子设备 | |
CN110008445A (zh) | 事件抽取方法及装置、电子设备 | |
US20150262313A1 (en) | Multiplicative incentive mechanisms | |
WO2020098669A1 (zh) | 一种表情输入的方法、装置、设备以及存储介质 | |
CN111259251A (zh) | 一种推荐标注任务的方法和装置 | |
CN109254812A (zh) | 一种更新标签页的方法、系统、终端及服务器 | |
CN111158838B (zh) | 一种信息处理方法及装置 | |
CN107544248A (zh) | 一种移动机器人中的任务优化方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |