CN104573359A - 一种基于任务难度与标注者能力的众包标注数据整合方法 - Google Patents

一种基于任务难度与标注者能力的众包标注数据整合方法 Download PDF

Info

Publication number
CN104573359A
CN104573359A CN201410850691.4A CN201410850691A CN104573359A CN 104573359 A CN104573359 A CN 104573359A CN 201410850691 A CN201410850691 A CN 201410850691A CN 104573359 A CN104573359 A CN 104573359A
Authority
CN
China
Prior art keywords
task
mark
annotation results
person
difficulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410850691.4A
Other languages
English (en)
Other versions
CN104573359B (zh
Inventor
王东辉
孙欢
李亚南
蔺越檀
熊逵
黄鹏程
洪高峰
徐灿
梁建增
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410850691.4A priority Critical patent/CN104573359B/zh
Publication of CN104573359A publication Critical patent/CN104573359A/zh
Application granted granted Critical
Publication of CN104573359B publication Critical patent/CN104573359B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于任务难度与标注者能力的众包标注数据整合方法,其根据以下两种现象:(1)能力较高的标注者对大多数任务的标注结果与其他的标注者相同;(2)难度越低的任务,标注者们对它的标注结果的一致度越高;提出了新的任务难度的评估方法以及标注者能力的评估方法,并构建了基于二者的众包标注数据的整合方法,利用迭代的方式进行快速求解,使得标注者的能力评估更加客观准确,可以非常方便地对各种众包标注任务进行有效地难度评定;同时本发明对各种类型的众包标注数据均适用,包括但不限于:图像、文本、视频等任务的二值标注、多值标注等。

Description

一种基于任务难度与标注者能力的众包标注数据整合方法
技术领域
本发明属于数据标注技术领域,具体涉及一种基于任务难度与标注者能力的众包标注数据整合方法。
背景技术
高质量的标注数据集是计算机研究和应用领域中非常重要的资源。在计算机视觉、人工智能、机器学习等领域的算法大都是基于相应的标注数据集进行训练和优化的。快速有效地获得高质量大规模的标注数据集一直以来都是各研究者关注的问题。传统的获得标注数据集的方法是雇佣专家以手工的方式对数据集进行标注。这种方式下获得的标注数据质量高,但是标注的耗时长,且雇佣专家所需的财务开销也非常大。
近年来,随着众包技术的发展,利用众包技术进行数据标注引起了研究者的关注。众包技术是一种分布式的问题求解方式。该技术利用众人的智慧和力量来解决计算机难以解决的任务,尤其是数据标注、对象识别等这类对人类来说非常简单,但是对计算机来讲非常困难的任务。利用众包技术进行数据标注的过程中,需要将标注任务分配给众多的标注者进行标注,然后收集这些工作者对各个任务的标注数据。但是由于参与标注的标注者的能力各不相同,所收集到的标注结果中存在很多的噪声,因此需要对所收集到的众包标注数据进行过滤和整合,得到每个任务最终的标注结果。
目前对众包标注数据的整合方法中,最常用的方法是大数投票,即通过统计标注任务的各个标注结果的得票数,将得票最多的标注结果作为该任务的最终标注结果。这种方式的特点是简单,将所有的标注者统一对待,却忽略了在标注的过程中各个标注者的能力是不同的,因此不同的标注者所给出的标注结果的可信度也是不同的。后来Qiang Liu等人构建了基于标注者的能力的标注数据整合模型,利用变分推理的方法在该模型上同时对标注者的能力和各任务的最终标注结果进行估计。但是这种方式下将每个标注者的能力看作一个常量,忽略了同一个标注者在不同的任务上的专业度不同导致的可信度也不同的事实。Dengyong Zhou等人通过构建标注者与任务的混淆矩阵来表达工作者对不同任务的不同标注能力,并利用最小熵原则进行推理求解出各个任务的最终标注结果。上述方式虽然在一定程度上提高了对标注数据的整合精度,但是在此过程中,对标注者的能力的定义仅仅是根据标注者所标注的所有数据与最终确定的各个任务的标注结果一致性来确定的。然而通过整合获得的任务的标注结果并不一定的是正确的,这就导致了对标注者的能力的评定是存在偏差的,因此在上述基于工作者能力的整合模型中所获得的最终的标注结果的准确度也存在较大偏差。同时当前的标注数据整合模型中缺乏任务的难度这一重要的影响因素的评定方法,进而忽略了任务难度在整个标注数据的整合过程中的重要作用,导致最后获得的标注结果依然具有较大偏差。
发明内容
针对现有技术所存在的上述技术问题,本发明提供了一种基于任务难度与标注者能力的众包标注数据整合方法,通过从收集的标注数据中,自动化地对每一个标注任务的难度及每一个参与标注任务的标注者的能力进行评估的同时,对每一个标注任务生成一个更加准确的标注结果。
一种基于任务难度与标注者能力的众包标注数据整合方法,包括如下步骤:
(1)对于任一个任务,根据其返回的所有标注结果计算出该任务的难度;
(2)初始化每个标注者对该任务的标注能力值;
(3)根据标注能力值计算任务每一类标注结果从所有标注者处所获得的得分,并取最大得分对应的标注结果作为任务的暂时标注结果;
(4)根据所述的暂时标注结果计算每个标注者的标注准确度;
(5)对于任务计算每个标注者与其他标注者之间的一致度;
(6)根据所述的一致度、标注准确度以及任务难度更新所述的标注能力值;
(7)返回步骤(3)循环迭代,直至任务前后两次的暂时标注结果一致,并取该暂时标注结果作为任务的最终标注结果。
所述的步骤(1)中计算任务难度的具体步骤如下:
1.1统计任务的标注结果种类以及每类标注结果所占的比率;
1.2计算各类标注结果所占比率之间平均方差的倒数作为任务的平衡度;
1.3根据所述的平衡度通过以下公式计算任务的难度:
D i = 1 1 + e - β i K i
其中:Di为第i个任务的难度,Ki为第i个任务的标注结果种类数,βi为第i个任务的平衡度,i为自然数且1≤i≤a,a为任务总数。
所述的步骤(3)中通过以下公式计算任务每一类标注结果从所有标注者处所获得的得分:
S i k = Σ w C i w · I ( L i w = l k i ) + Σ w 1 K i - 1 ( 1 - C i w ) · I ( L i w ≠ l k i )
I ( L i w = l k i ) = 1 , if L i w = l k i 0 , if L i w ≠ l k i I ( L i w ≠ l k i ) 1 , if L i w ≠ l k i 0 , if L i w = l k i
其中:为第i个任务的第k类标注结果从所有标注者处所获得的得分,为第w个标注者对第i个任务的标注能力值,Ki为第i个任务的标注结果种类数,为第w个标注者对第i个任务的标注结果,为第i个任务的第k类标注结果,i为自然数且1≤i≤a,a为任务总数,w为自然数且1≤w≤W,W为标注者总数,k为自然数且1≤k≤Ki
所述的步骤(4)中通过以下公式计算每个标注者的标注准确度:
A w = Σ i I ( L i w = f i ) Σ i I ( L i w = f i ) + Σ i I ( L i w ≠ f i )
I ( L i w = f i ) = 1 , if L i w = f i 0 , if L i w ≠ f i I ( L i w ≠ f i ) 1 , if L i w ≠ f i 0 , if L i w = f i
其中:Aw为第w个标注者的标注准确度,fi为第i个任务的暂时标注结果,为第w个标注者对第i个任务的标注结果,i为自然数且1≤i≤a,a为任务总数,w为自然数且1≤w≤W,W为标注者总数。
所述的步骤(5)中通过以下公式计算每个标注者与其他标注者之间的一致度;
G i w = Σ p C i p · I ( L i p = L i w ) Σ p C i p I ( L i p = L i w ) = 1 , if L i p = L i w 0 , if L i p ≠ L i w
其中:为对于第i个任务第w个标注者与其他标注者之间的一致度,为第p个标注者对第i个任务的标注能力值,为第p个标注者对第i个任务的标注结果,为第w个标注者对第i个任务的标注结果,i为自然数且1≤i≤a,a为任务总数,p和w均为自然数且1≤w≤W,1≤p≤W,W为标注者总数。
所述的步骤(6)中通过以下公式更新标注能力值:
C i w * = τ A w + ( 1 - τ ) G i w D i
其中:为第w个标注者对第i个任务更新后的标注能力值,为对于第i个任务第w个标注者与其他标注者之间的一致度,Aw为第w个标注者的标注准确度,Di为第i个任务的难度,τ为预设的场景调节参数,i为自然数且1≤i≤a,a为任务总数,w为自然数且1≤w≤W,W为标注者总数。
本发明根据以下两种现象:(1)能力较高的标注者对大多数任务的标注结果与其他的标注者相同;(2)难度越低的任务,标注者们对它的标注结果的一致度越高;提出了新的任务难度的评估方法以及标注者能力的评估方法,并构建了基于二者的众包标注数据的整合方法,利用迭代的方式进行快速求解。由此,本发明方法与传统方法相比具有以下有益效果:
(1)本发明方法使得标注者的能力评估更加客观准确;
(2)本发明方法可以非常方便地对各种众包标注任务进行有效地难度评定;
(3)本发明方法同时利用标注者能力和任务难度进行众包标注结果的整合,使得整合的标注结果更加准确;
(4)本发明方法对各种类型的众包标注数据均适用,包括但不限于:图像、文本、视频等任务的二值标注、多值标注等。
附图说明
图1为本发明方法的步骤流程示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本发明方法的流程如图1所示,具体包括以下步骤:
步骤(1):任务难度的评估任务难度评估是从所收集到的标注数据集合中求出所有任务的难度集合{Di|i∈[1,a]};其中是第w个标注者对第i个任务的标注结果,Di表示第i个任务的难度,a是任务的总数,W是标注者的总数。下面以分析第i个任务的难度为例对该方法进行介绍,步骤如下:
1-1:将所收集到的标注数据集合进行统计,得到所有标注者对第i个任务所做的标注结果的种类数量Ki,以及各个类别的标注结果所占有的比例集合其中表示所有标注者将第i个任务标注为的次数与所有标注者对第i个任务的总标注次数的比例,其中k依次取1到Ki之间的各个整数值,Ki也是第i个任务的候选标注结果的数目,而为所有标注者对第i个任务的标注结果中的第k类结果。
1-2:求出集合中的所有数值的平均值ni,并计算出各个与ni的差的平方和的平均值βi。其中βi的倒数表明了第i个任务的各个标注结果所获得的标注者支持率的平衡程度,该平衡程度越高,则说明该任务的难度越大。
1-3:根据Ki和βi计算出第i个任务的难度Di,计算公式如下:
D i = 1 1 + e - ( K i β i )
通过对所有的任务进行步骤(1)中的操作,即可得到各个任务的难度集合{Di|i∈[1,a]}。
步骤(2):初始化用户能力的集合中的所有元素为1,迭代步数的最大值m=10,以及迭代步数计数器h=1。集合是各标注者在各任务上的综合能力,该集合中的元素是第w个标注者在第i个任务上的能力。
步骤(3):利用标注数据集合和用户的能力集合计算出每个任务在其各个候选标注结果上的得分的集合其中集合的元素是第i个任务的第k个候选标注结果从所有标注者处所获得的得分,计算公式如下:
S i k = Σ w C i w · I ( L i w = l k i ) + Σ w 1 K i - 1 ( 1 - C i w ) · I ( L i w ≠ l k i )
其中,函数
上式中为第i个任务的第k类标注结果,的的计算由两部分组成,前一部分表达了当标注者对第i个任务的标注结果是其第k类标注结果时所获得的得分,后一部分表达了当标注者对第i个任务的标注结果不是其第k类标注结果时所获得的得分。利用上式对所有的任务及其候选结果计算出
步骤(4):利用步骤(3)中得出的计算出每个任务的整合标注结果集合{fi|i∈[1,a]},fi是第i个任务的整合标注结果。计算方法是取第i个任务的所有候选结果得分中最高的候选结果作为其整合标注结果,即集合中最大的值所对应的第k个候选结果即为第i个任务的整合标注结果。
步骤(5):利用步骤(4)中所得的各个任务的标注结果集合{fi|i∈[1,a]}以及标注数据集合计算并更新每个标注者在所有任务上的准确度集合{Aw|w∈[1,W]}。Aw是第w个标注者在所有任务上的准确度,计算公式如下:
A w = Σ i I ( L i w = f i ) Σ i I ( L i w = f i ) + Σ i I ( L i w ≠ f i )
步骤(6):利用各个标注者对各个任务的能力集合以及标注数据集合计算各个标注者对在各个任务上与其他标注者的一致度集合是第w个标注者在第i个任务上与其他标注者的一致度,计算公式如下:
G i w = Σ p C i p · I ( L i p = L i w ) Σ p C i p
步骤(7):利用步骤(1)、步骤(5)和步骤(6)中得到的所有任务的难度集合{Di|i∈[1,a]}、每个标注者在所有任务上的准确度集合{Aw|w∈[1,W]}以及各个标注者对在各个任务上与其他标注者的一致度集合计算并更新各个标注者的能力的集合计算公式如下:
C i w * = τ A w + ( 1 - τ ) G i w D i
各个标注者的能力评估方法综合考虑了该标注者在所有任务上的标注准确度Aw以及该标注者在特定任务上与其他标注者的一致度以及特定任务的难度Di。当Aw越高,且Di越低,则该工作者在该任务上的能力就越高。其中τ的取值为0到1之间的小数。本实施方式中τ=0.7(0.7为建议值,可根据实际应用场景调节)。
步骤(8):将迭代步数计数器h加1,判断更新后的迭代步数计数器h是否达到步骤(2)中设定的迭代步数的最大值m。如果是,则输出各个任务的整合标注结果集合{fi|i∈[1,a]}、各个标注者的能力的集合各个任务的难度集合{Di|i∈[1,a]};否则,转至执行步骤(3),判断任务前后两次的整合标注结果{fi|i∈[1,a]}是否一致,若是则迭代终止,输出对应的整合标注结果{fi|i∈[1,a]}作为任务最终的标注结果。
上述实施例并非是对于本发明的限制,本发明并非仅限于上述实施例,只要符合本发明要求,均属于本发明的保护范围。

Claims (6)

1.一种基于任务难度与标注者能力的众包标注数据整合方法,包括如下步骤:
(1)对于任一个任务,根据其返回的所有标注结果计算出该任务的难度;
(2)初始化每个标注者对该任务的标注能力值;
(3)根据标注能力值计算任务每一类标注结果从所有标注者处所获得的得分,并取最大得分对应的标注结果作为任务的暂时标注结果;
(4)根据所述的暂时标注结果计算每个标注者的标注准确度;
(5)对于任务计算每个标注者与其他标注者之间的一致度;
(6)根据所述的一致度、标注准确度以及任务难度更新所述的标注能力值;
(7)返回步骤(3)循环迭代,直至任务前后两次的暂时标注结果一致,并取该暂时标注结果作为任务的最终标注结果。
2.根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(1)中计算任务难度的具体步骤如下:
1.1统计任务的标注结果种类以及每类标注结果所占的比率;
1.2计算各类标注结果所占比率之间平均方差的倒数作为任务的平衡度;
1.3根据所述的平衡度通过以下公式计算任务的难度:
D i = 1 1 + e - β i K i
其中:Di为第i个任务的难度,Ki为第i个任务的标注结果种类数,βi为第i个任务的平衡度,i为自然数且1≤i≤a,a为任务总数。
3.根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(3)中通过以下公式计算任务每一类标注结果从所有标注者处所获得的得分:
S i k = Σ w C i w · I ( L i w = l k i ) + Σ w 1 K i - 1 ( 1 - C i w ) · I ( L i w ≠ l k i )
I ( L i w = l k i ) = 1 , if L i w = l k i 0 , if L i w ≠ l k i I ( L i w ≠ l k i ) = 1 , if L i w ≠ l k i 0 , if L i w = l k i
其中:为第i个任务的第k类标注结果从所有标注者处所获得的得分,为第w个标注者对第i个任务的标注能力值,Ki为第i个任务的标注结果种类数,为第w个标注者对第i个任务的标注结果,为第i个任务的第k类标注结果,i为自然数且1≤i≤a,a为任务总数,w为自然数且1≤w≤W,W为标注者总数,k为自然数且1≤k≤Ki
4.根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(4)中通过以下公式计算每个标注者的标注准确度:
A w = Σ i I ( L i w = f i ) Σ i I ( L i w = f i ) + Σ i I ( L i w ≠ f i )
I ( L i w = f i ) = 1 , if L i w = f i 0 , if L i w ≠ f i I ( L i w ≠ f i ) = 1 , if L i w ≠ f i 0 , if L i w = f i
其中:Aw为第w个标注者的标注准确度,fi为第i个任务的暂时标注结果,为第w个标注者对第i个任务的标注结果,i为自然数且1≤i≤a,a为任务总数,w为自然数且1≤w≤W,W为标注者总数。
5.根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(5)中通过以下公式计算每个标注者与其他标注者之间的一致度;
G i w = Σ p C i p · I ( L i p = L i w ) Σ p C i p I ( L i p = L i w ) = 1 , if L i p = L i w 0 , if L i p ≠ L i w
其中:为对于第i个任务第w个标注者与其他标注者之间的一致度,为第p个标注者对第i个任务的标注能力值,为第p个标注者对第i个任务的标注结果,为第w个标注者对第i个任务的标注结果,i为自然数且1≤i≤a,a为任务总数,p和w均为自然数且1≤w≤W,1≤p≤W,W为标注者总数。
6.根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(6)中通过以下公式更新标注能力值:
C i w * = τ A w + ( 1 - τ ) G i w D i
其中:为第w个标注者对第i个任务更新后的标注能力值,为对于第i个任务第w个标注者与其他标注者之间的一致度,Aw为第w个标注者的标注准确度,Di为第i个任务的难度,τ为预设的场景调节参数,i为自然数且1≤i≤a,a为任务总数,w为自然数且1≤w≤W,W为标注者总数。
CN201410850691.4A 2014-12-31 2014-12-31 一种基于任务难度与标注者能力的众包标注数据整合方法 Expired - Fee Related CN104573359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410850691.4A CN104573359B (zh) 2014-12-31 2014-12-31 一种基于任务难度与标注者能力的众包标注数据整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410850691.4A CN104573359B (zh) 2014-12-31 2014-12-31 一种基于任务难度与标注者能力的众包标注数据整合方法

Publications (2)

Publication Number Publication Date
CN104573359A true CN104573359A (zh) 2015-04-29
CN104573359B CN104573359B (zh) 2017-08-08

Family

ID=53089405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410850691.4A Expired - Fee Related CN104573359B (zh) 2014-12-31 2014-12-31 一种基于任务难度与标注者能力的众包标注数据整合方法

Country Status (1)

Country Link
CN (1) CN104573359B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933588A (zh) * 2015-07-01 2015-09-23 北京京东尚科信息技术有限公司 用于拓展商品品类的数据标注平台及方法
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN105787521A (zh) * 2016-03-25 2016-07-20 浙江大学 一种面向标签不平衡性的半监督众包标注数据整合方法
CN106294118A (zh) * 2015-06-12 2017-01-04 富士通株式会社 信息处理设备以及信息处理方法
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
WO2017143773A1 (zh) * 2016-02-25 2017-08-31 华为技术有限公司 一种众包学习方法及装置
CN107273492A (zh) * 2017-06-15 2017-10-20 复旦大学 一种基于众包平台处理图像标注任务的交互方法
CN107423819A (zh) * 2016-05-24 2017-12-01 阿里巴巴集团控股有限公司 一种知识库构建方法及装置
CN107705034A (zh) * 2017-10-26 2018-02-16 医渡云(北京)技术有限公司 众包平台实现方法及装置、存储介质和电子设备
CN107729378A (zh) * 2017-07-13 2018-02-23 华中科技大学 一种数据标注方法
CN108268575A (zh) * 2017-01-04 2018-07-10 阿里巴巴集团控股有限公司 标注信息的处理方法、装置和系统
CN108596501A (zh) * 2018-04-28 2018-09-28 华东师范大学 基于技能图的任务分配方法、装置、介质、设备及系统
CN109102198A (zh) * 2018-08-23 2018-12-28 阿里巴巴集团控股有限公司 图像众包标注方法和装置
CN109272193A (zh) * 2018-08-13 2019-01-25 华中师范大学 一种基于众智任务的用户置信度分析方法及系统
CN109426834A (zh) * 2017-08-31 2019-03-05 佳能株式会社 信息处理装置、信息处理方法和信息处理系统
CN109657990A (zh) * 2018-12-19 2019-04-19 中国科学技术大学 通过程序标记评估学生编程能力的方法
CN109711720A (zh) * 2018-12-25 2019-05-03 西安交通大学深圳研究院 一种应用于群智感知的数据质量评估方法
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN110233864A (zh) * 2018-03-06 2019-09-13 顺丰科技有限公司 一种基于众包的信息采集方法、装置、设备、存储介质
CN110929807A (zh) * 2019-12-06 2020-03-27 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法及装置
CN111275079A (zh) * 2020-01-13 2020-06-12 浙江大学 基于图神经网络的众包标签推测方法及系统
CN113469291A (zh) * 2021-09-01 2021-10-01 平安科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN113570286A (zh) * 2021-09-24 2021-10-29 平安科技(深圳)有限公司 基于人工智能的资源分配方法、装置、电子设备及介质
CN115063694A (zh) * 2022-08-17 2022-09-16 中国地质环境监测院(自然资源部地质灾害技术指导中心) 基于滑坡形态复杂度的众包标注任务难度评估方法及系统
CN115330346A (zh) * 2022-08-17 2022-11-11 中国地质环境监测院(自然资源部地质灾害技术指导中心) 基于能力评价的滑坡众包标注结果评估及任务分配方法
CN116825212A (zh) * 2023-08-29 2023-09-29 山东大学 一种基于生物医学众包平台的数据收集标注方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202557A1 (en) * 2010-02-18 2011-08-18 Alon Atsmon System and method for crowdsourced template based search
CN103324620A (zh) * 2012-03-20 2013-09-25 北京百度网讯科技有限公司 一种对标注结果进行纠偏的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202557A1 (en) * 2010-02-18 2011-08-18 Alon Atsmon System and method for crowdsourced template based search
CN103324620A (zh) * 2012-03-20 2013-09-25 北京百度网讯科技有限公司 一种对标注结果进行纠偏的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DENGYONG ZHOU ET AL.: "Aggregating Ordinal Labels from Crowds by Minimax Conditional Entropy", 《PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
MUHAMMADI J ET AL.: "A unified statistical framework for crowd labeling", 《KNOWLEDGE AND INFORMATION SYSTEMS》 *
QIANG LIU ET AL.: "Variational Inference for Crowdsourcing", 《CONFERENCE OF ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 25》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294118A (zh) * 2015-06-12 2017-01-04 富士通株式会社 信息处理设备以及信息处理方法
CN104933588A (zh) * 2015-07-01 2015-09-23 北京京东尚科信息技术有限公司 用于拓展商品品类的数据标注平台及方法
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN105608318B (zh) * 2015-12-18 2018-06-15 清华大学 众包标注整合方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
WO2017143773A1 (zh) * 2016-02-25 2017-08-31 华为技术有限公司 一种众包学习方法及装置
CN107122786A (zh) * 2016-02-25 2017-09-01 华为技术有限公司 一种众包学习方法及装置
CN105787521B (zh) * 2016-03-25 2019-01-15 浙江大学 一种面向标签不平衡性的半监督众包标注数据整合方法
CN105787521A (zh) * 2016-03-25 2016-07-20 浙江大学 一种面向标签不平衡性的半监督众包标注数据整合方法
CN107423819A (zh) * 2016-05-24 2017-12-01 阿里巴巴集团控股有限公司 一种知识库构建方法及装置
WO2018000269A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN108268575A (zh) * 2017-01-04 2018-07-10 阿里巴巴集团控股有限公司 标注信息的处理方法、装置和系统
CN107273492A (zh) * 2017-06-15 2017-10-20 复旦大学 一种基于众包平台处理图像标注任务的交互方法
CN107273492B (zh) * 2017-06-15 2021-07-23 复旦大学 一种基于众包平台处理图像标注任务的交互方法
CN107729378A (zh) * 2017-07-13 2018-02-23 华中科技大学 一种数据标注方法
US11636378B2 (en) 2017-08-31 2023-04-25 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and information processing system
CN109426834B (zh) * 2017-08-31 2022-05-31 佳能株式会社 信息处理装置、信息处理方法和信息处理系统
CN109426834A (zh) * 2017-08-31 2019-03-05 佳能株式会社 信息处理装置、信息处理方法和信息处理系统
CN107705034A (zh) * 2017-10-26 2018-02-16 医渡云(北京)技术有限公司 众包平台实现方法及装置、存储介质和电子设备
CN110233864A (zh) * 2018-03-06 2019-09-13 顺丰科技有限公司 一种基于众包的信息采集方法、装置、设备、存储介质
CN110233864B (zh) * 2018-03-06 2021-12-28 顺丰科技有限公司 一种基于众包的信息采集方法、装置、设备、存储介质
CN108596501A (zh) * 2018-04-28 2018-09-28 华东师范大学 基于技能图的任务分配方法、装置、介质、设备及系统
CN109272193A (zh) * 2018-08-13 2019-01-25 华中师范大学 一种基于众智任务的用户置信度分析方法及系统
CN109102198A (zh) * 2018-08-23 2018-12-28 阿里巴巴集团控股有限公司 图像众包标注方法和装置
CN109102198B (zh) * 2018-08-23 2021-08-03 创新先进技术有限公司 图像众包标注方法和装置
CN109657990A (zh) * 2018-12-19 2019-04-19 中国科学技术大学 通过程序标记评估学生编程能力的方法
CN109657990B (zh) * 2018-12-19 2023-09-01 中国科学技术大学 通过程序标记评估学生编程能力的方法
CN109711720A (zh) * 2018-12-25 2019-05-03 西安交通大学深圳研究院 一种应用于群智感知的数据质量评估方法
CN109711720B (zh) * 2018-12-25 2021-03-09 西安交通大学深圳研究院 一种应用于群智感知的数据质量评估方法
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN110929807A (zh) * 2019-12-06 2020-03-27 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法及装置
CN110929807B (zh) * 2019-12-06 2021-04-06 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法及装置
CN111275079A (zh) * 2020-01-13 2020-06-12 浙江大学 基于图神经网络的众包标签推测方法及系统
CN113469291B (zh) * 2021-09-01 2021-11-30 平安科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN113469291A (zh) * 2021-09-01 2021-10-01 平安科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN113570286A (zh) * 2021-09-24 2021-10-29 平安科技(深圳)有限公司 基于人工智能的资源分配方法、装置、电子设备及介质
CN115063694A (zh) * 2022-08-17 2022-09-16 中国地质环境监测院(自然资源部地质灾害技术指导中心) 基于滑坡形态复杂度的众包标注任务难度评估方法及系统
CN115063694B (zh) * 2022-08-17 2022-11-04 中国地质环境监测院(自然资源部地质灾害技术指导中心) 基于滑坡形态复杂度的众包标注任务难度评估方法及系统
CN115330346A (zh) * 2022-08-17 2022-11-11 中国地质环境监测院(自然资源部地质灾害技术指导中心) 基于能力评价的滑坡众包标注结果评估及任务分配方法
CN115330346B (zh) * 2022-08-17 2023-05-23 中国地质环境监测院(自然资源部地质灾害技术指导中心) 基于能力评价的滑坡众包标注结果评估及任务分配方法
CN116825212A (zh) * 2023-08-29 2023-09-29 山东大学 一种基于生物医学众包平台的数据收集标注方法及系统
CN116825212B (zh) * 2023-08-29 2023-11-28 山东大学 一种基于生物医学众包平台的数据收集标注方法及系统

Also Published As

Publication number Publication date
CN104573359B (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
CN104573359A (zh) 一种基于任务难度与标注者能力的众包标注数据整合方法
Lee CARBayes: an R package for Bayesian spatial modeling with conditional autoregressive priors
CN102662930B (zh) 一种语料标注方法及装置
CN103455576B (zh) 一种基于思维地图的网络学习资源推荐方法
CN109299380A (zh) 在线教育平台中基于多维特征的习题个性化推荐方法
CN104166731A (zh) 一种社交网络重叠社区发现系统及其方法
CN109977132B (zh) 一种基于无监督聚类模式的学生异常行为模式分析方法
Paulheim How much is a Triple?
CN111400366B (zh) 一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统
CN103605970A (zh) 一种基于机器学习的图纸建筑元素识别方法及系统
CN103440512A (zh) 一种基于张量局部保持投影的大脑认知状态的识别方法
CN108959958A (zh) 一种关联大数据的隐私保护方法及系统
Aliakbarpoor et al. Evaluation and ranking DMUs in the presence of both undesirable and ordinal factors in data envelopment analysis
CN116739541B (zh) 一种基于ai技术的智能人才匹配方法及系统
CN105787521A (zh) 一种面向标签不平衡性的半监督众包标注数据整合方法
CN102156641A (zh) 一种软件成本置信区间预测方法及系统
Ma A higher-order cognitive diagnosis model with ordinal attributes for dichotomous response data
CN108898273A (zh) 一种基于形态分析的用户侧负荷特征聚类评价方法
Chao Estimating project overheads rate in bidding: DSS approach using neural networks
CN113177366A (zh) 一种综合能源系统规划方法、装置和终端设备
CN103268329B (zh) 等离子显示屏制造过程数据挖掘系统
DE112014006799T5 (de) Verfahren zur Messung eines Benutzerverhalten-Konsistenzgrades auf Basis eines komplexen Korrespondenzsystems
CN104462215B (zh) 一种基于时间序列的科技文献被引用数目预测方法
CN111046786A (zh) 年龄估计神经网络的生成方法、装置以及电子设备
Scrivner et al. XD Metrics on Demand Value Analytics: Visualizing the Impact of Internal Information Technology Investments on External Funding, Publications, and Collaboration Networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170808

Termination date: 20191231