CN103324620A - 一种对标注结果进行纠偏的方法和装置 - Google Patents

一种对标注结果进行纠偏的方法和装置 Download PDF

Info

Publication number
CN103324620A
CN103324620A CN2012100746836A CN201210074683A CN103324620A CN 103324620 A CN103324620 A CN 103324620A CN 2012100746836 A CN2012100746836 A CN 2012100746836A CN 201210074683 A CN201210074683 A CN 201210074683A CN 103324620 A CN103324620 A CN 103324620A
Authority
CN
China
Prior art keywords
mark
annotation results
person
pxy
project
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100746836A
Other languages
English (en)
Other versions
CN103324620B (zh
Inventor
彭滔
金慈航
侴江彤
周敏
王晓君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210074683.6A priority Critical patent/CN103324620B/zh
Publication of CN103324620A publication Critical patent/CN103324620A/zh
Application granted granted Critical
Publication of CN103324620B publication Critical patent/CN103324620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明提供了一种对标注结果进行纠偏的方法和装置,用于包含多个标注项目的标注任务,采用一种完全自动化的方式对人工标注的结果进行纠偏,在纠偏过程中兼顾标注者的标注质量和打分偏好,采用迭代的方式使得纠偏后的标注结果逐渐趋近于准确值,从而即便众包标注引入非专业人员,也能够提高标注结果的可信度和准确度。

Description

一种对标注结果进行纠偏的方法和装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种标注结果进行纠偏的方法和装置。
【背景技术】
在搜索引擎及相关信息系统的开发中,常常需要进行大规模的人工标注,包括:搜索相关性标注,即标注搜索结果和查询词的相关性;图片相关性标注,即标注图片和给定的标签(tag)的相关性;资源价值标注,即标注网络资源对用户的价值;广告结果标注,即标注广告结果和关键词的相关性;作弊结果标注,即标注是否是作弊网页,等等。
由于搜索引擎所需的标注数据通常很大,如果都由专业人员进行标注,则人力成本较高,且专业人员的数量有限,因此,现有标注多采用众包标注的形式,即引入非专业人员进行标注,安排不同标注者对同一标注项目进行重复标注,然后对不同标注者的标注结果进行整合得到最终的标注结果。然而,由于非专业人员的引入,鉴于其经验和技能的不足,会引起最终的标注结果可信度和准确度较低,这就急需在对不同标注者的标注结果进行整合的过程中引入纠偏机制。
【发明内容】
本发明提供了一种对标注结果进行纠偏的方法和装置,以便于提高众包标注的标注结果的可信度和准确度。
具体技术方案如下:
一种对标注结果进行纠偏的方法,用于包含多个标注项目的标注任务,该方法包括:
S1、初始化PX[x]、PXY[k][x][y]以及迭代步数t,所述PX[x]为标注结果x在所有标注项目的标注结果中占的比例,所述PXY[k][x][y]为正确标注结果是x时标注者k将标注项目标注为y的概率;
S2、获取各标注者对标注项目i的标注结果,根据当前的PX[x]和PXY[k][x][y],确定标注项目i的正确标注结果是x的概率PB[i][x];
S3、利用概率PB[i][x]的计算结果确定标注项目i的标注结果V[i];
S4、利用标注结果为x的标注项目的数目更新PX[x],利用标注者k标注为y而所述步骤S3确定的标注结果为x的标注项目数目,以及标注者k标注的所有标注项目中所述步骤S3确定的标注结果为x的标注项目数目,更新PXY[k][x][y];
S5、将t值更新为加1后的值,判断更新后的t值是否达到预设的最大迭代步数,如果是,转至执行所述步骤S2;否则将当前V[i]值确定为标注项目i纠偏后的标注结果,并输出所述纠偏后的标注结果。
根据本发明一优选实施例,在所述步骤S1中,初始化PX[x]为
Figure BDA0000145136940000021
初始化PXY[k][x][y]在x=y时为1-a×(S-1),初始化PXY[k][x][y]在x≠y时为a,a取小于0.1的值;所述S为标注结果的取值数目。
根据本发明一优选实施例,在所述步骤S2中,按照公式
Figure BDA0000145136940000022
Figure BDA0000145136940000023
确定所述PB[i][x];
其中,Ui为对标注项目i进行了标注的标注者集合,
Figure BDA0000145136940000024
为标注者k对标注项目i的标注结果。
根据本发明一优选实施例,在所述步骤S3中,按照公式
Figure BDA0000145136940000025
确定所述V[i],所述round()为四舍五入的函数,所述S为标注结果的取值数目;或者,
确定所述V[i]为PB[i][x]中最大值对应的x。
根据本发明一优选实施例,在所述步骤S4中,按照更新PX[x],其中所述A为当前V[i]中标注结果为x的标注项目数目,所述M为所述标注任务的标注项目数目,所述S为标注结果的取值数目。
根据本发明一优选实施例,在所述步骤S4中,按照
Figure BDA0000145136940000031
更新PXY[k][x][y],其中,所述B为标注者k标注为y而所述步骤S3确定的标注结果为x的标注项目数目,所述C为标注者k标注的所有标注项目中所述步骤S3确定的标注结果为x的标注项目数目,所述S为标注结果的取值数目。
根据本发明一优选实施例,该方法还包括:利用标注项目纠偏后的标注结果对标注者的标注质量进行衡量,其中,标注者k在所述标注任务中的标注质量Q(k)为:
Q ( k ) = - Σ i ∈ Ik log ( PY [ s i k ] PXY [ k ] [ V [ i ] ] [ s i k ] - PX [ V [ i ] ] ) N Ik , 所述Ik为标注者k在所述标注任务中完成的标注项目的集合,NIk为Ik中的标注项目数目,
Figure BDA0000145136940000033
为标注者k对标注项目i的标注结果,
Figure BDA0000145136940000034
所述D为所述标注任务中标注者k给出标注结果为
Figure BDA0000145136940000035
的数目,所述E为所述标注任务中标注者k完成的标注项目数目。
一种对标注结果进行纠偏的装置,用于包含多个标注项目的标注任务,该装置包括:
初始化单元,用于初始化PX[x]、PXY[k][x][y]以及迭代步数t,将初始化的PX[x]、PXY[k][x][y]提供给概率确定单元,所述PX[x]为标注结果x在所有标注项目的标注结果中占的比例,所述PXY[k][x][y]为正确标注结果是x时标注者k将标注项目标注为y的概率;
概率确定单元,用于获取各标注者对标注项目i的标注结果,根据当前的PX[x]和PXY[k][x][y],确定标注项目i的正确标注结果是x的概率PB[i][x];
结果确定单元,用于利用所述概率PB[i][x]的计算结果确定标注项目i的标注结果V[i];
概率更新单元,用于利用标注结果为x的标注项目的数目更新PX[x],利用标注者k标注为y而所述概率确定单元确定的标注结果为x的标注项目数目,以及标注者k标注的所有标注项目中所述概率确定单元确定的标注结果为x的标注项目数目,更新PXY[k][x][y];
迭代判断单元,用于将t值更新为加1后的值,判断更新后的t值是否达到预设的最大迭代步数,如果是,将概率更新单元更新后的PX[x]和PXY[k][x][y]提供给所述概率确定单元以触发所述概率确定单元确定概率PB[i][x];否则,将当前V[i]值提供给结果输出单元;
结果输出单元,用于将所述迭代判断单元提供的当前V[i]值确定为标注项目i纠偏后的标注结果,并输出所述纠偏后的标注结果。
根据本发明一优选实施例,初始化单元初始化PX[x]为
Figure BDA0000145136940000041
初始化PXY[k][x][y]在x=y时为1-a×(S-1),初始化PXY[k][x][y]在x≠y时为a,a取小于0.1的值;所述S为标注结果的取值数目。
根据本发明一优选实施例,所述概率确定单元按照公式
Figure BDA0000145136940000043
确定所述PB[i][x];
其中,Ui为对标注项目i进行了标注的标注者集合,
Figure BDA0000145136940000044
为标注者k对标注项目i的标注结果。
根据本发明一优选实施例,所述结果确定单元按照公式确定所述V[i],所述round()为四舍五入的函数,所述S为标注结果的取值数目;或者,
确定所述V[i]为PB[i][x]中最大值对应的x。
根据本发明一优选实施例,所述概率更新单元按照更新PX[x],其中所述A为当前V[i]中标注结果为x的标注项目数目,所述M为所述标注任务的标注项目数目,所述S为标注结果的取值数目。
根据本发明一优选实施例,所述概率更新单元按照
Figure BDA0000145136940000051
更新PXY[k][x][y],其中,所述B为标注者k标注为y而所述结果确定单元确定的标注结果为x的标注项目数目,所述C为标注者k标注的所有标注项目中所述结果确定单元确定的标注结果为x的标注项目数目,所述S为标注结果的取值数目。
根据本发明一优选实施例,该装置还包括:质量衡量单元,用于利用标注项目纠偏后的标注结果对标注者的标注质量进行衡量,其中,标注者k在所述标注任务中的标注质量Q(k)为:
Q ( k ) = - Σ i ∈ Ik log ( PY [ s i k ] PXY [ k ] [ V [ i ] ] [ s i k ] - PX [ V [ i ] ] ) N Ik , 所述Ik为标注者k在所述标注任务中完成的标注项目的集合,NIk为Ik中的标注项目数目,为标注者k对标注项目i的标注结果,
Figure BDA0000145136940000054
所述D为所述标注任务中标注者k给出标注结果为的数目,所述E为所述标注任务中标注者k完成的标注项目数目。
由以上技术方案可以看出,本发明采用一种完全自动化的方式对人工标注的结果进行纠偏,在纠偏过程中兼顾标注者的标注质量和打分倾向,采用迭代的方式使得纠偏后的标注结果逐渐趋近于准确值,从而即便众包标注引入非专业人员,也能够提高标注结果的可信度和准确度。
【附图说明】
图1为本发明实施例一提供的方法流程图;
图2为本发明实施例二提供的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:预先将标注任务划分为包含一个以上标注项目的子任务。
对于一个标注任务,标注系统可以将其分割成若干个子任务,每个子任务包含若干标注项目,通常使得每个子任务中的标注项目数量较小,使得每个子任务都能够在合理的时间内完成。然后将每个子任务分配给多个标注者进行标注,每个标注者可负责多个子任务,但仅能够对同一个子任务的各标注项目进行一次标注。
标注者对标注项目的标注结果可以是具体的数值,例如“0、1、2”,可以是一些标签形式的表述,例如“差、一般、好”等,本发明并不限制标注结果的具体形式。
本发明适用于任何众包标注系统,即适用于任何安排多位标注者对同一标注项目进行标注的标注系统。当然,如果标注任务中的标注项目较少,也可以不执行本步骤。
步骤102:初始化PX[x]、PXY[k][x][y]以及迭代步数t,其中PX[x]描述标注结果x在所有标注项目的标注结果中占的比例,PXY[k][x][y]描述正确标注结果是x时标注者k将标注项目标注为y的概率。
在此构建维度为S的一维数组PX[x],其中,S为标注结果的取值数目,例如,如果标注系统采用的标注结果为“0、1、2、3”,则其取值数目为4,x为“0、1、2、3”中的任一种;如果采用的标注结果为“差、一般、好”,则其取值数目为3,x为“差、一般、好”中的任一种。
由于PX[x]描述标注结果x在所有标注项目的标注结果中占的比例,则在初始状况时,认为每种标注结果的比例相同,即初始化
Figure BDA0000145136940000061
另外,构建维度为N×S×S的三维数组PXY[k][x][y],N为标注任务的标注者数目。PXY[k][x][y]描述正确标注结果是x时标注者k将标注项目标注为y的概率,用来衡量用户打分的可信程度,在初始状态时,可以在x≠y时,选取a值,该a值为一个较小的概率值,通常取小于0.1的值,例如选取初始值为0.01;x=y时,选取初始值为1-a×(S-1),例如选取1-0.01×(S-1)。
本步骤为初始化步骤,用于为后续的迭代步骤做准备,通过后续的迭代过程使得PXY[k][x][y]逐步趋近于精确值。
步骤103:获取各标注者对标注项目i的标注结果,根据当前的PX[x]和PXY[k][x][y],确定标注项目i的正确标注结果是x的概率PB[i][x]。
在此构建维度为M×S的二维数组PB[i][x],其中M为标注任务中标注项目的数目。
在确定PB[i][x]时,可以采用如下公式计算:
PB [ i ] [ x ] = PX [ x ] × Π k ∈ Ui PXY [ k ] [ x ] [ s i k ] - - - ( 1 )
其中,Ui为对标注项目i进行了标注的标注者集合,
Figure BDA0000145136940000072
为标注者k对标注项目i的标注结果。
然后再对公式(1)求得的各PB[i][x]进行归一化处理,这样PB[i][x]描述的就是标注项目i的正确标注结果是x的概率。
步骤104:利用PB[i][x]的计算结果确定标注项目i的标注结果V[i]。
本步骤就是根据概率分布PB[i][x]确定标注项目i的标注结果,对于不同标注结果类型,V[i]可以采用不同的计算方法:
对于数值型标注结果,例如“0、1、2”,可以采用平均值的方式,即采用公式(2)的方式: V [ i ] = round ( Σ x = 1 S PB [ i ] [ x ] × x ) - - - ( 2 )
其中round()为四舍五入的函数,即V[i]为
Figure BDA0000145136940000074
的值进行四舍五入后得到的值。
对于标签型标注结果,例如“差、一般、好”,可以采用众数的方式,即采用公式(3)的方式:V[i]=argmaxxPB[i][x](3)
公式(3)的含义是,取得PB[i][x]中最大值对应的x。
步骤105:利用标注结果为x的标注项目的数目更新PX[x],利用标注者k标注为y而步骤S4确定的标注结果为x的标注项目数目以及标注者k标注的所有标注项目中在步骤S4确定的标注结果为x的数目,更新PXY[k][x][y]。
在执行至本步骤时,各标注值的数目发生了变化,此时,根据当前的状况对PX[x]以及PXY[k][x][y]进行更新,具体地,采用如下公式进行更新:
PX [ x ] = A + 1 M + S - - - ( 4 )
其中,A为当前V[i]中标注结果为x的标注项目的数目。
PXY [ k ] [ x ] [ y ] = B + 1 C + S - - - ( 5 )
其中,B为标注者k标注为y而当前V[i]中标准结果为x的标注项目数目,C为标注者k标注的所有标注项目中V[i]标注结果为x的数目。
步骤106:将t值更新为加1后的值,判断更新后的t值是否达到最大迭代步数,如果是,转至步骤103;否则,执行步骤107。
在本发明实施例中,可以预设最大迭代步数,在迭代的次数达到最大迭代步数时,结束迭代获取纠偏后的标注结果。该最大迭代步数可以采用实验值或者经验值。
步骤107:将当前V[i]值确定为标注项目i纠偏后的标注结果。
在获取到各标注项目纠偏后的标注结果后,可以对标注者的标注质量进行衡量,并根据衡量结果进行对标注者的筛选,从而实现众包标注者的监控。
在对标注者的标注质量进行衡量时,可以采用如下公式确定标注者k在某子任务(如果没有划分子任务则为标注任务)中的标注质量Q(k):
Q ( k ) = - Σ i ∈ Ik log ( PY [ s i k ] PXY [ k ] [ V [ i ] ] [ s i k ] - PX [ V [ i ] ] ) N Ik - - - ( 6 )
其中,Ik为标注者k在该子任务中完成的标注项目的集合,NIk为Ik中的标注项目数目,为标注者k对标注项目i的标注结果,
Figure BDA0000145136940000093
按照如下公式计算:
PY = [ s i k ] = D + 1 E + S - - - ( 7 )
其中D为该子任务中标注者k给出标注结果为
Figure BDA0000145136940000095
的数目,E为该子任务中标注者k完成的标注项目的数目。
在计算出各标注者的标注质量后,可以对标注者进行筛选,选取标注质量高于设定质量阈值的标注者,可以利用这部分标注者重复执行图1中所示流程,从而确定出更加精确的标注结果。也可以利用选择出的标注者参与后续标注任务。
在此举一个实例,假设一个标注任务包含两个标注项目(在此就不进一步划分子任务),三位标注者:标注者0、标注者1和标注者2。三位标注者对两个标注项目都进行了标注,标注结果为三档打分,即0分、1分、2分。具体标注结果为:
{标注者0,标注项目0}标注为1分;{标注者0,标注项目1}标注为2分;
{标注者1,标注项目0}标注为1分;{标注者1,标注项目1}标注为1分;
{标注者2,标注项目0}标注为2分;{标注者2,标注项目1}标注为2分;
下面对应实施例一中的步骤进行描述:
在步骤102中,S=3,标注0分、1分、2分分别对应编号为0、1、2,初始化PX[0]=1/3=0.333,PX[1]=1/3=0.333,PX[2]=1/3=0.333。初始化t为0。
针对标注者0,PXY[0][0][0]=1-0.01×(3-1)=0.98,PXY[0][0][1]=0.01,PXY[0][0][2]=0.01,PXY[0][1][0]=0.01,PXY[0][1][1]=1-0.01×(3-1)=0.98,PXY[0][1][2]=0.01,PXY[0][2][0]=0.01,PXY[0][2][1]=0.01,PXY[0][2][2]=1-0.01×(3-1)=0.98。对其他标注者,赋值方式完全相同。
在步骤103中,针对标注项目0计算:
PB[0][0]=PX[0]×PXY[0][0][1]×PXY[1][0][1]×PXY[2][0][2]=0.000000333
PB[0][1]=PX[1]×PXY[0][1][1]×PXY[1][1][1]×PXY[2][1][2]=0.003198
PB[0][2]=PX[2]×PXY[0][2][1]×PXY[1][2][1]×PXY[2][2][2]=0.0000326
进行归一化处理后,PB[0][0]=0.000103,PB[0][1]=0.9898,PB[0][2]=0.0101,这分别是标注项目0应该标注为0分、1分和2分的概率。
对标注项目1也可以用相同的方法计算出:PB[0][0]=0.000103,PB[0][1]=0.0101,PB[0][2]=0.9898。
然后在步骤104中根据概率分布计算两个标注项目的标注结果:
V[0]=round(PB[0][0]×PB[0][1]×PB[0][2])=round(1.01)=1
V[1]=round(PB[1][0]×PB[1][1]×PB[1][2])=round(1.9897)=2
在步骤105中,更新PX[x]数组:
PX [ 0 ] = 0 + 1 2 + 3 = 0.2
PX [ 1 ] = 1 + 1 2 + 3 = 0.4
PX [ 2 ] = 1 + 1 2 + 3 = 0.4
对标注者0,更新PXY[k][x][y]数组:
PXY [ 0 ] [ 0 ] [ 0 ] = 0 + 1 0 + 3 = 0.3333 , PXY [ 0 ] [ 0 ] [ 1 ] = 0 + 1 0 + 3 = 0.3333 , PXY [ 0 ] [ 0 ] [ 2 ] = 0 + 1 0 + 3 = 0.3333 , PXY [ 0 ] [ 1 ] [ 0 ] = 0 + 1 1 + 3 = 0.25 , PXY [ 0 ] [ 1 ] [ 1 ] = 1 + 1 1 + 3 = 0.5 , PXY [ 0 ] [ 1 ] [ 2 ] = 0 + 1 1 + 3 = 0.25 , PXY [ 0 ] [ 2 ] [ 0 ] = 0 + 1 1 + 3 = 0.25 , PXY [ 0 ] [ 2 ] [ 1 ] = 0 + 1 1 + 3 = 0.25 , PXY [ 0 ] [ 2 ] [ 2 ] = 1 + 1 1 + 3 = 0.5 .
对标注者1也做相同的计算。
在步骤106中,将t值加1,假设本实例中预设最大迭代步数为5,即需重复执行步骤103至105的次数为5次。
最终得到迭代后的结果V[0]=1、V[1]=2,即整合后,标注项目0的最终标注为1分,标注项目1的最终标注为2分。
利用公式(6),可以很容易计算出标注者0的Q=0.9163,标注者1和2的Q都为0.2231。说明标注者0的可信度要高于1和2。
以上是对本发明所提供的方法进行的描述,下面结合实施例二对本发明提供的装置进行描述。
实施例二、
图2为本发明实施例二提供的装置结构示意图,该装置用于包含多个标注项目的标注任务,对于一个标注任务,如果包含的标注项目过多,可以将其分割成若干个子任务,每个子任务包含若干标注项目,同时使得每个子任务中的标注项目数量较小,使得每个子任务都能够在合理的时间内完成。然后将每个子任务分配给多个标注者进行标注,每个标注者可负责多个子任务,但仅能够对同一个子任务的各标注项目进行一次标注。
如图2所示,该装置可以包括:初始化单元201、概率确定单元202、结果确定单元203、概率更新单元204、迭代判断单元205以及结果输出单元206。
初始化单元201初始化PX[x]、PXY[k][x][y]以及迭代步数t,将初始化的PX[x]、PXY[k][x][y]提供给概率确定单元202,PX[x]为标注结果x在所有标注项目的标注结果中占的比例,PXY[k][x][y]为正确标注结果是x时标注者k将标注项目标注为y的概率。
初始状况时,可以认为每种标注结果的比例相同,初始化单元201可以初始化PX[x]为
Figure BDA0000145136940000121
初始化PXY[k][x][y]在x=y时为1-a×(S-1),初始化PXY[k][x][y]在x≠y时为a,a可以取小于0.1的值,例如取0.01;S为标注结果的取值数目。
概率确定单元202获取各标注者对标注项目i的标注结果,根据当前的PX[x]和PXY[k][x][y],确定标注项目i的正确标注结果是x的概率PB[i][x]。
在此概率确定单元202可以提供一个获取各标注者对标注项目i的标注结果的获取接口,并结合当前的PX[x]和PXY[k][x][y]确定PB[i][x]。
具体地,概率确定单元可以按照公式 PB [ i ] [ k ] = PX [ x ] × Π k ∈ Ui PXY [ k ] [ x ] [ s i k ] 确定PB[i][x];其中,Ui为对标注项目i进行了标注的标注者集合,为标注者k对标注项目i的标注结果。
结果确定单元203利用概率PB[i][x]的计算结果确定标注项目i的标注结果V[i]。
对于不同标注结果类型,V[i]可以采用不同的计算方法:
对于数值型标注结果,例如“0、1、2”,可以采用平均值的方式,即采用公式 V [ i ] = round ( Σ x = 1 S PB [ i ] [ x ] × x ) , 其中round()为四舍五入的函数,即V[i]为
Figure BDA0000145136940000125
的值进行四舍五入后得到的值。
对于标签型标注结果,例如“差、一般、好”,可以采用众数的方式,即采用公式V[i]=argmaxxPB[i][x],取得PB[i][x]中最大值对应的x。
概率更新单元204利用标注结果为x的标注项目的数目更新PX[x],利用标注者k标注为y而结果确定单元203确定的标注结果为x的标注项目数目,以及标注者k标注的所有标注项目中结果确定单元203确定的标注结果为x的标注项目数目,更新PXY[k][x][y]。
具体地,可以按照
Figure BDA0000145136940000126
更新PX[x],其中A为当前V[i]中标注结果为x的标注项目数目,M为标注任务的标注项目数目,按照
Figure BDA0000145136940000131
更新PXY[k][x][y],其中,B为标注者k标注为y而结果确定单元203确定的标注结果为x的标注项目数目,C为标注者k标注的所有标注项目中结果确定单元203确定的标注结果为x的标注项目数目。
迭代判断单元205将t值更新为加1后的值,判断更新后的t值是否达到预设的最大迭代步数,如果是,将概率更新单元204更新后的PX[x]和PXY[k][x][y]提供给概率确定单元202以触发概率确定单元202确定概率PB[i][x];否则,将当前V[i]值提供给结果输出单元206。
也就是说,在迭代次数没有达到最大迭代步数时,迭代判断单元205会触发概率确定单元202重新利用更新后的PX[x]和PXY[k][x][y]确定概率PB[i][x],从而进一步确定V[i]值,直至达到最大迭代步数。其中,最大迭代步数可以根据实验值或者经验值预先进行设定。
结果输出单元206将迭代判断单元205提供的当前V[i]值确定为标注项目i纠偏后的标注结果,并输出纠偏后的标注结果。
在获取到各标注项目纠偏后的标注结果后,可以对标注者的标注质量进行衡量,此时,该装置还包括:质量衡量单元207,用于利用标注项目纠偏后的标注结果对标注者的标注质量进行衡量,其中,标注者k在标注任务中的标注质量Q(k)为:
Q ( k ) = - Σ i ∈ Ik log ( PY [ s i k ] PXY [ k ] [ V [ i ] ] [ s i k ] - PX [ V [ i ] ] ) N Ik , Ik为标注者k在标注任务中完成的标注项目的集合,NIk为Ik中的标注项目数目,
Figure BDA0000145136940000133
为标注者k对标注项目i的标注结果,
Figure BDA0000145136940000134
D为标注任务中标注者k给出标注结果为
Figure BDA0000145136940000135
的数目,E为标注任务中标注者k完成的标注项目数目。
在计算出各标注者的标注质量后,可以用于对标注者进行筛选,选取标注质量高于设定质量阈值的标注者,可以利用这部分标注者的标注结果输入图2所示装置,从而确定出更加精确的标注结果。也可以利用选择出的标注者参与后续标注任务。
由以上描述可以看出,本发明提供的方法和装置可以具备以下优点:
1)本发明在纠偏过程中兼顾标注者的标注质量和打分偏好,采用迭代的方式使得纠偏后的标注结果逐渐趋近于准确值,从而即便众包标注引入非专业人员,也能够提高标注结果的可信度和准确度。
2)能够对众包标注系统中各标注者的标注结果直接进行处理,无需人工安插测试桩,实现了整个纠偏和监控过程的完全自动化。
3)本发明提供的纠偏方式可适用于各种标注应用,包括但不限于:搜索相关性标注,即标注搜索结果和查询词的相关性;图片相关性标注,即标注图片和给定的tag的相关性;资源价值标注,即标注网络资源对用户的价值;广告结果标注,即标注广告结果和关键词的相关性;作弊结果标注,即标注是否是作弊网页,等等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种对标注结果进行纠偏的方法,用于包含多个标注项目的标注任务,其特征在于,该方法包括:
S1、初始化PX[x]、PXY[k][x][y]以及迭代步数t,所述PX[x]为标注结果x在所有标注项目的标注结果中占的比例,所述PXY[k][x][y]为正确标注结果是x时标注者k将标注项目标注为y的概率;
S2、获取各标注者对标注项目i的标注结果,根据当前的PX[x]和PXY[k][x][y],确定标注项目i的正确标注结果是x的概率PB[i][x];
S3、利用概率PB[i][x]的计算结果确定标注项目i的标注结果V[i];
S4、利用标注结果为x的标注项目的数目更新PX[x],利用标注者k标注为y而所述步骤S3确定的标注结果为x的标注项目数目,以及标注者k标注的所有标注项目中所述步骤S3确定的标注结果为x的标注项目数目,更新PXY[k][x][y];
S5、将t值更新为加1后的值,判断更新后的t值是否达到预设的最大迭代步数,如果是,转至执行所述步骤S2;否则将当前V[i]值确定为标注项目i纠偏后的标注结果,并输出所述纠偏后的标注结果。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,初始化
Figure FDA0000145136930000011
初始化PXY[k][x][y]在x=y时为1-a×(S-1),初始化PXY[k][x][y]在x≠y时为a,a取小于0.1的值;所述S为标注结果的取值数目。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S2中,按照公式 PB [ i ] [ k ] = PX [ x ] × Π k ∈ Ui PXY [ k ] [ x ] [ s i k ] 确定所述PB[i][x];
其中,Ui为对标注项目i进行了标注的标注者集合,为标注者k对标注项目i的标注结果。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,按照公式 V [ i ] = round ( Σ x = 1 S PB [ i ] [ x ] × x ) 确定所述V[i],所述round()为四舍五入的函数,所述S为标注结果的取值数目;或者,
确定所述V[i]为PB[i][x]中最大值对应的x。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S4中,按照更新PX[x],其中所述A为当前V[i]中标注结果为x的标注项目数目,所述M为所述标注任务的标注项目数目,所述S为标注结果的取值数目。
6.根据权利要求1所述的方法,其特征在于,在所述步骤S4中,按照
Figure FDA0000145136930000023
更新PXY[k][x][y],其中,所述B为标注者k标注为y而所述步骤S3确定的标注结果为x的标注项目数目,所述C为标注者k标注的所有标注项目中所述步骤S3确定的标注结果为x的标注项目数目,所述S为标注结果的取值数目。
7.根据权利要求1至6任一权项所述的方法,其特征在于,该方法还包括:利用标注项目纠偏后的标注结果对标注者的标注质量进行衡量,其中,标注者k在所述标注任务中的标注质量Q(k)为:
Q ( k ) = - Σ i ∈ Ik log ( PY [ s i k ] PXY [ k ] [ V [ i ] ] [ s i k ] - PX [ V [ i ] ] ) N Ik , 所述Ik为标注者k在所述标注任务中完成的标注项目的集合,NIk为Ik中的标注项目数目,
Figure FDA0000145136930000025
为标注者k对标注项目i的标注结果,
Figure FDA0000145136930000026
所述D为所述标注任务中标注者k给出标注结果为
Figure FDA0000145136930000027
的数目,所述E为所述标注任务中标注者k完成的标注项目数目。
8.一种对标注结果进行纠偏的装置,用于包含多个标注项目的标注任务,其特征在于,该装置包括:
初始化单元,用于初始化PX[x]、PXY[k][x][y]以及迭代步数t,将初始化的PX[x]、PXY[k][x][y]提供给概率确定单元,所述PX[x]为标注结果x在所有标注项目的标注结果中占的比例,所述PXY[k][x][y]为正确标注结果是x时标注者k将标注项目标注为y的概率;
概率确定单元,用于获取各标注者对标注项目i的标注结果,根据当前的PX[x]和PXY[k][x][y],确定标注项目i的正确标注结果是x的概率PB[i][x];
结果确定单元,用于利用所述概率PB[i][x]的计算结果确定标注项目i的标注结果V[i];
概率更新单元,用于利用标注结果为x的标注项目的数目更新PX[x],利用标注者k标注为y而所述结果确定单元确定的标注结果为x的标注项目数目,以及标注者k标注的所有标注项目中所述结果确定单元确定的标注结果为x的标注项目数目,更新PXY[k][x][y];
迭代判断单元,用于将t值更新为加1后的值,判断更新后的t值是否达到预设的最大迭代步数,如果是,将概率更新单元更新后的PX[x]和PXY[k][x][y]提供给所述概率确定单元以触发所述概率确定单元确定概率PB[i][x];否则,将当前V[i]值提供给结果输出单元;
结果输出单元,用于将所述迭代判断单元提供的当前V[i]值确定为标注项目i纠偏后的标注结果,并输出所述纠偏后的标注结果。
9.根据权利要求8所述的装置,其特征在于,初始化单元初始化PX[x]为
Figure FDA0000145136930000031
初始化PXY[k][x][y]在x=y时为1-a×(S-1),初始化PXY[k][x][y]在x≠y时为a,a取小于0.1的值;所述S为标注结果的取值数目。
10.根据权利要求8所述的装置,其特征在于,所述概率确定单元按照公式 PB [ i ] [ k ] = PX [ x ] × Π k ∈ Ui PXY [ k ] [ x ] [ s i k ] 确定所述PB[i][x];
其中,Ui为对标注项目i进行了标注的标注者集合,
Figure FDA0000145136930000033
为标注者k对标注项目i的标注结果。
11.根据权利要求8所述的装置,其特征在于,所述结果确定单元按照公式 V [ i ] = round ( Σ x = 1 S PB [ i ] [ x ] × x ) 确定所述V[i],所述round()为四舍五入的函数,所述S为标注结果的取值数目;或者,
确定所述V[i]为PB[i][x]中最大值对应的x。
12.根据权利要求8所述的装置,其特征在于,所述概率更新单元按照
Figure FDA0000145136930000042
更新PX[x],其中所述A为当前V[i]中标注结果为x的标注项目数目,所述M为所述标注任务的标注项目数目,所述S为标注结果的取值数目。
13.根据权利要求8所述的装置,其特征在于,所述概率更新单元按照
Figure FDA0000145136930000043
更新PXY[k][x][y],其中,所述B为标注者k标注为y而所述结果确定单元确定的标注结果为x的标注项目数目,所述C为标注者k标注的所有标注项目中所述结果确定单元确定的标注结果为x的标注项目数目,所述S为标注结果的取值数目。
14.根据权利要求8至13任一权项所述的装置,其特征在于,该装置还包括:质量衡量单元,用于利用标注项目纠偏后的标注结果对标注者的标注质量进行衡量,其中,标注者k在所述标注任务中的标注质量Q(k)为:
Q ( k ) = - Σ i ∈ Ik log ( PY [ s i k ] PXY [ k ] [ V [ i ] ] [ s i k ] - PX [ V [ i ] ] ) N Ik , 所述Ik为标注者k在所述标注任务中完成的标注项目的集合,NIk为Ik中的标注项目数目,
Figure FDA0000145136930000045
为标注者k对标注项目i的标注结果,
Figure FDA0000145136930000046
所述D为所述标注任务中标注者k给出标注结果为
Figure FDA0000145136930000047
的数目,所述E为所述标注任务中标注者k完成的标注项目数目。
CN201210074683.6A 2012-03-20 2012-03-20 一种对标注结果进行纠偏的方法和装置 Active CN103324620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210074683.6A CN103324620B (zh) 2012-03-20 2012-03-20 一种对标注结果进行纠偏的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210074683.6A CN103324620B (zh) 2012-03-20 2012-03-20 一种对标注结果进行纠偏的方法和装置

Publications (2)

Publication Number Publication Date
CN103324620A true CN103324620A (zh) 2013-09-25
CN103324620B CN103324620B (zh) 2016-04-27

Family

ID=49193368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210074683.6A Active CN103324620B (zh) 2012-03-20 2012-03-20 一种对标注结果进行纠偏的方法和装置

Country Status (1)

Country Link
CN (1) CN103324620B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133769A (zh) * 2014-08-02 2014-11-05 哈尔滨理工大学 基于心理学行为分析的众包欺诈检测方法
CN104573359A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
CN105323732A (zh) * 2014-06-05 2016-02-10 中国移动通信集团公司 一种非正常短消息识别方法及装置
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN105787521A (zh) * 2016-03-25 2016-07-20 浙江大学 一种面向标签不平衡性的半监督众包标注数据整合方法
CN106156470A (zh) * 2015-04-16 2016-11-23 腾讯科技(深圳)有限公司 一种时间序列异常检测标注方法及系统
CN106228294A (zh) * 2016-07-18 2016-12-14 合肥赑歌数据科技有限公司 一种搜索引擎评估系统以及管理
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
WO2017143773A1 (zh) * 2016-02-25 2017-08-31 华为技术有限公司 一种众包学习方法及装置
CN107423819A (zh) * 2016-05-24 2017-12-01 阿里巴巴集团控股有限公司 一种知识库构建方法及装置
CN107729378A (zh) * 2017-07-13 2018-02-23 华中科技大学 一种数据标注方法
CN104794573B (zh) * 2015-04-17 2018-05-29 上海交通大学 产品评估任务中的结果估计方法及众包众测平台
CN108960297A (zh) * 2018-06-15 2018-12-07 北京金山云网络技术有限公司 图片的标注方法、标注装置、设备及存储介质
CN108984490A (zh) * 2018-07-17 2018-12-11 北京猎户星空科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109102198A (zh) * 2018-08-23 2018-12-28 阿里巴巴集团控股有限公司 图像众包标注方法和装置
CN109684947A (zh) * 2018-12-11 2019-04-26 广州景骐科技有限公司 标注质量监控方法、装置、计算机设备和存储介质
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697537A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 数据审核的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005106A1 (en) * 2006-06-02 2008-01-03 Scott Schumacher System and method for automatic weight generation for probabilistic matching
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及系统
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005106A1 (en) * 2006-06-02 2008-01-03 Scott Schumacher System and method for automatic weight generation for probabilistic matching
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及系统
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323732A (zh) * 2014-06-05 2016-02-10 中国移动通信集团公司 一种非正常短消息识别方法及装置
CN104133769B (zh) * 2014-08-02 2017-01-25 哈尔滨理工大学 基于心理学行为分析的众包欺诈检测方法
CN104133769A (zh) * 2014-08-02 2014-11-05 哈尔滨理工大学 基于心理学行为分析的众包欺诈检测方法
CN104573359A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
CN104573359B (zh) * 2014-12-31 2017-08-08 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
CN106156470A (zh) * 2015-04-16 2016-11-23 腾讯科技(深圳)有限公司 一种时间序列异常检测标注方法及系统
CN106156470B (zh) * 2015-04-16 2020-10-23 腾讯科技(深圳)有限公司 一种时间序列异常检测标注方法及系统
CN104794573B (zh) * 2015-04-17 2018-05-29 上海交通大学 产品评估任务中的结果估计方法及众包众测平台
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN105608318B (zh) * 2015-12-18 2018-06-15 清华大学 众包标注整合方法
WO2017143773A1 (zh) * 2016-02-25 2017-08-31 华为技术有限公司 一种众包学习方法及装置
CN107122786A (zh) * 2016-02-25 2017-09-01 华为技术有限公司 一种众包学习方法及装置
CN105787521B (zh) * 2016-03-25 2019-01-15 浙江大学 一种面向标签不平衡性的半监督众包标注数据整合方法
CN105787521A (zh) * 2016-03-25 2016-07-20 浙江大学 一种面向标签不平衡性的半监督众包标注数据整合方法
CN107423819A (zh) * 2016-05-24 2017-12-01 阿里巴巴集团控股有限公司 一种知识库构建方法及装置
WO2018000269A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN106228294A (zh) * 2016-07-18 2016-12-14 合肥赑歌数据科技有限公司 一种搜索引擎评估系统以及管理
CN107729378A (zh) * 2017-07-13 2018-02-23 华中科技大学 一种数据标注方法
CN108960297A (zh) * 2018-06-15 2018-12-07 北京金山云网络技术有限公司 图片的标注方法、标注装置、设备及存储介质
CN108960297B (zh) * 2018-06-15 2021-07-30 北京金山云网络技术有限公司 图片的标注方法、标注装置、设备及存储介质
CN108984490A (zh) * 2018-07-17 2018-12-11 北京猎户星空科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109102198A (zh) * 2018-08-23 2018-12-28 阿里巴巴集团控股有限公司 图像众包标注方法和装置
CN109102198B (zh) * 2018-08-23 2021-08-03 创新先进技术有限公司 图像众包标注方法和装置
CN109684947A (zh) * 2018-12-11 2019-04-26 广州景骐科技有限公司 标注质量监控方法、装置、计算机设备和存储介质
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN103324620B (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
CN103324620B (zh) 一种对标注结果进行纠偏的方法和装置
CN110196814B (zh) 一种软件质量评价方法
CN104573359A (zh) 一种基于任务难度与标注者能力的众包标注数据整合方法
CN108959059A (zh) 一种测试方法以及测试平台
CN104281523A (zh) 一种需求可测性分析方法及系统
CN103413470B (zh) C语言编程教学考试综合系统及方法
CN111415027A (zh) 构建件量预测模型的方法和装置
CN106293800A (zh) 软件推荐方法和装置
CN111773728A (zh) 数据表测试方法、装置、设备及存储介质
US8549473B2 (en) Configuration management system for software product line development environment
CN108345979B (zh) 一种业务测试方法及装置
CN111639034A (zh) 测试方法、装置、设备及计算机存储介质
Ilkhani et al. Extraction test cases by using data mining; reducing the cost of testing
CN113342692B (zh) 测试用例自动生成方法、装置、电子设备及存储介质
CN110245081A (zh) 生成最小测试范围的方法及装置
CN112950038A (zh) 一种基于学情数据的个性化作业布置方法
Kralik et al. Comparison of MCDM methods with users' evaluation
Bukhari et al. A conceptual framework for metrics selection: SMeS
JP2020004326A (ja) 人材育成支援システム及びプログラム
CN105373547A (zh) 一种知识点重要度计算方法及装置
CN109885504B (zh) 推荐系统的测试方法、装置、介质及电子设备
US20090319980A1 (en) System and method for calculating software certification risks
Astutik et al. Integrated Information System Teaching Plan in College Using FAST Method and Twitter Bootstrap
CN115329148B (zh) 一种基于多重大数据处理的数据筛选整合方法及系统
CN112015991B (zh) 学生学习提醒方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant