CN107357763A - 一种基于自步学习的众包分类数据质量控制方法 - Google Patents

一种基于自步学习的众包分类数据质量控制方法 Download PDF

Info

Publication number
CN107357763A
CN107357763A CN201710433595.3A CN201710433595A CN107357763A CN 107357763 A CN107357763 A CN 107357763A CN 201710433595 A CN201710433595 A CN 201710433595A CN 107357763 A CN107357763 A CN 107357763A
Authority
CN
China
Prior art keywords
mrow
msub
worker
beta
alpha
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710433595.3A
Other languages
English (en)
Other versions
CN107357763B (zh
Inventor
张宪超
史珩
梁文新
刘馨月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710433595.3A priority Critical patent/CN107357763B/zh
Publication of CN107357763A publication Critical patent/CN107357763A/zh
Application granted granted Critical
Publication of CN107357763B publication Critical patent/CN107357763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063112Skill-based matching of a person or a group to a task
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management

Abstract

本发明公开了一种基于自步学习的众包分类数据质量控制方法,属于计算机科学数据挖掘技术领域。用于多分类众包标注任务的真实分类发现,以及恶意工作者识别。首先,方法根据初始数据集性质计算样本可信度,然后选择样本,然后计算真实标签以及工作者能力,接着根据更新的能力和真实标签重新选择样本然后,在完全选择到全部的样本点之后,进一步优化,最终同时获取标注真实答案以及工作者的能力与恶意与消极工作者识别结果。实验证明,本发现的方法相比传统方法能取得更好的结果。

Description

一种基于自步学习的众包分类数据质量控制方法
技术领域
本发明属于计算机科学数据挖掘技术领域,涉及一种基于自步学习的众包分类数据质量控制方法。
背景技术
众包(又称人计算、群众智慧)是指公司企业通过公开的方式将任务分发外包给不确定的(一般是大量的)人群。人们相信“多数人的智慧”远远要比个人的判断更为准确。大量的众包平台将任务分发给注册工作者,然后根据标注的数据付相应的工资。众包得到的数据会应用在大量的数据挖掘、机器学习以及深度学习的任务中,因此众包数据得到的数据质量严重影响了之后的学习任务的结果好坏。在众包分发系统中,对于众包数据进行质量评估与控制的算法起着关键的作用。最直观的众包数据质量控制算法就是多数人投票,即被选中最多的答案标记为正确答案,但这类方法没有考虑到不同实体以及不同工作者之间的差异,之后针对不同工作者标注对象能力的建模方法吸引了大量研究中的注意。本文注意到了这些方法在应用解决实际问题时,假设不同的数据点拥有相同的优先级,这导致该类算法以等概率的方式选择学习工作者的可信度以及实体的标注难度,在标注数据稀疏的情况下,很容易由于少数质量低的标注样本点而影响全局的数据学习。
众包任务的流程大致如下。首先由提交任务的人即发起者在众包平台上提交众包任务,然后参与完成任务的人即工作者接受任务并且给出答案。众包平台收集数据,提供整合后的数据集以及分析结果。发起者获取工作者提供的数据以及工作质量,以及接受程度,支付相应的报酬。一个任务的产出可能是一个人单独的贡献也可能是多个人产出合并的结果,而发起者应该选择其可接受的产出的质量。由于众包任务的公开性,可能有一些恶意工作者,故意提供错误的信息或者随机提供信息,或者能力不足的工作者提供无用的信息,所以工作者的工作质量评估及众包质量控制是一个有着重要意义的问题。
本发明提出了基于自步学习的众包数据分类模型,模型中引入了基于先验以及算法学习情况的样本选择策略,从而引导模型由易到难的选择性学习样本,最终学习完整的数据。本发明同时从数据本身先验知识以及学习过程中模型情况两个方面定义了质量控制算法中“简单”的概念。从概率图生成模型的角度解释了众包分类数据中自步学习引入的意义以及参数选取的方法。
在进行本发明提出的众包质量控制方法中,有4个问题需进一步说明。第一,众包分类标注数据获取方法。第二,众包分类数据中“简单”数据的定义,根据具体简单的定义算法才能动态的选择样本,自步学习;第三,模型参数选取意义,面临新的数据输入如何选择可用的新的参数以保证效果;第四,模型整体迭代方法,整体算法流程,模型参数迭代方法。
发明内容
本发明要解决的技术问题是众包分类数据的质量控制,提出基于自步学习的众包质量控制方法。通过定义众包分类数据中“简单”的定义,将自步学习引入众包分类数据的质量控制中从而提高了算法对真实标签识别的准确率。同时,对于众包任务中消极工作者以及恶意工作者的识别率也有相应的提高。
本发明的技术方案:
一种基于自步学习的众包分类数据质量控制方法,步骤如下:
(1)数据采集阶段:首先,通过设计分类标注任务题目,随机分发给工作者,工作者可以随意选择要做的题目,给出答案。
(2)众包真实分类标签发现阶段:
首先将收到的众包分类数据根据计算工作者标注数据的权重。
1)根据工作者标注的数据的性质计算样本的权重。
2)根据模型学习拟合的情况计算样本的权重。
3)选择权重高的模型用来计算真实标签以及工作者能力等参数。
4)重新计算样本权重并拟合。
本发明的有益效果在于,提出了一种基于自步学习样本点选择过程的众包标注数据的真实标签估计方法,通过这种新型方法可以更准确的估计被标注对象的真实标签,同时还能给出工作者的工作能力,以便于之后的任务分发控制,减少众包任务的支出,获得更高的准确性。
附图说明
图1是本发明方法的总体流程图。
图2是本发明方法的变量含义。
图3是概率图模型工作原理图。
图4(a)~(d)是Twitter-1k、AdultContent、SRJ和Sentiment条件下,本发明方法对真实标注数据集的实验结果。
图5(a)和(b)是SRG和twitter-1k条件下,本发明方法对真实标注数据集的参数稳定性实验结果。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
实施例
自步学习的众包分类数据质量控制方法总体分为两部分,第一部分是数据采集阶段,这部分允许标注工作者任意的选择题目进行标注。对于工作者不想标注或者不确定的标注对象,工作者可以选择跳过。也不限制工作者标注数目的限额,因此得到的标注数据可能很不平衡和稀疏。第二部分是真实标签的发现部分,这部分通过选择标签以及估计隐含真实标签迭代执行,获取更加准确的真实标签以及工作者的真实能力。
(1)数据采集阶段
数据采集阶段,设计了如图一用户交互的方法,通过这种方法标注时,用户可以跳过题目,并且不对用户回答最少题目做限制,这样用户可以随时回答,随时停止。
(2)众包分类数据真实发现阶段。
众包数据有工作者、标注对象以及这个三元组构成。定义oj为第j被标注对象,wi为第i个工作者。定义工作者总数为W,定义标注对象总数为N,K为真实分类的总数;αi为第i个工作者的能力,其取值范围为(-∞,+∞),ti为该工作者标注的样本个数;βj为第j个待标注对象的难度,其取值范围为(0,+∞),dj为该对象被标注的次数,zj为第j个待标注对象的真实分类,lij表示第i个工作者标注第j个待标注对象的分类。这样一条众包分类数据可以看做(wi,oj,lij)这样一个三元组。第i个工作者将第j个待标注对象标注为lij的概率为p(lij|zjij)
当lij=zj时,即该工作者标注正确时,公式(1)可以简化为公式(2)。
其中αi取值越大代表答对题目的可能性越大,αi<0标明工作者更倾向于给出错误的。相似的,βj取值越小难度越高,而1/βj→0意味着题目特别简单,不需要任何知识都能答对。
整个算法分为三大部分,流程图如图1所示,计算流程分为四个步骤。下面分别详细介绍这四个步骤:
①计算样本权重,选择样本。
样本可信权重由两部分确定,即样本的“简单”可由两部分定义。如果一个样本,对于其标注对象oj以及标注工作者wi,都有充分的数据进行学习,则认为这个样本是“简单”的。如果一个样本的标签lij在当前学习状态下,能够以一个较高的概率从模型生成出来,即存在的可能性大。则认为这个样本对于当前模型是“简单”的。
为了满足这两个定义,采用如下公式更新wij
其中p(wij)根据(4)的形式。
p(wij)=Beta(dj×ti,λ(W×N)) (4)
计算出来w之后,选择阈值,然后计算离散化的v
接下来的计算中,当v为1的时候选择样本,v为0的时候不选择样本。从而完成样本选择的部分。
②真实标签的计算
为了得到真实标签,需要计算真实标签的后验概率。即计算真实标签为任意一个标签的概率。根据贝叶斯公式可得公式(6)。
p(zj|l,α,β)∝p(zj|α,βj)p(lj|zj,α,βj) (6)
进一步,重新计算归一化项目之后的结果应该是公式(7)。
此外,由于对于一个工作者,他并不一定会标注所有的对象,所以对于他没有标注的那些对象,就直接令vij为0。
③工作者能力的计算以及题目难度
接下来,计算工作者的能力以及题目的难度,整体的目标是优化
因此,更新α如
更新β。
其中δ(a,b)是Kronecker delta函数。其中当a和b相等的时候,δ(a,b)为1,反之δ(a,b)为0。整个模型假设的数据生成过程如图3所示。
每一次的迭代过程都只利用选择的样本计算。前半部累加的部分值往往较小,模型学习程度较弱,此时,模型后半部分的先验概率较大,此时,先验上比较“简单”的样本更倾向于被选择。随着迭代次数变多,第一部分会越来越大,而第二部分的影响就会变小,说明模型学习的越来越充分,选择的样本数目就会不断增加,最终选择全部的样本。
④输出结果
最后对于每一个待标注对象,根据公式(2)计算所有的p(lij=zjij),选择p(lij=zjij)取值最大的分类作为输出。同时,若αi<0则认为第i个工作者为恶意工作者。
(3)实验结果
针对公开的工作者标注数据集,采用本方法进行真实标签估计,最后获得真实标签和工作者的真实能力。
使用数据集的信息如下:
1)SRJ数据集。搜索度相关性数据集。多分类数据。工作者判断给定网站地址与搜索query主题是否相关。共有802个工作者标注108个网站与query对,最终获得9352个标注样本。
2)twitter-1k数据集。工作者对于来自Twitter上的文本进行分类的数据。二分类数据集。判断文本内容是积极内容还是消极内容。共83个工作者,标注1000个推文,最终获得5000个标注样本。
3)Sentiment数据集。电影影片情感文本标注数据。二分类数据集。判断影评网站上的评论是支持还是反对。共143个工作者,500个评论,标注得到10000个标注样本。
4)AdultContent数据集。工作者针对网站地址判断其网站内容的分级的数据集。多分类数据集,类别有N,G、R、P、PG共五种类别中。共825个工作者,标注11040个网址,共92721个标注样本。
采用本文提供的方法计算错误率,错误率的公式如下,
错误率越低结果越好。同时,计算直接投票的结果形成对比,发现经过计算最终得到的结果如下。
表1数据集错误率
由表2中的结果可以发现,本文的算法比直接投票都有着不同程度的提高。但是由于数据集本身的性质,最终的错误率并不是稳定在一定的区间内。对于SRJ这种本身性质就不好的数据集,本文的方法提高了四个百分点,效果比较明显。对于Sentiment这种本身性质好的数据集,本身投票就仅有0.06的错误率,本文依旧提高了1.4个百分点,虽然绝对值并不高,但是考虑对比算法的情况,提高的效果还是很明显的。
为了证明对工作者能力的估计效果,还可以在数据集中混入恶意工作者(即大概率给出错误答案的工作者),然后评估对恶意工作者的召回率。
根据样本数据集工作者总数,从5%递增到20%,混入恶意工作者,然后对比算法发现的恶意工作者以及标准答案。得到结果如下。
表2恶意工作者标注召回率
可以发现相对来说随着恶意工作者的数目的增多,其召回率实际结果并没有明显的下降,甚至在一些情况有一定的上升。大致都维持在80%以上。
图4展示了模型样本选择收敛的情况。其中SPGLAD代表本文的模型,SPGLAD-a是初始不进行选择的模型,GLAD是完全不选择的模型。三个模型曲线的区别证明了,选择过程的效果有利于收敛到更好的结果。
图5展示了模型参数稳定性方面的情况。在SRJ和Twitter-1k两个数据集上调整样本选择的阈值,观察模型的稳定性,发现模型整体变化幅度不大。具有一定的稳定性。

Claims (1)

1.一种基于自步学习的众包分类数据质量控制方法,其特征在于,动态的选择样本点进行模型的学习,同时输出待标注对象的分类结果以及众包任务中的恶意工作者;其中,恶意工作者定义为能力较低或故意给出错误答案的工作者;步骤如下:
(1)定义工作者总数为W,定义标注对象总数为N,K为真实分类的总数;αi为第i个工作者的能力,其取值范围为(-∞,+∞),ti为该工作者标注的样本个数;βj为第j个待标注对象的难度,其取值范围为(0,+∞),dj为该对象被标注的次数,zj为第j个待标注对象的真实分类,lij表示第i个工作者标注第j个待标注对象的分类,则第i个工作者将第j个待标注对象标注为lij的概率为p(lij|zjij)
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>{</mo> <mrow> <mtable> <mtr> <mtd> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> </mrow> </msup> </mrow> </mfrac> </mtd> <mtd> <mrow> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <mrow> <mi>C</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <mrow> <mo>(</mo> <mfrac> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> </mrow> </msup> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> </mrow> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;NotEqual;</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> </mrow> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
当lij=zj时,即该工作者标注的分类为真实分类时,公式(1)简化为公式(2)
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> </mrow> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
(2)随机初始化参数αi、βj以及zj;定义第i个工作者对第j个待标注对象标注的样本点权重为wij,则wij根据公式(3)进行计算
<mrow> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>z</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中,zjk表示第j个待标注对象属于第k个真实分类,1≤k≤K,p(wij)根据公式(4)进行计算
p(wij)=Beta(dj×ti,λ(W×N)) (4)
其中,Beta为Beta分布,λ为调整先验的参数,其取值范围为(0,1);定义取值区间为(0,1)的阈值σ,当wij≥σ时,则选择该样本点,并用vij=1来表示;当wij<σ时,则不选择该样本点,并用vij=0来表示;
(3)利用步骤(2)得出的vij=1的样本点和公式(5)来计算真实分类概率
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <mi>&amp;alpha;</mi> <mo>,</mo> <mi>&amp;beta;</mi> <mo>,</mo> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <munder> <mo>&amp;Pi;</mo> <mi>i</mi> </munder> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <munder> <mo>&amp;Pi;</mo> <mi>i</mi> </munder> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>z</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
然后根据公式(6)和(7)以概率梯度上升的方式更新αi和βj,直到最大迭代次数
<mrow> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>Q</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>=</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mo>-</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>z</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>z</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>Q</mi> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> </mrow> </mfrac> <mo>=</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>z</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>z</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow> 1
其中δ为狄拉克函数,即lij和zjk相等时为1,不相等时为0;
(4)根据步骤(2)重复计算权重wij来选择新的样本点,然后计算新的p(zj|lij,α,β,vij),并更新新的αi和βj,直到收敛;最后,对于每一个待标注对象,根据公式(2)计算所有的p(lij=zjij),选择p(lij=zjij)取值最大的分类作为最终输出;同时,若αi<0则认为第i个工作者为恶意工作者。
CN201710433595.3A 2017-06-12 2017-06-12 一种基于自步学习的众包分类数据质量控制方法 Active CN107357763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710433595.3A CN107357763B (zh) 2017-06-12 2017-06-12 一种基于自步学习的众包分类数据质量控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710433595.3A CN107357763B (zh) 2017-06-12 2017-06-12 一种基于自步学习的众包分类数据质量控制方法

Publications (2)

Publication Number Publication Date
CN107357763A true CN107357763A (zh) 2017-11-17
CN107357763B CN107357763B (zh) 2020-08-14

Family

ID=60273817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710433595.3A Active CN107357763B (zh) 2017-06-12 2017-06-12 一种基于自步学习的众包分类数据质量控制方法

Country Status (1)

Country Link
CN (1) CN107357763B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596800A (zh) * 2018-04-13 2018-09-28 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN108647858A (zh) * 2018-04-12 2018-10-12 华东师范大学 一种基于用户不一致性信息的协同众包质量控制方法
CN109376260A (zh) * 2018-09-26 2019-02-22 四川长虹电器股份有限公司 一种深度学习图像标注的方法和系统
CN109934266A (zh) * 2019-02-19 2019-06-25 清华大学 提高众包标注数据质量的可视分析系统及方法
CN111275079A (zh) * 2020-01-13 2020-06-12 浙江大学 基于图神经网络的众包标签推测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103670A (zh) * 2009-12-22 2011-06-22 迪斯尼实业公司 通过上下文图像化可视公共图灵测试的人类验证
CN103731567A (zh) * 2012-10-11 2014-04-16 国际商业机器公司 用于降低共享媒体会话中的噪声的方法和系统
CN105242239A (zh) * 2015-10-19 2016-01-13 华中科技大学 一种基于众包指纹分簇和匹配的室内子区域定位方法
US20170075910A1 (en) * 2012-06-04 2017-03-16 Apple Inc. App recommendation using crowd-sourced localized app usage data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103670A (zh) * 2009-12-22 2011-06-22 迪斯尼实业公司 通过上下文图像化可视公共图灵测试的人类验证
US20170075910A1 (en) * 2012-06-04 2017-03-16 Apple Inc. App recommendation using crowd-sourced localized app usage data
CN103731567A (zh) * 2012-10-11 2014-04-16 国际商业机器公司 用于降低共享媒体会话中的噪声的方法和系统
CN105242239A (zh) * 2015-10-19 2016-01-13 华中科技大学 一种基于众包指纹分簇和匹配的室内子区域定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘馨月等: "数据结构与算法核心课程建设", 《计算机教育》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647858A (zh) * 2018-04-12 2018-10-12 华东师范大学 一种基于用户不一致性信息的协同众包质量控制方法
CN108596800A (zh) * 2018-04-13 2018-09-28 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN108596800B (zh) * 2018-04-13 2022-05-13 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN109376260A (zh) * 2018-09-26 2019-02-22 四川长虹电器股份有限公司 一种深度学习图像标注的方法和系统
CN109376260B (zh) * 2018-09-26 2021-10-01 四川长虹电器股份有限公司 一种深度学习图像标注的方法和系统
CN109934266A (zh) * 2019-02-19 2019-06-25 清华大学 提高众包标注数据质量的可视分析系统及方法
CN111275079A (zh) * 2020-01-13 2020-06-12 浙江大学 基于图神经网络的众包标签推测方法及系统

Also Published As

Publication number Publication date
CN107357763B (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
Somvanshi et al. A review of machine learning techniques using decision tree and support vector machine
CN107357763A (zh) 一种基于自步学习的众包分类数据质量控制方法
US9269053B2 (en) Electronic review of documents
Galathiya et al. Improved decision tree induction algorithm with feature selection, cross validation, model complexity and reduced error pruning
Lykourentzou et al. CorpWiki: A self-regulating wiki to promote corporate collective intelligence through expert peer matching
Kamishima et al. A survey and empirical comparison of object ranking methods
CN104199826B (zh) 一种基于关联分析的异构媒体相似性计算方法和检索方法
Das et al. A decision making model using soft set and rough set on fuzzy approximation spaces
Xia et al. Personalized exercise recommendation algorithm combining learning objective and assignment feedback
Jantawan et al. A comparison of filter and wrapper approaches with data mining techniques for categorical variables selection
Ye et al. Crowdsourcing-enhanced missing values imputation based on Bayesian network
Nasr et al. A proposed model for predicting employees’ performance using data mining techniques: Egyptian case study
Kukker et al. An intelligent genetic fuzzy classifier for transformer faults
Moon et al. Predicting project cost overrun levels in bidding stage using ensemble learning
Li et al. TODQA: Efficient task-oriented data quality assessment
Xiong et al. An estimation model for social relationship strength based on users' profiles, co-occurrence and interaction activities
Nagarajan et al. Analysing traveller ratings for tourist satisfaction and tourist spot recommendation
Abraham et al. Adaptive e-learning environment using learning style recognition
Jafar A tools-based approach to teaching data mining methods
Manikavelan et al. To find the accurate software cost estimation using Differential Evaluation algorithm
Capuano et al. Multi-criteria fuzzy ordinal peer assessment for MOOCs
Gao et al. Classification decision tree algorithm in predicting students’ course preference
CN105138544B (zh) 一种重塑逻辑演绎链的搜索方法
Alonso et al. Empirical evaluation of different feature representations for social circles detection
Pietrick et al. Are Fair Learning To Rank Models Really Fair? An Analysis Using Inferred Gender

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant