CN107067105A - 一种基于最优数据分组的众包策略分配方法 - Google Patents

一种基于最优数据分组的众包策略分配方法 Download PDF

Info

Publication number
CN107067105A
CN107067105A CN201710223216.8A CN201710223216A CN107067105A CN 107067105 A CN107067105 A CN 107067105A CN 201710223216 A CN201710223216 A CN 201710223216A CN 107067105 A CN107067105 A CN 107067105A
Authority
CN
China
Prior art keywords
rent
mass
packet
strategy
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710223216.8A
Other languages
English (en)
Inventor
杨静
江雨
陈博闻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201710223216.8A priority Critical patent/CN107067105A/zh
Publication of CN107067105A publication Critical patent/CN107067105A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services

Abstract

本发明公开了一种基于最优数据分组的众包策略分配方法,基于最优数据分组的众包策略分配方法,其特征在于,包括如下步骤:根据众包数据,选择可用的分组方式;利用覆盖算法从每个分组中抽取样本交给众包平台标注;针对每个分组方式所抽取的样本,计算其标注准确率;计算每个分组方式下标注准确度的差异度,选取差异度最大的分组方式为最佳分组方式;根据分组分配众包策略。本发明的有益效果为:通过标注难度分组和线性规划优化方法,能够克服传统统一分配众包策略的缺点,降低了众包过程的财力预算,对收集到的数据结果的准确率也有一定的提高。

Description

一种基于最优数据分组的众包策略分配方法
技术领域
本发明涉及众包数据,具体来说,涉及一种基于最优数据分组的众包策略分配方法。
背景技术
对于传统的机器学习来说,很多数据标注的任务很难完成。例如实体匹配、情感分析、图像标注等等任务。通常情况下此类任务都是交由人工进行标注,人工标注的方法有很多种:选取专家进行标注,这一方法对于金钱预算以及时间需要都有很大的要求,具有很大的局限性;利用众包,将数据发布出去,交给外部的大众群体进行标注,在这一过程中,发布者只需要为贡献者支付少量报酬即可。
但是在众包的过程中,对于标注者而言,数据的标注难度是存在差异的。利用传统的统一分配众包策略,对于每个标注样本都分配同等数量的标注者进行标注,在解决预算上是存在一定的缺陷的。因此,现在需要研发一种基于最优数据分组的众包策略分配方法,以克服传统统一分配众包策略的缺点。
发明内容
针对现有技术的上述缺陷,本发明提出了一种基于最优数据分组的众包策略分配,能够适用于众包数据的众包策略分类;本方法利用了数据固有的标注难度,对数据进行分组,并分配不同的众包策略。与传统的方法相比,多了对数据本身的分析,对众包数据的答案准确率也有所提升。在众包过程中,数据不再被一视同仁,而是有了自己的特定分类;在获得相近准确率的情况下,需要进行的标注次数有所下降,有效的节约了众包成本。
本发明提出了一种基于最优数据分组的众包策略分配方法,包括如下步骤:
步骤一:根据众包数据,选择可用的分组方式;
步骤二:利用覆盖算法从每个分组中抽取样本交给众包平台标注;
步骤三:针对每个分组方式所抽取的样本,计算其标注准确率;
步骤四:计算每个分组方式下标注准确度的差异度,选取差异度最大的分组方式为最佳分组方式;
步骤五:根据分组分配众包策略。
本发明提出的所述基于最优数据分组的众包策略分配方法中,所述差异度包括极差、方差、平均差。
本发明提出的所述基于最优数据分组的众包策略分配方法中,计算每种分组方式下所有子分组数据标注准确率之间的离散程度得到差异度,通过比较每种分组方式下子分组之间的极差、方差以及平均差的大小,选择分组标注准确率极差、方差以及平均差之和最大的分组方式作为差异度最大的分组方式。
本发明提出的所述基于最优数据分组的众包策略分配方法中,步骤五中利用整数线性规划优化算法分配不同的众包策略,包括如下步骤:
对于不同的众包策略,计算每个分组内数据的标注准确率;
采用整数线性规划优化算法对整体众包数据标注准确率进行优化,其中优化目标为:限制条件为:
其中,xgb的取值范围为0和1,1代表为分组g下每道题分配标注人数为b,反之则为0。fg表示分组g下的样本数量,B为整体预算,B0为初始用于估算每个分组标注准确率时耗费的预算;
最终求解出来的xgb取值即为众包策略分配结果。
本发明提出的所述基于最优数据分组的众包策略分配方法中,为了对数据的标注难度进行估算,需要选择少量的样本进行众包,对收回的数据计算每个样本的标注准确率,步骤三之后进一步计算每个分组下所有样本的标注准确率的平均值,作为该分组的标注难度估计值。这里的所挑选的样本必须覆盖所有分组方式下的所有子分组,且样本个数根据用户预算进行设置。
本发明的有益效果为:通过标注难度分组和线性规划优化方法,能够克服传统统一分配众包策略的缺点,降低了众包过程的财力预算,对收集到的数据结果的准确率也有一定的提高,在众包数据的发布过程中,加入最优化的方法,使众包过程充分利用数据本身存在的标注难易差别;在获得相近准确率的情况下,可以显著的减少所需要的预算,有效的提高了众包标注结果的准确率。
附图说明
图1是根据本发明实施例所述的一种基于最优数据分组的众包策略分配方法的流程图。
图2是本发明基于最优数据分组的众包策略分配方法进行优化前后的效果对比图。
图3是在预算限制的要求下基于最优数据分组与传统的众包策略对比图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
如图1所示,根据本发明实施例所述的一种基于最优数据分组的众包策略分配方法,包括以下步骤:
步骤一:根据众包数据,选择可用的分组方式;
步骤二:利用覆盖算法从每个分组中抽取样本交给众包平台标注;
步骤三:针对每个分组方式所抽取的样本,计算其标注准确率;
步骤四:计算每个分组方式下标注准确度的差异度,选取差异度最大的分组方式为最佳分组方式;
步骤五:根据分组分配众包策略。
具体应用时,给定一批众包数据,以及预算上限,在这里的众包策略指的是每个样本的标注人数。如图1所示,本发明实例所示的一种基于最优数据分组的众包策略分配,包括以下步骤:
步骤一:对数据进行分组,本申请主要采用两种策略:1)数据固有的特征,例如文本数据的长度,图片数据的清晰度等等。2)其他常用分组方法,例如k-means聚类等分类方法。
步骤二:利用覆盖算法抽取少量覆盖所有分组方法下所有分组的k个样本交给众包平台进行标注,每个样本交由n个人进行标注。覆盖算法的主要思想为首先选择分组个数最多的分组方法,从下面的每个分组中随机抽取>=2个样本(取决于预算的多少),然后选择分组个数次多的分组方法,判断现有的抽取样本中是否包含本分组方法下足够多的数据,如果不包含,则从分组中随机抽取>=2个样本,如此继续抽取,直到抽取的样本覆盖所有的分组方法下的所有分组。
步骤三:针对每个样本,如果没有标准答案,则采用众数投票的方法确定它的正确答案。其中收集到的正确答案个数为m。计算每个样本的标注准确率acc=m/n。针对每个分组方法S下的分组si,它的标注准确率为其中h为分组si中样本的个数。
计算每个分组方法下数据标准准确率的差异度,主要采用三种方法:1)极差(Range):最大值–最小值。2)方差(Variance):3)平均差(MeanDeviation):
步骤四:利用这三种方法,计算每种分组方式下所有子分组数据标注准确率之间的离散程度得到差异度,离散程度由每种分组方式下子分组之间的极差、方差以及平均差的大小来衡量,通过比较选择分组标注准确率极差、方差以及平均差之和最大的分组方式,作为差异度最大的分组方式,即最优分组方式。
步骤五:确定最佳分组方法后,根据整数线性规划优化算法,为每个分组分配不同的众包策略。
其中整数线性规划优化算法是指,由于众包的过程中答案的收集采用众数投票的方法,这里的众包分配策略指的是如何分配每个标注样本的标注人数,预算则由总共收集到的标注答案数量来决定。对于不同众包策略,每个分组g内数据的标注准确率计算方法为:
其中v指的是每个样本分配的标注人数,即众包分配策略。
当预算限制为B时,采用整数线性规划的方法来对整体众包数据标注错误率进行优化,其中优化目标为:
限制条件为1)
其中xgb的取值范围为0和1,1代表为分组g下每道题分配标注人数为b,反之则为0。fg表示分组g下的样本数量。B为整体预算,B0为初始用于估算每个分组标注准确率时耗费的预算。最终求解出来的xgb取值即为众包策略分配结果。
图2表现了本发明在4688条微博情感标注数据集(本数据包括三种分组方法:word,punt,day)上,基于相对于传统众包策略所取得的技术效果。在预算限制要求下,与传统的众包策略相比,基于最优数据分组的众包策略分配方法对于众包结果的错误率有着一定的减小(准确率有着一定的提升)。此外,图2中显示了在所有的分组方法中,本发明选取的最优分组方法与其他可用的分组方法相比,对众包结果的准确率提升效果最好。
图3表明,在预算限制的要求下,与传统的众包策略相比,采用基于最优数据分组的众包策略分配方法对于整体的实验预算也有所减少。
本发明通过标注难度分组和线性规划优化方法降低了众包过程的财力预算,对收集到的数据结果的准确率也有一定的提高,在众包数据的发布过程中加入最优化的方法,使众包过程充分利用数据本身存在的标注难易差别,可以显著的减少所需要的预算,有效的提高了众包标注结果的准确率。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (5)

1.一种基于最优数据分组的众包策略分配方法,其特征在于,包括如下步骤:
步骤一:根据众包数据,选择可用的分组方式;
步骤二:利用覆盖算法从每个分组中抽取样本交给众包平台标注;
步骤三:针对每个分组方式所抽取的样本,计算其标注准确率;
步骤四:计算每个分组方式下标注准确度的差异度,选取差异度最大的分组方式为最佳分组方式;
步骤五:根据分组分配众包策略。
2.如权利要求1所述的基于最优数据分组的众包策略分配方法,其特征在于,所述差异度包括极差、方差、平均差。
3.如权利要求2所述的基于最优数据分组的众包策略分配方法,其特征在于,计算每种分组方式下所有子分组数据标注准确率之间的离散程度得到差异度,通过比较每种分组方式下子分组之间的极差、方差以及平均差的大小,选择分组标注准确率极差、方差以及平均差之和最大的分组方式作为差异度最大的分组方式。
4.如权利要求1所述的基于最优数据分组的众包策略分配方法,其特征在于,步骤五中利用整数线性规划优化算法分配不同的众包策略,包括如下步骤:
a.对于不同的众包策略,计算每个分组内数据的标注准确率;
b.采用整数线性规划优化算法对整体众包数据标注准确率进行优化,其中优化目标为:限制条件为:1)2)
其中,xgb的取值范围为0和1,1代表为分组g下每道题分配标注人数为b,反之则为0。fg表示分组g下的样本数量,B为整体预算,B0为初始用于估算每个分组标注准确率时耗费的预算;
c.最终求解出来的xgb取值作为众包策略分配结果。
5.如权利要求1所述的基于最优数据分组的众包策略分配方法,其特征在于,步骤三之后进一步计算每个分组下所有样本的标注准确率的平均值,作为该分组的标注难度估计值。
CN201710223216.8A 2017-04-07 2017-04-07 一种基于最优数据分组的众包策略分配方法 Pending CN107067105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710223216.8A CN107067105A (zh) 2017-04-07 2017-04-07 一种基于最优数据分组的众包策略分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710223216.8A CN107067105A (zh) 2017-04-07 2017-04-07 一种基于最优数据分组的众包策略分配方法

Publications (1)

Publication Number Publication Date
CN107067105A true CN107067105A (zh) 2017-08-18

Family

ID=59601636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710223216.8A Pending CN107067105A (zh) 2017-04-07 2017-04-07 一种基于最优数据分组的众包策略分配方法

Country Status (1)

Country Link
CN (1) CN107067105A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182448A (zh) * 2017-12-22 2018-06-19 北京中关村科金技术有限公司 一种标注策略的选择方法及相关装置
CN108549909A (zh) * 2018-04-17 2018-09-18 清华大学 基于众包的对象分类方法及对象分类系统
CN109471943A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 一种基于数据处理的众包任务答案确定方法及相关设备
CN109902903A (zh) * 2017-12-11 2019-06-18 华东师范大学 一种基于微信的众包执行方法与众包系统
CN109993315A (zh) * 2019-03-29 2019-07-09 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110208014A (zh) * 2019-06-25 2019-09-06 大连交通大学 城轨车体底架覆盖测量方法
CN110826914A (zh) * 2019-11-07 2020-02-21 陕西师范大学 基于差异性的学习小组分组方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110313820A1 (en) * 2010-06-17 2011-12-22 CrowdFlower, Inc. Using virtual currency to compensate workers in a crowdsourced task
CN104599084A (zh) * 2015-02-12 2015-05-06 北京航空航天大学 一种群体计算的质量控制方法及装置
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106339852A (zh) * 2016-08-10 2017-01-18 南京邮电大学 具有偏好的众包任务分配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110313820A1 (en) * 2010-06-17 2011-12-22 CrowdFlower, Inc. Using virtual currency to compensate workers in a crowdsourced task
CN104599084A (zh) * 2015-02-12 2015-05-06 北京航空航天大学 一种群体计算的质量控制方法及装置
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106339852A (zh) * 2016-08-10 2017-01-18 南京邮电大学 具有偏好的众包任务分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙信昕: ""众包环境下的任务分配技术研究"", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902903A (zh) * 2017-12-11 2019-06-18 华东师范大学 一种基于微信的众包执行方法与众包系统
CN108182448A (zh) * 2017-12-22 2018-06-19 北京中关村科金技术有限公司 一种标注策略的选择方法及相关装置
CN108182448B (zh) * 2017-12-22 2020-08-21 北京中关村科金技术有限公司 一种标注策略的选择方法及相关装置
CN108549909A (zh) * 2018-04-17 2018-09-18 清华大学 基于众包的对象分类方法及对象分类系统
CN108549909B (zh) * 2018-04-17 2021-03-12 图灵人工智能研究院(南京)有限公司 基于众包的对象分类方法及对象分类系统
CN109471943A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 一种基于数据处理的众包任务答案确定方法及相关设备
CN109993315A (zh) * 2019-03-29 2019-07-09 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN109993315B (zh) * 2019-03-29 2021-05-18 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110208014A (zh) * 2019-06-25 2019-09-06 大连交通大学 城轨车体底架覆盖测量方法
CN110826914A (zh) * 2019-11-07 2020-02-21 陕西师范大学 基于差异性的学习小组分组方法

Similar Documents

Publication Publication Date Title
CN107067105A (zh) 一种基于最优数据分组的众包策略分配方法
Guo et al. On the class imbalance problem
CN100356388C (zh) 生物特征融合的身份识别和认证方法
CN104463603B (zh) 一种信用评估方法及系统
CN102024145B (zh) 一种伪装人脸分层识别方法及系统
Pendharkar et al. Machine learning techniques for predicting hospital length of stay in pennsylvania federal and specialty hospitals.
CN107909572A (zh) 基于图像增强的肺结节检测方法及系统
CN106250858A (zh) 一种融合多种人脸识别算法的识别方法及系统
CN105512624A (zh) 一种人脸图像的笑脸识别方法及其装置
CN109376796A (zh) 基于主动半监督学习的图像分类方法
Ouardini et al. Towards practical unsupervised anomaly detection on retinal images
CN105956570B (zh) 基于唇部特征和深度学习的笑脸识别方法
CN107045640A (zh) 一种用于图像识别的基于邻域保持和核子空间对齐的方法
CN109634940A (zh) 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法
CN102324031B (zh) 老龄用户多生物特征身份认证中的隐式语义特征提取方法
CN102266241A (zh) 融合人脸和指纹视觉信息的协同性别识别方法
CN102495901A (zh) 通过局部均值保持实现类数据平衡的方法
CN100370475C (zh) 基于非均匀量化颜色特征矢量的敏感图像过滤方法
CN110163157A (zh) 一种利用新型损失函数进行多人姿态估计的方法
CN106599834A (zh) 信息推送方法和系统
CN106373279B (zh) 用于多表集抄系统的智能ic卡水表的通信方法
CN108491142A (zh) 一种移动终端的控制方法、移动终端及存储介质
CN108491719A (zh) 一种改进朴素贝叶斯算法的安卓恶意程序检测方法
Mnookin et al. A model of efficient discovery
CN107026928A (zh) 一种基于手机传感器的行为特征识别认证方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170818