CN107067105A

CN107067105A - 一种基于最优数据分组的众包策略分配方法

Info

Publication number: CN107067105A
Application number: CN201710223216.8A
Authority: CN
Inventors: 杨静; 江雨; 陈博闻
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2017-08-18

Abstract

本发明公开了一种基于最优数据分组的众包策略分配方法，基于最优数据分组的众包策略分配方法，其特征在于，包括如下步骤：根据众包数据，选择可用的分组方式；利用覆盖算法从每个分组中抽取样本交给众包平台标注；针对每个分组方式所抽取的样本，计算其标注准确率；计算每个分组方式下标注准确度的差异度，选取差异度最大的分组方式为最佳分组方式；根据分组分配众包策略。本发明的有益效果为：通过标注难度分组和线性规划优化方法，能够克服传统统一分配众包策略的缺点，降低了众包过程的财力预算，对收集到的数据结果的准确率也有一定的提高。

Description

一种基于最优数据分组的众包策略分配方法

技术领域

本发明涉及众包数据，具体来说，涉及一种基于最优数据分组的众包策略分配方法。

背景技术

对于传统的机器学习来说，很多数据标注的任务很难完成。例如实体匹配、情感分析、图像标注等等任务。通常情况下此类任务都是交由人工进行标注，人工标注的方法有很多种：选取专家进行标注，这一方法对于金钱预算以及时间需要都有很大的要求，具有很大的局限性；利用众包，将数据发布出去，交给外部的大众群体进行标注，在这一过程中，发布者只需要为贡献者支付少量报酬即可。

但是在众包的过程中，对于标注者而言，数据的标注难度是存在差异的。利用传统的统一分配众包策略，对于每个标注样本都分配同等数量的标注者进行标注，在解决预算上是存在一定的缺陷的。因此，现在需要研发一种基于最优数据分组的众包策略分配方法，以克服传统统一分配众包策略的缺点。

发明内容

针对现有技术的上述缺陷，本发明提出了一种基于最优数据分组的众包策略分配，能够适用于众包数据的众包策略分类；本方法利用了数据固有的标注难度，对数据进行分组，并分配不同的众包策略。与传统的方法相比，多了对数据本身的分析，对众包数据的答案准确率也有所提升。在众包过程中，数据不再被一视同仁，而是有了自己的特定分类；在获得相近准确率的情况下，需要进行的标注次数有所下降，有效的节约了众包成本。

本发明提出了一种基于最优数据分组的众包策略分配方法，包括如下步骤：

步骤一：根据众包数据，选择可用的分组方式；

步骤二：利用覆盖算法从每个分组中抽取样本交给众包平台标注；

步骤三：针对每个分组方式所抽取的样本，计算其标注准确率；

步骤四：计算每个分组方式下标注准确度的差异度，选取差异度最大的分组方式为最佳分组方式；

步骤五：根据分组分配众包策略。

本发明提出的所述基于最优数据分组的众包策略分配方法中，所述差异度包括极差、方差、平均差。

本发明提出的所述基于最优数据分组的众包策略分配方法中，计算每种分组方式下所有子分组数据标注准确率之间的离散程度得到差异度，通过比较每种分组方式下子分组之间的极差、方差以及平均差的大小，选择分组标注准确率极差、方差以及平均差之和最大的分组方式作为差异度最大的分组方式。

本发明提出的所述基于最优数据分组的众包策略分配方法中，步骤五中利用整数线性规划优化算法分配不同的众包策略，包括如下步骤：

对于不同的众包策略，计算每个分组内数据的标注准确率；

采用整数线性规划优化算法对整体众包数据标注准确率进行优化，其中优化目标为：限制条件为：

其中，x_gb的取值范围为0和1，1代表为分组g下每道题分配标注人数为b，反之则为0。f_g表示分组g下的样本数量，B为整体预算，B₀为初始用于估算每个分组标注准确率时耗费的预算；

最终求解出来的x_gb取值即为众包策略分配结果。

本发明提出的所述基于最优数据分组的众包策略分配方法中，为了对数据的标注难度进行估算，需要选择少量的样本进行众包，对收回的数据计算每个样本的标注准确率，步骤三之后进一步计算每个分组下所有样本的标注准确率的平均值，作为该分组的标注难度估计值。这里的所挑选的样本必须覆盖所有分组方式下的所有子分组，且样本个数根据用户预算进行设置。

本发明的有益效果为：通过标注难度分组和线性规划优化方法，能够克服传统统一分配众包策略的缺点，降低了众包过程的财力预算，对收集到的数据结果的准确率也有一定的提高，在众包数据的发布过程中，加入最优化的方法，使众包过程充分利用数据本身存在的标注难易差别；在获得相近准确率的情况下，可以显著的减少所需要的预算，有效的提高了众包标注结果的准确率。

附图说明

图1是根据本发明实施例所述的一种基于最优数据分组的众包策略分配方法的流程图。

图2是本发明基于最优数据分组的众包策略分配方法进行优化前后的效果对比图。

图3是在预算限制的要求下基于最优数据分组与传统的众包策略对比图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

如图1所示，根据本发明实施例所述的一种基于最优数据分组的众包策略分配方法，包括以下步骤：

步骤一：根据众包数据，选择可用的分组方式；

步骤五：根据分组分配众包策略。

具体应用时，给定一批众包数据，以及预算上限，在这里的众包策略指的是每个样本的标注人数。如图1所示，本发明实例所示的一种基于最优数据分组的众包策略分配，包括以下步骤：

步骤一：对数据进行分组，本申请主要采用两种策略：1)数据固有的特征，例如文本数据的长度，图片数据的清晰度等等。2)其他常用分组方法，例如k-means聚类等分类方法。

步骤二：利用覆盖算法抽取少量覆盖所有分组方法下所有分组的k个样本交给众包平台进行标注，每个样本交由n个人进行标注。覆盖算法的主要思想为首先选择分组个数最多的分组方法，从下面的每个分组中随机抽取>＝2个样本(取决于预算的多少)，然后选择分组个数次多的分组方法，判断现有的抽取样本中是否包含本分组方法下足够多的数据，如果不包含，则从分组中随机抽取>＝2个样本，如此继续抽取，直到抽取的样本覆盖所有的分组方法下的所有分组。

步骤三：针对每个样本，如果没有标准答案，则采用众数投票的方法确定它的正确答案。其中收集到的正确答案个数为m。计算每个样本的标注准确率acc＝m/n。针对每个分组方法S下的分组s_i，它的标注准确率为其中h为分组s_i中样本的个数。

计算每个分组方法下数据标准准确率的差异度，主要采用三种方法：1)极差(Range)：最大值–最小值。2)方差(Variance)：3)平均差(MeanDeviation)：

步骤四：利用这三种方法，计算每种分组方式下所有子分组数据标注准确率之间的离散程度得到差异度，离散程度由每种分组方式下子分组之间的极差、方差以及平均差的大小来衡量，通过比较选择分组标注准确率极差、方差以及平均差之和最大的分组方式，作为差异度最大的分组方式，即最优分组方式。

步骤五：确定最佳分组方法后，根据整数线性规划优化算法，为每个分组分配不同的众包策略。

其中整数线性规划优化算法是指，由于众包的过程中答案的收集采用众数投票的方法，这里的众包分配策略指的是如何分配每个标注样本的标注人数，预算则由总共收集到的标注答案数量来决定。对于不同众包策略，每个分组g内数据的标注准确率计算方法为：

其中v指的是每个样本分配的标注人数，即众包分配策略。

当预算限制为B时，采用整数线性规划的方法来对整体众包数据标注错误率进行优化，其中优化目标为：

限制条件为1)

其中x_gb的取值范围为0和1，1代表为分组g下每道题分配标注人数为b，反之则为0。f_g表示分组g下的样本数量。B为整体预算，B₀为初始用于估算每个分组标注准确率时耗费的预算。最终求解出来的x_gb取值即为众包策略分配结果。

图2表现了本发明在4688条微博情感标注数据集(本数据包括三种分组方法：word，punt，day)上，基于相对于传统众包策略所取得的技术效果。在预算限制要求下，与传统的众包策略相比，基于最优数据分组的众包策略分配方法对于众包结果的错误率有着一定的减小(准确率有着一定的提升)。此外，图2中显示了在所有的分组方法中，本发明选取的最优分组方法与其他可用的分组方法相比，对众包结果的准确率提升效果最好。

图3表明，在预算限制的要求下，与传统的众包策略相比，采用基于最优数据分组的众包策略分配方法对于整体的实验预算也有所减少。

本发明通过标注难度分组和线性规划优化方法降低了众包过程的财力预算，对收集到的数据结果的准确率也有一定的提高，在众包数据的发布过程中加入最优化的方法，使众包过程充分利用数据本身存在的标注难易差别，可以显著的减少所需要的预算，有效的提高了众包标注结果的准确率。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于最优数据分组的众包策略分配方法，其特征在于，包括如下步骤：

步骤一：根据众包数据，选择可用的分组方式；

步骤五：根据分组分配众包策略。

2.如权利要求1所述的基于最优数据分组的众包策略分配方法，其特征在于，所述差异度包括极差、方差、平均差。

3.如权利要求2所述的基于最优数据分组的众包策略分配方法，其特征在于，计算每种分组方式下所有子分组数据标注准确率之间的离散程度得到差异度，通过比较每种分组方式下子分组之间的极差、方差以及平均差的大小，选择分组标注准确率极差、方差以及平均差之和最大的分组方式作为差异度最大的分组方式。

4.如权利要求1所述的基于最优数据分组的众包策略分配方法，其特征在于，步骤五中利用整数线性规划优化算法分配不同的众包策略，包括如下步骤：

a.对于不同的众包策略，计算每个分组内数据的标注准确率；

b.采用整数线性规划优化算法对整体众包数据标注准确率进行优化，其中优化目标为：限制条件为：1)2)

c.最终求解出来的x_gb取值作为众包策略分配结果。

5.如权利要求1所述的基于最优数据分组的众包策略分配方法，其特征在于，步骤三之后进一步计算每个分组下所有样本的标注准确率的平均值，作为该分组的标注难度估计值。