CN115994675B

CN115994675B - 一种面向文本序列的高性价比众包工人选择方法及装置

Info

Publication number: CN115994675B
Application number: CN202310284736.5A
Authority: CN
Inventors: 杨麟儿; 王誉杰; 刘洋; 黄超; 黄雅平; 房智轩; 杨尔弘
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-07-04
Anticipated expiration: 2043-03-22
Also published as: CN115994675A

Abstract

本发明涉及众包任务分配技术领域，特别是指一种面向文本序列的高性价比众包工人选择方法及装置，一种面向文本序列的高性价比众包工人选择方法包括：获得样本标注数据集和众包工人集合；建立工人选择初步模型；根据样本标注数据集、众包工人集合和工人选择初步模型进行训练，获得工人选择模型；根据样本标注数据集进行拟人修改，获得标注增强数据集；根据标注增强数据集和工人选择模型进行可靠性测验，获得可靠的工人选择模型；将待标注数据集和待选择众包工人集合输入可靠的工人选择模型，获得众包工人最优选择。本发明有效解决了文本标注任务的众包工人选择问题，提高了注释的质量，降低了总体成本。

Description

一种面向文本序列的高性价比众包工人选择方法及装置

技术领域

本发明涉及众包任务分配技术领域，特别是指一种面向文本序列的高性价比众包工人选择方法及装置。

背景技术

众包是一种高效率、低成本的数据收集方法，工人选择是众包标注过程的一种优化方法，通过对众包工人的评估和选择，提升产出标注的整体质量。众包工人选择在深度学习的数据集构建方面具有重大的理论价值和实践意义。

现有方法大多都是在简单的分类标注任务上设计和测试的，没有考虑到在自然语言处理中的文本序列标注任务上，临近的标签间是存在复杂的上下文依赖关系的。在文本序列标注任务上的众包工人选择相比于简单分类上是更具挑战性的。

现有的工作在文本序列标注任务的众包标注上主要研究标注聚合问题，包括基于隐马尔可夫链（HMM）的方法和完全贝叶斯（Bayesian）的方法等。这类方法通常是在众包标注全部完成后进行的，不能在标注过程中对工人的可靠性变化进行针对性的选择优化，导致最终产生的标注质量参差不齐。

因此，在现有技术中缺乏一种面向文本序列的高性价比的众包工人选择方法。

发明内容

本发明实施例提供了一种面向文本序列的高性价比众包工人选择方法及装置。所述技术方案如下：

一方面，提供了一种面向文本序列的高性价比众包工人选择方法，该方法由电子设备实现，该方法包括：

S1、获得样本标注数据集和众包工人集合；

S2、建立工人选择初步模型；

S3、根据所述样本标注数据集和所述众包工人集合，对所述工人选择初步模型进行训练，获得工人选择模型；

S4、对所述样本标注数据集进行拟人修改，获得标注增强数据集；

S5、根据所述标注增强数据集，对所述工人选择模型进行可靠性测验，获得可靠的工人选择模型；

S6、将待标注数据集和待选择众包工人集合输入所述可靠的工人选择模型，获得众包工人最优选择。

其中，所述样本标注数据集由长度不等的待标注样本文本序列组成。

其中，所述工人选择初步模型根据组合多臂老虎机模型和组合置信上界算法进行构建。

可选地，所述根据所述样本标注数据集和所述众包工人集合，对所述工人选择初步模型进行训练，获得工人选择模型，包括：

根据所述样本标注数据集给所述众包工人集合中的工人分配标注任务，获得第一标注任务结果；

根据所述第一标注任务结果进行测评，获得工人初始平均分数；

根据所述工人初始平均分数以及所述众包工人集合，对所述工人选择初步模型进行训练，获得工人选择模型。

可选地，所述根据所述工人初始平均分数以及所述众包工人集合，对所述工人选择初步模型进行训练，获得工人选择模型，包括：

S31、设置所述标注数据集中需要标注的轮次总数为N，当前标注轮次为i，令i=1，众包工人从第1轮到第i轮的平均分数为F_i，F₀为所述工人初始平均分数;

S32、判断i是否大于N，如果i大于N，则执行步骤S35，如果i小于等于N，则执行步骤S33；

S33、根据所述工人选择初步模型和所述众包工人平均分数F_i-1，从工人中选择平均分数最高的n个工人进行标注工作，获得第i标注任务结果；

S34、根据标注任务结果通过标注评测方法进行评测，获得众包工人平均分数，其中，所述标注任务结果为第i次工人对样本标注数据集标注的标注结果，所述众包工人平均分数为第i次标注后的众包工人平均分数F_i ，令i=i+1；执行步骤S32；

S35、标注任务停止，获得众包工人平均分数F_i；根据所述众包工人平均分数F_i，获得工人选择模型。

可选地，所述根据标注任务结果通过标注评测方法进行评测，获得众包工人平均分数，包括：

根据众包工人的标注任务结果进行计算，得到一致性指标；

根据所述一致性指标和预设的指标阈值进行计算，获得当前标注轮次众包工人的平均分数。

可选地，所述对所述样本标注数据集进行拟人修改，获得标注增强数据集，包括：

通过专家对所述样本标注数据集进行标注，获得专家标注数据结果；

根据所述专家标注数据结果进行拟人修改，获得样本增强数据集。

其中，所述拟人修改是模拟人类错误的修改操作；所述拟人修改包括对所述专家标注数据结果进行平移操作、扩张操作和收缩操作。

另一方面，提供了一种面向文本序列的高性价比众包工人选择装置，该装置应用于一种面向文本序列的高性价比众包工人选择方法，该装置包括：

数据采集模块，用于获得样本标注数据集和众包工人集合；

模型建立模块，用于建立工人选择初步模型；

模型训练模块，用于根据所述样本标注数据集和所述众包工人集合，对所述工人选择初步模型进行训练，获得工人选择模型；

数据增强模块，用于对所述样本标注数据集进行拟人修改，获得标注增强数据集；

模型测验模块，用于根据所述标注增强数据集，对所述工人选择模型进行可靠性测验，获得可靠的工人选择模型；

工人选择模块，用于将待标注数据集和待选择众包工人集合输入所述可靠的工人选择模型，获得众包工人最优选择。

可选地，所述模型训练模块，进一步用于：

S34、根据标注任务结果通过标注评测方法进行评测，获得众包工人平均分数，其中，所述标注任务结果为第i次工人对样本标注数据集标注的标注结果，所述众包工人平均分数为第i次标注后的众包工人平均分数F_i，令i=i+1；执行步骤S32；

可选地，所述模型训练模块，进一步用于：

根据众包工人的标注任务结果进行计算，得到一致性指标；

可选地，所述数据增强模块，进一步用于：

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述一种面向文本序列的高性价比众包工人选择方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述一种面向文本序列的高性价比众包工人选择方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明提出一种面向文本序列的高性价比众包工人选择方法，采用的工人选择系统基于组合多臂老虎机算法，使用多数投票结合专家标注对工人的标注质量进行评测。数据增强方法通过平移、扩展和收缩三类修改操作，生成真实质量的众包标注，从而实现了对工人选择系统的离线评估。本发明有效解决了文本标注任务的众包工人选择问题，提高了注释的质量，降低了总体成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种面向文本序列的高性价比众包工人选择方法流程图；

图2是本发明实施例提供的一种面向文本序列的高性价比众包工人选择装置框图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种面向文本序列的高性价比众包工人选择方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的一种面向文本序列的高性价比众包工人选择方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获得样本标注数据集和众包工人集合。

其中，样本标注数据集由长度不等的待标注样本文本序列组成。

一种可行的实施方式中，众包工人进行标注的样本数据集由若干长度不等的文本序列组成，且文本序列的语言没有限制，为使工人选择的在线算法性能收敛，所以样本标注数据集应具有足够大的规模。

S2、建立工人选择初步模型。

其中，工人选择初步模型根据组合多臂老虎机模型和组合置信上界算法进行构建。

一种可行的实施方式中，多臂老虎机问题描述了一个有多个拉杆的老虎机，每一个拉杆的中奖几率不同；问题是如何在有限次数内，选择拉不同的拉杆，获得最多的收益。组合多臂老虎机则是在该场景下，允许每次同时拉多个拉杆。玩家对中奖几率预先没有任何了解，故其仅能根据每次拉杆的收益反馈动态地估计每个拉杆的中奖几率。由于拉杆次数是有限的，玩家必须在拉动估计的最佳拉杆和拉动潜在的更佳拉杆之间做出均衡。组合多臂老虎机模型（Combinatorial Multi-Armed Bandit，CMAB）能够最大限度地保留部分正确标注中的信息，有利于更准确地更新所述组合多臂老虎机模型中的参数，从而有效指导模型的工人选择。

所述组合置信上界（Combinatorial Upper Confidence Bound，CUCB）算法通过向每个工人的历史平均分数添加一项与时间正相关且与历史标注数量负相关的置信上界，在利用现有最佳工人和发掘潜在更佳工人之间进行权衡。

组合置信上界算法需要在学习过程中维护额外的参数，即每个工人的历史标注数量。本发明提出的工人选择框架不仅仅局限于基于组合置信上界的工人选择方式。所述框架同样支持其他工人选择方式，如贪心算法等。

S3、根据样本标注数据集和众包工人集合，对工人选择初步模型进行训练，获得工人选择模型。

可选地，根据样本标注数据集和众包工人集合，对工人选择初步模型进行训练，获得工人选择模型，包括：

根据样本标注数据集给众包工人集合中的工人分配标注任务，获得第一标注任务结果；

根据第一标注任务结果进行测评，获得工人初始平均分数；

根据工人初始平均分数以及众包工人集合，对工人选择初步模型进行训练，获得工人选择模型。

一种可行的实施方式中，对众包工人对样本标注数据集中的文本序列进行标注时，工人按照头部-内部-外部（BIO）的标注标准，对文本序列中的每一个字（中文）或词（英文等）给出一个对应的标签。

组合多臂老虎机模型的数学表达式如下式（1）、（2）所示：

其中，

为全部可用的众包工人集合，/>

为时刻/>

中选中的工人集合，/>

为时刻

中全部工人给出的标注集合，则/>

为/>

上由专家评测的平均/>

分数。

优化众包工人选择问题旨在通过优化选取的工人组合来提升最终标注数据集的整体标注质量。

表示由工人集合选取出的工人，其具体人数通过组合置信上界算法给出，组合置信上界的计算公式如下式（3）所示：

其中，

为工人/>

的历史平均/>

分数，/>

为工人/>

的历史标注数量。

可选地，根据工人初始平均分数以及众包工人集合，对工人选择初步模型进行训练，获得工人选择模型，包括：

S31、设置标注数据集中需要标注的轮次总数为N，当前标注轮次为i，令i=1，众包工人从第1轮到第i轮的平均分数为F_i，F₀为工人初始平均分数。

一种可行的实施方式中，为每个众包工人分配一个待标注的文本序列，收集其标注，并根据专家标注对齐进行评测。使用该次评测的

分数初始化每个工人的历史平均/>

分数/>

。

S32、判断i是否大于N，如果i大于N，则执行步骤S35，如果i小于等于N，则执行步骤S33。

S33、根据工人选择初步模型和众包工人平均分数F_i-1，从工人中选择平均分数最高的n个工人进行标注工作，获得第i标注任务结果。

一种可行的实施方式中，根据所述工人选择算法，选择添加组合置信上界后历史平均

分数最高的/>

个工人，为每个工人分配一个待标注的文本序列，并收集其标注；/>

的数值按照不同的任务设定为一个合适的经验值。

S34、根据标注任务结果通过标注评测方法进行评测，获得众包工人平均分数，其中，标注任务结果为第i次工人对样本标注数据集标注的标注结果，众包工人平均分数为第i次标注后的众包工人平均分数F_i，令i=i+1；执行步骤S32；

可选地，根据标注任务结果通过标注评测方法进行评测，获得众包工人平均分数，包括：

根据众包工人的标注任务结果进行计算，得到一致性指标；

根据一致性指标和预设的指标阈值进行计算，获得当前标注轮次众包工人的平均分数。

一种可行的实施方式中，工人给出的每一条标注的评测，都采用众包聚合标注与专家标注结合作为真值来计算其F_i分数。

在计算第i轮的众包工人的真值时，根据本轮次众包工人的标注任务结果，计算获得本轮次的标注任务的一致性指标和预设的根据标注任务难度设置的经验阈值。

当标注难度较低时，即一致性指标小于等于经验阈值时，可采用该文本序列上所有标注的多数投票聚合来代替专家标注作为真值，计算本轮次众包工人所得分数。

当标注难度较高时，即一致性指标大于经验阈值时，采用专家标注作为真值，参与计算本轮次众包工人所得分数。

从而减少了专家标注的使用数量，降低了整体标注的成本。

将获得的本轮次众包工人所得分数，与从第一轮次开始获得的所有历史分数相加，并求其和的平均值，即为当前轮次的众包工人平均分数。

S35、标注任务停止，获得众包工人平均分数F_i；根据众包工人平均分数F_i，获得工人选择模型。

一种可行的实施方式中，F_i分数在文本序列标注任务上采用片段级比例分数，该指标能够最大限度地保留部分正确标注中的信息，有利于更准确地更新所述组合多臂老虎机模型中的参数，从而有效指导模型的工人选择。更新的参数为每个工人历史标注的平均分数，该参数用于评估工人给出标注的可靠性。

需要注意的是，其他分数指标，如片段级精确分数,或字符级分数等，也能一定程度上实现模型期望的效果。本发明中所述工人选择方法并不局限于某种特定的分数指标。

S4、对样本标注数据集进行拟人修改，获得标注增强数据集。

可选地，对样本标注数据集进行拟人修改，获得标注增强数据集，包括：

通过专家对样本标注数据集进行标注，获得专家标注数据结果；

根据专家标注数据结果进行拟人修改，获得样本增强数据集。

一种可行的实施方式中，三种模拟人类错误的修改操作分别为平移、扩张和收缩，并对专家标注序列中的标注片段进行修改。

通过所述三种修改操作，可以对每个文本序列生成大量不同分数的标注序列。

其中，拟人修改是模拟人类错误的修改操作；拟人修改包括对专家标注数据结果进行平移操作、扩张操作和收缩操作。

一种可行的实施方式中，在平移操作中，标注片段的长度保持恒定；向同一个方向同时移动标注片段的左右边界，每次移动一个词的位置，直到该标注片段的边界与整体文本序列的边界或其他标注片段的边界重合。

在扩张操作中，标注片段的长度逐渐增大；向左（或右）移动标注片段的左（或右）边界，每次移动一个词的位置，直到该标注片段的边界与整体文本序列的边界或其他标注片段的边界重合。

在收缩操作中，标注片段的长度逐渐减小；向左（或右）移动标注片段的左（或右）边界，每次移动一个词的位置，直到该标注片段的长度为零。

S5、根据标注增强数据集，对工人选择模型进行可靠性测验，获得可靠的工人选择模型。

一种可行的实施方式中，选取合适的生成标注的总体目标是保证每个工人的平均

分数在数据增强前后保持不变。

针对每个工人逐次选取每个文本序列上的标注。若该工人在该句上有真实标注，则直接选取其真实标注；若没有真实标注，则比较已选取标注的平均

分数与该工人全部真实标注的平均/>

分数，前者较大则选取分数偏低的生成标注，后者较大则选取分数偏高的生成标注。

S6、将待标注数据集和待选择众包工人集合输入可靠的工人选择模型，获得众包工人最优选择。

一种可行的实施方式中，本发明公开一种面向文本序列标注的高性价比众包工人选择与数据增强方法。该方法能够在线上众包标注过程中，动态的评估众包工人的表现，并以此为标准选取合适的工人组合进行后续的标注任务。同时，该方法能对文本序列标注生成大量且平衡的模拟数据集，从而使不同工人选择方法之间的对比分析成为可能。

图2是根据一示例性实施例示出的一种面向文本序列的高性价比众包工人选择装置框图。参照图2，该装置包括：

数据采集模块210，用于获得样本标注数据集和众包工人集合；

模型建立模块220，用于建立工人选择初步模型；

模型训练模块230，用于根据样本标注数据集和众包工人集合，对工人选择初步模型进行训练，获得工人选择模型；

数据增强模块240，用于对样本标注数据集进行拟人修改，获得标注增强数据集；

模型测验模块250，用于根据标注增强数据集，对工人选择模型进行可靠性测验，获得可靠的工人选择模型；

工人选择模块260，用于将待标注数据集和待选择众包工人集合输入可靠的工人选择模型，获得众包工人最优选择。

可选地，模型训练模块230，进一步用于：

根据第一标注任务结果进行测评，获得工人初始平均分数；

可选地，模型训练模块230，进一步用于：

S31、设置标注数据集中需要标注的轮次总数为N，当前标注轮次为i，令i=1，众包工人从第1轮到第i轮的平均分数为F_i，F₀为工人初始平均分数;

S33、根据工人选择初步模型和众包工人平均分数F_i-1，从工人中选择平均分数最高的n个工人进行标注工作，获得第i标注任务结果；

可选地，模型训练模块230，进一步用于：

根据众包工人的标注任务结果进行计算，得到一致性指标；

可选地，数据增强模块240，进一步用于：

图3是本发明实施例提供的一种电子设备300的结构示意图，该电子设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）301和一个或一个以上的存储器302，其中，所述存储器302中存储有至少一条指令，所述至少一条指令由所述处理器301加载并执行以实现上述一种面向文本序列的高性价比众包工人选择方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述一种面向文本序列的高性价比众包工人选择方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向文本序列的高性价比众包工人选择方法，其特征在于，所述方法包括：

S1、获得样本标注数据集和众包工人集合；

S2、建立工人选择初步模型；

其中，所述根据所述样本标注数据集和所述众包工人集合，对所述工人选择初步模型进行训练，获得工人选择模型，包括：

根据所述工人初始平均分数以及所述众包工人集合，对所述工人选择初步模型进行训练，获得工人选择模型；

其中，所述根据所述工人初始平均分数以及所述众包工人集合，对所述工人选择初步模型进行训练，获得工人选择模型，包括：

S31、设置所述标注数据集中需要标注的轮次总数为N，当前标注轮次为i，令i=1，众包工人从第1轮到第i轮的平均分数为F_i，F₀为工人初始平均分数;

S33、根据所述工人选择初步模型和众包工人平均分数F_i-1，从工人中选择平均分数最高的n个工人进行标注工作，获得第i标注任务结果；

S35、标注任务停止，获得众包工人平均分数F_i；根据所述众包工人平均分数F_i，获得工人选择模型；

2.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法，其特征在于，所述样本标注数据集由长度不等的待标注样本文本序列组成。

3.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法，其特征在于，所述工人选择初步模型根据组合多臂老虎机模型和组合置信上界算法进行构建。

4.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法，其特征在于，所述根据标注任务结果通过标注评测方法进行评测，获得众包工人平均分数，包括：

根据众包工人的标注任务结果进行计算，得到一致性指标；

5.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法，其特征在于，所述对所述样本标注数据集进行拟人修改，获得标注增强数据集，包括：

6.根据权利要求5所述的一种面向文本序列的高性价比众包工人选择方法，其特征在于，所述拟人修改是模拟人类错误的修改操作；所述拟人修改包括对所述专家标注数据结果进行平移操作、扩张操作和收缩操作。

7.一种面向文本序列的高性价比众包工人选择装置，其特征在于，所述装置包括：

数据采集模块，用于获得样本标注数据集和众包工人集合；

模型建立模块，用于建立工人选择初步模型；