CN115994675A - 一种面向文本序列的高性价比众包工人选择方法及装置 - Google Patents

一种面向文本序列的高性价比众包工人选择方法及装置 Download PDF

Info

Publication number
CN115994675A
CN115994675A CN202310284736.5A CN202310284736A CN115994675A CN 115994675 A CN115994675 A CN 115994675A CN 202310284736 A CN202310284736 A CN 202310284736A CN 115994675 A CN115994675 A CN 115994675A
Authority
CN
China
Prior art keywords
worker
crowdsourcing
labeling
workers
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310284736.5A
Other languages
English (en)
Other versions
CN115994675B (zh
Inventor
杨麟儿
王誉杰
刘洋
黄超
黄雅平
房智轩
杨尔弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202310284736.5A priority Critical patent/CN115994675B/zh
Publication of CN115994675A publication Critical patent/CN115994675A/zh
Application granted granted Critical
Publication of CN115994675B publication Critical patent/CN115994675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及众包任务分配技术领域,特别是指一种面向文本序列的高性价比众包工人选择方法及装置,一种面向文本序列的高性价比众包工人选择方法包括:获得样本标注数据集和众包工人集合;建立工人选择初步模型;根据样本标注数据集、众包工人集合和工人选择初步模型进行训练,获得工人选择模型;根据样本标注数据集进行拟人修改,获得标注增强数据集;根据标注增强数据集和工人选择模型进行可靠性测验,获得可靠的工人选择模型;将待标注数据集和待选择众包工人集合输入可靠的工人选择模型,获得众包工人最优选择。本发明有效解决了文本标注任务的众包工人选择问题,提高了注释的质量,降低了总体成本。

Description

一种面向文本序列的高性价比众包工人选择方法及装置
技术领域
本发明涉及众包任务分配技术领域,特别是指一种面向文本序列的高性价比众包工人选择方法及装置。
背景技术
众包是一种高效率、低成本的数据收集方法,工人选择是众包标注过程的一种优化方法,通过对众包工人的评估和选择,提升产出标注的整体质量。众包工人选择在深度学习的数据集构建方面具有重大的理论价值和实践意义。
现有方法大多都是在简单的分类标注任务上设计和测试的,没有考虑到在自然语言处理中的文本序列标注任务上,临近的标签间是存在复杂的上下文依赖关系的。在文本序列标注任务上的众包工人选择相比于简单分类上是更具挑战性的。
现有的工作在文本序列标注任务的众包标注上主要研究标注聚合问题,包括基于隐马尔可夫链(HMM)的方法和完全贝叶斯(Bayesian)的方法等。这类方法通常是在众包标注全部完成后进行的,不能在标注过程中对工人的可靠性变化进行针对性的选择优化,导致最终产生的标注质量参差不齐。
因此,在现有技术中缺乏一种面向文本序列的高性价比的众包工人选择方法。
发明内容
本发明实施例提供了一种面向文本序列的高性价比众包工人选择方法及装置。所述技术方案如下:
一方面,提供了一种面向文本序列的高性价比众包工人选择方法,该方法由电子设备实现,该方法包括:
S1、获得样本标注数据集和众包工人集合;
S2、建立工人选择初步模型;
S3、根据所述样本标注数据集和所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型;
S4、对所述样本标注数据集进行拟人修改,获得标注增强数据集;
S5、根据所述标注增强数据集,对所述工人选择模型进行可靠性测验,获得可靠的工人选择模型;
S6、将待标注数据集和待选择众包工人集合输入所述可靠的工人选择模型,获得众包工人最优选择。
其中,所述样本标注数据集由长度不等的待标注样本文本序列组成。
其中,所述工人选择初步模型根据组合多臂老虎机模型和组合置信上界算法进行构建。
可选地,所述根据所述样本标注数据集和所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型,包括:
根据所述样本标注数据集给所述众包工人集合中的工人分配标注任务,获得第一标注任务结果;
根据所述第一标注任务结果进行测评,获得工人初始平均分数;
根据所述工人初始平均分数以及所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型。
可选地,所述根据所述工人初始平均分数以及所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型,包括:
S31、设置所述标注数据集中需要标注的轮次总数为N,当前标注轮次为i,令i=1,众包工人从第1轮到第i轮的平均分数为Fi,F0为所述工人初始平均分数;
S32、判断i是否大于N,如果i大于N,则执行步骤S35,如果i小于等于N,则执行步骤S33;
S33、根据所述工人选择初步模型和所述众包工人平均分数Fi-1,从工人中选择平均分数最高的n个工人进行标注工作,获得第i标注任务结果;
S34、根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,其中,所述标注任务结果为第i次工人对样本标注数据集标注的标注结果,所述众包工人平均分数为第i次标注后的众包工人平均分数Fi ,令i=i+1;执行步骤S32;
S35、标注任务停止,获得众包工人平均分数Fi;根据所述众包工人平均分数Fi,获得工人选择模型。
可选地,所述根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,包括:
根据众包工人的标注任务结果进行计算,得到一致性指标;
根据所述一致性指标和预设的指标阈值进行计算,获得当前标注轮次众包工人的平均分数。
可选地,所述对所述样本标注数据集进行拟人修改,获得标注增强数据集,包括:
通过专家对所述样本标注数据集进行标注,获得专家标注数据结果;
根据所述专家标注数据结果进行拟人修改,获得样本增强数据集。
其中,所述拟人修改是模拟人类错误的修改操作;所述拟人修改包括对所述专家标注数据结果进行平移操作、扩张操作和收缩操作。
另一方面,提供了一种面向文本序列的高性价比众包工人选择装置,该装置应用于一种面向文本序列的高性价比众包工人选择方法,该装置包括:
数据采集模块,用于获得样本标注数据集和众包工人集合;
模型建立模块,用于建立工人选择初步模型;
模型训练模块,用于根据所述样本标注数据集和所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型;
数据增强模块,用于对所述样本标注数据集进行拟人修改,获得标注增强数据集;
模型测验模块,用于根据所述标注增强数据集,对所述工人选择模型进行可靠性测验,获得可靠的工人选择模型;
工人选择模块,用于将待标注数据集和待选择众包工人集合输入所述可靠的工人选择模型,获得众包工人最优选择。
其中,所述样本标注数据集由长度不等的待标注样本文本序列组成。
其中,所述工人选择初步模型根据组合多臂老虎机模型和组合置信上界算法进行构建。
可选地,所述模型训练模块,进一步用于:
根据所述样本标注数据集给所述众包工人集合中的工人分配标注任务,获得第一标注任务结果;
根据所述第一标注任务结果进行测评,获得工人初始平均分数;
根据所述工人初始平均分数以及所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型。
可选地,所述模型训练模块,进一步用于:
S31、设置所述标注数据集中需要标注的轮次总数为N,当前标注轮次为i,令i=1,众包工人从第1轮到第i轮的平均分数为Fi,F0为所述工人初始平均分数;
S32、判断i是否大于N,如果i大于N,则执行步骤S35,如果i小于等于N,则执行步骤S33;
S33、根据所述工人选择初步模型和所述众包工人平均分数Fi-1,从工人中选择平均分数最高的n个工人进行标注工作,获得第i标注任务结果;
S34、根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,其中,所述标注任务结果为第i次工人对样本标注数据集标注的标注结果,所述众包工人平均分数为第i次标注后的众包工人平均分数Fi,令i=i+1;执行步骤S32;
S35、标注任务停止,获得众包工人平均分数Fi;根据所述众包工人平均分数Fi,获得工人选择模型。
可选地,所述模型训练模块,进一步用于:
根据众包工人的标注任务结果进行计算,得到一致性指标;
根据所述一致性指标和预设的指标阈值进行计算,获得当前标注轮次众包工人的平均分数。
可选地,所述数据增强模块,进一步用于:
通过专家对所述样本标注数据集进行标注,获得专家标注数据结果;
根据所述专家标注数据结果进行拟人修改,获得样本增强数据集。
其中,所述拟人修改是模拟人类错误的修改操作;所述拟人修改包括对所述专家标注数据结果进行平移操作、扩张操作和收缩操作。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种面向文本序列的高性价比众包工人选择方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种面向文本序列的高性价比众包工人选择方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明提出一种面向文本序列的高性价比众包工人选择方法,采用的工人选择系统基于组合多臂老虎机算法,使用多数投票结合专家标注对工人的标注质量进行评测。数据增强方法通过平移、扩展和收缩三类修改操作,生成真实质量的众包标注,从而实现了对工人选择系统的离线评估。本发明有效解决了文本标注任务的众包工人选择问题,提高了注释的质量,降低了总体成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种面向文本序列的高性价比众包工人选择方法流程图;
图2是本发明实施例提供的一种面向文本序列的高性价比众包工人选择装置框图;
图3是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种面向文本序列的高性价比众包工人选择方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的一种面向文本序列的高性价比众包工人选择方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获得样本标注数据集和众包工人集合。
其中,样本标注数据集由长度不等的待标注样本文本序列组成。
一种可行的实施方式中,众包工人进行标注的样本数据集由若干长度不等的文本序列组成,且文本序列的语言没有限制,为使工人选择的在线算法性能收敛,所以样本标注数据集应具有足够大的规模。
S2、建立工人选择初步模型。
其中,工人选择初步模型根据组合多臂老虎机模型和组合置信上界算法进行构建。
一种可行的实施方式中,多臂老虎机问题描述了一个有多个拉杆的老虎机,每一个拉杆的中奖几率不同;问题是如何在有限次数内,选择拉不同的拉杆,获得最多的收益。组合多臂老虎机则是在该场景下,允许每次同时拉多个拉杆。玩家对中奖几率预先没有任何了解,故其仅能根据每次拉杆的收益反馈动态地估计每个拉杆的中奖几率。由于拉杆次数是有限的,玩家必须在拉动估计的最佳拉杆和拉动潜在的更佳拉杆之间做出均衡。组合多臂老虎机模型(Combinatorial Multi-Armed Bandit,CMAB)能够最大限度地保留部分正确标注中的信息,有利于更准确地更新所述组合多臂老虎机模型中的参数,从而有效指导模型的工人选择。
所述组合置信上界(Combinatorial Upper Confidence Bound,CUCB)算法通过向每个工人的历史平均分数添加一项与时间正相关且与历史标注数量负相关的置信上界,在利用现有最佳工人和发掘潜在更佳工人之间进行权衡。
组合置信上界算法需要在学习过程中维护额外的参数,即每个工人的历史标注数量。本发明提出的工人选择框架不仅仅局限于基于组合置信上界的工人选择方式。所述框架同样支持其他工人选择方式,如贪心算法等。
S3、根据样本标注数据集和众包工人集合,对工人选择初步模型进行训练,获得工人选择模型。
可选地,根据样本标注数据集和众包工人集合,对工人选择初步模型进行训练,获得工人选择模型,包括:
根据样本标注数据集给众包工人集合中的工人分配标注任务,获得第一标注任务结果;
根据第一标注任务结果进行测评,获得工人初始平均分数;
根据工人初始平均分数以及众包工人集合,对工人选择初步模型进行训练,获得工人选择模型。
一种可行的实施方式中,对众包工人对样本标注数据集中的文本序列进行标注时,工人按照头部-内部-外部(BIO)的标注标准,对文本序列中的每一个字(中文)或词(英文等)给出一个对应的标签。
组合多臂老虎机模型的数学表达式如下式(1)、(2)所示:
其中,为全部可用的众包工人集合,为时刻中选中的工人集合,为时刻中全部工人给出的标注集合,则上由专家评测的平均分数。
优化众包工人选择问题旨在通过优化选取的工人组合来提升最终标注数据集的整体标注质量。
表示由工人集合选取出的工人,其具体人数通过组合置信上界算法给出,组合置信上界的计算公式如下式(3)所示:
其中,为工人的历史平均分数,为工人的历史标注数量。
可选地,根据工人初始平均分数以及众包工人集合,对工人选择初步模型进行训练,获得工人选择模型,包括:
S31、设置标注数据集中需要标注的轮次总数为N,当前标注轮次为i,令i=1,众包工人从第1轮到第i轮的平均分数为Fi,F0为工人初始平均分数。
一种可行的实施方式中,为每个众包工人分配一个待标注的文本序列,收集其标注,并根据专家标注对齐进行评测。使用该次评测的分数初始化每个工人的历史平均分数
S32、判断i是否大于N,如果i大于N,则执行步骤S35,如果i小于等于N,则执行步骤S33。
S33、根据工人选择初步模型和众包工人平均分数Fi-1,从工人中选择平均分数最高的n个工人进行标注工作,获得第i标注任务结果。
一种可行的实施方式中,根据所述工人选择算法,选择添加组合置信上界后历史平均分数最高的个工人,为每个工人分配一个待标注的文本序列,并收集其标注;的数值按照不同的任务设定为一个合适的经验值。
S34、根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,其中,标注任务结果为第i次工人对样本标注数据集标注的标注结果,众包工人平均分数为第i次标注后的众包工人平均分数Fi,令i=i+1;执行步骤S32;
可选地,根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,包括:
根据众包工人的标注任务结果进行计算,得到一致性指标;
根据一致性指标和预设的指标阈值进行计算,获得当前标注轮次众包工人的平均分数。
一种可行的实施方式中,工人给出的每一条标注的评测,都采用众包聚合标注与专家标注结合作为真值来计算其Fi分数。
在计算第i轮的众包工人的真值时,根据本轮次众包工人的标注任务结果,计算获得本轮次的标注任务的一致性指标和预设的根据标注任务难度设置的经验阈值。
当标注难度较低时,即一致性指标小于等于经验阈值时,可采用该文本序列上所有标注的多数投票聚合来代替专家标注作为真值,计算本轮次众包工人所得分数。
当标注难度较高时,即一致性指标大于经验阈值时,采用专家标注作为真值,参与计算本轮次众包工人所得分数。
从而减少了专家标注的使用数量,降低了整体标注的成本。
将获得的本轮次众包工人所得分数,与从第一轮次开始获得的所有历史分数相加,并求其和的平均值,即为当前轮次的众包工人平均分数。
S35、标注任务停止,获得众包工人平均分数Fi;根据众包工人平均分数Fi,获得工人选择模型。
一种可行的实施方式中,Fi分数在文本序列标注任务上采用片段级比例分数,该指标能够最大限度地保留部分正确标注中的信息,有利于更准确地更新所述组合多臂老虎机模型中的参数,从而有效指导模型的工人选择。更新的参数为每个工人历史标注的平均分数,该参数用于评估工人给出标注的可靠性。
需要注意的是,其他分数指标,如片段级精确分数,或字符级分数等,也能一定程度上实现模型期望的效果。本发明中所述工人选择方法并不局限于某种特定的分数指标。
S4、对样本标注数据集进行拟人修改,获得标注增强数据集。
可选地,对样本标注数据集进行拟人修改,获得标注增强数据集,包括:
通过专家对样本标注数据集进行标注,获得专家标注数据结果;
根据专家标注数据结果进行拟人修改,获得样本增强数据集。
一种可行的实施方式中,三种模拟人类错误的修改操作分别为平移、扩张和收缩,并对专家标注序列中的标注片段进行修改。
通过所述三种修改操作,可以对每个文本序列生成大量不同分数的标注序列。
其中,拟人修改是模拟人类错误的修改操作;拟人修改包括对专家标注数据结果进行平移操作、扩张操作和收缩操作。
一种可行的实施方式中,在平移操作中,标注片段的长度保持恒定;向同一个方向同时移动标注片段的左右边界,每次移动一个词的位置,直到该标注片段的边界与整体文本序列的边界或其他标注片段的边界重合。
在扩张操作中,标注片段的长度逐渐增大;向左(或右)移动标注片段的左(或右)边界,每次移动一个词的位置,直到该标注片段的边界与整体文本序列的边界或其他标注片段的边界重合。
在收缩操作中,标注片段的长度逐渐减小;向左(或右)移动标注片段的左(或右)边界,每次移动一个词的位置,直到该标注片段的长度为零。
S5、根据标注增强数据集,对工人选择模型进行可靠性测验,获得可靠的工人选择模型。
一种可行的实施方式中,选取合适的生成标注的总体目标是保证每个工人的平均分数在数据增强前后保持不变。
针对每个工人逐次选取每个文本序列上的标注。若该工人在该句上有真实标注,则直接选取其真实标注;若没有真实标注,则比较已选取标注的平均分数与该工人全部真实标注的平均分数,前者较大则选取分数偏低的生成标注,后者较大则选取分数偏高的生成标注。
S6、将待标注数据集和待选择众包工人集合输入可靠的工人选择模型,获得众包工人最优选择。
一种可行的实施方式中,本发明公开一种面向文本序列标注的高性价比众包工人选择与数据增强方法。该方法能够在线上众包标注过程中,动态的评估众包工人的表现,并以此为标准选取合适的工人组合进行后续的标注任务。同时,该方法能对文本序列标注生成大量且平衡的模拟数据集,从而使不同工人选择方法之间的对比分析成为可能。
本发明提出一种面向文本序列的高性价比众包工人选择方法,采用的工人选择系统基于组合多臂老虎机算法,使用多数投票结合专家标注对工人的标注质量进行评测。数据增强方法通过平移、扩展和收缩三类修改操作,生成真实质量的众包标注,从而实现了对工人选择系统的离线评估。本发明有效解决了文本标注任务的众包工人选择问题,提高了注释的质量,降低了总体成本。
图2是根据一示例性实施例示出的一种面向文本序列的高性价比众包工人选择装置框图。参照图2,该装置包括:
数据采集模块210,用于获得样本标注数据集和众包工人集合;
模型建立模块220,用于建立工人选择初步模型;
模型训练模块230,用于根据样本标注数据集和众包工人集合,对工人选择初步模型进行训练,获得工人选择模型;
数据增强模块240,用于对样本标注数据集进行拟人修改,获得标注增强数据集;
模型测验模块250,用于根据标注增强数据集,对工人选择模型进行可靠性测验,获得可靠的工人选择模型;
工人选择模块260,用于将待标注数据集和待选择众包工人集合输入可靠的工人选择模型,获得众包工人最优选择。
其中,样本标注数据集由长度不等的待标注样本文本序列组成。
其中,工人选择初步模型根据组合多臂老虎机模型和组合置信上界算法进行构建。
可选地,模型训练模块230,进一步用于:
根据样本标注数据集给众包工人集合中的工人分配标注任务,获得第一标注任务结果;
根据第一标注任务结果进行测评,获得工人初始平均分数;
根据工人初始平均分数以及众包工人集合,对工人选择初步模型进行训练,获得工人选择模型。
可选地,模型训练模块230,进一步用于:
S31、设置标注数据集中需要标注的轮次总数为N,当前标注轮次为i,令i=1,众包工人从第1轮到第i轮的平均分数为Fi,F0为工人初始平均分数;
S32、判断i是否大于N,如果i大于N,则执行步骤S35,如果i小于等于N,则执行步骤S33;
S33、根据工人选择初步模型和众包工人平均分数Fi-1,从工人中选择平均分数最高的n个工人进行标注工作,获得第i标注任务结果;
S34、根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,其中,标注任务结果为第i次工人对样本标注数据集标注的标注结果,众包工人平均分数为第i次标注后的众包工人平均分数Fi,令i=i+1;执行步骤S32;
S35、标注任务停止,获得众包工人平均分数Fi;根据众包工人平均分数Fi,获得工人选择模型。
可选地,模型训练模块230,进一步用于:
根据众包工人的标注任务结果进行计算,得到一致性指标;
根据一致性指标和预设的指标阈值进行计算,获得当前标注轮次众包工人的平均分数。
可选地,数据增强模块240,进一步用于:
通过专家对样本标注数据集进行标注,获得专家标注数据结果;
根据专家标注数据结果进行拟人修改,获得样本增强数据集。
其中,拟人修改是模拟人类错误的修改操作;拟人修改包括对专家标注数据结果进行平移操作、扩张操作和收缩操作。
本发明提出一种面向文本序列的高性价比众包工人选择方法,采用的工人选择系统基于组合多臂老虎机算法,使用多数投票结合专家标注对工人的标注质量进行评测。数据增强方法通过平移、扩展和收缩三类修改操作,生成真实质量的众包标注,从而实现了对工人选择系统的离线评估。本发明有效解决了文本标注任务的众包工人选择问题,提高了注释的质量,降低了总体成本。
图3是本发明实施例提供的一种电子设备300的结构示意图,该电子设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)301和一个或一个以上的存储器302,其中,所述存储器302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现上述一种面向文本序列的高性价比众包工人选择方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述一种面向文本序列的高性价比众包工人选择方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述方法包括:
S1、获得样本标注数据集和众包工人集合;
S2、建立工人选择初步模型;
S3、根据所述样本标注数据集和所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型;
S4、对所述样本标注数据集进行拟人修改,获得标注增强数据集;
S5、根据所述标注增强数据集,对所述工人选择模型进行可靠性测验,获得可靠的工人选择模型;
S6、将待标注数据集和待选择众包工人集合输入所述可靠的工人选择模型,获得众包工人最优选择。
2.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述样本标注数据集由长度不等的待标注样本文本序列组成。
3.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述工人选择初步模型根据组合多臂老虎机模型和组合置信上界算法进行构建。
4.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述根据所述样本标注数据集和所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型,包括:
根据所述样本标注数据集给所述众包工人集合中的工人分配标注任务,获得第一标注任务结果;
根据所述第一标注任务结果进行测评,获得工人初始平均分数;
根据所述工人初始平均分数以及所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型。
5.根据权利要求4所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述根据所述工人初始平均分数以及所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型,包括:
S31、设置所述标注数据集中需要标注的轮次总数为N,当前标注轮次为i,令i=1,众包工人从第1轮到第i轮的平均分数为Fi,F0为工人初始平均分数;
S32、判断i是否大于N,如果i大于N,则执行步骤S35,如果i小于等于N,则执行步骤S33;
S33、根据所述工人选择初步模型和众包工人平均分数Fi-1,从工人中选择平均分数最高的n个工人进行标注工作,获得第i标注任务结果;
S34、根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,其中,所述标注任务结果为第i次工人对样本标注数据集标注的标注结果,所述众包工人平均分数为第i次标注后的众包工人平均分数Fi,令i=i+1;执行步骤S32;
S35、标注任务停止,获得众包工人平均分数Fi;根据所述众包工人平均分数Fi,获得工人选择模型。
6.根据权利要求5所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,包括:
根据众包工人的标注任务结果进行计算,得到一致性指标;
根据所述一致性指标和预设的指标阈值进行计算,获得当前标注轮次众包工人的平均分数。
7.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述对所述样本标注数据集进行拟人修改,获得标注增强数据集,包括:
通过专家对所述样本标注数据集进行标注,获得专家标注数据结果;
根据所述专家标注数据结果进行拟人修改,获得样本增强数据集。
8.根据权利要求7所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述拟人修改是模拟人类错误的修改操作;所述拟人修改包括对所述专家标注数据结果进行平移操作、扩张操作和收缩操作。
9.一种面向文本序列的高性价比众包工人选择装置,其特征在于,所述装置包括:
数据采集模块,用于获得样本标注数据集和众包工人集合;
模型建立模块,用于建立工人选择初步模型;
模型训练模块,用于根据所述样本标注数据集和所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型;
数据增强模块,用于对所述样本标注数据集进行拟人修改,获得标注增强数据集;
模型测验模块,用于根据所述标注增强数据集,对所述工人选择模型进行可靠性测验,获得可靠的工人选择模型;
工人选择模块,用于将待标注数据集和待选择众包工人集合输入所述可靠的工人选择模型,获得众包工人最优选择。
10.根据权利要求9所述的一种面向文本序列的高性价比众包工人选择装置,其特征在于,所述模型训练模块,进一步用于:
S31、设置所述标注数据集中需要标注的轮次总数为N,当前标注轮次为i,令i=1,众包工人从第1轮到第i轮的平均分数为Fi,F0为工人初始平均分数;
S32、判断i是否大于N,如果i大于N,则执行步骤S35,如果i小于等于N,则执行步骤S33;
S33、根据所述工人选择初步模型和众包工人平均分数Fi-1,从工人中选择平均分数最高的n个工人进行标注工作,获得第i标注任务结果;
S34、根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,其中,所述标注任务结果为第i次工人对样本标注数据集标注的标注结果,所述众包工人平均分数为第i次标注后的众包工人平均分数Fi,令i=i+1;执行步骤S32;
S35、标注任务停止,获得众包工人平均分数Fi;根据所述众包工人平均分数Fi,获得工人选择模型。
CN202310284736.5A 2023-03-22 2023-03-22 一种面向文本序列的高性价比众包工人选择方法及装置 Active CN115994675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310284736.5A CN115994675B (zh) 2023-03-22 2023-03-22 一种面向文本序列的高性价比众包工人选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310284736.5A CN115994675B (zh) 2023-03-22 2023-03-22 一种面向文本序列的高性价比众包工人选择方法及装置

Publications (2)

Publication Number Publication Date
CN115994675A true CN115994675A (zh) 2023-04-21
CN115994675B CN115994675B (zh) 2023-07-04

Family

ID=85993778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310284736.5A Active CN115994675B (zh) 2023-03-22 2023-03-22 一种面向文本序列的高性价比众包工人选择方法及装置

Country Status (1)

Country Link
CN (1) CN115994675B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160162837A1 (en) * 2014-12-05 2016-06-09 Ca, Inc. Collaboration pattern creation by crowdsourcing participants
CN108596335A (zh) * 2018-04-20 2018-09-28 浙江大学 一种基于深度强化学习的自适应众包方法
CN111667152A (zh) * 2020-05-19 2020-09-15 深圳莫比嗨客数据智能科技有限公司 一种基于众包的文本类数据标定任务的自动审核方法
CN112214978A (zh) * 2020-10-10 2021-01-12 金蝶云科技有限公司 一种数据处理方法及相关设备
CN113673957A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 文本数据的离线众包标注方法
CN113947270A (zh) * 2020-07-17 2022-01-18 深圳莫比嗨客树莓派智能机器人有限公司 一种用于提高众包任务标注质量的方法
CN114357284A (zh) * 2021-12-17 2022-04-15 合肥工业大学 基于深度学习的众包任务个性化推荐方法和系统
CN115130888A (zh) * 2022-07-11 2022-09-30 山东大学 一种基于自步学习的众包任务分配方法及系统
CN115292296A (zh) * 2022-06-29 2022-11-04 宁波大学 一种基于联邦学习提高众包标注数据质量的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160162837A1 (en) * 2014-12-05 2016-06-09 Ca, Inc. Collaboration pattern creation by crowdsourcing participants
CN108596335A (zh) * 2018-04-20 2018-09-28 浙江大学 一种基于深度强化学习的自适应众包方法
CN111667152A (zh) * 2020-05-19 2020-09-15 深圳莫比嗨客数据智能科技有限公司 一种基于众包的文本类数据标定任务的自动审核方法
CN113947270A (zh) * 2020-07-17 2022-01-18 深圳莫比嗨客树莓派智能机器人有限公司 一种用于提高众包任务标注质量的方法
CN112214978A (zh) * 2020-10-10 2021-01-12 金蝶云科技有限公司 一种数据处理方法及相关设备
CN113673957A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 文本数据的离线众包标注方法
CN114357284A (zh) * 2021-12-17 2022-04-15 合肥工业大学 基于深度学习的众包任务个性化推荐方法和系统
CN115292296A (zh) * 2022-06-29 2022-11-04 宁波大学 一种基于联邦学习提高众包标注数据质量的方法
CN115130888A (zh) * 2022-07-11 2022-09-30 山东大学 一种基于自步学习的众包任务分配方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于东: ""基于众包标注的语文教材句子难易度评估研究"", 《中文信息学报》, vol. 34, no. 2, pages 16 - 26 *

Also Published As

Publication number Publication date
CN115994675B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN108399414B (zh) 应用于跨模态数据检索领域的样本选择方法及装置
US10997503B2 (en) Computationally efficient neural network architecture search
US20180365557A1 (en) Information processing method and information processing apparatus
CN111259772B (zh) 图像标注方法、装置、设备和介质
CN106845530A (zh) 字符检测方法和装置
JP7295189B2 (ja) ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体
US11907821B2 (en) Population-based training of machine learning models
US20170206154A1 (en) System and method for determining quality metrics for a question set
CN113326852A (zh) 模型训练方法、装置、设备、存储介质及程序产品
EP4290351A1 (en) Environment modeling method and apparatus based on decision flow graph, and electronic device
CN105786898B (zh) 一种领域本体的构建方法和装置
CN108241625A (zh) 预测学生成绩变化趋势的方法及系统
US11615294B2 (en) Method and apparatus based on position relation-based skip-gram model and storage medium
CN115239508A (zh) 基于人工智能的场景规划调整方法、装置、设备及介质
CN115994675B (zh) 一种面向文本序列的高性价比众包工人选择方法及装置
CN114037052A (zh) 检测模型的训练方法、装置、电子设备及存储介质
CN116366324A (zh) 一种网络靶场中演练人员行为的分析方法及装置
US20220300836A1 (en) Machine Learning Techniques for Generating Visualization Recommendations
US20220207401A1 (en) Optimization device, optimization method, and program
CN115840867A (zh) 数学解题模型的生成方法、装置、电子设备和存储介质
CN112925913A (zh) 用于匹配数据的方法、装置、设备和计算机可读存储介质
CN112507082A (zh) 一种智能识别不当文本交互的方法、装置和电子设备
CN112766347A (zh) 一种结合标注质量控制的主动学习方法
JPWO2020085374A1 (ja) 熟練指数提供装置、熟練指数提供方法、及びプログラム
Chida et al. Enhanced Encoding with Improved Fuzzy Decision Tree Testing Using CASP Templates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant