CN115983606A - 众包任务库的更新方法、系统及电子设备 - Google Patents

众包任务库的更新方法、系统及电子设备 Download PDF

Info

Publication number
CN115983606A
CN115983606A CN202310129657.7A CN202310129657A CN115983606A CN 115983606 A CN115983606 A CN 115983606A CN 202310129657 A CN202310129657 A CN 202310129657A CN 115983606 A CN115983606 A CN 115983606A
Authority
CN
China
Prior art keywords
task
tasks
library
terminals
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310129657.7A
Other languages
English (en)
Inventor
陈佳锋
林叶新
张倩
葛明曦
孔祥瑞
胡志伟
许璐
陶凯伦
向艳霞
刘思彦
刘柏
范长杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202310129657.7A priority Critical patent/CN115983606A/zh
Publication of CN115983606A publication Critical patent/CN115983606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种众包任务库的更新方法、系统及电子设备,根据任务库中的已标注任务,从多个参与终端中确定多个第一终端;向多个第一终端提供各自对应的第一任务集合;接收多个第一终端提交的任务标注结果;根据同一第一任务的多个标注信息,判断是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。该方式可以根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;在从多个第一终端提交的任务标注结果中,确认收敛出真值的目标第一任务后,可以将该目标第一任务及其真值保存到任务库中,以不断更新任务库中的已标注任务,由于不需要任务发布者手动配置,从而可以减少任务发布者的工作量,提高任务发布效率。

Description

众包任务库的更新方法、系统及电子设备
技术领域
本发明涉及众包标注技术领域,尤其是涉及一种众包任务库的更新方法、系统及电子设备。
背景技术
众包平台可以为任务发布者提供任务标注服务,为标注员提供数据标注平台,任务发布者通过该平台发布任务,标注员通过该平台自愿主动领取标注任务,并在完成标注任务后获得报酬,标注员在领取标注任务前,通常需要先对该标注员的能力进行筛选,相关技术中,任务发布者每次发布任务时都需要设置考试题目,并为每个考试题目手动配置考试题目答案,该方式增加了任务发布者的工作量,降低了任务发布效率。
发明内容
本发明的目的在于提供一种众包任务库的更新方法、系统及电子设备,以减少任务发布者的工作量,提高任务发布效率。
本发明提供的一种众包任务库的更新方法,通过众包服务器提供任务库,其中,任务库中至少存在一部分待标注任务,方法包括:根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务;接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息;根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。
本发明提供的一种众包任务库的更新系统,包括众包服务器和多个终端;众包服务器用于根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务;所述第一终端用于对所述第一任务集合中的第一任务进行任务标注,向所述众包服务器反馈任务标注结果;所述众包服务器还用于接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息;根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。
本发明提供的一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述任一项的众包任务库的更新方法。
本发明提供的一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述任一项的众包任务库的更新方法。
本发明提供的众包任务库的更新方法、系统及电子设备,根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务;接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息;根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。该方式可以根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;在从多个第一终端提交的任务标注结果中,确认收敛出真值的目标第一任务后,可以将该目标第一任务及其真值保存到任务库中,以不断更新任务库中的已标注任务,由于不需要任务发布者手动配置,从而可以减少任务发布者的工作量,提高任务发布效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种众包任务库的更新方法的流程图;
图2为本发明实施例提供的一种众包任务库的更新方法的流程图;
图3为本发明实施例提供的一种众包任务库的更新系统的示意图;
图4为本发明实施例提供的一种众包任务库的更新系统的示意图
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
众包平台可以为企业或者个人(任务发布者)提供任务标注服务,为广大劳动者(标注员)提供数据标注平台,企业或者个人(任务发布者)通过标注平台将发布任务,广大劳动者(标注员)通过标注平台自愿主动领取完成标注任务,并在完成标注任务后获得报酬。标注员在领取标注任务前,通常需要先对该标注员的能力进行筛选,现有的设置考试题库方案中,任务发布者在每次任务创建时都需要设置考试题目,并且需要自己手动配置考试题目信息,从所创建的任务中抽取符合考试题目数量的数据作为考试题目,并逐题设置题目答案。该方式发布任务效率低,每次发布任务都需要设置考试题目答案,增加了任务发布者的工作时间;并且,当考试题目设置过多时,每次发布需要把大部分数据抽取出来作为考试题目;另外,考试题目答案过于主观,考试题答案由任务发布者一个人设置,存在个人主观错误或者误操作导致答案有误的问题。基于此,本发明实施例提供了一种众包任务库的更新方法、系统及电子设备,该技术可以应用于众包标注的应用中。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种众包任务库的更新方法进行介绍,通过众包服务器提供任务库,其中,任务库中至少存在一部分待标注任务,在实际实现时,该任务库中通常同时存在一部分待标注任务和一部分已标注任务;每个已标注任务具有其对应的标注信息,比如,如果任务库为试题答案标注任务库,则待标注任务为还未标注试题答案的试题,已标注任务为已标注有试题答案的试题;如图1所示,方法包括:
步骤S102,根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端。
上述参与终端可以理解为参与众包标注的用户所对应的终端;在实际实现时,当众包任务发布者通过众包服务器发布标注任务后,通常会有众多的用户参与到该标注任务的标注中,然而,由于不同用户的能力参差不齐,任务发布者通常会对参与的众多用户进行能力筛选,具体的,众包服务器可以根据任务库中的已标注任务,从多个用户对应的多个参与终端中筛选出能力符合要求的多个第一终端,比如,从已标注任务中抽取一定数量的任务发送至多个参与终端,由每个参与终端对应的用户对接收到的任务进行试标,如果试标通过,则可以认为该参与终端对应的用户的能力符合要求,可以将该参与终端作为第一终端等;多个第一终端对应的用户即为可以参与到后续标注任务并获取相应报酬的合格的标注员。
步骤S104,向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务。
当确定多个第一终端后,可以从任务库中获取每个第一终端分别对应的第一任务集合,每个第一任务集合中通常包括多个第一任务,且每个第一任务均为待标注任务;不同的第一终端对应的第一任务集合可以是完全相同的集合,也可以是不完全相同的集合,如果是不完全相同的集合,则不同的第一任务集合中通常存在至少一部分相同的第一任务;将获取到的每个第一终端对应的第一任务集合发送至对应的第一终端。
步骤S106,接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息。
每个第一终端接收到对应的第一任务集合后,该第一终端对应的标注员可以对第一任务集合中的每个第一任务标注对应的标注信息,比如,如果该第一任务集合中的每个第一任务为试题,则每个试题对应的标注信息即为试题答案,标注员为每个试题标注的试题答案可能是正确的答案,也可能是错误的答案;标注员在标注完成每个第一任务后,可以通过对应的第一终端向众包服务器提交该第一任务集合对应的任务标注结果。
步骤S108,根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值。
在接收到多个第一终端针对各自对应的第一任务集合提交的任务标注结果后,可以根据接收到的多个任务标注结果,获取同一第一任务对应的多个标注信息,判断多个标注信息是否收敛出真值,其中,同一第一任务可能只存在于部分第一任务集合中,比如,多个任务标注结果包括:任务标注结果1、任务标注结果2、任务标注结果3和任务标注结果4,其中,任务标注结果1中包括任务A对应的标注信息1、任务标注结果2中包括任务A对应的标注信息2,任务标注结果4中包括任务A对应的标注信息3,该标注信息1、标注信息2和标注信息3可能相同或不同,可以根据标注信息1、标注信息2和标注信息3,判断该任务A的标注信息是否收敛出真值,比如,如果标注信息1、标注信息2和标注信息3均相同,可以认为该任务A的标注信息收敛出真值;如果标注信息1、标注信息2和标注信息3均不相同,可以认为该任务A的标注信息未收敛出真值等。
步骤S110,应用收敛出真值的目标第一任务及其真值更新任务库。
从多个第一任务集合的多个第一任务中,选取收敛出真值的目标第一任务,该目标第一任务的数量可能是一个或多个,将该目标第一任务及其收敛出的真值保存至任务库,该目标第一任务即成为任务库中的已标注任务,对于除目标第一任务外的其他第一任务,由于还未收敛出真值,表示还未确认出其他第一任务中的每个第一任务的正确标注结果,不会应用这部分第一任务更新任务库。
上述众包任务库的更新方法,根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务;接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息;根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。该方式可以根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;在从多个第一终端提交的任务标注结果中,确认收敛出真值的目标第一任务后,可以将该目标第一任务及其真值保存到任务库中,以不断更新任务库中的已标注任务,由于不需要任务发布者手动配置,从而可以减少任务发布者的工作量,提高任务发布效率。
在一可选的实施方式中,该方法在上述实施例方法的基础上实现,如图2所示,该方法包括如下步骤:
步骤S202,从任务库中选取预设数量的任务,得到第二任务集合;其中,第二任务集合中的第二任务在任务库中均对应有标注信息。
上述预设数量可以根据需要试标的任务数量进行确定,比如,如果任务库为试题答案标注任务库,任务发布者预先设置一次考试的题目数为20题,则可以从任务库中选取20个任务作为考试题目,其中,作为考试题目的每个任务均对应有标注信息,该标注信息为所配置的正确标注答案,即,作为考试题目的每个任务均为已标注任务,得到上述第二任务集合。
上述任务库通过下述步骤一和步骤二创建:
步骤一,接收任务库的初始创建操作,根据初始创建操作设置第一数量的待标注任务,设置第二数量的带有标注信息的已标注任务;其中,第一数量大于第二数量,且第二数量与第二任务集合中的第二任务的预设数量相等。
为方便说明,以任务库为试题答案标注任务库为例,在实际实现时,众包任务发布者可以通过操作对应的终端设备创建任务库,通过终端设备导入题目数据,同时可以设置一次考试题目数和合格题数量,根据所设置的一次考试题目数,从所导入的题目数据中抽离出符合一次考试题目数量的试题作为考试题,众包任务发布者可以为抽离出的考试题设置题目答案,作为初始创建的任务库中的已标注任务,剩余的待标注的题目数据即对应上述待标注任务,通常情况下,从中抽离出的考试题目数通常只占所导入的题目数据的一小部分,因此,剩余的待标注任务对应的第一数量通常大于已标注任务对应的第二数量。
步骤二,将第一数量的待标注任务和第二数量的已标注任务组成任务库。
上述任务库包括以下至少一种:试题答案标注任务库、图像标注任务库、视频标注任务库、文本标注任务库或音频标注任务库。即,任务发布者可以根据实际需求发布不同类型的任务,具体实现时,任务发布者可以通过对应的终端设备上传题目数据压缩包,题目数据可以按照文件夹进行区分,并完善相应的任务相关信息,包括任务类型、任务名称,任务描述等核心信息,其中任务类型可以包括试题、图像、视频、文本、音频等;同时可以配置任务是否需要对标注员能力进行筛选,如果需要,则配置任务需要试标,并指定用户每次试标的题目数以及用户可以参与的试标次数,另外,还需要设置及格的题目数,参与试标的用户只有答对等于或超过及格的题目数才算试标通过,通过任务发布者指定的每次试标题目数,从任务创建的数据中抽取对应题目数的试题,由任务发布者一一进行题目答案设置,这部分试题可以作为原始的任务库中的已标注任务。
步骤S204,根据第二任务集合和第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端。
该步骤S204具体可以通过以下步骤三至步骤四实现:
步骤三,接收多个参与终端针对第二任务集合提交的任务试标结果;其中,任务试标结果包括每个第二任务对应的试标信息。
每个参与终端接收到第二任务集合后,该参与终端对应的用户可以对第二任务集合中的每个第二任务标注对应的试标信息,比如,如果该第二任务集合中的每个第二任务为试题,则每个第二任务对应的试标信息即为用户对该第二任务试标的试题答案,该试题答案可能正确,也可能不正确;用户在试标完成每个第二任务后,可以通过对应的参与终端向众包服务器提交该第二任务集合对应的任务试标结果。
步骤四,针对每个参与终端,将该参与终端提交的每个第二任务对应的试标信息与该第二任务集合中的第二任务的标注信息进行比对,如果结果相同的第二任务的数量达到预设数量,将该参与终端确定为第一终端。
上述第二任务的标注信息为每个第二任务对应的正确标注答案;上述预设数量通常是任务发布者所设置的对第二任务集合中的第二任务试标合格的数量;对于每个参与终端来说,在获取到该参与终端提交的每个第二任务对应的试标信息后,可以将每个第二任务对应的试标信息与其对应的标注信息进行比对,即与其对应的正确标注答案进行比对,如果该参与终端对该第二任务的试标信息与其对应的正确标注答案相同,表示该参与终端对该第二任务的试标信息正确,否则,表示该参与终端对该第二任务的试标信息不正确,因此,通过比对,可以确认该参与终端对应的试标信息正确的第二任务的数量,当该数量大于或等于预设数量时,可以认为该参与终端对应的用户已通过筛选,可以将该参与终端确定为第一终端;当该参与终端对应的试标信息正确的第二任务的数量小于预设数量时,可以认为该参与终端对应的用户未通过筛选,此时,不会将该参与终端确定为第一终端。通过上述过程,即可从多个参与终端中筛选出合格的第一终端。
步骤S206,向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务。
步骤S208,接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息。
步骤S210,对同一第一任务对应的多个标注信息进行计算,得到该第一任务的收敛结果;其中,收敛结果用于指示该第一任务对应的多个标注信息已收敛或未收敛。
当接收到多个第一终端针对各自对应的第一任务集合提交的任务标注结果后,可以调用质检算法服务,对同一第一任务对应的多个标注信息进行计算,该质检算法服务可以基于Wilson score interval(威尔逊置信区间)的增量收敛计算,对同一第一任务对应的多个标注信息进行计算,确认多个标注信息是否收敛,如果多个标注信息收敛,比如,多个标注信息满足正态分布,则该第一任务的收敛结果为已收敛,如果多个标注信息未收敛,比如,多个标注信息还未满足正态分布,则该第一任务的收敛结果为未收敛,具体确认是否收敛的过程可以参考相关技术,在此不再赘述。
步骤S212,如果该第一任务的收敛结果指示该第一任务对应的多个标注信息已收敛,按预设质检方式对该第一任务对应的多个标注信息进行真值推断,得到该第一任务对应的真值。
如果该第一任务的收敛结果指示该第一任务对应的多个标注信息已收敛,此时可以按预设质检方式,如Expectation Maximization Algorithm(最大期望算法)对已收敛的第一任务进行真值推断,确认该第一任务的收敛答案,即该第一任务对应的真值,比如,如果该第一任务对应的多个标注信息已收敛,可以认为多个标注信息已满足正态分布,此时可以根据正态分布结果统计出真值。具体进行真值推断的过程可以参考相关技术,在此不再赘述。
步骤S214,如果该第一任务的收敛结果指示该第一任务对应的多个标注信息未收敛,重复执行根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端的步骤,直至得到该第一任务对应的真值。
如果该第一任务的收敛结果指示该第一任务对应的多个标注信息未收敛,比如,多个标注信息还未满足正态分布,这种情况下通常需要重复执行根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端的步骤,以让更多标注者参与标注,拿到更多对该第一任务的标注信息,重复执行上述过程,直至得到该第一任务对应的真值。
步骤S216,应用收敛出真值的目标第一任务及其真值更新任务库。
上述众包任务库的更新方法,从任务库中选取预设数量的任务,得到第二任务集合;根据第二任务集合和第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端。向多个第一终端提供任务库中的各自对应的第一任务集合;接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;对同一第一任务对应的多个标注信息进行计算,得到该第一任务的收敛结果;如果该第一任务的收敛结果指示该第一任务对应的多个标注信息已收敛,按预设质检方式对该第一任务对应的多个标注信息进行真值推断,得到该第一任务对应的真值。如果该第一任务的收敛结果指示该第一任务对应的多个标注信息未收敛,重复执行根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端的步骤,直至得到该第一任务对应的真值。应用收敛出真值的目标第一任务及其真值更新任务库。该方式可以根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;在从多个第一终端提交的任务标注结果中,确认收敛出真值的目标第一任务后,可以将该目标第一任务及其真值保存到任务库中,以不断更新任务库中的已标注任务,由于不需要任务发布者手动配置,从而可以减少任务发布者的工作量,提高任务发布效率。
本发明实施例提供了一种众包任务库的更新系统,如图3所示,包括众包服务器30和多个终端31;
众包服务器30用于根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务;第一终端用于对第一任务集合中的第一任务进行任务标注,向众包服务器30反馈任务标注结果;众包服务器30还用于接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息;根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。
上述众包任务库的更新系统,可以根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;在从多个第一终端提交的任务标注结果中,确认收敛出真值的目标第一任务后,可以将该目标第一任务及其真值保存到任务库中,以不断更新任务库中的已标注任务,由于不需要任务发布者手动配置,从而可以减少任务发布者的工作量,提高任务发布效率。
在一可选的实施方式中,众包服务器还用于从任务库中选取预设数量的任务,得到第二任务集合;根据第二任务集合和第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端;其中,第二任务集合中的第二任务在任务库中均对应有标注信息。
为方便理解,参见图4所示的一种众包任务库的更新系统的示意图,包括B端、C端(对应上述系统中的多个终端)和质检算法服务(运行于众包服务器),其中,B端面向任务发布的企业和个人,企业和个人通过众包B端创建发布标注任务,验收标注结果等;C端面向广大数据标注员,标注员通过众包C端平台自愿领取参与任务标注并获取报酬。质检算法服务可以基于Wilson score interval的增量收敛计算,对标注员提交的题目答案进行计算,确认题目答案是否收敛;基于Expectation Maximization Algorithm对已收敛的题目进行真值推断,确认题目收敛答案。任务发布者为众包B端面向的用户,是数据标注需求方,提供标注数据。标注员为众包C端面向的用户,通过C端平台完成任务发布者的标注任务并获得报酬。
该图4以试题答案标注任务库为例进行说明,具体实现时,任务发布者可以通过B端创建任务,将任务对应的题目数据通过B端进行导入,同时设置一次考试题目数和合格题数,并从题目数据中抽离出一次考试题目数量的试题作为考试题,设置题目答案,作为初始题库中的题目(对应上述第二数量的带有标注信息的已标注任务);比如,用户每次考试20题,就可以设置20题作为考试题目;通过配置的考试题,对标注员进行能力进行筛选,保证标注结果的准确性和可靠性。C端用户(数据标注员)通过C端平台领取初始题库中的题目进行考试,考试通过后即可领取对应任务的题目,并进行作答,答题结果通过众包服务器调用质检算法服务确认题目答案是否收敛,并对收敛后的题目进行真值推断,确认题目最终收敛答案,质检算法服务将真值回调众包服务器,众包服务器将已有真值题目回流到考试题库中,作为考试试题;当不断有任务题目收敛确认出真值,就可以不断回流考试题库。
由于考试题目需要根据正确答案判断用户是否答对,因此,未收敛出真值的题目不会作为考试题回流到考试题库中,当其他用户进行考试时,回流的题目就可以作为考试题对标注员能力进行考察。
上述众包任务库的更新系统,在任务创建时仅设置一份考试题目数对应的试题即可满足需求,后续收敛出真值的题目会不断更新到考试题库中,后续任务创建者在创建任务时,可以从该考试题库中抽取考试题目,不需要再单独为抽取的考试题目配置结果,从而可以减少任务发布时长,提升任务发布者的工作效率。
该系统采用的更新方式可以尽量保证标注数据完整性,比如,只需要设置考试题目数量的题目作为初始题库即可,剩下的题目数据都可以作为任务题目,即仅仅占用考试题目数所用试题,从而可以减少考试题目占用过多标注数据;当标注数据越大,影响就越小;比如说,有100道题需要作为任务题目给到C端用户标注,如果设置的考试题目数为20题,则需要从上传的这100道题中最少需要抽出20题的数据作为考试题,剩下80题,损失了20%的数据量。如果,有十万的数据量需要给到C端用户标注,这时候,抽出20题作为考试题,还有99980题可以作为任务题目给到C端标注,损失率仅为0.02%。
此外,本系统中的考试题目答案由多个用户标注共同答题收敛确认,保证了准确性和可靠性,不会因为个人主观因素导致答案有误。并且,考试题库中的题目不断更新,保证考试题库题目量,题目量越大,选考试题的随机性也大,确保标注员每次考试题目尽可能选未考过题目。
本公开实施例还提供了一种电子设备,参见图5所示,该电子设备包括处理器160和存储器161,该存储器161存储有能够被处理器130执行的机器可执行指令,该处理器160执行机器可执行指令以实现上述众包任务库的更新方法。
进一步地,图5所示的电子设备还包括总线162和通信接口163,处理器160、通信接口163和存储器161通过总线162连接。
其中,存储器161可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口163(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线162可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器160可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器160中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器160可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器161,处理器160读取存储器161中的信息,结合其硬件完成前述实施例的方法的步骤,通过众包服务器提供任务库,其中,任务库中至少存在一部分待标注任务,具体执行以下步骤:
根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务;接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息;根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。
其具体实施例和具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在一可选的实施方式中,处理器在执行根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端时,具体用于:从任务库中选取预设数量的任务,得到第二任务集合;其中,第二任务集合中的第二任务在任务库中均对应有标注信息;根据第二任务集合和第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端。
在一可选的实施方式中,处理器在执行根据第二任务集合和第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端时,具体用于:接收多个参与终端针对第二任务集合提交的任务试标结果;其中,任务试标结果包括每个第二任务对应的试标信息;针对每个参与终端,将该参与终端提交的每个第二任务对应的试标信息与该第二任务集合中的第二任务的标注信息进行比对,如果结果相同的第二任务的数量达到预设数量,将该参与终端确定为第一终端。
在一可选的实施方式中,处理器还用于:接收任务库的初始创建操作,根据初始创建操作设置第一数量的待标注任务,设置第二数量的带有标注信息的已标注任务;其中,第一数量大于第二数量,且第二数量与第二任务集合中的第二任务的预设数量相等;将第一数量的待标注任务和第二数量的已标注任务组成任务库。
在一可选的实施方式中,处理器在执行根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值时,具体用于:对同一第一任务对应的多个标注信息进行计算,得到该第一任务的收敛结果;其中,收敛结果用于指示该第一任务对应的多个标注信息已收敛或未收敛;如果该第一任务的收敛结果指示该第一任务对应的多个标注信息已收敛,按预设质检方式对该第一任务对应的多个标注信息进行真值推断,得到该第一任务对应的真值;如果该第一任务的收敛结果指示该第一任务对应的多个标注信息未收敛,重复执行根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端的步骤,直至得到该第一任务对应的真值。
在一可选的实施方式中,任务库包括以下至少一种:试题答案标注任务库、图像标注任务库、视频标注任务库、文本标注任务库或音频标注任务库。
通过上述方式,根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务;接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息;根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。该方式可以根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;在从多个第一终端提交的任务标注结果中,确认收敛出真值的目标第一任务后,可以将该目标第一任务及其真值保存到任务库中,以不断更新任务库中的已标注任务,由于不需要任务发布者手动配置,从而可以减少任务发布者的工作量,提高任务发布效率。
本公开实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器执行以下步骤:
根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务;接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息;根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。
其具体实施例和具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在一可选的实施方式中,处理器在执行根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端时,具体用于:从任务库中选取预设数量的任务,得到第二任务集合;其中,第二任务集合中的第二任务在任务库中均对应有标注信息;根据第二任务集合和第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端。
在一可选的实施方式中,处理器在执行根据第二任务集合和第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端时,具体用于:接收多个参与终端针对第二任务集合提交的任务试标结果;其中,任务试标结果包括每个第二任务对应的试标信息;针对每个参与终端,将该参与终端提交的每个第二任务对应的试标信息与该第二任务集合中的第二任务的标注信息进行比对,如果结果相同的第二任务的数量达到预设数量,将该参与终端确定为第一终端。
在一可选的实施方式中,处理器还用于:接收任务库的初始创建操作,根据初始创建操作设置第一数量的待标注任务,设置第二数量的带有标注信息的已标注任务;其中,第一数量大于第二数量,且第二数量与第二任务集合中的第二任务的预设数量相等;将第一数量的待标注任务和第二数量的已标注任务组成任务库。
在一可选的实施方式中,处理器在执行根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值时,具体用于:对同一第一任务对应的多个标注信息进行计算,得到该第一任务的收敛结果;其中,收敛结果用于指示该第一任务对应的多个标注信息已收敛或未收敛;如果该第一任务的收敛结果指示该第一任务对应的多个标注信息已收敛,按预设质检方式对该第一任务对应的多个标注信息进行真值推断,得到该第一任务对应的真值;如果该第一任务的收敛结果指示该第一任务对应的多个标注信息未收敛,重复执行根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端的步骤,直至得到该第一任务对应的真值。
在一可选的实施方式中,任务库包括以下至少一种:试题答案标注任务库、图像标注任务库、视频标注任务库、文本标注任务库或音频标注任务库。
通过上述方式,根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个第一终端提供任务库中的各自对应的第一任务集合;其中,每个第一任务集合中的第一任务均为待标注任务;多个第一任务集合中存在至少一部分相同的第一任务;接收多个第一终端针对各自对应的第一任务集合提交的任务标注结果;其中,任务标注结果包括每个第一任务对应的标注信息;根据同一第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新任务库。该方式可以根据任务库中的已标注任务,从多个参与终端中确定出多个第一终端;在从多个第一终端提交的任务标注结果中,确认收敛出真值的目标第一任务后,可以将该目标第一任务及其真值保存到任务库中,以不断更新任务库中的已标注任务,由于不需要任务发布者手动配置,从而可以减少任务发布者的工作量,提高任务发布效率。
本发明实施例所提供的众包任务库的更新方法、系统及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种众包任务库的更新方法,其特征在于,通过众包服务器提供任务库,其中,所述任务库中至少存在一部分待标注任务,所述方法包括:
根据所述任务库中的已标注任务,从多个参与终端中确定出多个第一终端;
向多个所述第一终端提供所述任务库中的各自对应的第一任务集合;其中,每个所述第一任务集合中的第一任务均为待标注任务;多个所述第一任务集合中存在至少一部分相同的第一任务;
接收多个所述第一终端针对各自对应的所述第一任务集合提交的任务标注结果;其中,所述任务标注结果包括每个所述第一任务对应的标注信息;
根据同一所述第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;
应用收敛出真值的目标第一任务及其真值更新所述任务库。
2.根据权利要求1所述的方法,其特征在于,根据所述任务库中的已标注任务,从多个参与终端中确定出多个第一终端的步骤包括:
从所述任务库中选取预设数量的任务,得到第二任务集合;其中,所述第二任务集合中的第二任务在所述任务库中均对应有标注信息;
根据所述第二任务集合和所述第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端。
3.根据权利要求2所述的方法,其特征在于,根据所述第二任务集合和所述第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端包括:
接收多个参与终端针对所述第二任务集合提交的任务试标结果;其中,所述任务试标结果包括每个所述第二任务对应的试标信息;
针对每个参与终端,将该参与终端提交的每个所述第二任务对应的试标信息与该第二任务集合中的第二任务的标注信息进行比对,如果结果相同的第二任务的数量达到预设数量,将该参与终端确定为第一终端。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
接收所述任务库的初始创建操作,根据所述初始创建操作设置第一数量的待标注任务,设置第二数量的带有标注信息的已标注任务;其中,第一数量大于第二数量,且所述第二数量与所述第二任务集合中的第二任务的预设数量相等;
将所述第一数量的待标注任务和所述第二数量的已标注任务组成任务库。
5.根据权利要求1所述的方法,其特征在于,根据同一所述第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值包括:
对同一所述第一任务对应的多个标注信息进行计算,得到该第一任务的收敛结果;其中,所述收敛结果用于指示该第一任务对应的多个标注信息已收敛或未收敛;
如果该第一任务的收敛结果指示该第一任务对应的多个标注信息已收敛,按预设质检方式对该第一任务对应的多个标注信息进行真值推断,得到该第一任务对应的真值;
如果该第一任务的收敛结果指示该第一任务对应的多个标注信息未收敛,重复执行根据所述任务库中的已标注任务,从多个参与终端中确定出多个第一终端的步骤,直至得到该第一任务对应的真值。
6.根据权利要求1所述的方法,其特征在于,所述任务库包括以下至少一种:试题答案标注任务库、图像标注任务库、视频标注任务库、文本标注任务库或音频标注任务库。
7.一种众包任务库的更新系统,其特征在于,包括众包服务器和多个终端;
所述众包服务器用于根据所述任务库中的已标注任务,从多个参与终端中确定出多个第一终端;向多个所述第一终端提供所述任务库中的各自对应的第一任务集合;其中,每个所述第一任务集合中的第一任务均为待标注任务;多个所述第一任务集合中存在至少一部分相同的第一任务;
所述第一终端用于对所述第一任务集合中的第一任务进行任务标注,向所述众包服务器反馈任务标注结果;
所述众包服务器还用于接收多个所述第一终端针对各自对应的所述第一任务集合提交的任务标注结果;其中,所述任务标注结果包括每个所述第一任务对应的标注信息;根据同一所述第一任务对应的多个标注信息,判断该第一任务的标注信息是否收敛出真值;应用收敛出真值的目标第一任务及其真值更新所述任务库。
8.根据权利要求7所述的系统,其特征在于,
所述众包服务器还用于从所述任务库中选取预设数量的任务,得到第二任务集合;根据所述第二任务集合和所述第二任务集合中的第二任务的标注信息,从多个参与终端中确定出多个第一终端;其中,所述第二任务集合中的第二任务在所述任务库中均对应有标注信息。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-6任一项所述的众包任务库的更新方法。
10.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1-6任一项所述的众包任务库的更新方法。
CN202310129657.7A 2023-02-13 2023-02-13 众包任务库的更新方法、系统及电子设备 Pending CN115983606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310129657.7A CN115983606A (zh) 2023-02-13 2023-02-13 众包任务库的更新方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310129657.7A CN115983606A (zh) 2023-02-13 2023-02-13 众包任务库的更新方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN115983606A true CN115983606A (zh) 2023-04-18

Family

ID=85958134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310129657.7A Pending CN115983606A (zh) 2023-02-13 2023-02-13 众包任务库的更新方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN115983606A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825212A (zh) * 2023-08-29 2023-09-29 山东大学 一种基于生物医学众包平台的数据收集标注方法及系统
CN117196734A (zh) * 2023-09-14 2023-12-08 长沙理工大学 一种众包任务的价值评估方法、系统、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825212A (zh) * 2023-08-29 2023-09-29 山东大学 一种基于生物医学众包平台的数据收集标注方法及系统
CN116825212B (zh) * 2023-08-29 2023-11-28 山东大学 一种基于生物医学众包平台的数据收集标注方法及系统
CN117196734A (zh) * 2023-09-14 2023-12-08 长沙理工大学 一种众包任务的价值评估方法、系统、设备及存储介质
CN117196734B (zh) * 2023-09-14 2024-03-22 长沙理工大学 一种众包任务的价值评估方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN115983606A (zh) 众包任务库的更新方法、系统及电子设备
CN110245716B (zh) 样本标注审核方法及装置
CN109040329B (zh) 联系人标签的确定方法、终端设备及介质
US11226991B2 (en) Interest tag determining method, computer device, and storage medium
CN110610404A (zh) 网络课程推荐方法、装置、系统、电子设备、存储介质
CN111190596A (zh) 联调方法、装置、计算机设备及可读存储介质
CN107122786B (zh) 一种众包学习方法及装置
CN111177081A (zh) 游戏日志内容查询方法、装置、计算机设备和存储介质
CN112416778A (zh) 测试用例推荐方法、装置和电子设备
CN110764999A (zh) 自动化测试方法、装置、计算机装置及存储介质
CN111652383A (zh) 数据贡献度评估方法、装置、设备及存储介质
CN109993315B (zh) 一种数据处理方法、装置及电子设备
CN114820146A (zh) 一种线上招标方法、系统、计算机设备及存储介质
CN109582578B (zh) 软件测试用例的系统、方法、计算机可读介质及电子设备
CN111372089B (zh) 更新活动榜单的方法、装置及存储介质
CN111563037B (zh) 基于测试试题的测试优化方法及装置、存储介质、终端
CN113821443B (zh) 应用程序的功能检测方法、装置、设备及存储介质
CN107784548B (zh) 订单处理方法和装置
CN111405297B (zh) 活动榜单结算方法、装置及存储介质
CN114048291A (zh) 智能会议管理优化方法、装置、设备及可读存储介质
CN111738758A (zh) 评价信息的生成方法、装置、设备及存储介质
CN112241445A (zh) 一种标注方法及装置、电子设备、存储介质
CN111966674A (zh) 标注数据的合格性判断方法、装置和电子设备
CN111159988A (zh) 一种模型处理方法、装置、计算机设备及存储介质
CN113553144B (zh) 数据分发方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination