CN110378617A - 一种样本标注方法、装置、存储介质及设备 - Google Patents
一种样本标注方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN110378617A CN110378617A CN201910681771.4A CN201910681771A CN110378617A CN 110378617 A CN110378617 A CN 110378617A CN 201910681771 A CN201910681771 A CN 201910681771A CN 110378617 A CN110378617 A CN 110378617A
- Authority
- CN
- China
- Prior art keywords
- mark
- marked
- sample
- annotation results
- execution side
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种样本标注方法、装置、存储介质及设备。样本标注方法包括:获取待标注样本集合;确定对待标注样本集合进行标注的标注执行方集合;根据待标注样本集合中各个待标注样本的属性信息、及标注执行方集合中各个标注执行方的标注能力属性信息,将标注执行方集合划分为多个标注组,使得每个标注组的标注效率满足预设标注效率指标;将待标注样本集合发送至多个标注组;根据各个待标注样本的属性信息,及标注组中各个标注执行方的标注能力属性信息,将待标注样本分配至标注组中的各个标注执行方;获取每个待标注样本的多个初始标注结果,并确定最终标注结果。本申请可以在保证标注质量的前提下,提高标注效率。
Description
技术领域
本申请涉及数据标注领域,特别涉及一种样本标注方法、装置、存储介质及设备。
背景技术
在使用机器学习、深度学习及自然语言处理等技术实现各业务领域的应用智能化落地升级的过程中,高质量的标注数据必不可少,数据标注的准确率对于机器最终的识别准确率有着重要影响,因此,需要对标注人员的标注准确率进行严格地把控。
目前,在为标注人员分配标注任务时,通常是将待标注样本平均分配给各个标注人员,使得每个待标注样本被标注一次,并且针对多领域的业务需求、多类型的业务数据、没有考虑各个标注人员的差异,使得数据标注的偶然性较大,难以获得高质量的标注数据;与此同时,若使各个标注人员对所有待标注样本都进行标注,又会使标注效率过低。因此,在保证标注质量的前提下,如何提高标注效率成为亟待解决的问题。
发明内容
本申请实施例的目的是提供一种样本标注方法、装置、存储介质及设备,在保证标注质量的前提下,提高数据标注的效率。
为达到上述目的,本申请实施例提供一种样本标注方法,包括:
获取待标注样本集合;
确定对所述待标注样本集合进行标注的标注执行方集合;
根据所述待标注样本集合中各个待标注样本的属性信息、及所述标注执行方集合中各个标注执行方的标注能力属性信息,将所述标注执行方集合划分为多个标注组,使得每个标注组的标注效率满足预设标注效率指标;
将所述待标注样本集合发送至所述多个标注组;
根据各个待标注样本的属性信息,及标注组中各个标注执行方的标注能力属性信息,将待标注样本分配至标注组中的各个标注执行方;
获取每个待标注样本的多个初始标注结果,并确定最终标注结果。
优选的,根据所述待标注样本集合中各个待标注样本的属性信息、及所述标注执行方集合中各个标注执行方的标注能力属性信息,将所述标注执行方集合划分为多个标注组,使得每个标注组的标注效率满足预设标注效率指标,包括:
获取各个标注执行方的标注效率;
设置预设标注效率指标,所述预设标注效率指标包括标注时长;
根据预设标注效率指标将多个标注执行方分别进行组合,得到多个标注组,其中,各个标注组完成待标注样本集合的时长相同。
优选的,所述获取每个待标注样本的多个初始标注结果,并确定最终标注结果,包括:
确定审核执行方集合;
将所述每个待标注样本的多个初始标注结果,发送至审核执行方集合中的各个审核执行方;
获取各个审核执行方对初始标注结果的评分结果,得到每个初始标注结果的多个评分结果;
根据所述每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果。
优选的,在根据所述每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果之前,还包括:
设置评分阈值;
基于所述每个初始标注结果的多个评分结果,按照预设第一计算规则,得到每个初始标注结果的评价指标数据;
若所述评价指标数据大于或者等于所述评分阈值的初始标注结果的数目,大于或者等于预设数量;
则根据所述每个初始标注结果的多个评分结果,确定每个初始标注结果的最终标注结果。
优先的,所述方法还包括:
将各个初始标注结果所对应的标注执行方信息发送至所述审核执行方集合中的各个审核执行方;
获取各个审核执行方对标注执行方的评分结果,得到每个标注执行方的多个评分结果;
基于所述每个标注执行方的多个评分结果,按照预设第二计算规则,得到每个标注执行方的最终评分结果。
优选的,根据所述每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果,包括:
将评价指标数据最高的初始标注结果,作为每个待标注样本的最终标注结果;
或,
根据每个标注执行方的最终评分结果,设置每个标注执行方的评分权重;
基于每个标注执行方的评分权重,及每个初始标注结果的多个评分结果,按照预设第三计算规则,确定待标注样本的最终标注结果。
优选的,所述待标注样本的属性信息包括待标注样本数量、样本类型;所述标注执行方的标注能力属性信息包括标注效率、标注偏好。
优选的,在将所述待标注样本集合中的待标注样本分配至标注组中的各个标注执行方之后,还包括:
监控各个标注执行方的标注进度;
根据所述各个标注执行方的标注进度,对分配给各个标注执行方的待标注样本进行调整。
本申请实施例还提供一种样本标注装置,包括:
待标注样本获取模块,用于获取待标注样本集合;
标注执行方确定模块,用于确定对所述待标注样本集合进行标注的标注执行方集合;
标注组划分模块,用于根据所述待标注样本集合中各个待标注样本的属性信息、及所述标注执行方集合中各个标注执行方的标注能力属性信息,将所述标注执行方集合划分为多个标注组,使得每个标注组的标注效率满足预设标注效率指标;
待标注样本下发模块,用于将所述待标注样本集合发送至所述多个标注组;
待标注样本分配模块,用于根据各个待标注样本的属性信息,及标注组中各个标注执行方的标注能力属性信息,将待标注样本分配至标注组中的各个标注执行方;
最终标注结果确定模块,用于获取每个待标注样本的多个初始标注结果,并确定最终标注结果。
优选的,最终标注结果确定模块包括:
审核执行方集合确定单元,用于获取审核执行方集合;
初始标注结果发送单元,用于将所述每个待标注样本的多个初始标注结果,发送至审核执行方集合中的各个审核执行方;
评分结果获取单元,用于获取各个审核执行方对初始标注结果的评分结果,得到每个初始标注结果的多个评分结果;
最终标注结果确定模块,用于根据所述每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果。
本申请实施例还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述步骤。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述步骤。
由以上本申请实施例提供的技术方案可见,本申请实施例中,通过将标注执行方集合划分为多个标注组,并将待标注样本集合下发至各个标注组,使得每个待标注样本被标注多次,并且在将待标注样本分配至标注执行方时,考虑了待标注样本的属性信息,及各个标注执行方的标注能力属性信息,可以显著提高数据标注的准确度。通过分组的方式,在保证样本标注多次的前提下,提高了数据标注的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中一种标注处理系统的数据处理流程图;
图2是本申请实施例中一种样本标注方法的流程图;
图3是本申请实施例中一种待标注样本集合分配规则示意图;
图4是本申请实施例中一种标注结果审核规则示意图;
图5是本申请实施例中另一种标注结果审核规则示意图;
图6是本申请实施例中一种样本标注装置的模块结构示意图;
图7是本申请实施例提供的计算机设备的示意图。
具体实施方式
本申请实施方式提供一种样本标注方法、装置、存储介质及设备。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
参考图1所示,为本申请实施例中一种标注处理系统的数据处理流程图,其中,主要包括系统管理单元、标注执行方集合及审核执行方集合。在获取到待标注样本集合后,系统管理单元创建标注任务,确定对待标注样本集合进行标注的标注执行方集合,并将待标注样本集合发送至所述多个标注组;在将待标注样本分配至各个标注执行方后,系统管理单元可以实时监控各个标注执行方的标注进度,并调整分配给各个标注执行方的待标注样本,以对标注执行方进行管理。需要说明的是,图1中的虚线框表示,系统可以对待标注样本进行预处理及自动标注,也可以不进行自动标注,是可以自行选择的步骤,故用虚线框标出。
在得到每个待标注样本的多个初始标注结果后,将每个初始标注结果发送至审核执行方集合中的各个审核执行方,使得每个初始标注结果具有多个评分结果,根据质检模型判断标注是否满足预设条件,若满足,则根据多个初始标注结果,确定最终标注结果,若不满足,则将该待标注样本返回待标注样本集合,重新分配标注执行方,并重新进行标注。
参考图2所示,为本申请实施例中一种样本标注方法的流程图,具体包括以下步骤:
S101:获取待标注样本集合。
S102:确定对所述待标注样本集合进行标注的标注执行方集合。
每个标注执行方对应一个标注人员。
S103:根据所述待标注样本集合中各个待标注样本的属性信息、及所述标注执行方集合中各个标注执行方的标注能力属性信息,将所述标注执行方集合划分为多个标注组,使得每个标注组的标注效率满足预设标注效率指标。
在一些实施方式中,待标注样本的属性信息包括待标注样本数量、样本类型;标注执行方的标注能力属性信息包括标注效率、标注偏好。
在一些实施方式中,预设标注效率指标包括预设标注时长。获取各个标注执行方的标注效率;设置预设标注时长;根据预设标注效率指标将多个标注执行方分别进行组合,得到多个标注组,其中,各个标注组完成待标注样本集合的时长相同。
在一个具体的实施方式中,参考图3,预先获取每个标注执行方的标注效率,其中,标注执行方1的标注效率为Q(1)、标注执行方2的标注效率为Q(2)、标注执行方3的标注效率为Q(3)、标注执行方4的标注效率为Q(4)、标注执行方5的标注效率为Q(5)。
若Q(1)+Q(2)=Q(3)+Q(4)+Q(5),并且Q(1)+Q(2)满足预设标注效率指标,即待标注样本集合可以在预设标注时长完成标注,则可以将标注执行方1和标注执行方2作为标注组1,标注执行方3、标注执行方4及标注执行方5作为标注组2。
S104:将所述待标注样本集合发送至所述多个标注组。
将所述待标注样本集合发送至所述多个标注组,使得每个待标注样本被标注多次。
S105:根据各个待标注样本的属性信息,及标注组中各个标注执行方的标注能力属性信息,将待标注样本分配至标注组中的各个标注执行方。
S106:获取每个待标注样本的多个初始标注结果,并确定最终标注结果。
在一些实施方式中,参考图4所示,确定审核执行方集合,将每个待标注样本的多个初始标注结果,发送至审核执行方集合中的各个审核执行方,获取各个审核执行方对初始标注结果的评分结果,得到每个初始标注结果的多个评分结果;并根据每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果。
在一些实施方式中,标注系统可以对待标注样本进行预处理,并进行自动标注,审核执行方可以将自动标注结果和人工标注结果进行比较,进一步确定评分结果。
在一些实施方式中,审核执行方可以设置评分阈值;基于每个初始标注结果的多个评分结果,按照第一计算规则,得到每个初始标注结果的评价指标数据。具体的,可以通过计算多个评分结果的平均值或方差等参数,并与评价指标数据进行比较,若评价指标数据大于或者等于所述评分阈值的初始标注结果的数目,大于或者等于预设数量;则根据每个初始标注结果的多个评分结果,确定每个初始标注结果的最终标注结果。若评价指标数据大于或者等于所述评分阈值的初始标注结果的数目,小于预设数量,则将该待标注样本返回,重新进行标注。
在一个具体的实施方式中,标注组的数量为4个,使得每个待标注样本具有4个初始标注结果;审核执行方集合中共包括5个审核执行方,每个审核执行方对应的审核人员都对各个初始标注结果进行评分,使得每个初始标注结果具有5个评分结果。计算这5个评分结果的平均值(第一计算规则为计算平均值,得到的平均值为评价指标数据),若平均值大于或者等于评价阈值,则将大于或者等于所述评分阈值的初始标注结果的数目增加1,若该待标注样本其余3个初始标注结果也满足上述条件,则大于或者等于所述评分阈值的初始标注结果的数目为4个,显然,大于预设数量(可以预设为2个或3个,对此本申请不作限定),则可以根据每个初始标注结果的多个评分结果,按照指定策略,确定每个初始标注结果的最终标注结果,其中,指定策略可以是将评价指标数据(例如平均值)最高的初始标注结果,作为每个待标注样本的最终标注结果。
在一些实施方式中,审核执行方还可以获取各个初始标注结果所对应的标注执行方信息,并对各个标注执行方进行评分,使得每个标注执行方具有多个评分结果;并按照预设第二计算规则(可以是计算平均值或任意其他参数),得到每个标注执行方的最终评分结果。
在一些实施方式中,参考图5所示,在得到每个标注执行方的最终评分结果后,可以设置每个标注执行方的评分权重;基于每个标注执行方的评分权重,及每个初始标注结果的多个评分结果,按照预设第三计算规则,确定待标注样本的最终标注结果。
在一个具体的实施方式中,某个待标注样本的3个初始标注结果分别由标注执行方1、标注执行方2、标注执行方3给出,其中,标注执行方1的权重设置为3、标注执行方2的权重设置为5、标注执行方3的权重设置为1,则根据预设第三计算规则,例如:
得到各个初始标注结果的评价指标数据,再根据上述指定策略,确定出最终标注结果。
参考图6所示,本申请还提供一种样本标注装置,所述装置包括:
待标注样本获取模块411,用于获取待标注样本集合;
标注执行方确定模块412,用于确定对所述待标注样本集合进行标注的标注执行方集合;
标注组划分模块413,用于根据所述待标注样本集合中各个待标注样本的属性信息、及所述标注执行方集合中各个标注执行方的标注能力属性信息,将所述标注执行方集合划分为多个标注组,使得每个标注组的标注效率满足预设标注效率指标;
待标注样本下发模块414,用于将所述待标注样本集合发送至所述多个标注组;
待标注样本分配模块415,用于根据各个待标注样本的属性信息,及标注组中各个标注执行方的标注能力属性信息,将待标注样本分配至标注组中的各个标注执行方;
最终标注结果确定模块416,用于获取每个待标注样本的多个初始标注结果,并确定最终标注结果。
其中,最终标注结果确定模块416包括:
审核执行方集合确定单元,用于获取审核执行方集合;
初始标注结果发送单元,用于将所述每个待标注样本的多个初始标注结果,发送至审核执行方集合中的各个审核执行方;
评分结果获取单元,用于获取各个审核执行方对初始标注结果的评分结果,得到每个初始标注结果的多个评分结果;
最终标注结果确定模块,用于根据所述每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果。
参考图7所示,本申请还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任一项所述方法的步骤。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的装置、模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。该计算机软件产品可以包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。该计算机软件产品可以存储在内存中,内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括短暂电脑可读媒体(transitory media),如调制的数据信号和载波。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。
Claims (12)
1.一种样本标注方法,其特征在于,包括:
获取待标注样本集合;
确定对所述待标注样本集合进行标注的标注执行方集合;
根据所述待标注样本集合中各个待标注样本的属性信息、及所述标注执行方集合中各个标注执行方的标注能力属性信息,将所述标注执行方集合划分为多个标注组,使得每个标注组的标注效率满足预设标注效率指标;
将所述待标注样本集合发送至所述多个标注组;
根据各个待标注样本的属性信息,及标注组中各个标注执行方的标注能力属性信息,将待标注样本分配至标注组中的各个标注执行方;
获取每个待标注样本的多个初始标注结果,并确定最终标注结果。
2.根据权利要求1所述的方法,其特征在于,根据所述待标注样本集合中各个待标注样本的属性信息、及所述标注执行方集合中各个标注执行方的标注能力属性信息,将所述标注执行方集合划分为多个标注组,使得每个标注组的标注效率满足预设标注效率指标,包括:
获取各个标注执行方的标注效率;
设置预设标注效率指标,所述预设标注效率指标包括标注时长;
根据预设标注效率指标将多个标注执行方分别进行组合,得到多个标注组,其中,各个标注组完成待标注样本集合的时长相同。
3.根据权利要求1所述的方法,其特征在于,所述获取每个待标注样本的多个初始标注结果,并确定最终标注结果,包括:
确定审核执行方集合;
将所述每个待标注样本的多个初始标注结果,发送至审核执行方集合中的各个审核执行方;
获取各个审核执行方对初始标注结果的评分结果,得到每个初始标注结果的多个评分结果;
根据所述每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果。
4.根据权利要求3所述的方法,其特征在于,在根据所述每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果之前,还包括:
设置评分阈值;
基于所述每个初始标注结果的多个评分结果,按照预设第一计算规则,得到每个初始标注结果的评价指标数据;
若所述评价指标数据大于或者等于所述评分阈值的初始标注结果的数目,大于或者等于预设数量;
则根据所述每个初始标注结果的多个评分结果,确定每个初始标注结果的最终标注结果。
5.根据权利要求4所述的方法,其特征在于,还包括:
将各个初始标注结果所对应的标注执行方信息发送至所述审核执行方集合中的各个审核执行方;
获取各个审核执行方对标注执行方的评分结果,得到每个标注执行方的多个评分结果;
基于所述每个标注执行方的多个评分结果,按照预设第二计算规则,得到每个标注执行方的最终评分结果。
6.根据权利要求5所述的方法,其特征在于,根据所述每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果,包括:
将评价指标数据最高的初始标注结果,作为每个待标注样本的最终标注结果;
或,
根据每个标注执行方的最终评分结果,设置每个标注执行方的评分权重;
基于每个标注执行方的评分权重,及每个初始标注结果的多个评分结果,按照预设第三计算规则,确定待标注样本的最终标注结果。
7.根据权利要求1所述的方法,其特征在于,所述待标注样本的属性信息包括待标注样本数量、样本类型;所述标注执行方的标注能力属性信息包括标注效率、标注偏好。
8.根据权利要求1所述的方法,其特征在于,在将所述待标注样本集合中的待标注样本分配至标注组中的各个标注执行方之后,还包括:
监控各个标注执行方的标注进度;
根据所述各个标注执行方的标注进度,对分配给各个标注执行方的待标注样本进行调整。
9.一种样本标注装置,其特征在于,包括:
待标注样本获取模块,用于获取待标注样本集合;
标注执行方确定模块,用于确定对所述待标注样本集合进行标注的标注执行方集合;
标注组划分模块,用于根据所述待标注样本集合中各个待标注样本的属性信息、及所述标注执行方集合中各个标注执行方的标注能力属性信息,将所述标注执行方集合划分为多个标注组,使得每个标注组的标注效率满足预设标注效率指标;
待标注样本下发模块,用于将所述待标注样本集合发送至所述多个标注组;
待标注样本分配模块,用于根据各个待标注样本的属性信息,及标注组中各个标注执行方的标注能力属性信息,将待标注样本分配至标注组中的各个标注执行方;
最终标注结果确定模块,用于获取每个待标注样本的多个初始标注结果,并确定最终标注结果。
10.根据权利要求9所述的装置,其特征在于,最终标注结果确定模块包括:
审核执行方集合确定单元,用于获取审核执行方集合;
初始标注结果发送单元,用于将所述每个待标注样本的多个初始标注结果,发送至审核执行方集合中的各个审核执行方;
评分结果获取单元,用于获取各个审核执行方对初始标注结果的评分结果,得到每个初始标注结果的多个评分结果;
最终标注结果确定模块,用于根据所述每个初始标注结果的多个评分结果,确定待标注样本的最终标注结果。
11.一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910681771.4A CN110378617A (zh) | 2019-07-26 | 2019-07-26 | 一种样本标注方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910681771.4A CN110378617A (zh) | 2019-07-26 | 2019-07-26 | 一种样本标注方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110378617A true CN110378617A (zh) | 2019-10-25 |
Family
ID=68256289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910681771.4A Pending CN110378617A (zh) | 2019-07-26 | 2019-07-26 | 一种样本标注方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378617A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080092A (zh) * | 2019-11-29 | 2020-04-28 | 北京云聚智慧科技有限公司 | 数据标注管理方法及装置、电子设备和可读存储介质 |
CN111507405A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 图片标注方法、装置、电子设备及计算机可读存储介质 |
CN113032649A (zh) * | 2019-12-24 | 2021-06-25 | 华为技术有限公司 | 标注数据的方法、装置、终端设备和存储介质 |
CN113435800A (zh) * | 2021-08-26 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于大数据的标注任务执行方法、装置、电子设备及介质 |
CN113537942A (zh) * | 2021-07-28 | 2021-10-22 | 深圳供电局有限公司 | 一种提高样本标记数量的方法及系统 |
CN113641838A (zh) * | 2021-08-11 | 2021-11-12 | 上海明略人工智能(集团)有限公司 | 用于数据标注的装置及方法、电子设备、可读存储介质 |
CN116881724A (zh) * | 2023-09-07 | 2023-10-13 | 中国电子科技集团公司第十五研究所 | 一种样本标注方法、装置及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530282A (zh) * | 2013-10-23 | 2014-01-22 | 北京紫冬锐意语音科技有限公司 | 语料标注方法及设备 |
CN105975980A (zh) * | 2016-04-27 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 监控图像标注质量的方法和装置 |
CN108536662A (zh) * | 2018-04-16 | 2018-09-14 | 苏州大学 | 一种数据标注方法及装置 |
CN108875775A (zh) * | 2018-04-27 | 2018-11-23 | 淘然视界(杭州)科技有限公司 | 一种应用于数据标注领域的评估系统及其方法 |
CN109033220A (zh) * | 2018-06-29 | 2018-12-18 | 北京京东尚科信息技术有限公司 | 标注数据的自动选取方法、系统、设备和存储介质 |
CN109684947A (zh) * | 2018-12-11 | 2019-04-26 | 广州景骐科技有限公司 | 标注质量监控方法、装置、计算机设备和存储介质 |
CN109697537A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 数据审核的方法和装置 |
CN109784381A (zh) * | 2018-12-27 | 2019-05-21 | 广州华多网络科技有限公司 | 标注信息处理方法、装置及电子设备 |
CN109978356A (zh) * | 2019-03-15 | 2019-07-05 | 平安普惠企业管理有限公司 | 标注任务分配方法、装置、介质和计算机设备 |
-
2019
- 2019-07-26 CN CN201910681771.4A patent/CN110378617A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530282A (zh) * | 2013-10-23 | 2014-01-22 | 北京紫冬锐意语音科技有限公司 | 语料标注方法及设备 |
CN105975980A (zh) * | 2016-04-27 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 监控图像标注质量的方法和装置 |
CN109697537A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 数据审核的方法和装置 |
CN108536662A (zh) * | 2018-04-16 | 2018-09-14 | 苏州大学 | 一种数据标注方法及装置 |
CN108875775A (zh) * | 2018-04-27 | 2018-11-23 | 淘然视界(杭州)科技有限公司 | 一种应用于数据标注领域的评估系统及其方法 |
CN109033220A (zh) * | 2018-06-29 | 2018-12-18 | 北京京东尚科信息技术有限公司 | 标注数据的自动选取方法、系统、设备和存储介质 |
CN109684947A (zh) * | 2018-12-11 | 2019-04-26 | 广州景骐科技有限公司 | 标注质量监控方法、装置、计算机设备和存储介质 |
CN109784381A (zh) * | 2018-12-27 | 2019-05-21 | 广州华多网络科技有限公司 | 标注信息处理方法、装置及电子设备 |
CN109978356A (zh) * | 2019-03-15 | 2019-07-05 | 平安普惠企业管理有限公司 | 标注任务分配方法、装置、介质和计算机设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080092A (zh) * | 2019-11-29 | 2020-04-28 | 北京云聚智慧科技有限公司 | 数据标注管理方法及装置、电子设备和可读存储介质 |
CN111080092B (zh) * | 2019-11-29 | 2023-04-18 | 北京云聚智慧科技有限公司 | 数据标注管理方法及装置、电子设备和可读存储介质 |
CN113032649A (zh) * | 2019-12-24 | 2021-06-25 | 华为技术有限公司 | 标注数据的方法、装置、终端设备和存储介质 |
CN111507405A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 图片标注方法、装置、电子设备及计算机可读存储介质 |
CN113537942A (zh) * | 2021-07-28 | 2021-10-22 | 深圳供电局有限公司 | 一种提高样本标记数量的方法及系统 |
CN113641838A (zh) * | 2021-08-11 | 2021-11-12 | 上海明略人工智能(集团)有限公司 | 用于数据标注的装置及方法、电子设备、可读存储介质 |
CN113435800A (zh) * | 2021-08-26 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于大数据的标注任务执行方法、装置、电子设备及介质 |
CN116881724A (zh) * | 2023-09-07 | 2023-10-13 | 中国电子科技集团公司第十五研究所 | 一种样本标注方法、装置及设备 |
CN116881724B (zh) * | 2023-09-07 | 2023-12-19 | 中国电子科技集团公司第十五研究所 | 一种样本标注方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378617A (zh) | 一种样本标注方法、装置、存储介质及设备 | |
CN107450972A (zh) | 一种调度方法、装置以及电子设备 | |
CN107678865A (zh) | 基于交易分组的区块链的验证方法以及系统 | |
CN106897206A (zh) | 一种业务测试方法及装置 | |
CN110503206A (zh) | 一种预测模型更新方法、装置、设备及可读介质 | |
CN110070399A (zh) | 一种优惠券推送方法及装置 | |
CN109002949A (zh) | 一种风控策略配置以及业务风控的方法及装置 | |
CN103713935B (zh) | 一种在线管理Hadoop集群资源的方法和装置 | |
CN105335389B (zh) | 一种业务可视化方法及系统 | |
CN109767110A (zh) | 一种风险控制系统优化方法、装置、设备及存储介质 | |
CN109034386A (zh) | 一种基于资源调度器的深度学习系统及其方法 | |
CN109389412A (zh) | 一种训练模型的方法及装置 | |
CN106302579A (zh) | 一种任务的分发方法及服务器 | |
CN109376758A (zh) | 一种基于图形的元器件识别方法、系统、装置和存储介质 | |
CN107179983A (zh) | 用户界面测试结果的校验方法及装置 | |
CN108363732A (zh) | 一种多用户协同的表格处理方法、装置以及设备 | |
CN107391537A (zh) | 数据关系模型的生成方法、装置及设备 | |
CN110502415A (zh) | 一种埋点设置方法、装置及设备 | |
CN110210038A (zh) | 核心实体确定方法及其系统、服务器和计算机可读介质 | |
CN107766140A (zh) | 一种带抢占点实时任务的可调度性分析方法 | |
CN107391564A (zh) | 数据转换方法、装置以及电子设备 | |
CN109376988A (zh) | 一种业务数据的处理方法和装置 | |
CN109710410A (zh) | 一种互联网信息资源分配方法及装置 | |
CN108804563A (zh) | 一种数据标注方法、装置以及设备 | |
CN109062683A (zh) | 主机资源分配的方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191025 |