CN108536662A - 一种数据标注方法及装置 - Google Patents

一种数据标注方法及装置 Download PDF

Info

Publication number
CN108536662A
CN108536662A CN201810338034.XA CN201810338034A CN108536662A CN 108536662 A CN108536662 A CN 108536662A CN 201810338034 A CN201810338034 A CN 201810338034A CN 108536662 A CN108536662 A CN 108536662A
Authority
CN
China
Prior art keywords
markup information
audit
initial
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810338034.XA
Other languages
English (en)
Other versions
CN108536662B (zh
Inventor
李正华
黄德朋
张民
陈文亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810338034.XA priority Critical patent/CN108536662B/zh
Publication of CN108536662A publication Critical patent/CN108536662A/zh
Application granted granted Critical
Publication of CN108536662B publication Critical patent/CN108536662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据标注方法,包括:通过初始端获取不同初始用户输入的目标数据的初始标注信息;判断获取到的初始标注信息是否一致;若否,则将获取到的初始标注信息传输至第一审核端,通过第一审核端获取第一审核用户根据获取到的初始标注信息输入的目标数据的第一审核标注信息,并将第一审核标注信息确定为目标数据的最终标注信息并存储。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,提高了数据标注的效率和准确率,有利于提高标注人员的业务水平和库存标注信息的准确率。相应地,本发明公开的一种数据标注装置、设备及计算机可读存储介质也同样具有上述技术效果。

Description

一种数据标注方法及装置
技术领域
本发明涉及自然语言标注技术领域,更具体地说,涉及一种数据标注方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网技术和计算机科学技术的不断发展,人工智能愈演愈烈,而自然语言处理是人工智能中的一个重要研究方向,其融合了语言学、计算机科学、数学等学科。自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成。而由于自然语言文本和对话在各个层次上具有广泛歧义性和多义性,此时就需要人工标注自然语言,才能为自然语言处理提供有效的便利条件。
目前,在进行自然语言的人工标注时,一般会以可视化的标注系统为辅助标注工具,标注人员通过该标注系统标注数据。其中,一般采用多个标注人员标注同一数据的方法,来提高人工标注的质量;当多人一起标注时,多个标注人员可以独立标注,也可以在同一个文档上同时看到彼此的编辑,同时标注系统同步保持最新的标注结果。但是,当多个标注人员对于同一数据的标注结果存在差异时,只能通过集体讨论或者人工选择的方法确定最佳的标注结果,由此可能会使标注工作停滞,降低标注效率,也不利于标注人员业务水平的提高;同时,也无法提高库存标注信息的准确率。
因此,当多个标注人员对于同一数据的标注结果存在差异时,如何快速确定最佳标注结果,提高数据标注的效率,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种数据标注方法、装置、设备及计算机可读存储介质,以实现当多个标注人员对于同一数据的标注结果存在差异时,快速确定最佳标注结果,提高数据标注的效率。
为实现上述目的,本发明实施例提供了如下技术方案:
一种数据标注方法,包括:
通过初始端获取不同初始用户输入的目标数据的初始标注信息;
判断获取到的初始标注信息是否一致;
若否,则将所述获取到的初始标注信息传输至第一审核端,通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息,并将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储。
其中,所述通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息,并将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储,包括:
通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息;
将所述第一审核标注信息传输至所述初始端;
通过所述初始端获取所述初始用户根据所述第一审核标注信息输入的校验信息;
判断所述校验信息是否是确认所述第一审核标注信息的信息;
若是,则将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储。
其中,所述将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储之后,还包括:
将所述第一审核标注信息传输至所述初始端,并通过所述初始端展示所述第一审核标注信息。
其中,当所述校验信息不是确认所述第一审核标注信息的信息时,还包括:
将所述初始标注信息和所述第一审核标注信息传输至第二审核端;
通过所述第二审核端获取第二审核用户根据所述初始标注信息和所述第一审核标注信息输入的所述目标数据的第二审核标注信息;
将所述第二审核标注信息确定为所述目标数据的最终标注信息并存储;
将所述第二审核标注信息传输至所述初始端和所述第一审核端,并通过所述初始端和所述第一审核端展示所述第二审核标注信息。
其中,所述通过初始端获取不同初始用户输入的目标数据的初始标注信息之前,还包括:
获取所述目标数据的标注任务,并按照预设的分配规则分配所述标注任务至所述初始端。
其中,所述获取所述目标数据的标注任务,并按照预设的分配规则分配所述标注任务至所述初始端,包括:
获取所述目标数据的标注任务;
判断所述目标数据是否包含已标注数据;
若是,则将所述已标注数据的库存标注信息添加至所述标注任务,得到所述目标数据的地雷标注任务,将所述地雷标注任务分配至所述初始端,通过所述初始端获取所述初始用户输入的所述目标数据的目标标注信息,将所述目标标注信息确定为所述目标数据的最终标注信息并存储;
若否,则按照所述预设的分配规则分配所述标注任务至所述初始端。
其中,所述通过所述初始端获取所述初始用户输入的所述目标数据的目标标注信息,将所述目标标注信息确定为所述目标数据的最终标注信息并存储,包括:
判断当前标注数据是否为所述已标注数据;
若是,则判断所述当前标注数据的当前标注信息与所述库存标注信息是否一致;若所述当前标注信息与所述库存标注信息不一致,则将所述当前标注信息和所述库存标注信息传输至目标审核端,通过所述目标审核端获取目标审核用户根据所述当前标注信息和所述库存标注信息输入的所述当前标注数据的目标审核标注信息,将所述目标审核标注信息确定为所述当前标注数据的最终标注信息并存储,将所述目标审核标注信息传输至所述初始端,并通过所述初始端展示所述目标审核标注信息;
若否,则将所述当前标注信息确定为所述当前标注数据的最终标注信息并存储。
一种数据标注装置,包括:
获取模块,用于通过初始端获取不同初始用户输入的目标数据的初始标注信息;
判断模块,用于判断获取到的初始标注信息是否一致;
执行模块,用于当获取到的初始标注信息不一致时,将所述获取到的初始标注信息传输至第一审核端,通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息,并将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储。
一种数据标注设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任意一项所述的数据标注方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述的数据标注方法的步骤。
通过以上方案可知,本发明实施例提供的一种数据标注方法,包括:通过初始端获取不同初始用户输入的目标数据的初始标注信息;判断获取到的初始标注信息是否一致;若否,则将所述获取到的初始标注信息传输至第一审核端,通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息,并将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储。
可见,若采用上述方法进行数据标注,则可以首先通过初始端获取不同初始用户输入的目标数据的初始标注信息,当获取到的初始标注信息不一致时,可以将获取到的初始标注信息传输给标注专家,以便标注专家根据所述获取到的初始标注信息确认目标数据的最佳标注结果。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,可以提高数据标注的效率和准确率,也有利于标注人员业务水平的提高;同时,也有效提高了库存标注信息的准确率。
相应地,本发明实施例提供的一种数据标注装置、设备及计算机可读存储介质也同样具有上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种数据标注方法流程图;
图2为本发明实施例公开的另一种数据标注方法流程图;
图3为本发明实施例公开的一种数据标注装置示意图;
图4为本发明实施例公开的一种数据标注设备示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种数据标注方法、装置、设备及计算机可读存储介质,以实现当多个标注人员对于同一数据的标注结果存在差异时,快速确定最佳标注结果,提高数据标注的效率。
参见图1,本发明实施例提供的一种数据标注方法,包括:
S101、通过初始端获取不同初始用户输入的目标数据的初始标注信息;
S102、判断获取到的初始标注信息是否一致;若是,则执行S106;若否,则执行S103;
S103、将所述获取到的初始标注信息传输至第一审核端,并执行S104;
S104、通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息,并执行S105;
S105、将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储;
S106、将获取到的初始标注信息确定为所述目标数据的最终标注信息并存储。
在本技术领域内,人工标注数据是为了建立机器学习模型,使机器学习自然语言的处理。但是,由于人工标注存在较大的主观性,且不同标注人员的业务能力参差不齐,因而使得数据的标注质量不够精确。
在可视化标注系统的辅助下,并采用本实施例提供的数据标注方法标注目标数据时,具体实施过程可以是:
首先让不同初始用户输入关于目标数据的初始标注信息,该初始用户即一般标注人员;当不同初始用户输入的初始标注信息不一致时,将关于该目标数据的标注任务传输至第一审核端,让第一审核用户输入该目标数据的审核标注信息,该第一审核用户即对于数据标注有研究的专家标注人员,如此便可以由标注专家确定该目标数据的最终标注信息,完成对于目标数据的标注任务。由此,由多个人完成同一数据的标注任务,可以提高数据标注的准确率和效率。
需要说明的是,所述初始端和所述第一审核端可以为相应的输入终端,也可以为可视化标注系统的虚拟输入模块;所述初始用户和所述第一审核用户可以分别对应业务能力一般和业务能力较好的标注人员。
需要说明的是,所述将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储之后,还包括:将所述第一审核标注信息传输至所述初始端,并通过所述初始端展示所述第一审核标注信息。
具体的,通过初始端展示第一审核标注信息,可以使初始用户及时学习,提高标注水平。其中,可以将第一审核标注信息传输至所有初始端,供所有初始用户学习;还可以仅将第一审核标注信息传输至与第一审核标注信息不一致的初始标注信息对应的初始端,供输入错误标注信息的初始用户学习。
可见,若采用上述方法进行数据标注,则可以首先通过初始端获取不同初始用户输入的目标数据的初始标注信息,当获取到的初始标注信息不一致时,可以将获取到的初始标注信息传输给标注专家,以便标注专家根据所述获取到的初始标注信息确认目标数据的最佳标注结果。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,可以提高数据标注的效率和准确率,也有利于标注人员业务水平的提高;同时,也有效提高了库存标注信息的准确率。
本发明实施例公开了另一种数据标注方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。
参见图2,本发明实施例提供的另一种数据标注方法,包括:
S201、通过初始端获取不同初始用户输入的目标数据的初始标注信息;
S202、判断获取到的初始标注信息是否一致;若是,则执行S213;若否,则执行S203;
S203、将获取到的初始标注信息传输至第一审核端,并执行S204;
S204、通过第一审核端获取第一审核用户根据获取到的初始标注信息输入的目标数据的第一审核标注信息,并执行S205;
S205、将第一审核标注信息传输至初始端,并执行S206;
S206、通过初始端获取初始用户根据第一审核标注信息输入的校验信息,并执行S207;
具体的,所述将第一审核标注信息传输至初始端包括:将第一审核标注信息传输至所有初始端,供所有初始用户校验学习;还可以仅将第一审核标注信息传输至与第一审核标注信息不一致的初始标注信息对应的初始端,供持不同标注意见的初始用户校验学习。
S207、判断校验信息是否是确认第一审核标注信息的信息;若是,则执行S208;若否,则执行S209;
S208、将第一审核标注信息确定为目标数据的最终标注信息并存储;
S209、将初始标注信息和第一审核标注信息传输至第二审核端,并执行 S210;
S210、通过第二审核端获取第二审核用户根据初始标注信息和第一审核标注信息输入的目标数据的第二审核标注信息,并执行S211;
S211、将第二审核标注信息确定为目标数据的最终标注信息并存储,并执行S212;
S212、将第二审核标注信息传输至初始端和第一审核端,并通过初始端和第一审核端展示第二审核标注信息;
具体的,将第二审核标注信息通过初始端和第一审核端进行展示,包括多种情况:
当第二审核标注信息与第一审核标注信息一致时,说明部分初始用户对于目标数据的标注有误,通过初始端展示第二审核标注信息,便于初始用户提高标注数据的业务能力;
当第二审核标注信息与部分初始标注信息一致时,说明部分初始用户和第一审核用户对于目标数据的标注有误,通过初始端和第一审核端展示第二审核标注信息,便于部分初始用户和第一审核用户提高标注数据的业务能力;
当第二审核标注信息与第一审核标注信息和部分初始标注信息均不一致时,说明部分初始用户和第一审核用户对于目标数据的标注有误,通过初始端好而第一审核端展示第二审核标注信息,便于部分初始用户和第一审核用户提高标注数据的业务能力;
其中,由于初始用户为多个人,因此其中可能存在与第二审核标注信息一致的初始标注信息,及时反馈第二审核标注信息不仅能够提高初始用户的业务水平,还可以及时肯定标注正确的初始用户,提高其自信。基于此,当初始用户输入的初始标注信息与第二审核标注信息一致时,可以预设相应的夸奖信息;当初始用户输入的初始标注信息与第二审核标注信息不一致时,可以预设相应的鼓励信息。如通过文字或图片将夸奖信息和鼓励信息进行可视化展示。
其中,所述将第二审核标注信息传输至初始端和第一审核端包括:将第二审核标注信息传输至所有初始端和第一审核端,供所有标注人员学习,提高标注水平;还包括:将第二审核标注信息传输至与第二审核标注信息不一致的初始标注信息对应的初始端、和与第二审核标注信息不一致的第一审核标注信息对应的第一审核端,供输入错误标注信息的标注人员学习。
S213、将获取到的初始标注信息确定为目标数据的最终标注信息并存储。
本实施例基于上述实施例提供的数据标注方法,丰富和扩充了标注流程,具体为:由不同初始用户首先标注目标数据,当其输入的初始标注信息不一致时,让业务能力较好的第一审核用户标注该目标数据,并将第一审核用户输入的第一审核标注信息传输至初始端,供初始用户确认;当初始用户确认该第一审核标注信息时,则将第一审核标注信息确定为所述目标数据的最终标注信息并存储;当初始用户未确认该第一审核标注信息时,则由业务能力最好的第二审核用户标注目标数据,确定目标数据的最终标注信息并存储。
需要说明的是,所述第二审核端可以为相应的输入终端,也可以为可视化标注系统的虚拟输入模块;所述第二审核用户可以对应业务能力最好的标注人员。
其中,所述校验信息为初始用户确认第一审核标注信息的确认信息,若初始用户未确认第一审核标注信息,则表明初始用户对第一审核标注信息存在异议,此时初始用户可以提供相应的投诉理由,并不确认该第一审核标注信息,从而使第二审核用户重新标注数据,确定数据的最终标注信息。
可见,若采用上述方法进行数据标注,则可以首先通过初始端获取不同初始用户输入的目标数据的初始标注信息,当获取到的初始标注信息不一致时,可以将获取到的初始标注信息传输给标注专家,以便标注专家根据所述获取到的初始标注信息确认目标数据的最佳标注结果;若将第一审核标注信息传输至初始端,初始用户对第一审核标注信息存在异议,则可以将初始标注信息和第一审核标注信息传输至第二审核端,使第二审核用户重新标注目标数据,完成目标数据的标注任务。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,可以提高数据标注的效率和准确率;同时,将第二审核标注信息传输至初始端和第一审核端,并通过初始端和第一审核端展示第二审核标注信息,有利于标注人员业务水平的提高,也有效提高了库存标注信息的准确率。
基于上述任意实施例,需要说明的是,所述通过初始端获取不同初始用户输入的目标数据的初始标注信息之前,还包括:获取所述目标数据的标注任务,并按照预设的分配规则分配所述标注任务至所述初始端。
具体的,在对目标数据进行标注之前,首先需要获取目标数据的标注任务,并按照预设的分配规则分配所述标注任务至所述初始端,以便于初始用户标注目标数据。其中,可以按照预设的规则随机分配标注任务,也可以按照预设的算法平均分配标注任务,此处需要说明的是,所述分配标注任务包括:将目标数据的标注任务分配给多个初始用户,即每个初始用户得到的任务是相同的;当然,也可以将目标数据的标注任务分成多个,将每个任务分别分配给多个初始用户,以提高标注数据的效率。
例如:若目标数据的标注任务为100,且共有100名初始用户,那么分配规则可以是:
(1)每个初始用户均得到目标数据的标注任务100;
(2)首先将目标数据的标注任务平均分为第一任务和第二任务,共两个部分,每个任务的任务量均为50;将100名初始用户平均分为第一批和第二批,共两个部分,每个批次包含50名初始用户;至此,可以将第一任务分配给第一批初始用户,每名第一批初始用户均可以得到任务量为50的第一任务,将第二任务分配给第二批初始用户,每名第二批初始用户均可以得到任务量为50的第二任务。
当然,还可以采用其他适用于实际需求的分配规则。
例如:在标注系统中预设如下规则:将标注任务分配给预设数目的初始用户进行标注,即预设数目的初始用户对同一标注任务进行标注。例如:标注系统中预存有标注任务X,将该标注任务X分配给3名初始用户;
初始阶段,标注任务X对应的分配数量为3,当第一名初始用户进入标注系统对标注任务X进行标注操作后,标注任务X对应的分配数量递减为2;当第二名初始用户进入标注系统对标注任务X进行标注操作后,标注任务X 对应的分配数量递减为1;当第三名初始用户进入标注系统对标注任务X进行标注操作后,标注任务X对应的分配数量递减为0。此时,标注任务X对应的可分配数量为0,表明标注任务X已分配完成。当第四名初始用户进入标注系统时,标注系统则会给第四名初始用户分配其他的标注任务。
基于上述任意实施例,需要说明的是,所述获取所述目标数据的标注任务,并按照预设的分配规则分配所述标注任务至所述初始端,包括:
获取所述目标数据的标注任务;
判断所述目标数据是否包含已标注数据;
若是,则将所述已标注数据的库存标注信息添加至所述标注任务,得到所述目标数据的地雷标注任务,将所述地雷标注任务分配至所述初始端,通过所述初始端获取所述初始用户输入的所述目标数据的目标标注信息,将所述目标标注信息确定为所述目标数据的最终标注信息并存储;
若否,则按照所述预设的分配规则分配所述标注任务至所述初始端。
其中,所述通过所述初始端获取所述初始用户输入的所述目标数据的目标标注信息,将所述目标标注信息确定为所述目标数据的最终标注信息并存储,包括:
判断当前标注数据是否为所述已标注数据;
若是,则判断所述当前标注数据的当前标注信息与所述库存标注信息是否一致;若所述当前标注信息与所述库存标注信息不一致,则将所述当前标注信息和所述库存标注信息传输至目标审核端,通过所述目标审核端获取目标审核用户根据所述当前标注信息和所述库存标注信息输入的所述当前标注数据的目标审核标注信息,将所述目标审核标注信息确定为所述当前标注数据的最终标注信息并存储,将所述目标审核标注信息传输至所述初始端,并通过所述初始端展示所述目标审核标注信息;
若否,则将所述当前标注信息确定为所述当前标注数据的最终标注信息并存储。
具体的,当目标数据中存在已标注过的数据时,则可以构成地雷标注任务,对于地雷标注任务中未标注过的数据,可以采用上述任意实施例提供的数据标注方法进行标注。
对于地雷标注任务中已标注过的数据,在进行标注时,需要判断当前标注数据的当前标注信息与库存标注信息是否一致;若当前标注信息与库存标注信息不一致,则将当前标注信息和库存标注信息传输至目标审核端,通过目标审核端获取目标审核用户根据当前标注信息和库存标注信息输入的当前标注数据的目标审核标注信息,将目标审核标注信息确定为当前标注数据的最终标注信息并存储,将目标审核标注信息传输至初始端,并通过初始端展示目标审核标注信息;若当前标注数据的当前标注信息与库存标注信息一致,则将所述当前标注信息确定为所述当前标注数据的最终标注信息并存储。
基于上述任意实施例,需要说明的是,当第一审核用户或第二审核用户标注数据时,可以提供相应的标注理由,并将该标注理由通过初始端和/或第一审核端进行展示,如此将有利于初始用户和第一审核用户提高标注水平。
基于上述任意实施例,需要说明的是,采用本说明书提供的数据标注方法,可以按照依存句法树标注数据,依存句法分析的目标是:为给定语句构建一棵依存句法树,捕捉句子内部词语之间的修饰或搭配关系,从而刻画语句的句法和语义结构。基于此,不同初始用户可以首先输入初始标注信息,当输入的初始标注信息不一致时,则触发审核,对该数据进行进一步的标注,由于执行的具体步骤与上述实施例类似,故本说明在此不再赘述。
其中,当触发审核时,可以通过不同的颜色突出显示标注不一致的地方发,以便于标注人员及时发现和修正。
下面对本发明实施例提供的一种数据标注装置进行介绍,下文描述的一种数据标注装置与上文描述的一种数据标注方法可以相互参照。
参见图3,本发明实施例提供的一种数据标注装置,包括:
获取模块301,用于通过初始端获取不同初始用户输入的目标数据的初始标注信息;
判断模块302,用于判断获取到的初始标注信息是否一致;
执行模块303,用于当获取到的初始标注信息不一致时,将所述获取到的初始标注信息传输至第一审核端,通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息,并将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储。
其中,所述执行模块包括:
第一获取单元,用于通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息;
第一传输单元,用于将所述第一审核标注信息传输至所述初始端;
第二获取单元,用于通过所述初始端获取所述初始用户根据所述第一审核标注信息输入的校验信息;
第一判断单元,用于判断所述校验信息是否是确认所述第一审核标注信息的信息;
第一存储单元,用于将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储。
其中,还包括:
展示模块,用于将所述第一审核标注信息传输至所述初始端,并通过所述初始端展示所述第一审核标注信息。
其中,所述执行模块包括:
第二传输单元,用于当所述校验信息不是确认所述第一审核标注信息的信息时,将所述初始标注信息和所述第一审核标注信息传输至第二审核端;
第三获取单元,用于通过所述第二审核端获取第二审核用户根据所述初始标注信息和所述第一审核标注信息输入的所述目标数据的第二审核标注信息;
第二存储单元,用于将所述第二审核标注信息确定为所述目标数据的最终标注信息并存储;
展示单元,用于将所述第二审核标注信息传输至所述初始端和所述第一审核端,并通过所述初始端和所述第一审核端展示所述第二审核标注信息。
其中,还包括:
分配模块,用于获取所述目标数据的标注任务,并按照预设的分配规则分配所述标注任务至所述初始端。
所述分配模块包括:
第四获取单元,用于获取所述目标数据的标注任务;
第二判断单元,用于判断所述目标数据是否包含已标注数据;
执行单元,用于当所述目标数据包含已标注数据时,将所述已标注数据的库存标注信息添加至所述标注任务,得到所述目标数据的地雷标注任务,将所述地雷标注任务分配至所述初始端,通过所述初始端获取所述初始用户输入的所述目标数据的目标标注信息,将所述目标标注信息确定为所述目标数据的最终标注信息并存储;
分配单元,用于按照所述预设的分配规则分配所述标注任务至所述初始端。
其中,所述执行单元具体用于:
判断当前标注数据是否为所述已标注数据;
若是,则判断所述当前标注数据的当前标注信息与所述库存标注信息是否一致;若所述当前标注信息与所述库存标注信息不一致,则将所述当前标注信息和所述库存标注信息传输至目标审核端,通过所述目标审核端获取目标审核用户根据所述当前标注信息和所述库存标注信息输入的所述当前标注数据的目标审核标注信息,将所述目标审核标注信息确定为所述当前标注数据的最终标注信息并存储,将所述目标审核标注信息传输至所述初始端,并通过所述初始端展示所述目标审核标注信息;
若否,则将所述当前标注信息确定为所述当前标注数据的最终标注信息并存储。
下面对本发明实施例提供的一种数据标注设备进行介绍,下文描述的一种数据标注设备与上文描述的一种数据标注方法及装置可以相互参照。
参见图4,本发明实施例提供的一种数据标注设备,包括:
存储器401,用于存储计算机程序;
处理器402,用于执行所述计算机程序时实现上述任意实施例所述的数据标注方法的步骤。
下面对本发明实施例提供的一种计算机可读存储介质进行介绍,下文描述的一种计算机可读存储介质与上文描述的一种数据标注方法、装置及设备可以相互参照。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意实施例所述的数据标注方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据标注方法,其特征在于,包括:
通过初始端获取不同初始用户输入的目标数据的初始标注信息;
判断获取到的初始标注信息是否一致;
若否,则将所述获取到的初始标注信息传输至第一审核端,通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息,并将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储。
2.根据权利要求1所述的数据标注方法,其特征在于,所述通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息,并将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储,包括:
通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息;
将所述第一审核标注信息传输至所述初始端;
通过所述初始端获取所述初始用户根据所述第一审核标注信息输入的校验信息;
判断所述校验信息是否是确认所述第一审核标注信息的信息;
若是,则将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储。
3.根据权利要求2所述的数据标注方法,其特征在于,所述将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储之后,还包括:
将所述第一审核标注信息传输至所述初始端,并通过所述初始端展示所述第一审核标注信息。
4.根据权利要求2所述的数据标注方法,其特征在于,当所述校验信息不是确认所述第一审核标注信息的信息时,还包括:
将所述初始标注信息和所述第一审核标注信息传输至第二审核端;
通过所述第二审核端获取第二审核用户根据所述初始标注信息和所述第一审核标注信息输入的所述目标数据的第二审核标注信息;
将所述第二审核标注信息确定为所述目标数据的最终标注信息并存储;
将所述第二审核标注信息传输至所述初始端和所述第一审核端,并通过所述初始端和所述第一审核端展示所述第二审核标注信息。
5.根据权利要求1-4任意一项所述的数据标注方法,其特征在于,所述通过初始端获取不同初始用户输入的目标数据的初始标注信息之前,还包括:
获取所述目标数据的标注任务,并按照预设的分配规则分配所述标注任务至所述初始端。
6.根据权利要求5所述的数据标注方法,其特征在于,所述获取所述目标数据的标注任务,并按照预设的分配规则分配所述标注任务至所述初始端,包括:
获取所述目标数据的标注任务;
判断所述目标数据是否包含已标注数据;
若是,则将所述已标注数据的库存标注信息添加至所述标注任务,得到所述目标数据的地雷标注任务,将所述地雷标注任务分配至所述初始端,通过所述初始端获取所述初始用户输入的所述目标数据的目标标注信息,将所述目标标注信息确定为所述目标数据的最终标注信息并存储;
若否,则按照所述预设的分配规则分配所述标注任务至所述初始端。
7.根据权利要求6所述的数据标注方法,其特征在于,所述通过所述初始端获取所述初始用户输入的所述目标数据的目标标注信息,将所述目标标注信息确定为所述目标数据的最终标注信息并存储,包括:
判断当前标注数据是否为所述已标注数据;
若是,则判断所述当前标注数据的当前标注信息与所述库存标注信息是否一致;若所述当前标注信息与所述库存标注信息不一致,则将所述当前标注信息和所述库存标注信息传输至目标审核端,通过所述目标审核端获取目标审核用户根据所述当前标注信息和所述库存标注信息输入的所述当前标注数据的目标审核标注信息,将所述目标审核标注信息确定为所述当前标注数据的最终标注信息并存储,将所述目标审核标注信息传输至所述初始端,并通过所述初始端展示所述目标审核标注信息;
若否,则将所述当前标注信息确定为所述当前标注数据的最终标注信息并存储。
8.一种数据标注装置,其特征在于,包括:
获取模块,用于通过初始端获取不同初始用户输入的目标数据的初始标注信息;
判断模块,用于判断获取到的初始标注信息是否一致;
执行模块,用于当获取到的初始标注信息不一致时,将所述获取到的初始标注信息传输至第一审核端,通过所述第一审核端获取第一审核用户根据所述获取到的初始标注信息输入的所述目标数据的第一审核标注信息,并将所述第一审核标注信息确定为所述目标数据的最终标注信息并存储。
9.一种数据标注设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-7任意一项所述的数据标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的数据标注方法的步骤。
CN201810338034.XA 2018-04-16 2018-04-16 一种数据标注方法及装置 Active CN108536662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810338034.XA CN108536662B (zh) 2018-04-16 2018-04-16 一种数据标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810338034.XA CN108536662B (zh) 2018-04-16 2018-04-16 一种数据标注方法及装置

Publications (2)

Publication Number Publication Date
CN108536662A true CN108536662A (zh) 2018-09-14
CN108536662B CN108536662B (zh) 2022-04-12

Family

ID=63481253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810338034.XA Active CN108536662B (zh) 2018-04-16 2018-04-16 一种数据标注方法及装置

Country Status (1)

Country Link
CN (1) CN108536662B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492997A (zh) * 2018-10-31 2019-03-19 四川长虹电器股份有限公司 一种基于SpringBoot的图像标注平台系统
CN109993315A (zh) * 2019-03-29 2019-07-09 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110188769A (zh) * 2019-05-14 2019-08-30 广州虎牙信息科技有限公司 关键点标注的审核方法、装置、设备及存储介质
CN110378617A (zh) * 2019-07-26 2019-10-25 中国工商银行股份有限公司 一种样本标注方法、装置、存储介质及设备
CN111402260A (zh) * 2020-02-17 2020-07-10 北京深睿博联科技有限责任公司 一种基于深度学习的医学影像分割方法、系统、终端及存储介质
CN111783863A (zh) * 2020-06-23 2020-10-16 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备以及计算机可读存储介质
CN112749150A (zh) * 2019-10-31 2021-05-04 北京中关村科金技术有限公司 一种错误标注数据的识别方法、装置和介质
CN112989087A (zh) * 2021-01-26 2021-06-18 腾讯科技(深圳)有限公司 一种图像处理方法、设备以及计算机可读存储介质
WO2022194080A1 (zh) * 2021-03-19 2022-09-22 影石创新科技股份有限公司 数据标注方法、装置、计算机设备和存储介质
CN115618810A (zh) * 2022-12-20 2023-01-17 中化现代农业有限公司 一种提升数据标注准确率的方法及装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002176676A (ja) * 2000-12-06 2002-06-21 Toshiba Corp 情報端末、情報取得プログラムが記録された記録媒体、情報取得システム、及び情報取得方法
US20080262833A1 (en) * 2004-11-12 2008-10-23 Justsystems Corporation Document Processing Device and Document Processing Method
WO2012040669A1 (en) * 2010-09-24 2012-03-29 Reality Mobile Llc Distribution and management of streamable data
CN102959539A (zh) * 2011-06-29 2013-03-06 华为技术有限公司 一种业务交叉时的项目推荐方法及系统
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN104572647A (zh) * 2013-10-11 2015-04-29 北大方正集团有限公司 标注装置和标注方法
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置
CN106358289A (zh) * 2016-09-30 2017-01-25 深圳市华傲数据技术有限公司 基于众包的数据采集方法、装置和服务器
CN106375437A (zh) * 2016-08-31 2017-02-01 上海银天下科技有限公司 数据审核方法及装置
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN106651097A (zh) * 2016-09-30 2017-05-10 深圳市华傲数据技术有限公司 基于众包的数据采集方法、装置和服务器
CN106897424A (zh) * 2017-02-24 2017-06-27 北京时间股份有限公司 信息标注系统及方法
CN107391703A (zh) * 2017-07-28 2017-11-24 北京理工大学 图像库的建立方法及系统、图像库和图像分类方法
US20180046764A1 (en) * 2016-08-10 2018-02-15 Talix, Inc. Health information system for searching, analyzing and annotating patient data
CN107784424A (zh) * 2017-06-26 2018-03-09 平安科技(深圳)有限公司 任务管理方法、装置、计算机设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002176676A (ja) * 2000-12-06 2002-06-21 Toshiba Corp 情報端末、情報取得プログラムが記録された記録媒体、情報取得システム、及び情報取得方法
US20080262833A1 (en) * 2004-11-12 2008-10-23 Justsystems Corporation Document Processing Device and Document Processing Method
WO2012040669A1 (en) * 2010-09-24 2012-03-29 Reality Mobile Llc Distribution and management of streamable data
CN102959539A (zh) * 2011-06-29 2013-03-06 华为技术有限公司 一种业务交叉时的项目推荐方法及系统
CN104572647A (zh) * 2013-10-11 2015-04-29 北大方正集团有限公司 标注装置和标注方法
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
US20180046764A1 (en) * 2016-08-10 2018-02-15 Talix, Inc. Health information system for searching, analyzing and annotating patient data
CN106375437A (zh) * 2016-08-31 2017-02-01 上海银天下科技有限公司 数据审核方法及装置
CN106358289A (zh) * 2016-09-30 2017-01-25 深圳市华傲数据技术有限公司 基于众包的数据采集方法、装置和服务器
CN106651097A (zh) * 2016-09-30 2017-05-10 深圳市华傲数据技术有限公司 基于众包的数据采集方法、装置和服务器
CN106897424A (zh) * 2017-02-24 2017-06-27 北京时间股份有限公司 信息标注系统及方法
CN107784424A (zh) * 2017-06-26 2018-03-09 平安科技(深圳)有限公司 任务管理方法、装置、计算机设备及存储介质
CN107391703A (zh) * 2017-07-28 2017-11-24 北京理工大学 图像库的建立方法及系统、图像库和图像分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JOHN PETER KRAHEL 等: "Consequences of Big Data and formalization on accounting and auditing standards", 《ACCOUNTING HORIZONS》 *
LI ZHENGHUA 等: "A separately passive-aggressive training algorithm for joint POS tagging and dependency parsing", 《COLING》 *
VOYER ROBERT 等: "A hybrid model for annotating named entity training corpora", 《PROCEEDINGS OF THE FOURTH LINGUISTIC ANNOTATION WORKSHOP》 *
王小平 等: "一种结合众包的排序学习算法", 《计算机应用与软件》 *
韩冬煦 等: "中文分词模型的领域适应性方法", 《计算机学报》 *
黎万义 等: "引入视觉注意机制的目标跟踪方法综述", 《自动化学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492997A (zh) * 2018-10-31 2019-03-19 四川长虹电器股份有限公司 一种基于SpringBoot的图像标注平台系统
CN109993315A (zh) * 2019-03-29 2019-07-09 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN109993315B (zh) * 2019-03-29 2021-05-18 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110188769A (zh) * 2019-05-14 2019-08-30 广州虎牙信息科技有限公司 关键点标注的审核方法、装置、设备及存储介质
CN110188769B (zh) * 2019-05-14 2023-09-05 广州虎牙信息科技有限公司 关键点标注的审核方法、装置、设备及存储介质
CN110378617A (zh) * 2019-07-26 2019-10-25 中国工商银行股份有限公司 一种样本标注方法、装置、存储介质及设备
CN112749150A (zh) * 2019-10-31 2021-05-04 北京中关村科金技术有限公司 一种错误标注数据的识别方法、装置和介质
CN112749150B (zh) * 2019-10-31 2023-11-03 北京中关村科金技术有限公司 一种错误标注数据的识别方法、装置和介质
CN111402260A (zh) * 2020-02-17 2020-07-10 北京深睿博联科技有限责任公司 一种基于深度学习的医学影像分割方法、系统、终端及存储介质
CN111783863A (zh) * 2020-06-23 2020-10-16 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备以及计算机可读存储介质
CN112989087A (zh) * 2021-01-26 2021-06-18 腾讯科技(深圳)有限公司 一种图像处理方法、设备以及计算机可读存储介质
WO2022194080A1 (zh) * 2021-03-19 2022-09-22 影石创新科技股份有限公司 数据标注方法、装置、计算机设备和存储介质
CN115114888A (zh) * 2021-03-19 2022-09-27 影石创新科技股份有限公司 数据标注方法、装置、计算机设备和存储介质
CN115618810A (zh) * 2022-12-20 2023-01-17 中化现代农业有限公司 一种提升数据标注准确率的方法及装置

Also Published As

Publication number Publication date
CN108536662B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN108536662A (zh) 一种数据标注方法及装置
Farid et al. NORMATIC: A visual tool for modeling non-functional requirements in agile processes
Dickover et al. Software design using: SADT
CN101615265B (zh) 一种基于多Agent技术的智能决策仿真实验系统
Fürstenau et al. Shadow IT Systems: Discerning the Good and the evil.
CN108520316A (zh) 一种超限报警数据优化处理方法
CN110688104A (zh) 可视化流程处理方法、装置、电子设备及可读存储介质
CN110175239A (zh) 一种知识图谱的构建方法及系统
CN108108567B (zh) 基于故障指示器逻辑位置的配电网单线图自动绘制方法
CN108832519B (zh) 一种变电站检修隔离的管控方法及装置
CN110377621A (zh) 一种基于计算引擎的界面处理方法及装置
CN107943767A (zh) 一种基于html模板邮件的报表生成方法及装置
CN117892828B (zh) 一种地理信息系统自然语言交互方法、装置、设备及介质
US20210319187A1 (en) Discussion support device and program for discussion support device
Hussein et al. Impact of organizational factors on information system project
CN112764637B (zh) 一种智慧农业物联网设备描述文件生成方法
Makinen et al. An interactive approach for synthesizing UML statechart diagrams from sequence diagrams
CN106972971A (zh) 物联网设备管理方法和管理系统
CN106647411B (zh) 信息物理融合系统CPS的Agent构造方法及装置
CN111783391B (zh) 一种在线人工文本标记系统及方法
Rodríguez et al. Reusable solutions for implementing usability functionalities
CN103543986B (zh) Cfx的计算任务的实现方法和装置
CN112766919A (zh) 一种基于甘特图的深度编辑使用的项目管理方法
Blair et al. A comparative study of methodologies for designing IDSSs
Shah et al. A study of end user computing and the provision of tool support to advance end user empowerment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant