CN115732061A - 数据标注的方法、装置、设备和存储介质 - Google Patents

数据标注的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115732061A
CN115732061A CN202111003760.4A CN202111003760A CN115732061A CN 115732061 A CN115732061 A CN 115732061A CN 202111003760 A CN202111003760 A CN 202111003760A CN 115732061 A CN115732061 A CN 115732061A
Authority
CN
China
Prior art keywords
data
labeled
labeling
annotation
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111003760.4A
Other languages
English (en)
Inventor
徐佳
唐蓉玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Cloud Computing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Cloud Computing Technologies Co Ltd filed Critical Huawei Cloud Computing Technologies Co Ltd
Priority to CN202111003760.4A priority Critical patent/CN115732061A/zh
Priority to PCT/CN2022/081097 priority patent/WO2023029436A1/zh
Publication of CN115732061A publication Critical patent/CN115732061A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本申请提供了一种数据标注的方法、装置、计算设备和存储介质,属于AI技术领域。该方法包括:数据标注平台将待标注的数据发送给至少两个标注用户,获取至少两个标注用户对待标注的数据的至少两个标注结果。根据至少两个标注结果,确定是否对待标注的数据执行仲裁,若确定对待标注的数据执行仲裁,发送待标注的数据至审核用户进行标注,若确定不对待标注的数据执行仲裁,根据融合规则将至少两个标注结果进行融合,获得待标注的数据的标签。采用本申请,通过多人协同对同一数据的标注,解决了复杂数据的标注准确率低的问题。

Description

数据标注的方法、装置、设备和存储介质
技术领域
本申请涉及人工智能(artificial intelligence,AI)技术领域,特别涉及一种数据标注的方法、装置、设备和存储介质。
背景技术
随着AI技术的广泛应用,AI技术中需要大量的已标注数据来进行算法训练,因此高效准确地标注数据成为当务之急。
相关技术中,预先训练一个智能标注算法,将每个待标注的数据输入智能标注算法,获得每个待标注的数据的标注结果。将每个待标注的数据的标注结果确定为标签。这样,对于简单的标注智能标注算法能够进行标注,但是对于比较复杂的标注,智能标注算法的标注准确率往往比较低,所以需要提供一种标注准确率更高的方法。
发明内容
本申请提供了一种数据标注的方法、装置、设备和存储介质,能够提升数据的标注准确率。
第一方面,本申请提供了一种数据标注的方法,该方法包括:将待标注的数据发送给至少两个标注用户,获取该至少两个标注用户对该待标注的数据的至少两个标注结果。根据该至少两个标注结果,确定是否对该待标注的数据执行仲裁。若确定对该待标注的数据执行仲裁,发送该待标注的数据至审核用户进行标注。若确定不对该待标注的数据执行仲裁,根据融合规则将该至少两个标注结果进行融合,获得该待标注的数据的标签。
本申请所示的方案,将待标注的数据分给至少两个标注用户标注,获得至少两个标注结果。判断是否对待标注的数据执行仲裁。在确定对待标注的数据执行仲裁时,将该待标注的数据发送至审核用户进行标注,在确定不对待标注的数据执行仲裁时,根据融合规则将至少两个标注结果进行融合,得到待标注的数据的标签。这样,通过多人协同对同一数据进行标注,解决了复杂数据的标注准确率低的问题,还提供了仲裁功能,对需要仲裁的待标注的数据进行仲裁,进一步提高标注的准确率。
在一种可能的实现方式中,若确定对待标注的数据执行仲裁,该方法还包括:获得审核用户对待标注的数据的标注结果,将审核用户的标注结果作为待标注的数据的标签。这样,对于需要仲裁的待标注的数据能获得更准确的标签。
在一种可能的实现方式中,该方法还包括:接收管理用户输入的对标注用户、审核用户和融合规则的配置信息。这样,使得标注用户、审核用户和融合规则可灵活配置,提高了方法的应用灵活性。
在一种可能的实现方式中,根据至少两个标注结果,确定是否对待标注的数据执行仲裁,包括:在待标注的数据的标注类型为分类的情况下,若至少两个标注结果不相同,则确定对待标注的数据进行仲裁,若至少两个标注结果相同,则确定不对待标注的数据进行仲裁;在待标注的数据的标注类型为检测或分割的情况下,若至少两个标注结果中针对同一对象的标注框的差值不满足预设条件,则确定对待标注的数据进行仲裁,若至少两个标注结果中针对同一对象的标注框的差值满足预设条件,则确定不对待标注的数据进行仲裁。这样,对于不同标注类型的待标注的数据,有不同的标准判断是否进行仲裁,所以能够准确判断是否进行仲裁。
在一种可能的实现方式中,根据融合规则将至少两个标注结果进行融合,获得待标注的数据的标签,包括:在待标注的数据的标注类型为分类的情况下,将至少两个标注结果中的一个标注结果,确定为待标注的数据的标签;在待标注的数据的标注类型为检测或分割的情况下,将针对同一对象的标注框取并集,确定为待标注的数据的标签。
本申请所示的方案,对于不同标注类型的待标注的数据,有不同的确定标签方式。这样,在有多个标注结果时,能够准确基于标注结果确定出标签。
在一种可能的实现方式中,该方法还包括:当检测到标注用户触发标注界面时,通过标注界面提供待标注的数据的标注类型对应的查看工具和标注工具,该查看工具用于该标注用户查看待标注的数据,该标注工具用于该标注用户为待标注的数据添加标注类型对应的标注结果。
本申请所示的方案,在检测到标注用户触发标注界面时,通过标注界面为该标注用户提供标注类型对应的查看工具和标注工具,使得该标注用户能够使用该查看工具查看该待标注的数据,并且使得该标注用户能够使用该标注工具为待标注的数据添加标签。这样,为标注用户提供了更智能化的标注方式,不仅能够统一标注结果的标注格式,而且可以提高标注效率。
在一种可能的实现方式中,获得待标注的数据的标签之后,该方法还包括:获取管理用户输入的该待标注的数据的标签版本信息;将该待标注的数据的标签与该标签版本信息对应存储。
本申请所示的方案,数据标注平台提供了管理用户输入标签版本信息的功能,管理用户能够为待标注的数据输入标签版本信息,标签版本信息用于指示待标注数据的标签版本。数据标注平台将该待标注的数据的标签与该标签版本信息对应存储,使得能够基于标签版本信息区分待标注的数据的标签。
第二方面,本申请提供了一种数据标注的装置,该装置应用于数据标注平台,该装置包括:
数据标注模块,用于将待标注的数据发送给至少两个标注用户;
标注结果管理模块,用于:获取该至少两个标注用户对该待标注的数据的至少两个标注结果;
根据该至少两个标注结果,确定是否对该待标注的数据执行仲裁;
该数据标注模块,还用于若确定对该待标注的数据执行仲裁,发送该待标注的数据至审核用户进行标注;
该标注结果管理模块,还用于若确定不对该待标注的数据执行仲裁,根据融合规则将该至少两个标注结果进行融合,获得该待标注的数据的标签。
在一种可能的实现方式中,该标注结果管理模块,还用于:若确定对该待标注的数据执行仲裁,获得该审核用户对该待标注的数据的标注结果,将该审核用户的标注结果作为该待标注的数据的标签。
在一种可能的实现方式中,该数据标注模块,还用于接收管理用户输入的对该标注用户、该审核用户和该融合规则的配置信息。
在一种可能的实现方式中,该标注结果管理模块,用于:在该待标注的数据的标注类型为分类的情况下,若该至少两个标注结果不相同,则确定对该待标注的数据进行仲裁,若该至少两个标注结果相同,则确定不对该待标注的数据进行仲裁;
在该待标注的数据的标注类型为检测或分割的情况下,若该至少两个标注结果中针对同一对象的标注框的差值不满足预设条件,则确定对该待标注的数据进行仲裁,若该至少两个标注结果中针对同一对象的标注框的差值满足该预设条件,则确定不对该待标注的数据进行仲裁。
在一种可能的实现方式中,该标注结果管理模块,用于:在该待标注的数据的标注类型为分类的情况下,将该至少两个标注结果中的一个标注结果,确定为该待标注的数据的标签;
在该待标注的数据的标注类型为检测或分割的情况下,将针对同一对象的标注框取并集,确定为该待标注的数据的标签。
在一种可能的实现方式中,该数据标注模块,还用于:当检测到该标注用户触发标注界面时,通过该标注界面提供该待标注的数据的标注类型对应的查看工具和标注工具,该查看工具用于该标注用户查看该待标注的数据,该标注工具用于该标注用户为该待标注的数据添加该标注类型对应的标注结果。
在一种可能的实现方式中,该标注结果管理模块,还用于:获得该待标注的数据的标签之后,获取管理用户输入的该待标注的数据的标签版本信息;
将该待标注的数据的标签与该标签版本信息对应存储。。
第三方面,本申请提供了一种数据标注的计算设备,该计算设备包括处理器和存储器,其中:
该存储器中存储有计算机指令;
该处理器执行该计算机指令,以实现第一方面所述的数据标注的方法。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,当该计算机可读存储介质中的计算机指令被计算设备执行时,使得该计算设备执行第一方面所述的数据标注的方法。
第五方面,本申请提供了一种包含指令的计算机程序产品,当其在计算设备上运行时,使得计算设备执行上述第一方面所述的数据标注的方法。
附图说明
图1是本申请一个示例性实施例提供的AI平台的逻辑示意图;
图2是本申请一个示例性实施例提供的数据标注平台的逻辑示意图;
图3是本申请一个示例性实施例提供的数据标注模块与管理用户的交互示意图;
图4是本申请一个示例性实施例提供的数据标注平台的逻辑示意图;
图5是本申请一个示例性实施例提供的数据标注平台的逻辑示意图;
图6是本申请一个示例性实施例提供的计算设备的结构示意图;
图7是本申请一个示例性实施例提供的数据标注的方法流程示意图;
图8是本申请一个示例性实施例提供的数据标注的方法流程示意图;
图9是本申请一个示例性实施例提供的标注界面的示意图;
图10是本申请一个示例性实施例提供的标注界面的示意图;
图11是本申请一个示例性实施例提供的标注界面的示意图;
图12是本申请一个示例性实施例提供的数据标注的方法流程示意图;
图13是本申请一个示例性实施例提供的数据标注的装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
随着AI技术的广泛应用,AI技术中需要大量的已标注数据来进行算法训练,因此高效准确地标注数据成为当务之急。在相关方案中,是使用智能标注算法标注数据,但是对于复杂的数据,智能标注算法的准确率往往比较低,因此需要一种标注准确率比较高的方法。
本申请实施例提供了一种数据标注的方法,该方法能够应用于各种数据标注场景中,且能在多种场景中具有良好的标注准确率。例如,图像数据标注场景、语义分析标注场景等。示例性的,图像数据可以是医学影像。
本申请实施例以医学影像标注为例进行方案的详细说明。在医学领域中,医学影像的专业性比较高,需要标注用户具有较多的医学影像专业知识。这样,不同的标注用户由于专业知识水平不一致,会导致标注结果差异比较大。而且医学影像数据格式有多种,且模态各异,也需要数据标注的方法能够适配各种医学影像。例如,对于不同肺的医学影像中,肺结节的大小,形状也不大相同。而且为了使得开发的医学AI模型更准确,要求的医学影像也比较多,那么医学影像的标注也需要耗费大量的人力和时间。
基于上述情况,本申请实施例中,在AI平台中设置支持多人标注以及对标注结果进行融合与仲裁的数据标注功能,使得每个待标注的数据分配给至少两个标注用户标注。在至少两个标注用户标注完成后,对至少两个标注用户的标注结果进行融合。在至少两个标注用户的标注结果差异比较大时,对待标注的数据进行仲裁。这样,AI平台中提供的数据标注功能,通过多人协同标注,并在标注结果差异比较大时进行仲裁,不仅可以使得标注结果准确,而且可以使得标注结果的格式一致,便于后续AI模型的训练,该AI模型可以是医学辅助诊断模型等。
示例性的,本申请实施例中,一个待标注的数据被添加标签后,该待标注的数据和该标签可以作为样本,用于训练AI模型。
在一些实施例中,数据标注的方法的执行主体可以是AI平台,示例性的,该执行主体具体可以是AI平台中包括的数据标注平台。AI平台,是一种为AI开发者和用户提供便捷的AI开发环境以及便利的开发工具的平台。AI平台中提供数据标注功能和AI模型训练功能等。
图1为本申请实施例中提供的AI平台100的结构示意图,应理解,图1仅是示例性地展示了AI平台100的一种结构化逻辑示意图,本申请并不限定对AI平台100中的模块的划分。如图1所示,AI平台100包括AI交互模块101、云基础平台102、平台即服务(platform-as-a-service,PaaS)103、基础设施即服务(infrastructure as a service,IaaS)104等。
下面简要地描述图1所示的AI平台100中的各个模块的功能:
示例性的,AI交互模块101:用于提供数据管理功能、AI算法开发功能、辅助诊疗服务功能和高阶AI影像辅助功能。
数据管理功能用于接收数据的导入、对数据进行脱敏处理、阅片功能和勾画功能。数据可以是待标注的数据等。脱敏处理指将用户数据的敏感信息的匿名化处理。阅片功能用于向用户展示待标注的数据。勾画功能用于用户为待标注的数据添加标注结果。
AI算法开发功能包括数据集管理功能、数据标注功能、模型训练功能、模型评估功能、部署上线功能、算法管理功能等。数据集管理功能包括数据集的管理功能、数据归档功能。数据集的管理功能包括指数据集的创建、修改和删除等功能。数据归档功能指将同一个数据的各种信息进行归档的功能。数据标注功能包括标注任务的管理功能、标注团队的管理功能、标注工具的管理功能等。标注任务是对某些数据进行标注的任务。标注团队指对某个数据集进行标注的多个用户组成的团队。标注工具指用于对数据进行标注的工具,如电子画笔等。模型训练功能用于管理AI模型的训练,包括但不限于资源池管理(即管理训练数据)、训练作业的调度等。模型评估功能用于对训练完成的AI模型进行评估等处理,包括但不限于模型验证、镜像打包和模型可视化等。部署上线功能用于将评估通过的AI模型部署至线上,如服务部署、模型共享等。算法管理功能用于各种算法的管理,例如可以包括:医学分割算法管理、3D预训练(对医学影像进行预分割等)、3D影像内容检索、3D跨模态配准、自监督小样本学习、3D网络神经结构搜索(neural architecture search,NAS)寻优等。
辅助诊断功能用于提供各种类型疾病的辅助诊断。
高阶AI影像辅助功能用于提供AI影像的处理功能,包括但不限于图像内容检索功能、图像配准功能等。
云基础平台102,也可以称为AI开发平台。云基础平台102提供各种云基础服务。云基础平台102包括但不限于开发环境管理平台、数据处理平台、数据标注平台、训练作业平台、模型管理功能、服务管理功能等。开发环境管理平台用于提供开发环境管理服务。数据处理平台用于提供数据处理服务。数据标注平台用于提供数据标注服务。例如,数据标注平台用于管理各个待标注的数据的标注结果等。训练作业平台用于提供AI模型训练作业管理服务。模型管理功能用于提供模型的管理服务,如更新模型、删除模型等。服务管理功能用于管理所提供的服务。
PaaS103,包括资源池。资源池包括但不限于共享资源池、租户专属资源池。共享资源池包括各个租户能够使用的资源,如模型训练资源等。租户专属资源池包括各个租户所能使用的资源,如模型训练资源、模型服务资源等。示例性的,在应用于医学影像领域时,资源池还包括AI辅助诊断资源池,如AI辅助诊断资源池包括用于医学辅助诊断的AI模型。
IaaS104,包括服务器资源。服务器资源包括但不限于弹性云服务器(elasticcloud server,ECS)、ECS+图像处理器(graphics processing unit,GPU)服务器、裸金属服务器(bare metal server,BMS)+GPU服务器等。云服务器也可以称为是计算单元。BMS是为租户提供的专属物理服务器。
应理解,图1所示的AI平台中包括的各个模块仅是一种示例,在一些实施例中,AI平台可以仅包括其中部分模块的功能,或者,在另一些实施例中,AI平台还可以包括其他模块的功能,本申请不对此作限定。
图2为本申请实施例中提供的AI平台100中数据标注平台(后续表示为数据标注平台200)的结构示意图,应理解,图2仅是示例性地展示了数据标注平台200的一种结构化示意图,本申请实施例并不限定对数据标注平台200中的模块的划分。如图2所示,数据标注平台200包括数据标注模块201、数据存储模块202和标注结果管理模块203。
下面简要地描述图2所示的数据标注平台200中的各个模块的功能:
数据标注模块201提供标注项目管理服务、标注团队管理服务、标注任务管理服务、数据标注服务和标签版本管理服务。
示例性的,标注项目管理服务用于管理标注项目。每个标注项目针对一个数据集,该数据集用于训练一个AI模型。例如,该数据集为肺部医学影像集,用于训练辅助诊断肺部的AI模型。再例如,该数据集为脑部医学影像集,用于训练辅助诊断脑部的AI模型。标注项目管理服务包括创建标注项目的功能、修改标注项目的功能、删除标注项目的功能、查看标注项目列表的功能、查看标注项目概览的功能等。管理用户可以基于这些功能实现对标注项目的管理。
在本申请实施例中,管理用户为开发者,或者AI平台的第三方使用者(如独立软件开发商(independent software vendors,ISV))。
示例性的,标注团队管理服务用于对标注团队进行管理。标注团队是由多个用户组成的团队。标注团队中包括标注用户和审核用户,例如,通常审核用户的专业知识水平高于标注用户的专业知识水平。标注用户和审核用户均能对数据进行标注,审核用户还可以对数据的标注结果进行仲裁。标注团队管理服务包括创建标注团队的功能、删除标注团队的功能、修改标注团队中成员的功能、添加标注团队中成员的功能、删除标注团队中成员的功能、查看标注团队列表的功能等。管理用户可以基于这些功能实现对标注团队的管理。
示例性的,标注任务管理服务用于管理标注任务。标注任务为对至少一个待标注的数据进行标注的任务,例如,标注任务为对一个标注项目中部分数据进行标注的任务,或者,对一个标注项目中全部数据进行标注的任务。每个待标注的数据对应有标注类型,标注类型可以包括分类、检测或分割中的任一种。一个标注任务可以分配给至少一个标注团队,且该标注任务中每个待标注的数据分配给至少两个标注用户进行标注。标注任务管理服务包括创建标注任务的功能、删除标注任务的功能、查看标注任务进展的功能等。管理用户可以基于这些功能实现对标注任务的管理。
示例性的,标注任务管理服务还包括验收标注结果的功能、查看验收报告的功能。管理用户通过验收标注结果的功能可以将标注结果提交给审核用户进行仲裁。管理用户通过查看验收报告的功能查看验收结果。
示例性的,数据标注服务包括标注结果的添加功能、修改功能、删除功能和仲裁功能。并且数据标注服务还可以为标注用户或审核用户提供标注工具。标注用户或审核用户可以使用标注工具对数据进行标注。
示例性的,标签版本管理服务用于管理待标注的数据的标签版本信息。标签版本信息用于区分针对一个待标注的数据不同批次的标签。标签版本管理服务包括查询标签版本信息的功能、删除标签版本信息的功能、设置当前标签版本信息的功能和发布标签版本信息的功能等。管理用户可以通过查询标签版本信息的功能,查询标签版本信息。管理用户可以通过删除标签版本信息的功能,删除标签版本信息。管理用户可以通过设置标签版本信息的功能,选择待标注的数据的不同标签版本信息,以查看待标注的数据在不同标签版本信息下的标签。发布标签版本信息的功能用于指示将待标注的数据的标签与管理用户指示的标签版本信息对应存储。
示例性的,数据标注模块平台200还提供了标签查看服务。管理用户可以通过该服务查看已标注的数据的标签。
需要说明的是,管理用户、标注用户和审核用户可以通过图形用户界面(graphical user interface,GUI)或调用应用程序接口(application programinterface,API)与数据标注平台200交互。
数据存储模块202,可以是云服务提供商提供的对象存储服务(object storageservice,OBS)对应的数据存储资源。数据存储模块202用于存储用户上传的待标注的数据以及标注结果,如存储用户上传的待标注的数据集,待标注的数据集中包括待标注的数据。示例性的,数据标注模块201从OBS中读取待标注的数据,在标注完成后,将标注结果写入OBS。
示例性的,数据存储模块202还用于存储标注团队的信息等。
标注结果管理模块203,用于判断是否对待标注的数据进行仲裁。在不对待标注的数据进行仲裁时,对每个待标注的数据的至少两个标注结果进行融合处理,获得待标注的数据的标签;在对待标注的数据进行仲裁时,将待标注的数据发送给审核用户。示例性的,标注结果管理模块203从数据存储模块202中读取每个待标注的数据的至少两个标注结果,对至少两个标注结果进行融合处理,获得每个待标注的数据的标签。示例性的,可以通过Spark对标注结果进行融合处理。标注结果管理模块203在获取待标注的数据的标签后,可以对标签进行存储,示例性的,可以将标签存储至数据库,如将标签存储至HBase。
示例性的,数据标注平台200还包括AI推理模块204。AI推理模块204对待标注的数据进行智能标注获得智能标注结果,将智能标注结果通过用户输入/输出(input/out,I/O)功能提供给标注用户和/或审核用户,进行参考。
示例性的,数据标注平台200还可以包括AI模型训练模块和数据预处理模块。AI模型训练模块用于在获得数据集中各个待标注的数据的标签后,获得标注完成的数据集,标注完成的数据集中均是已标注的数据。基于标注完成的数据集,训练获得AI模型。数据预处理模块用于标注完成的数据集进行预处理操作。示例性的,对标注完成的数据集中的已标注的数据进行预处理可使得已标注的数据在尺寸上具有一致性,还可以去除已标注的数据中不恰当的数据以及对已标注的数据进行脱敏处理等。数据预处理模块可以将预处理后的已标注的数据存储至数据存储模块202。
需要说明的是,本申请中的数据标注平台200可以是一个可以与用户交互的系统,这个系统可以是软件系统也可以是硬件系统,也可以是软硬结合的系统,本申请中不进行限定。
为了更好的说明图2中数据标注平台200中数据标注模块201与管理用户的交互,提供了图3所示的交互示意图。在图3中,管理用户可以使用数据标注模块201提供的标注项目管理服务、标注团队管理服务、标签版本管理服务、标注任务管理服务、数据标注服务和标签查看服务。其中,管理用户通过标注项目管理服务创建标注项目、删除标注项目、修改标注项目、查看标注项目列表等。管理用户通过标注团队管理服务创建标注团队、删除标注团队、修改标注团队成员、添加标注团队成员、删除标注团队成员和查看标注团队列表等。管理用户通过标签版本管理服务创建标签版本信息、删除标签版本信息、设置当前标签版本信息和发布标签版本信息等。管理用户通过标注任务管理服务创建标注任务、删除标注任务、修改标注任务、查看标注任务进展、验收标注结果等。管理用户通过标签查看服务查看已标注的数据的标签。管理用户通过数据标注服务查看待标注的数据的标注结果等。
另外,在图3中,标注用户和审核用户可以使用数据标注服务进行数据标注。示例性的,标注用户通过数据标注服务对待标注的数据进行标注,并保存标注结果。审核用户通过数据标注服务审核待标注的数据的标注结果以及保存标注结果等。
图4为本申请实施例示例性的提供的AI平台100的应用场景示意图。如图4所示,AI平台100可以全部部署在云环境中。云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源),该计算资源可以是大量的计算设备(如服务器)。AI平台100可以独立地部署在云环境中的服务器或虚拟机上,AI平台100也可以分布式地部署在云环境中的多台服务器上、或者分布式地部署在云环境中的多台虚拟机上、再或者分布式地部署在云环境中的服务器和虚拟机上。如图4所示,AI平台100由云服务提供商在云环境抽象成一种云服务提供给用户,云环境利用部署在云环境的AI平台100向用户提供云服务。在使用云服务时,管理用户可以通过API或者GUI将待标注的数据上传至云环境。云环境中的AI平台100(如数据标注平台200)接收待标注的数据,向用户(标注用户、审核用户和管理用户)提供数据标注服务功能。
本申请提供的数据标注平台200的部署较为灵活,如图5所示,在另一种实施例中,本申请提供的数据标注平台200还可以分布式地部署在不同的环境中。本申请提供的数据标注平台200可以在逻辑上分成多个部分,每个部分具有不同的功能。例如,在一种实施例中数据标注平台200包括数据标注模块201、数据存储模块202和标注结果管理模块203。数据标注平台200中的各部分可以分别部署在终端计算设备、边缘环境和云环境中的任意两个或三个环境中。终端计算设备包括:终端服务器、智能手机、笔记本电脑、平板电脑、个人台式电脑、智能摄相机等。边缘环境为包括距离终端计算设备较近的边缘计算设备集合的环境,边缘计算设备包括:边缘服务器、拥有计算能力的边缘小站等。部署在不同环境或设备的数据标注平台200的各个部分协同实现为用户提供数据标注功能。例如,在一种场景中,终端计算设备中部署数据标注平台200中的数据标注模块201、数据存储模块202,边缘环境的边缘计算设备中部署数据标注平台200中的标注结果管理模块203。应理解,本申请不对数据标注平台200的哪些部分部署具体部署在什么环境进行限制性的划分,实际应用时可根据终端计算设备的计算能力、边缘环境和云环境的资源占有情况或具体应用需求进行适应性的部署。
数据标注平台200也可以单独部署在任意环境中的一个计算设备上(如单独部署在边缘环境的一个边缘服务器上)。图6为部署有数据标注平台200的计算设备600的硬件结构示意图,图6所示的计算设备600包括存储器601、处理器602、通信接口603以及总线604。其中,存储器601、处理器602、通信接口603通过总线604实现彼此之间的通信连接。
存储器601可以是只读存储器(read only memory,ROM),随机存取存储器(randomaccess memory,RAM),硬盘,快闪存储器或其任意组合。存储器601可以存储程序,当存储器601中存储的程序被处理器602执行时,处理器602和通信接口603用于执行数据标注平台200进行数据标注的方法。存储器还可以存储数据集。例如,存储器601中的一部分存储资源被划分成存储数据集和数据集中数据的标签,存储器601中的一部分存储资源被划分成存储待标注的数据的标注结果。
处理器602可以采用中央处理器(central processing unit,CPU),应用专用集成电路(application specific integrated circuit,ASIC),GPU或其任意组合。处理器602可以包括一个或多个芯片。处理器602可以包括AI加速器,例如,神经网络处理器(neuralprocessing unit,NPU)。
通信接口603使用例如收发器一类的收发模块,来实现计算设备600与其他设备或通信网络之间的通信。例如,可以通过通信接口603获取数据。
总线604可包括在计算设备600各个部件(例如,存储器601、处理器602、通信接口603)之间传送信息的通路。
下面对数据标注的方法流程进行说明,图7示出了数据标注的方法流程的示意图。数据标注的方法的执行主体可以是前述数据标注平台200,后文简述为数据标注平台。
步骤701,将待标注的数据发送给至少两个标注用户。
其中,待标注的数据为管理用户向数据标注平台提交的未添加有标签的数据,该待标注的数据是管理用户向数据标注平台单独提交的一个数据,或者管理用户向数据标注平台提交的多个待标注的数据中的一个数据,该多个待标注的数据构成一个待标注的数据集。待标注的数据的类型可以是图像,该图像可以是二维图像、三维图像等,三维图像可以是复杂的医学影像。
在本实施例中,管理用户指示数据标注平台对待标注的数据进行标注。数据标注平台将待标注的数据提供给至少两个标注用户。示例性的,数据标注平台向至少两个标注用户发送待标注的数据的标注界面的访问路径。该访问路径可以是一个地址链接。或者,数据标注平台向至少两个标注用户发送标注通知消息。示例性的,为了节约用于标注的人力资源,前述至少两个标注用户可以是仅有两个标注用户。
标注用户可以触发标注界面的访问路径,触发标注用户的终端,显示标注界面的登录窗口。标注用户使用自己的账户和密码进行登录。或者,标注用户可以直接使用自己的账户和密码登录数据标注平台,在数据标注平台中进入标注界面。在标注界面中展示标注用户待标注的数据,而不会展示不需要该标注用户标注的数据。例如,数据标注平台预先将标注用户的账户与该标注用户待标注的数据进行绑定,数据标注平台检测到该标注用户登录后,向该标注用户提供该标注用户的账户对应的待标注的数据。标注用户可以在该标注界面中,对待标注的数据添加标注结果。在标注用户对待标注的数据标注完成后,向数据标注平台提交数据的标注结果。数据标注平台存储每个待标注的数据的标注结果。
需要说明的是,数据标注平台存储每个待标注的数据的标注结果时,可以不是将标注结果直接添加在待标注的数据上进行存储,而是对标注结果进行单独存储。这样,标注用户对待标注的数据进行标注时不会受到已有的标注结果的影响。并且将标注结果与待标注的数据的标识对应存储,以将标注结果与待标注的数据相对应。示例性的,数据标注平台存储标注结果时,还可以将标注结果与执行该标注的标注人员的标识相对应。
还需要说明的是,针对待标注的数据,不对标注类型的标注结果的形式不相同。例如,标注类型为分类时,标注结果为待标注的数据所属的类别;标注类型为检测或者分割时,标注结果为待标注的数据中的标注框以及标注框的描述信息,描述信息用于指示标注框中的内容,如待标注的数据为医学影像,标注框中的内容是右肺,描述信息为右肺。此处值得注意的是,在标注类型为分割的情况下,分割获得的区域的边界也可以认为是一个标注框。
步骤702,获取至少两个标注用户对待标注的数据的至少两个标注结果。
在本实施例中,数据标注平台检测到待标注的数据标注完成后,从标注结果的存储位置,获得待标注的数据的至少两个标注结果。
或者,管理用户提交一个待标注的数据集进行标注,待标注的数据属于待标注的数据集。数据标注平台检测到待标注的数据集中每个待标注的数据标注完成后,从标注结果的存储位置,获取每个待标注的数据的至少两个标注结果。
步骤703,根据至少两个标注结果,确定是否对待标注的数据执行仲裁。
在本实施例中,数据标注平台使用至少两个标注结果,确定该至少两个标注结果的差别,基于该差别判断是否对待标注的数据执行仲裁。在差别较大时,确定对待标注的数据执行仲裁,在差别较小时,确定不对待标注的数据执行仲裁。
示例性的,不同标注类型的标注结果,是否对待标注的数据执行仲裁有不同的判断规则。在待标注的数据的标注类型为分类的情况下,数据标注平台判断至少两个标注结果是否相同,若不相同,则确定对待标注的数据执行仲裁,若相同,则确定不对待标注的数据执行仲裁。
在待标注的数据的标注类型为检测或分割的情况下,数据标注平台确定至少两个标注结果中同一对象的标注框。数据标注平台确定至少两个标注结果中针对同一对象的标注框的差值,判断该差值是否满足预设条件,预设条件可以预设,如预设条件为差值小于或等于目标数值等。对于不同的对象,有可能存在不同的预设条件。若至少两个标注结果中针对同一对象的标注框的差值不满足该预设条件,则确定对待标注的数据执行仲裁,若至少两个标注结果中针对同一对象的标注框的差值满足该预设条件,则确定不对该待标注的数据执行仲裁。
此处标注框的差值可以是标注框的面积的差值、标注框重合度、标注框的中心的距离、标注框的边界点的最长距离和最短距离的差值中的一种或多种。
需要说明的是,对象是待标注的数据中标注用户标注的内容,例如,待标注的数据为肺的医学影像,对象是右肺、左肺等,再例如,待标注的数据为甲状腺的医学影像,对象是甲状腺的结节等。
数据标注平台确定至少两个标注结果中同一对象的标注框的处理为:数据标注平台在至少两个标注结果中获取各标注框的描述信息,将描述信息相同的标注框确定为同一对象的标注框。此处每个标注结果中有可能存在多个描述信息相同的标注框,获取至少两个标注结果中相同描述信息,且距离最近的标注框,确定为同一对象的标注框。
步骤704,若确定对待标注的数据执行仲裁,发送待标注的数据至审核用户进行标注。
其中,审核用户的专业知识通常比标注用户的专业知识更丰富,也可以认为审核用户的标注准确率高于标注用户。例如,在医学领域,审核用户为专家,标注用户普通医生。在某些情况下,审核用户也可以作为标注用户。若需要仲裁的待标注的数据是审核用户作为标注用户时标注的,则该待标注的数据不会提交给该审核用户,而是提交给其他审核用户。
在本实施例中,在确定对待标注的数据执行仲裁时,数据标注平台向审核用户发送待标注的数据。示例性的,数据标注平台向审核用户发送仲裁通知消息,该仲裁通知消息可以通过邮件、短消息等提供给审核用户。仲裁通知消息中可以包括仲裁界面的访问路径,或者仲裁通知消息也可以不包括仲裁界面的访问路径,仅是提示审核用户需要对待标注的数据进行仲裁。
审核用户接收到仲裁通知消息后,审核用户可以触发终端显示仲裁界面的登录窗口。审核用户使用自己的账户和密码登录仲裁界面。或者,审核用户接收到仲裁通知消息后,直接使用自己的账户和密码登录数据标注平台,在数据标注平台中进入仲裁界面。
审核用户进入仲裁界面后,在仲裁界面中展示了审核用户待仲裁的待标注的数据,审核用户依次选择每个待标注的数据进行仲裁。在仲裁每个待标注的数据时,可以显示该待标注的数据的至少两个标注结果的选项。审核用户可以判断至少两个标注结果中是否存在正确的标注结果,如果存在正确的标注结果,则审核用户将正确的标注结果进行提交;如果不存在正确的标注结果,则审核用户对某个标注结果进行修改,将修改后的标注结果进行提交;或者,审核用户重新对待标注的数据进行标注,将重新标注的标注结果进行提交。
示例性的,数据标注平台获得审核用户对待标注的数据的标注结果后,将该标注结果作为待标注的数据的标签。
步骤705,若确定不对待标注的数据执行仲裁,根据融合规则将至少两个标注结果进行融合,获得待标注的数据的标签。
在本实施例中,数据标注平台获取待标注的数据的融合规则,该融合规则指一个待标注的数据存在至少两个标注结果时获得标签的规则。数据标注平台基于该融合规则,对待标注的数据的至少两个标注结果进行融合处理,获得待标注的数据的标签。数据标注平台对待标注的数据的标签进行存储。
示例性的,不同应用场景的融合规则不相同,不同的标注类型融合规则不相同,如下提供了图像标注的融合处理过程:
在待标注的数据的标注类型为分类的情况下,将至少两个标注结果中的一个标注结果,确定为待标注的数据的标签。在待标注的数据的标注类型为检测或分割的情况下,将针对同一对象的标注框取并集,确定为待标注的数据的标签。此处仅是示例性的给出一种方式,融合处理过程还可以是其它过程,例如,在待标注的数据的标注类型为检测或分割的情况下,将针对同一对象的标注框取进行平均,确定为待标注的数据的标签。
需要说明的是,步骤704和步骤705没有先后顺序,两个步骤的执行顺序可以互换,或者两个步骤可以并行执行。
示例性的,一个待标注的数据有可能是经过多次标注,数据标注平台可以为每次的标签添加不同的标签版本信息,以进行区分每次的标注。在获得待标注的数据的标签后,数据标注平台获取管理用户输入的待标注的数据的标签版本信息,将该标签版本信息与待标注的数据的标签对应存储。管理用户可以在向数据标注平台提交待标注的数据时,输入待标注的数据的标签版本信息,也可以是在数据标注平台获得待标注的数据的标签后,输入待标注的数据的标签版本信息。
上述方案中,待标注的数据提交给至少两个标注用户进行标注,使得待标注的数据获得至少两个标注结果。并且判断是否对待标注的数据进行仲裁,在不对待标注的数据进行仲裁时,对待标注的数据的至少两个标注结果进行融合处理,确定出待标注的数据的标签;在对待标注的数据进行仲裁时,由审核用户进行仲裁。可见,通过多人协同对同一待标注的数据的标注,解决了复杂数据(如三维图像等)的标注效率和准确率低的问题。而且整个标注流程是基于数据标注平台,可以适配各种云计算场景,更加灵活。
图7是对数据标注的方法流程进行的概述。图8提供了图7所示的数据标注的方法的流程的具体说明,在图8中以对一个标注项目的待标注的数据集进行标注为例进行说明。
步骤801,数据标注平台创建标注项目。
在本实施例中,标注训练一个AI模型所需使用的数据集的任务可以称为一个标注项目。例如,该AI模型为肺结节辅助诊断模型,数据集中的数据为肺的医学影像,肺的医学影像的数据集的标注任务为一个标注项目。数据标注平台为管理用户提供标注项目创建界面,管理用户在标注项目创建界面中,输入标注项目的名称,并且将待标注的数据集导入数据标注平台。数据标注平台记录该标注项目。待标注的数据集中包括多个待标注的数据。
另外,管理用户还可以通过数据标注平台管理创建的标注项目。例如,修改标注项目、删除标注项目、查看标注项目等。
示例性的,管理用户在创建标注项目时,还可以输入标签版本信息,该标签版本信息指示标注项目的待标注的数据集的标签版本。
步骤802,数据标注平台创建标注团队。
其中,标注团队用于对待标注的数据集中待标注的数据进行标注。
在本实施例中,数据标注平台为管理用户提供团队管理界面,管理用户可以在团队管理界面中输入标注团队的信息,该信息包括标注团队中各个用户和各个用户的角色信息。各个用户的角色信息包括标注用户和审核用户。示例性的,标注团队中每个成员为标注用户或审核用户;或者标注团队中某些成员仅为标注用户或审核用户,某些成员既为标注用户,也为审核用户。然后管理用户向数据标注平台提交标注团队的信息。数据标注平台存储该标注团队的信息。
示例性的,管理用户进入创建的标注项目后,数据标注平台向管理用户提供标注团队接口,管理用户可以通过该标注团队接口创建标注团队。这样,数据标注平台在创建标注团队后,将该标注团队存储为该标注项目的标注团队。
示例性的,管理用户也可以直接通过团队管理界面,创建标注团队。在创建标注团队时,输入标注项目的名称。这样,数据标注平台在创建标注团队后,将该标注团队存储为该标注项目的标注团队。
示例性的,一个标注项目可以对应一个或多个标注团队。每个标注团队的创建方式参见步骤802。一个标注团队也可以对应一个或多个标注项目。
步骤803,数据标注平台创建标注任务。
其中,标注任务为对至少一个待标注的数据进行标注的任务,例如,一个标注任务用于对所属标注项目的数据集进行部分标注,该部分标注指示两种情况,第一种情况为:将标注项目的待标注的数据集划分多个待标注的子数据集,每个待标注的子数据集中的数据不相同,每个标注任务对应一个待标注的子数据集中的待标注的数据,每个待标注的子数据集的标注类型相同;第二种情况为:每个标注任务均是对标注项目的整个待标注的数据集进行标注,但是标注类型不相同,该整个待标注的数据集中待标注的数据即为每个标注任务对应的待标注的数据。例如,三个标注任务,分别进行分类标注、检测标注和分割标注。此处第二种情况中,标注项目的待标注的数据集是用于训练一个集分类、检测和分割为一体的AI模型。
在本实施例中,管理用户在数据标注平台创建标注项目后,数据标注平台向管理用户提供标注任务接口。管理用户触发标注任务接口,数据标注平台向管理用户提供标注任务创建界面。管理用户在标注任务创建界面中,输入标注任务的名称、标注任务对应的待标注的数据、标注类型和标注团队。另外,管理用户还可以在标注任务创建界面中输入标签保存路径。然后管理用户向数据标注平台提交创建的标注任务。数据标注平台接收到标注任务后,将该标注任务的名称、标注类型、待标注的数据、标注团队与所属的标注项目等对应存储。
示例性的,在创建标注项目时,管理用户未指示标签版本信息,管理用户在创建标注任务时,还可以输入标注任务对应的标签版本信息。
需要说明的是,管理用户在输入每个标注任务的待标注的数据时,可以在标注项目的数据集中选择待标注的数据,而不需要重新导入待标注的数据。数据标注平台将标注任务与该标注任务对应的待标注的数据的标识对应存储。
示例性的,不同的应用场景对应的融合规则不相同,管理用户在数据标注平台创建标注任务时,还可以输入标注任务对应的融合规则。示例性的,数据标注平台向管理用户提供融合规则的配置界面;数据标注平台接收管理用户输入或者在配置界面中选择的融合规则。
在本实施例中,数据标注平台向管理用户提供融合规则的配置界面。示例性的,数据标注平台在创建标注任务的界面中提供了融合规则的输入接口,管理用户触发该输入接口,数据标注平台向管理用户提供融合规则的配置界面。
在配置界面中,管理用户可以输入规定格式的融合规则。或者在配置界面中提供了可供管理用户选择的多种融合规则,管理用户可以在该多种融合规则中选择其中一种。管理用户在输入或者选择融合规则后,向数据标注平台提交融合规则。数据标注平台接收到融合规则后,将融合规则与标注任务对应存储。这样,针对不同场景可以自定义融合规则或者针对一个应用场景可以自定义不同的融合规则,灵活性更高。
另外,若是管理用户输入规定格式的融合规则,则数据标注平台可以对该融合规则进行存储,后续数据标注平台可以将该融合规则提供给其他管理用户使用。这样,多个管理用户输入的融合规则形成一个融合规则集合供选择,给管理用户选择融合规则提供便利。另外,数据标注平台在存储融合规则时,还可以对应存储融合规则的简要内容,便于管理用户理解并选择融合规则。
另外,在创建标注任务后,数据标注平台还为管理用户提供查看标注任务、修改标注任务、删除标注任务、查看标注任务的进展等功能。例如,管理用户通过修改标注任务的功能,修改融合规则等。
需要说明的是,在管理用户未选择融合规则时,数据标注平台基于标注任务的标注类型,在存储的融合规则中,为标注任务自动选择融合规则。
步骤804,数据标注平台向标注团队提供标注任务,使得标注任务对应的每个待标注的数据分配给标注团队中的至少两个标注用户。
在本实施例中,数据标注平台基于预设的数据分配规则,向标注团队提供标注任务。预设的数据分配规则是预先设定的用于为数据分配标注用户的规则。
示例性的,数据标注平台确定标注团队中标注用户的数目,将标注任务对应的待标注的数据平均分配给标注用户,且每个待标注的数据分配给至少两个标注用户。或者,数据标注平台向管理用户提供标注任务对应的待标注的数据的划分功能,管理用户将标注任务对应的每个待标注的数据划分给至少两个标注用户。数据标注平台确定出每个待标注的数据所分配给的标注用户,数据标注平台可以存储标注用户的标识(该标识可以是标注用户的账户)与待标注的数据的标识的对应关系。
数据标注平台向标注团队提供标注任务。示例性的,数据标注平台向标注团队中的各个标注用户发送标注通知消息,该标注通知消息可以通过邮件、短消息等发送。该标注通知消息中可以包括标注界面的访问路径。
步骤801至步骤804是步骤701的一种实现方式。或者,步骤802至步骤804是步骤701的一种实现方式。或者,步骤803至步骤804是步骤701的一种实现方式。
步骤805,当检测到标注用户触发标注界面时,数据标注平台通过标注界面提供待标注的数据的标注类型对应的查看工具和标注工具,查看工具用于标注用户查看待标注的数据,标注工具用于标注用户为待标注的数据添加标注类型对应的标注结果。
在本实施例中,标注用户通过终端接收到标注通知消息后,标注用户触发标注界面的访问路径,触发标注用户的终端登录数据标注平台,终端显示标注界面的登录窗口。标注用户可以使用自己的账户和密码进行登录。数据标注平台检测到该标注用户登录后,数据标注平台基于存储的标注用户的账户与该标注用户对应的待标注的数据的对应关系,向该标注用户提供待标注的数据。
数据标注平台基于标注任务指示的标注类型,通过标注界面提供查看工具和标注工具。在标注某个待标注的数据时,标注用户使用查看工具,对该待标注的数据进行展示,以更好的查看待标注的数据,查看工具的功能包括但不限于放大、缩小、改变颜色、翻转、下移图层、上移图层等。标注用户在对待标注的数据添加标注结果时,使用标注工具,为待标注的数据添加标注结果。这样,为标注用户提供适合的查看工具和标注工具,使得标注用户能够高效的进行标注。
示例性的,标注类型为分类时,标注工具提供选择功能,标注用户能够在提供的类别中,选择标注结果,或者,标注用户能够输入类别。例如,图9示出了标注类型为分类时的标注界面。在图9中,待标注的数据为肺的医学影像,左侧一列展示待标注的数据列表以及待标注的数据总数(4个),中间一列展示当前标注的数据(数据1),右侧一列展示类别列表(类别为1、2、3)。在中间的最上部展示查看工具等。在图9中,类别为3个,标注用户可以在其中选择一个类别作为标注结果。
标注类型为检测时,标注工具提供选择功能和添加标注框功能等,标注用户能够使用添加标注框功能,在待标注的数据上添加标注框,并且使用选择功能选择对应的描述信息或者输入描述信息。在标注类型为检测时,标注框和对应的描述信息为标注结果,此处标注框的形状可以是任意的,标注框的颜色也可以是任意颜色。例如,图10示出了标注类型为检测时的标注界面。在图10中,待标注的数据为肺的医学影像,左侧一列展示待标注的数据的列表以及待标注的数据总数(8个),中间一列展示当前标注的数据,右侧一列展示描述信息列表。在中间的最上部展示查看工具等。在图10中,示出一个标注框,在图10中使用虚线矩形框表示,在标注框的左上角和右下角设置有圆圈,通过拖动圆圈,能够改变标注框的大小。另外,在图10中,右侧描述信息列表中还展示了两个描述信息,描述信息1和描述信息2,在选中描述信息2时,还对应显示标注框对应的位置坐标,位置坐标可以是标注框的左上角坐标和右下角坐标。
标注类型为分割时,标注工具提供选择功能和分割功能等,标注用户能够在使用分割功能,在待标注的数据上标记分割区域,并且使用选择功能选择对应的描述信息。在标注类型为分割时,分割区域和对应的描述信息为标注结果,此处分割区域的形状可以是任意多边形,分割区域的颜色也可以是任意颜色。例如,图11示出了标注类型为分割时的标注界面。在图11中,待标注的数据为肺的医学影像,左侧一列展示待标注的数据列表以及待标注的数据总数(10个),中间一列展示待标注的数据,右侧一列展示描述信息列表。在中间的最上部展示查看工具等,在中间的最底部展示标注工具,如分割标注工具,分割区域擦除工具等。在图11中,示出了右肺的一个分割区域。
在标注用户对待标注的数据全部标注完成后,向数据标注平台提交标注结果。或者标注用户每次标注完成一个待标注的数据即向数据标注平台进行提交。数据标注平台存储每个待标注的数据的标注结果。
示例性的,标注用户当前对待标注的数据进行标注时,标注界面中还提供了导入历史标签的选项,该选项用于触发显示历史标签,历史标签为该标注用户以往对该待标注的数据的标注结果。标注用户在对待标注的数据进行标注时,能够参考历史标签,提升标注效率。
示例性的,数据标注平台还可以提供智能标注结果,供标注用户参考。例如,数据标注平台包括AI推理模型,AI推理模型对待标注的数据进行标注,获得待标注的数据的智能标注结果。在标注界面中,为用户提供导入智能标注结果的选项。标注用户可以通过该选项,触发在标注界面中显示智能标注结果。这样,通过导入智能标注结果供标注用户参考,能够提升标注效率。
步骤806,数据标注平台获取标注任务对应的每个待标注的数据的至少两个标注结果。
步骤806的处理过程见步骤702的描述。
步骤807,数据标注平台根据每个待标注的数据的至少两个标注结果,确定是否对每个待标注的数据执行仲裁。
步骤807的处理过程见步骤703的描述。
步骤808,若确定对待标注的数据执行仲裁,发送待标注的数据至审核用户进行标注。若确定不对待标注的数据执行仲裁,根据融合规则将至少两个标注结果进行融合,获得待标注的数据的标签。
在步骤808中,数据标注平台确定对待标注的数据执行仲裁,在标注任务对应的标注团队中确定审核用户。数据标注平台向该审核用户发送待标注的数据。审核用户对待标注的数据执行仲裁的过程参见步骤704中的描述。数据标注平台确定不对待标注的数据执行仲裁,确定待标注的数据的标签的过程参见步骤705的描述。
示例性的,在本实施例中,数据标注平台是将待标注的数据提供给标注团队内的审核用户执行仲裁,在某些情况下,也可以提交给标注团队外的审核用户执行仲裁。数据标注平台获取到审核用户对待标注的数据的标注结果后,将该标注结果确定为待标注的数据的标签。
另外,审核用户在审核待标注的数据的过程中,确定待标注的数据是难例(hardsample),也可以进行标记,用于后续训练AI模型。难例是对数据进行标注的过程中,标注结果容易出错的数据。
步骤809,数据标注平台获取管理用户输入的待标注的数据的标签版本信息,将每个待标注的数据的标签与标签版本信息对应存储。
在本实施例中,数据标注平台获取标签版本信息(在创建标注项目时输入或者在创建标注任务时输入),将标注任务对应的每个待标注的数据的标签与标签版本信息对应存储。
或者,数据标注平台确定一个标注任务执行完成后,向管理用户反馈该标注任务执行完成的反馈消息。管理用户的终端接收到该反馈消息,该反馈消息中还提示管理用户是否添加标签版本信息,管理用户输入标签版本信息,提交给数据标注平台。数据标注平台将标注任务对应的每个待标注的数据的标签与标签版本信息对应存储。
需要说明的是,在图8所示的流程中,是由数据标注平台自动将待标注的数据提供给审核用户进行仲裁。在一些实现方式中,数据标注平台在确定对待标注的数据进行仲裁后,向管理用户反馈待标注的数据。管理用户接收到待标注的数据后,向数据标注平台提交待标注的数据的审核任务,数据标注平台执行步骤808。另外,管理用户也可以将通过融合规则获得的标签提交给审核用户进行仲裁。
还需要说明的是,在数据标注平台确定出标注任务对应的待标注的数据的标签后,管理用户可以控制对待标注的数据进行多次审核,在多次审核结束后,确定标注任务执行完成。此处多次审核也可以称为是多次验收。
另外,在一个标注项目对应的待标注的数据集标注完成后,数据标注平台基于该数据集训练AI模型。
还需要说明的是,管理用户是一类管理人员,是为了和标注用户和审核用户进行区分,管理用户并不是仅表示一个人。
另外,为了更好的理解数据标注的流程,本申请实施例还提供了便于理解的流程,参见图12,图12是关于管理用户、标注用户、数据标注平台(计算设备)和审核用户交互示意图。在图12中,是管理用户将待标注的数据提供给数据标注平台进行仲裁。
步骤S1、管理用户创建标注任务。步骤S2;管理用户为标注任务对应的每个待标注的数据选择至少两个标注用户,并通知给至少两个标注用户。步骤S3、标注用户对待标注的数据进行标注。步骤S4,标注用户向计算设备提交标注结果。步骤S5、对于任一待标注的数据,确定是否对待标注的数据执行仲裁。步骤S6、计算设备存储不需要仲裁的待标注的数据的标签,向管理用户反馈待标注的数据。步骤S7、管理用户向审核用户通知审核待标注的数据。步骤S8、审核用户对待标注的数据进行仲裁。步骤S9、审核用户向管理用户反馈审核用户对待标注的数据的标注结果。步骤S10、管理用户控制计算设备存储仲裁后的标注结果为待标注的数据的标签。确定标注任务对应的每个待标注的数据均被添加标签后,管理用户确定标注任务执行完成。此处仅描述了一个标注任务的执行过程,每个标注任务的执行过程与之相同,此处不再赘述。
在本申请实施例中,通过统一的人机交互平台,能够支持多人对同一待标注的数据的标注,且获得格式相同的标注结果,还能够支持审核用户对标注结果的仲裁和审核,能够有效的提高整体标注质量、提高容错率。而且还能够对不同的标注场景,配置不同的融合规则,有效提高人工标注质量。而且在标注界面提供了查看工具和标注工具,更便于标注用户标注难度较高的三维图像。
图12是本申请实施例提供的数据标注的装置的结构图。该装置可以是数据标注平台200的一部分或者全部。该装置可以通过软件、硬件或者两者的结合实现成为装置中的部分或者全部。本申请实施例提供的装置可以实现本申请实施例图7和图8所述的流程,该装置包括:数据标注模块201和标注结果管理模块203,其中:
数据标注模块201,用于将待标注的数据发送给至少两个标注用户,具体可以用于执行步骤701的数据标注功能以及其包含的隐含步骤;
标注结果管理模块203,用于:获取所述至少两个标注用户对所述待标注的数据的至少两个标注结果;
根据所述至少两个标注结果,确定是否对所述待标注的数据执行仲裁,具体可以用于执行步骤702和步骤703的标注结果管理功能以及其包含的隐含步骤;
所述数据标注模块201,还用于若确定对所述待标注的数据执行仲裁,发送所述待标注的数据至审核用户进行标注,具体可以用于执行步骤704的数据标注功能以及其包含的隐含步骤;
所述标注结果管理模块203,还用于若确定不对所述待标注的数据执行仲裁,根据融合规则将所述至少两个标注结果进行融合,获得所述待标注的数据的标签,具体可以用于执行步骤705的标注结果管理功能以及其包含的隐含步骤。
在一种可能的实现方式中,所述标注结果管理模块203,还用于:
若确定对所述待标注的数据执行仲裁,获得所述审核用户对所述待标注的数据的标注结果,将所述审核用户的标注结果作为所述待标注的数据的标签。
在一种可能的实现方式中,所述数据标注模块201,还用于接收管理用户输入的对所述标注用户、所述审核用户和所述融合规则的配置信息。
在一种可能的实现方式中,所述标注结果管理模块203,用于:
在所述待标注的数据的标注类型为分类的情况下,若所述至少两个标注结果不相同,则确定对所述待标注的数据进行仲裁,若所述至少两个标注结果相同,则确定不对所述待标注的数据进行仲裁;
在所述待标注的数据的标注类型为检测或分割的情况下,若所述至少两个标注结果中针对同一对象的标注框的差值不满足预设条件,则确定对所述待标注的数据进行仲裁,若所述至少两个标注结果中针对同一对象的标注框的差值满足所述预设条件,则确定不对所述待标注的数据进行仲裁。
在一种可能的实现方式中,所述标注结果管理模块203,用于:
在所述待标注的数据的标注类型为分类的情况下,将所述至少两个标注结果中的一个标注结果,确定为所述待标注的数据的标签;
在所述待标注的数据的标注类型为检测或分割的情况下,将针对同一对象的标注框取并集,确定为所述待标注的数据的标签。
在一种可能的实现方式中,所述数据标注模块201,还用于:
当检测到所述标注用户触发标注界面时,通过所述标注界面提供所述待标注的数据的标注类型对应的查看工具和标注工具,所述查看工具用于所述标注用户查看所述待标注的数据,所述标注工具用于所述标注用户为所述待标注的数据添加所述标注类型对应的标注结果。
在一种可能的实现方式中,所述标注结果管理模块203,还用于:
获得所述待标注的数据的标签之后,获取管理用户输入的所述待标注的数据的标签版本信息;
将所述待标注的数据的标签与所述标签版本信息对应存储。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时也可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成为一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是个人计算机,手机,或者网络设备等)或处理器(processor)执行本申请各个实施例该方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例中,还提供了一种包含指令的计算机程序产品,当其在计算设备上运行时,使得计算设备执行上述所提供的数据标注的方法,或者使得所述计算设备实现上述提供的数据标注的装置的功能。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在服务器或终端上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是服务器或终端能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如软盘、硬盘和磁带等),也可以是光介质(如数字视盘(digital video disk,DVD)等),或者半导体介质(如固态硬盘等)。

Claims (17)

1.一种数据标注的方法,其特征在于,所述方法应用于数据标注平台,包括:
将待标注的数据发送给至少两个标注用户;
获取所述至少两个标注用户对所述待标注的数据的至少两个标注结果;
根据所述至少两个标注结果,确定是否对所述待标注的数据执行仲裁;
若确定对所述待标注的数据执行仲裁,发送所述待标注的数据至审核用户进行标注;
若确定不对所述待标注的数据执行仲裁,根据融合规则将所述至少两个标注结果进行融合,获得所述待标注的数据的标签。
2.根据权利要求1所述的方法,其特征在于,若确定对所述待标注的数据执行仲裁,所述方法还包括:
获得所述审核用户对所述待标注的数据的标注结果,将所述审核用户的标注结果作为所述待标注的数据的标签。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:接收管理用户输入的对所述标注用户、所述审核用户和所述融合规则的配置信息。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述至少两个标注结果,确定是否对所述待标注的数据执行仲裁,包括:
在所述待标注的数据的标注类型为分类的情况下,若所述至少两个标注结果不相同,则确定对所述待标注的数据进行仲裁,若所述至少两个标注结果相同,则确定不对所述待标注的数据进行仲裁;
在所述待标注的数据的标注类型为检测或分割的情况下,若所述至少两个标注结果中针对同一对象的标注框的差值不满足预设条件,则确定对所述待标注的数据进行仲裁,若所述至少两个标注结果中针对同一对象的标注框的差值满足所述预设条件,则确定不对所述待标注的数据进行仲裁。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据融合规则将所述至少两个标注结果进行融合,获得所述待标注的数据的标签,包括:
在所述待标注的数据的标注类型为分类的情况下,将所述至少两个标注结果中的一个标注结果,确定为所述待标注的数据的标签;
在所述待标注的数据的标注类型为检测或分割的情况下,将针对同一对象的标注框取并集,确定为所述待标注的数据的标签。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
当检测到所述标注用户触发标注界面时,通过所述标注界面提供所述待标注的数据的标注类型对应的查看工具和标注工具,所述查看工具用于所述标注用户查看所述待标注的数据,所述标注工具用于所述标注用户为所述待标注的数据添加所述标注类型对应的标注结果。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述获得所述待标注的数据的标签之后,还包括:
获取管理用户输入的所述待标注的数据的标签版本信息;
将所述待标注的数据的标签与所述标签版本信息对应存储。
8.一种数据标注的装置,其特征在于,包括:
数据标注模块,用于将待标注的数据发送给至少两个标注用户;
标注结果管理模块,用于:获取所述至少两个标注用户对所述待标注的数据的至少两个标注结果;
根据所述至少两个标注结果,确定是否对所述待标注的数据执行仲裁;
所述数据标注模块,还用于若确定对所述待标注的数据执行仲裁,发送所述待标注的数据至审核用户进行标注;
所述标注结果管理模块,还用于若确定不对所述待标注的数据执行仲裁,根据融合规则将所述至少两个标注结果进行融合,获得所述待标注的数据的标签。
9.根据权利要求8所述的装置,其特征在于,所述标注结果管理模块,还用于:
若确定对所述待标注的数据执行仲裁,获得所述审核用户对所述待标注的数据的标注结果,将所述审核用户的标注结果作为所述待标注的数据的标签。
10.根据权利要求8或9所述的装置,其特征在于,所述数据标注模块,还用于接收管理用户输入的对所述标注用户、所述审核用户和所述融合规则的配置信息。
11.根据权利要求8-10任一项所述的装置,其特征在于,所述标注结果管理模块,用于:
在所述待标注的数据的标注类型为分类的情况下,若所述至少两个标注结果不相同,则确定对所述待标注的数据进行仲裁,若所述至少两个标注结果相同,则确定不对所述待标注的数据进行仲裁;
在所述待标注的数据的标注类型为检测或分割的情况下,若所述至少两个标注结果中针对同一对象的标注框的差值不满足预设条件,则确定对所述待标注的数据进行仲裁,若所述至少两个标注结果中针对同一对象的标注框的差值满足所述预设条件,则确定不对所述待标注的数据进行仲裁。
12.根据权利要求8-11任一项所述的装置,其特征在于,所述标注结果管理模块,用于:
在所述待标注的数据的标注类型为分类的情况下,将所述至少两个标注结果中的一个标注结果,确定为所述待标注的数据的标签;
在所述待标注的数据的标注类型为检测或分割的情况下,将针对同一对象的标注框取并集,确定为所述待标注的数据的标签。
13.根据权利要求8-12任一项所述的装置,其特征在于,所述数据标注模块,还用于:
当检测到所述标注用户触发标注界面时,通过所述标注界面提供所述待标注的数据的标注类型对应的查看工具和标注工具,所述查看工具用于所述标注用户查看所述待标注的数据,所述标注工具用于所述标注用户为所述待标注的数据添加所述标注类型对应的标注结果。
14.根据权利要求8-13任一项所述的装置,其特征在于,所述标注结果管理模块,还用于:
获得所述待标注的数据的标签之后,获取管理用户输入的所述待标注的数据的标签版本信息;
将所述待标注的数据的标签与所述标签版本信息对应存储。
15.一种数据标注的计算设备,其特征在于,所述计算设备包括处理器和存储器,其中:
所述存储器中存储有计算机指令;
所述处理器执行所述计算机指令,以实现所述权利要求1-7任一项权利要求所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机可读存储介质中的计算机指令被计算设备执行时,使得所述计算设备执行所述权利要求1-7任一项权利要求所述的方法。
17.一种计算机程序产品,其特征在于,包括计算机指令,当所述计算机指令被计算设备执行时,使得所述计算设备执行所述权利要求1-7任一项权利要求所述的方法。
CN202111003760.4A 2021-08-30 2021-08-30 数据标注的方法、装置、设备和存储介质 Pending CN115732061A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111003760.4A CN115732061A (zh) 2021-08-30 2021-08-30 数据标注的方法、装置、设备和存储介质
PCT/CN2022/081097 WO2023029436A1 (zh) 2021-08-30 2022-03-16 数据标注的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111003760.4A CN115732061A (zh) 2021-08-30 2021-08-30 数据标注的方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN115732061A true CN115732061A (zh) 2023-03-03

Family

ID=85290760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111003760.4A Pending CN115732061A (zh) 2021-08-30 2021-08-30 数据标注的方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN115732061A (zh)
WO (1) WO2023029436A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684468B (zh) * 2018-12-13 2023-05-09 四川大学 针对循证医学的文献筛选标注系统
CN109949907B (zh) * 2019-03-29 2021-07-13 西安交通大学 基于云端的大型病理学图像协作注释方法及系统
CN111783863A (zh) * 2020-06-23 2020-10-16 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备以及计算机可读存储介质

Also Published As

Publication number Publication date
WO2023029436A1 (zh) 2023-03-09

Similar Documents

Publication Publication Date Title
US20230359778A1 (en) Configuration of a digital twin for a building or other facility via bim data extraction and asset register mapping
US20180247405A1 (en) Automatic detection and semantic description of lesions using a convolutional neural network
US9299047B2 (en) Metadata-configurable systems and methods for network services
JP2021099852A (ja) 顔認識アプリケーションにおけるフォールスポジティブの最小化のための方法および装置
JP2018106662A (ja) 情報処理装置、情報処理方法、プログラム
US20140297570A1 (en) System And Method For High Accuracy Product Classification With Limited Supervision
CN109947989B (zh) 用于处理视频的方法和装置
US11907860B2 (en) Targeted data acquisition for model training
US20190188410A1 (en) Cognitive systems for allocating medical data access permissions using historical correlations
CN113886606B (zh) 一种基于知识图谱的数据标注方法、装置、介质及设备
CN114730486B (zh) 用于生成用于对象检测的训练数据的方法和系统
WO2023109631A1 (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN112732949A (zh) 一种业务数据的标注方法、装置、计算机设备和存储介质
CN109409419B (zh) 用于处理数据的方法和装置
US11048745B2 (en) Cognitively identifying favorable photograph qualities
CN113094776A (zh) 可视化组件模型数据构建的方法、系统及电子设备
US9892451B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP6522173B1 (ja) 情報処理装置及び情報処理プログラム
CN115732061A (zh) 数据标注的方法、装置、设备和存储介质
US20190394393A1 (en) Cognitively coaching a subject of a photograph
CN115203472A (zh) 一种基于数据标注的数据管理方法和系统
CN113420149A (zh) 数据的标注方法和装置
JP6855720B2 (ja) 情報処理装置及び情報処理プログラム
CN112989151B (zh) 数据血缘关系展示方法、装置、电子设备及存储介质
US20220237627A1 (en) Digital marijuana facility remote assessment, inspection, and reporting platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication