CN116595314A - 一种数据标注方法及系统 - Google Patents
一种数据标注方法及系统 Download PDFInfo
- Publication number
- CN116595314A CN116595314A CN202310369084.5A CN202310369084A CN116595314A CN 116595314 A CN116595314 A CN 116595314A CN 202310369084 A CN202310369084 A CN 202310369084A CN 116595314 A CN116595314 A CN 116595314A
- Authority
- CN
- China
- Prior art keywords
- labeling
- attribute
- data
- annotation
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 266
- 238000012549 training Methods 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims description 30
- 238000012937 correction Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种数据标注方法,所述方法包括:S1、接收待标注的数据和标注任务,所述标注任务中包含多个属性;S2、针对每个属性,选择一个与该属性对应的预训练标注模型对所述数据进行属性标注以获得该属性标注结果;其中,每个预训练标注模型是以带有其对应属性标注标签的样本为输入、其对应属性标注结果为输出经训练获得的;S3、将步骤S2中的所有属性标注结果进行融合以获得所述数据针对所述标注任务的标注结果。每个属性配置独立的、有针对性的模型,模型之间没有干扰,可以最大限度地提升每一个属性对应模型的性能和准确率。每一个属性的模型配置在标注任务中,支持在线模型独立自学习,大大简化了标注系统的工作流程以提升工作效率。
Description
技术领域
本发明涉及数据处理领域和自动驾驶领域,具体来说,涉及数据标注领域,更具体地说,涉及一种数据标注方法及系统。
背景技术
随着科技的高速发展,各个领域产生了海量的数据,对数据进行有效的利用可以有效的促进技术的进步。其中,对数据进行标注是数据处理领域中一种常见的操作。所谓数据标注可理解为是对未经处理的语音、图像、文本、视频等数据进行加工处理,并转换为机器可识别信息的过程。原始的数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用。且目前主流的机器学习方式是以有监督的深度学习方式为主,此种机器学习方式下对于标注数据有着强依赖性需求,未经过标注处理的原始数据多以非结构化数据为主,这些数据是不能被机器识别与学习的。只有经过标注处理后的数据,成为结构化数据才能被算法训练所使用的。
常见的数据标注工作是通过标注系统来完成的,且目前的数据标注系统一般是采用软件开发的一些工具,标注人员需要在这些标注系统中的用户终端上进行人工的标注,也有部分的标注系统集成了简单的AI功能用于提升标注的效率。虽然已有标注工具,但是这些工具都存在一些缺陷。其中,对于只能提供给标注人员进行人工标注的标注系统而言,标注的效率很低,对人力的需求量很大。而对于提供了一些简单AI功能的标注系统而言,虽然比人工标注系统的效率要高,但是仍然存在两个主要缺点:首先,在现有的这类平台中,一个标注任务配置一个AI模型,通常情况下,一个标注任务中需要标注多个属性,对于多个属性在同一个AI模型中训练来说,会导致每一个属性的准确率都达不到最理想的状态;其次,现有的这类平台中,AI模型都是采用离线训练、离线推理的方式,然后反哺到标注系统中,增加了数据标注系统的流程复杂度,并且离线训练的方式无法及时的学习新的数据特性,不仅不利于及时地提高模型的准确率也不利于实际应用过程中的效率提高。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的数据标注方法及系统。
根据本发明的第一方面,提供一种数据标注方法,所述方法包括:S1、接收待标注的数据和标注任务,所述标注任务中包含多个属性;S2、选择每个属性对应的预训练标注模型对所述数据进行属性标注以获得该属性标注结果;其中,每个预训练标注模型是以带有其对应属性标注标签的样本为输入、其对应属性标注结果为输出经训练获得的;S3、将步骤S2中的所有属性标注结果进行融合以获得所述数据针对所述标注任务的标注结果。
优选的,在所述步骤S2中,将多个属性对应的预训练标注模型按照预设的优先级对所述数据进行属性标注。
优选的,所述方法还包括:S4、在预训练标注模型没有达到预设性能要求时,对该预训练标注模型对所述数据的属性标注结果进行人工纠正以获得正确的属性标注结果,并采用纠正后的属性标注结果进行在线自学习直至该预训练标注模型的性能达到预设性能要求。在本发明的一些实施例中,在预训练标注模型的性能达到预设性能要求时停止人工纠正。其中,所述预设性能要求是根据所述数据对应的标注任务要求设置的标注模型准确率阈值。
优选的,所述步骤S4包括:S41、在用户终端向用户展示每个预训练标注模型对所述数据的属性标注结果,用户对标注结果中的每种属性标注结果进行判断,并对存在标注错误的属性进行人工纠正以获得正确的属性标注结果;S42、接收人工纠正后的属性标注结果;S43、采用步骤S42接收到的人工纠正后的属性标注结果训练与其对应的预训练标注模型直至收敛。
优选的,所述每个预训练标注模型是通过如下方式获得的:T1、获取标注任务对应的历史标注数据集,所述历史标注数据集中包括多个样本,每个样本包含有标注任务对应的一个或多个属性标注标签;T2、对历史标注数据集进行多次预处理,以获得每个属性对应的属性标注数据集,其中,每次预处理以一个属性为对象,清除原始数据集中的其他属性标注标签以获得该属性对应的属性标注数据集;T3、以步骤T2中的每一个属性的属性标注数据集训练标注任务类型对应的标注模型至收敛以获得该属性对应的预训练标注模型。
优选的,所述标注任务类型为文本标注任务、图像标注任务、语音标注任务、视频标注任务或点云标注任务。
根据本发明的第二方面,提供一种数据标注系统,所述系统包括:数据接收模块,用于接收待标注的数据和标注任务,所述标注任务中包含多个属性;标注模块,其包括多个预训练标注模型,每个预训练标注模型被配置为用于对所述数据进行一个属性的标注以获得所述数据的该属性标注结果;其中,每个预训练标注模型是以带有其对应属性标注标签的样本为输入、其对应属性标注结果为输出经训练获得的;标注结果处理模块,用于将每个预训练标注模型对所述数据的不同属性标注结果合并以获得所述数据针对所述标注任务的标注结果。
优选的,所述系统还包括:用户终端,用于向用户展示每个预训练标注模型对所述数据的属性标注结果,供用户对标注结果中的每种属性标注结果进行判断以及纠正;标注纠正模块,用于在预训练标注模型没有达到预设性能要求时,对预训练标注模型的属性标注结果进行人工纠正以获得正确的属性标注结果。在本发明的一些实施例中,所述每个预训练标注模块还被配置为:响应于标注纠正模块的纠正并采用标注纠正模块纠正后的属性标注结果进行在线学习直至与其对应的预训练标注模型的性能达到预设性能要求。
与现有技术相比,本发明的优点在于:1、本发明针对标注任务中每一个属性配置独立的、有针对性的模型,相比于所有的属性都在同一个AI模型中来说,每一个属性的AI模型之间没有干扰,可以最大限度地提升每一个属性对应模型的性能和准确率;并且针对属性特征设置了模型的优先级,可以极大的提升属性标注的效率。2、每一个属性的模型配置在标注任务中,支持在线模型独立自学习,相较于离线把标注数据导出进行模型训练大大简化了标注系统的工作流程以提升工作效率。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的数据标注方法流程示意图;
图2为根据本发明实施例的数据标注系统框架结构示意图;
图3为根据本发明实施例的数据标注系统中数据接收模块、数据标注模块、用户终端进行数据标注的工作原理示意图;
图4为根据本发明实施例数据标注系统中标注纠正模块、用户终端、数据标注模块中的标注模型进行人工纠正和在线自学习的工作原理示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
正如背景技术中提到的,现有技术下的基于AI的数据标注方案存在缺陷,无法实现高效的数据标注。数据标注的类型涉及了诸如计算机视觉、语音工程、自然语言理解、自动驾驶等等,对应的标注任务属性不同任务复杂度也不同,例如,计算机视觉中涉及到矩形框标注、关键点标注、线段标注、语义分割、实例分割标注、OCR标注、图像分类、视频标注等;语音工程中涉及到ASR语音转写、语音切割、语音清洗、情绪判断、声纹识别、音素标注、韵律标注等。再具体到具体类型中的具体任务来说,标注任务更加细化,对应的属性更加多样化,例如,以自动驾驶的物体检测应用为例,则需要标注二维框、三维框、物体类型、物体行驶方向等,采用一个AI模型进行标注的方案中,当标注任务中属性有多个时,无法保证每种属性的准确性,也就是说如果仅以一个简单的AI模型来进行标注任务中所有属性的标注,是远远无法保证每种属性标注的准确率的。
为了解决上述问题,本发明提出一种新的数据标注方案,通过为标注任务中的每个属性配置一个预训练AI模型来进行标注的方式,提高每种属性的标注准确率,此外,在预训练标注模型没有达到准确率要求时,对模型的属性标注结果进行人工纠错并对模型采用在线训练的方式来提升模型的属性标注准确率。根据本发明的一个实施例,如图1所示,本发明的一种数据标注方法包括:A1、接收待标注的数据和标注任务,所述标注任务中包含多个属性;A2、选择每个属性对应的预训练标注模型对所述数据进行属性标注以获得该属性标注结果;其中,每个预训练标注模型是以带有其对应属性标注标签的样本为输入、其对应属性标注结果为输出经训练获得的;A3、判断预训练标注模型是否达到预设性能要求,对预训练标注模型没有达到预设性能要求时,对预训练标注模型对所述数据的属性标注结果进行人工纠正以获得正确的属性标注结果,并采用纠正后的属性标注结果进行在线学习直至该预训练标注模型的性能达到预设性能要求;A4、将所有属性标注结果进行融合以获得所述数据针对所述标注任务的标注结果。
为了更好的理解本发明,下面结合附图和实施例详细说明本发明的每个步骤。
在步骤A1中,接收待标注的数据和标注任务,所述标注任务中包含多个属性。对于本领域技术人员来说,要执行数据标注任务,就要获取待标注的数据和标注任务,以确认具体的标注类型和标注任务对应的属性,这是本领域技术人员已知的知识,此处不再赘述。
在步骤A2中,针对每个属性,选择一个与该属性对应的预训练标注模型对所述数据进行属性标注以获得该属性标注结果;其中,每个预训练标注模型是以带有其对应属性标注标签的样本为输入、其对应属性标注结果为输出经训练获得的。正如背景技术中所述的,现有技术下用于标注系统中的AI训练模型是有监督的深度学习方式训练的,且一个模型对应于一个标注任务,即用一个模型实现标注任务中所有属性的标注。众所周知,一个模型对应于多个任务时,只能获得局部最优解无法获得全局最优解,即无法保证每个标注任务的准确度都达到最好。由此,本发明提出针对每个属性预训练一个标注模型,以获得每个属性的高准确率标注结果。根据本发明的一个实施例,所述每个预训练标注模型是通过如下方式获得的:T1、获取标注任务对应的历史标注数据集,所述历史标注数据集中包括多个样本,每个样本包含有标注任务对应的一个或多个属性标注标签;T2、对历史标注数据集进行多次预处理,以获得每个属性对应的属性标注数据集,其中,每次预处理以一个属性为对象,清除原始数据集中的其他属性标注标签以获得该属性对应的属性标注数据集;T3、以步骤T2中的每一个属性的属性标注数据集训练标注任务类型对应的标注模型至收敛以获得该属性对应的预训练标注模型。通过针对每个属性采用有监督的方式预训练一个标注模型,可以针对每个属性获得去对应的最优标注模型,一个模型对应于一个属性,使得每个属性的准确率都能得到保证。
作为本发明更优的一个实施例,本发明将多个属性对应的预训练标注模型按照预设的执行优先级对所述数据进行属性标注,在这种机制下,有些数据无需进行所有属性的标注,只需要将其包含的属性进行标注即可,可以极大的节约算力、提升标注效率。例如,以智能交通中的图像数据且图像数据包括信号灯图像数据、交通锥图像数据为例,如果涉及到类别属性和方向属性的标注,在没有优先级的情况下,两种图像数据均需要进行两种属性的标注,但是交通锥是没有方向属性的,进行方向属性的标注是算力浪费,如果有优先级的情况下,假设以类别属性优先级高于方向属性为例,交通锥不涉及方向属性,只涉及类别属性,那么对交通锥图像数据进行了类别属性的标注后就不用再进行方向属性的标注了,可以节约算力,提高数据标注的效率。其他场景中的数据标注只需要根据属性的特性进行预训练标注模型的优先级排序即可,此处不做过多赘述。
在步骤A3中,判断预训练标注模型是否达到预设性能要求,对预训练标注模型没有达到预设性能要求时,对预训练标注模型对所述数据的属性标注结果进行人工纠正以获得正确的属性标注结果,并采用纠正后的属性标注结果进行在线学习直至该预训练标注模型的性能达到预设性能要求。从步骤A2中可知,本发明是采用离线训练的方式针对每种属性预训练一个标注模型,并将预训练好的模型直接用于数据标注。其中,需要说明的是,离线数据是有标注的历史数据,离线训练与模型应用是两个独立的过程,采用离线数据预训练好的标注模型在离线数据上的准确率是满足要求的。但是在实际应用中,预训练标注模型面对的是不断变化的新数据,无法保证预训练标注模型在面对新数据时仍然能够完全满足准确率要求,这就需要对模型进行进一步的优化训练,在进一步优化训练过程中如果仍然采用离线训练的方式,对于数据标注系统来说需要增加额外的离线训练流程,进一步增加了平台复杂度,因此,本发明提出采用在线训练的方式,在执行标注任务过程中,通过人工纠正的方式对属性标注准确率未达到预设性能要求(预设性能要求是根据所述数据对应的标注任务要求设置的标注模型准确率阈值,不同的标注任务要求不一样,需要针对实际情况设置,例如可将准确率阈值设置为99%、99.9%、99.99%等)的模型对应的属性标注结果进行在线人工纠正,并将人工纠正后的属性标注结果直接用于对预训练标注模型进行在线自学习直至预训练标注模型性能达标。通过在线自学习的方式,不用额外增加离线训练流程,使得整体流程更加简洁,并能保证属性对应的预训练标注模型均可获得较高的准确率。其中,如果所有属性对应的预训练标注模型均已达到性能要求,则无需再进行人工纠正,直接采用预训练标注模型对新数据进行自动标注,极大地提高标注效率。
在步骤A4中,将所有属性标注结果进行融合以获得所述数据针对所述标注任务的标注结果。当所有属性对应的预训练标注模型均已达到性能要求时,直接对所有模型的属性标注结果进行融合,当存在有属性对应的预训练标注模型性能还未达到性能要求时,对性能达标的预训练标注模型的属性标注结果、性能未达标的预训练标注模型的人工纠正属性标注结果进行融合获得数据对标注任务的标注结果。
根据本发明的另一个实施例,本发明还提供一种与本发明标注方法对应的数据标注系统,如图2所示,本发明的数据标注系统包括:数据接收模块,用于接收待标注的数据和标注任务,所述标注任务中包含多个属性;标注模块,其包括多个预训练标注模型(本实施例中也简称为AI模型),每个预训练标注模型被配置为用于对所述数据进行一个属性的标注以获得所述数据的该属性标注结果,其中,每个预训练标注模型是以带有其对应属性标注标签的样本为输入、其对应属性标注结果为输出经训练获得的;标注结果处理模块,用于将每个预训练标注模型对所述数据的不同属性标注结果合并以获得所述数据针对所述标注任务的标注结果;用户终端,用于向用户展示每个预训练标注模型对所述数据的属性标注结果,供用户对标注结果中的每种属性标注结果进行判断以及纠正;标注纠正模块,用于在预训练标注模型没有达到预设性能要求时,对预训练标注模型的属性标注结果进行人工纠正以获得正确的属性标注结果。
在本发明的数据标注系统中,数据接收模块接收到的待标注数据是具体的被标注对象,例如图像、视频、激光点云、语音、文本等。而数据接收模块接收到的标注任务是具体的标注任务配置文件,如图3所示,标注任务配置文件中针对每个属性有具体的配置,以用于指示每个属性具体是什么、对应的预训练模型如何调用,例如属性1有:属性1的key(key用于指示属性1是什么),属性1的options(options用于指示属性1的属性值的可选项),属性1的预训练模型路径(用于指示数据标注系统在何处调用属性1对应的预训练标注模型);同理,其他属性也有与属性1类似的配置信息,此处不再赘述。在自动驾驶领域图像目标检测的一个示例中,在key为目标类型的情况,对应的options是目标类型属性值的可选项,例如包括行人、自动车、小轿车、公交车、交通灯等等。通过获取标注任务配置文件,可以针对标注任务中的每个属性配置有针对性的、预训练好的标注模型,用于进行自动属性标注。标注系统中用户终端的UI界面直接展示被标注对象对应的属性标注结果,展示为标注属性:属性1、属性2、……属性n。
如图4所示,在针对标注任务的每个属性配置好对应的AI模型后,各个AI模型把当前数据的预测结果(属性标注结果)显示在用户终端,如果各属性AI模型未达到性能阈值(即预设性能要求)时,需要标注人员在标注系统上提交人工标注结果,也就是由标注人员对各AI模型预测的结果中有错误的情况进行修正并提交标注结果,此时的标注结果是修正后的标注结果。标注系统收到标注人员反馈的标注结构后,启动各个属性对应的AI模型自学习,即属性1对应的AI模型获取标注人员反馈的标注数据中属性1对应的标注结果进行自学习,属性2对应的AI模型获取标注人员反馈的标注数据中属性2对应的标注结果进行自学习,……属性n对应的AI模型获取标注人员反馈的标注数据中属性n对应的标注结果进行自学习。当一个标注任务的所有属性对应的模型的准确率都达到指定的阈值后,就停止训练,这些模型可以直接用于之后所有新数据的自动标注,无需人工参与,可以大大降低人工成本。
为了更加直观的理解本发明的方案,下面以自动驾驶中的图像数据(图像数据包括图片、视频帧等)为待标注数据为例来示意性说明一下本发明方案的实现过程。其中,图像数据对应的标注任务对应的属性比较常见的有语义分割、实体分割、目标检测、图像分类、关键点、线段等,本发明实施例中以标注任务包含目标检测、关键点为例,但这并不是限定图像数据的标注任务属性只有这两个,本发明中只是以这两个作为示例示意性说明,其他属性的实现过程类似,不做重复赘述。其中,为例便于描述,将目标检测配置为属性x1(属性x1的key为目标类型,属性x1的option为车辆、行人),将关键点配置为属性x2(属性x2的key为关键点,属性x2的option为行人)。
采用本发明的方法对上述图像数据进行处理时,包括如下步骤:
首先,获取待标注的图像数据和对应的标注任务,标注任务包括属性x1和属性x2;
然后,选择属性x1和属性x2对应的预训练标注模型对获取到的待标注的图像数据进行属性标注以获得属性标注结果;其中,属性x1对应的预训练标注模型是以带有车辆和行人标签的图像样本为输入、车辆和行人的属性标注结果为输出经训练获得的,且属性x1对应的预训练标注模型对待标注的图像数据进行属性标注后获得的标注结果是图像数据中包含有目标类型为车辆和行人的标注,对其他目标类型不做标注;同理,属性x2对应的预训练标注模型是以带有行人关键点标签的图像样本为输入、行人的关键点属性标注结果为输出经训练获得的,且属性x2对应的预训练标注模型对待标注的图像数据进行属性标注后获得的标注结果是图像数据中包含的行人的关键点标注;
其次,将图像数据对应的车辆和行人标注结果、行人关键点标注结果进行融合,获得图像数据对标注任务的标注结果。
其中,优选的,本发明在对图像数据进行属性标注时,按照先属性x1、再属性x2的执行优先级进行标注,这样当图像数据中不存在目标类型为行人的图像时,就可以不用再进行属性x2的标注。
此外,如前面实施例所述的,在属性x1和/或属性x2对应的预训练标注模型没有达到预设性能要求时,对该预训练标注模型对所述数据的属性标注结果进行人工纠正以获得正确的属性标注结果,并采用纠正后的属性标注结果进行在线自学习直至该预训练标注模型的性能达到预设性能要求。人工纠正时,在用户终端向用户展示属性x1和属性x2对应的预训练标注模型对所述图像数据的属性标注结果,用户对标注结果中的每种属性标注结果进行判断,并对存在标注错误的属性进行人工纠正以获得正确的属性标注结果;基于人工纠正后的属性标注结果训练与其对应的预训练标注模型直至收敛。
通过上述实施例的描述可知,相对于现有技术来说:1、本发明针对标注任务中每一个属性配置独立的、有针对性的模型,相比于所有的属性都在同一个AI模型中来说,每一个属性的AI模型之间没有干扰,可以最大限度地提升每一个属性对应模型的性能和准确率;并且针对属性特征设置了模型的优先级,可以极大的提升属性标注的效率。2、每一个属性的模型配置在标注任务中,支持在线模型独立自学习,相较于离线把标注数据导出进行模型训练大大简化了标注系统的工作流程以提升工作效率。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种数据标注方法,其特征在于,所述方法包括:
S1、接收待标注的数据和标注任务,所述标注任务中包含多个属性;
S2、选择所述多个属性分别对应的预训练标注模型对所述数据进行属性标注以获得属性标注结果;其中,每个预训练标注模型是以带有其对应属性标注标签的样本为输入、其对应属性标注结果为输出经训练获得的;
S3、将步骤S2中的所有属性标注结果进行融合以获得所述数据针对所述标注任务的标注结果。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S2中,将所述多个属性分别对应的预训练标注模型按照预设的执行优先级对所述数据进行属性标注。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
S4、在预训练标注模型没有达到预设性能要求时,对该预训练标注模型对所述数据的属性标注结果进行人工纠正以获得正确的属性标注结果,并采用纠正后的属性标注结果进行在线自学习直至该预训练标注模型的性能达到预设性能要求。
4.根据权利要求3所述的方法,其特征在于,所述步骤S4包括:
S41、在用户终端向用户展示每个预训练标注模型对所述数据的属性标注结果,用户对标注结果中的每种属性标注结果进行判断,并对存在标注错误的属性进行人工纠正以获得正确的属性标注结果;
S42、接收人工纠正后的属性标注结果;
S43、采用步骤S42接收到的人工纠正后的属性标注结果训练与其对应的预训练标注模型直至收敛。
5.根据权利要求1-4任一所述的方法,其特征在于,所述每个预训练标注模型是通过如下方式获得的:
T1、获取标注任务对应的历史标注数据集,所述历史标注数据集中包括多个样本,每个样本包含有标注任务对应的一个或多个属性标注标签;
T2、对历史标注数据集进行多次预处理,以获得每个属性对应的属性标注数据集,其中,每次预处理以一个属性为对象,清除原始数据集中的其他属性标注标签以获得该属性对应的属性标注数据集;
T3、以步骤T2中的每一个属性的属性标注数据集训练标注任务类型对应的标注模型至收敛以获得该属性对应的预训练标注模型。
6.一种数据标注系统系统,其特征在于,所述系统包括:
数据接收模块,用于接收待标注的数据和标注任务,所述标注任务中包含多个属性;
标注模块,其包括多个预训练标注模型,每个预训练标注模型被配置为用于对所述数据进行一个属性的标注以获得所述数据的该属性标注结果;其中,每个预训练标注模型是以带有其对应属性标注标签的样本为输入、其对应属性标注结果为输出经训练获得的;
标注结果处理模块,用于将每个预训练标注模型对所述数据的不同属性标注结果合并以获得所述数据针对所述标注任务的标注结果。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
用户终端,用于向用户展示每个预训练标注模型对所述数据的属性标注结果,供用户对标注结果中的每种属性标注结果进行判断以及纠正;
标注纠正模块,用于在预训练标注模型没有达到预设性能要求时,对预训练标注模型的属性标注结果进行人工纠正以获得正确的属性标注结果。
8.根据权利要求6所述的系统,其特征在于,所述每个预训练标注模块还被配置为:响应于标注纠正模块的纠正并采用标注纠正模块纠正后的属性标注结果进行在线学习直至与其对应的预训练标注模型的性能达到预设性能要求。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序可被处理器执行以实现权利要求1-5任一所述方法的步骤。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310369084.5A CN116595314A (zh) | 2023-04-06 | 2023-04-06 | 一种数据标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310369084.5A CN116595314A (zh) | 2023-04-06 | 2023-04-06 | 一种数据标注方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116595314A true CN116595314A (zh) | 2023-08-15 |
Family
ID=87605197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310369084.5A Pending CN116595314A (zh) | 2023-04-06 | 2023-04-06 | 一种数据标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595314A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454316A (zh) * | 2023-12-25 | 2024-01-26 | 安徽蔚来智驾科技有限公司 | 多传感器的数据融合方法、存储介质及智能设备 |
-
2023
- 2023-04-06 CN CN202310369084.5A patent/CN116595314A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454316A (zh) * | 2023-12-25 | 2024-01-26 | 安徽蔚来智驾科技有限公司 | 多传感器的数据融合方法、存储介质及智能设备 |
CN117454316B (zh) * | 2023-12-25 | 2024-04-26 | 安徽蔚来智驾科技有限公司 | 多传感器的数据融合方法、存储介质及智能设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109426801B (zh) | 一种车道线实例检测方法和装置 | |
WO2021136365A1 (zh) | 基于机器学习模型的应用开发方法、装置及电子设备 | |
WO2021093435A1 (zh) | 语义分割网络结构的生成方法、装置、设备及存储介质 | |
US20200285938A1 (en) | Neural network learning method and device for recognizing class | |
EP4145345A1 (en) | Data annotation method and device, and fine granularity identification method and device | |
CN110737785B (zh) | 一种图片标注的方法及装置 | |
CN116595314A (zh) | 一种数据标注方法及系统 | |
CN112613387A (zh) | 一种基于YOLOv3的交通标志检测方法 | |
CN116168119A (zh) | 图像编辑方法、装置、电子设备、存储介质及程序产品 | |
CN115240157A (zh) | 道路场景数据持久化方法、装置、设备和计算机可读介质 | |
US11423262B2 (en) | Automatically filtering out objects based on user preferences | |
CN110796210A (zh) | 一种标签信息的识别方法及装置 | |
CN110728287A (zh) | 图像识别方法及装置、电子设备、存储介质 | |
US20210312227A1 (en) | System and method for detecting annotation errors | |
EP4099225A1 (en) | Method for training a classifier and system for classifying blocks | |
US20240119732A1 (en) | Operation Management System Utilizing a Wearable Device | |
US20220067405A1 (en) | System and method for road sign ground truth construction with a knowledge graph and machine learning | |
CN114565894A (zh) | 一种工作服装识别方法、装置、电子设备及存储介质 | |
US20210209399A1 (en) | Bounding box generation for object detection | |
KR102673850B1 (ko) | 품질 평가를 이용한 인공지능 비전 모델 학습 실습 시스템 및 그 방법 | |
US20230274526A1 (en) | Automatic Labeling Method for Unlabeled Data of Point Clouds | |
CN113570566B (zh) | 一种产品外观缺陷发展性认知检测方法及相关装置 | |
US11455763B2 (en) | Bounding box generation for object detection | |
EP4047528A1 (en) | Determination processing program, determination processing method, and information processing apparatus | |
US20230030987A1 (en) | Image classification method and apparatus, and method and apparatus for improving training of an image classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |