CN115294336A - 一种数据标注方法、装置及存储介质 - Google Patents
一种数据标注方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115294336A CN115294336A CN202210966022.8A CN202210966022A CN115294336A CN 115294336 A CN115294336 A CN 115294336A CN 202210966022 A CN202210966022 A CN 202210966022A CN 115294336 A CN115294336 A CN 115294336A
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- segmentation model
- data
- model
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 163
- 238000000034 method Methods 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 26
- HDAJUGGARUFROU-JSUDGWJLSA-L MoO2-molybdopterin cofactor Chemical compound O([C@H]1NC=2N=C(NC(=O)C=2N[C@H]11)N)[C@H](COP(O)(O)=O)C2=C1S[Mo](=O)(=O)S2 HDAJUGGARUFROU-JSUDGWJLSA-L 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000002054 transplantation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种数据标注方法、装置及存储介质,该方法包括:根据待标注街景数据确定语义分割模型,并根据该语义分割模型,确定自监督学习模型,使用无标签的街景数据对自监督学习模型进行训练,将训练好的自监督学习模型的特征提取器移植到语义分割模型中,使用移植后的语义分割模型对待标注街景数据进行数据标注。这种数据标注方法,利用无标签数据对语自监督学习模型进行训练,再使用移植特征提取器的方式获取训练好的语义分割模型,进行对图像数据的语义分割和数据标注,减少了语义分割模型构建和训练过程中需要的带标签数据的数据量,在保证使用语义分割模型进行数据标注准确性的同时,提高了标注效率,降低了标注成本。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据标注方法、装置及相关设备。
背景技术
随着自动驾驶技术的发展,对街景的感知算法的需求越来越多,相应地,在对街景感知算法进行设计和优化时,往往需要获取大量的街景实测数据并进行标注。传统的数据标注方法,多是通过使用大量的人工进行人工标注,或使用神经网络模型对获取的街景数据进行语义分割后再进行标注,前者虽然标注精度较较好,但耗时长、效率低、成本高,由于花费大量的人力进行,也就难以满足对海量数据进行如语义分割并标注的工作需求。而后者虽然速度快,但为了保证语义分割和标注的精度,就必须严重依赖对使用的神经网络模型进行构建和训练的过程中使用的包含各种类型不同标签的样本数据或训练数据,当这些带标签的样本数据或训练数据的数据量不足时,其进行语义分割以完成标注的精度就难以得到有效保证。
发明内容
有鉴于此,本申请实施例提供一种数据标注方法、装置及存储介质,以至少部分解决上述问题。
第一方面,本申请实施例提供一种数据标注方法,包括:
根据待标注街景数据确定语义分割模型;
根据确定的语义分割模型,确定自监督学习模型;
使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型;
将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型;
通过移植后的语义分割模型对待标注街景数据进行数据标注。
可选地,在本申请的一种实施例中,所述自监督学习模型包括第一前端主干网络和前置任务模块:
所述特征提取器包含在所述第一前端主干网络中,所述第一前端主干网络用于提取图片信息,生成对应的特征图;
所述前置任务模块用于无监督的语义提取,以对所述第一前端主干网络进行监督训练。
可选地,在本申请的一种实施例中,所述语义分割模型包括第二前端主干网络和预测器;
所述预测器用于处理对对应的特征图进行处理,生成语义分割预测图。
可选地,在本申请的一种实施例中,根据确定的语义分割模型,确定自监督学习模型,包括:
根据岁数语义分割模型的所述第二前端主干网络的结构,确定所述第一前端主干网络的结构;根据所述第一前端主干网络的结构,确定所述自监督学习模型的结构。
可选地,在本申请的一种实施例中,将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型,包括:
确定训练好的所述自监督学习模型的所述第一前端主干网络中所述特征提取器的权重;
根据所述第一前端主干网络中所述特征提取器的权重,对所述语义分割模型的第二前端主干网络进行替换,将第二前端主干网络被替换后的语义分割模型确定的移植后的语义分割模型。
可选地,在本申请的一种实施例中,所述语义分割模型为语义分割模型SETR;
所述语义分割模型SETR的第二前端主干网络为Transformer Layer特征提取器。
可选地,在本申请的一种实施例中,自监督学习模型的为自监督学习模型MOCO;
所述自监督学习模型MOCO的第一前端主干网络包括由编码器fq和编码器fk构成的特征提取器。
可选地,在本申请的一种实施例中,在通过移植后的语义分割模型对待标注街景数据进行数据标注之前,方法还包括:对移植后的语义分割模型进行微调Fine-tune。
第二方面,基于本申请第一方面的数据标注装置方法,本申请实施例还提供一种数据标注装置,包括:
第一确定模块,用于根据待标注街景数据确定语义分割模型;
第二确定模块,用于根据确定的语义分割模型,确定自监督学习模型;
训练模块,用于使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型;
移植模块,用于将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型;
标注模块,用于通过移植后的语义分割模型对待标注街景数据进行数据标注。
第三方面,本申请实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面的任意一种数据标注方法。
本申请提供一种数据标注方法、装置及存储介质,其中,数据标注方法包括:根据待标注街景数据确定语义分割模型;根据确定的语义分割模型,确定自监督学习模型;使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型;将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型;通过移植后的语义分割模型对待标注街景数据进行数据标注。本申请实施例提供的数据标注方法,通过设置语义分割模型和自监督学习模型,并使用无标签数据对自监督学习模型进行训练,将训练好好的自监督学习模型的特征提取器移植到语义分割模型中,由于自监督学习模型的训练过程无需获取海量的带标签的样本数据,从而减少了模型构建和训练过程中使用的带标签数据的样本数据量,在保证使用语义分割模型进行数据标注准确性的同时,有效的保证了标注效率,降低了标注成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据标注方法的工作流程图;
图2为本申请实施例提供的一种数据标注装置的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。
实施例一、
本申请实施例提供一种本申请实施例提供一种数据标注方法,如图1所示,图1为本申请实施例提供的一种数据标注方法的工作流程图,该数据标注方法包括:
S101、根据待标注街景数据确定语义分割模型。
可选地,在本申请实施例的一种实现方式中,可以根据待标注街景的数据复杂度确定语义分割模型,例如,当待标注的街景数据复杂度较低时,可以选择UNet神经网络模型,该包括前半部分Encoder和后半部分Decoder组成,前半部分Encoder由两个3x3的卷积层(RELU)再加上一个2x2的maxpooling层组成一个下采样的的模型,以供四个下采样模块。用于进行特征提取。后半部分Decoder由一个上采样的卷积层(去卷积层)+特征拼接concat+两个3x3的卷积层(ReLU)反复构成,一共四个上采样模块。该神经网络的结构较为简单,使用范围广,使用技术成熟,在应用于本申请实施例中处理复杂度低的街景数据是具有准确性好、效率高也易于实施的优点。
而当需要进行标注的街景数据量较大,复杂度和处理精度相对较高的待标注数据时,此时就可以选择如DeepLab、PSPNet、RefinNet、Fastnet等其他的语义分割模型作为本申请实施例的语义分割模型,使用这些神经网络模型作为语义分割模型进行数据处理,在保证确定的语义分割模型能够提供较为稳定数据处理能力,以保证系统工作正常开销的同时,一定程度的降低系统工作工程硬件资源开销的需求,以节省硬件算力。
而当需要进行标注的街景数据量非常大,且复杂度和处理精度均要求非常高,且不介意硬件算力时,此时可以选择如HRNet、OCRNet、SETR、Transformer等神经网络模型作为用于处理待标注街景数据的语义分割模型,这类神经网络模型算力强,虽然需要消耗的硬件处理资源较大,但数据处理效果好,精度高。
具体的,在本申请实施例的一种实现方式中,具体当需要进行标注的街景数据量、复杂度和处理精度等标准时,可以设定相关的评判参数阈值,根据该设定相关评判参数阈值,判断待标记街景数据的数据量和复杂度。如当待标注的街景数据的数据量小于数据量第一阈值、且复杂度小于复杂度第一阈值时候,确定所述当待标注的街景数据的当前复杂度较低;而当待标注的街景数据的数据量大于或等于数据量第一阈值、但小于数据量第二阈值,复杂度大于或等于预设的复杂度第一阈值时候、但小于复杂度第二阈值时,确定需要进行标注的街景数据量为较大,且复杂度较高。以此类推。当然,具体地,也可以根据其他方法确定待标记街景数据的数据量、复杂度和处理精度要求,本申请实施例对此不作要求。
具体地,本实施例此处只上述实现方式只是是示例性的对根据待标注的街景数据确定语义分割模型进行说明,并不代表本申请局限于此。例如,在本申请的一种实现方式中,还可以根据该街景数据的类型的不同,例如将待标注的街景数据分为静态街景数据或动态街景数据的不同类别,确定相应的语义分割模型,从而使得本申请中使用的语义分割模型对不同类型的数据进行语义分割和数据标注时具有更好的针对性,也就提高了语义分割和数据标准的精准度。
S102、根据确定的语义分割模型,确定自监督学习模型。
本申请实施例先通过对自监督模型进行无监督训练,再进一步通过模型移植的方式,以使确定的未经过训练的语义分割模型直接获得较好的语义分割和数据标注的能力。此时,为了方便这一过程,在确定自监督学习模型时,可以根据确定的语义分割模型的结构,设计或确定自监督学习模型的结构,例如可以根据确定的语义分割模型的结构,设计或确定结构相似的自监督学习模型,以在保证移植后的语义分割模型具有较好的数据处理能力的同时,提高模型移植的便利性。
具体的,在本申请实施例一种可选的实现场景中,自监督学习模型包括第一前端主干网络(backbone)和前置任务模块:第一前端主干网络(backbone)包含用于对输入图像进行特征提取的特征器,用于提取图片信息,生成对应的特征图;前置任务模块用于无监督的语义提取,以对第一前端主干网络(backbone)进行监督训练。从而使得本申请实施例使用的自监督学习模型能够通过无标签数据作为训练样本,在保证训练精度的同时,以稳定的训练过程完成模型训练,还能一定程度的减少人工成本。
对应地,确定的语义分割模型包括第二前端主干网络(backbone)和预测器;第二前端主干网络(backbone)中也包括特征提取器,用于对输入的图像进行对应的特征提取,预测器用于对对应的特征图进行处理,生成语义分割预测图。
对应优选地,在本申请的一种实施例中,根据确定的语义分割模型,确定自监督学习模型,包括:根据语义分割模型的第二前端主干网络(backbone)的结构,确定第一前端主干网络(backbone)的结构,根据第一前端主干网络(backbone)的结构,确定自监督学习模型的结构。在本申请实施例的应用场景中,由于第一前端主干网络(backbone)和第二前端主干网络(backbone)均用于提取输入的图片信息,以生成对应的特征图。当进行模型的移植时,也就主要是对该部分进行移植,此时,为了移植的便利性,可以根据确定的语义分割模型的第二前端主干网络(backbone)的结构,确定或者设计使用的自监督学习模型中的第一前端主干网络(backbone)的结构,从而进一步根据该第一前端主干网络(backbone)的结构设计或确定所要使用的自监督学习模型的结构,保证模型移植的便利性。例如,在本申请实施例的一种实现方式中,可以将第一前端主干网络(backbone)与第二前端主干网络(backbone)设置为相同的编码结构,具体的,第一前端主干网络和第二前段主干网络中的特征提取器的为编码结构相同或相似的结构。本申请实施例此处只是示例性的对此进行说明,并不代表本申请局限于此。
在本申请实施例的一种实际应用场景中,具体地,语义分割模型为语义分割模型SETR,一种基于视觉的Transformer的语义分割模型,该语义分割模型SETR的第二前端主干网络(backbone)为Transformer Layer特征提取器。该模型在机型对输入的图像进行数据处理是,先将输入图像进行分块处理,然后对每个图像分块做块嵌入并加上位置编码,将图像转换为向量序列,之后再经过Transformer block,里面包括24个Transformer层,每个Transformer层都是由MSA+MLP+Layer Norm+残差连接组成进行处理。同时语义分割模型SETR在进行图像解码时,将2D的编码器输出向量转换为3D特征图,通过原始的上采样、或者经过渐进式的上采样,又或者通过多层次特征加总的方式,利用如特征金字塔网络类似的上采样处理,可以有效的消除数据噪声,保证图像数据处理的精确度。
对应地,当确定语义分割模型SETR为进行语义分割数据标注的模型时,此时可以将为监督学习模型确定为自监督学习模型MOCO(Momentum Contrast for UnsupervisedVisual Representation Learning,基于动量对比度的自监督学习模型),该自监督学习模型MOCO的第一前端主干网络(backbone)包括encoderq和encoderk。自监督学习模型MOCO通过使用对比度损失将编码的查询q与编码键的字典匹配来训练视觉标识编码器,使得其在对用于对图像进行数据处理能力是有较好和稳定的处理能力。
具体地,在本申请实施例的应用场景中,语义分割模型SETR中的transformerlayer、以及自监督模型MOCO中的由encoder q(编码器fq)和encoderk(编码器fk)构成的特征提取器,或特征提取层,均可称为各自模型的主干网络(backbone),及本申请实施例所述的第二前端主干网络(backbone)和第一前端主干网络(backbone)。在本申请实施例的实际使用中,把语义分割模型SETR中的transformerlayer作为自监督学习模型MOCO的encoder q(编码器fq)和encoderk(编码器fk)进行预训练。由于语义分割模型SETR强调自己使用transformer结构作为特征提取层,而自监督学习模型MOCO作为一种通用的自监督学习框架,它的重点不在于特征提取层设计,故直接用编码器encoder指代,也即该自监督学习模型MOCO的特征提取层,同时也作为该自监督学习模型MOCO的主干网络,即本申请实施例中所述的第二前端主干网络。这一预训练过程实施难度低,且预训练效果好。
可选地,在本申请的其他实现方式中,所述自监督模型还可以为BYOL、SimCLR或MAE等神经网络模型,以适应所要处理的待标记街景数据处理过程中需要的数据处理算力,保证系统工作的稳定性和平衡性,在节省硬件资源以降低成本的同时,保证模型训练过程的效率。
S103、使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型。
本申请涉及语义分割和数据标注的应用场景,在使用无标签的街景数据作为样本,对自监督学习模型进行训练,既能有效降低模型训练的成本,提高效率,也能够较为准确的保证模型训练的精度。
S104、将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型。在本申请实施例中,当使用无标签数据对自监督学习模型进行训练结束后,该训练好的自监督学习模型的特征提取器也就获得了相应的训练好的特征提取能力,此时,将该特征提取器直接移植到确定的语义分割模型中,替换语义分割模型中未经训练的特征提取器,从而也就使得移植后的语义分割模型获得了相应的特征提取能力。
可选地,在本申请的一种实施例中,将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型,包括:确定训练好的自监督学习模型的特征提取器的权重,根据特征提取器的权重,对语义分割模型的第二前端主干网络进行替换,将第二前端主干网络被替换后的语义分割模型确定的移植后的语义分割模型。通过权重替换的方式,使得移植的过程更加的简单高效,易于实施。
可选地,在本申请实施例中,当第一前端主干网络和第二前端主干网络的结构相同时,也可以通过整体替换的方式,如直接利用第二前端主干网络对语义分割模型中的第一前端主干网络进行替换,将替换后的语义分割模型确定为移植后的语义分割模型,从而使得移植的过程更加的简单高效。
S105、通过移植后的语义分割模型对待标注街景数据进行数据标注。
可选地,在本申请的一种实施例中,在通过移植后的语义分割模型对待标注街景数据进行数据标注之前,该数据标注方法还包括:对移植后的语义分割模型进行微调Fine-tune,即通过冻结预训练模型的部分卷积层(通常是靠近输入的多数卷积层),训练剩下的卷积层(通常是靠近输出的部分卷积层)和全连接层,以保证移植后的语义分割模型对输入的图像数据进行语义分割实现数据标注的结果的精确度。
可选地,在本申请实施例的一种实现方式中,对移植后的语义分割模型进行微调Fine-tune,包括:使用带标签的街景数据,对移植后的语义分割模型进行模型训练,已对该移植后的语义分割模型实现微调Fine-tune。这种微调Fine-tune的实现过程简单可靠,准确率好,且需要的带标签数据的数据量较少,效率高,易于实现。
本申请提供一种数据标注方法,包括:根据待标注街景数据确定语义分割模型;根据确定的语义分割模型,确定自监督学习模型;使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型;将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型;通过移植后的语义分割模型对待标注街景数据进行数据标注。本申请实施例提供的数据标注方法,通过设置语义分割模型和自监督学习模型,并使用无标签数据对自监督学习模型进行训练,将训练好好的自监督学习模型的特征提取器移植到语义分割模型中,由于自监督学习模型的训练过程无需获取海量的带标签的样本数据,从而减少了模型构建和训练过程中使用的带标签数据的样本数据量,在保证使用语义分割模型进行数据标注准确性的同时,有效的保证了标注效率,降低了标注成本。
实施例二:
基于本申请第一方面的数据标注方法,本申请实施例还提供一种数据标注装置,如图2所示,图2为本申请实施例2提供的一种数据标注装置20的结构示意图,该数据标注装置20包括:
第一确定模块201,用于根据待标注街景数据确定语义分割模型;
第二确定模块202,用于根据确定的语义分割模型,确定自监督学习模型;
训练模块203,用于使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型;
移植模块204,用于将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型;
标注模块205,用于通过移植后的语义分割模型对待标注街景数据进行数据标注。
可选地,在本申请实施例的一种实现方式中,自监督学习模型包括第一前端主干网络(backbone)和前置任务模块:
特征提取器包含在第一前端主干网络中,所述第一前端主干网络(backbone)用于提取图片信息,生成对应的特征图;
前置任务模块用于无监督的语义提取,以对第一前端主干网络(backbone)进行监督训练。
可选地,在本申请实施例的一种实现方式中,语义分割模型包括第二前端主干网络(backbone)和预测器;所述第二前端主干网络包含特征提取器,用于对输入的图像进行特征提取,预测器用于处理对对应的特征图进行处理,生成语义分割预测图。
可选地,在本申请实施例的一种实现方式中,第二确定模块202根据确定的语义分割模型,确定自监督学习模型,包括:根据语义分割模型的第二前端主干网络(backbone)的结构,确定第一前端主干网络(backbone)的结构;根据第一前端主干网络(backbone)的结构,确定自监督学习模型的结构,从而确定该自监督模型。
可选地,在本申请实施例的一种实现方式中,移植模块204将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型,包括:
确定训练好的自监督学习模型的特征提取器的权重;
根据特征提取器的权重,对语义分割模型的第二前端主干网络进行替换,将第二前端主干网络被替换后的语义分割模型确定的移植后的语义分割模型。
可选地,在本申请实施例的一种实现方式中,确定的语义分割模型为语义分割模型SETR;该语义分割模型SETR的第二前端主干网络(backbone)为Transformer Layer特征提取器。
对应地,在本申请实施例的一种实现方式中,自监督学习模型的为自监督学习模型MOCO;其中,该自监督学习模型MOCO的第一前端主干网络(backbone)包括由encoder q(编码器fq)和encoderk(编码器fk)构成的特征提取器。
可选地,在本申请实施例的一种实现方式中,该数据标注装置还包括微调模块(附图中未示出),该微调模块用于在通过移植后的语义分割模型对待标注街景数据进行数据标注之前,对经过移植后的语义分割模型进行微调Fine-tune,以提高移植后的语义分割模型进行语义分割并实现数据标注的精确度。
本申请提供一种数据标注装置,通过设置第一确定模块用于根据待标注街景数据确定语义分割模型;设置第二确定模块用于根据确定的语义分割模型,确定自监督学习模型;设置训练模块用于使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型;设置移植模块用于将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型;设置标注模块用于通过移植后的语义分割模型对待标注街景数据进行数据标注。本申请实施例提供的数据标注装置,通过设置语义分割模型和自监督学习模型,并使用无标签数据对自监督学习模型进行训练,将训练好好的自监督学习模型的特征提取器移植到语义分割模型中,由于自监督学习模型的训练过程无需获取海量的带标签的样本数据,从而减少了模型构建和训练过程中使用的带标签数据的样本数据量,在保证使用语义分割模型进行数据标注准确性的同时,各模块工作针对性强,有效的保证了数据标注效率,降低了数据标注的成本。
实施例三、
基于本申请实施例一的数据标注方法,本申请实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任意方法实施例的数据标注方法,该数据标注方法包括但不限于:
根据待标注街景数据确定语义分割模型;
根据确定的语义分割模型,确定自监督学习模型;
使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型;
将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型;
通过移植后的语义分割模型对待标注街景数据进行数据标注。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据标注方法,其特征在于,包括:
根据待标注街景数据确定语义分割模型;
根据确定的语义分割模型,确定自监督学习模型;
使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型;
将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型;
通过移植后的语义分割模型对待标注街景数据进行数据标注。
2.根据权利要求1的数据标注方法,其特征在于,自监督学习模型包括第一前端主干网络和前置任务模块:
所述特征提取器包含在所述第一前端主干网络中,所述第一前端主干网络用于提取图片信息,生成对应的特征图;
所述前置任务模块用于无监督的语义提取,以对所述第一前端主干网络进行监督训练。
3.根据权利要求1或2的数据标注方法,其特征在于,语义分割模型包括第二前端主干网络和预测器;
所述预测器用于对对应的特征图进行处理,生成语义分割预测图。
4.根据权利要求3中任一项的数据标注方法,其特征在于,根据确定的语义分割模型,确定自监督学习模型,包括:
根据所述语义分割模型的所述第二前端主干网络的结构,确定第一前端主干网络的结构;
根据第一前端主干网络的结构,确定所述自监督学习模型的结构。
5.根据权利要求4的数据标注方法,其特征在于,将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型,包括:
确定所述训练好的自监督学习模型的所述第一前端在主干网络中的特征提取器的权重;
所述第一前端在主干网络中的特征提取器的权重,对所述语义分割模型的所述第二前端主干网络进行替换,将所述第二前端主干网络被替换后的语义分割模型确定为所述移植后的语义分割模型。
6.根据权利要求3的数据标注方法,其特征在于,语义分割模型为语义分割模型SETR;
所述语义分割模型SETR的第二前端主干网络为Transformer Layer特征提取器。
7.根据权利要求6的数据标注方法,其特征在于,自监督学习模型的为自监督学习模型MOCO;
所述自监督学习模型MOCO的第一前端主干网络包括由编码器fq和编码器fk构成的特征提取器。
8.根据权利要求1的数据标注方法,其特征在于,在通过移植后的语义分割模型对待标注街景数据进行数据标注之前,方法还包括:对移植后的语义分割模型进行微调Fine-tune。
9.一种数据标注装置,其特征在于,包括:
第一确定模块,用于根据待标注街景数据确定语义分割模型;
第二确定模块,用于根据确定的语义分割模型,确定自监督学习模型;
训练模块,用于使用无标签的街景数据对自监督学习模型进行训练,得到训练好的自监督学习模型;
移植模块,用于将训练好的自监督学习模型的特征提取器移植到语义分割模型中,得到移植后的语义分割模型;
标注模块,用于通过移植后的语义分割模型对所述待标注街景数据进行数据标注。
10.一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任意一项的数据标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210966022.8A CN115294336A (zh) | 2022-08-12 | 2022-08-12 | 一种数据标注方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210966022.8A CN115294336A (zh) | 2022-08-12 | 2022-08-12 | 一种数据标注方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294336A true CN115294336A (zh) | 2022-11-04 |
Family
ID=83829127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210966022.8A Pending CN115294336A (zh) | 2022-08-12 | 2022-08-12 | 一种数据标注方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294336A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797638A (zh) * | 2023-02-03 | 2023-03-14 | 神州医疗科技股份有限公司 | 一种医学图像分割方法、装置、电子设备及存储介质 |
-
2022
- 2022-08-12 CN CN202210966022.8A patent/CN115294336A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797638A (zh) * | 2023-02-03 | 2023-03-14 | 神州医疗科技股份有限公司 | 一种医学图像分割方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241851A (zh) | 语义相似度确定方法、装置及处理设备 | |
CN116205290B (zh) | 一种基于中间特征知识融合的知识蒸馏方法和装置 | |
CN113221555B (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN116521380A (zh) | 一种资源自适应协同的模型训练加速方法、装置及设备 | |
CN116304720B (zh) | 一种代价模型训练的方法、装置、存储介质及电子设备 | |
CN115294336A (zh) | 一种数据标注方法、装置及存储介质 | |
CN116127305A (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN111476291B (zh) | 数据处理方法,装置及存储介质 | |
CN115499635B (zh) | 数据压缩处理方法及装置 | |
CN113887719B (zh) | 一种模型压缩方法及装置 | |
CN110390015A (zh) | 一种数据信息处理方法、装置及系统 | |
CN112307371B (zh) | 小程序子服务识别方法、装置、设备及存储介质 | |
CN111753990B (zh) | 一种量子计算机模拟环境方法、设备及介质 | |
CN109325127B (zh) | 一种风险识别方法和装置 | |
CN115731375B (zh) | 虚拟形象的更新方法及装置 | |
CN113221871B (zh) | 一种文字识别方法、装置、设备及介质 | |
CN115953706B (zh) | 虚拟形象处理方法及装置 | |
CN115953559B (zh) | 虚拟对象处理方法及装置 | |
CN117808976B (zh) | 一种三维模型构建方法、装置、存储介质及电子设备 | |
CN117726907B (zh) | 一种建模模型的训练方法、三维人体建模的方法以及装置 | |
CN116434787B (zh) | 一种语音情感识别的方法、装置、存储介质及电子设备 | |
CN117455015B (zh) | 一种模型优化的方法、装置、存储介质及电子设备 | |
CN116996397B (zh) | 一种网络丢包优化的方法、装置、存储介质及电子设备 | |
CN117934858B (zh) | 一种点云的处理方法、装置、存储介质及电子设备 | |
CN116543759A (zh) | 语音识别处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |