CN116229197A

CN116229197A - 预标注模型的构建方法、预标注方法及装置、电子设备

Info

Publication number: CN116229197A
Application number: CN202211481061.5A
Authority: CN
Inventors: 林群书; 卜佳俊; 吴欣骏; 刘明皓; 祁士刚; 杨易; 张超; 赵子健
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-06-06

Abstract

本发明公开了一种预标注模型的构建方法、预标注方法及装置、电子设备，所述预标注模型的构建方法包括：构建预标注初始模型；将未标注的数据集输入所述预标注初始模型中，得到标注数据集；从所述标注数据集筛选出标注不准确的数据；对所述标注不准确的数据进行人工标注；将人工标注后的数据加入到已标注的数据集中，构成新的训练集；使用新的训练集对所述预标注初始模型重新进行训练，得到预标注模型。所述预标注方法包括：获取待标注的数据；将所述待标注的数据输入到上述方法构建的预标注模型中进行预标注。解决了现有技术中存在的算法对数据需求量大，数据质量和数量要求高导致的人工标注成本上升和数据预标注模型效果不佳的问题。

Description

预标注模型的构建方法、预标注方法及装置、电子设备

技术领域

本申请涉及数据标注领域，特别涉及一种预标注模型的构建方法、预标注方法及装置、电子设备。

背景技术

机器学习依赖大量的已标注数据，数据标注让机器理解并认识世界，这是人工智能发展过程中不可缺的一环。随着人工智能行业的发展，行业内对数据的质量和数量提出了更高的要求，增加了人工智能算法开发的成本。

目前，为了降低数据标注的成本，一般会选择使用数据预标注模型对数据进行预标注，例如使用目标检测算法初步识别图像的目标类别，使用语义分割算法初步分割出图像的语义信息，然后人工手动调整数据的标签，获得准确的数据标签信息。

但是，由于数据预标注模型的训练也需要大量的数据才能得到较好的算法模型，往往在这一步就需要投入大量的人力来标注数据的标签用于训练数据预标注模型，如果预标注模型算法训练的效果不好，最终使用模型时得到的预标注结果也必定不好，有时反而会增加人工调整数据标签的工作量。

发明内容

有鉴于此，本申请实施例提供了一种预标注模型的构建方法、预标注方法及装置、电子设备，以解决现有技术中存在的算法对数据需求量大，数据质量和数量要求高导致的人工标注成本上升和数据预标注模型效果不佳的问题。

根据本申请实施例的第一方面，提供一种预标注模型的构建方法，所述方法包括：

通过深度学习算法构建预标注初始模型；

将未标注的数据集输入所述预标注初始模型中，得到标注数据集；

从所述标注数据集筛选出标注不准确的数据；

对所述标注不准确的数据进行人工标注；

将人工标注后的数据加入到已标注的数据集中，构成新的训练集；

使用新的训练集对所述预标注初始模型重新进行训练，得到预标注模型。

可选的，通过深度学习算法构建预标注初始模型，包括：

构建由多层神经网络组成的主干网络，用于对训练数据集中的数据进行提取特征；

针对不同的标注任务构建不同的特征处理算法；

将构建的主干网络提取的特征传入构建的特征处理算法中进行处理，得到对应的数据预测值；

在第一轮训练中主干网络得到权重参数；

使用训练数据集中的数据预测值和训练数据集中的数据真实值计算出损失；

根据计算出的损失在第二轮训练中调整主干网络的权重参数；

经过多轮训练，当损失值小于预定值时停止训练，得到满足要求的预标注初始模型。

可选的，从所述标注数据集筛选出标注不准确的数据，包括：

通过不确定性度量策略衡量标注数据集中的数据的标注价值；

筛选标注价值大于预定值的数据记为不准确数据。

可选的，所述不确定性度量策略，包括：

计算标注数据集中的数据的最小置信度；

通过最小置信度计算标注数据集中的数据的标注价值；

可选的，对所述标注不准确的数据进行人工标注，包括：

将所述标注不准确的数据分发给数据标注员，以使得数据标注员针对不同的标注任务使用对应的数据标注工具标注数据。

可选的，使用新的训练集对所述预标注初始模型重新进行训练，得到新的预标注模型，包括：

使用新的训练集在和构建预标注初始模型相同的深度学习算法中进行训练；

使用预标注初始模型的权重参数作为再次训练的初始参数；

冻结主干网络中部分神经网络层；

在每一轮训练中更新主干网络中未冻结层的参数；

当损失值小于预定值时停止训练，得到满足要求的预标注模型。

根据本申请实施例的第二方面，提供一种预标注方法，包括：

获取待标注的数据；

将所述待标注的数据输入到第一方面所述方法构建的预标注模型中进行预标注。

根据本申请实施例的第三方面，提供一种预标注模型的构建装置，包括：

构建模块，用于通过深度学习算法构建预标注初始模型；

第一预标注模块，用于将未标注的数据集输入所述预标注初始模型中，得到标注数据集；

筛选模块，用于从所述标注数据集筛选出标注不准确的数据；

人工标注模块，用于对所述标注不准确的数据进行人工标注；

训练集构建模块，用于将人工标注后的数据加入到已标注的数据集中，构成新的训练集；

训练模块，用于使用新的训练集对所述预标注初始化模型进行训练，得到预标注模型。

根据本申请实施例的第四方面，提供一种预标注装置，包括：

获取模块，用于获取待标注的数据；

第二预标注模块，用于将所述待标注的数据输入到第一方面所述方法构建的预标注模型中进行预标注。

根据本申请实施例的第五方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面、第二方面所述的方法。

根据本申请实施例的第六方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面、第二方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请通过深度学习算法构建预标注初始模型，将未标注的数据集输入所述预标注初始模型中，得到标注数据集，再从所述标注数据集筛选出标注不准确的数据，这些标注不准确的数据经过数据专家(也就是人工标注)进行手动精确的标注后加入到训练数据集，通过训练数据集训练之后得到新的更准确的预标注模型，在下一批待标注数据导入时，就能够使用更准确的预标注模型获得更准确的预标注结果。还可经过不断地训练更新之后，预标注结果将越来越准确，人力的需求将越来越低，从而逐步降低数据标注的成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请实施例提供的一种预标注模型的构建方法的流程图。

图2是本申请实施例提供的一种最小置信度分数计算示意图

图3是本申请实施例提供的图像目标检测数据为例的流程图

图4是本申请实施例提供的一种预标注方法的流程图。

图5是根据一示例性实施例示出的一种预标注模型的构建装置框图。

图6是根据一示例性实施例示出一种预标注装置框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

以下分别结合本申请提供的实施例的附图逐一进行详细说明，并且对方法的各个步骤进行说明。

图1是本申请实施例提供的一种预标注模型的构建方法的流程图，参考附图1，该方法可以包括：

S11：通过深度学习算法构建预标注初始模型；

S12：将未标注的数据集输入所述预标注初始模型中，得到标注数据集；

S13：从所述标注数据集筛选出标注不准确的数据；

S14：对所述标注不准确的数据进行人工标注；

S15：将人工标注后的数据加入到已标注的数据集中，构成新的训练集；

S16：使用新的训练集对所述预标注初始模型重新进行训练，得到预标注模型。

S11的具体实施中：通过深度学习算法构建预标注初始模型；该步骤可以包括以下子步骤：

S111：构建由多层神经网络组成的主干网络，用于对训练数据集中的数据进行提取特征；

具体地，原始图像经过3x3的卷积核进行卷积，卷积后的数据经过BatchNormalization层，将数据保持均值为0，方差为1的正太分布，通过relu激活函数将负数的值置为0，然后将得到的数据分为两条线传递。

第一条线的数据经过3x3的卷积核进行卷积后，将数据传入BatchNormalization层，将数据保持均值为0，方差为1的正太分布，通过relu激活函数将负数的值置为0，然后再次经过3x3的卷积核进行卷积后，再次经过BatchNormalization层，再次将数据保持均值为0，方差为1的正太分布。

第二条线不做任何操作传递数据。

将两条线的数据做加和后将数据传入relu激活函数，将负数的数据置为0。

以上所述两条线的数据操作和加和后的relu激活函数共同构成一个残差单元。堆叠58个残差单元构成本申请的主干网络。

S112：针对不同的标注任务构建不同的特征处理算法；

具体地，例如，在目标检测任务中，使用YOLO等目标检测算法；在语义分割任务中，使用Deeplab等语义分割算法；在文本识别任务中，使用CRNN等文本识别算法；在语音识别任务中，使用ASR等算法。在具体的标注任务中根据标注需求选择适合的预标注模型进行标注。

S113：将构建的主干网络提取的特征传入构建的特征处理算法中进行处理，得到对应的数据预测值；

具体地，例如，在目标检测任务中，得到数据的预测框；在语义分割任务中，得到数据的预测图层；在文本识别任务中，得到图像转文本的数据；在语音识别任务中，得到语音转文本的数据。

S114：在第一轮训练中主干网络得到权重参数；

具体地，在每一个残差单元中有两层卷积层用于数据特征提取，其中的卷积核权重参数初始化后经过正向传播提取数据特征，然后反向传播求得数据的梯度来跟新卷积核的权重参数。

S115：使用训练数据集中的数据预测值和训练数据集中的数据真实值计算出损失；

具体地，以目标检测任务为例，通过计算预测框和真实框的交并比作为算法的损失，其公式为：

S116：经过多轮训练，当损失值小于预定值或训练轮次达到设定值时停止训练，得到满足要求的预标注初始模型。

具体地，本申请设置当损失值小于0.1时停止训练，或训练轮次达到2000轮时停止训练，当然不局限于此。

S12的具体实施中：将未标注的数据集输入所述预标注初始模型中，得到标注数据集；

具体地，本申请建立了预标注算法模型池存储所述预先训练好的数据标注模型，通过所述预先训练好的数据预标注模型对输入的数据进行预标注，所有预标注后的数据组成标注数据集。

S13的具体实施中：从所述标注数据集筛选出标注不准确的数据；该步骤可以包括以下子步骤：

S131：通过不确定性度量策略衡量标注数据集中的数据的标注价值；

具体地，计算标注数据集中的数据的最小置信度；通过最小置信度计算标注数据集中的数据的标注价值；将不确定性分数做排序，不确定性分数排名最前的预定数量的数据视为具有较高标注价值的数据。

更具体地，作为一种优选实施方式中，所述不准确数据采用如下方式获得：

(1)所述不确定性度量策略为计算标注数据集中的数据的最小置信度；

(2)最小置信度表示为：

其中y表示数据的真实标签，x表示该数据的参数，

为通过预标注算法标注数据后给出的概率。

(3)尽管可以直接根据不确定分数进行排名，但是将分数转到0-1的范围内也是很有帮助的，为此我们在计算不确定性分数时将结果乘标签数n，再除标签数减1。这么做是因为最低置信度永远不会小于1除以标签数量。

(4)若标注样本中标签数大于1样本不确定性分数为：

若标注样本中标签数等于1样本不确定性分数为：

1-SLC

S132：筛选标注价值大于预定值的数据记为不准确数据。

具体地，将不确定性分数做排序，取不确定性分数排名最高的前20％(为一例子，不局限于此，可根据情况自行给定)的数据记为不准确数据。

图2是本申请实施例提供的一种最小置信度分数计算示意图，以图2为例，数据传入预标注模型后得到数据的标签和概率，取图中最大概率的标签为数据样本的最终标签，其概率值即为该样本的标签置信度，由于狗和猫两个标签的概率相近，我们很容易知道算法模型在分类该标签时容易混淆，所以其标注价值很高。

为了使各个数据样本标签的分数标准化，需要用1减去该值然后乘以N/(N-1)，N为标签数，从而计算出样本的不确定性分数。

图2中的计算结果为0.74895，算法将所有不确定性分数排序后取不确定性分数最高的前20％的数据作为难预测数据分发给数据专家。

本申请实施例所述数据筛选方法实现方式简单，便于相关领域技术人员实现。

S14的具体实施中：对所述标注不准确的数据进行人工标注；

具体地，将所述标注不准确的数据分发给数据标注员，以使得数据标注员针对不同的标注任务使用对应的数据标注工具标注数据。

筛选出的数据分发给数据专家，数据专家根据经验判断给出准确的数据标注结果。

标注工具根据标注任务的不同可以选择2D/3D图像拉框工具，2D/3D图像分割工具，车道线标注工具，文本数据标注工具，音频数据标注工具，关键点打点标注工具等等。

本申请实施例所述的人工标注仅标注难预测的数据，需要标注的数据量大幅降低，节省了人工标注的成本。

S15的具体实施中：将人工标注后的数据加入到已标注的数据集中，构成新的训练集；

具体地，本申请实施例中训练数据集仅供数据预标注算法进行训练得到预标注算法模型使用，需注意与用于预标注的数据集区分开。训练数据集中的数据是带有标签的数据，用于预标注的数据集中的数据不带注释标签。

本申请中所述人工标注的难预测数据加入到训练数据集中，随着标注轮次的增加，能够对训练数据集进行不断地扩充，使训练数据集能不断获得有价值地训练数据供算法训练使用。

S16的具体实施中：使用新的训练集对所述预标注初始模型重新进行训练，得到预标注模型；该步骤可以包括以下子步骤：

S161：使用新的训练集在和构建预标注初始模型相同的深度学习算法中进行训练；

具体地，由于使用新的训练集进行训练需要花费大量的时间和计算成本，本申请提供的预标注模型的构建方法使用迁移学习的思想对算法进行训练，使算法能在保持之前的预测效果的基础上，将知识扩展到新的数据上。

S162：使用预标注初始模型的权重参数作为再次训练的初始参数；

具体地，本申请所述对预标注初始模型重新进行训练，使用了初始预标注模型的参数作为其初始参数。所述预标注初始模型是在数据量100000以上的数据集上训练好的算法模型，该模型具有一定的泛化能力。

S163：冻结主干网络中部分神经网络层；

具体地，以tensorflow框架为例，其冻结神经网络层方法为：

已迭代方式冻结层：

For layer in model.layers[:-1]:

Layer.trainable＝False

S164：在每一轮训练中更新主干网络中未冻结层的参数；

具体地，未冻结层可以再次被训练，使用加入了难预测数据的训练集训练模型时，更新未冻结层的参数。微调输出层前未冻结的若干层的参数，有效利用了深度神经网络强大的泛化能力，又免去了耗费大量的时间和计算成本进行训练。

S165：当损失值小于预定值或迭代轮次达到设定值时停止训练，得到满足要求的预标注模型。

具体地，当本申请设置当损失值小于0.1时停止训练，或训练轮次达到2000轮时停止训练。

图3是本申请实施例提供的图像目标检测数据为例的流程图，详细流程不做赘述。

参考附图4，本申请提供的一种预标注方法，包括：

S41：获取待标注的数据；

S42：将所述待标注的数据输入到上述方法构建的预标注模型中进行预标注。

由上述实施例可知，本申请提供了一种数据预标注方法，使用预先训练好的数据预标注模型对输入的数据进行预标注。

在人工智能行业中，数据采集和标注是整个算法训练流程的第一步，同时，如何降低数据标注的成本称为重中之重，原因在于各种复杂的应用场景使算法对数据质量和数量提出了更高的要求，庞大的数据量往往需要耗费大量的人力和物力，且人工标注数据的质量不可控，常常需要对标注信息进行返修，数据标注的成本也因此提高。

本申请所述数据预标注方法基于神经网络算法对输入的数据进行预测，人工只需对标注信息进行微调，甚至是不需要调整标注信息，减小了人力的投入，降低了人工成本。

在S41的具体实施中：获取待标注的数据；

具体地，可建立了数据存储库，用于存储待标注数据。所述待标注数据既由客户提供的需处理的原始数据，本申请可接收的原始数据为图像数据、点云数据、音频数据、文本数据等。

本申请接收这些数据后将数据存储在待标注数据存储库中，方便预标注算法调取数据进行预标注。

在S42的具体实施中，将所述待标注的数据输入到上述方法构建的预标注模型中进行预标注。

具体地，本申请所述预标注方法调取S41中所述数据存储库中的待标注数据。根据待标注数据的类型，通过上述的S11-S16的方法们可以得到对应数据类型的预标注模型，包括但不限于：2D/3D目标检测模型、2D/3D语义分割模型、车道线检测模型、文本识别模型、音频识别模型、关键点识别模型。还可以通过构建模型池，用于存储以上所述模型。

本申请所述模型池能够存储上述预标注模型，同时也能根据需求和业务扩展增加新的预标注模型。

与前述的预标注模型的构建方法的实施例相对应，本申请还提供了预标注模型的构建装置的实施例。

图5是根据一示例性实施例示出的一种预标注模型的构建装置框图。参照图5，该装置包括：

构建模块51，用于通过深度学习算法构建预标注初始模型；

第一预标注模块52，用于将未标注的数据集输入所述预标注初始模型中，得到标注数据集；

筛选模块53，用于从所述标注数据集筛选出标注不准确的数据；

人工标注模块54，用于对所述标注不准确的数据进行人工标注；

训练集构建模块55，用于将人工标注后的数据加入到已标注的数据集中，构成新的训练集；

训练模块56，用于使用新的训练集对所述预标注初始化模型进行训练，得到预标注模型。

与前述的一种预标注方法的实施例相对应，本申请还提供了一种预标注装置的实施例。

图6是根据一示例性实施例示出一种预标注装置框图。参照图6，该装置包括：

获取模块61，用于获取待标注的数据；

第二预标注模块62，用于将所述待标注的数据输入到权利要求1所述方法构建的预标注模型中进行预标注。

由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的一种预标注模型的构建方法或一种预标注方法。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的一种预标注模型的构建方法或一种预标注方法。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种预标注模型的构建方法，其特征在于，所述方法包括：

通过深度学习算法构建预标注初始模型；

从所述标注数据集筛选出标注不准确的数据；

对所述标注不准确的数据进行人工标注；

2.根据权利要求1所述的方法，其特征在于，通过深度学习算法构建预标注初始模型，包括：

针对不同的标注任务构建不同的特征处理算法；

在第一轮训练中主干网络得到权重参数；

3.根据权利要求1所述的方法，其特征在于，从所述标注数据集筛选出标注不准确的数据，包括：

筛选标注价值大于预定值的数据记为不准确数据。

4.根据权利要求3所述从标注数据集筛选出标注不准确的数据，其特征在于，所述不确定性度量策略，包括：

计算标注数据集中的数据的最小置信度；

通过最小置信度计算标注数据集中的数据的标注价值。

5.根据权利要求1所述的方法，其特征在于，对所述标注不准确的数据进行人工标注，包括：

6.根据权利要求2所述的方法，其特征在于，使用新的训练集对所述预标注初始模型重新进行训练，得到新的预标注模型，包括：

使用预标注初始模型的权重参数作为再次训练的初始参数；

冻结主干网络中部分神经网络层；

在每一轮训练中更新主干网络中未冻结层的参数；

7.一种预标注方法，其特征在于，包括：

获取待标注的数据；

将所述待标注的数据输入到权利要求1所述方法构建的预标注模型中进行预标注。

8.一种预标注模型的构建装置，其特征在于，包括：

构建模块，用于通过深度学习算法构建预标注初始模型；

9.一种预标注装置，其特征在于，包括：

获取模块，用于获取待标注的数据；

第二预标注模块，用于将所述待标注的数据输入到权利要求1所述方法构建的预标注模型中进行预标注。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。