CN113221991A

CN113221991A - 一种利用深度学习重新标注数据集的方法

Info

Publication number: CN113221991A
Application number: CN202110486297.7A
Authority: CN
Inventors: 杨航; 杨淑爱; 黄坤山
Original assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Current assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-06

Abstract

本发明公开一种利用深度学习重新标注数据集的方法，包括获取多标签训练数据集，所述多标签训练数据集的包含类别与目标数据集相同；搭建分类模型，并将所述分类模型在所述多标签训练数据集上进行训练；对目标数据集进行随机裁剪图像增强，并将训练好的分类模型用于目标数据集，得到多标签标注数据集三个步骤，本发明修改原始分类器模型，在数据集上得到像素级标签。相比于知识蒸馏方法，当使用随机裁剪策略时，知识蒸馏每次都要重新计算得到一个新的特征映射，而本方法对每一张图都对应一个像素级的标签映射，裁剪后的图像只需根据这个标签映射做相应的调整即可得到标签信息，省时省力，效果显著。

Description

一种利用深度学习重新标注数据集的方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种利用深度学习重新标注数据集的方法。

背景技术

随着人工智能的兴起,深度学习、增强学习、机器学习等人工智能领域对数据标注的需求度越来越高,数据标注的重要性也不断凸显。但是其在发展过程中也面临着一些问题和挑战：

在早期标注规范还不够严谨的情况下，许多单标签的数据集经常出现图像中存在多个类别却只有一个类别被标注的现象，这些标签噪音会不可避免的对训练过程产生干扰，分类器或者检测器对图像前景背景的区分会变得模糊，从而使得模型的准确性下降。如果使用人工重新标注的话耗时耗力，成本高昂，所以自动且低成本的重新标注数据集方法就十分必要。

发明内容

针对上述问题，本发明提出一种利用深度学习重新标注数据集的方法，主要解决背景技术中的问题。

本发明提出一种利用深度学习重新标注数据集的方法，包括以下步骤：

S1、获取多标签训练数据集，所述多标签训练数据集的包含类别与目标数据集相同；

S2、搭建分类模型，并将所述分类模型在所述多标签训练数据集上进行训练；

S3、对目标数据集进行随机裁剪图像增强，并将训练好的分类模型用于目标数据集，得到多标签标注数据集。

2.根据权利要求1所述的一种利用深度学习重新标注数据集的方法，其特征在于，所述分类模型网络采用残差网络，所述分类模型根据数据处理先后顺序包括一个7*7的卷积层、一个最大池化层、四个残差块网络、一个1*1的卷积层。

3.根据权利要求2所述的一种利用深度学习重新标注数据集的方法，其特征在于，所述分类模型的网络输出f(x)为L∈R^H×W×C，H为lable map的高度，W为label map的宽度，C代表要分类的类别数量，即输出C张H×W大小的标签映射图。

4.根据权利要求1所述的一种利用深度学习重新标注数据集的方法，其特征在于，所述步骤S3具体包括：

S31、对目标数据集进行随机裁剪图像增强：随机选取图像中的几块区域，并放缩到原图像大小尺寸；

S32、将训练好的分类模型用于目标数据集，得到目标数据集中每张图像对应的多标签信息。然后对裁剪后的图像进行特征提取，根据裁剪的区域在原图像中的位置对应到label map上，得到1×1×C大小的矩阵，最后使用softmax操作进行分类：

其中V_i是分类器输出单元的输出，也就是池化后矩阵中的各个元素，i表示是第i类，C为总类别数，输出S_i表示图像属于第i类的概率，越大表示图像包含i目标的可能性越大，把池化后的矩阵元素归一化到[0,1]区间，得到一个1×1×C概率向量，且向量所有元素之和等于1，设定一个阈值t，取向量中的元素S_j，当S_j大于阈值t时，则认为图像包含j类目标，并为图像打上j类的标签，若一张图像打上多种类别的标签，且没有任何元素超过阈值，则认为是前景不含任何类别，对目标数据集中的每幅图像都进行如上操作得到多标签标注数据集。

与现有技术相比，本发明的有益效果为：

本发明修改原始分类器模型，在数据集上得到像素级标签。相比于知识蒸馏方法，当使用随机裁剪策略时，知识蒸馏每次都要重新计算得到一个新的特征映射，而本方法对每一张图都对应一个像素级的标签映射，裁剪后的图像只需根据这个标签映射做相应的调整即可得到标签信息，省时省力，效果显著。

附图说明

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

图1为本发明一实施方式的原始分类模型结构示意图；

图2为本发明一实施方式的修改后的分类模型结构示意图；

图3为本发明一实施方式的裁剪图像标签池化示意图。

具体实施方式

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以是通过中间媒介间接连接，可以说两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明的具体含义。下面结合附图和实施例对本发明的技术方案做进一步的说明。

参照图1、图2和图3，一种利用深度学习重新标注数据集的方法，包括以下步骤：

步骤1：获取与目标数据集包含类别相近的多标签数据集；

步骤2：搭建分类器模型，在步骤1得到的数据集上训练；

优选的，在步骤2中采用分类器模型而不是检测器模型来获得标签，因为交叉熵损失函数的特性，即使是在但标签数据集上训练，训练的模型也会倾向于预测多标签输出，此外，我们去掉分类器的全局平均池化层，将后面的全连接层变成1x1的卷积层，从而将分类器变成一个全卷积网络，模型输出一个label map来提取像素级别的标签信息。分类器网络采用残差网络(ResNet)，如图1所示。输入图像后，先经过一个7x7的卷积层，输出64张分辨率为原图二分之一大小的特征图，经过一个最大池化层后再缩小二分之一，维度不变。之后进入4个残差块网络，经过每个残差块后的输出特征图分辨率变为原来的二分之一，维度加倍。最后在原网络结构基础上去掉了全局平均池化层，将后面的全连接层变成1x1的卷积层，从而将分类器变成一个全卷积网络，如图2所示。修改后的网络输出f(x)变为L∈R^H×W×C，H为lable map的高度，W为label map的宽度，C代表要分类的类别数量，即输出C张H×W大小的标签映射图，每张图包含图像在某一类别的像素级别的标注信息。

优选的，在步骤3中考虑到有时数据增强会用到随机裁剪测量。所以在训练前先对数据集进行随机裁剪数据增强，在模型中考虑到局部的多标签，使对每个裁剪块的监督训练更加合理。步骤3：对目标数据集进行随机裁剪图像增强，将训练好的模型用于目标数据集上，得到数据集的多标签标注；

步骤3-1对目标数据集进行随机裁剪图像增强：随机选取图像中的几块区域，并放缩到原图像大小尺寸；

步骤3-2使用步骤2训练好的模型用于目标数据集，得到数据集中每张图像对应的多标签信息L。然后对裁剪后的图像进行特征提取，根据裁剪的区域在原图像中的位置对应到label map上，如图3所示。使用全局池化，池化的窗口就是特征图的大小，简化计算，免去附加的池化操作，得到1×1×C大小的矩阵，最后使用softmax操作进行分类：

其中V_i是分类器输出单元的输出，也就是池化后矩阵中的各个元素，i表示是第i类，C为总类别数，输出S_i表示图像属于第i类的概率，越大表示图像包含i目标的可能性越大，把池化后的矩阵元素归一化到[0,1]区间，得到一个1×1×C概率向量，且向量所有元素之和等于1。设定一个阈值t，取向量中的元素S_j，当S_j大于阈值t时，则认为图像包含j类目标，并为图像打上j类的标签，一张图像可能会打上多种类别的标签，若是没有元素超过阈值，则认为是前景不含任何类别。对数据集中的每幅图像都进行如上操作，就将原本的单标签数据集转变为了多标签数据集。

图中，描述位置关系仅用于示例性说明，不能理解为对本专利的限制；显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种利用深度学习重新标注数据集的方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种利用深度学习重新标注数据集的方法，其特征在于，所述分类模型的网络输出f(x)为L∈R^H×W×C，为lable map的高度，为label map的宽度，代表要分类的类别数量，即输出C张H×W大小的标签映射图。

S32、将训练好的分类模型用于目标数据集，得到目标数据集中每张图像对应的多标签信息。然后对裁剪后的图像进行特征提取，根据裁剪的区域在原图像中的位置对应到labelmap上，得到1×1×C大小的矩阵，最后使用softmax操作进行分类：