CN110533074A

CN110533074A - 一种基于双深度神经网络的图片类别自动标注方法及系统

Info

Publication number: CN110533074A
Application number: CN201910694450.8A
Authority: CN
Inventors: 彭德智; 唐珩膑; 舒琳; 邢晓芬; 巫朝政; 张国雄; 王岽然
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-12-03
Anticipated expiration: 2039-07-30
Also published as: CN110533074B

Abstract

本发明公开了一种基于双深度神经网络的图片类别自动标注方法及系统，所述方法包括：S1、准备已经标注完成的图片及需要进行自动标注的未标注图片，将已经标注完成的图片分为分别用于训练分类网络和判别网络的两部分图片；S2、搭建包含分类网络和判别网络的双深度神经网络模型；S3、使用已经标注完成的图片训练双深度神经网络模型；S4、使用已训练的双深度神经网络模型对未标注图片的类别进行预测；S5、对未标注图片的预测结果进行处理并选择开启下一次迭代或者结束自动标注。本发明基于双深度神经网络模型，通过判别模型对分类模型的输出进一步优化，实现了低成本、高质量的数据标注，具有广阔的应用前景。

Description

一种基于双深度神经网络的图片类别自动标注方法及系统

技术领域

本发明涉及图像处理和深度学习领域，具体涉及一种基于双深度神经网络的图片类别自动标注方法及系统。

背景技术

近年来，随着深度学习技术的迅速发展，深度神经网络模型被用于日常生活中的方方面面，比如车站的人脸识别、手机相机中的图像美化等。随着深度神经网络模型深度的日益增加，需要越来越多的数据对模型进行训练。但是人工数据标注的成本较高，一般的科研工作者和规模较小的公司难以承担，同时受限于标注者的能力和态度，人工标注的质量层次不齐。以上这些因素导致深度神经网络模型的实际应用成本增加，效果降低。与此同时，随着互联网的飞速发展，从互联网上可以较容易地获得大量的未标注数据。因此，一种基于部分已标注数据来自动标注未标注数据的方法及系统显得尤为重要。

较常见的分类数据自动标注方法通常是基于自训练的方法，首先根据有标注的数据训练出一个分类模型，再将无标注的数据输入到模型中进行预测，之后将一部分预测的标注数据加到有标注的数据中，再进行训练。所述方法缺少对分类模型分类正确性的评估和判断，自动标注的效果受限于分类模型的分类准确率。

发明内容

本发明的目的是针对现有技术的不足，提供了一种基于双深度神经网络的图片类别自动标注方法，所述方法将有标注的图片分为两部分，采用双深度神经网络结构，除训练出分类模型外，另外训练出一个判别模型用于预测分类模型分类的正确率，并且通过判别模型对分类模型的输出进行调整，对未标注图片进行更加准确的自动标注，弥补了人工标注数据成本高、质量层次不齐的不足。

本发明的另一目的在于提供一种基于双深度神经网络的图片类别自动标注系统。

本发明的目的可以通过如下技术方案实现：

一种基于双深度神经网络的图片类别自动标注方法，所述方法包括以下步骤：

S1、准备已经标注完成的图片及需要进行自动标注的未标注图片，将已经标注完成的图片分为分别用于训练分类网络和判别网络的两部分图片；

S2、搭建包含分类网络和判别网络的双深度神经网络模型；

S3、使用已经标注完成的图片训练双深度神经网络模型；

S4、使用已训练的双深度神经网络模型对未标注图片的类别进行预测；

S5、对未标注图片的预测结果进行处理并选择开启下一次迭代或者结束自动标注。

进一步地，步骤S1中，所述已经标注完成的图片能够从公开的已标注数据集中直接获取或者人工标注部分未标注数据，所述需要进行自动标注的未标注图片D_u能够从网络上爬取或者从实际场景中采集，然后将已经标注完成的图片分为两部分，一部分图片D_c用于训练双深度神经网络模型中的分类网络，一部分图片D_j用于训练双深度神经网络模型中的判别网络。

进一步地，所述步骤S2具体包括以下步骤：

S2-1、数据预处理：读取图片得到一个3×H×W的矩阵，其中3为图片的通道数，图片为RGB三通道的彩色图片；H为图片的高的像素数量；W为图片的宽的像素数量；将输入的图片大小进行统一调整，并读取图片得到图片矩阵后，对图片矩阵进行归一化操作；

S2-2、搭建分类网络：分类网络用于对输入的图片进行分类，分类网络的输入为归一化后的图片矩阵i_3×H×W，输出为一个长度为C的向量O_c，C为分类类别的数量：

O_c＝[o₁,o₂,…,o_C]

对向量O_c进行Softmax操作得到分类概率向量P_c，分类概率向量P_c中所有元素的数值总和为1，第i个元素即为对应的第i类c_i的概率，如下式所示：

分类网络由多个卷积层、激活层ReLU、最大池化层、全连接层和Dropout层组成，分类网络分别在第二、四、八、十二、十六层卷积后通过最大池化层进行下采样，得到的特征图相对于输入图像大小的步长分别为2,4,8,16,32；

S2-3、搭建判别网络：判别网络用于对分类网络的输出结果的正确性进行判别，判别网络的输入为归一化后的图片矩阵i_3×H×W，输出为分类网络分类正确的概率p_j，p_j在[0,1]的范围内，p_j的值越大，则分类网络分类正确的概率越高；反之，p_j的值越小，则分类网络分类错误的概率越高；

判别网络由多个卷积层、激活层ReLU、最大池化层、全连接层、Dropout层和Sigmoid层组成，判别网络分别在第二、四、八、十二、十六层卷积后通过最大池化层进行下采样，得到的特征图相对于输入图像大小的步长分别为2,4,8,16,32；为了能够结合分类网络的信息来判断分类网络分类的正确性，在特征图输入到下一层之前，分别与分类网络对应的相加，如下式所示：

进一步地，所述步骤S3具体包括以下步骤：

S3-1、训练分类网络：使用用于训练分类网络的图片D_c训练分类网络，训练分类网络时，仅对分类网络的参数进行更新而不更新判别网络的参数；

分类网络的输出O_c＝[o₁,o₂,…,o_C]，标注l_c＝i为对应的类别c_i在C个类别中的索引，则对应的交叉熵损失为：

使用上式所示的交叉熵损失作为损失函数，优化方法采用随机梯度下降；

S3-2、训练判别网络：使用用于训练判别网络的图片D_j训练判别网络，对于训练图片D_j中的每一个样本(i_3×H×W,l_c)，首先输入到分类网络中，得到分类网络不同深度上提取的特征图及输出O_c，再将这个样本输入到判别网络并将分类网络中的特征图与判别网络中对应的特征图相加，训练判别网络时，仅对判别网络的参数进行更新而不更新分类网络中的参数；

分类网络预测的类别为c_i，其中：

i＝argmax(O_c)＝argmax([o₁,o₂,…,o_C])

则判别网络中该样本的标注：

判别网络的输出为分类网络分类正确的概率p_j，则二元交叉熵损失为：

Loss_BCE＝-[l_jln(p_j)+(1-l_j)ln1-p_j)]

使用上式所示的二元交叉熵损失作为损失函数，优化方法采用随机梯度下降。

进一步地，所述步骤S4具体包括以下步骤：

S4-1、分类网络对未标注图片的预测：对于未标注图片D_u的每一个样本，通过分类网络预测其类别，得到分类概率向量以及特征图

S4-2、判别网络对未标注图片的预测：对于未标注图片D_u的每一个样本，通过判别网络，结合分类网络特征图来预测分类网络分类正确的概率p_j。

进一步地，所述步骤S5具体包括以下步骤：

S5-1、调整分类置信度：对于未标注图片D_u，通过步骤S4得到对应的分类概率向量和分类网络分类正确的概率，即判别网络的分类置信度p_j，则调整后的分类置信度如下：

最终分类结果为c_i′，其中i′＝argmax(P’_c)，对应的分类置信度p′＝max(P’_c)；

S5-2、迭代地自动标注：设定最大的自动标注迭代次数，则有以下两种情况：(1)未达到最大迭代次数:对于未标注图片，如果分类置信度p′大于设定的阈值，则将对应的样本标注为预测类别c_i′，得的新标注的数据D⁺，将D⁺按照一定比例分为两份，分别添加到D_c和D_j，并且将D⁺从未标注图片D_u中删除，然后返回步骤S3-1；(2)达到最大迭代次数：对于所有未标注图片，将预测的类别c_i′作为对应图片的标注。

本发明的另一目的可以通过如下技术方案实现：

一种基于双深度神经网络的图片类别自动标注系统，所述系统包括双深度神经网络子系统、模型训练子系统、模型预测子系统和迭代标注子系统，其中，所述双深度神经网络子系统由包含分类网络和判别网络的双深度神经网络构成，分类网络用于对输入图片进行分类，判别网络用于判别分类的正确性；所述模型训练子系统通过已标注及自动标注的图片对双深度神经网络进行训练；所述模型预测子系统用于对未标注图片的类别进行预测；所述迭代标注子系统在模型预测子系统的基础上，对未标注图片进行自动标注，并将自动标注的图片用于双深度神经网络的下一轮迭代训练。

进一步地，所述系统使用Python语言，采用PyTorch框架实现，运行于ubuntu系统环境中，使用GPU加速双深度神经网络模型的训练和测试。

进一步地，所述模型训练子系统包括分类网络训练模块、判别网络训练模块、模型参数保存模块、超参数设定模块和模型训练信息记录模块；所述模型预测子系统包括分类网络预测模块、判别网络预测模块、模型参数加载模块和预测结果记录模块；所述迭代标注子系统包括概率调整模块、预测结果筛选模块、预测结果记录模块、新增标注记录模块、新增标注数据分配模块和迭代模块。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提供的一种基于双深度神经网络的图片类别自动标注方法，提出了一种双深度神经网络模型，包括分类模型和判别模型，通过判别模型对分类模型的输出进一步优化，针对人工标注数据成本高、质量参差不齐的问题，实现了低成本、高质量的数据标注。

附图说明

图1为本发明实施例基于双深度神经网络的图片类别自动标注系统的整体结构图。

图2为本发明实施例双深度神经网络的结构示意图，其中conv表示卷积层，relu表示激活层(ReLU)，max pool表示最大池化层，linear表示全连接层。

图3为本发明实施例迭代标注子系统的实施流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供了一种基于双深度神经网络的图片类别自动标注系统，所述系统整体结构如图1所示，包括双深度神经网络子系统、模型训练子系统、模型预测子系统和迭代标注子系统，其中，所述双深度神经网络子系统由包含分类网络和判别网络的双深度神经网络构成，分类网络用于对输入图片进行分类，判别网络用于判别分类的正确性；所述模型训练子系统通过已标注及自动标注的图片对双深度神经网络进行训练；所述模型预测子系统用于对未标注图片的类别进行预测；所述迭代标注子系统在模型预测子系统的基础上，对未标注图片进行自动标注，并将自动标注的图片用于双深度神经网络的下一轮迭代训练。

基于上述系统对图片类别进行自动标注，包括以下步骤：

S1、准备已经标注完成的图片及需要进行自动标注的未标注图片，将已经标注完成的图片分为分别用于训练分类网络和判别网络的两部分图片；具体地，已经标注完成的图片从公开数据集Large-scale CelebFaces Attributes(CelebA)中直接获取，CelebA包含202599张面部图片，每张面部图片有对应的40种属性标注，本实施例仅采用性别属性标注，从202599张面部图片及其性别标注中随机选取100000个样本作为已经标注完成的图片；为了便于计算自动标注的准确率，选取CelebA数据集202599张面部图片中除去随机选取的100000张图片外的102599张图片作为需要进行自动标注的未标注图片；然后将已经标注完成的图片按照1:1分为两部分，一部分图片D_c用于训练双深度神经网络模型中的分类网络，一部分图片D_j用于训练双深度神经网络模型中的判别网络；

S2、搭建包含分类网络和判别网络的双深度神经网络模型；具体步骤如下：

S2-1、数据预处理：图片以jpg的格式存储在硬盘中，读取图片得到一个3×H×W的矩阵，其中3为图片的通道数，图片为RGB三通道的彩色图片；H为图片的高的像素数量；W为图片的宽的像素数量；本实施例将输入的图片大小统一调整为256×256，即H＝256，W＝256；读取图片得到图片矩阵，图片矩阵中的值为[0,255]范围内的整数，对图片矩阵进行归一化操作，使矩阵中的数值在[0.0,1.0]范围内，即归一化前的矩阵I_3×H×w与归一化后的矩阵i_3×H×w的关系如下：

i_3×H×W＝I_3×H×W/255；

S2-2、搭建分类网络：分类网络用于对输入的图片进行分类，分类网络的输入为归一化后的图片矩阵i_3×H×W，输出为一个长度为C的向量O_c，C为分类类别的数量，本实施例中，C2，即分类男性和女性两个类别：

O_c＝[o₁,o₂,…,o_C]

如图2中所示，分类网络由多个卷积层、激活层ReLU、最大池化层、全连接层和Dropout层组成，分类网络分别在第二、四、八、十二、十六层卷积后通过最大池化层进行下采样，得到的特征图相对于输入图像大小的步长分别为2,4,8,16,32；

如图2中所示，判别网络由多个卷积层、激活层ReLU、最大池化层、全连接层、Dropout层和Sigmoid层组成，判别网络分别在第二、四、八、十二、十六层卷积后通过最大池化层进行下采样，得到的特征图相对于输入图像大小的步长分别为2,4,8,16,32；为了能够结合分类网络的信息来判断分类网络分类的正确性，在特征图输入到下一层之前，分别与分类网络对应的相加，如下式所示：

S3、使用已经标注完成的图片训练双深度神经网络模型；具体包括以下步骤：

使用上式所示的交叉熵损失作为损失函数，优化方法采用随机梯度下降(SGD)，动量(momentum)设置为0.9，权重衰减(weight decay)设置为0.0005，在第一次自动标注迭代中，训练3个epoch，每个epoch的学习率分别为0.01、0.01、0.001，在后续的自动标注迭代中，分别训练1个epoch，学习率为0.001；

分类网络预测的类别为c_i，其中：

i＝argmax(O_c)＝argmax([o₁,o₂,…,o_C])

则判别网络中该样本的标注：

Loss_BCE＝-[l_jln(p_j)+(1-l_j)ln1-p_j)]

使用上式所示的二元交叉熵损失作为损失函数，优化方法采用随机梯度下降(SGD)，动量(momentum)设置为0.9，权重衰减(weight decay)设置为0.0005，在第一次自动标注迭代中，训练3个epoch，每个epoch的学习率分别为0.01、0.01、0.001，在后续的自动标注迭代中，分别训练1个epoch，学习率为0.001；

S4、如图3所示，在迭代标注子系统中，使用已训练的双深度神经网络模型对未标注图片的类别进行预测；具体包括以下步骤：

S4-2、判别网络对未标注图片的预测：对于未标注图片D_u的每一个样本，通过判别网络，结合分类网络特征图来预测分类网络分类正确的概率p_j；

S5、对未标注图片的预测结果进行处理并选择开启下一次迭代或者结束自动标注，具体包括以下步骤：

S5-2、迭代地自动标注：设定最大的自动标注迭代次数为30次，则有以下两种情况：(1)未达到最大迭代次数:对于未标注图片，如果分类置信度p′大于设定的阈值(本实施例中，该阈值设定为0.99)，则将对应的样本标注为预测类别c_i′，得的新标注的数据D⁺，将D⁺按照1:1分为两份，分别添加到D_c和D_j，并且将D⁺从未标注图片D_u中删除，然后返回步骤S3-1；(2)达到最大迭代次数：对于所有未标注图片，将预测的类别c_i′作为对应图片的标注。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于双深度神经网络的图片类别自动标注方法，其特征在于，所述方法包括以下步骤：

S2、搭建包含分类网络和判别网络的双深度神经网络模型；

S3、使用已经标注完成的图片训练双深度神经网络模型；

2.根据权利要求1所述的一种基于双深度神经网络的图片类别自动标注方法，其特征在于：步骤S1中，所述已经标注完成的图片能够从公开的已标注数据集中直接获取或者人工标注部分未标注数据，所述需要进行自动标注的未标注图片D_u能够从网络上爬取或者从实际场景中采集，然后将已经标注完成的图片分为两部分，一部分图片D_c用于训练双深度神经网络模型中的分类网络，一部分图片D_j用于训练双深度神经网络模型中的判别网络。

3.根据权利要求2所述的一种基于双深度神经网络的图片类别自动标注方法，其特征在于，所述步骤S2具体包括以下步骤：

O_c＝[o₁，o₂，...，o_C]

分类网络由多个卷积层、激活层ReLU、最大池化层、全连接层和Dropout层组成，分类网络分别在第二、四、八、十二、十六层卷积后通过最大池化层进行下采样，得到的特征图相对于输入图像大小的步长分别为2，4，8，16，32；

S2-3、搭建判别网络：判别网络用于对分类网络的输出结果的正确性进行判别，判别网络的输入为归一化后的图片矩阵i_3×H×W，输出为分类网络分类正确的概率p_j，p_j在[0，1]的范围内，p_j的值越大，则分类网络分类正确的概率越高；反之，p_j的值越小，则分类网络分类错误的概率越高；

判别网络由多个卷积层、激活层ReLU、最大池化层、全连接层、Dropout层和Sigmoid层组成，判别网络分别在第二、四、八、十二、十六层卷积后通过最大池化层进行下采样，得到的特征图相对于输入图像大小的步长分别为2，4，8，16，32；为了能够结合分类网络的信息来判断分类网络分类的正确性，在特征图输入到下一层之前，分别与分类网络对应的相加，如下式所示：

4.根据权利要求3所述的一种基于双深度神经网络的图片类别自动标注方法，其特征在于，所述步骤S3具体包括以下步骤：

分类网络的输出O_c＝[o₁，o₂，...，o_C]，标注l_c＝i为对应的类别c_i在C个类别中的索引，则对应的交叉熵损失为：

S3-2、训练判别网络：使用用于训练判别网络的图片D_j训练判别网络，对于训练图片D_j中的每一个样本(i_3×H×W，l_c)，首先输入到分类网络中，得到分类网络不同深度上提取的特征图及输出O_c，再将这个样本输入到判别网络并将分类网络中的特征图与判别网络中对应的特征图相加，训练判别网络时，仅对判别网络的参数进行更新而不更新分类网络中的参数；

分类网络预测的类别为c_i，其中：

i＝argmax(O_c)＝argmax([o₁，o₂，...，o_C])

则判别网络中该样本的标注：

Loss_BCE＝-[l_jln(p_j)+(1-l_j)ln(1-p_j)]

5.根据权利要求4所述的一种基于双深度神经网络的图片类别自动标注方法，其特征在于，所述步骤S4具体包括以下步骤：

6.根据权利要求5所述的一种基于双深度神经网络的图片类别自动标注方法，其特征在于，所述步骤S5具体包括以下步骤：

S5-2、迭代地自动标注：设定最大的自动标注迭代次数，则有以下两种情况：(1)未达到最大迭代次数：对于未标注图片，如果分类置信度p′大于设定的阈值，则将对应的样本标注为预测类别c_i′，得的新标注的数据D⁺，将D⁺按照一定比例分为两份，分别添加到D_c和D_j，并且将D⁺从未标注图片D_u中删除，然后返回步骤S3-1；(2)达到最大迭代次数：对于所有未标注图片，将预测的类别c_i′作为对应图片的标注。

7.实现权利要求1～6任一所述图片类别自动标注方法的基于双深度神经网络的图片类别自动标注系统，其特征在于：所述系统包括双深度神经网络子系统、模型训练子系统、模型预测子系统和迭代标注子系统，其中，所述双深度神经网络子系统由包含分类网络和判别网络的双深度神经网络构成，分类网络用于对输入图片进行分类，判别网络用于判别分类的正确性；所述模型训练子系统通过已标注及自动标注的图片对双深度神经网络进行训练；所述模型预测子系统用于对未标注图片的类别进行预测；所述迭代标注子系统在模型预测子系统的基础上，对未标注图片进行自动标注，并将自动标注的图片用于双深度神经网络的下一轮迭代训练。

8.根据权利要求7所述的基于双深度神经网络的图片类别自动标注系统，其特征在于：所述系统使用Python语言，采用PyTorch框架实现，运行于ubuntu系统环境中，使用GPU加速双深度神经网络模型的训练和测试。

9.根据权利要求7所述的基于双深度神经网络的图片类别自动标注系统，其特征在于：所述模型训练子系统包括分类网络训练模块、判别网络训练模块、模型参数保存模块、超参数设定模块和模型训练信息记录模块；所述模型预测子系统包括分类网络预测模块、判别网络预测模块、模型参数加载模块和预测结果记录模块；所述迭代标注子系统包括概率调整模块、预测结果筛选模块、预测结果记录模块、新增标注记录模块、新增标注数据分配模块和迭代模块。