CN113592007A

CN113592007A - 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质

Info

Publication number: CN113592007A
Application number: CN202110896069.7A
Authority: CN
Inventors: 孙广路; 夏劲松; 梁丽丽; 李天麟; 朱素霞
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-02
Anticipated expiration: 2041-08-05
Also published as: CN113592007B

Abstract

一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质，属于图片检测技术领域。本发明包括首先利用图片数据增强方式对训练数据集进行数据增强，然后利用数据增强后的图片数据集训练基于图片全局特征进行识别的教师神经网络T₁，利用数据增强后的图片数据集训练基于图片语义特征进行识别的教师神经网络T₂，然后利用教师神经网络T₁、T₂，结合类别预测损失函数，特征注意力蒸馏损失函数，语义蒸馏损失函数训练学生神经网络，最后将待预测的图片输入到已训练完毕的学生神经网络中进行不良图片识别。本发明在不良图片识别问题中相比于传统方法准确率更高，识别速度更快。

Description

一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质

技术领域

本发明涉及一种不良图片识别方法，尤其涉及一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质，属于图片检测技术领域。

背景技术

不良图片通过一些非法途径在网络上传播，这严重的危害到青少年的身心健康，污染了良好的网络环境。

现有的不良图片识别技术包括利用图片中皮肤，背景的色彩直方图信息，或者图片中人体的特殊部位信息，或者利用卷积神经网络进行特征提取和色情图片分类。但是利用图片中皮肤和背景的色彩直方图方法对于背景信息过于敏感，利用人体的特殊部位信息方法会忽略掉过小的人体私密部位，利用卷积神经网络的方法识别时间过长，无法满足一些不良图片识别系统实时响应的需求。

发明内容

本发明为了克服不良图片识别中现有技术对于图片背景信息过于敏感，对于相比于背景信息过小的人体私密部位无法准确的进行识别，以及不良图片识别速度过慢问题，在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。

本发明提供了一种基于知识蒸馏的不良图片识别系统，包括，图片数据增强模块、图片特征提取模块、图片语义特征提取模块、图片类别预测模块、特征注意力映射模块、知识蒸馏模块；

所述图片数据增强模块用于将图片转化为张量表示，通过调整图片的亮度，对比度，饱和度，对图片进行均值滤波，方框滤波，高斯滤波，中值滤波，双边滤波，随机灰度化，随机的将图片旋转某一角度，随机的将图片进行垂直翻转或水平翻转对图片进行数据增强；

所述图片特征提取模块利用在ImageNet上经过预训练的深度残差网络ResNet50对图片进行特征提取，获取图片特征；

所述图片语义特征提取模块利用多头自注意力编码器获取图片的语义特征表示；

所述图片类别预测模块用于根据图片的特征对图片进行类别预测；

所述特征注意力映射模块用于从深度残差网络最后残差模块输出的特征图中获取特征注意力映射；

所述知识蒸馏模块用于对教师神经网络进行知识迁移以及模型压缩，利用压缩之后的模型进行不良图片识别。。

一种基于知识蒸馏的不良图片识别方法，包括以下步骤：

S1.利用图片数据增强方式对图片训练数据集进行数据增强；

S2.利用数据增强后的图片训练数据集训练基于图片全局特征进行识别的教师神经网络T₁；

S3.利用数据增强后的图片训练数据集训练基于图片语义特征进行识别的教师神经网络T₂；

S4.利用教师神经网络T₁、T₂，结合类别预测损失函数，特征注意力蒸馏损失函数，语义蒸馏损失函数训练学生神经网络；

S5.将待预测的图片输入到已训练完毕的学生神经网络中进行不良图片识别；

优选的，步骤S1所述利用图片数据增强方式对图片训练数据集进行数据增强，其中图片数据增强方式包括将图片以张量的形式表示，调整图片的亮度，对比度，饱和度，对图片进行均值滤波，方框滤波，高斯滤波，中值滤波，双边滤波，随机灰度化，随机的将图片旋转某一角度，随机的将图片进行垂直翻转或水平翻转。

优选的，步骤S2所述利用数据增强后的图片训练数据集训练基于图片全局特征进行识别的教师神经网络T₁，T₁为在ImageNet数据集上经过预训练的深度残差网络ResNet50，训练过程包括以下步骤：

1)取经过步骤S1数据增强后的数据集中大小为64的batch，将batch中图片张量的维度调整为3×224×224；

2)逐一将batch中的图片张量输入到教师神经网络T₁中，利用T₁残差模块中的卷积层对图片张量进行特征提取；

3)将T₁最后残差模块输出的7×7×2048维度的特征图输入到平均池化层进行池化，得到1×1×2048维度的特征图；

4)将1×1×2048维度的特征图输入到全连接层进行不同特征之间的组合；

5)利用SoftMax层预测图片所属类别：

其中，p_i为当前图片属于第i个类别的概率，共有6个类别，z_i为SoftMax层的第i个输入；

6)计算T₁对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失：

其中y为当前图片的真实类别，

是T₁对于当前图片的预测类别；

7)利用反向传播算法，随机梯度下降优化算法更新T₁中的参数；

8)重复步骤1)至步骤7)，直到T₁中的参数收敛。

优选的，步骤S3所述利用数据增强后的图片训练数据集训练基于图片语义特征进行识别的教师神经网络T₂，其中教师神经网络T₂由在ImageNet数据集上经过预训练的ResNet50,以及序列嵌入层，多头自注意力编码层，全连接层，SoftMax层组成，训练过程包括以下步骤：

2)将图片张量输入到教师神经网络T₂中进行特征提取，将提取到的7×7×2048维度的特征图输入到教师神经网络T₂的序列嵌入层中，得到49×2048维度的序列嵌入矩阵；

3)将序列嵌入矩阵输入到多头自注意力编码层中，对图片进行语义的提取和编码，得到图片语义编码向量；

4)将图片语义编码向量输入到全连接层中，得到不同语义的组合；

5)利用SoftMax层预测图片所属类别：

6)计算T₂对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失：

其中y为当前图片的真实类别，

是T₂对于当前图片的预测类别；

7)利用反向传播算法，随机梯度下降优化算法更新T₂中的参数；

8)重复步骤1)至步骤7)，直到T₂中的参数收敛。

优选的，步骤S3.3)中对图片进行语义的提取和编码计算过程如下：

1)计算自注意映射矩阵：

其中，

为序列嵌入矩阵，

为自注意可学习参数矩阵，

为查询矩阵，键矩阵，值矩阵；

2)将查询矩阵，键矩阵，值矩阵分别映射到10个特征空间中，其中映射到第i个特征空间中的矩阵计算公式为：

其中，

分别是查询矩阵，键矩阵，值矩阵在第i个特征空间中的可学习投影矩阵；

3)在第i个特征空间中计算注意力函数：

其中，q_j为Q_i的第j个行向量，k_n为K_i的第n个行向量，v_n为V_i的第n个行向量，s(k_n,q_j)为打分函数，计算如下：

其中，

为k_n的转置向量；

4)计算在第i个特征空间中图片的语义表示矩阵：

其中

代表向量按列拼接；

5)计算图片的语义表示矩阵：

其中

代表矩阵堆叠。

优选的，步骤S4所述利用教师神经网络T₁、T₂，结合类别预测损失函数，特征注意力蒸馏损失函数，语义蒸馏损失函数训练学生神经网络，其中学生神经网络为在ImageNet数据集上经过预训练的深度残差网络ResNet18，训练过程包括如下步骤：

2)将图片张量逐一输入到教师神经网络T₁中，计算教师神经网络T₁对于图片的特征注意力映射：

其中，A为教师神经网络T₁最后一个残差模块输出的特征图，C为特征图的通道数，

为教师神经网络T₁的特征注意力映射结果；

3)将图片张量逐一输入到学生神经网络，计算学生神经网络对于图片的特征注意力映射：

其中，A为学生神经网络最后一个残差模块输出的特征图，C为特征图的通道数，K^S为学生神经网络的特征注意力映射结果；

4)计算特征注意力蒸馏损失：

式中，λ是特征注意力蒸馏损失平衡因子，

为K^S的第j个列向量，

为

的第j个列向量，||·||₂表示欧式距离；

5)计算语义蒸馏损失：

其中，

分别为学生神经网络和教师神经网络T₂全连接层的第i个输出，T为蒸馏温度；

6)将图片张量输入到学生神经网络中，计算类别预测损失：

其中y为当前图片的真实类别，

是学生神经网络对于当前图片的预测类别；

7)计算学生神经网络的损失函数：

L_student＝L_g+α·L_fea+β·L_sem

其中，α,β为蒸馏损失平衡因子；

8)利用反向传播算法，随机梯度下降优化算法更新学生神经网络中的参数；

9)重复步骤1)至步骤8)，直到学生神经网络中的参数收敛。

本发明具有以下有益效果：

本发明相比于一般的不良图片识别方法，本发明利用知识蒸馏方法，使学生神经网络可以同时利用不良图片的全局特征及语义特征进行识别。在大幅提高准确率的同时，模型体积相比于传统的不良图片识别模型更小。本发明在不良图片识别问题中相比于传统的方法准确率更高，识别速度更快。

本发明利用知识蒸馏方法可以很好的弥补现有不良图片识别中基于卷积神经网络的方法、人体的特殊部位信息方法等的不足，知识蒸馏是一种在不影响神经网络准确度的前提下，对神经网络进行体积压缩的方法。经过知识蒸馏重新得到的神经网络相比于压缩前的神经网络体积更小，从而进行相应任务时速度更快。本方法将利用知识蒸馏对两个不良图片识别教师神经网络进行融合和压缩，使得重新得到的学生神经网络可以同时具备教师神经网络的功能，但是体积更小，使得在提升不良图片识别准确度的同时，也能大大的提高识别的速度，可以更好地满足一些不良图片识别系统对于实时响应的需求。

附图说明

图1是本发明所用的利用图片全局特征进行识别的教师神经网络T₁的整体示意图；

图2是本发明所用的利用图片语义特征进行识别的教师神经网络T₂的整体示意图；

图3是本发明所用的学生神经网络的整体示意图；

图4是本发明所述的系统结构示意图；

图5是本发明所述的方法流程示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

具体实施方式一：

图1是本发明所用的利用图片全局特征进行识别的教师神经网络T₁的整体示意图。

如图1所示，本发明采用带有残差模块的神经网络进行不良图片的全局特征识别，并将这个网络命名为全局特征教师神经网络，记为T₁，全局特征教师神经网络的训练包含如下步骤：

5)利用SoftMax层预测图片所属类别：

其中y为当前图片的真实类别，

是T₁对于当前图片的预测类别；

8)重复步骤1)至步骤7)，直到T₁中的参数收敛。

图2是本发明所用的利用图片语义特征进行识别的教师神经网络T₂的整体示意图。

如图2所示，本发明采用带有多头自注意力编码层的神经网络进行不良图片的语义特征识别，并将这个网络命名为语义特征教师神经网络，记为T₂，训练过程包含如下步骤：

5)利用SoftMax层预测图片所属类别：

其中y为当前图片的真实类别，

是T₂对于当前图片的预测类别；

8)重复步骤1)至步骤7)，直到T₂中的参数收敛。

图3是本发明所用的学生神经网络的整体示意图。

如图3所示，本发明采用在ImageNet上经过预训练的深度残差网络ResNet18进行知识蒸馏，并将这个网络命名为学生神经网络，对于学生神经网络的训练包含如下步骤：

为教师神经网络T₁的特征注意力映射结果；

4)计算特征注意力蒸馏损失：

式中，λ是特征注意力蒸馏损失平衡因子，

为K^S的第j个列向量，

为

的第j个列向量，||·||₂表示欧式距离；

5)计算语义蒸馏损失：

其中，

6)将图片张量输入到学生神经网络中，计算类别预测损失：

其中y为当前图片的真实类别，

是学生神经网络对于当前图片的预测类别；

7)计算学生神经网络的损失函数：

L_student＝L_g+α·L_fea+β·L_sem

其中，α,β为蒸馏损失平衡因子；

9)重复步骤1)至步骤8)，直到学生神经网络中的参数收敛。

具体实施方式二：

下面将具体实施方式一的方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

本发明在自己构建的数据集上面进行了实验验证，数据集包含60000张图片。其中包含50000张不良图片，10000张正常图片。为了客观地评价本发明算法的性能，本发明在所选出的测试集中，使用了识别准确率，神经网络模型体积大小，不良图片识别速度(张/毫秒)评价指标对本发明的效果进行评价，并且与基于色彩直方图不良图片识别方法，基于ResNet101神经网络不良图片识别方法，基于卷积神经网络+目标检测不良图片识别方法在所述的数据集上做了对比实验，所得实验结果如表1所示：

表1

方法名称	识别准确率(％)	模型体积大小(MB)	识别速度(n/ms)
				色彩直方图	54.3	_	<＝60
ResNet101	86.5	170	<＝85
				VGG32+FPN	92.4	261	<＝72
本发明	99.4	44.6	<＝55

本实施方式只是对本专利的示例性说明，并不限定它的保护范围，本领域技术人员还可以对其局部进行改变，只要没有超出本专利的精神实质，都在本专利的保护范围内。

Claims

1.一种基于知识蒸馏的不良图片识别系统，其特征在于，包括，图片数据增强模块、图片特征提取模块、图片语义特征提取模块、图片类别预测模块、特征注意力映射模块、知识蒸馏模块；

所述知识蒸馏模块用于对教师神经网络进行知识迁移以及模型压缩。

2.一种基于知识蒸馏的不良图片识别方法，其特征在于，包括以下步骤：

S1.利用图片数据增强方式对图片训练数据集进行数据增强；

S4.利用教师神经网络T₁、T₂，结合类别预测损失函数，特征注意力蒸馏损失函数和语义蒸馏损失函数训练学生神经网络；

S5.将待预测的图片输入到已训练完毕的学生神经网络中进行不良图片识别。

3.根据权利要求2所述的一种基于知识蒸馏的不良图片识别方法，其特征在于：步骤S1所述利用图片数据增强方式对图片训练数据集进行数据增强，其中图片数据增强方式包括将图片以张量的形式表示，调整图片的亮度，对比度，饱和度，对图片进行均值滤波，方框滤波，高斯滤波，中值滤波，双边滤波，随机灰度化，随机的将图片旋转某一角度，随机的将图片进行垂直翻转或水平翻转。

4.根据权利要求2所述的一种基于知识蒸馏的不良图片识别方法，其特征在于：步骤S2所述利用数据增强后的图片训练数据集训练基于图片全局特征进行识别的教师神经网络T₁，其中T₁为在ImageNet数据集上经过预训练的深度残差网络ResNet50，训练过程包括以下步骤：

S21.取所述步骤S1数据增强后的数据集中大小为64的batch，将batch中图片张量的维度调整为3×224×224；

S22.逐一将batch中的图片张量输入到教师神经网络T₁中，利用T₁残差模块中的卷积层对图片张量进行特征提取；

S23.将T₁最后残差模块输出的7×7×2048维度的特征图输入到平均池化层进行池化，得到1×1×2048维度的特征图；

S24.将1×1×2048维度的特征图输入到全连接层进行不同特征之间的组合；

S25.利用SoftMax层预测图片所属类别：

S26.计算T₁对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失：

其中，y为当前图片的真实类别，

是T₁对于当前图片的预测类别；

S27.利用反向传播算法，随机梯度下降优化算法更新T₁中的参数；

S28.重复步骤S21至步骤S27，直到T₁中的目标函数收敛。

5.根据权利要求2所述的一种基于知识蒸馏的不良图片识别方法，其特征在于：步骤S3所述利用数据增强后的图片训练数据集训练基于图片语义特征进行识别的教师神经网络T₂，其中教师神经网络T₂由在ImageNet数据集上经过预训练的ResNet50，以及序列嵌入层，多头自注意力编码层，全连接层，SoftMax层组成，训练过程包括以下步骤：

S31.取经过步骤S1数据增强后的数据集中大小为64的batch，将batch中图片张量的维度调整为3×224×224；

S32.将图片张量输入到教师神经网络T₂中进行特征提取，将提取到的7×7×2048维度的特征图输入到教师神经网络T₂的序列嵌入层中，得到49×2048维度的序列嵌入矩阵；

S33.将序列嵌入矩阵输入到多头自注意力编码层中，对图片进行语义的提取和编码，得到图片语义编码向量；

S34.将图片语义编码向量输入到全连接层中，得到不同语义的组合；

S35.利用SoftMax层预测图片所属类别：

S36.计算T₂对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失：

其中y为当前图片的真实类别，

是T₂对于当前图片的预测类别；

S37.利用反向传播算法，随机梯度下降优化算法更新T₂中的参数；

S38.重复步骤S31至步骤S37，直到T₂中的参数收敛。

6.根据权利要求5所述的一种基于知识蒸馏的不良图片识别方法，其特征在于，步骤S33中对图片进行语义的提取和编码计算过程如下：

S331.计算自注意映射矩阵：

其中，

为序列嵌入矩阵，

为自注意可学习参数矩阵，

为查询矩阵，键矩阵，值矩阵；

S332.将查询矩阵，键矩阵，值矩阵分别映射到10个特征空间中，其中映射到第i个特征空间中的矩阵计算公式为：

其中，W_i ^Q,W_i ^K,W_i ^V分别是查询矩阵，键矩阵，值矩阵在第i个特征空间中的可学习投影矩阵；

S333.在第i个特征空间中计算注意力函数：

其中，

为k_n的转置向量；

S334.计算在第i个特征空间中图片的语义表示矩阵：

其中

代表向量按列拼接；

S335.计算图片的语义表示矩阵：

其中

代表矩阵堆叠。

7.根据权利要求2所述的一种基于知识蒸馏的不良图片识别方法，其特征在于，步骤S4所述利用教师神经网络T₁、T₂，结合类别预测损失函数，特征注意力蒸馏损失函数，语义蒸馏损失函数训练学生神经网络，其中学生神经网络为在ImageNet数据集上经过预训练的深度残差网络ResNet18，训练过程包括如下步骤：

S41.取经过步骤S1数据增强后的数据集中大小为64的batch，将batch中图片张量的维度调整为3×224×224；

S42.将图片张量逐一输入到教师神经网络T₁中，计算教师神经网络T₁对于图片的特征注意力映射：