CN113592007A - 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质 - Google Patents

一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质 Download PDF

Info

Publication number
CN113592007A
CN113592007A CN202110896069.7A CN202110896069A CN113592007A CN 113592007 A CN113592007 A CN 113592007A CN 202110896069 A CN202110896069 A CN 202110896069A CN 113592007 A CN113592007 A CN 113592007A
Authority
CN
China
Prior art keywords
picture
neural network
matrix
feature
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110896069.7A
Other languages
English (en)
Other versions
CN113592007B (zh
Inventor
孙广路
夏劲松
梁丽丽
李天麟
朱素霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202110896069.7A priority Critical patent/CN113592007B/zh
Publication of CN113592007A publication Critical patent/CN113592007A/zh
Application granted granted Critical
Publication of CN113592007B publication Critical patent/CN113592007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质,属于图片检测技术领域。本发明包括首先利用图片数据增强方式对训练数据集进行数据增强,然后利用数据增强后的图片数据集训练基于图片全局特征进行识别的教师神经网络T1,利用数据增强后的图片数据集训练基于图片语义特征进行识别的教师神经网络T2,然后利用教师神经网络T1、T2,结合类别预测损失函数,特征注意力蒸馏损失函数,语义蒸馏损失函数训练学生神经网络,最后将待预测的图片输入到已训练完毕的学生神经网络中进行不良图片识别。本发明在不良图片识别问题中相比于传统方法准确率更高,识别速度更快。

Description

一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储 介质
技术领域
本发明涉及一种不良图片识别方法,尤其涉及一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质,属于图片检测技术领域。
背景技术
不良图片通过一些非法途径在网络上传播,这严重的危害到青少年的身心健康,污染了良好的网络环境。
现有的不良图片识别技术包括利用图片中皮肤,背景的色彩直方图信息,或者图片中人体的特殊部位信息,或者利用卷积神经网络进行特征提取和色情图片分类。但是利用图片中皮肤和背景的色彩直方图方法对于背景信息过于敏感,利用人体的特殊部位信息方法会忽略掉过小的人体私密部位,利用卷积神经网络的方法识别时间过长,无法满足一些不良图片识别系统实时响应的需求。
发明内容
本发明为了克服不良图片识别中现有技术对于图片背景信息过于敏感,对于相比于背景信息过小的人体私密部位无法准确的进行识别,以及不良图片识别速度过慢问题,在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。
本发明提供了一种基于知识蒸馏的不良图片识别系统,包括,图片数据增强模块、图片特征提取模块、图片语义特征提取模块、图片类别预测模块、特征注意力映射模块、知识蒸馏模块;
所述图片数据增强模块用于将图片转化为张量表示,通过调整图片的亮度,对比度,饱和度,对图片进行均值滤波,方框滤波,高斯滤波,中值滤波,双边滤波,随机灰度化,随机的将图片旋转某一角度,随机的将图片进行垂直翻转或水平翻转对图片进行数据增强;
所述图片特征提取模块利用在ImageNet上经过预训练的深度残差网络ResNet50对图片进行特征提取,获取图片特征;
所述图片语义特征提取模块利用多头自注意力编码器获取图片的语义特征表示;
所述图片类别预测模块用于根据图片的特征对图片进行类别预测;
所述特征注意力映射模块用于从深度残差网络最后残差模块输出的特征图中获取特征注意力映射;
所述知识蒸馏模块用于对教师神经网络进行知识迁移以及模型压缩,利用压缩之后的模型进行不良图片识别。。
一种基于知识蒸馏的不良图片识别方法,包括以下步骤:
S1.利用图片数据增强方式对图片训练数据集进行数据增强;
S2.利用数据增强后的图片训练数据集训练基于图片全局特征进行识别的教师神经网络T1
S3.利用数据增强后的图片训练数据集训练基于图片语义特征进行识别的教师神经网络T2
S4.利用教师神经网络T1、T2,结合类别预测损失函数,特征注意力蒸馏损失函数,语义蒸馏损失函数训练学生神经网络;
S5.将待预测的图片输入到已训练完毕的学生神经网络中进行不良图片识别;
优选的,步骤S1所述利用图片数据增强方式对图片训练数据集进行数据增强,其中图片数据增强方式包括将图片以张量的形式表示,调整图片的亮度,对比度,饱和度,对图片进行均值滤波,方框滤波,高斯滤波,中值滤波,双边滤波,随机灰度化,随机的将图片旋转某一角度,随机的将图片进行垂直翻转或水平翻转。
优选的,步骤S2所述利用数据增强后的图片训练数据集训练基于图片全局特征进行识别的教师神经网络T1,T1为在ImageNet数据集上经过预训练的深度残差网络ResNet50,训练过程包括以下步骤:
1)取经过步骤S1数据增强后的数据集中大小为64的batch,将batch中图片张量的维度调整为3×224×224;
2)逐一将batch中的图片张量输入到教师神经网络T1中,利用T1残差模块中的卷积层对图片张量进行特征提取;
3)将T1最后残差模块输出的7×7×2048维度的特征图输入到平均池化层进行池化,得到1×1×2048维度的特征图;
4)将1×1×2048维度的特征图输入到全连接层进行不同特征之间的组合;
5)利用SoftMax层预测图片所属类别:
Figure BDA0003197932540000031
其中,pi为当前图片属于第i个类别的概率,共有6个类别,zi为SoftMax层的第i个输入;
6)计算T1对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失:
Figure BDA0003197932540000032
其中y为当前图片的真实类别,
Figure BDA0003197932540000033
是T1对于当前图片的预测类别;
7)利用反向传播算法,随机梯度下降优化算法更新T1中的参数;
8)重复步骤1)至步骤7),直到T1中的参数收敛。
优选的,步骤S3所述利用数据增强后的图片训练数据集训练基于图片语义特征进行识别的教师神经网络T2,其中教师神经网络T2由在ImageNet数据集上经过预训练的ResNet50,以及序列嵌入层,多头自注意力编码层,全连接层,SoftMax层组成,训练过程包括以下步骤:
1)取经过步骤S1数据增强后的数据集中大小为64的batch,将batch中图片张量的维度调整为3×224×224;
2)将图片张量输入到教师神经网络T2中进行特征提取,将提取到的7×7×2048维度的特征图输入到教师神经网络T2的序列嵌入层中,得到49×2048维度的序列嵌入矩阵;
3)将序列嵌入矩阵输入到多头自注意力编码层中,对图片进行语义的提取和编码,得到图片语义编码向量;
4)将图片语义编码向量输入到全连接层中,得到不同语义的组合;
5)利用SoftMax层预测图片所属类别:
Figure BDA0003197932540000034
其中,pi为当前图片属于第i个类别的概率,共有6个类别,zi为SoftMax层的第i个输入;
6)计算T2对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失:
Figure BDA0003197932540000041
其中y为当前图片的真实类别,
Figure BDA0003197932540000042
是T2对于当前图片的预测类别;
7)利用反向传播算法,随机梯度下降优化算法更新T2中的参数;
8)重复步骤1)至步骤7),直到T2中的参数收敛。
优选的,步骤S3.3)中对图片进行语义的提取和编码计算过程如下:
1)计算自注意映射矩阵:
Figure BDA0003197932540000043
Figure BDA0003197932540000044
Figure BDA0003197932540000045
其中,
Figure BDA0003197932540000046
为序列嵌入矩阵,
Figure BDA0003197932540000047
Figure BDA0003197932540000048
为自注意可学习参数矩阵,
Figure BDA0003197932540000049
Figure BDA00031979325400000410
为查询矩阵,键矩阵,值矩阵;
2)将查询矩阵,键矩阵,值矩阵分别映射到10个特征空间中,其中映射到第i个特征空间中的矩阵计算公式为:
Figure BDA00031979325400000411
Figure BDA00031979325400000412
Figure BDA00031979325400000413
其中,
Figure BDA00031979325400000414
分别是查询矩阵,键矩阵,值矩阵在第i个特征空间中的可学习投影矩阵;
3)在第i个特征空间中计算注意力函数:
Figure BDA00031979325400000415
其中,qj为Qi的第j个行向量,kn为Ki的第n个行向量,vn为Vi的第n个行向量,s(kn,qj)为打分函数,计算如下:
Figure BDA0003197932540000051
其中,
Figure BDA0003197932540000052
为kn的转置向量;
4)计算在第i个特征空间中图片的语义表示矩阵:
Figure BDA0003197932540000053
其中
Figure BDA0003197932540000054
代表向量按列拼接;
5)计算图片的语义表示矩阵:
Figure BDA0003197932540000055
其中
Figure BDA0003197932540000056
代表矩阵堆叠。
优选的,步骤S4所述利用教师神经网络T1、T2,结合类别预测损失函数,特征注意力蒸馏损失函数,语义蒸馏损失函数训练学生神经网络,其中学生神经网络为在ImageNet数据集上经过预训练的深度残差网络ResNet18,训练过程包括如下步骤:
1)取经过步骤S1数据增强后的数据集中大小为64的batch,将batch中图片张量的维度调整为3×224×224;
2)将图片张量逐一输入到教师神经网络T1中,计算教师神经网络T1对于图片的特征注意力映射:
Figure BDA0003197932540000057
其中,A为教师神经网络T1最后一个残差模块输出的特征图,C为特征图的通道数,
Figure BDA0003197932540000058
为教师神经网络T1的特征注意力映射结果;
3)将图片张量逐一输入到学生神经网络,计算学生神经网络对于图片的特征注意力映射:
Figure BDA0003197932540000059
其中,A为学生神经网络最后一个残差模块输出的特征图,C为特征图的通道数,KS为学生神经网络的特征注意力映射结果;
4)计算特征注意力蒸馏损失:
Figure BDA0003197932540000061
式中,λ是特征注意力蒸馏损失平衡因子,
Figure BDA0003197932540000062
为KS的第j个列向量,
Figure BDA0003197932540000063
Figure BDA0003197932540000068
的第j个列向量,||·||2表示欧式距离;
5)计算语义蒸馏损失:
Figure BDA0003197932540000064
其中,
Figure BDA0003197932540000065
分别为学生神经网络和教师神经网络T2全连接层的第i个输出,T为蒸馏温度;
6)将图片张量输入到学生神经网络中,计算类别预测损失:
Figure BDA0003197932540000066
其中y为当前图片的真实类别,
Figure BDA0003197932540000067
是学生神经网络对于当前图片的预测类别;
7)计算学生神经网络的损失函数:
Lstudent=Lg+α·Lfea+β·Lsem
其中,α,β为蒸馏损失平衡因子;
8)利用反向传播算法,随机梯度下降优化算法更新学生神经网络中的参数;
9)重复步骤1)至步骤8),直到学生神经网络中的参数收敛。
本发明具有以下有益效果:
本发明相比于一般的不良图片识别方法,本发明利用知识蒸馏方法,使学生神经网络可以同时利用不良图片的全局特征及语义特征进行识别。在大幅提高准确率的同时,模型体积相比于传统的不良图片识别模型更小。本发明在不良图片识别问题中相比于传统的方法准确率更高,识别速度更快。
本发明利用知识蒸馏方法可以很好的弥补现有不良图片识别中基于卷积神经网络的方法、人体的特殊部位信息方法等的不足,知识蒸馏是一种在不影响神经网络准确度的前提下,对神经网络进行体积压缩的方法。经过知识蒸馏重新得到的神经网络相比于压缩前的神经网络体积更小,从而进行相应任务时速度更快。本方法将利用知识蒸馏对两个不良图片识别教师神经网络进行融合和压缩,使得重新得到的学生神经网络可以同时具备教师神经网络的功能,但是体积更小,使得在提升不良图片识别准确度的同时,也能大大的提高识别的速度,可以更好地满足一些不良图片识别系统对于实时响应的需求。
附图说明
图1是本发明所用的利用图片全局特征进行识别的教师神经网络T1的整体示意图;
图2是本发明所用的利用图片语义特征进行识别的教师神经网络T2的整体示意图;
图3是本发明所用的学生神经网络的整体示意图;
图4是本发明所述的系统结构示意图;
图5是本发明所述的方法流程示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体实施例来描述本发明。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
具体实施方式一:
图1是本发明所用的利用图片全局特征进行识别的教师神经网络T1的整体示意图。
如图1所示,本发明采用带有残差模块的神经网络进行不良图片的全局特征识别,并将这个网络命名为全局特征教师神经网络,记为T1,全局特征教师神经网络的训练包含如下步骤:
1)取经过步骤S1数据增强后的数据集中大小为64的batch,将batch中图片张量的维度调整为3×224×224;
2)逐一将batch中的图片张量输入到教师神经网络T1中,利用T1残差模块中的卷积层对图片张量进行特征提取;
3)将T1最后残差模块输出的7×7×2048维度的特征图输入到平均池化层进行池化,得到1×1×2048维度的特征图;
4)将1×1×2048维度的特征图输入到全连接层进行不同特征之间的组合;
5)利用SoftMax层预测图片所属类别:
Figure BDA0003197932540000081
其中,pi为当前图片属于第i个类别的概率,共有6个类别,zi为SoftMax层的第i个输入;
6)计算T1对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失:
Figure BDA0003197932540000082
其中y为当前图片的真实类别,
Figure BDA0003197932540000083
是T1对于当前图片的预测类别;
7)利用反向传播算法,随机梯度下降优化算法更新T1中的参数;
8)重复步骤1)至步骤7),直到T1中的参数收敛。
图2是本发明所用的利用图片语义特征进行识别的教师神经网络T2的整体示意图。
如图2所示,本发明采用带有多头自注意力编码层的神经网络进行不良图片的语义特征识别,并将这个网络命名为语义特征教师神经网络,记为T2,训练过程包含如下步骤:
1)取经过步骤S1数据增强后的数据集中大小为64的batch,将batch中图片张量的维度调整为3×224×224;
2)将图片张量输入到教师神经网络T2中进行特征提取,将提取到的7×7×2048维度的特征图输入到教师神经网络T2的序列嵌入层中,得到49×2048维度的序列嵌入矩阵;
3)将序列嵌入矩阵输入到多头自注意力编码层中,对图片进行语义的提取和编码,得到图片语义编码向量;
4)将图片语义编码向量输入到全连接层中,得到不同语义的组合;
5)利用SoftMax层预测图片所属类别:
Figure BDA0003197932540000084
其中,pi为当前图片属于第i个类别的概率,共有6个类别,zi为SoftMax层的第i个输入;
6)计算T2对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失:
Figure BDA0003197932540000091
其中y为当前图片的真实类别,
Figure BDA0003197932540000092
是T2对于当前图片的预测类别;
7)利用反向传播算法,随机梯度下降优化算法更新T2中的参数;
8)重复步骤1)至步骤7),直到T2中的参数收敛。
图3是本发明所用的学生神经网络的整体示意图。
如图3所示,本发明采用在ImageNet上经过预训练的深度残差网络ResNet18进行知识蒸馏,并将这个网络命名为学生神经网络,对于学生神经网络的训练包含如下步骤:
1)取经过步骤S1数据增强后的数据集中大小为64的batch,将batch中图片张量的维度调整为3×224×224;
2)将图片张量逐一输入到教师神经网络T1中,计算教师神经网络T1对于图片的特征注意力映射:
Figure BDA0003197932540000093
其中,A为教师神经网络T1最后一个残差模块输出的特征图,C为特征图的通道数,
Figure BDA0003197932540000094
为教师神经网络T1的特征注意力映射结果;
3)将图片张量逐一输入到学生神经网络,计算学生神经网络对于图片的特征注意力映射:
Figure BDA0003197932540000095
其中,A为学生神经网络最后一个残差模块输出的特征图,C为特征图的通道数,KS为学生神经网络的特征注意力映射结果;
4)计算特征注意力蒸馏损失:
Figure BDA0003197932540000101
式中,λ是特征注意力蒸馏损失平衡因子,
Figure BDA0003197932540000102
为KS的第j个列向量,
Figure BDA0003197932540000103
Figure BDA0003197932540000108
的第j个列向量,||·||2表示欧式距离;
5)计算语义蒸馏损失:
Figure BDA0003197932540000104
其中,
Figure BDA0003197932540000105
分别为学生神经网络和教师神经网络T2全连接层的第i个输出,T为蒸馏温度;
6)将图片张量输入到学生神经网络中,计算类别预测损失:
Figure BDA0003197932540000106
其中y为当前图片的真实类别,
Figure BDA0003197932540000107
是学生神经网络对于当前图片的预测类别;
7)计算学生神经网络的损失函数:
Lstudent=Lg+α·Lfea+β·Lsem
其中,α,β为蒸馏损失平衡因子;
8)利用反向传播算法,随机梯度下降优化算法更新学生神经网络中的参数;
9)重复步骤1)至步骤8),直到学生神经网络中的参数收敛。
具体实施方式二:
下面将具体实施方式一的方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
本发明在自己构建的数据集上面进行了实验验证,数据集包含60000张图片。其中包含50000张不良图片,10000张正常图片。为了客观地评价本发明算法的性能,本发明在所选出的测试集中,使用了识别准确率,神经网络模型体积大小,不良图片识别速度(张/毫秒)评价指标对本发明的效果进行评价,并且与基于色彩直方图不良图片识别方法,基于ResNet101神经网络不良图片识别方法,基于卷积神经网络+目标检测不良图片识别方法在所述的数据集上做了对比实验,所得实验结果如表1所示:
表1
方法名称 识别准确率(%) 模型体积大小(MB) 识别速度(n/ms)
色彩直方图 54.3 _ <=60
ResNet101 86.5 170 <=85
VGG32+FPN 92.4 261 <=72
本发明 99.4 44.6 <=55
本实施方式只是对本专利的示例性说明,并不限定它的保护范围,本领域技术人员还可以对其局部进行改变,只要没有超出本专利的精神实质,都在本专利的保护范围内。

Claims (9)

1.一种基于知识蒸馏的不良图片识别系统,其特征在于,包括,图片数据增强模块、图片特征提取模块、图片语义特征提取模块、图片类别预测模块、特征注意力映射模块、知识蒸馏模块;
所述图片数据增强模块用于将图片转化为张量表示,通过调整图片的亮度,对比度,饱和度,对图片进行均值滤波,方框滤波,高斯滤波,中值滤波,双边滤波,随机灰度化,随机的将图片旋转某一角度,随机的将图片进行垂直翻转或水平翻转对图片进行数据增强;
所述图片特征提取模块利用在ImageNet上经过预训练的深度残差网络ResNet50对图片进行特征提取,获取图片特征;
所述图片语义特征提取模块利用多头自注意力编码器获取图片的语义特征表示;
所述图片类别预测模块用于根据图片的特征对图片进行类别预测;
所述特征注意力映射模块用于从深度残差网络最后残差模块输出的特征图中获取特征注意力映射;
所述知识蒸馏模块用于对教师神经网络进行知识迁移以及模型压缩。
2.一种基于知识蒸馏的不良图片识别方法,其特征在于,包括以下步骤:
S1.利用图片数据增强方式对图片训练数据集进行数据增强;
S2.利用数据增强后的图片训练数据集训练基于图片全局特征进行识别的教师神经网络T1
S3.利用数据增强后的图片训练数据集训练基于图片语义特征进行识别的教师神经网络T2
S4.利用教师神经网络T1、T2,结合类别预测损失函数,特征注意力蒸馏损失函数和语义蒸馏损失函数训练学生神经网络;
S5.将待预测的图片输入到已训练完毕的学生神经网络中进行不良图片识别。
3.根据权利要求2所述的一种基于知识蒸馏的不良图片识别方法,其特征在于:步骤S1所述利用图片数据增强方式对图片训练数据集进行数据增强,其中图片数据增强方式包括将图片以张量的形式表示,调整图片的亮度,对比度,饱和度,对图片进行均值滤波,方框滤波,高斯滤波,中值滤波,双边滤波,随机灰度化,随机的将图片旋转某一角度,随机的将图片进行垂直翻转或水平翻转。
4.根据权利要求2所述的一种基于知识蒸馏的不良图片识别方法,其特征在于:步骤S2所述利用数据增强后的图片训练数据集训练基于图片全局特征进行识别的教师神经网络T1,其中T1为在ImageNet数据集上经过预训练的深度残差网络ResNet50,训练过程包括以下步骤:
S21.取所述步骤S1数据增强后的数据集中大小为64的batch,将batch中图片张量的维度调整为3×224×224;
S22.逐一将batch中的图片张量输入到教师神经网络T1中,利用T1残差模块中的卷积层对图片张量进行特征提取;
S23.将T1最后残差模块输出的7×7×2048维度的特征图输入到平均池化层进行池化,得到1×1×2048维度的特征图;
S24.将1×1×2048维度的特征图输入到全连接层进行不同特征之间的组合;
S25.利用SoftMax层预测图片所属类别:
Figure FDA0003197932530000021
其中,pi为当前图片属于第i个类别的概率,共有6个类别,zi为SoftMax层的第i个输入;
S26.计算T1对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失:
Figure FDA0003197932530000022
其中,y为当前图片的真实类别,
Figure FDA0003197932530000023
是T1对于当前图片的预测类别;
S27.利用反向传播算法,随机梯度下降优化算法更新T1中的参数;
S28.重复步骤S21至步骤S27,直到T1中的目标函数收敛。
5.根据权利要求2所述的一种基于知识蒸馏的不良图片识别方法,其特征在于:步骤S3所述利用数据增强后的图片训练数据集训练基于图片语义特征进行识别的教师神经网络T2,其中教师神经网络T2由在ImageNet数据集上经过预训练的ResNet50,以及序列嵌入层,多头自注意力编码层,全连接层,SoftMax层组成,训练过程包括以下步骤:
S31.取经过步骤S1数据增强后的数据集中大小为64的batch,将batch中图片张量的维度调整为3×224×224;
S32.将图片张量输入到教师神经网络T2中进行特征提取,将提取到的7×7×2048维度的特征图输入到教师神经网络T2的序列嵌入层中,得到49×2048维度的序列嵌入矩阵;
S33.将序列嵌入矩阵输入到多头自注意力编码层中,对图片进行语义的提取和编码,得到图片语义编码向量;
S34.将图片语义编码向量输入到全连接层中,得到不同语义的组合;
S35.利用SoftMax层预测图片所属类别:
Figure FDA0003197932530000031
其中,pi为当前图片属于第i个类别的概率,共有6个类别,zi为SoftMax层的第i个输入;
S36.计算T2对当前图片的预测类别和图片的真实类别之间的交叉熵分类损失:
Figure FDA0003197932530000032
其中y为当前图片的真实类别,
Figure FDA0003197932530000033
是T2对于当前图片的预测类别;
S37.利用反向传播算法,随机梯度下降优化算法更新T2中的参数;
S38.重复步骤S31至步骤S37,直到T2中的参数收敛。
6.根据权利要求5所述的一种基于知识蒸馏的不良图片识别方法,其特征在于,步骤S33中对图片进行语义的提取和编码计算过程如下:
S331.计算自注意映射矩阵:
Figure FDA0003197932530000034
Figure FDA0003197932530000035
Figure FDA0003197932530000036
其中,
Figure FDA0003197932530000037
为序列嵌入矩阵,
Figure FDA0003197932530000038
Figure FDA0003197932530000039
为自注意可学习参数矩阵,
Figure FDA00031979325300000310
为查询矩阵,键矩阵,值矩阵;
S332.将查询矩阵,键矩阵,值矩阵分别映射到10个特征空间中,其中映射到第i个特征空间中的矩阵计算公式为:
Figure FDA0003197932530000041
Figure FDA0003197932530000042
Figure FDA0003197932530000043
其中,Wi Q,Wi K,Wi V分别是查询矩阵,键矩阵,值矩阵在第i个特征空间中的可学习投影矩阵;
S333.在第i个特征空间中计算注意力函数:
Figure FDA0003197932530000044
其中,qj为Qi的第j个行向量,kn为Ki的第n个行向量,vn为Vi的第n个行向量,s(kn,qj)为打分函数,计算如下:
Figure FDA0003197932530000045
其中,
Figure FDA0003197932530000046
为kn的转置向量;
S334.计算在第i个特征空间中图片的语义表示矩阵:
Figure FDA0003197932530000047
其中
Figure FDA0003197932530000048
代表向量按列拼接;
S335.计算图片的语义表示矩阵:
Figure FDA0003197932530000049
其中
Figure FDA00031979325300000410
代表矩阵堆叠。
7.根据权利要求2所述的一种基于知识蒸馏的不良图片识别方法,其特征在于,步骤S4所述利用教师神经网络T1、T2,结合类别预测损失函数,特征注意力蒸馏损失函数,语义蒸馏损失函数训练学生神经网络,其中学生神经网络为在ImageNet数据集上经过预训练的深度残差网络ResNet18,训练过程包括如下步骤:
S41.取经过步骤S1数据增强后的数据集中大小为64的batch,将batch中图片张量的维度调整为3×224×224;
S42.将图片张量逐一输入到教师神经网络T1中,计算教师神经网络T1对于图片的特征注意力映射:
Figure FDA0003197932530000051
其中,A为教师神经网络T1最后一个残差模块输出的特征图,C为特征图的通道数,
Figure FDA0003197932530000052
为教师神经网络T1的特征注意力映射结果;
S43.将图片张量逐一输入到学生神经网络,计算学生神经网络对于图片的特征注意力映射:
Figure FDA0003197932530000053
其中,A为学生神经网络最后一个残差模块输出的特征图,C为特征图的通道数,KS为学生神经网络的特征注意力映射结果;
S44.计算特征注意力蒸馏损失:
Figure FDA0003197932530000054
式中,λ是特征注意力蒸馏损失平衡因子,
Figure FDA0003197932530000055
为KS的第j个列向量,
Figure FDA0003197932530000056
Figure FDA0003197932530000057
的第j个列向量,||·||2表示欧式距离;
S45.计算语义蒸馏损失:
Figure FDA0003197932530000058
其中,
Figure FDA0003197932530000059
分别为学生神经网络和教师神经网络T2全连接层的第i个输出,T为蒸馏温度;
S46.将图片张量输入到学生神经网络中,计算类别预测损失:
Figure FDA0003197932530000061
其中y为当前图片的真实类别,
Figure FDA0003197932530000062
是学生神经网络对于当前图片的预测类别;
S47.计算学生神经网络的损失函数:
Lstudent=Lg+α·Lfea+β·Lsem
其中,α,β为蒸馏损失平衡因子;
S48.利用反向传播算法,随机梯度下降优化算法更新学生神经网络中的参数;
S49.重复步骤S41至步骤S48,直到学生神经网络中的参数收敛。
8.一种计算机,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求2至7任一项所述的一种基于知识蒸馏的不良图片识别方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2至7任一项所述的一种基于知识蒸馏的不良图片识别方法。
CN202110896069.7A 2021-08-05 2021-08-05 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质 Active CN113592007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110896069.7A CN113592007B (zh) 2021-08-05 2021-08-05 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110896069.7A CN113592007B (zh) 2021-08-05 2021-08-05 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质

Publications (2)

Publication Number Publication Date
CN113592007A true CN113592007A (zh) 2021-11-02
CN113592007B CN113592007B (zh) 2022-05-31

Family

ID=78255357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110896069.7A Active CN113592007B (zh) 2021-08-05 2021-08-05 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN113592007B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708467A (zh) * 2022-01-27 2022-07-05 西安交通大学 基于知识蒸馏的不良场景识别方法及系统及设备
CN114969332A (zh) * 2022-05-18 2022-08-30 北京百度网讯科技有限公司 训练文本审核模型的方法和装置
CN116091849A (zh) * 2023-04-11 2023-05-09 山东建筑大学 基于分组解码器的轮胎花纹分类方法、系统、介质及设备
WO2023097428A1 (en) * 2021-11-30 2023-06-08 Intel Corporation Methods and apparatus to perform parallel double-batched self-distillation in resource-constrained image recognition applications

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
CN111160409A (zh) * 2019-12-11 2020-05-15 浙江大学 一种基于共同特征学习的异构神经网络知识重组方法
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法
CN112132146A (zh) * 2020-08-14 2020-12-25 北京三快在线科技有限公司 图像裁切模型的训练方法、装置及图像裁切方法、装置
CN112528109A (zh) * 2020-12-01 2021-03-19 中科讯飞互联(北京)信息科技有限公司 一种数据分类方法、装置、设备及存储介质
US10970598B1 (en) * 2020-05-13 2021-04-06 StradVision, Inc. Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
CN112906747A (zh) * 2021-01-25 2021-06-04 北京工业大学 一种基于知识蒸馏的图像分类方法
CN112988975A (zh) * 2021-04-09 2021-06-18 北京语言大学 一种基于albert和知识蒸馏的观点挖掘方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
CN111160409A (zh) * 2019-12-11 2020-05-15 浙江大学 一种基于共同特征学习的异构神经网络知识重组方法
US10970598B1 (en) * 2020-05-13 2021-04-06 StradVision, Inc. Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
CN112132146A (zh) * 2020-08-14 2020-12-25 北京三快在线科技有限公司 图像裁切模型的训练方法、装置及图像裁切方法、装置
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法
CN112528109A (zh) * 2020-12-01 2021-03-19 中科讯飞互联(北京)信息科技有限公司 一种数据分类方法、装置、设备及存储介质
CN112906747A (zh) * 2021-01-25 2021-06-04 北京工业大学 一种基于知识蒸馏的图像分类方法
CN112988975A (zh) * 2021-04-09 2021-06-18 北京语言大学 一种基于albert和知识蒸馏的观点挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SERGEY ZAGORUYKO ET AL.: "PAYING MORE ATTENTION TO ATTENTION:IMPROVING THE PERFORMANCE OF CONVOLUTIONALNEURAL NETWORKS VIA ATTENTION TRANSFER", 《ARXIV.ORG》 *
赵振兵 等: "基于动态监督知识蒸馏的输电线路螺栓缺陷图像分类", 《高电压技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023097428A1 (en) * 2021-11-30 2023-06-08 Intel Corporation Methods and apparatus to perform parallel double-batched self-distillation in resource-constrained image recognition applications
CN114708467A (zh) * 2022-01-27 2022-07-05 西安交通大学 基于知识蒸馏的不良场景识别方法及系统及设备
CN114708467B (zh) * 2022-01-27 2023-10-13 西安交通大学 基于知识蒸馏的不良场景识别方法及系统及设备
CN114969332A (zh) * 2022-05-18 2022-08-30 北京百度网讯科技有限公司 训练文本审核模型的方法和装置
CN116091849A (zh) * 2023-04-11 2023-05-09 山东建筑大学 基于分组解码器的轮胎花纹分类方法、系统、介质及设备
CN116091849B (zh) * 2023-04-11 2023-07-25 山东建筑大学 基于分组解码器的轮胎花纹分类方法、系统、介质及设备

Also Published As

Publication number Publication date
CN113592007B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN113592007B (zh) 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN111507311B (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN110837846A (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN116012722A (zh) 一种遥感影像场景分类方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN116758610A (zh) 基于注意力机制和特征融合的轻量化人耳识别方法及系统
CN116257609A (zh) 基于多尺度文本对齐的跨模态检索方法及系统
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN114913402A (zh) 一种深度学习模型的融合方法、装置
CN117036967B (zh) 一种非视觉感知区域通道注意力的遥感图像描述方法
CN117496162B (zh) 一种红外卫星遥感影像薄云去除方法、装置及介质
CN112507912B (zh) 一种识别违规图片的方法及装置
Liu et al. Res-RNN Network and Its Application in Case Text Recognition
CN116912903A (zh) 人脸识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant