CN109214406A

CN109214406A - 基于D-MobileNet神经网络图像分类方法

Info

Publication number: CN109214406A
Application number: CN201810465364.5A
Authority: CN
Inventors: 王威; 邹婷; 王新
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha Net Mdt Infotech Ltd
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2019-01-15
Anticipated expiration: 2038-05-16
Also published as: CN109214406B

Abstract

本发明公开了一种基于D‑MobileNet(Dilated‑Mobilenet)神经网络图像分类的方法。通过将空洞卷积与MobileNet进行结合，通过提高高分辨率输入层的卷积核感受野，提高输出特征的质量，且不增加网络的参数数量，使得该网络结构提高分类精度。包括以下步骤：1)准备数据集；2)搭建MobileNet网络；3)搭建D‑MobileNet网络；4)超参数设置。将模型训练好后，利用训练好的卷积神经网络模型对验证集图片进行验证，完成分类预测。实验结果表明：本发明能取得比MobileNet网络更好的分类精度。

Description

基于D-MobileNet神经网络图像分类方法

技术领域

本发明设计涉及图像分类领域。

本发明是基于D-MobileNet(Dilated-Mobilenet)神经网络的图像分类方法，由于深度神经网络其自身是一种内存密集性和高计算密集型的模型，MobileNet这种轻量级的深度卷积网络，通过改变卷积计算方式，可减少网络的参数数量和计算量，但是精度会有些损失，本发明通过加入空洞卷积，来提高MobileNet的分类精度。

背景技术

图像分类是深度学习最早的应用领域，且已在图像分类领域取得了很好的成绩。从AlexNet到VGG，GoogleNet，ResNet等均在视觉领域竞赛上取得很好的成绩。随着神经网络的分类精度越来越高，神经网络的结构也更深、更复杂。随之而来的是数百万甚至数十亿的参数和大量的内存，且其大量的计算量需依赖GPU来实现。故提出了压缩神经网络的方法，即在尽量损失较少分类精度的前提下，减少参数数量和计算量。而MobileNet神经网络是众多压缩方法中的一种，即通过改变网络结构实现参数和计算量的减少。

MobileNet通过使用深度可分离的卷积来构建轻量级的深度神经网络。其基本结构为深度可分离卷积核(depthwise separable filtes)，该卷积核由深度卷积核(depthwiseconvolution filters)和点卷积核(point convolution filter)组成。该网络通过这种结构，将本来一个参数为a*a*c 的标准卷积核变为a*a+c个参数(标准卷积核大小为a*a，深度为c)。本专利通过在现有的 MobileNet神经网络结构与空洞卷积结合，提高分类精度。

现有的神经网络图像分类近似的专利有专利[1]，通过改进自适应遗传算法的神经网络图像分类方法，此专利较好的避免了遗传算法的“早熟”收敛，提高了网络的泛化能力和图像的正确分类率。专利[2]基于线性判别分析准则的改进卷积神经网络性能的方法，此专利通过对选定的卷积层进行线性判别分析准则的正则约束，可提高卷积神经网络图像分类的精度。本发明与专利[1]和专利[2]采用不同的神经网络模型，本发明是在MobileNet轻量级的深度卷积神经网络上进行改进，与空洞卷积结合，通过提高卷积核感受野，来提高训练特征质量，进一步提高网络模型分类精度。

[1]基于改进自适应遗传算法的神经网络图像分类方法，申请号/专利：CN201510846339.8，发明设计人：刘芳；马玉磊；黄光伟；周慧娟。

[2]基于线性判别分析准则的改进卷积神经网络性能的方法，申请号/专利号：CN201510566529.4，发明设计人：龚怡宏；石伟伟；王进军；张世周。

发明内容

本发明是在MobileNet网络结构的基础上引入空洞卷积。空洞卷积最先应用于图像分割领域。空洞卷积是在卷积滤波器的非零值中间插入零值，以提高该卷积滤波器的感受野。通过在MobileNet高分辨率的输入特征的深度卷积核由空洞为2的空洞卷积替代，可通过提高卷积核的感受野，提高其输出特征的质量，以达到提高分辨率的目的，具体网络结构如表一。本发明主要是使内存密集型与高度计算密集型的深度神经网络应用于低内存的、实时性高的设备中。

表一：D-MobileNet在Caltech-256数据集的结构图

具体实施方式

步骤一：数据准备

准备数据集，将数据集分为训练数据集和验证数据集，本发明使用TensorFlow框架，需将数据集的图片形式转换成tfrecord的形式存储，方便数据读取。

步骤二：对图像进行预处理

将图像从tfrecord中读取出来，并进行随机的左右翻转，随机裁剪成指定尺寸的图片大小，使得在神经网络训练完数据集的一个回合后，重新训练数据集时，可以使得重新训练的输入图片与前一次的训练图片有差异，可扩大数据集图片的数量，避免网络容易造成过拟合的问题。

步骤三：搭建D-MobileNet神经网络结构

通过对将MobileNet神经网络与空洞卷积相结合的改进方法对D-MobileNet神经网络进行搭建，在MobileNet神经网络的基础上加入空洞卷积的参数设置。本发明提出了两种D-MobileNet实现方法，一种是b_mobilenet，即将Conv1卷积层中的卷积核用扩张率为2的扩张卷积核替代，为使得最后全局池化层的输入尺寸与MobileNet的相同，且增加最少的计算量，需在Conv2卷积层中的深度可分离卷积层的卷积步长设置为2，后面卷积层不变；另一种是a_mobilenet，即将Conv2卷积层中的深度可分离卷积层的卷积核用扩张率为2的扩张卷积核替代，此方法不需改变其他卷积层的超参数，也不会增加网络参数和计算量。

步骤四：超参数的设置

MobileNet神经网络本身已经将一些超参数如每一层隐含层中卷积核的个数、神经网络的层数、激活函数的种类等已确定，但还需设置一些超参数，如：学习率(learningrate)、最小批次(mini batch)、学习的回合数(epoch)、动量参数(Momentum)等。

超参数设置完成后，对网络进行训练，并进行调参，使得设置的超参数数值为该网络最适合的数值。最后进行验证，得到网络的测试精度。最后结果如表二：

表二：MobileNet与两种D-MobileNet准确率

网络名称	MobileNet	a_Mobilenet	b_Mobilenet
				准确率	0·6116	0·6213	0·6228

Claims

1.基于D-MobileNet(Dilated-Mobilenet)神经网络图像分类方法，其特征在于，所述方法包括如下步骤：1)准备数据集；2)MobileNet神经网络的构建；3)D-MobileNet神经网络的构建；4)超参数设置；

准备数据集：本实验在Caltech_256数据集上进行实验，将图片转换为tfrecord的形式进行存储，并在训练和测试时对图片进行预处理，可扩大数据集图片的数量，防止过拟合；

MobileNet神经网络的构建：MobileNet神经网络是以深度可分离卷积核为基本结构的28层网络的深度卷积神经网络，一个深度可分离核由深度卷积核和点卷积核组成；MobileNet神经网络包括、1层卷积层、13层深度可分离层、一个全局平均池化层和一层全连接输出层，且该网络无池化层；

D-MobileNet神经网络的构建：选定卷积层的层数，将该层数的卷积核由空洞卷积核替代(前面一两层的高分辨率输入特征的卷积层)，通过提高该卷积核的感受野来提高所学习到的特征的质量，进一步提高分类准确度；

优化网络超参数：对不同的mini_batch、learning_rate、momentum、训练步长等超参数进行优化。

2.基于D-MobileNet(Dilated-Mobilenet)神经网络图像分类方法，其特征在于，在准备数据集时，将图像从tfrecord中读取出来，并进行随机的左右翻转，随机裁剪成指定尺寸的图片大小，使得在神经网络训练完数据集的一个回合后，重新训练数据集时，可以使得重新训练的输入图片与前一次的训练图片有差异，可扩大数据集图片的数量，避免网络容易造成过拟合的问题。

3.基于D-MobileNet(Dilated-Mobilenet)神经网络图像分类方法，其特征在于，搭建MobileNet神经网络时，对Conv1卷积层设计方法如下：对输入的原始图片进行边缘补偿处理，使得防止特征图减小过快，对处理过后的图片进行卷积操作，设置卷积核的大小和滑动步长，卷积处理后得到特征图，再经过一个Batch Normalization即BN处理，再经过ReLU激活函数得到特征映射图，作为下一层卷积层的输入；

对Conv2卷积层设计方法如下：该层为深度可分离层，由深度卷积层和点卷积层两层组成，将Conv1的输出作为Conv2深度卷积层的输入，且进行边缘补偿操作，对处理过后的输入进行卷积操作，设置卷积核大小和步长，卷积处理后得到特征图，再经过一个BatchNormalization即BN处理，再经过ReLU激活函数得到特征映射图，作为点卷积核的输入，进行点卷积操作，得到特征图，再经过一个Batch Normalization即BN处理，再经过ReLU激活函数得到特征映射图，作为下一层的输入；

后面的12层深度可分离层与Conv2卷积层设计方法相同；

对Avg_Pool15平均池化层设计方法如下：将Conv14卷积层的输出特征映射图进行平均池化，设置池化层卷积核大小，使得最后的输出特征图大小为1×1；

对FC16全连接分类层设计方法如下：将Avg_Pool15平均池化层的输出输入到FC16全连接层中，神经元个数为数据集的类别数，最后经过Softmax分类器进行分类。

4.基于D-MobileNet(Dilated-Mobilenet)神经网络图像分类方法，其特征在于，对D-MobileNet进行构建时，在高分辨率输入特征图的卷积层中，将空洞卷积代替传统的卷积进行卷积操作，重点在于选取的卷积层层数：

4.1将Conv1卷积层中的卷积核用空洞卷积核替代：此方法会增加少量计算量，将MobileNet神经网络Conv1卷积层步长设置为1，使得Conv1卷积层中的卷积核能用空洞卷积替代，为了最后全局平均池化层的输入尺寸大小与MobileNet相同，且只增加最少的计算量，在第二层的深度可分离层中的深度卷积层的步长设置为2，后面的卷积层不变；

4.2将Conv2卷积层中的深度卷积层中的卷积核用空洞卷积核替代：此方法，不增加网络参数和计算量，不需改变网络其他卷积层的超参数。

5.基于D-MobileNet(Dilated-Mobilenet)神经网络图像分类方法，其特征在于，超参数的设置，选取几组超参数，最后选定准确度最好的超参数。