CN107330446B

CN107330446B - 一种面向图像分类的深度卷积神经网络的优化方法

Info

Publication number: CN107330446B
Application number: CN201710411668.9A
Authority: CN
Inventors: 白琮; 黄玲; 陈佳楠; 郝鹏翼; 潘翔; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-06-05
Filing date: 2017-06-05
Publication date: 2020-08-04
Anticipated expiration: 2037-06-05
Also published as: CN107330446A

Abstract

一种面向图像分类的深度卷积神经网络的优化方法，包括以下步骤；步骤一、构建图像分类卷积神经网络，步骤二、训练图像分类卷积神经网络；步骤三、测试图像分类卷积神经网络，过程如下：将预处理好的测试数据集送入训练好的网络模型，网络的Accuracy层根据Softmax层输出的概率值以及输入层的标签值输出一个精确度值，即测试图像被正确分类的概率；经过上述步骤的操作，即可实现面向图像分类的深度卷积神经网络的优化。本发明提供一种有效缩小语义鸿沟、分类准确性较高的面向图像分类的深度卷积神经网络的优化方法。

Description

一种面向图像分类的深度卷积神经网络的优化方法

技术领域

本发明涉及计算机视觉领域和深度学习领域，特别涉及一种面向图像分类的深度卷积神经网络的优化方法，属于基于深度学习的计算机视觉领域。

背景技术

以卷积神经网络为代表的深度学习技术近些年来已经在很多方面取得了重大突破，特别是在计算机视觉领域，如图像分类，目标检索等，都取得了很好的效果。

图像分类指利用计算机的特征表达来模拟人类对图像的理解，自动将图像按照人类的理解方式划分到不同的语义空间。在图像分类任务中，为了获得更高的分类精度，需要对图像提取不同层次的特征信息。目前，图像分类研究领域仍然存在一个巨大挑战，即由机器表达出来的底层图像特征和人类所感知的高层语义信息之间存在一个“语义鸿沟”，这个“语义鸿沟”往往会影响最后的分类效果。而卷积神经网络对高层语义特征的强大表达能力，能够很好的缩小这个“语义鸿沟”。

发明内容

为了解决现有技术存在的语义鸿沟及分类准确率不高的问题，本发明提供一种有效缩小语义鸿沟、分类准确性较高的面向图像分类的深度卷积神经网络的优化方法。

本发明解决其技术问题所采用的技术方案是：

一种面向图像分类的深度卷积神经网络的优化方法，包括以下步骤；

步骤一、构建图像分类卷积神经网络，过程如下：

步骤1.1：该网络由五个卷积层、三个池化层和三个全连接层，和一个Softmax层组成；

步骤1.2：池化层用最大值-均值池化方式，将卷积层的输出分别用最大值、均值池化方式先处理，再将最大值和均值池化后的输出用Eltwise函数，采用总和操作输出；

步骤1.3：在全连接层采用Maxout激活函数，把FC-6层和FC-7层的输出后接Slice函数随机将输出分为两个部分；

步骤1.4：在Slice层后接Eltwise函数，采用最大值输出操作，通过步骤1.3和1.4实现全连接层的Maxout激活；

步骤1.5：在全连接层的FC-7和FC-8层之间增加一个新的隐层H，隐层H是一个全连接层，其神经元的活动由后续的网络层的语义编码和分类调节；

步骤1.6：隐层H后接一个Sigmoid激活函数来控制隐层神经元的活动，把输出控制为{0，1}；

步骤二、训练图像分类卷积神经网络，过程如下：

步骤2.1：在网络的输入层对输入的图像进行随机裁剪，并将裁剪后的图像和裁剪旋转180度后的图像一起输入上述网络模型中；

步骤2.2：计算训练数据集的均值文件；

步骤2.3：采用预训练网络模型的方式，即用在ImageNet数据集上预训练好AlexNet的权值来初始化网络，并对隐层和输出层的权值采用随机初始化的方式；

步骤2.4：向初始化后的网络模型中输入训练样本和标签，通过反向传播算法在目标数据集上微调网络参数,使损失函数值最小；

步骤三、测试图像分类卷积神经网络，过程如下：

将预处理好的测试数据集送入训练好的网络模型，网络的Accuracy层根据Softmax层输出的概率值以及输入层的标签值输出一个精确度值，即测试图像被正确分类的概率；

经过上述步骤的操作，即可实现面向图像分类的深度卷积神经网络的优化。

本发明的效果和益处是：本发明提出了一种面向图像分类的深度卷积神经网络的优化方法，通过在卷积层使用最大-均值池化方式和在全连接层采用Maxout激活函数，能够学习精确特征表达。并且隐层的二值哈希编码使网络能够学习高效二值哈希编码，减少计算开销。

附图说明

图1是一种面向图像分类的深度卷积神经网络的优化方法的示意图。

具体实施方式

为了更好的说明本发明的技术方案，下面结合附图，通过1个实施例，对本发明做进一步说明。

参照图1，一种面向图像分类的深度卷积神经网络的优化方法，包括构建、训练和测试三个过程。

本实施案例中的图片分为100类，每类图片有600张。在每类图片中随机挑选500张图片用于训练，剩余100张图片用于测试。一种面向图像分类的深度卷积神经网络的优化方法，其结构框架如图1所示，操作步骤包括网络构建，训练和测试，具体如下：

步骤一、构建图像分类卷积神经网络，如图1所示：

步骤1.1：该网络的基本框架由五个卷积层、三个池化层、三个全连接层、一个隐层和一个Softmax层组成。每层由多个二维平面组成，每个平面包含多个独立神经元。前两个卷积层后Relu激活、归一化和池化操作，后两个卷积层后跟Relu激活，最后一个卷积层后跟Relu激活、池化操作。全连接层Fc6和Fc7后跟Relu激活、Dropout稀疏操作。全连接层Fc8后跟Softmax线性分类器，输出分类图像属于某一类别的概率。

步骤1.2：三个池化层用最大值-均值池化方式。即将卷积层的输出分别用最大值、均值池化处理。两种方式的池化操作核大小为3，偏移量为2，边缘填充为1。输出最大池化值和平均池化值。再将最大池化值和平均池化值作为Eltwise函数的输入，采用总和操作输出总池化值。

步骤1.3：在全连接层采用Maxout激活函数。即把FC-6层和FC-7层的输出后接Slice函数随机将输出分为两个部分:slice1、slice2和slice3、slice4。

步骤1.4：在Slice层后接Eltwise函数，采用最大值操作方式输出slice1和slice2两个输入中的最大值以及slice3和slice4两个输入中的最大值。通过步骤1.3和1.4实现全连接层的Maxout激活。

步骤1.5：在全连接层的FC-7和FC-8层之间增加一个新的隐层H，设定隐层神经元个数n＝128。隐层的其他设计和其他全连接层相同。

步骤1.6：隐层H后接一个Sigmoid激活函数来控制隐层神经元的活动，把128维的输出控制为{0，1}。

步骤1.7：FC-8层输出节点数设定为100。

图像分类卷积神经网络参数如表1所示。

表1

步骤二、训练图像分类卷积神经网络，过程如下：

步骤2.1：对256*256的输入图像随机裁剪到227*227大小，并将裁剪后的图像和裁剪旋转180度后的图像一起输入网络。

步骤2.2：计算训练数据集的均值文件，保存为.binaryproto格式的文件，并在网络的输入层指定均值文件的位置。

步骤2.3：采用预训练网络模型的方式，用在ImageNet数据集上预训练好AlexNet的权值来初始化网络，并对隐层和输出层的权值采用随机初始化的方式。

步骤2.4：向初始化后的网络中输入训练样本和标签，计算输入的Softmax损失值，通过反向传播算法在cifar100数据集上微调网络参数,最小化损失函数值。

步骤2.5：设定批处理数据大小为64,初始学习率0.001，最大迭代次数50000次，迭代25000次的时候学习率乘以0.1，并采用随机梯度下降法训练数据。设定迭代10000次保存一次网络模型。

步骤2.6：一次训练完成之后，将最终保存的网络模型作为预训练模型，将初始学习率乘以0.1，重新训练网络，直到损失函数基本不再变化。保留最终的网络模型作为最终结果。

步骤三、测试图像分类卷积神经网络，过程如下：

将预处理好的测试数据集送入训练好的网络模型，网络输出测试图像被正确分类的概率；

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向图像分类的深度卷积神经网络的优化方法，其特征在于：包括以下步骤；

步骤一、构建图像分类卷积神经网络，过程如下：

步骤二、训练图像分类卷积神经网络，过程如下：

步骤2.1：在网络的输入层对输入的图像进行随机裁剪，并将裁剪后的图像和裁剪旋转180度后的图像一起输入网络模型中；

步骤2.2：计算训练数据集的均值文件；

步骤三、测试图像分类卷积神经网络，过程如下：