CN106960243A

CN106960243A - 一种改进卷积神经网络结构的方法

Info

Publication number: CN106960243A
Application number: CN201710126994.5A
Authority: CN
Inventors: 徐富新; 岳凯宇; 刘雁群
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-03-06
Filing date: 2017-03-06
Publication date: 2017-07-18

Abstract

本发明涉及深度学习领域，特别涉及了一种改进卷积神经网络结构的方法。步骤a：利用分数阶最大值池化(Fractional Max Pooling)原理，将传统卷积神经网络结构中的最大值池化层全部更改为分数阶，达到图像任意维度的下采样降维；步骤b：在保证网络结构浅的前提下，通过不断加宽网络结构，结合分数阶最大值池化层，使得网络性能得到提升。本发明利用分数阶最大值池化原理，保证层数在浅的程度，不断加宽网络，从而避免深型网络在训练过程中出现的梯度消失(Gradient Vanish)与权重失效的现象导致卷积神经网络难以训练的问题，使得其性能与深型卷积网络结构相当甚至更好，网络参数更少，本发明具有明显的性能优势。

Description

一种改进卷积神经网络结构的方法

技术领域

本发明涉及深度学习领域，涉及了一种基于分数阶最大值池化原理，结合对浅型网络加宽的手段，提高卷积神经网络结性能的方法。特别是一种改进卷积神经网络结构的方法。

背景技术

卷积神经网络(Convolutional Neural Network)是近期在模式识别领域最流行的一种数据驱动型方法，目前已经被大量科研实验证明，在图像分类任务领域有很高的性能。如图1所示，传统的卷积神经网络结构是由以下几部分组成的：(1)输入层；(2)卷积层；(3)最大值池化层；(4)全连接层。卷积层中包含多个卷积算子作用在输入层的图像上，进行下面运算：W^TX，其中，X矩阵表示为多个输入图像，它的每一列存储着一幅图像的像素信息，矩阵W表示卷积算子，每一行表示一个卷积算子，连个矩阵相乘得到的是通过卷积算子处理过的新的多个图像，每一行表示特征向量作为下一层的输入图像。在被下一层处理之前，需要对特征矩阵进行非线性激活：σ(W^TX+b)，其中，b为全部为1的偏置矩阵，一般地非线性函数σ(·)为：σ(·)＝max(·，0)，如果作用域对象是矩阵，则对矩阵的每一个元素上述公式进行处理。接下来就是最大值池化，这个过程属于非线性变换，将从前面层传来的输入图像，以固定的整数移动步长，在R×R区域内进行取像素最大值，直到遍历完整张图像，通常R取值根据前后层输出图像的尺寸要求进行设计，保证以整数步长让取值区域遍历完整张图像。经过多层卷积与最大值池化处理，最后得到维数非常小的图像矩阵，将矩阵转化为向量，通过全连接层将这些向量值映射到最终输出的目标值上面，整个过程就是完整的传统卷积神经网络结构。

近几年，卷积神经网络在领域中逐渐发展向层数规模更深的趋势上逼近，这种方法虽然能提升卷积神经网络的性能，但是同时会带来以下问题：在训练过程中，由于是所有层的权重与每层相应的归一化(将原本是0到255整数的像素值归一化为0到1之间的多精度小数值)后的图像像素值进行相乘，连乘会导致结果越乘越小，从而使得在反向传播过程中求得的梯度值也是非常小的，如果让卷积神经网络的结构变得越来越深，梯度会逼近零，出现梯度消失的现象，因此无法有效地更新权重，导致卷积神经网络难以训练。

目前，能使网络结构变浅，且能避免由结构加深带来的上述问题，同时保证性能不会太差的一种方法称为MIMIC方法，其整个原理是首先去训练一个性能较好的深型网络，称为Teacher模型，这个模型作为一个先验模型使用，然后会通过迁移或者是其他手段，在深型Teacher模型的基础上，继续训练得到一个浅型的网络作为Student模型，这样两个模型配合在一起，浅型的Student网络充当真正识别的网络，相当于将网络变浅。这样的方法首先还是要涉及到训练较深的模型，避免不了上述由深层带来的梯度消失的问题，其次，该方法的训练过程是分开、独立的，并且操作过程繁琐，不是简单的端到端的整体训练模式，一次性得到性能较好的浅型网络。

综上两点背景与问题描述，本发明提出一种改进卷积神经网络结构的方法，将上述优点进行整合，提升网络性能，同时也能避免原有缺点及问题。

发明内容

本发明所针对的问题是由于网络结构加深引起训练过程梯度消失导致训练效率不高，提出了一种基于分数阶最大值池化的浅宽型卷积神经网络结构，避免了上述问题的出现，同时提升了网络的性能。

为了解决上述技术问题，本发明所提出的技术方案是一种分数阶最大值池化的浅宽型卷积神经网络结构，包括以下步骤细节：

(1)利用分数阶最大值池化(Fractional Max Pooling)原理，将传统卷积神经网络结构中的最大值池化层全部更改为分数阶，达到图像任意维度的下采样降维；

(2)在保证网络结构浅的前提下，通过不断加宽网络结构，结合分数阶最大值池化层，使得网络性能得到提升。

第一个步骤为图像输入层，输入的图像可以为单通道的灰度图像，也可以为3通道(RGB)的彩色图像。图像的尺寸理论上可以为任意尺寸，尝试使用的尺寸有32x32，64x64，224x224等。

按照上述步骤第一步、第二步将图像进行卷积处理，本发明中所使用的所有卷积核大小一律设置成3×3尺寸大小，卷积层中包含多个卷积算子作用在输入层的图像上，具体步骤如下：WTX，其中，X矩阵表示为多个输入图像，其中每列存储着一幅图像的像素信息，矩阵W表示卷积算子，每一行表示一个卷积算子，连个矩阵相乘得到的是通过卷积算子处理过的新的多个图像，每一行表示特征向量作为下一层的输入图像。按照上述步骤二，在经过一层卷积层之后，添加一层批量归一化层(Batch Normalization)作为第三个步骤，具体步骤如下：

由于梯度更新一次时完成一次迭代，在一次迭代中，使用多张图像进行训练，首先计算得到这些图像的均值：其中，xi表示第i张图像。然后计算这些图像的方差：得到均值与方差之后，便可以将一次迭代中的这些图像进行归一化处理：其中，表示归一化之后的每一幅图像(特征图像)，∈为小于1的常数。

在经过上述步骤——批量归一化之后，进行非线性激活，图中ReLU函数具体步骤为：σ(·)＝max(·，0)，按照上述三个步骤，完成了一个结构块(Block)，重复这样的结构7次，得到7层的卷积神经网络结构，在模式识别领域，卷积神经网络层数的计算只考虑卷积层，其他层不考虑，因为只有卷进层含有训练的权重参数，其他层均没有。

在上述重复7次Block步骤之后，前面6个Block中，每两个Block中间插入一个分数阶最大值池化层(Fractional Max Pooling Layer)，具体步骤如下：

利用分数阶最大值池化(Fractional Max Pooling)原理，将传统卷积神经网络结构中的最大值池化层全部更改为分数阶最大值池化。具体步骤如下：输入矩阵的维度表示为N_in×N_in,经过池化处理之后矩阵的维度表示为 N_out×N_out，由于进行降采样的对象是含有图像像素信息的矩阵，对输入图像的处理区域表示为R_i，j∈{1，2，...，N_in}²，对应输出图像位置是一个像素点： (i，j)∈{1，2，...，N_out}²，一般的，在卷积神经网络结构中，隐藏层中特征图像的长宽比例是1:1，因此上述公式中表示图像维度均为N_in ²或者是N_out ²。然后对输入图像进行分数阶的最大值池化处理，有：

输入图像矩阵的维度为整数，确定最大值池化区域R_i，j：R_i，j＝[a_i-1，a_i]×[b_i-1，b_i]，其中，a_i确定的方式为：a_i＝ceiling(α(i+u))，α∈(1，2)，u∈(0，1)，其中，i为像素点坐标，一般的a_i-1-a_i＝{1，2}，b_i-1-b_i＝{1，2}，通过上述公式确定的最大值池化区域之间的关系是相互重叠方式。经过上述过程之后，在最后一个Block之后，在本发明中，不使用传统的全连接层，使用平均池化层(Average Pooling)进行映射到分类的类别上面，具体步骤为：其中，n为一副特征图像转换为一维向量之后的维度。最后，通过sigmoid损失函数计算每一个类别上的概率值，具体为：按照上述步骤，替换最大值池化层为分数阶最大值池化层之后，训练的方法使用梯度反向传播算法，训练过程中，使网络结构不断地加宽.

本发明与现有技术相比具有如下特点：一种改进卷进神经网络结构的方法，避免了上述由深层带来的梯度消失的问题，其次，该方法的训练过程是分开、独立的，并且操作过程繁琐，不是简单的端到端的整体训练模式，而是一次性得到性能较好的浅型网络。上述的优点整合在一起，提升网络性能。

同时，解决了在训练过程中，由于是所有层的权重与每层相应的归一化 (将原本是0到255整数的像素值归一化为0到1之间的多精度小数值)后的图像像素值进行相乘，连乘会导致结果越乘越小，从而使得在反向传播过程中求得的梯度值也是非常小的，如果让卷积神经网络的结构变得越来越深，梯度会逼近零，出现梯度消失的现象，因此可以有效地更新权重，导致卷积神经网络得以训练。

以下结合附图和具体实施方式对本发明的详细结构作进一步描述。

附图说明

图1是传统卷积神经网络结构示意图；

图2是基于分数阶最大值池化的浅宽型卷积神经网络结构示意图；

图3MNIST数据集训练与测试收敛示意图；

图4CIFAR10数据集训练与测试收敛示意图；

图5CIFAR100数据集训练与测试收敛示意图；

图6本发明在参数规模、性能方面与MIMIC方法的对比示意图。(本发明在参数规模、准确率方面与MIMIC方法的对比示意图)。

具体实施方式

如图2所示，本发明提出的网络结构示意图，在结构中，第一个步骤为图像输入层，输入的图像可以为单通道的灰度图像，也可以为3通道(RGB) 的彩色图像。图像的尺寸理论上可以为任意尺寸，尝试使用的尺寸有32x32， 64x64，224x224等。

按照上述步骤一，第二步将图像进行卷积处理，本发明中所使用的所有卷积核大小一律设置成3×3尺寸大小，卷积层中包含多个卷积算子作用在输入层的图像上，具体步骤如下：W^TX，其中，X矩阵表示为多个输入图像，其中每列存储着一幅图像的像素信息，矩阵W表示卷积算子，每一行表示一个卷积算子，连个矩阵相乘得到的是通过卷积算子处理过的新的多个图像，每一行表示特征向量作为下一层的输入图像。按照上述步骤二，在经过一层卷积层之后，添加一层批量归一化层(Batch Normalization)作为第三个步骤，具体步骤如下：

由于梯度更新一次时完成一次迭代，在一次迭代中，使用多张图像进行训练，首先计算得到这些图像的均值：其中，x_i表示第i张图像。然后计算这些图像的方差：得到均值与方差之后，便可以将一次迭代中的这些图像进行归一化处理：其中，表示归一化之后的每一幅图像(特征图像)，∈为小于1的常数。

在经过上述步骤-批量归一化之后，进行非线性激活，图中ReLU函数具体步骤为：σ(·)＝max(·，0)，按照上述三个步骤，完成了一个结构块(Block)，重复这样的结构7次，得到7层的卷积神经网络结构(在模式识别领域，卷积神经网络层数的计算只考虑卷积层，其他层不考虑，因为只有卷积层含有训练的权重参数，其他层均没有)。

在上述重复7次Block步骤之后，前面6个Block中，每两个Block中间插入一个分数阶最大值池化层(Fractional MaxPooling Layer)，具体步骤如下：利用分数阶最大值池化(Fractional Max Pooling)原理，将传统卷积神经网络结构中的最大值池化层全部更改为分数阶最大值池化。具体步骤如下：输入矩阵的维度表示为N_in×N_in,经过池化处理之后矩阵的维度表示为 N_out×N_out，由于进行降采样的对象是含有图像像素信息的矩阵，对输入图像的处理区域表示为R_i，j∈{1，2，...，N_in}²，对应输出图像位置是一个像素点： (i，j)∈{1，2，...，N_out}²，一般的，在卷积神经网络结构中，隐藏层中特征图像的长宽比例是1:1，因此上述公式中表示图像维度均为N_in ²或者是N_out ²。然后对输入图像进行分数阶的最大值池化处理，有：输入图像矩阵的维度为整数，确定最大值池化区域R_i，j：R_i，j＝[a_i-1，a_i]×[b_i-1，b_i]，其中，a_i确定的方式为：a_i＝ceiling(α(i+u))，α∈(1，2)，withsome u ∈(0，1)，其中，i为像素点坐标，一般的a_i-1-a_i＝{1，2}，b_i-1-b_i＝{1，2}，通过上述公式确定的最大值池化区域之间的关系是相互重叠方式。经过上述过程之后，在最后一个 Block之后，在本发明中，不使用传统的全连接层，使用平均池化层(Average Pooling)进行映射到分类的类别上面，具体步骤为：其中，n为一副特征图像转换为一维向量之后的维度。最后，通过sigmoid损失函数计算每一个类别上的概率值，具体为：按照上述步骤，替换最大值池化层为分数阶最大值池化层之后，训练的方法使用梯度反向传播算法，训练过程中，使网络结构不断地加宽，

具体步骤如下：本发明设计的浅宽型卷积神经网络，卷积层有七层。前三层卷积层使用同一宽度值F1，后四层卷积层使用同一宽度值F2，使用了四种宽度，分别为F1＝64，F2＝128；F1＝96，F2＝192；F1＝128，F2＝512；F1＝512， F2＝1024，在MNIST、CIFAR10、CIFAR100图像分类数据集上进行训练与测试，得到其收敛曲线分别如图3、图4、图5所示。从图中可以看到，本发明方案的浅宽型卷积神经网络结构是收敛的，且能很快达到稳定的正确率，图线显示出经过50次左右迭代就能达到稳定。

性能方面，本发明方案在MNIST数据集、CIFAR100数据集上训练得到的识别正确率分别为99.75％、74.21％，而其他深型结构网络的识别正确率各为99.68％，73.61％，因此，本发明提出的浅宽型网络结构与其他深型网络结构相比，性能上得以提升。

另外，本发明在网络参数规模方面也有很大的优势，如图5所示为本结构的详细参数表，可以看出本发明结构最宽的网络的参数为10.18M，相比于 MIMIC方法，大大减少了参数规模，能非常有效地缩短计算时间，并且，对同一种数据集的性能测试表明，MIMIC方法最好的准确率为92.6％，本发明的基于分数阶最大值池化浅宽型网络的准确率为93.09％。可以看出，在参数规模大幅度减少的情况下，既节约了运算时间，又提升了准确率。说明本发明不仅避免了梯度消失的问题，同时也解决了参数冗余的问题，利用分数阶最大值池化法，明显提升了卷积神经网络的性能。

Claims

1.一种基于分数阶最大值池化的浅宽型卷积神经网络结构，其特征在于，包括由以下几个步骤：

1)利用分数阶最大值池化原理，将传统卷积神经网络结构中的最大值池化层全部更改为分数阶最大值池化层，达到图像任意维度的下采样降维；

2)在保证网络结构浅的前提下，通过不断加宽网络结构，结合分数阶最大值池化层，使得网络性能得到提升。

2.根据权利要求1所述的基于分数阶最大值池化方法，其特征在于，具体步骤如下：

输入矩阵的维度表示为N_in×N_in,经过池化处理之后矩阵的维度表示为N_out×N_out，由于进行降采样的对象是含有图像像素信息的矩阵，对输入图像的处理区域表示为R_i，j∈{1，2，...，N_in}²，对应输出图像位置是一个像素点：(i，j)∈{1，2，...，N_out}²，一般的，在卷积神经网络结构中，隐藏层中特征图像的长宽比例是1:1，因此上述公式中表示图像维度均为N_in ²或者是N_out ²。然后对输入图像进行分数阶的最大值池化处理，有：输入图像矩阵的维度为整数，确定最大值池化区域R_i，j：R_i，j＝[a_i-1，a_i]×[b_i-1，b_i]，其中，a_i确定的方式为：a_i＝ceiling(α(i+u,α∈1,2,u∈0,1，其中，i′为像素点坐标，一般的ai-1-ai＝{1,2}，bi-1-b_i＝{1，2}，通过上述公式确定的最大值池化区域之间的关系是相互重叠方式。

3.在权利要求2所述的浅宽型网络，使网络结构不断地加宽，其特征在于，具体步骤如下：本发明涉及到的一种基于分数阶最大值池化的浅宽型卷积神经网络，含有七层卷积层。前三层卷积层使用同一宽度值F1，后四层卷积层使用同一宽度值F2，使用了四种宽度，分别为F1＝64，F2＝128；F1＝96，F2＝192；F1＝128，F2＝512；F1＝512，F2＝1024。

4.根据权要求2所述的一种改进卷积神经网络结构的方法，其特征是：具体可分为以下步骤：第一个步骤为图像输入层，输入的图像可以为单通道的灰度图像，也可以为3通道(RGB)的彩色图像。图像的尺寸理论上可以为任意尺寸，尝试使用的尺寸有32x32，64x64，224x224等。按照上述步骤一，第二步将图像进行卷积处理，本发明中所使用的所有卷积核大小一律设置成3×3尺寸大小，卷积层中包含多个卷积算子作用在输入层的图像上，具体步骤如下：W^TX，其中，X矩阵表示为多个输入图像，其中每列存储着一幅图像的像素信息，矩阵W表示卷积算子，每一行表示一个卷积算子，连个矩阵相乘得到的是通过卷积算子处理过的新的多个图像，每一行表示特征向量作为下一层的输入图像。按照上述步骤二，在经过一层卷积层之后，添加一层批量归一化层(Batch Normalization)作为第三个步骤，具体步骤如下：由于梯度更新一次时完成一次迭代，在一次迭代中，使用多张图像进行训练，首先计算得到这些图像的均值：其中，x_i表示第i张图像。然后计算这些图像的方差：得到均值与方差之后，便可以将一次迭代中的这些图像进行归一化处理：其中，表示归一化之后的每一幅图像(特征图像)，∈为小于1的常数。在经过上述步骤-批量归一化之后，进行非线性激活，图中ReLU函数具体步骤为：σ(·)＝max(·，0)，按照上述三个步骤，完成了一个结构块(Block)，重复这样的结构7次，得到7层的卷积神经网络结构(在模式识别领域，卷积神经网络层数的计算只考虑卷积层，其他层不考虑，因为只有卷进层含有训练的权重参数，其他层均没有)。在上述重复7次Block步骤之后，前面6个Block中，每两个Block中间插入一个分数阶最大值池化层(Fractional MaxPooling Layer)，具体步骤如下：利用分数阶最大值池化(Fractional Max Pooling)原理，将传统卷积神经网络结构中的最大值池化层全部更改为分数阶最大值池化。具体步骤如下：输入矩阵的维度表示为N_in×N_in,经过池化处理之后矩阵的维度表示为N_out×N_out，由于进行降采样的对象是含有图像像素信息的矩阵，对输入图像的处理区域表示为R_i，j∈{1，2，...，Nin}²，对应输出图像位置是一个像素点：(i，j)∈{1，2，...，N_out}²，一般的，在卷积神经网络结构中，隐藏层中特征图像的长宽比例是1:1，因此上述公式中表示图像维度均为N_in ²或者是N_out ²。然后对输入图像进行分数阶的最大值池化处理，有：输入图像矩阵的维度为整数，确定最大值池化区域R_i，j：R_i，j＝[a_i-1，a_i]×[b_i-1，b_i]，其中，a_i确定的方式为：a_i＝ceiling(α(i+u))，α∈(1，2)，u∈(0，1)，其中，i为像素点坐标，一般的a_i-1-a_i＝{1，2}，b_i-1-b_i＝{1，2}，通过上述公式确定的最大值池化区域之间的关系是相互重叠方式。经过上述过程之后，在最后一个Block之后，在本发明中，不使用传统的全连接层，使用平均池化层(Average Pooling)进行映射到分类的类别上面，具体步骤为：其中，n为一副特征图像转换为一维向量之后的维度。最后，通过sigmoid损失函数计算每一个类别上的概率值，具体为：按照上述步骤，替换最大值池化层为分数阶最大值池化层之后，训练的方法使用梯度反向传播算法，训练过程中，使网络结构不断地加宽。