CN108596258A

CN108596258A - 一种基于卷积神经网络随机池化的图像分类方法

Info

Publication number: CN108596258A
Application number: CN201810391921.3A
Authority: CN
Inventors: 吴晓富; 史璐璐; 张索非
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2018-09-28
Anticipated expiration: 2038-04-27
Also published as: CN108596258B

Abstract

本发明公开了一种基于卷积神经网络随机池化的图像分类方法，该方法包括如下步骤：将待处理图像数据集划分为训练集、测试集；设计分类任务的卷积神经网络；对图像训练集和测试集在输入训练卷积网络前进行预处理；将预处理后的训练集和测试集依次分批量导入卷积神经网络，卷积层得到四维张量特征图，使用激活函数激活特征图；将激活后的特征图导入池化层进行随机池化采样概率的运算；分别计算输出训练、测试阶段的随机池化响应；利用训练集训练卷积神经网络模型，利用分类训练好的模型完成对测试集的分类。本发明有效地解决了图像分类任务中，卷积神经网络随机池化通用于负值响应激活函数的问题，极大地提高了卷积神经网络泛化能力。

Description

一种基于卷积神经网络随机池化的图像分类方法

技术领域

本发明属于计算机视觉、深度学习中卷积神经网络技术领域，具体涉及一种基于卷积神经网络随机池化的图像分类方法。

背景技术

卷积神经网络在许多视觉图像识别任务中具有极好的性能，尤其是近几年ImageNet的大尺度视觉识别挑战赛(ILSVRC)上取得了突破性的成绩。视觉图像识别性能在卷积神经网络的改善主要取决于两个方面：强大的网络模型和网络防止过拟合策略。深度卷积神经网络起先最大突破是在ILSVRC 2012年取得冠军的AlexNet，从此之后多种卷积神经网络结构出现：从ILSVRC 2013的ZFNet，Overfeat到ILSVRC 2014的GoogLeNet，VGGNet再到ILSVRC 2015的ResNet等。但是，随着网络容量的增加，例如，提高的深度，加宽的宽度等，卷积神经网络更容易过拟合。近几年，有多种正则化方法被提出减少网络过拟合的影响，包括权重衰减，dropout，数据增强技术等。

随机池化也被认为是一种正则化方法，相比较常用的最大池化它更容易减少网络过拟合影响。池化层是构成深度卷积神经网络的一个标准部分。常用的最大池化方法是一种确定的池化方法，它只需在每个池化区域找出最大的激活值作为输出，而对于随机池化，在池化区域内每个激活元素都有机会被选中成为输出。然而，对于具有负值响应的激活值，传统的随机池化方法受到了很大程度的限制。传统的随机池化方法仅仅适用于当时提出的ReLU这种具有非负激活响应的激活函数，这对于目前提出较新的具有负值响应的一些激活函数，例如Leaky ReLU，PReLU以及ELU等，完全无法适用。那么如何在图像分类识别任务中用卷积神经网络随机池化方法运算选取来自激活函数的负值响应成为主要问题。

发明内容

发明目的：针对现有技术存在的不足和缺陷，本发明提供一种基于卷积神经网络随机池化的图像分类方法，提高卷积神经网络在图像分类任务中的泛化能力和准确度，防止过拟合。

技术方案：为实现本发明的上述目的，本发明所采用的技术方案是：一种基于卷积神经网络随机池化的图像分类方法，该方法包括如下步骤：

(1)将待处理图像数据集划分为训练集、测试集；

(2)设计用于待处理图像数据集分类任务的卷积神经网络；

(3)对图像训练集和测试集在输入训练卷积网络前进行预处理；

(4)将预处理后的训练集和测试集依次分批量导入卷积神经网络结构中，卷积层得到四维张量特征图，使用激活函数激活特征图；

(5)将激活后的特征图导入卷积神经网络的池化层进行随机池化采样概率的运算；

(6)以每个池化域内采样概率形成的多项式分布进行采样，输出为训练阶段的随机池化响应；

(7)利用训练集训练卷积神经网络模型，利用分类训练好的卷积神经网络模型完成对测试集的分类。

其中，在步骤(2)中，设计用于待处理图像数据集分类任务的卷积神经网络包括层数，每层卷积核大小，每层特征图个数，全连接层的节点个数以及各层参数初始化策略，每层卷积层后的非线性激活函数具有负值响应的激活函数。

其中，在步骤(3)中，所述对图像训练集和测试集在输入训练卷积网络前进行预处理方法如下：首先将每张图像放缩到固定的尺寸大小，然后对于训练集和测试集，每张图片的每个通道内的像素点都减去训练集在每个通道的统计平均值，最后对图像的每个通道的像素值缩放到[0，1]区间。

其中，在步骤(5)中，随机池化采样概率的运算方法如下：该运算首先将激活后的特征图在每个池化域中减去该池化域中最小的激活值，再以池化域中平移得到的非负激活值，归一化计算得到每个池化域内激活值对应的采样概率。

其中，第j个池化域R_j内，每个激活元素a_i的采样概率p_i的计算方法如下：

其中，在步骤(6)中，以池化域内激活值的采样概率平均运算输出为测试阶段的随机池化响应。

其中，在步骤(7)中，按照基于mini-batch的随机梯度下降方法，利用训练集来训练卷积神经网络模型，利用分类训练好的卷积神经网络模型完成对测试集的分类。

有益效果：与现有技术相比，本发明具有以下优点：

本发明在具有池化层的深度卷积神经网络实现图像分类识别过程中，提出一种适用于卷积神经网络，通用于负值响应激活函数的随机池化方法在保证算法可行性的同时，极大的提高了卷积神经网络的泛化能力和准确度，防止过拟合。

附图说明

图1是本发明的一种基于卷积神经网络随机池化的图像分类方法流程图；

图2是非线性激活函数ReLU对于随机池化和传统随机池化在VGG-16卷积神经网络，CIFAR-10数据集下训练与测试分类错误率的比较；

图3是在不同类型负值响应激活函数的VGG-16卷积神经网络中，某随机池化层输入输出激活值大小的分布直方图；

图4是在VGG-16卷积神经网络下，ELU在CIFAR-10，CIFAR-100两个图像分类数据集具体训练、测试的分类错误率曲线。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

1、将待处理图像数据集划分为训练集、测试集，卷积神经网络对图像分类数据集的处理分为训练阶段和测试阶段。

2、设计一种用于待处理图像数据集分类任务的卷积神经网络结构，包括层数，每层卷积核大小，每层特征图个数，全连接层的节点个数以及各层参数初始化策略，每层卷积层后的非线性激活函数。

本发明设计一种类似于16层的VGG(VGG-16)的卷积神经网络结构，该网络结构的卷积层包含最后的三层全连接层一共是16层，每层卷积核的大小为3×3大小，越高层的卷积层输出的特征图个数越多，池化层池化域的大小为2×2，步长为2且没有重叠区域，全连接层节点个数根据分类数据集的图像的尺寸将其设定为512，各层的参数初始化策略选择的是MSRA的初始化方法。每层卷积层后的非线性激活函数可以是具有负值响应的激活函数，比如在ReLU上优化得到的Leaky ReLU，PReLU，ELU等。

3、对图像训练集和测试集在输入训练卷积网络前进行预处理，即先将每张图像放缩到固定的尺寸大小，再对训练集和测试集中的每张图片的每个通道的每个像素点减去训练集在每个通道的统计平均值，然后对图像的每个通道的像素值缩放到[0，1]区间，以此来提高网络训练时的准确率。

4、将预处理后的训练集和测试集依次分批量导入卷积神经网络结构中，即训练集分批量输入卷积神经网络，训练集每完成一轮对卷积神经网络的训练，就用测试集分批量输入网络测试已训练模型的效果。卷积层进行卷积运算得到四维张量特征图。卷积层的卷积运算对输入图像进行边缘特征提取，通过卷积核对输入的批量彩色图像或四维张量进行卷积运算，得到对应的特征图，将其记为c。再将非线性激活函数作用到每个特征图元素中得到激活后的特征图。激活函数表示为f(.)，经过激活函数的特征图表示为a＝f(c)。

5、将激活后的特征图导入池化层进行随机池化采样概率的运算

激活后的特征图a输入到池化层，池化层将在每个池化区域R中输出一个池化响应值s。对于传统的最大池化和平均池化方法，池化这个处理过程是确定的，池化层的处理过程如下：

其中，a_i＝f(c_i)，R_j是激活后的特征图a的第j个池化域，s_j为第j个池化域池化响应输出。对于最大池化方法，可以表示为：

但是，最大池化和平均池化方法很容易导致网络过拟合，随机池化方法提出后被认为能够减缓该现象。与传统的池化方法不同的是，随机池化对于池化域处理的过程不是确定的，而是随机的，也就是池化域内每个激活元素都有机会被选中成为池化层的响应输出。传统的随机池化处理过程是根据池化域内每个非负激活元素的大小，计算采样概率来实现随机池化的。在第j个池化域R_j内，每个激活元素a_i的采样概率p_i计算如下：

其中，a_k是属于池化域R_j内的激活元素。

从上述p_i的计算可以很明显可以看出，该方法计算只适合非负响应的激活值。传统的随机池化当时提出时也只是考虑了ReLU这一种非负响应的激活函数，对如今具有负值响应的激活函数，如Leaky ReLU，PReLU和ELU等是完全无法适用的。

上述传统的随机池化方法计算采样概率对于负值响应的激活函数显然已无法适用，针对该问题，本发明提出了一种通用于负值响应激活函数的随机池化方法，该方法计算采样概率如下：

其中，a_k是属于池化域R_j内的激活元素，表示池化域R_j中a_i减去该池化域中最小的激活值再以池化域R_j中平移得到的非负值在R_j中归一化计算得到池化域内激活值对应的采样概率p_i。

经过对池化域内每个激活值的平移为非负值操作，对其概率的计算才具有意义。该方法不严格等效于ReLU在传统的随机池化应用，但是相比却有较好的性能。图2显示了非线性激活函数ReLU对于随机池化(GeneralizedSto Pooling)和传统随机池化(StoPooling)在16层的VGG(VGG-16)卷积神经网络，CIFAR-10数据集下训练与测试分类错误率的比较。

同时也研究了对于负值响应激活函数保留负激活值的必要性，最常使用的最大池化方法，对于负值响应的激活值都存在一定程度的保留，那么对于池化域中不管是非负还是负值响应激活值应该都有机会被保留。图3显示了VGG-16网络下随机池化某池化层的输入(Input Activation)与输出(Output Pooled Activation)激活值大小的分布直方图。对于ReLU随机池化(GeneralizedSto Pooling)与传统的随机池化(Sto Pooling)分布上存在轻微区别，其中ELU上负值响应激活值分布的概率较高，更证明了负值响应激活值被保留的必要性。

6、以每个池化域内采样概率形成的多项式分布进行采样，输出为训练阶段的随机池化响应，训练阶段对应的池化响应值，可以表示为：

其中，位置l是根据上述第j个池化域内的|R_j|个概率值p形成的多项式分布，即采样得到。

上述池化响应值s_j指的是训练阶段的随机池化输出，对于测试阶段，随机池化输出仅需要对池化域内所有激活值进行采样概率平均运算，如下：

7、基于mini-batch的随机梯度下降方法，利用训练集来训练卷积神经网络模型，利用分类训练好的卷积神经网络模型完成对测试集的分类。

将上述整个过程在Caffe框架下实现，该实施卷积神经网络在图像分类识别泛化能力效果验证所用图像分类数据集是CIFAR-10，CIFAR-100，分别为分10类，100类的训练集为50000张，测试集为10000张，大小为32×32的彩色图像。

表1为多种具有负值响应激活值的激活函数对于随机池化和最大池化在CIFAR-10，CIFAR-100两个图像分类数据集，且在本发明设计的VGG-16网络下测试分类准确率，其中表中GeneralizedSto指的是随机池化方法，Max表示的是最大池化方法。表1显示了，本发明的随机池化对于非线性激活函数不管是否为负值响应激活函数，训练出来的网络模型泛化能力都远优于常用标准的最大池化，其中具有负值响应激活值的激活函数ELU最明显，图4给出了其具体训练、测试的分类错误率曲线。

表1

图4显示了，VGG-16网络下ELU在CIFAR-10，CIFAR-100两个图像分类数据集，随机池化(GeneralizedSto Pooling)与常用标准的最大池化(Max Pooling)的图像分类识别性能比较。随机池化相比较于最大池化对于卷积神经网络具有更好的泛化能力。由本实施例的结果可以看出，本发明对卷积神经网络在图像分类中的泛化能力和准确度得到了很大的提升，充分证明了本发明的有效性。

Claims

1.一种基于卷积神经网络随机池化的图像分类方法，其特征在于，该方法包括如下步骤：

(1)将待处理图像数据集划分为训练集、测试集；

(2)设计用于待处理图像数据集分类任务的卷积神经网络；

(7)使用训练集训练卷积神经网络模型，利用分类训练好的卷积神经网络模型完成对测试集的分类。

2.根据权利要求1所述的一种基于卷积神经网络随机池化的图像分类方法，其特征在于，在步骤(2)中，设计用于待处理图像数据集分类任务的卷积神经网络包括卷积神经网络层数，每层卷积核大小，每层特征图个数，全连接层的节点个数以及各层参数初始化策略，并且每层卷积层后的非线性激活函数是具有负值响应的激活函数。

3.根据权利要求1所述的一种基于卷积神经网络随机池化的图像分类方法，其特征在于，在步骤(3)中，所述对图像训练集和测试集在输入训练卷积网络前进行预处理方法如下：首先将每张图像放缩到固定的尺寸大小，然后对于训练集和测试集，每张图片的每个通道内的像素点都减去训练集在每个通道的统计平均值，最后对图像的每个通道的像素值缩放到[0，1]区间。

4.根据权利要求1所述的一种基于卷积神经网络随机池化的图像分类方法，其特征在于，在步骤(5)中，随机池化采样概率的运算方法如下：该运算首先将激活后的特征图在每个池化域中减去该池化域中最小的激活值，再以池化域中平移得到的非负激活值，归一化计算得到每个池化域内激活值对应的采样概率。

5.根据权利要求4所述的一种基于卷积神经网络随机池化的图像分类方法，其特征在于，第j个池化域R_j内，每个激活元素a_i的采样概率p_i的计算方法如下：

6.根据权利要求1所述的一种基于卷积神经网络随机池化的图像分类方法，其特征在于，在步骤(6)中，以池化域内激活值的采样概率平均运算输出为测试阶段的随机池化响应。

7.根据权利要求1所述的一种基于卷积神经网络随机池化的图像分类方法，其特征在于，在步骤(7)中，按照基于mini-batch的随机梯度下降方法，利用训练集来训练卷积神经网络模型，利用分类训练好的卷积神经网络模型完成对测试集的分类。