CN109685119B

CN109685119B - 一种随机最大池化深度卷积神经网络噪声图形分类方法

Info

Publication number: CN109685119B
Application number: CN201811500515.2A
Authority: CN
Inventors: 芮挺; 费建超; 杨成松; 唐建; 刘建青; 芮思琦; 齐奕; 李华兵; 田辉; 刘好全; 刘华丽; 邵发明
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2023-05-23
Anticipated expiration: 2038-12-07
Also published as: CN109685119A

Abstract

本发明公开一种针对含有噪声图像分类的新型深度卷积神经网络方法，主要特点在于采用了随机最大值池化这一新的池化方法。随机最大值池化方法随机选取感受野范围内前n个较大值作为池化结果，首先将感受野范围内的所有值进行排序，选出前n个较大值；然后在前n个较大值中随机选取一个值作为池化结果。随机最大值池化方法结合了最大池化方法和随机池化方法的特点，既能保留感受野内主要特征信息，又能提高网络对感受野内噪声的抑制作用。本发明在CIFAR‑10，SVHN和MNIST数据集上进行验证，取得较好效果。

Description

一种随机最大池化深度卷积神经网络噪声图形分类方法

技术领域

本发明属于计算机视觉技术领域，涉及到针对噪声图像的分类方法，具体为一种基于随机最大值池化的深度卷积神经网络噪声图像分类方法。

背景技术

在计算机视觉领域，图像分类是一项非常重要的研究内容，被广泛应用在人脸识别，汽车自动驾驶等场合。图像分类问题关键的是特征提取，特征提取的好坏直接影响分类精度。传统的图像分类是通过人工设计特征[1-4]，如HOG-特征、LBP特征和SIFT特征等来实现。随着科学技术的发展，数据集规模增大，且应用场景不断变化，人工设计特征的过程较为复杂，泛化能力较差，无法满足实时性要求和鲁棒性。

2006年以来，深度学习迅速发展[5-7]，在图像分类问题中取得巨大成功。其中，深度卷积神经网络模型应用最为广泛，通过自上而下的非线性数据抽象，来获得用于分类的特征信息，避免了传统人工特征复杂的设计过程。在深度卷积神经网络中，卷积和池化操作操作是提取特征的主要方式。为了获得更好的网络分类性能，研究人员针对卷积核和池化层提出多种改进策略。针对传统卷积核尺寸固定的问题，谷歌团队提出GoogleNet[8]，网络使用Bottleneck结构，对网络每一层特征图利用不同尺寸的卷积核进行特征提取，获得了不同尺度的特征信息；为了在参数数量增加较少的情况下获取更加全局性的特征信息，Fisher[9]等人提出空洞卷积，通过分散卷积点，使得卷积点之间存在空洞，增加了卷积核的视野范围；为了能够增加网络的泛化能力，Zeiler[10]于2013年提出随机池化的概念，通过引入概率值，赋予所有节点被选择的可能性。

上述方法的改进均未考虑噪声的影响，而实际应用中，大多数图像是含有噪声信息的。为了减少噪声对网络分类性能的影响，目前常用的解决方案有两种：对输入图像进行去噪和增强网络本身的鲁棒性。图像去噪的方法有基于空间域的中值滤波、基于小波域的小波阈值滤波和基于偏微分方程的图像去噪等。增强网络本身鲁棒性最常用的方法是在训练过程中人为增加特定噪声以提高网络对噪声的“免疫性”，如Goodfellow[11]等人提出对抗网络，Hinton等人提出Dropout[12]。

本发明从特征提取的源头出发，对池化方式进行改进，提出一种基于随机最大值池化的深度卷积神经网络，提高对噪声图像的分类性能。

发明内容

目前深度卷积神经网络针对噪声图像分类的改进方案较少，主要从增强网络模型整体泛化能力的角度进行改进，并未能从特征提取的角度消除噪声对分类性能的影响。

本发明的技术方案为：一种基于随机最大值池化的深度卷积神经网络的噪声图像分类方法，结合了最大池化方法和随机池化方法的特点，既能保留感受野内主要特征信息，又能提高网络对感受野内噪声的抑制作用，包括以下步骤：

1)将实验数据分成训练集和测试集。

2)对训练集和数据集进行数据预处理：

2.1)为了提升网络的检测速度，达到实时性要求，将数据集中所有图片尺寸变换成32×32；

2.2)对训练集和数据集进行对比度归一化处理，归一化的目的是能够使图像具有仿射不变性，并加快网络收敛的速度；

2.3)对训练集和数据集进行白化处理，去除数据之间的相关性，并具有相同的方差，降低输入的冗余性；

3)采用基于随机最大值池化的深度卷积神经网络进行训练和检测：

3.1)在大量实验的基础上，确定网络结构及网络参数，包括卷积层数，特征图的数量和激活函数等；

3.2)利用训练集进行网络训练。为了解决噪声图像中高频信息对网络提取特征过程的干扰，采用随机最大值池化方法进行深度卷积神经网络训练；

3.3)利用训练出来的网络模型对测试集进行测试。

4)将训练好的网络模型作为含噪声图像分类工具。

本发明与现有增强网络模型泛化能力的方法相比，在特征提取过程中对噪声产生抑制作用，减少噪声对网络分类性能的影响。

附图说明

图1为本发明实现流程图

图2为本发明的网络框架图。

图3为本发明不同n值(选取较大值的个数)下的收敛曲线。

图4为本发明与其他三种模型在噪声图像分类中的收敛曲线。

图5为本发明与其他三种模型在CIFAR-10和SVHN中的分类精度。

图6为本发明与其他三种模型在含噪声CIFAR-10和SVHN中的分类精度。

具体实施方式

本发明针对噪声图像提出了一种基于随机最大值池化的深度卷积神经网络图像分类方法，包括以下步骤：

1)将实验数据分成训练集和测试集，训练集用来训练模型，测试集用来检测模型分类性能。

2)对训练集和数据集进行数据预处理：

2.1)为了提升网络的检测速度，达到实时性要求，将数据集中所有图片尺寸变换成32×32，这个尺寸与大多数标准数据集的尺寸一致；

2.2)对训练集和数据集进行对比度归一化处理，归一化的目的是能够使图像具有相同分布，并加快网络收敛的速度。对比度归一化的具体公式如下：

其中，其中μ和σ分别为均值和标准差。

2.3)对训练集和数据集进行白化处理，去除数据之间的相关性，并具有相同的方差，降低输入的冗余性。白化操作的具体公式如下：

其中，x_rot，i为数据x_i经过PCA变换后的数据，λ_i为对应特征值。

3)采用随机最大值池化深度卷积神经网络进行训练和检测：

3.1)在大量实验的基础上，确定网络结构及网络参数，包括卷积层数，特征图的数量和激活函数等。本发明采用7层网络结构，包括4个卷积层和3个池化层，4个卷积层的特征图数量依次为32×32×64×64，卷积核大小为4，池化尺寸为3×3，激活函数为ReLu，代价函数为Softmax。网络结构如图1所示。

3.2)利用训练集进行网络训练。采用随机最大值池化方法进行深度卷积神经网络训练。

随机最大值池化方法随机选取感受野范围内前n个较大值作为池化结果。首先将感受野范围内的所有值进行排序，并选出前n个较大值；然后在前n个较大值中随机选取一个值作为池化结果。本发明所提方法计算公式如下：

y_restricted＝random(s_n).

其中，random函数将随机选取任意一值；s_n表示感受野范围内前n个较大值，如果设定n＝3，那么在图2中灰色表示的数字即为前3个较大值，随机最大值池化则会从这三个值中随机选择一个作为最终的池化结果。

3.3)利用训练出来的网络模型对测试集进行测试。

4)将训练好的网络模型作为含噪声图像分类工具。

本发明在CIFAR-10和SVHN数据集上与其他几种方法进行比较，包括基于最大值池化的网络(模型A)、基于均值池化的网络(模型B)、基于随机池化的网络(模型C)和基于随机最大值池化的网络(模型D)。

图5展示了当n＝3时，上述四种模型的分类性能。从图5中可以看出，本发明所提模型较其他模型，错误率最低，在SVHN和Cifar-10上正确率分别达到95.1％和78.9％。最大值池化和均值池化模型正确率基本相同，随机池化模型错误率低于前两者，但高于随机最大值池化模型。实验过程中发现n的选择对最终的结果影响较大。为了找出效果最好的n值，设定n＝1～9，进行一系列实验。实验结果如图3所示。从图中可以看出，并不是n值越大效果越好，随着n值得增大错误率会逐渐增高，当n＝9时，则退化为随机池化，因此错误率会增加。上述实验验证了本发明对分类问题的有效性。为了证明对噪声图片分类的有效性，将SVHN和Cifar-10数据集加入高斯噪声(均值为0，方差为0.1)，图6为分类效果。从图6可以看出，本发明所提模型对噪声的测试结果优于其他模型。

实验过程中，如果增大加入图像的高斯噪声强度，则会出现模型A、B、C不能收敛的情况，而基于本发明所提方法的模型D能继续收敛，进一步证明随机最大值池化对噪声的鲁棒性。图4为增加噪声强度(均值为0，方差为0.1)后的Cifar-10数据集的四种模型收敛曲线图。

参考文献：

1.Dalal N，Triggs B.Histograms of oriented gradients for humandetection[C]//Computer Vision and Pattern Recognition，2005.CVPR 2005.IEEEComputer Society Conference on.IEEE，2005，1：886-893.

2.Nguyen D T，Li W，Ogunbona P O.Human detection from images andvideos：A survey[J].Pattern Recognition，2016，51：148-175.

3.Kim Y，Ha S，Kwon J.Human detection using Doppler radar based onphysical characteristics of targets[J].IEEE Geoscience and Remote SensingLetters，2015，12(2)：289-293.

4.Aguilar W G，Luna M A，Moya J F，et al.Pedestrian detection for UAVsusing cascade classifiers with meanshift[C]//Semantic Computing(ICSC)，2017IEEE 11th International Conference on.IEEE，2017：509-514.

5.Nair V，Hinton G E.Rectified linear units improve restrictedboltzmann machines[C]//Proceedings of the 27th international conference onmachine learning(ICML-10).2010：807-814.

6.P.H.Pinheiro，R.Collobert，Recurrent convolutional neural networksfor scene labeling.，in：ICML，2014，pp.82-90

7.Zhu Y，Mottaghi R，Kolve E，et al.Target-driven visual navigation inindoor scenes using deep reinforcement learning[C]//Robotics and Automation(ICRA)，2017 IEEE International Conference on.IEEE，2017：3357-3364.

8.Szegedy C，Liu W，Jia Y，et al.Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015：1-9.

9.Yu F，Koltun V.Multi-scale context aggregation by dilatedconvolutions[J].arXiv preprint arXiv：1511.07122，2015.

10.Zeiler M D，Fergus R.Stochastic Pooling for Regularization of DeepConvolutional Neural Networks[J].Eprint Arxiv，2013.

11.Goodfellow I J，Pougetabadie J，Mirza M，et al.Generative AdversarialNetworks[J].Advances in Neural Information Processing Systems，2014，3：2672-2680.

12.Srivastava N，Hinton G，Krizhevsky A，et al.Dropout：a simple way toprevent neural networks from overfitting[J].Journal of Machine LearningResearch，2014，15(1)：1929-1958.

Claims

1.一种随机最大值池化深度卷积神经网络噪声图形分类方法，其特征在于，首先对采集的实验数据进行预处理，然后基于随机最大值池化方法对深度卷积神经网络进行模型训练，最后利用训练好的深度卷积神经网络模型进行噪声图像分类，包括以下步骤：

1)将采集的实验数据分成用于训练模型的训练集和用于检测模型分类性能的测试集；

2)对训练集和测试集进行数据预处理，具体为：

2.1)将训练集和测试集中所有图片尺寸变换成32×32；

2.2)对训练集和测试集进行对比度归一化处理；

2.3)对训练集和测试集进行白化处理；

3)基于随机最大值池化方法对深度卷积神经网络进行训练和检测，具体为：

3.1)在实验的基础上，确定网络结构及网络参数如下：采用7层深度卷积神经网络结构，包括4个卷积层和3个池化层，4个卷积层的特征图数量依次为32×32×64×64，卷积核大小为4，池化尺寸为3×3，激活函数为ReLu，代价函数为Softmax；

3.2)利用训练集，基于随机最大值池化方法进行深度卷积神经网络训练；

所述随机最大值池化方法具体为：

首先将感受野范围内的所有值进行排序；然后选出前n个较大值；最后在所述前n个较大值中随机选取一个值作为池化结果；

3.3)利用测试集对训练出来的网络模型进行测试，确定网络性能；

4)利用训练好的深度卷积神经网络模型对含噪声图像进行分类。