CN109002863B

CN109002863B - 一种基于紧凑卷积神经网络的图像处理方法

Info

Publication number: CN109002863B
Application number: CN201810682103.9A
Authority: CN
Inventors: 李禹源; 张东; 吴增程; 李骁
Original assignee: Foshan Shunde Sun Yat-Sen University Research Institute; Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2022-04-15
Anticipated expiration: 2038-06-27
Also published as: CN109002863A

Abstract

本发明公开了一种基于紧凑卷积神经网络的图像处理方法，包括获取图像输入数据；构建紧凑卷积神经网络，其中，所述紧凑卷积神经网络包括依次连接设置的原始输入层、特征卷积结构、若干个微型结构和平均池化层；通过所述紧凑卷积神经网络对所述图像输入数据进行多重处理得到所述图像输入数据分类结果，其中所述微型结构用于控制网络参数量、改善网络对输入特征图的抽象表征能力。相比于传统技术，本发明能够加强对输入图像的抽象表征，有利于提高识别效率，并且兼容资源受限、适当降低网络深度的计算机系统，可减小计算机资源消耗。

Description

一种基于紧凑卷积神经网络的图像处理方法

技术领域

本发明涉及基于卷积神经网络的图像识别领域，尤其是一种基于紧凑卷积神经网络的图像处理方法。

背景技术

传统的图像识别算法需要专家人员去设计图像的特征集，该方法易受样本集的变动和外界因素的影响：如光照，抖动等噪声影响。近年来，作为机器学习研究中的一个新领域，基于深度学习框架的卷积神经网络的识别算法在许多图像识别领域取得了巨大的成功；基于深度学习框架的卷积神经网络不需要专家人员去设计特征，其能够自动从训练集中产生有效的特征，并通过组合底层特征形成更加抽象的高层特征，从而能够实现高效的图像识别。

在1998年，LeCun成功地将LeNet应用于手写体文本识别之后，卷积神经网络就受到了广泛的关注，越来越多的卷积神经网络框架被提出来了，如AlexNet，Network-in-Network,VGGNet，GoogLNet等。这些基于深度学习框架的卷积神经网络在图像识别领域取得了一系列的突破。但是大部分在深度卷积神经网络的研究都关注于提高网络在计算机视觉数据集上的识别准确率，这些研究最通常的做法就是不断加深和加宽网络，但是一个过于宽且深的卷积神经网络会产生大量的参数并且严重消耗计算机资源，不适用于一些资源受限系统。

发明内容

为了解决上述问题，本发明的目的是提供一种基于紧凑卷积神经网络的图像处理方法，在传统技术的基础上，引入了具有多层感知的微型结构，并在微型结构中，通过执行多尺度滤波、多位置池化、滤波器分解和参数缩减从而构建出紧凑模块。在识别准确率可比的情况下，能够有效地减少卷积神经网络的参数量，提高网络的计算性能，并生成尺寸较小的网络模型，使其能轻松应用于资源受限的硬件平台。

为了弥补现有的不足，本发明采用的方案是：

一种基于紧凑卷积神经网络的图像处理方法,其特征在于，包括：

获取图像输入数据；

构建紧凑卷积神经网络，其中，所述紧凑卷积神经网络包括依次连接设置的原始输入层、特征卷积结构、若干个微型结构和平均池化层；

通过所述紧凑卷积神经网络对所述图像输入数据进行多重处理得到所述图像输入数据分类结果，包括：

所述原始输入层将所述图像输入数据输入到所述特征卷积结构；

所述特征卷积结构提取所述图像输入数据的特征；

所述微型结构用于控制网络参数量、改善网络对输入特征图的抽象表征能力，其中，所述微型结构包括依次连接设置的紧凑模块、中间卷积层和最大池化层，所述中间卷积层通过ReLU与最大池化层构建连接；

所述紧凑模块包括四条平行支路，即支路1、支路2、支路3和支路4；

所述紧凑模块基于多尺度滤波构建，多尺度滤波是指用三个不同尺度的卷积核1×1、3×3、5×5分别在所述支路1、所述支路2和所述支路3去卷积输入，最后将这三个不同的所述平行支路的输出级联起来，从而实现提取输入图片不同尺度的特征；

所述紧凑模块基于多位置池化构建，支路4同样先用1×1的卷积层进行降维，压缩输入通道数，再用两个交叠的池化层进行多个位置的池化操作，用于补充提取输入图像中不同位置的特征；

所述紧凑模块基于滤波器分解构建，包括：选择将各支路单层卷积层替换为多层卷积核数更小的卷积层，即所述支路3中的5×5卷积层用两层连续的3×3卷积层替换；

所述紧凑模块基于参数缩减构建，包括：减少各支路的输入通道数以及缩小各支路各层上的卷积核，即所述支路2和所述支路3中参数量大的3×3卷积层之前先用1×1的卷积层去压缩输入特征图从而对输入通道形成一个紧凑的表征，实现减少支路的输入通道，将支路2一半数量的3×3滤波器用1×1的滤波器替代从而实现缩小支路的卷积核。

进一步，所述紧凑模块的四条所述平行支路的输出端相互级联。

进一步，所述特征卷积结构包括三层依次连接设置的相同卷积层。

进一步，所述特征卷积结构与微型结构之间设置有用于将特征图归一化的LRN。

进一步，所述平均池化层的输出端还连接有用于区分图像类别的softmax。

进一步，所述原始输入层采用ImageNet 2012分类数据集的图像作为所述图像输入数据。

本发明的有益效果是：采用基于多个微型结构的整体卷积结构，增加了网络的多层感知能力。在微型结构中，卷积层可以对紧凑模块的输出的局部感受野的神经元进行更复杂的运算，并实现了跨通道的信息整合；非线性激活函数ReLU改善网络提取非线性特征的能力；最大池化层改善了网络对平移和畸变的鲁棒性，整体上可以改善网络对输入特征图的抽象表征能力；并且通过执行多尺度滤波、多位置池化、滤波器分解和参数缩减构建出紧凑模块，相比于传统技术，能够减小识别过程中的参数量，因此对计算机资源的要求不是很高，可以适当降低网络深度，这对于资源受限的系统而言是非常适用的。因此，本发明能够加强对输入图像的抽象表征，有利于提高识别效率，并且兼容资源受限、适当降低网络深度的计算机系统，可减小计算机资源消耗。

附图说明

下面结合附图给出本发明较佳实施例，以详细说明本发明的实施方案。

图1是本发明一种面向资源受限系统的紧凑卷积神经网络的结构示意图；

图2是本发明一种面向资源受限系统的紧凑卷积神经网络的微型结构的示意图；

图3是本发明一种面向资源受限系统的紧凑卷积神经网络的紧凑模块的结构示意图。

具体实施方式

参照图1-图3，本发明的一种面向资源受限系统的紧凑卷积神经网络,其特征在于，包括：

依次连接设置的原始输入层、特征卷积结构、若干个微型结构和平均池化层；

所述微型结构包括依次连接设置的紧凑模块、中间卷积层和最大池化层，所述中间卷积层通过ReLU与最大池化层构建连接；

所述紧凑模块基于多尺度滤波、多位置池化、滤波器分解和参数缩减构建若干条平行支路而成；

所述紧凑模块基于多尺度滤波构建，包括：将具有不同尺度的卷积核的卷积层分别分配为各平行支路上输入层的下一层；

所述紧凑模块基于多位置池化构建，包括：增加新的平行支路，用于补充提取输入图像中不同位置的特征；

所述紧凑模块基于滤波器分解构建，包括：选择将各支路单层卷积层替换为多层卷积核数更小的卷积层；

所述紧凑模块基于参数缩减构建，包括：减少各支路的输入通道数以及缩小各支路各层上的卷积核。

采用基于多个微型结构的整体卷积结构，增加了网络的多层感知能力，在微型结构中，卷积层可以对紧凑模块的输出的局部感受野的神经元进行更复杂的运算，并实现了跨通道的信息整合；非线性激活函数ReLU改善网络提取非线性特征的能力；最大池化层改善了网络对平移和畸变的鲁棒性，整体上可以改善网络对输入特征图的抽象表征能力；并且通过执行多尺度滤波、多位置池化、滤波器分解和参数缩减构建出紧凑模块，相比于传统技术，能够减小识别过程中的参数量，因此对计算机资源的要求不是很高，可以适当降低网络深度，这对于资源受限的系统而言是非常适用的。因此，本发明能够加强对输入图像的抽象表征，有利于提高识别效率，并且兼容资源受限、适当降低网络深度的计算机系统，可减小计算机资源消耗。

进一步，所述紧凑模块的各支路的输出端相互级联。

进一步，所述原始输入层采用ImageNet 2012分类数据集的图像作为输入。

具体地，在本实施例中，仅为了方便描述，将本发明简记为CNet，紧凑网络也可记为英文名Compact module；

将ImageNet 2012分类数据集的图像作为输入，该数据集由1000个不同类别组成；将CNet在具有128万张图片的训练集上训练，在5万张验证图片上评估以及在10万张测试图片上测试，从而得到CNet在ImageNet 2012数据集上的最终识别结果；参照图1，特征卷积结构的三个卷积层在不同的抽象水平提取输入图片的特征，并将最后的输出特征输入到接下来的结构中；LRN用来归一化局部输入区域；优选地，选取了四个微型结构(即微型结构(1)、微型结构(2)、微型结构(3)和微型结构(4))堆叠在LRN后面，能够在控制网络参数量的同时，改善网络对输入特征图的抽象表征能力，最后一个微型结构的输出将会提供给平均池化层；在最后阶段，CNet应用了一层softmax，softmax可以在1000个类别中产生一个概率分布，从而使网络区分1000类图像。

参照图2，在CNet中，微型结构起到了至关重要的作用，其可以提取输入图像的抽象特征，与此同时还可以控制参数数量；有选地，微型结构包括紧凑模块、一层1×1卷积层(即中间卷积层)，该卷积层配备一个激活函数ReLU和一层步长为2，像素窗口为3×3的最大池化层。

其中，微型结构中的1×1卷积层可对紧凑模块输出的局部感受野的神经元进行复杂计算，实现了跨通道的信息整合；ReLU则增强了网络提取非线性特征的能力；最大池化层则改善了网络对平移和畸变的鲁棒性。微型结构的多层感知产生的特征图可以由下式计算而得到：

其中的f⁽¹⁾,

和f_i,j,n分别表示紧凑模块、1×1卷积层和微型结构的输出特征图，f_maxpool表示对ReLU产生的特征图进行最大池化操作，n和(i,j)是指特征图的通道索引和特征图的像素索引，W_n和*分别指对应通道的卷积权值和卷积操作。因此，本微型结构改善了网络对输入特征图的抽象表征能力，而CNet堆叠了几个这样的微型结构可以为网络提供多层感知的能力。

优选地，参照图3，紧凑模块包括4条平行支路，前三个平行支路分为支路1、支路2和支路3，其中图3中的上一层可以是特征卷积结构，也可以是其余微型结构的输出层，即最大池化层，因为本实施例包括若干个微型结构；多尺度滤波是指用三个不同尺度的卷积核1×1，3×3，5×5分别在三个分离的平行支路去卷积输入，最后将这三个不同的卷积支路的输出级联起来，从而实现提取输入图片不同尺度的特征。另外，两个连续的3×3的卷积运算和一个5×5的卷积运算的感受野一样，紧凑模块的滤波器分解就是将多尺度滤波分析中的支路3，即5×5卷积支路(层)用两层连续的3×3卷积层替换，因为两个连续3×3的卷积操作比一个5×5的卷积操作参数量少28％，且给网络提供了更多的非线性，并改善了非线性判决函数的区分性，故采用滤波器分解技术；此外，由于紧凑模块中每条支路的参数量可由下式计算得到：参数量＝输入通道数×滤波器个数×滤波器卷积核的大小；因此，参数缩减可以通过减少支路的输入通道数和缩小支路的卷积核来进行，以支路2和支路3为例，在参数量较大的3×3卷积层之前先用1×1的卷积层去压缩输入特征图从而对输入通道形成一个紧凑的表征，实现减少支路的输入通道；此外，将支路2一半数量的3×3滤波器用1×1的滤波器替代从而实现缩小支路的卷积核。而多位置池化技术就是增加一个平行支路4，该支路用于补充提取不同位置的特征，具体为：支路4同样先用1×1的卷积层进行降维，压缩输入通道数，再用两个交叠的池化层(步长均为1，像素窗口分别为3×3和5×5)进行多个位置的池化操作，新增的交叠池化操作可以有效地避免过拟合。

最后，根据实验结果，本发明的一种面向资源受限系统的紧凑卷积神经网络在ImageNet 2012测试集中得到了很好的分类性能，包括识别(分类)检测率以及网络模型大小。具体而言，本发明的卷积神经网络在ImageNet 2012测试集上达到了85.50％的准确率(高于AlexNet的83.6％)，并且训练生成的网络模型比AlexNet小了50倍，明显适用于资源受限(存储空间有限)或者需要实时检测的系统。

以上内容对本发明的较佳实施例和基本原理作了详细论述，但本发明并不局限于上述实施方式，熟悉本领域的人员应该了解在不违背本发明精神的前提下还会有各种等同变形和替换，这些等同变形和替换都落入要求保护的本发明范围内。

Claims

1.一种基于紧凑卷积神经网络的图像处理方法，其特征在于，包括：

获取图像输入数据；

所述特征卷积结构提取所述图像输入数据的特征；

2.根据权利要求1所述的一种基于紧凑卷积神经网络的图像处理方法，其特征在于，所述紧凑模块的四条所述平行支路的输出端相互级联。

3.根据权利要求1所述的一种基于紧凑卷积神经网络的图像处理方法，其特征在于，所述特征卷积结构包括三层依次连接设置的相同卷积层。

4.根据权利要求1或3所述的一种基于紧凑卷积神经网络的图像处理方法，其特征在于，所述特征卷积结构与微型结构之间设置有用于将特征图局部进行归一化的LRN。

5.根据权利要求1所述的一种基于紧凑卷积神经网络的图像处理方法，其特征在于，所述平均池化层的输出端还连接有用于区分图像类别的softmax。

6.根据权利要求1所述的一种基于紧凑卷积神经网络的图像处理方法，其特征在于，所述原始输入层采用ImageNet 2012分类数据集的图像作为所述图像输入数据。