CN110728354B

CN110728354B - 一种基于改进的滑动式分组卷积神经网络的图像处理方法

Info

Publication number: CN110728354B
Application number: CN201910858428.2A
Authority: CN
Inventors: 段斌; 张萌; 李国庆; 吕峰; 李娇杰
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2024-04-09
Anticipated expiration: 2039-09-11
Also published as: CN110728354A

Abstract

本发明公开了一种改进的滑动式分组卷积神经网络，在总通道里取第一个通道到第G个通道为第一组输入进行卷积，经过卷积操作后输出S个通道，接着，以第一组输入长度G在总通道上进行滑动，S作为滑动的步长，第二组卷积的输入为总通道数的第S+1个通道到第S+G，总共仍是G个通道作为一组输入进行卷积操作，并输出S个通道，以此类推；特别之处在于，后一组输入通道的前G‑S个通道与前一组输入通道的后G‑S个通道是共享的，每组之间都按照这种关系来进行信息交流。本发明进一步解决了神经网络参数复杂度过高的问题，且测试准确度有所提高。本发明是一种结合全精度高效神经网络的算法硬件协同压缩方法，并且降低了硬件资源消耗。

Description

一种基于改进的滑动式分组卷积神经网络的图像处理方法

技术领域

本发明涉及图像处理技术领域，尤其是一种基于改进的滑动式分组卷积神经网络的图像处理方法。

背景技术

卷积神经网络(CNN)由人工神经网络发展而来，独特的权值共享的结构减小了网络的规模，更容易训练。由于图像平移、缩放和旋转的不变性，卷积神经网络广泛应用于图像识别领域。卷积神经网络对图像的平移、缩放、旋转等形式的变形具有高度的适应性，在图像识别和目标检测等领域应用广泛，如微软利用卷积神经网络做阿拉伯文和中文的手写识别系统，谷歌使用卷积神经网络来识别街景图片中的人脸和车牌等等。

CNN的性能正在迅速提高：ImageNet挑战的获胜者将分类准确率开始的84.7％(AlexNet)提高到96.5％(ResNet-152)。然而，精度的提高是以高计算复杂度为代价的。例如，AlexNet需要1.4×10¹⁰FLOPs来处理单个224×224图像，ResNet-152需要2.26×10¹¹FLOPs。在移动嵌入式设备端，一个最主要的挑战在于大量的运算需要过多的硬件资源并且功耗巨大。

为了解决与计算能力相关的这一系列问题，已经有大量的研究试图优化它们的性能。这些研究工作方法可以分为两种：使用预先训练的模型压缩现有网络结构，以及设计新的高效的网络结构，这些结构将从头开始训练。

模型压缩方法通常基于传统的压缩技术，如哈希(hashing)、赫夫曼编码(Huffmancoding)、因式分解(factorization)、剪枝(pruning)和模型量化(quantization)。

实际上，第二种方法比第一种方法更早地被研究。GoogLeNet中提出了Inception模块，希望在不增加模型大小和计算成本的情况下构建更深的网络结构，然后在Inception模块中通过分解卷积进一步改进。深度可分离卷积(Depthwise separable Convolution，DWConvolution)更加体现因式分解的思想，将标准卷积分解为深度卷积(depthwiseconvolution)，再用1×1卷积核进行常规卷积。MobileNet为基于DW Convolution的移动设备设计了卷积神经网络，该操作能够以较少的参数获得了较好的结果。

发明内容

发明目的：本发明的目的在于解决现有的卷积神经网络，计算精度的提升必然导致系统的计算复杂度提高，进一步地，大量的运算需要过多的硬件资源并且功耗巨大的问题

技术方案：为解决上述问题，本发明采用以下技术方案：

一种基于改进的滑动式分组卷积神经网络的图像处理方法，包括以下步骤：

(1)将总通道分为N个分组，对输入的全部通道按照两个参数G和S来进行分组卷积，在全部通道中取第一个通道到第G个通道为第一个组的输入进行卷积，这一组中包含G个通道，经过卷积操作之后输出S个通道，接下来在总通道上进行滑动操作，以S作为滑动的步长，然后第二组卷积操作的的输入为总通道数的第S+1个通道到第S+G，依旧是G个通道作为第二组输入进行卷积操作，并且输出S个通道，以此类推；若最后组剩余的总通道数不足G个，则从位于总通道开头部分的通道继续取，直到最后一组的输入通道数到达G个为止；

(2)对步骤(1)的每次输出通道进行堆叠操作，确保得到的通道数等于或者大于所需的通道数；

(3)对步骤(2)堆叠后所得到的通道进行剪切，堆叠后得到的通道数可能会超出本身所需要的，所以这里进行剪切操作将超出的通道舍弃，得到所需要的通道数；

(4)利用步骤(1)-(3)所得到的网络结构OGC对图像进行处理，先对输入特征图进行批量归一化处理，然后用非线性函数进行激活处理，再用1×1卷积对输入特征图进行标准卷积运算；再经过批量归一化处理，然后用非线性函数进行激活处理，用OGC去替代3×3卷积核的标准卷积，OGC每组有三个通道，组与组之间的滑动为1，并且输出特征图通道数与输入通道数相同；同样的，对输入层经过批归一化处理，然后用非线性函数Relu进行激活处理，对输入特征图进行常规卷积操作，卷积核尺寸为1×1，步长为1，并在这一步扩张特征图的通道数。

进一步地，步骤(1)中，相邻的两个分组卷积，具有G-S个共享卷积。

进一步地，所述步骤(1)中，输出通道S的数量小于输入通道G的数量。

进一步地，所述步骤(1)中，每个分组均有且仅有G个通道。

进一步地，每组的输出通道均为当前分组的第一个通道到第S个通道。

进一步地，所有组的输入通道数G相同，输出通道数S也相同。

有益效果：本发明相对于现有技术而言：

本发明提出了一种基于深度卷积的神经网络改进方法，将网络中用滑动组卷积操作去替换普通的3×3卷积核的深度卷积操作来减小参数和计算量，提出OGC卷积网络结构，可以更好的提取特征图的空间特征，使用了更少的参数，提高了卷积神经网络的计算效率，加快了神经网络的传播速度，并且测试结果有明显提高。实验结果表明，与ResNet网络以及其他神经神经网络相比，所用参数与测试结果均有改善，证明提取特征图空间信息比组合通道信息更为重要。本结构采用CIFAR-10和CIFAR-100数据集验证了算法的良好效果。

附图说明

图1为作为对比的常规卷积操作和深度卷积操作的示意图；

图2为本发明的滑动组卷积(以G＝3时，S＝1和S＝2为例)操作示意图；

图3为本发明的OGC模块应用在OGCNet的示意图；

图4为本发明的OGC模块内部示意图；

图5为本发明的OGCNet的网络表。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

一种基于分组卷积神经网络的改进方法，在一般的群组卷积中，不同群体之间没有滑动，这限制了信息的交换。所述改进方法滑动分组卷积结构完成，其算法包括以下步骤：

(1)相对于一般卷积和组卷积网络而言，分析了OGC在参数和计算方面的优势，发现组卷积的不足在于任何两组的输入通道都是完全不同的。这也就是说，群体卷积限制了不同群体之间的信息传递，因此我们提出了有滑动的组卷积。

(2)对输入的全部通道按照两个参数G和S来进行分组卷积，每次输入通道数为G(分组卷积中每组卷积的通道数)，输出通道数为S(S<G)，即在全部通道中取第一个通道到第G个通道为第一个组输入进行卷积，这一组中包含G个通道，经过卷积操作之后输出S个通道，接下来在总通道上进行滑动操作，以S作为滑动的步长，然后下组卷积操作的的输入为总通道数的第S+1个通道到第S+G，总共依旧是G个通道作为一个组输入进行卷积操作，并且输出S个通道，依次类推；若最后剩余的总通道数不足G个，则从位于总通道开头部分的通道继续取，直到最后一组的输入通道数到达G个为止。

即最后一组的输入通道如果数量不够，可以与第一组的输入通道共享取整，使得最后一组的输入通道数也达到G。

(3)对步骤(2)的每次输出通道进行堆叠操作，确保得到的通道数等于或者大于我们所需的通道数。

(4)对步骤(3)堆叠后所得到的通道进行裁剪，堆叠后得到的通道数会超出本身所需要的，所以这里进行剪切操作将超出的通道舍弃，得到所需要的通道数。

如图3所示，本发明所用的OGC卷积块在ResNet上替换过后的结构相对比的示意图，先对输入特征图进行批量归一化处理，然后用非线性函数进行激活处理。再用1×1卷积对输入特征图进行标准卷积运算；再经过批量归一化处理，然后用非线性函数进行激活处理，用OGC去替代3×3卷积核的标准卷积，OGC的内部如图4所示，每组有三个通道，组与组之间的滑动为1，并且输出特征图通道数与输入通道数相同；同样的，对输入层经过批归一化处理，然后用非线性函数Relu进行激活处理，对输入特征图进行常规卷积操作，卷积核尺寸为1×1，步长为1，并在这一步扩张特征图的通道数。

本发明使用TensorFlow搭建神经网络，称为OGCNet网络结构，训练CIFAR-10与CIFAR-100数据集。CIFAR-10与CIFAR-100数据集均是图像大小为32×32的三通道彩色图片，其中CIFAR-10数据集是10分类，CIFAR-100是100分类。具体操作如下，首先输入图像尺寸是32×32×3，经过1阶段，使用标准卷积操作，卷积核尺寸为7×7，输出通道为32，步长为1，输出尺寸为32×32；在第2阶段，经过5个图5所示的单元块，单元块中三个卷积层的输出通道数分别为32、32、128，步长为1，输出尺寸仍为32×32，其中在中间那层卷积替换成了滑动组卷积；第3阶段，经过6个单元块，单元块中三个卷积层的输出通道数分别为64、64、256，其中在中间那层卷积替换成了卷积，在第一个单元块中第二个3×3标准卷积操作的步长为2，所以经过第3阶段输出特征图尺寸为16×16；第4阶段，经过5个单元块，单元块中三个卷积层的输出通道数分别为128、128、512，其中在中间那层卷积替换成了滑动组卷积，在第一个单元块中第二个3×3标准卷积操作的步长为2，所以经过第4阶段输出特征图尺寸为8×8；第5阶段，经过全局平均池化层，输出特征图尺寸为1×1，输出通道数仍为512，对CIFAR-10最后一个全连接层的输出通道数为10，对于CIFAR-100输出通道数为100，最后接入归一化指数函数层来完成图像分类。

根据以上推导，不难看出，如下规律：每个OGC结构的参数个数为k×k×g×s×N和计算量k×k×g×m×h×w×N，其中k是卷积核的尺寸，h和w的特征图的尺寸，m是输出通道的总数，N为参与卷积组数。通过本发明基于分组卷积神经网络改进方法，所构建的网络结构OGCNet50，在调整参数G和S的多种组合的情况下，通过训练CIFAR-10与CIFAR-100数据集，在经过164轮训练之后，发现当G和S不同组合的时候所取得的效果也是不一样，所得结果如表1，并与ResNet和ResNeXt网络结构相比，所用参数更少，测试准确率更高，说明本发明所提出的基于组卷积的神经网络改进方法有效。

表1网络模型对比准确率测试结果

通过以上数据可以发现滑动组卷积,相比于常规卷积和普通分组卷积，OGCNet的优势比较明显。其中通过调整G与S的值我们可以发现，当G越大的时候，准确率就越高，当S越大的时候准确率就越高，但当G＝S的时候(ResNeXt)准确率会比有滑动时的要低，故关于s的选择，建议在G/2<S<G内，S尽可能的大；G的选择上，不要超出总通道数；OGCNet不仅在提升了精度上效果明显，而且还很大程度的降低了参数量与计算量，帮助了我们在做硬件实现的时候，提供了一种更为可行的思路。

以上仅是本发明的优选实施方式，应当指出以上实施列对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的多样变化和修改，均落在本发明的保护范围内。

Claims

1.一种基于改进的滑动式分组卷积神经网络的图像处理方法，其特征在于：包括以下步骤：

(3)对步骤(2)堆叠后所得到的通道进行剪切，将超出的通道舍弃，得到所需要的通道数；

2.根据权利要求1所述的方法，其特征在于，步骤(1)中，相邻的两个分组卷积，具有G-S个共享卷积。

3.根据权利要求1所述的方法，其特征在于，所述步骤(1)中，输出通道S的数量小于输入通道G的数量。

4.根据权利要求1所述的方法，其特征在于，所述步骤(1)中，每个分组均有且仅有G个通道。

5.根据权利要求1所述的方法，其特征在于，每组的输出通道均为当前分组的第一个通道到第S个通道。

6.根据权利要求1所述的方法，其特征在于，所有组的输入通道数G相同，输出通道数S也相同。