CN112766392B

CN112766392B - 基于并行不对称空洞卷积的深度学习网络的图像分类方法

Info

Publication number: CN112766392B
Application number: CN202110103519.2A
Authority: CN
Inventors: 张智杰; 李秀梅; 孙军梅; 尉飞; 赵宝奇; 葛青青
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2023-10-24
Anticipated expiration: 2041-01-26
Also published as: CN112766392A

Abstract

本发明公开一种基于并行不对称空洞卷积的深度学习网络的图像分类方法。该方法通过引入不对称卷积构建了一种基于卷积并行性的并行不对称空洞卷积模块。该模块由不对称卷积与空洞卷积构成，通过不对称卷积结构的特殊性，使得模块在不改变感受野的情况下充分利用特征图所含信息，提高了网络模型的特征表达能力。并行不对称空洞卷积模块可以用来代替传统的连续卷积，在不增加模型复杂度的情况下，提升整个模型的准确率。嵌入该模块的任意模型对图像进行分类，会提高了分类效果。该模块嵌入方法易于实现，可用于任意模型，使模型具有更好的鲁棒性和准确率。

Description

基于并行不对称空洞卷积的深度学习网络的图像分类方法

技术领域

本发明涉及网络模式识别技术领域，涉及可以嵌入任意网络结构的一种并行不对称空洞卷积模块，具体是基于并行不对称空洞卷积的深度学习网络的图像分类方法。

背景技术

卷积神经网络广泛应用于图像分类、语义分割和图像生成等计算机视觉领域，其通过卷积核对图像中的局部区域做卷积，以提取图像中的特征，在每一层的卷积中通过参数共享以减少模型复杂度，之后结合池化操作实现位移不变性的识别。现有的卷积神经网络普遍将3×3卷积作为其基本构建模块。对于卷积神经网络而言，卷积核的感受野、深度以及通道数决定了网络的性能。感受野越大，表示特征图上像素点映射的区域越大；深度决定了网络的抽象能力或学习能力；通道数决定了卷积核所包含的信息量大小。感受野和通道数共同决定了卷积层学习有效信息与空间的能力。

传统的卷积操作主要有三个缺点：一是使用的是局部操作，不能得到比较大的范围甚至图像的全局特征，且卷积核是固定的尺寸；二是对物体的形状、姿态变化缺少适应性；三是当特征的通道数变大后，卷积核的参数也变得庞大，增加了运算量。传统的卷积操作后面一般连接池化层，池化操作会导致大量信息的丢失。2016年，空洞卷积被提出用以代替池化操作，避免了池化所带来的信息丢失，从而解决了传统卷积的上述三个缺点。然而空洞卷积带来了空间层次和信息连续性丢失等问题。虽然现有的卷积核对分类有着不错的效果，但是仍不能满足分类的精度要求。

不对称卷积通常用于模型的加速和压缩。目前并没有看到有人提出利用不对称卷积解决空洞卷积在空间层次和信息连续性上的不足。

发明内容

本发明的目的是针对现有技术的不足，提出了一种基于并行不对称空洞卷积的深度学习网络的图像分类方法，用可相容的空洞卷积、不对称卷积进行并列相加，代替现有分类模型原有的连续卷积，以增强原有的卷积核。

基于并行不对称空洞卷积的深度学习网络的图像分类方法，具体是：

步骤(1)、构建数据集，其中输入样本为二维图像，输出样本为对应目标分类结果；

步骤(2)、构建基于并行不对称空洞卷积的分类模型，并利用数据集进行训练

将现有分类模型(如VGG19、ResNet-34、ResNet-50、SENet-34和SENet-50网络)中的部分或全部n×n卷积层(其中n为奇数)替换为并行不对称空洞卷积模块；

并行不对称空洞卷积模块包括一个空洞率为1的空洞卷积层、两个非对称卷积层、一个融合层；其中两个非对称卷积层包括1×(n)卷积层、(n)×1卷积层，空洞卷积层、两个非对称卷积层并行设置，并输入至融合层；

空洞卷积层、非对称卷积层之间满足可相容性。

作为优选，现有分类模型(如VGG19、ResNet-34、ResNet-50、SENet-34和SENet-50网络)中的部分靠近输出层n×n卷积层替换为并行不对称空洞卷积模块。

步骤(3)、利用训练好的基于并行不对称空洞卷积的分类模型，用以实现图像的目标分类。

本发明的另一个目的是提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的方法。

本发明的又一个目的是提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求上述的方法。

本发明的有益效果：

本发明提出了一种并行不对称空洞卷积模块，用不对称卷积补充空洞卷积，通过不对称卷积结构的特殊性，在不同维度上收集特征，使得模块在不改变感受野的情况下充分利用特征图的信息，提高了网络模型的特征表达能力。同时，该模块通过引入空洞卷积，使得模型在与普通卷积复杂度相近的情况下，达到使用同样感受野尺寸的普通卷积的分类效果。不对称卷积补充了空洞卷积所丢失的信息，补充了不同维度的信息，而且加速了整个网络的收敛过程，提高了网络的效率。

附图说明

图1是相容卷积并行相加等价与连续卷积核；

图2是并行不对称空洞卷积模块嵌入ResBlock的模型结构图；

图3是模块嵌入到模型不同位置时模型损失函数的收敛趋势，其中(a)嵌入到靠近模型输出层位置，(b)嵌入到靠近模型输入层位置；

图4是嵌入并行不对称空洞卷积模块的VGG19结构图；

图5是VGG19结构图。

具体实施方式

下面结合具体实施例对本发明做进一步分析。

(一)数据获取

CIFAR-10数据集是由CIFAR(Candian Institute ForAdvancedResearch)收集整理的一个用于机器学习和图像识别问题的数据集。

这个数据集共有60000张32×32的涵盖10个分类的彩色图片。

(二)网络模型训练

步骤(2.1)：网络模型搭建

如图4将图5VGG19中原有的靠近输出层的8个3×3卷积层(conv-9至conv-16)替换为并行不对称空洞卷积模块DDA；

如图2并行不对称空洞卷积模块包括一个空洞率为1的2×2空洞卷积层、两个非对称卷积层、一个融合层；其中两个非对称卷积层包括1×3卷积层、3×1卷积层，空洞卷积层、1×3卷积层、3×1卷积层并行设置，并输入至融合层；

表1并行不对称空洞卷积模型结构

1)空洞卷积层、1×3卷积层、3×1卷积层之间满足可相容性。

如图1所示，将几个大小兼容的二维卷积核在相同的输入数据上进行相同步幅的卷积操作，可以得到相同分辨率的输出。通过将这些输出求和并在相应的位置上进行相加，可以得到等效核的输出特征图。即使卷积核大小不同，二维卷积的可加性依旧成立。

其中I是一个输入图片，K⁽¹⁾与K⁽²⁾是两个相兼容的卷积核，将它们的输出相加，操作上等价于卷积核K⁽³⁾的输出。卷积核K⁽³⁾能够同时兼容K⁽¹⁾与K⁽²⁾。兼容是指尺寸较小的卷积核可以填充到较大的卷积核里。

2)空洞卷积

对于输入X，n×n卷积核，输出n维特征图。设F是一个离散过滤器，也就是空洞卷积，l定义为空洞率，*l为空洞卷积操作：

(x*_lF)＝∑_s+ltx(t)F(t) (2)

其中s是指卷积核的步长，t是指卷积核大小。

对于第j个卷积核，相应的输出特征映射通道如公式：

其中χ_:,:,k是x的第k个通道的特征图，而代表的第k个尺寸为H*W卷积核。空洞卷积支持指数扩展的感受野，不会丢失分辨率或覆盖范围。将偶数尺寸的卷积核通过注入奇数个空洞，其感受野范围等价于一个奇数尺寸的连续卷积，其对应的输出映射通道等价于公式(3)，因此空洞卷积能够代替连续卷积操作。

3)不对称卷积

对于对称卷积而言，不对称卷积更加注重特定维度的特征，其感受野与对称卷积的感受野不同。例如1×3卷积核在卷积的过程中，更加倾向于列间特征的提取。

其中f_i表示n×n大小的第i个卷积核，τ和h是两个列向量，k是f的秩。因为卷积核的尺寸不同，不对称卷积的特征提取操作与普通卷积的特征提取相比，不仅减少了对称卷积带来的信息冗余，而且在不对称卷积之间又引入了非线性激活函数。因此，不对称卷积的非线性提高了网络模型的拟合能力。将互相兼容的不对称卷积得到的特征图相加，也可以增强特征图的特征表达能力。

步骤(2.2)：网络模型训练

将制作好的数据集输入到嵌入有并行不对称空洞卷积模块的VGG19网络中进行模型训练。训练得到的网络模型可用于对图像进行预测。

步骤(2.3)：预测与数据后处理

将一张图片输入到训练得到的网络模型后，输出结果为一个行数为1，列数为10的数组，对该数组中的最大值的列索引进行寻找，若列索引为规定好类别，那么该图片就含有此分类下的物体。

采用CIFAR-10与孟加拉文数据集(孟加拉文数据集为Kaggle2020比赛提供的数据集，包括10000张孟加拉文手写体图片)，比较了VGG19、ResNet-34、ResNet-50、SENet-34、SENet-50五种经典的基础网络及在上述基础网络中嵌入并行不对称空洞卷积模块的分类效果。在嵌入并行不对称空洞卷积模块的网络中，均将并行不对称空洞卷积模块替换靠近输出层的最后一个卷积层，将连续卷积核和不对称空洞卷积模块的感受野面积都固定为9。卷积核大小为2×2，空洞率为1的空洞卷积在不对称卷积的信息补充下，其准确率与原基础网络相比有所提高。实验结果如表2、3所示。通过对比可见，嵌入并行不对称空洞卷积模块后网络的准确率均有比较明显的提升。实验结果表明，通过空洞卷积和不对称卷积对特征图的信息补偿，使得网络中所嵌入的并行不对称空洞卷积模块可以更好地提取特征，提高了模型的特征表达能力，提升了网络的分类效果。

表2在CIFAR-10数据集上的分类准确率比较

表3在孟加拉文数据集的准确率比较

将并行不对称空洞卷积模块中的2×2空洞卷积替换成3×3的普通连续卷积后，则模块变成ACNet的不对称卷积模块ACB。将并行不对称空洞卷积模块与替换成普通连续卷积的ACB模块分别替换VGG19、ResNet-34、SENet-34网络的靠近输出层位置的卷积层，保持相同的网络结构，对CIFAR-10数据集上的分类效果进行比较，实验结果如表4所示。实验结果表明，嵌入并行不对称空洞卷积模块的网络比嵌入ACB模块的网络准确率更高，模型复杂度也更低。这是因为不对称卷积结构的特殊性，使其与空洞卷积的结构相匹配，与连续卷积搭配相比，准确率要高；由于空洞卷积比连续卷积的参数要少，使得模型的复杂度也降低了很多。只有与空洞卷积相结合，不对称卷积的特征补偿能力才能更好地体现。

表4与ACB模块的准确率及网络复杂度比较

将并行不对称空洞卷积模块分别嵌入到VGG19网络中的不同层并进行比较，其中损失函数的振荡变化及收敛情况如图3所示。

当并行不对称空洞卷积模块替换VGG19的靠近输出层的conv-16时，损失函数的收敛趋势如图3(a)所示。当并行不对称空洞卷积模块替换VGG19的靠近输入层的conv-1时，损失函数的收敛趋势如图3(b)所示。两者的迭代次数和运行环境均一致。可见，模块嵌入到靠近模型的网络输出层位置时，其损失函数的振荡比模块嵌入到靠近网络输入层时的振荡要小。这是因为该模块中含有不对称卷积，当放在与输入层比较近的位置时，会导致网络的信息损失变大，收敛速度变慢。而将模块嵌入到靠近网络输出层，则会加速收敛的过程，提升网络的性能。

Claims

1.基于并行不对称空洞卷积的深度学习网络的图像分类方法，其特征在于该方法包括以下步骤：

步骤(1)、构建数据集，其中输入样本为二维图像，输出样本为对应图像目标分类结果；

步骤(1)、构建基于并行不对称空洞卷积的分类模型，并利用数据集进行训练

将现有分类模型中的部分或全部n×n卷积层替换为并行不对称空洞卷积模块；其中n为奇数；

并行不对称空洞卷积模块包括一个空洞率为1的空洞卷积层、两个非对称卷积层、一个融合层；空洞卷积层、两个非对称卷积层并行设置，并输入至融合层；其中两个非对称卷积层包括1×n卷积层、n×1卷积层；

所述非对称卷积层满足如下公式：

其中f_i表示第i个卷积核，τ和h是两个列向量，k是f的秩；

2.如权利要求1所述的基于并行不对称空洞卷积的深度学习网络的图像分类方法，其特征在于空洞卷积层、非对称卷积层之间满足可相容性。

3.如权利要求1所述的基于并行不对称空洞卷积的深度学习网络的图像分类方法，其特征在于现有分类模型中的部分靠近输出层n×n卷积层替换为并行不对称空洞卷积模块。

4.如权利要求1或3所述的基于并行不对称空洞卷积的深度学习网络的图像分类方法，其特征在于现有分类模型为VGG19、ResNet-34、ResNet-50、SENet-34或SENet-50网络。

5.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-4中任一项所述的方法。

6.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-4中任一项所述的方法。