CN108985317A

CN108985317A - 一种基于可分离卷积和注意力机制的图像分类方法

Info

Publication number: CN108985317A
Application number: CN201810517380.4A
Authority: CN
Inventors: 王松松; 李跃进; 徐昆然; 官俊涛; 李奕诗; 王东
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-12-11
Anticipated expiration: 2038-05-25
Also published as: CN108985317B

Abstract

本发明涉及一种基于可分离卷积和注意力机制的图像分类方法，其特征在于，包括：S1、构建原始深度卷积神经网络；S2、利用训练数据集训练所述原始深度卷积神经网络，得到训练的深度卷积神经网络；S3、将验证数据集输入到所述训练的深度卷积神经网络，得到分类概率向量；S4、选取所述分类概率向量中概率最大值对应的分类作为数据预处理的测试结果；S5、将所述测试结果与所述验证数据集的类别标签进行对比，得到最终分类的准确度。本发明提出的基于可分离卷积和注意力机制的图像分类方法，可用于提升深度学习中图像分类模型特征提取的效率和缩减模型的训练参数量，加速模型收敛。

Description

一种基于可分离卷积和注意力机制的图像分类方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于可分离卷积和注意力机制的图像分类方法。

背景技术

图像分类是计算机视觉领域的一个重要基本问题，也是物体识别的基础。伴随网络购物和社交网络等互联网技术的发展，数字图像的数量也在急剧增长。对这些数字图像的分析、处理、分类提出了更高的要求，高效率，高准确度的分类方法成为了解决此类问题的关键。

现有图像分类的方法有两大类：一是根据计算联合分布概率分类，如高斯模型、隐马尔科夫模型等；二是根据计算条件概率分布分类，如神经网络、支持向量机等。

但是，现有方法对图像中的噪声敏感和细节纹理、颜色信息等重要信息并不敏感，导致不能达到一个很好的分类准确度。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于可分离卷积和注意力机制的图像分离方法。本发明要解决的技术问题通过以下技术方案实现：

本发明实施例提供了一种基于可分离卷积和注意力机制的图像分离方法，包括：

S1、构建原始深度卷积神经网络；

S2、利用训练数据集训练所述原始深度卷积神经网络，得到训练的深度卷积神经网络；

S3、将验证数据集输入到所述训练的深度卷积神经网络，得到分类概率向量；

S4、选取所述分类概率向量中概率最大值对应的分类作为数据预处理的测试结果；

S5、将所述测试结果与所述验证数据集的类别标签进行对比，得到最终分类的准确度。

在本发明的一个实施例中，所述S2包括：

S21、对所述训练数据集进行预处理；

S22、从预处理后的训练数据集中采样M张大小为N*N的第一图像，其中，M、N均为正整数；

S23、对所述第一图像依次做RGB三通道均值处理和随机水平翻转处理，得到第二图像；

S24、将所述第二图像输入到所述原始深度卷积神经网络中，采用随机梯度下降法对所述原始深度卷积神经网络进行优化；

S25、重复执行所述步骤S21-S24，若判断所述原始深度卷积神经网络的损失函数值不再下降时，则将优化后的所述原始深度卷积神经网络作为所述训练的深度卷积神经网络。

在本发明的一个实施例中，所述S1包括：

S11、构建残差卷积模块、构建可分离卷积模块；

S12、根据所述可分离卷积模块构建注意力机制特征增强模块；

S13、根据所述残差卷积模块、所述注意力机制特征增强模块构建原始深度卷积神经网络。

在本发明的一个实施例中，构建所述残差卷积模块，包括：

依次连接第一卷积层、第一规范化层、第一线性修正单元层、第二卷积层、第二规范化层、第二线性修正单元层、第三卷积层、第三规范化层、逐点加法层，将第一卷积层的输入与第三规范化层的输出逐元素相加，将相加后的结果输出到第三线性修正单元层，构建得到所述残差卷积模块，其中，所述残差卷积模块的输出特征的尺寸和输入的尺寸均为H×W×C，H、W、C分别为特征图高度、宽度和通道数，第一卷积层卷积核尺寸为1×1、第二卷积层卷积核尺寸为3×3、第三卷积层卷积核尺寸为1×1。

在本发明的一个实施例中，构建所述可分离卷积模块，包括：

依次连接第一可分离卷积层、第一规范化层、第一线性修正单元层、第二可分离卷积层、第二规范化层、第二线性修正单元层、第三可分离卷积层、第三规范化层、逐点加法层，将第一可分离卷积层的输入与第三规范化层的输出逐元素相加，将相加后的结果输出到第三线性修正单元层，构建得到所述可分离卷积模块，其中，所述可分离卷积模块的输出特征的尺寸和输入的尺寸均为H×W×C，H、W、C分别为特征图高度、宽度和通道数，第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为3×3、第三可分离卷积层卷积核尺寸为1×1。

在本发明的一个实施例中，构建所述注意力机制特征增强模块，包括：

依次连接第一最大池化层、第一可分离卷积模块、第二最大池化层、第二可分离卷积模块、第三可分离卷积模块、第一上采样卷积层、逐点加法层、第四可分离卷积模块、第二上采样卷积层、第一可分离卷积层、第二可分离卷积层、S型生长曲线激活函数层，所述第一可分离卷积模块的输出端通过第五可分离卷积模块连接到所述逐点加法层的输入端，构建得到所述注意力机制特征增强模块，其中，第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为1×1，所述S型生长曲线激活函数层的尺寸和第一最大池化层的输入的尺寸均为H×W×C，H、W、C分别为特征图高度、宽度和通道数，所述第一最大池化层的输入为所述残差卷积模块的输出。

在本发明的一个实施例中，所述S13包括：

S131、根据所述残差卷积模块、所述注意力机制特征增强模块得到第一模块、第二模块、第一过渡模块、第三模块、第二过渡模块、第四模块、第五模块；

S132、依次连接所述第一模块、第二模块、第一过渡模块、第三模块、第二过渡模块、第四模块、第五模块，得到所述原始深度卷积神经网络。

在本发明的一个实施例中，所述第二模块、所述第三模块、所述第四模块均包括：残差卷积模块、注意力机制特征增强模块、逐点乘加线性修正单元层，其中，所述残差卷积模块连接所述逐点乘加线性修正单元层，所述残差卷积模块的输出端通过所述注意力机制特征增强模块连接到所述逐点乘加线性修正单元层的输入端，所述第二模块中每个模块的卷积核的数量均为64，所述第三模块中每个模块的卷积核的数量均为128，所述第四模块中每个模块的卷积核的数量均为256。

在本发明的一个实施例中，所述第一过渡模块、所述第二过渡模块均包括：最大池化层和修正残差卷积模块，其中所述最大池化层的卷积核尺寸为3×3，步长为2×2，所述第一过渡模块中修正残差卷积模块的输入通道数为64，输出通道数为128，所述第二过渡模块中修正残差卷积模块的输入通道数为128，输出通道数为256，所述修正残差卷积模块为在所述残差卷积模块的旁路增加一层卷积层，其中，所述卷积层卷积核尺寸为1×1。

与现有技术相比，本发明的有益效果：

本发明的基于可分离卷积和注意力机制的图像分类方法将深度卷积神经网络的可分离卷积和自适应性增强多尺度特征的注意力机制相结合，缩减了网络模型的训练参数量，加速了网络模型的收敛速度，提高了网络模型的分类准确度。

附图说明

图1为本发明实施例提供的一种基于可分离卷积和注意力机制的图像分类方法流程图；

图2为本发明一个具体实施例的残差卷积模块的结构图；

图3为本发明一个具体实施例的可分离卷积模块的结构图；

图4为本发明一个具体实施例的注意力机制特征增强模块的结构图；

图5为本发明一个具体实施例的原始深度卷积神经网络的结构图；

图6为本发明一个具体实施例的修正残差卷积模块。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请参见图1，图1为本发明实施例提供的一种基于可分离卷积和注意力机制的图像分类方法流程图，本实施例的图像分类方法应用于对图像的预处理，包括：

S1、构建原始深度卷积神经网络；

原始深度卷积神经网络为未经过训练的神经网络，因此需要对应进行训练，本发明在训练时使用Cifar10数据集训练网络。

为了更好的说明本实施例的训练过程，举例进行说明。

首先，对已有的Cifar10数据集中的训练数据集进行数据预处理。Cifar10数据集总共有60000张32×2的RGB彩色图像，其中50000张用于训练构建的网络模型，10000张用于验证构建的网络模型。对50000张训练图像的上下左右各填充4行或列0值，形成50000张40×40的RGB彩色图像。

其次，从50000张40×40的RGB彩色图像中随机采样并截取256张大小为32×32的图像，减RGB三通道均值分别为123.68、116.7、103.94，并作随机水平翻转作为输入X_train。

然后，不断获取X_train训练构建的网络模型，训练时使用采用Nesterov技术的Mini-batch Stochastic Gradient Descent优化器来优化损失函数。mini-batch的大小设置为256，权重衰减率设置为0.0，动量设置为0.9；训练的前130次迭代采用0.01的学习率，137-200次迭代采用0.001的学习率，201-253次迭代采用0.0001的学习率，250次迭代之后损失函数值停止下降，停止训练，得到完成训练的基于可分离卷积和自适应性增强多尺度特征的注意力机制的深度卷积神经网络。

接着，把Cifar10数据集的10000张32×32的RGB验证图像集X_test送入优化完成的网络模型，得到10000张图像的分类概率向量

最后，将得到的预测概率向量与验证数据集的真实类别标签Y_test进行比对，得到该模型在验证数据集上的最终分类准确度。

本发明的基于可分离卷积和注意力机制的图像分类方法，相比于现有普通卷积不使用注意力机制的网络模型来说能够加快模型收敛速度并提高模型准确度。

图2为本发明一个具体实施例的残差卷积模块的结构图，构建所述残差卷积模块，包括：

依次连接第一卷积层、第一规范化层、第一线性修正单元层、第二卷积层、第二规范化层、第二线性修正单元层、第三卷积层、第三规范化层、逐点加法层，将第一卷积层的输入X与第三规范化层的输出逐元素相加得Y＝f(X)+X，将相加后的结果输出到第三线性修正单元层，构建得到所述残差卷积模块。

其中，所述残差卷积模块的输出特征的尺寸和输入X的尺寸均为H×W×C，H、W、C分别为特征图高度、宽度和通道数，第一卷积层卷积核尺寸为1×1、第二卷积层卷积核尺寸为3×3、第三卷积层卷积核尺寸为1×1。

图3为本发明一个具体实施例的可分离卷积模块的结构图，构建所述可分离卷积模块，包括：

依次连接第一可分离卷积层、第一规范化层、第一线性修正单元层、第二可分离卷积层、第二规范化层、第二线性修正单元层、第三可分离卷积层、第三规范化层、逐点加法层，将第一可分离卷积层的输入X与第三规范化层的输出逐元素相加得Y＝f(X)+X，将相加后的结果输出到第三线性修正单元层，构建得到所述可分离卷积模块。

其中，所述可分离卷积模块的输出特征的尺寸和输入X的尺寸均为H×W×C，H、W、C分别为特征图高度、宽度和通道数，第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为3×3、第三可分离卷积层卷积核尺寸为1×1。

图4为本发明一个具体实施例的注意力机制特征增强模块的结构图，构建所述注意力机制特征增强模块，包括：

依次连接第一最大池化层、第一可分离卷积模块、第二最大池化层、第二可分离卷积模块、第三可分离卷积模块、第一上采样卷积层、逐点加法层、第四可分离卷积模块、第二上采样卷积层、第一可分离卷积层、第二可分离卷积层、S型生长曲线激活函数层，所述第一可分离卷积模块的输出端通过第五可分离卷积模块连接到所述逐点加法层的输入端，构建得到所述注意力机制特征增强模块，所述注意力机制特征增强模块利用所述可分离卷积模块构建得到。

其中，输入X接第一最大池化层、第一可分离卷积模块，此时的输出X_skip分别接第二最大池化层输出为X_max、第五可分离卷积模块输出为X_sepconv。X_max接第二可分离卷积模块、第三可分离卷积模块和第二上采样卷积层，输出X_upsample加上X_sepconv后再接第四可分离卷积模块、第二上采样卷积层、第一可分离卷积层、第二可分离卷积层、S型生长曲线激活函数层可得到模块的输出A(X)，第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为1×1，所述S型生长曲线激活函数层的尺寸和第一最大池化层的输入X的尺寸均为H×W×C，H、W、C分别为特征图高度、宽度和通道数，且对输入X的尺寸大小无强制性限制，所以在网络模型中可自适应性增强多尺度的特征图，所述第一最大池化层的输入为所述残差卷积模块的输出。

图5为本发明一个具体实施例的原始深度卷积神经网络的结构图，构建所述原始深度卷积神经网络，包括：

在本发明的一个实施例中，所述S13包括：

优选的，构建输入预处理卷积层，由输入层和1个普通卷积层组成，卷积层的卷积核尺寸为3×3，卷积步长为1×1，卷积核的数量为64。

在本发明的一个实施例中，所述第二模块、所述第三模块、所述第四模块均包括：残差卷积模块、注意力机制特征增强模块、逐点乘加线性修正单元层，其中，该顶层模块输入端，输入为X，连接所述残差卷积模块输出端，输出为X_c，连接所述注意力机制特征增强模块输出端，输出为A(X_c)，连接逐点乘加层输出端，输出为(1+A(X_c))×X_c，连接线性修正单元层的该顶层模块输出端，输出为f((1+A(X_c))×X_c)，所述第二模块中每个模块的卷积核的数量均为64，所述第三模块中每个模块的卷积核的数量均为128，所述第四模块中每个模块的卷积核的数量均为256。

在本发明的一个实施例中，所述第一过渡模块、所述第二过渡模块均包括：最大池化层和修正残差卷积模块，其中，所述最大池化层的卷积核尺寸为3×3，步长为2×2，所述第一过渡模块中修正残差卷积模块的输入通道数为64，输出通道数为128，所述第二过渡模块中修正残差卷积模块的输入通道数为128，输出通道数为256。

图6为本发明一个具体实施例的修正残差卷积模块，包括：

依次连接第一卷积层、第一规范化层、第一线性修正单元层、第二卷积层、第二规范化层、第二线性修正单元层、第三卷积层、第三规范化层、逐点加法层，将第一卷积层的输入X与第三规范化层的输出逐元素相加得Y＝f(X)+X，将相加后的结果输出到第三线性修正单元层，所述第一卷积层的输入端通过第四卷积层连接到所述逐点加法层的输入端，构建得到所述修正残差卷积模块。

其中，所述修正残差卷积模块的输出特征的尺寸和输入X的尺寸均为H×W×C，H、W、C分别为特征图高度、宽度和通道数，第一卷积层卷积核尺寸为1×1、第二卷积层卷积核尺寸为3×3、第三卷积层卷积核尺寸为1×1、第四卷积层卷积核尺寸为1×1。

优选的，修改所述残差卷积模块是由于各大模块之间的卷积核的数量不同，在进行跨层逐点加操作时，会出现维度不匹配的问题，因此需要在所述残差卷积模块中加一层卷积核尺寸为1×1的卷积层来实现维度匹配。

优选的，本发明的效果可以通过以下对照实验进一步说明。

对照实验分别采用普通卷积层代替可分离卷积层、不使用注意力机制的深度卷积网络和本发明方法对Cifar10数据集的10000张验证图像进行分类，实验结果见表1。

表1图像测试数据集分类正确率对比表

由表1可见：

为保证无注意力机制、普通卷积和注意力机制、普通卷积参数量相差不悬殊的情况下比较图像分类正确率，可以看出注意力机制对模型提升了0.78％的正确率。本发明方法是注意力机制和可分离卷积的结合，正确率比使用无注意力机制和普通卷积提升了1.48％的正确率。

经过实验可知，本发明方法在第50次迭代左右就已经达到了注意力机制和普通卷积结合模型第100次迭代的正确率。

通过实验所得特征图，可见特征图的第一行加强了图像纹理特征，第二行加强了背景特征，第三行加强了前景特征，因此从特征图的前后变化可知注意力机制可很大程度上增强特征图中的特征。

综上，本发明提出的基于可分离卷积和注意力机制的图像分类方法，可用于提升深度学习中图像分类模型特征提取的效率和缩减模型的训练参数量，加速模型收敛。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于可分离卷积和注意力机制的图像分类方法，其特征在于，包括：

S1、构建原始深度卷积神经网络；

2.根据权利要求1所述的基于可分离卷积和注意力机制的图像分类方法，其特征在于，所述S2包括：

S21、对所述训练数据集进行预处理；

3.根据权利要求1所述的基于可分离卷积和注意力机制的图像分类方法，其特征在于，所述S1包括：

S11、构建残差卷积模块、构建可分离卷积模块；

4.根据权利要求3所述的基于可分离卷积和注意力机制的图像分类方法，其特征在于，构建所述残差卷积模块包括：

5.根据权利要求3所述的基于可分离卷积和注意力机制的图像分类方法，其特征在于，构建所述可分离卷积模块包括：

6.根据权利要求3所述的基于可分离卷积和注意力机制的图像分类方法，其特征在于，构建所述注意力机制特征增强模块包括：

7.根据权利要求3所述的基于可分离卷积和注意力机制的图像分类方法，其特征在于，所述S13包括：

8.根据权利要求7所述的基于可分离卷积和注意力机制的图像分类方法，其特征在于，所述第二模块、所述第三模块、所述第四模块均包括：残差卷积模块、注意力机制特征增强模块、逐点乘加线性修正单元层，其中，所述残差卷积模块连接所述逐点乘加线性修正单元层，所述残差卷积模块的输出端通过所述注意力机制特征增强模块连接到所述逐点乘加线性修正单元层的输入端，所述第二模块中每个模块的卷积核的数量均为64，所述第三模块中每个模块的卷积核的数量均为128，所述第四模块中每个模块的卷积核的数量均为256。

9.根据权利要求7所述的基于可分离卷积和注意力机制的图像分类方法，其特征在于，所述第一过渡模块、所述第二过渡模块均包括：最大池化层和修正残差卷积模块，其中所述最大池化层的卷积核尺寸为3×3，步长为2×2，所述第一过渡模块中修正残差卷积模块的输入通道数为64，输出通道数为128，所述第二过渡模块中修正残差卷积模块的输入通道数为128，输出通道数为256，所述修正残差卷积模块为在所述残差卷积模块的旁路增加一层卷积层，其中，所述卷积层卷积核尺寸为1×1。

10.根据权利要求7所述的基于可分离卷积和注意力机制的图像分类方法，其特征在于，所述第五模块包括：依次连接的第一残差卷积模块、第二残差卷积模块、全局池化层、全连接层、Softmax激活函数分类层，其中所述第一残差卷积模块卷积核数量和所述第二残差卷积模块卷积核数量均为256，所述全局池化层的输出通道数为256，所述全连接层的输出通道数为10，所述Softmax激活函数分类层的输出通道数为10。