CN114782737A

CN114782737A - 一种基于改进残差网络的图像分类方法、设备和存储介质

Info

Publication number: CN114782737A
Application number: CN202210295560.9A
Authority: CN
Inventors: 陈江海; 黄晓光; 苏江文; 闫丽飞
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-07-22

Abstract

本发明涉及一种基于改进残差网络的图像分类方法，包括以下步骤：收集原始图像作为训练数据；对训练数据进行预处理；构建图像分类模型，图像分类模型以残差网络作为主干网络，在残差网络中的每个Conv Block中增加CBAM卷积注意力模块，在Idenfify Block中增加SE激励模块；CBAM卷积注意力模块基于注意力机制对输入特征进行特征提取，所述SE激励模块对每个通道的重要性进行预测，并对输入特征的对应通道进行激励，识别图像不同局部区域的重要程度；利用预处理后的训练数据对所述图像分类模型进行训练；利用训练好的图像分类模型进行图像分类；本发明在残差网络中增加了注意力模块和激励模块，使得分类的召回率、准确率大幅度提升，同时解决细粒度的图像分类任务问题。

Description

一种基于改进残差网络的图像分类方法、设备和存储介质

技术领域

本发明涉及一种基于改进残差网络的图像分类方法、设备和存储介质，属于图像分类技术领域。

背景技术

图像分类，即根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读，其目标是将不同的图像，划分到不同的类别，实现最小的分类误差。

图像分类是计算机视觉中最基础的一个任务，集成了图像处理、模式识别、机器学习及人工智能等多个领域技术，其应用也十分广泛，包括图像检索、人脸识别、场景分类和目标物体识别等。

图像分类任务从传统的方法到基于深度学习的方法，经历了几十年的发展。从以SVM为代表的方法，到LeNet神经网络，再到Clarifai、GoogLeNet、VGGNet、ResNet、DenseNet等。

目前，图像分类的技术日趋成熟，也接近算法的极限。但是，在实际的应用中，却面临着复杂和现实的问题，如细粒度的图像分类任务、类别不均衡的分类任务等；要很好的完成图像分类任务，还存在着一些挑战。

现有技术申请号为“CN202111244501.0”的专利提出了一种基于残差网络的图像分类方法，其通过卷积神经网络，构建深层残差单元，通过残差网络解决网络深度加深带来的梯度消失问题；进行网络训练得到图像分类模型。此方式是传统深度学习卷积神经网络进行图像分类的方式。通过主干网络提取图像特征，从而进行分类。此方案存在明显的一些缺点，缺点1：对于细粒度的图像分类，本方案效果较差。如：不同蝴蝶种类间的差异性可能非常小，在图像中仅显示为局部的差异，本方案无法处理此场景下的图像分类问题；缺点2：此方案训练过程收敛速度较慢，可采用ReLu函数进行提升；缺点3:未包含Dropout层，可能会导致模型出现过拟合情况。

如上述现有技术的内容可见，近年来的主流方案基本均为采用深度学习卷积神经网路的技术路线，即通过卷积神经网路提取图像特征，并构建分类器，从而完成对图像对分类。但目前的方案在实际应用场景中均存在无法准确的进行细粒度的图像分类任务；类别不均衡场景下效果较差等问题。

发明内容

为了解决上述现有技术中存在的问题，本发明提出了一种基于改进残差网络的图像分类方法，在残差网络中增加了注意力模块，有效增强目标在复杂场景中的显著性，从而使注意力集中在这些显著性区域，提高图像分类准确率，使得分类的召回率、准确率大幅度提升。同时增加了激励模块，使得不同通道的特征重要程度得到正向的反馈，可解决细粒度的图像分类任务问题。

本发明的技术方案如下：

一方面，本发明提供一种基于改进残差网络的图像分类方法，包括以下步骤：

收集原始图像作为训练数据；

对训练数据进行预处理；

构建图像分类模型，图像分类模型以残差网络作为主干网络，在残差网络中的每个Conv Block中增加CBAM卷积注意力模块，在Idenfify Block中增加SE激励模块；所述CBAM卷积注意力模块基于空间注意力机制和通道注意力机制对输入特征进行特征提取，所述SE激励模块对每个通道的重要性进行预测，根据通道的重要性对输入特征的对应通道进行激励，识别图像不同局部区域的重要程度；

利用预处理后的训练数据对所述图像分类模型进行训练；

利用训练好的图像分类模型进行图像分类。

作为优选实施方式，所述CBAM卷积注意力模块将输入的特征图F1分别进行全局最大池化和全局平均池化操作，分别得到特征图F2和特征图F3；

将特征图F2和特征图F3分别输入至双层神经网络MLP，双层神经网络MLP内包括两层共享的神经网络；将双层神经网络输出的特征进行基于element-wise的特征相加操作，再经过sigmoid激活操作，生成通道注意力特征图F4；

将通道注意力特征图F4与输入的特征图F1进行基于element-wise的特征相乘操作，得到最终特征图。

作为优选实施方式，所述SE激励模块设置在Idenfify Block的最后一个Block之后，SE激励模块包括压缩层、激励层和Scale操作；

所述压缩层对输入的维度为H*W*C的原始特征图进行全局平均池化操作，压缩为1*1*C的特征图后输出至激励层；

所述激励层包括连续的两个全连接层，每一全连接层后端连接一激活函数；

第一个全连接层包括C*SERatio个神经元，输入为1*1*C的特征图，输出1*1*C*SERadio的特征图；其中SERadio为缩放参数；

第二个全连接层包括C个神经元，输入为1*1*C*SERadio的特征图，输出1*1*C的特征图作为对应通道的权重值；

所述Scale操作将输出的对应通道的权重值与原始特征图对应通道的二维矩阵相乘，输出结果。

作为优选实施方式，所述对训练数据进行预处理的步骤具体为：

利用ACGAN生成式对抗网络对原始图像进行数据增强和辅助分类。

另一方面，本发明还提供一种基于改进残差网络的图像分类设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

收集原始图像作为训练数据；

对训练数据进行预处理；

利用预处理后的训练数据对所述图像分类模型进行训练；

利用训练好的图像分类模型进行图像分类。

再一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明任一实施例所述的基于改进残差网络的图像分类方法。

本发明具有如下有益效果：

1、本发明一种基于改进残差网络的图像分类方法，在残差网络中增加了注意力模块，有效增强目标在复杂场景中的显著性，从而使注意力集中在这些显著性区域，提高图像分类准确率，使得分类的召回率、准确率大幅度提升。同时增加了激励模块，使得不同通道的特征重要程度得到正向的反馈，可解决细粒度的图像分类任务问题。

2、本发明一种基于改进残差网络的图像分类方法，提出采用生成式对抗网络合成数据，从而修复类别不均衡问题，进而提升模型分类指标。

附图说明

图1为本发明实施例的整体方法流程图；

图2为本发明实施例中改进后的残差网络的结构示意图；

图3为本发明实施例中CBAM卷积注意力模块的结构示意图；

图4为本发明实施例总SE激励模块的结构示意图；

图5为本发明实施例中压缩层的操作流程图；

图6为本发明实施例中激励层的操作流程图；

图7为本发明实施例中ACGAN网络的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

实施例一：

参见图1，一种基于改进残差网络的图像分类方法，包括以下步骤：

收集原始图像作为训练数据；

对训练数据进行预处理；

构建图像分类模型，图像分类模型以Resnet50残差网络作为主干网络，并对主干网络进行改造，在残差网络中的每个Conv Block中增加CBAM卷积注意力模块，在IdenfifyBlock中增加SE激励模块，改造后的主干网络结构图如图2所示，conv1、conv2、conv3、conv4，conv5为Resnet50网络中的convBlock，identify为Resnet50网络中的IdentityBlock。CBAM为本实施例自定义的卷积注意力模块，在Resnet50原有的每个ConvBlock中均增加该模块。SE为本发明自定义的激励模块，在Resnet50原有每个idenfify block中均增加该模块。

所述CBAM卷积注意力模块基于空间注意力机制和通道注意力机制对输入特征进行特征提取，所述SE激励模块，通过Squeeze(压缩)和Excitation(激励)，对每个通道的重要性进行预测，得到不同通道的重要性大小后再作用(激励)到之前的特征图(featuremap)的对应通道上，从而识别到图像不同局部区域中的重要程度；通过增加上述两个模块使主干网络具备聚焦到最具辨别性的通道及区域。

利用预处理后的训练数据对所述图像分类模型进行训练；

利用训练好的图像分类模型进行图像分类。

本实施例通过在残差网络中增加了注意力模块，有效增强目标在复杂场景中的显著性，从而使注意力集中在这些显著性区域，提高图像分类准确率，使得分类的召回率、准确率大幅度提升。同时增加了激励模块，使得不同通道的特征重要程度得到正向的反馈，可解决细粒度的图像分类任务问题。

作为本实施例的优选实施方式，本实施例中CBAM卷积注意力模块是一种用于前馈卷积神经网络的简单而有效的注意力模块。给定一个中间特征图，CBAM卷积注意力模块会沿着两个独立的维度(通道和空间)依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化。

本实施例通过在ImageNet，MS COCO检测等检测数据集上进行的广泛实验来验证CBAM卷积注意力模块。实验表明，使用该模块在各种模型上，对于图像分类任务，有较为明显的提升。

CBAM卷积注意力模块同时结合了空间(spatial)和通道(channel)的注意力机制模块。如图3所示为CBAM卷积注意力模块的结构，该CBAM卷积注意力模块将输入的维度为H×W×C的特征图F1分别经过基于width和height的全局最大池化(global max pooling)和全局平均池化操作(global average pooling)，分别得到两个维度为1×1×C的特征图F2和特征图F3；

再将特征图F2和特征图F3分别输入至双层神经网络MLP，双层神经网络MLP内包括两层共享的神经网络，第一层神经网络的神经元个数为C/r(r为减少率)，激活函数为Relu，第二层神经网络的神经元个数为C；将双层神经网络输出的特征进行基于element-wise的特征相加操作，再经过sigmoid激活操作，生成最终的channel attention feature，即通道注意力特征图F4；

作为本实施例的优选实施方式，具体所述SE激励模块设置在Idenfify Block的最后一个Block之后，SE激励模块包括压缩层、激励层和Scale操作；SE激励模块的结构如图4所示；

如图5所示，所述压缩层对输入的维度为H*W*C的原始特征图进行全局平均池化操作，其中H是高度(Height)，W是宽度(width)，C是通道数(channel)，压缩的目标是globalaverage pooling(简称GAP,全局平均池化层)把维度H*W*C压缩为1*1*C，相当于把H*W压缩成一维，H*W压缩成一维后，相当于这一维参数获得了之前H*W全局的视野，感受区域更广，压缩为1*1*C的特征图后输出至激励层；

如图6所示，所述激励层包括连续的两个全连接层，每一全连接层后端连接一激活函数；

第一个全连接层包括C*SERatio个神经元，输入为1*1*C的特征图，输出1*1*C*SERadio的特征图；其中SERadio为缩放参数，这个参数的目的是为了减少通道个数从而降低计算量；

获取激励层输出的对应通道的权重值之后，进行Scale操作，原始特征图的维度为W*H*C，将将输出的对应通道的权重值与原始特征图对应通道的二维矩阵相乘，得出的结果输出；

可以得出SE激励模块的属性：

参数量＝2×C×C×SERatio

计算量＝2×C×C×SERatio。

作为本实施例的优选实施方式，所述对训练数据进行预处理的步骤具体为：

为了解决类别不均衡场景图像分类，本实施例提出采用生成式对抗网络合成数据，从而修复类别不均衡问题，进而提升模型分类指标。

本实施例采用ACGAN(Auxiliary Classifier GAN)作为生成器，可实现对生成图片类别的精确控制。

原始GAN网络的功能比较简单：输入噪声数据，输出伪造图片。而后CGAN网络可以通过给GAN网络的生成器添加辅助信息(比如类别标签)，来实现生成图片类别的精确控制。

本实施例采用的ACGAN网络是在CGAN网络基础上的进一步拓展，采用辅助分类器(Auxiliary Classifier)使得GAN网络获取的图像分类的功能。

该ACGAN网络的结构如图7所示；

如图7示出的结构：和CGAN网络不同的是，C不直接输入D，D不仅需要判断每个样本的真假，还需要完成一个分类任务即预测C，通过增加一个辅助分类器实现。

其中：C为图像类别，Z为噪声，G为生成器，Xreal为真实图片，Xfake为生成的图片，D为判别器。

ACGAN的损失函数分为判别损失和分类损失两个部分。判别损失公式如下：

L_S＝E[log P(S＝real|X_real)]+E[log P(S＝fake|X_fake)]

分类损失公式如下：

L_C＝E[log P(C＝c|X_real)]+E[log P(C＝c|X_fake)]

实施例二：

本实施例提供一种基于改进残差网络的图像分类设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

收集原始图像作为训练数据；

对训练数据进行预处理；

利用预处理后的训练数据对所述图像分类模型进行训练；

利用训练好的图像分类模型进行图像分类。

可以得出SE激励模块的属性：

参数量＝2×C×C×SERatio

计算量＝2×C×C×SERatio。

该ACGAN网络的结构如图7所示；

L_S＝E[log P(S＝real|X_real)]+E[log P(S＝fake|X_fake)]

分类损失公式如下：

L_C＝E[log P(C＝c|X_real)]+E[log P(C＝c|X_fake)]

实施例三：

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明任一实施例所述的基于改进残差网络的图像分类方法。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于改进残差网络的图像分类方法，其特征在于，包括以下步骤：

收集原始图像作为训练数据；

对训练数据进行预处理；

利用预处理后的训练数据对所述图像分类模型进行训练；

利用训练好的图像分类模型进行图像分类。

2.根据权利要求1所述的一种基于改进残差网络的图像分类方法，其特征在于：

所述CBAM卷积注意力模块将输入的特征图F1分别进行全局最大池化和全局平均池化操作，分别得到特征图F2和特征图F3；

3.根据权利要求1所述的一种基于改进残差网络的图像分类方法，其特征在于：

所述SE激励模块设置在Idenfify Block的最后一个Block之后，SE激励模块包括压缩层、激励层和Scale操作；

4.根据权利要求1所述的一种基于改进残差网络的图像分类方法，其特征在于，所述对训练数据进行预处理的步骤具体为：

5.一种基于改进残差网络的图像分类设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如下步骤：

收集原始图像作为训练数据；

对训练数据进行预处理；

利用预处理后的训练数据对所述图像分类模型进行训练；

利用训练好的图像分类模型进行图像分类。

6.根据权利要求5所述的一种基于改进残差网络的图像分类设备，其特征在于：

7.根据权利要求5所述的一种基于改进残差网络的图像分类设备，其特征在于：

8.根据权利要求5所述的一种基于改进残差网络的图像分类设备，其特征在于，所述对训练数据进行预处理的步骤具体为：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4任一项所述的基于改进残差网络的图像分类方法。