CN113344146B

CN113344146B - 基于双重注意力机制的图像分类方法、系统及电子设备

Info

Publication number: CN113344146B
Application number: CN202110886325.4A
Authority: CN
Inventors: 何政; 叶刚; 傅佑铭; 王中元; 邹勤
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-11-02
Anticipated expiration: 2041-08-03
Also published as: CN113344146A

Abstract

本发明公开了一种基于双重注意力机制的图像分类方法、系统及电子设备，利用改进的自注意力模型，同时计算特征图空间维度和特征图通道维度的注意力权重，然后将两种注意力机制生成的特征图相加，完成端对端的图像分类网络构建，提升网络对显著区域的自适应感知能力，实现更加精准鲁棒的图像特征表达，进而提升图像分类性能。

Description

基于双重注意力机制的图像分类方法、系统及电子设备

技术领域

本发明属于图像处理技术领域，涉及一种图像分类方法、系统及电子设备，具体涉及一种基于双重注意力机制的图像分类方法、系统及电子设备。

背景技术

自深度学习诞生至今，相关技术，特别是深度卷积网络相关的技术为计算机视觉领域带来了巨大的变革与影响，基于深度卷积网络的图像分类方法已经成为了当前研究的主流方法。但此类方法也存在以下不足：

(1)过度依赖训练数据。图像的特征表达是基于深度卷积网络的图像分类方法的核心内容，而准确鲁棒的特征获取很大程度上取决于网络对海量数据的学习，数据的数量和质量将直接影响到特征空间的构建。

(2)卷积模式的局限性。卷积操作的实质是利用单一采样模式对特定区域进行滤波，尽管深度卷积网络能够通过多层和多模态卷积操作实现大尺度感受野内的特征表达，但其采样模式的单一性和邻接性限制了卷积网络对不同尺度特征的准确表达，同时也导致了最终生成的特征的局部表达在整体图像层面关联性较弱，无法较好地保证具有相似图像语义内容的局部特征具有相近的特征表达。

(3)特征图通道间的分类辨识度不同。深度卷积网络生成的特征图具有多个channel维度，不同维度的数据对图像的分类的贡献权重不尽相同，如何利用合理的模型计算贡献权重，也是改进基于深度卷积网络图像分类方法的重要途径。

发明内容

针对上述问题，本发明提出了一种基于双重注意力机制的图像分类方法、系统及电子设备。

本发明的方法所采用的技术方案是：一种基于双重注意力机制的图像分类方法，包括以下步骤：

步骤1：构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络；

所述基于Transformer的空间维度自注意力网络，第一层是3个平行的卷积核是1×1步长为1的卷积操作，第二层是利用softmax+向量乘积，第三层是权重矩阵与特征图的乘积，第四层是权重特征图与原特征图相加，最后输出空间维度特征图；

所述基于Transformer的channel维度自注意力网络，第一层是2个平行的卷积核是1×1步长为1的卷积操作，第二层是利用softmax+向量乘积，第三层是权重矩阵与特征图的乘积，第四层是权重特征图与原特征图相加，最后输出通道维度特征图；

步骤2：将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络，生成基于图像空间维度的注意力特征图；

对输入图像Fm进行预处理，获得浅层特征图Fm₁；采用自底向上和自顶向下相结合的方式，对浅层特征图Fm₁进行处理，生成中层特征图FA；将中层特征图FA输入至空间维度自注意力网络，生成基于图像空间维度的注意力特征图FE_P；

步骤3：将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络，生成基于特征图通道维度的注意力特征图FE_c；

步骤4：将步骤2得到的特征图FE_P和步骤3得到的特征图FE_c进行对应维度上的元素相加，得到最后的输出特征图FM_ap；将特征图FM_ap放入全连接层进行线性映射，生成维度为nmu×1的向量，其中nmu为图像类别的个数，选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。

本发明的系统所采用的技术方案是：一种基于双重注意力机制的图像分类系统，包括以下模块：

模块1，用于构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络；

模块2，用于将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络，生成基于图像空间维度的注意力特征图；

模块3，用于将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络，生成基于特征图通道维度的注意力特征图FE_c；

模块4，用于将模块2得到的特征图FE_P和模块3得到的特征图FE_c进行对应维度上的元素相加，得到最后的输出特征图FM_ap；将特征图FM_ap放入全连接层进行线性映射，生成维度为nmu×1的向量，其中nmu为图像类别的个数，选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。

本发明的电子设备所采用的技术方案是：一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现基于双重注意力机制的图像分类方法。

相对于现有技术，本发明的有益效果包括：

(1)本发明利用改进的自注意力模型，同时计算特征图空间维度和特征图channel维度的注意力权重，然后将两种注意力机制生成的特征图相加，完成端对端的图像分类网络构建，提升网络对显著区域的自适应感知能力。

(2)相比与传统基于深度卷积的图像分类方法，本发明能够高效地实现图像空间维度和通道维度上高辨识度信息的权重自适应分配，综合考虑不同区域内的图像信息的冗余度，不同通道内的信息对图像分类的不同贡献，进而实现更加精准鲁棒的图像特征表达，进而提升图像分类性能。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例的基于Transformer的空间维度自注意力网络结构示意图。

图3为本发明实施例的基于Transformer的channel维度自注意力网络结构示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种一种基于双重注意力机制的图像分类方法，包括以下步骤：

请见图2，本实施例的基于Transformer的空间维度自注意力网络，第一层是3个平行的卷积核是1×1步长为1的卷积操作，第二层是利用softmax+向量乘积，第三层是权重矩阵与特征图的乘积，第四层是权重特征图与原特征图相加，最后输出空间维度特征图；

请见图3，本实施例的基于Transformer的channel维度自注意力网络，第一层是2个平行的卷积核是1×1步长为1的卷积操作，第二层是利用softmax+向量乘积，第三层是权重矩阵与特征图的乘积，第四层是权重特征图与原特征图相加，最后输出通道维度特征图；

对输入图像Fm进行预处理，获得浅层特征图Fm₁；采用自底向上(bottom-up)和自顶向下(top-down)相结合的方式，对浅层特征图Fm₁进行处理，生成中层特征图FA；将中层特征图FA输入至空间维度自注意力网络，生成基于图像空间维度的注意力特征图FE_P；

本实施例对输入图像Fm进行预处理，获得浅层特征图Fm₁；其具体实现包括以下子步骤：

步骤2.1：对于任意输入图像Fm，定义并进行残差块操作res()；

res(Fm)＝Fm+conv(Fm) (1)；

其中conv(Fm)是步长为1，卷积核是3×3，维持输出特征图维度不变的卷积操作，res(Fm)即是残差块的输出；

步骤2.2：针对已知的训练样本集Train＝{S_i}^Nt _i＝1，S_i＝(img_i,l_i)，其中S_i表示第i个训练样本，img_i是该样本的图像，l_i是该样本的分类标签，N_t是样本总数目；将{img_i}输入至步骤1中残差块，将输出的特征图再次输入至残差块，输出浅层特征图Fm₁。

本实施例采用自底向上(bottom-up)和自顶向下(top-down)相结合的方式，对浅层特征图Fm₁进行处理，生成中层特征图FA；其具体实现包括以下子步骤：

步骤2.3：对Fm₁进行卷积核是3×3，步长为2的最大池化操作，记为max_pooling(Fm₁)，将输出的特征图输入至残差块res(max_pooling(Fm₁))，对输出的特征图再次进行上述操作，得到特征图Fm₂；

步骤2.4：利用双线性插值的方法，在空间维度将特征图Fm₂上采样至维度为(C₀，2H₀，2W₀)的张量UFm₂，其中(C₀，H₀，W₀)是Fm₂的维度；再将UFm₂输入至残差块中，输出特征图Fm₃；对Fm₃重复上述操作，即先将Fm₃上采样至(C₀，4H₀，4W₀)，再输入至残差块，最后输出特征图Fm₄；其中Fm₄的维度与Fm₁的维度相同；

步骤2.5：将特征图Fm₄输入任意深度卷积网络(本实施例采用Resnet50网络)中，输出中层特征图FA∈R^C×H×W其中C是特征图的通道维度，H和W分别是特征图的高和宽。

本实施例将中层特征图FA输入至空间维度自注意力网络，生成图像空间维度的注意力特征图FE_P；其具体实现包括以下子步骤：

步骤2.6：将中层特征图FA∈R^C×H×W分别送入两个步长为1，卷积核是1×1的卷积层，且输出的特征图通道维度是C，生成两个特征图{FB，FC}∈R^C×H×W；

步骤2.7：将{FB，FC}进行维度上的变换，得到特征向量{VB，VC}∈R^C×N，其中N＝H×W，N是单个通道上像素的个数总数，利用公式(2)计算空间注意力权值：

其中，VB_i表示VB的第i行行向量，VC_j ^T表示VC的第j行行向量的转置；m_ji表示FA中第i个位置上的像素对第j个位置上像素的影响系数，m_ji越大就说明这两个位置上的像素的相似度越高，m_ji组成的矩阵用M表示；

步骤2.8：将中层特征图FA∈R^C×H×W输入至另外一个步长为1，卷积核是1×1，输出特征图通道维度为C的卷积层，生成新的特征图FD∈R^C×H×W，同时将其进行维度变换，生成特征向量VD∈R^C×N；将VD与M的转置M^T相乘获得张量FE，并将得到的张量进行维度的转换，生成张量FE_s∈R^C×H×W；

步骤2.9：将张量FE_s按照公式(3)与原中层特征图FA加权相加，得到最终空间维度的输出特征图；

FE_p＝αFE_s+FA (3)；

其中，α∈(0，1)是可训练的参数，在训练时α的初始值设置为0，FE_p∈R^C×H×W是空间位置维度中，经过甚于Transformer的空间维度自注意力网络后输出的特征图。

步骤3：将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络，生成基于特征图通道维度的注意力特征图FE；

本实施例步骤3的具体实现包括以下子步骤：

步骤3.1：将中层特征图FA∈R^C×H×W变换维度为R^C×N的张量VA，利用公式(4)计算VA通道向量间的相似度；

其中，A_i表示A的第i行行向量，A_j ^T表示A的第j行行向量的转置，h_ji表示第i个通道的张量与第j个通道的张量的影响系数；h_ji构成的矩阵记为H_s，H_s的转置H_s ^T与F_A相乘，得到张量FE_h∈R^C×H×W；

步骤3.2：将张量FE_h按照公式(5)与原中层特征图FA加权相加，得到最终位置维度的输出特征图；

FE_c＝βFE_h+FA (5)：

其中，β∈(0，1)是可训练的参数，在训练时β的初始值设置为0，FE_c∈R^C×H×W是空间位置维度中，经过基于Transformer的channel维度自注意力网络后输出的特征图。

本实施例中，还包括对基于Transformer的空间维度自注意力网络和基于Transformer的channel维度自注意力网络进行训练，是将FM_ap放入全连接层进行线性映射，生成维度为nmu×1的向量，随后利用softmax函数对映射结果向量进行归一化处理，将最终结果与原始图像的标签向量进行比对，进而进行反向传播，完成有监督式的训练，得到训练好的基于Transformer的空间维度自注意力网络和基于Transformer的channel维度自注意力网络。

基于深度学习的图像分类问题是当下研究与应用最为广泛的分类问题之一，图像的特征表示一直是该领域的研究重点和难点，如何高效准确的实现图像特征的表达，直接影响到最终图像分类效率与结果。本发明提出了一种基于双重注意力机制的图像分类网络，利用改进的自注意力模型，同时考虑特征图位置维度和特征图通道维度的注意力权重。相比与传统基于深度卷积的图像分类方法，该方法能够高效地实现图像空间维度和通道维度上高辨识度信息的权重自适应分配，综合考虑不同区域内的图像信息的冗余度，不同通道内的信息对图像分类的不同贡献，进而实现图像特征的准确高效表达，提升图像分类性能。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于双重注意力机制的图像分类方法，其特征在于，包括以下步骤：

所述基于Transformer的特征图channel维度自注意力网络，第一层是2个平行的卷积核是1×1步长为1的卷积操作，第二层是利用softmax+向量乘积，第三层是权重矩阵与特征图的乘积，第四层是权重特征图与原特征图相加，最后输出通道维度特征图；

2.根据权利要求1所述的基于双重注意力机制的图像分类方法，其特征在于，步骤2中所述对输入图像Fm进行预处理，获得浅层特征图Fm₁；其具体实现包括以下子步骤：

步骤2.1：对于任意输入图像Fm，定义并进行残差块操作res()；

res(Fm)＝Fm+conv(Fm) (1)；

步骤2.2：针对已知的训练样本集Train＝{S_i}^Nt _i＝1，S_i＝(img_i，l_i)，其中S_i表示第i个训练样本，img_i是该样本的图像，l_i是该样本的分类标签，N_t是样本总数目；将{img_i}输入至步骤1中残差块，将输出的特征图再次输入至残差块，输出浅层特征图Fm₁。

3.根据权利要求2所述的基于双重注意力机制的图像分类方法，其特征在于，步骤2中所述采用自底向上和自顶向下相结合的方式，对浅层特征图Fm₁进行处理，生成中层特征图FA；其具体实现包括以下子步骤：

步骤2.5：将特征图Fm₄输入至任意深度卷积网络，输出中层特征图FA∈R^C×H×W，其中C是特征图的通道维度，H和W分别是特征图的高和宽。

4.根据权利要求2所述的基于双重注意力机制的图像分类方法，其特征在于，步骤2中所述将中层特征图FA输入至空间维度自注意力网络，生成图像空间维度的注意力特征图FE_P；其具体实现包括以下子步骤：

FE_p＝αFE_s+FA (3)；

其中，α∈(0，1)是可训练的参数，在训练时α的初始值设置为0，FE_p∈R^C×H×W是空间位置维度中，经过基于Transformer的空间维度自注意力网络后输出的特征图。

5.根据权利要求2所述的基于双重注意力机制的图像分类方法，其特征在于，步骤3的具体实现包括以下子步骤：

其中，A_i表示A的第i行行向量，A_j ^T表示A的第j行行向量的转置，h_ji表示第i个通道的张量与第j个通道的张量的影响系数；h_ji构成的矩阵记为H_s，H_s的转置H_s ^T与FA相乘，得到张量FE_h∈R^C×H×W；

FE_c＝βFE_h+FA (5)；

6.根据权利要求1-5任意一项所述的基于双重注意力机制的图像分类方法，其特征在于：还包括对基于Transformer的空间维度自注意力网络和基于Transformer的channel维度自注意力网络进行训练，将FM_ap放入全连接层进行线性映射，生成维度为nmu×1的向量，随后利用softmax函数对映射结果向量进行归一化处理，将最终结果与原始图像的标签向量进行比对，进而进行反向传播，完成有监督式的训练，得到训练好的基于Transformer的空间维度自注意力网络和基于Transformer的channel维度自注意力网络。

7.一种基于双重注意力机制的图像分类系统，其特征在于，包括以下模块：

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的基于双重注意力机制的图像分类方法。