CN113570035B

CN113570035B - 一种利用多层卷积层信息的注意力机制方法

Info

Publication number: CN113570035B
Application number: CN202110768002.5A
Authority: CN
Inventors: 李章维; 胡安顺; 王晓飞
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2024-04-16
Anticipated expiration: 2041-07-07
Also published as: CN113570035A

Abstract

一种利用多层卷积层信息的注意力机制方法，利用当前卷积层的信息以及在它之前两层的卷积层的信息来关注当前层特征的重要性；首先，确定当前层卷积的输出A以及在它之前两层的卷积层的输出A'，利用全局平均池化分别得到它们的通道信息，再利用1×1的卷积对通道进行压缩以减少计算量。利用压缩后的特征计算权值矩阵，计算出的权值矩阵作用于A压缩后的特征，进行特征更新。再利用1×1的卷积将更新后的特征恢复到A的维度，与A做残差连接。本发明可以更加突出某一层比较重要的特征，抑制不重要的特征，同时也可以加强特征间的联系。

Description

一种利用多层卷积层信息的注意力机制方法

技术领域

本发明涉及计算机视觉、模式识别与计算机应用领域，具体而言涉及一种利用多层卷积层信息的注意力机制方法。

背景技术

注意力机制在卷积神经网络中的作用已经越来越突出，应用范围也越来越广泛。目前的注意力机制分两大类别即软注意力和硬注意力，大多数注意力机制都是软注意力机制。软注意力机制是给不同的特征配权重，突出重要的特征，抑制不重要的特征。硬注意力是为了消除不相关信息的干扰，提高计算率。从作用域来分，注意力机制可分为三类：通道注意力机制、空间注意力机制、通道-空间注意力机制。通道注意力是关注哪种特征更重要，空间注意力机制是关注哪个位置更重要。通道-空间注意力机制将通道注意力机制和空间注意力机制结合使用。注意力机制可以在增加较少的参数和计算量的条件下，提升网络性能，因此注意力机制在提升网络性能方面具有重要意义。

调研文献发现，已经有许多的注意力模块被提出。如：SENet(J.Hu,L.Shen,S.Albanie,G.Sun,E.Wu.Squeeze-and-Excitation Networks[J].IEEE Transcation onPattern Analysis and Machine Itelligence,2017,42(8):2011-2023.即：J.Hu等.挤压激发网络[J].IEEE模式分析与机器智能，2017,42(8):2011-2023)、CBAM(S.Woo,J.Park,J.Y.Lee,I.S.Kweon.CBAM:Convolutional Block Attention Module[C].Proceedings ofthe European Conference on Computer Vision and Pattern Recognition,2018:3-19.即S.Woo等CBAM：卷积阻塞注意力模块[C].计算机视觉和模式识别欧洲会议记录，2018:3-19.)、RANet(F.Wang,M.jiang,C.Qian,S.Yang,C.Li,H.Zhang,X.Wang,X.Tang.Residualattention network for image classification[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017:3156-3164.即F.Wang等，用于图像分类的残差注意力网络[C].计算机视觉和模式识别欧洲会议记录，2017:2156-2164)、DANet(J.Fu,J.Liu,H.Tian,Y.Li,Y.Bao,Z.Fang,H.Lu.Dual AttentionNetwork for Scene Segmentation[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2019:3141-3149.即J.Fu等，用于场景分割的双重注意力网络[C].IEEE国际计算机视觉与模式识别会议，2019:3141-3149.)。已有的注意力模块，通过网络学习的方式来确定某一层的权重，这是一个抽象的过程，导致了大多数的注意力模块局限于在某一层中或是通过不同的信息捕获方式给特征配权重，或是关注于减少注意力模块的计算量，或是关注于将作用在不同域的注意力模块结合使用，而这些注意力模块均是使用某一层的信息来关注该层的特征。

综上所述，已有的注意力模块，关注于只用某一层的信息来确定该层特征的重要性，而忽略了不同卷积层特征间的联系。用多层卷积层的特征信息给某一层的特征配权重，可以更突出该层重要的特征，更加抑制不重要的特征。相邻较远的两个卷积层特征间联系较弱，相邻的两个卷积层间特征差异性又较小，设当前卷积层的特征为x_i,前一层卷积的特征为x_i-1，再前面一层卷积的特征为x_i-2,本发明利用x_i和x_i-2的信息来为x_i分配权重，即利用当前卷积层信息和在它之前两层的卷积层的信息来为当前层特征分配权重。

发明内容

为了克服已有的注意力模块仅使用某一层卷积层的信息给该层特征配权重的不足，本发明提出一种利用多层卷积层信息的注意力机制方法。

本发明解决其技术问题所采用的技术方案是：

一种利用多层卷积层信息的注意力机制方法，所述方法包括以下步骤：

1)输入当前卷积层与在它之前两层的卷积层的输出A、A'，利用全局平均池化分别获得A和A'的通道信息X、X'；

2)利用1×1的卷积将X、X'进行压缩以进一步减少计算量，得到和θ(X′)；

3)将θ(X′)做转置，在和θ^T(X′)之间做矩阵乘法得到/>与θ^T(X′)的点乘关系，生成/>的权值矩阵M；

4)使用RELU函数，滤除M中小于0的元素；

5)利用1×1卷积，将A映射到M的维度，得到A的映射特征g(A)；

6)M与g(A)做矩阵乘法进行特征更新生成新特征图y，y中的每个元素是g(A)中每个通道对应位置元素的加权和，权值是中每个元素与θ^T(X′)中每个元素的关系；

7)用1×1的卷积将y映射到A的维度，得到新特征图映射后的特征W(y)；

8)将W(y)与A做残差连接，保证该注意力模块嵌入已经预训练好的模型时不会破坏它的初始参数。

本发明的技术构思为：用当前卷积层的输出特征与在它之前两层的卷积层的输出特征来共同关注当前卷积层输出的特征中哪些特征比较重要。首先确定要分配权重的卷积层的输出A，然后取出在它之前两层的卷积层的输出A'，为减少计算量，关注A和A’的通道特征：利用全局平均池化分别得到A和A’的通道特征X、X'。为进一步减少计算量，采用1×1的卷积对X和X'进行通道压缩，计算压缩后的特征之间的关系M。对A进行降维处理，利用1×1卷积将A降到与M一样的维度得到g(A)，M与g(A)的乘积就是突出重要特征后的新特征图y，这个特征图是对A压缩后的特征而言，再利用1×1的卷积将y升回到与A一样的维度与A做残差连接。网络得以更加关注A中比较重要的特征。

本发明的有益效果表现在：利用多层信息关注某一层的特征重要性，可以更加突出该层比较重要特征，抑制不重要的特征；由于计算的是两个不同层的特征进行压缩后的关系，即使本发明的两个输入是不同维度的特征，利用1×1的卷积进行通道压缩，仍然可以得到它们之间的关系。所以本发明可以用在网络的瓶颈部分。

附图说明

图1为一种利用多层卷积层信息的注意力机制方法的结构示意图。

图2为一种利用多层卷积层信息的注意力机制方法的特征更新示意图。

图3为一种利用多层卷积层信息的注意力机制方法嵌入ResNet的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1、图2和图3，一种利用多层卷积层信息的注意力机制方法，包括以下步骤：

1)输入当前卷积层的输出A以及在它之前两层的卷积层的输出A'，利用全局平均池化分别获得A和A'的通道信息X和X'；

4)使用RELU函数滤除M中小于0的元素；

5)利用1×1卷积，将A映射到M的维度，得到A的映射特征g(A)

8)将W(y)与A做残差连接，保证该注意力模块嵌入已经预训练好的模型时不会破坏它的初始参数

本实施例以嵌入ResNet并应用于图像分类任务为例，一种利用多层卷积层信息的注意力机制方法，包括以下步骤：

1)输入当前卷积层的输出A的维度是B×2C×H/2×W/2，在A之前两层的卷积层的输出A'的维度为B×C×H×W(B、C、H、W分别是A'对应的batch,通道数，特征图的高，特征图的宽)，利用全局平均池化获得A和A'的通道信息X、X'，X维度是B×2C×1×1，X'维度是B×C×1×1；

2)利用1×1的卷积对X和X'进行压缩以进一步减少计算量，得到与θ(X′)，的维度是B×C×1，θ(X′)的维度是B×C×1；

3)将θ(X′)做转置，在和θ^T(X′)之间做矩阵乘法得到/>与θ^T(X′)的点乘关系，生成/>的权值矩阵M：M的维度是B×C×C；

4)使用RELU函数滤除M中小于0的元素；

5)利用1×1卷积，将A映射到M的维度，得到A的映射特征g(A):g(A)的维度是B×C×W/2×H/2；

6)M与g(A)做矩阵乘法进行特征更新生成新特征图y：y的维度是B×C×W/2×H/2，y中的每个元素是g(A)中每个通道对应位置元素的加权和，权值是中每个元素与θ^T(X′)中每个元素的关系；

7)用1×1的卷积将更新后的特征y升到与A一样的维度得到y的映射特征W(y),W(y)的维度是B×2C×W/2×H/2；

8)将W(y)与A做残差连接，保证该注意力模块嵌入已经预训练好的模型时不会破坏它的初始参

9)每两个残差块之间重复上述步骤，最后一个残差块的输出通过全连接层进行分类。

以上说明是本发明以嵌入ResNet并应用于图像分类任务为例进行的说明，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。

Claims

1.一种图像分类的利用多层卷积层信息的注意力机制方法，其特征在于，所述方法包括以下步骤：

1）输入当前卷积层与在它之前两层的卷积层的输出A、A'，利用全局平均池化分别获得A和A'的通道信息X、X'；

2）利用1×1的卷积将X、X'进行压缩以进一步减少计算量，得到和/>；

3）将做转置，在 />和/>之间做矩阵乘法得到/>与/>的点乘关系，生成/>的权值矩阵M ；

4）使用RELU函数，滤除M中小于0的元素；

5）利用1×1卷积，将A映射到M的维度，得到A的映射特征；

6）M与做矩阵乘法进行特征更新生成新特征图y，y中的每个元素是/>中每个通道对应位置元素的加权和，权值是/>中每个元素与/>中每个元素的关系；

7）用1×1的卷积将y映射到A的维度，得到新特征图映射后的特征；

8）将与A做残差连接，保证注意力模块嵌入已经预训练好的模型时不会破坏它的初始参数。