CN115713632A

CN115713632A - 一种基于多尺度注意力机制的特征提取方法及装置

Info

Publication number: CN115713632A
Application number: CN202211557477.0A
Authority: CN
Inventors: 欧阳大亮; 覃炳庆; 何速; 张国忠; 郭怀勇; 湛建; 罗明柱; 黄智捷; 廖湘艺
Original assignee: Aerospace Science and Industry Shenzhen Group Co Ltd
Current assignee: Aerospace Science and Industry Shenzhen Group Co Ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-02-24

Abstract

本发明提供了一种基于多尺度注意力机制的特征提取方法及装置，通过使用具有不同尺度卷积核的两个并行子网络的特征信息，并且在1x1尺度大小的子网络上分别用水平与垂直方向生成的注意力图捕获空间特征的远程依赖关系，通过在水平与垂直两个空间维度方向上进行特征编码，从而在通道注意力中嵌入了较为精确的位置信息，有效解决通道注意力机制中因采用全局平均池化得到全局特征信息时丢失空间结构信息的问题，有非常强的语义表示增强的可解释性。在另一个并行子网络上采用3x3尺度大小的卷积核捕获多尺度的空间结构信息，最后将两个不同尺度输出的语义特征信息进行交叉式特征学习，整合不同尺度空间特征的上下文信息，产生了更好的像素级别注意力。

Description

一种基于多尺度注意力机制的特征提取方法及装置

技术领域

本发明属于图像特征提取领域，尤其是涉及一种基于多尺度注意力机制的特征提取方法及装置。

背景技术

随着深度学习技术兴起，卷积神经网络（Convolutional Neural Networks，CNN）在图像识别、语音识别、物体识别等各种应用场景中取得巨大成功，目标识别准确率也达到前所未有高度，受到深度学习领域内学者们广泛重视。基于CNN图像处理技术在特征提取和目标识别的速度方面虽然有一定优势，但存在卷积层数较多、计算量较复杂和内存消耗大等问题。如何从图像中提取出有效的特征语义信息并用于后续的分类与识别等任务，成为了当前的研究热点。近年来，注意力机制在图像，自然语言处理等领域中都取得了重要的成功，也被证明有益于提高模型的特征表达能力。

注意力机制主要分为空间注意力模型，通道注意力模型，和空间与通道混合的注意力模型三种。作为最经典的基于通道的注意力模型（Squeeze-and-Excitation，SE），通过建模各个特征通道之间相互依赖关系区分不同特征通道的重要性，然后针对不同应用任务进行有目的性的增强或者抑制含背景噪声的特征通道，进而增强CNN的特征表达能力。然而，SE仅考虑不同特征通道信息依赖性的影响，忽略了不同特征空间结构信息的重要性。CBAM（Convolutional Block Attention Module）通过整合空间结构信息和特征通道信息，建模了混合时空特征信息的注意力机制。相较于SE，CBAM有着更好的特征提取性能和更好模型的解释，也会更加关注目标物体本身。但是，CBAM在计算通道注意力和空间注意力的特征语义时是相互独立的，忽略了特征通道信息与空间结构信息之间依赖性。其次，CBAM的空间注意力仅考虑了局部区域的特征信息，无法建模特征空间中有效的长范围依赖关系，也不能捕获不同尺度的空间语义信息来丰富特征空间。相应地，位置坐标注意力（CoordinateAttention，CA）在一个空间维度方向上压缩空间结构信息时，会将另一个空间维度方向上的位置信息嵌入到通道注意力中进行通道相关性与空间上远程依赖性的建模，有效提升了CNN特征表达能力。但CA模型仅考虑1x1卷积捕获局部的通道和空间注意力，无法捕获不同尺度的空间结构信息来丰富特征空间。

发明内容

本发明所要解决的技术问题是怎样聚合不同特征空间语义信息来捕获多尺度的空间信息和丰富特征空间上下文信息，增强CNN的特征表达能力，提高CNN网络在图像识别或图像分类方面的准确率，提出了一种基于多尺度注意力机制的特征提取方法及装置。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于多尺度注意力机制的特征提取方法，包括以下步骤：

步骤1：获取待提取特征的图像输入卷积神经网络CNN提取得到图像初级特征X；

步骤2：将所述图像初级特征X进行分组，每个组里存在多个特征通道；

步骤3：将分组后的图像特征分别输入两个具有不同尺度卷积核的并行子网络中进行特征映射，捕获不同尺度空间信息得到两个子网络的并行语义信息；

步骤4：将两个子网络的并行语义信息进行深度特征融合得到重标后的特征；

步骤5：将重标后的特征进行输出。

进一步地，步骤3中两个具有不同尺度卷积核的并行子网络分别是具有1x1尺度卷积核和3x3尺度卷积核的两个子网络。

进一步地，步骤3中捕获不同尺度空间信息得到两个子网络的并行语义信息的具体方法是：

步骤3.1：在具有1x1卷积核的子网络中，将二维全局平均池化处理层拆分成两个沿着不同空间维度方向的一维平均池化特征层；

步骤3.2：将分组后的图像特征分别输入这两个不同空间维度方向的一维平均池化特征层中，得到两个不同空间维度方向上的一维特征向量；

步骤3.3：将两个不同空间维度方向上的一维特征向量转换成相同特征维度的形式后拼接成一个特征向量；

步骤3.4：将拼接后的特征向量使用1x1卷积核进行特征映射得到1x1卷积核子网络的特征向量，将该特征向量沿着拼接的维度方向拆分成两个沿着不同空间维度方向的特征向量作为1x1卷积核子网络的语义信息；

步骤3.5：在具有3x3卷积核的子网络中，将分组后的图像特征使用3x3卷积核进行特征映射得到3x3卷积核子网络的语义信息。

进一步地，步骤4中将两个子网络的并行语义信息进行深度特征融合的方法是指：将两个子网络的并行语义信息进行交叉特征学习。

进一步地，将两个子网络的并行语义信息进行交叉特征学习的方法是：

步骤4.1：将具有1x1卷积核子网络得到的拆分后的两个沿不同空间维度方向上的一维特征向量分别通过Sigmoid非线性函数处理，得到两个沿不同空间维度方向上的一维权重系数；

步骤4.2：将Sigmoid非线性函数处理后的两个沿不同空间维度方向上的一维权重系数与分组后的图像初级特征X相乘得到尺度化后的语义特征信息；

步骤4.3：将尺度化后的语义特征信息通过一个二维的全局平均池化层，在空间维度方向上进行特征压缩捕获全局信息，用Softmax非线性函数对捕获的全局信息进行特征增强；

步骤4.4：将特征增强后的语义特征与步骤3.5输出的语义特征进行矩阵点乘处理，得到一个空域特征权值系数；

步骤4.5：将3x3卷积核子网络的语义特征信息输入二维全局平均池化层，在空间维度方向上进行特征压缩捕获全局信息，并用Softmax非线性函数对捕获的全局信息进行特征增强，将特征增强后的语义特征与步骤4.2输出的语义特征进行矩阵点乘处理，得到另一个空域特征权值系数；

步骤4.6：将步骤4.4输出的一个空域特征权值系数和步骤4.5输出的另一个维度的空域特征权值系数进行矩阵加法处理来进行特征融合；

步骤4.7：对融合后的特征数据输入一个Sigmoid非线性函数进行动态的映射，得到一个多尺度空域注意力掩膜矩阵；

步骤4.8：将得到的多尺度空间注意力权值掩膜矩阵继续与分组后的图像初级特征进行相乘融合，并将相乘融合后的特征数据转换为与图像初始输入特征数据相同维度后得到重标后的特征。

本发明还提供了一种基于多尺度注意力机制的特征提取装置，包括以下模块：

初级特征提取模块：用于获取待提取特征的图像输入卷积神经网络CNN提取得到图像初级特征X；

分组模块：用于将所述图像初级特征X进行分组，每个组里存在多个特征通道；

不同尺度特征获取模块：用于将分组后的图像特征分别输入两个具有不同尺度卷积核的并行子网络中进行特征映射，捕获不同尺度空间信息得到两个子网络的并行语义信息；

特征融合模块：用于将两个子网络的并行语义信息进行深度特征融合；

输出模块：用于将融合后的特征进行输出。

采用上述技术方案，本发明具有如下有益效果：

本发明提供的一种基于多尺度注意力机制的特征提取方法及装置，通过使用具有不同尺度卷积核的两个并行子网络的特征信息，并且在1x1尺度大小的子网络上分别用水平与垂直方向生成的注意力图捕获空间特征的远程依赖关系，通过在水平与垂直两个空间维度方向上进行特征编码，从而在通道注意力中嵌入了较为精确的位置信息，有效解决通道注意力机制中因采用全局平均池化得到全局特征信息时丢失空间结构信息的问题，有非常强的语义表示增强的可解释性，在另一个并行子网络上采用3x3尺度大小的卷积核捕获多尺度的空间结构信息。最后将两个不同尺度输出的语义特征信息进行交叉式特征学习，整合不同空间尺度的上下文信息，产生了更好的像素级别注意力。

附图说明

图1为本发明系统流程图；

图2为本发明的注意力机制结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1和图2示出了本发明一种基于多尺度注意力机制的特征提取方法的具体实施例，包括以下步骤：

步骤1：获取待提取特征的图像输入卷积神经网络CNN提取得到图像初级特征X。

本实施例中，首先通过卷积神经网络CNN将图像初级特征X提取出来，然后结合空间和通道方向的注意力机制思想来提高CNN特征表达性能，初级特征X，

，其中H为特征图的高度、W为特征图的宽度和C为输入特征的通道系数。

步骤2：将所述图像初级特征X进行分组，每个组里存在多个特征通道。

将初级特征X分为G组，每个组内存在多个特征通道，如

，默认C>G。特征分组使得每个组里面生成各自的注意力权值系数，体现出每个组负责的子特征图的重要程度。每一个子特征图以组的形式分布在每一层特征图中，可使每个组针对性的学习和抑制背景噪声。

步骤3：将分组后的图像特征分别输入两个具有不同尺度卷积核的并行子网络中进行特征映射，捕获不同尺度空间信息得到两个子网络的并行语义信息。

本实施例中，两个具有不同尺度卷积核的并行子网络分别是具有1x1卷积核和3x3卷积核的两个子网络。

本实施例中，捕获不同尺度空间信息得到两个子网络的并行语义信息的具体方法是：

步骤3.1：在具有1x1卷积核的子网络中，将二维全局平均池化处理层拆分成两个沿着不同空间维度方向的一维平均池化特征层，目的是为促使注意力模块能够保留精确的位置信息和学习空间方向上的远程依赖性。

步骤3.2：将分组后的图像特征分别输入这两个不同空间维度方向的一维平均池化特征层中，得到两个不同空间维度方向上的一维特征向量，本实施例中是分别沿着水平和垂直空间维度方向集成特征语义信息。沿着水平与沿着垂直方向的注意力可以保持较为精准的位置信息，且两者具有互补性，便于增强输入特征以增广模型的特征表达能力。生成x ₁,

和x ₂，

这两种沿着不同空间维度方向上的一维特征向量。

步骤3.3：将两个不同空间维度方向上的一维特征向量转换成相同特征维度的形式后拼接成一个特征向量。拼接时，其中一个一维特征向量保持维度不变，另一个转换成一个沿着垂直空间维度方向上的特征向量，并在垂直空间维度方向上将两个一维特征向量拼接成一个特征向量，如将x ₁和x ₂拼接成x ₃,

。

步骤3.4：将拼接后的特征向量使用1x1卷积核进行特征映射得到特征向量，将该特征向量沿着拼接的维度方向拆分成两个沿着不同空间维度方向的特征向量；即将步骤3.3中之前经过转置处理的那个一维特征向量再转置回去，避免空间结构信息错位。接着将两个沿着不同空间维度方向的特征向量分别通过一个Sigmoid非线性函数进行动态的映射后与分组后的输入特征相乘融合。即可将沿着不同空间维度方向上的空间结构信息嵌入到了特征通道图中，避免了2D全局池化层引入导致的空间位置信息损失问题。本实施例通过共享的1x1卷积核进行特征映射，减少了模型参数和计算量。

本实施例在一个并行子网络类似于CA注意力模块的特征编码结构，它会在水平和垂直两个空间维度方向上建模，并分别用水平与垂直方向生成的注意力图捕获空间特征的远程依赖关系。通过在水平与垂直两个空间维度方向上进行特征编码，本申请的网络结构EMA在通道注意力中嵌入了较为精确的位置信息，有效解决通道注意力机制中因采用全局平均池化得到全局特征信息时丢失空间结构信息的问题，有非常强的语义表示增强的可解释性。并且在1x1卷积核的子网络中，仅采用一个单独1x1卷积核，且不同通道特征信息交互不涉及任何通道降维，可获得一对一权重对应的稳定效果，避免了通道降维从而可以保留完整的通道和空间两个方面的信息来增强卷积过程（特征映射）中的跨维度交互作用。

对于一个正常的卷积核参数维度为[out, input, k,k]，其中out为输出通道数量，input为输入通道数量，k为卷积核尺度大小。从上可知，正常的卷积核参数的维度是不存在batch_size的，因为对于正常的卷积来说，不同的输入数据使用相同的卷积核，卷积核的数量与一次前向运算所输入的batch_size大小无关。由此可见，本申请在进行特征分组后，将划分的组数量G放入batch_size维度中，这样在卷积特征映射的时候含G的维度不参与跨维度交互，因此可减少本申请网络结构可学习的模型参数。在跨维度特征交叉式学习后，得到的空间权值掩膜向量与X相乘，即可使得每个组内共享同一个参数，来增强特征表达。

步骤3.5：在具有3x3卷积核的子网络中，将分组后的图像特征使用3x3卷积核进行特征映射得到3x3卷积核子网络的语义信息，特征维度为x ₄，

。

本实施例中，为提高在空间维度方向上长距离范围内特征学习能力，在另一个并行子网络中仅采用一个3x3卷积核来增加邻近域特征信息捕捉范围，可捕获不同尺度的空间信息来丰富特征空间。

步骤4：将两个子网络的并行语义信息进行深度特征融合，显式地构建特征通道间的依赖关系和突出空间结构信息重要性；

本实施例中，进行深度特征融合的方法是指：将两个子网络的并行语义信息进行交叉特征学习。

分别用1x1和3x3的卷积核对初始输入特征进行特征映射，然后将3x3卷积核映射输出的特征信息与1x1卷积核映射输出特征信息进行交叉式学习，即可整合不同尺度空间的上下文信息，也充分利用来自其他尺度的特征信息。交叉式特征学习是指将其中一个并行网络输出的特征编码向量通过一个二维全局平均池化层，在空间维度方向上进行特征压缩，然后将生成的全局特征信息与另一个并行网络分支的输出特征转置处理后进行矩阵点乘，获得一个空间注意力特征图。同理，在另一个网络分支上也可捕获一个跨空域学习的空间注意力特征图。然后，将生成的两个空间注意力权值系数通过简单的相加融合高级语义特征，并经过一个Sigmoid非线性函数处理后，得到一个融合后的空间权重掩膜矩阵尺度系数。最后，将尺度化的空域注意力掩膜矩阵继续与初始输入特征进行特征信息融合，即可整合不同尺度空间的上下文信息，产生了更好的像素级别注意力。具体为：

步骤4.1：将具有1x1卷积核的子网络中得到的拆分后的两个沿不同空间维度方向上的一维特征向量分别通过Sigmoid非线性函数处理，得到两个一维权重系数；这两个一维权重系数分别沿着不同空间维度方向捕获输入特征图的远距离依存关系。分别表示图像初级特征X对应位置处特征的权值，表征该位置特征的空间和通道重要程度，便于突出前景特征。

步骤4.2：将Sigmoid非线性处理后的两个一维权重系数与分组后的图像初级特征X相乘得到尺度化后的语义特征信息。

步骤4.3：将尺度化后的语义特征信息进行归一化后通过一个二维的全局平均池化层，在空间维度方向上进行特征压缩捕获全局信息，用Softmax非线性函数对捕获的全局信息进行特征增强。本实施例中，两个分别沿着不同空间维度方向的一维权重系数，与分组后的图像初级特征X相乘后，通过一个二维的全局平均池化层，压缩空间维度并转换到一维平面，从而将空间信息压缩成一个通道特征描述系数，生成一个通道注意力描述子，其特征维度为x ₅，

。

步骤4.4：将特征增强后的语义特征与步骤3.5输出的语义特征x ₄进行外积矩阵点乘处理，得到一个特征维度为x ₆，

的空域特征权值系数；通过矩阵点乘处理，可以保持完整的空间结构信息，而且在外积内部保持了完整的可学习参数用于非线性Sigmoid重新加权，增强了几何细节信息特征表征能力。

步骤4.5：将3x3卷积核子网络的语义特征信息输入二维全局平均池化，在空间维度方向上进行特征压缩捕获全局信息，用Softmax非线性函数对捕获的全局信息进行特征增强，将特征增强后的语义特征与步骤4.2输出的语义特征进行矩阵点乘处理，得到另一个维度为x ₇，

的空域特征权值系数；虽然对3x3卷积输出进行2维平均池化可能造成空间结构信息损失，但是通过交叉式特征学习可以弥补空间结构信息损失这一缺点。

步骤4.6：将步骤4.4输出的一个空域特征权值系数x ₆和步骤4.5输出的另一个维度的空域特征权值系数x ₇进行矩阵加法处理来进行特征融合；

步骤4.7：对融合后的特征数据输入一个Sigmoid非线性函数进行动态的映射，得到一个多尺度空域注意力掩膜矩阵x ₈，

；

步骤4.8：将得到的多尺度空间注意力权值掩膜矩阵继续与分组后的图像初级特征进行相乘融合，并将相乘融合后的特征数据转换为与图像初级特征数据相同维度得到重标后的特征。

步骤5：将重标后的特征进行输出。

输出模块：用于将融合后的特征进行输出。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多尺度注意力机制的特征提取方法，其特征在于，包括以下步骤：

步骤5：将重标后的特征进行输出。

2.根据权利要求1所述的特征提取方法，其特征在于，步骤3中两个具有不同尺度卷积核的并行子网络分别是具有1x1尺度卷积核和3x3尺度卷积核的两个子网络。

3.根据权利要求2所述的特征提取方法，其特征在于，步骤3中捕获不同尺度空间信息得到两个子网络的并行语义信息的具体方法是：

4.据权利要求2所述的特征提取方法，其特征在于，步骤4中将两个子网络的并行语义信息进行深度特征融合的方法是指：将两个子网络的并行语义信息进行交叉特征学习。

5.据权利要求4所述的特征提取方法，其特征在于，将两个子网络的并行语义信息进行交叉特征学习的方法是：

步骤4.1：将具有1x1卷积核子网络得到的拆分后的两个沿不同空间维度方向上的一维特征向量分别通过Sigmoid非线性函数处理，得到两个一维权重系数；

步骤4.2：将Sigmoid非线性函数处理后的两个一维权重系数与分组后的图像初级特征X相乘得到尺度化后的语义特征信息；

步骤4.3：将尺度化后的语义特征信息通过一个二维的全局平均池化层，在空间维度方向上进行特征压缩捕获全局空间信息，用Softmax非线性函数对捕获的全局信息进行特征增强；

步骤4.8：将得到的多尺度空间注意力权值掩膜矩阵继续与分组后的图像初级特征进行相乘融合，并将相乘融合后的特征数据转换为与图像初级输入特征数据相同维度后得到重标后的特征。

6.一种基于多尺度注意力机制的特征提取装置，其特征在于，包括以下模块：

输出模块：用于将融合后的特征进行输出。