CN112766279A

CN112766279A - 一种基于联合注意力机制的图像特征提取方法

Info

Publication number: CN112766279A
Application number: CN202011636575.4A
Authority: CN
Inventors: 陈小波; 吴海昕; 邹玉华; 李依晗
Original assignee: 709th Research Institute of CSIC
Current assignee: 709th Research Institute of CSIC
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07
Anticipated expiration: 2040-12-31
Also published as: CN112766279B

Abstract

本发明公开了一种基于联合注意力机制的图像特征提取方法，步骤如下：1：将待提取特征的图像输入卷积神经网络，得到特征图F；2：使用空间注意力模块获得空间权值掩膜矩阵W1；3：空间权值掩膜矩阵W1与特征图F相乘获得特征图F1；4：使用通道注意力模块获得特征图F的通道权值掩膜矩阵W2；5：通道权值掩膜矩阵W2与特征图F相乘获得特征图F2；6：将特征图F1与特征图F2按通道进行连接，得到特征图F3；7：特征图F3通过c个卷积核进行卷积运算得到特征图F4。本发明基于空‑谱联合注意力机制的图像特征提取方法，用于解决现有技术中存在的只考虑单层特征导致特征提取不足的技术问题，可以广泛应用于计算机视觉技术领域。

Description

一种基于联合注意力机制的图像特征提取方法

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于联合注意力机制的图像特征提取方法。

背景技术

注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息中的一部分，同时忽略其他可见的信息，这被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力，也就是说不同部位对外界事物感知的敏锐度不同，只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源，人类需要选择视觉区域中的特定部分，然后集中关注它。例如，人们在阅读时，会着重去关注和处理感兴趣的词汇。因此，注意力机制主要包含有两个方面：一方面是决定需要关注输入的那部分，另一方面是分配有限的信息处理资源给重要的部分。

近年来，注意力机制被引入计算机视觉领域进行视觉信息处理，它作为一种机制或者是方法论，并没有严格的数学定义，传统的局部图像特征提取、显著性检测、滑动窗口方法等都可以看作一种注意力机制。随着深度学习的发展，注意力机制也应用到了神经网络中，神经网络中会添加一个额外的注意力模块，使得让神经网络能够关注重点信息而忽略无关信息。通常是网络硬性选择输入的某些部分，或者给输入的不同部分分配不同的权重。前者称为硬注意力，后者被称为软注意力。总而言之，注意力机制可以帮助网络学到给定输入中最重要的部分，从而对输入进行“总结”，使得特征提取更具有针对性。

注意力机制关注的域有空间域、通道域、层域、混合域、时间域等。而现有的基于注意力机制的图像特征提取算法大都只考虑了单域注意力，难以驾驭复杂特征的学习，影响后续应用特征进行分类、目标检测的效果。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种基于联合注意力机制的图像特征提取方法，使其基于空-谱联合注意力机制的图像特征提取方法，用于解决现有技术中存在的只考虑单层特征导致特征提取不足的技术问题。

本发明提供的一种基于联合注意力机制的图像特征提取方法，包括如下步骤：步骤1：将待提取特征的图像输入卷积神经网络，得到特征图F；步骤2：使用空间注意力模块获得特征图F的空间权值掩膜矩阵W1；步骤3：空间权值掩膜矩阵W1与特征图F相乘获得尺寸为h×w×c的特征图F1；步骤4：使用通道注意力模块获得特征图F的通道权值掩膜矩阵W2；步骤5：通道权值掩膜矩阵W2与特征图F相乘获得尺寸为h×w×c的特征图F2；步骤6：将特征图F1与特征图F2按通道进行连接，得到尺寸为h×w×2c的特征图F3；步骤7：特征图F3通过c个大小为3×3的卷积核进行卷积运算得到尺寸为h×w×c的特征图F4。

在上述技术方案中，所述步骤1的具体过程为：输入图像进入卷积神经网络，在前向传播过程中通过多层卷积提取图像的初始特征，得到尺寸为h×w×c的特征图F，h为特征图F的高、w为特征图F的宽、c为特征图F的通道数。

在上述技术方案中，所述步骤2包括如下步骤：步骤2.1：对特征图F在通道维度进行最大池化，得到尺寸为h×w×1的特征图f1；步骤2.2：对特征图f1通过sigmoid激活函数得到尺寸为h×w×1的空间权值掩膜矩阵W1。

在上述技术方案中，所述步骤2.1中，所述的对特征图F在通道维度进行最大池化，具体过程为：对特征图F上每个位置k_ij上对应的尺寸为1×1×c的张量压缩为一个值，该值为对应张量内元素的最大值，其中i＝1,2,…w，j＝1,2,…h。

在上述技术方案中，所述步骤3的具体过程如下：特征图F上每个位置k_ij上对应的尺寸为1×c的张量与空间权值掩膜矩阵W1中k_ij位置处对应的权值相乘，其中i＝1,2,…w，j＝1,2,…h。

在上述技术方案中，所述步骤4包括如下步骤：步骤4.1：对特征图F在空间维度上进行最大池化，得到尺寸为1×1×c的特征图f2；步骤4.2：对特征图f2输入两层全连接网络，其中隐藏层神经元的个数为c/2，输出层神经元的个数为c，全连接层输出的尺寸为1×1×c的特征图f3；步骤4.3：对特征图f3通过sigmoid激活函数得到尺寸为1×1×c的通道权值掩膜矩阵W2。

在上述技术方案中，所述步骤4.1中，对特征图F在空间维度进行最大池化，其具体过程为：对特征图F按通道划分为(m₁,…,m_i,…,m_c)，其中i＝1,2…,c，逐通道将尺寸为h×w的张量m_i压缩为一个值，该值为m_i内元素的最大值。

在上述技术方案中，所述步骤5的具体过程如下：特征图F按通道划分为(m₁,…,m_i,…,m_c)，将第i个通道对应的尺寸为h×w的张量m_i与W2中第i个元素相乘，其中i＝1,2…,c。

在上述技术方案中，还包括步骤8、将特征图F4代替特征图F，输入VGG16后续的卷积层中进一步提取深层特征并分类，保持VGG16原有的损失函数对整个网络进行训练。

本发明基于联合注意力机制的图像特征提取方法，具有以下有益效果：

1)本发明综合考虑了空间和通道注意力机制，分别使用空间注意力模块、通道注意力模块学习特征图的空间、通道注意力分布，得到空间注意力特征和通道注意力特征，并将这两种特征进行融合。多注意力模块提取的特征通过卷积进行融合实现了动态权重分配，避免了人为设定参数，增强模型鲁棒性。与现有技术相比，本发明提出的特征提取方法提高了复杂特征的学习和表示能力，进而可以提升后续的视觉分析任务(图像分类、图像分割、图像目标检测、图像检索等)的精确度。

2)本发明提出的特征提取方法可以嵌入大部分承担视觉分析任务的卷积神经网络，在网络训练的过程中自适应学习特征图的空间和通道注意力分布，不需要对标注数据进行再次加工。与现有的图像特征提取技术相比应用更加广泛，可用于普通图像、高光谱图像、多光谱图像、SAR图像等。

附图说明

图1为本发明基于联合注意力机制的图像特征提取方法的整体流程示意图；

图2为本发明基于联合注意力机制的图像特征提取方法的工作框架图；

图3为本发明基于联合注意力机制的图像特征提取方法中步骤2至步骤3的模块框架示意图；

图4为本发明基于联合注意力机制的图像特征提取方法中步骤4至步骤5的模块框架示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步的详细描述，但该实施例不应理解为对本发明的限制。

参照图1和图2，本发明关于一种基于联合注意力机制的图像特征提取方法，包括以下步骤：

步骤1：待提取特征的图像输入卷积神经网络，得到特征图F：

步骤1.1：输入图像进入卷积神经网络，在前向传播过程中通过多层卷积提取图像的初始特征，得到尺寸为h×w×c的特征图F，h为特征图F的高、w为特征图F的宽、c为特征图F的通道数，所述的卷积神经网络，其结构包含基本的卷积层、池化层和批归一化层；

在具体实施例中，将待提取特征的图像调整大小为224×224输入卷积神经网络VGG16中，选择VGG16的第四个卷积层的输出作为特征图F，特征图F的高、宽、通道数分别为112、112和128；

参照图3，步骤2：使用空间注意力机制模块获得特征图F的空间权值掩膜矩阵W1：

步骤2.1：对特征图F在通道维度进行最大池化，得到尺寸为h×w×1的特征图f1；

所述的对特征图F在通道维度进行最大池化，实现步骤为：对特征图F上每个位置k_ij上对应的尺寸为1×1×c的张量压缩为一个值，该值为对应张量内元素的最大值，其中i＝1,2,…w，j＝1,2,…h；

在具体实施例中，对特征图F沿着第三维度计算最大值，具体来说是对特征图F上每个位置k_ij(其中i＝1,2,…112，j＝1,2,…112)上对应的张量(尺寸为1×1×224)取元素最大值，该值对应为特征图f1的k_ij位置处的值，形成特征图f1的高、宽、通道数分别为112、112和1。

步骤2.2：对特征图f1通过sigmoid激活函数得到尺寸为h×w×1的空间权值掩膜矩阵W1；

在具体实施例中，对特征图f1里的每个元素实施sigmoid激活函数，将特征图f1内元素的值都归一化到0～1之间，形成尺寸为112×112×1的空间权值掩膜矩阵W1，W1上每个位置的值W1_ij(i＝1,2,…112，j＝1,2,…112)表示特征图F对应位置处特征的权值，它表征着该位置特征的空间重要性，用较大的权值来凸显重要位置处的特征。

步骤3：空间权值掩膜矩阵W1与特征图F相乘获得尺寸为h×w×c的特征图F1；

所述的对空间权值掩膜矩阵W1与特征图F相乘获得尺寸为h×w×c的特征图F1，实现步骤为：特征图F上每个位置k_ij上对应的尺寸为1×c的张量与空间权值掩膜矩阵W1中k_ij位置处对应的权值相乘，其中i＝1,2,…w，j＝1,2,…h；

在具体实施例中，特征图F上每个位置k_ij(i＝1,2,…112，j＝1,2,…112)上对应的尺寸为1×128的张量与空间权值掩膜矩阵W1中对应位置的权值W1_ij相乘，得到特征图F1的高、宽、通道数分别为112、112和128。

参照图4，步骤4：使用通道注意力机制模块获得特征图F的通道权值掩膜矩阵W2；

步骤4.1：对特征图F在空间维度上进行最大池化，得到尺寸为1×1×c的特征图f2；

所述的对特征图F在空间维度进行最大池化，实现步骤为：对特征图F按通道划分为(m₁,…,m_i,…,m_c)，其中i＝1,2…,c。逐通道将尺寸为h×w的张量m_i压缩为一个值，该值为m_i内元素的最大值；

在具体实施例中，对特征图F每个通道对应的112×112大小的张量m_i，其中i＝1,2…,c。逐一进行最大池化，池化层参数设置：池化大小设置为1×1，步长为1。最大池化后得到的结果按通道进行连接，得到尺寸为1×1×128的特征图f2。

步骤4.2：对特征图f2输入两层全连接网络，其中隐藏层神经元的个数为c/2，输出层神经元的个数为c，全连接层输出的尺寸为1×1×c的特征图f3；

在具体实施例中，两层全连接网络的设置如下：第一层全连接网络的输入的张量大小和特征图f2保持一致，为1×1×128，输出层设置的神经元个数为64，第二层全连接网络的输入连接着第一层全连接网络的输出，输出层神经元个数为128，因此两层全连接网络最终输出尺寸为1×1×128的特征图f3。

步骤4.3：对特征图f3通过sigmoid激活函数得到尺寸为1×1×c的通道权值掩膜矩阵W2；

在具体实施例中，对特征图f3里的每个元素实施sigmoid激活函数，将特征图f3内元素的值都归一化到0～1之间，形成尺寸为1×1×128的通道权值掩膜矩阵W2，W2上每个通道的值W2_k(k＝1,2,…128)表示特征图F对应通道特征的权值，它表征着该通道特征的重要性，用较大的权值来凸显重要通道处的特征。

步骤5：将通道权值掩膜矩阵W2与特征图F相乘获得尺寸为h×w×c的特征图F2；

所述的通道权值掩膜矩阵W2与特征图F相乘获得尺寸为h×w×c的特征图F2，实现步骤为：特征图F按通道划分为(m₁,…,m_i,…,m_c)，将第i个通道对应的尺寸为h×w的张量m_i与W2中第i个元素相乘，其中i＝1,2…,c；

在具体实施例中，特征图F上每个通道k(k＝1,2,…128)对应的特征张量与通道权值掩膜矩阵W2中对应通道的权值W2_k相乘，得到特征图F₂的高、宽、通道数分别为112、112和128。

步骤6：将特征图F1与特征图F2按通道进行连接，得到尺寸为h×w×2c的特征图F3；

在具体实施例中，将特征图F1与特征图F2按通道进行连接，得到尺寸为112×112×256的特征图F3。

步骤7：特征图F3通过c个大小为3×3×2c的卷积核进行卷积运算得到尺寸为h×w×c的特征图F4。

在具体实施例中，特征图F3通过128个大小为3×3×256的卷积核进行卷积运算得到尺寸为112×112×128的特征图F4。

步骤8：将特征图F4代替特征图F，输入VGG16后续的卷积层中进一步提取深层特征并分类，不改变VGG16原有的损失函数对整个网络进行训练。通过网络的一次次迭代训练，网络中的参数会更新，权值掩膜矩阵W1和W2的权值也会越趋于稳定，网络训练结束后，将测试图像数据集输入网络测试，查看网络对数据集的分类效果。

由于空间注意力机制综合考虑图像的空间信息，学习一个与输入相关的权值掩膜，这个权值掩膜能帮助网络突出感兴趣的目标信息同时抑制背景，代表方法是空间变换网络。而通道注意力机制通常考虑输入的通道信息，在输入的通道层面计算注意力分布，再根据注意力分布来计算输入信息的加权平均，代表的方法是SEnet。

所以本发明综合考虑了空间和通道注意力机制，分别使用空间注意力模块、通道注意力模块学习特征图的空间、通道注意力分布，得到空间注意力特征和通道注意力特征，并将这两种特征进行融合。多注意力模块提取的特征通过卷积进行融合实现了动态权重分配，避免了人为设定参数，增强模型鲁棒性。与现有技术相比，本发明提出的特征提取方法提高了复杂特征的学习和表示能力，进而可以提升后续的视觉分析任务(图像分类、图像分割、图像目标检测、图像检索等)的精确度。

而且，本发明提出的特征提取方法可以嵌入大部分承担视觉分析任务的卷积神经网络，在网络训练的过程中自适应学习特征图的空间和通道注意力分布，不需要对标注数据进行再次加工。与现有的图像特征提取技术相比应用更加广泛，可用于普通图像、高光谱图像、多光谱图像、SAR图像等。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于联合注意力机制的图像特征提取方法，其特征在于：包括如下步骤：

步骤1：将待提取特征的图像输入卷积神经网络，得到特征图F；

步骤2：使用空间注意力模块获得特征图F的空间权值掩膜矩阵W1；

步骤4：使用通道注意力模块获得特征图F的通道权值掩膜矩阵W2；

步骤5：通道权值掩膜矩阵W2与特征图F相乘获得尺寸为h×w×c的特征图F2；

步骤7：特征图F3通过c个大小为3×3的卷积核进行卷积运算得到尺寸为h×w×c的特征图F4。

2.根据权利要求1所述的基于联合注意力机制的图像特征提取方法，其特征在于：所述步骤1的具体过程为：输入图像进入卷积神经网络，在前向传播过程中通过多层卷积提取图像的初始特征，得到尺寸为h×w×c的特征图F，h为特征图F的高、w为特征图F的宽、c为特征图F的通道数。

3.根据权利要求2所述的基于联合注意力机制的图像特征提取方法，其特征在于：所述步骤2包括如下步骤：

步骤2.2：对特征图f1通过sigmoid激活函数得到尺寸为h×w×1的空间权值掩膜矩阵W1。

4.根据权利要求3所述的基于联合注意力机制的图像特征提取方法，其特征在于：所述步骤2.1中，所述的对特征图F在通道维度进行最大池化，具体过程为：对特征图F上每个位置k_ij上对应的尺寸为1×1×c的张量压缩为一个值，该值为对应张量内元素的最大值，其中i＝1,2,…w，j＝1,2,…h。

5.根据权利要求4所述的基于联合注意力机制的图像特征提取方法，其特征在于：所述步骤3的具体过程如下：特征图F上每个位置k_ij上对应的尺寸为1×c的张量与空间权值掩膜矩阵W1中k_ij位置处对应的权值相乘，其中i＝1,2,…w，j＝1,2,…h。

6.根据权利要求5所述的基于联合注意力机制的图像特征提取方法，其特征在于：所述步骤4包括如下步骤：

步骤4.3：对特征图f3通过sigmoid激活函数得到尺寸为1×1×c的通道权值掩膜矩阵W2。

7.根据权利要求6所述的基于联合注意力机制的图像特征提取方法，其特征在于：所述步骤4.1中，对特征图F在空间维度进行最大池化，其具体过程为：对特征图F按通道划分为(m₁,…,m_i,…,m_c)，其中i＝1,2…,c，逐通道将尺寸为h×w的张量m_i压缩为一个值，该值为m_i内元素的最大值。

8.根据权利要求7所述的基于联合注意力机制的图像特征提取方法，其特征在于：所述步骤5的具体过程如下：

特征图F按通道划分为(m₁,…,m_i,…,m_c)，将第i个通道对应的尺寸为h×w的张量m_i与W2中第i个元素相乘，其中i＝1,2…,c。

9.根据权利要求8所述的基于联合注意力机制的图像特征提取方法，其特征在于：还包括步骤8、将特征图F4代替特征图F，输入VGG16后续的卷积层中进一步提取深层特征并分类，保持VGG16原有的损失函数对整个网络进行训练。