CN110188866A

CN110188866A - 一种基于注意力机制的特征提取方法

Info

Publication number: CN110188866A
Application number: CN201910451365.9A
Authority: CN
Inventors: 刘博�; 张雷; 刘银星; 井海鹏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-30
Anticipated expiration: 2039-05-28
Also published as: CN110188866B

Abstract

一种基于注意力机制的特征提取方法属于计算机视觉技术领域。该方法包括输入、挤压操作、激活操作、特征重标定操作、输出操作五个步骤。它具有和之前的SE模块及它的变体模块具有不同的特征重标定方式，即从每个特征图的每个子空间像素单位当中产生注意力并生成的权重单独拿出来再重新赋值给每个特征图的每个子空间像素特征。使得尽可能地学习到图像中的信息，以此可以高效、准确地实现对图像的语义分割任务。

Description

一种基于注意力机制的特征提取方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及到一些卷积神经网络图像处理、卷积层特征提取、图像语义分割方法、注意力机制等。

背景技术

近年来，随着深度学习的发展，尤其是卷积神经网络(Convolutional NeuralNetworks，CNN)已经成为图像处理的标准技术。如何从图像中提取出最有效的特征，用于后续的分类、分割，成为了当前研究的热点，现有很多网络把注意力机制的思想引入到特征提取中去，一方面是这种卷积网络可以通过注意力机制的方法，自主学习并突出强特征，另一方面，是注意力机制模仿的是人的视觉行为，能够找到一个图像的焦点区域。近几年来，注意力机制主要在自然语言领域广泛应用，在计算机视觉领域的应用相对较少，主要是利用注意力机制的思想，提升有效特征图中的有效通道，抑制对当前任务影响较小的特征通道。本专利提出一种基于注意力机制的特征提取模块，可以嵌入到任何网络的中的卷积层中，并在空间、通道两个维度引入注意力机制，可以从空间的角度上对焦点区域进行重点学习。

2017年，国内自动驾驶公司Momenta提出了SENet(Squeeze-and-ExcitationNetworks),并同年获得了ImageNet图像分类任务的冠军。它可以无缝集成到任何CNN模型中，通过显式地建模特征通道之间的相互依赖关系,即采用了一种全新的“特征重标定”策略，其本质是在通道之间引入注意力机制。具体来说，就是通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务影响较小的特征。SE模块主要包括Squeeze(挤压)和Excitation(激发)两个操作过程。但是，SE模块只是在通道角度引入注意力机制，并没有考虑到空间角度。因此，它容易忽略图像在空间方面的信息特征。2018年，Abhiji.G.R等人在SE模块的基础上，提出了三种SE模块的变体：cSE模块、sSE模块、scSE模块。其中，cSE模块和SE模块并无太大区别，都是激发图像在通道方向的特征。sSE模块是在通道方向挤压，并从空间方向激发。而scSE模块则是结合cSE模块和sSE模块，分别从通道和空间方向重新标定特征图，然后合并输出，使得特征图在空间和通道方面更具信息性。在神经网络领域，这是首次提出空间挤压与激发，也是在F-CNNS中首次实现挤压与激发的集成。这在许多医学应用中起到了更加精准的结果。尽管这几类SE模块的变体模块引用注意力机制时在空间角度和通道角度都考虑到了，但是它却没有考虑到在单个空间上的单个子空间即单个像素使用注意力机制。它没有达到像素级的特征标定，缺乏从单个空间域每个像素单位产生注意力再生成权重的思想。

发明内容

本发明要解决的技术问题是，提出一种基于SE模块的变体模块的技术。提出了一种新的变体模块：一种基于注意力机制的特征提取模块：单像素特征提取模块：SPE模块(Single Pixel Feature Extraction Block，SPE Block)。它具有和之前的SE模块及它的变体模块具有不同的特征重标定方式，即从每个特征图的每个像素单位当中产生注意力并生成的权重单独拿出来再重新赋值给每个特征图的每个像素特征。使得以尽可能的学习到图像中的信息，以此可以高效、准确地实现对图像的语义分割任务。

为个实现上述目的，本发明采用以下技术方案：

输入一张特征图U，U∈R^H×W×C(其中，R表示特征图维度，H表示特征图空间方向的高度，W表示特征图空间方向的宽度，C表示特征图通道数)，通过1*1卷积实现空间挤压操作,将U降维生成q，q∈R^H×W。q_i,j对应于q在空间位置(i，j)的子空间，其中i∈{1,2，...，H}并且j∈{1,2，...，W}。q_i,j＝W_sq*u^i,j的权重为W_sq∈R^1*1*C*1(W_sq为图像的每个子空间特征通过注意力机制学习到的权重，u^i,j表示特征图U在每个子空间的特征值)。然后再经过一个全连接层，将通道维度变成和原来一样大小。最后再经过一个Sigmoid函数激活，通过使用Sigmoid层σ(·)在空间方向上重新标定或激发U将特征重新缩放为[0,1]。最后将得到的激活值(q_i,j)与U原先的子空间特征值u^i,j在空间位置(i,j)和通道位置k对应相乘：

每个值σ(q_i,j,k)对应于给定特征图的空间单位像素信息在空间(i,j,k)位置的相对重要性。这种重标定给予相关的空间像素位置更多权重，对于不相关的空间像素位置则减少其权重。和sSE模块不同的是，SPE模块在整个过程中，对应于去获得特征图在通道方向每个子空间特征的权重值，而不是获取特征图在整个通道方向的权重值。从一定程度上说，它不仅能从全局的感受野捕获图像特征，也能从局部感受野捕获图像特征。

实现此方法包括以下步骤：

步骤1、输入特征图U，空间大小为H*W,特征通道数为C。

步骤2、Squzee(挤压)操作。

步骤3、Excitation(激活)操作。

步骤4、Reweight(特征重标定)操作。

步骤5、输出特征图空间大小为H*W,特征通道数为C。

作为优选，步骤2具体包括以下步骤：

步骤2.1、将特征图U使用1*1卷积对U的特征通道进行挤压，特征图U对应的通道大小为C,特征图U的每个子空间可以表示为u^i,j∈R^1×1×C，对应于每个通道上的空间位置(i，j)，其中i∈{1,2，...，H}并且j∈{1,2，...，W}。挤压过程中，使用空间大小为1*1、通道大小为1的卷积核，将特征图U挤压成空间大小仍然为H*W，但通道大小变为1的特征图

步骤2.2、取的每一个子空间像素，并且通过实现操作q_i,j＝W_sq*u^i,j。权重为W_sq∈R^1×1×C×1，产生投影张量q∈R^H×W。投影的每个q_i，j表示空间位置(i，j)的所有通道C的线性组合表示。

作为优选，步骤3具体包括以下步骤：

步骤3.1、在1*1卷积层之后添加一个Sigmoid层σ(·)。

步骤3.2、将挤压操作后的特征图放到一个Sigmoid层σ(·)把每个像素特征归一到(0,1)

步骤3.3、每个像素都有一个像素特征值，通过Sigmoid()

将像素特征值映射到0,1之间，生成激活值。

步骤3.4、经过一个全连接层，将特征图通道维度变为C，即和原先通道大小相同。

步骤3.5、经过一个Sigmoid层σ(·)把每个像素特征重新归一到(0,1)之间。

作为优选，步骤4具体包括以下步骤：

步骤4.1、特征重标定先是从前面的层得到在压缩操作得到的单位像素的特征值q_i,j,k以及

步骤4.2、将得到的单位像素的特征值σ(q_i,j,k)与原特征图的每个单位像素逐通道、逐空间对应相乘,即σ(q_i,j,k)*u^i,j,k。

步骤4.3、与原特征图U相乘，生成

与现有技术相对，本发明具有以下明显优势：

SPE模块是从单个特征图当中的单个像素中产生注意力并生成的权重值提取出来再重新赋值给每个特征图的每个像素，从而达到像素级的权值重标定。与其他SE模块相比，SPE模块它是对整个空间域的学习，因为在空间域的每个像素值所携带的信息特征的重要性是不同的，因此在特征重标定过程中，经过Sigmoid函数，使得不重要的信息特征值越来越小，而重要的信息则基本不会损失掉。而且由于是像素级的特征值标定策略，这就使得大多数的边缘信息不会丢失掉，更加还原图像本身所表达的意义。因此，SPE模块在学习到图像中的关键信息的同时，也不会损失掉图像的一些边缘关键信息，也以此可以高效、准确地实现对图像的语义分割任务。

附图说明：

图1模型流程图；

图2 SPE模块原理图；

图3 Sigmoid函数；

图4 SPE模块流程图；

图5特征提取操作；

具体实施方式

以下结合具体网络模型实例，并参照附图，对本发明进一步详细说明。

本发明所用到的硬件设备有PC机1台、1080显卡1个；

将本发明提供的模块放到具体的网络模型里运行，其流程图如图1所示，具体包括以下步骤：

步骤1，获取数据集，并将数据集进行数据增强处理。然后进行数据分布，分组处理。

步骤2，选择网络模型，选择两种F-CNN架构作为比较：ResNeXt-50，SENet-50。而SPE模块采用的网络模型是我们自己搭建的SPENet-50。

步骤3，搭建SPENet-50的网络模型。

步骤3.1，输入层为112*112的特征图，采用7*7大小的卷积核，数量为64，步长为2。

步骤3.2，上一层输出为56*56的特征图，然后加入3*3层的网络层当中：第一层卷积核大小为1*1，数量为128。第二层加入SPE模块(SPE模块原理图如图2所示)，数目为256。第三层卷积核大小为1*1，数量为512。

步骤3.3，上一层输出为28*28的特征图，然后加入4*3层的网络层当中：第一层卷积核大小为1*1，数量为128。第二层加入SPE模块，数目为512。第三层卷积核大小为1*1，数量为1024。

步骤3.4，上一层输出为14*14的特征图，然后加入6*3层的网络层当中：第一层卷积核大小为1*1，数量为512。第二层加入SPE模块，数目为512。第三层卷积核大小为1*1，数量为1024。

步骤3.5，上一层输出为7*7的特征图，然后加入3*3层的网络层当中：第一层卷积核大小为1*1，数量为1024。第二层加入SPE模块，数目为1024。第三层卷积核大小为1*1，数量为2048。

步骤3.6，上一层输出为1*1的特征图，然后加入一个7*7的全局平均池化层以及一个1000-d的全连接层，最后再经过一个softmax层。

步骤4，将处理好的训练集放到搭建好的网络模型上进行训练，然后再用验证集验证模型的准确性，通过与其他网络模型的实验结果比较，得出最终结论。

步骤4.1，优化算法使用的是同步SGD优化算法，momentum为0.9，采取的minibatch大小为1024。初始学习率设定为0.6，每30次迭代后下降10倍。所有网络模型采用权值初始化策略从0开始训练100次。

步骤4.2，训练此网络模型，直到验证损失收敛为止，使用的损失函数为交叉熵损失函数(Cross Entropy Loss)。

步骤4.3，将这几种网络模型的实验结果进行对比，得出结论。

如图2所示，SPENet-50的SPE-block结构原理图。SPE-block从每个特征图当中的每个像素特征生成的权重单独拿出来再重新赋值给每个特征图的单位像素。使得以尽可能的学习到图像中的信息，以此可以高效、准确地实现对图像的语义分割任务。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于注意力机制的特征提取方法，其特征在于：

步骤1、输入特征图U，空间大小为H*W,特征通道数为C；

步骤2、Squzee挤压操作；

步骤3、Excitation激活操作；

步骤4、Reweight特征重标定操作；

步骤5、输出特征图空间大小为H*W,特征通道数为C；

步骤2具体包括以下步骤：

步骤2.1、将特征图U使用1*1卷积对U的特征通道进行挤压，特征图U对应的通道大小为C,特征图U的每个子空间表示为u^i,j∈R^1×1×C，对应于每个通道上的空间位置(i，j)，其中i∈{1,2，...，H}并且j∈{1,2，...，W}；挤压过程中，使用空间大小为1*1、通道大小为1的卷积核，将特征图U挤压成空间大小仍然为H*W，但通道大小变为1的特征图

步骤2.2、取的每一个子空间像素，并且通过实现操作q_i,j＝W_sq*u^i,j；权重为W_sq∈R¹ ^×1×C×1，产生投影张量q∈R^H×W；投影的每个q_i，j表示空间位置(i，j)的所有通道C的线性组合表示；

步骤3具体包括以下步骤：

步骤3.1、在1*1卷积层之后添加一个Sigmoid层σ(·)；

步骤3.3、每个像素都有一个像素特征值，通过Sigmoid()

将像素特征值映射到0,1之间，生成激活值；

步骤3.4、经过一个全连接层，将特征图通道维度变为C，即和原先通道大小相同；

步骤3.5、经过一个Sigmoid层σ(·)把每个像素特征重新归一到(0,1)之间；

步骤4具体包括以下步骤：

步骤4.2、将得到的单位像素的特征值σ(q_i,j,k)与原特征图的每个单位像素逐通道、逐空间对应相乘,即σ(q_i,j,k)*u^i,j,k；

步骤4.3、与原特征图U相乘，生成

2.根据权利要求1所述的方法，其特征在于，运行的网络模型如下：

获取数据集，并将数据集进行数据增强处理；然后进行数据分布，分组处理；

搭建SPENet-50的网络模型，具体如下；

步骤2.1，输入层为112*112的特征图，采用7*7大小的卷积核，数量为64，步长为2；

步骤2.2，上一层输出为56*56的特征图，然后加入3*3层的网络层当中：第一层卷积核大小为1*1，数量为128；第二层加入SPE模块，数目为256；第三层卷积核大小为1*1，数量为512；

步骤2.3，上一层输出为28*28的特征图，然后加入4*3层的网络层当中：第一层卷积核大小为1*1，数量为128；第二层加入SPE模块，数目为512；第三层卷积核大小为1*1，数量为1024；

步骤2.4，上一层输出为14*14的特征图，然后加入6*3层的网络层当中：第一层卷积核大小为1*1，数量为512；第二层加入SPE模块，数目为512；第三层卷积核大小为1*1，数量为1024；

步骤2.5，上一层输出为7*7的特征图，然后加入3*3层的网络层当中：第一层卷积核大小为1*1，数量为1024；第二层加入SPE模块，数目为1024；第三层卷积核大小为1*1，数量为2048；

步骤2.6，上一层输出为1*1的特征图，然后加入一个7*7的全局平均池化层以及一个1000-d的全连接层，最后再经过一个softmax层；

优化算法使用是同步SGD优化算法，momentum为0.9，采取的minibatch大小为1024；初始学习率设定为0.6，每30次迭代后下降10倍；所有网络模型采用权值初始化策略从0开始训练100次以上；训练网络模型，直到验证损失收敛为止，使用的损失函数为交叉熵损失函数。