CN110245665B

CN110245665B - 基于注意力机制的图像语义分割方法

Info

Publication number: CN110245665B
Application number: CN201910394326.XA
Authority: CN
Inventors: 岳师怡; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2023-06-06
Anticipated expiration: 2039-05-13
Also published as: CN110245665A

Abstract

本发明涉及一种基于注意力机制的图像语义分割方法，包括：选定合适的语义分割数据集作为深度卷积神经网络的训练数据，数据集包含图片和标注，标注含有每一个像素点的语义标签；构建语义分割深度卷积神经网络，选取语义分割网络的主干网络用于提取图像特征，并在主干网络之后串联改进的注意力机制计算模块(Attention Module)；选择合适的损失函数，设计网络训练循环迭代的次数和训练方式，并初始化网络参数；将训练数据批量输入到该网络中，进行计算和训练。

Description

基于注意力机制的图像语义分割方法

技术领域

本发明属于深度学习和计算机视觉领域，特别涉及一种用于图像语义分割的兼具有效及高效的注意力机制算法。

背景技术

图像语义分割是计算机视觉领域的基础且具挑战性的课题。近些年来基于深度学习的语义分割取得了显著的成果，已经广泛应用于视频监控、自动驾驶和人机交互等众多领域。

图像语义分割任务是为图像中每一个像素点分配一个代表其语义信息的标签，例如‘车’、‘人’，从语义构成的层面解析一幅图像。当前语义分割任务主要通过获取上下文信息(把周围点的信息编码到当前点的特征中，以辅助当前点更好地分配恰当的标签)来达到性能的提升。目前主流的编码上下文信息的方法大致可分为两类：基于空洞卷积的算法和基于注意力机制(Attention mechanism)的算法。基于空洞卷积的算法以Deeplab[1][2][3]一系列论文中的空洞空间金字塔池化模块(Atrous Spatial pyramid pooling，ASPP)为代表，使用多个不同膨胀率的空洞卷积来提取不同尺度上的信息。DenseASPP[4]的作者使用密集连接改进ASPP模块提取更加密集、范围更广的上下文信息。基于注意力机制的算法有[5][6]。[5]使用了两种注意力模块，包括为每一个位置点添加权重的位置注意力模块(Position Attention Module)和为每一个通道添加权重的通道注意力模块(ChannelAttention Module)，其中位置注意力模块整合了所有位置点的信息到当前点之中，而通道注意力模块则整合了所有通道的信息。[6]简化了常用的位置注意力模块以节省计算和内存消耗。

本专利主要关注基于注意力机制的图像语义分割方法。已有的位置注意力算法利用矩阵乘法计算当前点与周围点特征向量的相似矩阵，并由这个相似矩阵得到周围点的权重值(与当前点特征向量相似度高的权重较大)，之后把当前点的特征向量更新为周围点特征向量以及权重值的加权求和。通常情况(例如[5])下位置注意力算法计算当前点与特征图上每一点(包括当前点)的相似度，这导致了大量的计算消耗；而[6]中为节省计算和内存消耗只计算位于当前点同一行同一列上点的相似度而忽略了其余位置上的上下文信息，上下文信息的提取不够充分。

参考文献：

[1]Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2016,40(4):834-848.

[2]Chen L C,Papandreou G,Schroff F,et al.Rethinking AtrousConvolution for Semantic Image Segmentation[J].2017.

[3]Chen L C,Zhu Y,Papandreou G,et al.Encoder-Decoder with AtrousSeparable Convolution for Semantic Image Segmentation[J].2018.

[4]Maoke Yang,Kun Yu,Chi Zhang,et al.DenseASPP for SemanticSegmentation in Street Scenes[C].The IEEE Conference on Computer Vision andPattern Recognition(CVPR).2018.

[5]Jun Fu,Jing Liu,Haijie Tian,et al.Dual Attention Network for SceneSegmentation[C].The National Conference on Artificial Intelligence(AAAI).2019.

[6]Zilong Huang,Xinggang Wang,Lichao Huang,et al.CCNet:Criss-CrossAttention for Semantic Segmentation.arXiv:1811.11721.

发明内容

本发明目的在于提供一种用于图像语义分割算法的既有效又高效的位置注意力方法，解决现有位置注意力模块在计算量消耗与性能之间的矛盾。该方法增加少量的计算量，但为位置注意力模块融入更多的上下文信息，达到一个较优的性能与计算量之间的平衡，具有较强的实用性和普适性。为了达到上述目的，本发明的技术方案如下：

一种基于注意力机制的图像语义分割方法，包括下列步骤：

1)选定合适的语义分割数据集作为深度卷积神经网络的训练数据，数据集包含图片和标注，标注含有每一个像素点的语义标签；

2)构建语义分割深度卷积神经网络，选取语义分割网络的主干网络用于提取图像特征，并在主干网络之后串联改进的注意力机制计算模块(Attention Module)，该模块对主干网络的输出进行进一步的处理并输出语义分割的结果，即图像中每一点属于哪一个语义标签的分类结果，该模块如下：

a)对于一个给定的输入特征

首先通过两个1×1的卷积操作进行通道降维,得到两个降维后的特征图/>

C'＜C，C、C'表示特征图通道的个数，H和W分别表示特征图的高和宽；之后，对特征图H通过一个1×1的卷积操作得到特征图

b)计算特征向量相似度，并由相似度计算权重值A：对于特征图Q中的每一点u可以从Q中抽取出该点的特征向量

u∈{1,2,3,......,H×W}，同时对于K中位于u点同一行同一列以及周围R×R区域的点，从K中抽取出一个特征向量的集合记为

是Ω_u的第i个元素，i∈{1,2,3,......,H+W+R×R}；之后使用向量乘法计算相似度d_i,u＝Q_uΩ_i,u ^T，/>

D表示特征图上每一点与该点周围H+W+R×R个点的相似度的集合，特征图上每一点对应于H+W+R×R个相似度，对这H+W+R×R个相似度进行SoftMax操作得到归一化的权重值/>

是A的一个元素，表示点u周围第i个点相对于u点的权重值，i∈{1,2,3,......,H+W+R×R}，u∈{1,2,3,......,H×W}；

c)计算该模块的输出H'：对于特征图V上的每一点u可以从V中抽取出一个特征向量

以及一个特征向量集合/>

集合φ_u是V上位于点u同一行同一列以及周围R×R区域的点的特征向量/>

的集合，之后，计算/>

是输出特征图/>

上点u的特征向量，H_u'由点u周围的H+W+R×R个点的特征向量的加权和加上原始特征图中点u的特征向量H_u得到；

3)选择合适的损失函数，设计网络训练循环迭代的次数和训练方式，并初始化网络参数；

4)将训练数据批量输入到该网络中，进行计算和训练，具体步骤如下：

a)将训练数据输入网络中，依次输入到网络主干部分和改进版注意力机制计算模块进行计算；

b)计算网络损失函数并进行反向传播，按照梯度下降法更新网络权重；

c)循环步骤a)、b)，经过多次迭代后，损失收敛，得到训练好的神经网络模型；

5)将训练好的模型应用于测试/实际应用中，当输入图像时，通过该模型可以得到当前图像的中每一像素点的语义类别。

采用本发明所述方法，实现简单，应用于图像语义分割，在保证计算高效的同时，可以融入更多的上下文信息提升语义分割性能，有助于达到一个较优的性能与计算量之间的平衡。通过应用本专利方法，实现语义分割任务，该方法的性能得到证明。将本专利方法应用于CCNet[6]网络结构中，替换[6]原有的位置注意力模块，在cityscapes图像数据库上进行语义分割实验，在测试速率几乎一致的效率下本专利方法平均交并比mIoU(MeanIntersection over Union,图像分割标准精确度度量)提升了0.8个百分点。

附图说明

图1基于矩阵乘法的位置注意力模块结构。

图2CCNet中简化后的十字交叉型位置注意力模块结构，这里[6]中连续使用了两次注意力模块以弥补单个十字交叉型位置注意力模块对上下文信息提取不够充分的缺陷。

图3本专利提出的兼具有效及高效的注意力模块结构示意图。

图4对图3进行改进后的注意力权重示意图。

具体实施方式

下面结合附图对本专利做进一步的描述。

图1描述了现有主流的基于矩阵乘法的位置注意力模块结构。在基于矩阵乘法的位置注意力模块结构中，通过矩阵转置相乘为特征图(特征图大小为H×W)中每一个当前点(图中蓝色的点)生成H×W个权重值(图中绿色的点阵)，之后将当前点的特征向量表示为权重值与特征图中每一对应点特征向量的加权求和(图中红色的点)。因此该模块的计算复杂度可表示为o((H×W)×(H×W))，即需要为含有H×W个点的特征图中的每个点生成H×W个权重值。

图2描述了[6]中为节省计算和内存消耗简化后的位置注意力模块结构。该模块为特征图中的每一个点只计算同一行同一列共H+W-1个权重值，大大减少了位置注意力模块的计算量，但同时由于上下文信息提取的不充分导致分割性能的明显下降，针对性能下降问题[6]使用了级联的两个位置注意力模块进行上下文信息的补偿，通过第二个位置注意力模块当前点可以间接地获取到位于其他位置(非同一行同一列的点)上点的特征信息。但是这里存在一个问题，由于是间接得到的其他位置点的上下文信息，当当前点是一个较小的目标时，间接获得的信息有可能非但不能帮助当前点的分类反而会引入干扰信息。这个问题可以通过本专利中提出的平衡计算量与性能冲突的兼具有效及高效的注意力模块得到解决。

图3描述了本专利提出的兼具有效及高效的注意力模块结构，利用少量的计算量增加换取较大的性能增益。该模块选取位于当前点同一行、同一列以及周围R×R区域内的点计算权重值，并使用这些点的加权和更新当前点的特征向量。在[6]的基础上通过增加与当前点相关性较大的(场景中物体通常与相邻物体相关性较大与远处的物体相关性较弱，例如道路上人与附近的自行车相关性较大而与远处的天空相关性弱)周围R×R区域的上下文信息，使上下文信息提取得更加充分，有利于提高性能。同时由于当前点与周围R×R区域内点直接相关，从而避免了[6]中由于只能间接获取非同一行同一列点的信息导致的当当前点是一个较小的目标间接方式可能引入干扰信息而造成的性能下降。此外，由于R＜W,从而该模块引入的计算量o((R×R))＜＜o((H×W))，因此是计算高效的。具体细节如下：

(1)准备工作。对于一个给定的特征图

首先通过两个1×1的卷积操作进行通道降维，得到两个特征图/>

C'＜C。C、C'表示特征图通道的个数，H和W分别表示特征图的高和宽。特征图Q和特征图K将用于计算权重值A，进行通道降维操作是为了减小计算量。此外，对特征图H通过一个1×1的卷积操作得到特征图/>

特征图V将与权重值A进行加权求和运算得到输出的特征图H'。

(2)计算特征向量相似度，并由相似度计算权重值A。对于特征图Q中的每一点u可以从Q中抽取出该点的特征向量

u∈{1,2,3,......,H×W}，同时对于K中位于u点同一行同一列以及周围R×R区域的点，可以从K中抽取出一个特征向量的集合记为

是Ω_u的第i个元素，i∈{1,2,3,......,H+W+R×R}，u∈{1,2,3,......,H×W}。之后使用向量乘法计算相似度d_i,u＝Q_uΩ_i,u ^T，/>

i∈{1,2,3,......,H+W+R×R}，u∈{1,2,3,......,H×W}，D表示特征图上每一点与该点周围H+W+R×R个点的相似度的集合。由于特征图上每一点对应于H+W+R×R个相似度，所以对这H+W+R×R个相似度进行SoftMax操作得到归一化的权重值/>

是A的一个元素，表示点u周围第i个点相对于u点的权重值，i∈{1,2,3,......,H+W+R×R}，u∈{1,2,3,......,H×W}。

(3)上下文信息收集得到输出特征图H'。对于V上每一点u可以从V中抽取出一个特征向量

u∈{1,2,3,......,H×W}，以及一个特征向量集合/>

u∈{1,2,3,......,H×W}，集合φ_u是V上位于点u同一行同一列以及周围R×R区域的点的特征向量/>

的集合，i∈{1,2,3,......,H+W+R×R}。之后进行上下文信息收集操作，

u∈{1,2,3,......,H×W}，/>

是输出特征图/>

上点u的特征向量，H_u'由点u周围的H+W+R×R个点的特征向量的加权和加上原始特征图中点u的特征向量H_u得到。H′即为经过位置注意力模块进行上下文信息收集之后的输出特征图。

图4描述了对图3进行改进后的注意力权重示意图。由于图3中位于当前点R×R区域之外的上下文信息利用的不够充分，因此提出改进结构图4。对于离当前点较近处的区域使用较密集的操作提取充足的上下文信息，对于与当前点相关性较弱的远处的区域使用较为稀疏的操作提取信息。这样可以在较小的计算量下尽可能提取到更多的上下文信息。该结构的实现方式可类比图3模块的实现。

下面将对本发明的技术方案进行完整描述，描述中将在语义分割网络CCNet[6]中使用图3位置注意力模块。显然，所描述的实施例仅是本发明的一部分实例，而不是全部的实例。

将本发明应用于图像语义分割任务中，主要包含三个步骤：准备数据集；构建并训练基于有效且高效注意力机制的语义分割网络；测试/应用检测模型。其具体实现步骤描述如下：

第一步：准备数据集。

(1)选择合适的语义分割数据集。目前较为常用的数据集有Pascal VOC和cityscapes等。作为示例，我们采用cityscapes数据集，在此数据采用的格式为769×769的彩色图像格式，所有图像经过随机翻转和剪裁的数据增强操作。

(2)图像集划分。cityscapes数据集包括训练集，验证集和测试集。我们将使用训练集训练并在验证集上测试性能。测试集为后续测试模型效果或者实际应用时使用。

第二步：构建并训练基于有效且高效注意力机制的语义分割网络。

选取合适的提取图像特征的主干网络并在网络头部(位置注意力模块)添加图3位置注意力模块，设计网络训练循环迭代的次数和训练方式，并初始化网络参数。本发明中采用ResNet50作为主干网络。经过多次迭代后，损失函数收敛，得到训练好的神经网络模型。

第三步：测试/引用训练好的网络模型。

准备好验证集数据，调用设计好的网络结构和训练好的网络参数，并将测试图片批量或单张的输入到训练好的模型中。前向计算，将图像数据依次通过主干网络以及注意力模块。网络输出每一点对于每一语义类别的概率，选择概率最大的类别作为该点所属的类别。