CN112750129B

CN112750129B - 一种基于特征增强位置注意力机制的图像语义分割模型

Info

Publication number: CN112750129B
Application number: CN202110035003.9A
Authority: CN
Inventors: 周维; 王帅龙; 许海霞; 黄云佳; 宣期峻; 陈祁; 刘用; 朱江; 张东波; 王玮; 彭伟
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2022-12-02
Anticipated expiration: 2041-03-11
Also published as: CN112750129A

Abstract

本发明公开了一种基于特征增强位置注意力机制的图像语义分割模型。本发明包括以下步骤：1、模型建立，设计一种基于特征增强位置注意力机制的图像语义分割模型，通过注意力机制学习像素点图像特征之间的关联性以及通过增加感受野进一步捕获图像丰富的上下文语义信息。2、模型训练，首先对数据集预处理，然后根据建立好的模型进行模型训练。3、模型推理，将测试集的图像输入到训练好的模型中，推理测试图像的语义类别预测值，评估预测准确度。本发明是一种针对图像语义分割的神经网络模型，特别是提出了一种特征增强位置注意力机制提取图像自身注意力信息的统一建模方法，获得了在语义分割领域较好的分割效果。

Description

一种基于特征增强位置注意力机制的图像语义分割模型

技术领域

本发明属于计算机视觉技术领域，特别涉及一种基于特征增强位置注意力机制的图像语义分割模型。

背景技术

图像语义分割是计算机视觉的一个基础问题，广泛应用于自动驾驶、智能机器人、人机交互等等领域的场景理解。图像语义分割技术是将视觉图像中具有相似语义信息的像素点给予一致的标签，解释不同的语义类别。例如，在自动驾驶场景中我们需要区分图像中属于汽车的所有像素，并把这些像素标记为一个语义类别。

传统的图像语义分割方法包括纹理基元森林(TextonForest)和随机森林(RandomForest)。由于光照对图像邻域分割的影响，导致纹理基元森林(TextonForest)方法不能得到准确率较高的分割效果；随机森林(Random Forest)方法直接利用图像低级的像素信息，提高算法训练和测试速度，该方法的缺点是无法控制模型内部的运行，在回归问题中表现不佳。

近年来伴随着深度学习的不断发展，基于深度学习的图像语义分割模型越来越多的应用在实际的场景中。采用卷积神经网络(Convolutional Neural Networks,CNN)和全卷积神经网络(Fully Convolutional Neural Networks,FCN)进行端到端(end-to-end)的问题建模成为计算机视觉方向上的主流研究方法。在图像的语义分割中，设计应用相关的深度网络模型进行端到端的建模，分割的准确率和速度均得到了明显的提升，相比传统的语义分割方法分割效果得到了大大的提升。

目前基于深度学习的图像语义分割的主要方法：(1)通过全卷积神经网络进行图像语义分割的处理，虽然全卷积神经网络可以实现任意尺寸大小图像的输入，并且得到与输入对应尺寸大小的输出，但是不能够获得足够丰富的图像上下文信息，得到的图像特征不够明显；(2)基于全卷积神经网络添加后处理模块，近两年用的比较多的是添加注意力机制模块，可以获得丰富的上下文信息，提高图像语义分割的准确率，但是有些模型参数过多，导致模型冗余，提取的特征不够全面，在实际应用场景中分割效果差。

因此，有必要设计一套高效的易于实现的图像语义分割深度网络模型。

参考文献

1.Krizhevsky A,Sutskever I,Hinton G E,et al.(2012)Imagenetclassifification with deep convolutional neural networks.Advances in NeuralInformation Processing Systems(NIPS),470Lake Tahoe,USA,Dec.3-6,pp.1097-1105.

2.Mark Everingham,Luc Van Gool,Christopher KI Williams,John Winn,andAndrew Zisserman.(2010)The pascal visual object classes(voc)challenge.International journal of computer vision,88:303-338.

3.Long J,Shelhamer E,Darrell T.(2015)Fully convolutional networks forsemantic segmentation.IEEE Conf.On Computer Vision and Pattern Recognition(CVPR),Boston,USA,Jun.7-12,pp.3461-3440

发明内容

本发明提供一种基于特征增强位置注意力机制的图像语义分割模型，该基于特征增强的位置注意力机制模型效率高，易于实现。

发明的技术解决方案如下：

一种基于特征增强位置注意力机制的图像语义分割模型，其特征在于，包括数据预处理、模型的建立、模型的训练和验证；

数据预处理主要是给定图像I，对应的真实标签图GT,构成训练集，为模型训练提供数据基础；

模型的建立是通过分析图像语义增强过程设计具体子模块，构建端到端的语义分割深度网络模型；

模型的训练和验证是确定所建立的模型的参数，并且检验所设计的模型的分割效果；

基于特征增强位置注意力机制的图像语义分割模型按照以下步骤展开：

步骤1：模型建立；

步骤2：模型训练；

步骤3：模型推理。

步骤1中，具体设计一种基于特征增强位置注意力机制的图像语义分割模型，通过注意力机制学习像素点图像特征之间的关联性以及通过增加感受野进一步捕获图像丰富的上下文语义信息，以加强同类别像素的关联性提高分割准确性；

首先，对图像进行特征提取，通过骨干网络ResNet-101提取图像特征F；

然后，建立特征集成模型FIM，通过增大感受野对图像特征F进行增强，得到具有增强语义信息的图像特征X；

最后，建立位置注意力模型PAM，通过位置注意力机制增强图像特征X空间位置的关联性，得到上下文关联性增强的特征图E；

步骤2中，首先对提供的数据集进行预处理操作，对图像I进行尺度随机缩放，水平旋转，将图像裁剪成固定尺寸大小的图像I_C；

然后对步骤1建立的模型进行训练，将图像I_C通过骨干网ResNet-101、特征集成模型FIM子模块、位置注意力模型PAM子模块得到特征图E，再经过上采样后进行图像语义类别预测，将得到的预测值Z与真实值GT进行交叉熵运算，度量预测值与真实值的误差；通过反向传播算法对步骤1定义的网络模型参数进行迭代优化训练，训练到整个模型收敛为止；

步骤3中，将测试集的图像输入到训练好的模型中，推理测试图像的语义类别预测值，计算测试预测值与真实值的平均交并比MIoU，评估预测准确度。

步骤1所述的模型建立具体过程如下：

首先，使用ResNet-101作为骨干网络，对图像I_C进行特征提取，得到图像特征F，其中

C₁是图像特征的通道数，H和W是图像特征的高度和宽度；

然后，建立特征集成模型FIM进一步对图像特征进行增强，有关特征集成模型FIM操作的具体过程如下：首先对F采用不同卷积算子'1×1,3×3,5×5,7×7'进行通道降维，具体过程如下：

a_i＝Conv_i(F)，i∈{1,3,5,7}， ⑴

其中Conv_i是i×i卷积(i＝1,3,5,7)，

然后，为了得到具有不同大小感受野的图像特征A_i其中i∈{1,3,5,7}，直接输出a₁，对a₃，a₅和a₇均采用'3×3'的卷积进行不同程度上扩大感受野，其中a₅和a₇分别通过a₃和a₅的残差操作获得较大的感受野，a₃直接通过'3×3'的卷积获得较小的感受野，具体过程如下所示：

A₁＝a₁,A₃＝Conv₃(a₃),A₅＝Conv₃(A₃+a₅),A₇＝Conv₃(A₅+a₇) ⑵

最后，对具有不同大小感受野的图像特征A_i,其中i∈{1,3,5,7}进行通道拼接操作，即[A₁,A₃,A₅,A₇]，其中'[]'表示拼接操作，得到感受野增大的图像特征，利用1×1卷积操作进行通道的升维，与输入F进行矩阵对应元素相加，进一步通过'1×1'卷积操作降维，最终输出语义信息增强的图像特征X,

其中C₂是图像特征的通道数，H和W是图像特征的高度和宽度；

在完成特征集成模型FIM操作后，建立位置注意力机制模型PAM，有关位置注意力机制模型PAM操作的具体过程如下：采用注意力机制对特征图X进行空间位置的关联性的增强，得到上下文关联性增强的特征图E，其中

C₂是图像特征的通道数，H和W是图像特征的高度和宽度，对于X注意力机制的具体运算如下所示：

K＝Conv(X)；Q＝Conv(X)；V＝Conv(X) ⑶

Y＝Softmax(K^T×Q) ⑷

其中Y是计算权重，β是指可学习的系数且β∈R,T为矩阵的转置；

步骤2所述的模型训练具体过程如下：

输入图像I，通过骨干网络ResNet-101对图像进行特征提取，利用提供的特征集成模型FIM进一步对图像特征进行增强,然后利用位置注意力模型PAM增强像素间空间位置的关联性，最后上采样进行语义分割预测，得到预测结果Z,采用交叉损失函数计算预测值与真实值GT之间的损失，其中损失函数如下：

其中B是指输入模型的图像的个数，C是类别数；

步骤3所述模型推理具体过程如下：

在步骤2训练完成模型以后，固定模型参数，输入测试集的图像得到测试预测值，推理测试图像的语义类别预测值，计算测试预测值与真实值的交并比，直到所有测试集测试完成，给出最终的预测准确度。

本发明有益效果如下：

本发明提出的方法在针对图像语义分割的问题上相对于其他算法提高了精度。具体表现为：1)相对于以住一些网络模型本发明提出的模型比较容易实现；2)本发明的网络参数较少，轻量化了网络，有效地降低了模型训练的时间。本发明基于全卷积端到端的网络通过增大感受野的方式引入注意力机制，在图像语义分割任务中获得了比以往模型高的准确度。

附图说明

图1为本发明的模型总结构图。

图2为本发明的特征集成模型。

图3为本发明的位置注意力机制模型。

图4为本发明的模型实验可视化结果。

具体实施方式

为了使本发明的目的及技术方案更加清楚明白，以下结合附图和实施例，对本发明的应用原理作详细的描述。但本发明的保护范围并不限于以下具体实施例。

除非另有定义，下文中所使用的所有专业术语与本领域技术人员通常理解含义相同。本文中所使用的专业术语只是为了描述具体实施例的目的，并不是旨在限制本发明的保护范围。

实施例1：

如图1图2图3所示，本发明提供一种基于特征增强位置注意力机制的图像语义分割模型具体步骤如下：

步骤1所述的模型建立具体如下：

此发明采用PASCAL VOC 2012[2]数据集，其中此数据集包含21个类别，作为训练和测试数据；

首先，使用ResNet-101作为骨干网络提取图像特征，具体过程为：把输入的图像统一缩放到513×513并输入到骨干网络中，经过骨干网络进行图像特征的提取，将输出的最后一层特征图

作为输入进入特征集成模型FIM进行特征的进一步提取；然后，执行特征集成模型FIM操作，具体如下：

①对于输入F使其通过‘1×1,3×3,5×5,7×7’四个不同大小的卷积核，得到通道数为F的四分之一但尺寸大小不变的四个输出

②对{a₁,a₃,a₅,a₇}分别通过'3×3'卷积和残差操作得到感受野不同程度增大的具有强的语义信息的图像特征{A₁,A₃,A₅,A₇}；

③将具有强的图像语义信息的特征{A₁,A₃,A₅,A₇}统一通过一层卷积增加通道数，利用残差方式与输入F进行融合，通过'1×1'卷积操作将得到的特征图进行降维为X；最后，执行位置注意力模型PAM操作，增强像素间空间位置的关联性，位置注意力模型PAM操作具体如下：

①对输入X进行注意力机制运算操作，提取像素点之间的关联性，其中注意力机制运算操作具体公式如下所示：

K＝Conv(X)；Q＝Conv(X)；V＝Conv(X) ⑷

Y＝Softmax(K^T×Q) ⑸

②对输入X进行注意力机制运算操作，增强图像的像素点空间位置的关联性，得到具有丰富上下文语义信息的特征图E；

至此完成模型建立的操作。

步骤2所述模型训练，具体如下：

对步骤1建立的模型进行训练，将图像I_C通过骨干网ResNet-101、特征集成模型FIM子模块、位置注意力模型PAM子模块得到特征图E，再经过上采样后进行图像语义类别预测，得到预测值Z；将其与数据集的真实标签图GT做比较，通过定义的损失函数计算得到预测值与真实值之间的损失值，然后根据该损失值调整整个网络的参数值，直到网络收敛；

至此完成模型训练的操作。

步骤3所述模型推理，具体如下：

在步骤2训练完成模型以后，固定模型参数，输入测试集的图像得到测试预测值，推理测试图像的语义类别预测值，计算测试预测值与真实值的平均交并比，评估预测准确度。

至此完成模型推理的操作。

下表为本发明所述的方法在Pascal VOC 2012中的准确度。FCN[3]为基于深度学习的图像语义分割开篇之作，Our为本发明所提供的深度模型，aero，bike表示数据集中待语义分割的类别物，采用平均交并比MIoU评估图像语义分割的平均准确度。

Claims

1.一种基于特征增强位置注意力机制的图像语义分割模型的构建方法，其特征在于包括以下步骤：

步骤1：模型建立；

具体设计一种基于特征增强位置注意力机制的图像语义分割模型，通过增大感受野捕获图像的上下文语义信息而增强图像特征，再通过注意力机制增强图像特征空间位置的关联性，以加强同类像素的关联性提高分割准确性；

首先，对图像进行特征提取，通过骨干网络提取图像特征F，其中

C₁是图像特征的通道数，H和W是图像特征的高度和宽度；

最后，建立位置注意力模型PAM，通过位置注意力机制增强图像特征X空间位置的关联性，得到上下文关联性增强的图像特征图E；

其中，建立的特征集成模型FIM，其特征在于包括以下操作：

首先对F采用不同卷积算子'1×1,3×3,5×5,7×7'进行通道降维，具体过程如下：

a_i＝Conv_i(F)，i∈{1,3,5,7}， ⑴

其中Conv_i是i×i卷积(i＝1,3,5,7)，

为了得到具有不同大小感受野的图像特征A_i，其中i∈{1,3,5,7}，直接输出a₁，对a₃，a₅和a₇均采用'3×3'的卷积进行不同程度上扩大感受野，其中a₅和a₇分别通过a₃和a₅的残差操作获得较大的感受野，a₃直接通过'3×3'的卷积获得较小的感受野，具体过程如下所示：

对具有不同大小感受野的图像特征A_i，其中i∈{1,3,5,7}进行通道拼接操作，即[A₁,A₃,A₅,A₇]，其中'[]'表示拼接操作，得到感受野增大的图像特征，利用1×1卷积操作进行通道的升维，与输入F进行矩阵对应元素相加，进一步通过'1×1'卷积操作降维，最终输出语义信息增强的图像特征X，其中

C₂是图像特征的通道数，H和W是图像特征的高度和宽度；

建立的位置注意力模型PAM，在特征在于包括以下操作：

采用注意力机制对特征图X进行空间位置的关联性的增强，得到上下文关联性增强的特征图E，其中

K＝Conv(X)；Q＝Conv(X)；V＝Conv(X) ⑶

Y＝Softmax(K^T×Q) ⑷

E＝βY×V^T+X ⑸

其中β是可学习的系数，且β∈R，T为矩阵的转置；

步骤2：模型训练；

对步骤1所建立的模型进行训练，训练到整个模型收敛为止；

步骤3：模型推理；

将测试集的图像输入到训练好的模型中，推理测试图像的语义类别预测值，评估预测准确度。

2.根据权利要求1所述的一种基于特征增强位置注意力机制的图像语义分割模型的构建方法，其特征在于步骤1所述的模型训练，具体如下：

输入图像，通过骨干网对图像提取特征，利用提供的特征集成模型FIM对图像特征进行增强，然后利用位置注意力模型PAM对增强的图像特征建立像素间空间位置的关联性，最后上采样进行语义分割预测，得到预测结果Z，采用交叉损失函数计算预测值与真实值GT之间的损失，其中损失函数如下：

其中B是指输入模型的图像的数量，C是类别数。