CN115908793A

CN115908793A - 一种基于位置注意力机制的编解码结构语义分割模型

Info

Publication number: CN115908793A
Application number: CN202210408406.8A
Authority: CN
Inventors: 许海霞; 王玮; 周维; 彭伟; 张东波; 王帅龙; 陈祁; 丁凡迅; 韩丰; 刘彦帮
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2023-04-04

Abstract

本发明公开了一种基于位置注意力机制的编解码结构语义分割模型。本发明包括以下步骤：1、模型建立，设计一种基于位置注意力机制的编解码结构语义分割模型，通过编码器中注意力机制学习像素点图像特征之间的关联性并增强深层语义信息，通过解码器将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息。2、模型训练，首先对数据集预处理，然后根据建立好的模型进行模型训练。3、模型推理，将测试集的图像输入到训练好的模型中，推理测试图像的语义类别预测值，评估预测准确度。本发明是一种针对图像语义分割的神经网络模型，特别是提出了一种基于位置注意力机制的编解码结构来提取图像自身注意力信息的统一建模方法，获得了在语义分割领域较好的分割效果。

Description

一种基于位置注意力机制的编解码结构语义分割模型

技术领域

本发明属于计算机视觉技术领域，特别涉及一种基于位置注意力机制的编解码结构语义分割网络模型。

背景技术

图像语义分割是计算机视觉的一个基础问题，广泛应用于自动驾驶、智能机器人、人机交互等等领域的场景理解。图像语义分割技术是将视觉图像中具有相似语义信息的像素点给予一致的标签，解释不同的语义类别。例如，在自动驾驶场景中我们需要区分图像中属于汽车的所有像素，并把这些像素标记为一个语义类别。

传统的图像语义分割方法包括纹理基元森林(TextonForest)和随机森林(RandomForest)。由于光照对图像邻域分割的影响，导致纹理基元森林(TextonForest)方法不能得到准确率较高的分割效果；随机森林(Random Forest)方法直接利用图像低级的像素信息，提高算法训练和测试速度，该方法的缺点是无法控制模型内部的运行，在回归问题中表现不佳。

近年来伴随着深度学习的不断发展，基于深度学习的图像语义分割模型越来越多的应用在实际的场景中。采用卷积神经网络(Convolutional Neural Networks,CNN)和全卷积神经网络(Fully Convolutional Neural Networks,FCN)进行端到端(end-to-end)的问题建模成为计算机视觉方向上的主流研究方法。在图像的语义分割中，设计相应的深度网络模型实现端到端的建模，分割的准确率和速度均得到了明显的提升，相比传统的语义分割方法分割效果得到了大大的提升。

目前基于深度学习的图像语义分割的主要方法：(1)通过全卷积神经网络进行图像语义分割的处理，虽然全卷积神经网络可以实现任意尺寸大小图像的输入，并且得到与输入对应尺寸大小的输出，但是不能够获得足够丰富的图像上下文信息，得到的图像特征不够明显；(2)基于全卷积神经网络添加后处理模块，近两年用的比较多的是添加注意力机制模块，可以获得丰富的上下文信息，提高图像语义分割的准确率，但是有些模型参数过多，导致模型冗余，提取的特征不够全面，在实际的应用场景中分割效果差。

因此，有必要设计一套高效的易于实现的图像语义分割深度网络模型。

发明内容

本发明提供一种基于位置注意力机制的编解码结构语义分割模型，该基于特征增强的池化位置注意力机制模型效率高，易于实现。

发明的技术解决方案如下：

一种基于位置注意力机制的编解码结构语义分割模型，其特征在于，模型的建立、模型的训练和验证；

基于位置注意力机制的编解码结构语义分割模型按照以下步骤展开：

步骤1：模型建立；

模型的建立是通过分析图像语义增强过程设计具体子模块，构建端到端的语义分割深度网络模型；

步骤2：模型训练；

模型的训练是通过使用训练集和优化算法，确定所建立的模型的参数；

步骤3：模型推理。

模型的推理是通过输入图片到训练好的模型中进行推理，输出预测结果，检验所设计的模型的分割效果。

步骤1中，具体设计一种基于位置注意力机制的编解码结构语义分割模型，在编码器中通过注意力机制学习像素点图像特征之间的关联性并增强深层语义信息，在解码器中通过将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息，以扩大同类别物体的类间差异性，最终提高分割准确性；

首先，建立编码器模型(Encoder)，对图像进行特征提取，通过骨干网络ResNet-101提取图像的浅层特征F1到深层特征F4；

然后，通过编码器中的池化交叉注意力模块(PCAM)和池化位置注意力模块(PPAM)增强深层信息的语义一致性，得到具有全局语义信息的图像特征F₄X；

最后，建立解码器模型(Decoder)，对F₄X进行上采样操作得到特征图F₄Y，然后通过对浅层特征F1和特征图F₄Y进行融合，得到上下文关联性增强的特征图，并对融合后的特征图进行上采样操作，得到和输入图片尺寸大小相同的特征图；

步骤2中，首先构建训练集，及验证集，给定图像I，对应的真实标签图GT,组成数据集，按照1:1比例划分训练集和测试集，为模型训练提供数据基础；

然后对图像I进行尺度随机缩放，水平旋转，将图像裁剪成固定尺寸大小的图像I_C；

最后对步骤1建立的编解码结构语义分割模型进行训练，将图像I_C输入骨干网ResNet-101、编码器中的交叉位置注意力模型(PCAM)子模块、池化位置注意力模型(PPAM)子模块得到特征图F₄X，再通过解码器将浅层特征F1和深层特征F₄Y融合并经过上采样后进行图像语义类别预测，通过前向传播将预测值Z与真实值GT进行交叉熵运算，度量预测值与真实值的误差；通过反向传播算法对步骤1定义的编解码结构语义分割网络模型参数进行迭代优化训练，训练到整个模型收敛为止；

步骤3中，将测试集的图像输入到训练好的编解码结构语义分割模型中，推理测试图像的语义类别预测值，计算预测值与真实值的平均交并比(MIoU)，评估预测准确度。平均交并比的运算公式如下所示：

其中K是数据集的类别数，p_ij是类别为i的像素被预测为类别为j的数量，p_ii是正确分类的像素的数量。

步骤1所述的编解码结构语义分割模型建立具体过程如下：

首先，建立编码器模型(Encoder)，使用ResNet-101作为骨干网络，对图像I_C进行特征提取，得到图像浅层特征F1到深层特征F4，其中 C₁是图像特征的通道数，H和W是图像特征的高度和宽度；

然后，通过池化交叉注意力模块(PCAM)进一步对图像深层特征进行增强，关于PCAM 的具体运算如下：

a＝Conv(F4)；b＝Conv(F4)；c＝Conv(F4)；d＝Conv(GAP(F4)) (2)

F4’＝Conv[Fusion(p,c)+d]+F4 (4)

a1＝Conv(F4’)；b1＝Conv(F4’)；c1＝Conv(F4’)； (5)

F4”＝Conv[Fusion(p1,c1)]+F4’+GAP(F4’) (7)

其中Conv是1×1卷积，GAP是全局平均池化操作，a,b,c,d,a1,b1,p和p1 是计算权重，T为矩阵的转置，函数softmax(·)的运算公式为：

其中e^xi是指数运算；

符号的运算表示：

函数Fusion(·)的运算公式为：

其中i和j是图像特征矩阵中的行和列，H和W是图像特征的高度和宽度；

最后，采用池化位置注意力模块(PPAM)来进行计算增强后的深层特征，得到空间关联性强的特征图F₄X，其中H和W是图像特征的高度和宽度，对特征图F4”进行注意力机制具体运算如下：

A＝MaxPool(Conv(F₄")) (11)

B＝AvgPool(Conv(F₄")) (12)

C＝Conv(F₄") (13)

D＝Softmax(A^T×B) (14)

F₄X＝(C×D+F₄") (15)

其中Conv是1×1卷积，Maxpool是最大池化操作，AvgPool是平均池化操作， D是计算权重，T为矩阵的转置，符号×是矩阵的乘法；

在完成编码器模型(Encoder)操作后，建立解码器模型(Decoder)，关于解码器模型(Decoder)操作的具体过程如下：将浅层特征图F1和特征图F₄X作为解码器的输入，对增强的特征图F₄X进行上采样，得到和浅层特征图F1尺寸大小相等的特征图F₄Y；首先，通过双线性插值对浅层特征F1进行1×1卷积，将卷积后的特征图和深层特征F₄Y沿通道拼接，形成聚合特征信息；然后，使用3×3卷积以获得更清晰的特征，将该特征其作为权重信息，通过元素乘法应用于浅层特征，用符号X表示，通过元素集求和将深度特征和浅层特征融合，融合操作用符号+表示；最后，对融合后的信息进行上采样，通过双线性插值得到图像的语义预测图Z；

步骤2所述的模型训练具体过程如下：

输入图像I，通过骨干网络ResNet-101对图像进行特征提取，首先采用池化交叉位置注意力模型(PCAM)进一步对图像特征进行增强,然后采用池化位置注意力模型(PPAM)增强像素间空间位置的关联性，最后采用解码器融合浅层特征和深层特征进行语义分割预测，得到预测结果Z,采用交叉熵损失函数Loss计算预测值与真实值GT之间的损失，其中损失函数如下：

其中B是指输入神经网络的图像的数量，C是类别数；利用随机梯度下降法(SGD)优化器优化损失函数Loss使损失值达到最小；

步骤3所述模型推理具体过程如下：

在步骤2中完成模型训练以后，固定模型参数，输入测试集的图像，推理测试图像的语义类别预测值，计算测试预测值与真实值的交并比，直到所有测试集图像测试完成，给出最终的预测准确度。

本发明有益效果如下：

本发明提出的方法在针对图像语义分割的问题上相较于其他算法提高了精度。具体表现为：1)相对于以住一些网络模型本发明提出的模型比较容易实现；2)本发明的网络参数较少，轻量化了网络，有效地降低了模型训练的时间。本发明基于全卷积端到端的网络通过引入注意力机制增强图像特征以及引入编解码结构来融合深层特征和浅层特征，在图像语义分割任务中获得了比以往模型高的准确度。

附图说明

图1为本发明的算法流程图。

图2为本发明的模型总结构图。

图3为本发明的池化交叉注意力模型(PCAM)。

图4为本发明的池化位置注意力机制模型(PPAM)。

图5为本发明的模型实验可视化结果。

具体实施方式

为了使本发明的目的及技术方案更加清楚明白，以下结合附图和实施例，对本发明的应用原理作详细的描述。但本发明的保护范围并不限于以下具体实施例。

除非另有定义，下文中所使用的所有专业术语与本领域技术人员通常理解含义相同。本文中所使用的专业术语只是为了描述具体实施例的目的，并不是旨在限制本发明的保护范围。

实施例1：

如图1图2图3图4所示，本发明提供一种基于位置注意力机制的编解码结构语义分割模型具体步骤如下：

步骤1所述的模型建立具体如下：

此发明采用PASCAL VOC 2012数据集，其中此数据集包含21个类别，作为训练和测试数据；

首先，使用ResNet-101作为骨干网络提取图像特征，具体过程为：把输入的图像统一缩放到513×513并输入到骨干网络中，经过骨干网络进行图像特征的提取，将输出的最后一层特征图作为输入进入编码器模型(Encoder)进行特征的进一步增强和提取；然后，执行编码器模型(Encoder)操作，具体如下：

①将特征图F4输入到池化交叉注意力模块(PCAM)，对深度特征进行加权增强，池化交叉注意力模块(PCAM)操作具体如下：

a＝Conv(F4)；b＝Conv(F4)；c＝Conv(F4)；d＝Conv(GAP(F4)) (1)

F4’＝Conv[Fusion(p,c)+d]+F4 (3)

a1＝Conv(F4’)；b1＝Conv(F4’)；c1＝Conv(F4’)； (4)

F4”＝Conv[Fusion(p1,c1)]+F4’+GAP(F4’) (6)

其中Conv是1×1卷积，GAP是全局平均池化操作，a,b,c,d，a1,b1,p和 p1是计算权重，T为矩阵的转置，函数softmax(·)的运算公式为：

符号的运算表示为：

函数Fusion(·)的运算公式为：

②对特征图F4”进行池化位置注意力机制计算，提取像素点之间的关联性，其中池化位置注意力机制计算具体公式如下：

A＝MaxPool(Conv(F₄")) (10)

B＝AvgPool(Conv(F₄")) (11)

C＝Conv(F₄") (12)

D＝Softmax(A^T×B) (13)

F₄X＝(C×D+F₄") (14)

其中Conv是1×1卷积，Maxpool是最大池化操作，AvgPool是平均池化操作， D是计算权重，T为矩阵的转置，符号×是矩阵的乘法运算；

最后，执行解码器模块(Decoder)操作，融合深层特征和浅层特征，解码器模块(Decoder)操作具体如下：

①将浅层特征图F1和增强的特征图F₄X作为解码器的第一个输入，对增强的特征图 F₄X进行上采样，得到和浅层特征图F1尺寸大小相等的特征图F₄Y，通过双线性插值对浅层特征F1进行1×1卷积，将卷积后的特征图和深层特征F₄Y沿通道拼接，形成聚合特征信息；

②使用3×3卷积以获得更清晰的特征，将该特征其作为权重信息，通过元素乘法应用于浅层特征，用符号X表示，通过元素集求和将深度特征和浅层特征融合，融合操作用符号+表示；最后，对融合后的信息进行上采样，通过双线性插值得到图像的语义预测图Z；

至此完成模型建立的操作。

步骤2所述模型训练，具体如下：

对步骤1建立的模型进行训练，将图像I_C通过骨干网ResNet-101、编码器模型模块(Encoder)、解码器模型模块(Decoder)得到特征图E，再进行图像语义类别预测，得到预测值Z；将其与数据集的真实标签图做比较，通过采用交叉熵损失函数计算得到预测值与真实值之间的损失值，然后根据该损失值调整整个网络的参数值，直到网络收敛；

至此完成模型训练的操作。

步骤3所述模型推理，具体如下：

在步骤2训练完成模型以后，固定模型参数，输入测试集的图像得到测试预测值，推理测试图像的语义类别预测值，计算测试预测值与真实值的平均交并比，评估预测准确度。

至此完成模型推理的操作。

下表为本发明所述的方法在Pascal VOC 2012中的准确度。FCN为基于深度学习的图像语义分割开篇之作，Our为本发明所提供的深度模型，aero，bike表示数据集中待语义分割的类别物，采用平均交并比(MIoU)评估图像语义分割的平均准确度。

Claims

1.一种基于位置注意力机制的编解码结构语义分割模型，其特征在于包括以下步骤：

步骤1：模型建立；

具体设计一种基于位置注意力机制的编解码结构语义分割模型，在编码器中通过注意力机制学习像素点图像特征之间的关联性并增强深层语义信息，在解码器中通过将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息，以扩大同类别物体的类间差异性，最终提高分割准确性；

最后，建立解码器模型(Decoder)，对F₄X进行上采样得到特征图F₄Y，通过对浅层特征F1和特征图F₄Y进行融合，得到上下文关联性增强的特征图，并对融合后的特征图进行上采样操作，得到和输入图片尺寸大小相同的特征图；

步骤2：模型训练；

首先构建训练集，及验证集，给定图像I，对应的真实标签图GT,组成数据集，按照1:1比例划分训练集和测试集，为模型训练提供数据基础；

步骤3：模型推理；

将测试集的图像输入到训练好的编解码结构语义分割模型中，推理测试图像的语义类别预测值，计算测试预测值与真实值的平均交并比(MIoU)，评估预测准确度。平均交并比的运算公式如下所示：

2.根据权利要求1所述的一种基于位置注意力机制的编解码结构语义分割模型，其特征在于步骤1的模型建立，具体如下：

2-1.建立编码器模型(Encoder)，使用ResNet-101作为骨干网络，对图像I_C进行特征提取，得到图像浅层特征F1和深层特征F4，其中C₁是图像特征的通道数，H和W是图像特征的高度和宽度；

2-2.通过池化交叉注意力模块(PCAM)进一步对图像深层特征进行增强关于PCAM的具体运算如下：

a＝Conv(F4)；b＝Conv(F4)；c＝Conv(F4)；d＝Conv(GAP(F4)) ⑵

F4’＝Conv[Fusion(p,c)+d]+F4 ⑷

a1＝Conv(F4’)；b1＝Conv(F4’)；c1＝Conv(F4’)； ⑸

F4”＝Conv[Fusion(p1,c1)]+F4’+GAP(F4’) ⑺

其中Conv是1×1卷积，GAP是全局平均池化操作，a,b,c,d，a1,b1,p和p1是计算权重，T为矩阵的转置，函数softmax(·)的运算公式为：

其中是指数运算；

符号的运算公式为：

函数Fusion(·)的运算公式为：

为了得到空间关联性强的特征图F₄X，采用池化位置注意力模块(PPAM)来进行计算增强后的深层特征，其中H和W是图像特征的高度和宽度，对于特征图F4”进行注意力机制具体运算如下：

A＝MaxPool(Conv(F₄")) ⑾

B＝AvgPool(Conv(F₄")) ⑿

C＝Conv(F₄") ⒀

D＝Softmax(A^T×B) ⒁

F₄X＝(C×D+F₄") ⒂

其中Conv是1×1卷积，Maxpool是最大池化操作，AvgPool是平均池化操作，A,B, D是计算权重，T为矩阵的转置，符号×是矩阵的乘法；

2-3.建立解码器模型(Decoder)，关于解码器模型(Decoder)操作的具体过程如下:将浅层特征图F1和特征图F₄X作为解码器的输入；首先，对增强的特征图F₄X进行上采样，得到和浅层特征图F1尺寸大小相等的特征图F₄Y，通过双线性插值对浅层特征F1进行1×1卷积，将卷积后的特征图和深层特征F₄Y沿通道拼接，形成聚合特征信息；然后，使用3×3卷积以获得更清晰的特征，将该特征其作为权重信息，通过元素乘法应用于浅层特征，用符号X表示，通过元素集求和将深度特征和浅层特征融合，融合操作用符号+表示；最后，对融合后的信息进行上采样，通过双线性插值得到图像的语义预测图Z。

3.根据权利要求1所述的一种基于位置注意力机制的编解码结构语义分割模型，其特征在于步骤2所述的模型训练，具体如下：

其中B是指输入神经网络的图像的个数，C是类别数；利用随机梯度下降法(SGD)优化器优化函数Loss使损失值达到最小。

4.根据权利要求1所述的一种基于位置注意力机制的编解码结构语义分割模型，其特征在于步骤3所述模型推理，具体如下：

在步骤2训练完成模型以后，固定模型参数，输入测试集的图像得到测试预测值，推理测试图像的语义类别预测值，计算测试预测值与真实值的平均交并比(MIoU)，直到所有测试集测试完成，评估预测准确度。