CN116310305A

CN116310305A - 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型

Info

Publication number: CN116310305A
Application number: CN202211515772.XA
Authority: CN
Inventors: 许海霞; 刘彦帮; 周维; 王玮; 朱江; 张东波; 彭伟; 丁凡迅; 韩丰; 胡开宇; 许宇婷
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-06-23

Abstract

本发明公开了一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型。本发明包括以下步骤：1、模型建立，设计一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型，通过在编码器中利用注意力机制学习像素点图像特征之间的关联性并增强深层语义信息，在解码器中将浅层和深层语义信息进行融合来捕获图像的上下文语义信息，以扩大不同类别物体的类间差异性。2、模型训练，首先对数据集预处理，然后对建立好的模型进行模型训练。3、模型推理，将测试集的图像输入到训练好的模型中，推理测试图像的语义类别预测值，评估测试模型推理的准确度。本发明是一种针对图像语义分割的神经网络模型，获得了在语义分割领域较好的分割效果。

Description

一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型

技术领域

本发明属于计算机视觉技术领域，特别涉及一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型。

背景技术

图像语义分割是计算机视觉的一个基础问题，广泛应用于自动驾驶、智能机器人、人机交互等等领域的场景理解。图像语义分割技术是将视觉图像中具有相似语义信息的像素点给予一致的标签，解释不同的语义类别。例如，在自动驾驶场景中我们需要区分图像中属于汽车、行人等的所有像素，并把这些像素标记为一个个语义类别。

近年来伴随着深度学习的不断发展，基于深度学习的图像语义分割模型越来越多的应用在实际的场景中。采用卷积神经网络(Convolutional Neural Networks,CNN)和全卷积神经网络(Fully Convolutional Neural Networks,FCN)进行端到端(end-to-end)的问题建模成为计算机视觉方向上的主流研究方法。在图像的语义分割中，设计相应的深度网络模型实现端到端的建模，分割的准确率和速度均得到了明显的提升，相比传统的语义分割方法分割效果得到了大大的提升。

目前基于深度学习的图像语义分割的主要方法：(1)通过全卷积神经网络进行图像语义分割的处理，虽然全卷积神经网络可以实现任意尺寸大小图像的输入，并且得到与输入对应尺寸大小的输出，但是不能够获得足够丰富的图像上下文信息，得到的图像特征辨别力不强；(2)基于全卷积神经网络添加后处理模块，近两年用的比较多的是添加注意力机制模块，可以获得丰富的上下文信息。但这些基于注意力的方法主要关注空间维度，对特征图的每个通道赋予相同的权重，忽略了不同通道特征之间的差异。

普遍来说，每一个特征通道都可以被视为一个类别特定的响应，并与不同的语义响应相关联。因此，我们需要为每个与特定语义特征相关的通道计算一个权重，从而聚合通道维度和空间维度的信息，获得全局的远程上下文信息，增强语义分割效果。

参考文献

1.Long J,Shelhamer E,Darrell T.Fully convolutional networksforsemanticsegmentation[C]//Proceedings of the IEEE conference on computervision and patternrecognition.2015:3431-3440.

2.Chen L C,Papandreou G,Kokkinos I,et al.Deeplab:Semantic imagesegmentation withdeep convolutional nets,atrous convolution,and fullyconnected crfs[J].IEEE transactions onpattern analysis and machineintelligence,2017,40(4):834-848.

3.Wang X,Girshick R,Gupta A,et al.Non-local neural networks[C]//Proceedings of theIEEE conference on computer vision and patternrecognition.2018:7794-7803.

发明内容

本发明提供一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型，该基于张量和二阶协方差注意力机制模型语义分割效果好，易于实现。

发明的技术解决方案如下：

一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型，其特征在于，包括数据预处理、模型的建立、模型的训练和验证；

数据预处理主要是给定图像I，对应的真实标签图GT数据,将数据划分为训练集、评估集、测试集，为模型训练、评估和测试提供数据基础；

模型的建立是通过分析图像语义增强过程设计具体子模块，构建端到端的语义分割深度网络模型；

模型的训练、评估和验证是确定所建立的模型的参数，并且评估、检验所设计的模型的分割效果；

基于张量和二阶协方差注意力机制的编解码结构语义分割模型按照以下步骤展开：

步骤1：模型建立；

步骤2：模型训练；

步骤3：模型推理。

步骤1中，具体设计一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型，在编码器中通过注意力机制学习像素点图像特征之间的关联性并增强深层语义信息，在解码器中通过将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息，以扩大不同类别物体的类间差异性，最终提高分割准确性；

首先，建立编码器模型Encoder，对图像进行特征提取，通过骨干网络ResNet-101提取图像的浅层特征F₁到深层特征F₄；

然后，建立二阶协方差注意力模型SCAM，在通道维度上捕获全局上下文信息对图像特征F₄进行增强，得到具有增强语义信息的图像特征X₁；

建立张量注意力模型TAM，对图像特征X₁的上下文信息从空间维度和通道维度进行聚合，得到增强的图像特征图X₂；

最后，建立解码器模型Decoder，对X₂进行上采样得到特征图X₃，通过对浅层特征F₁和特征图X₃进行融合，得到上下文关联性增强的特征图，并对融合后的特征图进行上采样，通过双线性插值得到图像的语义预测图Y；

步骤2中，首先对提供的训练集数据进行预处理操作，对图像I进行尺度随机缩放，水平旋转等的几何变换、颜色变换进行数据增强后，再将图像裁剪成固定尺寸大小的图像I_C；

然后对步骤1建立的模型进行训练，将图像I_C输入骨干网络ResNet-101、编码器中的二阶协方差注意力模型SCAM、张量注意力模型TAM得到特征图X₂，最后通过解码器模型融合浅层特征和深层特征进行语义分割预测，得到预测结果Y,采用交叉熵损失函数计算预测值与真实值GT之间的损失，度量预测值与真实值的误差；通过反向传播算法对步骤1定义的网络模型参数进行迭代优化训练，迭代过程中，执行训练集数据后，执行评估集数据进行模型分割性能评估，训练到整个模型收敛为止；

步骤3中，将测试集的图像输入到训练好的编解码结构语义分割模型中，推理测试图像的语义类别预测值，计算预测值与真实值的平均交并比(MIoU)，评估测试模型推理预测的准确度。

步骤1所述的编解码结构语义分割模型建立具体过程如下：

首先，建立编码器模型Encoder，对图像进行特征提取，通过骨干网络ResNet-101提取图像的浅层特征F₁到深层特征F₄，其中

C₁、C₂是图像特征的通道数，H₁、H₂和W₁、W₂是图像特征的高度和宽度；

然后，建立二阶协方差注意力模型SCAM，利用二阶统计量和局部跨通道交互策略，从通道维度增强图像特征辨别力，具体操作为：

首先计算两个特征图之间的二阶统计量协方差：

式中Cov(.)表示协方差运算；

再利用分组卷积设计局部跨通道交互策略，计算出不同通道语义特征的重要性，最后通过乘法逐通道加权到输入的图像特征F₄，完成在通道维度上对语义特征的重标定：

式中C1D_k(.)表示卷积核长度为k的一维卷积，Group_c×1(.)表示卷积核大小为c×1的分组卷积，

表示沿着通道维度的缩放乘法，M为二阶协方差矩阵，/>

在完成二阶协方差注意力模型SCAM操作后，建立张量注意力模块TAM，通过引入偏置可学习参数张量A，计算特征图不同通道不同空间位置的注意力权重系数，将经典的非局部注意力S矩阵扩展为注意力张量Z₁，更好地辨别不同位置不同通道的语义特征，具体运算如下：

Q＝Conv(X₁)；K＝Conv(X₁)；V＝Conv(X₁) (3)

S＝Softmax(Q^T×K) (4)

A＝Softmax(Conv(X₁)) (5)

X₂＝V×Z₁ ^T (8)

式中

表示矩阵S的每一行向量乘以可学习参数A中的一个元素，/>

Conv(.)表示卷积核大小为1×1的卷积，/>

表示使用广播机制的矩阵加法，T为矩阵的转置；

在完成编码器模型Encoder操作后，建立解码器模型Decoder，关于解码器模型Decoder操作的具体过程如下：

将浅层特征图F₁和特征图X₂作为解码器的输入，对增强的特征图X₂进行上采样，得到和浅层特征图F₁尺寸大小相等的特征图X₃；将浅层特征图F₁和特征图X₃沿通道拼接，形成聚合特征信息；然后，对融合后的信息进行上采样，通过双线性插值得到图像的语义预测图Y；

步骤2所述的模型训练具体过程如下：

输入图像I，通过骨干网络对图像进行特征提取，首先使用二阶协方差注意力模型SCAM在通道维度上捕获全局上下文信息对图像特征F₄进行增强，建立张量注意力模型TAM，对图像特征X₁的上下文信息从空间维度和通道维度进行聚合，得到增强的图像特征图X₂，最后采用解码器融合浅层特征和深层特征进行语义分割预测，得到预测结果Y,采用交叉熵损失函数计算预测值与真实值GT之间的损失，其中损失函数如下：

式中B是指输入模型的图像的数量，C是类别数；

步骤3所述模型推理具体过程如下：

在步骤2中完成模型训练以后，固定模型参数，输入测试集的图像，推理测试图像的语义类别预测值，计算测试预测值与真实值的交并比，直到所有测试集图像测试完成，给出最终的推理预测准确度。

本发明有益效果如下：

本发明提出的方法在针对图像语义分割的问题上相较于其他算法提高了精度。具体表现为：1)本发明基于全卷积端到端的网络通过引入改进的注意力机制模型，对图像特征的上下文信息从空间维度和通道维度进行聚合，增强图像特征的语义分辨别力；2)引入编解码结构来融合深层特征和浅层特征，在图像语义分割任务中获得了比以往模型高的准确度。

附图说明

图 1为本发明的模型总结构图。

图 2为本发明的二阶协方差注意力模型SCAM。

图 3为本发明的张量注意力模型TAM。

图 4为本发明的模型实验可视化结果。

具体实施方式

为了使本发明的目的及技术方案更加清楚明白，以下结合附图和实施例，对本发明的应用原理作详细的描述。但本发明的保护范围并不限于以下具体实施例。

除非另有定义，下文中所使用的所有专业术语与本领域技术人员通常理解含义相同。本文中所使用的专业术语只是为了描述具体实施例的目的，并不是旨在限制本发明的保护范围。

实施例1：

如图1图2图3所示，本发明提供一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型具体步骤如下：

步骤1所述的模型建立具体如下：

此发明采用PASCAL VOC 2012数据集，其中此数据集包含21个类别，作为训练和测试数据；

首先，使用ResNet-101作为骨干网络提取图像特征，具体过程为：把输入的图像统一缩放到513×513并输入到骨干网络中，经过骨干网络进行图像特征的提取，将输出的最后一层特征图

作为输入，输入编码器模型Encoder进行特征的进一步增强和提取；然后，执行编码器模型Encoder操作，具体如下：

①将特征图F₄输入到二阶协方差注意力模型SCAM，利用二阶统计量和局部跨通道交互策略，从通道维度增强图像特征辨别力，具体操作为：

首先计算两个特征图之间的二阶统计量协方差：

式中Cov(.)表示协方差运算；

X₁＝sigmoid(C1D_k(Group_c×1(M)))⊙F₄ (2)

表示沿着通道维度的缩放乘法，M为二阶协方差矩阵，/>

②使用张量注意力模块TAM对图像特征X₁的上下文信息从空间维度和通道维度进行聚合，得到增强的图像特征图X₂，具体操作为：

Q＝Conv(X₁)；K＝Conv(X₁)；V＝Conv(X₁) (3)

S＝Softmax(Q^T×K) (4)

A＝Softmax(Conv(X₁)) (5)

X₂＝V×Z₁ ^T (8)

式中

表示矩阵S的每一行向量乘以可学习参数A中的一个元素，/>

Conv(.)表示卷积核大小为1×1的卷积，/>

表示使用广播机制的矩阵加法，T为矩阵的转置；

最后，执行解码器模块Decoder操作，融合深层特征和浅层特征，解码器模块Decoder操作具体如下：

至此完成模型建立的操作。

步骤2所述模型训练，具体如下：

对步骤1建立的模型进行训练，将图像I通过骨干网ResNet-101、编码器模型模块Encoder、解码器模型模块Decoder得到语义预测图Y；将其与训练集数据的真实标签图做比较，通过采用交叉熵损失函数计算得到预测值与真实值之间的损失值，然后根据该损失值调整整个网络的参数值，迭代训练，迭代过程中，执行训练集数据后，执行评估集数据进行模型分割性能评估，直到网络收敛；

至此完成模型训练的操作。

步骤3所述模型推理，具体如下：

在步骤2训练完成模型以后，固定模型参数，输入测试集的图像得到测试预测值，推理测试图像的语义类别预测值，计算测试预测值与真实值的平均交并比，评估预测准确度。

至此完成模型推理的操作。

下表为本发明所述的方法在Pascal VOC 2012中的准确度。FCN为基于深度学习的图像语义分割开篇之作，Our为本发明所提供的深度模型，aero，bike表示数据集中待语义分割的类别物，采用平均交并比(MIoU)评估图像语义分割的平均准确度。

Claims

1.一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型，其特征在于包括以下步骤：

步骤1：模型建立；

具体设计一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型，在编码器中通过注意力机制学习像素点图像特征之间的关联性并增强深层特征的语义信息，在解码器中通过将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息，以扩大不同类别物体的类间差异性，最终提高分割准确性；

建立张量注意力模型TAM，对图像特征X₁的上下文信息从空间维度和通道维度进行聚合，得到语义辨别力更强的图像特征图X₂；

其中，建立的二阶协方差注意力模型SCAM，其特征在于：

利用二阶统计量和局部跨通道交互策略，从通道维度增强图像特征辨别力，具体操作为：

首先计算两个特征图之间的二阶统计量协方差：

式中Cov(.)表示协方差运算；

X₁＝sigmoid(C1D_k(Group_c×1(M)))⊙F₄ (2)

式中C1D_k(.)表示卷积核长度为k的一维卷积，Group_c×1(.)表示卷积核大小为c×1的分组卷积，⊙表示沿着通道维度的缩放乘法，M为二阶协方差矩阵，

建立的张量注意力模型TAM，其特征在于：

通过引入偏置可学习参数张量A，计算特征图不同通道不同空间位置的注意力权重系数，将经典的非局部注意力S矩阵扩展为注意力张量Z₁，更好地辨别不同位置不同通道的语义特征，具体运算如下：

Q＝Conv(X₁)；K＝Conv(X₁)；V＝Conv(X₁) (3)

S＝Softmax(Q^T×K) (4)

A＝Softmax(Conv(X₁)) (5)

Z＝A◎S (6)

X₂＝V×Z₁ ^T (8)

式中◎表示矩阵S的每一行向量乘以参数矩阵A中的一个元素，

Conv(.)表示卷积核大小为1×1的卷积，/>

表示使用广播机制的矩阵加法，T为矩阵的转置；

步骤2：模型训练；

对步骤1所建立的模型进行训练，训练到整个模型收敛为止；

步骤3：模型推理；

将测试集的图像输入到训练好的模型中，推理测试图像的语义类别预测值，评估预测准确度。

2.根据权利要求1所述的一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型，其特征在于步骤1所述的模型训练，具体如下：

输入图像I，通过骨干网络对图像进行特征提取，首先建立二阶协方差注意力模型SCAM在通道维度上捕获全局上下文信息对图像特征F₄进行增强，建立张量注意力模型TAM，对图像特征X₁的上下文信息从空间维度和通道维度进行聚合，得到语义辨别力更强的图像特征图X₂，最后采用解码器融合浅层特征和深层特征进行语义分割预测，得到预测结果Y,采用交叉熵损失函数计算预测值与真实值GT之间的损失，其中损失函数如下：

式中B是指输入模型的图像的数量，C是类别数。