CN115546485A

CN115546485A - 一种分层自注意力场景语义分割模型的构建方法

Info

Publication number: CN115546485A
Application number: CN202211265948.0A
Authority: CN
Inventors: 左峥嵘; 方林涛; 沈凡姝; 王岳环
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2022-12-30

Abstract

本发明属于图像处理技术领域，具体涉及一种分层自注意力场景语义分割模型的构建方法，包括：将输入图像经过分层全自注意力编码器不同层的特征提取，依次输出不同层对应的特征图；其中，基于输入图像的掩码真值标签，通过掩码标签细节聚合，得到细节真值标签，采用细节真值标签和当前次迭代中第二层所输出的特征图，通过计算损失，对下一次迭代中分层全自注意力编码器中第二层的特征提取过程进行约束，以引导分层全自注意力编码器底层学习空间细节信息；将当前次迭代中不同层对应的特征图，输入全多层感知器解码器进行解码，得到预测的分割掩码，优化分层全自注意力编码器和全多层感知器解码器参数。本发明对目标尺寸变化差异适应性良好。

Description

一种分层自注意力场景语义分割模型的构建方法

技术领域

本发明属于图像处理技术领域，更具体地，涉及一种分层自注意力场景语义分割模型的构建方法。

背景技术

对于可见光图像的场景语义分割，传统算法常用的是基于图论的方法来求解，还有如阈值分割、边缘分割、聚类分割、区域分割、Normalized Cut、Grab Cut等，但是传统方法对于非结构化的复杂场景的分割能力及工作效率较低，且仅获取图像的浅层特征，没有语义信息输出。而基于深度网络的较主流的场景语义分割方法有：(1)利用多尺度卷积网络来提取输入图像的密集特征，并基于拉普拉斯变换获得不同尺度的网络输入，基于超像素等传统后处理操作得到分割结果。该算法结合了传统方法以及深度学习方法，但是传统后处理操作分割结果并不稳定，具有一定的局限性；(2)基于典型的编码器-解码器结构，通过在池化层记录像素点空间信息实现解码阶段位置对应。但是该网络无法准确识别物体轮廓，对于边缘信息分割精度较低；(3)将自注意力编码器应用于图像分割领域，网络采用分层解码器结构生成包含不同尺度的特征，但对输入图像的空间细节信息的感知完全依赖于底层网络，且网络采用传统的单流网络结构作为编码器，使得网络深层的上下文信息的获取完全依赖于网络底层特征的输出。

而对于红外图像的场景语义分割，主流的方法有：(1)通过使用不同空洞率卷积实现对于红外图像的上下文信息的捕捉，并使用条件随机场对分割噪声进行平滑处理，空洞卷积的感受野大，能很好捕捉语义信息，但忽略了细节信息；(2)通过增加细节特征抽取模块来提取并融合RGB图像和红外图像的细节特征，并使用特征融合注意力模块将细节特征在上采样阶段与高层语义特征融合，实现图像的语义分割，该方法依赖成对的真彩图像以及红外图像，对于仅有红外图像数据的情况并不适用。

可以看出，以上这些网络模型的设计都缺乏空间细节信息的考虑，对于高机动性目标的分割，以及物体边缘轮廓较为模糊的红外图像分割任务，模型表现出一定的局限性，现有算法对于复杂干扰场景的语义感知任务还存在一定的不足。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种分层自注意力场景语义分割模型的构建方法，其目的在于解决现有的场景语义分割算法对尺寸变化差异适应性不好的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种分层自注意力场景语义分割模型的构建方法，包括：

将输入图像通过重叠块嵌入切分成小块，经过分层全自注意力编码器不同层的特征提取，依次输出不同层对应的特征图；其中，基于所述输入图像的掩码真值标签，通过掩码标签细节聚合，得到细节真值标签，采用所述细节真值标签和当前次迭代中第二层所输出的特征图，通过计算损失，对下一次迭代中所述分层全自注意力编码器中第二层的特征提取过程进行约束，以引导分层全自注意力编码器底层学习空间细节信息；

将当前次迭代中所述不同层对应的特征图，输入全多层感知器解码器进行解码，得到预测的分割掩码；基于所述预测的分割掩码和所述掩码真值标签，计算分割损失，优化所述分层全自注意力编码器和所述全多层感知器解码器参数，重复上述步骤，直至达到迭代终止条件，完成场景语义分割模型的构建。

进一步，所述每层自注意力编码器包括多头自注意力模块和Mix-FFN，其中，Mix-FFN是由一个前馈网络混合使用3×3卷积以及多层感知器MLP组合构成，其输出表示为：x_out＝MLP(GELU(Conv_3×3(FFN(x_in))))+x_in；

式中，x_in表示所述多头自注意力模块得到的多头自注意力特征，GELU表示高斯误差线性单元激活函数，Conv_3×3表示3×3卷积，MLP表示所述多层感知器MLP结构，FFN表示所述前馈网络，x_out表示所述Mix-FFN的输出，作为单个自注意力编码器的输出。

进一步，所述多头自注意力模块在计算多头自注意力特征时，将每个头节点矩阵的反映图像分辨率的行数以缩减比例R进行缩减，以降低计算复杂度，缩减方式如下：

其中，T是待缩减的矩阵，分别为K、V矩阵，第一个式子表示将T变形成大小为

的矩阵，linear(C_input,C_output)(·)表示将列数为C_input的输入张量转换成列数为C_output的输出张量的线性层，

为维度为

的新头节点矩阵。

进一步，所述全多层感知器解码器由全MLP层构成。

进一步，所述掩码标签细节聚合的实现方式为：

采用固定拉普拉斯算子以及不同步长值，对所述输入图像的掩码真值标签进行卷积计算，提取各步长下所述掩码真值标签的第一细节边缘特征；

分别对不同步长下的所述细节边缘特征进行向上采样操作，得到宽度和高度与所述输入图像相同的第二细节边缘特征；

对不同步长对应的所述第二细节边缘特征进行级联，通过1×1大小的卷积对级联后的第二细节边缘特征进行融合，得到融合后的细节边缘特征；

设置门限阈值实现二值分割，将所述融合后的细节边缘特征，转换为二值图像空间细节标签，作为所述细节真值标签。

进一步，所述上采样操作采用线性插值函数完成。

进一步，用于所述对下一次迭代中所述分层全自注意力编码器中第二层的特征提取过程进行约束的损失，通过交叉熵损失与Dice损失联合计算得到，表示为：L_detail(p_d,g_d)＝L_dice(p_d,g_d)+L_bce(p_d,g_d)；其中，L_detail(p_d,g_d)表示通过交叉熵损失与Dice损失联合计算得到的细节损失，p_d∈R^H×W表示所述分层全自注意力编码器中第二层所输出的特征，g_d∈R^H ^×W表示所述细节真值标签；L_bce为二分类交叉熵损失，L_dice为Dice损失，即：

其中，i表示像素编号，τ₀表示拉普拉斯平滑项。

本发明还提供一种场景语义分割方法，采用如上所述的一种分层自注意力场景语义分割模型的构建方法所构建的分层自注意力场景语义分割模型进行场景语义分割。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种分层自注意力场景语义分割模型的构建方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明整体采用双分支结构，其中一个分支为编码器-解码器结构，另一分支为细节捕获模块，具体基于输入图像的掩码真值标签，通过掩码标签细节聚合，得到细节真值标签，采用细节真值标签和当前次迭代中第二层所输出的特征图，通过计算损失，对下一次迭代中分层全自注意力编码器中第二层的特征提取过程进行约束，以引导分层全自注意力编码器底层学习空间细节信息，采用分层全自注意力编码器进行特征提取，全多层感知器解码器进行解码输出预测掩码，本发明提出的模型构建方法在细节捕获模块分支不需要重复提取特征，且提高了底层空间细节信息的捕捉能力，能够对于场景进行更高效、更准确的语义分割，在背景存在复杂干扰下(特别是高机动性目标往往存在尺寸变化差异较大)的场景，对目标实现更稳定和精确的语义感知。

(2)细节自动捕获模块通过衡量基于拉普拉斯算子获得的图像细节真值标签与分层自注意力编码器底层特征表示之间的损失差异，在不增加模型训练参数量及训练耗时的情况下，监督模型提高对空间细节信息的感知，增强复杂干扰情况下对于场景语义信息的感知能力。

附图说明

图1为本发明实施例提供的基于细节自动捕获的分层自注意力场景语义分割模型构建示意图；

图2为本发明实施例提供的另一种基于细节自动捕获的分层自注意力场景语义分割模型构建示意图；

图3为本发明实施例提供的场景语义感知实验数据集展示图；

图4为本发明实施例提供的面目标语义分割结果对比图；

图5为本发明实施例提供的碎云场景下点目标的语义分割结果对比图；

图6为本发明实施例提供的背景干扰场景点目标的语义分割结果对比图；

图7为本发明实施例提供的地平线场景语义分割的结果对比图；

图8为本发明实施例模型与其它常用语义分割模型在mIOU及F-score评价指标下的性能结果曲线对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

一种基于细节自动捕获的分层自注意力场景语义分割方法，包括：

将输入图像通过重叠块嵌入切分成小块，经过分层全自注意力编码器不同层的特征提取，依次输出不同层对应的特征图；其中，基于输入图像的掩码真值标签，通过掩码标签细节聚合，得到细节真值标签，采用细节真值标签和当前次迭代中第二层所输出的特征图，通过计算损失，对下一次迭代中分层全自注意力编码器中第二层的特征提取过程进行约束，以引导分层全自注意力编码器底层学习空间细节信息；

将当前次迭代中不同层对应的特征图，输入全多层感知器解码器进行解码，得到预测的分割掩码；基于预测的分割掩码和掩码真值标签，计算分割损失，优化分层全自注意力编码器和全多层感知器解码器参数，重复上述步骤，直至达到迭代终止条件，完成场景语义分割模型的构建。

经分析现有技术，针对高机动性目标往往存在尺寸变化差异较大的情况，模型的高分辨率全局特征以及低分辨率局部特征对于最后的结果都很重要，因此需要充分利用网络各层的特征表示。另外，针对自然云层干扰，需要充分利用背景碎云层与目标的细节信息的差异，既需要准确的语义信息的对应，还需要精确的轮廓分割信息。因此，对于复杂干扰场景的感知任务中，除了建立能够充分获取场景高层语义特征的模型，还需要关注算法对于底层空间细节信息的捕捉能力。

针对编码器-解码器结构对于空间细节信息利用不足的问题。本实施例设计了基于细节自动捕获的分层自注意力场景语义感知模型，如图1所示，其整体思路在于：

将输入图像通过重叠块嵌入切分成小块，经过分层全自注意力编码器不同层的特征提取，依次输出不同层对应的特征图。每一层的自注意力编码器包括多头自注意力模块和Mix-FFN，Mix-FFN是由每个前馈网络混合使用3×3卷积以及多层感知器MLP组合成的，该结构能够提取更有利于后续分割的特征，并能够将特征信息进行融合。编码器获得不同尺度的特征图后，输入由全MLP层构成的全多层感知器解码器进行解码，得到预测的分割掩码。此外，本发明通过掩码标签细节聚合算法从图像语义分割掩码真值标签得到细节真值标签，得到的图像细节真值标签将对上述分层自注意力编码器的第二级特征输出进行约束，引导编码器底层学习空间细节信息，获得空间细节信息加强的图像特征，用于进行语义分割结果预测。从而对于场景进行更精细、更准确的语义分割，在背景存在复杂干扰的情况下，对目标实现更稳定的语义感知。

针对以下问题：(1)基于空洞卷积的主干网络，存在部分特征丢失，对模型性能产生影响；(2)基于语义-细节双分支的主干网络，单幅图像进行两次深度网络特征提取的操作过程过于冗余；(3)基于编码器-解码器结构的主干网络，常伴随着较多的横向连接，增加了内存访问成本，等，本实施例整体采用双分支结构，其中一个分支为编码器-解码器结构，另一分支为细节捕获模块，具体基于输入图像的掩码真值标签，通过掩码标签细节聚合，得到细节真值标签，采用细节真值标签和当前次迭代中第二层所输出的特征图，通过计算损失，对下一次迭代中分层全自注意力编码器中第二层的特征提取过程进行约束，以引导分层全自注意力编码器底层学习空间细节信息，采用分层全自注意力编码器进行特征提取，全多层感知器解码器进行解码输出预测掩码，本实施例提出的模型构建方法在细节捕获模块分支不需要重复提取特征，能够对于场景进行更高效、更准确的语义分割，在背景存在复杂干扰下(特别是高机动性目标往往存在尺寸变化差异较大)的场景，对目标实现更稳定和精确的语义感知。

本实施例提出的场景语义分割模型构建方法采用分层自注意力编码器、细节自动捕获模块以及全多层感知器解码器，既能够保留细节分支对于场景语义感知的积极促进作用，又实现编码器从上至下的多级特征感知。

其中，为了对输入图像实现多级特征提取，即同时获取具有高分辨率的全局特征以及低分辨率的局部特征，本实施例采用的是分层自注意力编码器，其能提炼出图像不同局部区域的关系，有利于空间细节信息的提取。输入(H×W×3)的图像，经过重叠块嵌入，把输入图像切割成大小相同的子块

子块之间存在重叠，通过分层全自注意力编码器不同层中多头注意力和Mix-FFN模块进行特征提取，并使用重叠块合并操作将分块的特征图进行合并，依次输出不同层对应的特征图F_i，其中，本实施例选用四层自注意力编码器，则i∈{1,2,3,4}。

可作为优选地，为了能够更好地学习到全局上不同区域的特征之间的依赖关系，本实施例在分层自注意力编码器中采用多头自注意力模块，如图2所示。

输入图像通过重叠块嵌入，得到大小相同的子块

其中B是图像被分成的块数，子块中间存在重叠，S_j的维度为H_j×W_j×C_in,H_j和W_j代表每个子块的高和宽，C_in表示通道数。

在计算头节点矩阵(Q、K、V矩阵)之前，需要将子块的维度压缩成N×C_in，其中N＝H_j×W_j。然后通过线性变换矩阵W_Q、W_K、W_V，得到Q、K、V矩阵，其中，需要说明的是，线性变换矩阵W_Q、W_K、W_V的参数是待学习的。Q、K、V矩阵的计算过程为：

Q＝S_j×W_Q；

K＝S_j×W_K；

V＝S_j×W_V；

线性变换矩阵W_Q,W_K,W_V的维度为C_in×C_in，每一个头节点矩阵Q、K、V有相同的维度N×C_in，其中N＝H_j×W_j，C_in取值为3，用d_head表示头节点矩阵Q、K的列数，取值为C_in，则多头自注意力可以表示为：

上述多头自注意力过程的计算复杂度为二次方复杂度O(N²)，图像分辨率较大时计算复杂度显著上升。因此，使用序列缩减操作，在计算自注意力Attention之前，将K、V矩阵的反映图像分辨率的行数N以缩减比例R进行缩减：

其中，T是待缩减的矩阵，分别为K、V矩阵,第一个式子表示将T变形成大小为

的矩阵，linear(C_input,C_output)(·)表示将列数为C_input的输入张量转换成列数为C_output的输出张量的线性层。所以可以得到维度为

的新矩阵

计算复杂度由O(N²)变为

每层自注意力编码器包括多头自注意力模块和Mix-FFN，其中，Mix-FFN是由一个前馈网络混合使用3×3卷积以及多层感知器MLP组合构成，其输出表示为：

式中，x_in表示多头自注意力模块得到的多头自注意力特征，GELU表示高斯误差线性单元激活函数，Conv_3×3表示3×3卷积，MLP表示多层感知器MLP结构，FFN表示所述前馈网络，x_out表示Mix-FFN的输出，作为单个自注意力编码器的输出。

优选地，全多层感知器解码器由全MLP层构成的结构，如图2所示，将由分层自注意力编码器得到的多级特征

输入MLP层(L是自注意力编码器的层数，本实施例中为4)，得到大小为

的特征输出

分别为每一层输出特征图的高度和宽度，C为每一层自注意力编码器得到的特征经过MLP层处理后得到的输出特征图的通道数，用C_i表示输入MLP层的第i级特征F_i的通道数，则MLP层的计算过程为：

将处理后通道数相同的特征

进行上采样，得到维度大小为

的相同尺寸特征输出

H、W是输入原图像的高和宽，然后对四级特征进行级联，将级联后的特征表示为F，易知级联后特征维度为

即：

使用MLP层对级联后的特征F进行深度维度上的压缩融合，得到压缩融合后的特征

其对应维度为

使用MLP层将融合后的特征

转换为预测分割掩码

预测的分割掩码维度为

N_cls表示类别数量，即：

本实施例采用轻量级的全多层感知器解码器结构，由全MLP层构成的结构有效避免了手工设计的麻烦以及巨大的计算资源需求，通过上述分层自注意力编码器的设计，模型具有更大接收域，因此即使使用结构简单的解码器也能具有较好的结果。

优选的，上述掩码标签细节聚合的实现方式为：

采用固定拉普拉斯算子以及不同步长值，对输入图像的掩码真值标签进行卷积计算，提取各步长下所述掩码真值标签的第一细节边缘特征；

对不同步长对应的第二细节边缘特征进行级联，通过1×1大小的卷积对级联后的第二细节边缘特征进行融合，得到融合后的细节边缘特征；

设置门限阈值实现二值分割，将融合后的细节边缘特征，转换为二值图像空间细节标签，作为细节真值标签。

具体的，为了实现对于细节信息的自动捕获，引导分层自注意力编码器中的部分层对于空间细节的特征提取，本发明提出了细节自动捕获模块，包括：

通过掩码标签细节聚合算法从图像语义分割掩码真值标签得到细节真值标签，对上述分层自注意力编码器的第二级特征输出进行约束。

传统对于图像细节信息的计算可以等效成二分类分割任务。掩码标签细节聚合算法，对标注得到的掩码真值标签M，使用固定拉普拉斯算子以及不同步长值进行卷积计算，提取图像的细节边缘特征，即：

M′₁＝conv(L_kernel,s₁)(M)；

M′₂＝conv(L_kernel,s₂)(M)；

M′₃＝conv(L_kernel,s₃)(M)；

其中，conv(·)表示卷积计算，s₁、s₂、s₃表示步长，值分别为1、2、4，L_kernel表示拉普拉斯算子，

然后分别对得到的不同步长下的细节边缘特征

进行向上采样操作，得到宽度和高度与输入原图像相同的特征输出

即：

M″₁＝upsample(H×W)(M′₁)；

M″₂＝upsample(H×W)(M′₂)；

M″₃＝upsample(H×W)(M′₃)；

其中，H、W分别为输入原图像的高度和宽度。upsample(·)上采样操作可采用线性插值函数完成；对得到的不同步长对应的细节边缘特征进行级联，即：

使用1×1大小的卷积对级联后的细节边缘特征

进行融合，得到融合后的细节边缘特征

步长设置为1，用kernel_1*1表示1×1大小的卷积核，即：

最后设置门限阈值实现二值分割，将融合后的细节边缘特征图转换为二值图像空间细节标签，即：

其中，δ表示二值化函数binary(·)的门限阈值。

本实施例对基于语义-细节双分支结构的主干网络中细节信息单独提取的思想加以利用，引入细节自动捕获模块，弥补编码器-解码器结构对于空间细节信息利用不足的问题，既保留细节分支对于场景语义感知的积极促进作用，又实现编码器从上至下的多级特征感知。细节自动捕获模块通过衡量基于拉普拉斯算子获得的图像细节真值标签与分层自注意力编码器底层特征表示之间的损失差异，在不增加模型训练参数量及训练耗时的情况下，监督模型提高对空间细节信息的感知，增强复杂干扰情况下对于场景语义信息的感知能力。

优选地，用于对下一次迭代中分层全自注意力编码器中第二层的特征提取过程进行约束的损失，为细节损失。

由于细节真值标签中属于细节信息的像素点数量远小于非细节信息的像素点个数，针对这种类别极不平衡的问题若仅使用加权交叉熵来解决则改善并不明显。因此本发明使用交叉熵损失与Dice损失联合计算细节损失，共同优化对于细节信息的学习。Dice损失对于前景与背景之间像素数量比例差距并不敏感，通过比较真值标签与预测结果之间的重叠区域来衡量，因此可以改善类别不平衡问题。对于尺寸大小为(H×W)的预测细节结果，细节损失的衡量可表示如下：

L_detail(p_d,g_d)＝L_dice(p_d,g_d)+L_bce(p_d,g_d)；

其中，p_d∈R^H×W表示预测的细节图，g_d∈R^H×W表示细节标签真值。L_bce为二分类交叉熵损失，L_dice为Dice损失，即：

其中，i表示像素编号，τ₀表示拉普拉斯平滑项。使用联合损失函数，在训练的过程中通过梯度下降法优化参数，使得损失减小，从而让第二级特征输出逼近细节真值标签，引导编码器底层学习空间细节信息。

为了说明本发明方法可靠性，现给出如下示例。

本实例选取实拍红外空中目标视频数据集，如图3所示。数据集图像分辨率为290×200，包含多段飞行器起飞、空中飞行以及降落行为的视频，并以地平线、云朵背景为主。以8:2的比例划分为训练集数据以及测试集数据，其中训练集和测试集样本红外图像互不重复，每张图像都有与之对应的掩码标签。

本示例使用AdamW作为梯度更新优化器，学习率初始值为6×10^-5，训练及验证阶段批处理数量设置为6，迭代总轮次数为160000。图像原始输入分辨率为290×200，数据增强方式包括以较短边进行随机裁剪、随机水平翻转，概率值分别为0.75、0.5。

本实例进行了与SETR_PUP及DeeplabV3+模型的对比实验，并展示了各模型在测试集上分割表现的可视化对比结果。

如下图4所展示的，最左侧一列为图像原图，第二列则为原图对应的真值标签。原图像左下角标明其所在视频序列的帧号，每一列分别为不同模型在对应原图上的场景语义分割结果。在图4中展示了本实例语义分割可视化实验的图例，对分割结果以及真值标签中的颜色与类别的对应关系信息进行说明。进一步地，为了观察细节自动捕获模块对于模型的影响，实验同样对比了有无细节自动捕获模块的模型性能差异。其中OURS(wo)为不含有细节自动捕获模块的ADC-HSAM模型，OURS(wi)则为含有细节自动捕获模块的ADC-HSAM模型。

图4展示了对于面目标的语义分割结果对比。通过观察同一行之间分割结果的区别，可以发现，SETR_PUP模型只能粗略地捕捉到目标所在区域，且存在对于部分像素点类别的误判，相对而言，DeepLabV3+对于目标区域像素的分割精细度有所提升。而本实施例提出的ADC-HSAM模型则能更为精细地分类辨别出目标与背景区域的语义信息，包含细节自动捕获模块的ADC-HSAM模型在分割精细度上实现了进一步的效果提升。

图5展示了碎云场景下点目标的语义分割结果对比，可以发现SETR_PUP模型对于点目标的识别存在漏检，而包含细节自动捕获模块的ADC-HSAM模型不仅能准确分类点目标所在区域像素，还能最精细地分割出原图中碎云的空间细节信息。

图6展示了背景干扰场景点目标的语义分割结果对比，可以发现，当目标与周围背景像素对比度低，或者目标被背景云层遮挡时，SETR_PUP模型以及DeepLabV3+模型都存在目标像素区域分类错误的漏检现象，包含细节自动捕获模块的ADC-HSAM模型能更准确地分类出干扰环境下点目标像素区域像素点。

图7展示了地平线场景语义分割的结果对比，可以发现包含细节自动捕获模块的ADC-HSAM模型对于较远距离的面目标以及较近距离的面目标的细节信息的刻画都更为准确。

通过上述实验结果，可以看出ADC-HSAM模型由于其分层自注意力编码器以及全多层感知器解码器的结构，使得模型对于场景中的语义信息以及空间细节信息都具有较强的感知能力，而包含细节自动捕获模块的ADC-HSAM模型则对于空间细节信息的感知准确度进一步提高。且本实施例设计的模型由于增加了上下文的深层语义感知能力以及空间细节信息的感知能力，使得对于复杂干扰环境下红外弱小点目标依旧能实现稳定感知。

本实施例采用了语义分割中常用的三种度量方式来评估模型的性能表现，分别为：平均交并比(mean Intersection over Union，mIOU)、平均像素准确率(mean PixelAccuracy，mAcc)、F-分数(F-score)。交并比指标的计算方法即：

其中TP表示识别正确的正样本，FP表示识别错误的正样本，FN表示识别错误的负样本。

则平均交并比mIOU指标的计算方法为：

其中IOU_i表示某一类语义场景的交并比，本实施例中包括天空、地面、整云、碎云、目标这五种场景。

F-score用于综合考虑精确率(Precision)与召回率(Recall)，即：

其中，β_F用于衡量精确率与召回率的权重，在语义分割任务中，为更符合分割任务的评估目的常取β_F＝1，即计算F₁-score。而Precision和Recall的计算方法如下：

平均像素准确率的计算通过对每一幅图像计算其像素准确率(Pixel Accuracy，PA)，然后取平均得到，PA计算方法可表示为：

其中，p_ij表示将分割真值为i的像素点预测为j的个数，k为像素点总数。

平均像素准确率mAcc的计算方法为：

其中n是测试集中图像数目，PA_i是第i幅图像的像素准确率。

为了对本实施例提出的场景语义感知模型结果进行定量评估，本实施例对比了与其他常用语义分割模型在测试集上的性能表现结果。实验结果如表1所示。下图8展示了本实施例与其他常用语义分割模型在mIOU及F-score评价指标下的性能结果曲线对比图，便于更直观地反映各模型实验结果的差异。

通过对比可以看出，在所有对比方法中，对于边界细节较复杂的碎云类别及变化尺度较大的目标类别，本实施例提出的ADC-HSAM模型具有最佳的IOU衡量结果。对于碎云类别，本实施例提出的模型相较于对于碎云类别语义分割表现次佳的模型提升了0.84％。对于目标类别，本实施例提出的模型相较于对于目标类别语义分割表现次佳的模型提升了0.63％。在平均交并比衡量指标下，相较于经典的双分支网络BiSeNetV2的最佳表现提升了4.01％，相较于表现次佳的DeepLabV3+网络模型提升了0.59％。基于图表的观察，可以发现，本实施例设计的方法能够更准确地对细节信息更丰富的类别进行感知，如碎云、目标。在平均交并比评价指标以及F-score评价指标下具有更好的分割结果，能更准确地对复杂场景进行语义分割，具有更强的场景语义信息感知能力。

表1

为了分析本实施例中细节自动捕获模块对于模型场景语义感知能力的影响，进行了包含与不包含细节自动捕获模块的对比实验。由于包含细节自动捕获模块的模型中存在细节头节点计算底层特征信息的细节损失并回传，为避免辅助头节点的影响，增加了FCN辅助头节点计算底层特征信息的损失。以下简称FCN辅助头节点为FCN，细节自动捕获模块为DC。共设置了四组对照实验，分别测试有无FCN及DC的各种组合。特别强调的是，在实验2与实验3中，FCN与DC都分别连接至分层自注意力编码器第2级，在实验4中，为实现FCN与DC组合使用，将其分别连接至分层自注意力编码器第1级、第2级。实验结果如下表所示。

表2

通过上述表格对比观察，可以看出实验2仅仅增加没有细节信息的简易辅助头节点并不能带来模型的性能提升，反而使模型性能有所下降。实验3通过引入细节自动捕获模块，实现了模型各指标下的提升，F-score指标提升了0.18％，mIOU提升了0.27％。说明通过引入细节头节点来增加模型对于底层空间细节信息的感知，能提升模型场景语义分割的效果。实验4通过组合使用简易辅助头节点以及细节自动捕获模块，在F-score及平均交并比指标下进一步提升了模型场景语义分割的实验结果，F-score指标提升了0.49％，mIOU提升了0.78％。分析可能是由于细节自动捕获模块的细节约束，使得与分层自注意力编码器第1级相连的简易辅助头节点间接增强了模型对于空间细节信息的感知能力，所以获得了最佳的表现结果。通过对比实验2与实验4的结果，也能进一步说明本实施例引入的细节自动捕获模块能有效提升模型对于场景语义感知的能力。

实施例二

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种基于细节自动捕获的分层自注意力场景语义分割方法。

相关技术方案同实施例一，在此不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分层自注意力场景语义分割模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的构建方法，其特征在于，所述每层自注意力编码器包括多头自注意力模块和Mix-FFN，其中，Mix-FFN是由一个前馈网络混合使用3×3卷积以及多层感知器MLP组合构成，其输出表示为：x_out＝MLP(GELU(Conv_3×3(FFN(x_in))))+x_in；

3.根据权利要求2所述的构建方法，其特征在于，所述多头自注意力模块在计算多头自注意力特征时，将每个头节点矩阵的反映图像分辨率的行数以缩减比例R进行缩减，以降低计算复杂度，缩减方式如下：

其中，T是待缩减的矩阵，分别为Q、K、V矩阵，第一个式子表示将T变形成大小为

的矩阵，linear(C_input，C_output)(·)表示将列数为C_input的输入张量转换成列数为C_output的输出张量的线性层，

为维度为

的新头节点矩阵。

4.根据权利要求1所述的构建方法，其特征在于，所述全多层感知器解码器由全MLP层构成。

5.根据权利要求1所述的构建方法，其特征在于，所述掩码标签细节聚合的实现方式为：

6.根据权利要求5所述的构建方法，其特征在于，所述上采样操作采用线性插值函数完成。

7.根据权利要求1所述的构建方法，其特征在于，用于所述对下一次迭代中所述分层全自注意力编码器中第二层的特征提取过程进行约束的损失，通过交叉熵损失与Dice损失联合计算得到，表示为：L_detail(p_d，g_d)＝L_dice(p_d，g_d)+L_bce(p_d，g_d)；其中，L_detail(p_d，g_d)表示通过交叉熵损失与Dice损失联合计算得到的细节损失，p_d∈R^H×W表示所述分层全自注意力编码器中第二层所输出的特征，g_d∈R^H×W表示所述细节真值标签；L_bce为二分类交叉熵损失，L_dice为Dice损失，即：

其中，i表示像素编号，τ₀表示拉普拉斯平滑项。

8.一种场景语义分割方法，其特征在于，采用如权利要求1至7任一项所述的一种分层自注意力场景语义分割模型的构建方法所构建的分层自注意力场景语义分割模型进行场景语义分割。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至7任一项所述的一种分层自注意力场景语义分割模型的构建方法。