CN117058392A

CN117058392A - 一种基于卷积局部增强的多尺度Transformer图像语义分割方法

Info

Publication number: CN117058392A
Application number: CN202311105711.0A
Authority: CN
Inventors: 张海波; 黄泓龙; 张俊峰; 蔡磊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-11-14

Abstract

本发明涉及计算机视觉中的图像语义分割领域，特别涉及一种基于卷积局部增强的多尺度Transformer图像语义分割方法，包括：在数据集ADE20K和Cityscapes中获取原始图像，将原始图像输入到Conv Stem层进行特征提取，得到特征图；将特征图输入到多尺度特征增强提取模块，得到不同尺度的特征图；将不同尺度的特征图输入到特征融合解码器中，得到融合特征图；将融合特征图输入到语义分割模块中，得到图像语义分割结果；本发明采用局部信息增强模块及特征交汇模块实现了与Transformer结构的优势互补，提高了网络的分割性能；本发明采用特征融合解码器实现了对低层空间细节特征和高层的语义信息特征的有效融合。

Description

一种基于卷积局部增强的多尺度Transformer图像语义分割方法

技术领域

本发明涉及计算机视觉中的图像语义分割领域，特别涉及一种基于卷积局部增强的多尺度Transformer图像语义分割方法。

背景技术

近年来，随着人工智能的快速发展和应用，一个属于人工智能的时代即将到来，大量应用人工智能技术的智能场景如雨后春笋般涌现，譬如：手机的人脸解锁、自动驾驶、智能穿搭推荐和智能医疗影像诊断等，这些基于计算机视觉的智能应用已经和现代生活密不可分。而图像语义分割作为场景理解的基础技术之一，是现实世界智能化不可或缺的一部分。当前，图像语义分割已经在医疗影像分割、精准农业、地质检测和自动驾驶等真实场景中得到了广泛的应用。图像语义分割是让计算机根据图像的相关语义信息进行逐像素分类，这些语义信息通常包括视觉层的低级语义信息以及概念层的高级语义信息。通过充分利用不同级别的语义信息，计算机可以对图像中的不同对象进行像素级的分类。

传统图像分割算法是结合传统数学方法和计算机技术进行分割的方法，其主要目的是将数字图像划分成若干互不重叠的子区域，使得每个子区域内的像素具有相似的属性，同时不同子区域之间的属性有明显的差异。自深度学习浪潮兴起以来，因卷积操作具有权值共享、局部感知和平移不变等对图像友好的特性，使得卷积神经网络(ConvolutionalNeural Network，CNN)成为计算机视觉领域主流的基础神经网络模型。但随着深度学习的发展和数据集的增大，CNN的性能也开始因卷积结构的缺陷而受限，如受限的有效感受野和过强的归纳偏置，并且难以处理复杂多变的现实场景。与此同时，在自然语言处理领域中，能够建模长距离依赖关系的Transformer结构获得了巨大的成功，因为Transformer中自注意力机制强大的全局特征提取能力能够有效处理复杂问题，所以将Transformer结构引入语义分割领域，构建的Transformer分割网络在图像分割数据集上取得了最优的性能表现。但Transformer结构没有预设的归纳偏置，导致Transformer结构对局部视觉结构的提取不如卷积结构高效。另一方面，虽然Transformer结构因可以建模长距离依赖关系的自注意力机制，在计算机视觉中取得了广泛应用，但绝大部分Transformer视觉网络都是利用单一尺寸的切片来得到对应的嵌入向量，且在自注意力层中同样使用单一尺度的矩阵进行注意力计算，这种结构带来的尺度单一性不可避免地限制了Transformer视觉网络捕捉多尺度特征的能力，从而导致在处理具有多个不同尺度对象的图像时分割精度不高。除此以外，由于Transformer结构缺乏建模局部视觉结构的归纳偏置，需要大量数据才能学习到有效的归纳偏置，在训练数据量较少或是网络训练早期，Transformer结构对于局部细节信息的提取效果不如卷积结构。

综上所述，关于Transformer结构没有预设的归纳偏置，导致其对局部视觉结构的提取不如卷积结构高效；关于Transformer视觉网络利用单一尺寸的切片来得到对应的嵌入向量并在自注意力层中仅使用单一尺度的矩阵进行注意力计算，使得Transformer视觉网络捕捉多尺度特征的能力较弱，处理具有多尺度对象图像时的分割精度不高的缺陷。目前，迫切需要一种分割效果更好，面对复杂真实环境的语义分割网络更有优势的新型语义分割方法。

发明内容

为解决以上现有技术的问题，本发明采用了一种基于卷积局部增强的多尺度Transformer图像语义分割方法，包括：从数据集ADE20K和Cityscapes中获取原始图像，将原始图像输入到多尺度Transformer语义分割模型中，得到图像语义分割结果，其中多尺度Transformer语义分割模型包括Conv Stem层、多尺度特征增强提取模块、特征融合解码器以及语义分割模块；

多尺度Transformer语义分割模型对原始图像进行处理的过程包括：

S1、将原始图像输入到Conv Stem层进行特征提取，得到特征图，增强了模型提取低水平特征的能力；

S2、将特征图输入到多尺度特征增强提取模块，得到不同尺度的特征图；

S3、将不同尺度的特征图输入到特征融合解码器中，得到融合特征图；

S4、将融合特征图输入到语义分割模块中，得到图像语义分割结果。

进一步的，多尺度特征增强提取模块包括多个MSF-PE模块和多个MST-Transformer模块；MSF-PE模块与MST-Transformer模块相互连接，成对出现；MSF-PE模块由多尺度特征切片嵌入层、不同尺度的卷积层以及多尺度特征融合模块组成；MST-Transformer模块由多尺度向量Transformer编码模块、局部信息增强模块以及特征交汇模块构成；其中，MSF-PE表示多尺度特征嵌入，MST-Transformer表示多尺度向量Transformer。

多尺度特征增强提取模块对输入的特征图进行处理的过程包括：

S21、将特征图输入到第一MSF-PE模块中，得到第一多尺度特征图，以增强对多尺度信息的提取能力；

S22、将第一多尺度特征图和特征图分别输入到第一MST-Transformer模块，得到第一编码特征图；

S23、将上一个MST-Transformer模块输出的编码特征图输入到下一个MSF-PE模块，得到当前MSF-PE模块输出的多尺度特征图，将当前多尺度特征图和上一个MST-Transformer模块输出的编码特征图分别输入到下一个MST-Transformer模块，得到当前MST-Transformer模块输出的编码特征图；

S24、重复步骤S23，直到经过所有的MSF-PE模块和MST-Transformer模块。

MSF-PE模块对输入特征图进行处理的过程包括：

S211、将特征图输入到多尺度特征切片嵌入层进行多尺度特征切片嵌入，采用不同尺度的卷积层对多尺度特征切片嵌入后的特征图进行卷积，得到切片嵌入特征图，以增强网络提取多尺度信息的能力；

S212、把切片嵌入特征图输入多尺度特征融合模块进行信息聚合，得到多尺度特征图。

MST-Transformer模块对编码特征图和多尺度特征图进行处理的过程包括：

S221、将多尺度特征图输入多尺度向量Transformer编码模块进行多尺度自注意力计算，得到多尺度特征向量序列；

S222、将编码特征图输入局部信息增强模块进行局部信息增强，得到局部信息增强特征图；

S223、将多尺度特征向量序列与局部信息增强特征图一同输入特征交汇模块进行特征融合，得到编码特征图。

优选的，对多尺度特征图进行自注意力计算的过程包括：

步骤1、对多尺度特征图进行线性变换，得到矩阵Q、K、V，分别是线性变换的查询、键和值，其中/>为向量空间，N为切片图像块的数量，C_hid为特征图的通道数；

步骤2、采用多尺度向量联合自注意力重采样方法对注意力头进行多等分，得到多个头，将K、V输入到每个头中；

步骤3、每个头采取各自不同的下采样率B_i，将K和V输入重采样模块进行降维，得到不同维度的K′和V′；

步骤4、将每个头中的K′和V′与Q进行自注意力计算，得到每个头的输出，自注意力计算公式为：

其中Attention(Q,K′,V′)是自注意力计算的结果，d_k是Q、K′矩阵的列数；

步骤5、将每个头的输出进行拼接，获得多尺度特征向量。

优选的，为了在自注意力层中增强处理多尺度物体的能力，本发明采用了多尺度向量联合自注意力重采样方法。该方法是在联合自注意力重采样方法的基础上优化的，该方法是通过对K和V的特定维度进行重采样的方式减少计算量，从而降低Transformer语义分割网络中自注意力的计算复杂度。

局部信息增强模块由多个堆叠卷积层组成，该模块对编码特征图进行处理的过程包括：

步骤1、对输入的编码特征图进行小尺度卷积运算，为Transformer语义分割网络提供更强的局部连续性；

步骤2、对卷积后的特征图进行层归一化；

步骤3、将层归一化后的结果输入到GELU激活函数中，完成一个堆叠卷积层的局部特征提取操作；

步骤4、将上一个堆叠卷积层的结果输入到下一个堆叠卷积层；

步骤5、重复步骤4，直到经过所有的堆叠卷积层。

对局部信息增强特征图和多尺度特征向量进行特征交汇的过程包括：

步骤1、采用Seq2Img层对多尺度特征向量序列重构，得到多尺度重构特征图；

步骤2、对局部信息增强特征图进行最大值池化操作；

步骤3、对多尺度重构特征图与池化后的局部信息增强特征图进行拼接操作，得到拼接特征图；

步骤4、将拼接特征图输入1×1卷积层，得到编码特征图。

特征融合解码器对不同尺度的特征图进行融合的过程包括：

S31、对不同尺度的特征图进行卷积，将卷积后的特征图的通道数转化为C_o；

S32、对通道数转化后的特征图进行双线性插值上采样，得到分辨率恢复特征图，将不同的分辨率恢复特征图在通道维度上拼接，得到维度大小为H×W×4C_o的拼接特征图；

S33、对拼接特征图进行卷积，将输出特征通道维度下降至C_o，得到融合特征图；

其中H为高，W为宽，C_o为特征图的通道数。

语义分割模块对融合特征图进行处理的过程包括：对融合特征图进行特征交互和上色输出，得到语义类别划分的分割结果。

本发明采用了一种基于卷积增强局部信息的多尺度Transformer图像语义分割网络，该网络利用MSF-PE模块和MST-JRSA模块为Transformer视觉网络引入不同粒度的信息，其中MST-JRSA为多尺度联合重采样自注意；本发明采用局部信息增强模块和特征交汇模块实现了与Transformer结构的优势互补，提高了网络的分割性能；本发明采用的特征融合解码器模块实现了对低层空间细节特征和高层的语义信息特征的有效融合。

附图说明

图1为本发明实施例提供的基于卷积增强局部信息的多尺度Transformer语义分割网络的网络结构图；

图2为本发明实施例提供的基于卷积局部增强的多尺度Transformer图像语义分割方法实施流程图；

图3为本发明实施例提供的多尺度特征切片嵌入模块结构图；

图4为本发明实施例提供的多尺度特征融合模块结构图；

图5为本发明实施例提供的多尺度自注意尺度信息示意图；

图6为本发明实施例提供的联合重采样自注意力模块结构图；

图7为本发明实施例提供的局部信息增强模块结构图；

图8为本发明实施例提供的特征交汇模块结构图；

图9为本发明实施例提供的特征融合解码器结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明基于图1所示的网络结构进行设计，提供了一种基于卷积增强局部特征的多尺度Transformer语义网络分割方法，其实施流程图如图2所示；

当输入一张大小为H×W×3的原始图像时，本发明通过堆叠多个小尺度卷积层对图像特征进行下采样和特征提取，从而增强模型提取低水平特征的能力。将提取到的4倍下采样特征图输入多尺度特征切片嵌入模块进行切片嵌入，再结合不同尺度的卷积进行特征提取，以增强网络提取多尺度信息的能力；

把不同尺度的卷积结果输入多尺度特征融合模块进行信息聚合，将聚合结果输入该阶段多个堆叠的多尺度向量Transformer编码模块中进行自注意力的相关计算，得到含丰富粒度信息的特征向量，再将该向量输入高效的前馈神经网络模块，对所提取到的特征进行变换；

优选的，本发明在MST-Transformer模块中还有一条用于增强局部信息的卷积支路，该支路的输入是该阶段MSF-PE模块的输入特征图，经过多次卷积后将输出结果和多尺度自注意力的计算结果一并输入特征交汇模块进行信息交互；

完成信息交互后把结果送入下一阶段的MSF-PE模块，继续进行之后的网络运算；

在MST-Transformer模块对输入图像进行不同尺度的特征提取和表达后，本发明将之前每个阶段保留的编码特征图输入特征融合解码器中，利用小尺度卷积、双线性插值上采样和拼接操作来合并不同分辨率的特征图，之后再对合并后的特征图进行特征交互和上色输出，最终得到按语义类别划分的分割结果；

优选的，为了将多路径多尺度卷积引入到切片嵌入模块，以增强对多尺度信息的提取能力，本发明提出了多尺度特征切片嵌入方法，简称MSF-PE。当MSF-PE模块得到输入特征图时，会同时将输入特征图输入多条感受野大小不同的卷积路径，对不同尺度的物体进行特征提取。即使卷积核尺寸不同，利用卷积步长和填充范围对输出特征图大小的影响，依然可以得到相同分辨率的输出特征图。

为了准确地评估图像的语义分割能力，本发明采用了一种基于IoU，用于度量模型分割结果与真实标注的相似度的指标，它衡量的是模型预测出的像素区域和真实标注的像素区域的重合程度。

具体地，四种预测结果分别为真正例(True Positive,TP)、假反例(FalseNegative,FN)、假正例(False Positive,FP)和真反例(True Negative,TN)，如下表所示：

从表中可知，TP表示实例为正且预测为正例；FN表示实例为正但预测为负例；FP表示实例为负但预测为正例；TN表示实例为负且预测为负例。单一类别交并比地计算公式为：

式中，IoU_i表示第i类物体的交并比。

在得到单一类别的交并比后，计算mIoU的值，只需将数据集中的每一类交并比累加后求平均即可得到，mIoU的计算公式为：

式中，mIoU表示多类别物体交并比的平均值，n+1为数据集总类别数加上背景类；p_ij表示真实类别为第i类，预测类别为第j类的像素数量。

具体地，本方法包括以下步骤：

从权威语义分割数据集ADE20K和Cityscapes中获得超过5000张的原始图像，将原始图像输入到多尺度Transformer语义分割模型中，得到图像语义分割结果，其中多尺度Transformer语义分割模型包括Conv Stem层、多尺度特征增强提取模块、特征融合解码器以及语义分割模块；

S1、将原始图像输入到Conv Stem层进行特征提取，得到特征图，从而增强了模型提取低水平特征的能力；

进一步的，多尺度特征增强提取模块包括4个MSF-PE模块和4个MST-Transformer模块；MSF-PE模块与MST-Transformer模块相互连接；MSF-PE模块由多尺度特征切片嵌入层、不同尺度的卷积层以及多尺度特征融合模块组成；MST-Transformer模块由多尺度向量Transformer编码模块、局部信息增强模块以及特征交汇模块构成；其中，MSF-PE表示多尺度特征切片嵌入，MST-Transformer表示多尺度向量Transformer。

S24、重复步骤S23，直到经过了4个MSF-PE模块和4个MST-Transformer模块。

MSF-PE模块对输入特征图进行处理的过程，如图3所示，包括：

S211、将特征图输入到多尺度特征切片嵌入层进行多尺度特征切片嵌入，采用不同尺度的卷积层对多尺度特征切片嵌入后的特征图进行卷积，得到切片嵌入特征图；

具体地，当对来自第i-1阶段的特征图进行多尺度切片嵌入时，其中R为向量空间，MSF-PE模块会将输入特征图输入到多条不同的重叠卷积切片嵌入路径，不同路径在切片嵌入时保持输入通道数不变，仅对空间分辨率进行修改。在第一阶段的MSF-PE模块中的三条路径所对应的卷积切片大小分别为3×3、5×5和7×7。如果MSF-PE模块不需要对特征图进行下采样时，则将卷积步长设置为1，否则将卷积步长设置为下采样的倍率，卷积填充则灵活调整，使得各卷积路径输出的特征图在空间维度上保持一致。

多尺度特征融合模块对输入的切片嵌入特征图进行信息聚合的过程，如图4所示，包括：

步骤1、对于第i阶段的多尺度特征融合模块而言，该发明首先将三条不同卷积路径得到的切片嵌入特征图F_3×3、F_5×5和F_7×7在通道维度进行拼接，该过程表达式为：

F_concat＝Concat(F_3×3,F_5×5,F_7×7)

式中，F_concat为拼接后的特征图，为特征图通道维度的拼接操作；

步骤2、对F_concat依次进行1×1卷积、3×3卷积和1×1卷积，第一次1×1卷积将特征图的通道维度由3C_i-1扩张为4C_i-1，并且使用GELU激活函数增加模块的非线性表达能力，得到输出特征图F_{mid_1}，该过程表达式为：

F_{mid_1}＝GELU(1×1_Conv_1(F_concat))

其中，C_i-1为特征图的通道数，GELU(·)为GELU激活函数；

步骤3、使用3×3卷积使F_{mid_1}的维度保持不变，再进行层归一化，得到输出特征图F_{mid_2}，该过程表达式为：

F_{mid_2}＝LN(3×3_Conv(F_{mid_1}))

式中，LN(·)为层归一化操作；

步骤4、第二次1×1卷积将F_{mid_2}的通道维度减少为C_i，得到第i个输出特征图该过程表达式为：

其中C_i为特征图的通道数。

进一步的，为了提升性能并降低计算量，本发明MSF-PE模块中的卷积均采用深度可分离卷积，且在卷积模块中都包含层归一化操作和GELU激活函数。

优选的，为了提升性能并降低计算量，MST-Transformer模块对编码特征图和多尺度特征图进行处理的过程包括：

S223、将多尺度特征向量序列与局部信息增强特征图一同输入特征交汇模块进行特征交互，得到编码特征图。

对多尺度特征图进行自注意力计算的过程包括：

步骤5、将每个头的输出进行拼接，获得多尺度特征向量。

优选的，多尺度向量联合自注意力重采样方法是在联合自注意力重采样方法的基础上优化的，其多尺度自注意尺度信息示意图为图5，对于联合自注意力重采样模块，该模块的设计是通过对K和V的特定维度进行重采样的方式减少计算量，从而降低Transformer语义分割网络中自注意力的计算复杂度，该模块示意图为图6，其具体原理步骤如下：

步骤1、将向量的三个维度Q、K、V输入自注意模块，其中，Q、K、V是自注意力机制的三个输入表示；

步骤2、将嵌入后的重构为/>的特征图，其中/>为向量空间，C_hid为特征图的通道数，H和W分别为重构特征图的高和宽，数值上等于切片图像块的数量N；

步骤3、利用计算效率高的深度可分离卷积和池化分别对K_r和V_r进行重采样，经过卷积重采样后的输出为和/>经过最大值池化重采样后的输出为/>和/>

步骤4、将K_r的所有输出和/>相加得X′_K′，将V_r的所有输出/>和/>相加得X″_V，把X″_K和X″_V输入卷积层和归一化层中整合有效特征信息，得到X″′_K和X″′_V；

步骤5、为了保证缩放点积注意力整体计算方法不变，将X″′_k和X″′_V的维度重构为嵌入向量的维度形式，得到和/>后，与Q进行自注意力计算，能够获得和标准自注意力计算相同的输出维度，其中/>为向量空间，C_hid为特征图的通道数，超参数B_i代表第i个阶段的下采样率。

进一步的，在多尺度向量联合自注意力机制中，向量联合自注意力机制基本规则是不变的，多尺度向量联合自注意力机制对头进行多等分，只在不同注意力头之间，用于控制重采样范围的超参数B_i不再保持一致。

优选的，在多尺度向量联合自注意力机制中，不同头内部的自注意力计算互不影响。将某些头的采样率B_i设置为较小水平，使得保留的K和V维度较大，使得对应头的自注意力层能够保留更多的细粒度信息；而将某些头的采样率设置较大，使更多的K和V被融合，使得在自注意力计算量显著降低的同时，增强了模型捕获大尺度物体的能力。

局部信息增强模块由3个堆叠卷积层组成，如图7所示，该模块对编码特征图进行处理的过程包括：

步骤2、对卷积后的特征图进行层归一化；

步骤5、重复步骤4，直到经过所有的堆叠卷积层。

对局部信息增强特征图和多尺度特征向量进行特征交汇的过程，如图8所示，包括：

步骤1、采用Seq2Img层对多尺度特征向量序列重构，得到多尺度重构特征图，将局部信息增强特征图进行最大值池化操作；

步骤2、将多尺度重构特征图与池化后的局部信息增强特征图进行拼接操作，得到拼接特征图；

步骤3、将拼接特征图输入1×1卷积层，得到含有丰富多尺度信息和局部信息的编码特征图。

优选的，为了适配多尺度向量Transformer编码模块输出的特征图尺寸，当两条路径输入的特征图尺寸不匹配时，特征交汇模块利用最大值池化层对局部信息增强特征图进行下采样，下采样的倍率与该阶段MSF-PE模块的下采样倍率保持一致。

进一步的，当多尺度特征增强提取模块完成了对输入图像进行不同尺度特征提取和表达后，将之前4个阶段保留的编码特征图输入特征融合解码器中，利用小尺度卷积、双线性插值上采样和拼接操作来合并4个不同分辨率的特征图，从而提高模型对多特征的预测能力，特征融合解码器的结构图如图9所示，其具体过程包括：

S31、对4个阶段不同尺度的特征图进行卷积，将卷积后的特征图的通道数转化为C_o；

其中H为高，W为宽，C_o为特征图的通道数。

语义分割模块对融合特征图进行处理的过程包括：对融合特征图进行特征交互，即将不同特征组合在一起，以生成更丰富的特征表示；将特征交互后的特征图进行上色，输出最终的逐像素分割结果。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，包括：获取原始图像，将原始图像输入到多尺度Transformer语义分割模型中，得到图像语义分割结果，其中多尺度Transformer语义分割模型包括Conv Stem层、多尺度特征增强提取模块、特征融合解码器以及语义分割模块；

S1、将原始图像输入到Conv Stem层进行特征提取，得到特征图；

S3、将不同尺度的特征图输入特征融合解码器中，得到融合特征图；

S4、将融合特征图输入语义分割模块中，得到图像语义分割结果。

2.根据权利要求1所述的一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，多尺度特征增强提取模块包括多个MSF-PE模块和多个MST-Transformer模块；MSF-PE模块与MST-Transformer模块相互连接，成对出现；MSF-PE模块由多尺度特征切片嵌入层、不同尺度的卷积层以及多尺度特征融合模块组成；MST-Transformer模块由多尺度向量Transformer编码模块、局部信息增强模块以及特征交汇模块构成；其中，MSF-PE表示多尺度特征切片嵌入，MST-Transformer表示多尺度向量Transformer。

3.根据权利要求1所述的一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，多尺度特征增强提取模块对输入的特征图进行处理的过程包括：

S21、将特征图输入第一MSF-PE模块中，得到第一多尺度特征图；

S22、将第一多尺度特征图和特征图分别输入第一MST-Transformer模块，得到第一编码特征图；

4.根据权利要求3所述的一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，MSF-PE模块对输入特征图进行处理的过程包括：

5.根据权利要求3所述的一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，MST-Transformer模块对编码特征图和多尺度特征图进行处理的过程包括：

6.根据权利要求5所述的一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，对多尺度特征图进行自注意力计算的过程包括：

步骤2、采用多尺度向量联合自注意力重采样方法对注意力头进行多等划分，得到多个头，将K、V输入到每个头中；

步骤5、将每个头的输出进行拼接，获得多尺度特征向量。

7.根据权利要求5所述的一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，局部信息增强模块由多个堆叠卷积层组成，该模块对编码特征图进行处理的过程包括：

步骤1、对输入的编码特征图进行小尺度卷积运算；

步骤2、对卷积后的特征图进行层归一化；

步骤5、重复步骤4，直到经过所有的堆叠卷积层。

8.根据权利要求5所述的一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，步骤S223对局部信息增强特征图和多尺度特征向量进行特征交汇的过程包括：

步骤2、对局部信息增强特征图进行最大值池化操作；

步骤3、将多尺度重构特征图与池化后的局部信息增强特征图进行拼接操作，得到拼接特征图；

步骤4、将拼接特征图输入1×1卷积层，得到编码特征图。

9.根据权利要求1所述的一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，特征融合解码器对不同尺度的特征图进行融合的过程包括：

其中H为高，W为宽，C_o为特征图的通道数。

10.根据权利要求1所述的一种基于卷积局部增强的多尺度Transformer图像语义分割方法，其特征在于，语义分割模块对融合特征图进行处理的过程包括：对融合特征图进行特征交互和上色输出，得到语义类别划分的分割结果。