CN115953582A

CN115953582A - 一种图像语义分割方法及系统

Info

Publication number: CN115953582A
Application number: CN202310212890.1A
Authority: CN
Inventors: 黄磊; 王庆; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-04-11
Anticipated expiration: 2043-03-08
Also published as: CN115953582B

Abstract

本发明属于图像处理技术领域，公开了一种图像语义分割方法及系统，所述系统包括输入模块、数据预处理模块、多层级Swin Transformer编码器、瓶颈模块、多层级Swin Transformer解码器、Vision Transformer多尺度特征聚焦跳过连接模块、和预测输出模块，通过本发明能够捕获多尺度全局特征相关性信息，突出高阶语义信息的关键信息。

Description

一种图像语义分割方法及系统

技术领域

本发明属于图像处理技术领域，特别涉及一种图像语义分割方法及系统。

背景技术

图像中的像素有着不同的语义信息，语义分割的实质就是将这些不同语义的像素进行分类，达到对图像在像素级别上的理解。在过去几年，基于CNN的语义分割方法取得了辉煌的成就，但是由于卷积运算的固有局部性，它们不能很好地捕获全局和长距离的语义信息交互关系。近几年由于Transformer具有远程依赖性和良好的性能，基于Transformer的方法在各种视觉任务中应运而生。随着Vision Transformer在计算机视觉领域的普及以及对图像语义分割技术不断增长的需求，基于Vision Transformer的图像语义分割研究成为了计算机视觉中重要的研究热点，并在水下场景分析方面具有广泛的应用。

水下场景光照衰减、场景感知精度低、场景复杂的特点，对水下场景图像语义分割中的关键——水下多尺度物体关键表征学习，带来了极大挑战。水下场景中场景复杂加上光照不足，待观测物体边缘交错且模糊是水下场景中最典型的现象之一。现有的逐像素分类的图像语义分割模型应用于水下场景时，其分割性能会受到影响，甚至出现显著的性能倒退。现有的典型U形图像语义分割方法，由具有跳过连接的对称编码器-解码器组成。在编码器中，使用一系列卷积层和连续下采样层来提取具有大感受野的深度特征。然后，解码器将提取的深度特征向上采样到像素级语义预测的输入分辨率，并使用跳过连接方式连接编码器中不同尺度的高分辨率特征，捕获低阶空间信息。现有基于Vision Transformer的U形网络中跳过连接模块中大多采用直接连接、拼接标准卷积层或者对多尺度特征单独处理的连接方式。这些方法应用于水下场景时会导致编码器提取水下场景中待观测物体的多尺度特征间相对独立，网络对跨尺度全局依赖关系学习不充分的问题；同时由于水下场景复杂且模糊编码器产生的部分低阶语义信息较为粗糙，现有方法的连接方式会导致这些粗糙的低阶信息对解码过程中的高阶语义信息产生噪声干扰，造成了高阶语义特征关键表征信息不够突出的问题。

基于计算机视觉领域已有的Transformer模型，Transformer解码器中的交叉注意对噪声输入具有鲁棒性，以实现更好的特征对齐及突出特征关键信息，因此本发明采用Vision Transformer来完成具有挑战性的水下场景图像语义分割任务。针对水下场景物体多尺度相关性信息学习不充分以及关键表征信息不够突出的问题，本发明提出了一种图像语义分割方法。

发明内容

针对现有技术存在的不足，本发明提供一种图像语义分割方法及系统，能够充分捕获水下场景物体多尺度全局特征相关性信息，突出高阶语义信息的关键信息，获得精准的语义分割结果。

为了解决上述技术问题，本发明采用的技术方案是：

首先，本发明提供一种图像语义分割系统，包括：输入模块、数据预处理模块、多层级Swin Transformer编码器、瓶颈模块、多层级Swin Transformer解码器、VisionTransformer多尺度特征聚焦跳过连接模块、和预测输出模块，

所述输入模块，用于获取待分割的水下场景图像；

所述数据预处理模块，用于将输入图像剪裁或缩放处理为H×W的预处理图像，然后将预处理图像交叠切分成图像块，并将各个图像块在通道维度展平，得到数据序列X_input；其中，H为预处理图像的高度、W为预处理图像的宽度；

所述多层级Swin Transformer编码器，用于提取待分割图像的多尺度的全局关联特征；多层级Swin Transformer编码器是分层的，每层都包括基于Swin Transformer的特征提取模块，所述基于Swin Transformer的特征提取模块由补丁合并模块和SwinTransformer模块构成，所述补丁合并模块包括像素划分层、归一化层和全连接层构成；多层级Swin Transformer编码器包含四个阶段，每个阶段都采用补丁合并模块和SwinTransformer模块对图像进行下采样编码，具体是，每个阶段都采用补丁合并模块的像素划分层将相邻像素划分为一个块，将每个块中相同位置像素拼在一起得到分辨率下降的特征图并将得到的特征图在通道方向进行拼接，接着通过补丁合并模块的一个归一化层，再通过补丁合并模块的一个全连接层在特征图通道方向做线性变化，将特征图通道数减少一倍，采用Swin Transformer模块对图像进行编码提取特征，四个阶段相继连接，上一个阶段的输出特征作为下一个阶段的输入，经过四个下采样特征提取阶段依次得到四个分辨率依次降低的特征图

、

、

、

；

所述瓶颈模块，包括两个连续的基于Swin Transformer的特征提取模块，所述多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图

作为瓶颈模块的输入，所述瓶颈模块输出特征图

送入所述多层级Swin Transformer解码器；

所述多层级Swin Transformer解码器，用于解码关键多尺度特征，生成像素级语义特征；多层级Swin Transformer解码器是分层的，每层都包括上采样解码模块，所述上采样解码模块包括上采样模块和Swin Transformer模块，所述上采样模块包括双线性插值层和卷积层；多层级Swin Transformer解码器包含四个阶段，每个阶段采用上采样模块的插值和卷积调整输入特征图的分辨率和通道数，具体是，每个阶段都采用上采样模块的双线性插值层进行双线性插值计算将输入特征图的分辨率增加一倍，采用上采样模块的卷积层使输入的特征图的分辨率不变、通道数减半，采用Swin Transformer模块对调整后的特征进行解码；所述上采样解码模块依次记为

、

、

、

；

所述Vision Transformer多尺度特征聚焦跳过连接模块，包括多尺度特征关联模块和高效聚焦模块，用于将多层级Swin Transformer编码器每个阶段输出的特征先利用一个多尺度特征关联模块进行特征关联捕获不同尺度特征的局部和全局相关性，再利用三个高效聚焦模块进行特征聚焦；

其中特征关联过程利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图

、

、

、

重塑使其在通道维度上统一成同样大小

，在空间维度上展平，然后在展平的空间维度上进行拼接，产生多尺度特征

，将拼接产生的多尺度特征

的序列长度使用重塑函数缩小超参数R倍，通道数扩大R倍，使用一层线性层将通道数还原到与原特征

通道数一致，再进行多头注意力计算，最后送入MLP模块，捕获不同尺度特征的局部和全局相关性；MLP模块输出的特征形状与多头注意力计算输入的特征形状相同，记输出的多尺度特征为

；

其中特征聚焦过程中三个高效聚焦模块分别需要多层级Swin Transformer解码器上采样解码模块

、

、

的输出特征进行引导，分别与多尺度特征

交叉注意进行序列交互突出关联后多尺度特征的关键表征信息，再分别送入到相邻多层级SwinTransformer解码器的上采样解码模块

、

、

中；

所述预测输出模块，包括上采样模块Ⅱ和预测模块构成，上采样模块Ⅱ与上采样解码模块中的上采样模块结构相同，所述预测模块由Softmax分类器构成，采用上采样模块Ⅱ调整特征图的分辨率和通道数，得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图

，采用预测模块对特征图

用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。

进一步的，所述多层级Swin Transformer编码器的四个阶段依次得到四个不同分辨率的特征图，特征图

形状是

，特征图

形状是

，特征图

形状是

，特征图

形状是

；所述瓶颈模块输出的特征图

形状是

；其中，C为通道数。

进一步的，所述高效聚焦模块用于聚焦所述多尺度特征关联模块输出的多尺度特征

中的重要信息，高效聚焦模块包括三个，分别是高效聚焦模块Ⅰ、高效聚焦模块Ⅱ、高效聚焦模块Ⅲ，结构相同，高效聚焦模块Ⅰ包括高效交叉注意模块和MLP模块，所述高效交叉注意模块由卷积层和多头注意力模块构成，用于将上采样解码模块

输出的特征重塑使其在通道维度为

，在空间维度上展平，作为输入张量Q₁，将相互关联的多尺度特征

作为输入张量K₁、V₁，将张量Q₁、K₁、V₁送入多头注意力模块进行交叉注意，Q₁首先进行引导从多尺度特征中收集关键信息，再将自身与关键信息进行残差连接，经过MLP模块，生成特征

；同理，另外两个高效聚焦模块将上采样解码模块

、

输出特征和多尺度特征

作为输入，生成特征

、

。

然后，本发明还提供一种图像语义分割方法，使用如前所述的图像语义分割系统实现，包括以下步骤：

步骤1、数据预处理：

对输入图像根据目标尺寸占原图像尺寸的比例进行裁剪或缩放，获得大小为H×W的预处理图像，然后将预处理图像交叠切分成图像块，并将各个图像块再通道维度展平，得到数据序列

；

步骤2、提取待分割图像的多尺度的全局关联特征：

利用多层级Swin Transformer编码器分四个阶段提取特征，得到四个分辨率依次降低的特征图

、

、

、

；

步骤3、进一步提取深层语义特征：

多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图

作为瓶颈模块的输入，将瓶颈模块输出的特征图

送入多层级Swin Transformer解码器；

步骤4、解码生成像素级语义特征：

利用多层级Swin Transformer解码器依次解码瓶颈模块的输出特征和三个高效聚焦模块输出的关键多尺度特征，最终生成像素级语义特征；

步骤5、多尺度特征关联：

利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图

、

、

、

重塑使其在通道维度上统一成同样大小

，将拼接产生的多尺度特征

；

步骤6、多尺度特征聚焦：

利用高效聚焦模块从多尺度特征关联模块输出的多尺度特征

中捕获多层级Swin Transformer编码器输出的语义特征所需的关键多尺度表征信息，具体是：利用三个高效聚焦模块分别将上采样解码模块

、

、

输出的特征和多尺度特征

作为输入，生成特征

、

、

；

步骤7、逐像素语义结果预测：

利用预测输出模块将多层级Swin Transformer解码器最终输出特征图即上采样解码模块

的输出特征图采用上采样模块Ⅱ调整特征图的分辨率和通道数，得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图

，采用预测模块对特征图

进一步的，步骤5中多尺度特征关联的具体步骤如下：

线性层还原的通道数与原特征

一致所产生的特征作为多尺度特征关联模块中多头注意力计算的输入张量Q、K、V，再进行多头注意力计算，得到特征

：

；

；

；

；

；

其中

、

指重塑函数，将待重塑序列重塑为形状为

的序列，

表示一个以

维张量为输入，以

维张量为输出的线性层，Softmax指Softmax激活函数，

、

均为中间生成的特征，N是特征

的序列长度，

是

的序列维度，

是多头注意力的头数，R是超参数；T为转置；

输出的特征

经过一次残差连接，送入到MLP模块，最终得到与输入特征形状相同的特征

。

进一步的，步骤6中多尺度特征聚焦的具体步骤如下：

第一步，将瓶颈模块得到的特征送入上采样解码模块

，

输出的特征形状为

；将

输出的特征重塑使其在通道维度为

，在空间维度上展平，作为高效交叉注意模块的输入张量Q₁，将相互关联的多尺度特征

作为输入张量K₁，V₁ ，在高效交叉注意模块中缩减K₁，V₁的序列长度，再对Q₁、K₁、V₁ 进行多头注意力计算最后生成特征

：

；

其中

和

指卷积函数，设置输入输出通道都为

，卷积核大小和步长都为

，R是超参数，Softmax指Softmax激活函数，

是多头注意力的头数；

输出的特征

；高效聚焦模块Ⅰ根据来自上采样解码模块的张量Q₁聚焦多尺度特征

中的重要信息

，将其传入上采样解码模块

；

第二步，

输出的特征形状为

，将

输出的特征重塑使其在通道维度为

，在空间维度上展平，作为高效交叉注意模块的输入张量Q₂，将相互关联的多尺度特征

作为输入张量K₂，V₂；与第一步同样的，在高效交叉注意模块缩减K₂，V₂的序列长度，再对Q₂、K₂、V₂进行多头注意力计算最后生成特征

：

；

其中

和

指卷积函数，设置输入输出通道都为

，卷积核大小和步长都为

，R是超参数，Softmax指Softmax激活函数，

是多头注意力的头数；

输出的特征

；高效聚焦模块Ⅱ根据来自上采样解码模块的张量Q₂聚焦多尺度特征

中的重要信息

，将其传入上采样解码模块

；

第三步，

输出的特征形状为

，将

输出的特征重塑使其在通道维度为

，在空间维度上展平，作为高效交叉注意模块的输入张量Q₃，将相互关联的多尺度特征

作为输入张量K₃，V₃；在高效交叉注意模块中缩减K₃，V₃的序列长度，再对Q₃、K₃、V₃进行交叉注意最后生成特征

：

；

其中

和

指卷积函数，设置输入输出通道都为

，卷积核大小和步长都为

，R是超参数，Softmax指Softmax激活函数，

是多头注意力的头数；

输出的特征

；高效聚焦模块Ⅲ根据来自上采样解码模块的张量Q₃聚焦多尺度特征

中的重要信息

，将其传入上采样解码模块

。

与现有技术相比，本发明的优点如下：

本发明提出的Vision Transformer多尺度特征聚焦跳过连接模块使编码过程生成的水下场景图像的多尺度特征通过Vision Transformer提取多尺度全局特征相关性信息，使多尺度特征间充分相互关联；跳过连接模块中的高效聚焦模块从关联后的多尺度特征中捕捉解码过程所需的关键特征信息，减弱了编码产生的部分较为粗糙的低阶语义特征对解码过程高阶语义特征的干扰，解决了水下场景图像高阶语义特征关键信息不够突出的问题。

本发明提出的分割方法充分考虑了水下场景物体多尺度特征间的相关性，低阶表征信息与高阶语义信息存在的相关性，提升水下场景图像分割效果，可以有效提高水下场景图像中不同尺度对象的分割精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的图像语义分割系统架构图；

图2为本发明的一个高效聚焦模块的结构图；

图3本发明的图像语义分割方法流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

实施例1

结合图1，本实施例提供一种图像语义分割系统，包括：输入模块、数据预处理模块、多层级Swin Transformer编码器、瓶颈模块、多层级Swin Transformer解码器、VisionTransformer多尺度特征聚焦跳过连接模块、和预测输出模块。

所述输入模块，用于获取待分割的水下场景图像；

所述数据预处理模块，用于将输入图像剪裁或缩放处理为H×W的预处理图像，然后将预处理图像交叠切分成图像块，并将各个图像块再通道维度展平，得到数据序列X_input；其中，H为预处理图像的高度、W为预处理图像的宽度；也就是说输入图像尺寸为H×W×C，C为通道数。

所述多层级Swin Transformer编码器，用于提取待分割图像的多尺度的全局关联特征；多层级Swin Transformer编码器是分层的，每层都包括基于Swin Transformer的特征提取模块，所述基于Swin Transformer的特征提取模块由补丁合并模块和SwinTransformer模块构成，所述补丁合并模块包括像素划分层、归一化层和全连接层；多层级Swin Transformer编码器包含四个阶段，每个阶段都采用补丁合并模块和SwinTransformer模块对图像进行下采样编码，具体是，每个阶段都采用补丁合并模块的像素划分层将每个2×2（仅一个举例）的相邻像素划分为一个块，将每个块中相同位置像素拼在一起得到分辨率下降的特征图，得到的特征图在通道方向进行拼接，接着通过补丁合并模块的一个归一化层，再通过补丁合并模块的一个全连接层在特征图通道方向做线性变化，将特征图通道数减少一倍，采用Swin Transformer模块对图像进行编码提取特征，四个阶段相继连接，上一个阶段的输出特征作为下一个阶段的输入，经过四个下采样特征提取阶段依次得到四个分辨率依次降低的特征图

、

、

、

；

作为瓶颈模块的输入，所述瓶颈模块输出特征图

送入所述多层级Swin Transformer解码器。

所述多层级Swin Transformer解码器，用于解码关键多尺度特征，生成像素级语义特征；多层级Swin Transformer解码器是分层的，每层都包括上采样解码模块，所述上采样解码模块包括上采样模块和Swin Transformer模块，所述上采样模块包括双线性插值层和卷积层；多层级Swin Transformer解码器包含四个阶段，每个阶段采用上采样模块的插值和卷积调整输入特征图的分辨率和通道数，具体是，每个阶段都采用上采样模块的双线性插值层进行双线性插值计算将输入特征图的分辨率增加一倍，采用上采样模块的卷积层使输入的特征图的分辨率不变、通道数减半，本实施例采用上采样模块的卷积层进行卷积核大小为3×3、卷积核个数为特征图通道数的一半、步长为1、padding为1的一层卷积计算使特征图的分辨率不变，通道数减少一倍，采用Swin Transformer模块对调整后的特征进行解码；所述上采样解码模块依次记为

、

、

、

。

、

、

、

重塑使其在通道维度上统一成同样大小

，将拼接产生的多尺度特征

；

、

、

的输出特征进行引导，分别与多尺度特征

、

、

中；

所述预测输出模块，包括上采样模块Ⅱ和预测模块构成，上采样模块Ⅱ与上采样解码模块中的上采样模块结构相同，此处不再赘述，所述预测模块由Softmax分类器构成，采用上采样模块Ⅱ调整特征图的分辨率和通道数，得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图

，采用预测模块对特征图

作为一个优选的实施方式，所述多层级Swin Transformer编码器的四个阶段依次得到四个不同分辨率的特征图，特征图

形状是

，特征图

形状是

，特征图

形状是

，特征图

形状是

；所述瓶颈模块输出的特征图

形状是

。

结合图2所示，所述高效聚焦模块用于聚焦所述多尺度特征关联模块输出的多尺度特征

中的重要信息，高效聚焦模块包括三个，分别是高效聚焦模块Ⅰ、高效聚焦模块Ⅱ、高效聚焦模块Ⅲ，结构相同，以高效聚焦模块Ⅰ为例说明，包括高效交叉注意模块和MLP模块，所述高效交叉注意模块由卷积层和多头注意力模块构成，用于将上采样解码模块

输出的特征重塑使其在通道维度为

；同理，另外两个高效聚焦模块将上采样解码模块

、

输出特征和多尺度特征

作为输入，生成特征

、

。

实施例2

本实施例提供一种图像语义分割方法，使用实施例1所述的图像语义分割系统实现。

结合图3，包括以下步骤：

步骤1、数据预处理：

对输入图像根据目标尺寸占原图像尺寸的比例进行裁剪或缩放，获得大小为H×W的预处理图像，然后将预处理图像交叠切分成图像块，每个块的大小为4×4×3，其中切割过程通过卷积完成，保持了局部图像区域的连续性。最后将各个图像块再通道维度展平，得到数据序列

，

，作为分割网络多层级Swin Transformer编码器的输入，以获得图像的多尺度全局关联的深层语义特征。

针对多尺度相关性信息缺少以及关键信息不够突出的问题，本实施例设计了图像语义分割网络，由四部分构成：编码器、瓶颈模块、解码器和跳过连接模块，具体可参见实施例1部分的介绍，此处不再赘述。

步骤2、提取待分割图像的多尺度的全局关联特征；

、

、

、

；特征图

形状是

，特征图

形状是

，特征图

形状是

，特征图

形状是

。

步骤3、进一步提取深层语义特征：

作为瓶颈模块的输入，将瓶颈模块输出的特征图

送入多层级Swin Transformer解码器；瓶颈模块输出的特征图

形状是

。

步骤4、解码生成像素级语义特征：

利用多层级Swin Transformer解码器依次解码瓶颈模块的输出特征和三个高效聚焦模块输出的关键多尺度特征，最终生成像素级语义特征。

步骤5、多尺度特征关联：

为了捕获多层级Swin Transformer解码器输出的不同尺度特征的局部和全局相关性，在跳过连接模块引入高效Vision Transformer进行多尺度特征关联，具体步骤如下：利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图

、

、

、

重塑使其在通道维度上统一成同样大小

，

；

其中，

指特征重塑函数，

指特征拼接函数。

将拼接产生的多尺度特征

通道数一致，产生的特征作为多尺度特征关联模块中多头注意力计算的输入张量Q、K、V，再进行多头注意力计算，得到特征

：

；

；

；

；

；

其中

、

指重塑函数，将待重塑序列重塑为形状为

的序列，

表示一个以

维张量为输入，以

维张量为输出的线性层，Softmax指Softmax激活函数，

、

均为中间生成的特征，N是特征

的序列长度，

是

的序列维度，

是多头注意力的头数，T为转置；R是超参数，本实施例R设置为4。

输出的特征

。

步骤6、多尺度特征聚焦：

为了最大化发挥多层级Swin Transformer解码器的作用，提取更优的多尺度关键特征，利用高效聚焦模块从多尺度特征关联模块输出的多尺度特征

中捕获多层级Swin Transformer编码器输出的语义特征所需的关键多尺度表征信息，减弱编码过程产生的部分较为粗糙的低阶语义特征对解码过程高阶语义特征的干扰，解决高阶语义特征关键多尺度表征信息不够突出的问题。具体是：利用三个高效聚焦模块分别将上采样解码模块

、

、

输出的特征和多尺度特征

作为输入，生成特征

、

、

。

聚焦的具体步骤如下：

第一步，将瓶颈模块得到的特征送入上采样解码模块

，

输出的特征形状为

；将

输出的特征重塑使其在通道维度为

作为输入张量K₁，V₁ ，在高效交叉注意模块中缩减K₁，V₁的序列长度（考虑K₁，V₁的序列长度过大，直接送入到多头注意力模块中会导致计算量很大，不利于网络训练，本实施例使用两个卷积层分别减小K₁、V₁的序列长度），再对Q₁、K₁、V₁ 进行多头注意力计算最后生成特征

：

；

其中

和

指卷积函数，设置输入输出通道都为

，卷积核大小和步长都为

，

是超参数，本实施例R设置为4，Softmax指Softmax激活函数，

是多头注意力的头数，本实施例

设置为8。

输出的特征

中的重要信息

，将其传入上采样解码模块

；

第二步，

输出的特征形状为

，将

输出的特征重塑使其在通道维度为

：

；

其中

和

指卷积函数，设置输入输出通道都为

，卷积核大小和步长都为

，R是超参数，本实施例R设置为4，Softmax指Softmax激活函数，

是多头注意力的头数，本实施例

设置为8。

输出的特征

中的重要信息

，将其传入上采样解码模块

；

第三步，

输出的特征形状为

，将

输出的特征重塑使其在通道维度为

：

；

其中

和

指卷积函数，设置输入输出通道都为

，卷积核大小和步长都为

，R是超参数，本实施例R设置为4，Softmax指Softmax激活函数，

是多头注意力的头数，本实施例

设置为8。

输出的特征

中的重要信息

，将其传入上采样解码模块

。

步骤7、逐像素语义结果预测：

，采用预测模块对特征图

具体步骤如下：

生成的特征F形状为

，采用插值和卷积调整特征图的分辨率和维度，得到最终的特征图

，分辨率和维度为

，

为语义类别个数：

；

其中

指插值函数，插值前特征空间维度为

，插值后维度为

，

指卷积函数。

也就是说，本发明输入特征通道为C，输出特征通道为

，

是得到的最终的特征图，形状为

。然后用Softmax分类器以像素为单位预测每个像素所属语义类别。最后由输出模块输出分割结果图。

最后，需要说明的是，在构建本发明的图像语义分割系统的网络模型时，需要进行模型训练和评估。将最终的特征图

和训练集标签图像输入到交叉熵损失函数中，逐像素求交叉熵损失，进行反向传播学习各个可学习参数，反复迭代对网络进行训练。将数据集的验证集图像输入到练好的网络中逐像素进行分类预测，进行语义分割，对网络使用平均交并比

进行评估。

综上所述，通过本发明使水下场景图像中物体的多尺度特征间相互关联，再通过高效聚焦模块从关联后的多尺度特征中捕捉解码过程所需的特征信息，减弱了编码过程产生的部分较为粗糙的低阶语义特征对解码过程高阶语义特征的干扰，解决了水下场景图像高阶语义特征关键信息不够突出的问题。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种图像语义分割系统，其特征在于，包括：输入模块、数据预处理模块、多层级SwinTransformer编码器、瓶颈模块、多层级Swin Transformer解码器、Vision Transformer多尺度特征聚焦跳过连接模块、和预测输出模块，

所述输入模块，用于获取待分割的水下场景图像；

所述数据预处理模块，用于将输入图像剪裁或缩放处理为H×W的预处理图像，然后将预处理图像交叠切分成图像块，并将各个图像块在通道维度展平，得到数据序列

；其中，H为预处理图像的高度、W为预处理图像的宽度；

所述多层级Swin Transformer编码器，用于提取待分割图像的多尺度的全局关联特征；多层级Swin Transformer编码器是分层的，每层都包括基于Swin Transformer的特征提取模块，所述基于Swin Transformer的特征提取模块由补丁合并模块和SwinTransformer模块构成，所述补丁合并模块包括像素划分层、归一化层和全连接层；多层级Swin Transformer编码器包含四个阶段，每个阶段都采用补丁合并模块和SwinTransformer模块对图像进行下采样编码，具体是，每个阶段都采用补丁合并模块的像素划分层将相邻像素划分为一个块，将每个块中相同位置像素拼在一起得到分辨率下降的特征图并将得到的特征图在通道方向进行拼接，接着通过补丁合并模块的一个归一化层，再通过补丁合并模块的一个全连接层在特征图通道方向做线性变化，将特征图通道数减少一倍，采用Swin Transformer模块对图像进行编码提取特征，四个阶段相继连接，上一个阶段的输出特征作为下一个阶段的输入，经过四个下采样特征提取阶段依次得到四个分辨率依次降低的特征图