CN115953582A - 一种图像语义分割方法及系统 - Google Patents
一种图像语义分割方法及系统 Download PDFInfo
- Publication number
- CN115953582A CN115953582A CN202310212890.1A CN202310212890A CN115953582A CN 115953582 A CN115953582 A CN 115953582A CN 202310212890 A CN202310212890 A CN 202310212890A CN 115953582 A CN115953582 A CN 115953582A
- Authority
- CN
- China
- Prior art keywords
- module
- feature
- output
- swin
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明属于图像处理技术领域,公开了一种图像语义分割方法及系统,所述系统包括输入模块、数据预处理模块、多层级Swin Transformer编码器、瓶颈模块、多层级Swin Transformer解码器、Vision Transformer多尺度特征聚焦跳过连接模块、和预测输出模块,通过本发明能够捕获多尺度全局特征相关性信息,突出高阶语义信息的关键信息。
Description
技术领域
本发明属于图像处理技术领域,特别涉及一种图像语义分割方法及系统。
背景技术
图像中的像素有着不同的语义信息,语义分割的实质就是将这些不同语义的像素进行分类,达到对图像在像素级别上的理解。在过去几年,基于CNN的语义分割方法取得了辉煌的成就,但是由于卷积运算的固有局部性,它们不能很好地捕获全局和长距离的语义信息交互关系。近几年由于Transformer具有远程依赖性和良好的性能,基于Transformer的方法在各种视觉任务中应运而生。随着Vision Transformer在计算机视觉领域的普及以及对图像语义分割技术不断增长的需求,基于Vision Transformer的图像语义分割研究成为了计算机视觉中重要的研究热点,并在水下场景分析方面具有广泛的应用。
水下场景光照衰减、场景感知精度低、场景复杂的特点,对水下场景图像语义分割中的关键——水下多尺度物体关键表征学习,带来了极大挑战。水下场景中场景复杂加上光照不足,待观测物体边缘交错且模糊是水下场景中最典型的现象之一。现有的逐像素分类的图像语义分割模型应用于水下场景时,其分割性能会受到影响,甚至出现显著的性能倒退。现有的典型U形图像语义分割方法,由具有跳过连接的对称编码器-解码器组成。在编码器中,使用一系列卷积层和连续下采样层来提取具有大感受野的深度特征。然后,解码器将提取的深度特征向上采样到像素级语义预测的输入分辨率,并使用跳过连接方式连接编码器中不同尺度的高分辨率特征,捕获低阶空间信息。现有基于Vision Transformer的U形网络中跳过连接模块中大多采用直接连接、拼接标准卷积层或者对多尺度特征单独处理的连接方式。这些方法应用于水下场景时会导致编码器提取水下场景中待观测物体的多尺度特征间相对独立,网络对跨尺度全局依赖关系学习不充分的问题;同时由于水下场景复杂且模糊编码器产生的部分低阶语义信息较为粗糙,现有方法的连接方式会导致这些粗糙的低阶信息对解码过程中的高阶语义信息产生噪声干扰,造成了高阶语义特征关键表征信息不够突出的问题。
基于计算机视觉领域已有的Transformer模型,Transformer解码器中的交叉注意对噪声输入具有鲁棒性,以实现更好的特征对齐及突出特征关键信息,因此本发明采用Vision Transformer来完成具有挑战性的水下场景图像语义分割任务。针对水下场景物体多尺度相关性信息学习不充分以及关键表征信息不够突出的问题,本发明提出了一种图像语义分割方法。
发明内容
针对现有技术存在的不足,本发明提供一种图像语义分割方法及系统,能够充分捕获水下场景物体多尺度全局特征相关性信息,突出高阶语义信息的关键信息,获得精准的语义分割结果。
为了解决上述技术问题,本发明采用的技术方案是:
首先,本发明提供一种图像语义分割系统,包括:输入模块、数据预处理模块、多层级Swin Transformer编码器、瓶颈模块、多层级Swin Transformer解码器、VisionTransformer多尺度特征聚焦跳过连接模块、和预测输出模块,
所述输入模块,用于获取待分割的水下场景图像;
所述数据预处理模块,用于将输入图像剪裁或缩放处理为H×W的预处理图像,然后将预处理图像交叠切分成图像块,并将各个图像块在通道维度展平,得到数据序列Xinput ;其中,H为预处理图像的高度、W为预处理图像的宽度;
所述多层级Swin Transformer编码器,用于提取待分割图像的多尺度的全局关联特征;多层级Swin Transformer编码器是分层的,每层都包括基于Swin Transformer的特征提取模块,所述基于Swin Transformer的特征提取模块由补丁合并模块和SwinTransformer模块构成,所述补丁合并模块包括像素划分层、归一化层和全连接层构成;多层级Swin Transformer编码器包含四个阶段,每个阶段都采用补丁合并模块和SwinTransformer模块对图像进行下采样编码,具体是,每个阶段都采用补丁合并模块的像素划分层将相邻像素划分为一个块,将每个块中相同位置像素拼在一起得到分辨率下降的特征图并将得到的特征图在通道方向进行拼接,接着通过补丁合并模块的一个归一化层,再通过补丁合并模块的一个全连接层在特征图通道方向做线性变化,将特征图通道数减少一倍,采用Swin Transformer模块对图像进行编码提取特征,四个阶段相继连接,上一个阶段的输出特征作为下一个阶段的输入,经过四个下采样特征提取阶段依次得到四个分辨率依次降低的特征图、、、;
所述瓶颈模块,包括两个连续的基于Swin Transformer的特征提取模块,所述多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图作为瓶颈模块的输入,所述瓶颈模块输出特征图送入所述多层级Swin Transformer解码器;
所述多层级Swin Transformer解码器,用于解码关键多尺度特征,生成像素级语义特征;多层级Swin Transformer解码器是分层的,每层都包括上采样解码模块,所述上采样解码模块包括上采样模块和Swin Transformer模块,所述上采样模块包括双线性插值层和卷积层;多层级Swin Transformer解码器包含四个阶段,每个阶段采用上采样模块的插值和卷积调整输入特征图的分辨率和通道数,具体是,每个阶段都采用上采样模块的双线性插值层进行双线性插值计算将输入特征图的分辨率增加一倍,采用上采样模块的卷积层使输入的特征图的分辨率不变、通道数减半,采用Swin Transformer模块对调整后的特征进行解码;所述上采样解码模块依次记为、、、;
所述Vision Transformer多尺度特征聚焦跳过连接模块,包括多尺度特征关联模块和高效聚焦模块,用于将多层级Swin Transformer编码器每个阶段输出的特征先利用一个多尺度特征关联模块进行特征关联捕获不同尺度特征的局部和全局相关性,再利用三个高效聚焦模块进行特征聚焦;
其中特征关联过程利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图、、、重塑使其在通道维度上统一成同样大小,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征,将拼接产生的多尺度特征的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为;
其中特征聚焦过程中三个高效聚焦模块分别需要多层级Swin Transformer解码器上采样解码模块、、的输出特征进行引导,分别与多尺度特征交叉注意进行序列交互突出关联后多尺度特征的关键表征信息,再分别送入到相邻多层级SwinTransformer解码器的上采样解码模块、、中;
所述预测输出模块,包括上采样模块Ⅱ和预测模块构成,上采样模块Ⅱ与上采样解码模块中的上采样模块结构相同,所述预测模块由Softmax分类器构成,采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图,采用预测模块对特征图用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
进一步的,所述多层级Swin Transformer编码器的四个阶段依次得到四个不同分辨率的特征图,特征图形状是,特征图形状是,特征图形状是,特征图形状是;所述瓶颈模块输出的特征图形状是;其中,C为通道数。
进一步的,所述高效聚焦模块用于聚焦所述多尺度特征关联模块输出的多尺度特征中的重要信息,高效聚焦模块包括三个,分别是高效聚焦模块Ⅰ、高效聚焦模块Ⅱ、高效聚焦模块Ⅲ,结构相同,高效聚焦模块Ⅰ包括高效交叉注意模块和MLP模块,所述高效交叉注意模块由卷积层和多头注意力模块构成,用于将上采样解码模块输出的特征重塑使其在通道维度为,在空间维度上展平,作为输入张量Q1,将相互关联的多尺度特征作为输入张量K1、V1,将张量Q1、K1、V1送入多头注意力模块进行交叉注意,Q1首先进行引导从多尺度特征中收集关键信息,再将自身与关键信息进行残差连接,经过MLP模块,生成特征;同理,另外两个高效聚焦模块将上采样解码模块、输出特征和多尺度特征作为输入,生成特征、。
然后,本发明还提供一种图像语义分割方法,使用如前所述的图像语义分割系统实现,包括以下步骤:
步骤1、数据预处理:
步骤2、提取待分割图像的多尺度的全局关联特征:
步骤3、进一步提取深层语义特征:
步骤4、解码生成像素级语义特征:
利用多层级Swin Transformer解码器依次解码瓶颈模块的输出特征和三个高效聚焦模块输出的关键多尺度特征,最终生成像素级语义特征;
步骤5、多尺度特征关联:
利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图、、、重塑使其在通道维度上统一成同样大小,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征,将拼接产生的多尺度特征的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为;
步骤6、多尺度特征聚焦:
利用高效聚焦模块从多尺度特征关联模块输出的多尺度特征中捕获多层级Swin Transformer编码器输出的语义特征所需的关键多尺度表征信息,具体是:利用三个高效聚焦模块分别将上采样解码模块、、输出的特征和多尺度特征作为输入,生成特征、、;
步骤7、逐像素语义结果预测:
利用预测输出模块将多层级Swin Transformer解码器最终输出特征图即上采样解码模块的输出特征图采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图,采用预测模块对特征图用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
进一步的,步骤5中多尺度特征关联的具体步骤如下:
其中、指重塑函数,将待重塑序列重塑为形状为的序列,表示一个以维张量为输入,以维张量为输出的线性层,Softmax指Softmax激活函数,、均为中间生成的特征,N是特征的序列长度,是的序列维度,是多头注意力的头数,R是超参数;T为转置;
进一步的,步骤6中多尺度特征聚焦的具体步骤如下:
第一步,将瓶颈模块得到的特征送入上采样解码模块,输出的特征形状为;将输出的特征重塑使其在通道维度为,在空间维度上展平,作为高效交叉注意模块的输入张量Q1,将相互关联的多尺度特征作为输入张量K1,V1 ,在高效交叉注意模块中缩减K1,V1的序列长度,再对Q1、K1、V1 进行多头注意力计算最后生成特征:
第二步,输出的特征形状为,将输出的特征重塑使其在通道维度为,在空间维度上展平,作为高效交叉注意模块的输入张量Q2,将相互关联的多尺度特征作为输入张量K2,V2;与第一步同样的,在高效交叉注意模块缩减K2,V2的序列长度,再对Q2、K2、V2进行多头注意力计算最后生成特征:
第三步,输出的特征形状为,将输出的特征重塑使其在通道维度为,在空间维度上展平,作为高效交叉注意模块的输入张量Q3,将相互关联的多尺度特征作为输入张量K3,V3;在高效交叉注意模块中缩减K3,V3的序列长度,再对Q3、K3、V3进行交叉注意最后生成特征:
与现有技术相比,本发明的优点如下:
本发明提出的Vision Transformer多尺度特征聚焦跳过连接模块使编码过程生成的水下场景图像的多尺度特征通过Vision Transformer提取多尺度全局特征相关性信息,使多尺度特征间充分相互关联;跳过连接模块中的高效聚焦模块从关联后的多尺度特征中捕捉解码过程所需的关键特征信息,减弱了编码产生的部分较为粗糙的低阶语义特征对解码过程高阶语义特征的干扰,解决了水下场景图像高阶语义特征关键信息不够突出的问题。
本发明提出的分割方法充分考虑了水下场景物体多尺度特征间的相关性,低阶表征信息与高阶语义信息存在的相关性,提升水下场景图像分割效果,可以有效提高水下场景图像中不同尺度对象的分割精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的图像语义分割系统架构图;
图2为本发明的一个高效聚焦模块的结构图;
图3本发明的图像语义分割方法流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
结合图1,本实施例提供一种图像语义分割系统,包括:输入模块、数据预处理模块、多层级Swin Transformer编码器、瓶颈模块、多层级Swin Transformer解码器、VisionTransformer多尺度特征聚焦跳过连接模块、和预测输出模块。
所述输入模块,用于获取待分割的水下场景图像;
所述数据预处理模块,用于将输入图像剪裁或缩放处理为H×W的预处理图像,然后将预处理图像交叠切分成图像块,并将各个图像块再通道维度展平,得到数据序列Xinput;其中,H为预处理图像的高度、W为预处理图像的宽度;也就是说输入图像尺寸为H×W×C,C为通道数。
所述多层级Swin Transformer编码器,用于提取待分割图像的多尺度的全局关联特征;多层级Swin Transformer编码器是分层的,每层都包括基于Swin Transformer的特征提取模块,所述基于Swin Transformer的特征提取模块由补丁合并模块和SwinTransformer模块构成,所述补丁合并模块包括像素划分层、归一化层和全连接层;多层级Swin Transformer编码器包含四个阶段,每个阶段都采用补丁合并模块和SwinTransformer模块对图像进行下采样编码,具体是,每个阶段都采用补丁合并模块的像素划分层将每个2×2(仅一个举例)的相邻像素划分为一个块,将每个块中相同位置像素拼在一起得到分辨率下降的特征图,得到的特征图在通道方向进行拼接,接着通过补丁合并模块的一个归一化层,再通过补丁合并模块的一个全连接层在特征图通道方向做线性变化,将特征图通道数减少一倍,采用Swin Transformer模块对图像进行编码提取特征,四个阶段相继连接,上一个阶段的输出特征作为下一个阶段的输入,经过四个下采样特征提取阶段依次得到四个分辨率依次降低的特征图、、、;
所述瓶颈模块,包括两个连续的基于Swin Transformer的特征提取模块,所述多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图作为瓶颈模块的输入,所述瓶颈模块输出特征图送入所述多层级Swin Transformer解码器。
所述多层级Swin Transformer解码器,用于解码关键多尺度特征,生成像素级语义特征;多层级Swin Transformer解码器是分层的,每层都包括上采样解码模块,所述上采样解码模块包括上采样模块和Swin Transformer模块,所述上采样模块包括双线性插值层和卷积层;多层级Swin Transformer解码器包含四个阶段,每个阶段采用上采样模块的插值和卷积调整输入特征图的分辨率和通道数,具体是,每个阶段都采用上采样模块的双线性插值层进行双线性插值计算将输入特征图的分辨率增加一倍,采用上采样模块的卷积层使输入的特征图的分辨率不变、通道数减半,本实施例采用上采样模块的卷积层进行卷积核大小为3×3、卷积核个数为特征图通道数的一半、步长为1、padding为1的一层卷积计算使特征图的分辨率不变,通道数减少一倍,采用Swin Transformer模块对调整后的特征进行解码;所述上采样解码模块依次记为、、、。
所述Vision Transformer多尺度特征聚焦跳过连接模块,包括多尺度特征关联模块和高效聚焦模块,用于将多层级Swin Transformer编码器每个阶段输出的特征先利用一个多尺度特征关联模块进行特征关联捕获不同尺度特征的局部和全局相关性,再利用三个高效聚焦模块进行特征聚焦;
其中特征关联过程利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图、、、重塑使其在通道维度上统一成同样大小,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征,将拼接产生的多尺度特征的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为;
其中特征聚焦过程中三个高效聚焦模块分别需要多层级Swin Transformer解码器上采样解码模块、、的输出特征进行引导,分别与多尺度特征交叉注意进行序列交互突出关联后多尺度特征的关键表征信息,再分别送入到相邻多层级SwinTransformer解码器的上采样解码模块、、中;
所述预测输出模块,包括上采样模块Ⅱ和预测模块构成,上采样模块Ⅱ与上采样解码模块中的上采样模块结构相同,此处不再赘述,所述预测模块由Softmax分类器构成,采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图,采用预测模块对特征图用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
作为一个优选的实施方式,所述多层级Swin Transformer编码器的四个阶段依次得到四个不同分辨率的特征图,特征图形状是,特征图形状是,特征图形状是,特征图形状是;所述瓶颈模块输出的特征图形状是。
结合图2所示,所述高效聚焦模块用于聚焦所述多尺度特征关联模块输出的多尺度特征中的重要信息,高效聚焦模块包括三个,分别是高效聚焦模块Ⅰ、高效聚焦模块Ⅱ、高效聚焦模块Ⅲ,结构相同,以高效聚焦模块Ⅰ为例说明,包括高效交叉注意模块和MLP模块,所述高效交叉注意模块由卷积层和多头注意力模块构成,用于将上采样解码模块输出的特征重塑使其在通道维度为,在空间维度上展平,作为输入张量Q1,将相互关联的多尺度特征作为输入张量K1、V1,将张量Q1、K1、V1送入多头注意力模块进行交叉注意,Q1首先进行引导从多尺度特征中收集关键信息,再将自身与关键信息进行残差连接,经过MLP模块,生成特征;同理,另外两个高效聚焦模块将上采样解码模块、输出特征和多尺度特征作为输入,生成特征、。
实施例2
本实施例提供一种图像语义分割方法,使用实施例1所述的图像语义分割系统实现。
结合图3,包括以下步骤:
步骤1、数据预处理:
对输入图像根据目标尺寸占原图像尺寸的比例进行裁剪或缩放,获得大小为H×W的预处理图像,然后将预处理图像交叠切分成图像块,每个块的大小为4×4×3,其中切割过程通过卷积完成,保持了局部图像区域的连续性。最后将各个图像块再通道维度展平,得到数据序列 ,,作为分割网络多层级Swin Transformer编码器的输入,以获得图像的多尺度全局关联的深层语义特征。
针对多尺度相关性信息缺少以及关键信息不够突出的问题,本实施例设计了图像语义分割网络,由四部分构成:编码器、瓶颈模块、解码器和跳过连接模块,具体可参见实施例1部分的介绍,此处不再赘述。
步骤2、提取待分割图像的多尺度的全局关联特征;
步骤3、进一步提取深层语义特征:
多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图作为瓶颈模块的输入,将瓶颈模块输出的特征图送入多层级Swin Transformer解码器;瓶颈模块输出的特征图形状是。
步骤4、解码生成像素级语义特征:
利用多层级Swin Transformer解码器依次解码瓶颈模块的输出特征和三个高效聚焦模块输出的关键多尺度特征,最终生成像素级语义特征。
步骤5、多尺度特征关联:
为了捕获多层级Swin Transformer解码器输出的不同尺度特征的局部和全局相关性,在跳过连接模块引入高效Vision Transformer进行多尺度特征关联,具体步骤如下:利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图、、、重塑使其在通道维度上统一成同样大小,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征,
将拼接产生的多尺度特征的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征通道数一致,产生的特征作为多尺度特征关联模块中多头注意力计算的输入张量Q、K、V,再进行多头注意力计算,得到特征:
其中、指重塑函数,将待重塑序列重塑为形状为的序列,表示一个以维张量为输入,以维张量为输出的线性层,Softmax指Softmax激活函数,、均为中间生成的特征,N是特征的序列长度,是的序列维度,是多头注意力的头数,T为转置;R是超参数,本实施例R设置为4。
步骤6、多尺度特征聚焦:
为了最大化发挥多层级Swin Transformer解码器的作用,提取更优的多尺度关键特征,利用高效聚焦模块从多尺度特征关联模块输出的多尺度特征中捕获多层级Swin Transformer编码器输出的语义特征所需的关键多尺度表征信息,减弱编码过程产生的部分较为粗糙的低阶语义特征对解码过程高阶语义特征的干扰,解决高阶语义特征关键多尺度表征信息不够突出的问题。具体是:利用三个高效聚焦模块分别将上采样解码模块、、输出的特征和多尺度特征作为输入,生成特征、、。
聚焦的具体步骤如下:
第一步,将瓶颈模块得到的特征送入上采样解码模块,输出的特征形状为;将输出的特征重塑使其在通道维度为,在空间维度上展平,作为高效交叉注意模块的输入张量Q1,将相互关联的多尺度特征作为输入张量K1,V1 ,在高效交叉注意模块中缩减K1,V1的序列长度(考虑K1,V1的序列长度过大,直接送入到多头注意力模块中会导致计算量很大,不利于网络训练,本实施例使用两个卷积层分别减小K1、V1的序列长度),再对Q1、K1、V1 进行多头注意力计算最后生成特征:
第二步,输出的特征形状为,将输出的特征重塑使其在通道维度为,在空间维度上展平,作为高效交叉注意模块的输入张量Q2,将相互关联的多尺度特征作为输入张量K2,V2;与第一步同样的,在高效交叉注意模块缩减K2,V2的序列长度,再对Q2、K2、V2进行多头注意力计算最后生成特征:
第三步,输出的特征形状为,将输出的特征重塑使其在通道维度为,在空间维度上展平,作为高效交叉注意模块的输入张量Q3,将相互关联的多尺度特征作为输入张量K3,V3;在高效交叉注意模块中缩减K3,V3的序列长度,再对Q3、K3、V3进行交叉注意最后生成特征:
步骤7、逐像素语义结果预测:
利用预测输出模块将多层级Swin Transformer解码器最终输出特征图即上采样解码模块的输出特征图采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图,采用预测模块对特征图用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
具体步骤如下:
最后,需要说明的是,在构建本发明的图像语义分割系统的网络模型时,需要进行模型训练和评估。将最终的特征图和训练集标签图像输入到交叉熵损失函数中,逐像素求交叉熵损失,进行反向传播学习各个可学习参数,反复迭代对网络进行训练。将数据集的验证集图像输入到练好的网络中逐像素进行分类预测,进行语义分割,对网络使用平均交并比进行评估。
综上所述,通过本发明使水下场景图像中物体的多尺度特征间相互关联,再通过高效聚焦模块从关联后的多尺度特征中捕捉解码过程所需的特征信息,减弱了编码过程产生的部分较为粗糙的低阶语义特征对解码过程高阶语义特征的干扰,解决了水下场景图像高阶语义特征关键信息不够突出的问题。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (6)
1.一种图像语义分割系统,其特征在于,包括:输入模块、数据预处理模块、多层级SwinTransformer编码器、瓶颈模块、多层级Swin Transformer解码器、Vision Transformer多尺度特征聚焦跳过连接模块、和预测输出模块,
所述输入模块,用于获取待分割的水下场景图像;
所述多层级Swin Transformer编码器,用于提取待分割图像的多尺度的全局关联特征;多层级Swin Transformer编码器是分层的,每层都包括基于Swin Transformer的特征提取模块,所述基于Swin Transformer的特征提取模块由补丁合并模块和SwinTransformer模块构成,所述补丁合并模块包括像素划分层、归一化层和全连接层;多层级Swin Transformer编码器包含四个阶段,每个阶段都采用补丁合并模块和SwinTransformer模块对图像进行下采样编码,具体是,每个阶段都采用补丁合并模块的像素划分层将相邻像素划分为一个块,将每个块中相同位置像素拼在一起得到分辨率下降的特征图并将得到的特征图在通道方向进行拼接,接着通过补丁合并模块的一个归一化层,再通过补丁合并模块的一个全连接层在特征图通道方向做线性变化,将特征图通道数减少一倍,采用Swin Transformer模块对图像进行编码提取特征,四个阶段相继连接,上一个阶段的输出特征作为下一个阶段的输入,经过四个下采样特征提取阶段依次得到四个分辨率依次降低的特征图、、、;
所述瓶颈模块,包括两个连续的基于Swin Transformer的特征提取模块,所述多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图作为瓶颈模块的输入,所述瓶颈模块输出特征图送入所述多层级Swin Transformer解码器;
所述多层级Swin Transformer解码器,用于解码关键多尺度特征,生成像素级语义特征;多层级Swin Transformer解码器是分层的,每层都包括上采样解码模块,所述上采样解码模块包括上采样模块和Swin Transformer模块,所述上采样模块包括双线性插值层和卷积层;多层级Swin Transformer解码器包含四个阶段,每个阶段采用上采样模块的插值和卷积调整输入特征图的分辨率和通道数,具体是,每个阶段都采用上采样模块的双线性插值层进行双线性插值计算将输入特征图的分辨率增加一倍,采用上采样模块的卷积层使输入的特征图的分辨率不变、通道数减半,采用Swin Transformer模块对调整后的特征进行解码;所述上采样解码模块依次记为、、、;
所述Vision Transformer多尺度特征聚焦跳过连接模块,包括多尺度特征关联模块和高效聚焦模块,用于将多层级Swin Transformer编码器每个阶段输出的特征先利用一个多尺度特征关联模块进行特征关联捕获不同尺度特征的局部和全局相关性,再利用三个高效聚焦模块进行特征聚焦;
其中特征关联过程利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图、、、重塑使其在通道维度上统一成同样大小,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征,将拼接产生的多尺度特征的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为;
其中特征聚焦过程中三个高效聚焦模块分别需要多层级Swin Transformer解码器上采样解码模块、、的输出特征进行引导,分别与多尺度特征交叉注意进行序列交互突出关联后多尺度特征的关键表征信息,再分别送入到相邻多层级SwinTransformer解码器的上采样解码模块、、中;
3.根据权利要求1所述的一种图像语义分割系统,其特征在于,所述高效聚焦模块用于聚焦所述多尺度特征关联模块输出的多尺度特征中的重要信息,高效聚焦模块包括三个,分别是高效聚焦模块Ⅰ、高效聚焦模块Ⅱ、高效聚焦模块Ⅲ,结构相同,高效聚焦模块Ⅰ包括高效交叉注意模块和MLP模块,所述高效交叉注意模块由卷积层和多头注意力模块构成,用于将上采样解码模块输出的特征重塑使其在通道维度为,在空间维度上展平,作为输入张量Q1,将相互关联的多尺度特征作为输入张量K1、V1,将张量Q1、K1、V1送入多头注意力模块进行交叉注意,Q1首先进行引导从多尺度特征中收集关键信息,再将自身与关键信息进行残差连接,经过MLP模块,生成特征;同理,另外两个高效聚焦模块将上采样解码模块、输出特征和多尺度特征作为输入,生成特征、。
4.一种图像语义分割方法,其特征在于,使用权利要求3所述的一种图像语义分割系统实现,包括以下步骤:
步骤1、数据预处理:
步骤2、提取待分割图像的多尺度的全局关联特征:
步骤3、进一步提取深层语义特征:
步骤4、解码生成像素级语义特征:
利用多层级Swin Transformer解码器依次解码瓶颈模块的输出特征和三个高效聚焦模块输出的关键多尺度特征,最终生成像素级语义特征;
步骤5、多尺度特征关联:
利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图、、、重塑使其在通道维度上统一成同样大小,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征,将拼接产生的多尺度特征的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为;
步骤6、多尺度特征聚焦:
利用高效聚焦模块从多尺度特征关联模块输出的多尺度特征中捕获多层级Swin Transformer编码器输出的语义特征所需的关键多尺度表征,具体是: 利用三个高效聚焦模块分别将上采样解码模块、、输出的特征和多尺度特征作为输入,生成特征、、;
步骤7、逐像素语义结果预测:
6.根据权利要求4所述的一种图像语义分割方法,其特征在于,步骤6中多尺度特征聚焦的具体步骤如下:
第一步,将瓶颈模块得到的特征送入上采样解码模块,输出的特征形状为;将输出的特征重塑使其在通道维度为,在空间维度上展平,作为高效交叉注意模块的输入张量Q1,将相互关联的多尺度特征作为输入张量K1,V1 ,在高效交叉注意模块中缩减K1,V1的序列长度,再对Q1、K1、V1 进行多头注意力计算最后生成特征:
第二步,输出的特征形状为,将输出的特征重塑使其在通道维度为,在空间维度上展平,作为高效交叉注意模块的输入张量Q2,将相互关联的多尺度特征作为输入张量K2,V2;与第一步同样的,在高效交叉注意模块缩减K2,V2的序列长度,再对Q2、K2、V2进行多头注意力计算最后生成特征:
第三步,输出的特征形状为,将输出的特征重塑使其在通道维度为,在空间维度上展平,作为高效交叉注意模块的输入张量Q3,将相互关联的多尺度特征作为输入张量K3,V3;在高效交叉注意模块中缩减K3,V3的序列长度,再对Q3、K3、V3进行交叉注意最后生成特征:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310212890.1A CN115953582B (zh) | 2023-03-08 | 2023-03-08 | 一种图像语义分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310212890.1A CN115953582B (zh) | 2023-03-08 | 2023-03-08 | 一种图像语义分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115953582A true CN115953582A (zh) | 2023-04-11 |
CN115953582B CN115953582B (zh) | 2023-05-26 |
Family
ID=85892935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310212890.1A Active CN115953582B (zh) | 2023-03-08 | 2023-03-08 | 一种图像语义分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115953582B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094999A (zh) * | 2023-10-19 | 2023-11-21 | 南京航空航天大学 | 一种跨尺度缺陷检测方法 |
CN117649666A (zh) * | 2024-01-30 | 2024-03-05 | 中国海洋大学 | 一种基于动态多尺度信息查询的图像语义分割方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505792A (zh) * | 2021-06-30 | 2021-10-15 | 中国海洋大学 | 面向非均衡遥感图像的多尺度语义分割方法及模型 |
CN113888744A (zh) * | 2021-10-14 | 2022-01-04 | 浙江大学 | 一种基于Transformer视觉上采样模块的图像语义分割方法 |
CN114998154A (zh) * | 2022-06-29 | 2022-09-02 | 杭州师范大学 | 基于transformer和多尺度特征的低剂量CT图像去噪方法 |
US20220391796A1 (en) * | 2020-08-12 | 2022-12-08 | Everseen Limited | System and Method for Mapping Risks in a Warehouse Environment |
-
2023
- 2023-03-08 CN CN202310212890.1A patent/CN115953582B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220391796A1 (en) * | 2020-08-12 | 2022-12-08 | Everseen Limited | System and Method for Mapping Risks in a Warehouse Environment |
CN113505792A (zh) * | 2021-06-30 | 2021-10-15 | 中国海洋大学 | 面向非均衡遥感图像的多尺度语义分割方法及模型 |
CN113888744A (zh) * | 2021-10-14 | 2022-01-04 | 浙江大学 | 一种基于Transformer视觉上采样模块的图像语义分割方法 |
CN114998154A (zh) * | 2022-06-29 | 2022-09-02 | 杭州师范大学 | 基于transformer和多尺度特征的低剂量CT图像去噪方法 |
Non-Patent Citations (2)
Title |
---|
HAO DU: "SwinPA-Net:Swin Transformer-Based Multiscale Feature Pyramid Aggregation Network for Medical Image Segmentation", 《IEEE TRANSACTIONS ON NEUWORKS AND LEARNING SYSTEMS》 * |
熊昌镇;智慧;: "多模型集成的弱监督语义分割算法", 计算机辅助设计与图形学学报 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094999A (zh) * | 2023-10-19 | 2023-11-21 | 南京航空航天大学 | 一种跨尺度缺陷检测方法 |
CN117094999B (zh) * | 2023-10-19 | 2023-12-22 | 南京航空航天大学 | 一种跨尺度缺陷检测方法 |
CN117649666A (zh) * | 2024-01-30 | 2024-03-05 | 中国海洋大学 | 一种基于动态多尺度信息查询的图像语义分割方法及系统 |
CN117649666B (zh) * | 2024-01-30 | 2024-04-26 | 中国海洋大学 | 一种基于动态多尺度信息查询的图像语义分割方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115953582B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110706302B (zh) | 一种文本合成图像的系统及方法 | |
CN115953582A (zh) | 一种图像语义分割方法及系统 | |
CN114943963B (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN112347859A (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN112258526B (zh) | 一种基于对偶注意力机制的ct肾脏区域级联分割方法 | |
CN114202529B (zh) | 一种全局特征引导的多任务篡改图像检测方法 | |
CN116051549B (zh) | 一种太阳能电池片缺陷分割方法、系统、介质及设备 | |
CN112084859A (zh) | 一种基于稠密边界块和注意力机制的建筑物分割方法 | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
Kang et al. | Multilayer degradation representation-guided blind super-resolution for remote sensing images | |
CN115457043A (zh) | 基于重叠自注意力变形器架构u型网络的图像分割网络 | |
CN114694039A (zh) | 一种遥感高光谱与激光雷达图像融合分类方法及装置 | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
CN115424310A (zh) | 一种面向人脸重演中表情分离任务的弱标注学习方法 | |
CN117036736A (zh) | 基于pvt交互网络的显著性目标检测方法 | |
CN116612416A (zh) | 一种指代视频目标分割方法、装置、设备及可读存储介质 | |
CN116206132A (zh) | 一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测方法及系统 | |
CN113344110B (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN113378598B (zh) | 一种基于深度学习的动态条码检测方法 | |
CN114972851A (zh) | 一种基于遥感影像的船只目标智能检测方法 | |
CN114821438A (zh) | 一种基于多路径激励的视频人体行为识别方法及系统 | |
Ma et al. | MHGAN: A Multi-Headed Generative Adversarial Network for Underwater Sonar Image Super-Resolution | |
CN112464733A (zh) | 基于双向特征融合的高分辨率光学遥感图像地物分类方法 | |
Liu et al. | Cross-modal feature integration network for human eye-fixation prediction in RGB-D images | |
Zhang et al. | Image Super-Resolution Using a Wavelet-based Generative Adversarial Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |