CN115953582A - 一种图像语义分割方法及系统 - Google Patents

一种图像语义分割方法及系统 Download PDF

Info

Publication number
CN115953582A
CN115953582A CN202310212890.1A CN202310212890A CN115953582A CN 115953582 A CN115953582 A CN 115953582A CN 202310212890 A CN202310212890 A CN 202310212890A CN 115953582 A CN115953582 A CN 115953582A
Authority
CN
China
Prior art keywords
module
feature
output
swin
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310212890.1A
Other languages
English (en)
Other versions
CN115953582B (zh
Inventor
黄磊
王庆
魏志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202310212890.1A priority Critical patent/CN115953582B/zh
Publication of CN115953582A publication Critical patent/CN115953582A/zh
Application granted granted Critical
Publication of CN115953582B publication Critical patent/CN115953582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明属于图像处理技术领域,公开了一种图像语义分割方法及系统,所述系统包括输入模块、数据预处理模块、多层级Swin Transformer编码器、瓶颈模块、多层级Swin Transformer解码器、Vision Transformer多尺度特征聚焦跳过连接模块、和预测输出模块,通过本发明能够捕获多尺度全局特征相关性信息,突出高阶语义信息的关键信息。

Description

一种图像语义分割方法及系统
技术领域
本发明属于图像处理技术领域,特别涉及一种图像语义分割方法及系统。
背景技术
图像中的像素有着不同的语义信息,语义分割的实质就是将这些不同语义的像素进行分类,达到对图像在像素级别上的理解。在过去几年,基于CNN的语义分割方法取得了辉煌的成就,但是由于卷积运算的固有局部性,它们不能很好地捕获全局和长距离的语义信息交互关系。近几年由于Transformer具有远程依赖性和良好的性能,基于Transformer的方法在各种视觉任务中应运而生。随着Vision Transformer在计算机视觉领域的普及以及对图像语义分割技术不断增长的需求,基于Vision Transformer的图像语义分割研究成为了计算机视觉中重要的研究热点,并在水下场景分析方面具有广泛的应用。
水下场景光照衰减、场景感知精度低、场景复杂的特点,对水下场景图像语义分割中的关键——水下多尺度物体关键表征学习,带来了极大挑战。水下场景中场景复杂加上光照不足,待观测物体边缘交错且模糊是水下场景中最典型的现象之一。现有的逐像素分类的图像语义分割模型应用于水下场景时,其分割性能会受到影响,甚至出现显著的性能倒退。现有的典型U形图像语义分割方法,由具有跳过连接的对称编码器-解码器组成。在编码器中,使用一系列卷积层和连续下采样层来提取具有大感受野的深度特征。然后,解码器将提取的深度特征向上采样到像素级语义预测的输入分辨率,并使用跳过连接方式连接编码器中不同尺度的高分辨率特征,捕获低阶空间信息。现有基于Vision Transformer的U形网络中跳过连接模块中大多采用直接连接、拼接标准卷积层或者对多尺度特征单独处理的连接方式。这些方法应用于水下场景时会导致编码器提取水下场景中待观测物体的多尺度特征间相对独立,网络对跨尺度全局依赖关系学习不充分的问题;同时由于水下场景复杂且模糊编码器产生的部分低阶语义信息较为粗糙,现有方法的连接方式会导致这些粗糙的低阶信息对解码过程中的高阶语义信息产生噪声干扰,造成了高阶语义特征关键表征信息不够突出的问题。
基于计算机视觉领域已有的Transformer模型,Transformer解码器中的交叉注意对噪声输入具有鲁棒性,以实现更好的特征对齐及突出特征关键信息,因此本发明采用Vision Transformer来完成具有挑战性的水下场景图像语义分割任务。针对水下场景物体多尺度相关性信息学习不充分以及关键表征信息不够突出的问题,本发明提出了一种图像语义分割方法。
发明内容
针对现有技术存在的不足,本发明提供一种图像语义分割方法及系统,能够充分捕获水下场景物体多尺度全局特征相关性信息,突出高阶语义信息的关键信息,获得精准的语义分割结果。
为了解决上述技术问题,本发明采用的技术方案是:
首先,本发明提供一种图像语义分割系统,包括:输入模块、数据预处理模块、多层级Swin Transformer编码器、瓶颈模块、多层级Swin Transformer解码器、VisionTransformer多尺度特征聚焦跳过连接模块、和预测输出模块,
所述输入模块,用于获取待分割的水下场景图像;
所述数据预处理模块,用于将输入图像剪裁或缩放处理为H×W的预处理图像,然后将预处理图像交叠切分成图像块,并将各个图像块在通道维度展平,得到数据序列Xinput ;其中,H为预处理图像的高度、W为预处理图像的宽度;
所述多层级Swin Transformer编码器,用于提取待分割图像的多尺度的全局关联特征;多层级Swin Transformer编码器是分层的,每层都包括基于Swin Transformer的特征提取模块,所述基于Swin Transformer的特征提取模块由补丁合并模块和SwinTransformer模块构成,所述补丁合并模块包括像素划分层、归一化层和全连接层构成;多层级Swin Transformer编码器包含四个阶段,每个阶段都采用补丁合并模块和SwinTransformer模块对图像进行下采样编码,具体是,每个阶段都采用补丁合并模块的像素划分层将相邻像素划分为一个块,将每个块中相同位置像素拼在一起得到分辨率下降的特征图并将得到的特征图在通道方向进行拼接,接着通过补丁合并模块的一个归一化层,再通过补丁合并模块的一个全连接层在特征图通道方向做线性变化,将特征图通道数减少一倍,采用Swin Transformer模块对图像进行编码提取特征,四个阶段相继连接,上一个阶段的输出特征作为下一个阶段的输入,经过四个下采样特征提取阶段依次得到四个分辨率依次降低的特征图
Figure SMS_1
Figure SMS_2
Figure SMS_3
Figure SMS_4
所述瓶颈模块,包括两个连续的基于Swin Transformer的特征提取模块,所述多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图
Figure SMS_5
作为瓶颈模块的输入,所述瓶颈模块输出特征图
Figure SMS_6
送入所述多层级Swin Transformer解码器;
所述多层级Swin Transformer解码器,用于解码关键多尺度特征,生成像素级语义特征;多层级Swin Transformer解码器是分层的,每层都包括上采样解码模块,所述上采样解码模块包括上采样模块和Swin Transformer模块,所述上采样模块包括双线性插值层和卷积层;多层级Swin Transformer解码器包含四个阶段,每个阶段采用上采样模块的插值和卷积调整输入特征图的分辨率和通道数,具体是,每个阶段都采用上采样模块的双线性插值层进行双线性插值计算将输入特征图的分辨率增加一倍,采用上采样模块的卷积层使输入的特征图的分辨率不变、通道数减半,采用Swin Transformer模块对调整后的特征进行解码;所述上采样解码模块依次记为
Figure SMS_7
Figure SMS_8
Figure SMS_9
Figure SMS_10
所述Vision Transformer多尺度特征聚焦跳过连接模块,包括多尺度特征关联模块和高效聚焦模块,用于将多层级Swin Transformer编码器每个阶段输出的特征先利用一个多尺度特征关联模块进行特征关联捕获不同尺度特征的局部和全局相关性,再利用三个高效聚焦模块进行特征聚焦;
其中特征关联过程利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图
Figure SMS_13
Figure SMS_15
Figure SMS_18
Figure SMS_12
重塑使其在通道维度上统一成同样大小
Figure SMS_16
,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征
Figure SMS_17
,将拼接产生的多尺度特征
Figure SMS_19
的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征
Figure SMS_11
通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为
Figure SMS_14
其中特征聚焦过程中三个高效聚焦模块分别需要多层级Swin Transformer解码器上采样解码模块
Figure SMS_20
Figure SMS_21
Figure SMS_22
的输出特征进行引导,分别与多尺度特征
Figure SMS_23
交叉注意进行序列交互突出关联后多尺度特征的关键表征信息,再分别送入到相邻多层级SwinTransformer解码器的上采样解码模块
Figure SMS_24
Figure SMS_25
Figure SMS_26
中;
所述预测输出模块,包括上采样模块Ⅱ和预测模块构成,上采样模块Ⅱ与上采样解码模块中的上采样模块结构相同,所述预测模块由Softmax分类器构成,采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图
Figure SMS_27
,采用预测模块对特征图
Figure SMS_28
用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
 进一步的,所述多层级Swin Transformer编码器的四个阶段依次得到四个不同分辨率的特征图,特征图
Figure SMS_29
形状是
Figure SMS_32
,特征图
Figure SMS_36
形状是
Figure SMS_31
,特征图
Figure SMS_34
形状是
Figure SMS_37
,特征图
Figure SMS_38
形状是
Figure SMS_30
;所述瓶颈模块输出的特征图
Figure SMS_33
形状是
Figure SMS_35
;其中,C为通道数。
进一步的,所述高效聚焦模块用于聚焦所述多尺度特征关联模块输出的多尺度特征
Figure SMS_41
中的重要信息,高效聚焦模块包括三个,分别是高效聚焦模块Ⅰ、高效聚焦模块Ⅱ、高效聚焦模块Ⅲ,结构相同,高效聚焦模块Ⅰ包括高效交叉注意模块和MLP模块,所述高效交叉注意模块由卷积层和多头注意力模块构成,用于将上采样解码模块
Figure SMS_43
输出的特征重塑使其在通道维度为
Figure SMS_45
,在空间维度上展平,作为输入张量Q1,将相互关联的多尺度特征
Figure SMS_40
作为输入张量K1、V1,将张量Q1、K1、V1送入多头注意力模块进行交叉注意,Q1首先进行引导从多尺度特征中收集关键信息,再将自身与关键信息进行残差连接,经过MLP模块,生成特征
Figure SMS_44
;同理,另外两个高效聚焦模块将上采样解码模块
Figure SMS_47
Figure SMS_48
输出特征和多尺度特征
Figure SMS_39
作为输入,生成特征
Figure SMS_42
Figure SMS_46
然后,本发明还提供一种图像语义分割方法,使用如前所述的图像语义分割系统实现,包括以下步骤:
步骤1、数据预处理:
对输入图像根据目标尺寸占原图像尺寸的比例进行裁剪或缩放,获得大小为H×W的预处理图像,然后将预处理图像交叠切分成图像块,并将各个图像块再通道维度展平,得到数据序列
Figure SMS_49
步骤2、提取待分割图像的多尺度的全局关联特征:
利用多层级Swin Transformer编码器分四个阶段提取特征,得到四个分辨率依次降低的特征图
Figure SMS_50
Figure SMS_51
Figure SMS_52
Figure SMS_53
步骤3、进一步提取深层语义特征:
多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图
Figure SMS_54
作为瓶颈模块的输入,将瓶颈模块输出的特征图
Figure SMS_55
送入多层级Swin Transformer解码器;
步骤4、解码生成像素级语义特征:
利用多层级Swin Transformer解码器依次解码瓶颈模块的输出特征和三个高效聚焦模块输出的关键多尺度特征,最终生成像素级语义特征;
步骤5、多尺度特征关联:
 利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图
Figure SMS_57
Figure SMS_59
Figure SMS_63
Figure SMS_58
重塑使其在通道维度上统一成同样大小
Figure SMS_61
,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征
Figure SMS_62
,将拼接产生的多尺度特征
Figure SMS_64
的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征
Figure SMS_56
通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为
Figure SMS_60
步骤6、多尺度特征聚焦:
利用高效聚焦模块从多尺度特征关联模块输出的多尺度特征
Figure SMS_67
中捕获多层级Swin Transformer编码器输出的语义特征所需的关键多尺度表征信息,具体是:利用三个高效聚焦模块分别将上采样解码模块
Figure SMS_68
Figure SMS_70
Figure SMS_65
输出的特征和多尺度特征
Figure SMS_69
作为输入,生成特征
Figure SMS_71
Figure SMS_72
Figure SMS_66
步骤7、逐像素语义结果预测:
利用预测输出模块将多层级Swin Transformer解码器最终输出特征图即上采样解码模块
Figure SMS_73
的输出特征图采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图
Figure SMS_74
,采用预测模块对特征图
Figure SMS_75
用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
进一步的,步骤5中多尺度特征关联的具体步骤如下:
线性层还原的通道数与原特征
Figure SMS_76
一致所产生的特征作为多尺度特征关联模块中多头注意力计算的输入张量Q、K、V,再进行多头注意力计算,得到特征
Figure SMS_77
Figure SMS_78
Figure SMS_79
Figure SMS_80
Figure SMS_81
Figure SMS_82
其中
Figure SMS_86
Figure SMS_89
指重塑函数,将待重塑序列重塑为形状为
Figure SMS_92
的序列,
Figure SMS_85
表示一个以
Figure SMS_88
维张量为输入,以
Figure SMS_90
维张量为输出的线性层,Softmax指Softmax激活函数,
Figure SMS_94
Figure SMS_84
均为中间生成的特征,N是特征
Figure SMS_87
的序列长度,
Figure SMS_91
Figure SMS_93
的序列维度,
Figure SMS_83
是多头注意力的头数,R是超参数;T为转置;
输出的特征
Figure SMS_95
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure SMS_96
进一步的,步骤6中多尺度特征聚焦的具体步骤如下:
第一步,将瓶颈模块得到的特征送入上采样解码模块
Figure SMS_97
Figure SMS_98
输出的特征形状为
Figure SMS_99
;将
Figure SMS_100
输出的特征重塑使其在通道维度为
Figure SMS_101
,在空间维度上展平,作为高效交叉注意模块的输入张量Q1,将相互关联的多尺度特征
Figure SMS_102
作为输入张量K1,V1 ,在高效交叉注意模块中缩减K1,V1的序列长度,再对Q1、K1、V1 进行多头注意力计算最后生成特征
Figure SMS_103
Figure SMS_104
其中
Figure SMS_105
Figure SMS_106
指卷积函数,设置输入输出通道都为
Figure SMS_107
,卷积核大小和步长都为
Figure SMS_108
,R是超参数,Softmax指Softmax激活函数,
Figure SMS_109
是多头注意力的头数;
输出的特征
Figure SMS_110
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure SMS_111
;高效聚焦模块Ⅰ根据来自上采样解码模块的张量Q1聚焦多尺度特征
Figure SMS_112
中的重要信息
Figure SMS_113
,将其传入上采样解码模块
Figure SMS_114
第二步,
Figure SMS_115
输出的特征形状为
Figure SMS_116
,将
Figure SMS_117
输出的特征重塑使其在通道维度为
Figure SMS_118
,在空间维度上展平,作为高效交叉注意模块的输入张量Q2,将相互关联的多尺度特征
Figure SMS_119
作为输入张量K2,V2;与第一步同样的,在高效交叉注意模块缩减K2,V2的序列长度,再对Q2、K2、V2进行多头注意力计算最后生成特征
Figure SMS_120
Figure SMS_121
其中
Figure SMS_122
Figure SMS_123
指卷积函数,设置输入输出通道都为
Figure SMS_124
,卷积核大小和步长都为
Figure SMS_125
,R是超参数,Softmax指Softmax激活函数,
Figure SMS_126
是多头注意力的头数;
输出的特征
Figure SMS_127
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure SMS_128
;高效聚焦模块Ⅱ根据来自上采样解码模块的张量Q2聚焦多尺度特征
Figure SMS_129
中的重要信息
Figure SMS_130
,将其传入上采样解码模块
Figure SMS_131
第三步,
Figure SMS_132
输出的特征形状为
Figure SMS_133
,将
Figure SMS_134
输出的特征重塑使其在通道维度为
Figure SMS_135
,在空间维度上展平,作为高效交叉注意模块的输入张量Q3,将相互关联的多尺度特征
Figure SMS_136
作为输入张量K3,V3;在高效交叉注意模块中缩减K3,V3的序列长度,再对Q3、K3、V3进行交叉注意最后生成特征
Figure SMS_137
Figure SMS_138
其中
Figure SMS_139
Figure SMS_140
指卷积函数,设置输入输出通道都为
Figure SMS_141
,卷积核大小和步长都为
Figure SMS_142
,R是超参数,Softmax指Softmax激活函数,
Figure SMS_143
是多头注意力的头数;
输出的特征
Figure SMS_144
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure SMS_145
;高效聚焦模块Ⅲ根据来自上采样解码模块的张量Q3聚焦多尺度特征
Figure SMS_146
中的重要信息
Figure SMS_147
,将其传入上采样解码模块
Figure SMS_148
与现有技术相比,本发明的优点如下:
本发明提出的Vision Transformer多尺度特征聚焦跳过连接模块使编码过程生成的水下场景图像的多尺度特征通过Vision Transformer提取多尺度全局特征相关性信息,使多尺度特征间充分相互关联;跳过连接模块中的高效聚焦模块从关联后的多尺度特征中捕捉解码过程所需的关键特征信息,减弱了编码产生的部分较为粗糙的低阶语义特征对解码过程高阶语义特征的干扰,解决了水下场景图像高阶语义特征关键信息不够突出的问题。
本发明提出的分割方法充分考虑了水下场景物体多尺度特征间的相关性,低阶表征信息与高阶语义信息存在的相关性,提升水下场景图像分割效果,可以有效提高水下场景图像中不同尺度对象的分割精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的图像语义分割系统架构图;
图2为本发明的一个高效聚焦模块的结构图;
图3本发明的图像语义分割方法流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
结合图1,本实施例提供一种图像语义分割系统,包括:输入模块、数据预处理模块、多层级Swin Transformer编码器、瓶颈模块、多层级Swin Transformer解码器、VisionTransformer多尺度特征聚焦跳过连接模块、和预测输出模块。
所述输入模块,用于获取待分割的水下场景图像;
所述数据预处理模块,用于将输入图像剪裁或缩放处理为H×W的预处理图像,然后将预处理图像交叠切分成图像块,并将各个图像块再通道维度展平,得到数据序列Xinput;其中,H为预处理图像的高度、W为预处理图像的宽度;也就是说输入图像尺寸为H×W×C,C为通道数。
所述多层级Swin Transformer编码器,用于提取待分割图像的多尺度的全局关联特征;多层级Swin Transformer编码器是分层的,每层都包括基于Swin Transformer的特征提取模块,所述基于Swin Transformer的特征提取模块由补丁合并模块和SwinTransformer模块构成,所述补丁合并模块包括像素划分层、归一化层和全连接层;多层级Swin Transformer编码器包含四个阶段,每个阶段都采用补丁合并模块和SwinTransformer模块对图像进行下采样编码,具体是,每个阶段都采用补丁合并模块的像素划分层将每个2×2(仅一个举例)的相邻像素划分为一个块,将每个块中相同位置像素拼在一起得到分辨率下降的特征图,得到的特征图在通道方向进行拼接,接着通过补丁合并模块的一个归一化层,再通过补丁合并模块的一个全连接层在特征图通道方向做线性变化,将特征图通道数减少一倍,采用Swin Transformer模块对图像进行编码提取特征,四个阶段相继连接,上一个阶段的输出特征作为下一个阶段的输入,经过四个下采样特征提取阶段依次得到四个分辨率依次降低的特征图
Figure SMS_149
Figure SMS_150
Figure SMS_151
Figure SMS_152
所述瓶颈模块,包括两个连续的基于Swin Transformer的特征提取模块,所述多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图
Figure SMS_153
作为瓶颈模块的输入,所述瓶颈模块输出特征图
Figure SMS_154
送入所述多层级Swin Transformer解码器。
所述多层级Swin Transformer解码器,用于解码关键多尺度特征,生成像素级语义特征;多层级Swin Transformer解码器是分层的,每层都包括上采样解码模块,所述上采样解码模块包括上采样模块和Swin Transformer模块,所述上采样模块包括双线性插值层和卷积层;多层级Swin Transformer解码器包含四个阶段,每个阶段采用上采样模块的插值和卷积调整输入特征图的分辨率和通道数,具体是,每个阶段都采用上采样模块的双线性插值层进行双线性插值计算将输入特征图的分辨率增加一倍,采用上采样模块的卷积层使输入的特征图的分辨率不变、通道数减半,本实施例采用上采样模块的卷积层进行卷积核大小为3×3、卷积核个数为特征图通道数的一半、步长为1、padding为1的一层卷积计算使特征图的分辨率不变,通道数减少一倍,采用Swin Transformer模块对调整后的特征进行解码;所述上采样解码模块依次记为
Figure SMS_155
Figure SMS_156
Figure SMS_157
Figure SMS_158
所述Vision Transformer多尺度特征聚焦跳过连接模块,包括多尺度特征关联模块和高效聚焦模块,用于将多层级Swin Transformer编码器每个阶段输出的特征先利用一个多尺度特征关联模块进行特征关联捕获不同尺度特征的局部和全局相关性,再利用三个高效聚焦模块进行特征聚焦;
其中特征关联过程利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图
Figure SMS_160
Figure SMS_164
Figure SMS_166
Figure SMS_161
重塑使其在通道维度上统一成同样大小
Figure SMS_163
,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征
Figure SMS_165
,将拼接产生的多尺度特征
Figure SMS_167
的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征
Figure SMS_159
通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为
Figure SMS_162
其中特征聚焦过程中三个高效聚焦模块分别需要多层级Swin Transformer解码器上采样解码模块
Figure SMS_168
Figure SMS_169
Figure SMS_170
的输出特征进行引导,分别与多尺度特征
Figure SMS_171
交叉注意进行序列交互突出关联后多尺度特征的关键表征信息,再分别送入到相邻多层级SwinTransformer解码器的上采样解码模块
Figure SMS_172
Figure SMS_173
Figure SMS_174
中;
所述预测输出模块,包括上采样模块Ⅱ和预测模块构成,上采样模块Ⅱ与上采样解码模块中的上采样模块结构相同,此处不再赘述,所述预测模块由Softmax分类器构成,采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图
Figure SMS_175
,采用预测模块对特征图
Figure SMS_176
用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
作为一个优选的实施方式,所述多层级Swin Transformer编码器的四个阶段依次得到四个不同分辨率的特征图,特征图
Figure SMS_178
形状是
Figure SMS_182
,特征图
Figure SMS_185
形状是
Figure SMS_177
,特征图
Figure SMS_180
形状是
Figure SMS_184
,特征图
Figure SMS_186
形状是
Figure SMS_179
;所述瓶颈模块输出的特征图
Figure SMS_181
形状是
Figure SMS_183
结合图2所示,所述高效聚焦模块用于聚焦所述多尺度特征关联模块输出的多尺度特征
Figure SMS_187
中的重要信息,高效聚焦模块包括三个,分别是高效聚焦模块Ⅰ、高效聚焦模块Ⅱ、高效聚焦模块Ⅲ,结构相同,以高效聚焦模块Ⅰ为例说明,包括高效交叉注意模块和MLP模块,所述高效交叉注意模块由卷积层和多头注意力模块构成,用于将上采样解码模块
Figure SMS_191
输出的特征重塑使其在通道维度为
Figure SMS_193
,在空间维度上展平,作为输入张量Q1,将相互关联的多尺度特征
Figure SMS_188
作为输入张量K1、V1,将张量Q1、K1、V1送入多头注意力模块进行交叉注意,Q1首先进行引导从多尺度特征中收集关键信息,再将自身与关键信息进行残差连接,经过MLP模块,生成特征
Figure SMS_192
;同理,另外两个高效聚焦模块将上采样解码模块
Figure SMS_195
Figure SMS_196
输出特征和多尺度特征
Figure SMS_189
作为输入,生成特征
Figure SMS_190
Figure SMS_194
实施例2
本实施例提供一种图像语义分割方法,使用实施例1所述的图像语义分割系统实现。
结合图3,包括以下步骤:
步骤1、数据预处理:
对输入图像根据目标尺寸占原图像尺寸的比例进行裁剪或缩放,获得大小为H×W的预处理图像,然后将预处理图像交叠切分成图像块,每个块的大小为4×4×3,其中切割过程通过卷积完成,保持了局部图像区域的连续性。最后将各个图像块再通道维度展平,得到数据序列 
Figure SMS_197
Figure SMS_198
,作为分割网络多层级Swin Transformer编码器的输入,以获得图像的多尺度全局关联的深层语义特征。
针对多尺度相关性信息缺少以及关键信息不够突出的问题,本实施例设计了图像语义分割网络,由四部分构成:编码器、瓶颈模块、解码器和跳过连接模块,具体可参见实施例1部分的介绍,此处不再赘述。
步骤2、提取待分割图像的多尺度的全局关联特征;
利用多层级Swin Transformer编码器分四个阶段提取特征,得到四个分辨率依次降低的特征图
Figure SMS_199
Figure SMS_204
Figure SMS_208
Figure SMS_201
;特征图
Figure SMS_203
形状是
Figure SMS_207
,特征图
Figure SMS_209
形状是
Figure SMS_200
,特征图
Figure SMS_205
形状是
Figure SMS_206
,特征图
Figure SMS_210
形状是
Figure SMS_202
步骤3、进一步提取深层语义特征:
多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图
Figure SMS_211
作为瓶颈模块的输入,将瓶颈模块输出的特征图
Figure SMS_212
送入多层级Swin Transformer解码器;瓶颈模块输出的特征图
Figure SMS_213
形状是
Figure SMS_214
步骤4、解码生成像素级语义特征:
利用多层级Swin Transformer解码器依次解码瓶颈模块的输出特征和三个高效聚焦模块输出的关键多尺度特征,最终生成像素级语义特征。
步骤5、多尺度特征关联:
为了捕获多层级Swin Transformer解码器输出的不同尺度特征的局部和全局相关性,在跳过连接模块引入高效Vision Transformer进行多尺度特征关联,具体步骤如下:利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图
Figure SMS_215
Figure SMS_216
Figure SMS_217
Figure SMS_218
重塑使其在通道维度上统一成同样大小
Figure SMS_219
,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征
Figure SMS_220
Figure SMS_221
其中,
Figure SMS_222
指特征重塑函数,
Figure SMS_223
指特征拼接函数。
将拼接产生的多尺度特征
Figure SMS_224
的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征
Figure SMS_225
通道数一致,产生的特征作为多尺度特征关联模块中多头注意力计算的输入张量Q、K、V,再进行多头注意力计算,得到特征
Figure SMS_226
Figure SMS_227
Figure SMS_228
Figure SMS_229
Figure SMS_230
Figure SMS_231
其中
Figure SMS_233
Figure SMS_236
指重塑函数,将待重塑序列重塑为形状为
Figure SMS_239
的序列,
Figure SMS_235
表示一个以
Figure SMS_238
维张量为输入,以
Figure SMS_241
维张量为输出的线性层,Softmax指Softmax激活函数,
Figure SMS_243
Figure SMS_234
均为中间生成的特征,N是特征
Figure SMS_237
的序列长度,
Figure SMS_240
Figure SMS_242
的序列维度,
Figure SMS_232
是多头注意力的头数,T为转置;R是超参数,本实施例R设置为4。
输出的特征
Figure SMS_244
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure SMS_245
步骤6、多尺度特征聚焦:
为了最大化发挥多层级Swin Transformer解码器的作用,提取更优的多尺度关键特征,利用高效聚焦模块从多尺度特征关联模块输出的多尺度特征
Figure SMS_248
中捕获多层级Swin Transformer编码器输出的语义特征所需的关键多尺度表征信息,减弱编码过程产生的部分较为粗糙的低阶语义特征对解码过程高阶语义特征的干扰,解决高阶语义特征关键多尺度表征信息不够突出的问题。具体是:利用三个高效聚焦模块分别将上采样解码模块
Figure SMS_250
Figure SMS_252
Figure SMS_246
输出的特征和多尺度特征
Figure SMS_249
作为输入,生成特征
Figure SMS_251
Figure SMS_253
Figure SMS_247
聚焦的具体步骤如下:
第一步,将瓶颈模块得到的特征送入上采样解码模块
Figure SMS_254
Figure SMS_255
输出的特征形状为
Figure SMS_256
;将
Figure SMS_257
输出的特征重塑使其在通道维度为
Figure SMS_258
,在空间维度上展平,作为高效交叉注意模块的输入张量Q1,将相互关联的多尺度特征
Figure SMS_259
作为输入张量K1,V1 ,在高效交叉注意模块中缩减K1,V1的序列长度(考虑K1,V1的序列长度过大,直接送入到多头注意力模块中会导致计算量很大,不利于网络训练,本实施例使用两个卷积层分别减小K1、V1的序列长度),再对Q1、K1、V1 进行多头注意力计算最后生成特征
Figure SMS_260
Figure SMS_261
其中
Figure SMS_262
Figure SMS_263
指卷积函数,设置输入输出通道都为
Figure SMS_264
,卷积核大小和步长都为
Figure SMS_265
Figure SMS_266
是超参数,本实施例R设置为4,Softmax指Softmax激活函数,
Figure SMS_267
是多头注意力的头数,本实施例
Figure SMS_268
设置为8。
输出的特征
Figure SMS_269
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure SMS_270
;高效聚焦模块Ⅰ根据来自上采样解码模块的张量Q1聚焦多尺度特征
Figure SMS_271
中的重要信息
Figure SMS_272
,将其传入上采样解码模块
Figure SMS_273
第二步,
Figure SMS_274
输出的特征形状为
Figure SMS_275
,将
Figure SMS_276
输出的特征重塑使其在通道维度为
Figure SMS_277
,在空间维度上展平,作为高效交叉注意模块的输入张量Q2,将相互关联的多尺度特征
Figure SMS_278
作为输入张量K2,V2;与第一步同样的,在高效交叉注意模块缩减K2,V2的序列长度,再对Q2、K2、V2进行多头注意力计算最后生成特征
Figure SMS_279
Figure SMS_280
其中
Figure SMS_281
Figure SMS_282
指卷积函数,设置输入输出通道都为
Figure SMS_283
,卷积核大小和步长都为
Figure SMS_284
,R是超参数,本实施例R设置为4,Softmax指Softmax激活函数,
Figure SMS_285
是多头注意力的头数,本实施例
Figure SMS_286
设置为8。
输出的特征
Figure SMS_287
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure SMS_288
;高效聚焦模块Ⅱ根据来自上采样解码模块的张量Q2聚焦多尺度特征
Figure SMS_289
中的重要信息
Figure SMS_290
,将其传入上采样解码模块
Figure SMS_291
第三步,
Figure SMS_292
输出的特征形状为
Figure SMS_293
,将
Figure SMS_294
输出的特征重塑使其在通道维度为
Figure SMS_295
,在空间维度上展平,作为高效交叉注意模块的输入张量Q3,将相互关联的多尺度特征
Figure SMS_296
作为输入张量K3,V3;在高效交叉注意模块中缩减K3,V3的序列长度,再对Q3、K3、V3进行交叉注意最后生成特征
Figure SMS_297
Figure SMS_298
其中
Figure SMS_299
Figure SMS_300
指卷积函数,设置输入输出通道都为
Figure SMS_301
,卷积核大小和步长都为
Figure SMS_302
,R是超参数,本实施例R设置为4,Softmax指Softmax激活函数,
Figure SMS_303
是多头注意力的头数,本实施例
Figure SMS_304
设置为8。
输出的特征
Figure SMS_305
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure SMS_306
;高效聚焦模块Ⅲ根据来自上采样解码模块的张量Q3聚焦多尺度特征
Figure SMS_307
中的重要信息
Figure SMS_308
,将其传入上采样解码模块
Figure SMS_309
步骤7、逐像素语义结果预测:
利用预测输出模块将多层级Swin Transformer解码器最终输出特征图即上采样解码模块
Figure SMS_310
的输出特征图采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图
Figure SMS_311
,采用预测模块对特征图
Figure SMS_312
用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
具体步骤如下:
Figure SMS_313
生成的特征F形状为
Figure SMS_314
,采用插值和卷积调整特征图的分辨率和维度,得到最终的特征图
Figure SMS_315
,分辨率和维度为
Figure SMS_316
Figure SMS_317
为语义类别个数:
Figure SMS_318
其中
Figure SMS_319
指插值函数,插值前特征空间维度为
Figure SMS_320
,插值后维度为
Figure SMS_321
Figure SMS_322
指卷积函数。
也就是说,本发明输入特征通道为C,输出特征通道为
Figure SMS_323
Figure SMS_324
是得到的最终的特征图,形状为
Figure SMS_325
。然后用Softmax分类器以像素为单位预测每个像素所属语义类别。最后由输出模块输出分割结果图。
最后,需要说明的是,在构建本发明的图像语义分割系统的网络模型时,需要进行模型训练和评估。将最终的特征图
Figure SMS_326
和训练集标签图像输入到交叉熵损失函数中,逐像素求交叉熵损失,进行反向传播学习各个可学习参数,反复迭代对网络进行训练。将数据集的验证集图像输入到练好的网络中逐像素进行分类预测,进行语义分割,对网络使用平均交并比
Figure SMS_327
进行评估。
综上所述,通过本发明使水下场景图像中物体的多尺度特征间相互关联,再通过高效聚焦模块从关联后的多尺度特征中捕捉解码过程所需的特征信息,减弱了编码过程产生的部分较为粗糙的低阶语义特征对解码过程高阶语义特征的干扰,解决了水下场景图像高阶语义特征关键信息不够突出的问题。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (6)

1.一种图像语义分割系统,其特征在于,包括:输入模块、数据预处理模块、多层级SwinTransformer编码器、瓶颈模块、多层级Swin Transformer解码器、Vision Transformer多尺度特征聚焦跳过连接模块、和预测输出模块,
所述输入模块,用于获取待分割的水下场景图像;
所述数据预处理模块,用于将输入图像剪裁或缩放处理为H×W的预处理图像,然后将预处理图像交叠切分成图像块,并将各个图像块在通道维度展平,得到数据序列
Figure QLYQS_1
;其中,H为预处理图像的高度、W为预处理图像的宽度;
所述多层级Swin Transformer编码器,用于提取待分割图像的多尺度的全局关联特征;多层级Swin Transformer编码器是分层的,每层都包括基于Swin Transformer的特征提取模块,所述基于Swin Transformer的特征提取模块由补丁合并模块和SwinTransformer模块构成,所述补丁合并模块包括像素划分层、归一化层和全连接层;多层级Swin Transformer编码器包含四个阶段,每个阶段都采用补丁合并模块和SwinTransformer模块对图像进行下采样编码,具体是,每个阶段都采用补丁合并模块的像素划分层将相邻像素划分为一个块,将每个块中相同位置像素拼在一起得到分辨率下降的特征图并将得到的特征图在通道方向进行拼接,接着通过补丁合并模块的一个归一化层,再通过补丁合并模块的一个全连接层在特征图通道方向做线性变化,将特征图通道数减少一倍,采用Swin Transformer模块对图像进行编码提取特征,四个阶段相继连接,上一个阶段的输出特征作为下一个阶段的输入,经过四个下采样特征提取阶段依次得到四个分辨率依次降低的特征图
Figure QLYQS_2
Figure QLYQS_3
Figure QLYQS_4
Figure QLYQS_5
所述瓶颈模块,包括两个连续的基于Swin Transformer的特征提取模块,所述多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图
Figure QLYQS_6
作为瓶颈模块的输入,所述瓶颈模块输出特征图
Figure QLYQS_7
送入所述多层级Swin Transformer解码器;
所述多层级Swin Transformer解码器,用于解码关键多尺度特征,生成像素级语义特征;多层级Swin Transformer解码器是分层的,每层都包括上采样解码模块,所述上采样解码模块包括上采样模块和Swin Transformer模块,所述上采样模块包括双线性插值层和卷积层;多层级Swin Transformer解码器包含四个阶段,每个阶段采用上采样模块的插值和卷积调整输入特征图的分辨率和通道数,具体是,每个阶段都采用上采样模块的双线性插值层进行双线性插值计算将输入特征图的分辨率增加一倍,采用上采样模块的卷积层使输入的特征图的分辨率不变、通道数减半,采用Swin Transformer模块对调整后的特征进行解码;所述上采样解码模块依次记为
Figure QLYQS_8
Figure QLYQS_9
Figure QLYQS_10
Figure QLYQS_11
所述Vision Transformer多尺度特征聚焦跳过连接模块,包括多尺度特征关联模块和高效聚焦模块,用于将多层级Swin Transformer编码器每个阶段输出的特征先利用一个多尺度特征关联模块进行特征关联捕获不同尺度特征的局部和全局相关性,再利用三个高效聚焦模块进行特征聚焦;
其中特征关联过程利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图
Figure QLYQS_14
Figure QLYQS_17
Figure QLYQS_18
Figure QLYQS_12
重塑使其在通道维度上统一成同样大小
Figure QLYQS_16
,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征
Figure QLYQS_19
,将拼接产生的多尺度特征
Figure QLYQS_20
的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征
Figure QLYQS_13
通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为
Figure QLYQS_15
其中特征聚焦过程中三个高效聚焦模块分别需要多层级Swin Transformer解码器上采样解码模块
Figure QLYQS_21
Figure QLYQS_22
Figure QLYQS_23
的输出特征进行引导,分别与多尺度特征
Figure QLYQS_24
交叉注意进行序列交互突出关联后多尺度特征的关键表征信息,再分别送入到相邻多层级SwinTransformer解码器的上采样解码模块
Figure QLYQS_25
Figure QLYQS_26
Figure QLYQS_27
中;
所述预测输出模块,包括上采样模块Ⅱ和预测模块,上采样模块Ⅱ与上采样解码模块中的上采样模块结构相同,所述预测模块由Softmax分类器构成,采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图
Figure QLYQS_28
,采用预测模块对特征图
Figure QLYQS_29
用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
2.根据权利要求1所述的一种图像语义分割系统,其特征在于,所述多层级SwinTransformer编码器的四个阶段依次得到四个不同分辨率的特征图,特征图
Figure QLYQS_31
形状是
Figure QLYQS_33
,特征图
Figure QLYQS_36
形状是
Figure QLYQS_30
,特征图
Figure QLYQS_34
形状是
Figure QLYQS_38
,特征图
Figure QLYQS_39
形状是
Figure QLYQS_32
;所述瓶颈模块输出的特征图
Figure QLYQS_35
形状是
Figure QLYQS_37
;其中,C为通道数。
3.根据权利要求1所述的一种图像语义分割系统,其特征在于,所述高效聚焦模块用于聚焦所述多尺度特征关联模块输出的多尺度特征
Figure QLYQS_41
中的重要信息,高效聚焦模块包括三个,分别是高效聚焦模块Ⅰ、高效聚焦模块Ⅱ、高效聚焦模块Ⅲ,结构相同,高效聚焦模块Ⅰ包括高效交叉注意模块和MLP模块,所述高效交叉注意模块由卷积层和多头注意力模块构成,用于将上采样解码模块
Figure QLYQS_45
输出的特征重塑使其在通道维度为
Figure QLYQS_46
,在空间维度上展平,作为输入张量Q1,将相互关联的多尺度特征
Figure QLYQS_42
作为输入张量K1、V1,将张量Q1、K1、V1送入多头注意力模块进行交叉注意,Q1首先进行引导从多尺度特征中收集关键信息,再将自身与关键信息进行残差连接,经过MLP模块,生成特征
Figure QLYQS_44
;同理,另外两个高效聚焦模块将上采样解码模块
Figure QLYQS_48
Figure QLYQS_49
输出特征和多尺度特征
Figure QLYQS_40
作为输入,生成特征
Figure QLYQS_43
Figure QLYQS_47
4.一种图像语义分割方法,其特征在于,使用权利要求3所述的一种图像语义分割系统实现,包括以下步骤:
步骤1、数据预处理:
对输入图像根据目标尺寸占原图像尺寸的比例进行裁剪或缩放,获得大小为H×W的预处理图像,然后将预处理图像交叠切分成图像块,并将各个图像块在通道维度展平,得到数据序列
Figure QLYQS_50
步骤2、提取待分割图像的多尺度的全局关联特征:
利用多层级Swin Transformer编码器分四个阶段提取特征,得到四个分辨率依次降低的特征图
Figure QLYQS_51
Figure QLYQS_52
Figure QLYQS_53
Figure QLYQS_54
步骤3、进一步提取深层语义特征:
多层级Swin Transformer编码器最后一个阶段输出的最小分辨率的特征图
Figure QLYQS_55
作为瓶颈模块的输入,将瓶颈模块输出的特征图
Figure QLYQS_56
送入多层级Swin Transformer解码器;
步骤4、解码生成像素级语义特征:
利用多层级Swin Transformer解码器依次解码瓶颈模块的输出特征和三个高效聚焦模块输出的关键多尺度特征,最终生成像素级语义特征;
步骤5、多尺度特征关联:
利用多尺度特征关联模块将多层级Swin Transformer编码器输出的四个特征图
Figure QLYQS_57
Figure QLYQS_62
Figure QLYQS_63
Figure QLYQS_58
重塑使其在通道维度上统一成同样大小
Figure QLYQS_60
,在空间维度上展平,然后在展平的空间维度上进行拼接,产生多尺度特征
Figure QLYQS_64
,将拼接产生的多尺度特征
Figure QLYQS_65
的序列长度使用重塑函数缩小超参数R倍,通道数扩大R倍,使用一层线性层将通道数还原到与原特征
Figure QLYQS_59
通道数一致,再进行多头注意力计算,最后送入MLP模块,捕获不同尺度特征的局部和全局相关性;MLP模块输出的特征形状与多头注意力计算输入的特征形状相同,记输出的多尺度特征为
Figure QLYQS_61
步骤6、多尺度特征聚焦:
利用高效聚焦模块从多尺度特征关联模块输出的多尺度特征
Figure QLYQS_66
中捕获多层级Swin Transformer编码器输出的语义特征所需的关键多尺度表征,具体是: 利用三个高效聚焦模块分别将上采样解码模块
Figure QLYQS_70
Figure QLYQS_72
Figure QLYQS_68
输出的特征和多尺度特征
Figure QLYQS_69
作为输入,生成特征
Figure QLYQS_71
Figure QLYQS_73
Figure QLYQS_67
步骤7、逐像素语义结果预测:
利用预测输出模块将多层级Swin Transformer解码器最终输出特征图即上采样解码模块
Figure QLYQS_74
的输出特征图采用上采样模块Ⅱ调整特征图的分辨率和通道数,得到与预处理图像高度宽度相同、通道数为待预测的类别数的特征图
Figure QLYQS_75
,采用预测模块对特征图
Figure QLYQS_76
用Softmax分类器以像素为单位预测每个像素所属语义类别得到最终的分割结果图。
5.根据权利要求4所述的一种图像语义分割方法,其特征在于,步骤5中多尺度特征关联的具体步骤如下:
线性层还原的通道数与原特征
Figure QLYQS_77
一致所产生的特征作为多尺度特征关联模块中多头注意力计算的输入张量Q、K、V,再进行多头注意力计算,得到特征
Figure QLYQS_78
Figure QLYQS_79
Figure QLYQS_80
Figure QLYQS_81
Figure QLYQS_82
Figure QLYQS_83
其中
Figure QLYQS_86
Figure QLYQS_88
指重塑函数,将待重塑序列重塑为形状为
Figure QLYQS_93
的序列,
Figure QLYQS_87
表示一个以
Figure QLYQS_90
维张量为输入,以
Figure QLYQS_91
维张量为输出的线性层,Softmax指Softmax激活函数,
Figure QLYQS_94
Figure QLYQS_85
均为中间生成的特征,N是特征
Figure QLYQS_89
的序列长度,
Figure QLYQS_92
Figure QLYQS_95
的序列维度,
Figure QLYQS_84
是多头注意力的头数,R是超参数,T为转置;
输出的特征
Figure QLYQS_96
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure QLYQS_97
6.根据权利要求4所述的一种图像语义分割方法,其特征在于,步骤6中多尺度特征聚焦的具体步骤如下:
第一步,将瓶颈模块得到的特征送入上采样解码模块
Figure QLYQS_98
Figure QLYQS_99
输出的特征形状为
Figure QLYQS_100
;将
Figure QLYQS_101
输出的特征重塑使其在通道维度为
Figure QLYQS_102
,在空间维度上展平,作为高效交叉注意模块的输入张量Q1,将相互关联的多尺度特征
Figure QLYQS_103
作为输入张量K1,V1 ,在高效交叉注意模块中缩减K1,V1的序列长度,再对Q1、K1、V1 进行多头注意力计算最后生成特征
Figure QLYQS_104
Figure QLYQS_105
其中
Figure QLYQS_106
Figure QLYQS_107
指卷积函数,设置输入输出通道都为
Figure QLYQS_108
,卷积核大小和步长都为
Figure QLYQS_109
,R是超参数,Softmax指Softmax激活函数,
Figure QLYQS_110
是多头注意力的头数;
输出的特征
Figure QLYQS_111
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure QLYQS_112
;高效聚焦模块Ⅰ根据来自上采样解码模块的张量Q1聚焦多尺度特征
Figure QLYQS_113
中的重要信息
Figure QLYQS_114
,将其传入上采样解码模块
Figure QLYQS_115
第二步,
Figure QLYQS_116
输出的特征形状为
Figure QLYQS_117
,将
Figure QLYQS_118
输出的特征重塑使其在通道维度为
Figure QLYQS_119
,在空间维度上展平,作为高效交叉注意模块的输入张量Q2,将相互关联的多尺度特征
Figure QLYQS_120
作为输入张量K2,V2;与第一步同样的,在高效交叉注意模块缩减K2,V2的序列长度,再对Q2、K2、V2进行多头注意力计算最后生成特征
Figure QLYQS_121
Figure QLYQS_122
其中
Figure QLYQS_123
Figure QLYQS_124
指卷积函数,设置输入输出通道都为
Figure QLYQS_125
,卷积核大小和步长都为
Figure QLYQS_126
,R是超参数,Softmax指Softmax激活函数,
Figure QLYQS_127
是多头注意力的头数;
输出的特征
Figure QLYQS_128
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure QLYQS_129
;高效聚焦模块Ⅱ根据来自上采样解码模块的张量Q2聚焦多尺度特征
Figure QLYQS_130
中的重要信息
Figure QLYQS_131
,将其传入上采样解码模块
Figure QLYQS_132
第三步,
Figure QLYQS_133
输出的特征形状为
Figure QLYQS_134
,将
Figure QLYQS_135
输出的特征重塑使其在通道维度为
Figure QLYQS_136
,在空间维度上展平,作为高效交叉注意模块的输入张量Q3,将相互关联的多尺度特征
Figure QLYQS_137
作为输入张量K3,V3;在高效交叉注意模块中缩减K3,V3的序列长度,再对Q3、K3、V3进行交叉注意最后生成特征
Figure QLYQS_138
Figure QLYQS_139
其中
Figure QLYQS_140
Figure QLYQS_141
指卷积函数,设置输入输出通道都为
Figure QLYQS_142
,卷积核大小和步长都为
Figure QLYQS_143
,R是超参数,Softmax指Softmax激活函数,
Figure QLYQS_144
是多头注意力的头数;
输出的特征
Figure QLYQS_145
经过一次残差连接,送入到MLP模块,最终得到与输入特征形状相同的特征
Figure QLYQS_146
;高效聚焦模块Ⅲ根据来自上采样解码模块的张量Q3聚焦多尺度特征
Figure QLYQS_147
中的重要信息
Figure QLYQS_148
,将其传入上采样解码模块
Figure QLYQS_149
CN202310212890.1A 2023-03-08 2023-03-08 一种图像语义分割方法及系统 Active CN115953582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310212890.1A CN115953582B (zh) 2023-03-08 2023-03-08 一种图像语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310212890.1A CN115953582B (zh) 2023-03-08 2023-03-08 一种图像语义分割方法及系统

Publications (2)

Publication Number Publication Date
CN115953582A true CN115953582A (zh) 2023-04-11
CN115953582B CN115953582B (zh) 2023-05-26

Family

ID=85892935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310212890.1A Active CN115953582B (zh) 2023-03-08 2023-03-08 一种图像语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN115953582B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094999A (zh) * 2023-10-19 2023-11-21 南京航空航天大学 一种跨尺度缺陷检测方法
CN117649666A (zh) * 2024-01-30 2024-03-05 中国海洋大学 一种基于动态多尺度信息查询的图像语义分割方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505792A (zh) * 2021-06-30 2021-10-15 中国海洋大学 面向非均衡遥感图像的多尺度语义分割方法及模型
CN113888744A (zh) * 2021-10-14 2022-01-04 浙江大学 一种基于Transformer视觉上采样模块的图像语义分割方法
CN114998154A (zh) * 2022-06-29 2022-09-02 杭州师范大学 基于transformer和多尺度特征的低剂量CT图像去噪方法
US20220391796A1 (en) * 2020-08-12 2022-12-08 Everseen Limited System and Method for Mapping Risks in a Warehouse Environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220391796A1 (en) * 2020-08-12 2022-12-08 Everseen Limited System and Method for Mapping Risks in a Warehouse Environment
CN113505792A (zh) * 2021-06-30 2021-10-15 中国海洋大学 面向非均衡遥感图像的多尺度语义分割方法及模型
CN113888744A (zh) * 2021-10-14 2022-01-04 浙江大学 一种基于Transformer视觉上采样模块的图像语义分割方法
CN114998154A (zh) * 2022-06-29 2022-09-02 杭州师范大学 基于transformer和多尺度特征的低剂量CT图像去噪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO DU: "SwinPA-Net:Swin Transformer-Based Multiscale Feature Pyramid Aggregation Network for Medical Image Segmentation", 《IEEE TRANSACTIONS ON NEUWORKS AND LEARNING SYSTEMS》 *
熊昌镇;智慧;: "多模型集成的弱监督语义分割算法", 计算机辅助设计与图形学学报 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094999A (zh) * 2023-10-19 2023-11-21 南京航空航天大学 一种跨尺度缺陷检测方法
CN117094999B (zh) * 2023-10-19 2023-12-22 南京航空航天大学 一种跨尺度缺陷检测方法
CN117649666A (zh) * 2024-01-30 2024-03-05 中国海洋大学 一种基于动态多尺度信息查询的图像语义分割方法及系统
CN117649666B (zh) * 2024-01-30 2024-04-26 中国海洋大学 一种基于动态多尺度信息查询的图像语义分割方法及系统

Also Published As

Publication number Publication date
CN115953582B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN110706302B (zh) 一种文本合成图像的系统及方法
CN115953582A (zh) 一种图像语义分割方法及系统
CN114943963B (zh) 一种基于双分支融合网络的遥感图像云和云影分割方法
CN112347859A (zh) 一种光学遥感图像显著性目标检测方法
CN112258526B (zh) 一种基于对偶注意力机制的ct肾脏区域级联分割方法
CN114202529B (zh) 一种全局特征引导的多任务篡改图像检测方法
CN116051549B (zh) 一种太阳能电池片缺陷分割方法、系统、介质及设备
CN112084859A (zh) 一种基于稠密边界块和注意力机制的建筑物分割方法
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
Kang et al. Multilayer degradation representation-guided blind super-resolution for remote sensing images
CN115457043A (zh) 基于重叠自注意力变形器架构u型网络的图像分割网络
CN114694039A (zh) 一种遥感高光谱与激光雷达图像融合分类方法及装置
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN115424310A (zh) 一种面向人脸重演中表情分离任务的弱标注学习方法
CN117036736A (zh) 基于pvt交互网络的显著性目标检测方法
CN116612416A (zh) 一种指代视频目标分割方法、装置、设备及可读存储介质
CN116206132A (zh) 一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测方法及系统
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN113378598B (zh) 一种基于深度学习的动态条码检测方法
CN114972851A (zh) 一种基于遥感影像的船只目标智能检测方法
CN114821438A (zh) 一种基于多路径激励的视频人体行为识别方法及系统
Ma et al. MHGAN: A Multi-Headed Generative Adversarial Network for Underwater Sonar Image Super-Resolution
CN112464733A (zh) 基于双向特征融合的高分辨率光学遥感图像地物分类方法
Liu et al. Cross-modal feature integration network for human eye-fixation prediction in RGB-D images
Zhang et al. Image Super-Resolution Using a Wavelet-based Generative Adversarial Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant