CN113888744A - 一种基于Transformer视觉上采样模块的图像语义分割方法 - Google Patents
一种基于Transformer视觉上采样模块的图像语义分割方法 Download PDFInfo
- Publication number
- CN113888744A CN113888744A CN202111198207.0A CN202111198207A CN113888744A CN 113888744 A CN113888744 A CN 113888744A CN 202111198207 A CN202111198207 A CN 202111198207A CN 113888744 A CN113888744 A CN 113888744A
- Authority
- CN
- China
- Prior art keywords
- module
- sampling
- semantic segmentation
- visual
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000000007 visual effect Effects 0.000 title claims abstract description 48
- 238000005070 sampling Methods 0.000 claims abstract description 102
- 230000008569 process Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000011084 recovery Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 abstract description 12
- 238000000605 extraction Methods 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 238000011176 pooling Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Transformer视觉上采样模块的图像语义分割方法。本发明在图像语义分割任务中引入基于视觉Transformer模块进行特征图的上采样模块,在上采样过程中融入原先保存的部分特征图信息作为上采样辅助信息。与原先传统上采样模块相比,避免了在未知信息中进行补0的操作同时也避免了反卷积等带来的棋盘效应。依赖于窗口化降采样的创新过程解决了深层特征图关注全局语义信息而丢失局部细节信息的尴尬,对于局部窗口的Transformer提取带来了更优秀的细节信息,同时也解决了算力不足带来的影响,为Transformer解决大尺度问题提供了可能,能够提高图像语义分割的性能。
Description
技术领域
本发明涉及深度学习以及计算机视觉技术领域,具体涉及一种基于Transformer视觉上采样模块的图像语义分割方法。
背景技术
近年来,随着深度学习技术以及计算机视觉领域的快速发展,无人驾驶,行人检测,车牌识别,人脸识别越来越多任务可以通过深度学习技术解决。作为计算机视觉任务中最主要的部分特征提取网络也经历了井喷式地发展,从传统CNN网络到ResNet、MobileNet再到目前基于Transformer的特征提取结构,在信息提取上不断发展,特征提取越来越深层。虽然能够挖掘更深层的信息,但是大量视觉任务,例如语义分割,实例分割中往往最后需要输出与原始图像相同尺寸的结果,其中就需要将深层特征上采样到原来的尺寸,而上采样模块一直是较少人研究的热点问题。
现有的上采样方法可以分为三类:第一类,反池化方法,反池化基于传统下采样池化方法,在池化过程中,记录下MaxPooling在对应Kernel中的坐标,在反池化过程中,将一个元素根据Kernel进行放大,根据之前的坐标将元素填写进去,其他位置补0。此类方法需要记录池化过程的同时,上采样后只能返回Kernel区域内单个值信息,大量信息被丢失。第二类,反卷积,又称作转置卷积(Transposed Convolution),是卷积的逆过程,实现上采用转置卷积核的方法,直接模拟卷积操作的反向传播过程。此方法使用类似卷积的过程,区域信息化严重,容易出现棋盘效应,因此在模型训练中效果一般。第三类,插值法,最简单的方式是重采样和插值,将输入特征图Reshape到一个想要的尺寸,同时计算每个点的像素值,使用如双线性插值(Bilinear Interpolation)等插值方法对其余点进行插值,在一定程度上放大图像会显得光滑,值得注意的是此方法不会增加数据信息,也就是说如果Reshape尺寸增加为原来的16倍,在填充的过程中,将会有大量无效信息。
因此,现有的图形语义分割任务中,上采样模块存在的问题可以归纳为两方面:
第一:原先的上采样提取方法,基本都在上采样过程中使用补0的方法,上采样之后的结果将会有一定的丢失,而信息的丢失往往对于最终预测图像生成产生影响。
第二:随着语义分割等像素级任务的精度要求不断提升,简单的上采样模块往往无法达到对于信息进一步挖掘以及达到一定融合的需求,这对于在解码阶段进一步更好地将编码信息预测为真实情况造成影响。
因此,设计一种性能优越的上采样模块,进而提高图像语义分割的性能,是目前亟待解决的技术问题。
发明内容
本发明要解决的技术问题是如何充分利用深度学习网络中深层特征信息,将深层信息中的全局信息进行合理地上采样操作之后保存深层信息的同时能够结合浅层特征信息,并提供一种基于Transformer视觉上采样模块的图像语义分割方法。
本发明所采用的具体技术方案如下:
一种基于Transformer视觉上采样模块的图像语义分割方法,其具体做法为:将待语义分割的图像输入具有特征金字塔网络的语义分割模型中,且所述语义分割模型在上采样过程中以Transformer视觉上采样模块对浅层特征和深层特征进行上采样融合,最终由语义分割模型输出图像的语义分割结果;
所述Transformer视觉上采样模块包括两组窗口降采样模块和特征编码模块,以及级联的第一Transformer模块、多个第二Transformer模块和窗口复原采样模块;
两组窗口降采样模块和特征编码模块分别以浅层特征图和深层特征图作为输入,每个输入的特征图先进入窗口降采样模块中按照固定尺寸的划分窗口分割为不重合的窗口图像块,然后将划分得到的所有窗口图像块沿特征通道维度进行叠加形成降采样后的窗口集合,再将窗口集合输入线性分类器进行编码,并在线性分类器的编码结果基础上叠加相对位置编码记录窗口内部位置信息,从而得到每个输入的特征图对应的编码后特征向量;
浅层特征图和深层特征图各自对应的编码后特征向量同时作为第一Transformer模块的输入,两个输入经过层归一化后,以深层特征图对应的编码后特征向量作为多头注意力机制的Query和Value,以浅层特征图对应的编码后特征向量作为Key进行注意力融合得到注意力图,注意力图与深层特征图对应的编码后特征向量的相乘结果经过残差连接后,再经过层归一化、线性分类器和残差连接,最终输出的特征作为后方级联的第一个第二Transformer模块的输入;
每个第二Transformer模块,将输入的单个特征依次经过层归一化、多头注意力机制、残差连接、层归一化、线性分类器和残差连接后,形成传递至后方的输出特征;
所述窗口复原采样模块以最后一个第二Transformer模块的输出特征作为输入,按照与所述窗口降采样模块中降采样过程的逆向过程进行复原采样,得到当前Transformer视觉上采样模块最终输出的上采样结果,且该上采样结果与输入当前Transformer视觉上采样模块的浅层特征图的尺寸维度完全相同。
作为优选,所述具有特征金字塔网络的语义分割模型以U-Net模型为基线模型,将U-Net模型中的线性差分上采样模块均采用所述Transformer视觉上采样模块代替后得到。
作为优选,所述语义分割模型采用编码器-解码器结构;
在编码器部分中,输入的图像先连续经过四个下采样模块,每个下采样模块依次经过两次3*3卷积层(带归一化层和Relu激活函数)再通过下采样层得到下采样结果并输入下一个下采样模块,同时在每次下采样之前保存特征信息为浅层特征用于作为后续Transformer视觉上采样模块的输入信息,最后一个下采样模块输出的下采样结果依次经过两次带Relu激活函数的3*3卷积层后作为解码器部分中第一个Transformer视觉上采样模块的深层特征输入;
在解码器部分中,包括级联的四个Transformer视觉上采样模块、1*1卷积层和Sigmoid激活函数,前一个Transformer视觉上采样模块的输出作为下一个Transformer视觉上采样模块的深层特征输入,每一个Transformer视觉上采样模块的浅层特征来源于编码器部分中同一层级的下采样模块中下采样之前保存的特征信息,相邻Transformer视觉上采样模块之间通过一层1*1卷积层进行特征匹配。
作为优选,所述语义分割模型在用于实际语义分割之前,预先利用标注后的训练数据进行训练。
作为优选,所述语义分割模型训练所采用的损失函数为交叉熵损失。
作为优选,所述窗口降采样模块中,对深层特征图进行降采样所用的划分窗口尺寸固定为8×8。
作为优选,所述窗口降采样模块中,对浅层特征图进行降采样所用的划分窗口尺寸固定为16×16。
作为优选,所述第二Transformer模块中,多头注意力机制以输入模块的单一特征作为Query、Value和Key进行注意力融合,从而得到注意力图。
本发明相对于现有技术而言,具有以下有益效果:
本发明在图像语义分割任务中引入基于视觉Transformer模块进行特征图的上采样模块,在上采样过程中融入原先保存的部分特征图信息作为上采样辅助信息。与原先传统上采样模块相比,避免了在未知信息中进行补0的操作同时也避免了反卷积等带来的棋盘效应。依赖于窗口化降采样的创新过程解决了深层特征图关注全局语义信息而丢失局部细节信息的尴尬,对于局部窗口的Transformer提取带来了更优秀的细节信息,同时也解决了算力不足带来的影响,为Transformer解决大尺度问题提供了可能,能够提高图像语义分割的性能。
附图说明
图1为TUS模块模型结构图;
图2为特征窗口降采样编码示意图;
图3为Transformer模块示意图;
图4为TUS-Unet模型结构示意图;
图5为本发明实施例中TUS-Unet模型的一种训练和测试流程图;
图6为本发明实施例中的部分图像语义分割结果示例。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
在本发明的描述中,需要理解的是,当一个元件被认为是“连接”另一个元件,可以是直接连接到另一个元件或者是间接连接即存在中间元件。相反,当元件为称作“直接”与另一元件连接时,不存在中间元件。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
在大量深度学习视觉任务,例如语义分割,全景分割,目标检测等任务中,都需要将提取到的深层特征进行放大,此时就需要上采样模块。视觉任务一般采用编码器——解码器结构(Encoder-Decoder)。其中编码器部分一般使用ResNet,VGGNet,MobileNet等卷积模型,对于输入的原始图像在编码器模块中各个特征将会不断地经过线性以及非线性的叠加运算,往往越深的网络能得到更多的全局语义信息,表现出图像本身的特征,但是却会丢失大量局部细节,因此需要进行特征的放大,也就引入了上采样模块。上采样模块一般被使用于解码器部分,本发明的核心正是在图像分割模型中提出了了一种特殊的Transformer视觉上采样模块,即TransformerUpSampling(TUS)模块。需说明的是,该TUS模块可以作为嵌入式模块结合于任何语义分割模型中的特征融合部分,做到即插即用,在模型特征提取过程中只需要保存需要融合特征的浅层特征以及深层特征,通过TUS模块,输出最终特征上采样融合结果,进而基于特征上采样融合结果来实现图像语义分割。
因此,本发明提供的一种基于Transformer视觉上采样模块的图像语义分割方法具体为:将待语义分割的图像输入具有特征金字塔网络的语义分割模型中,且该语义分割模型在上采样过程中以Transformer视觉上采样模块对浅层特征和深层特征进行上采样融合,最终由语义分割模型输出图像的语义分割结果。
需注意的是,此处所采用的语义分割模型的具体形式不限,只要其具有特征金字塔网络(FPN),能够在解码器部分结合本发明的TUS模块即可,例如U-Net、Fast R-CNN等。
下面先对本发明的TUS模块的具体结构进行详细描述,图1为TUS模块的整体结构图,Transformer最早应用于自然语言处理(NLP)领域,因此输入格式要求是传统的一维Embedding Token,二维特征图像需要经过Patch Embedding操作进行编码,最早的VisionTranformer模块中的编码方式主要是将特征图分块(例如:7*7)为一个统一的Block,在对完整的Block进行编码操作,将会丢失局部信息和我们上采样的目的相违背,而如果直接采用单个像素为Block,考虑到上采样过程中输入尺寸图可能达到原图尺寸大小(例如:512*512),算力的局限性会造成参数量的爆炸。因此,本发明结合Swin-Transformer的滑窗思想以及GroupCNN的分组卷积思想引入了窗口降采样的方法,并在降采样之后进行特征编码,编码后的深层与浅层向量输入第一个Transformer模块中进行对应位置相关性提取,输出结果传入之后Transformer模块进行特征再提取,最终输出结果。
具体而言,TUS模块包括两组窗口降采样(Window Patch)模块和特征编码(LinearEmbedding)模块,以及级联的1个第一Transformer模块(CrossTransformer Block)、多个第二Transformer模块(Transformer Block)和窗口复原采样(Window Reverse)模块。
其中,浅层特征图通过一组窗口降采样模块和特征编码模块输入,而深层特征图通过另一组窗口降采样模块和特征编码模块输入。两组窗口降采样模块和特征编码模块中对于输入的处理流程一致,每个输入的特征图先进入窗口降采样模块中按照固定尺寸的划分窗口分割为不重合的窗口图像块,然后将划分得到的所有窗口图像块沿特征通道维度进行叠加形成降采样后的窗口集合,再将窗口集合输入线性分类器进行编码,并在线性分类器的编码结果基础上叠加相对位置编码记录窗口内部位置信息,从而得到每个输入的特征图对应的编码后特征向量。
具体而言,TUS模块的输入主要是两张特征图,需要上采样的尺寸小,通道数多的特征图被称为深层特征图fdeep,维度为(B×C1×H1×W1),B为输入的Bacth size,其在训练阶段视每一批的样本量而定,而在预测阶段可设置为1,C1、H1、W1分别为深层特征图的特征通道数、高度和宽度;尺寸较大,通道数少作为上采样参考的特征图被称为浅层特征图fsimple,维度为(B×C2×H2×W2),C2、H2、W2分别为浅层特征图的特征通道数、高度和宽度。如图2所示,在窗口降采样模块中,执行的是自适应性地降采样过程,其通过划分窗口将输入特征图划分成不重合的窗口集合,本实施例中深层特征图每个划分窗口尺寸为N1=8×8,浅层特征图每个划分窗口尺寸为N2=16×16,由于窗口图像块是沿特征通道维度进行叠加形成降采样后的窗口集合的,因此两个窗口集合的通道特征维度得到增加,分别变为在特征编码模块中,由于H1和W1均为H2和W2的1/2,为了之后进行Transformer操作需要将特征编码为相同维度。将降采样得到的两个窗口集合(维度为B×N1×C′1和B×N2×C′2)通过两个命名为Linear Embedding的线性分类器(MLP),对于特征维度C′1和C′2进行编码,深层特征图和浅层特征图分别对应输出的编码后特征f′deep和f′simple的维度为B×N1×C和=B×N2×C。该编码的目的在于对特征进一步进行抽取,同时对于过高维度特征进行压缩。另外,特征编码过程中考虑到可能的单个Patch内部位置信息的丢失,需引入深层特征图窗口的相对位置编码ξ1和浅层特征图窗口的相对位置编码ξ2,由此叠加后最终得到深层特征图和浅层特征图对应的编码后特征向量f″deep=f′deep+ξ1,f″simple=f′simple+ξ2。
如图3所示,在TUS模块中一共含有N+1个Transformer模块,其中第一个Transformer模块作为特征融合组件,即图3左侧的Cross Transformer Block,输入为两张特征图通过窗口降采样编码的两个特征向量f″deep、f″simple,而其余的N个Transformer模块均为传统Transformer Block,其输入为前端的Transformer模块的输出。即CrossTransformer Block的输出进入左侧的传统Transformer Block进一步进行特征提取后输出,然后再依次传递至下一个Transformer Block。
在第一Transformer模块中,浅层特征图和深层特征图各自对应的编码后特征向量f″deep、f″simple同时作为第一Transformer模块的输入。第一个Transformer模块接收输入的两个编码后的一维特征向量后,两个输入各自经过层归一化(Layer Normalization,LN)后,以层归一化的深层特征图对应的编码后特征向量f″deep作为多头注意力机制Cross-MHA的Query和Value,以层归一化的浅层特征图对应的编码后特征向量f″simple作为Key进行注意力融合得到注意力图A,注意力图A的维度为B×N2×N1,代表浅层各个窗口内部某个像素点对于深层像素点的影响。注意力图与Value即深层特征图对应的编码后特征向量f″deep的相乘,相乘结果与f″simple经过残差连接后,再经过层归一化和线性分类器进行特征激活输出,输出和前一个残差连接的结果再次残差连接,最终输出的特征fAtten作为后方级联的第一个第二Transformer模块的输入。整个第一Transformer模块能够对对应位置的窗口内部局部细节信息进行拓展融合,做到在上采样过程中弥补深层信息缺失的细节局部信息。
另外,每个第二Transformer模块中的数据处理流程与第一Transformer模块基本类似,其区别在于其输入仅有单一的特征,而第一Transformer模块具有两种特征。因此,在第二Transformer模块中,将输入的单个特征依次经过层归一化、多头注意力机制、残差连接、层归一化、线性分类器和残差连接后,形成传递至后方的输出特征。由于输入仅有单一的特征,因此第二Transformer模块中多头注意力机制MHA以输入模块的单一特征作为Query、Value和Key进行注意力融合,从而得到注意力图。前一个第二Transformer模块输出的特征作为下一个第二Transformer模块的输入,逐级传递,直至到达最后一个第二Transformer模块,最后一个第二Transformer模块输出的特征向量为fTrans,其维度为B×N2×C。
窗口复原采样模块以最后一个第二Transformer模块的输出特征fTrans作为输入,按照与前述窗口降采样模块中降采样过程的逆向过程进行复原采样,得到当前TUS模块最终输出的上采样结果Ffinal,且该上采样结果Ffinal与输入当前TUS模块的浅层特征图的尺寸维度完全相同,即Ffinal的维度为B×F2×H2×W2。
当存在多个TUS模块级联时,前一个TUS模块输出的Ffinal可作为深层特征输入下一个Ffinal。在进行图像语义分割任务时,最后一个TUS模块输出的Ffinal可通过分类器(全连接网络或MLP网络)输出每个像素属于某个类别的概率进行结果预测。
本发明的一个较佳实施例中,基于上述TUS模块,以U-Net网络作为语义分割的基线网络模型,设计了具有特征金字塔网络的语义分割模型TUS-Unet,进而提供了一种基于Transformer视觉上采样模块的图像语义分割方法,该方法中将待语义分割的图像输入TUS-Unet中,TUS-Unet在上采样过程中以Transformer视觉上采样模块对浅层特征和深层特征进行上采样融合,最终由TUS-Unet输出图像的语义分割结果。
TUS-Unet将U-Net模型中的线性差分上采样模块均采用TUS模块代替后得到。在本实施例中,TUS-Unet的具体结构如图4所示,与传统U-Net相似,其采用左右对称的编码器-解码器结构,具体如下:
在编码器部分中,输入的图像先连续经过四个下采样模块,每个下采样模块依次经过两次带Relu激活函数的3*3卷积层再通过下采样层得到下采样结果并输入下一个下采样模块,同时在每次下采样之前保存特征信息为浅层特征用于作为后续TUS模块的输入信息;四个下采样模块的保存的浅层特征图依次记为F1,F2,F3,F4。最后一个下采样模块输出的下采样结果依次经过两次带Relu激活函数的3*3卷积层后的结果F5作为解码器部分中第一个TUS模块的深层特征输入。
在解码器部分中,包括级联的四个TUS模块、1*1卷积层和Sigmoid激活函数,前一个TUS模块的输出作为下一个TUS模块的深层特征输入,每一个TUS模块的浅层特征来源于编码器部分中同一层级的下采样模块中下采样之前保存的特征信息,相邻TUS模块之间通过一层1*1卷积层进行特征匹配。因此,第一个TUS模块的输入是F5和F4,F5为深层特征,F4为浅层特征;第一个TUS模块的输出作为输入第二个TUS模块的深层特征,F3为输入第二个TUS模块的浅层特征;第二个TUS模块的输出作为输入第三个TUS模块的深层特征,F2为输入第三个TUS模块的浅层特征;第三个TUS模块的输出作为输入第四个TUS模块的深层特征,F1为输入第四个TUS模块的浅层特征。第四个TUS模块最终输出得到F=512×512×C的最终特征图向量。
需注意的是,上述语义分割模型TUS-Unet在用于实际语义分割之前,预先利用标注后的训练数据进行训练,语义分割模型训练所采用的损失函数可采用交叉熵损失。
下面将上述基于Transformer视觉上采样模块的图像语义分割方法应用于一个具体实施例中,以展示其所能实现的技术效果。
实施例
本实施例中的总体流程可以分为数据预处理,模型训练,图像预测三个阶段,具体如图5所示。
1、数据预处理阶段
步骤1,对于获得的原始图像(本实施例以遥感影像为例),进行图片预处理,先进行图像切割,翻转等操作后进行数据增强并处理成相同尺寸影像(512*512或256*256)。
步骤2,图像进行标注,使用Labelme等工具进行像素语义标注,生成后序模型训练的GroundTruth。
2、模型训练
步骤1,构建训练数据集,并将训练数据集按照固定的批量大小进行分批,总数为N。
步骤2,从训练数据集中顺序选取索引为i的一批训练样本,其中i∈{0,1,…,N}。利用每一个批次的训练样本对语义分割模型TUS-Unet进行训练。TUS-Unet的具体结构如前所述,不再赘述,其采用卷积编码器结构,可以使用ResNet50预训练网络作为编码器,同时能够保存每层特征。训练过程中,计算每一个训练样本交叉熵损失函数并根据批中所有训练样本的总损失对整个模型中的网络参数进行调整,直到训练数据集的所有批次都参与了模型训练。达到指定迭代次数后,模型收敛,训练完毕。
3、图像语义分割
将测试集的图像直接作为输入通过训练好的语义分割模型TUS-UNet中,最终预测得到拥有每个像素类别的概率,通过Sigmoid等激活函数选择概率最高的类别作为最终结果输出,从而实现语义分割。
图6展示了本实施例中部分遥感图像区域的分割测试结果,可以看到引入TUS模块的分割网络能够很好地对于图像处理出分割结果,在分割图像更加光滑的同时相较于使用传统的上采样方法具有一定数值上增加。依赖于窗口化降采样的创新过程解决了深层特征图关注全局语义信息而丢失局部细节信息的尴尬,对于局部窗口的Transformer提取带来了更优秀的细节信息。同时也解决了算力不足带来的影响,为Transformer解决大尺度问题提供了可能。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (8)
1.一种基于Transformer视觉上采样模块的图像语义分割方法,其特征在于:将待语义分割的图像输入具有特征金字塔网络的语义分割模型中,且所述语义分割模型在上采样过程中以Transformer视觉上采样模块对浅层特征和深层特征进行上采样融合,最终由语义分割模型输出图像的语义分割结果;
所述Transformer视觉上采样模块包括两组窗口降采样模块和特征编码模块,以及级联的第一Transformer模块、多个第二Transformer模块和窗口复原采样模块;
两组窗口降采样模块和特征编码模块分别以浅层特征图和深层特征图作为输入,每个输入的特征图先进入窗口降采样模块中按照固定尺寸的划分窗口分割为不重合的窗口图像块,然后将划分得到的所有窗口图像块沿特征通道维度进行叠加形成降采样后的窗口集合,再将窗口集合输入线性分类器进行编码,并在线性分类器的编码结果基础上叠加相对位置编码记录窗口内部位置信息,从而得到每个输入的特征图对应的编码后特征向量;
浅层特征图和深层特征图各自对应的编码后特征向量同时作为第一Transformer模块的输入,两个输入经过层归一化后,以深层特征图对应的编码后特征向量作为多头注意力机制的Query和Value,以浅层特征图对应的编码后特征向量作为Key进行注意力融合得到注意力图,注意力图与深层特征图对应的编码后特征向量的相乘结果经过残差连接后,再经过层归一化、线性分类器和残差连接,最终输出的特征作为后方级联的第一个第二Transformer模块的输入;
每个第二Transformer模块,将输入的单个特征依次经过层归一化、多头注意力机制、残差连接、层归一化、线性分类器和残差连接后,形成传递至后方的输出特征;
所述窗口复原采样模块以最后一个第二Transformer模块的输出特征作为输入,按照与所述窗口降采样模块中降采样过程的逆向过程进行复原采样,得到当前Transformer视觉上采样模块最终输出的上采样结果,且该上采样结果与输入当前Transformer视觉上采样模块的浅层特征图的尺寸维度完全相同。
2.如权利要求1所述的基于Transformer视觉上采样模块的图像语义分割方法,其特征在于,所述具有特征金字塔网络的语义分割模型以U-Net模型为基线模型,将U-Net模型中的线性差分上采样模块均采用所述Transformer视觉上采样模块代替后得到。
3.如权利要求2所述的基于Transformer视觉上采样模块的图像语义分割方法,其特征在于,所述语义分割模型采用编码器-解码器结构;
在编码器部分中,输入的图像先连续经过四个下采样模块,每个下采样模块依次经过两次3*3卷积层(带归一化层和Relu激活函数)再通过下采样层得到下采样结果并输入下一个下采样模块,同时在每次下采样之前保存特征信息为浅层特征用于作为后续Transformer视觉上采样模块的输入信息,最后一个下采样模块输出的下采样结果依次经过两次带Relu激活函数的3*3卷积层后作为解码器部分中第一个Transformer视觉上采样模块的深层特征输入;
在解码器部分中,包括级联的四个Transformer视觉上采样模块、1*1卷积层和Sigmoid激活函数,前一个Transformer视觉上采样模块的输出作为下一个Transformer视觉上采样模块的深层特征输入,每一个Transformer视觉上采样模块的浅层特征来源于编码器部分中同一层级的下采样模块中下采样之前保存的特征信息,相邻Transformer视觉上采样模块之间通过一层1*1卷积层进行特征匹配。
4.如权利要求2所述的基于Transformer视觉上采样模块的图像语义分割方法,其特征在于,所述语义分割模型在用于实际语义分割之前,预先利用标注后的训练数据进行训练。
5.如权利要求4所述的基于Transformer视觉上采样模块的图像语义分割方法,其特征在于,所述语义分割模型训练所采用的损失函数为交叉熵损失。
6.如权利要求1所述的基于Transformer视觉上采样模块的图像语义分割方法,其特征在于,所述窗口降采样模块中,对深层特征图进行降采样所用的划分窗口尺寸固定为8×8。
7.如权利要求1所述的基于Transformer视觉上采样模块的图像语义分割方法,其特征在于,所述窗口降采样模块中,对浅层特征图进行降采样所用的划分窗口尺寸固定为16×16。
8.如权利要求1所述的基于Transformer视觉上采样模块的图像语义分割方法,其特征在于,所述第二Transformer模块中,多头注意力机制以输入模块的单一特征作为Query、Value和Key进行注意力融合,从而得到注意力图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111198207.0A CN113888744A (zh) | 2021-10-14 | 2021-10-14 | 一种基于Transformer视觉上采样模块的图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111198207.0A CN113888744A (zh) | 2021-10-14 | 2021-10-14 | 一种基于Transformer视觉上采样模块的图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113888744A true CN113888744A (zh) | 2022-01-04 |
Family
ID=79002817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111198207.0A Pending CN113888744A (zh) | 2021-10-14 | 2021-10-14 | 一种基于Transformer视觉上采样模块的图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113888744A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494782A (zh) * | 2022-01-26 | 2022-05-13 | 北京百度网讯科技有限公司 | 图像处理方法、模型训练方法、相关装置及电子设备 |
CN114565763A (zh) * | 2022-02-28 | 2022-05-31 | 北京百度网讯科技有限公司 | 图像分割方法、装置、设备、介质及程序产品 |
CN114581459A (zh) * | 2022-02-08 | 2022-06-03 | 浙江大学 | 一种基于改进性3D U-Net模型的学前儿童肺部影像感兴趣区域分割方法 |
CN114612759A (zh) * | 2022-03-22 | 2022-06-10 | 北京百度网讯科技有限公司 | 视频处理方法、查询视频的方法和模型训练方法、装置 |
CN114627292A (zh) * | 2022-03-08 | 2022-06-14 | 浙江工商大学 | 工业遮挡目标检测方法 |
CN114723951A (zh) * | 2022-06-08 | 2022-07-08 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
CN114723760A (zh) * | 2022-05-19 | 2022-07-08 | 北京世纪好未来教育科技有限公司 | 人像分割模型的训练方法、装置及人像分割方法、装置 |
CN114943963A (zh) * | 2022-04-29 | 2022-08-26 | 南京信息工程大学 | 一种基于双分支融合网络的遥感图像云和云影分割方法 |
CN114999637A (zh) * | 2022-07-18 | 2022-09-02 | 华东交通大学 | 多角度编码与嵌入式互学习的病理图像诊断方法与系统 |
CN115063833A (zh) * | 2022-05-16 | 2022-09-16 | 国网冀北电力有限公司信息通信分公司 | 一种基于图像分层视觉的机房人员检测方法 |
CN115131364A (zh) * | 2022-08-26 | 2022-09-30 | 中加健康工程研究院(合肥)有限公司 | 一种基于Transformer的医学图像分割方法 |
CN115578406A (zh) * | 2022-12-13 | 2023-01-06 | 四川大学 | 基于上下文融合机制的cbct颌骨区域分割方法及系统 |
CN115953582A (zh) * | 2023-03-08 | 2023-04-11 | 中国海洋大学 | 一种图像语义分割方法及系统 |
CN116188431A (zh) * | 2023-02-21 | 2023-05-30 | 北京长木谷医疗科技有限公司 | 基于CNN与Transformer的髋关节分割方法及装置 |
CN116309650A (zh) * | 2023-05-22 | 2023-06-23 | 湖南大学 | 基于双分支嵌入注意力机制的医学图像分割方法与系统 |
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116486085A (zh) * | 2023-04-27 | 2023-07-25 | 北京卫星信息工程研究所 | 遥感图像的场景描述方法 |
CN117274607A (zh) * | 2023-11-23 | 2023-12-22 | 吉林大学 | 基于多路金字塔轻量级医学图像分割网络、方法和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020215236A1 (zh) * | 2019-04-24 | 2020-10-29 | 哈尔滨工业大学(深圳) | 图像语义分割方法和系统 |
US20210005182A1 (en) * | 2019-07-05 | 2021-01-07 | Asapp, Inc. | Multistream acoustic models with dilations |
CN113065578A (zh) * | 2021-03-10 | 2021-07-02 | 合肥市正茂科技有限公司 | 一种基于双路区域注意力编解码的图像视觉语义分割方法 |
CN113255699A (zh) * | 2021-06-10 | 2021-08-13 | 浙江华睿科技有限公司 | 小目标物体图像检测方法、装置、电子设备及存储介质 |
-
2021
- 2021-10-14 CN CN202111198207.0A patent/CN113888744A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020215236A1 (zh) * | 2019-04-24 | 2020-10-29 | 哈尔滨工业大学(深圳) | 图像语义分割方法和系统 |
US20210005182A1 (en) * | 2019-07-05 | 2021-01-07 | Asapp, Inc. | Multistream acoustic models with dilations |
CN113065578A (zh) * | 2021-03-10 | 2021-07-02 | 合肥市正茂科技有限公司 | 一种基于双路区域注意力编解码的图像视觉语义分割方法 |
CN113255699A (zh) * | 2021-06-10 | 2021-08-13 | 浙江华睿科技有限公司 | 小目标物体图像检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
丁献文;陈汉林;张微;: "基于提升小波的SAR图像斑点噪声抑制方法", 科技通报, no. 03, 15 May 2008 (2008-05-15) * |
李希;徐翔;李军;: "面向航空飞行安全的遥感图像小目标检测", 航空兵器, no. 03, 15 June 2020 (2020-06-15) * |
韩慧慧;李帷韬;王建平;焦点;孙百顺: "编码-解码结构的语义分割", 中国图象图形学报, no. 002, 31 December 2020 (2020-12-31) * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494782A (zh) * | 2022-01-26 | 2022-05-13 | 北京百度网讯科技有限公司 | 图像处理方法、模型训练方法、相关装置及电子设备 |
CN114494782B (zh) * | 2022-01-26 | 2023-08-08 | 北京百度网讯科技有限公司 | 图像处理方法、模型训练方法、相关装置及电子设备 |
CN114581459A (zh) * | 2022-02-08 | 2022-06-03 | 浙江大学 | 一种基于改进性3D U-Net模型的学前儿童肺部影像感兴趣区域分割方法 |
CN114565763A (zh) * | 2022-02-28 | 2022-05-31 | 北京百度网讯科技有限公司 | 图像分割方法、装置、设备、介质及程序产品 |
CN114565763B (zh) * | 2022-02-28 | 2024-01-05 | 北京百度网讯科技有限公司 | 图像分割方法、装置、设备、介质及程序产品 |
CN114627292A (zh) * | 2022-03-08 | 2022-06-14 | 浙江工商大学 | 工业遮挡目标检测方法 |
CN114627292B (zh) * | 2022-03-08 | 2024-05-14 | 浙江工商大学 | 工业遮挡目标检测方法 |
CN114612759A (zh) * | 2022-03-22 | 2022-06-10 | 北京百度网讯科技有限公司 | 视频处理方法、查询视频的方法和模型训练方法、装置 |
CN114943963A (zh) * | 2022-04-29 | 2022-08-26 | 南京信息工程大学 | 一种基于双分支融合网络的遥感图像云和云影分割方法 |
CN115063833A (zh) * | 2022-05-16 | 2022-09-16 | 国网冀北电力有限公司信息通信分公司 | 一种基于图像分层视觉的机房人员检测方法 |
CN115063833B (zh) * | 2022-05-16 | 2024-05-14 | 国网冀北电力有限公司信息通信分公司 | 一种基于图像分层视觉的机房人员检测方法 |
CN114723760A (zh) * | 2022-05-19 | 2022-07-08 | 北京世纪好未来教育科技有限公司 | 人像分割模型的训练方法、装置及人像分割方法、装置 |
CN114723951B (zh) * | 2022-06-08 | 2022-11-04 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
CN114723951A (zh) * | 2022-06-08 | 2022-07-08 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
CN114999637A (zh) * | 2022-07-18 | 2022-09-02 | 华东交通大学 | 多角度编码与嵌入式互学习的病理图像诊断方法与系统 |
CN115131364A (zh) * | 2022-08-26 | 2022-09-30 | 中加健康工程研究院(合肥)有限公司 | 一种基于Transformer的医学图像分割方法 |
CN115578406A (zh) * | 2022-12-13 | 2023-01-06 | 四川大学 | 基于上下文融合机制的cbct颌骨区域分割方法及系统 |
CN116188431A (zh) * | 2023-02-21 | 2023-05-30 | 北京长木谷医疗科技有限公司 | 基于CNN与Transformer的髋关节分割方法及装置 |
CN116188431B (zh) * | 2023-02-21 | 2024-02-09 | 北京长木谷医疗科技股份有限公司 | 基于CNN与Transformer的髋关节分割方法及装置 |
CN115953582B (zh) * | 2023-03-08 | 2023-05-26 | 中国海洋大学 | 一种图像语义分割方法及系统 |
CN115953582A (zh) * | 2023-03-08 | 2023-04-11 | 中国海洋大学 | 一种图像语义分割方法及系统 |
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116452931B (zh) * | 2023-04-11 | 2024-03-19 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116486085B (zh) * | 2023-04-27 | 2023-12-19 | 北京卫星信息工程研究所 | 遥感图像的场景描述方法 |
CN116486085A (zh) * | 2023-04-27 | 2023-07-25 | 北京卫星信息工程研究所 | 遥感图像的场景描述方法 |
CN116309650A (zh) * | 2023-05-22 | 2023-06-23 | 湖南大学 | 基于双分支嵌入注意力机制的医学图像分割方法与系统 |
CN117274607A (zh) * | 2023-11-23 | 2023-12-22 | 吉林大学 | 基于多路金字塔轻量级医学图像分割网络、方法和设备 |
CN117274607B (zh) * | 2023-11-23 | 2024-02-02 | 吉林大学 | 基于多路金字塔轻量级医学图像分割网络、方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
CN109034162B (zh) | 一种图像语义分割方法 | |
CN109087258B (zh) | 一种基于深度学习的图像去雨方法及装置 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN112258526B (zh) | 一种基于对偶注意力机制的ct肾脏区域级联分割方法 | |
CN109902748A (zh) | 一种基于多层信息融合全卷积神经网络的图像语义分割方法 | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN115690002A (zh) | 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统 | |
CN113780149A (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
CN110929736A (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN114972746B (zh) | 一种基于多分辨率重叠注意力机制的医学影像分割方法 | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN112001931A (zh) | 图像分割方法、装置、设备及存储介质 | |
CN115082675A (zh) | 一种透明物体图像分割方法及系统 | |
CN113506224A (zh) | 基于多尺度生成对抗网络的图像修复方法 | |
CN116740527A (zh) | U型网络与自注意力机制结合的遥感图像变化检测方法 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN114821050A (zh) | 一种基于transformer的指称图像分割方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN114119993A (zh) | 一种基于自注意力机制的显著目标检测方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN117315241A (zh) | 一种基于transformer结构的场景图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |