CN113888744A

CN113888744A - 一种基于Transformer视觉上采样模块的图像语义分割方法

Info

Publication number: CN113888744A
Application number: CN202111198207.0A
Authority: CN
Inventors: 张微; 沈骏翱; 马梦婷
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-01-04

Abstract

本发明公开了一种基于Transformer视觉上采样模块的图像语义分割方法。本发明在图像语义分割任务中引入基于视觉Transformer模块进行特征图的上采样模块，在上采样过程中融入原先保存的部分特征图信息作为上采样辅助信息。与原先传统上采样模块相比，避免了在未知信息中进行补0的操作同时也避免了反卷积等带来的棋盘效应。依赖于窗口化降采样的创新过程解决了深层特征图关注全局语义信息而丢失局部细节信息的尴尬，对于局部窗口的Transformer提取带来了更优秀的细节信息，同时也解决了算力不足带来的影响，为Transformer解决大尺度问题提供了可能，能够提高图像语义分割的性能。

Description

一种基于Transformer视觉上采样模块的图像语义分割方法

技术领域

本发明涉及深度学习以及计算机视觉技术领域，具体涉及一种基于Transformer视觉上采样模块的图像语义分割方法。

背景技术

近年来，随着深度学习技术以及计算机视觉领域的快速发展，无人驾驶，行人检测，车牌识别，人脸识别越来越多任务可以通过深度学习技术解决。作为计算机视觉任务中最主要的部分特征提取网络也经历了井喷式地发展，从传统CNN网络到ResNet、MobileNet再到目前基于Transformer的特征提取结构，在信息提取上不断发展，特征提取越来越深层。虽然能够挖掘更深层的信息，但是大量视觉任务，例如语义分割，实例分割中往往最后需要输出与原始图像相同尺寸的结果，其中就需要将深层特征上采样到原来的尺寸，而上采样模块一直是较少人研究的热点问题。

现有的上采样方法可以分为三类：第一类，反池化方法，反池化基于传统下采样池化方法，在池化过程中，记录下MaxPooling在对应Kernel中的坐标，在反池化过程中，将一个元素根据Kernel进行放大，根据之前的坐标将元素填写进去，其他位置补0。此类方法需要记录池化过程的同时，上采样后只能返回Kernel区域内单个值信息，大量信息被丢失。第二类，反卷积，又称作转置卷积(Transposed Convolution)，是卷积的逆过程，实现上采用转置卷积核的方法，直接模拟卷积操作的反向传播过程。此方法使用类似卷积的过程，区域信息化严重，容易出现棋盘效应，因此在模型训练中效果一般。第三类，插值法，最简单的方式是重采样和插值，将输入特征图Reshape到一个想要的尺寸，同时计算每个点的像素值，使用如双线性插值(Bilinear Interpolation)等插值方法对其余点进行插值，在一定程度上放大图像会显得光滑，值得注意的是此方法不会增加数据信息，也就是说如果Reshape尺寸增加为原来的16倍，在填充的过程中，将会有大量无效信息。

因此，现有的图形语义分割任务中，上采样模块存在的问题可以归纳为两方面：

第一：原先的上采样提取方法，基本都在上采样过程中使用补0的方法，上采样之后的结果将会有一定的丢失，而信息的丢失往往对于最终预测图像生成产生影响。

第二：随着语义分割等像素级任务的精度要求不断提升，简单的上采样模块往往无法达到对于信息进一步挖掘以及达到一定融合的需求，这对于在解码阶段进一步更好地将编码信息预测为真实情况造成影响。

因此，设计一种性能优越的上采样模块，进而提高图像语义分割的性能，是目前亟待解决的技术问题。

发明内容

本发明要解决的技术问题是如何充分利用深度学习网络中深层特征信息，将深层信息中的全局信息进行合理地上采样操作之后保存深层信息的同时能够结合浅层特征信息，并提供一种基于Transformer视觉上采样模块的图像语义分割方法。

本发明所采用的具体技术方案如下：

一种基于Transformer视觉上采样模块的图像语义分割方法，其具体做法为：将待语义分割的图像输入具有特征金字塔网络的语义分割模型中，且所述语义分割模型在上采样过程中以Transformer视觉上采样模块对浅层特征和深层特征进行上采样融合，最终由语义分割模型输出图像的语义分割结果；

所述Transformer视觉上采样模块包括两组窗口降采样模块和特征编码模块，以及级联的第一Transformer模块、多个第二Transformer模块和窗口复原采样模块；

两组窗口降采样模块和特征编码模块分别以浅层特征图和深层特征图作为输入，每个输入的特征图先进入窗口降采样模块中按照固定尺寸的划分窗口分割为不重合的窗口图像块，然后将划分得到的所有窗口图像块沿特征通道维度进行叠加形成降采样后的窗口集合，再将窗口集合输入线性分类器进行编码，并在线性分类器的编码结果基础上叠加相对位置编码记录窗口内部位置信息，从而得到每个输入的特征图对应的编码后特征向量；

浅层特征图和深层特征图各自对应的编码后特征向量同时作为第一Transformer模块的输入，两个输入经过层归一化后，以深层特征图对应的编码后特征向量作为多头注意力机制的Query和Value，以浅层特征图对应的编码后特征向量作为Key进行注意力融合得到注意力图，注意力图与深层特征图对应的编码后特征向量的相乘结果经过残差连接后，再经过层归一化、线性分类器和残差连接，最终输出的特征作为后方级联的第一个第二Transformer模块的输入；

每个第二Transformer模块，将输入的单个特征依次经过层归一化、多头注意力机制、残差连接、层归一化、线性分类器和残差连接后，形成传递至后方的输出特征；

所述窗口复原采样模块以最后一个第二Transformer模块的输出特征作为输入，按照与所述窗口降采样模块中降采样过程的逆向过程进行复原采样，得到当前Transformer视觉上采样模块最终输出的上采样结果，且该上采样结果与输入当前Transformer视觉上采样模块的浅层特征图的尺寸维度完全相同。

作为优选，所述具有特征金字塔网络的语义分割模型以U-Net模型为基线模型，将U-Net模型中的线性差分上采样模块均采用所述Transformer视觉上采样模块代替后得到。

作为优选，所述语义分割模型采用编码器-解码器结构；

在编码器部分中，输入的图像先连续经过四个下采样模块，每个下采样模块依次经过两次3*3卷积层(带归一化层和Relu激活函数)再通过下采样层得到下采样结果并输入下一个下采样模块，同时在每次下采样之前保存特征信息为浅层特征用于作为后续Transformer视觉上采样模块的输入信息，最后一个下采样模块输出的下采样结果依次经过两次带Relu激活函数的3*3卷积层后作为解码器部分中第一个Transformer视觉上采样模块的深层特征输入；

在解码器部分中，包括级联的四个Transformer视觉上采样模块、1*1卷积层和Sigmoid激活函数，前一个Transformer视觉上采样模块的输出作为下一个Transformer视觉上采样模块的深层特征输入，每一个Transformer视觉上采样模块的浅层特征来源于编码器部分中同一层级的下采样模块中下采样之前保存的特征信息，相邻Transformer视觉上采样模块之间通过一层1*1卷积层进行特征匹配。

作为优选，所述语义分割模型在用于实际语义分割之前，预先利用标注后的训练数据进行训练。

作为优选，所述语义分割模型训练所采用的损失函数为交叉熵损失。

作为优选，所述窗口降采样模块中，对深层特征图进行降采样所用的划分窗口尺寸固定为8×8。

作为优选，所述窗口降采样模块中，对浅层特征图进行降采样所用的划分窗口尺寸固定为16×16。

作为优选，所述第二Transformer模块中，多头注意力机制以输入模块的单一特征作为Query、Value和Key进行注意力融合，从而得到注意力图。

本发明相对于现有技术而言，具有以下有益效果：

本发明在图像语义分割任务中引入基于视觉Transformer模块进行特征图的上采样模块，在上采样过程中融入原先保存的部分特征图信息作为上采样辅助信息。与原先传统上采样模块相比，避免了在未知信息中进行补0的操作同时也避免了反卷积等带来的棋盘效应。依赖于窗口化降采样的创新过程解决了深层特征图关注全局语义信息而丢失局部细节信息的尴尬，对于局部窗口的Transformer提取带来了更优秀的细节信息，同时也解决了算力不足带来的影响，为Transformer解决大尺度问题提供了可能，能够提高图像语义分割的性能。

附图说明

图1为TUS模块模型结构图；

图2为特征窗口降采样编码示意图；

图3为Transformer模块示意图；

图4为TUS-Unet模型结构示意图；

图5为本发明实施例中TUS-Unet模型的一种训练和测试流程图；

图6为本发明实施例中的部分图像语义分割结果示例。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，当一个元件被认为是“连接”另一个元件，可以是直接连接到另一个元件或者是间接连接即存在中间元件。相反，当元件为称作“直接”与另一元件连接时，不存在中间元件。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

在大量深度学习视觉任务，例如语义分割，全景分割，目标检测等任务中，都需要将提取到的深层特征进行放大，此时就需要上采样模块。视觉任务一般采用编码器——解码器结构(Encoder-Decoder)。其中编码器部分一般使用ResNet，VGGNet，MobileNet等卷积模型，对于输入的原始图像在编码器模块中各个特征将会不断地经过线性以及非线性的叠加运算，往往越深的网络能得到更多的全局语义信息，表现出图像本身的特征，但是却会丢失大量局部细节，因此需要进行特征的放大，也就引入了上采样模块。上采样模块一般被使用于解码器部分，本发明的核心正是在图像分割模型中提出了了一种特殊的Transformer视觉上采样模块，即TransformerUpSampling(TUS)模块。需说明的是，该TUS模块可以作为嵌入式模块结合于任何语义分割模型中的特征融合部分，做到即插即用，在模型特征提取过程中只需要保存需要融合特征的浅层特征以及深层特征，通过TUS模块，输出最终特征上采样融合结果，进而基于特征上采样融合结果来实现图像语义分割。

因此，本发明提供的一种基于Transformer视觉上采样模块的图像语义分割方法具体为：将待语义分割的图像输入具有特征金字塔网络的语义分割模型中，且该语义分割模型在上采样过程中以Transformer视觉上采样模块对浅层特征和深层特征进行上采样融合，最终由语义分割模型输出图像的语义分割结果。

需注意的是，此处所采用的语义分割模型的具体形式不限，只要其具有特征金字塔网络(FPN)，能够在解码器部分结合本发明的TUS模块即可，例如U-Net、Fast R-CNN等。

下面先对本发明的TUS模块的具体结构进行详细描述，图1为TUS模块的整体结构图，Transformer最早应用于自然语言处理(NLP)领域，因此输入格式要求是传统的一维Embedding Token，二维特征图像需要经过Patch Embedding操作进行编码，最早的VisionTranformer模块中的编码方式主要是将特征图分块(例如：7*7)为一个统一的Block，在对完整的Block进行编码操作，将会丢失局部信息和我们上采样的目的相违背，而如果直接采用单个像素为Block，考虑到上采样过程中输入尺寸图可能达到原图尺寸大小(例如：512*512)，算力的局限性会造成参数量的爆炸。因此，本发明结合Swin-Transformer的滑窗思想以及GroupCNN的分组卷积思想引入了窗口降采样的方法，并在降采样之后进行特征编码，编码后的深层与浅层向量输入第一个Transformer模块中进行对应位置相关性提取，输出结果传入之后Transformer模块进行特征再提取，最终输出结果。

具体而言，TUS模块包括两组窗口降采样(Window Patch)模块和特征编码(LinearEmbedding)模块，以及级联的1个第一Transformer模块(CrossTransformer Block)、多个第二Transformer模块(Transformer Block)和窗口复原采样(Window Reverse)模块。

其中，浅层特征图通过一组窗口降采样模块和特征编码模块输入，而深层特征图通过另一组窗口降采样模块和特征编码模块输入。两组窗口降采样模块和特征编码模块中对于输入的处理流程一致，每个输入的特征图先进入窗口降采样模块中按照固定尺寸的划分窗口分割为不重合的窗口图像块，然后将划分得到的所有窗口图像块沿特征通道维度进行叠加形成降采样后的窗口集合，再将窗口集合输入线性分类器进行编码，并在线性分类器的编码结果基础上叠加相对位置编码记录窗口内部位置信息，从而得到每个输入的特征图对应的编码后特征向量。

具体而言，TUS模块的输入主要是两张特征图，需要上采样的尺寸小，通道数多的特征图被称为深层特征图f_deep，维度为(B×C₁×H₁×W₁)，B为输入的Bacth size，其在训练阶段视每一批的样本量而定，而在预测阶段可设置为1，C₁、H₁、W₁分别为深层特征图的特征通道数、高度和宽度；尺寸较大，通道数少作为上采样参考的特征图被称为浅层特征图f_simple，维度为(B×C₂×H₂×W₂)，C₂、H₂、W₂分别为浅层特征图的特征通道数、高度和宽度。如图2所示，在窗口降采样模块中，执行的是自适应性地降采样过程，其通过划分窗口将输入特征图划分成不重合的窗口集合，本实施例中深层特征图每个划分窗口尺寸为N₁＝8×8，浅层特征图每个划分窗口尺寸为N₂＝16×16，由于窗口图像块是沿特征通道维度进行叠加形成降采样后的窗口集合的，因此两个窗口集合的通道特征维度得到增加，分别变为

在特征编码模块中，由于H₁和W₁均为H₂和W₂的1/2，为了之后进行Transformer操作需要将特征编码为相同维度。将降采样得到的两个窗口集合(维度为B×N₁×C′₁和B×N₂×C′₂)通过两个命名为Linear Embedding的线性分类器(MLP)，对于特征维度C′₁和C′₂进行编码，深层特征图和浅层特征图分别对应输出的编码后特征f′_deep和f′_simple的维度为B×N₁×C和＝B×N₂×C。该编码的目的在于对特征进一步进行抽取，同时对于过高维度特征进行压缩。另外，特征编码过程中考虑到可能的单个Patch内部位置信息的丢失，需引入深层特征图窗口的相对位置编码ξ₁和浅层特征图窗口的相对位置编码ξ₂，由此叠加后最终得到深层特征图和浅层特征图对应的编码后特征向量f″_deep＝f′_deep+ξ₁，f″_simple＝f′_simple+ξ₂。

如图3所示，在TUS模块中一共含有N+1个Transformer模块，其中第一个Transformer模块作为特征融合组件，即图3左侧的Cross Transformer Block，输入为两张特征图通过窗口降采样编码的两个特征向量f″_deep、f″_simple，而其余的N个Transformer模块均为传统Transformer Block，其输入为前端的Transformer模块的输出。即CrossTransformer Block的输出进入左侧的传统Transformer Block进一步进行特征提取后输出，然后再依次传递至下一个Transformer Block。

在第一Transformer模块中，浅层特征图和深层特征图各自对应的编码后特征向量f″_deep、f″_simple同时作为第一Transformer模块的输入。第一个Transformer模块接收输入的两个编码后的一维特征向量后，两个输入各自经过层归一化(Layer Normalization，LN)后，以层归一化的深层特征图对应的编码后特征向量f″_deep作为多头注意力机制Cross-MHA的Query和Value，以层归一化的浅层特征图对应的编码后特征向量f″_simple作为Key进行注意力融合得到注意力图A，注意力图A的维度为B×N₂×N₁，代表浅层各个窗口内部某个像素点对于深层像素点的影响。注意力图与Value即深层特征图对应的编码后特征向量f″_deep的相乘，相乘结果与f″_simple经过残差连接后，再经过层归一化和线性分类器进行特征激活输出，输出和前一个残差连接的结果再次残差连接，最终输出的特征f_Atten作为后方级联的第一个第二Transformer模块的输入。整个第一Transformer模块能够对对应位置的窗口内部局部细节信息进行拓展融合，做到在上采样过程中弥补深层信息缺失的细节局部信息。

另外，每个第二Transformer模块中的数据处理流程与第一Transformer模块基本类似，其区别在于其输入仅有单一的特征，而第一Transformer模块具有两种特征。因此，在第二Transformer模块中，将输入的单个特征依次经过层归一化、多头注意力机制、残差连接、层归一化、线性分类器和残差连接后，形成传递至后方的输出特征。由于输入仅有单一的特征，因此第二Transformer模块中多头注意力机制MHA以输入模块的单一特征作为Query、Value和Key进行注意力融合，从而得到注意力图。前一个第二Transformer模块输出的特征作为下一个第二Transformer模块的输入，逐级传递，直至到达最后一个第二Transformer模块，最后一个第二Transformer模块输出的特征向量为f_Trans，其维度为B×N₂×C。

窗口复原采样模块以最后一个第二Transformer模块的输出特征f_Trans作为输入，按照与前述窗口降采样模块中降采样过程的逆向过程进行复原采样，得到当前TUS模块最终输出的上采样结果F_final，且该上采样结果F_final与输入当前TUS模块的浅层特征图的尺寸维度完全相同，即F_final的维度为B×F₂×H₂×W₂。

当存在多个TUS模块级联时，前一个TUS模块输出的F_final可作为深层特征输入下一个F_final。在进行图像语义分割任务时，最后一个TUS模块输出的F_final可通过分类器(全连接网络或MLP网络)输出每个像素属于某个类别的概率进行结果预测。

本发明的一个较佳实施例中，基于上述TUS模块，以U-Net网络作为语义分割的基线网络模型，设计了具有特征金字塔网络的语义分割模型TUS-Unet，进而提供了一种基于Transformer视觉上采样模块的图像语义分割方法，该方法中将待语义分割的图像输入TUS-Unet中，TUS-Unet在上采样过程中以Transformer视觉上采样模块对浅层特征和深层特征进行上采样融合，最终由TUS-Unet输出图像的语义分割结果。

TUS-Unet将U-Net模型中的线性差分上采样模块均采用TUS模块代替后得到。在本实施例中，TUS-Unet的具体结构如图4所示，与传统U-Net相似，其采用左右对称的编码器-解码器结构，具体如下：

在编码器部分中，输入的图像先连续经过四个下采样模块，每个下采样模块依次经过两次带Relu激活函数的3*3卷积层再通过下采样层得到下采样结果并输入下一个下采样模块，同时在每次下采样之前保存特征信息为浅层特征用于作为后续TUS模块的输入信息；四个下采样模块的保存的浅层特征图依次记为F₁，F₂，F₃，F₄。最后一个下采样模块输出的下采样结果依次经过两次带Relu激活函数的3*3卷积层后的结果F₅作为解码器部分中第一个TUS模块的深层特征输入。

在解码器部分中，包括级联的四个TUS模块、1*1卷积层和Sigmoid激活函数，前一个TUS模块的输出作为下一个TUS模块的深层特征输入，每一个TUS模块的浅层特征来源于编码器部分中同一层级的下采样模块中下采样之前保存的特征信息，相邻TUS模块之间通过一层1*1卷积层进行特征匹配。因此，第一个TUS模块的输入是F₅和F₄，F₅为深层特征，F₄为浅层特征；第一个TUS模块的输出作为输入第二个TUS模块的深层特征，F₃为输入第二个TUS模块的浅层特征；第二个TUS模块的输出作为输入第三个TUS模块的深层特征，F₂为输入第三个TUS模块的浅层特征；第三个TUS模块的输出作为输入第四个TUS模块的深层特征，F₁为输入第四个TUS模块的浅层特征。第四个TUS模块最终输出得到F＝512×512×C的最终特征图向量。

需注意的是，上述语义分割模型TUS-Unet在用于实际语义分割之前，预先利用标注后的训练数据进行训练，语义分割模型训练所采用的损失函数可采用交叉熵损失。

下面将上述基于Transformer视觉上采样模块的图像语义分割方法应用于一个具体实施例中，以展示其所能实现的技术效果。

实施例

本实施例中的总体流程可以分为数据预处理，模型训练，图像预测三个阶段，具体如图5所示。

1、数据预处理阶段

步骤1，对于获得的原始图像(本实施例以遥感影像为例)，进行图片预处理，先进行图像切割，翻转等操作后进行数据增强并处理成相同尺寸影像(512*512或256*256)。

步骤2，图像进行标注，使用Labelme等工具进行像素语义标注，生成后序模型训练的GroundTruth。

2、模型训练

步骤1，构建训练数据集，并将训练数据集按照固定的批量大小进行分批，总数为N。

步骤2，从训练数据集中顺序选取索引为i的一批训练样本，其中i∈{0,1,…,N}。利用每一个批次的训练样本对语义分割模型TUS-Unet进行训练。TUS-Unet的具体结构如前所述，不再赘述，其采用卷积编码器结构，可以使用ResNet50预训练网络作为编码器，同时能够保存每层特征。训练过程中，计算每一个训练样本交叉熵损失函数

并根据批中所有训练样本的总损失

对整个模型中的网络参数进行调整，直到训练数据集的所有批次都参与了模型训练。达到指定迭代次数后，模型收敛，训练完毕。

3、图像语义分割

将测试集的图像直接作为输入通过训练好的语义分割模型TUS-UNet中，最终预测得到拥有每个像素类别的概率，通过Sigmoid等激活函数选择概率最高的类别作为最终结果输出，从而实现语义分割。

图6展示了本实施例中部分遥感图像区域的分割测试结果，可以看到引入TUS模块的分割网络能够很好地对于图像处理出分割结果，在分割图像更加光滑的同时相较于使用传统的上采样方法具有一定数值上增加。依赖于窗口化降采样的创新过程解决了深层特征图关注全局语义信息而丢失局部细节信息的尴尬，对于局部窗口的Transformer提取带来了更优秀的细节信息。同时也解决了算力不足带来的影响，为Transformer解决大尺度问题提供了可能。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于Transformer视觉上采样模块的图像语义分割方法，其特征在于：将待语义分割的图像输入具有特征金字塔网络的语义分割模型中，且所述语义分割模型在上采样过程中以Transformer视觉上采样模块对浅层特征和深层特征进行上采样融合，最终由语义分割模型输出图像的语义分割结果；

2.如权利要求1所述的基于Transformer视觉上采样模块的图像语义分割方法，其特征在于，所述具有特征金字塔网络的语义分割模型以U-Net模型为基线模型，将U-Net模型中的线性差分上采样模块均采用所述Transformer视觉上采样模块代替后得到。

3.如权利要求2所述的基于Transformer视觉上采样模块的图像语义分割方法，其特征在于，所述语义分割模型采用编码器-解码器结构；

4.如权利要求2所述的基于Transformer视觉上采样模块的图像语义分割方法，其特征在于，所述语义分割模型在用于实际语义分割之前，预先利用标注后的训练数据进行训练。

5.如权利要求4所述的基于Transformer视觉上采样模块的图像语义分割方法，其特征在于，所述语义分割模型训练所采用的损失函数为交叉熵损失。

6.如权利要求1所述的基于Transformer视觉上采样模块的图像语义分割方法，其特征在于，所述窗口降采样模块中，对深层特征图进行降采样所用的划分窗口尺寸固定为8×8。

7.如权利要求1所述的基于Transformer视觉上采样模块的图像语义分割方法，其特征在于，所述窗口降采样模块中，对浅层特征图进行降采样所用的划分窗口尺寸固定为16×16。

8.如权利要求1所述的基于Transformer视觉上采样模块的图像语义分割方法，其特征在于，所述第二Transformer模块中，多头注意力机制以输入模块的单一特征作为Query、Value和Key进行注意力融合，从而得到注意力图。