CN115482382A

CN115482382A - 一种基于Transformer架构的图像语义分割方法

Info

Publication number: CN115482382A
Application number: CN202211132360.8A
Authority: CN
Inventors: 刘博�; 李金书; 王慧娜
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-09-17
Filing date: 2022-09-17
Publication date: 2022-12-16

Abstract

一种基于Transformer架构的图像语义分割方法属于医学图像分割技术领域。本发明提供一种带有移动窗口的分层Swin Transformer编码器来提取图像上下文特征的方法。首先图像块被输入到基于Transformer的编码器‑解码器架构中，其中移动窗口机制的设计使得特征包含信息更全面。而UNet++模型中嵌套和密集的跳跃连接能够充分提取上下文特征，使得特征融合更充分。

Description

一种基于Transformer架构的图像语义分割方法

技术领域

本发明属于医学图像分割技术领域，具体涉及一种基于Transformer架构的图像语义分割方法。

背景技术

语义分割是像素级的图像理解，即对图像中的每一个像素标注所属的类别，任务是将图像分割成若干个有意义的目标，并为各个目标分配指定类型标签。语义分割对图像中的每一个像素标注所属的类别，是计算机视觉领域中场景解析和行为识别的关键任务。因此，得到一个实用性好、准确率高的图像语义分割模型是非常具有挑战性的工作。

与分类不同的是，语义分割需要判断图像每个像素点的类别，进行精确分割。由于CNN在进行convolution和pooling过程中丢失了图像细节，即feature map size逐渐变小，所以不能很好地指出物体的具体轮廓、指出每个像素具体属于哪个物体，无法做到精确的分割。针对此问题，FCN采用反卷积对最后一个卷积层的feature map进行上采样，使其恢复到输入图像相同的尺寸，从而对每个像素都产生了预测，即对图像进行像素级的分类。但FCN由于没有充分考虑像素与像素之间的空间关系，得到的结果仍不够精细。对此，UNet采用“编码器-解码器”结构，在上采样的过程中通过特征的拼接实现对下采样时损失的边缘特征的找回。UNet凭借其优雅的结构设计，在各种医学影像应用中取得了巨大的成功。按照这一技术路线，已经开发了许多算法，如Res-UNet、UNet++和UNet3+，用于各种医学成像方式的图像和物体分割。这些方法在心脏分割、器官分割和病变分割中的出色表现证明了CNN具有较强的识别特征学习能力。UNet++模型针对UNet模型层次信息跨度太大的问题，设计了一个具有嵌套和密集跳跃连接的体系结构，旨在减少编码器和解码器之间的语义差距，使得特征融合更充分、拼接更全面。

另一方面，自然语言处理(NLP)中的网络架构的演化已经走上了不同的道路，目前流行的架构是Transformer。Transformer是为序列建模和转换任务而设计的，它的显著之处在于对数据中的远程依赖性进行建模。它在语言领域的巨大成功促使研究人员对其在计算机视觉中的适应性进行了研究，最近在某些任务中，特别是图像分类和联合视觉语言建模显示出了良好的结果。

发明内容

本发明要解决的技术问题是，提供一种带有移动窗口的分层Swin Transformer编码器来提取图像上下文特征的方法。首先图像块被输入到基于Transformer的编码器-解码器架构中，其中移动窗口机制的设计使得特征包含信息更全面。而UNet++模型中嵌套和密集的跳跃连接能够充分提取上下文特征，使得特征融合更充分。

Swin-UNet++是一种基于UNet++的用于医学图像分割的框架方法。在本文中试图扩展Transformer的适用性，使其可以作为计算机视觉的通用主干。而将其在语言领域的高表现转移到视觉领域的重大挑战可以用两种模式之间的差异来解释，其中一个区别就是规模。为减少序列的长度，将图像划分为窗口以应对同一张图像里物体尺寸不同带来的挑战。本发明应用了一个通用的Transformer骨干，称为Swin Transformer，它构造层次特征映射，并具有与图像大小线性的计算复杂度。Swin Transformer通过从小的图像块开始，并逐渐在较深的Transformer层中合并相邻的patch来构造层次化表示。通过这些分层特征映射，Swin Transformer可以方便地基于UNet等模型进行密集预测。使用带有移动窗口机制的Swin Transformer，在图像的非重叠窗口内局部计算自注意力，更好地捕获图像中上下文语义信息，并且每个窗口中的patch数量是固定的，因此复杂度与图像大小成线性关系。这些优点使Swin Transformer适合作为各种视觉任务的通用主干。

本发明的可行性分析：常用的卷积可以通过局部感知进行特征提取，通过不同大小的卷积核提取多尺度特征。使用SwinTransformer则使用局部窗口自注意力机制对图像的子区域划分进行特征提取，具有与图像大小线性的计算复杂度。随着窗口大小的变化，在局部小窗口内计算自注意力以构造层次特征映射；加之移动窗口机制，具体来说，它在连续的自我注意层之间移动窗口分区，使得不同窗口的像素之间也能交互信息，从而更好地理解上下文，显著地增强了建模能力，实现全局建模。与此同时，在构造SwinTransformer总体结构时，在每个阶段进行特征融合可以实现和UNet在下采样过程中一样的层次特征变化。

基于以上分析，本发明采用以下技术方案：受Swin Transformer的启发，Swin-UNet++方法在这项工作中利用Transformer进行2D医学图像分割。Swin-UNet是第一个纯粹基于Transformer的u型架构，它由编码器、瓶颈、解码器和跳跃连接组成。编码器、瓶颈和解码器都是基于Swin Transformer模块构建的。将输入的医学图像分割为不重叠的图像块，每个图像块被视为一个单元，并输入到基于Transformer的编码器学习深度特征表示。然后利用带patch扩展层的解码器对提取的上下文特征进行上采样，在上采样过程中通过跳跃连接与编码器的多尺度特征进行融合，恢复特征图的空间分辨率，进一步进行分割预测。在多器官和心脏分割数据集上的大量实验表明，该方法具有良好的分割精度和鲁棒的泛化能力。在此思路的基础上，将Swin Transformer模块应用于UNet++模型，该方法相比于Swin-UNet，梯度下降更快且精度更高。

参照图1Swin-UNet++包括以下步骤：

该网络由预处理模块、Swin-UNet++模块以及恢复模块组成。

步骤1、预处理模块主要包括Patch Partition和Linear Embedding。

将初始输入的图像缩放，调整后的图像尺寸记为W×H,其中W表示图像的宽，H表示图像的高，W×H描述图像的分辨率，即像素点的个数。接着对输入图像进行数据增强，以增加数据多样性。Patch Partition的主要作用是将图像的尺寸压缩。Linear Embedding则利用线性嵌入层将投影的特征维转化为任意维C。

步骤2、Swin-UNet++模块的输入数据是步骤1输出的特征图。主要通过多个下采样过程对图像特征进行提取，在上采样过程中借助密集的跳跃连接对多个层次的特征进行充分融合。

采用UNet++结构与Transformer结合的方法，可充分发挥两者的优势。使用SwinTransformer块进行特征的学习，使用patch合并层和Swin Transformer块完成下采样，使用patch扩展层和Swin Transformer块完成上采样。下采样过程中，通过多个SwinTransformer块和patch合并层(Patch Merging)，生成分层特征表示。上采样过程则包括多个SwinTransformer块和Patch扩展层(Patch Expanding)。同时通过跳跃连接将提取的上下文特征与编码器的多尺度特征融合，以弥补下采样造成的空间信息损失。

步骤3、恢复模块对Swin-UNet++模块输出的特征图进行像素级的预测。其包括最后一层patch扩展层和线性投影，最终得到标记后的图像输出。利用patch扩展层恢复图像特征尺寸，将特征映射的分辨率恢复到输入分辨率W×H。然后对这些上采样的特征进行线性投影，映射到特定的维度，从而得到像素级分类预测的结果。

与现有技术相比，本方法具有以下明显优势:

(1)基于SwinTransformer块，构建了一个具有密集跳跃连接的对称编码器-解码器体系结构。在编码器中实现了各个层次的特征提取；在解码器中，将特征上采样到输入分辨率，进行相应像素级的分割预测。

(2)在不使用卷积和插值运算的情况下，开发了patch扩展层，实现上采样。

(3)实验发现跳跃连接对Transformer也是有效的，因此最终构造了一个基于Transformer的具有嵌套和密集跳跃连接的u型编码器-解码器架构，命名为Swin-UNet++。在UNet++嵌套的特征拼接结构下，局部自注意力移动窗口机制能够更好地提取上下文特征，实现全局建模。

附图说明

图1为本方法的总体流程图；

图2为原UNet++的结构图；

图3为Swin-UNet++的结构图；

图4为编码器主体单元的特征维度变化示意图；

图5为SwinTransformer block模块的结构图。

具体实施方式

以下结合具体实施例，并参照附图，对本方法进一步详细说明。

所用到的硬件设备有PC机1台；辅助工具有：PyCharm。

步骤1、参照图1，预处理模块主要包括Patch Partition和Linear Embedding。

预处理模块的结构依次为：图像预处理→Patch Partition层→LinearEmbedding层→输出特征图。

步骤1.1图像预处理

该预处理模块的输入为原始图像，将其缩放为W×H。其中H表示图像的高，W表示图像的宽。此外，为避免样本量小造成过拟合，使用数据增强对数据进行扩充，具体来说，以一定的概率随机地对图像翻转和旋转。

随机翻转的具体步骤包括：

1.首先将图像随机旋转90度或180度或270度；

2.对旋转后的图像随机进行上下翻转或左右翻转。其中上下翻转把图像数组的行看成整体，将行的顺序发生颠倒；左右翻转，则把图像数组的列看成整体，将列的顺序发生颠倒，从而对数据进行扩充。

随机旋转：在-20度和+20度之间随机选择一个角度进行图像旋转。

步骤1.2图像的划分

为了将输入信息转化为序列嵌入，Patch Partition层主要作用为将经预处理的图像进行尺寸压缩，从而减小序列的长度。将医学图像的像素点划分成大小为N×N、互不重叠的patch。通过这种划分方法，每个patch窗口被视为一个“令牌”，其特征被设置为原始像素RGB值的拼接,即为3，因此每个patch的特征维数变为N×N×3。具体实施中，N设为4，PatchPartition为卷积运算，卷积核大小为4×4，卷积步长为4。

步骤1.3 Linear Embedding层

利用线性嵌入层进行特征映射，将投影的特征维转化为任意维C，从而得到特征图。

步骤2、Swin-UNet++模块通过多个下采样过程和上采样过程对图像特征进行提取并对多个层次的特征进行融合。该模块的输入数据是步骤1输出的特征图，大小为W/4×H/4×C；该模块的输出是提取后的特征图，大小为W/4×H/4×C。

该模块基于UNet++模型对图像进行逐层次的特征融合。UNet++由编码器和解码器组成，它们通过一系列嵌套的密集卷积块连接。UNet++的主要思想是在特征融合之前弥合编码器和解码器的特征映射之间的语义鸿沟。参照图2，我们用X^i,j表示卷积层X^i,j的输出，其中i索引编码器中的下采样层，j沿跳跃路径索引密集块的卷积层。在每个跳跃路径上的卷积层之前对特征进行拼接，使得所有的先验特征图都累积集成到当前节点。

在此基础上，Swin-UNet++中的编码器主要用来提取各个层次的特征。编码器由SwinBlock层和patch合并层交替相连。参照图4，编码器的输入数据是步骤1输出的特征图W/4×H/4×C；编码器的输出是提取的特征图W/32×H/32×8C。

编码器结构依次为：输入数据→第一个Swin Block层→patch合并层→第二个Swin Block层→patch合并层→第三个Swin Block层→patch合并层→瓶颈层

其中，Swin Block层由单个Swin Transformer模块连接构成。patch合并层在patch的行和列方向上间隔一定距离选取元素，将各个部分拼接在一起作为一个张量，最后展开，此时通过通道归一化和全连接层调整通道维数。通过这种处理，减少特征分辨率并增加特征的维数，从而实现降采样。编码器中的最后一个patch合并层与瓶颈层中的第一个Swin Transformer Block相连。瓶颈层由2个Swin Transformer Block依次连接组成，瓶颈层的两个Swin Transformer Block分别利用通道归一化操作和全连接层连接编码器中最后一个patch合并层的输出和上采样阶段最底层patch扩展层的输入。即上采样阶段最底层的patch扩展层与瓶颈层中的第二个Swin Transformer Block连接。

在编码器的基础上，经过逐层次的上采样和特征融合充分理解图像的上下文信息。特征融合由多个跳跃连接和patch扩展层实现。通过跳跃连接将同一密集块上一个SwinBlock层的输出与下一个密集块对应的上采样输出融合在一起；patch扩展层首先通过一个全连接层扩展通道数，利用rearrange operation将相邻维度的特征图重组成更大的特征图，通过这种处理增加特征分辨率并减少特征的维数，再进行LayerNorm通道归一化处理，从而实现上采样。

用B^i,j表示经SwinBlock层B^i,j进行特征学习的输出，其中i索引编码器的下采样层，j沿跳跃路径索引SwinBlock层，设置每个Swin Block层中包含两个Swin TransformerBlock。按照图3中Swin-UNet++架构进行特征融合的步骤如下：

1.将B^0,0与B^1,0对应的上采样输出融合，得到B^0,1；

2.在1之后，将B^1,0和B^2,0对应的上采样输出融合得到B^1,1。B^1,1的上采样输出与B^0,0、B^0,1通过跳跃连接融合得到B^0,2；

3.同理，经过逐层次的上采样和特征融合，可以依次得到B^2,1、B^1,2，最终得到B^0,3。B^0,3为B^1,2的上采样输出和B^0,0、B^0,1、B^0,2融合所得。

Swin TransformerBlock负责特征表示学习，特征维数和分辨率保持不变。为避免全局自注意力计算导致的复杂度过大的问题，将图像划分为不重叠的窗口。具体来说，为了高效建模，在局部窗口内计算自注意。为了引入跨窗口连接，同时保持非重叠窗口的高效计算，提出了一种移位窗口分区方法，在连续Swin Transformer块中交替进行规则窗口划分和移动窗口划分，从而实现不同分区间空间信息的交互。

W-MSA子模块(窗口多头自注意力层)主要采用规则窗口划分策略，从左上角像素开始，将特征映射均匀划分为窗口，每个窗口包含一定的patch。通过在子空间中计算注意力向量来捕获特征在不同子空间的依赖关系，即分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并映射到原输入空间中得到最终的注意力向量作为输出，从而更好地获取局部、全局的语义信息。

SW-MSA子模块(移位窗口多头自注意力层)则在图像特征输入之前，将图像特征进行尺寸为半个窗口大小的像素位移操作，然后再进行W-MSA子模块操作。窗口分区被移动，产生新的窗口分区，引入了相邻的非重叠窗口之间的连接，即新窗口的自注意计算跨越了先前窗口划分的边界，提供了它们之间的联系。

参照图5，单个SwinTransformerBlock的结构依次为：特征图输入数据→LN正则化层→W-MSA子模块或者SW-MSA子模块→残差连接层→LN正则化层→前馈网络MLP→残差连接层→输出的特征图。该SwinTransformerBlock的结构共循环2次，奇数层与偶数层依次间隔连接，其中奇数层采用的是W-MSA子模块，偶数层采用的是SW-MSA子模块。

使用移位窗口分区方法，连续的SwinTransformerBlock计算为：

其中z^l-1表示Swin Transformer块的输入特征，

和z^l分别表示第l个SwinTransformer块中W-MSA模块和MLP模块的输出特征；

和z^l+1则分别表示第l+1块SwinTransformer中SW-MSA模块和MLP模块的输出特征。W-MSA和SW-MSA分别使用规则和移位窗口分区在每个窗口中计算自注意力：先将查询向量Q和键向量K点乘，再除以键向量K的维度的平方根，得到查询向量Q的分数矩阵，并加上相对位置偏差，最后通过Softmax函数将分数矩阵归一化得到权重矩阵，再乘以值向量V即得到一个子空间的注意力向量。

其中Q,K,V分别表示查询矩阵、键矩阵和值矩阵，d表示矩阵的维度。在计算相似性时，引入相对位置偏差，B表示偏置矩阵，SoftMax为激活函数。具体来说，在经过一层LayerNorm正则化后，W-MSA中首先利用一层全连接层得到Q、K、V三个矩阵，基于上式计算自注意力后进行dropout，然后将得到的输出与z^l-1进行残差连接得到

在依次经过LN层和MLP层后进行dropout,然后与

进行残差连接得到z^l。z^l在经过一层LayerNorm正则化后，通过SW-MSA将图像特征图进行尺寸为半个窗口大小的移位，对其各循环上移和循环左移半个窗口大小，再按照W-MSA划分窗口，并在运行结束后将得到的特征图循环下移和循环右移半个窗口的大小，复原回原来的位置。基于上式计算自注意力后进行dropout，然后与z^l进行残差连接，得到

在依次经过LN层和MLP层后进行dropout,然后与

进行残差连接得到z^l+1。而LN正则化层的主要作用是进行LN正则化处理，对输入数据进行归一化处理，将其归到0到1之间，从而保证数据分布是一样的。残差连接层主要作用是进行残差连接，将输入与输出直接进行相加，补充卷积过程中损失的特征信息，以防止过拟合、提升模型表现，并克服网络退化问题。MLP层由2个全连接层组成，输入特征经过一个全连接层得到中间特征,其维度设为输入特征维数的4倍，然后经过激活函数GELU，再经过一个全连接层得到输出特征。

步骤3、恢复模块主要作用为恢复图像尺寸并得到像素级的预测结果。

参照图1，恢复模块的结构依次为：Swin-UNet++模块输出的特征图→patch扩展层→Linear Projection层→输出图像像素级预测结果

步骤3.1利用最后一层patch扩展层对特征图进行上采样，将Swin-UNet++模块输出的特征图的分辨率恢复到输入分辨率W×H。这一patch扩展层首先通过一个全连接层扩展通道数，此处设置输出张量的维度为输入的16倍，并利用rearrange operation将相邻维度的特征图重组成更大的特征图，再进行LayerNorm通道归一化处理实现上采样。

步骤3.2对这些上采样的特征进行线性投影，输出像素级的分割预测结果W×H×Class，其中Class为像素级分类的类别数，H表示图像的高，W表示图像的宽。

自此，完成将图像输入到定义好的Swin-UNet++网络并得到像素级的预测结果，根据真实标签与预测结果计算DSC(Dice相似系数)；记录该方法在分割图像各个子类的DSC参数和分割图像整体的DSC参数，以评估分割的准确率。其中DSC(Dice相似系数)用于度量两个集合的相似度，取值范围为[0,1],值越大，表示两个集合越相似。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于Transformer架构的图像语义分割方法，其特征在于：

步骤1、预处理模块；将初始输入的图像缩放，调整后的图像尺寸记为W×H,其中W表示图像的宽，H表示图像的高，W×H描述图像的分辨率，即像素点的个数；接着对输入图像进行数据增强，以增加数据多样性；Patch Partition将图像的尺寸压缩；Linear Embedding则利用线性嵌入层将投影的特征维转化为任意维C；

步骤2、Swin-UNet++模块；基于SwinTransformer块对步骤1输出的特征图进行学习；使用patch合并层和Swin Transformer块完成下采样，使用patch扩展层和Swin Transformer块完成上采样；下采样过程中，通过多个Swin Transformer块和patch合并层，生成分层特征表示；上采样过程则包括多个SwinTransformer块和patch扩展层；通过跳跃连接将提取的上下文特征与编码器的多尺度特征融合，以弥补下采样造成的空间信息损失；

步骤3、恢复模块；对步骤2中Swin-UNet++模块输出的特征图进行像素级的预测；利用patch扩展层恢复图像特征尺寸，将特征映射的分辨率恢复到输入分辨率W×H；然后对这些上采样的特征进行线性投影，映射到特定的维度，从而得到像素级分类预测的结果。

2.根据权利要求1所述的一种基于Transformer架构的图像语义分割方法，其特征在于：

步骤1.1图像预处理

该预处理模块的输入为原始图像，将其尺寸缩放为W×H；其中H表示图像的高，W表示图像的宽；随机地对图像翻转和旋转；

步骤1.2图像的划分

为了将输入信息转化为序列嵌入，Patch Partition层主要作用为将经预处理的图像进行尺寸压缩，从而减小序列的长度；将医学图像的像素点划分成大小为N×N、互不重叠的patch；通过这种划分方法，每个patch窗口被视为一个“令牌”，其特征被设置为原始像素RGB值的拼接,即为3，因此每个patch的特征维数变为N×N×3；N设为4，Patch Partition为卷积运算，卷积核大小为4×4，卷积步长为4；

步骤1.3利用线性嵌入层进行特征映射，将投影的特征维转化为任意维C，从而得到特征图；

步骤2、Swin-UNet++模块通过多个下采样过程和上采样过程对图像特征进行提取并对多个层次的特征进行融合；该模块的输入数据是步骤1输出的特征图，大小为W/4×H/4×C；该模块的输出是提取后的特征图，大小为W/4×H/4×C；

下采样过程由编码器实现；编码器由SwinBlock层和patch合并层交替相连；编码器的输入数据是步骤1输出的特征图W/4×H/4×C；编码器的输出是提取的特征图W/32×H/32×8C；

编码器结构依次为：输入数据→第一个Swin Block层→patch合并层→第二个SwinBlock层→patch合并层→第三个Swin Block层→patch合并层→瓶颈层

其中，Swin Block层由单个Swin Transformer模块连接构成；patch合并层在patch的行和列方向上间隔一定距离选取元素，将各个部分拼接在一起作为一个张量，最后展开，此时通过通道归一化和全连接层调整通道维数；通过这种处理，减少特征分辨率并增加特征的维数，从而实现降采样；编码器中的最后一个patch合并层与瓶颈层中的第一个SwinTransformer Block相连；瓶颈层由2个Swin Transformer Block依次连接组成，瓶颈层的两个Swin Transformer Block分别利用通道归一化操作和全连接层连接编码器中最后一个patch合并层的输出和上采样阶段最底层patch扩展层的输入；即上采样阶段最底层的patch扩展层与瓶颈层中的第二个Swin Transformer Block连接；

在编码器的基础上，经过逐层次的上采样和特征融合充分理解图像的上下文信息；特征融合由多个跳跃连接和patch扩展层实现；通过跳跃连接将同一密集块上一个SwinBlock层的输出与下一个密集块对应的上采样输出融合在一起；patch扩展层首先通过一个全连接层扩展通道数，利用rearrange operation将相邻维度的特征图重组成更大的特征图，再进行LayerNorm通道归一化处理，从而实现上采样；

用B^i,j表示经SwinBlock层B^i,j进行特征学习的输出，其中i索引编码器的下采样层，j沿跳跃路径索引SwinBlock层，设置每个Swin Block层中包含两个Swin Transformer Block；

Swin-UNet++架构进行特征融合的步骤如下：

1).将B^0,0与B^1,0对应的上采样输出融合，得到B^0,1；

2).在1)之后，将B^1,0和B^2,0对应的上采样输出融合得到B^1，1；B^1,1的上采样输出与B^0,0、B⁰ ^,1通过跳跃连接融合得到B^0,2；

3).经过逐层次的上采样和特征融合，依次得到B^2,1、B^1,2，最终得到B^0,3；B^0,3为B^1,2的上采样输出和B^0,0、B^0,1、B^0,2融合所得；

单个SwinTransformerBlock的结构依次为：特征图输入数据→LN正则化层→W-MSA子模块或者SW-MSA子模块→残差连接层→LN正则化层→前馈网络MLP→残差连接层→输出的特征图；Swin Block层中该SwinTransformerBlock的结构共循环2次，奇数层与偶数层依次间隔连接，其中奇数层采用的是W-MSA子模块，偶数层采用的是SW-MSA子模块；

W-MSA子模块主要采用规则窗口划分策略，从左上角像素开始，将特征映射均匀划分为窗口，每个窗口包含一定的patch；通过在子空间中计算注意力向量来捕获特征在不同子空间的依赖关系，即分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并映射到原输入空间中得到最终的注意力向量作为输出，从而更好地获取局部、全局的语义信息；

SW-MSA子模块则在图像特征输入之前，将图像特征进行尺寸为半个窗口大小的像素位移操作，然后再进行W-MSA子模块操作；窗口分区被移动，产生新的窗口分区，引入了相邻的非重叠窗口之间的连接；

使用移位窗口分区方法，连续的SwinTransformerBlock计算为：

其中z^l-1表示Swin Transformer块的输入特征，

和z^l+1则分别表示第l+1块SwinTransformer中SW-MSA模块和MLP模块的输出特征；W-MSA和SW-MSA分别使用规则和移位窗口分区在每个窗口中计算自注意力：先将查询向量Q和键向量K点乘，再除以键向量K的维度的平方根，得到查询向量Q的分数矩阵，并加上相对位置偏差，最后通过SoftMax函数将分数矩阵归一化得到权重矩阵，再乘以值向量V即得到一个子空间的注意力向量；

其中Q、K、V分别表示查询矩阵、键矩阵和值矩阵，d表示矩阵的维度；在计算相似性时，引入相对位置偏差，B表示偏置矩阵，SoftMax为激活函数；具体来说，在经过一层LayerNorm正则化后，W-MSA中首先利用一层全连接层得到Q、K、V三个矩阵，基于上式计算自注意力后进行dropout，然后将得到的输出与z^l-1进行残差连接得到

在依次经过LN层和MLP层后进行dropout,然后与

进行残差连接得到z^l；z^l在经过一层LayerNorm正则化后，通过SW-MSA将图像特征图进行尺寸为半个窗口大小的移位，对其各循环上移和循环左移半个窗口大小，再按照W-MSA划分窗口，并在运行结束后将得到的特征图循环下移和循环右移半个窗口的大小，复原回原来的位置；基于上式计算自注意力后进行dropout，然后与z^l进行残差连接，得到

在依次经过LN层和MLP层后进行dropout,然后与

进行残差连接得到z^l+1；而LN正则化层是对输入数据进行LN正则化处理，将其归到0到1之间；残差连接层是进行残差连接，使用相加操作，将输入与输出直接进行相加；MLP层由2个全连接层组成，输入特征经过一个全连接层得到中间特征,其维度设为输入特征维数的4倍，然后经过激活函数GELU，再经过一个全连接层得到输出特征；

步骤3、恢复模块进行图像的像素级预测

恢复模块的结构依次为：Swin-UNet++模块输出的特征图→patch扩展层→LinearProjection层→输出图像像素级预测结果

步骤3.1利用最后一层patch扩展层对特征图进行上采样，将Swin-UNet++模块输出的特征图的分辨率恢复到输入分辨率W×H；这一patch扩展层首先通过一个全连接层扩展通道数，此处设置输出张量的维度为输入的16倍，并利用rearrange operation将相邻维度的特征图重组成更大的特征图，再进行LayerNorm通道归一化处理，实现上采样；

步骤3.2对这些上采样的特征进行线性投影，输出像素级的分割预测结果W×H×Class，其中Class为像素级分类的类别数，H表示图像的高，W表示图像的宽；

自此，完成将图像输入到定义好的Swin-UNet++网络并得到像素级的预测结果，根据真实标签与预测结果计算DSC即Dice相似系数；记录该方法在分割图像各个子类的DSC参数和分割图像整体的DSC参数，以评估分割的准确率；其中DSC即Dice相似系数用于度量两个集合的相似度，取值范围为[0,1],值越大，表示两个集合越相似。