CN116309650A

CN116309650A - 基于双分支嵌入注意力机制的医学图像分割方法与系统

Info

Publication number: CN116309650A
Application number: CN202310574316.0A
Authority: CN
Inventors: 金敏; 杨帅帅
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-06-23
Anticipated expiration: 2043-05-22
Also published as: CN116309650B

Abstract

本发明公开一种基于双分支嵌入注意力机制的医学图像分割方法及系统。方法包括：参数初始化，构建医学图像的分割网络，加载预训练参数；数据预处理；编码器对医学图像提取特征并保存特征图，编码器由并行的Swin Transformer分支和Resnet分支组成，分别用于用于提取图像的全局特征和局部特征；将保存的特征图通过跳跃连接输入到解码器，特征图经过解码器分支解码，并采用注意力机制将特征融合，获得预测标签图；计算图像的预测标签与真实标签的损失，梯度反向传播，更新分割网络的参数；若达到训练的最大轮次，则结束训练，保存分割网络。本发明模型可以显著提高分割精度。

Description

基于双分支嵌入注意力机制的医学图像分割方法与系统

技术领域

本发明涉及医学图像领域，涉及一种医学图像分割方法与系统，特别涉及一种基于双分支嵌入注意力机制的医学图像分割方法与系统。

背景技术

随着医学的不断发展，医学图像在病人的诊断和治疗过程中起着非常重要的作用。医学图像分析成为了临床分析和医疗干预的最重要的证据来源之一。医学图像分割是医学图像分析的重要组成部分，特别是准确、鲁棒的医学图像分割在计算机辅助诊断和图像引导临床手术中起着基石作用。得益于深度学习的发展，计算机视觉技术在医学图像分析中得到了广泛的应用。医学图像分割能够从特定组织图像中提取关键信息，是实现医学图像可视化的关键步骤。分割后的图像被提供给医生用于组织体积的定量分析、诊断、病理改变组织的定位、解剖结构的描绘、治疗计划等不同任务。由于医学图像信息量巨大，噪声比较大（主要是由于成像设备、成像原理以及个体自身差异的影响）手工勾画医学图像目标区域是一件非常费时费力的工作，给临床医生增加了很大负担。如果我们能用计算机辅助医生来做医学图像的分割，这将会减少医生的负担，提高医生的工作效率。

近年来，受益于机器学习和深度学习的快速发展，特别是卷积神经网络（CNN）的出现，许多基于CNN的图像分割模型已经出现，并且取得了巨大成功。在基于卷积神经网络的模型中，最具有代表性的分割模型就是Unet。Unet具有编解码器的构造，并且为了弥补图像空间信息的丢失，在编解码器之间具有跳跃连接。然而，由于卷积运算的固有局部性导致UNet在提取全局特征有缺陷。在自然语言处理（NLP）领域的Transformer模型在提取远程的全局特征上具有突出的优势，但是由于医学图像分割是一种像素级别的语义分割，Transformer在提取局部特征上表现不足，所以它不能直接用来做像素级别的语义分割。经过改造的Transformer在计算机视觉领域取得巨大成功，如ViT（Vision Transformer）和Swin Transformer。

如：中国专利文献CN114972383A公开一种基于Unet的脑肿瘤分割方法，但该方案中由于卷积运算的局限性，UNet模型无法有效的提取全局特征。为了使Unet能够提取全局特征，中国专利文献CN114972383A公开的方案中，将注意力机制引入UNet模型，但是这只能缓解Unet模型的局限性，模型的分割性能仍有待进一步提高。

又如：中国专利文献CN114612416A公开一种基于Swin-Unet的胃腺癌病灶分割方法，其方案中采用的Swin-Unet模型是一个纯粹的基于Swin Transformer的医学图像分割网络，模型的搭建全部依赖于Swin Transformer。众所周知，Transformer擅长提取全局特征，并不擅长提取局部特征。因此在该方案中只采用Swin-Unet，其在提取局部特征方面，表现并不好。

再如：中国专利文献CN114708255A公开一种基于TransUNet模型的多中心儿童X线胸片图像肺部分割方法，TransUnet模型是一个CNN和Transformer的混合的医学图像分割网络，TransUnet模型的编码器由CNN和ViT组成，解码器是由CNN和上采样层组成。在编码器中，CNN和ViT是串行（图像先经过CNN提取局部特征，然后再经过ViT提取全局特征）提取特征，这会导致图像的全局与局部特征并没有进行充分提取。

此外，文献《TransFuse:Fusing Transformers and CNNs for Medical ImageSegmentation》[C].Liu Y, Chen X, Gong S, et al. IEEE/CVF Conference onComputer Vision and Pattern Recognition (CVPR), 2021, 5790-5799. 提出了一种并行的双分支医学图像分割网络TransFuse。其编码器由Transformer分支和CNN分支组成，其中Transformer分支采用ViT模型，CNN分支采用Resnet34模型。而TransFuse的解码器则由一系列的特征融合模块构成，融合模块通过融合Transformer和CNN的特征，实现了全局和局部特征的融合，从而在医学图像分割任务中取得优异的性能。但该方案中ViT模型的自注意力的计算是图像大小的平方，计算复杂度较高，其次TransFuse的融合模块设计的太复杂，会进一步导致TransFuse的计算度的提升，在一些资源有限的设备或应用场景可能存在性能瓶颈。

因此以上现有技术公开的医学图像分割网络的模型精度都还有待进一步提升。

发明内容

本发明要解决的技术问题是：提供一种基于双分支嵌入注意力机制的医学图像分割方法与系统，其目的在于能充分提取医学图像的全局与局部特征，并且充分融合全局与局部特征，从而提高分割网络模型的分割精度。

为了解决上述技术问题，本发明采用以下技术方案：

第一方面，本发明提供一种基于双分支嵌入注意力机制的医学图像分割方法，具体包括如下步骤：

S1、参数初始化，构建医学图像的分割网络，加载预训练参数；

S2、数据预处理：使用数据增强对医学图像进行预处理增加训练数；

S3、将预处理后的医学图像输入到编码器进行编码，编码器对医学图像提取特征并保存特征图，所述编码器由并行的Swin Transformer分支和Resnet分支组成；所述SwinTransformer分支用于提取图像的全局特征，所述Resnet分支用于提取图像的局部特征；

S4、将编码器保存的特征图通过跳跃连接输入到解码器，所述特征图经过解码器分支解码，并采用注意力机制将Swin Transformer分支和Resnet分支提取的特征融合，获得最终的预测标签图；

S5、计算图像的预测标签与真实标签的损失，梯度反向传播，更新分割网络的参数；

S6、若达到训练的最大轮次，则结束训练，保存分割网络；若没有达到训练的最大轮次，则跳至步骤S2，重复步骤S2-S6。

进一步地，步骤S1中，初始化的参数包括所输入的医学图像的大小，分类的类别数，学习率，批次大小，训练的最大轮数等超参数。

进一步地，步骤S1中，所述的预训练参数是Swin Transformer和Resnet50在ImageNet数据集训练得到的参数。

进一步地，步骤S2中所述的数据增强方式具体包括：旋转和翻转；

具体地，所述旋转为对原始图像旋转-20度至20度；所述翻转包括对原始图像进行水平翻转或上下翻转。

进一步地，步骤S3中，所述的Swin Transformer分支具体包括：分区划分层，线性嵌入层，以及3个Transformer编码层；

所述分区划分层，用于将图像划分成不重叠的分区；

所述线性嵌入层，用于将特征图的通道映射为C；

所述的每个Transformer编码层，包括2个成对的Swin Transformer块及1个PatchMerging层；所述Swin Transformer 块用于提取图像的全局特征，所述Patch Merging层用于实现下采样的功能，特征图每经过一个Patch Merging层，图像的通道数变为原来的2倍，高度和宽度变为原来的1/2；

2个相邻出现的连续的Swin Transformer 块的公式如下所示：

其中：W-MSA是计算窗口多头自注意力的函数；SW-MSA是计算移位窗口多头自注意力的函数；LN是计算层间归一化的函数；MLP为计算全连接神经网络的函数，

、/>

分别是第/>

层W-MSA模块与MLP模块的输出，/>

、/>

分别是第/>

层SW-MSA模块与MLP模块的输出；/>

是指第/>

MLP模块的输出。

进一步地，步骤S3中，所述的Resnet分支具体包括：Resnet前置层及4个Resnet编码层；

所述的Resnet前置层由7*7的卷积层和3*3的池化层组成；

一般地，所述Resnet分支包括Resnet18，Resnet34，Resnet50，Resnet101等类型，这些类型的Resnet分支都具有7*7的卷积层和3*3的池化层组成的Resnet前置层。

所述的每个Resnet编码层由若干个残差块构成；所述残差块包括第一残缺块和第二残缺块，第一残差块不具备下采样功能，第二残差块具备下采样功能；组成第一个Resnet编码层的残差块全部为第一残差块（不具备下采样功能），组成第二个编码层、第三个编码层、第四个编码层的首个残差块为第二残差块（具备下采样功能），其余残差块全部为第一残差块（不具备下采样功能）。

进一步地，步骤S4所述的跳跃连接设置在特征图的最初的输入图像的高度和宽度的1/4，1/8，1/16的位置。

进一步地，步骤S4中所述的解码器具体包括：5个解码层；每个解码层包括若干个解码器块；每个解码器块包括卷积注意力模块（CBAM），卷积模块，上采样模块，其中：

所述卷积注意力模块包含通道注意力模块(CAM)和空间注意力模块(SAM)，所述卷积注意力模块用于将通道注意力和空间注意力附加在输入的特征图，从而实现将SwinTransformer分支提取的全局特征和Resnet分支提取的局部特征融合；

所述上采样模块，采用双线性插值实现，特征图经过一个上采样模块，高度和宽度变为原来的2倍；所述预测标签图由第5个解码层输出。

进一步地，所述卷积注意力模块中有关所述通道注意力模块的公式如下：

其中，

是sigmoid激活函数，F是输入的特征，AvgPool是全局平均池化，MaxPool是全局最大池化，/>

是通道注意力，/>

是空间注意力模块(SAM)的输入特征；

进一步地，有关所述空间注意力模块的公式如下：

其中，

是sigmoid激活函数，/>

是空间注意力，/>

是注意力模块中7*7的卷积层的计算函数，/>

是最终经过卷积注意力模块（CBAM）调整后的特征。

进一步地，步骤S5中，所述的计算图像的预测标签与真实标签的损失具体为：计算预测标签和真实标签的交叉熵损失和和Dice损失，具体表示为下式所示：

其中CrossEntropyLoss是交叉熵损失，N是样本数量，M是类别总数，

是真实标签，/>

预测的第/>

个样本属于第c类的概率；

其中DiceLoss是Dice损失，Dice是相似性系数，X是预测标签，Y是真实标签，TP是将正类预测为正类的数量，FP是将负类预测为正类的数量，FN是将负类预测为负类的数量。

第二方面，本发明还提供一种基于双分支嵌入注意力机制的医学图像分割系统，其采用上述的基于双分支嵌入注意力机制的医学图像分割方法，具体包括：模型构建模块、数据预处理模块、编码模块及解码模块，所述编码模块与解码模块之间设置跳跃连接；其中：

模型构建模块，用于构建医学图像分割网络，加载保存的模型参数，所述加载的模型参数为已经在训练集训练完成的模型参数；

数据预处理模块，用于对输入的医学图像使用数据增强的方式进行预处理以增加训练数据；

编码模块，用于对预处理后的医学图像提取特征并保存特征图；所述编码模块为编码器，由并行的Swin Transformer分支和Resnet分支组成；所述Swin Transformer分支用于提取图像的全局特征，所述Resnet分支用于提取图像的局部特征；

解码模块，用于对通过跳跃连接输入至解码器的编码后的特征图进行分支解码，并采用注意力机制将Swin Transformer分支和Resnet分支提取的特征融合，获得最终的预测标签图。

本发明还提供一种计算机存储介质，其上存储有计算机程序，其中所述计算机程序被执行器执行时实现上述的基于双分支嵌入注意力机制的医学图像分割方法。

本发明具有如下有益效果：

本发明提供一种医学图像分割方法及系统，其基于双分支嵌入注意力机制，主要包含编码器，跳跃连接，解码器。编码器包含两个并行的Swin Transformer分支和Resnet分支，Swin Transformer分支用于提取图像的全局特征，Resnet分支用于提取图像的局部特征。为了融合两个分支提取的全局特征和局部特征以及弥补下采样造成的空间信息的丢失，在编码器与解码器之间设置跳跃连接。通过跳跃连接将这两个分支提取的特征进行拼接，拼接后的特征会有冗余，为了减少冗余特征，抑制不相关的特征，将注意力机制引入到解码器。

与现有技术相比，本发明的有益效果是：

（1）本发明将CBAM注意力引入解码器，可以减少冗余特征，抑制不相关的特征，使全局特征与局部特征能充分融合。

（2）本发明的编码器提取的不同尺度的全局和局部特征包含不同的信息，对于分割任务的准确性具有重要影响。通过充分利用编码器提取的这些不同尺度的全局与局部特征，可以显著提高分割的精度。

经过实验验证，和其他医学图像分割模型相比，本发明能够显著提高分割精度。

附图说明

图1为本发明实施例1提供的基于双分支嵌入注意力机制的医学图像分割方法的整体流程示意图；

图2为本发明实施例1提供的基于双分支嵌入注意力机制的医学图像分割方法的具体的流程示意图；

图3为本发明实施例提供的连续的Swin Transformer block（块）的架构图；

图4为本发明实施例提供的解码器的架构图；

图5为本发明实施例2提供的提供的基于双分支嵌入注意力机制的的医学图像分割系统的结构框架示意图；

图6为实施例3本发明模型与其他模型在Synapse数据集上的分割性能效果图；

图7为实施例3本发明模型与其他模型的分割性能对比图；

图8为实施例4本发明模型与其他模型的分割性能对比图；

图9为本发明实施例5提供的不同Resnet分支对本发明模型的分割性能对比图；

图10为本发明实施例6提供的不同跳跃连接的数量对本发明模型的分割性能对比图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围不受下面公开的具体实施例的限制。

实施例1:

如图1、2所示，本实施例提供一种基于双分支嵌入注意力机制的医学图像分割方法，包括以下步骤：

初始化的参数包括所输入的医学图像的大小，分类的类别数，学习率，批次大小，训练的最大轮数等超参数；预训练参数是Swin Transformer和Resnet50在ImageNet数据集训练得到的参数。

S2、数据预处理：使用数据增强对医学图像进行预处理增加训练数据；

所述的数据增强方式具体包括：旋转和翻转。更具体的：所述旋转为对原始图像旋转-20度至20度；所述翻转包括对原始图像进行水平翻转或上下翻转。

S3、将预处理后的医学图像输入到编码器进行编码，编码器对医学图像提取特征并保存特征图，编码器由并行的Swin Transformer分支和Resnet分支组成。所述SwinTransformer分支用于提取图像的全局特征，所述Resnet分支用于提取图像的局部特征。

其中，所述的Swin Transformer分支具体包括：分区划分层，线性嵌入层，以及3个Transformer编码层。其中，分区划分层，用于将图像划分成不重叠的分区；线性嵌入层，用于将特征图的通道映射为C；所述的没给Transformer编码层，包括2个Swin Transformer块及1个Patch Merging层。

所述Swin Transformer块用于提取图像的全局特征，所述Patch Merging层用于实现下采样的功能，特征图每经过一个Patch Merging层，图像的通道数变为原来的2倍，高度和宽度变为原来的1/2。

两个相邻出现的连续的Swin Transformer block（块），如图2所示，相关公式如下：

、/>

分别是第/>

层W-MSA模块与MLP模块的输出，/>

、/>

分别是第/>

层SW-MSA模块与MLP模块的输出；/>

是指第/>

MLP模块的输出。

所述的Resnet分支具体包括：Resnet前置层及4个Resnet编码层。所述Resnet前置层由7*7的卷积层和3*3的池化层组成。一般地，所述Resnet分支包括Resnet18，Resnet34，Resnet50，Resnet101等类型，这些类型的Resnet分支都具有7*7的卷积层和3*3的池化层组成的Resnet前置层。

本发明方案中的Resnet分支采用Resnet50。本发明将在实施例5中详细讨论不同的Resnet分支对模型分割性能的影响。

所述的每个Resnet编码层由若干个残差块构成；所述残差块包括第一残缺块和第二残缺块，第一残差块不具备下采样功能，第二残差块具备下采样功能。组成第一个Resnet编码层的残差块全部为第一残差块（不具备下采样功能），组成第二个编码层、第三个编码层、第四个编码层的首个残差块为第二残差块（具备下采样功能），其余残差块全部为第一残差块（不具备下采样功能）。

S4、将编码器保存的特征图通过跳跃连接输入到解码器，所述特征图经过解码器分支解码，并采用注意力机制将Swin Transformer分支和Resnet分支提取的特征融合，获得最终的预测标签图。

所述的跳跃连接设置在特征图的最初的输入图像的高度和宽度的1/4，1/8，1/16的位置。本发明将在实施例6中详细讨论跳跃连接的数量对模型分割性能的影响。

作为优选实施例，本实施例中的所述的解码器具体包括：5个解码层；每个解码层包括若干个解码器块；每个解码器块包括卷积注意力模块，卷积模块及上采样模块，其中：

所述卷积注意力模块包含通道注意力模块和空间注意力模块，用于将通道注意力和空间注意力附加在输入的特征图，从而实现将Swin Transformer分支提取的全局特征和Resnet分支提取的局部特征融合；

所述卷积注意力模块中有关所述通道注意力模块的公式如下：

其中，

是通道注意力，/>

是空间注意力模块的输入特征；

有关所述空间注意力模块的公式如下：

其中，

是sigmoid激活函数，/>

是空间注意力，/>

是注意力模块中的7*7的卷积层的计算函数，/>

是最终经过卷积注意力模块（CBAM）调整后的特征。

S5、计算图像的预测标签与真实标签的损失，梯度反向传播，更新分割网络的参数。

所述的计算预测标签图与真实标签的损失具体为：计算预测标签和真实标签的交叉熵损失和和Dice损失，具体表示为下式所示：

是真实标签，/>

预测的第/>

个样本属于第c类的概率；

本发明实施例采用的是交叉熵损失和Dice损失的加权和，两者的权重分别是0.6和0.4，本发明实施例采用的优化器是随机梯度下降（SGD）优化器，初始动量为0.9。

实施例2：

如图4所示，本实施例提供一种采用实施例1所述的基于双分支嵌入注意力机制的医学图像分割方法的基于双分支嵌入注意力机制的医学图像分割系统20，具体包括：

模型构建模块21、数据预处理模块22、编码模块23及解码模块24，所述编码模块23与解码模块24之间设置跳跃连接；其中：

模型构建模块21，用于构建医学图像分割网络，加载保存的模型参数，所述加载的模型参数为已经在训练集训练完成的模型参数；

数据预处理模块22，用于对输入的医学图像使用数据增强的方式进行预处理以增加训练数据；

编码模块23，用于对预处理后的医学图像提取特征并保存特征图；所述编码模块为编码器，由并行的Swin Transformer分支231和Resnet分支232组成；所述SwinTransformer分支231用于提取图像的全局特征，所述Resnet分支232用于提取图像的局部特征；

解码模块24，用于对通过跳跃连接输入至解码器的编码后的特征图进行分支解码，并采用注意力机制将Swin Transformer分支231和Resnet分支232提取的特征融合，获得最终的预测标签图。

实施例3：应用实施例1

为了验证本发明提出的医学图像分割网络模型的性能，本实施例在Synapse数据上验证本发明模型（本发明中定义为SR-Unet模型）的分割精度。Synapse数据集是MICCAI2015多图谱腹部标记挑战腹部CT扫描数据集，Synapse数据集一共30个样本，数据的划分和处理和TransUnet和Swin-Unet一致，18个样本做训练集，12个样本做测试集（训练数据并不是3D的数据，而是3维数据的轴向切片）。

如下表1列出的8个腹部器官（主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏、胃）的平均Dice（相似性系数）和平均豪斯多夫距离（hd）。hd（平均豪斯多夫距离）的计算方法如下式所示，Dice（相似性系数）的计算方法如步骤S5中的Dice计算公式：

其中，

是预测标签和真实标签的距离，/>

是点a与点b之间的距离。

不同模型在Synapse数据集的分割效果如图6所示。不同模型的分割性能对比如图7所示。

表1在Synapse数据集上不同模型的分割效果对比

从上表中可以看出：相比Swin-Unet，TransUnet，Transfuse等分割模型，本发明提出的SR-Unet模型无论在平均相似性系数还是在平均豪斯多夫距离都有所提高。本发明模型的平均相似性系数比TransUnet模型提高了2.58%，平均豪斯多夫距离提高了（42.74%）。

实施例4：应用实施例2

为了验证本发明提出的医学图像分割网络的性能，本发明在BUSI（BreastUltrasound Images Dataset）数据集上验证本发明SR-Unet模型的分割精度。BUSI数据集是一个年龄在25至75岁之间的女性的基线数据集。该数据集在2018年收集，包含了600名女性患者的乳腺超声图像。数据集包含780张图像，平均图像尺寸为500*500像素。图像被分为三类，即正常、良性和恶性。本发明为了降低分割的难度，将良性和恶性合并为一类。不同模型的分割性能对比如下表2和图8所示。

表2 在BUSI数据集上不同模型的分割效果对比

从表2中可以看出，相比Unet，Swin-Unet，TransUnet，Transfuse等分割模型，本发明提出的模型（SR-Unet模型）无论在平均相似性系数还是在平均豪斯多夫距离都有所提高。

实施例5：应用实施例3

本实施例分析不同的Resnet分支Resnet18，Resnet34，Resnet50，Resnet101对模型分割性能的影响，Resnet18，Resnet34，Resnet50，Resnet101模型分别对应Resnet分支的层数为18、34、50、101层。不同分支对模型的分割性能影响如下表3及图9所示。

表3 不同Resnet分支对本发明模型的分割性能的影响

从表3中可以看出，随着Resnet分支的层数的增加，模型的分割性能有所提高，但是当层数增加到101层后，模型的分割性能随之下降。这也说明了模型的分割性能并不会随着网络的层数增加而增加。为了模型的分割性能，本发明优选采用Resnet50作为Resnet分支的主干网络。

实施例6：应用实施例4

为了彻底评估所提出的模型框架并验证不同设置下的模型性能。本实施例研究了不同跳跃连接的数量对模型性能的影响，模型的跳跃连接的位置在1/4、1/8和1/16分辨率的地方。当跳跃连接为1时，模型只在1/4分辨率的尺度上设置跳跃连接。当跳跃连接为2时，模型在1/4和1/8的分辨率尺度上设置跳跃连接。当跳跃连接为3时，模型在1/4、1/8和1/16分辨率尺度的地方上设置跳跃连接。通过将跳跃连接数分别更改为0、1、2和3，对应的模型分别为0跳跃模型、1跳跃模型、2跳跃模型、3跳跃模型，探讨不同的跳跃连接的数量对模型分割性能的影响。不同跳跃连接数量对本发明模型的分割性能的影响如下表4和图10所示。

表4不同跳跃连接数量对本发明模型的分割性能的影响

由上表4可以看出，模型的分割性能随着跳跃连接数量的增加而增加，特别是当跳跃连接从0个到一个的转变时，平均相似性系数提高了14.18%。不同跳跃连接数量对模型的分割性能影响如图10所示。

以上所述仅为本发明的部分较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于双分支嵌入注意力机制的医学图像分割方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于双分支嵌入注意力机制的医学图像分割方法，其特征在于，

步骤S1中，初始化的参数包括所输入的医学图像的大小，分类的类别数，学习率，批次大小，训练的最大轮数；

预训练参数是Swin Transformer和Resnet50在ImageNet数据集训练得到的参数。

3.根据权利要求1所述的基于双分支嵌入注意力机制的医学图像分割方法，其特征在于，

步骤S2中所述的数据增强方式具体包括：旋转和翻转；

所述旋转为对原始图像旋转-20度至20度；所述翻转包括对原始图像进行水平翻转或上下翻转。

4.根据权利要求1-3任一所述的基于双分支嵌入注意力机制的医学图像分割方法，其特征在于，

步骤S3中，所述的Swin Transformer分支具体包括：分区划分层，线性嵌入层，以及3个Transformer编码层；

所述分区划分层，用于将图像划分成不重叠的分区；

所述线性嵌入层，用于将特征图的通道映射为C；

所述的每个Transformer编码层，包括2个成对的Swin Transformer块及1个PatchMerging层；所述Swin Transformer 块，用于提取图像的全局特征；所述Patch Merging层用于实现下采样的功能，特征图每经过一个Patch Merging层，图像的通道数变为原来的2倍，高度和宽度变为原来的1/2；

2个相邻出现的连续的Swin Transformer 块的公式如下所示：