CN114972746B

CN114972746B - 一种基于多分辨率重叠注意力机制的医学影像分割方法

Info

Publication number: CN114972746B
Application number: CN202210387736.3A
Authority: CN
Inventors: 彭绍亮; 王练; 王鹤恬; 冉坤; 潘亮; 陈佐
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2024-04-30
Anticipated expiration: 2042-04-13
Also published as: CN114972746A

Abstract

本发明公开了一种基于多分辨率重叠注意力机制的医学影像分割方法，基于多分辨率重叠注意力机制构建了一个具有跳跃连接的对称编码器‑解码器体系结构，编码器实现了从局部到全局的注意力机制，解码器将全局特征逐渐上采样到相应的输入分辨率；并且提出了跨尺度扩展层模块来实现上采样和特征维度的增加，最终通过分割头部模块实现像素级语义分割。本发明利用Transformer注意力机制和跳跃连接，充分利用全局上下文特征和各层次精细的语义信息，在全局和局部层次大大提高医学影像分割精度。

Description

一种基于多分辨率重叠注意力机制的医学影像分割方法

技术领域

本发明涉及医学影像分割、计算机应用技术领域，更具体地说，特别涉及一种基于多分辨率重叠注意力机制的医学影像分割方法。

背景技术

近年来，由于深度学习的发展，计算机视觉技术在医学图像分析中得到了广泛的应用。图像分割是医学图像分析的重要组成部分，尤其是准确、鲁棒的医学影像分割技术可以在计算机辅助诊断和图像引导的临床手术中发挥基石作用。

现有的医学图像分割方法主要依赖于以U-Net为代表的U形结构的全卷积神经网络，其由一个带有跳跃连接的编码器-解码器组成。该编码器采用一系列卷积层和连续下采样层提取深度特征，然后，解码器将提取的深度特征逐渐上采样到输入分辨率，并将编码器过程中得到的不同尺度的特征进行跳跃连接融合，以缓解下采样造成的空间信息丢失，最后进行像素级分割。通过这种对称的结构设计，U-Net在各种医学成像应用中取得了巨大的成功，许多算法诸如3D U-Net、Att-UNet、U-Net++和UNet3+已经被开发用于心脏分割、器官分割和病变分割等方面，优异的性能证明了卷积神经网络具有很强的学习识别特征的能力。

目前，基于卷积神经网络的方法虽然在医学图像分割领域取得了优异的性能，但仍不能完全满足医学应用对分割精度的严格要求。由于卷积操作的内在局限性，基于卷积神经网络的方法很难学习到全局和长距离的语义交互信息。最近，受Transformer在自然语言处理(NLP)领域取得巨大成功的启发，研究人员试图将Transformer引入视觉领域，后续的ViT、DeiT和Swin Transformer模型在图像识别任务中的成功展示了Transformer在视觉领域应用的潜力。近期，MOA-Transformer利用多分辨率重叠注意(Multi-resolutionOverlapped Attention,MOA)模块，应用到每个阶段的基于局部窗口的Transformer块之后，使用较少的计算量，在CIFAR-10/CIFAR-100和ImageNet-1K数据集上达到了最先进的精度。

发明内容

本发明的目的在于提供一种基于多分辨率重叠注意力机制的医学影像分割方法，以克服现有技术所存在的缺陷。

为了达到上述目的，本发明采用的技术方案如下：

一种基于多分辨率重叠注意力机制的医学影像分割方法，包括以下步骤：

S1、初始化参数，包括设置窗口尺寸、分割类别数、模型深度、注意力机制多头数、隐藏层维度和图片尺寸；

S2、将输入的图片通过Patch块划分模块分割为特征块，并在通道方向进行堆叠，使特征尺寸为第一尺寸；

S3、将特征块通过线性嵌入层使通道调整为隐藏层维度，得到特征f₁，特征f₁尺寸为第二尺寸；

S4、将特征f₁通过堆叠两次的局部Transformer模块实现特征融合，得到融合后的特征，融合后的特征尺寸为第二尺寸；

S5、将融合后的特征通过MOA模块，得到的特征尺寸为第二尺寸；

S6、将通过MOA模块的特征通过Patch块合并模块进行下采样操作，得到特征f₂，特征f₂的尺寸为第三尺寸；

S7、重复步骤S4-S6，得到特征f₃，该特征f₃的尺寸为第四尺寸；

S8、将特征f₃再通过由8个局部Transformer模块堆叠而成逆瓶颈模块，完成编码器部分的操作，得到特征尺寸为第四尺寸；

S9、在逆瓶颈模块的第2个局部Transformer模块处产生一条分支，用于依次连接Patch块合并模块、堆叠两次的Swin Transformer模块和跨尺度扩展层模块；

S10、将步骤S7中得到的特征f₃与d₃进行跳跃连接，具体的操作是将f₃与d₃进行拼接，再通过全连接层调整通道减半，得到的特征尺寸为第四尺寸；

S11、依次通过堆叠两次的局部Transformer模块和跨尺度扩展层模块，得到的特征d₂，并按照步骤S10进行跳跃连接，得到的特征尺寸为第三尺寸；

S12、重复步骤S11得到的特征尺寸为第二尺寸；

S13、将得到的特征通过最终跨尺度扩展层模块，再通过分割头部模块的卷积操作调整通道数为分割类别，以完成图像的精确分割。

进一步地，所述步骤S2中将输入的图片通过Patch块划分模块分割为4*4的特征块。

进一步地，所述第一尺寸为(H/4,W/4,48)，所述第二尺寸为(H/4,W/4,C)，所述第三尺寸为(H/8,W/8,2C)，所述第四尺寸为(H/16,W/16,4C)。

进一步地，所述步骤S2、S3的操作由一个输出通道为C，卷积核为4*4，步长为4的卷积操作实现。

进一步地，所述步骤S5中的MOA模块通过以下步骤实现：

MOA模块将特征层(H,W,C)划分为固定大小的特征；

利用卷积操作减少隐藏层维度得到的特征维数为(H,W,C/R)。

进一步地，所述步骤S8中的局部Transformer模块通过以下步骤实现：

局部Transformer模块由基于局部窗口的多头注意模块和具有GELU非线性的两个MLP层组成，每个多头注意力模块在使用前进行归一化操作，每个MLP层都进行残差连接；

基于窗口划分机制，特征通过连续的局部Transformer模块表示为：

式中，z^l分别为多头注意力机制模块和MLP模块的输出。

进一步地，所述步骤S9中的跨尺度扩展层模块和步骤S13中的最终跨尺度扩展层模块在实现上采样同时调整通道，使用多个核相同、步距不同的转置卷积操作来实现，每个特征块具有相同的中心、不同的尺度，所生成的特征将进行通道维度上的拼接。

与现有技术相比，本发明的优点在于：本发明提供的一种基于多分辨率重叠注意力机制的医学影像分割方法，利用Transformer注意力机制和跳跃连接，充分利用全局上下文特征和各层次精细的语义信息，在全局和局部层次大大提高医学影像分割精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于多分辨率重叠注意力机制的医学影像分割方法的流程图。

图2是本发明中MOAUnet模型的分割结果图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

参阅图1所示，本实施例公开了一种基于多分辨率重叠注意力机制的医学影像分割方法，包括以下步骤：

步骤S1、初始化参数，包括设置窗口尺寸window_size、分割类别数分割类别、模型深度depths、注意力机制多头数heads、隐藏层维度C和图片尺寸(W，H)；

步骤S2、将输入的图片通过Patch块划分模块分割为4*4的特征块，并在通道方向进行堆叠，使特征尺寸为第一尺寸(H/4,W/4,48)；

步骤S3、将特征块通过线性嵌入层使通道调整为隐藏层维度，得到特征f₁，特征f₁尺寸为第二尺寸(H/4,W/4,C)。

其中，步骤S2、S3的操作可由一个输出通道为C，卷积核为4*4，步长为4的卷积操作实现。

步骤S4、将特征f₁通过堆叠两次的局部Transformer模块实现特征融合，得到融合后的特征，融合后的特征尺寸为第二尺寸(H/4,W/4,C)；

步骤S5、将融合后的特征通过MOA模块，以促进与附近windows和所有非局部windows的信息通信，得到的特征尺寸为第二尺寸(H/4,W/4,C)；

步骤S6、将通过MOA模块的特征通过Patch块合并模块进行下采样操作，倍率为2，同时使得通道扩大为原来的两倍，得到特征f₂，特征f₂的尺寸为第三尺寸(H/8,W/8,2C)；

步骤S7、重复步骤S4-S6，得到特征f₃，该特征f₃的尺寸为第四尺寸(H/16,W/16,4C)；

步骤S8、将特征f₃再通过由8个局部Transformer模块堆叠而成逆瓶颈模块，完成编码器部分的操作，得到特征尺寸为第四尺寸(H/16,W/16,4C)；

步骤S9、在逆瓶颈模块的第2个局部Transformer模块处产生一条分支，用于依次连接Patch块合并模块、堆叠两次的Swin Transformer模块和跨尺度扩展层模块，以加深网络，更加精细化提取底层特征，分支汇聚于第6个局部Transformer模块；

步骤S10、将步骤S7中得到的特征f₃与d₃进行跳跃连接，具体的操作是将f₃与d₃进行拼接，再通过全连接层调整通道减半，得到的特征尺寸为第四尺寸(H/16,W/16,4C)；

步骤S11、依次通过堆叠两次的局部Transformer模块和跨尺度扩展层模块，得到的特征d₂，并按照步骤S10进行跳跃连接，得到的特征尺寸为第三尺寸(H/8,W/8,2C)；

步骤S12、重复步骤S11得到的特征尺寸为第二尺寸(H/4,W/4,C)；

步骤S13、将得到的特征通过最终跨尺度扩展层模块，上采样4倍，还原原始图像分辨率，再通过分割头部模块的卷积操作调整通道数为分割类别，以完成图像的精确分割。

在本实施例中，步骤S5中MOA模块通过以下步骤实现：

步骤S5.1、多分辨率重叠注意力(Multi-resolution Overlapped Attention,MOA)模块首先将特征层(H，W，C)划分为固定大小的patch块，但是，与标准的多头注意机制不同的是，用于生成key和value嵌入的patch稍大一些，并且有重叠，而用于query嵌入的patch则没有重叠。

步骤S5.2、首先利用1×1卷积来减少隐藏层维度为原来的1/R，以降低计算成本，实验中设置R为32，得到的特征维数为(H,W,C/R)。在一个query patch中特征大小为14×14×R被投影到一维向量的大小1×1×R，query的总数为H/14×W/14。类似地，投影key和value向量但patch尺寸设置为16，得到相应的key value数量，对query、key和value嵌入进行多头注意力，然后通过具有GELU非线性的两层多层感知机(Multi-Layer Perceptron，MLP)模块。

在本实施例中，步骤S8中局部Transformer模块通过以下步骤实现：

步骤S8.1、局部Transformer模块是由基于局部窗口的标准多头注意模块和具有GELU非线性的两层MLP组成，同时每个多头注意力模块在使用前都会进行归一化操作，每个MLP层都进行残差连接。

步骤S8.2、基于窗口划分机制，特征通过连续的局部Transformer模块可以表示为：

其中z^l分别为多头注意力机制(Multihead Self-Attention，MSA)模块和MLP模块的输出，同时根据文献，注意力(self-attention)可以表示为：

其中，相对位置偏差为query矩阵,/>为key、value矩阵；d为隐藏层维数,M²为patch块总数,N²为key中patch总数。

在本实施例中，步骤S9中的跨尺度扩展层模块和步骤S13中的最终跨尺度扩展层模块在实现上采样同时调整通道，使用多个核相同、步距不同的转置卷积操作来实现，每个特征块具有相同的中心、不同的尺度，所生成的特征将进行通道维度上的拼接，具体参数见表1和表2。

表1跨尺度扩展层参数

表2最终跨尺度扩展层参数

类型	卷积核	步距	输出维度
				转置卷积	4×4	4×4	C/2
转置卷积	8×8	4×4	C/2

本发明主要由对称的编码器-解码器组成，编码器通过Patch块划分模块将输入的图像转换成序列，然后通过局部Transformer模块进行特征提取，再使用多分辨率重叠注意力(MOA)模块，促进与附近窗口和所有非局部窗口的信息通信，使用Patch块合并模块实现连续下采样和卷积操作；解码器使用跨尺度扩展层(Cross-scale Expanding Layer)模块实现连续上采样和卷积操作，同时通过局部Transformer模块进行特征提取，对于对应层次的特征使用跳跃连接进行连接，最后通过分割头部模块实现医学影像的精准分割。

本发明首次将MOA-Transformer应用于医学影像领域。首先，基于MOA-Transformer构建了一个具有跳跃连接的对称编码器-解码器体系结构，编码器实现了从局部到全局的注意力机制，解码器将全局特征逐渐上采样到相应的像素级预测分割的输入分辨率；其次，提出了跨尺度扩展层模块来实现上采样和特征维度的增加；最后，为了验证本发明的有效性，使用平均Dice相似度(DSC)和平均豪斯多夫距离(HD)作为评价指标，通过表3发现，MOAUnet在多器官CT分割数据集Synapse上具有最好的效果，相比Unet具有的3.22％(DSC↑)和20.42％(HD↓)提升，相比SwinUnet提高了0.94％(DSC↑)和2.27％(HD↓)，通过图2的结果显示，本发明提出的MOAUnet模型在医学影像数据集上具有较好的分割性能。最后通过表4中的消融实验结果验证，跨尺度扩展层模块在上采样过程中具有最好的精度提升，通过表5，较多的跳跃连接数量有利于模型分割。

表3 Synapse多器官CT数据集上不同(SOTA)方法的分割精度

表4上采样方法对模型的影响

表5跳跃连接数量对模型的影响

虽然结合附图描述了本发明的实施方式，但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改，只要不超过本发明的权利要求所描述的保护范围，都应当在本发明的保护范围之内。

Claims

1.一种基于多分辨率重叠注意力机制的医学影像分割方法，其特征在于，包括以下步骤：

S12、重复步骤S11得到的特征尺寸为第二尺寸；

S13、将得到的特征通过最终跨尺度扩展层模块，再通过分割头部模块的卷积操作调整通道数为分割类别，以完成图像的精确分割；

所述步骤S8中的局部Transformer模块通过以下步骤实现：

式中，z^l分别为多头注意力机制模块和MLP模块的输出。

2.根据权利要求1所述的基于多分辨率重叠注意力机制的医学影像分割方法，其特征在于，所述步骤S2中将输入的图片通过Patch块划分模块分割为4*4的特征块。

3.根据权利要求2所述的基于多分辨率重叠注意力机制的医学影像分割方法，其特征在于，所述第一尺寸为(H/4，W/4，48)，所述第二尺寸为(H/4，W/4，C)，所述第三尺寸为(H/8，W/8，2C)，所述第四尺寸为(H/16，W/16，4C)。

4.根据权利要求2所述的基于多分辨率重叠注意力机制的医学影像分割方法，其特征在于，所述步骤S2、S3的操作由一个输出通道为C，卷积核为4*4，步长为4的卷积操作实现。

5.根据权利要求3所述的基于多分辨率重叠注意力机制的医学影像分割方法，其特征在于，所述步骤S5中的MOA模块通过以下步骤实现：

MOA模块将特征层(H，W，C)划分为固定大小的特征；

利用卷积操作减少隐藏层维度得到的特征维数为(H，W，C/R)。

6.根据权利要求3所述的基于多分辨率重叠注意力机制的医学影像分割方法，其特征在于，所述步骤S9中的跨尺度扩展层模块和步骤S13中的最终跨尺度扩展层模块在实现上采样同时调整通道，使用多个核相同、步距不同的转置卷积操作来实现，每个特征块具有相同的中心、不同的尺度，所生成的特征将进行通道维度上的拼接。