CN115908811A

CN115908811A - 一种基于Transformer和卷积注意力机制的CT图像分割方法

Info

Publication number: CN115908811A
Application number: CN202211526001.0A
Authority: CN
Inventors: 丁长松; 许志祥; 黄辛迪; 彭荧荧; 李力松
Original assignee: Hunan University of Chinese Medicine
Current assignee: Hunan University of Chinese Medicine
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-04-04

Abstract

本发明公开了基于Transformer和卷积注意力机制的CT图像分割方法，包括以下步骤：S1，数据预处理模块：获取CT图像数据，按照体素值截断的方法过滤不相关区域，对过滤后的CT图像数据进行标准化处理，然后划分训练集、验证集和测试集；S2，CNN编码器模块：利用多层卷积操作，对CT图像进行初步编码，使用卷积注意力模块来实现注意力机制，对语义分割主要区域加入关注，获取CT图像的局部特征信息；S3，Transformer编码器模块：连接CNN编码器的后两层特征信息，传入到Transformer编码器进行处理，获取CT图像的全局特征信息，CT图像全局特征信息结果与从CNN编码器传入的后两层特征信息残差相加，增强CNN编码器后两层特征信息传递操作过程中损失的信息；S4，解码器模块：将Transformer编码器的输出信息还原至CNN编码器最后两层特征图大小，最后一层特征图经反卷积操作后与上一层输出的还原结果相加，再使用反卷积操作将相加结果还原到CNN编码器前两层特征图大小，并对应作跳跃连接，最后还原出带标签的CT图像。

Description

一种基于Transformer和卷积注意力机制的CT图像分割方法

技术领域

本发明涉及医学图像分析技术领域，特别涉及一种基于Transformer和卷积注意力机制的CT图像分割方法。

背景技术

对于临床诊断，医学图像分割有着十分重要的意义，其也是医学图像定量分析的关键步骤。电子计算机断层扫描(Computed Tomography，CT)和磁共振(MagneticResonance，MR)成像是目前诊断、治疗和临床研究中使用最广泛的放射成像技术，因此，CT和MR的分割方法也是如今医学图像分割研究领域中的主流方向。在传统的分割方法中，存在着一些难以避免的问题，如对医学领域先验知识的过多依赖，人为的错误评估等，针对该类问题，提出利用计算机深度学习技术对医学图像精确分割的方法。

随着计算机的广泛应用和人工智能技术的发展，深度学习的卷积神经网络(CNN)方法在图像分析领域取得了突出成绩。图像分割是医学图像分析中存在的长期挑战。医学图像相比于普通图像，具有灰度范围大、边界不清晰等特点，U-Net正是在这种背景下提出的通用网络结构，下采样与上采样相结合，底层信息与高层信息相结合，提高了分割效果。自U-Net引入以来，CNN已经成为解决该类问题的主要方法。但是由于卷积操作的局部性，CNN一直存在着感受野受限和无法获取全局特征关系等问题。很多人致力于扩大卷积核，特征金字塔等方法来获取全局特征信息，从而提高其全局建模能力。虽然这些方法在一定程度上改善了全局关系建模，但是仍然不可避免的受限于CNN卷积核的感受野。

目前医学图像分割的方法大部分还是以基于CNN的网络结构为主，也有很多的研究是将自然语言处理中较为成熟的Transformer模型迁移学习到图像领域当中。该方法主要分为两大类，一类是用Transformer的self-attention机制来取代CNN，使用纯Transformer结构来提取图像特征，其中一个典型的结构Vision Transformer(ViT)，该结构在图像识别任务上优于基于CNN的ResNet；另一类方法是将Transformer中的self-attention机制与常见的CNN架构结合，TransUNet是成功将CNN与Transformer结合的方法之一，先使用CNN提取图像的局部特征，然后将所提取的最后一层特征传入到Transformer中进行全局特征关系建模，最后使用反卷积方法对带有局部特征和全局特征的特征图上采样，还原成目标结果。这些方法在医学图像处理任务中取得了不错的效果，成为医学图像分割中新的研究和应用方向。

发明内容

本发明要解决的技术问题是提供一种基于Transformer和卷积注意力机制的CT图像分割方法，可实现自动将CT图像中的目标区域标记出来，从而方便用于诊断、治疗和临床研究。为了解决上述问题，其技术方案如下：

本发明的一种基于Transformer和卷积注意力机制的CT图像分割方法，所述方法包括以下步骤：

S1，数据预处理模块：获取CT图像数据，按照体素值截断的方法过滤不相关区域，对过滤后的CT图像数据进行标准化处理，然后划分训练集、验证集和测试集；

S2，CNN编码器模块：利用多层卷积操作，对CT图像进行初步编码，使用卷积注意力模块来实现注意力机制，对语义分割主要区域加入关注，获取CT图像的局部特征信息；其中，“卷积注意力模块”的英文缩写为CBAM；CNN编码器模块即卷积神经网络编码器模块。

S3，Transformer编码器模块：连接CNN编码器的后两层特征信息，传入到Transformer编码器进行处理，获取CT图像的全局特征信息，CT图像全局特征信息结果与从CNN编码器传入的后两层特征信息残差相加，增强CNN编码器后两层特征信息传递操作过程中损失的信息；

S4，解码器模块：将Transformer编码器的输出信息还原至CNN编码器最后两层特征图大小，最后一层特征图经反卷积操作后与上一层输出的还原结果相加，再使用反卷积操作将相加结果还原到CNN编码器前两层特征图大小，并对应作跳跃连接，最后还原出带标签的CT图像。其中，解码器模块的输入数据是Transformer编码器的输出结果，首先根据输出序列的大小重新还原为特征图，经过转置卷积操作逐步将特征图上采样到输入分辨率大小(D*H*W)。此外，编码器和解码器之间添加了跳跃连接，以保留更多图片的底层细节特征信息，实现更好的分割。

进一步地，步骤S2所述的CNN编码器模块还包括：

S21，使用一个Conv_IN_ReLU块对CT图像进行初步处理，包括一个7×7卷积核的卷积层、归一化层和激活层，得到包含丰富局部信息的中间特征图；

S22，使用卷积注意力模块，沿着通道和空间两个维度推断注意力映射，强调重要的特征，减小不必要特征的影响，从而关注任务所要分割的关键部位，增强CNN编码器的性能；

S23，将融合了卷积注意力的中间特征图传入到ResConvBlock中，经过多个残差卷积块的处理，获得分辨率更低的特征图；

S24，按照S22和S23的方法，在经过两次的卷积注意力模块和ResConvBlock处理，得到分辨率更低的高层次特征图，所述高层次特征图包含了CT图像的全局信息。

进一步地，在S22步骤中，卷积注意力模块将注意力的注入分为两个过程，沿着空间轴的通道注意力模块和沿着通道轴的空间注意力模块，卷积注意力模块输入的中间特征图F∈R^C*H*W，卷积注意力模块推导出1维的通道注意力映射M_c∈R^C*1*1和2维空间注意力映射M_s∈R^1*H*W，具体过程如下：

S221，空间轴的通道注意力模块通过平均池化和最大池化操作沿着空间轴聚合中间特征图的信息，生成两个不同的通道特征信息

和

分别表示跨空间的平均池化特征和最大池化特征；然后这两个通道特征信息分别转发到一个共享前向网络；最后将共享前向网络应用于每个池化特征后的结果，使用逐元素求和操作并输出特征向量，计算方式为：

S222，将步骤S221中所求得的通道注意力映射与输入数据逐元素相乘，通过步骤S221，通道注意力得到向下传播，其过程概括为：

S223，通道轴的空间注意力模块首先通过平均池化和最大池化操作沿着通道轴聚合包含了通道注意力中间特征图的信息，生成两个2维映射：

和

分别表示跨通道的平均池化特征和最大池化特征；然后将这些信息连接起来并通过一个标准7×7卷积核的卷积层进行卷积操作，产生2维空间注意力特征图；最后通过sigmoid函数进行标准化得到最终注意力映射，计算方式为：

S224，将步骤S223得到的注意力映射，与步骤S222中求得的F'进行逐元素相乘，通过此操作来添加空间注意力，此步骤所得结果包含了通道注意力和空间注意力，对输入中间特征图的重要特征达到了强调的目的，且减小了不必要特征的影响，整个过程可以概括为：

进一步地，步骤S3所述的Transformer编码器模块还包括：

S31，将CNN编码器的最后两层特征信息展开后进行拼接，并加入位置编码，作为Transformer的输入；

S32，将输入信息传递到可变形注意力Transformer层(Deformable TransformerLayer)中对全局信息进行建模，Transformer编码器中包含了6层可变形注意力Transformer层；其中，可变形注意力Transformer层与标准的Transformer Layer不同，在这里引入了可变形注意力Transformer层机制。在标准的Transformer中，self-attention会关注特征图中的所有位置，而在图像分割任务中，不必关注所有位置的点，否则会致使收敛速度慢，计算复杂度高；而deformable self-attention，在特征图中选取采样点(Reference Point)，只对该点周围8个偏移位置进行关注，而不是将注意力分散在全局，这在图像分割任务中可以大大提高模型性能。

S33，经过6层可变形注意力Transformer层后的结果，与Transformer编码器的传入信息残差相加，增强在可变形注意力Transformer层中处理和传递过程中损失或丢失的局部特征信息，得到与输入同样维度的结果，此结果包含了输入图像的局部特征信息和全局特征信息。

本发明提供的CT图像分割方法的有益效果是：

一、本发明提供的CT图像分割方法，将Transformer应用于3D医学影像分割任务，提高了相对于传统CNN架构方法的精度。

二、使用了deformable self-attention机制，在图像分割任务中，将注意力分布在采样点周围的部分区域而不是全局，提高了模型训练的效率。

三、单纯的CNN架构或者Transformer架构在医学图像分割任务中都体现出了一些不足，本发明将两种单纯的架构结合，来改善各自的不足之处，并使用CBAM和CNN编码器与Transformer编码器之间的残差连接，使发明方法的效率更高，实现了更好的分割。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于Transformer和卷积注意力机制的CT图像分割方法的结构示意图；

图2是本发明的基于Transformer和卷积注意力机制的CT图像分割方法的CNN编码器模块中，所引入CBAM的Channel Attention Model获得通道注意力的流程示意图；

图3是本发明的基于Transformer和卷积注意力机制的CT图像分割方法的CNN编码器模块中，所引入CBAM的Spatial Attention Model获得空间注意力的流程示意图；

图4是本发明的基于Transformer和卷积注意力机制的CT图像分割方法的一种实施方式的数据标注示例图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式作进一步的说明。

在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

请参考图1至图3，本实施例的一种基于Transformer和卷积注意力机制的CT图像分割方法，该方法包括以下步骤：

S2，CNN编码器模块：利用多层卷积操作，对CT图像进行初步编码，使用卷积注意力模块来实现注意力机制，对语义分割主要区域加入关注，获取CT图像的局部特征信息；

优选地，步骤S2所述的CNN编码器模块还包括：

优选地，在S22步骤中，卷积注意力模块将注意力的注入分为两个过程，沿着空间轴的通道注意力模块和沿着通道轴的空间注意力模块，卷积注意力模块输入的中间特征图F∈R^C*H*W，卷积注意力模块推导出1维的通道注意力映射M_c∈R^C*1*1和2维空间注意力映射M_s∈R^1*H*W，具体过程如下：

和

和

优选地，步骤S3所述的Transformer编码器模块还包括：

S32，将输入信息传递到可变形注意力Transformer层(Deformable TransformerLayer)中对全局信息进行建模，Transformer编码器中包含了6层可变形注意力Transformer层；其中，可变形注意力Transformer层与标准的Transformer Layer不同，在这里引入了deformable self-attention机制。在标准的Transformer中，self-attention会关注特征图中的所有位置，而在图像分割任务中，不必关注所有位置的点，否则会致使收敛速度慢，计算复杂度高；而deformable self-attention，在特征图中选取采样点(Reference Point)，只对该点周围8个偏移位置进行关注，而不是将注意力分散在全局，这在图像分割任务中可以大大提高模型性能；

如图4所示，在步骤S1中，获取了BTCV(Beyond The Cranial Vault)腹部器官分割数据集。该数据包含30例腹部CT扫描数据，来源于一项结直肠癌化疗实验和一项反复性腹疝研究。数据图像的体积范围为512×512×85-512×512×198，视野范围约为280×280×280mm³-500×500×650mm³，平面分辨率为0.54×0.54mm²-0.98×0.98mm²，切片厚度为2.5mm-5.0mm。数据集的图像中包括13个器官：脾脏(Sp)、右肾(R_Ki)、左肾(L_Ki)、胆囊(Gb)、食道(Es)、肝(Li)、胃(St)、主动脉(Ao)、下腔静脉(IVC)、门静脉和脾静脉(PSV)、胰腺(Pa)、右肾上腺(R_AG)和左肾上腺(L_AG)，数据经标注后由放射科医生验证，数据标注示例如图4所示。将BTCV数据集归一化处理后，随机划分15个为训练集，6个为验证集，9个为测试集，验证集用于选择模型的超参数。

使用Dice损失与交叉熵损失之和作为本方法的损失函数，公式如下所示，其中，X表示真实数据，Y表示预测结果，|X|表示X的元素个数，|Y|表示Y的元素个数，|X∩Y|表示X和Y之间的交集。

loss＝Dice_loss+CrossEntropy_loss

本发明的CT图像分割方法成功应用于BTCV数据并实现分割，表1为CT图像分割方法与其他方法的Dice结果比较。

表1实验对比结果

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。

以上结合附图对本发明的实施方式作出详细说明，但本发明不局限于所描述的实施方式。对本领域的技术人员而言，在不脱离本发明的原理和精神的情况下对这些实施例进行的多种变化、修改、替换和变型均仍落入在本发明的保护范围之内。

Claims

1.一种基于Transformer和卷积注意力机制的CT图像分割方法，其特征在于，所述方法包括以下步骤：

S4，解码器模块：将Transformer编码器的输出信息还原至CNN编码器最后两层特征图大小，最后一层特征图经反卷积操作后与上一层输出的还原结果相加，再使用反卷积操作将相加结果还原到CNN编码器前两层特征图大小，并对应作跳跃连接，最后还原出带标签的CT图像。

2.根据权利要求1所述的CT图像分割方法，其特征在于，步骤S2所述的CNN编码器模块还包括：

3.根据权利要求2所述的CT图像分割方法，其特征在于，在S22步骤中，卷积注意力模块将注意力的注入分为两个过程，沿着空间轴的通道注意力模块和沿着通道轴的空间注意力模块，卷积注意力模块输入的中间特征图F∈R^C*H*W，卷积注意力模块推导出1维的通道注意力映射M_c∈R^C*1*1和2维空间注意力映射M_s∈R^1*H*W，具体过程如下：

和

和

4.根据权利要求3所述的CT图像分割方法，其特征在于，步骤S3所述的Transformer编码器模块还包括：

S32，将输入信息传递到可变形注意力Transformer层中对全局信息进行建模，Transformer编码器中包含了6层可变形注意力Transformer层；