CN116739985A

CN116739985A - 一种基于Transformer和卷积神经网络的肺部CT图像分割方法

Info

Publication number: CN116739985A
Application number: CN202310521715.0A
Authority: CN
Inventors: 程芸; 马栋; 陈青; 徐森胤; 徐晓斌; 张聚
Original assignee: Zhejiang Hospital
Current assignee: Zhejiang Hospital
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-09-12

Abstract

一种基于Transformer和卷积神经网络的肺部CT图像分割方法，首先对数据集进行数据增强和数据预处理，然后构建本发明的深度神经网络模型，该网络模型包括主干网络、融合的Swin Transformer和CNN模块以及多重注意力融合模块，图像输入到网络模型，先经过主干网络进行编码得到多级特征，多级特征分别输入到融合的Swin Transformer和CNN模块建模远距离关系，并获取更大的感受野，然后通过多重注意力融合模块进行特征增强和融合，最后使用上采样操作将特征图恢复到输入尺寸。经过迁移学习策略训练网络模型后，把待处理的肺部CT图像输入到训练好的模型，得到图像的分割结果。本专利能够在较少注释数据集下，训练出分割结果更为精确的用于自动分割肺部CT图像的网络模型，可以提高该项工作的生产力，在临床医疗方面具有较高的应用价值。

Description

一种基于Transformer和卷积神经网络的肺部CT图像分割方法

技术领域

本发明属于基于深度学习技术的医学图像分割领域，具体涉及一种基于Transformer和卷积神经网络(Convolutional Neural Networks，CNN)的肺部CT图像分割方法。

背景技术及意义

肺部疾病是比较常见的疾病，它的发病率以及致死率处于较高水平。据估计，2020年，全球新发现的癌症病例有1930万，近1000万人因为患有癌症而死亡，其中肺癌是发病率第二高的癌症，约占11.4％。肺癌也是癌症中死亡率最高的疾病，估计有180万人死于肺癌，约占18％。根据北京大学和中日友好医院的研究显示，2016年中国的社区获得性肺炎的发病率约为千分之七，共有约140万人发生至少一次社区获得性肺炎，发病总人次约为148万次。医疗机构一般使用计算机断层扫描(Computed Tomography,CT)来生成肺部疾病患者的肺部医学图像，并分割出图像中的兴趣区，进而诊断和跟踪患者的病情。以人工方式分割医学图像需要花费医学专家大量的时间，而且易受主观经验影响，该过程的自动化可以提高生产力并统一分割标准。

目前，虽然基于卷积神经网络的方法在肺部CT图像肺炎病灶分割领域取得了良好的效果，但仍不能完全满足医学应用对分割精度的严格要求，存在过拟合、欠分割的问题。由于卷积神经网络的内在局限性，基于卷积神经网络的方法缺乏建模长距离依赖关系的能力。传统的Vision Transformer计算量大，Transformer缺乏卷积神经网络固有的一些归纳偏差，因此需要大量的数据训练才能达到更好的性能。基于Transformer的SwinTransformer可以获取层次特征，并且它的计算复杂度和图像的空间分辨率成线性关系。Swin Transformer在视觉任务的诸多领域取得了最先进的性能，它在图像任务中的成功显示了其在医学图像分割领域的应用潜力。

医学图像不同于自然图像，不同的器官、组织各有特点，需要采用不同的成像方式，由于成像方式的多样性，以及具有多模态的特点，没有理想的分割方法适用于所有的组织和器官。目前基于深度学习的方法在自动分割肺部CT图像任务中取得了良好的效果，导致目前的方法仍不能完全满足医学应用中对分割精度的严格要求，该任务面临以下难点：

(1)缺少带标注的数据集。深度学习技术需要足够的数据集对模型进行训练和测试，否则将影响模型的泛化性和准确性。尽管计算机辅助诊断方法的发展已经加快，但获取特征良好的图像数据仍然是一个常见的限制，因为为任何特定的研究活动识别和收集适当的图像的任务是一个费力和昂贵的过程。开发自动检测方法的研究人员需要经验丰富的放射科医生的意见，或者更恰当的是，需要一群放射科医生关于图像中病变的位置的意见。

(2)类别不平衡。肺部病灶的尺寸不一，大部分感染组织比非感染组织占据的区域小很多，而这些面积较小的病灶组织正是分割任务的关注的信息，用这种数据训练深度学习模型并不会得到好的分割效果，陷入局部极小值。

(3)感染组织与健康组织的边界不清楚，没有明显的界限。而且感染组织在位置和质地上不同，这使得感染组织的分割更加具有挑战性。因此，模型的分割预测图过分割和欠分割现象比较普遍，导致模型的分割性能不高。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于Transformer和卷积神经网络的肺部CT图像分割方法。

为了解决这些问题，本发明利用Swin Transformer和卷积神经网络的优点，更好地提升肺部疾病患者的肺部病变组织分割的精确度，针对肺部CT图像中病变组织分割面对的挑战，本发明的一种基于Transformer和卷积神经网络的肺部CT图像分割方法，用于从肺部CT图像中准确分割出肺部病变组织。

一种基于Transformer和卷积神经网络的肺部CT图像分割方法，包含以下步骤：

步骤1)输入数据集；

输入肺结节CT数据集LIDC-IDRI；

输入已标注的肺炎患者的肺部CT图像数据集，记为肺炎CT-Mask；

输入待分割的肺炎患者的肺部CT图像，记为肺炎CTCT。

步骤2)数据增强和数据预处理；

根据本发明的训练要求和数据集的特点，需要对数据集进行预处理。因为带注释的数据量较少，而深度学习模型需要大量的数据对模型进行训练，将三维CT扫描图像转换为二维切片可以使数据量增大，而且医生也是根据CT轴向切片来诊断病情，所以本发明设计的是用来分割二维切片的模型。

第一步：根据原始三维CT扫描和注释信息生成轴向二维切片及其对应的分割图像。

第二步：把第一步生成的图片，裁剪出包含肺部区域的图像以及对应的分割图像，然后通过裁剪、放大的方式来改善数据集，使其适用于深度学习模型，去除掉LIDC-IDRI数据集中不包含肺结节的切片，去除掉肺炎数据集肺炎CT-Mask中部分不包含肺炎肺部病灶的切片。通过第一步生成的图像，仍然会包含大量的无关背景信息，一方面增加了计算量，另一方面还会加剧类不平衡的问题。经过这一步生成的切片大尺寸不固定。

第三步：将第二步生成的图像尺寸全部被调整成384×384像素，并进行归一化处理，避免个别异常样本对训练造成不良影响。先将原始图像的灰度值统一到0到1之间，让后统一乘以255，将像素值归一化到0～255之间，这些图像保存为png格式。肺结节数据集按照8:2比例将数据集划分为训练集、验证集，肺炎数据集按照6:2:2的比例将数据集划分为训练集、验证集和测试集。

步骤3)构建网络模型；

构建我们发明的分割模型MCSTU-Net。MCSTU-Net是一个U型架构的网络，它由编码器、解码器和跳跃连接部分的模块组成。MCSTU-Net的编码器由ResNet-34的前四个阶段组成，即ResNet-34的前四个残差网络块(ResNet-34 Block，RB)。在MCSTU-Net的跳跃连接部分分别添加了一个模块，即融合的CNN和Swin Transformer模块(Mixed CNN and SwinTransformer module，MCST)。MCSTU-Net的解码器由三个串联的利用了注意力机制的模块组成，即多重注意力融合模块(Multi-Attention Fusion module，MAF)。

用于训练MCSTU-Net模型的图像会先输入到编码器，作为编码器的ResNet-34在不同的阶段，使用一系列的卷积层和连续的下采样层分别提取层次特征，这些层次特征具有不同的接受域。然后来自编码器不同层级的特征会分别输入到MCST模块，该模块将对其接收的特征信息，采用不同的计算方法，获取不同角度的信息。跳跃连接分支可以弥补编码器下采样过程中和其他分支计算过程中损失的特征值，混合空洞卷积分支会通过扩大感受野的方式去进一步提取上下文信息,Swin Transformer分支是为了建模长距离依赖关系，这些信息经过融合得到更丰富的特征信息。在解码器部分，本文根据特征信息的高度和宽度，将更小的特征信息称为低级特征，相对更大的称为高级特征。每个MAF模块会接收到两个不同尺度的特征信息，该模块不仅利用了通道注意力机制，还采用了空间注意力机制，该MAF模块通过注意力机制，增强更值得关注的特征信息。本发明将计算过程中最后一个MAF模块输出的特征使用1×1卷积进行降维，得到通道为1的特征图，然后使用双线性插值法进行4倍的上采样操作，将特征图恢复到输入尺寸作为分割预测结果。

3.1.本发明所提出的MCST模块：

该模块是用于建模长距离依赖关系和获取较大感受野的局部信息，并将丰富的特征信息融合，达到进一步丰富特征信息的目的。一个MCST模块由三个并行分支组成，即混合空洞卷积分支，Swin Transformer分支和一个跳跃连接分支。每个分支的开始都有一个卷积核大小为1×1的卷积层，对输入进行降维到上一层的一半通道。MCST模块中的混合空洞卷积分支通过空洞卷积操作获得更大的感受野，Swin Transformer分支利用SwinTransformer块建模长距离依赖关系，跳跃连接分支防止MCSTU-Net模型出现退化问题。通过不同方式获得丰富的特征信息经过融合输出到解码器的对应层级。MCST模块融合了SwinTransformer和CNN。它具有CNN的快速收敛性和Transformer强大的表示能力。

相对于普通卷积层，扩张卷积可以在不增加计算量和计算时间的条件下，获取较大的感受野。但是，不合理的扩张卷积层的叠加会导致网格效应，丢失部分信息。为了解决这种问题，可以串联多层具有不同膨胀率的空洞卷积层。由于肺部病灶的面积变化大，有的病灶十分微小，有的可以扩散到整个肺部，所以空洞卷积层膨胀率不宜过大，过大反而会降低模型的性能。同时，膨胀率也不能太小，那样会使空洞卷积退化为传统卷积。因此，在扩张率的设置上还要满足这一条件，即串联的空洞卷积层的膨胀率不能有大于1的公约数。因为MCSTU-Net模型计划的输入图像的尺寸是384×384像素，所以空洞卷积层的膨胀率依次为2，3，5，它们的卷积核都是3×3。经过混合空洞卷积分支处理的特征映射图记为F_HDC。

Swin Transformer分支具有强大的建模长距离关系的能力，用来提取全局信息。Swin Transformer分支的具体操作流程如下文所述。该分支收到编码器输入的一个特征图像先通过一个卷积层对它进行降维得到x∈R^H×W×C，然后通过一个补丁分块层将一个输入的特征图像分割成不重叠的补丁，因为该分支的计算需要序列嵌入，补丁大小为4×4。通过这种划分方法，每个补丁的特征维数变为4×4×C＝16C。因为当数据的维数增加的时候，该分支的计算量会呈指数性增长，所以特征维数不能太大，通过一个线性嵌入层将原始特征投影到一个任意维数(表示为V)，MCST模块的维数依次设置为128，256，512，1024。将分辨率为的V维的标记化补丁输入到两个连续的Swin Transformer块中进行表示学习，其中特征维数和分辨率保持不变。补丁扩展层会根据相邻维度的特征信息，重新生成4倍分辨率上采样的映射图，然后将特征映射的分辨率恢复到输入分辨率。经过Swin Transformer分支处理得到的特征映射图记为F_ST。

经过混合空洞卷积分支处理的特征映射图记为F_RB。将经过三个分支处理得到的3个空间分辨率相同的、含有不同关键信息的特征，使用拼接操作将它们的特征图连接起来，然后通过一个卷积核大小为3×3的卷积层，这个卷积层的目的是在不改变特征图空间分辨率的条件下，将它的通道数较少为原来的三分之一。最终输出含有丰富信息的特征图。

融合的CNN和Swin Transformer模块的数学表达为公式(1)。

Output_MCST＝ReLU(Conv_3x3(Cat(F_RB,F_C,F_ST))) (1)

其中：

F_RB、F_C、F_ST在上文中有讲述；

Cat(·)表示拼接操作；

ReLU(·)是ReLU激活函数；

Conv_3×3是卷积核为3×3的卷积操作。

3.2.本发明所提出的MAF模块:

每个MAF模块会接收到两个不同尺度的特征信息，在解码器部分，本方法根据特征信息的高度和宽度，将更小的特征信息称为低级特征，相对更大的称为高级特征。为了提炼这些特征信息，本发明设计了一个模块，即多重注意力融合模块(Multi-Attention Fusionmodule，MAF)。该模块中包含一个通道注意力(Channel Attention，CA)子模块和一个空间注意力(Spatial Attention，SA)子模块，采用串联的结构将这两个子模块连接在一起。在这两个注意力子模块中，同时使用平均池化和最大池化操作从不同视角获取不同特征信息。

MAF模块的详细操作流程是：相较于低级特征，高级特征的通道数更多，高级特征/>先经过一个通道注意力子组件，推断出一维通道注意图M_C，然后高级特征/>根据通道注意图M_C提取值得关注的特征，即高级特征/>与通道注意图M_C执行元素乘法操作，得到的特征图经过反卷积操作得到的特征记为F′，它的尺寸和低级特征/>保持一致，F′通过空间注意力子模块处理得到二维空间注意图M_S，为了提取特征空间中的关键信息，特征F′与二维空间注意图M_S执行元素乘法得到新的特征，将这个新的特征与低级特征执行哈达玛积(Hadamard product)操作，提取低级特征/>中值得关注的信息。同时，初始高级特征/>执行上采样操作，使其和低级特征/>的尺寸保持一致，最后将它和经过注意力子模块处理后得到的特征图进行元素加法操作，使两个特征融合在一起，经过ReLU激活函数处理输出结果，做为低级MAF模块的输入。需要注意的是，本方法将计算过程中最后一个MAF模块输出的特征使用1×1卷积进行降维，得到通道为1的特征图，然后使用双线性插值法进行4倍的上采样操作，将特征图恢复到输入尺寸作为分割预测结果。

多重注意力融合模块的数学公式建模如下所示：

M_S＝σ(Conv_3×3(Cat(AvgPool(F′),MaxPool(F′)))) (4)

其中：

表示第k个MCST模块输出的特征，/>表示来自第k+1个MCST模块的高级特征，k∈{1,2,3}；

Deconv_4×4表示卷积核为4×4的反卷积操作；

M_S表示由SA子组件生成的一维通道注意图；

M_C表示由CA子组件生成的二维空间注意图；

MLP(·)表示多层感知机；

AvgPool(·)和MaxPool(·)分别表示平均池化和最大池化操作；

Conv_3×3表示卷积层，它的下标表示卷积核的大小；

ReLU(·)表示ReLU激活函数；

Cat(·)表示拼接操作；

σ(·)表示Sigmoid激活函数；

*表示哈达玛积操作。

3.3损失函数

与自然场景相比，医学图像有其自身的特殊性，物体形状和外观的可变性要小得多。因此，使用不合适的损失函数得到的预测模型可能会出现解剖学上的异常错误，在器官边界附近有孔洞、空洞或较高的不准确性。选择合适的损失函数，不仅可以提高模型的性能，还会加快模型收敛的速度。医学图像分割网络的实现需要选择合适的架构，并对其进行训练以优化网络权重，这需要使用合适的损失函数。在分割网络中，交叉熵和Dice损失，以及它们的变体及其组合被广泛使用。

Dice损失是根据Dice系数设计的损失函数，Dice损失应对实验数据中不同类别样本不平衡的问题更加灵活。它的数学定义是公式(6)：

其中GT是真实分割结果，P是预测分割结果。

二值交叉熵(Binary Cross-Entropy，BCE)损失函数的损失曲线比较平滑，能够快速收敛，但它容易受到类不平衡问题的影响。本发明使用了一个二值交叉熵损失函数的变体，用来缓解实验数据中不同类别样本不平衡的问题。

加权BCE损失函数定义见公式(7)：

其中：

l的值是0或1，表示标签为阳性或阴性；

H和W代表的是切片的宽度和高度；

g_i,j表示在图像像素值矩阵中i行j列处的真实值；

p_i,j表示在图像像素值矩阵中i行j列处的预测值；

ψ代表模型中的参数；

Pr(p_i,j＝l)是预测的概率；

α_i,j表示对应的像素点权重。

本发明使用的损失函数被定义为Dice损失和二值交叉熵损失(Binary Cross-Entropy，BCE)的加权和，它的数学定义见公式(8)：

步骤4)迁移学习策略；

在基于深度学习的医学图像处理领域，迁移学习也是缓解数据短缺的有效方法。该策略已被广泛应用于肺部CT图像分割任务。迁移学习的主要思想可以概括为：从其他相关领域的任务上学习到和当前任务有关的知识，通过微调或者模型预训练的方式将学习到的知识迁移到目标任务中。目前有很多使用大型自然图像数据集(如ImageNet)训练的骨干网络，如ResNet、VGGNet，研究人员发现迁移这些经过训练的参数到医学图像处理领域是有效的，也可以提高医学图像分割任务的深度学习模型性能。通常源领域和目标领域的数据相似度越高，迁移学习的效果也就越好。通过分析肺部CT图像的特点，发现现存的LIDC-IDRI数据集适合用来作为本模型的预训练集。

本发明使用一种两阶段跨域迁移学习策略来训练MCSTU-Net。

首先，MCSTU-Net模型的编码器是由ResNet-34网络的前4个残差块构成的，它的设计团队已经使用在ImageNet上对ResNet-34模型进行了预训练。在MCSTU-Net模型初始化时，MCSTU-Net的解码器会首先加载ResNet-34前4个特征提取模块的权重值，这一阶段的迁移学习属于模型级迁移学习，它的优点是使用简单，节省预训练的时间，而且可以提高MCSTU-Net模型的性能。

然后，使用肺结节数据集对MCSTU-Net模型进行预训练，保存预训练后的MCSTU-Net模型参数。ImageNet数据库中的图像都是自然图像，和医学图像存在较大的差异，医学图像中的器官和组织的边界对比度低、类不平衡。在CT图像中，肺炎肺部病灶和肺结节上的特征存在着极高的相似性。本文这一阶段的数据级别的迁移学习来帮助模型从自然图像数据集过渡到肺炎数据集。

最后，加载经过第二阶段迁移学习训练后的MCSTU-Net模型参数，使用肺炎数据集对MCSTU-Net模型进行训练。

步骤5)训练策略；

本方法的通用实验设置如下，初始输入的图像分辨率大小设置为384×384像素。采用Adam优化器对MCSTU-Net模型的参数进行更新，动量大小设置为0.9。最开始的学习率为0.0001，训练100个周期，每经过50个周期学习率会缩小到原来的0.1倍，即学习率变为0.00001，批的规模设置为10，补丁的尺寸是4×4像素。先使用肺结节数据集预训练模型，

先使用肺结节数据集预训练MCSTU-Net模型，此时，MCSTU-Net的解码器会首先加载ResNet-34在ImageNet上训练后的参数，需要说明的是，在迁移学习训练肺结节数据集的时候，将肺结节数据集中的切片按照8:2的比例划分为训练集和验证集，验证集用来搜索最佳的模型，保存最佳的模型参数。然后肺炎数据集训练MCSTU-Net模型，在初始阶段，都要加载经过肺结节数据集预训练的参数，最后分别使用它们的测试集对模型效果做测试。

步骤6)评估指标；

在衡量用于医学图像分割的网络模型性能时，通常用预测结果与真实结果之间的相似程度来体现。定义了真阴性(TN)、假阳性(FP)、假阴性(FN)、真阳性(TP)四种标签。真阳性表示预测结果和真实结果均为正常组织重叠区域，真阴性表示预测结果和真实结果均为病变组织的区域，假阳性表示预测结果为正常组织而真实结果为病变组织的区域，假阴性则表示预测结果为病变组织真实结果为正常组织的区域。本方法使用了4种常用的评价指标来比较参与实验的方法和模型的性能，即DICE相似性系数、灵敏度、特异性、阳性预测率，通过计算评估指标将我们的方法与先进的用于肺部CT图像分割的方法进行比较，从而评估我们方法的性能。

Dice相似性系数(Dice Similarity Coefficient，DSC)通常用于衡量真实结果和预测结果间的相似程度，它的具体定义见公式(9)。它被定义为真实结果和预测结果中，两倍的被正确分割的病变组织占真实病变组织和预测病变组织的比例，值在0～1之间，值越接近1说明效果越好。

灵敏度(Sensitivity，SEN)也被称为召回率(Recall)。被正确分割的感染组织占真实病变组织的百分比。它的公式见(10)。

特异性(Specificity，SPE)表示正常组织被正确分割出的百分比。它的公式见(11)。

阳性预测值(Positive Predictive Value，PPV)反映出了被正确分割的感染区域像素占所有预测结果的百分比。它的公式见(12)。

步骤7)使用已训练好的网络模型；

保存已经训练好的MCSTU-Net网络模型权重值，使用时搭建网络模型并加载训练后得到的权重值，输入肺部疾病患者的原始肺部CT图像，最后得到已分割图像。

本发明采用以上技术方案与现有技术相比，具有以下优点：

1、发明了一种基于Transformer和卷积神经网络的肺部CT图像分割方法，融合了卷积神经网络和Transformer，使MCSTU-Net网络模型同时具有卷积神经网络的快速收敛性和Transformer强大的表示能力，能更准确的分割出肺部CT图像中的病变组织。使用数据增强技术和迁移学习策略缓解了数据集不足的问题。

2、发明了一种融合了卷积神经网络和Swin Transformer的MCST模块，利用空洞卷积和Swin Transformer不同的计算方式，使MCSTU-Net网络模型同时具有CNN的偏置归纳能力和Transformer建模长距离关系的能力，获取丰富的不同角度的特征信息，同时使模型的计算量尽可能小，可以更准确的分割不同位置、大小的病变组织。

3、设计了一种多重注意力融合模块MAF，利用了通道注意力和空间注意力机制强化特征信息，并融合来自编码器不同层级的特征信息，使肺部CT图像中的病变组织边界分割的更加准确。

附图说明

图1是本发明所提出方法的具体的流程图；

图2是本发明所提出的MCSTU-Net网络结构图；

图3是本发明所提出的MCST模块结构图；

图4是本发明所提出的MAF模块结构图；

图5是本发明所提出的MAF模块中的注意力子模块结构图。

具体实施方式

以下结合附图对本发明做进一步说明：

如图1所示，本发明的一种基于Transformer和卷积神经网络的肺部CT图像分割方法具体包括以下步骤：

步骤1)输入数据集；

输入肺结节CT数据集LIDC-IDRI；

输入待分割的肺炎患者的肺部CT图像，记为肺炎CT。

步骤2)数据增强和数据预处理；

根据本发明的训练要求和数据集的特点，需要对数据集进行预处理。因为带注释的数据量较少，而深度学习模型需要大量的数据对模型进行训练，将三维CT扫描图像转换为二维切片可以使数据量增大，而且医生也是根据CT轴向切片来诊断病情，所以本文提出的是用来分割二维切片的模型。

第一步：根据原始三维CT扫描和注释信息生成轴向二维切片及其对应的分割图像，并将CT切片及其对应的分割图像保存为png格式的图片，此时的切片尺寸为512×512像素。

第三步：将第二步生成的图像尺寸全部被调整成384×384像素，并进行归一化处理，避免个别异常样本对训练造成不良影响。先将原始图像的灰度值统一到0到1之间，让后统一乘以255，将像素值归一化到0～255之间，这些图像仍保存为png格式。肺结节数据集按照8:2比例将数据集划分为训练集、验证集，肺炎数据集按照6:2:2的比例将数据集划分为训练集、验证集和测试集。

步骤3)构建网络模型；

构建我们发明的分割模型MCSTU-Net。如图2所示，MCSTU-Net是一个U型架构的网络，它由编码器、解码器和跳跃连接部分的模块组成。MCSTU-Net的编码器由ResNet-34的前四个阶段组成，即ResNet-34的前四个残差网络块(ResNet-34 Block，RB)。基于Transformer的模型需要进行大规模的预训练来发挥模型的性能，所以本方法没有使用Swin Transformer作为骨干网络。在MCSTU-Net的跳跃连接部分分别添加了一个模块，即融合的CNN和Swin Transformer模块(Mixed CNN and Swin Transformer module，MCST)。MCSTU-Net的解码器由三个串联的利用了注意力机制的模块组成，即多重注意力融合模块(Multi-Attention Fusion module，MAF)。

用于训练模型的图像会先输入到编码器，作为编码器的ResNet-34在不同的阶段，使用一系列的卷积层和连续的下采样层分别提取层次特征，这些层次特征具有不同的接受域。然后来自编码器不同层级的特征会分别输入到MCST模块，该模块将对其接收的特征信息，采用不同的计算方法，获取不同角度的信息。跳跃连接分支可以弥补编码器下采样过程中和该模块其他分支计算过程中损失的特征值，混合空洞卷积分支会通过扩大感受野的方式去进一步提取上下文信息,Swin Transformer分支是为了建模长距离依赖关系，这些信息经过融合得到更丰富的特征信息。在解码器部分，本文根据特征信息的高度和宽度，将更小的特征信息称为低级特征，相对更大的称为高级特征。每个MAF模块会接收到两个不同尺度的特征信息，该模块不仅利用了通道注意力机制，还采用了空间注意力机制，该模块通过注意力机制，增强更值得关注的特征信息。本发明将计算过程中最后一个MAF模块输出的特征使用1×1卷积进行降维，得到通道为1的特征图，然后使用双线性插值法进行4倍的上采样操作，将特征图恢复到输入尺寸作为分割预测结果。

3.1.本发明所提出的MCST模块：

该模块是用于建模长距离依赖关系和获取较大感受野的局部信息，并将丰富的特征信息融合，达到进一步丰富特征信息的目的。如图3所示，一个MCST模块由三个并行分支组成，即混合空洞卷积分支，Swin Transformer分支和一个跳跃连接分支。每个分支的开始都有一个卷积核大小为1×1的卷积层，对输入进行降维到上一层的一半通道。MCST模块中的混合空洞卷积分支通过空洞卷积操作获得更大的感受野，Swin Transformer分支利用Swin Transformer块建模长距离依赖关系，跳跃连接分支防止模型出现退化问题。通过不同方式获得丰富的特征信息经过融合输出到解码器的对应层级。该模块融合了SwinTransformer和CNN。它具有CNN的快速收敛性和Transformer强大的表示能力。

经过一个跳跃连接分支处理的特征图记为F_RB。

相对于普通卷积层，扩张卷积可以在不增加计算量和计算时间的条件下，获取较大的感受野。但是，不合理的扩张卷积层的叠加会导致网格效应，丢失部分信息。为了解决这种问题，可以串联多层具有不同膨胀率的空洞卷积层。由于肺部病灶的面积变化大，有的病灶十分微小，有的可以扩散到整个肺部，所以空洞卷积层膨胀率不宜过大，过大反而会降低模型的性能。同时，膨胀率也不能太小，那样会使空洞卷积退化为传统卷积。因此，在扩张率的设置上还要满足这一条件，即串联的空洞卷积层的膨胀率不能有大于1的公约数。因为本模型计划的输入图像的尺寸是384×384像素，所以本该分支中空洞卷积层的膨胀率依次为2，3，5，它们的卷积核都是3×3。

Swin Transformer分支具有强大的建模长距离关系的能力，用来提取全局信息。Swin Transformer分支的具体操作流程如下文所述。该分支收到编码器输入的一个特征图像先通过一个卷积层对它进行降维得到x∈R^H×W×C，然后通过一个补丁分块层将一个输入的特征图像分割成不重叠的补丁，因为该分支的计算需要序列嵌入，补丁大小为4×4。通过这种划分方法，每个补丁的特征维数变为4×4×C＝16C。因为当数据的维数增加的时候，该分支的计算量会呈指数性增长，所以特征维数不能太大，通过一个线性嵌入层将原始特征投影到一个任意维数(表示为V)，在本模型的设置中，从上往下的MCST模块的维数依次设置为128，256，512，1024。将分辨率为的V维的标记化补丁输入到两个连续的SwinTransformer块中进行表示学习，其中特征维数和分辨率保持不变。补丁扩展层会根据相邻维度的特征信息，重新生成4倍分辨率上采样的映射图，然后将特征映射的分辨率恢复到输入分辨率。经过Swin Transformer分支处理得到的特征映射图记为F_ST。

将经过三个分支处理得到的3个空间分辨率相同的、含有不同关键信息的特征，使用拼接操作将它们的特征图连接起来，然后通过一个卷积核大小为3×3的卷积层，这个卷积层的目的是在不改变特征图空间分辨率的条件下，将它的通道数较少为原来的三分之一。最终输出含有丰富信息的特征图。

融合的CNN和Swin Transformer模块的数学表达为公式(1)。

Output_MCST＝ReLU(Conv_3x3(Cat(F_RB,F_C,F_ST))) (1)

其中：

F_RB、F_C、F_ST在上文中有讲述；

Cat(·)表示拼接操作；

ReLU(·)是ReLU激活函数；

Conv_3×3是卷积核为3×3的卷积操作。

3.2.本发明所提出的MAF模块:

每个MAF模块会接收到两个不同尺度的特征信息，在解码器部分，本方法根据特征信息的高度和宽度，将更小的特征信息称为低级特征，相对更大的称为高级特征。为了提炼这些特征信息，本发明设计了一个模块，即多重注意力融合模块(Multi-Attention Fusionmodule，MAF)，其结构如图4所示，该模块中包含一个通道注意力(Channel Attention，CA)子模块和一个空间注意力(Spatial Attention，SA)子模块，采用串联的结构将这两个子模块连接在一起。如图5所示，在这两个注意力子模块中，同时使用平均池化和最大池化操作从不同视角获取不同特征信息。

MAF模块的详细操作流程是：相较于低级特征，高级特征的通道数更多，高级特征/>先经过一个通道注意力子组件，推断出一维通道注意图M_C，然后高级特征/>根据通道注意图M_C提取值得关注的特征，即高级特征/>与通道注意图M_C执行元素乘法操作，得到的特征图经过反卷积操作得到的特征记为F′，它的尺寸和低级特征/>保持一致，F′通过空间注意力子模块处理得到二维空间注意图M_S，为了提取特征空间中的关键信息，特征F′与二维空间注意图M_S执行元素乘法得到新的特征，将这个新的特征与低级特征执行哈达玛积操作，提取低级特征/>中值得关注的信息。同时，初始高级特征执行上采样操作，使其和低级特征/>的尺寸保持一致，最后将它和经过注意力子模块处理后得到的特征图进行元素加法操作，使两个特征融合在一起，经过ReLU激活函数处理输出结果，做为低级MAF模块的输入。需要注意的是，本方法将计算过程中最后一个MAF模块输出的特征使用1×1卷积进行降维，得到通道为1的特征图，然后使用双线性插值法进行4倍的上采样操作，将特征图恢复到输入尺寸作为分割预测结果。

多重注意力融合模块的数学公式建模如下所示：

M_S＝σ(Conv_3×3(Cat(AvgPool(F′),MaxPool(F′)))) (4)

其中：

Deconv_4×4表示卷积核为4×4的反卷积操作；

M_S表示由SA子组件生成的一维通道注意图；

M_C表示由CA子组件生成的二维空间注意图；

MLP(·)表示多层感知机；

AvgPool(·)和MaxPool(·)分别表示平均池化和最大池化操作；

Conv_3×3表示卷积层，它的下标表示卷积核的大小；

ReLU(·)表示ReLU激活函数；

Cat(·)表示拼接操作；

σ(·)表示Sigmoid激活函数；

*表示哈达玛积操作。

3.3损失函数

医学图像分割网络的实现需要选择合适的架构，并对其进行训练以优化网络权重，这需要使用合适的损失函数。在分割网络中，交叉熵和Dice损失，以及它们的变体及其组合被广泛使用。然而，这些损失忽略了与感兴趣的对象相关的高级特征或结构，例如它们的形状或拓扑结构。他们也会平等地惩罚所有的错误，而不管他们的性质如何。

与自然场景相比，医学图像有其自身的特殊性，物体形状和外观的可变性要小得多。因此，使用不合适的损失函数得到的预测模型可能会出现解剖学上的异常错误，在器官边界附近有孔洞、空洞或较高的不准确性。选择合适的损失函数，不仅可以提高模型的性能，还会加快模型收敛的速度。

Dice损失是根据Dice系数设计的损失函数，Dice损失应对实验数据中不同类别样本不平衡的问题更加灵。它的数学定义是公式(6)：

其中GT是真实分割结果，P是预测分割结果。

二值交叉熵(Binary Cross-Entropy，BCE)损失函数的损失曲线比较平滑，能够快速收敛，但它容易受到类不平衡问题的影响。一种二值交叉熵损失函数的变体，用来缓解实验数据中不同类别样本不平衡的问题。

加权BCE损失函数定义见公式(7)：

其中：

l的值是0或1，表示标签为阳性或阴性；

H和W代表的是切片的宽度和高度；

g_i,j表示在图像像素值矩阵中i行j列处的真实值；

p_i,j表示在图像像素值矩阵中i行j列处的预测值；

ψ代表模型中的参数；

Pr(p_i,j＝l)是预测的概率；

α_i,j表示对应的像素点权重。

本方法使用的损失函数被定义为Dice损失和二值交叉熵损失(Binary Cross-Entropy，BCE)的加权和，它的数学定义见公式(8)：

步骤4)迁移学习策略；

本方法使用一种两阶段跨域迁移学习策略来训练MCSTU-Net。

首先，MCSTU-Net模型的编码器是由ResNet-34网络的前4个残差块构成的，它已经在ImageNet上进行了预训练。在模型初始化时，MCSTU-Net的解码器会首先加载ResNet-34前4个特征提取模块的权重值，这一阶段的迁移学习属于模型级迁移学习，它的优点是使用简单，节省预训练的时间，而且可以提高模型的性能。

然后，使用肺结节数据集对MCSTU-Net模型进行预训练，保存预训练后的模型参数。ImageNet数据库中的图像都是自然图像，和医学图像存在较大的差异，医学图像中的器官和组织的边界对比度低、类不平衡。在CT图像中，肺炎肺部病灶和肺结节上的特征存在着极高的相似性。本文这一阶段的数据级别的迁移学习来帮助模型从自然图像数据集过渡到肺炎数据集。

最后，加载经过第二阶段迁移学习训练后的模型参数，使用肺炎数据集对MCSTU-Net模型进行训练。

步骤5)训练策略；

本方法的通用实验设置如下，初始输入的图像分辨率大小设置为384×384像素。采用Adam优化器对模型的参数进行更新，动量大小设置为0.9。最开始的学习率为0.0001，训练100个周期，每经过50个周期学习率会缩小到原来的0.1倍，即学习率变为0.00001，批的规模设置为10，补丁的尺寸是4×4。使用的深度学习框架是Pytorch 2.0，在一块NVIDIAGeForce RTX 3090GPU上进行训练。

先使用肺结节数据集预训练MCSTU-Net模型，此时，MCSTU-Net的解码器会首先加载ResNet-34在ImageNet上训练后的参数，需要说明的是，在迁移学习训练肺结节数据集的时候，将肺结节数据集中的切片按照8:2的比例划分为训练集和验证集，验证集用来搜索最佳的模型，保存最佳的模型参数。然后肺炎数据集训练MCSTU-Net模型，在初始阶段，都要加载经过肺结节数据集预训练的参数，最后分别使用它们的测试集对MCSTU-Net模型效果做测试。

步骤6)评估指标；

步骤7)使用已训练好的网络模型；

保存已经训练好的MCSTU-Net网络模型权重值，使用时搭建网络模型并加载训练后得到的权重值，输入肺炎患者的原始肺部CT图像，最后得到已分割图像。

本发明公开实施例附图中，只涉及到与本公开实施例涉及到的结构，但以上所述仅为本发明的优选实施例而已，它完全可以被适用于各种适合本发明的领域，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于Transformer和卷积神经网络的肺部CT图像分割方法，其特征在于，包含以下步骤：

步骤1)输入数据集；

输入肺结节CT数据集LIDC-IDRI；

输入待分割的肺炎患者的肺部CT图像，记为肺炎CT；

步骤2)数据增强和数据预处理；

第一步：根据原始三维CT扫描和注释信息生成轴向二维切片及其对应的分割图像；

第二步：把第一步生成的图片，裁剪出包含肺部区域的图像以及对应的分割图像，然后通过裁剪、放大的方式来改善数据集，使其适用于深度学习模型，去除掉LIDC-IDRI数据集中不包含肺结节的切片，去除掉肺炎数据集肺炎CT-Mask中部分不包含肺炎肺部病灶的切片；

第三步：将第二步生成的图像尺寸全部被调整成384×384像素，并进行归一化处理，避免个别异常样本对训练造成不良影响；先将原始图像的灰度值统一到0到1之间，让后统一乘以255，将像素值归一化到0～255之间，这些图像保存为png格式；肺结节数据集按照8:2比例将数据集划分为训练集、验证集，肺炎数据集按照6:2:2的比例将数据集划分为训练集、验证集和测试集；

步骤3)构建网络模型；

构建分割模型MCSTU-Net；MCSTU-Net是一个U型架构的网络，它由编码器、解码器和跳跃连接部分的模块组成；MCSTU-Net的编码器由ResNet-34的前四个阶段组成，即ResNet-34的前四个残差网络块(ResNet-34 Block，RB)；在MCSTU-Net的跳跃连接部分分别添加了一个MCST模块，即融合的CNN和Swin Transformer模块(Mixed CNN and Swin Transformermodule，MCST)；MCSTU-Net的解码器由三个串联的利用了注意力机制的模块组成，即多重注意力融合模块(Multi-Attention Fusion module，MAF)；

用于训练模型的图像先输入到编码器，作为编码器的ResNet-34在不同的阶段，使用一系列的卷积层和连续的下采样层分别提取层次特征，这些层次特征具有不同的接受域；然后来自编码器不同层级的特征会分别输入到MCST模块，该模块将对其接收的特征信息，采用不同的计算方法，获取不同角度的信息；跳跃连接分支可以弥补编码器下采样过程中和该模块其他分支计算过程中损失的特征值，混合空洞卷积分支会通过扩大感受野的方式去进一步提取上下文信息,Swin Transformer分支是为了建模长距离依赖关系，这些信息经过融合得到更丰富的特征信息；在解码器部分，根据特征信息的高度和宽度，将更小的特征信息称为低级特征，相对更大的称为高级特征；每个MAF模块会接收到两个不同尺度的特征信息，该模块不仅利用了通道注意力机制，还采用了空间注意力机制，该模块通过注意力机制，增强更值得关注的特征信息；将计算过程中最后一个MAF模块输出的特征使用1×1卷积进行降维，得到通道为1的特征图，然后使用双线性插值法进行4倍的上采样操作，将特征图恢复到输入尺寸作为分割预测结果；

3.1.构建MCST模块：

MCST模块用于建模长距离依赖关系和获取较大感受野的局部信息，并将丰富的特征信息融合，达到进一步丰富特征信息的目的；一个MCST模块由三个并行分支组成，即混合空洞卷积分支，Swin Transformer分支和一个跳跃连接分支；每个分支的开始都有一个卷积核大小为1×1的卷积层，对输入进行降维到上一层的一半通道；MCST模块中的混合空洞卷积分支通过空洞卷积操作获得更大的感受野，Swin Transformer分支利用Swin Transformer块建模长距离依赖关系，跳跃连接分支防止模型出现退化问题；通过不同方式获得丰富的特征信息经过融合输出到解码器的对应层级；

在扩张率的设置上还要满足：串联的空洞卷积层的膨胀率不能有大于1的公约数；因为MCSTU-Net模型计划的输入图像的尺寸是384×384像素，所以空洞卷积层的膨胀率依次为2，3，5，它们的卷积核都是3×3；经过混合空洞卷积分支处理的特征映射图记为F_HDC；

Swin Transformer分支的具体操作流程如下：收到编码器输入的一个特征图像先通过一个卷积层对它进行降维得到x∈R^H×W×C，然后通过一个补丁分块层将一个输入的特征图像分割成不重叠的补丁，因为该分支的计算需要序列嵌入，补丁大小为4×4；通过这种划分方法，每个补丁的特征维数变为4×4×C＝16C；因为当数据的维数增加的时候，该分支的计算量会呈指数性增长，所以特征维数不能太大，通过一个线性嵌入层将原始特征投影到一个任意维数(表示为V)，MCST模块的维数依次设置为128，256，512，1024；将分辨率为的V维的标记化补丁输入到两个连续的Swin Transformer块中进行表示学习，其中特征维数和分辨率保持不变；补丁扩展层会根据相邻维度的特征信息，重新生成4倍分辨率上采样的映射图，然后将特征映射的分辨率恢复到输入分辨率；经过Swin Transformer分支处理得到的特征映射图记为F_ST；

经过混合空洞卷积分支处理的特征映射图记为F_RB；将经过三个分支处理得到的3个空间分辨率相同的、含有不同关键信息的特征，使用拼接操作将它们的特征图连接起来，然后通过一个卷积核大小为3×3的卷积层，这个卷积层的目的是在不改变特征图空间分辨率的条件下，将它的通道数较少为原来的三分之一；最终输出含有丰富信息的特征图；

融合的CNN和Swin Transformer模块的数学表达为公式(1)；

Output_MCST＝ReLU(Conv_3x3(Cat(F_RB,F_C,F_ST))) (1)

其中：

F_RB、F_C、F_ST在上文中有讲述；

Cat(·)表示拼接操作；

ReLU(·)是ReLU激活函数；

Conv_3×3是卷积核为3×3的卷积操作；

3.2.构建MAF模块；

每个MAF模块会接收到两个不同尺度的特征信息，在解码器部分，根据特征信息的高度和宽度，将更小的特征信息称为低级特征，相对更大的称为高级特征；为了提炼这些特征信息，设计了多重注意力融合模块(Multi-Attention Fusion module，MAF)；MAF模块中包含一个通道注意力(Channel Attention，CA)子模块和一个空间注意力(Spatial Attention，SA)子模块，采用串联的结构将这两个子模块连接在一起；在这两个注意力子模块中，同时使用平均池化和最大池化操作从不同视角获取不同特征信息；

MAF模块的操作流程是：相较于低级特征，高级特征的通道数更多，高级特征/>先经过一个通道注意力子组件，推断出一维通道注意图M_C，然后高级特征/>根据通道注意图M_C提取值得关注的特征，即高级特征/>与通道注意图M_C执行元素乘法操作，得到的特征图经过反卷积操作得到的特征记为F′，它的尺寸和低级特征/>保持一致，F′通过空间注意力子模块处理得到二维空间注意图M_S，为了提取特征空间中的关键信息，特征F′与二维空间注意图M_S执行元素乘法得到新的特征，将这个新的特征与低级特征/>执行哈达玛积操作，提取低级特征/>中值得关注的信息；同时，初始高级特征/>执行上采样操作，使其和低级特征/>的尺寸保持一致，最后将它和经过注意力子模块处理后得到的特征图进行元素加法操作，使两个特征融合在一起，经过ReLU激活函数处理输出结果，做为低级MAF模块的输入；需要注意的是，本方法将计算过程中最后一个MAF模块输出的特征使用1×1卷积进行降维，得到通道为1的特征图，然后使用双线性插值法进行4倍的上采样操作，将特征图恢复到输入尺寸作为分割预测结果；

多重注意力融合模块的数学公式建模如下所示：

M_s＝σ(Conv_3×3(Cat(AvgPool(F'),MaxPool(F')))) (4)

其中：

Deconv_4×4表示卷积核为4×4的反卷积操作；

M_S表示由SA子组件生成的一维通道注意图；

M_C表示由CA子组件生成的二维空间注意图；

MLP(·)表示多层感知机；

AvgPool(·)和MaxPool(·)分别表示平均池化和最大池化操作；

Conv_3×3表示卷积层，它的下标表示卷积核的大小；

ReLU(·)表示ReLU激活函数；

Cat(·)表示拼接操作；

σ(·)表示Sigmoid激活函数；

*表示哈达玛积操作；

3.3选择损失函数；

Dice损失的数学定义是公式(6)：

其中GT是真实分割结果，P是预测分割结果；

加权二值交叉熵损失函数BCE损失函数定义见公式(7)：

其中：

l的值是0或1，表示标签为阳性或阴性；

H和W代表的是切片的宽度和高度；

g_i,j表示在图像像素值矩阵中i行j列处的真实值；

p_i,j表示在图像像素值矩阵中i行j列处的预测值；

ψ代表模型中的参数；

Pr(p_i,j＝l)是预测的概率；

α_i,j表示对应的像素点权重；

损失函数被定义为Dice损失和二值交叉熵损失(Binary Cross-Entropy，BCE)的加权和，它的数学定义见公式(8)：

步骤4)迁移学习策略；

将LIDC-IDRI数据集用作MCSTU-Net模型的预训练集；

使用一种两阶段跨域迁移学习策略来训练MCSTU-Net；

首先，MCSTU-Net模型的编码器是由ResNet-34网络的前4个残差块构成的，它的设计团队已经使用在ImageNet上对ResNet-34模型进行了预训练；在MCSTU-Net模型初始化时，MCSTU-Net的解码器会首先加载ResNet-34前4个特征提取模块的权重值；

然后，使用肺结节数据集对MCSTU-Net模型进行预训练，保存预训练后的模型参数；ImageNet数据库中的图像都是自然图像，和医学图像存在较大的差异，医学图像中的器官和组织的边界对比度低、类不平衡；在CT图像中，肺部病灶和肺结节上的特征存在着极高的相似性；这一阶段的数据级别的迁移学习帮助MCSTU-Net模型从自然图像数据集过渡到肺炎数据集；

最后，加载经过第二阶段迁移学习训练后的MCSTU-Net模型参数，使用肺炎数据集对MCSTU-Net模型进行训练；

步骤5)训练策略；

初始输入的图像分辨率大小设置为384×384像素；采用Adam优化器对MCSTU-Net模型的参数进行更新，动量大小设置为0.9；最开始的学习率为0.0001，训练100个周期，每经过50个周期学习率会缩小到原来的0.1倍，即学习率变为0.00001，批的规模设置为10，补丁的尺寸是4×4像素；

先使用肺结节数据集预训练MCSTU-Net模型，此时，MCSTU-Net的解码器会首先加载ResNet-34在ImageNet上训练后的参数，需要说明的是，在迁移学习训练肺结节数据集的时候，将肺结节数据集中的切片按照8:2的比例划分为训练集和验证集，验证集用来搜索最佳的模型，保存最佳的模型参数；然后肺炎数据集训练MCSTU-Net模型，在初始阶段，都要加载经过肺结节数据集预训练的参数，最后分别使用它们的测试集对模型效果做测试；

步骤6)评估指标；

用预测结果与真实结果之间的相似程度衡量用于医学图像分割的网络模型性能；定义了真阴性(TN)、假阳性(FP)、假阴性(FN)、真阳性(TP)四种标签；真阳性表示预测结果和真实结果均为正常组织重叠区域，真阴性表示预测结果和真实结果均为病变组织的区域，假阳性表示预测结果为正常组织而真实结果为病变组织的区域，假阴性则表示预测结果为病变组织真实结果为正常组织的区域；使用了4种常用的评价指标来比较参与实验的方法和模型的性能，即DICE相似性系数、灵敏度、特异性、阳性预测率，计算评估指标；

用Dice相似性系数(Dice Similarity Coefficient，DSC)衡量真实结果和预测结果间的相似程度：

灵敏度(Sensitivity，SEN)也被称为召回率(Recall)；被正确分割的感染组织占真实病变组织的百分比，见公式(10)；

特异性(Specificity，SPE)表示正常组织被正确分割出的百分比见公式(11)；

阳性预测值(Positive Predictive Value，PPV)反映出了被正确分割的感染区域像素占所有预测结果的百分比；它的公式见(12)；

步骤7)使用已训练好的MCSTU-Net网络模型；