CN113674253A

CN113674253A - 基于U-Transformer的直肠癌CT影像自动分割方法

Info

Publication number: CN113674253A
Application number: CN202110981706.0A
Authority: CN
Inventors: 宋海裕; 王浩宇; 吴海燕; 张志强; 邓胜春; 冯小青; 陈琰宏; 彭娟娟
Original assignee: Zhejiang University of Finance and Economics
Current assignee: Zhejiang University of Finance and Economics
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-11-19
Anticipated expiration: 2041-08-25
Also published as: CN113674253B

Abstract

本发明公开了一种基于U‑Transformer的直肠癌CT影像自动分割方法。本发明包括如下步骤：步骤1，实验数据的预处理；步骤2，构建U‑Transformer网络模型；步骤3，训练U‑Transformer网络模型；步骤4，采用训练好的U‑Transformer网络模型进行CT影像中直肠癌的分割，并对分割效果进行评估。本发明实现了直肠癌肿瘤CT影像的分割，避免了人工分割存在的低效率及不稳定的缺陷，从而为相关疾病的诊断、治疗和手术引导提供准确的依据。相比于其他U型网络结构，该方法可以学习到全局特征，具有更大的视觉感知范围，从而实现高精度的医学分割。

Description

基于U-Transformer的直肠癌CT影像自动分割方法

技术领域

本发明涉及一种基于U-Transformer直肠癌肿瘤CT影像自动分割方法，属于直肠癌的精准分割技术领域。

背景技术

2018年，直肠癌的发病率和死亡率在全球所有癌症中排名第四。根据临床医学指南，直肠癌患者的生存和预后与肿瘤分期高度相关。但总的来说，大多数有症状的患者发展到晚期，晚期患者的5年生存率远低于早期患者。早期发现肿瘤对提高患者生存时间非常重要。

目前，直肠癌的早期筛查方法主要有：粪便潜血检查、肠镜检查和医学影像学检查。隐血物质在检测和分辨中很容易获得，但分辨中通常含有食物残渣，导致假阳性率高，灵敏度低。肠镜检查在检测肠道病变方面具有最高的灵敏度和准确性，但它会给患者带来不适，并且可能需要较长的肠道准备时间。此外，肠镜检查有一定机会导致胃肠道穿孔。医学成像中常见的成像技术包括超声成像、核磁共振成像、计算机断层扫描等。由于CT具有诊断快速、肿瘤观察全面、无创性诊断直肠癌等优点，因此CT在临床上得到了广泛的应用，CT成像在提高直肠癌患者的诊断准确率、提供个性化的诊断和治疗方案、支持临床决策方面具有巨大潜力。当使用CT图像进行辅助诊断时，只有分割直肠癌的肿瘤区域，才能进行下一步的肿瘤诊断，预后分析和制定个性化治疗计划。准确分割直肠癌肿瘤区域是治疗的关键步骤。如果分割不准确，将对后续分析产生很大影响。在传统的分割步骤中，分割过程是由具有丰富专业知识和临床经验的影像科医生完成的。然而，由于医生的主观判断和经验差距，这一过程非常耗时，分割的准确性会有很大的个体差异。据统计，普通放射科医生对直肠癌分割的Dice相似系数为0.71，分割时间为600s/例。自动分割可以大大减轻成像医生的负担，提高分割的鲁棒性和分割的一致性。因此，实现直肠癌的自动分割在临床治疗上非常具有意义。

为了解决放射科医生在分割直肠癌时遇到的问题，我们提出了一个名为U-Transformer的深度学习模型。U-Transformer是一个基于Transformer和全尺度跳跃连接的U形架构，由编码器和解码器组成。首先将一维的图像patch送入Swin-Transformer中提取上下文特征，然后利用Patch Merging进行下采样，用于缩小每个token的分辨率并且调整其通道数，进而形成层次化的设计。在解码器部分，使用全尺度跳跃连接作为解码器，解码器中融合了低层细节和高层语义，充分利用了多尺度特征。与普通CNN相比，该方法可以学习到更多全局信息，具有更大的感受野，从而实现高精度的医学分割。与一些研究中使用的Astrous卷积、自我注意机制和图像金字塔相比，U-Transformer在建模长期依赖性方面没有限制，并且能够很好地分割肿瘤内的非肿瘤区域，分割的Dice系数达到了0.87。

发明内容

为克服现有技术不足，本发明旨在提出一种基于U-Transformer的直肠癌CT影像自动分割方法，实现了直肠癌肿瘤CT影像的分割，避免了人工分割存在的低效率及不稳定的缺陷，从而为相关疾病的诊断、治疗和手术引导提供准确的依据。

为此，本发明解决其技术问题所采用的具体步骤如下：

步骤1，实验数据的预处理；

步骤2，构建U-Transformer网络模型；

步骤3，训练U-Transformer网络模型；

步骤4，采用训练好的U-Transformer网络模型进行CT影像中直肠癌的分割，并对分割效果进行评估。

进一步的，所述步骤1具体过程实现如下：

步骤1.1，为了提高图像的对比图和泛化能力，我们首先对CT影像进行直方图均衡化和归一化处理，归一化公式为：

其中，I为原始图像，I_norm为归一化后的图像，I_min为I的最小强度值，I_max为I的最大强度值；

步骤1.2：对肿瘤区域进行裁剪，构建规约数据库；

步骤1.3：对CT影像进行旋转、镜像、水平翻转等几何变换方法，进行数据增强.扩增训练样本，以减少过拟合现象；

步骤1.4：将每个CT影像和标记图的尺寸进行统一；

步骤1.5：按照0.8:0.1:0.1的比例划分训练集、验证集和测试集。

进一步的，所述步骤2的具体过程包括：

步骤2.1：构建Patch Embedding层；将二维的CT影像变换得到M个大小为P²·C的一维patch embeddings；

步骤2.2：构建Swin Transforner Block。先使用窗口多头注意力机制W-MSA，计算窗口内部的自注意力得分，通过window reverse操作将得到的特征图还原为与输入特征一样的大小。再使用滑动窗口注意力机制SW-MSA计算不同窗口之间的注意力得分，通过window reverse操作将得到的特征图还原为与输入特征一样的大小；

步骤2.3：将Patch Merging层与Swin Transformer Block共同构成编码器。在第一层编码器中，使用两个Swin Transformer Block进行特征提取；在第二层编码器中，使用六个Swin Transformer Block进行特征；在第三层编码器中，使用两个Swin TransformerBlock进行特征提取；

步骤2.4：在每个解码器中构建全尺度跳跃连接，融合低层细节和高层语义，充分利用多尺度特征；

步骤2.5：对三层编码后的特征图进行三层解码操作；

步骤2.6：使用双线性插值将经过三层解码操作后的特征图进行扩展；

步骤2.7：构建线性投影操作，实现像素级分割。

进一步的，所述步骤3的具体过程包括：

步骤3.1：采用Adam优化方式；

步骤3.2：引入二分类的交叉熵损失函数；

步骤3.3：使用CIFAR-100数据集的权重对U-Transformer网络模型进行预训练。

进一步的，所述步骤4的具体过程包括：

步骤4.1：引入Dice相似系数、PPV系数和灵敏度系数来评价分割的效果。

进一步的，所述步骤2.1中的Patch Embedding层具体实施方式为：

2.1.1对输入输入的2D医学影像记为

其中H和W为图像的长和宽，C为通道数。

2.1.2将图像分割为多个大小相同的patchs，patchs的表达式为

其中

是最终分割的patchs数量，每个patch的大小为P²。

2.1.3通过线性变换得到M个向量长度为P²·C的一维patch embeddings。

2.1.4对每一个patch embeddings设置一个一维的位置编码，最终patchembeddings表示如下：

其中，

代表了位置编码信息。

进一步的，所述步骤2.2中的W-MSA的具体实施方式为：

2.2.1使用window partition对输入的patch emdeddings划分窗口。

2.2.2构建多头注意力机制MLP计算每个窗口内部的自注意力得分，得到输出特征图Ⅰ；

2.2.3通过window reverse操作将输出的特征图Ⅰ还原成跟输入特征图一样的大小。

所述W-MSA的计算公式如下：

其中，

为W-MSA的输出，z^l为多头注意力的输出特征图，Q,K,V分别为查询、键和值的矩阵，d为Q,K,V矩阵的维度。B的值取自于偏差矩阵

进一步的，所述步骤2.2的SW-MSA的具体实施方式为：

2.2.4通过特征图移位并构建多图注意力机制MLP来实现不同窗口之间注意力得分计算，由于对特征图移位会导致窗口的个数变化，因此通过给Attention设置mask机制来实现注意力得分计算的等价；得到输出特征图Ⅱ；

2.2.5通过window reverse操作将输出特征图Ⅱ还原成跟输入特征图一样的大小。

所述SW-MSA的计算公式如下：

其中，

为SW-MSA的输出，z^l+1为多头注意力的输出特征图Ⅱ。Q,K,V分别为查询、键和值的矩阵,d为Q,K,V矩阵的维度。B的值取自于偏差矩阵

进一步的，所述步骤2.3的Patch Merging的具体实施方式为：对H和W维度进行间隔采样后拼接在一起，达到下采样的目的。

进一步的，所述步骤2.4的全尺度跳跃连接的具体实施方式为：

2.4.1对于高层语义特征图，先使用最大池化缩小该高层语义特征图的大小，然后使用3×3的卷积核改变其维度。

2.4.2对于低层细节特征图，先使用双线性插值扩大该低层细节特征图的大小，然后使用3×3的卷积核改变其维度。

2.4.3对经过步骤2.4.1处理后的高层语义特征图与经过步骤2.4.2处理后的低层细节特征图进行融合，融合的特征图使用3×3的卷积核，再经过批标准化和ReLU函数激活。

进一步的，所述步骤2.6的双线性插值的具体实施方式为：使用双线性插值将经过三层解码操作后的特征图从

扩展为W×H×C。

进一步的，所述优化方法为Adam，所述损失函数为交叉熵，所述预训练数据集为CIFAR-100。

所述交叉熵定义如下：

其中，y_i为表注的真实眼膜图中像素点i的值，取值为0或1；

为算法得到的掩模图中像素点i的值，取值范围为0～1；N是分割图和标注掩模图中的像素点总个数。

进一步的，步骤4中评价方式为Dice相似系数、PPV系数和灵敏度系数。

其定义如下：

其中，TP表示被正确分割成直肠肿瘤区域的像素数量；TN表示被正确分割成背景区域的像素数量；FP表示将背景区域预测成肿瘤区域的像素数量；FN表示将肿瘤区域预测成背景区域的像素数量。

现有技术相比，本发明的有益结果使：

本发明通过建立U-Transformer的深度学习模型，实现了直肠癌肿瘤CT影像的分割，避免了人工分割存在的低效率及不稳定的缺陷，从而为相关疾病的诊断、治疗和手术引导提供准确的依据。相比于其他U型网络结构，该方法可以学习到全局特征，具有更大的视觉感知范围，从而实现高精度的医学分割。

附图说明

图1为CT影像预处理的示意图。

图2为U-Transformer的网络结构图。

图3为U-Transformer的全尺度跳跃连接示意图。

图4为Swin Transformer Block的原理图。

图5为U-Transformer分割直肠癌肿瘤的实例效果。

图6为本发明效果对比实例示意图。

图7为U-Transformer的Patch Merging层示意图

图8为SW-MSA机制的特征图移位和mask机制示意图

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

如图1-8所示，基于U-Transformer的直肠癌CT影像自动分割方法。该方法包括下述过程：对实验数据进行预处理；构建U-Transformer网络模型；训练U-Transformer网络模型；用训练好的U-Transformer网络模型进行CT影像中直肠癌的分割，并对分割效果进行评估。本发明提出的U-Transformer网络模型可以很好的对直肠癌肿瘤的CT影像进行分割。

实施例1：数据预处理模块：对实验数据的预处理

(1)对数据进行直方图均衡化和归一化处理，如图1所示。

(2)对CT影像进行数据规约，构建规约数据库。

(3)对CT影像进行旋转、镜像、水平翻转等几何变换方法，进行数据增强.扩增训练样本，以减少过拟合现象。

(4)将每个CT影像和标记图的尺寸进行统一。

(5)按照0.8:0.1:0.1的比例划分数据集为训练集、验证集和测试集。

实施例2：U-Transformer网络模型构建模块：构建U-Transformer网络模型。

(1)构建Patch Embedding层。将二维的CT影像变换得到M个大小为P²·C的一维patch embeddings。

(2)构建Swin Transformer Block。具体的Swin Transformer Block如图4所示：1.使用W-MSA机制计算窗口内部的自注意力得分2.使用SW-MSA机制计算不同窗口之间的注意力得分。

(3)构建Patch Merging。具体的Patch Merging对H和W维度进行间隔采样后拼接在一起，可以达到下采样的目的。

(4)构建全尺度跳跃连接。具体的全尺度跳跃连接机制如图3所示：1.对于高层语义特征，我们先使用最大池化缩小其特征图大小，然后使用3×3的卷积核改变其维度。2.对于低层细节特征，我们先使用双线性插值扩大其特征图大小，然后使用3×3的卷积核改变其维度。3.对融合的特征图使用3×3的卷积核，再经过批标准化和ReLU函数激活。

(5)使用双线性插值将经过三层解码操作后的特征图从

扩展为W×H×C。

(6)构建线性投影操作。将W×H×C的特征图变为W×H×2，从而实现像素级分割。

实施例3：U-Transformer网络模型训练模块：训练U-Transformer网络模型

(1)采用Adam优化方式作为优化方法，同时采用交叉熵作为损失函数进行训练。所述交叉熵公式如下：

其中，y_i为表注的真实眼膜图中像素点i的值，取值为0或1；

为算法得到的掩模图中像素点i的值，取值范围为0～1；N是分割图和表注掩模图中的像素点总个数。

(2)将U-Transformer网络模型在CIFAR-100数据集上进行预训练。

实施例4：分割评估模块：采用训练好的U-Transformer网络模型进行CT影像中直肠癌的分割，并对分割效果进行评估

(1)图5为U-Transformer分割的实例。引入Dice相似系数、PPV系数和灵敏度系数来评价分割的效果，U-Transformer的Dice系数、PPV系数和灵敏度系数分别0.8700、0.8042和0.9481。三个系数的定义如下：

实施例5：效果对比表

如图6和表1所示，U-Transformer分割肿瘤的Dice系数、PPV系数和灵敏度系数分别为0.8700、0.8042和0.9481，均高于其他模型。同时，比放射科医生手动绘制肿瘤的Dice系数高出了18.39％。我们选择了几个具有代表性的分割图进行展示，可以看出U-Transformer可以很好地分割肿瘤的边缘区域，而V-Net、U-Net和R2U-Net不能准确识别肿瘤的位置，这是由于直肠癌位置较为特殊，普通的卷积神经网络很容易将背景区域识别为肿瘤区域。对于部分CT影像，U-Net虽然可以稳定地分割肿瘤区域，但肿瘤的边缘仍然比较粗糙，有时无法识别被肿瘤区域包裹的非肿瘤区域。由Swin Transformer作为编码器和全尺度跳跃连接作为解码器的U-Transformer模型具有比卷积神经网络更大的感受野；并且U-Transformer可以有效地对肿瘤边缘和肿瘤内部的非肿瘤区域进行分割。

表1：Dice系数、PPV系数和灵敏度系数对比表

Claims

1.基于U-Transformer的直肠癌CT影像自动分割方法，其特征在于包括如下步骤

步骤1，实验数据的预处理；

步骤2，构建U-Transformer网络模型；

步骤3，训练U-Transformer网络模型；

2.根据权利要求1所述的基于U-Transformer的直肠癌CT影像自动分割方法，其特征在于步骤2的具体实现过程包括：

步骤2.1：构建PatchEmbedding层；将二维的CT影像变换得到M个大小为P²·C的一维patch embeddings；

步骤2.2：构建SwinTransfornerBlock；先使用窗口多头注意力机制W-MSA，计算窗口内部的自注意力得分，通过window reverse操作将得到的特征图还原为与输入特征一样的大小；再使用滑动窗口注意力机制SW-MSA计算不同窗口之间的注意力得分，通过windowreverse操作将得到的特征图还原为与输入特征一样的大小；

步骤2.3：将Patch Merging层与Swin Transformer Block共同构成编码器；在第一层编码器中，使用两个Swin TransformerBlock进行特征提取；在第二层编码器中，使用六个Swin Transformer Block进行特征提取；在第三层编码器中，使用两个SwinTransformerBlock进行特征提取；

步骤2.5：对三层编码后的特征图进行三层解码操作；

步骤2.7：构建线性投影操作，实现像素级分割。

3.根据权利要求2所述的基于U-Transformer的直肠癌CT影像自动分割方法，其特征在于所述步骤4的具体过程包括：

4.根据权利要求2所述的基于U-Transformer的直肠癌CT影像自动分割方法，其特征在于所述步骤2.1中的Patch Embedding层具体实施方式为：

2.1.1对输入输入的2D医学影像记为

其中H和W为图像的长和宽，C为通道数；

2.1.2将图像分割为多个大小相同的patchs，patchs的表达式为

其中

是最终分割的patchs数量，每个patch的大小为P²；

2.1.3通过线性变换得到M个向量长度为P²·C的一维patch embeddings；

2.1.4对每一个patch embeddings设置一个一维的位置编码，最终patch embeddings表示如下：

其中，

代表了位置编码信息。

5.根据权利要求2或4所述的基于U-Transformer的直肠癌CT影像自动分割方法，其特征在于所述步骤2.2中的W-MSA的具体实施方式为：

2.2.1使用windowpartition对输入的patch emdeddings划分窗口；

2.2.3通过window reverse操作将输出的特征图Ⅰ还原成跟输入特征图一样的大小；

所述W-MSA的计算公式如下：

其中，

为W-MSA的输出，z^l为多头注意力的输出特征图，Q,K,V分别为查询、键和值的矩阵，d为Q,K,V矩阵的维度；B的值取自于偏差矩阵

所述步骤2.2的SW-MSA的具体实施方式为：

2.2.4通过特征图移位并构建多图注意力机制MLP来实现不同窗口之间注意力得分计算，由于对特征图移位会导致窗口的个数变化，因此通过给Attention设置mask机制来实现注意力得分计算的等价，在计算注意力得分时，只需要计算自己窗口的值，其余位置设置对应的mask，让其值为负无穷；得到输出特征图Ⅱ；

2.2.5通过window reverse操作将输出特征图Ⅱ还原成跟输入特征图一样的大小；

所述SW-MSA的计算公式如下：