CN117372452A

CN117372452A - 结合高效Transformer与UNet的3D脑肿瘤分割模型

Info

Publication number: CN117372452A
Application number: CN202311238860.4A
Authority: CN
Inventors: 陈善雄; 朱勇军; 张旺; 李林峰; 董霄轩; 曹旭
Original assignee: Chongqing ninth people's hospital; Southwest University
Current assignee: Chongqing ninth people's hospital; Southwest University
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-01-09

Abstract

本发明公开了基于深度学习的结合高效Transformer与UNet的3D脑肿瘤分割方法，主要涉及医学图像分割技术领域；包括步骤：S1、采集足够数量的脑肿瘤病人的多模态核磁共振成像数据；S2、数据预处理、数据集划分和数据增强；S3、构建结合高效Transformer与UNet的3D脑肿瘤分割模型；S4、将预处理后的训练集输入结合高效Transformer与UNet的3D脑肿瘤分割方法中进行训练；S5、将待分割的多模态核磁共振成像数据送入到训练好的结合高效Transformer与UNet的3D脑肿瘤分割模型中进行分割；本发明能够解决现有的脑肿瘤患者的多模态核磁共振成像数据自动化分割效果较差的问题。

Description

结合高效Transformer与UNet的3D脑肿瘤分割模型

技术领域

本发明涉及医学图像分割技术领域，具体是结合高效Transformer与UNet的3D脑肿瘤分割模型。

背景技术

脑肿瘤对人类的生命健康安全有着严重的危害。不同类型的脑肿瘤在治疗方法和预后方面存在显著差异，及时发现与治疗有助于提高患者的总体生存期。MRI是临床上常用的一种非侵入式的诊断技术，它具有多种成像模态，包括T1-weighted(T1w)，contrast-enhanced T1-weighted(CE_T1w)，T2-weighted(T2w)和Fluid Attenuation InversionRecovery(FLAIR)等，每种模态都提供了大脑结构和病理学的独特对比。脑肿瘤由三个部分重叠的区域组成：水肿区(Edema Region，ED)、增强肿瘤区(Enhanced Tumor Region，ET)、坏死核心和非增强肿瘤区(Necrotic Core Region/Non-Enhancing Tumor Region，NCR/NET)，不同的区域反映了不同的生物学特性。

在临床实践中，医生往往手动从MRI中分割出肿瘤各个子区域以确定患者的病况，需要花费大量的时间和精力，且容易受到主观因素的影响。因此，从多模态MRI中自动、准确地分割出脑肿瘤区域有助于提高临床诊断的效率和准确性，具有重要的实践意义，但同时也具有极大的挑战性。首先，由于成像原理不同，导致不同模态域差较大，且对比度很低，小目标不容易被识别。其次，不同肿瘤子区域外观、位置等具有高度异质性，很难通过直接匹配的方式找到它们之间的共性。最后，由于正常组织与病变组织之间的边界模糊，因此难以准确分离出肿瘤的轮廓，也阻碍了分割模型使用强大的临床先验知识。

传统的脑肿瘤分割包括基于机器学习、基于阈值和基于区域生长的方法等，但这些方法依赖于复杂的特征工程，且特征表示能力也较低，需要人工参与。而利用深度学习技术，可以对大规模的医学影像进行更快速自动的分割，减轻医生的工作压力。因此，如何构建更自动和精确的脑肿瘤分割模型成为了研究热点。

发明内容

本发明的目的在于解决现有的基于多模态MRI的脑肿瘤分割方法，其自动化分割效果较差，特别是对于肿瘤子区域的判别能力不足，难以满足医学实际需求的问题。

本发明为实现上述目的，通过以下技术方案实现：

结合高效Transformer与UNet的3D脑肿瘤分割方法，包括如下步骤：

S1、采集足够数量的脑肿瘤病人的多模态MRI，病例来自于多个中心以增大多样性；

S2、将采集的所有原始MRI及其标签数据进行配准、头骨剥离、空间对齐等预处理操作，之后采用强度缩放、旋转和随机裁剪等方法扩充原数据集，进行数据增强；

S3、构建结合高效Transformer与UNet的3D脑肿瘤分割模型；

S4、将步骤2中得到的训练集输入步骤3中构建的结合高效Transformer与UNet的3D脑肿瘤分割模型中进行训练，用Dice损失函数进行反向传播以更新网络参数，并通过自适应矩估计(adaptive moment estimation，Adam)优化模型，得到训练好的结合高效Transformer与UNet的3D脑肿瘤分割模型；

S5、将待分割预测的脑肿瘤患者的多模态MRI数据送入到步骤4所得到的训练好的结合高效Transformer与UNet的3D脑肿瘤分割模型中进行分割，得到该数据的多模态MRI的分割预测结果。

优选的，步骤S2中，结合高效Transformer与UNet的3D脑肿瘤分割模型主要包括4个DWFormer编码器模块、4个ESCA空间-通道注意力模块、3个MSFCA交叉注意力模块和4个解码器模块；四个依次级联的DWFormer编码器构成编码路径。每个模态在输入编码路径之前，先经过两个3×3×3的卷积(含激活层和归一化层)单元增大特征空间，然后依次经过四个DWFormer编码器。第一个DWFormer模块的输出端连接第二个DWFormer的输入端，第二个DWFormer模块的输出端连接第三个DWFormer的输入端，第三个DWFormer模块的输出端连接第四个DWFormer的输入端。

优选的，每个DWFormer编码器由1个步长为2的3×3×3卷积单元执行下采样并划分局部patch，接着由1个DWFormer模块对特征图进行局部-全局交互。DWFormer模块在遵循Transformer整体结构的基础上，使用轻量化的深度可分离块替代了自注意力运算。具体来说，输入特征先通过深度可分离块内部的一个1×1×1卷积升维，然后通过7×7×7的大核卷积提取空间体素特征，目的是为了增大感受野，最后通过1×1×1卷积恢复通道数。对于每个3×3×3卷积单元：所有层依次串联，3×3×3卷积的输入端形成3×3×3卷积单元的输入端，3×3×3卷积单元的输出端形成批归一化层的输入端，批归一化层的输出端形成ReLU激活函数的输入端，ReLU激活函数的输出端形成3×3×3卷积单元的输出端。

优选的，编码路径的输出作为ESCA模块的输入，四个ESCA模块依次串联。ESCA模块由空间注意力和通道注意力组成。针对空间注意力，将其解耦为基于轴的交互和基于窗口的交互。基于轴的交互分别沿着体素特征图的三个维度计算轴向注意力，计算方法是先通过矩阵转置将其他轴的数据转换到批处理轴(Batch)，然后再按照标准Transformer流程进行运算。基于窗口的交互对每个局部3D patch内的tokens计算窗口注意力。针对位置编码，使用可学习的绝对位置编码用于轴注意力和条件位置编码用于窗口注意力。两种注意力分支路径得到各自的输出后，再进行求和操作，通过归一化和多层感知机层得到最终的输出。

优选的，MSFCA模块用于桥接编码器和解码器。首先对特征图进行的不同池化率(stride＝2,4,8)的均值下采样操作，然后将不同特征图统一维度后按通道拼接，经过一个1×1×1卷积调整通道数，得到融合了多尺度信息的特征图，接着和来自于解码器的特征图进行交互。最后，由来自于编码器的特征图通过线性映射生成K，V，由来自于解码器的特征图生成Q，通过计算三元组的相关性得到增强后的解码特征。

优选的，每个解码器由一个步长为2的转置卷积和两个连续的3×3×3卷积单元组成。经过四个解码器后，特征图分辨率恢复到原图大小，再经过分割头得到三个区域的分割结果。分割头由1个1×1×1卷积单元和1个Sigmoid激活函数层组成；第四个解码器模块的输出端连接分割头的输入端；1×1×1卷积单元的输入端形成分割模块的输入端，1×1×1卷积单元的输出端连接Sigmoid激活函数层的输入端，激活函数层的输出端形成整个网络的最终输出端。

对比现有技术，本发明的有益效果在于：

为了充分发掘多模态MRI数据中的脑肿瘤各子区域相关信息，本发明对多模态MRI进行了建模学习，设计了新颖的网络对每个模态进行了有效的特征提取，并在网络浅层和深层实现了高效的信息融合，本发明构建的深度学习模型可以实现对多模态MRI脑肿瘤的比较精确地分割预测。

附图说明

图1是本发明结合高效Transformer与UNet的3D脑肿瘤分割模型的基本流程图；

图2是本发明所构建的基于深度学习模型结构图；

图3是编码器DWFormer模块的示意图；

图4是ESCA模块的示意图；

图5是MSFCA模块的示意图；

图6是特征融合和分割头结构示意图；

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

实施例：流程如附图1所示，本发明所述是结合高效Transformer与UNet的3D脑肿瘤分割模型，包括步骤：

S1：使用公开的多模态脑肿瘤分割数据集BraTS2020，该数据集包含了来自多个医疗中心的共计369例带标签的训练样本，每个样本由四种模态组成，即T1w，CE-T1w，T2w和FLAIR。

S2：对收集的数据进行预处理。该公开数据集已经进行过配准、头骨剥离预处理操作，空间分辨率对齐为1mm3。检查所有数据是否完整，并将每个模态和对应标签裁剪为128×128×128大小。将数据集按照7：3划分为训练集和测试集，最后对所有数据进行标准化、强度缩放、随机旋转和随机裁剪等方法进行数据增强。

S3：构建结合高效Transformer与UNet的3D脑肿瘤分割模型，并设置模型参数。

结合高效Transformer与UNet的3D脑肿瘤分割模架构如图2所示。整体基于UNet架构，包括DWFormer编码器模块、ESCA高效空间-通道注意力模块、MSFCA多尺度融合交叉注意力模块、解码器部分和分割头。

1)编码器模块

DWFormer块参见图3a。整个编码路径由四个编码器组成，每个模态在输入编码路径之前，先经过两个3×3×3的卷积(含激活层和归一化层)单元增大特征空间，然后输入编码器中。每个编码器由1个步长为2的3×3×3卷积单元执行下采样并划分局部patch，接着由1个DWFormer模块对特征图进行局部-全局交互。DWFormer模块在遵循Transformer整体结构的基础上，使用轻量化的深度可分离块替代了自注意力运算。如图3b所示，输入特征先通过深度可分离块内部的一个1×1×1卷积升维，然后通过7×7×7的大核卷积提取空间体素特征，目的是为了增大感受野，最后通过1×1×1卷积恢复通道数。

如图2(左侧)所示，四个模态依次输入到编码路径中，每个模态先经过两个连续的3×3×3卷积映射特征空间通道数为C，然后经过四个连续的编码器生成不同尺度的特征图。图6a表示多模态特征融合运算。对不同模态提取的特征先在通道维度拼接，然后通过1×1×1卷积进行降维，最后经过归一化层和激活层得到融合了多模态信息的特征，以方便后续的ESCA和MSFCA模块中进行建模。

2)ESCA模块

ESCA模块参见图4。ESCA模块由空间注意力和通道注意力组成，用来对高阶语义信息进行建模增强。针对空间注意力，将其解耦为基于轴的交互和基于窗口的交互。基于轴的交互分别沿着体素特征图的三个维度计算轴向注意力，计算方法是先通过矩阵转置将其他轴的数据转换到批处理轴(Batch)，然后再按照标准Transformer流程进行运算。基于窗口的交互对每个局部3D patch内的tokens计算窗口注意力。针对位置编码，使用可学习的绝对位置编码用于轴注意力和条件位置编码用于窗口注意力。两种注意力分支路径得到各自的输出后，再进行求和操作，通过归一化和多层感知机层得到最终的输出。

3)MSFCA模块

MSFCA模块参见图5。MSFCA模块用于桥接编码器和解码器。其核心是利用编码器产生的不同尺度的特征图和解码器特征之间计算交叉注意力，使解码器从编码器特征中自适应地查询出有价值的信息，以适应不规则的病变，进而增强解码路径的病灶表达能力。先对特征图进行的不同池化率(stride＝2,4,8)的下采样操作，然后将不同特征图统一维度后按通道拼接，经过一个1×1×1卷积调整通道数，得到融合了多尺度信息的特征图，接着和来自于解码器的特征图进行交互。为了减低Transformer的计算量，使用基于空间注意力机制的TokenLearner模块减小tokens的数量。最后，由来自于编码器的特征图通过线性映射生成K，V，由来自于解码器的特征图生成Q，通过计算三元组的相关性得到增强特征。

4)解码器

每个解码器由一个步长为2的转置卷积和两个连续的3×3×3卷积单元组成。转置卷积用来对来自于前一个解码器的特征图进行上采样，增大两倍分辨率，3×3×3卷积单元用来对增强后的解码特征进一步细化。经过四个解码器后，特征图分辨率恢复到原图大小。

图6b表示分割头由1个1×1×1卷积单元和1个Sigmoid激活函数层组成；第四个解码器模块的输出端连接分割头的输入端；1×1×1卷积单元的输入端形成分割模块的输入端，1×1×1卷积单元的输出端连接Sigmoid激活函数层的输入端，激活函数层的输出端形成整个网络的最终输出端。

在构建完深度学习模型后，需要对网络的初始参数进行设置。

在本实施例中，设置的网络参数为：训练过程500轮次，批处理大小为1，初始学习效率为10-4，学习率采用余弦退火策略，并使用warmup策略进行预热。

S4：将步骤2中预处理后的训练集输入步骤3构建的基于深度学习的结合高效Transformer与UNet的3D脑肿瘤分割中进行训练，用Dice损失函数进行反向传播更新网络参数，并并通过自适应矩估计(adaptive moment estimation，Adam)优化模型，得到训练好的基于深度学习的结合高效Transformer与UNet的3D脑肿瘤分割模型。

Dice损失函数公式：

其中，N表示样本数量，rn表示样本n的标签，正类为1，负类为0。pn表示样本n预测为正类的概率。

步骤5：将待分割预测的脑肿瘤患者的多模态MRI数据送入到步骤4所得到的训练好的结合高效Transformer与UNet的3D脑肿瘤分割模型进行分割，得到该数据的多模态MRI的分割预测结果。

Claims

1.结合高效Transformer与UNet的3D脑肿瘤分割模型，包括以下步骤：

S1、采集足够数量的脑肿瘤病人的多模态核磁共振图像(Magnetic ResonanceImaging，MRI)数据，病例来自于多个中心以增大多样性；

S3、构建结合高效Transformer与UNet的3D脑肿瘤分割模型；

S5、将待分割预测的脑肿瘤患者的多模态MRI数据送入到步骤4所得到的训练好的结合高效Transformer与UNet的3D脑肿瘤分割模型中进行分割，得到患者的多模态MRI的分割预测结果。

2.根据权利要求1所述的结合高效Transformer与UNet的3D脑肿瘤分割模型，其特征在于：步骤S2中，结合高效Transformer与UNet的3D脑肿瘤分割模型主要包括4个DWFormer编码器模块、4个ESCA空间-通道注意力模块、3个MSFCA交叉注意力模块和4个解码器模块；四个依次级联的DWFormer编码器构成编码路径。每个模态在输入编码路径之前，先经过两个3×3×3的卷积(含激活层和归一化层)单元增大特征空间，然后依次经过四个DWFormer编码器。第一个DWFormer模块的输出端连接第二个DWFormer的输入端，第二个DWFormer模块的输出端连接第三个DWFormer的输入端，第三个DWFormer模块的输出端连接第四个DWFormer的输入端。

3.根据权利要求2所述的结合高效Transformer与UNet的3D脑肿瘤分割模型，其特征在于：每个DWFormer编码器由1个步长为2的3×3×3卷积单元执行下采样并划分局部patch，接着由1个DWFormer模块对特征图进行局部-全局交互。DWFormer模块在遵循Transformer整体结构的基础上，使用轻量化的深度可分离块替代了自注意力运算。具体来说，输入特征先通过深度可分离块内部的一个1×1×1卷积升维，然后通过7×7×7的大核卷积提取空间体素特征，目的是为了增大感受野，最后通过1×1×1卷积恢复通道数。

4.根据权利要求2所述的结合高效Transformer与UNet的3D脑肿瘤分割模型，其特征在于：对于每个3×3×3卷积单元：所有层依次串联，3×3×3卷积的输入端形成3×3×3卷积单元的输入端，3×3×3卷积单元的输出端形成批归一化层的输入端，批归一化层的输出端形成ReLU激活函数的输入端，ReLU激活函数的输出端形成3×3×3卷积单元的输出端。

5.根据权利要求2所述的结合高效Transformer与UNet的3D脑肿瘤分割模型，其特征在于：编码路径的输出作为ESCA模块的输入，四个ESCA模块依次串联。ESCA模块由空间注意力和通道注意力组成。针对空间注意力，将其解耦为基于轴的交互和基于窗口的交互。基于轴的交互分别沿着体素特征图的三个维度计算轴向注意力，计算方法是先通过矩阵转置将其他轴的数据转换到批处理轴(Batch)，然后再按照标准Transformer流程进行运算。基于窗口的交互对每个局部3D patch内的tokens计算窗口注意力。针对位置编码，使用可学习的绝对位置编码用于轴注意力和条件位置编码用于窗口注意力。两种注意力分支路径得到各自的输出后，再进行求和操作，通过归一化和多层感知机层得到最终的输出。

6.根据权利要求2所述的结合高效Transformer与UNet的3D脑肿瘤分割模型，其特征在于：MSFCA模块用于桥接编码器和解码器。首先对特征图进行的不同池化率(stride＝2,4,8)的均值下采样操作，然后将不同特征图统一维度后按通道拼接，经过一个1×1×1卷积调整通道数，得到融合了多尺度信息的特征图，接着和来自于解码器的特征图进行交互。最后，由来自于编码器的特征图通过线性映射生成K，V，由来自于解码器的特征图生成Q，通过计算三元组的相关性得到增强后的解码特征。

7.根据权利要6所述的结合高效Transformer与UNet的3D脑肿瘤分割模型，其特征在于：每个解码器由一个步长为2的转置卷积和两个连续的3×3×3卷积单元组成。经过四个解码器后，特征图分辨率恢复到原图大小，再经过分割头得到三个区域的分割结果。

8.根据权利要7所述的结合高效Transformer与UNet的3D脑肿瘤分割模型，其特征在于：分割头由1个1×1×1卷积单元和1个Sigmoid激活函数层组成；第四个解码器模块的输出端连接分割头的输入端；1×1×1卷积单元的输入端形成分割模块的输入端，1×1×1卷积单元的输出端连接Sigmoid激活函数层的输入端，激活函数层的输出端形成整个网络的最终输出端。