CN114742802B

CN114742802B - 基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法

Info

Publication number: CN114742802B
Application number: CN202210411370.9A
Authority: CN
Inventors: 陈丽芳; 万里; 詹千熠; 谢振平; 刘渊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-04-18
Anticipated expiration: 2042-04-19
Also published as: CN114742802A

Abstract

本发明公开了一种基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法，包括：采集胰腺CT图像数据集并进行数据预处理；利用步进卷积进行下采样，利用3Dtransformer进行特征提取，利用反卷积上采样进行解码，以建立3Dtransformer混合卷积神经网络；将预处理后的数据输入所述3Dtransformer混合卷积神经网络，输出分割结果；本发明结合卷积神经网络局部表征能力与Transformer的全局建模能力来提取融合胰腺各级特征；提出一种适用胰腺和网络的损失函数，改善了针对胰腺类别不平衡以及纹理信息大不相同带来的学习难易程度存在差异等问题；采用多视角跳跃连接及特征融合模块弥补了医学图像U型架构上下采样的信息损失问题。

Description

基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法

技术领域

本发明涉及CT图像分割的技术领域，尤其涉及一种基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法。

背景技术

在传统深度神经网络中，一般使用卷积神经网络来提取胰腺特征，可分为多视图平面(2D)网络、直接使用体积(3D)网络来进行分割任务。但这两种方法效果都不是很理想，2D网络不能有效捕捉3D上下文，3D网络缺乏预先训练好的模型，既消耗内存，又不稳定。

因transformer结构能有效结合全局信息，CNN能更好的保留更加精确的位置信息以及提高高分辨率的底层特征，本发明利用3DTransformer结合CNN架构来提取特征信息，实现了一个快速全自动的胰腺分割算法。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案，包括：采集胰腺CT图像数据集并进行数据预处理；利用步进卷积进行下采样，进而编码，利用3Dtransformer进行特征提取，利用反卷积上采样进行解码，以建立3Dtransformer混合卷积神经网络；将预处理后的数据输入所述3Dtransformer混合卷积神经网络，输出分割结果。

作为本发明所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的一种优选方案，其中，数据预处理包括：利用旋转缩放、高斯噪声、高斯模糊、亮度与对比度调整、低分辨率调整、伽马增强和随机裁剪进行数据增强；将所述胰腺CT图像数据集重新采样到相同的体素间距；统计所述胰腺CT图像数据集标签的CT值范围并裁剪出[0.5,99.5]的百分比范围，以进行全局归一化。

作为本发明所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的一种优选方案，其中，还包括：将所述数据预处理后截取的3D体积块作为所述3Dtransformer混合卷积神经网络输入。

作为本发明所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的一种优选方案，其中：所述3Dtransformer混合卷积神经网络包括三层步进卷积下采样、三层反卷积上采样、三处跳跃连接、三个特征融合模块和14个3Dtransformer模块。

作为本发明所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的一种优选方案，其中，步进卷积下采样包括：每层所述步进卷积下采样利用两个连续的3Dtransformer模块提取特征。

作为本发明所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的一种优选方案，其中，还包括：所述步进卷积下采样中采用的是步进卷积、层正则化和GeLU激活函数。

作为本发明所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的一种优选方案，其中，所述3Dtransformer模块包括：利用3D滑动窗口遍历输入3D体积图像，利用transformer计算所述3D滑动窗口内的自注意力，再重新划分窗口，计算交互窗口间的注意力。

作为本发明所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的一种优选方案，其中，所述特征融合模块包括：所述特征融合模块将经过所述反卷积上采样的特征和编码器传到解码器的两极多视角特征进行融合；将解码器反卷积上采样信息和编码器反卷积上采样信息分别经过HWD的三个通道方向的平均池化，进行特征映射表示，并合并为解码器反卷积上采样特征和编码器反卷积上采样特征；将核大小为1×1×1、步长为1的卷积核分别应用于解码器反卷积上采样特征和编码器反卷积上采样特征，再由Relu函数激活；利用另一个核大小为1×1×1、步长为1的卷积核进行反卷积运算，通过sigmoid函数计算权重矩阵；将所述权重矩阵和同级跳跃连接传到解码器的特征进行矩阵乘运算，并输入解码器。

作为本发明所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的一种优选方案，其中：

所述3Dtransformer混合卷积神经网络的学习率lr为：

其中，initial_lr为初始学习率，epoch_id为训练轮次，max_epoch为最大训练轮次。

利用FocalLoss和DiceLoss的加权损失作为所述3Dtransformer混合卷积神经网络的损失函数L：

其中，TP、FN、FP为预测出来为胰腺的真阳性数量、假阴性数量和假阳性数量，n为胰腺的预测概率，p_n为体素，g_n为胰腺的真实位置，λ为FocalLoss和DiceLoss的权重比值，N为胰腺CT图像的体素总数。

本发明的有益效果：本发明结合卷积神经网络局部表征能力与Transformer的全局建模能力来提取融合胰腺各级特征；提出一种适用胰腺和网络的损失函数，改善了针对胰腺类别不平衡以及纹理信息大不相同带来的学习难易程度存在差异等问题；采用多视角跳跃连接及特征融合模块弥补了医学图像U型架构上下采样的信息损失问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的神经网络整体框架图；

图2为本发明第一个实施例所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的3Dtransformer流程示意图；

图3为本发明第一个实施例所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的3Dtransformer算法思想图；

图4为本发明第一个实施例所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的特征融合模块示意图；

图5为本发明第二个实施例所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的人工标注真实胰腺形状与胰腺分割结果对比图；

图6为本发明第二个实施例所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法的分割结果可视化图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～4，为本发明的第一个实施例，该实施例提供了一种基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法，包括：

S1：采集胰腺CT图像数据集并进行数据预处理。

在神经网络的训练中，如果数据量过少会使得网络训练困难，并且容易出现过拟合的现象，所以需要扩充数据集，提高神经网络的泛化性和分割性能；在医学图像中，由于数据隐私性、标注成本过高，研究者们可获得的用于网络训练数据集少；因此在医学图像的预处理中，需进行数据增强；利用旋转缩放、高斯噪声、高斯模糊、亮度与对比度调整、低分辨率调整、伽马增强和随机裁剪进行数据增强。

将胰腺CT图像数据集重新采样到相同的体素间距；统计胰腺CT图像数据集标签的CT值范围并裁剪出[0.5,99.5]的百分比范围，以进行全局归一化。

S2：利用步进卷积进行下采样，进而编码，利用3Dtransformer进行特征提取，利用反卷积上采样进行解码，以建立3Dtransformer混合卷积神经网络。

3Dtransformer混合卷积神经网络包括三层步进卷积下采样、三层反卷积上采样、三处跳跃连接、三个特征融合模块和14个3Dtransformer模块；将Transformer与CNN结合，整体为U型架构，如图1所示；步进卷积下采样、反卷积上采样和3Dtransformer特征提取交互运作。

将预处理后截取的3D体积块作为输入，经过三层步进卷积下采样并且每层利用两个3Dtransformer结构提取特征之后，再经过三层反卷积上采样解码返回原尺寸图像进行分割精度预测。

3Dtransformer混合卷积神经网络的学习率lr为：

针对胰腺器官小，正负样本不平衡的问题，利用FocalLoss和DiceLoss的加权损失作为3Dtransformer混合卷积神经网络的损失函数L：

其中，TP、FN、FP为预测出来为胰腺的真阳性数量、假阴性数量和假阳性数量，n为胰腺的预测概率，p_n为体素，g_n为胰腺的真实位置，λ为FocalLoss和DiceLoss的权重值，N为胰腺CT图像的体素总数。

(1)通过位置编码操作对输入数据进行位置编码；输入网络大小的尺寸为[H,W,D]、通道数为C，经过位置编码操作后得到的张量大小为[H/4,W/4,D/2,C]。

(2)利用两个连续的3Dtransformer模块提取特征，得到大小不变的张量；此张量有两个分支：一是作为下一层步进卷积下采样的输入，得到分辨率为[H/8,W/8,D/4,2C]的张量；二是将输入步进卷积下采样并经过两个连续3Dtransformer模块得到的特征残差跳跃连接到反卷积上采样阶段相同分辨率的模块，进行多视角特征融合，以补全特征信息，弥补上下采样特征信息丢失问题。

3Dtransformer模块的流程与算法如图2～3所示，利用3D滑动窗口遍历输入3D体积图像，利用transformer计算3D滑动窗口内的自注意力，再重新划分窗口，计算交互窗口间的注意力。

特征融合模块示意见图4，将解码器反卷积上采样信息和编码器反卷积上采样信息分别经过HWD的三个通道方向的平均池化，进行特征映射表示，并合并为解码器反卷积上采样特征和编码器反卷积上采样特征；将核大小为1×1×1、步长为1的卷积核分别应用于解码器反卷积上采样特征和编码器反卷积上采样特征，再由Relu函数激活；利用另一个核大小为1×1×1、步长为1的卷积核进行反卷积运算，通过sigmoid函数计算权重矩阵；将权重矩阵和同级跳跃连接传到解码器的特征进行矩阵乘运算，并输入解码器。将权重矩阵和同级跳跃连接传到解码器的特征进行矩阵乘运算，并输入解码器。

经过三层步进卷积下采样后得到尺寸为[H/32,W/32,D/16,8C]的张量；步进卷积下采样中采用的具体操作是步进卷积、层正则化和GeLU激活函数。

(3)经过两个连续的3DTransformer模块后进行反卷积上采样。

(4)经过三层反卷积上采样后，通过一个扩展模块对特征图进行尺寸还原。

S3：将预处理后的数据输入3Dtransformer混合卷积神经网络，输出分割结果。

实施例2

为了对本方法中采用的技术效果加以验证说明，本实施例选择的不同方法和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

在美国国立卫生研究院提供的NIH胰腺分割数据集上部署本方法的3Dtransformer混合卷积神经网络，其中包含82例腹部CT增强扫描，以及相应体数据的绝对位置、数据密度信息；扫描分辨率为512x512像素，切片数在181～466之间，层厚为1.5～2.5mm；初始学习率initial_lr＝0.01，默认优化器为SGD，动量设置为0.99，权重衰减设置为3e^-5，参数λ＝1。

实验结果如图5所示，左边为人工标注真实胰腺形状，右边为本方法胰腺分割结果，可以看到本方法与人工标注的真实胰腺形状有很高的相似性。

本方法在美国国立卫生研究院提供的NIH胰腺分割数据集上进行了四折交叉验证，将所有病例平均分成四份，选取其中一份数据集作为测试集，其他三份数据集作为训练集，分别进行了四次训练和测试；从DSC精度、Jaccard系数、precision和recall四个评价指标来评价本方法的有效性，实验结果如表1所示，表中数据为平均值±标准差；

表1：四折交叉验证结果。

策略	DSC(％)	Jaccard(％)	Precision(％)	Recall(％)
					1-fold	86.7±4.1	76.6±6.0	86.3±4.1	87.5±6.8
2-fold	84.2±5.6	73.1±8.1	86.1±9.6	83.5±7.3
					3-fold	87.9±2.2	78.4±3.4	87.9±3.9	88.1±4.1
4-fold	87.5±3.9	78.1±5.9	84.3±7.6	91.5±2.1

从表中数据可知，本方法达到了很高的分割精度，以此证明本方法可以有效提升胰腺分割精度。

本方法分割结果3D可视化结果如图5所示，可以看出，即使两个病例的胰腺在CT成像上形状和位置不同，本方法依然能够准确地分割胰腺，分割结果与人工标注的真值有很高的相似性。

从DSC、Jaccard、Precision、Recall四个指标出发建立了箱线图来评价本方法，如图6所示，其中(a)是DSC系数，(b)是Jaccard系数，(c)是Precision指标，(d)是Recall指标；总共82个病人，将每一位病人的CT片分割最终得分标注为一个小点，以箱线图的形式标注了所有病人四个系数的得分、平均数以及上分中位数下分中位数。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法，其特征在于，包括：

采集胰腺CT图像数据集并进行数据预处理；

利用步进卷积进行下采样，进而编码，利用3Dtransformer进行特征提取，利用反卷积上采样进行解码，以建立3Dtransformer混合卷积神经网络；

将预处理后的数据输入所述3Dtransformer混合卷积神经网络，输出分割结果；

所述3Dtransformer混合卷积神经网络包括三层步进卷积下采样、三层反卷积上采样、三处跳跃连接、三个特征融合模块和14个3Dtransformer模块；

所述步进卷积下采样包括：每层网络中部署两个连续的3Dtransformer模块进行特征提取；

所述步进卷积下采样中采用的是步进卷积、层正则化和GeLU激活函数。

2.如权利要求1所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法，其特征在于，所述数据预处理包括：

利用旋转缩放、高斯噪声、高斯模糊、亮度与对比度调整、低分辨率调整、伽马增强和随机裁剪进行数据增强；

将所述胰腺CT图像数据集重新采样到相同的体素间距；

统计所述胰腺CT图像数据集标签的CT值范围并裁剪出[0.5,99.5]的百分比范围，以进行全局归一化。

3.如权利要求2所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法，其特征在于，还包括：

将所述数据预处理后截取的3D体积块作为所述3Dtransformer混合卷积神经网络输入。

4.如权利要求3所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法，其特征在于，所述3Dtransformer模块包括：

利用3D滑动窗口遍历输入3D体积图像，利用transformer计算所述3D滑动窗口内的自注意力，再重新划分窗口，计算交互窗口间的注意力。

5.如权利要求4所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法，其特征在于，所述特征融合模块包括：

所述特征融合模块将经过所述反卷积上采样的特征和编码器传到解码器的两极多视角特征进行融合；

将解码器反卷积上采样信息和编码器反卷积上采样信息分别经过HWD的三个通道方向的平均池化，进行特征映射表示，并合并为解码器反卷积上采样特征和编码器反卷积上采样特征；将核大小为1×1×1、步长为1的卷积核分别应用于解码器反卷积上采样特征和编码器反卷积上采样特征，再由Relu函数激活；利用另一个核大小为1×1×1、步长为1的卷积核进行反卷积运算，通过sigmoid函数计算权重矩阵；将所述权重矩阵和同级跳跃连接传到解码器的特征进行矩阵乘运算，并输入解码器。

6.如权利要求1所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法，其特征在于，还包括：

所述3Dtransformer混合卷积神经网络的学习率lr为：

7.如权利要求1所述的基于3Dtransformer混合卷积神经网络的胰腺CT图像分割方法，其特征在于，还包括：