CN116721253A

CN116721253A - 一种基于深度学习的腹部ct图像多器官分割方法

Info

Publication number: CN116721253A
Application number: CN202310687349.6A
Authority: CN
Inventors: 廖苗; 邸拴虎; 唐红亮; 梁伟; 赵于前
Original assignee: Hunan University of Science and Technology
Current assignee: Hunan University of Science and Technology
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-08

Abstract

本发明公开了一种基于深度学习的腹部CT图像多器官分割方法，具体实现为：(1)构建包含腹部CT图像和其对应的多器官分割结果的训练数据集；(2)设计一种基于双自注意力机制和多尺度特征融合的分割网络；(3)结合Dice损失与Focal损失构建网络损失函数；(4)利用训练数据集对网络进行训练；(5)运用训练好的网络分割腹部CT图像中的各器官区域。本发明通过采用双注意力和多尺度特征融合机制，可在引入非常少量的参数及浮点计算次数的情况下，更具针对性地建立长距离依赖，解决形状不规则的长条形器官分割精度低的问题。

Description

一种基于深度学习的腹部CT图像多器官分割方法

技术领域

本发明属于医学图像处理技术领域，具体涉及一种基于深度学习的腹部CT图像多器官分割方法。

背景技术

随着医学成像设备的更新迭代和智能医疗技术的不断发展，医学图像分割已经成为了计算机辅助诊断中不可或缺的步骤。腹部计算机断层扫描(Computed Tomography,CT)成像中的多器官分割有助于器官或组织的形态分析、疾病诊断、病灶定位、治疗方案制定等任务，提高计算机辅助诊疗的精度和效率。目前，临床上腹部多器官的分割主要依靠专家手动勾画，然而典型的CT扫描包含了数百个二维切片，逐个切片进行手动分割不仅耗时耗力，且分割精度可能会因为人长时间的工作而降低。不同切片中，各组织器官尤其是胰腺、食管等管腔类器官的大小、形态、位置等差别较大。器官间个体差异大，且不同器官之间相互毗邻、边界模糊，都给腹部CT序列的多器官分割带来了巨大困难。因此，开发精确、快速的腹部多器官自动分割方法成为了近年来的研究热点。

最近，随着人工智能与机器视觉技术的不断发展，基于神经网络与深度学习的医学图像分割方法逐渐成为了主流。卷积神经网络(Convolutional Neural Networks,CNNs)凭借其强大的非线性提取能力在计算机视觉领域取得了很好的效果。大部分基于CNN的分割方法仅通过加深网络或堆叠大量的局部卷积来提升性能，然而，该方式无法有效扩大网络感受野，不能很好地处理器官众多、情况复杂的腹部CT场景。

发明内容

针对现有技术的缺点与不足，本发明将双自注意力和多尺度特征融合机制融入U形深度卷积神经网络的构建，旨在提供一种基于深度学习的腹部CT图像多器官分割方法，在引入非常少量的参数及浮点计算次数的情况下，更具针对性地建立长距离依赖，解决形状不规则的长条形器官分割精度低的问题。

一种基于深度学习的腹部CT图像多器官分割方法，包括以下步骤：

(1)建立包含腹部CT图像和其对应的多器官分割结果的训练数据集A；

(2)构建一种基于双自注意力机制和多尺度特征融合的分割网络，称之为DAMF-Net，具体包括：

(2-a)采用带跳跃连接的U型结构作为网络基准框架，其中编码路径和解码路径分别由5个编码块和解码块级联组成，为了避免信息的冗余传递，同时增强小目标与边缘的识别能力，在相同层级的编码和解码块之间增加一条带残差块的跳跃连接，此外，为了补充感受野受限造成的信息损失、建立全局信息间的联系，同时轻量化网络，在网络最深层引入由多尺度信息融合模块和双自注意力模块并联构成的特征提取模块，其中多尺度信息融合模块简称为MSCF，双自注意力模块简称为DSA；

(2-b)步骤(2-a)所述的编码块，其特征在于，包括一个编码主路和残差支路，在编码主路中首先对输入特征图先后进行两次3×3卷积，前一个3×3卷积层后依次连接一个归一化层和ReLU激活层，后一个3×3卷积层后连接一个归一化层；为了防止出现网络退化，在编码块中增加了一个残差支路，将输入特征进行1×1卷积与归一化；然后，将残差支路与编码主路的结果相加，最后，通过ReLU激活层和2×2的最大池化层获取编码块的输出；

(2-c)步骤(2-a)所述的解码块，其特征在于，包括一个解码主路和残差支路，在解码主路中首先对输入特征图先后进行两次3×3卷积，前一个3×3卷积层后依次连接一个归一化层和ReLU激活层，后一个3×3卷积层后连接一个归一化层；为了防止出现网络退化，在编码块中增加了一个残差支路，将输入特征进行1×1卷积与归一化；然后，将残差支路与解码主路的结果相加，最后通过ReLU激活层和上采样获取编码块的输出，其中上采样采用2×2反卷积实现；

(2-d)步骤(2-a)所述的残差块，其特征在于，具体结构包括：将当前层级和下一层级编码块的输出均作为输入，其中当前层级编码块的输出记作F_i，下一层级编码块的输出记作F_i+1；残差块首先将F_i+1进行2×2的反卷积和ReLU激活操作，得到与F_i大小相同的特征图F_up，并将F_i与F_up进行相减，获取包含小目标和边缘细节的残差特征图F_sub＝F_i-F_up；为了进一步增强残差特征的表达，对F_sub进行连续两次3×3卷积操作，并在每次3×3卷积层后依次连接一个归一化层和ReLU激活层；

(2-e)步骤(2-a)所述的多尺度信息融合模块，即MSCF，其特征在于，具体结构包括：首先对输入特征F_in依次执行1×1卷积、归一化、ReLU激活操作得到特征F_conv1×1，该操作的目的是对通道数进行降维、减小参数数量、加快后续模块内的计算过程；然后，将F_conv1×1分别输入至金字塔池化模块中获取包含局部信息的特征F_MS1，同时将F_conv1×1输入至各向异性条形池化模块中获取包含长距离上下文信息的特征F_MS2；将F_MS1和F_MS2进行相加融合，再依次进行1×1的卷积和归一化操作得到融合多尺度特征信息的F_MSCF；为了保证前后语义一致性，将输入特征F_in与F_MSCF相加并通过ReLU激活层输出，然后依次执行3×3卷积、归一化、ReLU激活操作，最后通过1×1卷积将通道维度还原到输入特征的大小，得到输出特征F_out；

(2-f)步骤(2-e)所述的金字塔池化模块，记作PPM，其特征在于，具体结构包括：首先对输入特征F_conv1×1分别进行核为3×3、5×5、7×7的平均池化，得到不同尺度的特征图F_pool3×3、F_pool5×5和F_pool7×7，并分别对F_pool3×3、F_pool5×5和F_pool7×7依次进行3×3的卷积和归一化，得到特征图F_p1、F_p2、F_p3，然后，分别对F_p1、F_p2、F_p3进行核为3×3、5×5、7×7的反卷积，得到特征F₁、F₂、F₃；最后，将F₁、F₂、F₃进行相加融合，并依次执行ReLU激活、3×3卷积、归一化、ReLU激活得到特征F_MS1：

(2-g)步骤(2-e)所述的各向异性条形池化模块，记作ASPM，其特征在于，具体结构包括：首先，使用大小为H×1和1×W的池化核分别从垂直和水平两个方向对F_conv1×1进行平均池化，生成特征图F_h和F_v，其中H和W分别表示输入特征图F_conv1×1的高和宽；然后，对F_h依次进行1×3卷积和归一化，得到特征F′_h，对F_v依次进行3×1卷积和归一化得到特征F′_v，并将获取的特征F′_h和F′_v分别沿着垂直和水平方向进行复制扩张，得到与输入特征F_conv1×1尺寸一致的特征图F₁′、F₂′；接着，对F₁′和F₂′进行相加融合，得到包含长距离上下文信息关系的特征F_fusion；最后，对F_fusion依次进行ReLU激活、3×3卷积、归一化、ReLU激活得到特征F_MS2；

(2-h)步骤(2-a)所述的双自注意力模块，记作DSA，其特征在于，具体结构包括：由位置注意力模块和通道注意力模块并联构成，将输入特征F_down分别输入位置注意力模块和通道注意力模块，获取特征F_PAM和F_CAM，然后将其相加融合，得到输出特征

(2-i)步骤(2-h)所述的位置注意力模块，记作PAM，其特征在于，具体结构包括：

(2-i-I)对于输入特征其中W′、H′为特征图的宽度和高度，C为特征图的通道数，在三个分支上分别对F_down进行移位卷积，得到特征/>和/>

(2-i-Ⅱ)为了获取各像素间的相互依赖关系，采用reshape操作将F_p1和F_p2分别重构为和/>并将F′_p1和F′_p2进行矩阵相乘和Softmax激活，得到权重矩阵/>

(2-i-Ⅲ)将重构为/>并将F′_p3与M_PAM进行矩阵相乘，得到/>

(2-i-Ⅳ)将重构为/>并将F′_pmap与输入特征F_down进行相加融合，并通过移位卷积得到输出特征/>

(2-j)步骤(2-h)所述的通道注意力模块，记作CAM，其特征在于，整体结构与PAM类似，具体包括：

(2-j-Ⅰ)采用reshape操作在三个分支上分别将F_down分别重构为

(2-j-Ⅱ)对F_c1进行转置，获取并将F′_c1和F_c2进行矩阵相乘和Softmax激活，得到权重矩阵/>

(2-j-Ⅲ)将F_c3与M_CAM进行矩阵相乘，得到

(2-j-Ⅳ)将重构为/>并将F′_cmap与输入特征F_down进行相加融合，并通过移位卷积得到输出特征/>

(3)结合Dice损失与Focal损失构建DAMF-Net网络的损失函数L：

L＝L_focal+λL_dice

其中，L_focal和L_dice分别表示Focal损失和Dice损失，λ为权重系数，控制Focal损失和Dice损失的相对重要性，λ优选0.3～0.7之间的常数，表示由DAMF-Net网络将像素i预测为第t类的概率，/>表示像素i属于第t类的真实概率，N_C表示待分割的类别总数，N_P表示图像中像素数目，α_t和γ_t为权重参数，用以减轻器官像素比例不平衡的影响；

(4)采用训练数据集A对DAMF-Net网络进行训练，直至损失函数L收敛；

(5)利用已训练好的网络对腹部CT图像进行测试，获取其中的多器官分割结果。

附图说明

图1本发明实施方式的DAMF-Net网络结构示意图

图2本发明实施方式的编码块结构示意图

图3本发明实施方式的解码块结构示意图

图4本发明实施方式的残差块结构示意图

图5本发明实施方式的多尺度信息融合模块结构示意图

图6本发明实施方式的各向异性条形池化模块结构示意图

图7本发明实施方式的双自注意力模块结构示意图

图8本发明实施方式得到的部分实验结果示例，其中，图8(a)～图8(d)为从FLARE数据集中随机挑选的四幅原始CT图像，图8(e)～图8(h)为采用本发明实施方式对图8(a)～图8(d)进行测试的结果

具体实施方式

实施例1

一种基于深度学习的腹部CT图像多器官分割方法，具体实施步骤如下：

(2)构建一种基于双自注意力机制和多尺度特征融合的分割网络，称之为DAMF-Net，结构如图1所示，具体包括：

(2-b)步骤(2-a)所述的编码块，结构如图2所示，其特征在于，包括一个编码主路和残差支路，在编码主路中首先对输入特征图先后进行两次3×3卷积，前一个3×3卷积层后依次连接一个归一化层和ReLU激活层，后一个3×3卷积层后连接一个归一化层；为了防止出现网络退化，在编码块中增加了一个残差支路，将输入特征进行1×1卷积与归一化；然后，将残差支路与编码主路的结果相加，最后，通过ReLU激活层和2×2的最大池化层获取编码块的输出；

(2-c)步骤(2-a)所述的解码块，结构如图3所示，其特征在于，包括一个解码主路和残差支路，在解码主路中首先对输入特征图先后进行两次3×3卷积，前一个3×3卷积层后依次连接一个归一化层和ReLU激活层，后一个3×3卷积层后连接一个归一化层；为了防止出现网络退化，在编码块中增加了一个残差支路，将输入特征进行1×1卷积与归一化；然后，将残差支路与解码主路的结果相加，最后通过ReLU激活层和上采样获取编码块的输出，其中上采样采用2×2反卷积实现；

(2-d)步骤(2-a)所述的残差块，结构如图4所示，其特征在于，具体结构包括：将当前层级和下一层级编码块的输出均作为输入，其中当前层级编码块的输出记作F_i，下一层级编码块的输出记作F_i+1；残差块首先将F_i+1进行2×2的反卷积和ReLU激活操作，得到与F_i大小相同的特征图F_up，并将F_i与F_up进行相减，获取包含小目标和边缘细节的残差特征图F_sub＝F_i-F_up；为了进一步增强残差特征的表达，对F_sub进行连续两次3×3卷积操作，并在每次3×3卷积层后依次连接一个归一化层和ReLU激活层；

(2-e)步骤(2-a)所述的多尺度信息融合模块，即MSCF，结构如图5所示，其特征在于，具体结构包括：首先对输入特征F_in依次执行1×1卷积、归一化、ReLU激活操作得到特征F_conv1×1，该操作的目的是对通道数进行降维、减小参数数量、加快后续模块内的计算过程；然后，将F_conv1×1分别输入至金字塔池化模块中获取包含局部信息的特征F_MS1，同时将F_conv1×1输入至各向异性条形池化模块中获取包含长距离上下文信息的特征F_MS2；将F_MS1和F_MS2进行相加融合，再依次进行1×1的卷积和归一化操作得到融合多尺度特征信息的F_MSCF；为了保证前后语义一致性，将输入特征F_in与F_MSCF相加并通过ReLU激活层输出，然后依次执行3×3卷积、归一化、ReLU激活操作，最后通过1×1卷积将通道维度还原到输入特征的大小，得到输出特征F_out；

(2-g)步骤(2-e)所述的各向异性条形池化模块，记作ASPM，结构如图6所示，其特征在于，具体结构包括：首先，使用大小为H×1和1×W的池化核分别从垂直和水平两个方向对F_conv1×1进行平均池化，生成特征图F_h和F_v，其中H和W分别表示输入特征图F_conv1×1的高和宽；然后，对F_h依次进行1×3卷积和归一化，得到特征F′_h，对F_v依次进行3×1卷积和归一化得到特征F′_v，并将获取的特征F′_h和F′_v分别沿着垂直和水平方向进行复制扩张，得到与输入特征F_conv1×1尺寸一致的特征图F₁′、F₂′；接着，对F₁′和F₂′进行相加融合，得到包含长距离上下文信息关系的特征F_fusion；最后，对F_fusion依次进行ReLU激活、3×3卷积、归一化、ReLU激活得到特征F_MS2；

(2-h)步骤(2-a)所述的双自注意力模块，记作DSA，结构如图7所示，其特征在于，具体结构包括：由位置注意力模块和通道注意力模块并联构成，将输入特征F_down分别输入位置注意力模块和通道注意力模块，获取特征F_PAM和F_CAM，然后将其相加融合，得到输出特征

(2-i-Ⅰ)对于输入特征其中W′、H′为特征图的宽度和高度，C为特征图的通道数，在三个分支上分别对F_down进行移位卷积，得到特征/>和/>

(2-i-Ⅲ)将重构为/>并将F′_p3与M_PAM进行矩阵相乘，得到/>

(2-j-Ⅰ)采用reshape操作在三个分支上分别将F_down分别重构为

(2-j-Ⅲ)将F_c3与M_CAM进行矩阵相乘，得到

(3)结合Dice损失与Focal损失构建DAMF-Net网络的损失函数L：

L＝L_focal+λL_dice

其中，L_focal和L_dice分别表示Focal损失和Dice损失，λ为权重系数，控制Focal损失和Dice损失的相对重要性，本实施例优选λ＝0.4，表示由DAMF-Net网络将像素i预测为第t类的概率，/>表示像素i属于第t类的真实概率，N_C表示待分割的类别总数，N_P表示图像中像素数目，α_t和γ_t为权重参数，用以减轻器官像素比例不平衡的影响，本实施例中优选α_t＝1，γ_t＝2；

实施例2

采用实施例1中的方法对FLARE公开数据集进行实验。FLARE是一个公布了361个腹部CT序列和其对应的分割金标准的数据集，分割目标主要为肝脏、脾脏、胰腺、肾脏。实验中将这361个CT序列按照2：8的比例划分成测试数据集和训练数据集。

本实施例实验环境基于Pytorch深度学习框架，所有训练均在Nvidia GeForceRTX3060-12GB GPU上完成，初始学习率为0.005，优化器设置为Adam，学习率按照ReduceLRPlateau策略更新。

本发明方法在FLARE数据集上获得的肝脏、脾脏、肾脏、胰腺的Dice值分别高达0.967、0.944、0.960、0.734。测试集上部分实验结果如图8所示，其中，图8(a)～图8(d)为从测试数据中随机挑选的四幅CT原始图像，图8(e)～图8(h)为采用实施例1中的方法对图8(a)～图8(d)进行测试的结果，可以看到，本发明方法可有效分割其中的肝脏、脾脏、肾脏、胰腺等器官。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于深度学习的腹部CT图像多器官分割方法，其特征在于，包括以下步骤：

(2-i-Ⅰ)对于输入特征其中W′、H′为特征图的宽度和高度，C为特征图的通道数，在三个分支上分别对F_down进行移位卷积，得到特征/>和

(2-i-Ⅲ)将重构为/>并将F_p′₃与M_PAM进行矩阵相乘，得到

(2-i-Ⅳ)将重构为/>并将F_p′_map与输入特征F_down进行相加融合，并通过移位卷积得到输出特征/>(2-j)步骤(2-h)所述的通道注意力模块，记作CAM，其特征在于，整体结构与PAM类似，具体包括：

(2-j-Ⅰ)采用reshape操作在三个分支上分别将F_down分别重构为

(2-j-Ⅱ)对F_c1进行转置，获取并将F_c′₁和F_c2进行矩阵相乘和Softmax激活，得到权重矩阵/>

(2-j-Ⅲ)将F_c3与M_CAM进行矩阵相乘，得到

(2-j-Ⅳ)将重构为/>并将F_c′_map与输入特征F_down进行相加融合，并通过移位卷积得到输出特征/>(3)结合Dice损失与Focal损失构建DAMF-Net网络的损失函数L：

L＝L_focal+λL_dice

其中，L_focal和L_dice分别表示Focal损失和Dice损失，λ为权重系数，控制Focal损失和Dice损失的相对重要性，表示由DAMF-Net网络将像素i预测为第t类的概率，/>表示像素i属于第t类的真实概率，N_C表示待分割的类别总数，N_P表示图像中像素数目，α_t和γ_t为权重参数，用以减轻器官像素比例不平衡的影响；

2.如权利要求1所述的一种基于深度学习的腹部CT图像多器官分割方法，其特征在于：步骤(3)中所述的损失函数权重系数λ优选0.3～0.7之间的常数。