CN112927255B

CN112927255B - 一种基于上下文注意力策略的三维肝脏影像语义分割方法

Info

Publication number: CN112927255B
Application number: CN202110196132.6A
Authority: CN
Inventors: 张晓龙; 邵赛; 邓春华; 程若勤; 李波
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2022-06-21
Anticipated expiration: 2041-02-22
Also published as: CN112927255A

Abstract

本发明涉及一种基于上下文注意力策略的三维肝脏影像语义分割方法，包括如下步骤：选定待进行肝脏分割的医疗影像数据集，将其划分为训练集和测试集；对所述训练集中的三维肝脏影像进行预处理；在编码阶段，利用残差结构、卷积网络和空洞卷积得到肝脏的特征图；在解码阶段，利用上下文注意力策略模块、转置卷积和深度监督机制得到肝脏的分割图像；对语义分割后得到的肝脏图像进行后处理。该方法具有提高三维肝脏影像语义分割效果的特点，实现了较好的自动化分割效果，并可以辅助医生进行诊断。

Description

一种基于上下文注意力策略的三维肝脏影像语义分割方法

技术领域

本发明涉及三维医学影像语义分割方法，特别是涉及一种基于上下文注意力策略的三维肝脏影像语义分割方法。

背景技术

肝脏位于人体腹部，是腹部最大的重要实体器官，然而与肝脏相关的肝癌等疾病已成为世界上最常见，死亡率最高的疾病之一，这对人类的身体健康与生命产生了极大的威胁。近年来，计算机断层扫描(computered tomography,CT)已经成为发现，诊断和治疗肝肿瘤最广泛使用的医学成像方法。在治疗手术之前需要对CT图像中肝脏的形状和位置信息详细的了解，因此对肝脏的精确分割已成为肝癌治疗的首要任务。然而，人与人之间肿瘤的大小，形状和位置差异较大，肿瘤与其周围正常肝组织之间的界限不明确，肝脏与其周围器官组织对比度低，一些肿瘤还可能与其他器官和血管相邻，造成边界模糊。此外，肝肿瘤的多样性和密度的不均匀性使得肝脏和肝肿瘤分割成为一项具有挑战性的任务。因此，研究自动肝脏分割算法不仅可以减少医生手动细分的工作时间和结果的主观性，而且更为重要的是它可以提高肝脏和肿瘤分割的准确性，以提高肝肿瘤手术的成功率。

目前肝脏及肿瘤分割算法主要分为传统方法和基于深度学习的方法。传统分割方法主要有阈值法、区域生长法、主动轮廓模型、遗传算法等。但是传统的分割方法或多或少都存在一些局限，如阈值法仅考虑了像素本身的值，放弃了图像的空间性造成欠分割；区域生长法需要人工设置种子点，导致本来分开的区域连接，造成过度分割；主动轮廓模型对于初始位置十分敏感且无法检测到目标边界的凹陷处；遗传算法缺少局部搜索能力。

基于深度学习的分割方法也称为图像语义分割，本质上是一个逐像素点的二分类问题。近年来，这类方法被广泛应用于医疗影像处理领域，受到了极大的关注。在深度学习中最具有代表性的算法是卷积神经网络，它在图像识别和图像分割领域大放异彩。后来的研究者又根据医疗影像的特点对全卷积神经网络(Fully Convolutional Networks,FCN)改进提出了最经典的Unet和Vnet网络。二者都是一种类似U型的网络结构，使用skip-connection连接low level feature和high level feature。不同点在于Unet用于处理二维数据，Vnet用于处理三维数据，Vnet中还加入了Residual block。然而二维卷积网络无法充分利用医疗影像数据中的空间信息，缺少了对三维医疗数据切片间信息的处理，所以分割所得结果的边界较为粗糙，分割的整体效果不如三维分割。但这些研究都没有对医疗影像数据切片间的信息进行处理，对目标的低级语义特征和高级语义特征的融合利用不到位。

发明内容

本发明为了克服现有技术的不足，提供了一种基于上下文注意力策略的三维肝脏影像语义分割方法，采用如下技术方案实现：

一种基于上下文注意力策略的三维肝脏影像语义分割方法，包括如下步骤：

S1、选定待进行肝脏分割的医疗影像数据集，将其划分为训练集和测试集；

S2、对所述训练集中的三维肝脏影像进行预处理，并输入编解码网络模型；

S3、在编码阶段，利用残差结构、卷积网络和空洞卷积得到肝脏的特征图；

S4、在解码阶段，利用上下文注意力策略模块、转置卷积和深度监督机制得到肝脏的分割图像；

S5、对语义分割后得到的肝脏图像进行后处理。

进一步的，步骤S2具体包括：

S21、将训练集进行调窗处理，把灰度值设置在[-200,250]范围内；

S22、对训练集进行降采样和重采样，将图像数据的z轴间隔调整到1mm；

S23、找到肝脏区域的开始和结束切片，并在两个方向上向外扩张n个切片，n∈[15,20]；

S24、对训练集中的图像进行三维区域直方图均衡化；

S25、对训练集中的图像进行最小最大归一化操作，最小最大归一化公式如下：

其中，x_max代表图像CT的最大值，x_min代表图像CT的最小值，x为图像的CT值，x^*代表最小最大归一化后的结果；

S26、随机选择48个连续的切片作为网络的输入，此时网络的输入尺寸为1×48×256×256。

进一步的，步骤S3具体包括：

S31、设置网络初始化参数，包括批处理大小、学习率、动量、最大迭代次数、L2权重和学习率衰减策略；

S32、使用kaiming正态分布初始化网络权重，常数初始化偏差参数；

S33、将预处理后的三维图像输入到卷积神经网络中，通过残差结构和空洞卷积进行训练得到若干特征信息；其中，在编码阶段共经过四层卷积，每层卷积由2-3个尺寸为3×3×3的三维卷积构成，倒数第二层分别加入膨胀率为2和4的空洞卷积，最后一层分别加入膨胀率为3,4,5的空洞卷积，最终得到肝脏的特征图。

进一步的，步骤S33中，卷积的输入输出尺寸关系为：

O＝(I-K+2P)/S+1

其中，I为输入图片大小，K为卷积核大小，S为步长，P为填充的像素数，O代表卷积层输出的特征图大小；

空洞卷积的计算过程如下：

其中，i代表输入图片大小，k为卷积核大小，p为填充的像素数，d代表膨胀率，s为步长，O代表输出的特征图大小；

残差结构如下：

x_l+1＝x_l+F(x_l,W_l),F＝W_l*x_l+b_l

其中，x_l代表输入特征，F代表卷积操作，W_l代表卷积中的权重，b_l代表卷积中的偏置。

进一步的，步骤S4具体包括：

S41、在解码阶段，将步骤3得到的特征图进行反卷积，公式如下：

o＝s(i-1)-2p+k

其中，o代表输出的尺寸大小，p代表填充的大小，s代表卷积核移动的步长，i代表输入的尺寸大小，k代表卷积核的尺寸大小；

S42、利用在编码阶段每层最后一次卷积得到的特征与步骤S41每层反卷积得到的特征，分别作为上层信息和下层信息来通过跳跃连接中的上下文注意力策略模块得到注意力图；

其中，在上下文注意力策略模块中，分别有上层特征输入和下层特征输入，首先让上层特征和下层特征分别通过1×1×1的卷积调整通道数，其次对两个特征进行简单的相加融合操作，然后经过上下两条线路，其中上面一条路径融合特征图先经过ReLu激活函数，再经过一个三维卷积对通道维度进行压缩，把channel维降为1，最后利用Sigmoid归一化生成空间注意力系数和上层输入x逐元素相乘，从而有效利用到医疗影像这种三维数据特有的空间信息；下面一条线路则经过3维全局自适应平均池化使特征图在空间维度上进行压缩，得到一个1×1×1×C的数据后再经过两个三维卷积的Excitation过程，接着通过Sigmoid得到通道注意力系数，最后与空间特征图做逐元素相乘就得到了上下文注意力策略图；

S43、把每一层得到的上下文注意力策略图与同一层经过上采样的解码层特征进行连接，再进行一系列的卷积操作提取特征；其中，解码的每一层的结果都会经过不同尺度的上采样恢复图像尺寸得到一个输出，最终会得到4个输出，前3个输出会作为深度监督机制中的辅助损失，最后的输出作为输出的最终的掩码图；

S44、在迭代训练中的反向传播过程，通过网络预测的输出与真实标签比较计算损失，不断迭代更新网络参数，使得输出结果接近真实值。

进一步的，步骤S42中，空间注意力公式如下：

其中，σ₁为Relu函数，ψ^T，W_x，W_g为卷积操作，σ₂为Sigmoid函数，α_i为空间注意力系数，x_i,g_i分别代表输入的上层特征和下层特征；

通道注意力公式如下：

s＝F_ex(z,W)＝σ₂(g(z,W))＝σ₂(W₂σ₁(W₁z))

其中第一个公式为三维全局自适应平均池化过程，u_c代表输入的融合特征向量，H,W,D代表输入的高，宽，深度，因此上式就将H×W×D×C的输入转换成1×1×1×C的输出；第二个公式为Excitation过程，其中z为第一个公式三维全局自适应平均池化得到的结果，W₁,W₂为卷积操作，σ₁为Relu函数，σ₂为Sigmoid函数，最终得到通道注意力系数s。

进一步的，步骤S43和S44中计算损失采用Exponential Logarithmic Diceloss具体公式如下：

L_Dice＝(-ln(d))^γDice

其中，d代表Dice Similarity Coefficient，X,Y分别代表上下文注意力策略网络的分割预测图和金标准分割图，|X∩Y|是X,Y之间的交集，|X|+|Y|分别代表X,Y元素的个数，γDice代表超参数，具有提升非线性的作用；

深度监督网络联合损失函数如下：

loss＝(loss1+loss2+loss3)*alpha+loss4

其中loss1-loss4为解码每层的损失函数，alpha为深度监督系数。

进一步的，步骤S5具体包括：

S51、对肝脏分割区域进行最大连通域提取；

S52、移除语义分割的细小区域,并进行分割区域内部的空洞填充。

本发明的有益技术效果如下：

本发明的方法首先利用残差网络和空洞卷积对三维肝脏影像进行训练，充分利用三维肝脏影像中切片间的信息，以提取待分割边缘区域的特征，得到富含空间语义信息的肝脏特征图；再利用跳跃结构中的上下文注意力策略模块对肝脏的上下文信息进行不断提取，得到融合了空间信息和通道信息的肝脏注意力热图；然后利用反卷积操作对特征图进行特征解析，接着利用深度监督机制降低训练和验证误差有助于提高定位和辨别能力，最终得到肝脏的分割图像。其中在encoder和decoder的连接处多次使用上下文注意力策略模块，达到了对肝脏边界信息，语义信息和空间通道信息的有效利用，并且注意力图和decoder同层特征图的拼接整合很好的进行了特征信息的融合。最后，利用形态学方法对分割结果进行后处理进行最后的优化。

因此，本发明利用上下文注意力策略模块和三维深度卷积神经网络训练及其融合，优化损失函数，提取三维肝脏影像的语义信息并分割，具有提高三维肝脏影像语义分割效果的特点，可实现较好的自动化分割效果，并辅助医生进行诊断。

附图说明

图1是本发明实施例方法的流程示意图。

图2是本发明实施例中肝脏预处理前后对比图。

图3是本发明实施例中网络整体架构图。

图4是本发明实施例中上下文注意力策略模块的结构设计图。

图5是本发明的测试集3Dircadb部分分割结果切片展示图。

图6是本发明的测试集3Dircadb部分横断位(Axial)、冠状位(Coronal)、矢状位(Sagittal)预测分割结果和金标准分割结果三维对比图。

具体实施方式

为了便于本领域人员更好的理解本发明，下面结合附图和具体实施例对本发明做进一步详细说明，下述仅是示例性的不限定本发明的保护范围。

术语解释：

1、kaiming：表示神经网络的一种初始化方法。

2、ReLu：表示修正线性单元，是一种激活函数。

3、concatenate：表示特征的拼接。

4、Excitation：表示通道维度的激发过程。

5、Sigmoid：表示卷积神经网络的激活函数，将变量映射到0，1之间。

6、金标准：黄金分割标准，即标签。

本实施例公开了一种基于上下文注意力策略的三维肝脏影像语义分割方法(简称CANet方法)，以在LITS(来自于https://competitions.codalab.org/competitions/17094发布的医学肝脏公共数据集)，3Dircadb(来自于https://www.ircad.fr/research/3dircadb/发布的医学肝脏公共数据集)，Sliver07(来自于https://sliver07.grand-challenge.org/Download/发布的医学肝脏公共数据集)和CHAOS中CT数据(来自于https://chaos.grand-challenge.org/Download/发布的医学肝脏公共数据集)为例子，其中LITS为三维肝脏影像有131个序列，其中28-47序列为3Dircadb数据集，Sliver07和CHAOS数据集为三维肝脏影像全为20个序列，像素都为512×512，本实施例以排除了3Dircadb数据集的LITS数据集为训练集，以3Dircadb，Sliver07和CHAOS数据集为测试集。

如图1所示，本实施例所述的基于上下文注意力策略的三维肝脏影像语义分割方法具体包括如下步骤：

步骤1)数据集划分；

选定进行肝脏分割的医疗影像数据集，将其划分为训练集和测试集。

步骤2)三维肝脏影像预处理，预处理前后肝脏的对比如图2所示；

2.1)将训练集进行调窗处理即把灰度值设置在[-200,250]范围内；

2.2)对训练集进行降采样和重采样，将数据的z轴的spacing调整到1mm；

2.3)找到肝脏区域的开始和结束切片，并在两个方向上向外扩张20个切片；

2.4)对训练集进行三维区域直方图均衡化；

2.5)对训练集进行最小最大归一化操作，最小最大归一化公式如下：

式(1)中，x_max代表图像CT的最大值，x_min代表图像CT的最小值，x为图像的CT值，x^*代表最小最大归一化后的结果；

2.6)为了实现对GPU显存的最大利用，随机选择48个连续的切片作为网络的输入，此时网络的输入尺寸为1×48×256×256。

步骤3)在编码阶段，利用残差结构、卷积网络和空洞卷积得到肝脏的特征图，整体网络架构图如图3所示；

3.1)设置网络初始化参数。这些参数包括：批处理大小，学习率，动量，最大迭代次数，L2权重，学习率衰减策略等；

3.2)使用kaiming正态分布初始化网络权重，常数初始化偏差等参数；

3.3)将预处理后的三维图像输入到卷积神经网络中，通过残差结构和空洞卷积进行训练得到若干特征信息。

3.4)在编码阶段共经过四层卷积，每层卷积由2-3个尺寸为3×3×3的三维卷积构成，倒数第二层加入膨胀率为2和4的空洞卷积，最后一层加入膨胀率为3,4,5的空洞卷积，最终得到肝脏的特征图。

步骤3.3)、3.4)中卷积的输入输出尺寸关系为：

O＝(I-K+2P)/S+1 (2)

式(2)中，I为输入图片(Input)大小，K为卷积核(Filter)大小，S为步长(stride)，P填充(Padding)的像素数为，O代表卷积层输出(Output)的特征图大小；

空洞卷积的计算过程如下：

式(3)中，i代表输入图片(Input)大小，k为卷积核(Filter)大小，p为填充(Padding)的像素数，d代表膨胀率，s为步长(stride)，o代表输出(Output)的特征图大小；

残差结构如下：

x_l+1＝x_l+F(x_l,W_l),F＝W_l*x_l+b_l (4)

式(4)中，x_l代表输入特征，F代表卷积操作，W_l代表卷积中的权重，b_l代表卷积中的偏置。

步骤4)在解码阶段，利用上下文注意力策略模块、转置卷积和深度监督机制得到肝脏的分割图像；

4.1)在解码阶段，将步骤3得到的特征图进行反卷积，公式如下：

o＝s(i-1)-2p+k (5)

式(5)中，o代表输出的尺寸大小，p代表填充的大小，s代表卷积核移动的步长，i代表输入的尺寸大小，k代表卷积核的尺寸大小；

4.2)利用在编码阶段每层最后一次卷积得到的特征与步骤4.1)每层反卷积得到的特征，分别作为上层信息和下层信息来通过跳跃连接中的上下文注意力策略模块得到注意力图；

4.3)在上下文注意力策略模块中，分别有上层特征输入和下层特征输入，首先让上层特征和下层特征分别通过1×1×1的卷积调整通道数，其次对两个特征进行简单的相加融合操作，然后经过上下两条线路，其中上面一条路径融合特征图先经过ReLu激活函数，再经过一个三维卷积对通道维度进行压缩，把channel维降为1，最后利用Sigmoid归一化生成空间注意力系数和上层输入x逐元素相乘，从而有效利用到医疗影像这种三维数据特有的空间信息；下面一条线路则经过3维全局自适应平均池化使特征图在空间维度上进行压缩，得到一个1×1×1×C的数据后再经过两个三维卷积的Excitation过程，接着通过Sigmoid得到通道注意力系数，最后与空间特征图做逐元素相乘就得到了上下文注意力策略图，如图4所示；

步骤4.3)中空间注意力公式如下：

其中式(6)、(7)中，σ₁为Relu函数，ψ^T，W_x，W_g为卷积操作，σ₂为Sigmoid函数，α_i为空间注意力系数，x_i,g_i分别代表输入的上层特征和下层特征；

通道注意力公式如下：

s＝F_ex(z,W)＝σ₂(g(z,W))＝σ₂(W₂σ₁(W₁z)) (9)

其中式(8)为三维全局自适应平均池化过程，u_c代表输入的融合特征向量，H,W,D代表输入的高，宽，深度，因此上式就将H×W×D×C的输入转换成1×1×1×C的输出；式(9)为Excitation过程，其中z为式(8)三维全局自适应平均池化得到的结果，W₁,W₂为卷积操作，σ₁为Relu函数，σ₂为Sigmoid函数，最终得到通道注意力系数s。

4.4)把每一层得到的上下文注意力策略图与同一层经过上采样的decoder层特征进行concatenate，再进行一系列的卷积操作提取特征；

4.5)decoder的每一层的结果都会经过不同尺度的上采样恢复图像尺寸得到一个output，最终会得到4个output，前3个output会作为深度监督机制中的辅助loss，最后的output作为输出的最终的掩码图；

4.6)在迭代训练中的反向传播过程，通过网络预测的输出与真实标签比较计算损失，不断迭代更新网络参数，使得输出结果接近真实值。

步骤4.5)、4.6)中计算损失采用Exponential Logarithmic Dice loss具体公式如下：

L_Dice＝(-ln(d))^γ (11)

式(10)、(11)中，d代表Dice Similarity Coefficient，X,Y分别代表上下文注意力策略网络的分割预测图和金标准分割图，|X∩Y|是X,Y之间的交集，|X|+|Y|分别代表X,Y元素的个数，γ代表超参数，具有提升非线性的作用；

深度监督网络联合损失函数如下：

loss＝(loss1+loss2+loss3)*alpha+loss4 (12)

式(12)中loss1-loss4为decoder每层的损失函数，alpha为深度监督系数。

步骤5)对语义分割后得到的肝脏图像进行后处理，最终在3Dircadb测试集上的分割结果如图5、图6所示。

5.1)对肝脏分割区域进行最大连通域提取；

5.2)移除语义分割的细小区域,并进行分割区域内部的空洞。

采用本发明所述的基于上下文注意力策略的三维肝脏影像语义分割方法(CANet)与3Dircadb的金标准分割结果相比如图5、图6所示，可以看出本发明所述的CANet方法得到的分割结果已经十分接近金标准分割结果。另外，采用本发明所述的基于上下文注意力策略的三维肝脏影像语义分割方法(CANet)在3Dircadb测试集分割结果与现今其他方法分割结果对比如下表1所示，采用本发明所述的基于上下文注意力策略的三维肝脏影像语义分割方法(CANet)在Sliver07和chaos测试集分割结果如下表2所示。

表1本发明方法(CANet)在3Dircadb数据集的分割结果与现今其他方法的分割结果对比(mean±std)

从表1可以看出，在同一数据集上，相比其他六种网络模型，本实施例所述的方法(EANet)有效降低了体积重叠误差(VOE)、体素相对误差(RVD)、对称位置的平均表面距离(ASD)和均方根对称表面距离(RMSD)，且提高了DICE分割精度，得到了较好的分割结果。

表2本发明方法(CANet)在Sliver07和chaos数据集的分割结果(mean±std)

从表2可以看出，本实施例所述的方法(EANet)无需在特定的数据集上进行训练也可以得到较好的分割效果，证明本实施例方法具有较好的泛化能力，对新鲜样本的适应力较好，可较快的辅助医生进行诊断治疗。

以上仅描述了本发明的基本原理和优选实施方式，本领域人员可以根据上述描述做出许多变化和改进，这些变化和改进应该属于本发明的保护范围。

Claims

1.一种基于上下文注意力策略的三维肝脏影像语义分割方法，其特征在于，包括如下步骤：

S2、对所述训练集中的三维肝脏影像进行预处理，并输入编解码网络模型，具体包括：

S24、对训练集中的图像进行三维区域直方图均衡化；

S26、随机选择48个连续的切片作为网络的输入，此时网络的输入尺寸为1×48×256×256；

S3、在编码阶段，利用残差结构、卷积网络和空洞卷积得到肝脏的特征图，具体包括：

S33、将预处理后的三维图像输入到卷积神经网络中，通过残差结构和空洞卷积进行训练得到若干特征信息；其中，在编码阶段共经过四层卷积，每层卷积由2-3个尺寸为3×3×3的三维卷积构成，倒数第二层分别加入膨胀率为2和4的空洞卷积，最后一层分别加入膨胀率为3,4,5的空洞卷积，最终得到肝脏的特征图；卷积的输入输出尺寸关系为：

O＝(I-K+2P)/S+1

空洞卷积的计算过程如下：

其中，i₁代表输入图片大小，k₁为卷积核大小，p1为填充的像素数，d代表膨胀率，s₁为步长，o₁代表输出的特征图大小；

残差结构如下：

x_l+1＝x_l+F(x_l,W_l),F＝W_l*x_l+b_l

其中，x_l代表输入特征，F代表卷积操作，W_l代表卷积中的权重，b_l代表卷积中的偏置；

S4、在解码阶段，利用上下文注意力策略模块、转置卷积和深度监督机制得到肝脏的分割图像，具体包括：

o₂＝s₂(i₂-1)-2p₂+k₂

其中，o₂代表输出的尺寸大小，p₂代表填充的大小，s₂代表卷积核移动的步长，i₂代表输入的尺寸大小，k₂代表卷积核的尺寸大小；

S44、在迭代训练中的反向传播过程，通过网络预测的输出与真实标签比较计算损失，不断迭代更新网络参数，使得输出结果接近真实值；

S5、对语义分割后得到的肝脏图像进行后处理。

2.根据权利要求1所述的基于上下文注意力策略的三维肝脏影像语义分割方法，其特征在于，步骤S42中，空间注意力公式如下：

通道注意力公式如下：

s＝F_ex(z,W)＝σ₂(g(z,W))＝σ₂(W₂σ₁(W₁z))

其中第一个公式为三维全局自适应平均池化过程，u_c代表输入的融合特征向量，H,W,D代表输入的高，宽，深度，因此上式就将H×W×D×C的输入转换成1×1×1×C的输出；第二个公式为Excitation过程，其中z_c为第一个公式三维全局自适应平均池化得到的结果，W₁,W₂为卷积操作，σ₁为Relu函数，σ₂为Sigmoid函数，最终得到通道注意力系数s。

3.根据权利要求1所述的基于上下文注意力策略的三维肝脏影像语义分割方法，其特征在于，步骤S43和S44中计算损失采用Exponential Logarithmic Dice loss具体公式如下：

L_Dice＝(-ln(d))^γDice

深度监督网络联合损失函数如下：

loss＝(loss1+loss2+loss3)*alpha+loss4

其中loss1-loss4为解码每层的损失函数，alpha为深度监督系数。

4.根据权利要求3所述的基于上下文注意力策略的三维肝脏影像语义分割方法，其特征在于，步骤S5具体包括：

S51、对肝脏分割区域进行最大连通域提取；