CN111798462A

CN111798462A - 一种基于ct图像的鼻咽癌放疗靶区自动勾画方法

Info

Publication number: CN111798462A
Application number: CN202010618225.9A
Authority: CN
Inventors: 王国泰; 梅昊陈; 雷文辉; 张少霆
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-20
Anticipated expiration: 2040-06-30
Also published as: CN111798462B

Abstract

本发明公开了一种基于CT图像的鼻咽癌放疗靶区自动勾画方法，属于医学图像分割技术领域，特别是针对于三维医学图像分割中鼻咽癌目标靶区的卷积神经网络自动分割方法。针对基于深度学习的医学图像分割方法存在的问题，提出了一种基于2.5维卷积神经网络与注意力机制相结合的多尺度集成模型。使其对目标靶区进行分割时，对大间距图像有更强的特征学习能力，在分割过程中更加关注目标分割区域从而获更好的分割效果，并通过集成多个尺度下的模型提高分割精度，并根据模型集成结果提供分割结果不确定性评估，以更好辅助医生决策。

Description

一种基于CT图像的鼻咽癌放疗靶区自动勾画方法

技术领域

本发明属于医学图像分割技术领域，特别是针对于三维医学图像分割中鼻咽癌目标靶区的卷积神经网络自动分割方法。

背景技术

鼻咽癌是指发生在鼻咽腔壁上的恶性肿瘤，其发生率在耳，鼻，喉的恶性肿瘤中最高。鼻咽癌经常出现在中国南部，东南亚，中东和北非。鼻咽癌的发现和治疗时间越早，治疗的成功率就越高，放射治疗是鼻咽癌最常用的治疗方法。在进行放疗，需要在医学图像中勾画出目标靶区以避免放疗损伤人体的健康区域。目前，勾画任务通常是由经验丰富的放射科医生通过逐个二维切片来手动勾画完成的，这不仅繁琐而且费时费力。

医学图像中肿瘤放疗靶区的自动分割是一个充满挑战的课题。由于不同软组织之间对比度低、边界模糊、图像存在采样伪影、局部体效应等因素使医学图像中存在许多不确定干扰，所以医学图像分割具有很强的针对性，使得医学图像分割至今都没有统一的标准和普遍适用的规则。

医学图像分割经历了一个由传统的区域增长、边界检测算法发展到活动轮廓模型算法和基于学习的方法等算法的过程。由于医学图像的特殊性，上述算法进行医学图像分割时容易出现欠分割和过分割。近几年来，深度学习技术特别是深度卷积神经网络已经迅速发展成为医学图像分割的重要方法，它能够从医学图像大数据中自动提取有效的特征，通过大量的学习，可以得到较好的分割结果。

对目前已有的深度学习分割模型进行考察发现，尽管这些基于深度学习的自动分割模型在医学图像中对正常器官的分割可以达到较高水平，但对于鼻咽癌的靶区进行准确的自动分割仍然是一项艰巨的任务，目前仍然存在很多困难。这里主要存在着三个问题：第一个问题是目前大多数基于深度学习的鼻咽癌靶区自动分割方法都是在单模态医学图像(如CT图像)上实现的，这意味着在CT图像中鼻咽癌靶区区域与周围的软组织对比度较低。第二，鼻咽癌靶区区域的边界是难以识别的，这导致了即使对于人类专家也很难获得准确的轮廓。而这会导致训练出现偏差。第三，鼻咽癌病变区域在整个头部和颈部CT图像中仅占据很小的区域，这在分割目标和背景之间造成了很大的不平衡。另外，在临床上采取的图像通常有着较高的切片内分辨率和较低的切片间分辨率，这导致相邻切片中目标区域会出现较的大形状变化。这也给分割任务带来了很大的困难。现有的绝大多数形状建模方法都专注于解决上述一个或者两个问题，而同时有效地处理这三个问题具有十分重要的意义。

发明内容

本发明的目的在于克服现有的头颈部鼻咽癌放疗靶区分割算法的不足,针对基于深度学习的医学图像分割方法存在的问题，提出了一种基于2.5维卷积神经网络与注意力机制相结合的多尺度集成模型。使其对目标靶区进行分割时，对大间距图像有更强的特征学习能力，在分割过程中更加关注目标分割区域从而获更好的分割效果，并通过集成多个尺度下的模型提高分割精度，并根据模型集成结果提供分割结果不确定性评估，以更好辅助医生决策。

本发明采用一种新的一种基于2.5维卷积神经网络与注意力机制相结合的多尺度采样集成模型来解决鼻咽癌目标靶区分割中存在的上述难点。具体是通过以下技术方案实现的：首先将原始CT图像通过裁剪变成三种不同尺度的用于输入网络的图片。其次将标准三维卷积与二维卷积结合使用，构建出一个2.5维卷积神经网络作为基础框架。针对需要分割的目标区域，使用两种不同的注意力机制使其相结合来对目标区域重点进行特征学习。最后，将转化裁剪后的图像输入网络中，通过优化器来训练网络优化损失函数。训练完成后，通过对多个模型的集成，在新的测试图像上得到最终的分割结果和相应的分割不确定性信息。

本发明技术方案为一种基于CT图像的鼻咽癌放疗靶区自动勾画方法，其特征在于，该方法采用训练好的2.5维注意力卷积神经网络对输入CT图像进行鼻咽癌放疗靶区的自动勾画；

所述2.5维注意力卷积神经网络由依次级联的编码器、底层卷积模块、解码器结构；

所述编码器由K个依次级联的卷积模块组成，其中相邻的两个卷积模块通过下采样实现分辨率的依次降低，除第一个卷积模块外，每个卷积模块之前都设有一个投影-激发单元；各卷积模块包括两个非线性卷积层，每个非线性卷积层包括：一个线性卷积层、一个批处理归一化层、一个泄漏线性整流单元，其中前L个卷积模块中的卷积核尺寸为1×3×3，其余卷积模块中的卷积核尺寸为3×3×3；

所述底层卷积模块之前还设置有空间注意力单元和投影-激发单元，编码器的输出依次经过空间注意力单元、投影-激发单元后输入底层卷积模块，底层卷积模块依次包括卷积核尺寸为3×3×3的线性卷积层、批处理归一化、泄漏线性整流单元，底层卷积模块通过上采样与解码器连接；

所述解码器也由K个依次级联的卷积模块组成，其中相邻的两个卷积模块通过上采样实现分辨率的依次升高，每个卷积模块之前还设置有空间注意力单元和投影-激发单元，各卷积模块的输入首先依次经过空间注意力单元、投影-激发单元后再输入本卷积模块，各卷积模块包括两个非线性卷积层，每个非线性卷积层包括：一个线性卷积层、一个批处理归一化层、一个泄漏线性整流单元，其中后L个卷积模块中的卷积核尺寸为1×3×3，其余卷积模块中的卷积核尺寸为3×3×3；

同时在网络当中还使用了跳跃连接来提升网络的表现，具体方法为：将解码器中卷积模块的上采样结果与编码器中具有相同分辨率的卷积子模块的输出特征图在通道方向进行拼接，作为解码器中下一个子模块的输入；

解码器的输出通过一个卷积层和的softmax函数输出分割结果，分割结果为图像各像素点为鼻咽癌放疗靶区的概率，称为概率图；

所述空间注意力单元由卷积核大小为1×3×3的两个卷积层组成；第一个卷积层将特征图的通道数减少到一半，然后接着一个ReLU激活函数；第二个卷积层将通道数进一步减少为1，然后通过Sigmoid型激活函数生成空间注意力图；空间注意图是注意力系数α_i∈[0,1]的单通道特征图，它表示每个空间位置的相对重要性；然后，将空间注意图与输入特征图相乘得到输出结果以此实现对目标区域进行重点特征学习；此外，注意力单元中使用了残差连接，以此实现更好的特征融合。

所述投影-激发单元由两部分组成，分别为投影和激发；投影是对每个维度使用平均池化操作，以此保留更多的空间信息；激发是对不同通道的投影之间的相互依赖性进行学习；因此，投影-激发单元能够组合空间和通道上下文信息以进行重新校准。对于投影，令x_c表示输入特征图X的第c个通道，而

分别表示每个维度的平均池化操作的输出；详细定义如下所示：

然后将

中的每一个扩展为输入特征图X的原始形状，即H×W×D×C，H、W、D、C分别表示输入特征图的高度，宽度，长度和通道数；然后将这些扩展的张量相加以获得Z作为激发操作F_ex的输入；激发操作的详细定义如下：

其中F₁和F₂分别表示卷积层，

和

分别表示ReLU函数和Sigmoid激活函数；F₁将通道数减少到C/d，d的值设置为2；然后F₂将通道数恢复为其原始数目；投影-激发单元的最终输出

是通过X和Z逐元素进行相乘得到的，详细定义如下所示：

进一步的，所述2.5维注意力卷积神经网络的训练方法为：

步骤1：建立训练图像数据集；

事先通过对临床数据的收集，将大量病人的三维头颈部CT图像中的鼻咽癌靶区由医院的临床专家手工分割出来作为金标准，建立训练数据集；

步骤2：对图像数据按照局部、中等和全局三种尺度进行采样，获得三种不同尺度下的鼻咽癌分割训练图像；局部采样是在x，y方向上使用基于头部区域的粗糙边界框裁剪图像，在z方向上仅对头部区域进行采样；中等尺度采样是在z方向上从包括头部和颈部在内的区域进行采样；全局采样是对整个图像区域进行采样；

步骤3：采用步骤2得到的训练图像对2.5维注意力卷积神经网络进行训练，直到训练结束。

进一步的，所述2.5维注意力卷积神经网络训练时对局部、中等和全局三种尺度的训练图像分开训练；针对每种尺度的训练图像在训练过程中调整训练的侧重点，每种尺度都得到M个训练结果，最终得到N＝3M个分割模型；实际分割时，对N个模型的输出概率图取平均，得到的平均概率图进行argmax运算以获得初始分割结果；取最大的连通区域进行边界识别，得到最终分割结果。

进一步的，计算最终分割结果的不确定性，计算方法为：

步骤a：设

表示第i个像素的预测标签，预测标签表示是鼻咽癌放疗靶区或不是鼻咽癌放疗靶区，根据该像素点为鼻咽癌放疗靶区的概率和设定的概率阈值确定；通过N个分割模型的预测，获得一系列

的值；令

表示

中第n个值的频率，根据熵信息定义像素级不确定性H：

对于来自不同模型的N个预测样本，令V＝{v₁,v₂,v₃,…,v_n}表示对应预测结果中鼻咽癌放疗靶区体积的集合，其中v_i是第i个模型获得的预测鼻咽癌放疗靶区体积；使用体积变化系数VVC来估计结构方面的不确定性，其定义如下：

其中，σ_v和μ_v分别表示V的标准偏差和平均值。

与现有技术相比，本发明具有以下优点：

(1)能够较好的分割有较高的切片内分辨率和较低的切片间分辨率的CT图像。

(2)对鼻咽癌病变区域这类小目标区域，通过空间注意力单元和投影-激发单元结合对目标区域进行重点特征学习，实现了更鲁棒的分割结果。

(3)利用不同尺度下的特征进行分割，并将其结果进行融合，可实现更鲁棒的分割结果，并根据模型集成结果提供分割结果不确定性评估，以更好辅助医生决策。

附图说明

图1本发明中采用局部、中等和全局三种尺度进行采样的采样结果示意图。

图2本发明的分割结果对比图；图中，(a)为本发明的2.5维网络分割结果；(b)为3DUnet的分割结果；(c)为3D Vnet的分割结果。

图3本发明的加权组合分割结果与其对应不确定性估计图；其中(a)为发明得到的分割结果；(b)为本发明计算出的不确定性估计；

图4本发明的流程图

图5本发明提出的2.5维卷积神经网络结构图。

具体实施方式

结合本发明的内容，提供以下在头颈部CT图像目标靶区分割中实施例，本实施例在CPU为Intel(R)Core(TM)i7-6850K 3.60GHz GPU为Nvidia GTX1080Ti内存为24.0GB的计算机中实现，编程语言为Python。

1、建立如图5所示的2.5维卷积神经网络，

由于CT图像中通常有较高的切片内分辨率和较低的切片间分辨率，为保持卷积神经网络在不同方向上具有相近的物理感受野，本方法将3×3×3卷积与1×3×3卷积结合起来，以此设计2.5维卷积神经网络。整个网络由编码器-解码器的结构组成，编码器由K个卷积模块组成，其中相邻的两个卷积模块通过下采样实现分辨率的依次降低。解码器也由K个卷积模块组成，其中相邻的两个卷积模块通过上采样实现分辨率的依次升高，编码器和解码器之间有一个底层卷积模块。在编码器的前L个卷积模块和解码器中与之具有同样分辨率的后L个卷积模块使用2维卷积(1×3×3)，而在其他卷积模块中使用3维卷积(3×3×3)。每个卷积块包含两个卷积层，然后是批处理归一化(BN)和泄漏线性整流单元(leakyReLU)。除第一个卷积模块外，每个卷积模块之前都有一个投影-激发(PE)单元。在底层卷积模块和解码器的每一个卷积模块中，使用空间注意力单元，放置在该模块中的PE单元之前，以此来捕获较小鼻咽癌靶区区域的空间信息。同时在网络当中还使用了跳跃连接来提升网络的表现，具体来说将解码器中卷积模块的上采样结果与编码器中具有相同分辨率的卷积子模块的输出特征图在通道方向上进行拼接，作为解码器中下一个子模块的输入。

解码器的输出通过一个卷积层和的softmax函数来提供预测的分割概率图。

2、空间注意力单元和投影-激发(PE)单元分别采用如下技术方案；

空间注意力单元：由卷积核大小为1×3×3的两个卷积层组成。第一个卷积层将特征图的通道数减少到一半，然后接着一个ReLU激活函数。第二个卷积层将通道数进一步减少为1，然后通过Sigmoid型激活函数生成空间注意力图。空间注意图是注意力系数α_i∈[0,1]的单通道特征图，它表示每个空间位置的相对重要性。然后，将空间注意图与输入特征图相乘得到输出结果以此实现对目标区域进行重点特征学习。此外，注意力单元中使用了残差连接，以此实现更好的特征融合。

投影-激发单元：“Project&Excite”(PE)单元由两部分组成，包括投影和激发操作。投影对每个维度使用平均池化操作，以此保留更多的空间信息。激发学习不同通道的投影之间的相互依赖性。因此，PE单元能够组合空间和通道上下文信息以进行重新校准。对于投影，令x_c表示输入特征图X的第c个通道，而

分别表示每个维度的平均池化操作的输出。详细定义如下所示：

然后将

中的每一个扩展为输入特征图X的原始形状，即H×W×D×C。然后将这些扩展的张量相加以获得Z作为激发操作F_ex的输入。激发操作的详细定义如下：

其中F₁和F₂分别表示卷积层，

和

分别表示ReLU函数和Sigmoid激活函数。F₁将通道数减少到C/d。然后F₂将通道数恢复为其原始数目。PE模块的最终输出X是通过X和Z逐元素进行相乘得到的，它们表示F_ex的输出。详细定义如下所示：

3、多尺度采样方法为如下技术方案；

在训练过程中，通过局部、中等和全局三种尺度的裁剪，以获得用于卷积神经网络训练的不同尺度的图片，实现多尺度采样，如图1所示。局部采样中，在x，y方向上使用基于头部区域的粗糙边界框裁剪图像，在z方向上仅对头部区域进行采样。中等尺度采样策略在z方向上从包括头部和颈部在内的更大一些的区域进行采样。对于全局采样策略，从整个图像区域中进行采样。在训练过程中，我们使用这三种采样策略分别训练得到三个分割模型。由于采用了不同的采样策略，因此这些模型能够利用不同尺度下的特征进行分割，并将它们的结果融合起来，以此实现更鲁棒的分割结果。

4、模型集成与不确定性估计的方法为如下技术方案；

为获得更加鲁棒的结果并同时得到分割结果的不确定性，本发明中对使用不同采样策略的分割模型进行了组合。由于不同分割模型在采用不同采样策略所侧重学习的特征会有所差异，因此本发明针对不同采样策略的多个模型预测结果使用加权平均得到最终结果。具体而言，对于每种采样策略，分别训练M个模型，共获得N＝3M个分割模型。然后，对N个模型的输出概率图取平均，得到的平均概率图进行argmax运算以获得初始分割结果。最后，取最大的连通区域进行后处理，以得到最终的分割结果，从而减少假阳性区域。

从N个模型的预测结果中，本发明提出的计算分割结果的不确定性的方法如下：

假设

表示第i个像素的预测标签。通过多个模型预测，可以获得一系列

的值。令

表示

中第n个值的频率。根据熵信息可以近似定义像素级不确定性：

对于来自不同模型的n个预测样本，令V＝{v₁,v₂,v₃,…,v_n}表示这几个预测结果的体积的集合，其中v_i是第i个模型获得的体积。假设σ_v和μ_v分别表示V的标准偏差和平均值。本发明使用体积变化系数(VVC)来估计结构方面的不确定性，其定义如下：

图3展示了一例病人经模型组合后得到的最终分割结果与对应不确定性估计图。

本实施例的实施流程如图4所示。

1、首先对原始头颈部CT图像进行多尺度裁剪，通过裁剪得到三种不同尺度的图片作为神经网络的输入以此来实现多尺度下的采样。

2、利用Pytorch(一个机器学习库)搭建2.5维卷积神经网络以及相应的注意力单元和投影-激发单元，使用上述三种裁剪策略得到的图像分别对网络进行训练，训练过程使用Adam优化器反向优化网络参数。对训练集数据循环训练，直至网络收敛。对于每种采样策略，训练2个模型，最后获得6个分割模型。

3、对于整个预测过程，使用上述6个训练模型分别对输入图像进行预测得到结果，再通过本发明提出的模型集成与不确定性估计方法，最终可以计算得到预测结果和与之对应的不确定性分布图。

如图2是上述方法对一个病人头颈部CT图像采用分离卷积网络与难区域加权得到的分割结果与其他方法的对比图，图中黄色曲线代表目标靶区的金标准。其中(a)是使用本发明提出方法得到的分割结果，对于头颈部目标靶区本发明中方法可以较准确的勾画出边界。(b)与(c)分别是使用3D Unet和3D Vnet网络训练然后分割得到的分割结果，可以看到本发明提出方法不仅在目标靶区的边界分割上更加精确，同时也产生了更少的假阳性区域。

Claims

1.一种基于CT图像的鼻咽癌放疗靶区自动勾画方法，其特征在于，该方法采用训练好的2.5维注意力卷积神经网络对输入CT图像进行鼻咽癌放疗靶区的自动勾画；

所述空间注意力单元由卷积核大小为1×3×3的两个卷积层组成；第一个卷积层将特征图的通道数减少到一半，然后接着一个ReLU激活函数；第二个卷积层将通道数进一步减少为1，然后通过Sigmoid型激活函数生成空间注意力图；然后，将空间注意图与输入特征图相乘得到输出结果以此实现对目标区域进行重点特征学习；

所述投影-激发单元由两部分组成，分别为投影和激发；投影是对每个维度使用平均池化操作，以此保留更多的空间信息；激发是对不同通道的投影之间的相互依赖性进行学习；对于投影，令x_c表示输入特征图X的第c个通道，而z_hc,z_dc,z_dc分别表示每个维度的平均池化操作的输出；详细定义如下所示：

然后将

其中F₁和F₂分别表示卷积层，

和

是通过X和Z逐元素进行相乘得到的，详细定义如下所示：

2.如权利要求1所述的一种基于CT图像的鼻咽癌放疗靶区自动勾画方法，其特征在于，所述2.5维注意力卷积神经网络的训练方法为：

步骤1：建立训练图像数据集；

3.如权利要求1所述的一种基于CT图像的鼻咽癌放疗靶区自动勾画方法，其特征在于，计算最终分割结果的不确定性，计算方法为：

步骤a：设

的值；令

表示

中第n个值的频率，根据熵信息定义像素级不确定性H：

对于来自不同模型的N个预测样本，令V＝*v₁,v₂,v₃,…,v_n+表示对应预测结果中鼻咽癌放疗靶区体积的集合，其中v_i是第i个模型获得的预测鼻咽癌放疗靶区体积；使用体积变化系数VVC来估计结构方面的不确定性，其定义如下：

其中，σ_v和μ_v分别表示V的标准偏差和平均值。

4.如权利要求2所述的一种基于CT图像的鼻咽癌放疗靶区自动勾画方法，其特征在于，所述2.5维注意力卷积神经网络训练时对局部、中等和全局三种尺度的训练图像分开训练；针对每种尺度的训练图像在训练过程中调整训练的侧重点，每种尺度都得到M个训练结果，最终得到N＝3M个分割模型；实际分割时，对N个模型的输出概率图取平均，得到的平均概率图进行argmax运算以获得初始分割结果；取最大的连通区域进行边界识别，得到最终分割结果。