CN113850818A

CN113850818A - 一种混合2d和3d卷积神经网络的耳部ct影像前庭分割方法

Info

Publication number: CN113850818A
Application number: CN202110992746.5A
Authority: CN
Inventors: 卓力; 冯睿琦; 张瑞聪; 陈美娟; 李晓光
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-12-28

Abstract

本发明公开了一种混合2D和3D卷积神经网络的耳部CT影像前庭分割方法，包括构建数据集、基于多种深度特征融合策略的2DCNN分割网络设计以及3DDenseUNet分割网络设计三个步骤。2D网络采用编码器‑解码器结构作为主干网络提取耳部CT影像的前庭特征；然后整合DenseNet‑BC和U‑Net网络架构，搭建一个3DDenseUNet网络，融合低层空间信息和高层语义信息，最终实现前庭的精准分割。针对前庭结构设计的分割网络可以获得比通用的分割方法更优的分割性能，提高放射科医护人员的工作效率和质量。本发明能够准确进行耳部关键结构的自动分割，帮助医生完成大量重复性的工作，有效地减轻医生的负担。

Description

一种混合2D和3D卷积神经网络的耳部CT影像前庭分割方法

技术领域

本发明属于计算机视觉和医学影像处理领域，具体涉及计算机图像处理、深度学习、耳部CT影像诊断等。

背景技术

耳部结构形态特异，结构精密,功能复杂，且大部分结构位于颞骨内。颞骨分为内耳、中耳和外耳三部分，主要包括锤骨、砧骨、镫骨、耳蜗外壁、耳蜗内腔、前庭、前半规管、外半规管、后半规管、内听道、颈静脉球窝等30多个器官。

前庭是内耳的重要器官之一，位于耳蜗和半规管之间，在CT影像上呈不规则椭圆形腔，是人体对自身运动状态和头在空间位置的感受器。前庭异常是最常见的内耳疾病，前庭的准确分割是耳部解剖结构定量分析的基础，可以帮助医生诊断异常，治疗规划。

目前，基于深度学习的图像语义分割和目标检测已经取得了显著进展，但是将其应用于人耳CT影像的前庭分割时面临着以下问题：

(1)前庭位于耳蜗和半规管之间，结构细小而精密，体素点极少，在耳部颞骨CT序列中包含6～9层，单层CT影像仅有十几个体素点。前庭与耳蜗、半规管之间的边界不明显，并且存在不同层面多尺度变化、空间位置变化剧烈的问题。将现有的基于深度学习的图像语义分割方法应用于人耳前庭结构的分割任务时，效果并不理想，通常会出现过拟合问题，使得分割准确度较低。

(2)现有的医学影像分割方法大部分都是采用二维卷积神经网络(2D CNN) 的研究方案，但是耳部CT影像数据是三维的。2D CNN的方法是将三维体切分为多个二维切片后送入网络进行训练，该方法复杂度低且容易训练，但不能很好的利用切片之间的上下文语义信息，从而导致分割性能难以提升。3D CNN的方法虽然可以利用切片之间的相关性，但是对计算资源需求庞大，并且难以训练。所以如何充分发挥二者的优势是需要重点解决的问题。

(3)由于样本数据采集困难，标注门槛过高等客观原因，导致标注样本数据在数量和质量上均十分匮乏缺乏。深度神经网络需要大规模的数据样本进行训练才能获得优异的性能，标注样本的缺乏和类别不均衡问题给前庭的分割带来了很大的技术挑战。

本发明针对人耳前庭的具体结构特点，提出了一种混合2D和3D卷积神经网络的耳部CT影像前庭分割方法。为减轻3D网络的优化负担，本发明首先设计一个2D CNN对前庭结构进行较为精准的分割。然后利用2D CNN训练得到的模型参数，训练3D网络，输出分割结果。采用这种网络结构，不仅可以利用切片内的语义信息，还能很好的利用切片之间的上下文语义信息，充分发挥两种网络结构的优势，得到更为精准的前庭分割结果。

发明内容

本发明的目的是提出一种耳部CT影像前庭分割方法，采用深度卷积神经网络架构学习耳部CT影像片内以及切片之间的语义信息，实现耳部前庭结构的精准分割。

为了达到上述目标，本发明提出了如下技术方案：首先，2D网络采用编码器-解码器结构作为主干网络提取耳部CT影像的前庭特征；然后整合 DenseNet-BC和U-Net网络架构，搭建一个3D DenseUNet网络，融合低层空间信息和高层语义信息，最终实现前庭的精准分割。

该方案包括构建数据集、基于多种深度特征融合策略的2D CNN分割网络设计以及3D DenseUNet分割网络设计等三个步骤。下面详细介绍每一个步骤。

步骤1：构建数据集

由于目前国内外尚无用于前庭分割的数据集，需要自建前庭分割数据集，用于进行网络的训练。本发明自建了数据集VestibuleDataSet。其中的数据样本通过临床收集，包含102例、共714张正常前庭CT影像。

步骤2：基于多种深度特征融合策略的2D CNN分割网络设计

针对前庭边界不清晰的结构特点，本发明采用编码器-解码器的基本架构，设计了2D前庭分割网络。通过连接和级联的方式进行编码器和解码器的特征融合，有效地将浅层的粗略边缘定位信息与深层的细节像素分割信息融合。

同时针对前庭不同层面多尺度变化的问题，在编解码器的连接处和跳跃连接中加入空洞空间卷积池化金字塔(ASPP)，通过采用多个不同采样率的空洞卷积提取不同感受野的特征，可以准确挖掘到前庭不同形状和大小的信息，实现更加准确的前庭分割。

步骤3：3D DenseUNet分割网络设计

由于前庭具有体素点少、边界不明显的特点，所以本发明基于U-Net网络架构设计了3D CNN，并且在3D CNN的编码器中采用了DenseNet网络结构。 DenseNet中密集连接的方式保证了每一层的输入都是先前所有层的输出，这样的连接方式加强了信息的传递，可以最大限度地利用不同尺度的信息，更好地提取前庭的3D特征。

与现有技术相比，本发明具有重要的理论研究意义和应用价值：

1、分割准确性高。由于医学影像具有不同于自然图像的独有特性，且前庭结构细小而精密，边界不明显。所以针对前庭结构设计的分割网络可以获得比通用的分割方法更优的分割性能。

2、大大提高放射科医护人员的工作效率和质量。耳部颞骨结构复杂，包含 30多个器官，医生查看一套颞骨CT影像需要20分钟以上，且需要反复观看确认。本发明能够准确进行耳部关键结构的自动分割，帮助医生完成大量重复性的工作，有效地减轻医生的负担。

附图说明

图1：2D CNN分割网络结构图。

图2：3D CNN分割网络结构图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

一种混合2D和3D卷积神经网络的耳部CT影像前庭分割方法，该方法的实施过程如下：

步骤1：构建数据集

本发明使用的数据集被分为三部分，包括训练集82例共570张CT影像、验证集10例共72张CT影像和测试集10例共72张CT影像。由具有丰富临床经验的放射科医师对数据进行标注，所有的CT影像均进行了前庭的体素级标注。

在本发明中，只是使用了轴位的影像。因此对耳部颞骨螺旋CT扫描图像进行多平面重建和标准化操作，使成像参数在一定范围内保持一致。所有采集的 CT影像通过采用Phillips 64排螺旋CT扫描仪对颞骨CT横断面进行螺旋扫描得到。

步骤2：基于多种深度特征融合策略的2D CNN分割网络设计

本发明以编码器-解码器网络为基础架构，设计了前庭分割2D网络，其结构如图1所示。

具体来说：

(1)为了更好的提取深度特征，本发明在下采样和上采样过程中分别采用了5层Block；

(2)Downblock由Conv层、SEblock层、BatchNorm层、Relu层和Pooling 层组成，并且在Downblock1中采用了最大池化(Maxpooling)，而在Downblcok2、 Downblcok3和Downblcok4中采用了平均池化(Averagepooling)。因为在网络的浅层包含更多的无用信息，使用Maxpooling能够更好地保留边界特征信息，减少无用信息。在网络的深层更关注高级语义信息，使用Averagepooling能够保留目标周围的背景信息；

(3)编解码器的连接采用级联操作，将底层空间信息与高层语义信息进行融合，提高分割精度。

步骤3：3D DenseUNet分割网络设计

针对前庭的具体结构特点，本发明在设计3D CNN时，通过整合DenseNet-BC 和U-Net网络架构，搭建了3D DenseUNet网络，其网络结构如图2所示。

尽管Denseblock每层的输出具有固定的通道数，但是它的输入通道数很大，因此在3×3的卷积层之前使用1×1的卷积层来减少参数的数量，从而提高计算效率，该网络结构称为DenseNet-B。为了降低特征图的数量和实现下采样，在Denseblock之间加入转换层(Transition Layers)，转换层包括Conv层和平均池化层(Averagepooling)，这样的网络结构称为DenseNet-C。将这两种网络结构进行结合并称其为DenseNet-BC。由于3D卷积的高内存消耗和GPU内存的限制，本发明在DenseNet-121的基础上，将每个Denseblock中卷积层的数量缩减为原来的一半，并且设置生长速率K为32。

步骤3.1：3D DenseUNet分割网络的训练

为了减轻3D CNN的优化负担，通过加入2D CNN产生的语义信息来指导 3D CNN的训练。首先训练2D CNN部分，整个训练过程的参数采用随机初始化方法。然后将2D CNN的输出8×224×224×2转换为224×224×8的3D图像，并与原始224×224×8的3D图像通过连接操作进行融合。接着将融合后的图像送入 3D DenseUNet，通过固定2D CNN训练得到的模型参数，训练3D CNN部分，参数也是采用随机初始化方法，最终输出224×224×8的分割结果。

本发明针对前庭的具体结构特点和分割需求，设计了一种混合2D和3D卷积神经网络的前庭分割方法。相比于传统的分割方法，该方法有效融合了两种结构的优势，可以实现耳部前庭结构的准确分割。

Claims

1.一种混合2D和3D卷积神经网络的耳部CT影像前庭分割方法，其特征在在于：2D网络采用编码器-解码器结构作为主干网络提取耳部CT影像的前庭特征；然后整合DenseNet-BC和U-Net网络架构，搭建一个3D DenseUNet网络，融合低层空间信息和高层语义信息，最终实现前庭的精准分割。

该方案包括构建数据集、基于多种深度特征融合策略的2D CNN分割网络设计以及3DDenseUNet分割网络设计三个步骤。

步骤1：构建数据集；

自建前庭分割数据集，用于进行网络的训练。本发明自建了数据集VestibuleDataSet。其中的数据样本通过临床收集，包含102例、共714张正常前庭CT影像。

步骤2：基于多种深度特征融合策略的2D CNN分割网络设计；

采用编码器-解码器的基本架构，设计了2D前庭分割网络。通过连接和级联的方式进行编码器和解码器的特征融合，将浅层的粗略边缘定位信息与深层的细节像素分割信息融合。

在编解码器的连接处和跳跃连接中加入空洞空间卷积池化金字塔ASPP，通过采用多个不同采样率的空洞卷积提取不同感受野的特征，准确挖掘到前庭不同形状和大小的信息，实现更加准确的前庭分割。

步骤3：3D DenseUNet分割网络设计；

基于U-Net网络架构设计了3D CNN，并且在3D CNN的编码器中采用DenseNet网络结构。DenseNet中密集连接的方式保证了每一层的输入都是先前所有层的输出；利用不同尺度的信息提取前庭的3D特征。

2.根据权利要求1所述的一种混合2D和3D卷积神经网络的耳部CT影像前庭分割方法，其特征在在于：步骤2的实施过程如下：

(1)在下采样和上采样过程中分别采用了5层Block；

(2)Downblock由Conv层、SEblock层、BatchNorm层、Relu层和Pooling层组成，并且在Downblock1中采用了最大池化(Maxpooling)，而在Downblcok2、Downblcok3和Downblcok4中采用了平均池化(Averagepooling)。因为在网络的浅层包含更多的无用信息，使用Maxpooling能够更好地保留边界特征信息，减少无用信息。在网络的深层更关注高级语义信息，使用Averagepooling能够保留目标周围的背景信息；

3.根据权利要求1所述的一种混合2D和3D卷积神经网络的耳部CT影像前庭分割方法，其特征在在于：步骤3的实施过程如下：

针对前庭的具体结构特点，在设计3D CNN时，通过整合DenseNet-BC和U-Net网络架构，搭建了3D DenseUNet网络。

在3×3的卷积层之前使用1×1的卷积层来减少参数的数量，提高计算效率，该网络结构称为DenseNet-B。为了降低特征图的数量和实现下采样，在Denseblock之间加入转换层Transition Layers，转换层包括Conv层和平均池化层Averagepooling，这样的网络结构称为DenseNet-C。将这两种网络结构进行结合并称其为DenseNet-BC。由于3D卷积的高内存消耗和GPU内存的限制，在DenseNet-121的基础上，将每个Denseblock中卷积层的数量缩减为原来的一半，并且设置生长速率K为32。

步骤3.1：3D DenseUNet分割网络的训练

为了减轻3D CNN的优化负担，通过加入2D CNN产生的语义信息来指导3D CNN的训练。首先训练2D CNN部分，整个训练过程的参数采用随机初始化方法。然后将2D CNN的输出8×224×224×2转换为224×224×8的3D图像，并与原始224×224×8的3D图像通过连接操作进行融合。接着将融合后的图像送入3D DenseUNet，通过固定2D CNN训练得到的模型参数，训练3D CNN部分，参数也是采用随机初始化方法，最终输出224×224×8的分割结果。