CN113706542A

CN113706542A - 基于卷积神经网络及混合损失函数的眼球分割方法及装置

Info

Publication number: CN113706542A
Application number: CN202110796207.4A
Authority: CN
Inventors: 吴文灿; 杨健; 施节亮; 涂云海; 范敬凡; 宋红; 艾丹妮
Original assignee: Beijing Institute of Technology BIT; Eye Hospital of Wenzhou Medical University
Current assignee: Beijing Institute of Technology BIT; Eye Hospital of Wenzhou Medical University
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-26

Abstract

基于卷积神经网络及混合损失函数的眼球分割方法与装置，能够提升CT影像中眼球的分割精度。方法包括：(1)在数据集制作阶段，通过手动标注绘制眼球分割金标准，并对原始三维CT影像数据进行取二维切片、降采样和标准化的预处理操作，然后将数据集整体分为训练集、验证集和测试集三部分用于网络的训练和测试；(2)在网络训练阶段，搭建由粗分割模块和U形残差微调模块级联的卷积神经网络模型，并利用由交叉熵、交并比和结构相似性测度构成的混合损失函数对网络分割结果进行多层级的监督优化；(3)在测试阶段，将测试数据集送入训练得到的最优分割模型中进行分割，并将输出结果还原为三维数据，得到最终的眼球分割结果。

Description

基于卷积神经网络及混合损失函数的眼球分割方法及装置

技术领域

本发明涉及医用图像处理的技术领域，尤其涉及一种基于卷积神经网络及混合损失函数的眼球分割方法，以及基于卷积神经网络及混合损失函数的眼球分割装置。

背景技术

在头部CT影像中，眼球位置和形态相对固定，但边缘模糊，与周围其他组织粘连，占影像整体比例较小，这些特点对CT影像中眼球的自动分割造成了困难。精确的眼球分割能够帮助医生确定眼球位置、测量眼球半径、体积等，在辅助诊断、术前规划、术中导航以及术后治疗效果评估中都发挥了重要作用。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种基于卷积神经网络及混合损失函数的眼球分割方法，其能够提升CT影像中眼球的分割精度，在辅助诊断、术前规划、术中导航以及术后治疗效果评估中都发挥重要作用。

本发明的技术方案是：这种基于卷积神经网络及混合损失函数的眼球分割方法，其包括以下步骤：

(1)在数据集制作阶段，通过手动标注绘制眼球分割金标准，并对原始三维CT影像数据进行取二维切片、降采样和标准化的预处理操作，然后将数据集整体分为训练集、验证集和测试集三部分用于网络的训练和测试；

(2)在网络训练阶段，搭建由粗分割模块和U形残差微调模块级联的卷积神经网络模型，并利用由交叉熵、交并比和结构相似性测度构成的混合损失函数对网络分割结果进行多层级的监督优化；

(3)在测试阶段，将测试数据集送入训练得到的最优分割模型中进行分割，并将输出结果还原为三维数据，得到最终的眼球分割结果。

本发明通过在由U-Net构成的粗分割模块后级联U形残差微调模块增强网络对眼球细节特征的提取，另外采用由交叉熵、交并比和结构相似性测度三种损失函数构成的混合损失函数监督网络训练过程，从而提升CT影像中眼球的分割精度，在辅助诊断、术前规划、术中导航以及术后治疗效果评估中都发挥重要作用。

还提供了基于卷积神经网络及混合损失函数的眼球分割装置，其包括：

数据集制作模块，其配置来通过手动标注绘制眼球分割金标准，并对原始三维CT影像数据进行取二维切片、降采样和标准化的预处理操作，然后将数据集整体分为训练集、验证集和测试集三部分用于网络的训练和测试；

网络训练模块，其配置来搭建由粗分割模块和U形残差微调模块级联的卷积神经网络模型，并利用由交叉熵、交并比和结构相似性测度构成的混合损失函数对网络分割结果进行多层级的监督优化；

测试模块，其配置将测试数据集送入训练得到的最优分割模型中进行分割，并将输出结果还原为三维数据，得到最终的眼球分割结果。

附图说明

图1是根据本发明的基于卷积神经网络及混合损失函数的眼球分割方法的流程图。

具体实施方式

如图1所示，这种基于卷积神经网络及混合损失函数的眼球分割方法，其包括以下步骤：

优选地，所述步骤(2)中，粗分割模块采用U-Net网络结构，其包括：

编码器由两个卷积层和一个最大池化层重复构成，其中卷积层包含3×3大小的卷积核和非线性激活函数，最大池化层步长为2，每次池化使图像尺寸缩小一半，池化层后的卷积层使特征通道数加倍；

解码器由两个卷积层和一个反卷积层重复构成，解码器和编码器的卷积层结构相同，反卷积层采用上采样操作，每次将图像尺寸扩大一倍；

U-Net采用特征拼接的方式融合相同维度的图像特征，通过特征拼接操作将同等深度的编码器和解码器特征图在通道维度融合；跳跃连接层将编码器和解码器对应深度的特征图在通道维度拼接在一起，输出通道数加倍的特征图，并在解码器进行后续操作。

优选地，所述步骤(2)中，粗分割模块使用深度为4的U-Net网络结构，编码阶段每层由两个基础卷积块构成，每个基础卷积块包含具有3×3大小卷积核的卷积层、批标准化层和线性整流函数；网络模型每层通过两个基础卷积块提取影像特征后，利用最大池化使特征图尺寸缩小一半，增大感受野；在网络的最底层添加一个残差卷积块；解码阶段与编码阶段结构相同，每层包含两个基础卷积块，采用跳跃连接操作拼接编码器和解码器同一深度的特征图，通过双线性插值上采样使图像尺寸加倍，得到与输入图像大小相同的特征图；在解码器后，通过1×1的卷积层将多个通道的信息融合，输出通道数为类别数的特征图。

优选地，所述步骤(2)中，U形残差微调模块采用深度为4的编码器-解码器结构，微调模块编码器和解码器中每层只包含一个具有64通道的基础卷积块，该基础卷积块结构与粗分割模块的基础卷积块结构相同；编码器采用最大池化缩小图像尺寸，增大感受野，解码器采用双线性插值上采样逐层恢复图像尺寸；编码阶段和解码阶段同一深度的特征图通过特征拼接操作合并图像浅层和深层特征；解码器恢复特征图尺寸至输入影像大小时，通过3×3的卷积层融合通道信息，得到通道数为类别数的特征图；将微调模块解码器输出的特征图与粗分割模块输出的特征图相加，构成残差结构，使网络学习粗分割模块分割结果和微调模块分割结果的残差；最后通过softmax激活函数将网络输出特征图转化为概率分布图，概率分布图中每个像素值对应属于眼球或背景的概率。

优选地，所述步骤(2)中，神经网络模型通过前向传播提取输入影像特征，输出影像中对应像素的预测值，利用损失函数估计网络预测值与真实值之间的差异；然后对损失函数求导，通过反向传播梯度下降优化神经网络参数，前向和反向传播迭代进行，直到到达损失函数的极值点，以网络模型此时的参数作为最优权重参数。

优选地，所述步骤(2)中，用SSIM作为训练时损失函数的一部分，以学习金标准中的结构性信息，SSIM的定义如下：

其中，x＝{x_j:j＝1,…,N²}，y＝{y_j:j＝1,…,N²}分别是从金标准G(x,y)和网络预测分割结果P(x,y)裁剪出的N×N大小的图像块中对应各点的像素值，μ_x，μ_y分别为x,y的均值，σ_x，σ_x分别是x，y的标准差，σ_xy是x,y的协方差。

优选地，将超参数C₁和C₂分别设置为C₁＝0.01²，C₂＝0.03²。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。因此，与本发明的方法相对应的，本发明还同时包括一种基于卷积神经网络及混合损失函数的眼球分割装置。该装置包括：

以下更详细地说明本发明。

本方法分为数据集制作、网络训练和网络测试三个阶段。在数据集制作阶段通过手动标注绘制眼球分割金标准，并对原始三维CT影像数据进行取二维切片、降采样和标准化的预处理操作，然后将数据集整体分为训练集、验证集和测试集三部分用于网络的训练和测试。在网络训练阶段，搭建由粗分割模块和U形残差微调模块级联的卷积神经网络模型，并利用由交叉熵、交并比和结构相似性测度构成的混合损失函数对网络分割结果进行多层级的监督优化。在测试阶段，将测试数据集送入训练得到的最优分割模型中进行分割，并将输出结果还原为三维数据，得到最终的眼球分割结果。

一、级联U形卷积神经网络模型

本文所用网络模型包含粗分割模块和微调模块两部分，粗分割模块采用U-Net作为主干网络，微调模块采用形似U-Net的U形残差结构，训练中通过混合损失函数共同监督两个模块输出的预测结果。

1、粗分割模块

提出的网络模型中的粗分割模块采用U-Net网络结构。U-Net是Ronneberger提出的由对称的编码器-解码器构成的神经网络模型。编码器由两个卷积层和一个最大池化层重复构成，其中卷积层包含3×3大小的卷积核和非线性激活函数，最大池化层步长为2，每次池化使图像尺寸缩小一半，池化层后的卷积层使特征通道数加倍。编码器利用卷积层提取图像特征信息，利用最大池化层对图像降采样，减少输入特征图的空间尺度，增大感受野。解码器由两个卷积层和一个反卷积层重复构成，解码器和编码器的卷积层结构相同，反卷积层采用上采样操作，每次将图像尺寸扩大一倍。解码器进一步提取图像特征，并恢复图像尺寸，得到原始输入图像的像素级分割结果。U-Net采用特征拼接的方式融合相同维度的图像特征。由于U-Net的编码器-解码器结构对称，深度相同的编码器和解码器特征图尺寸相同，因此通过特征拼接操作将同等深度的编码器和解码器特征图在通道维度融合，以更好的保留编码器中的浅层特征。跳跃连接层将编码器和解码器对应深度的特征图在通道维度拼接在一起，输出通道数加倍的特征图，并在解码器进行后续操作。

CT影像中的低层特征包含边缘和纹理等局部信息，有利于恢复眼球的细节，但不能反映眼球整体形状。高层特征的感受野更大，提供包含位置在内的高层语义信息，有助于网络预测眼球整体结构和位置。U-Net网络结构的特征拼接操作能够融合CT影像中的高层全局特征和低层局部细节特征，因此采用U-Net模型作为本章网络模型的粗分割模块，并在网络的最底层引入残差结构，避免出现梯度消失导致网络无法学习的情况。

网络模型的粗分割模块使用深度为4的U-Net网络结构，编码阶段每层由两个基础卷积块构成，每个基础卷积块包含具有3×3大小卷积核的卷积层、批标准化层(BatchNormalization，BN)和线性整流函数(Rectified Linear Unit，ReLU)。网络模型每层通过两个基础卷积块提取影像特征后，利用最大池化使特征图尺寸缩小一半，增大感受野。在网络的最底层添加一个残差卷积块，残差卷积块采用He等人提出的残差结构，以应对深层网络梯度消失问题。解码阶段与编码阶段结构相同，每层包含两个基础卷积块，采用跳跃连接操作拼接编码器和解码器同一深度的特征图，通过双线性插值上采样使图像尺寸加倍，得到与输入图像大小相同的特征图。在解码器后，通过1×1的卷积层将多个通道的信息融合，输出通道数为类别数的特征图。

2、微调模块

单独采用粗分割模块进行眼球分割时，输出的分割结果在眼球边缘处不准确，且在非眼球区域会产生假阳性分割结果。受到显著性检测方法的启发，本方法在粗分割模块后级联结构与U-Net相似但加以简化的U形微调模块，优化粗分割模块输出，进一步修正眼球分割结果。

在显著性检测任务中，为获取精细的结构和更准确的边界，研究者们提出了很多微调策略。其中，单层残差微调模块通常采用卷积或空洞卷积块提取粗分割模块输出的特征，通过残差连接学习网络预测结果和金标准的残差，对粗分割结果进行优化。然而由于单层残差微调模块只在与输入图像相同的尺度上提取特征，且卷积层数较少，只能提取浅层图像特征，无法提取深层语义特征。为解决这一问题，本发明采用简化的多尺度U形微调模块对粗分割模块的分割结果进行优化。

与粗分割模块相同，微调模块也采用深度为4的编码器-解码器结构。微调模块编码器和解码器中每层只包含一个具有64通道的基础卷积块，该基础卷积块结构与粗分割模块的基础卷积块结构相同。编码器采用最大池化缩小图像尺寸，增大感受野，解码器采用双线性插值上采样逐层恢复图像尺寸。编码阶段和解码阶段同一深度的特征图通过特征拼接操作合并图像浅层和深层特征。解码器恢复特征图尺寸至输入影像大小时，通过3×3的卷积层融合通道信息，得到通道数为类别数的特征图。将微调模块解码器输出的特征图与粗分割模块输出的特征图相加，构成残差结构，使网络学习粗分割模块分割结果和微调模块分割结果的残差。最后通过softmax激活函数将网络输出特征图转化为概率分布图，概率分布图中每个像素值对应属于眼球或背景的概率。

3、混合损失函数

在训练阶段，神经网络模型通过前向传播提取输入影像特征，输出影像中对应像素的预测值，利用损失函数估计网络预测值与真实值之间的差异。然后对损失函数求导，通过反向传播梯度下降优化神经网络参数，前向和反向传播迭代进行，直到到达损失函数的极值点，以网络模型此时的参数作为最优权重参数。综上所述，训练中通过对损失函数的不断优化得到最佳网络预测模型，因此，损失函数的定义直接影响了网络模型的训练效果。

眼球分割模型由粗分割模块和微调模块的输出共同监督，采用的损失函数定义为：

其中，l^(k)为粗分割模块(k＝1)和微调模块(k＝2)对应的损失函数。

神经网络中常用的损失函数通常只在单一层级上对网络进行监督，为保持眼球结构完整性，得到更高的分割精度，本章采用由交叉熵(Cross Entropy，CE)、交并比(Intersection over Union，IoU)和结构相似性测度(Structural SIMilarity，SSIM)构成的混合损失函数从多个层面共同对网络训练过程进行监督优化。在本设计的混合损失函数中，利用CE损失函数为所有像素保持平滑的渐变，IoU损失函数关注网络对目标整体的预测，利用SSIM损失函数对目标边界附近预测值提供较大的损失权重，以鼓励网络预测与金标准相同的结构。三个损失函数分别从像素点、特征图和图像块三个层面对网络模型进行监督，以得到更精细的网络模型预测结果。l^(k)定义如下：

其中，

为CE损失函数，

为IoU损失函数，

为SSIM损失函数，α₁，α₂，α₃为超参数，通过实验调整到最佳设定0.2，0.5，0.3。

CE损失函数是图像语义分割中使用最频繁的损失函数，主要用于度量目标真实值与预测值之间的差异，其定义如下：

l_CE＝-∑_(x,y)[G(x，y)log(P(x，y))+(1-G(x，y))lo_x(1-P(x,y))] (3)

其中，G(x,y)∈{0,1}是像素点(x,y)的金标准，P(x,y)是神经网络模型对像素点(x，y)分类的预测概率。CE损失函数不考虑像素的邻域，对前景和背景进行同等的加权计算，有助于各像素损失值的收敛。

IoU损失函数最初在图像目标检测任务中用于目标包围框(Bounding Box)的预测，通过将其转化为计算金标准和预测概率对应点的相似性，延伸到了图像语义分割的损失函数应用中，其定义为：

其中，G(x,y)∈{0,1}是像素点(x,y)的金标准，P(x,y)是网络对像素点(x,y)分类的预测概率，ε设置为1e-10，避免出现除零的情况。IoU损失函数用于衡量网络分割结果与金标准的相似性，更加关注对目标前景的预测。

SSIM损失函数最初设计用于评价图像质量，由于该损失函数能够提取图像的结构信息，本方法用SSIM作为训练时损失函数的一部分，以学习金标准中的结构性信息。SSIM的定义如下：

其中，x＝{x_j:j＝1,…,N²}，y＝{y_j:j＝1,…,N²}分别是从金标准G(x,y)和网络预测分割结果P(x,y)裁剪出的N×N大小的图像块中对应各点的像素值。μ_x，μ_y分别为x,y的均值，σ_x，σ_y分别是x,y的标准差，σ_xy是x,y的协方差。实验中根据经验将超参数C₁和C₂分别设置为C₁＝0.01²，C₂＝0.03²。SSIM损失函数考虑了每个像素的局部邻域，并将较高的权重分配给边界区域，有助于对图像边界的优化。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.基于卷积神经网络及混合损失函数的眼球分割方法，其特征在于：其包括以下步骤：

2.根据权利要求1所述的基于卷积神经网络及混合损失函数的眼球分割方法，其特征在于：所述步骤(2)中，粗分割模块采用U-Net网络结构，其包括：

编码器由两个卷积层和一个最大池化层重复构成，其中卷积层包含3×3大小的卷积核和非线性激活函数，最大池化层步长为2，每次池化使图像尺寸缩小一半，池化层后的卷积层使特征通道数加倍；解码器由两个卷积层和一个反卷积层重复构成，解码器和编码器的卷积层结构相同，反卷积层采用上采样操作，每次将图像尺寸扩大一倍；

3.根据权利要求2所述的基于卷积神经网络及混合损失函数的眼球分割方法，其特征在于：所述步骤(2)中，粗分割模块使用深度为4的U-Net网络结构，编码阶段每层由两个基础卷积块构成，每个基础卷积块包含具有3×3大小卷积核的卷积层、批标准化层和线性整流函数；网络模型每层通过两个基础卷积块提取影像特征后，利用最大池化使特征图尺寸缩小一半，增大感受野；在网络的最底层添加一个残差卷积块；解码阶段与编码阶段结构相同，每层包含两个基础卷积块，采用跳跃连接操作拼接编码器和解码器同一深度的特征图，通过双线性插值上采样使图像尺寸加倍，得到与输入图像大小相同的特征图；在解码器后，通过1×1的卷积层将多个通道的信息融合，输出通道数为类别数的特征图。

4.根据权利要求3所述的基于卷积神经网络及混合损失函数的眼球分割方法，其特征在于：所述步骤(2)中，U形残差微调模块采用深度为4的编码器-解码器结构，微调模块编码器和解码器中每层只包含一个具有64通道的基础卷积块，该基础卷积块结构与粗分割模块的基础卷积块结构相同；编码器采用最大池化缩小图像尺寸，增大感受野，解码器采用双线性插值上采样逐层恢复图像尺寸；编码阶段和解码阶段同一深度的特征图通过特征拼接操作合并图像浅层和深层特征；解码器恢复特征图尺寸至输入影像大小时，通过3×3的卷积层融合通道信息，得到通道数为类别数的特征图；将微调模块解码器输出的特征图与粗分割模块输出的特征图相加，构成残差结构，使网络学习粗分割模块分割结果和微调模块分割结果的残差；最后通过softmax激活函数将网络输出特征图转化为概率分布图，概率分布图中每个像素值对应属于眼球或背景的概率。

5.根据权利要求4所述的基于卷积神经网络及混合损失函数的眼球分割方法，其特征在于：所述步骤(2)中，神经网络模型通过前向传播提取输入影像特征，输出影像中对应像素的预测值，利用损失函数估计网络预测值与真实值之间的差异；然后对损失函数求导，通过反向传播梯度下降优化神经网络参数，前向和反向传播迭代进行，直到到达损失函数的极值点，以网络模型此时的参数作为最优权重参数。

6.根据权利要求5所述的基于卷积神经网络及混合损失函数的眼球分割方法，其特征在于：所述步骤(2)中，用SSIM作为训练时损失函数的一部分，以学习金标准中的结构性信息，SSIM的定义如下：

其中，x＝{x_j:j＝1，…，N²}，y＝{y_j:j＝1，…，N²}分别是从金标准G(x，y)和网络预测分割结果P(x，y)裁剪出的N×N大小的图像块中对应各点的像素值，μ_x，μ_y分别为x,y的均值，σ_x，σ_y分别是x,y的标准差，σ_xy是x,y的协方差。

7.根据权利要求6所述的基于卷积神经网络及混合损失函数的眼球分割方法，其特征在于：将超参数C₁和C₂分别设置为C₁＝0.01²，C₂＝0.03²。

8.基于卷积神经网络及混合损失函数的眼球分割装置，其特征在于：其包括：