CN116188509A

CN116188509A - 一种高效率三维图像分割方法

Info

Publication number: CN116188509A
Application number: CN202310437274.6A
Authority: CN
Inventors: 王国泰; 赵乾飞; 钟岚烽; 张少霆
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-05-30

Abstract

本发明涉及的是一种高效率三维图像分割方法，属于图像分割技术领域。本发明是通过以下技术方案实现的：首先利用可分离卷积和注意力机制构建轻量化三维图像分割模型LightNet并将其作为学生模型，然后采用知识蒸馏方法进行训练，结合一个性能强大的教师模型，利用教师模型的软标签和类别相似性矩阵对学生模型进行监督，完成LightNet的训练。对于待分割的样本，使用训练后的LightNet模型进行推理得到分割结果。本发明能克服传统的三维分割模型参数量大、占内存大、对计算资源要求高的问题，通过引入轻量化神经网络和知识蒸馏的方法，能够在较少的参数量和计算开销的情况下得到高质量的分割结果。

Description

一种高效率三维图像分割方法

技术领域

本发明属于图像自动识别技术领域，特别是三维图像中基于深度学习的高效率自动分割方法。

背景技术

随着成像技术的发展，大量的各种图像数据，如自然图像、医学图像、卫星图像等，为现代科学技术的进步提供了数据支持。图像识别在工业、安防、娱乐、医学诊断等多个场景具有广泛的应用。图像分割技术旨在从图像中准确地提取不同物体的边界，是众多图像识别应用中的核心任务。

目前，随着计算机算力的提升和图像分割算法的发展，图像分割技术取得了广泛的应用。现有的高精度图像分割算法普遍采用深度学习（如卷积神经网络）的方法。深度学习由于模型巨大，对计算机的算力和存储空间的要求较高。对于普通的二维图像，常规的计算机基本能完成对深度学习模型的训练并用该模型对图像进行快速分割。然而，三维图像由于体量巨大，对三维图像采用深度学习模型进行分割需要消耗更大的存储空间、计算复杂度和更长的模型运行时间。在某些对图像分割的精度和效率要求较高的情况下，由于计算机资源的限制，常规的三维分割模型难以实现实时的高精度分割。

为了克服这一问题，减少深度学习模型的参数量和计算开销，开发轻量化的三维图像分割模型具有巨大的需求。轻量化的分割模型通过减少卷积核大小、将空间和通道上的卷积进行分离等方式，拥有更少的需要学习的参数。这使得它们的计算开销变小，运行效率更高，并降低了对计算设备算力的要求，使其在计算能力较弱的微型设备（如手机、平板电脑）上的使用成为可能。然而，过多地降低分割模型的尺寸，会让模型的特征表达能力变弱，在提高模型运行效率的同时，降低了模型的分割精度。目前针对三维图像的轻量化模型的分割精度仍然难以达到常规的参数量较大的模型的精度。因此，一个好的轻量化分割模型在拥有更小的模型尺寸的同时，也需要保证分割精度下降幅度尽量小。

发明内容

本发明的目的在于克服现有的三维图像分割模型参数量大、计算开销大的不足，提出一种轻量化的三维图像分割模型，在减少模型参数的同时，保持其分割精度，从而实现高精度、高效率的三维图像分割。本发明首先提出一种新颖的轻量化三维图像分割的卷积神经网络结构LightNet，利用可分离卷积和注意力模块，实现轻量化的神经网络模型，提高其运行效率。然后进一步提出基于多尺度、多类别知识蒸馏的训练方法，让一个高性能的教师分割模型对该轻量化模型的训练过程进行指导监督，从而进一步提高轻量化模型的分割精度。

本发明的目的可以通过以下技术方案来实现：一种高效率三维图像分割方法，该方法包括：

步骤1：建立三维图像分割训练数据集；

针对一个给定的三维图像分割任务，收集图像数据，并由人工将各个图像中需要分割的不同类别的目标手工分割出来，作为该图像中的分割金标准；这些三维图像及其分割金标准组成训练数据集；

步骤2：构建基于可分离卷积和注意力机制的轻量化三维图像分割模型LightNet；

所述轻量化三维图像分割模型LightNet由一个包含轻量化模块的编码器和解码器组成，如图2所示；编码器由S个尺度组成，前S-1个尺度上每个尺度包含一个高分辨率轻量化模块HLB和一个下采样层，下采样层将第s个尺度的特征图分辨率降为第S-1个尺度的特征图分辨率的一半；各个尺度的特征图通道数量分别为

，第s个尺度的特征图输入一个低分辨率轻量化模块LLB，然后输入解码器；解码器也由S个尺度组成，各个尺度特征图的分辨率依次变为上一个尺度的两倍，其输出通道数量与编码器中对应尺度的特征图通道数量一致；在解码器的第s个尺度上，来自编码器中同样尺度的特征图通过跳跃链接与解码器第s+1个尺度的特征图进行拼接后，输入到高分辨率轻量化模块HLB，进行上采样后再输入到解码器第s-1个尺度上；

最终，解码器的特征图分辨率恢复到原始输入图像大小，因此解码器各个尺度上分别得到一个特征图，其通道数与编码器中相同尺度的通道数相同，即分别为

；在解码器的第s个尺度上，分别使用一个由点卷积组成的预测头，其输出特征图为

，其中

表示第s个尺度上的图像大小,

是该分割任务中的类别个数；然后，

输入一个标准的Softmax层得到概率预测结果

,

同时输入一个含温度校正的Softmax，称为T-Softmax，得到一个软标签

；T-Softmax的定义为：

公式1

其中，

是T-Softmax前一层输出中某个像素的特征向量，

是该像素属于类别

的分数，

表示向量的模长；

步骤3：采用训练数据集，选择一个教师模型，对所构建的轻量化卷积神经网络模型LightNet进行训练，训练过程引入多尺度、多类别知识蒸馏方法来提高该模型的分割性能；

所述步骤3中，对轻量化神经网络的训练过程中，以该模型作为学生模型，通过一个教师模型进行多尺度知识蒸馏监督学生模型的学习；该教师模型分别在多尺度的预测结果和特征上对该学生模型进行监督；训练该学生模型的损失函数为：

公式3

其中，

是基于训练图像的标注的多尺度监督损失函数，

是基于教师模型的多尺度知识蒸馏损失函数；

是一个调整二者权重的参数；

是基于交叉熵损失

和Dice损失函数

的组合函数，其定义为：

公式4

公式5

公式6

其中，

表示像素个数，

是

中第

个像素属于第

个类别的概率，

是对应的金标准，

是第

个尺度上的权重；

步骤4：对于新的待分割样本，使用训练好的LightNet模型进行分割预测，得到分割结果。

进一步的，上述高分辨率轻量化模块HLB的结构如图3中的（a）所示；用

表示该模块的输入特征图，首先通过一个层间卷积单元进行特征转换，其输出为

, 然后

输入一个层内卷积单元，其输出为

；所述层间卷积单元包含一个大小为

的卷积层、一个批归一化层和一个LeakyReLu激活函数，层内卷积单元包含一个大小为

的卷积层、一个批归一化层和一个LeakyReLu激活函数；

通过一个特征校正分支对

进行校正，该分支由一个下采样层、一个点卷积层和一个上采样层组成，上采样后的特征图输入一个Sigmoid函数得到一个注意力图

, HLB的输出

通过以下操作得到：

公式2

低分辨率轻量化模块低分辨率轻量化模块LLB的结构与高分辨率轻量化模块HLB的结构不同点在于：在校正分支上没有下采样层和上采样层，仅由一个点卷积层组成，其余结构与高分辨率轻量化模块HLB相同，如图3中的（b）所示；

进一步的，所述步骤3中基于教师模型的多尺度知识蒸馏损失函数

包含两部分，分别为基于软标签的知识蒸馏和基于类别相似性的知识蒸馏；

首先，基于软标签的知识蒸馏使用教师模型的软标签对学生模型的软标签进行监督；学生模型在第s个尺度上的特征图记为

, 通过公式1得到其在第s个尺度上的软标签

；将教师模型在第

个尺度上的特征表示为

, 将其输入公式1得到其对应的软标签，表示为

；

和

之间的蒸馏损失函数为：

公式7

其中

为交叉熵损失函数，如公式5所定义；

其次，基于类别相似性的知识蒸馏用于鼓励学生模型能更好地理解不同类别之间的关联情况；为此，分别计算

和

中的类别相似性，对于

，将其维度改为

, 其转置后的形状为

, 将这两个矩阵相乘得到学生模型的在第s个尺度上的类别相似矩阵

，同理，对

，将其维度重置为

后乘以对应的转置矩阵，得到教师模型在第s个尺度上的类别相似矩阵

，

和

之间的蒸馏损失函数为：

公式8

在上述两种知识蒸馏损失函数的基础上，总体多尺度知识蒸馏损失函数为：

公式9

其中

是第

个尺度上的权重。

与现有技术相比，本发明具有以下优点：

（1）轻量化的三维分割模型。由于传统的三维卷积层参数多，使得传统的三维分割模型参数量大、占用内存大、计算开销大。本发明通过利用时空可分离三维卷积层来替代传统三维卷积层，并且引入基于注意力机制的特征校正分支来增加上下文信息的传输。相较于传统的三维分割模型，大大降低了模型的参数量和计算开销。

（2）精确的分割结果。现有的轻量化三维分割模型的分割精度受限于其模型的尺寸。本发明通过引入类别相似度、多尺度知识蒸馏将高性能的教师模型的知识提取出来，用于监督轻量化的学生模型，使得学生模型的分割精度提高。

附图说明

图1为本发明的流程图。

图2为本发明的轻量化神经网络模型LightNet的结构图。

图3为基于注意力机制的轻量化模块，（a）为高分辨轻量化模块，（b）为低分辨率轻量化模块。

图4为本发明的方法与现有方法分割结果的比较，（a）为金标准，（b）为本发明的分割结果，（c）为DMF-Net的分割结果，（d）为EPS-Net的分割结果。

具体实施方式

结合本发明的内容，提供以下在三维腹部CT图像中多结构分割的实施例，本实施例在CPU为Intel(R) Core(TM) i7-6850K 3.60GHz, GPU为NVIDIA GTX2080Ti，内存为24.0GB的计算机中实现，编程语言为Python，框架为Pytorch，系统为Ubuntu 20.04。本发明流程图如图1所示：

第一步，建立训练数据集。收集150例三维腹部CT图像，通过专家将感兴趣的分割（包含肝脏、脾脏、左肾、右肾、胆囊等结构）目标手工勾画出来，作为相应个体的分割金标准，建立训练数据集。

第二步，构建基于可分离卷积和注意力机制的轻量化卷积神经网络LightNet。

该轻量化卷积神经网络LightNet由一个包含轻量化模块的编码器和解码器组成，如图2所示。编码器由S=5个尺度组成，前4个尺度上每个尺度包含一个高分辨率轻量化模块（HLB）和一个下采样层，下采样层将第s个尺度的特征图分辨率降为第s-1个尺度的特征图分辨率的一半。各个尺度的特征图通道数量分别为

，

,

,

,

。第5个尺度的特征图输入一个低分辨率轻量化模块（LLB），然后输入解码器。解码器也由S=5个尺度组成，各个尺度特征图的分辨率依次变为上一个尺度的两倍，其输出通道数量与编码器中对应尺度的特征图通道数量一致。在解码器的第s个尺度上，来自编码器中同样尺度的特征图通过跳跃链接与解码器第s+1个尺度的特征图进行拼接后，输入到HLB模块，进行上采样后再输入到第s-1个尺度上。

高分辨率轻量化模块HLB的结构如图3中的（a）所示。用

表示该模块的输入特征图，首先通过一个层间卷积单元（包含一个大小为1x1x3的卷积层、一个批归一化层和一个LeakyReLu激活函数）进行特征转换，其输出为

,然后

输入一个层内卷积单元（包含一个大小为3x3x1的卷积层、一个批归一化层和一个LeakyReLu激活函数），其输出为

。同时，通过一个特征校正分支对

, HLB的输出

通过以下操作得到：

公式10

低分辨率轻量化模块LLB的结构与HLB的结构类似，不同的是在校正分支上没有下采样层和上采样层，仅由一个点卷积层组成，其余结构与HLB相同，低分辨率轻量化模块如图3中的（b）所示。

上述解码器各个尺度上分别得到一个特征图，其通道数与编码器中相同尺度的通道数相同，即分别为

。在解码器的第s个尺度上，分别使用一个由点卷积组成的预测头，其输出特征图为

, 其中

表示第s个尺度上的图像大小，

是该分割任务中的类别个数（

）。然后，

输入一个标准的Softmax层得到概率预测结果

,

同时输入一个含温度校正的Softmax（称为T-Softmax），得到一个软标签

；T-Softmax的定义为：

公式11

其

是T-Softmax前一层输出中某个像素的特征向量，

是该像素属于类别

的分数，

表示向量的模长。

第三步，构建教师网络，并利用多尺度多类别知识蒸馏方法对轻量化网络LightNet进行训练。

教师网络采用3D U-Net结构，该结构也是由编码器-解码器组成，和所提出的的LightNet的骨架类似，不同的是3D U-Net中不采用HLB和LLB模块，而是用常规的三维卷积层替代。将所提出的LightNet作为学生模型，教师模型分别在多尺度的预测结果和特征上对学生模型进行监督。训练学生模型的损失函数为：

公式12

其中

是基于训练图像的标注的多尺度监督损失函数，

是基于教师模型的多尺度知识蒸馏损失函数。

是一个调整二者权重的参数，这里设为0.8。

是基于交叉熵损失

和Dice损失函数

的组合函数，其定义为：

公式13

公式14

公式15

其中

表示像素个数，

是

中第

个像素属于第

个类别的概率，

是对应的金标准。

是第

个尺度上的权重。

这里的多尺度知识蒸馏损失函数

包含两部分，分别为基于软标签的知识蒸馏和基于类别相似性的知识蒸馏。首先，学生模型在第s个尺度上的特征图记为

, 通过公式1得到其在第s个尺度上的软标签

。将教师模型在第

个尺度上的特征表示为

, 将其输入公式1得到其对应的软标签，表示为

。

和

之间的蒸馏损失函数为：

公式16

其中

为交叉熵损失函数，如公式5所定义。

其次，利用基于类别相似性的知识蒸馏鼓励学生模型能更好地理解不同类别之间的关联情况。为此，分别计算

和

中的类别相似性。对于

，将其维度改为

, 其转置后的形状为

。同理，对

，将其维度重置为

。

和

之间的蒸馏损失函数为：

公式17

公式18

其中

是第

个尺度上的权重。其值为

分别设为0.4,0.3, 0.2,0.1和0.0。

利用公式3中的损失函数，采用Adam优化器，学习率设为0.001进行训练，迭代200轮，完成LightNet模型的训练。

第四步，待分割样本的推理。使用训练好的分割模型LightNet对待分割样本进行推理得到分割结果。

本实施例的流程如下。

首先利用SimpleITK（一个医学图像计算库）和Numpy（一个矩阵运算库）编写函数对三维CT图像进行预处理。

利用Pytorch（一个开源深度学习计算库）对本发明的轻量化卷积神经网络LightNet进行编程实现，将各个分辨率上的通道数分别设为32， 64， 128， 256和512。

编程实现本发明的知识蒸馏和模型训练方法。将3D UNet作为教师模型，LightNet作为学生模型，然后在训练图像上进行模型训练，采用Adam优化器，结合公式3中的损失函数进行模型更新。模型收敛后得到训练完成的轻量化模型。

对于待分割的样本，使用训练模型进行推理得到分割结果。

本发明的方法与现有方法分割结果的比较如图4所示，本发明的分割模型LightNet经过训练后的分割结果与现有两种轻量化模型的比较。（a）是专家手工分割得到的金标准，（b）是本发明方法得到的结果，（c）和（d）分别是现有的轻量化分割模型DMF-Net和ESP-Net的分割结果。可以看出，现有的两种轻量化模型分割结果中有较大误差，而本发明的方法的结果更接近于金标准，假阳性区域显著减少，分割结果更加精确。