CN112767402B

CN112767402B - 一种基于三维卷积神经网络的图像分割方法及系统

Info

Publication number: CN112767402B
Application number: CN202110021578.5A
Authority: CN
Inventors: 张彪; 付云骁; 肖鹏; 翟鹏龙; 盖阔; 任西兵
Original assignee: Beijing Closed Loop Technology Co ltd
Current assignee: Beijing Hanggui Zhixing Technology Co ltd
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2024-06-07
Anticipated expiration: 2041-01-08
Also published as: CN112767402A

Abstract

本发明涉及一种基于三维卷积神经网络的图像分割方法及系统，所述方法包括：获取待分割三维图像数据；将所述待分割三维图像数据输入图像分割模型中，得到分割好的三维图像数据；所述图像分割模型是训练好的三维混合尺度密集连接神经网络；所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的。本发明能够使用较少标注数据和计算资源的情况下，快速收敛至较优模型，且能较快速准确地计算图像分割结果，满足准确性和实时性要求。

Description

一种基于三维卷积神经网络的图像分割方法及系统

技术领域

本发明涉及图像分割技术领域，特别是涉及一种基于三维卷积神经网络的图像分割方法及系统。

背景技术

现有用于三维语义分割的深度学习算法都基于传统卷积神经网络，由于传统三维卷积的感受野与参数呈立方关系，因此单层网络参数相对较多，且这些算法使用的网络的层数较多，最终导致网络的未知参数较多。较多的参数意味着这些算法需要大量的标注数据，且在训练和预测时需要较大的内存和较长的训练时间，无法快速准确的计算出图像语义分割结果。此外，目前深度学习算法的实时推算较慢，难以满足图像分割时的高实时性的要求。这些因素限制了基于传统卷积神经网络深度学习的图像分割技术在很多场景下的使用。

发明内容

本发明的目的是提供一种基于三维卷积神经网络的图像分割方法及系统，能够使用较少标注数据和计算资源的情况下，快速收敛至较优模型，且能较快速准确地计算图像分割结果，满足准确性和实时性要求。

为实现上述目的，本发明提供了如下方案：

一种基于三维卷积神经网络的图像分割方法，包括：

获取待分割三维图像数据；

将所述待分割三维图像数据输入图像分割模型中，得到分割好的三维图像数据；所述图像分割模型是训练好的三维混合尺度密集连接神经网络；所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的。

优选地，所述图像分割模型的确定方法为：

获取训练三维图像数据；

标注所述训练三维图像数据，得到标注图像数据；

根据所述标注图像数据和所述训练三维图像数据确定损失函数；

利用梯度下降优化器最小化所述损失函数的数值，得到所述三维混合尺度密集连接神经网络的更新梯度；

判断训练次数是否达到预设训练次数，若未达到所述预设训练次数，则根据所述更新梯度更新所述三维混合尺度密集连接神经网络的权值，将所述训练三维图像数据输入更新后的所述三维混合尺度密集连接神经网络中进行分割训练；若达到所述预设训练次数，则输出训练好的所述三维混合尺度密集连接神经网络。

优选地，所述图像分割模型包括多个依次连接的三维混合尺度密集连接神经网络单位模块；所述三维混合尺度密集连接神经网络单位模块包括多个密集连接块和多个转换层；所述密集连接块之间通过所述转换层进行连接；所述密集连接块内设有空洞卷积层；所述空洞卷积层的空洞数以固定循环递增；每个所述密集连接块内的卷积组成一个卷积神经网络层；每一个所述卷积神经网络层的输入是所述卷积神经网络层所在的所述密集连接块以及所述卷积神经网络层之前的所有卷积神经网络层的输出的叠加，所述卷积神经网络层后连接一个激活函数；所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出。

优选地，所述标注所述训练三维图像数据，得到标注图像数据，包括：

人工标注所述训练三维图像数据中不同的三维像素点，得到所述三维像素点所属类别标签的所述标注图像数据。

优选地，所述利用梯度下降优化器最小化所述损失函数的数值，得到所述三维混合尺度密集连接神经网络的更新梯度，包括：

以损失函数最小值为目标，通过所述梯度下降优化器进行优化；所述梯度下降优化器采用基于梯度下降的Adam算法，并采用多图形处理器并行计算。

一种基于三维卷积神经网络的图像分割系统，包括：

获取模块，用于获取待分割三维图像数据；

分割模块，用于将所述待分割三维图像数据输入图像分割模型中，得到分割好的三维图像数据；所述图像分割模型是训练好的三维混合尺度密集连接神经网络；所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的。

优选地，还包括训练模块；所述训练模块具体包括：

训练数据获取单元，用于获取训练三维图像数据；

标注单元，用于标注所述训练三维图像数据，得到标注图像数据；

函数确定单元，用于根据所述标注图像数据和所述训练三维图像数据确定损失函数；

梯度确定单元，用于利用梯度下降优化器最小化所述损失函数的数值，得到所述三维混合尺度密集连接神经网络的更新梯度；

判断单元，用于判断训练次数是否达到预设训练次数，若未达到所述预设训练次数，则根据所述更新梯度更新所述三维混合尺度密集连接神经网络的权值，将所述训练三维图像数据输入更新后的所述三维混合尺度密集连接神经网络中进行分割训练；若达到所述预设训练次数，则输出训练好的所述三维混合尺度密集连接神经网络。

优选地，所述标注单元包括：

人工子单元，用于人工标注所述训练三维图像数据中不同的三维像素点，得到所述三维像素点所属类别标签的所述标注图像数据。

优选地，所述梯度确定单元包括：

优化子单元，用于以损失函数最小值为目标，通过所述梯度下降优化器进行优化；所述梯度下降优化器采用基于梯度下降的Adam算法，并采用多图形处理器并行计算。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明基于三维卷积神经网络的图像分割方法及系统首次将三维空洞卷积和三维混合尺度的特征密集连接两者结合在一起，建立了三维的混合尺度密集连接神经网络，使得参数进一步减少，网络层数可以达到更深。本发明通过空洞卷积和三维混合尺度的特征密集连接两者结合在一起，能在使用显著少的三维图像语义分割标注数据、训练内存和训练时间的情况下，取得较高的语义分割精度。且训练好的三维混合尺度密集连接神经网络模型能较快速地计算出三维图像分割结果，较好得满足了现实应用场景的实时性要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于三维卷积神经网络的图像分割方法的流程图；

图2为本发明提供的实施例中三维空洞卷积示意图，其中图2(a)为空洞数为1的三维空洞卷积示意图，图2(b)为空洞数为2的三维空洞卷积示意图，图2(c)为空洞数为3的三维空洞卷积示意图；

图3为本发明提供的实施例中三维混合尺度密集连接神经网络单位模块结构图；

图4为本发明提供的实施例中三维混合尺度密集连接神经网络架构图；

图5为本发明提供的实施例中图像分割算法流程图；

图6为本发明基于三维卷积神经网络的图像分割系统的模块连接图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明基于三维卷积神经网络的图像分割方法的流程图，如图1所示，本发明一种基于三维卷积神经网络的图像分割方法，包括：

步骤100：获取待分割三维图像数据。

步骤200：将所述待分割三维图像数据输入图像分割模型中，得到分割好的三维图像数据；所述图像分割模型是训练好的三维混合尺度密集连接神经网络；所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的。

具体的，所述待分割三维图像数据为各种物体的三维立体图像，例如所述物体包括桌子、椅子、地面、汽车等。

优选地，所述图像分割模型的确定方法为：

获取训练三维图像数据。

标注所述训练三维图像数据，得到标注图像数据。

根据所述标注图像数据和所述训练三维图像数据确定损失函数。

利用梯度下降优化器最小化所述损失函数的数值，得到所述三维混合尺度密集连接神经网络的更新梯度。

作为一种可选的实施方式，人工标注所述训练三维图像数据中不同的三维像素点，如果训练三维图像数据为一个桌子，桌子的类别标签为0，则组成桌子的三维空间像素点的标签为桌子的标签0。

具体的，所述三维混合尺度密集连接神经网络的构建方法为：

(1)确定空洞卷积结构。三维混合尺度密集连接神经网络(three dimensionalmixed-scale densely connectedneural network，3D-MSDNet)主要使用了空洞卷积和密集连接两种操作，设单信道的输入输出三维图像的维数为L×M×H，网络的输入为信道数为c的三维图像X，输出为分割好的单个信道的三维图像Y′，也就是每个三位像素点位置为类别数0,1，...M-1，总共M类物体。

设网络总共有n层，各层输入为Z₀,Z₁,...,Z_n-1各层输出为Z₁,Z₂,...,Z_n，则第0层，也就是输入X为Z₀。如图2所示，相比一般的卷积，空洞卷积的卷积核中间有间隔的空洞，图2(a)为空洞卷积核空洞数为s＝1时，空洞卷积就是传统卷积。图2(b)和图2(c)为空洞数为2和3的示意图，在三维混合尺度密集连接神经网络，空洞卷积作用在每层的输入特征Z_i(i＝1,2,...,n)上，其表达式为

其中，为卷积核为f_ijk的空洞卷积作用在三维特征/>第k个信道上的结果，该空洞卷积的空洞数s_ij，/>是计算得到网络的第i层特征的第j个信道的作用函数，在我们给定的三维混合尺度密集连接神经网络中，不同层的空洞卷积为大小为固定K×K×K，也即有K³个参数，空洞数以固定循环递增，即s_i＝(s₀+d×i)mod(d_max)，比如一般设空洞数增长步长d＝1，d_max则根据问题的复杂程度设置。

(2)确定密集连接结构和非线性激活函数。除空洞卷积外，三维混合尺度密集连接神经网络还使用了密集连接操作，即网络中的任意第i层都以该层前面的每层三维特征图像为输入，并且这层网络把这些不同层的特征图像都当成一般多个信道输入特征进行处理，比如第i层的输入一共有i-1个，并且网络的第i层对不同特征图像使用不同的空洞卷积作用，最后联合作用得到第i层的特征。采用上一段的符号，我们得到

Z_i＝H_i([Z₀，Z₁，...，Z_i-1]). (2)

其中H_i为卷积神经网络第i层的空洞卷积作用函数。在空洞卷积作用在每层的输入特征得到输出特征之后，我们再将非线性激活函数作用在输出特征上，即

这里表示非线性激活函数，我们在三维混合尺度密集连接神经网络中一般使用带泄露线性整流函数(Leaky Rectified Linear Unit)，也就是f(x)＝max(0.01x，x)。b_ij为第i层输出的第j个信道的偏差参数(bias)，用于矫正网络线性部分学习的偏差。H_ij为第i层第j个信道的复合函数，即复合了空洞卷积函数和非线性激活函数。

(3)确定三维混合尺度密集连接神经网络单位模块。综合上述函数，我们得到三维混合尺度密集连接神经网络第i层的函数表达式，即以前面所有层的输出Z₀，Z₁，...，Z_i-1为输入，输出第i层输出特征图像：

其中表示对来自1层的特征做空洞卷积。网络的最后一层也类似，但采用一般1×1卷积作用，特征输出Y的第j个信道表达式为

其中f′_ijk为1×1大小的卷积函数，σ′表示以像素点为单位作用的归一化指数函数(Softmax)激活函数，b′_k为偏差。综合得到如图3所示的三维混合尺度密集连接神经网络单位模块。

(4)结合多个单位模块得到三维混合尺度密集连接神经网络。如图4所示，为了更好得起到缩减参数量和计算量，减少训练样本的作用，不同于原始的二维混合尺度密集连接神经网络，我们对三维网络的网络结构进行了更改，即将原先的单个混合尺度密集连接神经网络当成一个模块，而三维混合尺度密集连接神经网络则是多个这样的模块相连接，在连接处仍然采用1×1卷积作用和LeakyReLU非线性激活函数。

图5为本发明提供的实施例中图像分割算法流程图，如图5所示，本发明中计算损失函数这一步骤的具体方法为，将采集到的三维图像数据随机分批(Batch)输入未训练的的三维混合尺度密集连接神经网络，得到预测分割结果，预测的分割三维图像与输入大小一致，但每个像素点位置为类别标签；将分割三维图像和与之对应的人工标注已分割三维图像输入损失函数。三维混合尺度密集连接神经网络可用一个函数来表示，给定N个样本后，对于第i个样本，设输入的三维图像真实分割类别为Y_i，则在采用负对数似然损失的情况下，损失函数表达式为

图5中步骤5为通过基于梯度下降的优化器最小化损失函数值。优化器一般为基于梯度下降的Adam算法，并采用多GPU并行计算。通过优化得到三维混合尺度密集连接神经网络的参数的更新梯度，如果未达到训练轮数，则跳转到步骤6即更新神经网络参数，否则输出训练好的三维混合尺度密集连接神经网络。步骤6为使用步骤5得到的更新梯度来更新三维混合尺度密集连接神经网络的权值，并跳转至步骤4。步骤7为模型预测和测试。对于测试数据中任意的满足维数和大小要求的三维图像，在输入训练好的三维混合尺度密集连接神经网络后，都可以得到分割好的三维图像，比如一张桌子所在像素点会被标为0。

图6为本发明基于三维卷积神经网络的图像分割系统的模块连接图，如图6所示，本发明提供的一种基于三维卷积神经网络的图像分割系统，包括：

获取模块，用于获取待分割三维图像数据；

优选地，还包括训练模块；所述训练模块具体包括：

训练数据获取单元，用于获取训练三维图像数据；

优选地，所述标注单元包括：

优选地，所述梯度确定单元包括：

本发明的有益效果如下：

1、本发明首次将三维空洞卷积和三维混合尺度的特征密集连接两者结合在一起，建立了三维的混合尺度密集连接神经网络。

2、本发明在已有的二维混合尺度密集连接结构基础上，进一步对网络架构进行了优化，使得参数进一步减少，网络层数可以达到更深。

3、相比其它现有三维神经网络，本发明能在使用显著少的三维图像语义分割标注数据、训练内存和训练时间的情况下，取得较高的语义分割精度。

4、本发明中训练好的神经网络模型能较快速地计算出三维图像分割结果，较好得满足了现实应用场景的实时性要求。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于三维卷积神经网络的图像分割方法，其特征在于，包括：

获取待分割三维图像数据；

将所述待分割三维图像数据输入图像分割模型中，得到分割好的三维图像数据；所述图像分割模型是训练好的三维混合尺度密集连接神经网络；所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的；所述图像分割模型包括多个依次连接的三维混合尺度密集连接神经网络单位模块；所述三维混合尺度密集连接神经网络单位模块包括多个密集连接块和多个转换层；所述密集连接块之间通过所述转换层进行连接；所述密集连接块内设有空洞卷积层；所述空洞卷积层的空洞数以固定循环递增；每个所述密集连接块内的卷积组成一个卷积神经网络层；每一个所述卷积神经网络层的输入是所述卷积神经网络层所在的所述密集连接块以及所述卷积神经网络层之前的所有卷积神经网络层的输出的叠加，所述卷积神经网络层后连接一个激活函数；所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出；所述三维混合尺度密集连接神经网络的构建方法为：

(1)确定空洞卷积结构；三维混合尺度密集连接神经网络使用了空洞卷积和密集连接两种操作，设单信道的输入输出三维图像的维数为L×M×H，网络的输入为信道数为c的三维图像X，输出为分割好的单个信道的三维图像Y′，也就是每个三维像素点位置为类别数0,1，...M-1，总共M类物体；

设网络总共有n层，各层输入为Z₀,Z₁,...,Z_n-1，各层输出为Z₁,Z₂,...,Z_n，则第0层，也就是输入X为Z₀；相比一般的卷积，空洞卷积的卷积核中间有间隔的空洞，当空洞卷积核空洞数为s＝1时，空洞卷积就是传统卷积；当空洞数为2和3，在三维混合尺度密集连接神经网络，空洞卷积作用在每层的输入特征Z_i(i＝1,2,...,n)上，其表达式为

其中，为卷积核为f_ijk的空洞卷积作用在三维特征/>第k个信道上的结果,该空洞卷积的空洞数s_ij，/>是计算得到网络的第i层特征的第j个信道的作用函数，在给定的三维混合尺度密集连接神经网络中，不同层的空洞卷积为大小为固定K×K×K，也即有K³个参数，空洞数以固定循环递增，即s_i＝(s0₊d×i)mod(d_max)，其中，d为空洞数增长步长，s_i为第i层的空洞数；

(2)确定密集连接结构和非线性激活函数；除空洞卷积外，三维混合尺度密集连接神经网络还使用了密集连接操作，即网络中的任意第i层都以该层前面的每层三维特征图像为输入，并且这层网络把这些不同层的特征图像都当成一般多个信道输入特征进行处理，具体地，第i层的输入一共有i-1个，并且网络的第i层对不同特征图像使用不同的空洞卷积作用，最后联合作用得到第i层的特征；采用上一段的符号，我们得到

Z_i＝H_i([Z₀，Z₁，...，Z_i-1])

其中，H_i为卷积神经网络第i层的空洞卷积作用函数；在空洞卷积作用在每层的输入特征得到输出特征之后，再将非线性激活函数作用在输出特征上，即

这里σ：表示非线性激活函数，在三维混合尺度密集连接神经网络中一般使用带泄露线性整流函数，也就是f(x)＝max(0.01x，x)；b_ij为第i层输出的第j个信道的偏差参数，用于矫正网络线性部分学习的偏差；H_ij为第i层第j个信道的复合函数，即复合了空洞卷积函数和非线性激活函数；

(3)确定三维混合尺度密集连接神经网络单位模块，综合上述函数，我们得到三维混合尺度密集连接神经网络第i层的函数表达式，即以第i层之前所有层的输出Z₀，Z₁，…，Z_i-1为输入，输出第i层输出特征图像：

其中表示对来自l层的特征做空洞卷积，H_ij为第i层第j个信道的复合函数，即复合了空洞卷积函数和非线性激活函数，σ：/>表示非线性激活函数，b_ij为第i层输出的第j个信道的偏差参数，/>是计算得到网络的第i层特征的第j个信道的作用函数，网络的输入为信道数为c；网络的最后一层采用一般1×1卷积作用，特征输出Y的第j个信道表达式为

其中f′_ijk为1×1大小的卷积函数，σ′表示以像素点为单位作用的归一化指数函数(Softmax)激活函数，b′_k为偏差，综合得到三维混合尺度密集连接神经网络单位模块；

(4)结合多个单位模块得到三维混合尺度密集连接神经网络，将原先的单个混合尺度密集连接神经网络当成一个模块，而三维混合尺度密集连接神经网络则是多个这样的模块相连接，在连接处仍然采用1×1卷积作用和LeakyReLU非线性激活函数。

2.根据权利要求1所述的基于三维卷积神经网络的图像分割方法，其特征在于，所述图像分割模型的确定方法为：

获取训练三维图像数据；

标注所述训练三维图像数据，得到标注图像数据；

3.根据权利要求2所述的基于三维卷积神经网络的图像分割方法，其特征在于，所述标注所述训练三维图像数据，得到标注图像数据，包括：

4.根据权利要求2所述的基于三维卷积神经网络的图像分割方法，其特征在于，所述利用梯度下降优化器最小化所述损失函数的数值，得到所述三维混合尺度密集连接神经网络的更新梯度，包括：

5.一种基于三维卷积神经网络的图像分割系统，其特征在于，包括：

获取模块，用于获取待分割三维图像数据；

分割模块，用于将所述待分割三维图像数据输入图像分割模型中，得到分割好的三维图像数据；所述图像分割模型是训练好的三维混合尺度密集连接神经网络；所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的；所述图像分割模型包括多个依次连接的三维混合尺度密集连接神经网络单位模块；所述三维混合尺度密集连接神经网络单位模块包括多个密集连接块和多个转换层；所述密集连接块之间通过所述转换层进行连接；所述密集连接块内设有空洞卷积层；所述空洞卷积层的空洞数以固定循环递增；每个所述密集连接块内的卷积组成一个卷积神经网络层；每一个所述卷积神经网络层的输入是所述卷积神经网络层所在的所述密集连接块以及所述卷积神经网络层之前的所有卷积神经网络层的输出的叠加，所述卷积神经网络层后连接一个激活函数；所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出；所述三维混合尺度密集连接神经网络的构建方法为：

其中，为卷积核为f_ijk的空洞卷积作用在三维特征/>第k个信道上的结果,该空洞卷积的空洞数s_ij，/>是计算得到网络的第i层特征的第j个信道的作用函数，在给定的三维混合尺度密集连接神经网络中，不同层的空洞卷积为大小为固定K×K×K，也即有K³个参数，空洞数以固定循环递增，即s_i＝(s₀+d×i)mod(d_max)，其中，d为空洞数增长步长，s_i为第i层的空洞数；

Z_i＝H_i([Z₀，Z₁，...，Z_i-1])

(4)确定三维混合尺度密集连接神经网络单位模块，综合上述函数，我们得到三维混合尺度密集连接神经网络第i层的函数表达式，即以第i层之前所有层的输出Z₀，Z₁，…，Z_i-1为输入，输出第i层输出特征图像：

6.根据权利要求5所述的基于三维卷积神经网络的图像分割系统，其特征在于，还包括训练模块；所述训练模块，具体包括：

训练数据获取单元，用于获取训练三维图像数据；

7.根据权利要求6所述的基于三维卷积神经网络的图像分割系统，其特征在于，所述标注单元包括：

8.根据权利要求6所述的基于三维卷积神经网络的图像分割系统，其特征在于，所述梯度确定单元包括：