CN112767402B - 一种基于三维卷积神经网络的图像分割方法及系统 - Google Patents
一种基于三维卷积神经网络的图像分割方法及系统 Download PDFInfo
- Publication number
- CN112767402B CN112767402B CN202110021578.5A CN202110021578A CN112767402B CN 112767402 B CN112767402 B CN 112767402B CN 202110021578 A CN202110021578 A CN 202110021578A CN 112767402 B CN112767402 B CN 112767402B
- Authority
- CN
- China
- Prior art keywords
- neural network
- dimensional
- layer
- convolution
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 60
- 238000003709 image segmentation Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 113
- 238000002372 labelling Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 91
- 108091006146 Channels Proteins 0.000 claims description 35
- 230000004913 activation Effects 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 12
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 230000002301 combined effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 239000010410 layer Substances 0.000 description 69
- 238000013135 deep learning Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于三维卷积神经网络的图像分割方法及系统,所述方法包括:获取待分割三维图像数据;将所述待分割三维图像数据输入图像分割模型中,得到分割好的三维图像数据;所述图像分割模型是训练好的三维混合尺度密集连接神经网络;所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的。本发明能够使用较少标注数据和计算资源的情况下,快速收敛至较优模型,且能较快速准确地计算图像分割结果,满足准确性和实时性要求。
Description
技术领域
本发明涉及图像分割技术领域,特别是涉及一种基于三维卷积神经网络的图像分割方法及系统。
背景技术
现有用于三维语义分割的深度学习算法都基于传统卷积神经网络,由于传统三维卷积的感受野与参数呈立方关系,因此单层网络参数相对较多,且这些算法使用的网络的层数较多,最终导致网络的未知参数较多。较多的参数意味着这些算法需要大量的标注数据,且在训练和预测时需要较大的内存和较长的训练时间,无法快速准确的计算出图像语义分割结果。此外,目前深度学习算法的实时推算较慢,难以满足图像分割时的高实时性的要求。这些因素限制了基于传统卷积神经网络深度学习的图像分割技术在很多场景下的使用。
发明内容
本发明的目的是提供一种基于三维卷积神经网络的图像分割方法及系统,能够使用较少标注数据和计算资源的情况下,快速收敛至较优模型,且能较快速准确地计算图像分割结果,满足准确性和实时性要求。
为实现上述目的,本发明提供了如下方案:
一种基于三维卷积神经网络的图像分割方法,包括:
获取待分割三维图像数据;
将所述待分割三维图像数据输入图像分割模型中,得到分割好的三维图像数据;所述图像分割模型是训练好的三维混合尺度密集连接神经网络;所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的。
优选地,所述图像分割模型的确定方法为:
获取训练三维图像数据;
标注所述训练三维图像数据,得到标注图像数据;
根据所述标注图像数据和所述训练三维图像数据确定损失函数;
利用梯度下降优化器最小化所述损失函数的数值,得到所述三维混合尺度密集连接神经网络的更新梯度;
判断训练次数是否达到预设训练次数,若未达到所述预设训练次数,则根据所述更新梯度更新所述三维混合尺度密集连接神经网络的权值,将所述训练三维图像数据输入更新后的所述三维混合尺度密集连接神经网络中进行分割训练;若达到所述预设训练次数,则输出训练好的所述三维混合尺度密集连接神经网络。
优选地,所述图像分割模型包括多个依次连接的三维混合尺度密集连接神经网络单位模块;所述三维混合尺度密集连接神经网络单位模块包括多个密集连接块和多个转换层;所述密集连接块之间通过所述转换层进行连接;所述密集连接块内设有空洞卷积层;所述空洞卷积层的空洞数以固定循环递增;每个所述密集连接块内的卷积组成一个卷积神经网络层;每一个所述卷积神经网络层的输入是所述卷积神经网络层所在的所述密集连接块以及所述卷积神经网络层之前的所有卷积神经网络层的输出的叠加,所述卷积神经网络层后连接一个激活函数;所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出。
优选地,所述标注所述训练三维图像数据,得到标注图像数据,包括:
人工标注所述训练三维图像数据中不同的三维像素点,得到所述三维像素点所属类别标签的所述标注图像数据。
优选地,所述利用梯度下降优化器最小化所述损失函数的数值,得到所述三维混合尺度密集连接神经网络的更新梯度,包括:
以损失函数最小值为目标,通过所述梯度下降优化器进行优化;所述梯度下降优化器采用基于梯度下降的Adam算法,并采用多图形处理器并行计算。
一种基于三维卷积神经网络的图像分割系统,包括:
获取模块,用于获取待分割三维图像数据;
分割模块,用于将所述待分割三维图像数据输入图像分割模型中,得到分割好的三维图像数据;所述图像分割模型是训练好的三维混合尺度密集连接神经网络;所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的。
优选地,还包括训练模块;所述训练模块具体包括:
训练数据获取单元,用于获取训练三维图像数据;
标注单元,用于标注所述训练三维图像数据,得到标注图像数据;
函数确定单元,用于根据所述标注图像数据和所述训练三维图像数据确定损失函数;
梯度确定单元,用于利用梯度下降优化器最小化所述损失函数的数值,得到所述三维混合尺度密集连接神经网络的更新梯度;
判断单元,用于判断训练次数是否达到预设训练次数,若未达到所述预设训练次数,则根据所述更新梯度更新所述三维混合尺度密集连接神经网络的权值,将所述训练三维图像数据输入更新后的所述三维混合尺度密集连接神经网络中进行分割训练;若达到所述预设训练次数,则输出训练好的所述三维混合尺度密集连接神经网络。
优选地,所述图像分割模型包括多个依次连接的三维混合尺度密集连接神经网络单位模块;所述三维混合尺度密集连接神经网络单位模块包括多个密集连接块和多个转换层;所述密集连接块之间通过所述转换层进行连接;所述密集连接块内设有空洞卷积层;所述空洞卷积层的空洞数以固定循环递增;每个所述密集连接块内的卷积组成一个卷积神经网络层;每一个所述卷积神经网络层的输入是所述卷积神经网络层所在的所述密集连接块以及所述卷积神经网络层之前的所有卷积神经网络层的输出的叠加,所述卷积神经网络层后连接一个激活函数;所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出。
优选地,所述标注单元包括:
人工子单元,用于人工标注所述训练三维图像数据中不同的三维像素点,得到所述三维像素点所属类别标签的所述标注图像数据。
优选地,所述梯度确定单元包括:
优化子单元,用于以损失函数最小值为目标,通过所述梯度下降优化器进行优化;所述梯度下降优化器采用基于梯度下降的Adam算法,并采用多图形处理器并行计算。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明基于三维卷积神经网络的图像分割方法及系统首次将三维空洞卷积和三维混合尺度的特征密集连接两者结合在一起,建立了三维的混合尺度密集连接神经网络,使得参数进一步减少,网络层数可以达到更深。本发明通过空洞卷积和三维混合尺度的特征密集连接两者结合在一起,能在使用显著少的三维图像语义分割标注数据、训练内存和训练时间的情况下,取得较高的语义分割精度。且训练好的三维混合尺度密集连接神经网络模型能较快速地计算出三维图像分割结果,较好得满足了现实应用场景的实时性要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于三维卷积神经网络的图像分割方法的流程图;
图2为本发明提供的实施例中三维空洞卷积示意图,其中图2(a)为空洞数为1的三维空洞卷积示意图,图2(b)为空洞数为2的三维空洞卷积示意图,图2(c)为空洞数为3的三维空洞卷积示意图;
图3为本发明提供的实施例中三维混合尺度密集连接神经网络单位模块结构图;
图4为本发明提供的实施例中三维混合尺度密集连接神经网络架构图;
图5为本发明提供的实施例中图像分割算法流程图;
图6为本发明基于三维卷积神经网络的图像分割系统的模块连接图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于三维卷积神经网络的图像分割方法及系统,能够使用较少标注数据和计算资源的情况下,快速收敛至较优模型,且能较快速准确地计算图像分割结果,满足准确性和实时性要求。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明基于三维卷积神经网络的图像分割方法的流程图,如图1所示,本发明一种基于三维卷积神经网络的图像分割方法,包括:
步骤100:获取待分割三维图像数据。
步骤200:将所述待分割三维图像数据输入图像分割模型中,得到分割好的三维图像数据;所述图像分割模型是训练好的三维混合尺度密集连接神经网络;所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的。
具体的,所述待分割三维图像数据为各种物体的三维立体图像,例如所述物体包括桌子、椅子、地面、汽车等。
优选地,所述图像分割模型的确定方法为:
获取训练三维图像数据。
标注所述训练三维图像数据,得到标注图像数据。
根据所述标注图像数据和所述训练三维图像数据确定损失函数。
利用梯度下降优化器最小化所述损失函数的数值,得到所述三维混合尺度密集连接神经网络的更新梯度。
判断训练次数是否达到预设训练次数,若未达到所述预设训练次数,则根据所述更新梯度更新所述三维混合尺度密集连接神经网络的权值,将所述训练三维图像数据输入更新后的所述三维混合尺度密集连接神经网络中进行分割训练;若达到所述预设训练次数,则输出训练好的所述三维混合尺度密集连接神经网络。
优选地,所述标注所述训练三维图像数据,得到标注图像数据,包括:
人工标注所述训练三维图像数据中不同的三维像素点,得到所述三维像素点所属类别标签的所述标注图像数据。
作为一种可选的实施方式,人工标注所述训练三维图像数据中不同的三维像素点,如果训练三维图像数据为一个桌子,桌子的类别标签为0,则组成桌子的三维空间像素点的标签为桌子的标签0。
优选地,所述利用梯度下降优化器最小化所述损失函数的数值,得到所述三维混合尺度密集连接神经网络的更新梯度,包括:
以损失函数最小值为目标,通过所述梯度下降优化器进行优化;所述梯度下降优化器采用基于梯度下降的Adam算法,并采用多图形处理器并行计算。
优选地,所述图像分割模型包括多个依次连接的三维混合尺度密集连接神经网络单位模块;所述三维混合尺度密集连接神经网络单位模块包括多个密集连接块和多个转换层;所述密集连接块之间通过所述转换层进行连接;所述密集连接块内设有空洞卷积层;所述空洞卷积层的空洞数以固定循环递增;每个所述密集连接块内的卷积组成一个卷积神经网络层;每一个所述卷积神经网络层的输入是所述卷积神经网络层所在的所述密集连接块以及所述卷积神经网络层之前的所有卷积神经网络层的输出的叠加,所述卷积神经网络层后连接一个激活函数;所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出。
具体的,所述三维混合尺度密集连接神经网络的构建方法为:
(1)确定空洞卷积结构。三维混合尺度密集连接神经网络(three dimensionalmixed-scale densely connectedneural network,3D-MSDNet)主要使用了空洞卷积和密集连接两种操作,设单信道的输入输出三维图像的维数为L×M×H,网络的输入为信道数为c的三维图像X,输出为分割好的单个信道的三维图像Y′,也就是每个三位像素点位置为类别数0,1,...M-1,总共M类物体。
设网络总共有n层,各层输入为Z0,Z1,...,Zn-1各层输出为Z1,Z2,...,Zn,则第0层,也就是输入X为Z0。如图2所示,相比一般的卷积,空洞卷积的卷积核中间有间隔的空洞,图2(a)为空洞卷积核空洞数为s=1时,空洞卷积就是传统卷积。图2(b)和图2(c)为空洞数为2和3的示意图,在三维混合尺度密集连接神经网络,空洞卷积作用在每层的输入特征Zi(i=1,2,...,n)上,其表达式为
其中,为卷积核为fijk的空洞卷积作用在三维特征/>第k个信道上的结果,该空洞卷积的空洞数sij,/>是计算得到网络的第i层特征的第j个信道的作用函数,在我们给定的三维混合尺度密集连接神经网络中,不同层的空洞卷积为大小为固定K×K×K,也即有K3个参数,空洞数以固定循环递增,即si=(s0+d×i)mod(dmax),比如一般设空洞数增长步长d=1,dmax则根据问题的复杂程度设置。
(2)确定密集连接结构和非线性激活函数。除空洞卷积外,三维混合尺度密集连接神经网络还使用了密集连接操作,即网络中的任意第i层都以该层前面的每层三维特征图像为输入,并且这层网络把这些不同层的特征图像都当成一般多个信道输入特征进行处理,比如第i层的输入一共有i-1个,并且网络的第i层对不同特征图像使用不同的空洞卷积作用,最后联合作用得到第i层的特征。采用上一段的符号,我们得到
Zi=Hi([Z0,Z1,...,Zi-1]). (2)
其中H_i为卷积神经网络第i层的空洞卷积作用函数。在空洞卷积作用在每层的输入特征得到输出特征之后,我们再将非线性激活函数作用在输出特征上,即
这里表示非线性激活函数,我们在三维混合尺度密集连接神经网络中一般使用带泄露线性整流函数(Leaky Rectified Linear Unit),也就是f(x)=max(0.01x,x)。bij为第i层输出的第j个信道的偏差参数(bias),用于矫正网络线性部分学习的偏差。Hij为第i层第j个信道的复合函数,即复合了空洞卷积函数和非线性激活函数。
(3)确定三维混合尺度密集连接神经网络单位模块。综合上述函数,我们得到三维混合尺度密集连接神经网络第i层的函数表达式,即以前面所有层的输出Z0,Z1,...,Zi-1为输入,输出第i层输出特征图像:
其中表示对来自1层的特征做空洞卷积。网络的最后一层也类似,但采用一般1×1卷积作用,特征输出Y的第j个信道表达式为
其中f′ijk为1×1大小的卷积函数,σ′表示以像素点为单位作用的归一化指数函数(Softmax)激活函数,b′k为偏差。综合得到如图3所示的三维混合尺度密集连接神经网络单位模块。
(4)结合多个单位模块得到三维混合尺度密集连接神经网络。如图4所示,为了更好得起到缩减参数量和计算量,减少训练样本的作用,不同于原始的二维混合尺度密集连接神经网络,我们对三维网络的网络结构进行了更改,即将原先的单个混合尺度密集连接神经网络当成一个模块,而三维混合尺度密集连接神经网络则是多个这样的模块相连接,在连接处仍然采用1×1卷积作用和LeakyReLU非线性激活函数。
图5为本发明提供的实施例中图像分割算法流程图,如图5所示,本发明中计算损失函数这一步骤的具体方法为,将采集到的三维图像数据随机分批(Batch)输入未训练的的三维混合尺度密集连接神经网络,得到预测分割结果,预测的分割三维图像与输入大小一致,但每个像素点位置为类别标签;将分割三维图像和与之对应的人工标注已分割三维图像输入损失函数。三维混合尺度密集连接神经网络可用一个函数来表示,给定N个样本后,对于第i个样本,设输入的三维图像真实分割类别为Yi,则在采用负对数似然损失的情况下,损失函数表达式为
图5中步骤5为通过基于梯度下降的优化器最小化损失函数值。优化器一般为基于梯度下降的Adam算法,并采用多GPU并行计算。通过优化得到三维混合尺度密集连接神经网络的参数的更新梯度,如果未达到训练轮数,则跳转到步骤6即更新神经网络参数,否则输出训练好的三维混合尺度密集连接神经网络。步骤6为使用步骤5得到的更新梯度来更新三维混合尺度密集连接神经网络的权值,并跳转至步骤4。步骤7为模型预测和测试。对于测试数据中任意的满足维数和大小要求的三维图像,在输入训练好的三维混合尺度密集连接神经网络后,都可以得到分割好的三维图像,比如一张桌子所在像素点会被标为0。
图6为本发明基于三维卷积神经网络的图像分割系统的模块连接图,如图6所示,本发明提供的一种基于三维卷积神经网络的图像分割系统,包括:
获取模块,用于获取待分割三维图像数据;
分割模块,用于将所述待分割三维图像数据输入图像分割模型中,得到分割好的三维图像数据;所述图像分割模型是训练好的三维混合尺度密集连接神经网络;所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的。
优选地,还包括训练模块;所述训练模块具体包括:
训练数据获取单元,用于获取训练三维图像数据;
标注单元,用于标注所述训练三维图像数据,得到标注图像数据;
函数确定单元,用于根据所述标注图像数据和所述训练三维图像数据确定损失函数;
梯度确定单元,用于利用梯度下降优化器最小化所述损失函数的数值,得到所述三维混合尺度密集连接神经网络的更新梯度;
判断单元,用于判断训练次数是否达到预设训练次数,若未达到所述预设训练次数,则根据所述更新梯度更新所述三维混合尺度密集连接神经网络的权值,将所述训练三维图像数据输入更新后的所述三维混合尺度密集连接神经网络中进行分割训练;若达到所述预设训练次数,则输出训练好的所述三维混合尺度密集连接神经网络。
优选地,所述图像分割模型包括多个依次连接的三维混合尺度密集连接神经网络单位模块;所述三维混合尺度密集连接神经网络单位模块包括多个密集连接块和多个转换层;所述密集连接块之间通过所述转换层进行连接;所述密集连接块内设有空洞卷积层;所述空洞卷积层的空洞数以固定循环递增;每个所述密集连接块内的卷积组成一个卷积神经网络层;每一个所述卷积神经网络层的输入是所述卷积神经网络层所在的所述密集连接块以及所述卷积神经网络层之前的所有卷积神经网络层的输出的叠加,所述卷积神经网络层后连接一个激活函数;所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出。
优选地,所述标注单元包括:
人工子单元,用于人工标注所述训练三维图像数据中不同的三维像素点,得到所述三维像素点所属类别标签的所述标注图像数据。
优选地,所述梯度确定单元包括:
优化子单元,用于以损失函数最小值为目标,通过所述梯度下降优化器进行优化;所述梯度下降优化器采用基于梯度下降的Adam算法,并采用多图形处理器并行计算。
本发明的有益效果如下:
1、本发明首次将三维空洞卷积和三维混合尺度的特征密集连接两者结合在一起,建立了三维的混合尺度密集连接神经网络。
2、本发明在已有的二维混合尺度密集连接结构基础上,进一步对网络架构进行了优化,使得参数进一步减少,网络层数可以达到更深。
3、相比其它现有三维神经网络,本发明能在使用显著少的三维图像语义分割标注数据、训练内存和训练时间的情况下,取得较高的语义分割精度。
4、本发明中训练好的神经网络模型能较快速地计算出三维图像分割结果,较好得满足了现实应用场景的实时性要求。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于三维卷积神经网络的图像分割方法,其特征在于,包括:
获取待分割三维图像数据;
将所述待分割三维图像数据输入图像分割模型中,得到分割好的三维图像数据;所述图像分割模型是训练好的三维混合尺度密集连接神经网络;所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的;所述图像分割模型包括多个依次连接的三维混合尺度密集连接神经网络单位模块;所述三维混合尺度密集连接神经网络单位模块包括多个密集连接块和多个转换层;所述密集连接块之间通过所述转换层进行连接;所述密集连接块内设有空洞卷积层;所述空洞卷积层的空洞数以固定循环递增;每个所述密集连接块内的卷积组成一个卷积神经网络层;每一个所述卷积神经网络层的输入是所述卷积神经网络层所在的所述密集连接块以及所述卷积神经网络层之前的所有卷积神经网络层的输出的叠加,所述卷积神经网络层后连接一个激活函数;所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出;所述三维混合尺度密集连接神经网络的构建方法为:
(1)确定空洞卷积结构;三维混合尺度密集连接神经网络使用了空洞卷积和密集连接两种操作,设单信道的输入输出三维图像的维数为L×M×H,网络的输入为信道数为c的三维图像X,输出为分割好的单个信道的三维图像Y′,也就是每个三维像素点位置为类别数0,1,...M-1,总共M类物体;
设网络总共有n层,各层输入为Z0,Z1,...,Zn-1,各层输出为Z1,Z2,...,Zn,则第0层,也就是输入X为Z0;相比一般的卷积,空洞卷积的卷积核中间有间隔的空洞,当空洞卷积核空洞数为s=1时,空洞卷积就是传统卷积;当空洞数为2和3,在三维混合尺度密集连接神经网络,空洞卷积作用在每层的输入特征Zi(i=1,2,...,n)上,其表达式为
其中,为卷积核为fijk的空洞卷积作用在三维特征/>第k个信道上的结果,该空洞卷积的空洞数sij,/>是计算得到网络的第i层特征的第j个信道的作用函数,在给定的三维混合尺度密集连接神经网络中,不同层的空洞卷积为大小为固定K×K×K,也即有K3个参数,空洞数以固定循环递增,即si=(s0+d×i)mod(dmax),其中,d为空洞数增长步长,si为第i层的空洞数;
(2)确定密集连接结构和非线性激活函数;除空洞卷积外,三维混合尺度密集连接神经网络还使用了密集连接操作,即网络中的任意第i层都以该层前面的每层三维特征图像为输入,并且这层网络把这些不同层的特征图像都当成一般多个信道输入特征进行处理,具体地,第i层的输入一共有i-1个,并且网络的第i层对不同特征图像使用不同的空洞卷积作用,最后联合作用得到第i层的特征;采用上一段的符号,我们得到
Zi=Hi([Z0,Z1,...,Zi-1])
其中,Hi为卷积神经网络第i层的空洞卷积作用函数;在空洞卷积作用在每层的输入特征得到输出特征之后,再将非线性激活函数作用在输出特征上,即
这里σ:表示非线性激活函数,在三维混合尺度密集连接神经网络中一般使用带泄露线性整流函数,也就是f(x)=max(0.01x,x);bij为第i层输出的第j个信道的偏差参数,用于矫正网络线性部分学习的偏差;Hij为第i层第j个信道的复合函数,即复合了空洞卷积函数和非线性激活函数;
(3)确定三维混合尺度密集连接神经网络单位模块,综合上述函数,我们得到三维混合尺度密集连接神经网络第i层的函数表达式,即以第i层之前所有层的输出Z0,Z1,…,Zi-1为输入,输出第i层输出特征图像:
其中表示对来自l层的特征做空洞卷积,Hij为第i层第j个信道的复合函数,即复合了空洞卷积函数和非线性激活函数,σ:/>表示非线性激活函数,bij为第i层输出的第j个信道的偏差参数,/>是计算得到网络的第i层特征的第j个信道的作用函数,网络的输入为信道数为c;网络的最后一层采用一般1×1卷积作用,特征输出Y的第j个信道表达式为
其中f′ijk为1×1大小的卷积函数,σ′表示以像素点为单位作用的归一化指数函数(Softmax)激活函数,b′k为偏差,综合得到三维混合尺度密集连接神经网络单位模块;
(4)结合多个单位模块得到三维混合尺度密集连接神经网络,将原先的单个混合尺度密集连接神经网络当成一个模块,而三维混合尺度密集连接神经网络则是多个这样的模块相连接,在连接处仍然采用1×1卷积作用和LeakyReLU非线性激活函数。
2.根据权利要求1所述的基于三维卷积神经网络的图像分割方法,其特征在于,所述图像分割模型的确定方法为:
获取训练三维图像数据;
标注所述训练三维图像数据,得到标注图像数据;
根据所述标注图像数据和所述训练三维图像数据确定损失函数;
利用梯度下降优化器最小化所述损失函数的数值,得到所述三维混合尺度密集连接神经网络的更新梯度;
判断训练次数是否达到预设训练次数,若未达到所述预设训练次数,则根据所述更新梯度更新所述三维混合尺度密集连接神经网络的权值,将所述训练三维图像数据输入更新后的所述三维混合尺度密集连接神经网络中进行分割训练;若达到所述预设训练次数,则输出训练好的所述三维混合尺度密集连接神经网络。
3.根据权利要求2所述的基于三维卷积神经网络的图像分割方法,其特征在于,所述标注所述训练三维图像数据,得到标注图像数据,包括:
人工标注所述训练三维图像数据中不同的三维像素点,得到所述三维像素点所属类别标签的所述标注图像数据。
4.根据权利要求2所述的基于三维卷积神经网络的图像分割方法,其特征在于,所述利用梯度下降优化器最小化所述损失函数的数值,得到所述三维混合尺度密集连接神经网络的更新梯度,包括:
以损失函数最小值为目标,通过所述梯度下降优化器进行优化;所述梯度下降优化器采用基于梯度下降的Adam算法,并采用多图形处理器并行计算。
5.一种基于三维卷积神经网络的图像分割系统,其特征在于,包括:
获取模块,用于获取待分割三维图像数据;
分割模块,用于将所述待分割三维图像数据输入图像分割模型中,得到分割好的三维图像数据;所述图像分割模型是训练好的三维混合尺度密集连接神经网络;所述三维混合尺度密集连接神经网络是基于空洞卷积和密集连接构建的;所述图像分割模型包括多个依次连接的三维混合尺度密集连接神经网络单位模块;所述三维混合尺度密集连接神经网络单位模块包括多个密集连接块和多个转换层;所述密集连接块之间通过所述转换层进行连接;所述密集连接块内设有空洞卷积层;所述空洞卷积层的空洞数以固定循环递增;每个所述密集连接块内的卷积组成一个卷积神经网络层;每一个所述卷积神经网络层的输入是所述卷积神经网络层所在的所述密集连接块以及所述卷积神经网络层之前的所有卷积神经网络层的输出的叠加,所述卷积神经网络层后连接一个激活函数;所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出;所述三维混合尺度密集连接神经网络的构建方法为:
(1)确定空洞卷积结构;三维混合尺度密集连接神经网络使用了空洞卷积和密集连接两种操作,设单信道的输入输出三维图像的维数为L×M×H,网络的输入为信道数为c的三维图像X,输出为分割好的单个信道的三维图像Y′,也就是每个三维像素点位置为类别数0,1,...M-1,总共M类物体;
设网络总共有n层,各层输入为Z0,Z1,...,Zn-1,各层输出为Z1,Z2,...,Zn,则第0层,也就是输入X为Z0;相比一般的卷积,空洞卷积的卷积核中间有间隔的空洞,当空洞卷积核空洞数为s=1时,空洞卷积就是传统卷积;当空洞数为2和3,在三维混合尺度密集连接神经网络,空洞卷积作用在每层的输入特征Zi(i=1,2,...,n)上,其表达式为
其中,为卷积核为fijk的空洞卷积作用在三维特征/>第k个信道上的结果,该空洞卷积的空洞数sij,/>是计算得到网络的第i层特征的第j个信道的作用函数,在给定的三维混合尺度密集连接神经网络中,不同层的空洞卷积为大小为固定K×K×K,也即有K3个参数,空洞数以固定循环递增,即si=(s0+d×i)mod(dmax),其中,d为空洞数增长步长,si为第i层的空洞数;
(2)确定密集连接结构和非线性激活函数;除空洞卷积外,三维混合尺度密集连接神经网络还使用了密集连接操作,即网络中的任意第i层都以该层前面的每层三维特征图像为输入,并且这层网络把这些不同层的特征图像都当成一般多个信道输入特征进行处理,具体地,第i层的输入一共有i-1个,并且网络的第i层对不同特征图像使用不同的空洞卷积作用,最后联合作用得到第i层的特征;采用上一段的符号,我们得到
Zi=Hi([Z0,Z1,...,Zi-1])
其中,Hi为卷积神经网络第i层的空洞卷积作用函数;在空洞卷积作用在每层的输入特征得到输出特征之后,再将非线性激活函数作用在输出特征上,即
这里σ:表示非线性激活函数,在三维混合尺度密集连接神经网络中一般使用带泄露线性整流函数,也就是f(x)=max(0.01x,x);bij为第i层输出的第j个信道的偏差参数,用于矫正网络线性部分学习的偏差;Hij为第i层第j个信道的复合函数,即复合了空洞卷积函数和非线性激活函数;
(4)确定三维混合尺度密集连接神经网络单位模块,综合上述函数,我们得到三维混合尺度密集连接神经网络第i层的函数表达式,即以第i层之前所有层的输出Z0,Z1,…,Zi-1为输入,输出第i层输出特征图像:
其中表示对来自l层的特征做空洞卷积,Hij为第i层第j个信道的复合函数,即复合了空洞卷积函数和非线性激活函数,σ:/>表示非线性激活函数,bij为第i层输出的第j个信道的偏差参数,/>是计算得到网络的第i层特征的第j个信道的作用函数,网络的输入为信道数为c;网络的最后一层采用一般1×1卷积作用,特征输出Y的第j个信道表达式为
其中f′ijk为1×1大小的卷积函数,σ′表示以像素点为单位作用的归一化指数函数(Softmax)激活函数,b′k为偏差,综合得到三维混合尺度密集连接神经网络单位模块;
(4)结合多个单位模块得到三维混合尺度密集连接神经网络,将原先的单个混合尺度密集连接神经网络当成一个模块,而三维混合尺度密集连接神经网络则是多个这样的模块相连接,在连接处仍然采用1×1卷积作用和LeakyReLU非线性激活函数。
6.根据权利要求5所述的基于三维卷积神经网络的图像分割系统,其特征在于,还包括训练模块;所述训练模块,具体包括:
训练数据获取单元,用于获取训练三维图像数据;
标注单元,用于标注所述训练三维图像数据,得到标注图像数据;
函数确定单元,用于根据所述标注图像数据和所述训练三维图像数据确定损失函数;
梯度确定单元,用于利用梯度下降优化器最小化所述损失函数的数值,得到所述三维混合尺度密集连接神经网络的更新梯度;
判断单元,用于判断训练次数是否达到预设训练次数,若未达到所述预设训练次数,则根据所述更新梯度更新所述三维混合尺度密集连接神经网络的权值,将所述训练三维图像数据输入更新后的所述三维混合尺度密集连接神经网络中进行分割训练;若达到所述预设训练次数,则输出训练好的所述三维混合尺度密集连接神经网络。
7.根据权利要求6所述的基于三维卷积神经网络的图像分割系统,其特征在于,所述标注单元包括:
人工子单元,用于人工标注所述训练三维图像数据中不同的三维像素点,得到所述三维像素点所属类别标签的所述标注图像数据。
8.根据权利要求6所述的基于三维卷积神经网络的图像分割系统,其特征在于,所述梯度确定单元包括:
优化子单元,用于以损失函数最小值为目标,通过所述梯度下降优化器进行优化;所述梯度下降优化器采用基于梯度下降的Adam算法,并采用多图形处理器并行计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110021578.5A CN112767402B (zh) | 2021-01-08 | 2021-01-08 | 一种基于三维卷积神经网络的图像分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110021578.5A CN112767402B (zh) | 2021-01-08 | 2021-01-08 | 一种基于三维卷积神经网络的图像分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767402A CN112767402A (zh) | 2021-05-07 |
CN112767402B true CN112767402B (zh) | 2024-06-07 |
Family
ID=75700903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110021578.5A Active CN112767402B (zh) | 2021-01-08 | 2021-01-08 | 一种基于三维卷积神经网络的图像分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767402B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114119982A (zh) * | 2021-11-13 | 2022-03-01 | 中国地质科学院地球物理地球化学勘查研究所 | 一种应用于地热勘探的大地电磁测深方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
CN109522966A (zh) * | 2018-11-28 | 2019-03-26 | 中山大学 | 一种基于密集连接卷积神经网络的目标检测方法 |
CN109903292A (zh) * | 2019-01-24 | 2019-06-18 | 西安交通大学 | 一种基于全卷积神经网络的三维图像分割方法及系统 |
CN111860386A (zh) * | 2020-07-27 | 2020-10-30 | 山东大学 | 一种基于ConvLSTM卷积神经网络的视频语义分割方法 |
CN112001218A (zh) * | 2020-06-19 | 2020-11-27 | 中国科学院计算技术研究所 | 一种基于卷积神经网络的三维颗粒类别检测方法及系统 |
CN112052865A (zh) * | 2019-06-05 | 2020-12-08 | 北京京东尚科信息技术有限公司 | 用于生成神经网络模型的方法和装置 |
-
2021
- 2021-01-08 CN CN202110021578.5A patent/CN112767402B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
CN109522966A (zh) * | 2018-11-28 | 2019-03-26 | 中山大学 | 一种基于密集连接卷积神经网络的目标检测方法 |
CN109903292A (zh) * | 2019-01-24 | 2019-06-18 | 西安交通大学 | 一种基于全卷积神经网络的三维图像分割方法及系统 |
CN112052865A (zh) * | 2019-06-05 | 2020-12-08 | 北京京东尚科信息技术有限公司 | 用于生成神经网络模型的方法和装置 |
CN112001218A (zh) * | 2020-06-19 | 2020-11-27 | 中国科学院计算技术研究所 | 一种基于卷积神经网络的三维颗粒类别检测方法及系统 |
CN111860386A (zh) * | 2020-07-27 | 2020-10-30 | 山东大学 | 一种基于ConvLSTM卷积神经网络的视频语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112767402A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135580B (zh) | 一种卷积网络全整型量化方法及其应用方法 | |
CN109165660B (zh) | 一种基于卷积神经网络的显著物体检测方法 | |
CN107292352B (zh) | 基于卷积神经网络的图像分类方法和装置 | |
CN111986125B (zh) | 一种用于多目标任务实例分割的方法 | |
CN110660478A (zh) | 一种基于迁移学习的癌症图像预测判别方法和系统 | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
CN115115924A (zh) | 基于ir7-ec网络的混凝土图像裂缝类型迅捷智能识别方法 | |
CN113420643B (zh) | 基于深度可分离空洞卷积的轻量级水下目标检测方法 | |
CN111582943A (zh) | 基于cnn和lstm的电力系统负荷预测方法 | |
CN113627093B (zh) | 一种基于改进Unet网络的水下机构跨尺度流场特征预测方法 | |
CN111079837B (zh) | 一种用于二维灰度图像检测识别分类的方法 | |
CN113628201A (zh) | 基于深度学习的病理切片分析方法、电子设备及可读存储介质 | |
CN111161224A (zh) | 基于深度学习的铸件内部缺陷分级评估系统及方法 | |
CN111127360A (zh) | 一种基于自动编码器的灰度图像迁移学习方法 | |
CN116362325A (zh) | 一种基于模型压缩的电力图像识别模型轻量化应用方法 | |
CN114239861A (zh) | 基于多教师联合指导量化的模型压缩方法及系统 | |
CN115797808A (zh) | 一种无人机巡检缺陷图像的识别方法、系统、装置及介质 | |
CN112767402B (zh) | 一种基于三维卷积神经网络的图像分割方法及系统 | |
CN112597919A (zh) | 基于YOLOv3剪枝网络和嵌入式开发板的实时药盒检测方法 | |
CN113807497B (zh) | 一种增强纹理细节的非配对图像翻译方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN114580517A (zh) | 一种图像识别模型的确定方法及装置 | |
US20220138554A1 (en) | Systems and methods utilizing machine learning techniques for training neural networks to generate distributions | |
CN114295967A (zh) | 一种基于迁移神经网络的模拟电路故障诊断方法 | |
CN116433980A (zh) | 脉冲神经网络结构的图像分类方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240906 Address after: 100,070 2-402, Building 40, Sanli, Xincun, Fengtai District, Beijing Patentee after: Beijing Hanggui Zhixing Technology Co.,Ltd. Country or region after: China Address before: 100070 40-2-402, Sanli, Xincun, Fengtai District, Beijing Patentee before: Beijing closed loop Technology Co.,Ltd. Country or region before: China |