CN110880001A - 一种语义分割神经网络的训练方法、设备和存储介质 - Google Patents
一种语义分割神经网络的训练方法、设备和存储介质 Download PDFInfo
- Publication number
- CN110880001A CN110880001A CN201811039142.3A CN201811039142A CN110880001A CN 110880001 A CN110880001 A CN 110880001A CN 201811039142 A CN201811039142 A CN 201811039142A CN 110880001 A CN110880001 A CN 110880001A
- Authority
- CN
- China
- Prior art keywords
- neural network
- semantic segmentation
- image
- training
- segmentation neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 299
- 230000011218 segmentation Effects 0.000 title claims abstract description 280
- 238000012549 training Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000006870 function Effects 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 15
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005286 illumination Methods 0.000 abstract description 7
- 238000003709 image segmentation Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种语义分割神经网络的训练方法、设备和存储介质。该方法包括:连接第一语义分割神经网络和第二语义分割神经网络;利用训练图像及其对应的监督图像,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。本发明通过训练相互连接的第一语义分割神经网络和第二语义分割神经网络,实现两阶段的语义分割,可以在图像比较模糊,目标对象边缘不清晰,分辨率较低,图像光照条件较差的情况下,对指定的目标对象进行快速的、高精度的语义分割。
Description
技术领域
本发明涉及模型训练技术领域,尤其涉及一种语义分割神经网络的训练方法、设备和存储介质。
背景技术
图像分割是指将图像分成若干个特定的、具有独特性质的区域并提取出感兴趣目标的技术和过程。
目前,图像分割技术通常利用一个神经网络,例如:利用一个U-net神经网络,对图像进行端到端的语义分割,也就是让神经网络学习从RGB(Red、Green、Blue,红、绿、蓝)图像空间直接到分割图像的映射,这种方法在实际应用中取得了比较好的效果,但是依然存在以下问题:
神经网络的结构复杂,运行速度较慢,分割的结果容易受到光照、背景、遮挡物以及图像质量(例如:模糊程度)等因素的影响,导致对目标对象边缘的分割不够精细,尤其在光照较暗或者背景和前景颜色类似的时候,分割图像上会出现大量干扰噪声。例如:如图1所示,左侧的图像为原始图像,右侧的图像为利用U-net神经网络分割后的图像,从分割后的图像可以清楚的看到,人像边缘的分割不清晰,伴随大量的干扰噪声。造成这种问题的原因主要在于,现有的U-net神经网络参数量大、层数较深,并且包含局部最大池化层以便进行下采样卷积,最大池化层的操作丢失了图像信息,所以这种方式的下采样对于语义分割的精度不利。
发明内容
本发明的主要目的在于提供一种语义分割神经网络的训练方法、设备和存储介质,以解决现有技术图像分割方法对目标对象的图像分割精度低的问题。
针对上述技术问题,本发明是通过以下技术方案来解决的:
本发明提供了一种语义分割神经网络的训练方法,包括:连接第一语义分割神经网络和第二语义分割神经网络;利用训练图像及其对应的监督图像,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。
其中,所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,包括:采用随机梯度下降法,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。
其中,所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,包括:获取对应的训练图像和监督图像;将所述训练图像输入到用于分割目标对象的第一语义分割神经网络,获得所述目标对象的粗分割图像和所述训练图像的特征图像;将所述训练图像、所述粗分割图像和所述特征图像以通道并联的方式输入到用于进一步分割所述目标对象的第二语义分割神经网络,获得所述目标对象的细分割图像;根据所述训练图像对应的监督图像,确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛;如果否,则调整所述第一语义分割神经网络和所述第二语义分割神经网络,获取下一组对应的训练图像和监督图像,继续对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。
其中,在所述获取对应的训练图像和监督图像之前,还包括:在所述第一语义分割神经网络的输出端设置第一损失函数,在所述第二语义分割神经网络的输出端设置第二损失函数;所述根据所述训练图像对应的监督图像,确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛,包括:利用所述第一损失函数确定所述粗分割图像相对于所述监督图像的第一损失程度;利用所述第二损失函数确定所述细分割图像相对于所述监督图像的第二损失程度;如果在预设次数的端到端训练中,所述第一损失程度和所述第二损失程度都未发生变化,则确定所述第一语义分割神经网络和所述第二语义分割神经网络收敛。
其中,所述训练图像为3通道数据,所述粗分割图像为1通道数据,所述特征图像为n通道数据,所述细分割图像为1通道数据,n为大于等于1的正整数。
其中,所述第一语义分割神经网络为第一U-net神经网络,和/或,所述第二语义分割神经网络为第二U-net神经网络。
其中,所述第一U-net神经网络和/或所述第二U-net神经网络,包括:从输入端到输出端顺序串联一个步幅为1的3×3卷积核,五个步幅为2的3×3卷积核,一个步幅为1的3×3卷积核,五个步幅为2的3×3反卷积核和两个步幅为1的1×1卷积核;其中,所述五个步幅为2的3×3卷积核为下采样卷积核,所述五个步幅为2的3×3反卷积核为上采样反卷积核,将步幅为2的3×3下采样卷积核的输出通过跳连复制的方式与之特征图尺度大小对应的步幅为2的3×3上采样反卷积核的输出进行通道并联。
其中,每个所述3×3卷积核为32通道数据;每个所述3×3反卷积核为32通道数据;从所述输入端到所述输出端,前一个所述1×1卷积核为64通道数据,后一个所述1×1卷积核为1通道数据。
本发明还提供了一种语义分割神经网络的训练设备,所述语义分割神经网络的训练设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的语义分割神经网络的训练方法的步骤。
本发明还提供了一种存储介质,所述存储介质上存储有语义分割神经网络的训练程序,所述语义分割神经网络的训练程序被处理器执行时实现上述的语义分割神经网络的训练方法的步骤。
本发明有益效果如下:
本发明通过训练相互连接的第一语义分割神经网络和第二语义分割神经网络,实现两阶段的语义分割,可以在图像比较模糊,目标对象边缘不清晰,分辨率较低,图像光照条件较差的情况下,对指定的目标对象进行快速的、高精度的语义分割。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是现有技术的图像分割效果图;
图2是根据本发明实施例一的语义分割神经网络的训练方法的流程图;
图3是根据本发明实施例二的语义分割神经网络的训练方法的流程图;
图4是根据本发明实施例二的图像分割方法的效果图;
图5是根据本发明实施例二的图像分割方法的效果图;
图6是根据本发明实施例二的图像分割方法的效果图;
图7是根据本发明实施例三的U-net神经网络的结构图;
图8是根据本发明实施例三的语义分割神经网络的结构图;
图9为根据本发明实施例四的对视频图像分割的步骤流程图;
图10为根据本发明实施例五的语义分割神经网络的训练设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
实施例一
根据本发明的实施例,提供了一种语义分割神经网络的训练方法。本发明的语义分割神经网络包括第一语义分割神经网络和第二语义分割神经网络。本发明的语义分割神经网络可以用于图像分割。
图2为根据本发明实施例一的语义分割神经网络的训练方法的流程图。
步骤S210,连接第一语义分割神经网络和第二语义分割神经网络。
第一语义分割神经网络用于初步分割出目标对象。第二语义分割神经网络用于进一步分割出目标对象。
将第一语义分割神经网络的输入端和输出端分别连接第二语义分割神经网络的输入端,使得第一语义分割神经网络连接第二语义分割神经网络。
连接第一语义分割神经网络和第二语义分割神经网络,将第一语义分割神经网络和第二语义分割神经网络作为一个训练模型,将第一语义分割神经网络的输入作为训练模型的输入,将第二语义分割神经网络的输出作为训练模型的输出。本实施例的训练模型可以实现高精度、强鲁棒性的语义分割。
在本实施例中,第一语义分割神经网络和第二语义分割神经网络的网络结构可以相同或者不同。第一语义分割神经网络和第二语义分割神经网络的网络类型也可以相同或者不同。
在本实施例中,第一语义分割神经网络为第一U-net神经网络,和/或,第二语义分割神经网络为第二U-net神经网络。
需要说明的是:本实施例的高精度、强鲁棒性的语义分割方式不局限于U-net神经网络框架,任何语义分割的神经网络框架都能适用。
步骤S220,利用训练图像及其对应的监督图像,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。
预设训练集,在该训练集中包括:多组训练图像和监督图像。利用预先设置的训练集对训练模型进行训练。
训练图像和监督图像成对使用。监督图像是指已经在该训练图像中标注出目标对象的图像。监督图像可以用于确定第一语义分割神经网络和第二语义分割神经网络对训练图像的分割是否准确。
在本实施例中,可以采用随机梯度下降法,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。
本实施例通过训练相互连接的第一语义分割神经网络和第二语义分割神经网络,实现两阶段的语义分割,可以在图像比较模糊,目标对象边缘不清晰,分辨率较低,图像光照条件较差的情况下,对指定的目标对象进行快速的、高精度的语义分割。
本实施例训练的第一语义分割神经网络和第二语义分割神经网络适用于可以采用语义分割的各种应用场景中,例如:在安防领域中对图像中人形的分割,在工业领域对工业现场各种零件的分割等等。
实施例二
本实施例将对采用随机梯度下降法,对第一语义分割神经网络和第二语义分割神经网络同时进行端到端训练的过程进行进一步地描述。
图3为根据本发明实施例二的语义分割神经网络的训练方法的流程图。
步骤S310,获取对应的训练图像和监督图像。
训练图像为待分割图像。训练图像为RGB图像。
训练图像中包含待分割的目标对象。监督图像中包含已分割的目标对象。该目标对象可以为人像、物像等。
步骤S320,将训练图像输入到用于分割目标对象的第一语义分割神经网络,获得目标对象的粗分割图像和训练图像的特征图像。
步骤S330,将训练图像、粗分割图像和特征图像以通道并联的方式输入到用于进一步分割目标对象的第二语义分割神经网络,获得目标对象的细分割图像。
目标对象的粗分割图像是对目标对象的初步分割结果。
训练图像的特征图像包括:全局特征和局部特征。全局特征用于表示训练图像的整体特征。局部特征用于表示训练图像的局部特征。特征的种类包括但不限于:颜色特征、纹理特征和形状特征。
目标对象的细分割图像是对目标对象的最终分割结果。
在本实施例中,训练图像为3通道数据,粗分割图像为1通道数据,特征图像为n通道数据,细分割图像为1通道数据,n为大于等于1的正整数。进一步地,为了使图像分割效果更优,n可以为大于等于8的正整数。
例如:特征图像为64通道数据。进一步地,3通道数据的训练图像、1通道数据的粗分割图像和64通道数据的特征图像将合并为68通道的数据作为第二语义分割神经网络的输入,3通道数据的训练图像和64通道数据的特征图像将作为强先验信息,使得第二语义分割神经网络中的每个神经元都具有全局视野,并能够依据分割的需要自由地组合全局特征和局部特征,将在第一语义分割神经网络的基础上,利用训练图像修正第一语义分割神经网络的误判,去除粗分割图像中的噪声以及填充粗分割图像中的细节等。
如图4、图5和图6所示,为根据本发明实施例二的图像分割效果图。在图4、图5和图6中,左面的图像为训练图像,中间的图像为人像的粗分割图像,右面的图像为人像的细分割图像。在图4、图5和图6中可以看到,第一语义分割神经网络输出的粗分割图像的人像边缘处理不够精细,受背景、光照、分辨率的影响,存在误判噪声或分割不全的问题,第二语义分割神经网络输出的细分割图像有效地克服了这些因素的影响,人像的边缘分割清晰,进而通过两阶段的语义分割实现了高精度、强鲁棒性的分割。
步骤S340,根据训练图像对应的监督图像,确定第一语义分割神经网络和第二语义分割神经网络是否收敛;如果是,则执行步骤S350;如果否,则执行步骤S360。
步骤S350,输出训练完毕的第一语义分割神经网络和第二语义分割神经网络。
步骤S360,调整第一语义分割神经网络和第二语义分割神经网络,跳转到步骤S310,获取下一组对应的训练图像和监督图像,继续对第一语义分割神经网络和第二语义分割神经网络进行端到端训练,直到第一语义分割神经网络和第二语义分割神经网络收敛为止。
在所述获取对应的训练图像和监督图像之前,在所述第一语义分割神经网络的输出端设置第一损失函数,在所述第二语义分割神经网络的输出端设置第二损失函数;利用所述第一损失函数确定所述粗分割图像相对于所述监督图像的第一损失程度;利用所述第二损失函数确定所述细分割图像相对于所述监督图像的第二损失程度;如果在预设次数的端到端训练中,所述第一损失程度和所述第二损失程度都未发生变化,则确定所述第一语义分割神经网络和所述第二语义分割神经网络收敛。进一步地,向第一语义分割神经网络输入一次训练图像,即为一次端到端训练的开始。
具体的,在第一语义分割神经网络和第二语义分割神经网络的输出端分别设置相同的监督图像;将该监督图像对应的训练图像输入第一语义分割神经网络,以便利用第一语义分割神经网络对该训练图像进行粗分割,输出目标对象的粗分割图像和训练图像的特征图像,利用第一损失函数确定粗分割图像相对于监督图像的第一损失程度;将该监督图像对应的训练图像、目标对象的粗分割图像和训练图像的特征图像以通道并联的方式输入第二语义分割神经网络,以便利用第二语义分割神经网络进行细分割,该细分割是使用该训练图像和特征图像对该粗分割图像进行目标对象的再分割,输出目标对象的细分割图像,利用第二损失函数确定细分割图像相对于监督图像的第二损失程度。根据第一损失函数的值(第一损失程度)调整第一语义分割神经网络中参数,根据第二损失函数的值(第二损失程度)调整第二语义分割神经网络中的参数,再利用下一组训练图像和监督图像,同时对第一语义分割神经网络和第二语义分割神经网络进行端到端训练,以此类推,直到第一损失函数的值和第二损失函数的值不再发生变化为止,确定第一语义分割神经网络和第二语义分割神经网络收敛。
在第一语义分割神经网络和第二语义分割神经网络收敛之后,去除设置在第一语义分割神经网络输出端的第一损失函数和设置在第二语义分割神经网络输出端的第二损失函数,这样就可以将第一语义分割神经网络和第二语义分割神经网络组成的用于图像分割的网络应用到图像分割之中了。
在本实施例中,第一损失函数和/或第二损失函数为均方误差损失函数。
本实施例的训练速度快。本实施例的语义分割精度高、鲁棒性强,在具有遮挡、边缘模糊、分辨率较低、光照条件较差的情况下,本实施例的分割效果较佳,并且能够纠正误判、去除噪声、优化目标对象边界。
实施例三
在训练语义分割神经网络之前,需要设置语义分割神经网络中的第一语义分割神经网络和第二语义分割神经网络,下面对本发明的第一语义分割神经网络和第二语义分割神经网络的网络结构进行进一步地说明。
第一语义分割神经网络为第一U-net神经网络,和/或,所述第二语义分割神经网络为第二U-net神经网络。例如:第一U-net神经网络和/或第二U-net神经网络采用图7所示的U-net神经网络。
由图7可知,所述第一U-net神经网络和/或所述第二U-net神经网络,包括:从输入端到输出端顺序串联一个步幅为1的3×3卷积核,五个步幅为2的3×3卷积核,一个步幅为1的3×3卷积核,五个步幅为2的3×3反卷积核和两个步幅为1的1×1卷积核;其中,所述五个步幅为2的3×3卷积核为下采样卷积核,所述五个步幅为2的3×3反卷积核为上采样反卷积核,将步幅为2的3×3下采样卷积核的输出通过跳连复制的方式与之特征图尺度大小对应的步幅为2的3×3上采样反卷积核的输出进行通道并联。
进一步地,每个3×3卷积核为32通道数据;每个3×3反卷积核为32通道数据;从所述输入端到所述输出端,前一个1×1卷积核为64通道数据,后一个1×1卷积核为1通道数据。在后一个1×1卷积核处可以设置softmax激活函数,该softmax激活函数可以对图像进行归一化。
在U-net神经网络中,前半部分的步幅为2的3×3卷积核的输出通过跳连复制与后半部分与之特征图尺度大小对应的3×3反卷积的输出进行通道并联,从而在后半部分实现不同视野大小的信息整合。
在连接第一U-net神经网络和第二U-net神经网络之后,可以形成本实施例的语义分割神经网络,其可称为图像分割网络。如图8所示,为根据本发明第三实施例的语义分割神经网络的结构图。
由图8可知,第一U-net神经网络和第二U-net神经网络都采用了图7的U-net神经网络,第一U-net神经网络的输入端和输出端分别连接第二U-net神经网络的输入端,从而可以使训练图像、目标对象的粗分割图像和训练图像的特征图像以通道并联的方式输入第二U-net神经网络。3通道数据的原始图像通过图8所示的语义分割神经网络,粗分割图像为1通道数据,特征图像为64通道数据,细分割图像为1通道数据。
在本实施例中,对U-net神经网络的框架进行了精简优化,整个语义分割神经网络的卷积参数大量缩减,取消了最大池化层,而是用步幅为2的卷积核进行下采样,保留了底层信息复制到高层进行信息整合的操作,基于本实施例的U-net神经网络,可以在信息表达能力不损失的情况下,使U-net神经网络的信息处理速度加快,可以实现高精度、强鲁棒性的语义分割。
实施例四
下面给出一个应用本发明训练的语义分割神经网络进行图像分割的实例。图9为根据本发明实施例四的对视频图像分割的步骤流程图。
步骤S910,获取待图像分割的视频数据。
步骤S920,按照视频数据中各帧视频图像的播放顺序,顺次获取视频数据中的每一帧视频图像,将当前获取的视频图像输入第一语义分割神经网络,获取目标对象的粗分割图像和该视频图像的特征图像。
步骤S930,将目标对象的粗分割图像和该视频图像的特征图像输入第二语义分割神经网络,获得目标对象的细分割图像。
在本实施例中,第一语义分割神经网络和第二语义分割神经网络都用于分割出图像中的目标对象。该目标对象例如是图像中的人像。
步骤S940,判断视频数据中的所有视频图像是否都获取完毕;如果是,则执行步骤S950;如果否,则执行步骤S920,以便获取视频数据中的下一帧视频图像。
步骤S950,按照细分割图像对应的视频图像在视频数据中的播放顺序,合成获得的多个细分割图像,得到图像分割视频数据。
图像分割视频数据中的每帧图像都是细分割图像。
例如:在播放视频数据的过程中,获取当前播放的视频图像,将当前播放的视频图像输入第一语义分割神经网络,获取目标对象的粗分割图像和该视频图像的特征图像;再将目标对象的粗分割图像和该视频图像的特征图像输入第二语义分割神经网络,获得目标对象的细分割图像;在视频数据播放完毕之后,将顺次分割出的细分割图像合成为图像分割视频数据。整个图像分割过程快速,且分割精度高,在播放该合成的图像分割视频数据时,可以看到动态的目标对象,可以应用在安防等领域中。
实施例五
本实施例提供一种语义分割神经网络的训练设备。如图10所示,为根据本发明实施例五的语义分割神经网络的训练设备的结构图。
在本实施例中,所述语义分割神经网络的训练设备1000,包括但不限于:处理器1010、存储器1020。
所述处理器1010用于执行存储器1020中存储的图像分割程序,以实现实施例一~实施例四所述的语义分割神经网络的训练方法。
具体而言,所述处理器1010用于执行存储器1020中存储的语义分割神经网络的训练程序,以实现以下步骤:连接第一语义分割神经网络和第二语义分割神经网络;利用训练图像及其对应的监督图像,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。
可选的,所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,包括:采用随机梯度下降法,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。
可选的,所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,包括:获取对应的训练图像和监督图像;将所述训练图像输入到用于分割目标对象的第一语义分割神经网络,获得所述目标对象的粗分割图像和所述训练图像的特征图像;将所述训练图像、所述粗分割图像和所述特征图像以通道并联的方式输入到用于进一步分割所述目标对象的第二语义分割神经网络,获得所述目标对象的细分割图像;根据所述训练图像对应的监督图像,确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛;如果否,则调整所述第一语义分割神经网络和所述第二语义分割神经网络,获取下一组对应的训练图像和监督图像,继续对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。
可选的,在所述获取对应的训练图像和监督图像之前,还包括:在所述第一语义分割神经网络的输出端设置第一损失函数,在所述第二语义分割神经网络的输出端设置第二损失函数;所述根据所述训练图像对应的监督图像,确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛,包括:利用所述第一损失函数确定所述粗分割图像相对于所述监督图像的第一损失程度;利用所述第二损失函数确定所述细分割图像相对于所述监督图像的第二损失程度;如果在预设次数的端到端训练中,所述第一损失程度和所述第二损失程度都未发生变化,则确定所述第一语义分割神经网络和所述第二语义分割神经网络收敛。
可选的,所述训练图像为3通道数据,所述粗分割图像为1通道数据,所述特征图像为n通道数据,所述细分割图像为1通道数据,n为大于等于1的正整数。
可选的,所述第一语义分割神经网络为第一U-net神经网络,和/或,所述第二语义分割神经网络为第二U-net神经网络。
可选的,所述第一U-net神经网络和/或所述第二U-net神经网络,包括:从输入端到输出端顺序串联一个步幅为1的3×3卷积核,五个步幅为2的3×3卷积核,一个步幅为1的3×3卷积核,五个步幅为2的3×3反卷积核和两个步幅为1的1×1卷积核;其中,所述五个步幅为2的3×3卷积核为下采样卷积核,所述五个步幅为2的3×3反卷积核为上采样反卷积核,将步幅为2的3×3下采样卷积核的输出通过跳连复制的方式与之特征图尺度大小对应的步幅为2的3×3上采样反卷积核的输出进行通道并联。
可选的,每个所述3×3卷积核为32通道数据;每个所述3×3反卷积核为32通道数据;从所述输入端到所述输出端,前一个所述1×1卷积核为64通道数据,后一个所述1×1卷积核为1通道数据。
实施例六
本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述的语义分割神经网络的训练方法。
具体而言,所述处理器用于执行存储器中存储的语义分割神经网络的训练程序,以实现以下步骤:连接第一语义分割神经网络和第二语义分割神经网络;利用训练图像及其对应的监督图像,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。
可选的,所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,包括:采用随机梯度下降法,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。
可选的,所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,包括:获取对应的训练图像和监督图像;将所述训练图像输入到用于分割目标对象的第一语义分割神经网络,获得所述目标对象的粗分割图像和所述训练图像的特征图像;将所述训练图像、所述粗分割图像和所述特征图像以通道并联的方式输入到用于进一步分割所述目标对象的第二语义分割神经网络,获得所述目标对象的细分割图像;根据所述训练图像对应的监督图像,确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛;如果否,则调整所述第一语义分割神经网络和所述第二语义分割神经网络,获取下一组对应的训练图像和监督图像,继续对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。
可选的,在所述获取对应的训练图像和监督图像之前,还包括:在所述第一语义分割神经网络的输出端设置第一损失函数,在所述第二语义分割神经网络的输出端设置第二损失函数;所述根据所述训练图像对应的监督图像,确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛,包括:利用所述第一损失函数确定所述粗分割图像相对于所述监督图像的第一损失程度;利用所述第二损失函数确定所述细分割图像相对于所述监督图像的第二损失程度;如果在预设次数的端到端训练中,所述第一损失程度和所述第二损失程度都未发生变化,则确定所述第一语义分割神经网络和所述第二语义分割神经网络收敛。
可选的,所述训练图像为3通道数据,所述粗分割图像为1通道数据,所述特征图像为n通道数据,所述细分割图像为1通道数据,n为大于等于1的正整数。
可选的,所述第一语义分割神经网络为第一U-net神经网络,和/或,所述第二语义分割神经网络为第二U-net神经网络。
可选的,所述第一U-net神经网络和/或所述第二U-net神经网络,包括:从输入端到输出端顺序串联一个步幅为1的3×3卷积核,五个步幅为2的3×3卷积核,一个步幅为1的3×3卷积核,五个步幅为2的3×3反卷积核和两个步幅为1的1×1卷积核;其中,所述五个步幅为2的3×3卷积核为下采样卷积核,所述五个步幅为2的3×3反卷积核为上采样反卷积核,将步幅为2的3×3下采样卷积核的输出通过跳连复制的方式与之特征图尺度大小对应的步幅为2的3×3上采样反卷积核的输出进行通道并联。
可选的,每个所述3×3卷积核为32通道数据;每个所述3×3反卷积核为32通道数据;从所述输入端到所述输出端,前一个所述1×1卷积核为64通道数据,后一个所述1×1卷积核为1通道数据。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种语义分割神经网络的训练方法,其特征在于,包括:
连接第一语义分割神经网络和第二语义分割神经网络;
利用训练图像及其对应的监督图像,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。
2.根据权利要求1所述的方法,其特征在于,所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,包括:
采用随机梯度下降法,同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。
3.根据权利要求2所述的方法,其特征在于,所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,包括:
获取对应的训练图像和监督图像;
将所述训练图像输入到用于分割目标对象的第一语义分割神经网络,获得所述目标对象的粗分割图像和所述训练图像的特征图像;
将所述训练图像、所述粗分割图像和所述特征图像以通道并联的方式输入到用于进一步分割所述目标对象的第二语义分割神经网络,获得所述目标对象的细分割图像;
根据所述训练图像对应的监督图像,确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛;
如果否,则调整所述第一语义分割神经网络和所述第二语义分割神经网络,获取下一组对应的训练图像和监督图像,继续对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练,直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。
4.根据权利要求3所述的方法,其特征在于,
在所述获取对应的训练图像和监督图像之前,还包括:
在所述第一语义分割神经网络的输出端设置第一损失函数,在所述第二语义分割神经网络的输出端设置第二损失函数;
所述根据所述训练图像对应的监督图像,确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛,包括:
利用所述第一损失函数确定所述粗分割图像相对于所述监督图像的第一损失程度;利用所述第二损失函数确定所述细分割图像相对于所述监督图像的第二损失程度;
如果在预设次数的端到端训练中,所述第一损失程度和所述第二损失程度都未发生变化,则确定所述第一语义分割神经网络和所述第二语义分割神经网络收敛。
5.根据权利要求3所述的方法,其特征在于,所述训练图像为3通道数据,所述粗分割图像为1通道数据,所述特征图像为n通道数据,所述细分割图像为1通道数据,n为大于等于1的正整数。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述第一语义分割神经网络为第一U-net神经网络,和/或,所述第二语义分割神经网络为第二U-net神经网络。
7.根据权利要求6所述的方法,其特征在于,所述第一U-net神经网络和/或所述第二U-net神经网络,包括:
从输入端到输出端顺序串联一个步幅为1的3×3卷积核,五个步幅为2的3×3卷积核,一个步幅为1的3×3卷积核,五个步幅为2的3×3反卷积核和两个步幅为1的1×1卷积核;其中,所述五个步幅为2的3×3卷积核为下采样卷积核,所述五个步幅为2的3×3反卷积核为上采样反卷积核,将步幅为2的3×3下采样卷积核的输出通过跳连复制的方式与之特征图尺度大小对应的步幅为2的3×3上采样反卷积核的输出进行通道并联。
8.根据权利要求7所述的方法,其特征在于,
每个所述3×3卷积核为32通道数据;
每个所述3×3反卷积核为32通道数据;
从所述输入端到所述输出端,前一个所述1×1卷积核为64通道数据,后一个所述1×1卷积核为1通道数据。
9.一种语义分割神经网络的训练设备,其特征在于,所述语义分割神经网络的训练设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1~8中任一项所述的语义分割神经网络的训练方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有语义分割神经网络的训练程序,所述语义分割神经网络的训练程序被处理器执行时实现如权利要求1~8中任一项所述的语义分割神经网络的训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811039142.3A CN110880001A (zh) | 2018-09-06 | 2018-09-06 | 一种语义分割神经网络的训练方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811039142.3A CN110880001A (zh) | 2018-09-06 | 2018-09-06 | 一种语义分割神经网络的训练方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110880001A true CN110880001A (zh) | 2020-03-13 |
Family
ID=69727538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811039142.3A Pending CN110880001A (zh) | 2018-09-06 | 2018-09-06 | 一种语义分割神经网络的训练方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110880001A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524141A (zh) * | 2020-04-30 | 2020-08-11 | 上海东软医疗科技有限公司 | 图像分割方法、装置、ct设备及ct系统 |
CN112085067A (zh) * | 2020-08-17 | 2020-12-15 | 浙江大学 | 一种高通量筛选dna损伤反应抑制剂的方法 |
WO2021243787A1 (zh) * | 2020-06-05 | 2021-12-09 | 中国科学院自动化研究所 | 基于类内判别器的弱监督图像语义分割方法、系统、装置 |
CN114240954A (zh) * | 2021-12-16 | 2022-03-25 | 推想医疗科技股份有限公司 | 网络模型的训练方法及装置、图像分割方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886801A (zh) * | 2017-04-14 | 2017-06-23 | 北京图森未来科技有限公司 | 一种图像语义分割方法及装置 |
CN107729908A (zh) * | 2016-08-10 | 2018-02-23 | 阿里巴巴集团控股有限公司 | 一种机器学习分类模型的建立方法、装置及系统 |
CN107945204A (zh) * | 2017-10-27 | 2018-04-20 | 西安电子科技大学 | 一种基于生成对抗网络的像素级人像抠图方法 |
CN108389210A (zh) * | 2018-02-28 | 2018-08-10 | 深圳天琴医疗科技有限公司 | 一种医学图像分割方法及装置 |
-
2018
- 2018-09-06 CN CN201811039142.3A patent/CN110880001A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729908A (zh) * | 2016-08-10 | 2018-02-23 | 阿里巴巴集团控股有限公司 | 一种机器学习分类模型的建立方法、装置及系统 |
CN106886801A (zh) * | 2017-04-14 | 2017-06-23 | 北京图森未来科技有限公司 | 一种图像语义分割方法及装置 |
CN107945204A (zh) * | 2017-10-27 | 2018-04-20 | 西安电子科技大学 | 一种基于生成对抗网络的像素级人像抠图方法 |
CN108389210A (zh) * | 2018-02-28 | 2018-08-10 | 深圳天琴医疗科技有限公司 | 一种医学图像分割方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524141A (zh) * | 2020-04-30 | 2020-08-11 | 上海东软医疗科技有限公司 | 图像分割方法、装置、ct设备及ct系统 |
WO2021243787A1 (zh) * | 2020-06-05 | 2021-12-09 | 中国科学院自动化研究所 | 基于类内判别器的弱监督图像语义分割方法、系统、装置 |
US11887354B2 (en) | 2020-06-05 | 2024-01-30 | Institute Of Automation, Chinese Academy Of Sciences | Weakly supervised image semantic segmentation method, system and apparatus based on intra-class discriminator |
CN112085067A (zh) * | 2020-08-17 | 2020-12-15 | 浙江大学 | 一种高通量筛选dna损伤反应抑制剂的方法 |
CN114240954A (zh) * | 2021-12-16 | 2022-03-25 | 推想医疗科技股份有限公司 | 网络模型的训练方法及装置、图像分割方法及装置 |
CN114240954B (zh) * | 2021-12-16 | 2022-07-08 | 推想医疗科技股份有限公司 | 网络模型的训练方法及装置、图像分割方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929720B2 (en) | Image processing method, image processing apparatus, and computer storage medium | |
CN109325954B (zh) | 图像分割方法、装置及电子设备 | |
Chen et al. | Gated context aggregation network for image dehazing and deraining | |
CN115442515B (zh) | 图像处理方法和设备 | |
CN110880001A (zh) | 一种语义分割神经网络的训练方法、设备和存储介质 | |
EP4109392A1 (en) | Image processing method and image processing device | |
EP3951702A1 (en) | Method for training image processing model, image processing method, network device, and storage medium | |
JP7362297B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN108764039B (zh) | 神经网络、遥感影像的建筑物提取方法、介质及计算设备 | |
US11195055B2 (en) | Image processing method, image processing apparatus, storage medium, image processing system, and manufacturing method of learnt model | |
CN110136055B (zh) | 图像的超分辨率方法和装置、存储介质、电子装置 | |
CN110880183A (zh) | 一种图像分割方法、设备和计算机可存储介质 | |
JP7353803B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN111179196B (zh) | 一种基于分而治之的多分辨率深度网络图像去高光方法 | |
CN111754531A (zh) | 图像实例分割方法和装置 | |
CN113450290A (zh) | 基于图像修补技术的低照度图像增强方法及系统 | |
CN111325671B (zh) | 网络训练方法、装置、图像处理方法及电子设备 | |
US11783454B2 (en) | Saliency map generation method and image processing system using the same | |
Chen et al. | Attention-based Broad Self-guided Network for Low-light Image Enhancement | |
CN113744142A (zh) | 图像修复方法、电子设备及存储介质 | |
CN113781468A (zh) | 一种基于轻量级卷积神经网络的舌图像分割方法 | |
CN112489103A (zh) | 一种高分辨率深度图获取方法及系统 | |
WO2023206844A1 (zh) | 产品图像重构方法、产品重构模型训练方法、装置 | |
CN111754412A (zh) | 构建数据对的方法、装置及终端设备 | |
CN114998172A (zh) | 图像处理方法及相关系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200313 |
|
RJ01 | Rejection of invention patent application after publication |