CN110232394B - 一种多尺度图像语义分割方法 - Google Patents
一种多尺度图像语义分割方法 Download PDFInfo
- Publication number
- CN110232394B CN110232394B CN201810181370.8A CN201810181370A CN110232394B CN 110232394 B CN110232394 B CN 110232394B CN 201810181370 A CN201810181370 A CN 201810181370A CN 110232394 B CN110232394 B CN 110232394B
- Authority
- CN
- China
- Prior art keywords
- convolution
- image
- layer
- size
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多尺度图像语义分割方法,包括下述步骤:获取待分割图像和对应的标签;构建全卷积深度神经网络,所述全卷积深度神经网络包括卷积模块、空洞卷积模块、金字塔池化模块、1×1×depth卷积层、以及反卷积结构,将带洞卷积设置为逐通道的操作,有针对性地利用低、中、高尺度特征;训练全卷积深度神经网络,建立损失函数,通过训练样本图像确定全卷积深度神经网络的参数;将待分割图像输入到训练完成的全卷积深度神经网络,得到语义分割结果。本发明的方法能够在减小计算量和参数数量的同时较好地处理存在复杂细节、空洞和较大目标的图像语义分割问题,能够很好地分割目标边缘的同时,保留类别标签的一致性。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种多尺度图像语义分割方法。
背景技术
语义分割是计算机视觉领域的重要问题,目前多种应用场景(例如物体检测、识别等)都需要通过语义分割来实现。语义分割的任务是对图像的每一个像素判断其所属的类别,并打上标签。
语义分割问题对算法提出了两个要求:(1)分类:属于同一类别的目标范围像素的标签要具有一致性;(2)定位:对目标边缘处的像素也能够准确地分类。这两个要求中,前者需要的是高层语义特征,通常可以通过设置卷积步长、池化下采样等方式获得;而后者需要的是原图的细节,需要避免特征图像分辨率的下降。传统的卷积神经网络中的池化和步长大于1的卷积操作起到了下采样的作用,造成了输出特征图像尺寸的降低。为了解决尺寸降低的问题,有人提出了双线性插值上采样、保存池化位置的反池化操作等方法来对特征图像进行上采样,但是经过上采样后特征图像丢失了一些原本图像中的位置信息和细节信息。通过skip layer的层间特征融合,将浅层特征图像与深层特征图像加和,可以弥补丢失的信息,一定程度上恢复出细节特征,但这种简单的相加不符合直观的物理理解。为了避免特征图像分辨率降低,后来有人提出了一种叫做空洞卷积的特殊卷积操作,DeepLab算法使用了这一结构,并成为语义分割领域著名的算法。
空洞卷积在一维中,一维信号x[i]经过空洞卷积层,若卷积核尺寸为K,则输出特征图像y[i]的计算公式为:
其中,r为膨胀率参数,代表我们对输入信号采样的步长,普通的卷积可以看作是膨胀率r=1。其操作如图2(a)和图2(b)分别为使用的一个多尺度空洞卷积模块和一个多尺度空洞卷积结构在一维数据上的示意图。这样的做法优点是能够从原图中提取更加稠密的特征,同时抽象出高层特征,具有较大的感受野。
空洞卷积在二维中可以看作是在普通卷积核的每两个值中间用零做填充,形成“带洞的卷积核”。如果原本步长为2的卷积核尺寸为k×k,那么经过填充的空洞卷积核步长为1,尺寸为kd×kd,kd=k+(k-1)×(r-1)。这样的空洞卷积的好处是获得了较大的感受野,同时保持特征图像尺寸不变。在DeepLab中,网络分为一个个模块,每个模块内串联的几个空洞卷积层采用相同的rate,因此同一模块内的特征具有大小相同的感受野。DeepLab存在三点不足:(1)一定程度上解决了分辨率和感受野之间的矛盾,但是在对不同尺度的目标进行分割时仍然不够鲁棒;(2)DeepLab空洞卷积每个模块内的第l层特征图像p位置的像素是由第l-1层特征图像p位置kd*kd邻域的像素计算得到的。同一个模块中使用的是相同的rate,这会引起“带洞的”网格状感受野,如图3(a)-图3(c)所示,其中图3(a)为经过一次普通3×3,膨胀率为1的空洞卷积后得到特征的感受野;图3(b)为经过两次普通空洞卷积后得到特征的感受野;图3(c)为经过三次普通空洞卷积后得到特征图的感受野特征利用效率较低;深层特征图像尽管感受野范围大,但是计算时对感受野内像素的采样非常稀疏,只利用了很小部分像素的信息,导致分割结果细节损失严重;(3)随着空洞卷积模块数增加,新一层计算一个像素的时候使用到的上一层的带洞邻域的像素值,这些像素的值具有很大的不一致性,不利于复杂形状物体的分割。
通过全连接的条件随机场来对全卷积网络的分割结果进行后处理,DeepLab等算法使用了条件随机场,来恢复边缘位置信息,达到分割算法的一致性。
发明内容
本发明的目的在于克服现有技术中的缺点与不足,提供一种多尺度图像语义分割方法,基于多尺度空洞卷积的全卷积深度神经网络,使用深维度的空洞卷积来提取不同尺度的特征,后使用逐层上采样和层间特征融合来保持和恢复特征图像的尺寸。
为实现以上目的,本发明采取如下技术方案:
一种多尺度图像语义分割方法,包括下述步骤:
S1、获取待分割图像和对应的标签,所述待分割图像为三通道彩色图像,所述标签是每个像素位置对应的类别标签;
S2、构建全卷积深度神经网络,所述全卷积深度神经网络包括卷积模块、空洞卷积模块、金字塔池化模块、1×1×depth卷积层、以及反卷积结构;所述空洞卷积模块包括若干组多尺度空洞卷积结构,所述多尺度空洞卷积结构设置不同膨胀率的空洞卷积核,对特征图像分别提取低、中、以及高分辨率目标的信息;
S3、训练全卷积深度神经网络,建立损失函数,通过训练样本图像确定全卷积深度神经网络的参数;
S4、将待分割图像输入到训练完成的全卷积深度神经网络,得到语义分割结果。
作为优选的技术方案,步骤S2具体包括下述步骤:
S21、所述全卷积深度神经网络采用VGG-16或ResNet-101网络结构,包括三个卷积模块,每个卷积模块包含若干层3×3×depth的卷积层,所有卷积层的卷积核大小为3×3,步长为1;在每个卷积模块的最后一层还包含一个步长为2的池化下采样层;经过每个卷积模块,图像大小变为1/2,经过三个卷积模块,得到的特征图像的大小变为初始待分割图像的1/8;
S22、将步骤S21得到的特征图像输入到串联的三个空洞卷积模块中;每个空洞卷积模块包含三个结构相同且串联的多尺度空洞卷积结构;每个多尺度空洞卷积结构包含并联的三组空洞卷积核分支,分别用来提取的低、中、以及高分辨率目标的信息,不同空洞卷积核分支的分辨率通过不同膨胀率的卷积核实现,三组空洞卷积核的大小均为3×3,步长均设置为1,膨胀率分别设置为1,2n,2×2n,其中n=1,2,3,n表示第n个多尺度空洞卷积结构;所有空洞卷积核为逐通道卷积操作,每个空洞卷积核输出一层特征图像;
S23、将步骤S22中每个空洞卷积模块的每个多尺度空洞卷积结构输出的低、中、高特征图像进行Concatenating拼接操作,然后再进行为尺寸1×1×depth的卷积,卷积核尺寸为1×1,步长设置为1,实现对低、中、以及高三种分辨率特征的信息交换互补,得到经过融合的一组低、中、以及高分辨率特征图像;
S24、将步骤S22中第三个串联的空洞卷积模块和一个金字塔全局池化模块并联;所述金字塔全局池化模块将特征图像进行不同尺度的全局池化,再将池化得到的特征图像,分别进行转置卷积上采样,恢复到池化前的尺寸,与并联的空洞卷积模块的输出结果进行Concatenating拼接得到一个特征图像,并将该特征图像输入到一个1×1×num_class且步长为1的卷积核中,生成一个大小为输入图像1/8的粗糙预测图,其中,num_class是分割任务标签类别的数量;
S25、将步骤S24中产生的粗糙预测图输入到三个串联的反卷积结构中;每个反卷积结构包含一个反卷积层和一个元素级相加层;所述反卷积层用于对输入该层的图像进行上采样,将图像尺寸放大为当前尺寸的2倍;经过第一个反卷积层后得到具有原始待分割图像1/4尺寸的深层特征图像;所述元素级相加层用于将经过1×1×num_class卷积处理的浅层特征图像和反卷积层输出的图像进行逐元素相加操作;获取某一卷积模块中池化层输出的具有原始待分割图像1/4尺寸的浅层特征图像;在进行上采样图像的同时将深层特征图像和浅层特征图像融合,恢复细节信息;其中,浅层特征图像在相加前,设置卷积层使之通道数和反卷积层的输出相同;
S26、将步骤S25中输出的特征图像输入到预测层即argmax函数层,进行元素级取argmax操作,得到图像中每个像素所属的类别。
作为优选的技术方案,所述步骤S26的argmax函数层,该层输出的预测结果为:
outputij=argmaxk(iutputijk),k=0,1,…,K-1 (1)
其中,K为类别总数,i,j表示像素在图像中的行列索引,k表示第K个类别的特征;图像output是一个取值在0到K-1之间的label map,为最终的输出。
作为优选的技术方案,步骤S3包括下述步骤:
S31、对已经建立的全卷积深度神经网络进行端到端的训练,训练策略采用随机下降算法SGD,初始学习率设置为10-3,加入0.9的动量项momentum,学习率设置为0.9的指数衰减,larning_rate=base_learning_rate×(1-step_ph/num_steps)0.9,其中base_learning_rate为初始学习率0.3,step_ph为当前训练步数,num_steps为训练总步数;
S32、将预测层输出的图像输入损失函数层,所述损失函数层包括一个softmax层和一个FL层;采用如式(2)的损失函数,降低易分类像素误差的权重,将训练集中在难分类类别的像素上;
FL(pt)=-αt(1-pt)γlog(pt) (2)
其中,αt是一个向量,表示每个类别的加权参数;pt整体表示当前样本经过网络在ground truth类别上的预测值;γ表示聚焦参数,通常γ∈[0,5],在这里γ设置为2,
其中,p是将预测层产生的特征图像经过softmax处理的值;如果类别个数为2,则p代表该像素属于正类的概率。
本发明相对于现有技术具有如下的优点和效果:
(1)本发明的方法,在网络中,每一个带洞卷积模块都使用了低、中、高三种不同尺度的空洞卷积,增大了特征计算时的感受野,增加了特征信息的利用率。相比传统算,能够更好地处理要求高精度的语义分割问题。
(2)本发明的方法通过带洞卷积、特征融合、跳跃结构等方法,是一个可以端到端进行训练的算法,不需要进行条件随机场后处理,更加简洁高效。
(3)本发明的方法将带洞卷积设置为逐通道的操作,这样操作可以有针对性地利用低、中、高尺度特征。同时处理小尺度和大尺度目标。
(4)本发明的方法对逐通道卷积的输出再进行1×1×depth的普通卷积,实现不同尺度信息的融合。与逐通道卷积共同构成一个卷积分解的过程,大大减小计算量和参数个数,降低了对设备计算能力的要求,使得该算法可以在非GPU环境下应用。
(5)本发明能够在减小计算量和参数数量的同时较好地处理存在复杂细节、空洞和较大目标的图像语义分割问题,能够很好地分割目标边缘的同时,保留类别标签的一致性。
附图说明
图1为本发明的多尺度图像语义分割方法。
图2(a)-图2(b)为背景技术中空洞卷积在一维数据上的示意图;其中图2(a)和图2(b)分别为使用的一个多尺度空洞卷积模块和一个多尺度空洞卷积结构在一维数据上的示意图。
图3(a)-图3(c)为背景技术中传统空洞卷积存在的gridding effect的说明图;其中图3(a)为经过一次普通3×3,膨胀率为1的空洞卷积后得到特征的感受野;图3(b)为经过两次普通空洞卷积后得到特征的感受野;图3(c)为经过三次普通空洞卷积后得到特征图的感受野特征利用效率较低。
图4为本发明的全卷积深度神经网络示意图。
图5(a)为本发明的一个空洞卷积模块示意图。
图5(b)为本发明的一个多尺度空洞卷积结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细描述。
实施例
如图1所示,一种多尺度图像语义分割方法,包括下述步骤:
S1、获取待分割图像和对应的标签,所述待分割图像为三通道彩色图像,所述标签是每个像素位置对应的类别标签;
S2、构建全卷积深度神经网络,如图4所示,所述全卷积深度神经网络包括卷积模块、空洞卷积模块、金字塔池化模块、1×1×depth卷积层、以及反卷积结构;所述空洞卷积模块包括若干组多尺度空洞卷积结构,所述多尺度空洞卷积结构设置不同膨胀率的空洞卷积核,对特征图像分别提取低、中、以及高分辨率目标的信息;步骤S2具体包括下述步骤:
S21、所述全卷积深度神经网络采用VGG-16或ResNet-101网络结构,包括三个卷积模块,每个卷积模块包含若干层3×3×depth的卷积层,所有卷积层的卷积核大小为3×3,步长为1;在每个卷积层模块的最后一层还包含一个步长为2的池化下采样层;经过每个卷积模块,图像大小变为1/2,且丢失部分细节信息;经过三个卷积模块,得到大小变为初始图像1/8A的特征图像A;
S22、将特征图像A输入到串联的三个空洞卷积模块中;如图5(a)所示,每个空洞卷积模块包含三个结构相同且串联的多尺度空洞卷积结构;如图5(b)所示,所述多尺度空洞卷积结构包含并联的三组空洞卷积核分支,分别用来提取的低、中、以及高分辨率目标的信息,不同空洞卷积核分支的分辨率通过不同膨胀率的卷积核实现,三组空洞卷积核的大小均为3×3,步长均设置为1,膨胀率分别设置为1,2n,2×2n,其中n=1,2,3,n表示第n个多尺度空洞卷积结构;另外,输入到串联的三个空洞卷积模块中的特征图像分为三组,对应低、中、高三种不同的分辨率,对其中低分辨率的特征图像进行低分辨率的空洞卷积操作,中分辨率特征图像进行中分辨率空洞卷积操作,高分辨率特征图像进行高分辨率卷积操作,所有空洞卷积核为逐通道卷积操作,每个空洞卷积核输出一层特征图像。
在本实施例中,逐通道的空洞卷积可以提取多尺度的特征,同时具有卷积层和池化层的作用,在保证输出图像的尺寸和输入该层的图像尺寸相同的同时,可以扩大卷积核的感受野,提取图像的更深层次的信息的同时保留浅层信息。特别地,采用多尺度的空洞卷积,可以增大感受野范围内像素的利用率,使得所有像素参与计算,充分利用输入特征图像信息,使得预测结果更精确。逐通道卷积能够有针对性地提取不同尺度的特征,同时减少了参数数量和计算量。
S23、将步骤S22输出的特征图像拼接在一起,进行尺寸为1×1×depth的普通卷积,步长,实现对低、中、以及高三种分辨率特征的信息交换互补,得到经过融合的一组低、中、高分辨率特征图像;所述1×1×depth的普通卷积能够交换不同尺度特征图像的信息,增大模型容量,提取到更加鲁棒的特征;
S24、将步骤S22中串联的第三个空洞卷积模块和一个金字塔全局池化模块并联;所述金字塔全局池化模块将特征图像进行不同尺度的全局池化,再将池化得到的特征图,分别进行转置卷积上采样,恢复到池化前的尺寸,与并联的空洞卷积模块输出结果拼接,得到一个特征图像,达到提取更高层一致信息的目的,再将该特征图像输入到一个1×1×num_class且步长为1的卷积层中,生成一个大小为输入图像1/8的粗糙预测图B,其中,num_class是分割任务标签类别的数量。
S25、将特征图像B输入到三个串联的反卷积结构中;一个反卷积结构包含一个反卷积层和一个元素级相加层;所述反卷积层用于对输入该层的图像进行上采样,将图像尺寸放大为当前尺寸的2倍;经过第一个反卷积层后得到具有原始待分割图像1/4尺寸的特征图像C;所述元素级相加层用于将经过1×1×num_class(类别数)卷积处理的浅层特征图像和反卷积层输出的图像进行逐元素相加操作;经过上采样后,尽管图像尺寸得到一定程度的恢复,但其丢失的部分细节信息无法得到恢复,为了补充其丢失的细节信息,可以获取某一卷积模块中池化层输出的具有原始待分割图像1/4尺寸的特征图像D,即浅层特征图像,将浅层特征图像D与深层特征图像C输入元素级相加层,以补充丢失的部分细节信息,得到一个特征图像,再将该特征图像输入第二个反卷积层,得到具有原始待分割图像1/2尺寸的特征图像E;再将特征图像E和具有原始待分割图像1/2尺寸的浅层图像输入元素级相加层,再次恢复细节信息,得到一个特征图像,再将该特征图像输入到第三个反卷积层,得到一个与原始待分割图像尺寸相同的特征图像F;在本实施例中,浅层特征图像在相加前,设置卷积层使之通道数和反卷积层的输出相同;
S25、将特征图像F输入到预测层即argmax函数层,进行元素级取argmax操作,得到图像中每个像素所属的类别,该层输出的计算公式为:
outputij=argmaxk(iutputijk),k=0,1,…,K-1 (1)
其中K为类别总数;图像output是一个取值在0到K-1之间的label map,为最终的输出。
S3、训练全卷积深度神经网络,建立损失函数,通过训练样本图像确定全卷积深度神经网络的参数;具体包括下述步骤:
S31、对已经建立的全卷积深度神经网络进行端到端的训练,训练策略采用随机下降算法SGD,初始学习率设置为10-3,加入0.9的动量项momentum,学习率设置为0.9的指数衰减,larning_rate=base_learning_rate×(1-step_ph/num_steps)0.9,其中base_learning_rate为初始学习率0.3,step_ph为当前训练步数,num_steps为训练总步数;
S32、将预测层输出的图像输入损失函数层,所述损失函数层包括一个softmax层和一个FL层;采用如式(2)的损失函数,降低易分类像素误差的权重,将训练集中在难分类类别的像素上;
FL(pt)=-αt(1-pt)γlog(pt) (2)
其中,αt是一个向量,表示每个类别的加权参数;pt整体表示当前样本经过网络在ground truth类别上的预测值;γ表示聚焦参数,通常γ∈[0,5],在本实施例中γ设置为2,
其中,p是将预测层产生的特征图像经过softmax处理的值;如果类别个数为2,则p代表该像素属于正类的概率。
S4、将待分割图像输入到训练完成的全卷积深度神经网络,得到语义分割结果。
在本实施例中,建立的FL损失函数是在cross entropy损失函数的基础上改进的,cross entropy损失函数的具体操作为:将F产生的特征图像输入到softmax函数中,计算出图像中每个像素属于不同类别的概率,softmax函数具体为:
其中,i表示像素横坐标;j表示像素纵坐标;k表示特征图像的通道数;Fijk表示F产生的特征图像的值;K表示通道数(与类别总数相同)。
对softmax函数结果进行负对数操作,得到损失函数:
CL=-log(softmax(Fijk)) (5)
对于上述本实施例的技术方案,需要说明的是,所述每个卷积模块中可采用多次卷积;适当的采用更多的卷积层可以提升模型的表达能力,在拟合复杂特征时,模型更容易学习和收敛;
所述空洞卷积模块的数量可设置三个以上,采用更多的空洞卷积模块可以进一步增大提取到的特征的感受野,获取图片中更多的上下文信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以权利要求所述为准。
Claims (3)
1.一种多尺度图像语义分割方法,其特征在于,包括下述步骤:
S1、获取待分割图像和对应的标签,所述待分割图像为三通道彩色图像,所述标签是每个像素位置对应的类别标签;
S2、构建全卷积深度神经网络,所述全卷积深度神经网络包括卷积模块、空洞卷积模块、金字塔池化模块、1×1×depth卷积层、以及反卷积结构;所述空洞卷积模块包括若干组多尺度空洞卷积结构,所述多尺度空洞卷积结构设置不同膨胀率的空洞卷积核,对特征图像分别提取低、中、以及高分辨率目标的信息;
S3、训练全卷积深度神经网络,建立损失函数,通过训练样本图像确定全卷积深度神经网络的参数;
S4、将待分割图像输入到训练完成的全卷积深度神经网络,得到语义分割结果;
步骤S2具体包括下述步骤:
S21、所述全卷积深度神经网络采用VGG-16或ResNet-101网络结构,包括三个卷积模块,每个卷积模块包含若干层3×3×depth的卷积层,所有卷积层的卷积核大小为3×3,步长为1;在每个卷积模块的最后一层还包含一个步长为2的池化下采样层;经过每个卷积模块,图像大小变为1/2,经过三个卷积模块,得到的特征图像的大小变为初始待分割图像的1/8;
S22、将步骤S21得到的特征图像输入到串联的三个空洞卷积模块中;每个空洞卷积模块包含三个结构相同且串联的多尺度空洞卷积结构;每个多尺度空洞卷积结构包含并联的三组空洞卷积核分支,分别用来提取的低、中、以及高分辨率目标的信息,不同空洞卷积核分支的分辨率通过不同膨胀率的卷积核实现,三组空洞卷积核的大小均为3×3,步长均设置为1,膨胀率分别设置为1,2n,2×2n,其中n=1,2,3,n表示第n个多尺度空洞卷积结构;所有空洞卷积核为逐通道卷积操作,每个空洞卷积核输出一层特征图像;
S23、将步骤S22中每个空洞卷积模块的每个多尺度空洞卷积结构输出的低、中、高特征图像进行Concatenating拼接操作,然后再进行为尺寸1×1×depth的卷积,卷积核尺寸为1×1,步长设置为1,实现对低、中、以及高三种分辨率特征的信息交换互补,得到经过融合的一组低、中、以及高分辨率特征图像;
S24、将步骤S22中第三个串联的空洞卷积模块和一个金字塔全局池化模块并联;所述金字塔全局池化模块将特征图像进行不同尺度的全局池化,再将池化得到的特征图像,分别进行转置卷积上采样,恢复到池化前的尺寸,与并联的空洞卷积模块的输出结果进行Concatenating拼接得到一个特征图像,并将该特征图像输入到一个1×1×num_class且步长为1的卷积核中,生成一个大小为输入图像1/8的粗糙预测图,其中,num_class是分割任务标签类别的数量;
S25、将步骤S24中产生的粗糙预测图输入到三个串联的反卷积结构中;每个反卷积结构包含一个反卷积层和一个元素级相加层;所述反卷积层用于对输入该层的图像进行上采样,将图像尺寸放大为当前尺寸的2倍;经过第一个反卷积层后得到具有原始待分割图像1/4尺寸的深层特征图像;所述元素级相加层用于将经过1×1×num_class卷积处理的浅层特征图像和反卷积层输出的图像进行逐元素相加操作;获取某一卷积模块中池化层输出的具有原始待分割图像1/4尺寸的浅层特征图像;在进行上采样图像的同时将深层特征图像和浅层特征图像融合,恢复细节信息;其中,浅层特征图像在相加前,设置卷积层使之通道数和反卷积层的输出相同;
S26、将步骤S25中输出的特征图像输入到预测层即argmax函数层,进行元素级取argmax操作,得到图像中每个像素所属的类别。
2.根据权利要求1所述的多尺度图像语义分割方法,其特征在于,所述步骤S26的argmax函数层,该层输出的预测结果为:
outputij=argmaxk(iutputijk),k=0,1,...,K-1 (1)
其中,K为类别总数,i,j表示像素在图像中的行列索引,k表示第K个类别的特征;图像output是一个取值在0到K-1之间的labelmap,为最终的输出。
3.根据权利要求1所述的多尺度图像语义分割方法,其特征在于,步骤S3包括下述步骤:
S31、对已经建立的全卷积深度神经网络进行端到端的训练,训练策略采用随机下降算法SGD,初始学习率设置为10-3,加入0.9的动量项momentum,学习率设置为0.9的指数衰减,larning_rate=base_learning_rate×(1-step_ph/num_steps)0.9,其中base_learning_rate为初始学习率0.3,step_ph为当前训练步数,num_steps为训练总步数;
S32、将预测层输出的图像输入损失函数层,所述损失函数层包括一个softmax层和一个FL层;采用如式(2)的损失函数,降低易分类像素误差的权重,将训练集中在难分类类别的像素上;
FL(pt)=-αt(1-pt)γlog(pt) (2)
其中,αt是一个向量,表示每个类别的加权参数;pt整体表示当前样本经过网络在ground truth类别上的预测值;γ表示聚焦参数,通常γ∈[0,5],在这里γ设置为2,
其中,p是将预测层产生的特征图像经过softmax处理的值;如果类别个数为2,则p代表该像素属于正类的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810181370.8A CN110232394B (zh) | 2018-03-06 | 2018-03-06 | 一种多尺度图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810181370.8A CN110232394B (zh) | 2018-03-06 | 2018-03-06 | 一种多尺度图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110232394A CN110232394A (zh) | 2019-09-13 |
CN110232394B true CN110232394B (zh) | 2021-08-10 |
Family
ID=67861735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810181370.8A Active CN110232394B (zh) | 2018-03-06 | 2018-03-06 | 一种多尺度图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232394B (zh) |
Families Citing this family (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232394B (zh) * | 2018-03-06 | 2021-08-10 | 华南理工大学 | 一种多尺度图像语义分割方法 |
CN110197205B (zh) * | 2019-05-09 | 2022-04-22 | 三峡大学 | 一种多特征来源残差网络的图像识别方法 |
CN111626267B (zh) * | 2019-09-17 | 2022-02-15 | 山东科技大学 | 一种利用空洞卷积的高光谱遥感图像分类方法 |
CN110610509B (zh) * | 2019-09-18 | 2023-07-21 | 上海大学 | 可指定类别的优化抠图方法及系统 |
CN110717527B (zh) * | 2019-09-24 | 2023-06-27 | 东南大学 | 结合空洞空间金字塔结构的目标检测模型确定方法 |
CN110706239B (zh) * | 2019-09-26 | 2022-11-11 | 哈尔滨工程大学 | 融合全卷积神经网络与改进aspp模块的场景分割方法 |
CN110717921B (zh) * | 2019-09-26 | 2022-11-15 | 哈尔滨工程大学 | 改进型编码解码结构的全卷积神经网络语义分割方法 |
CN110781895B (zh) * | 2019-10-10 | 2023-06-20 | 湖北工业大学 | 一种基于卷积神经网络的图像语义分割方法 |
CN111027670B (zh) * | 2019-11-04 | 2022-07-22 | 重庆特斯联智慧科技股份有限公司 | 特征图处理方法、装置、电子设备及存储介质 |
CN111104962B (zh) * | 2019-11-05 | 2023-04-18 | 北京航空航天大学青岛研究院 | 图像的语义分割方法、装置、电子设备及可读存储介质 |
CN110910390B (zh) * | 2019-11-11 | 2022-10-21 | 大连理工大学 | 一种基于深度畸变卷积的全景三维彩色点云语义分割方法 |
CN110929652B (zh) * | 2019-11-26 | 2023-08-01 | 天津大学 | 基于LeNet-5网络模型的手写体中文字符识别方法 |
CN110991611A (zh) * | 2019-11-29 | 2020-04-10 | 北京市眼科研究所 | 一种基于图像分割的全卷积神经网络 |
CN110991617B (zh) * | 2019-12-02 | 2020-12-01 | 华东师范大学 | 万花筒卷积网络的构建方法 |
CN111145195B (zh) * | 2019-12-03 | 2023-02-24 | 上海海事大学 | 一种基于轻量级深度神经网络的视频中人像轮廓探测方法 |
CN111144460A (zh) * | 2019-12-16 | 2020-05-12 | 华东师范大学 | 一种提高卷积神经网络分类性能的算法 |
CN111079767B (zh) * | 2019-12-22 | 2022-03-22 | 浪潮电子信息产业股份有限公司 | 一种用于分割图像的神经网络模型及其图像分割方法 |
CN113099066B (zh) * | 2019-12-23 | 2022-09-30 | 浙江工商大学 | 基于多尺度融合空洞卷积残差网络的大容量图像隐写方法 |
CN111145188B (zh) * | 2019-12-25 | 2023-06-06 | 西安电子科技大学 | 一种基于ResNet与UNet模型的图像分割方法 |
CN111179283A (zh) * | 2019-12-30 | 2020-05-19 | 深圳市商汤科技有限公司 | 图像语义分割方法及装置、存储介质 |
CN111160276B (zh) * | 2019-12-31 | 2023-05-12 | 重庆大学 | 基于遥感影像的u型空洞全卷积分割网络识别模型 |
CN111160311B (zh) * | 2020-01-02 | 2022-05-17 | 西北工业大学 | 基于多注意力机制双流融合网络的黄河冰凌语义分割方法 |
CN113076966B (zh) * | 2020-01-06 | 2023-06-13 | 字节跳动有限公司 | 图像处理方法及装置、神经网络的训练方法、存储介质 |
CN111242037B (zh) * | 2020-01-15 | 2023-03-21 | 华南理工大学 | 基于结构信息的车道线检测方法 |
CN111369563B (zh) * | 2020-02-21 | 2023-04-07 | 华南理工大学 | 一种基于金字塔空洞卷积网络的语义分割方法 |
CN111369574B (zh) * | 2020-03-11 | 2023-05-16 | 合肥凯碧尔高新技术有限公司 | 一种胸腔器官的分割方法及装置 |
CN111401379A (zh) * | 2020-03-24 | 2020-07-10 | 北方民族大学 | 基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法 |
CN111462006B (zh) * | 2020-03-31 | 2023-06-20 | 华南理工大学 | 一种多目标的图像补全方法 |
CN113554042A (zh) * | 2020-04-08 | 2021-10-26 | 富士通株式会社 | 神经网络及其训练方法 |
CN111507360A (zh) * | 2020-04-13 | 2020-08-07 | 河南理工大学 | 一种基于深度学习的曲线特征描述方法 |
CN111523546B (zh) * | 2020-04-16 | 2023-06-16 | 湖南大学 | 图像语义分割方法、系统及计算机存储介质 |
CN111582104B (zh) * | 2020-04-28 | 2021-08-06 | 中国科学院空天信息创新研究院 | 基于自注意特征聚合网络的遥感图像语义分割方法及装置 |
CN111652226B (zh) * | 2020-04-30 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于图片的目标识别方法、装置及可读存储介质 |
CN111681177B (zh) * | 2020-05-18 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 视频处理方法及装置、计算机可读存储介质、电子设备 |
CN111666842B (zh) * | 2020-05-25 | 2022-08-26 | 东华大学 | 一种基于双流空洞卷积神经元网络的阴影检测方法 |
CN113724263A (zh) * | 2020-05-26 | 2021-11-30 | 上海微创卜算子医疗科技有限公司 | 全卷积神经网络模型、图像分割方法及装置 |
CN111882620B (zh) * | 2020-06-19 | 2024-08-02 | 江苏大学 | 一种基于多尺度信息道路可行驶区域分割方法 |
CN111724399A (zh) * | 2020-06-24 | 2020-09-29 | 北京邮电大学 | 一种图像分割方法和终端 |
CN111798469A (zh) * | 2020-07-13 | 2020-10-20 | 珠海函谷科技有限公司 | 基于深度卷积神经网络的数字图像小数据集语义分割方法 |
CN113971427B (zh) * | 2020-07-23 | 2023-08-18 | 四川大学 | 基于改进模型的岩屑识别方法 |
CN111932553B (zh) * | 2020-07-27 | 2022-09-06 | 北京航空航天大学 | 基于区域描述自注意力机制的遥感图像语义分割方法 |
CN112084868B (zh) * | 2020-08-10 | 2022-12-23 | 北京航空航天大学 | 一种基于注意力机制的遥感图像中目标计数方法 |
CN112132777B (zh) * | 2020-08-11 | 2024-06-18 | 浙江工业大学 | 一种基于多分辨率感知学习的中心静脉导管分割和尖端定位方法 |
CN112101363B (zh) * | 2020-09-02 | 2022-07-29 | 河海大学 | 基于空洞残差和注意力机制的全卷积语义分割系统及方法 |
CN111915615B (zh) * | 2020-09-10 | 2024-09-06 | 中移(杭州)信息技术有限公司 | 图像分割方法、装置、电子设备及计算机可读存储介质 |
CN112184635A (zh) * | 2020-09-10 | 2021-01-05 | 上海商汤智能科技有限公司 | 目标检测方法、装置、存储介质及设备 |
CN112164035B (zh) * | 2020-09-15 | 2023-04-28 | 郑州金惠计算机系统工程有限公司 | 基于图像的缺陷检测方法、装置、电子设备及存储介质 |
CN112163478A (zh) * | 2020-09-16 | 2021-01-01 | 北京三快在线科技有限公司 | 一种目标检测的方法及装置 |
CN112329808A (zh) * | 2020-09-25 | 2021-02-05 | 武汉光谷信息技术股份有限公司 | 一种Deeplab语义分割算法的优化方法及系统 |
CN112164065B (zh) * | 2020-09-27 | 2023-10-13 | 华南理工大学 | 一种基于轻量化卷积神经网络的实时图像语义分割方法 |
CN112184686B (zh) * | 2020-10-10 | 2022-08-23 | 深圳大学 | 一种用于检测动力电池安全阀激光焊接缺陷的分割算法 |
CN112419322A (zh) * | 2020-10-16 | 2021-02-26 | 北京工业大学 | 一种基于3d多尺度多池化特征融合网络的颞骨外半规管分割方法 |
CN114494266B (zh) * | 2020-10-26 | 2024-05-28 | 中国人民解放军空军军医大学 | 一种层级空洞金字塔卷积的宫颈及周边多器官分割方法 |
CN112001921B (zh) * | 2020-10-30 | 2021-03-16 | 北京信诺卫康科技有限公司 | 一种基于病灶加权损失函数的新冠肺炎ct影像病灶分割图像处理方法 |
CN112329861B (zh) * | 2020-11-06 | 2024-05-28 | 北京工业大学 | 一种面向移动机器人多目标检测的分层特征融合方法 |
CN112465834B (zh) * | 2020-11-26 | 2024-05-24 | 中科麦迪人工智能研究院(苏州)有限公司 | 一种血管分割方法及装置 |
CN112561910B (zh) * | 2020-12-28 | 2023-10-20 | 中山大学 | 一种基于多尺度特征融合的工业表面缺陷检测方法 |
CN112801104B (zh) * | 2021-01-20 | 2022-01-07 | 吉林大学 | 基于语义分割的图像像素级伪标签确定方法及系统 |
CN112766392B (zh) * | 2021-01-26 | 2023-10-24 | 杭州师范大学 | 基于并行不对称空洞卷积的深度学习网络的图像分类方法 |
CN112837320B (zh) * | 2021-01-29 | 2023-10-27 | 华中科技大学 | 一种基于并行空洞卷积的遥感影像语义分割方法 |
CN112950652B (zh) * | 2021-02-08 | 2024-01-19 | 深圳市优必选科技股份有限公司 | 机器人及其手部图像分割方法和装置 |
CN113011305B (zh) * | 2021-03-12 | 2022-09-09 | 中国人民解放军国防科技大学 | 基于语义分割和条件随机场的sar图像道路提取方法和装置 |
CN113065412A (zh) * | 2021-03-12 | 2021-07-02 | 武汉大学 | 基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及装置 |
CN113033570B (zh) * | 2021-03-29 | 2022-11-11 | 同济大学 | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 |
CN113191390B (zh) * | 2021-04-01 | 2022-06-14 | 华中科技大学 | 一种图像分类模型的构建方法、图像分类方法及存储介质 |
CN112801929A (zh) * | 2021-04-09 | 2021-05-14 | 宝略科技(浙江)有限公司 | 一种用于建筑物变化检测的局部背景语义信息增强方法 |
CN113143230B (zh) * | 2021-05-11 | 2022-05-20 | 重庆理工大学 | 一种外周动脉血压波形重构系统 |
CN113111975A (zh) * | 2021-05-12 | 2021-07-13 | 合肥工业大学 | 基于多核尺度卷积神经网络的sar图像目标分类方法 |
CN113191367B (zh) * | 2021-05-25 | 2022-07-29 | 华东师范大学 | 基于密集尺度动态网络的语义分割方法 |
CN113313004A (zh) * | 2021-05-25 | 2021-08-27 | 武汉工程大学 | 一种基于自监督学习的钢材微观组织分割方法 |
CN113486716B (zh) * | 2021-06-04 | 2022-06-14 | 电子科技大学长三角研究院(衢州) | 机场场面目标分割方法及其系统 |
CN113723411B (zh) * | 2021-06-18 | 2023-06-27 | 湖北工业大学 | 一种用于遥感图像语义分割的特征提取方法和分割系统 |
CN113486956B (zh) * | 2021-07-07 | 2022-03-25 | 山东力聚机器人科技股份有限公司 | 目标分割系统及其训练方法、目标分割方法及设备 |
CN113592009A (zh) * | 2021-08-05 | 2021-11-02 | 杭州逗酷软件科技有限公司 | 图像语义分割方法、装置、存储介质与电子设备 |
CN113627437B (zh) * | 2021-08-06 | 2024-03-29 | 河南大学 | 一种快速识别石墨电极标签的方法 |
CN113762263A (zh) * | 2021-08-17 | 2021-12-07 | 慧影医疗科技(北京)有限公司 | 一种用于小尺度相似结构的语义分割方法及系统 |
CN113421259B (zh) * | 2021-08-20 | 2021-11-16 | 北京工业大学 | 基于分类网络的octa图像的分析方法 |
CN113687227B (zh) * | 2021-08-24 | 2023-03-24 | 桂林电子科技大学 | 一种基于感兴趣区域增强的电机磁瓦缺陷分类方法 |
CN113674300B (zh) * | 2021-08-24 | 2022-10-28 | 苏州天准软件有限公司 | 用于cnc自动测量的模型训练方法、测量方法及系统、设备、介质 |
CN113506293B (zh) * | 2021-09-08 | 2021-12-07 | 成都数联云算科技有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN114022746A (zh) * | 2021-11-03 | 2022-02-08 | 合肥工业大学 | 一种多项式多尺度空间特征学习方法 |
CN114219811B (zh) * | 2021-11-26 | 2024-05-14 | 华南理工大学 | 基于特征金字塔和神经网络的轨道钢表面缺陷分割方法 |
CN113936220B (zh) * | 2021-12-14 | 2022-03-04 | 深圳致星科技有限公司 | 图像处理方法、存储介质、电子设备及图像处理装置 |
CN114220098A (zh) * | 2021-12-21 | 2022-03-22 | 一拓通信集团股份有限公司 | 一种基于改进的多尺度全卷积网络语义分割方法 |
CN114172630B (zh) * | 2021-12-24 | 2024-05-17 | 湖南大学 | 一种基于加法同态加密与多高位嵌入的可逆信息隐藏方法 |
CN114494293B (zh) * | 2022-01-21 | 2024-09-06 | 大连理工大学 | 一种基于放大采样的伪装目标分割方法 |
CN114494810A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 图像处理方法、神经网络及其训练方法、装置和设备 |
CN114612476B (zh) * | 2022-05-13 | 2022-07-22 | 南京信息工程大学 | 一种基于全分辨率混合注意力机制的图像篡改检测方法 |
CN115527031B (zh) * | 2022-09-16 | 2024-04-12 | 山东科技大学 | 骨髓细胞图像分割方法、计算机设备以及可读存储介质 |
CN115205300B (zh) * | 2022-09-19 | 2022-12-09 | 华东交通大学 | 基于空洞卷积和语义融合的眼底血管图像分割方法与系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105917354A (zh) * | 2014-10-09 | 2016-08-31 | 微软技术许可有限责任公司 | 用于图像处理的空间金字塔池化网络 |
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN107610141A (zh) * | 2017-09-05 | 2018-01-19 | 华南理工大学 | 一种基于深度学习的遥感图像语义分割方法 |
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
CN107665491A (zh) * | 2017-10-10 | 2018-02-06 | 清华大学 | 病理图像的识别方法及系统 |
CN107679477A (zh) * | 2017-09-27 | 2018-02-09 | 深圳市未来媒体技术研究院 | 基于空洞卷积神经网络的人脸深度和表面法向量预测方法 |
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
-
2018
- 2018-03-06 CN CN201810181370.8A patent/CN110232394B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105917354A (zh) * | 2014-10-09 | 2016-08-31 | 微软技术许可有限责任公司 | 用于图像处理的空间金字塔池化网络 |
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN107610141A (zh) * | 2017-09-05 | 2018-01-19 | 华南理工大学 | 一种基于深度学习的遥感图像语义分割方法 |
CN107679477A (zh) * | 2017-09-27 | 2018-02-09 | 深圳市未来媒体技术研究院 | 基于空洞卷积神经网络的人脸深度和表面法向量预测方法 |
CN107665491A (zh) * | 2017-10-10 | 2018-02-06 | 清华大学 | 病理图像的识别方法及系统 |
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
Focal Loss for Dense Object Detection;Tsung-Yi Lin等;《arXiv:1708.02002v1 [cs.CV]》;20170807;第1-10页 * |
Rethinking Atrous Convolution for Semantic Image Segmentation;Liang-Chieh Chen等;《arXiv:1706.05587v3 [cs.CV]》;20170905;第1-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110232394A (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232394B (zh) | 一种多尺度图像语义分割方法 | |
CN112446383B (zh) | 车牌识别方法及装置、存储介质、终端 | |
CN109101975B (zh) | 基于全卷积神经网络的图像语义分割方法 | |
CN109389556B (zh) | 一种多尺度空洞卷积神经网络超分辨率重构方法及装置 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN109711481B (zh) | 用于画作多标签识别的神经网络、相关方法、介质和设备 | |
CN111915592B (zh) | 基于深度学习的遥感图像云检测方法 | |
CN112016507B (zh) | 基于超分辨率的车辆检测方法、装置、设备及存储介质 | |
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN112862774B (zh) | 一种遥感影像建筑物精确分割方法 | |
CN113505792B (zh) | 面向非均衡遥感图像的多尺度语义分割方法及模型 | |
CN111582483A (zh) | 基于空间和通道联合注意力机制的无监督学习光流估计方法 | |
CN110223234A (zh) | 基于级联收缩扩张的深度残差网络图像超分辨率重建方法 | |
CN113408398B (zh) | 基于通道注意力及概率上采样的遥感图像云检测方法 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN112365514A (zh) | 基于改进PSPNet的语义分割方法 | |
CN113888547A (zh) | 基于gan网络的无监督域自适应遥感道路语义分割方法 | |
CN114332133B (zh) | 基于改进CE-Net的肺炎CT图像感染区分割方法及系统 | |
CN112270366B (zh) | 基于自适应多特征融合的微小目标检测方法 | |
CN110517272B (zh) | 基于深度学习的血细胞分割方法 | |
CN110930409A (zh) | 一种基于深度学习的盐体语义分割方法及语义分割模型 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN115063786A (zh) | 一种高位远景模糊车牌检测方法 | |
CN114170438A (zh) | 神经网络训练的方法、电子设备及计算机存储介质 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |