CN110070091A - 用于街景理解的基于动态插值重建的语义分割方法及系统 - Google Patents
用于街景理解的基于动态插值重建的语义分割方法及系统 Download PDFInfo
- Publication number
- CN110070091A CN110070091A CN201910359127.5A CN201910359127A CN110070091A CN 110070091 A CN110070091 A CN 110070091A CN 201910359127 A CN201910359127 A CN 201910359127A CN 110070091 A CN110070091 A CN 110070091A
- Authority
- CN
- China
- Prior art keywords
- feature
- semantic segmentation
- encoder
- image
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种用于街景理解的基于动态插值重建的语义分割方法及系统,该方法包括:对训练集输入图像进行预处理,使图像标准化并获取相同尺寸的预处理图像;用卷积网络提取通用特征,再获取混合空间金字塔池化特征,以这两部分级联作为编码网络提取编码特征;从卷积网络中选取中间层特征,结合编码特征计算插值权重特征,以动态插值的方式搭建解码网络,重建图像分辨率,计算解码特征;计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标对深度神经网络进行训练;利用深度神经网络模型对待分割图像进行语义分割,输出分割结果。该方法及系统有利于提高图像语义分割的准确性和鲁棒性。
Description
技术领域
本发明涉及计算机视觉技术技术领域,具体涉及一种用于街景理解的基于动态插值重建的语义分割方法及系统。
背景技术
图像语义分割是人工智能领域中计算机视觉的一个重要分支,是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别,使其与图像本身的视觉表示内容一致,所以图像语义分割任务也被称为像素级的图像分类任务。
由于图像语义分割与图像分类有一定的相似性,所以各式各样的图像分类网络常常在剔除最后的全连接层后,作为图像语义分割网络的主干网,并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征,最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下,图像语义分割的难度要更高,因为它不仅需要全局的上下文信息,还需要结合精细的局部信息来确定每个像素点的类别,所以常常利用主干网来提取较为全局的特征,然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征,所以常常把前者称为编码网络,后者称为解码网络。同时在编码过程中,为了能更好捕获不同大小物体的特征,常常结合不同感受野和尺度信息,比如带孔空间金字塔池化技术。在现有的图像语义分割方法中,解码过程中分辨率的重建常常采用双线性插值、转置卷积、和亚像素卷积来对图像的尺寸进行方法,第一种很好地选取了插值参考点,但是使用像素的物理距离作为插值,因为不同图的语义距离往往并不与物理具体相同,所以并不能有效地适应不同图像的情况。第二种由于采取补零的方式扩大原图尺寸然后使用一般卷积进行学习,所以学习效率较低。而最后一种则使用对若干个像素点取用了同样的参考点进行学习,选取点不佳。以上的方法都存在一定的问题,导致在解码过程中大尺寸特征不能有效地从信息缺失的小尺寸特征学习而来。
发明内容
本发明的目的在于提供一种用于街景理解的基于动态插值重建的语义分割方法及系统,该方法及系统有利于提高图像语义分割的准确性和鲁棒性。
为实现上述目的,本发明的技术方案是:一种用于街景理解的基于动态插值重建的语义分割方法,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder;
步骤C:从所述卷积网络中选取中间层特征结合编码特征Fencoder计算插值权重特征然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder;
步骤D:用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
进一步地,所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone;
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
步骤B3:对Fbackbone进行分块池化,得到尺寸为hbin×wbin的池化特征,然后使用最近邻插值把池化特征恢复到Fbackbone同尺寸,再经过1×1卷积得到特征其中,池化操作的参数的计算公式如下:
其中,hbackbone和wbackbone分别表示特征Fbackbone的高和宽,hbin和wbin分别表示垂直方向和水平方向的分块数量,hstride和wstride分别表示垂直方向和水平方向的池化步长,hstride和wstride分别表示垂直方向和水平方向的池化步长;
步骤B4:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
其中,表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B5:用不同的分块数量重复步骤B2,然后全部拼接获得空间金字塔特征Fspp,用不同的孔率重复步骤B3,然后全部拼接获得带孔空间金字塔特征Faspp,最后拼接Fspp和Faspp获得混合空间金字塔池化特征Fmspp;
步骤B6:使用1×1卷积对Fmspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder。
进一步地,所述步骤C中,从所述卷积网络中选取中间层特征结合编码特征Fencoder计算插值权重特征然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,从提取通用特征的卷积网络中选取输出步幅为os的中间层特征,并用1×1卷积进行降维,得到特征
步骤C2:使用最近邻插值处理编码特征Fencoder,得到输出步幅为os的特征图
步骤C3:拼接和使用1×1卷积降维后,再使用3×3卷积提取特征得到插值权重特征
步骤C4:计算尺寸与相同的待求特征Fdecoder,每个像素点对应到Fencoder中的小数坐标,公式如下:
其中,xencoder和yencoder为对应到Fencoder中的小数坐标,hencoder和wencoder表示Fencoder的高和宽,hdecoder和wdecoder表示Fdecoder的高和宽;
然后从Fencoder收集Fdecoder的四邻域特征Fref,计算公式如下:
其中,Fref(xdecoder,ydecoder)表示四邻域特征Fref在(xdecoder,ydecoder)坐标像素点的参考特征值,表示待求特征Fdecoder参考Fencoder在xencoder和yencoder都下取整坐标位置的像素值,即Fencoder对应像素点最近左上像素点的像素值;
步骤C5:利用插值权重特征对四邻域特征Fref加权获得动态插值的解码特征Fdecoder,计算公式如下:
步骤C6:选取比步骤C1中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则更新Fdecoder作为新的Fencoder,并重复步骤C1至C5。
进一步地,所述步骤D中,用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率;softmax计算公式如下:
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:对语义分割概率图中的每个位置选取概率最大的那个维度作为该位置的类别标号,获得预测语义分割图,然后通过如下公式结合图像语义分割标注获得边缘增强权重:
其中,wedge(i,j)、和分别表示坐标(i,j)位置的总边缘增强权重wedge、预测边缘增强权重和标注边缘增强权重y(i,j)和为坐标(i,j)位置预测语义分割结果和图像语义分割标注结果,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数,max()为取大值函数;α为像素边缘增强权重;
步骤D3:利用语义分割概率图与其对应标注,计算像素级的交叉熵,得到语义分割损失Ls,然后计算加权和损失L:
L=(1+wedge)Ls
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练网络得到最后的模型。
本发明还提供了一种用于街景理解的基于动态插值重建的语义分割系统,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder;
解码特征提取模块,用于从所述卷积网络中选取中间层特征结合编码特征Fencoder计算插值权重特征然后以动态插值的方式搭建解码网络,进行图像分辨率重建,提取解码特征Fdecoder;
神经网络训练模块,用于用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
相较于现有技术,本发明的有益效果是:在编码过程中,针对性地设计了混合空间金字塔池化,能以较少的参数捕获更多上下文信息。在解码过程中,针对性地设计了特征分辨率重建的步骤,结合中间层特征和编码特征计算插值所需权重,然后利用该权重动态地将小尺寸特征插值成大尺寸特征,与现有方法相比,本发明能更合理地选取像素点的插值参考点,同时由于插值权重是由浅层特征和编码特征计算而来的,所以能有效地利用图像的精细和语义信息来动态对不同图像的不同位置决定参考点的插值重要程度,使得分辨率重建的学习能力更加强大,从而最后得到更精确的语义分割结果。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例的系统结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种用于街景理解的基于动态插值重建的语义分割方法,如图1所示,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。
步骤B:用通用的卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以步骤B中所述这两部分级联作为编码网络提取编码特征Fencoder;具体包括以下步骤:
步骤B1:使用通用的卷积网络(本实施例采用deeplabv3+网络中提供的xception网络)对预处理图像提取通用特征Fbackbone;
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
步骤B3:对Fbackbone进行分块池化,得到尺寸为hbin×wbin的池化特征,然后使用最近邻插值把池化特征恢复到Fbackbone同尺寸,再经过1×1卷积得到特征其中,池化操作的参数的计算公式如下:
其中,hbackbone和wbackbone分别表示特征Fbackbone的高和宽,hbin和wbin分别表示垂直方向和水平方向的分块数量,hstride和wstride分别表示垂直方向和水平方向的池化步长,hstride和wstride分别表示垂直方向和水平方向的池化步长;
步骤B4:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
其中,表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B5:用不同的分块数量(本实施例为5个,(1,1)(2,2)(4,4)(8,8)(16,16),池化方式为平均池化)重复步骤B2,然后全部拼接获得空间金字塔特征Fspp,用不同的孔率(本实施例为3个:6,12,18)重复步骤B3,然后全部拼接获得带孔空间金字塔特征Faspp,最后拼接Fspp和Faspp获得混合空间金字塔池化特征Fmspp;
步骤B6:使用1×1卷积对Fmspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder。
步骤C:从所述卷积网络中选取中间层特征结合编码特征Fencoder计算插值权重特征然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder;具体包括以下步骤:
步骤C1:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,从提取通用特征的卷积网络中选取输出步幅为os的中间层特征,并用1×1卷积进行降维,得到特征
步骤C2:使用最近邻插值处理编码特征Fencoder,得到输出步幅为os的特征图
步骤C3:拼接和使用1×1卷积降维后,再使用3×3卷积提取特征得到插值权重特征
步骤C4:计算尺寸与相同的待求特征Fdecoder,每个像素点对应到Fencoder中的小数坐标,公式如下:
其中,xencoder和yencoder为对应到Fencoder中的小数坐标,hencoder和wencoder表示Fencoder的高和宽,hdecoder和wdecoder表示Fdecoder的高和宽;
然后从Fencoder收集Fdecoder的四邻域特征Fref,计算公式如下:
其中,Fref(xdecoder,ydecoder)表示四邻域特征Fref在(xdecoder,ydecoder)坐标像素点的参考特征值,表示待求特征Fdecoder参考Fencoder在xencoder和yencoder都下取整坐标位置的像素值,即Fencoder对应像素点最近左上像素点的像素值,其余以此类推;
步骤C5:利用插值权重特征对四邻域特征Fref加权获得动态插值的解码特征Fdecoder,计算公式如下:
步骤C6:选取比步骤C1中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则更新Fdecoder作为新的Fencoder,并重复步骤C1至C5。
步骤D:用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;具体包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率;softmax计算公式如下:
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:对语义分割概率图中的每个位置选取概率最大的那个维度作为该位置的类别标号,获得预测语义分割图,然后通过如下公式结合图像语义分割标注获得边缘增强权重:
其中,wedge(i,j)、和分别表示坐标(i,j)位置的总边缘增强权重wedge、预测边缘增强权重和标注边缘增强权重y(i,j)和为坐标(i,j)位置预测语义分割结果和图像语义分割标注结果,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数,max()为取大值函数;α为像素边缘增强权重(本实施例中为1);
步骤D3:利用语义分割概率图与其对应标注,计算像素级的交叉熵,得到语义分割损失Ls,然后计算加权和损失L:
L=(1+wedge)Ls
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练网络得到最后的模型。
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
本发明还提供了用于实现上述方法的用于街景理解的语义分割系统,如图2所示,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder;
解码特征提取模块,用于从所述卷积网络中选取中间层特征结合编码特征Fencoder计算插值权重特征然后以动态插值的方式搭建解码网络,进行图像分辨率重建,提取解码特征Fdecoder;
神经网络训练模块,用于用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.一种用于街景理解的基于动态插值重建的语义分割方法,其特征在于,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder;
步骤C:从所述卷积网络中选取中间层特征结合编码特征Fencoder计算插值权重特征然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder;
步骤D:用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
2.根据权利要求1所述的用于街景理解的基于动态插值重建的语义分割方法,其特征在于,所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone;
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
步骤B3:对Fbackbone进行分块池化,得到尺寸为hbin×wbin的池化特征,然后使用最近邻插值把池化特征恢复到Fbackbone同尺寸,再经过1×1卷积得到特征其中,池化操作的参数的计算公式如下:
其中,hbackbone和wbackbone分别表示特征Fbackbone的高和宽,hbin和wbin分别表示垂直方向和水平方向的分块数量,hstride和wstride分别表示垂直方向和水平方向的池化步长,hstride和wstride分别表示垂直方向和水平方向的池化步长;
步骤B4:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
其中,表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B5:用不同的分块数量重复步骤B2,然后全部拼接获得空间金字塔特征Fspp,用不同的孔率重复步骤B3,然后全部拼接获得带孔空间金字塔特征Faspp,最后拼接Fspp和Faspp获得混合空间金字塔池化特征Fmspp;
步骤B6:使用1×1卷积对Fmspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder。
3.根据权利要求2所述的用于街景理解的基于动态插值重建的语义分割方法,其特征在于,所述步骤C中,从所述卷积网络中选取中间层特征结合编码特征Fencoder计算插值权重特征然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,从提取通用特征的卷积网络中选取输出步幅为os的中间层特征,并用1×1卷积进行降维,得到特征
步骤C2:使用最近邻插值处理编码特征Fencoder,得到输出步幅为os的特征图
步骤C3:拼接和使用1×1卷积降维后,再使用3×3卷积提取特征得到插值权重特征
步骤C4:计算尺寸与相同的待求特征Fdecoder,每个像素点对应到Fencoder中的小数坐标,公式如下:
其中,xencoder和yencoder为对应到Fencoder中的小数坐标,hencoder和wencoder表示Fencoder的高和宽,hdecoder和wdecoder表示Fdecoder的高和宽;
然后从Fencoder收集Fdecoder的四邻域特征Fref,计算公式如下:
其中,Fref(xdecoder,ydecoder)表示四邻域特征Fref在(xdecoder,ydecoder)坐标像素点的参考特征值,表示待求特征Fdecoder参考Fencoder在xencoder和yencoder都下取整坐标位置的像素值,即Fencoder对应像素点最近左上像素点的像素值;
步骤C5:利用插值权重特征对四邻域特征Fref加权获得动态插值的解码特征Fdecoder,计算公式如下:
步骤C6:选取比步骤C1中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则更新Fdecoder作为新的Fencoder,并重复步骤C1至C5。
4.根据权利要求3所述的用于街景理解的基于动态插值重建的语义分割方法,其特征在于,所述步骤D中,用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率;softmax计算公式如下:
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:对语义分割概率图中的每个位置选取概率最大的那个维度作为该位置的类别标号,获得预测语义分割图,然后通过如下公式结合图像语义分割标注获得边缘增强权重:
其中,wedge(i,j)、和分别表示坐标(i,j)位置的总边缘增强权重wedge、预测边缘增强权重和标注边缘增强权重y(i,j)和为坐标(i,j)位置预测语义分割结果和图像语义分割标注结果,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数,max()为取大值函数;α为像素边缘增强权重;
步骤D3:利用语义分割概率图与其对应标注,计算像素级的交叉熵,得到语义分割损失Ls,然后计算加权和损失L:
L=(1+wedge)Ls
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练网络得到最后的模型。
5.一种用于街景理解的基于动态插值重建的语义分割系统,其特征在于,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder;
解码特征提取模块,用于从所述卷积网络中选取中间层特征结合编码特征Fencoder计算插值权重特征然后以动态插值的方式搭建解码网络,进行图像分辨率重建,提取解码特征Fdecoder;
神经网络训练模块,用于用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910359127.5A CN110070091B (zh) | 2019-04-30 | 2019-04-30 | 用于街景理解的基于动态插值重建的语义分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910359127.5A CN110070091B (zh) | 2019-04-30 | 2019-04-30 | 用于街景理解的基于动态插值重建的语义分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110070091A true CN110070091A (zh) | 2019-07-30 |
CN110070091B CN110070091B (zh) | 2022-05-24 |
Family
ID=67369689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910359127.5A Active CN110070091B (zh) | 2019-04-30 | 2019-04-30 | 用于街景理解的基于动态插值重建的语义分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110070091B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533045A (zh) * | 2019-07-31 | 2019-12-03 | 中国民航大学 | 一种结合注意力机制的行李x光违禁品图像语义分割方法 |
CN110544254A (zh) * | 2019-09-12 | 2019-12-06 | 杭州海睿博研科技有限公司 | 用于核磁同步自动化成像与分割的系统和方法 |
CN110781899A (zh) * | 2019-10-23 | 2020-02-11 | 维沃移动通信有限公司 | 图像处理方法及电子设备 |
CN110863935A (zh) * | 2019-11-19 | 2020-03-06 | 上海海事大学 | 基于VGG16-SegUnet和dropout的海流机叶片附着物识别方法 |
CN111340047A (zh) * | 2020-02-28 | 2020-06-26 | 江苏实达迪美数据处理有限公司 | 基于多尺度特征与前背景对比的图像语义分割方法及系统 |
CN113065551A (zh) * | 2021-03-19 | 2021-07-02 | 杭州迪英加科技有限公司 | 利用深度神经网络模型执行图像分割的方法 |
CN114359645A (zh) * | 2022-01-12 | 2022-04-15 | 中国平安人寿保险股份有限公司 | 基于特征区域的图像拓展方法、装置、设备及存储介质 |
EP4047509A4 (en) * | 2019-11-18 | 2023-11-08 | Beijing Jingdong Shangke Information Technology Co., Ltd. | FACIAL SAVEMENT METHOD AND ASSOCIATED DEVICES |
CN117078982A (zh) * | 2023-10-16 | 2023-11-17 | 山东建筑大学 | 基于深度学习的大倾角立体像对准密集特征匹配方法 |
US11995380B2 (en) * | 2022-04-29 | 2024-05-28 | Hadi KERAMATI | System and method for heat exchanger shape optimization |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160055237A1 (en) * | 2014-08-20 | 2016-02-25 | Mitsubishi Electric Research Laboratories, Inc. | Method for Semantically Labeling an Image of a Scene using Recursive Context Propagation |
CN106250915A (zh) * | 2016-07-22 | 2016-12-21 | 福州大学 | 一种融合深度特征和语义邻域的自动图像标注方法 |
US20170262735A1 (en) * | 2016-03-11 | 2017-09-14 | Kabushiki Kaisha Toshiba | Training constrained deconvolutional networks for road scene semantic segmentation |
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
CN108921196A (zh) * | 2018-06-01 | 2018-11-30 | 南京邮电大学 | 一种改进全卷积神经网络的语义分割方法 |
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
-
2019
- 2019-04-30 CN CN201910359127.5A patent/CN110070091B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160055237A1 (en) * | 2014-08-20 | 2016-02-25 | Mitsubishi Electric Research Laboratories, Inc. | Method for Semantically Labeling an Image of a Scene using Recursive Context Propagation |
US20170262735A1 (en) * | 2016-03-11 | 2017-09-14 | Kabushiki Kaisha Toshiba | Training constrained deconvolutional networks for road scene semantic segmentation |
CN106250915A (zh) * | 2016-07-22 | 2016-12-21 | 福州大学 | 一种融合深度特征和语义邻域的自动图像标注方法 |
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
CN108921196A (zh) * | 2018-06-01 | 2018-11-30 | 南京邮电大学 | 一种改进全卷积神经网络的语义分割方法 |
Non-Patent Citations (2)
Title |
---|
BO YU ET AL: "Semantic Segmentation for High Spatial Resolution Remote Sensing Images Based on Convolution Neural Network and Pyramid Pooling Module", 《 IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING》 * |
王孙平等: "融合深度图像的卷积神经网络语义分割方法", 《集成技术》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533045B (zh) * | 2019-07-31 | 2023-01-17 | 中国民航大学 | 一种结合注意力机制的行李x光违禁品图像语义分割方法 |
CN110533045A (zh) * | 2019-07-31 | 2019-12-03 | 中国民航大学 | 一种结合注意力机制的行李x光违禁品图像语义分割方法 |
CN110544254A (zh) * | 2019-09-12 | 2019-12-06 | 杭州海睿博研科技有限公司 | 用于核磁同步自动化成像与分割的系统和方法 |
CN110781899A (zh) * | 2019-10-23 | 2020-02-11 | 维沃移动通信有限公司 | 图像处理方法及电子设备 |
CN110781899B (zh) * | 2019-10-23 | 2022-11-25 | 维沃移动通信有限公司 | 图像处理方法及电子设备 |
EP4047509A4 (en) * | 2019-11-18 | 2023-11-08 | Beijing Jingdong Shangke Information Technology Co., Ltd. | FACIAL SAVEMENT METHOD AND ASSOCIATED DEVICES |
CN110863935A (zh) * | 2019-11-19 | 2020-03-06 | 上海海事大学 | 基于VGG16-SegUnet和dropout的海流机叶片附着物识别方法 |
CN111340047A (zh) * | 2020-02-28 | 2020-06-26 | 江苏实达迪美数据处理有限公司 | 基于多尺度特征与前背景对比的图像语义分割方法及系统 |
CN113065551B (zh) * | 2021-03-19 | 2023-08-08 | 杭州迪英加科技有限公司 | 利用深度神经网络模型执行图像分割的方法 |
CN113065551A (zh) * | 2021-03-19 | 2021-07-02 | 杭州迪英加科技有限公司 | 利用深度神经网络模型执行图像分割的方法 |
CN114359645A (zh) * | 2022-01-12 | 2022-04-15 | 中国平安人寿保险股份有限公司 | 基于特征区域的图像拓展方法、装置、设备及存储介质 |
CN114359645B (zh) * | 2022-01-12 | 2024-05-21 | 中国平安人寿保险股份有限公司 | 基于特征区域的图像拓展方法、装置、设备及存储介质 |
US11995380B2 (en) * | 2022-04-29 | 2024-05-28 | Hadi KERAMATI | System and method for heat exchanger shape optimization |
CN117078982A (zh) * | 2023-10-16 | 2023-11-17 | 山东建筑大学 | 基于深度学习的大倾角立体像对准密集特征匹配方法 |
CN117078982B (zh) * | 2023-10-16 | 2024-01-26 | 山东建筑大学 | 基于深度学习的大倾角立体像对准密集特征匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110070091B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070091A (zh) | 用于街景理解的基于动态插值重建的语义分割方法及系统 | |
CN110059698B (zh) | 用于街景理解的基于边缘稠密重建的语义分割方法及系统 | |
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
CN111986099B (zh) | 基于融合残差修正的卷积神经网络的耕地监测方法及系统 | |
CN110059768B (zh) | 用于街景理解的融合点与区域特征的语义分割方法及系统 | |
CN112287940A (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
CN110059769A (zh) | 用于街景理解的基于像素重排重建的语义分割方法及系统 | |
CN108427920A (zh) | 一种基于深度学习的边海防目标检测方法 | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN110276402A (zh) | 一种基于深度学习语义边界增强的盐体识别方法 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN106778768A (zh) | 基于多特征融合的图像场景分类方法 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN114022770A (zh) | 基于改进自注意力机制与迁移学习的山体裂缝检测方法 | |
CN113705675B (zh) | 一种基于多尺度特征交互网络的多聚焦图像融合方法 | |
CN115205672A (zh) | 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统 | |
CN113239869A (zh) | 基于关键帧序列和行为信息的两阶段行为识别方法及系统 | |
CN110334719A (zh) | 一种提取遥感影像中建筑物图像的方法及系统 | |
CN110490807A (zh) | 图像重建方法、装置及存储介质 | |
CN113762265A (zh) | 肺炎的分类分割方法及系统 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN116030361A (zh) | 一种基于cim-t架构的高分辨率影像变化检测方法 | |
CN115410081A (zh) | 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质 | |
CN111462090A (zh) | 一种多尺度图像目标检测方法 | |
CN116012835A (zh) | 一种基于文本分割的两阶段场景文本擦除方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |