CN110059768A - 用于街景理解的融合点与区域特征的语义分割方法及系统 - Google Patents
用于街景理解的融合点与区域特征的语义分割方法及系统 Download PDFInfo
- Publication number
- CN110059768A CN110059768A CN201910359134.5A CN201910359134A CN110059768A CN 110059768 A CN110059768 A CN 110059768A CN 201910359134 A CN201910359134 A CN 201910359134A CN 110059768 A CN110059768 A CN 110059768A
- Authority
- CN
- China
- Prior art keywords
- feature
- semantic segmentation
- image
- network
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于街景理解的融合点与区域特征的语义分割方法及系统,该方法包括:对训练集输入图像进行预处理,使图像标准化并获取相同尺寸的预处理图像;用卷积网络提取通用特征,再基于通用特征获取多重上下文对比点特征,以这两部分级联作为编码网络提取编码特征;从卷积网络中选取中间层特征,结合编码特征计算区域特征,融合点域特征扩大解码特征分辨率,把这部分多次迭代作为解码网络,重建图像分辨率,计算解码特征;计算边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对深度神经网络进行训练;利用深度神经网络模型对待分割图像进行语义分割,输出分割结果。该方法及系统有利于提高图像语义分割的准确性和鲁棒性。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种用于街景理解的融合点与区域特征的语义分割方法及系统。
背景技术
图像语义分割是人工智能领域中计算机视觉的一个重要分支,是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别,使其与图像本身的视觉表示内容一致,所以图像语义分割任务也被称为像素级的图像分类任务。
由于图像语义分割与图像分类有一定的相似性,所以各式各样的图像分类网络常常在剔除最后的全连接层后,作为图像语义分割网络的主干网,并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征,最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下,图像语义分割的难度要更高,因为它不仅需要全局的上下文信息,还需要结合精细的局部信息来确定每个像素点的类别,所以常常利用主干网来提取较为全局的特征,然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征,所以常常把前者称为编码网络,后者称为解码网络。同时在编码过程中,为了能更好捕获不同大小物体的特征,常常结合不同感受野和尺度信息,比如带孔空间金字塔池化技术。在现有的语义分割模型中,编码过程和解码过程都是直接为优化语义分割效果而设计的,以融入更多信息来得到更强大的语义特征,如前者融合多尺度信息以及后者补充编码过程中遗漏的细节信息,因此这两个不同的过程没有能够对不同的目标进行优化,所以他们结合之后的表现能力也有限。实际上使用解码网络主要是因为硬件条件受限使用了降低分辨率的编码网络,因此需要进行分辨率重建,同时尽可能地优化其效果。所以自然地,编码结果代表的即是它本身分辨率下的优秀语义分割特征,而解码的过程则是在这之上利用对应的区域信息来扩大其分辨率,针对不同像素点以不同的方式来参考区域信息,从而自然地将互补的点信息和区域信息很好的融合起来,而这正是目前方法所没有考虑到的。
发明内容
本发明的目的在于提供一种用于街景理解的融合点与区域特征的语义分割方法及系统,该方法及系统有利于提高图像语义分割的准确性和鲁棒性。
为实现上述目的,本发明的技术方案是:一种用于街景理解的融合点与区域特征的语义分割方法,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取多重上下文对比点特征Fcaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder;
步骤C:从所述卷积网络中选取中间层特征Fmiddle,结合编码特征Fencoder计算区域特征Fregion,融合点域特征扩大解码特征分辨率,把这部分多次迭代作为解码网络,进行图像分辨率重建,计算解码特征Fdecoder;
步骤D:用解码特征Fdecoder获取语义分割概率图,利用图像语义分割标注计算边缘增强权重,并利用语义分割标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
进一步地,所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取多重上下文对比点特征Fcaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone;
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
步骤B3:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
其中,表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
然后使用如下公式计算得到孔率为ras的上下文对比点特征特征
步骤B5:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage;
步骤B6:使用不同的孔率重复步骤B4,直至获得ncaspp个特征,然后将这ncaspp个特征与Fc 1 aspp和Fimage进行拼接,得到多重上下文对比点特征Fcaspp;
步骤B7:使用1×1卷积对Fcaspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder。
进一步地,所述步骤C中,从所述卷积网络中选取中间层特征Fmiddle,结合编码特征Fencoder计算区域特征Fregion,融合点域特征扩大解码特征分辨率,把这部分多次迭代作为解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:将Fencoder作为当前的解码特征Fdecoder;
步骤C2:从提取通用特征的卷积网络中选取尺寸与Fdecoder相同的的中间层特征Fmiddle;
步骤C3:使用最近邻插值处理编码特征Fencoder,得到与Fdecoder尺寸相同的特征图Fus;
步骤C4:将Fmiddle与Fus拼接后使用1×1卷积进行降维,然后使用多孔空间金字塔池化网络处理得到含有多尺度上下文信息的区域特征Fregion;
步骤C5:拼接Fdecoder和Fregion,使用1×1卷积进行降维后,再使用3×3卷积提取特征得到解码特征Fdecoder;
步骤C6:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅;选取所述卷积网络中输出步幅为os的中间层特征的尺寸作为下一级解码特征尺寸;如果此输出步幅在选取的处理列表内,则使用双线性插值Fdecoder扩大到该尺寸,重复步骤C2至C5,否则解码特征提取完成。
进一步地,所述步骤D中,用解码特征Fdecoder获取语义分割概率图,利用图像语义分割标注计算边缘增强权重,并利用语义分割标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率,softmax计算公式如下:
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:利用图像语义分割标注获得边缘增强权重,计算公式如下:
其中wedge(i,j)表示坐标(i,j)位置的边缘增强权重wedge,为坐标(i,j)位置预测语义图像语义分割标注结果,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数,α为像素边缘增强权重;
步骤D3:利用语义分割概率图与其对应标注,计算像素级的交叉熵,得到语义分割损失Ls,然后计算加权和损失L:
L=(1+wedge)Ls
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练网络得到最后的模型。
本发明还提供了一种用于街景理解的融合点与区域特征的语义分割系统,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取多重上下文对比点特征Fcaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder;
解码特征提取模块,用于从所述卷积网络中选取中间层特征Fmiddle,结合编码特征Fencoder计算区域特征Fregion,融合点域特征扩大解码特征分辨率,把这部分多次迭代作为解码网络,进行图像分辨率重建,计算解码特征Fdecoder;
神经网络训练模块,用于用解码特征Fdecoder获取语义分割概率图,利用图像语义分割标注计算边缘增强权重,并利用语义分割标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
相较于现有技术,本发明的有益效果是:首先在编码网络针对性地计算多重上下文对比点特征,强化了对各个像素点信息的获取。然后在解码网络利用浅层特征学习区域性特征,同时利用辅助边缘监督优化区域性特征的学习,针对性地利用其互补性将点域特征进行结合。与现有方法相比,本发明能在编码后获得更有点针对性的特征,在解码过程中获取与之互补,更有区域针对性且受边缘监督的特征,使得两个针对优化点强强联合,从而可以得到更精确的语义分割结果。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例的系统结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种用于街景理解的融合点与区域特征的语义分割方法,如图1所示,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。
步骤B:用通用的卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取多重上下文对比点特征Fcaspp,然后以步骤B中所述这两部分级联作为编码网络提取编码特征Fencoder;具体包括以下步骤:
步骤B1:使用通用的卷积网络(本实施例中采用deeplabv3+网络中提供的xception网络)对预处理图像提取通用特征Fbackbone;
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
步骤B3:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
其中,表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
然后使用如下公式计算得到孔率为ras的上下文对比点特征特征
步骤B5:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage;
步骤B6:使用不同的孔率重复步骤B4,直至获得ncaspp个特征(本实施例为3个特征,孔率分别为6,12,18),然后将这ncaspp个特征与和Fimage进行拼接,得到多重上下文对比点特征Fcaspp;
步骤B7:使用1×1卷积对Fcaspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder。
步骤C:从所述卷积网络中选取中间层特征Fmiddle,结合编码特征Fencoder计算区域特征Fregion,融合点域特征扩大解码特征分辨率,把步骤C中这部分多次迭代作为解码网络,进行图像分辨率重建,计算解码特征Fdecoder;具体包括以下步骤:
步骤C1:将Fencoder作为当前的解码特征Fdecoder;
步骤C2:从提取通用特征的卷积网络中选取尺寸与Fdecoder相同的的中间层特征Fmiddle;
步骤C3:使用最近邻插值处理编码特征Fencoder,得到与Fdecoder尺寸相同的特征图Fus;
步骤C4:将Fmiddle与Fus拼接后使用1×1卷积进行降维,然后使用多孔空间金字塔池化网络处理得到含有多尺度上下文信息的区域特征Fregion;此处,本方法可以选择任意卷积网络模块,只要能捕获多尺度上下文信息即可,本实施例采用了多孔空间金字塔池化,孔率为6,12,18;
步骤C5:拼接Fdecoder和Fregion,使用1×1卷积进行降维后,再使用3×3卷积提取特征得到解码特征Fdecoder;
步骤C6:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅;选取所述卷积网络中输出步幅为os的中间层特征的尺寸作为下一级解码特征尺寸;如果此输出步幅在选取的处理列表内,则使用双线性插值Fdecoder扩大到该尺寸,重复步骤C2至C5,否则解码特征提取完成。
步骤D:用解码特征Fdecoder获取语义分割概率图,利用图像语义分割标注计算边缘增强权重,并利用语义分割标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;具体包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率,softmax计算公式如下:
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:利用图像语义分割标注获得边缘增强权重,计算公式如下:
其中wedge(i,j)表示坐标(i,j)位置的边缘增强权重wedge,为坐标(i,j)位置预测语义图像语义分割标注结果,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数,α为像素边缘增强权重,本实施例取1;
步骤D3:利用语义分割概率图与其对应标注,计算像素级的交叉熵,得到语义分割损失Ls,然后计算加权和损失L:
L=(1+wedge)Ls
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练网络得到最后的模型。
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
本发明还提供了用于实现上述方法的用于街景理解的语义分割系统,如图2所示,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取多重上下文对比点特征Fcaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder;
解码特征提取模块,用于从所述卷积网络中选取中间层特征Fmiddle,结合编码特征Fencoder计算区域特征Fregion,融合点域特征扩大解码特征分辨率,把这部分多次迭代作为解码网络,进行图像分辨率重建,计算解码特征Fdecoder;
神经网络训练模块,用于用解码特征Fdecoder获取语义分割概率图,利用图像语义分割标注计算边缘增强权重,并利用语义分割标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.一种用于街景理解的融合点与区域特征的语义分割方法,其特征在于,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取多重上下文对比点特征Fcaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder;
步骤C:从所述卷积网络中选取中间层特征Fmiddle,结合编码特征Fencoder计算区域特征Fregion,融合点域特征扩大解码特征分辨率,把这部分多次迭代作为解码网络,进行图像分辨率重建,计算解码特征Fdecoder;
步骤D:用解码特征Fdecoder获取语义分割概率图,利用图像语义分割标注计算边缘增强权重,并利用语义分割标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
2.根据权利要求1所述的用于街景理解的融合点与区域特征的语义分割方法,其特征在于,所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取多重上下文对比点特征Fcaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone;
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
步骤B3:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
其中,表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
然后使用如下公式计算得到孔率为ras的上下文对比点特征特征
步骤B5:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage;
步骤B6:使用不同的孔率重复步骤B4,直至获得ncaspp个特征,然后将这ncaspp个特征与和Fimage进行拼接,得到多重上下文对比点特征Fcaspp;
步骤B7:使用1×1卷积对Fcaspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder。
3.根据权利要求2所述的用于街景理解的融合点与区域特征的语义分割方法,其特征在于,所述步骤C中,从所述卷积网络中选取中间层特征Fmiddle,结合编码特征Fencoder计算区域特征Fregion,融合点域特征扩大解码特征分辨率,把这部分多次迭代作为解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:将Fencoder作为当前的解码特征Fdecoder;
步骤C2:从提取通用特征的卷积网络中选取尺寸与Fdecoder相同的的中间层特征Fmiddle;
步骤C3:使用最近邻插值处理编码特征Fencoder,得到与Fdecoder尺寸相同的特征图Fus;
步骤C4:将Fmiddle与Fus拼接后使用1×1卷积进行降维,然后使用多孔空间金字塔池化网络处理得到含有多尺度上下文信息的区域特征Fregion;
步骤C5:拼接Fdecoder和Fregion,使用1×1卷积进行降维后,再使用3×3卷积提取特征得到解码特征Fdecoder;
步骤C6:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅;选取所述卷积网络中输出步幅为os的中间层特征的尺寸作为下一级解码特征尺寸;如果此输出步幅在选取的处理列表内,则使用双线性插值Fdecoder扩大到该尺寸,重复步骤C2至C5,否则解码特征提取完成。
4.根据权利要求3所述的用于街景理解的融合点与区域特征的语义分割方法,其特征在于,所述步骤D中,用解码特征Fdecoder获取语义分割概率图,利用图像语义分割标注计算边缘增强权重,并利用语义分割标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率,softmax计算公式如下:
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:利用图像语义分割标注获得边缘增强权重,计算公式如下:
其中wedge(i,j)表示坐标(i,j)位置的边缘增强权重wedge,为坐标(i,j)位置预测语义图像语义分割标注结果,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数,α为像素边缘增强权重;
步骤D3:利用语义分割概率图与其对应标注,计算像素级的交叉熵,得到语义分割损失Ls,然后计算加权和损失L:
L=(1+wedge)Ls
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练网络得到最后的模型。
5.一种用于街景理解的融合点与区域特征的语义分割系统,其特征在于,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取多重上下文对比点特征Fcaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder;
解码特征提取模块,用于从所述卷积网络中选取中间层特征Fmiddle,结合编码特征Fencoder计算区域特征Fregion,融合点域特征扩大解码特征分辨率,把这部分多次迭代作为解码网络,进行图像分辨率重建,计算解码特征Fdecoder;
神经网络训练模块,用于用解码特征Fdecoder获取语义分割概率图,利用图像语义分割标注计算边缘增强权重,并利用语义分割标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910359134.5A CN110059768B (zh) | 2019-04-30 | 2019-04-30 | 用于街景理解的融合点与区域特征的语义分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910359134.5A CN110059768B (zh) | 2019-04-30 | 2019-04-30 | 用于街景理解的融合点与区域特征的语义分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059768A true CN110059768A (zh) | 2019-07-26 |
CN110059768B CN110059768B (zh) | 2022-11-15 |
Family
ID=67321807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910359134.5A Active CN110059768B (zh) | 2019-04-30 | 2019-04-30 | 用于街景理解的融合点与区域特征的语义分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059768B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569790A (zh) * | 2019-09-05 | 2019-12-13 | 中国人民解放军61540部队 | 基于纹理增强卷积网络的居民区要素提取方法 |
CN110852199A (zh) * | 2019-10-28 | 2020-02-28 | 中国石化销售股份有限公司华南分公司 | 一种基于双帧编码解码模型的前景提取方法 |
CN112200845A (zh) * | 2020-10-22 | 2021-01-08 | 清华大学 | 一种图像配准方法和装置 |
CN112329498A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种基于机器学习的街道空间品质量化方法 |
CN112396607A (zh) * | 2020-11-18 | 2021-02-23 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
CN112634289A (zh) * | 2020-12-28 | 2021-04-09 | 华中科技大学 | 一种基于非对称空洞卷积的快速可行域分割方法 |
CN113011336A (zh) * | 2021-03-19 | 2021-06-22 | 厦门大学 | 一种基于深度多分支聚合的实时街景图像语义分割方法 |
CN113065551A (zh) * | 2021-03-19 | 2021-07-02 | 杭州迪英加科技有限公司 | 利用深度神经网络模型执行图像分割的方法 |
CN113628144A (zh) * | 2021-08-25 | 2021-11-09 | 厦门美图之家科技有限公司 | 人像修复方法、装置、电子设备及存储介质 |
CN114565616A (zh) * | 2022-03-03 | 2022-05-31 | 湖南大学无锡智能控制研究院 | 一种非结构化道路状态参数估计方法及系统 |
CN115797633A (zh) * | 2022-12-02 | 2023-03-14 | 中国科学院空间应用工程与技术中心 | 一种遥感图像分割方法、系统、存储介质和电子设备 |
CN116978011A (zh) * | 2023-08-23 | 2023-10-31 | 广州新华学院 | 一种用于智能目标识别的图像语义通信方法及系统 |
EP4047509A4 (en) * | 2019-11-18 | 2023-11-08 | Beijing Jingdong Shangke Information Technology Co., Ltd. | FACIAL SAVEMENT METHOD AND ASSOCIATED DEVICES |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985181A (zh) * | 2018-06-22 | 2018-12-11 | 华中科技大学 | 一种基于检测分割的端对端人脸标注方法 |
CN109241972A (zh) * | 2018-08-20 | 2019-01-18 | 电子科技大学 | 基于深度学习的图像语义分割方法 |
-
2019
- 2019-04-30 CN CN201910359134.5A patent/CN110059768B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985181A (zh) * | 2018-06-22 | 2018-12-11 | 华中科技大学 | 一种基于检测分割的端对端人脸标注方法 |
CN109241972A (zh) * | 2018-08-20 | 2019-01-18 | 电子科技大学 | 基于深度学习的图像语义分割方法 |
Non-Patent Citations (4)
Title |
---|
YUZHONG CHEN: "Pyramid Context Contrast for Semantic Segmentation", 《IEEE ACCESS》 * |
姚群力等: "深度卷积神经网络在目标检测中的研究进展", 《计算机工程与应用》 * |
温佩芝等: "基于卷积神经网络改进的图像自动分割方法", 《计算机应用研究》 * |
胡太: "基于深度神经网络的小目标语义分割算法研究", 《 中国优秀硕士论文电子期刊网》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329498B (zh) * | 2019-08-05 | 2022-06-07 | 四川大学 | 一种基于机器学习的街道空间品质量化方法 |
CN112329498A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种基于机器学习的街道空间品质量化方法 |
CN110569790A (zh) * | 2019-09-05 | 2019-12-13 | 中国人民解放军61540部队 | 基于纹理增强卷积网络的居民区要素提取方法 |
CN110569790B (zh) * | 2019-09-05 | 2023-03-28 | 中国人民解放军61540部队 | 基于纹理增强卷积网络的居民区要素提取方法 |
CN110852199A (zh) * | 2019-10-28 | 2020-02-28 | 中国石化销售股份有限公司华南分公司 | 一种基于双帧编码解码模型的前景提取方法 |
EP4047509A4 (en) * | 2019-11-18 | 2023-11-08 | Beijing Jingdong Shangke Information Technology Co., Ltd. | FACIAL SAVEMENT METHOD AND ASSOCIATED DEVICES |
CN112200845A (zh) * | 2020-10-22 | 2021-01-08 | 清华大学 | 一种图像配准方法和装置 |
CN112396607A (zh) * | 2020-11-18 | 2021-02-23 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
CN112396607B (zh) * | 2020-11-18 | 2023-06-16 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
CN112634289A (zh) * | 2020-12-28 | 2021-04-09 | 华中科技大学 | 一种基于非对称空洞卷积的快速可行域分割方法 |
CN112634289B (zh) * | 2020-12-28 | 2022-05-27 | 华中科技大学 | 一种基于非对称空洞卷积的快速可行域分割方法 |
CN113011336B (zh) * | 2021-03-19 | 2022-05-27 | 厦门大学 | 一种基于深度多分支聚合的实时街景图像语义分割方法 |
CN113065551A (zh) * | 2021-03-19 | 2021-07-02 | 杭州迪英加科技有限公司 | 利用深度神经网络模型执行图像分割的方法 |
CN113065551B (zh) * | 2021-03-19 | 2023-08-08 | 杭州迪英加科技有限公司 | 利用深度神经网络模型执行图像分割的方法 |
CN113011336A (zh) * | 2021-03-19 | 2021-06-22 | 厦门大学 | 一种基于深度多分支聚合的实时街景图像语义分割方法 |
CN113628144A (zh) * | 2021-08-25 | 2021-11-09 | 厦门美图之家科技有限公司 | 人像修复方法、装置、电子设备及存储介质 |
CN114565616A (zh) * | 2022-03-03 | 2022-05-31 | 湖南大学无锡智能控制研究院 | 一种非结构化道路状态参数估计方法及系统 |
CN114565616B (zh) * | 2022-03-03 | 2022-12-09 | 湖南大学无锡智能控制研究院 | 一种非结构化道路状态参数估计方法及系统 |
CN115797633A (zh) * | 2022-12-02 | 2023-03-14 | 中国科学院空间应用工程与技术中心 | 一种遥感图像分割方法、系统、存储介质和电子设备 |
CN115797633B (zh) * | 2022-12-02 | 2023-06-27 | 中国科学院空间应用工程与技术中心 | 一种遥感图像分割方法、系统、存储介质和电子设备 |
CN116978011A (zh) * | 2023-08-23 | 2023-10-31 | 广州新华学院 | 一种用于智能目标识别的图像语义通信方法及系统 |
CN116978011B (zh) * | 2023-08-23 | 2024-03-15 | 广州新华学院 | 一种用于智能目标识别的图像语义通信方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110059768B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059768A (zh) | 用于街景理解的融合点与区域特征的语义分割方法及系统 | |
CN110059698A (zh) | 用于街景理解的基于边缘稠密重建的语义分割方法及系统 | |
Zhong et al. | An end-to-end dense-inceptionnet for image copy-move forgery detection | |
CN112232349B (zh) | 模型训练方法、图像分割方法及装置 | |
CN110070091A (zh) | 用于街景理解的基于动态插值重建的语义分割方法及系统 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN111259905B (zh) | 一种基于下采样的特征融合遥感图像语义分割方法 | |
CN110059769A (zh) | 用于街景理解的基于像素重排重建的语义分割方法及系统 | |
CN110555368B (zh) | 基于三维卷积神经网络的跌倒行为识别方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN108427920A (zh) | 一种基于深度学习的边海防目标检测方法 | |
CN110992270A (zh) | 基于注意力的多尺度残差注意网络图像超分辨率重建方法 | |
CN113298789A (zh) | 绝缘子缺陷检测方法、系统、电子设备及可读存储介质 | |
CN115619743A (zh) | Oled新型显示器件表面缺陷检测模型的构建方法及其应用 | |
CN115082675B (zh) | 一种透明物体图像分割方法及系统 | |
CN114723760B (zh) | 人像分割模型的训练方法、装置及人像分割方法、装置 | |
CN110490055A (zh) | 一种基于三重编码的弱监督行为识别定位方法和装置 | |
CN113762265A (zh) | 肺炎的分类分割方法及系统 | |
CN115908205A (zh) | 图像修复方法、装置、电子设备和存储介质 | |
Salem et al. | Semantic image inpainting using self-learning encoder-decoder and adversarial loss | |
CN110264483B (zh) | 一种基于深度学习的语义图像分割方法 | |
CN114387610A (zh) | 一种基于增强特征金字塔网络的任意形状场景文本检测方法 | |
Guo et al. | Fastmim: Expediting masked image modeling pre-training for vision | |
CN109658508A (zh) | 一种多尺度细节融合的地形合成方法 | |
CN117557856A (zh) | 一种基于自监督学习的病理全切片特征学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |