CN110059769B - 用于街景理解的基于像素重排重建的语义分割方法及系统 - Google Patents

用于街景理解的基于像素重排重建的语义分割方法及系统 Download PDF

Info

Publication number
CN110059769B
CN110059769B CN201910359495.XA CN201910359495A CN110059769B CN 110059769 B CN110059769 B CN 110059769B CN 201910359495 A CN201910359495 A CN 201910359495A CN 110059769 B CN110059769 B CN 110059769B
Authority
CN
China
Prior art keywords
edge
semantic segmentation
features
image
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910359495.XA
Other languages
English (en)
Other versions
CN110059769A (zh
Inventor
陈羽中
林洋洋
柯逍
黄腾达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910359495.XA priority Critical patent/CN110059769B/zh
Publication of CN110059769A publication Critical patent/CN110059769A/zh
Application granted granted Critical
Publication of CN110059769B publication Critical patent/CN110059769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种用于街景理解的基于像素重排重建的语义分割方法及系统,该方法包括:对训练集输入图像进行预处理,使图像标准化并获取相同尺寸的预处理图像;用卷积网络提取通用特征,再获取稠密带孔空间金字塔融合特征,以这两部分级联作为编码网络提取编码特征;从卷积网络中选取中间层特征,结合编码特征计算边缘特征,以基于像素重排技术的稠密网为解码网络,重建图像分辨率,计算解码特征;计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标对深度神经网络进行训练;利用深度神经网络模型对待分割图像进行语义分割,输出分割结果。该方法及系统有利于提高图像语义分割的准确性和鲁棒性。

Description

用于街景理解的基于像素重排重建的语义分割方法及系统
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种用于街景理解的基于像素重排重建的语义分割方法及系统。
背景技术
图像语义分割是人工智能领域中计算机视觉的一个重要分支,是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别,使其与图像本身的视觉表示内容一致,所以图像语义分割任务也被称为像素级的图像分类任务。
由于图像语义分割与图像分类有一定的相似性,所以各式各样的图像分类网络常常在剔除最后的全连接层后,作为图像语义分割网络的主干网,并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征,最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下,图像语义分割的难度要更高,因为它不仅需要全局的上下文信息,还需要结合精细的局部信息来确定每个像素点的类别,所以常常利用主干网来提取较为全局的特征,然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征,所以常常把前者称为编码网络,后者称为解码网络。同时在编码过程中,为了能更好捕获不同大小物体的特征,常常结合不同感受野和尺度信息,比如带孔空间金字塔池化技术,不能有效地对点本身特征进行表示,而且在计算不同尺度特征特征时没有重用较小的尺度特征。同时,在现有的语义分割方法中,解码过程中一般都使用转置卷积或者双线性插值等方法将特征逐级扩大,因此特征尺寸是逐级递增的,无法有效地对重建特征进行特征重用。而且在这过程中常常会加入浅层特征来优化解码过程,但没有对浅层特征设计一个明确的优化目标,因此在重建过程中修复细节的能力稍显不足。
发明内容
本发明的目的在于提供一种用于街景理解的基于像素重排重建的语义分割方法及系统,该方法及系统有利于提高图像语义分割的准确性和鲁棒性。
为实现上述目的,本发明的技术方案是:一种用于街景理解的基于像素重排重建的语义分割方法,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
步骤C:从所述卷积网络中选取中间层特征
Figure BDA0002046440060000021
结合编码特征Fencoder计算边缘特征
Figure BDA0002046440060000022
以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder
步骤D:用解码特征Fdecoder和边缘特征
Figure BDA00020464400600000213
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
进一步地,所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
Figure BDA0002046440060000024
Figure BDA00020464400600000214
与Fbackbone拼接得到
Figure BDA0002046440060000026
步骤B3:使用1×1卷积对特征
Figure BDA0002046440060000027
进行降维,然后用孔率为ras的卷积核进行带孔卷积得到特征
Figure BDA0002046440060000028
并将
Figure BDA0002046440060000029
Figure BDA00020464400600000210
拼接结果作为新的
Figure BDA00020464400600000211
卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
Figure BDA00020464400600000212
其中,
Figure BDA0002046440060000031
表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B4:使用多个不同的孔率重复上一步骤,直至获得ndaspp个特征;
步骤B5:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage,然后将
Figure BDA00020464400600000319
和Fimage拼接结果作为新的
Figure BDA0002046440060000033
再用一个不同孔率执行步骤B3;
步骤B6:使用1×1卷积对
Figure BDA0002046440060000034
进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
进一步地,所述步骤C中,从所述卷积网络中选取中间层特征
Figure BDA0002046440060000035
结合编码特征Fencoder计算边缘特征
Figure BDA0002046440060000036
以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算特征图Fdecoder,包括以下步骤:
步骤C1:将Fencoder作为当前的解码特征Fdecoder
步骤C2:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,使用像素重排技术处理Fdecoder,得到输出步幅为os的
Figure BDA0002046440060000037
像素重排计算公式如下:
Figure BDA0002046440060000038
其中,rhs和rws分别表示
Figure BDA0002046440060000039
和Fdecoder尺寸的上取整高度比和上取整宽度比,
Figure BDA00020464400600000310
表示在坐标
Figure BDA00020464400600000311
位置通道
Figure BDA00020464400600000312
处的像素值,
Figure BDA00020464400600000313
表示在坐标
Figure BDA00020464400600000314
位置通道
Figure BDA00020464400600000320
处的像素值;
步骤C3:使用最近邻插值处理编码特征Fencoder,得到与
Figure BDA00020464400600000316
尺寸相同的特征图
Figure BDA00020464400600000317
步骤C4:从提取通用特征的卷积网络中选取输出步幅为os的中间层特征
Figure BDA00020464400600000318
双线性插值到与
Figure BDA0002046440060000041
相同尺寸后再与
Figure BDA0002046440060000042
拼接,然后使用1×1卷积进行降维后,再使用3×3卷积提取特征得到边缘特征
Figure BDA0002046440060000043
步骤C5:拼接
Figure BDA0002046440060000044
Figure BDA0002046440060000045
使用1×1卷积进行降维后,再使用3×3卷积提取特征得到解码特征Fdecoder,然后拼接
Figure BDA0002046440060000046
作为新的解码特征Fdecoder
步骤C6:选取比步骤C2中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则重复步骤C2至C5。
进一步地,所述步骤D中,用解码特征Fdecoder和边缘特征
Figure BDA0002046440060000047
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及它们各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率,softmax计算公式如下:
Figure BDA0002046440060000048
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:用双线性插值将所有的
Figure BDA0002046440060000049
缩放到与输入图像的尺寸相同,并将所有
Figure BDA00020464400600000410
拼接使用不带激活函数的1×1卷积计算得到合并边缘特征Fedge,然后对Fedge使用sigmoid激活得到边缘概率图,sigmoid计算公式如下:
Figure BDA00020464400600000411
其中,S(ε)表示Fedge中的特征值ε经过sigmoid处理后的概率,e为自然指数;
步骤D3:利用训练集的语义分割标注计算边缘标注,计算公式如下:
Figure BDA00020464400600000412
其中,yedge(i,j)和
Figure BDA00020464400600000413
为坐标(i,j)位置的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤D4:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Ls和辅助监督的边缘损失Ledge,然后计算加权和损失L:
L=Ls+αLedge
其中,Ledge为合并边缘特征Fedge对应的损失值,α为Ledge在最终损失中所占的权重;
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练整个深度神经网络,得到最后的深度神经网络模型。
本发明还提供了一种用于街景理解的基于像素重排重建的语义分割系统,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于从所述卷积网络中选取中间层特征
Figure BDA0002046440060000051
结合编码特征Fencoder计算边缘特征
Figure BDA0002046440060000052
以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder和边缘特征
Figure BDA0002046440060000053
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
相较于现有技术,本发明的有益效果是:首先在编码网络中的主干网过后的多尺度特征捕获中使用了稠密带孔空间金字塔池化,针对性地在带孔空间金字塔池化中对感受野从小到大的特征进行重用,使用编码特征得到更好的学习。然后在解码网络结合受辅助边缘监督的浅层特征,巧妙地利用像素重排的方式自然地让各级重建特征的尺寸统一起来,从而满足稠密网的基本要求,利用稠密网的方式针对性地对分辨率重建过程中的特征进行更有效地重用。与现有方法相比,本发明能在编码过程中有效地重用小尺度特征获取更强大的大尺度特征,同时获取更有点性质代表的编码特征,解码过程中利用像素重排的方式自然而巧妙地满足了稠密网的要求,从而使得重建特征可以进行重用,更便于解码网络的学习,同时对浅层特征进行边缘监督,明确其优化目标,能从边缘优化的角度更好地提高不同物体间的分割能力,使得最后的语义分割结果更准确且鲁棒。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例的系统结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种用于街景理解的基于像素重排重建的语义分割方法,如图1所示,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。
步骤B:用通用的卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以步骤B中所述这两部分级联作为编码网络提取编码特征Fencoder;具体包括以下步骤:
步骤B1:使用通用的卷积网络(本实施例采用deeplabv3+网络中提供的xception)对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
Figure BDA0002046440060000061
Figure BDA0002046440060000062
与Fbackbone拼接得到
Figure BDA0002046440060000063
步骤B3:使用1×1卷积对特征
Figure BDA0002046440060000064
进行降维,然后用孔率为ras的卷积核进行带孔卷积得到特征
Figure BDA0002046440060000065
并将
Figure BDA0002046440060000066
Figure BDA0002046440060000067
拼接结果作为新的
Figure BDA0002046440060000068
卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
Figure BDA0002046440060000071
其中,
Figure BDA0002046440060000072
表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B4:使用多个不同的孔率重复上一步骤,直至获得ndaspp个特征(本实施例为3个特征,孔率分别为6,12,18);
步骤B5:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage,然后将
Figure BDA0002046440060000073
和Fimage拼接结果作为新的
Figure BDA0002046440060000074
再用一个不同孔率(本实施例中为24)执行步骤B3;
步骤B6:使用1×1卷积对
Figure BDA0002046440060000075
进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
步骤C:从所述卷积网络中选取中间层特征
Figure BDA0002046440060000076
结合编码特征Fencoder计算边缘特征
Figure BDA0002046440060000077
以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder;具体包括以下步骤:
步骤C1:将Fencoder作为当前的解码特征Fdecoder
步骤C2:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,使用像素重排技术处理Fdecoder,得到输出步幅为os的
Figure BDA0002046440060000078
像素重排计算公式如下:
Figure BDA0002046440060000079
其中,rhs和rws分别表示
Figure BDA00020464400600000718
和Fdecoder尺寸的上取整高度比和上取整宽度比,
Figure BDA00020464400600000711
表示在坐标
Figure BDA00020464400600000719
位置通道
Figure BDA00020464400600000713
处的像素值,
Figure BDA00020464400600000714
表示在坐标
Figure BDA00020464400600000715
位置通道
Figure BDA00020464400600000716
处的像素值;
步骤C3:使用最近邻插值处理编码特征Fencoder,得到与
Figure BDA00020464400600000717
尺寸相同的特征图
Figure BDA0002046440060000081
步骤C4:从提取通用特征的卷积网络中选取输出步幅为os的中间层特征
Figure BDA0002046440060000082
双线性插值到与
Figure BDA0002046440060000083
相同尺寸后再与
Figure BDA0002046440060000084
拼接,然后使用1×1卷积进行降维后,再使用3×3卷积提取特征得到边缘特征
Figure BDA0002046440060000085
步骤C5:拼接
Figure BDA0002046440060000086
Figure BDA0002046440060000087
使用1×1卷积进行降维后,再使用3×3卷积提取特征得到解码特征Fdecoder,然后拼接
Figure BDA0002046440060000088
作为新的解码特征Fdecoder
步骤C6:选取比步骤C2中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则重复步骤C2至C5。
步骤D:用解码特征Fdecoder和边缘特征
Figure BDA0002046440060000089
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练;具体包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率,softmax计算公式如下:
Figure BDA00020464400600000810
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:用双线性插值将所有的
Figure BDA00020464400600000811
缩放到与输入图像的尺寸相同,并将所有
Figure BDA00020464400600000812
拼接使用不带激活函数的1×1卷积计算得到合并边缘特征Fedge,然后对Fedge使用sigmoid激活得到边缘概率图,sigmoid计算公式如下:
Figure BDA00020464400600000813
其中,S(ε)表示Fedge中的特征值ε经过sigmoid处理后的概率,e为自然指数;
步骤D3:利用训练集的语义分割标注计算边缘标注,计算公式如下:
Figure BDA0002046440060000091
其中,yedge(i,j)和
Figure BDA0002046440060000092
为坐标(i,j)位置的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤D4:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Ls和辅助监督的边缘损失Ledge,然后计算加权和损失L:
L=Ls+αLedge
其中,Ledge为合并边缘特征Fedge对应的损失值,α为Ledge在最终损失中所占的权重,具体满足α=1;
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练整个深度神经网络,得到最后的深度神经网络模型。
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
本发明还提供了用于实现上述方法的用于街景理解的语义分割系统,如图2所示,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于从所述卷积网络中选取中间层特征
Figure BDA0002046440060000093
结合编码特征Fencoder计算边缘特征
Figure BDA0002046440060000094
以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder和边缘特征
Figure BDA0002046440060000095
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (3)

1.一种用于街景理解的基于像素重排重建的语义分割方法,其特征在于,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后提取编码特征Fencoder
步骤C:从所述卷积网络中选取中间层特征
Figure FDA0003807705340000011
结合编码特征Fencoder计算边缘特征
Figure FDA0003807705340000012
以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder
步骤D:用解码特征Fdecoder和边缘特征
Figure FDA0003807705340000013
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果;
所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,然后提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
Figure FDA0003807705340000014
Figure FDA0003807705340000015
与Fbackbone拼接得到
Figure FDA0003807705340000016
步骤B3:使用1×1卷积对特征
Figure FDA0003807705340000017
进行降维,然后用孔率为ras的卷积核进行带孔卷积得到特征
Figure FDA0003807705340000018
并将
Figure FDA0003807705340000019
Figure FDA00038077053400000110
拼接结果作为新的
Figure FDA00038077053400000111
卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
Figure FDA00038077053400000112
其中,
Figure FDA00038077053400000113
表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B4:使用多个不同的孔率重复上一步骤,直至获得ndaspp个特征;
步骤B5:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage,然后将
Figure FDA0003807705340000021
和Fimage拼接结果作为新的
Figure FDA0003807705340000022
再用一个不同孔率执行步骤B3;
步骤B6:使用1×1卷积对
Figure FDA0003807705340000023
进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
所述步骤C中,从所述卷积网络中选取中间层特征
Figure FDA0003807705340000024
结合编码特征Fencoder计算边缘特征
Figure FDA0003807705340000025
以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:将Fencoder作为当前的解码特征Fdecoder
步骤C2:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,使用像素重排技术处理Fdecoder,得到输出步幅为os的
Figure FDA0003807705340000026
像素重排计算公式如下:
Figure FDA0003807705340000027
其中,rhs和rws分别表示
Figure FDA0003807705340000028
和Fdecoder尺寸的上取整高度比和上取整宽度比,
Figure FDA0003807705340000029
表示在坐标
Figure FDA00038077053400000210
位置通道
Figure FDA00038077053400000211
处的像素值,
Figure FDA00038077053400000212
表示在坐标
Figure FDA00038077053400000213
位置通道
Figure FDA00038077053400000214
处的像素值;
步骤C3:使用最近邻插值处理编码特征Fencoder,得到与
Figure FDA00038077053400000215
尺寸相同的特征图
Figure FDA00038077053400000216
步骤C4:从提取通用特征的卷积网络中选取输出步幅为os的中间层特征
Figure FDA00038077053400000217
双线性插值到与
Figure FDA00038077053400000218
相同尺寸后再与
Figure FDA00038077053400000219
拼接,然后使用1×1卷积进行降维后,再使用3×3卷积提取特征得到边缘特征
Figure FDA00038077053400000220
步骤C5:拼接
Figure FDA0003807705340000031
Figure FDA0003807705340000032
使用1×1卷积进行降维后,再使用3×3卷积提取特征得到解码特征Fdecoder,然后拼接
Figure FDA0003807705340000033
作为新的解码特征Fdecoder
步骤C6:选取比步骤C2中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则重复步骤C2至C5。
2.根据权利要求1所述的用于街景理解的基于像素重排重建的语义分割方法,其特征在于,所述步骤D中,用解码特征Fdecoder和边缘特征
Figure FDA0003807705340000034
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及它们各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率,softmax计算公式如下:
Figure FDA0003807705340000035
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:用双线性插值将所有的
Figure FDA0003807705340000036
缩放到与输入图像的尺寸相同,并将所有
Figure FDA0003807705340000037
拼接使用不带激活函数的1×1卷积计算得到合并边缘特征Fedge,然后对Fedge使用sigmoid激活得到边缘概率图,sigmoid计算公式如下:
Figure FDA0003807705340000038
其中,S(ε)表示Fedge中的特征值ε经过sigmoid处理后的概率,e为自然指数;
步骤D3:利用训练集的语义分割标注计算边缘标注,计算公式如下:
Figure FDA0003807705340000039
其中,yedge(i,j)和
Figure FDA00038077053400000310
为坐标(i,j)位置的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤D4:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Ls和辅助监督的边缘损失Ledge,然后计算加权和损失L:
L=Ls+αLedge
其中,α为Ledge在最终损失中所占的权重;
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练整个深度神经网络,得到最后的深度神经网络模型。
3.一种用于实现如权利要求1所述方法的用于街景理解的基于像素重排重建的语义分割系统,其特征在于,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后提取编码特征Fencoder
解码特征提取模块,用于从所述卷积网络中选取中间层特征
Figure FDA0003807705340000041
结合编码特征Fencoder计算边缘特征
Figure FDA0003807705340000042
以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder和边缘特征
Figure FDA0003807705340000043
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
CN201910359495.XA 2019-04-30 2019-04-30 用于街景理解的基于像素重排重建的语义分割方法及系统 Active CN110059769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910359495.XA CN110059769B (zh) 2019-04-30 2019-04-30 用于街景理解的基于像素重排重建的语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910359495.XA CN110059769B (zh) 2019-04-30 2019-04-30 用于街景理解的基于像素重排重建的语义分割方法及系统

Publications (2)

Publication Number Publication Date
CN110059769A CN110059769A (zh) 2019-07-26
CN110059769B true CN110059769B (zh) 2022-11-18

Family

ID=67321755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910359495.XA Active CN110059769B (zh) 2019-04-30 2019-04-30 用于街景理解的基于像素重排重建的语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN110059769B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599514B (zh) * 2019-09-23 2022-10-04 北京达佳互联信息技术有限公司 图像分割的方法、装置、电子设备及存储介质
CN111008986B (zh) * 2019-11-20 2023-09-05 天津大学 一种基于多任务半卷积的遥感图像分割方法
CN111340047B (zh) * 2020-02-28 2021-05-11 江苏实达迪美数据处理有限公司 基于多尺度特征与前背景对比的图像语义分割方法及系统
CN111553372B (zh) * 2020-04-24 2023-08-08 北京搜狗科技发展有限公司 一种训练图像识别网络、图像识别搜索的方法及相关装置
CN111612807B (zh) * 2020-05-15 2023-07-25 北京工业大学 一种基于尺度和边缘信息的小目标图像分割方法
CN112598003B (zh) * 2020-12-18 2022-11-25 燕山大学 基于数据扩充和全监督预处理的实时语义分割方法
CN115272377B (zh) * 2022-09-27 2022-12-27 松立控股集团股份有限公司 一种融合图像边缘信息的车辆分割方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Pyramid Context Contrast for Semantic Segmentation;YuZhong Chen;《IEEE Access》;20191127;全文 *
基于深度神经网络的小目标语义分割算法研究;胡太;《中国优秀硕士学位论文全文数据库》;20190115;全文 *

Also Published As

Publication number Publication date
CN110059769A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110059698B (zh) 用于街景理解的基于边缘稠密重建的语义分割方法及系统
CN110059768B (zh) 用于街景理解的融合点与区域特征的语义分割方法及系统
CN110059769B (zh) 用于街景理解的基于像素重排重建的语义分割方法及系统
CN110070091B (zh) 用于街景理解的基于动态插值重建的语义分割方法及系统
CN109919830B (zh) 一种基于美学评价的带参考人眼图像修复方法
CN113221639B (zh) 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN110322495A (zh) 一种基于弱监督深度学习的场景文本分割方法
CN109034210A (zh) 基于超特征融合与多尺度金字塔网络的目标检测方法
CN111340047B (zh) 基于多尺度特征与前背景对比的图像语义分割方法及系统
CN112308860A (zh) 基于自监督学习的对地观测图像语义分割方法
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN113192076B (zh) 联合分类预测和多尺度特征提取的mri脑肿瘤图像分割方法
CN116682120A (zh) 基于深度学习的多语种马赛克图像文本识别方法
CN113762265A (zh) 肺炎的分类分割方法及系统
Chen et al. RBPNET: An asymptotic Residual Back-Projection Network for super-resolution of very low-resolution face image
CN116958827A (zh) 一种基于深度学习的撂荒区域提取方法
CN115995040A (zh) 一种基于多尺度网络的sar图像小样本目标识别方法
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN116258854A (zh) 一种基于密集连接策略和图像梯度的路面裂缝分割方法
Jiao et al. Extracting wetlands from swiss historical maps with convolutional neural networks
Wang et al. PACCDU: Pyramid attention cross-convolutional dual UNet for infrared and visible image fusion
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN113688715A (zh) 面部表情识别方法及系统
CN117422878A (zh) 一种基于双分支动态注意力的遥感图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant