CN109034198B - 基于特征图恢复的场景分割方法和系统 - Google Patents

基于特征图恢复的场景分割方法和系统 Download PDF

Info

Publication number
CN109034198B
CN109034198B CN201810664250.3A CN201810664250A CN109034198B CN 109034198 B CN109034198 B CN 109034198B CN 201810664250 A CN201810664250 A CN 201810664250A CN 109034198 B CN109034198 B CN 109034198B
Authority
CN
China
Prior art keywords
feature map
feature
sampled
original
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810664250.3A
Other languages
English (en)
Other versions
CN109034198A (zh
Inventor
唐胜
张蕊
李锦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201810664250.3A priority Critical patent/CN109034198B/zh
Publication of CN109034198A publication Critical patent/CN109034198A/zh
Application granted granted Critical
Publication of CN109034198B publication Critical patent/CN109034198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Abstract

本发明涉及一种基于特征图恢复的场景分割方法和系统,包括对原始图像进行降采样,得到降采样图像,通过特征学习网络得到该降采样图像的降采样特征图,将该降采样特征图的尺寸恢复为原始图像尺寸,得到上采样特征图,将该上采样特征图输入场景分割网络,得到该原始图像的场景分割结果。本发明利用降采样输入图像可以获得的较快的分割速度;利用原始大小输入图像可以获得的较高的分割精度。此外,本发明还提出了辅助中间层监督和边境区域重加权的方法辅助场景分割神经网络模型的优化过程,从而在保持模型加速的前提下提升加速后模型的分割精度。

Description

基于特征图恢复的场景分割方法和系统
技术领域
本方法属于机器学习和计算机视觉领域,并特别涉及一种基于特征图恢复的场景分割方法和系统。
背景技术
场景分割问题是计算机视觉领域一项重要而富有挑战性的问题,并且在生产和生活中具有广泛的应用价值,如自动驾驶、辅助驾驶、视频监控等。场景分割的目标是对场景图像中的每个像素点判断其所属类别。近年来,基于深度卷积神经网络的场景分割方法取得了极大的成功,例如基于全卷积网络的方法。然而,绝大部分现有的场景分割方法主要专注于提高分割的精度,因此常使用较深的神经网络和较高分辨率的特征图,这都会导致较慢的分割速度。然而在实际应用中,分割精度和分割速度都是很重要的。
近年来,大部分的神经网络加速方法都是用于对图像分类网络进行加速。这些方法主要基于参数近似或网络模仿的方法。然而,图像分类问题和场景分割问题之间存在较大的差异。对于图像分类问题,由于其预测值是一个图像级别的向量,因此通常输入图像会被缩小为一个较小的尺寸(如为224x224),且特征图的分辨率通常较低(如为输入图像尺寸的1/32)。相比之下,场景分割问题的预测结果是像素级别的,需要更多的细节信息,因此通常使用较大尺寸的输入图像(如在Cityscapes数据集中输入图像为1024x2048),且特征图需要维持在较高的分辨率(如为输入图像尺寸的1/8),从而捕捉图像中更多的细节信息。较大的输入图像和较高分辨率的特征图这两个特性均会导致较慢的分割速度,但这两个特性不会出现在图像分类方法中。为了解决这两个特性导致的问题,很多现有的方法对输入图像进行降采样处理,这样可以简单有效的提升神经网络模型的分割速度,但这是以牺牲分割精度为代价的,因为在降采样的过程中丢失了很多图像中的细节信息。
发明内容
为了解决上述技术问题,本发明目的在于提供一种基于特征图恢复的场景分割方法,包括:
步骤1、对原始图像进行降采样,得到降采样图像,通过特征学习网络得到该降采样图像的降采样特征图,将该降采样特征图的尺寸恢复为原始图像尺寸,得到上采样特征图,将该上采样特征图输入场景分割网络,得到该原始图像的场景分割结果。
该基于特征图恢复的场景分割方法,其中
该场景分割方法还包括:
步骤2、直接将该原始图像输入至特征学习网络,得到原始特征图,将该原始特征图输入场景分割网络,得到该原始图像的的参考分割结果;
该步骤1还包括:
构建具有多个反卷积层的特征超分辨率学习模块,以根据降采样比率将该降采样特征图的尺寸恢复为原始图像尺寸;
该场景分割方法还包括:
步骤3、以该原始特征图和该参考分割结果分别优化该特征超分辨率学习模块和该场景分割结果。
该基于特征图恢复的场景分割方法,其中该特征超分辨率学习模块开始和结尾,分别具有尺寸为1×1的卷积层用于降低通道数和恢复通道数。
该基于特征图恢复的场景分割方法,其中根据该上采样特征图与该原始特征图的L2距离,构建损失函数:
Figure BDA0001707214480000021
式中LL2为该上采样特征图与该原始特征图的L2距离,fup为该上采样特征图,f为该原始特征图,该损失函数用于优化该场景分割结果。
该基于特征图恢复的场景分割方法,其中将该特征超分辨率学习模块插入到特征学习网络中,并进行端对端的训练。
该基于特征图恢复的场景分割方法,其中
使用两个回归损失函数,分别应用在特征学习网络,以恢复中间层的特征图并收集重建损失,其中回归损失函数为:
Figure BDA0001707214480000031
Figure BDA0001707214480000032
其中
Figure BDA0001707214480000033
分别是步骤1中特征学习网络的中间层特征图;
Figure BDA0001707214480000034
分别是由超分辨率恢复模块
Figure BDA0001707214480000035
产生的特征图;fb3,fb4分别是步骤2中特征学习网络的中间层特征图并作为期望恢复的特征图目标,用于得到辅助中间层监督的回归损失Laux1,Laux2
该基于特征图恢复的场景分割方法,其中该步骤1的损失函数为:
L=λ1LL22Ls3(Laux1+Laux2)
其中Ls为softmax损失函数,λ1、λ2和λ3是损失函数L中的权重。
该基于特征图恢复的场景分割方法,其中
采用边界区域重加权的方法增大边界区域的回归损失,以提升特征超分辨率学习模块对降采样特征图中边界区域的特征恢复能力,其中边界区域B通过对语义边界进行半径为r的扩展得到,该步骤1的最终损失函数为:
Figure BDA0001707214480000036
其中L(p)代表损失函数L在像素p的损失,γ12
本发明还公开了一种基于特征图恢复的场景分割系统,其中包括:
第一模块,用于对原始图像进行降采样,得到降采样图像,通过特征学习网络得到该降采样图像的降采样特征图,将该降采样特征图的尺寸恢复为原始图像尺寸,得到上采样特征图,将该上采样特征图输入场景分割网络,得到该原始图像的场景分割结果;
第二模块,用于直接将该原始图像输入至特征学习网络,得到原始特征图,将该原始特征图输入场景分割网络,得到该原始图像的的参考分割结果;
该第一模块还包括:
构建具有多个反卷积层的特征超分辨率学习模块,以根据降采样比率将该降采样特征图的尺寸恢复为原始图像尺寸;
第三模块,用于以该原始特征图和该参考分割结果分别优化该特征超分辨率学习模块和该场景分割结果;
其中该特征超分辨率学习模块开始和结尾,分别具有尺寸为1×1的卷积层用于降低通道数和恢复通道数;
根据该上采样特征图与该原始特征图的L2距离,构建损失函数:
Figure BDA0001707214480000041
式中LL2为该上采样特征图与该原始特征图的L2距离,fup为该上采样特征图,f为该原始特征图,该损失函数用于优化该场景分割结果;
将该特征超分辨率学习模块插入到特征学习网络中,并进行端对端的训练。
该基于特征图恢复的场景分割系统,其中
使用两个回归损失函数,分别应用在特征学习网络,以恢复中间层的特征图并收集重建损失,其中回归损失函数为:
Figure BDA0001707214480000042
Figure BDA0001707214480000043
其中
Figure BDA0001707214480000044
分别是步骤1中特征学习网络的中间层特征图;
Figure BDA0001707214480000045
分别是由超分辨率恢复模块
Figure BDA0001707214480000046
产生的特征图;fb3,fb4分别是步骤2中特征学习网络的中间层特征图并作为期望恢复的特征图目标,用于得到辅助中间层监督的回归损失Laux1,Laux2
该第一模块的损失函数为:
L=λ1LL22Ls3(Laux1+Laux2)
其中Ls为softmax损失函数,λ1、λ2和λ3是损失函数L中的权重;
采用边界区域重加权的方法增大边界区域的回归损失,以提升特征超分辨率学习模块对降采样特征图中边界区域的特征恢复能力,其中边界区域B通过对语义边界进行半径为r的扩展得到,该步骤1的最终损失函数为:
Figure BDA0001707214480000047
其中L(p)代表损失函数L在像素p的损失,γ12
本发明利用降采样输入图像可以获得的较快的分割速度;利用原始大小输入图像可以获得的较高的分割精度。此外,本发明还提出了辅助中间层监督和边境区域重加权的方法辅助场景分割神经网络模型的优化过程,从而在保持模型加速的前提下提升加速后模型的分割精度。
附图说明
图1为本发明基于特征图恢复的场景分割方法设计流程图;
图2为本发明基于特征图恢复的场景分割方法整体框架图。
具体实施方案
具体来说本发明提供了一种基于特征图恢复的场景分割方法,包括:
步骤1、对原始图像进行降采样,得到降采样图像,通过特征学习网络得到该降采样图像的降采样特征图,将该降采样特征图的尺寸恢复为原始图像尺寸,得到上采样特征图,将该上采样特征图输入场景分割网络,得到该原始图像的场景分割结果。
该基于特征图恢复的场景分割方法,其中
该场景分割方法还包括:
步骤2、直接将该原始图像输入至特征学习网络,得到原始特征图,将该原始特征图输入场景分割网络,得到该原始图像的的参考分割结果;
该步骤1还包括:
构建具有多个反卷积层的特征超分辨率学习模块,以根据降采样比率将该降采样特征图的尺寸恢复为原始图像尺寸;
该场景分割方法还包括:
步骤3、以该原始特征图和该参考分割结果分别优化该特征超分辨率学习模块和该场景分割结果。
该基于特征图恢复的场景分割方法,其中该特征超分辨率学习模块开始和结尾,分别具有尺寸为1×1的卷积层用于降低通道数和恢复通道数。
该基于特征图恢复的场景分割方法,其中根据该上采样特征图与该原始特征图的L2距离,构建损失函数:
Figure BDA0001707214480000051
式中LL2为该上采样特征图与该原始特征图的L2距离,fup为该上采样特征图,f为该原始特征图,该损失函数用于优化该场景分割结果。
该基于特征图恢复的场景分割方法,其中将该特征超分辨率学习模块插入到特征学习网络中,并进行端对端的训练。
该基于特征图恢复的场景分割方法,其中
使用两个回归损失函数,分别应用在特征学习网络,以恢复中间层的特征图并收集重建损失,其中回归损失函数为:
Figure BDA0001707214480000052
Figure BDA0001707214480000053
其中
Figure BDA0001707214480000061
分别是步骤1中特征学习网络的中间层特征图;
Figure BDA0001707214480000062
分别是由超分辨率恢复模块
Figure BDA0001707214480000063
产生的特征图;fb3,fb4分别是步骤2中特征学习网络的中间层特征图并作为期望恢复的特征图目标,用于得到辅助中间层监督的回归损失Laux1,Laux2
该基于特征图恢复的场景分割方法,其中该步骤1的损失函数为:
L=λ1LL22Ls3(Laux1+Laux2)
其中Ls为softmax损失函数,λ1、λ2和λ3是损失函数L中的权重。
该基于特征图恢复的场景分割方法,其中
采用边界区域重加权的方法增大边界区域的回归损失,以提升特征超分辨率学习模块对降采样特征图中边界区域的特征恢复能力,其中边界区域B通过对语义边界进行半径为r的扩展得到,该步骤1的最终损失函数为:
Figure BDA0001707214480000064
其中L(p)代表损失函数L在像素p的损失,γ12
为让本发明的上述特征和效果能阐述的更明确易懂,下文将步骤1内容命名为学生网络,步骤2内容命名为教师网络,并特举实施例,并配合说明书附图作详细说明如下。
为解决由于较大尺寸的输入图像和高分辨率的特征图导致的场景分割速度较慢的问题,本发明提出了一种高分辨率特征图恢复的方法对某个现有的场景分割框架进行加速。本发明结合了以下两种情况的优势而避免了其劣势,如图1所示:
1)利用降采样后的图像作为输入,分割速度较快但是精度较低,如图1(a)所示;
2)利用原始大小的图像作为输入,分割精度较高但是速度较慢,如图1(b)所示。
具体来说,本发明的主要思想是利用降采样后的输入,得到降采样特征图,并将降采样特征图恢复原始大小输入的原始特征图,如图1(c)所示。由于利用降采样的输入进行特征学习的速度相比利用原始大小输入较快,因此本发明是较为高效的,另一方面,将原始大小输入的特征图恢复出来可以极大避免降采样输入导致的细节信息的丢失和分割精度下降。而对特征图进行恢复是切实可行的,因为从原始尺寸输入和降采样输入得到的特征图是较为类似的,只是相比之下降采样的特征图的语义边界会比较模糊,缺少细节信息。
本发明整体框架。完整的基于高分辨率特征重建的场景分割加速方法的结构如图2所示。给定一幅原始大小的场景图像x,场景分割的目标是通过一个前向传播网络输出每个像素的类别预测yN,公式化为:
yN=N(x)
目前大部分的场景分割框架都基于全卷积神经网络(FCN)框架,该框架主要包含两个串联的子网络,即特征学习子网络和分割子网络。给定利用原始大小的训练图像x训练得到的场景分割网络N,可以将其分解为特征学习子网络Nfea和分割子网络Npar,因此场景分割过程可以表示为:
f=Nfea(x),yN=Npar(f)
其中f代表从特征学习子网络得到的特征图。这些特征图中包含了从原始场景图像x中学习得到的语义概念和空间位置信息,并利用这些特征图预测场景分割结果yN。在以FCN为基础的框架中,特征学习子网络通常包含几十上百的全卷积层,而分割子网络通常仅包含几个卷积层。本发明将利用原始大小的图像训练得到的分割网络N命名为“教师网络”,该网络学习得到的是高分辨的特征图。
本发明提出的高分辨率特征学习的方法的目标是训练一个“学生网络”M,该网络可以利用降采样后的场景图像作为输入得到的特征,去重建教师网络N学习得到的高分辨的特征图f。学生网络与教师网络的结构相同,唯一的区别就是输入图像的大小不同。学生网络M学习得到的特征图fd的分辨率较低,公式化为:
fd=Mfea(xd)
其中xd代表从x降采样后的图像,Mfea代表M的特征学习子网络。
为了重建教师网络生成的高分辨率特征图f,本发明设计了一个特征超分辨率学习模块MSRM,该模块可以将低分辨率的特征图fd恢复到高分辨率的特征图fup,恢复到与f相同的分辨率,公式化为
fup=MSRM(fd)
最后,预期的学生网络的分割结果yM可以从重建得到的高分辨特征图fup计算得到:
yM=Mpar(fup)
该特征超分辨学习模块MSRM设计为由若干卷积-反卷积层组成,并且其参数可以集成到整个框架中,通过端对端的训练学习到,Mpar为学生网络的分割子网络。
在训练阶段,本发明以教师网络N作为目标,随机梯度下降方法优化学生网络M(包括Mfea、MSRM和Mpar)。使用MSRM得到的上采样后的特征图fup重建教师网络学习得到的高分辨率特征图f。因此,本发明使用二范数L2距离LL2作为损失函数对学生网络的结果进行优化,公式化为
Figure BDA0001707214480000081
此外,原始的softmax损失函数Ls也应当被保留。因此,总体的损失函数L可以被表示为:
L=λ1LL22Ls
其中的λ1和λ2是损失函数中的权重。为了确保MSRM的的参数可以被快速训练得到,本发明利用教师网络的参数对学生网络进行初始化,原始的softmax损失函数是利用学生网络生成的场景分割结果与场景分割数据集的人工标注进行比对,计算softmax函数的误差损失得到的。此外,本发明还使用在中间层添加额外的有监督分支,以及拟对边界区域加重损失函数的权重的方法,以能够更好的训练学生网络。在测试阶段,本发明仅使用学生网络和降采样后的场景图像获取分割结果。教师网络生成的高分辨率特征图仅在训练阶段被使用。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的基于特征图恢复的场景分割方法进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
1.特征超分辨率学习模块
本发明设计了一个特征超分辨率学习模块MSRM,用于从低分辨率的特征图fd恢复到高分辨率的上采样特征图fup。假设输入的场景图像其降采样比率为1/2n,n=1,2,…,那么分割网络输出的低分辨率特征图fd其尺寸也会下降到高分辨率特征图f的1/2n。为了利用fd恢复f,特征超分辨率学习模块利用n个反卷积层将fd上采样到和f相同的尺寸大小。其中每个反卷积层的卷积核大小为4,步长为2,可以将特征图放大2倍,这样n个反卷积层可以将fd扩大2n倍,从而放大到和f相同的大小。此外,这些反卷积层的结构是与整个场景分割神经网络兼容的,因此可以插入到神经网络中形成一个完整的结构,并进行端对端的训练,这里端对端是一个专有名词,指的是在神经网络的结构中从原始图像输入到最终的输出结果可以使用一个统一的神经网络实现,不需要分成多个阶段。
值得注意的是,特征图fup和f的通道数通常是非常大的,例如对于常用的残差网络结构,其通道数为2048。由于每个反卷积层连接的两端特征图的维度都是很高的,这将导致反卷积层包含大量参数,约为4×4×c×c,其中c为通道数,4为卷积核大小。这些数量巨大的参数中包含了大量的冗余,同时也会降低模型的分割速度。为了解决这个问题,本发明将特征超分辨率学习模块调整为一种带“瓶颈”的结构。在特征超分辨率学习模块的开头和结尾,分别添加1×1的卷积层用于降低通道数和恢复通道数。这种“瓶颈”结构可以极大的减少特征超分辨率学习模块的参数数量。假设添加的1×1卷积层可以将反卷积层的通道数从c减少到k(k<c),那么特征超分辨率学习模块的参数数量将从n×42×c2下降到n×42×k2+2×c×k。举例来说,如果设置k=c/4,那么这种“瓶颈”结构可以去除原始结构中超过90%的参数,极大的减少参数的冗余并提高模型的分割速度。
2.辅助中间层监督
通常较深的神经网络可以带来较好的精度,但同时也会带来优化的困难,这个问题也同样出现在本发明提出的超分辨率特征恢复框架中。为了解决这个问题,本发明使用了两个辅助回归损失函数。直观上分析,如果较前层的特征图可以被很好的恢复,那么后面层的特征图也会更容易被恢复。因此,本发明将另外两个超分辨率恢复模块应用在残差网络的第三和第四个网络模块后面,用于恢复中间层的特征图,并收集重建损失,公式化为:
Figure BDA0001707214480000091
Figure BDA0001707214480000092
其中
Figure BDA0001707214480000093
是从学生网络的第三和第四个网络模块学习得到的中间层特征图,
Figure BDA0001707214480000094
是从辅助的超分辨率恢复模块
Figure BDA0001707214480000095
产生的特征图。fb3,fb4是从教师网络的第三和第四个网络模块学习得到的中间层特征图,作为期望恢复的特征图目标,用于计算辅助中间层监督的回归损失Laux1,Laux2,残差网络为特征学习网络,具有ResNet101结构特征,这里的模块指的是神经网络的几个阶段,比如神经网络一共有一百层,每20层组成一个模块,某个模块的后面就是指这个模块的最后一个层的后面,这些模块的所有层的功能都是进行特征学习,第三和第四个网络模块在本实施例中为ResNet101网络的第3b3和4b22层,3b3和4b22是第三和第四模块中最后一层。因此损失函数为:
L=λ1LL22Ls3(Laux1+Laux2)
其中使用相同的权重λ3作为辅助损失Laux1Laux2的权重,使得辅助损失对最终的优化过程提供一定的帮助作用,但损失函数的损失大部分还是来源于主要的回归分支LL2和softmax损失Ls。在辅助回归损失的帮助下,特征恢复的整个优化过程将被分解为三个隐式的阶段,每个阶段都相对比较容易优化。此外,加入辅助损失后,在训练过程中,整个网络的所有模块都会被平均的对待,而不是将过多的注意力集中在最后的子网络中,这一改进也会提升分割精度。在测试阶段,添加的两个辅助分支将被丢弃,仅利用主要的回归分支进行特征图的恢复。
边界区域重加权。原始尺寸输入得到的特征图与降采样输入得到特征图是极为相似的。但是这两类特征图依然存在差异,例如降采样输入得到的特征图中包含许多模糊的细节和不精确的边界,这是导致分割精度的下降的主要原因。特征图中这些靠近边界的特征向量被称为边界区域。将更多的注意力集中于如何优化边界区域的特征恢复将会有效提升整体的特征恢复效果。本发明采用了一种边界区域重加权的方法增大边界区域的回归损失,从而有效提升边界区域的特征恢复能力。其中,边界区域B通过对语义边界进行半径为r的扩展得到,其中语义边界就是场景分割结果中不同类别的目标之间的边界,r为预设值,在本实施例中r为5。场景分割的数据集里是带有人工标注的,语义边界是从人工标注里面找到的。由此,损失函数改变为:
Figure BDA0001707214480000101
其中L(p)代表上一节中的全局损失函数L在像素p的损失。设置γ12可以实现在优化过程中对边界区域添加更多的关注。
以下为与上述方法实施例对应的系统实施例,本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效,为了减少重复,这里不再赘述。相应地,本实施系统中提到的相关技术细节也可应用在上述实施方式中。
本发明还公开了一种基于特征图恢复的场景分割系统,其中包括:
第一模块,用于对原始图像进行降采样,得到降采样图像,通过特征学习网络得到该降采样图像的降采样特征图,将该降采样特征图的尺寸恢复为原始图像尺寸,得到上采样特征图,将该上采样特征图输入场景分割网络,得到该原始图像的场景分割结果;
第二模块,用于直接将该原始图像输入至特征学习网络,得到原始特征图,将该原始特征图输入场景分割网络,得到该原始图像的的参考分割结果;
该第一模块还包括:
构建具有多个反卷积层的特征超分辨率学习模块,以根据降采样比率将该降采样特征图的尺寸恢复为原始图像尺寸;
第三模块,用于以该原始特征图和该参考分割结果分别优化该特征超分辨率学习模块和该场景分割结果;
其中该特征超分辨率学习模块开始和结尾,分别具有尺寸为1×1的卷积层用于降低通道数和恢复通道数;
根据该上采样特征图与该原始特征图的L2距离,构建损失函数:
Figure BDA0001707214480000111
式中LL2为该上采样特征图与该原始特征图的L2距离,fup为该上采样特征图,f为该原始特征图,该损失函数用于优化该场景分割结果;
将该特征超分辨率学习模块插入到特征学习网络中,并进行端对端的训练。
该基于特征图恢复的场景分割系统,其中
使用两个回归损失函数,分别应用在特征学习网络,以恢复中间层的特征图并收集重建损失,其中回归损失函数为:
Figure BDA0001707214480000112
Figure BDA0001707214480000113
其中
Figure BDA0001707214480000121
分别是步骤1中特征学习网络的中间层特征图;
Figure BDA0001707214480000122
分别是由超分辨率恢复模块
Figure BDA0001707214480000123
产生的特征图;fb3,fb4分别是步骤2中特征学习网络的中间层特征图并作为期望恢复的特征图目标,用于得到辅助中间层监督的回归损失Laux1,Laux2
该第一模块的损失函数为:
L=λ1LL22Ls3(Laux1+Laux2)
其中Ls为softmax损失函数,λ1、λ2和λ3是损失函数L中的权重;
采用边界区域重加权的方法增大边界区域的回归损失,以提升特征超分辨率学习模块对降采样特征图中边界区域的特征恢复能力,其中边界区域B通过对语义边界进行半径为r的扩展得到,该步骤1的最终损失函数为:
Figure BDA0001707214480000124
其中L(p)代表损失函数L在像素p的损失,γ12
虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。

Claims (4)

1.一种基于特征图恢复的场景分割方法,其特征在于,包括:
步骤1、对原始图像进行降采样,得到降采样图像,通过特征学习网络得到该降采样图像的降采样特征图,将该降采样特征图的尺寸恢复为原始图像尺寸,得到上采样特征图,将该上采样特征图输入场景分割网络,得到该原始图像的场景分割结果;
步骤2、直接将该原始图像输入至特征学习网络,得到原始特征图,将该原始特征图输入场景分割网络,得到该原始图像的的参考分割结果;
步骤3、以该原始特征图和该参考分割结果分别优化特征超分辨率学习模块和该场景分割结果;
该步骤1还包括:
构建具有多个反卷积层的特征超分辨率学习模块,以根据降采样比率将该降采样特征图的尺寸恢复为原始图像尺寸;
根据该上采样特征图与该原始特征图的L2距离,构建损失函数:
Figure FDA0002644250570000011
式中LL2为该上采样特征图与该原始特征图的L2距离,fup为该上采样特征图,f为该原始特征图,该损失函数用于优化该场景分割结果;
使用两个回归损失函数,分别应用在特征学习网络,以恢复中间层的特征图并收集重建损失,其中回归损失函数为:
Figure FDA0002644250570000012
Figure FDA0002644250570000013
其中
Figure FDA0002644250570000014
分别是步骤1中特征学习网络的中间层特征图;
Figure FDA0002644250570000015
分别是由超分辨率恢复模块
Figure FDA0002644250570000016
产生的特征图;fb3,fb4分别是步骤2中特征学习网络的中间层特征图并作为期望恢复的特征图目标,用于得到辅助中间层监督的回归损失Laux1,Laux2
L=λ1LL22Ls3(Laux1+Laux2)
其中Ls为softmax损失函数,λ1、λ2和λ3是损失函数L中的权重;
采用边界区域重加权的方法增大边界区域的回归损失,以提升特征超分辨率学习模块对降采样特征图中边界区域的特征恢复能力,其中边界区域B通过对语义边界进行半径为r的扩展得到,该步骤1的最终损失函数为:
Figure FDA0002644250570000021
其中L(p)代表损失函数L在像素p的损失,γ12
2.如权利要求1所述的基于特征图恢复的场景分割方法,其特征在于,该特征超分辨率学习模块开始和结尾,分别具有尺寸为1×1的卷积层用于降低通道数和恢复通道数。
3.如权利要求1所述的基于特征图恢复的场景分割方法,其特征在于,将该特征超分辨率学习模块插入到特征学习网络中,并进行端对端的训练。
4.一种基于特征图恢复的场景分割系统,其特征在于,包括:
第一模块,用于对原始图像进行降采样,得到降采样图像,通过特征学习网络得到该降采样图像的降采样特征图,将该降采样特征图的尺寸恢复为原始图像尺寸,得到上采样特征图,将该上采样特征图输入场景分割网络,得到该原始图像的场景分割结果;
第二模块,用于直接将该原始图像输入至特征学习网络,得到原始特征图,将该原始特征图输入场景分割网络,得到该原始图像的的参考分割结果;
该第一模块还包括:
构建具有多个反卷积层的特征超分辨率学习模块,以根据降采样比率将该降采样特征图的尺寸恢复为原始图像尺寸;
第三模块,用于以该原始特征图和该参考分割结果分别优化该特征超分辨率学习模块和该场景分割结果;
其中该特征超分辨率学习模块开始和结尾,分别具有尺寸为1×1的卷积层用于降低通道数和恢复通道数;
根据该上采样特征图与该原始特征图的L2距离,构建损失函数:
Figure FDA0002644250570000031
式中LL2为该上采样特征图与该原始特征图的L2距离,fup为该上采样特征图,f为该原始特征图,该损失函数用于优化该场景分割结果;
将该特征超分辨率学习模块插入到特征学习网络中,并进行端对端的训练;
其中,使用两个回归损失函数,分别应用在特征学习网络,以恢复中间层的特征图并收集重建损失,其中回归损失函数为:
Figure FDA0002644250570000032
Figure FDA0002644250570000033
其中
Figure FDA0002644250570000034
分别是步骤1中特征学习网络的中间层特征图;
Figure FDA0002644250570000035
分别是由超分辨率恢复模块
Figure FDA0002644250570000036
产生的特征图;fb3,fb4分别是步骤2中特征学习网络的中间层特征图并作为期望恢复的特征图目标,用于得到辅助中间层监督的回归损失Laux1,Laux2
该第一模块的损失函数为:
L=λ1LL22Ls3(Laux1+Laux2)
其中Ls为softmax损失函数,λ1、λ2和λ3是损失函数L中的权重;
采用边界区域重加权的方法增大边界区域的回归损失,以提升特征超分辨率学习模块对降采样特征图中边界区域的特征恢复能力,其中边界区域B通过对语义边界进行半径为r的扩展得到,该步骤1的最终损失函数为:
Figure FDA0002644250570000037
其中L(p)代表损失函数L在像素p的损失,γ12
CN201810664250.3A 2018-06-25 2018-06-25 基于特征图恢复的场景分割方法和系统 Active CN109034198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810664250.3A CN109034198B (zh) 2018-06-25 2018-06-25 基于特征图恢复的场景分割方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810664250.3A CN109034198B (zh) 2018-06-25 2018-06-25 基于特征图恢复的场景分割方法和系统

Publications (2)

Publication Number Publication Date
CN109034198A CN109034198A (zh) 2018-12-18
CN109034198B true CN109034198B (zh) 2020-12-11

Family

ID=64610353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810664250.3A Active CN109034198B (zh) 2018-06-25 2018-06-25 基于特征图恢复的场景分割方法和系统

Country Status (1)

Country Link
CN (1) CN109034198B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785263B (zh) * 2019-01-14 2022-09-16 北京大学深圳研究生院 一种基于Retinex的逆色调映射图像转换方法
CN109859106B (zh) * 2019-01-28 2022-07-05 桂林电子科技大学 一种基于自注意力的高阶融合网络的图像超分辨率重建方法
CN109840528A (zh) * 2019-01-31 2019-06-04 北京字节跳动网络技术有限公司 提取图像的特征图的方法和装置
CN109961442B (zh) * 2019-03-25 2022-11-18 腾讯科技(深圳)有限公司 神经网络模型的训练方法、装置和电子设备
CN112767259A (zh) * 2020-12-29 2021-05-07 上海联影智能医疗科技有限公司 图像处理方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置
CN107564013A (zh) * 2017-08-02 2018-01-09 中国科学院计算技术研究所 融合局部信息的场景分割修正方法与系统
CN107689036A (zh) * 2017-09-01 2018-02-13 深圳市唯特视科技有限公司 一种基于深度双边学习的实时图像增强方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置
CN107564013A (zh) * 2017-08-02 2018-01-09 中国科学院计算技术研究所 融合局部信息的场景分割修正方法与系统
CN107689036A (zh) * 2017-09-01 2018-02-13 深圳市唯特视科技有限公司 一种基于深度双边学习的实时图像增强方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度特征蒸馏的人脸识别;葛仕明 等;《北京交通大学学报》;20171231;第41卷(第6期);第27-33页 *

Also Published As

Publication number Publication date
CN109034198A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109034198B (zh) 基于特征图恢复的场景分割方法和系统
US20210166350A1 (en) Fusion network-based method for image super-resolution and non-uniform motion deblurring
CN110232394B (zh) 一种多尺度图像语义分割方法
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
CN111524135A (zh) 基于图像增强的输电线路细小金具缺陷检测方法及系统
CN110349087B (zh) 基于适应性卷积的rgb-d图像高质量网格生成方法
CN111062329B (zh) 基于增广网络的无监督行人重识别方法
CN113888550A (zh) 一种结合超分辨率和注意力机制的遥感图像道路分割方法
CN115358932B (zh) 一种多尺度特征融合的人脸超分辨率重构方法及系统
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
WO2023212997A1 (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN111553861B (zh) 一种图像超分辨率重构方法、装置、设备及可读存储介质
CN111105354A (zh) 基于多源深度残差网络的深度图像超分辨率方法及装置
Shen et al. RSHAN: Image super-resolution network based on residual separation hybrid attention module
CN116188272B (zh) 适用于多模糊核的两阶段深度网络图像超分辨率重建方法
CN116029905A (zh) 一种基于渐进差值互补的人脸超分辨率重构方法及系统
CN115239602A (zh) 一种基于空洞卷积扩大感受野的车牌图像去模糊方法
CN115660984A (zh) 一种图像高清还原方法、装置及存储介质
CN114863094A (zh) 基于双支路网络的工业图像感兴趣区域分割算法
Huang et al. Dual-branche attention network for super-resolution of remote sensing images
CN113362240A (zh) 一种基于轻量级特征金字塔模型的图像修复方法
CN111524090A (zh) 一种基于深度预测图的rgb-d显著性检测方法
CN112464733A (zh) 基于双向特征融合的高分辨率光学遥感图像地物分类方法
Miao et al. Semantic segmentation of vehicle vision based on two-branch Enet network
Wang et al. Remote sensing scene classification with masked image modeling (mim)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant