CN109034198B

CN109034198B - 基于特征图恢复的场景分割方法和系统

Info

Publication number: CN109034198B
Application number: CN201810664250.3A
Authority: CN
Inventors: 唐胜; 张蕊; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2020-12-11
Anticipated expiration: 2038-06-25
Also published as: CN109034198A

Abstract

本发明涉及一种基于特征图恢复的场景分割方法和系统，包括对原始图像进行降采样，得到降采样图像，通过特征学习网络得到该降采样图像的降采样特征图，将该降采样特征图的尺寸恢复为原始图像尺寸，得到上采样特征图，将该上采样特征图输入场景分割网络，得到该原始图像的场景分割结果。本发明利用降采样输入图像可以获得的较快的分割速度；利用原始大小输入图像可以获得的较高的分割精度。此外，本发明还提出了辅助中间层监督和边境区域重加权的方法辅助场景分割神经网络模型的优化过程，从而在保持模型加速的前提下提升加速后模型的分割精度。

Description

基于特征图恢复的场景分割方法和系统

技术领域

本方法属于机器学习和计算机视觉领域，并特别涉及一种基于特征图恢复的场景分割方法和系统。

背景技术

场景分割问题是计算机视觉领域一项重要而富有挑战性的问题，并且在生产和生活中具有广泛的应用价值，如自动驾驶、辅助驾驶、视频监控等。场景分割的目标是对场景图像中的每个像素点判断其所属类别。近年来，基于深度卷积神经网络的场景分割方法取得了极大的成功，例如基于全卷积网络的方法。然而，绝大部分现有的场景分割方法主要专注于提高分割的精度，因此常使用较深的神经网络和较高分辨率的特征图，这都会导致较慢的分割速度。然而在实际应用中，分割精度和分割速度都是很重要的。

近年来，大部分的神经网络加速方法都是用于对图像分类网络进行加速。这些方法主要基于参数近似或网络模仿的方法。然而，图像分类问题和场景分割问题之间存在较大的差异。对于图像分类问题，由于其预测值是一个图像级别的向量，因此通常输入图像会被缩小为一个较小的尺寸(如为224x224)，且特征图的分辨率通常较低(如为输入图像尺寸的1/32)。相比之下，场景分割问题的预测结果是像素级别的，需要更多的细节信息，因此通常使用较大尺寸的输入图像(如在Cityscapes数据集中输入图像为1024x2048)，且特征图需要维持在较高的分辨率(如为输入图像尺寸的1/8)，从而捕捉图像中更多的细节信息。较大的输入图像和较高分辨率的特征图这两个特性均会导致较慢的分割速度，但这两个特性不会出现在图像分类方法中。为了解决这两个特性导致的问题，很多现有的方法对输入图像进行降采样处理，这样可以简单有效的提升神经网络模型的分割速度，但这是以牺牲分割精度为代价的，因为在降采样的过程中丢失了很多图像中的细节信息。

发明内容

为了解决上述技术问题，本发明目的在于提供一种基于特征图恢复的场景分割方法，包括：

步骤1、对原始图像进行降采样，得到降采样图像，通过特征学习网络得到该降采样图像的降采样特征图，将该降采样特征图的尺寸恢复为原始图像尺寸，得到上采样特征图，将该上采样特征图输入场景分割网络，得到该原始图像的场景分割结果。

该基于特征图恢复的场景分割方法，其中

该场景分割方法还包括：

步骤2、直接将该原始图像输入至特征学习网络，得到原始特征图，将该原始特征图输入场景分割网络，得到该原始图像的的参考分割结果；

该步骤1还包括：

构建具有多个反卷积层的特征超分辨率学习模块，以根据降采样比率将该降采样特征图的尺寸恢复为原始图像尺寸；

该场景分割方法还包括：

步骤3、以该原始特征图和该参考分割结果分别优化该特征超分辨率学习模块和该场景分割结果。

该基于特征图恢复的场景分割方法，其中该特征超分辨率学习模块开始和结尾，分别具有尺寸为1×1的卷积层用于降低通道数和恢复通道数。

该基于特征图恢复的场景分割方法，其中根据该上采样特征图与该原始特征图的L2距离，构建损失函数：

式中L_L2为该上采样特征图与该原始特征图的L2距离，f_up为该上采样特征图，f为该原始特征图，该损失函数用于优化该场景分割结果。

该基于特征图恢复的场景分割方法，其中将该特征超分辨率学习模块插入到特征学习网络中，并进行端对端的训练。

该基于特征图恢复的场景分割方法，其中

使用两个回归损失函数，分别应用在特征学习网络，以恢复中间层的特征图并收集重建损失，其中回归损失函数为：

其中

分别是步骤1中特征学习网络的中间层特征图；

分别是由超分辨率恢复模块

产生的特征图；f^b3，f^b4分别是步骤2中特征学习网络的中间层特征图并作为期望恢复的特征图目标，用于得到辅助中间层监督的回归损失L_aux1，L_aux2。

该基于特征图恢复的场景分割方法，其中该步骤1的损失函数为：

L＝λ₁L_L2+λ₂L_s+λ₃(L_aux1+L_aux2)

其中L_s为softmax损失函数，λ₁、λ₂和λ₃是损失函数L中的权重。

该基于特征图恢复的场景分割方法，其中

采用边界区域重加权的方法增大边界区域的回归损失，以提升特征超分辨率学习模块对降采样特征图中边界区域的特征恢复能力，其中边界区域B通过对语义边界进行半径为r的扩展得到，该步骤1的最终损失函数为：

其中L(p)代表损失函数L在像素p的损失，γ₁>γ₂。

本发明还公开了一种基于特征图恢复的场景分割系统，其中包括：

第一模块，用于对原始图像进行降采样，得到降采样图像，通过特征学习网络得到该降采样图像的降采样特征图，将该降采样特征图的尺寸恢复为原始图像尺寸，得到上采样特征图，将该上采样特征图输入场景分割网络，得到该原始图像的场景分割结果；

第二模块，用于直接将该原始图像输入至特征学习网络，得到原始特征图，将该原始特征图输入场景分割网络，得到该原始图像的的参考分割结果；

该第一模块还包括：

第三模块，用于以该原始特征图和该参考分割结果分别优化该特征超分辨率学习模块和该场景分割结果；

其中该特征超分辨率学习模块开始和结尾，分别具有尺寸为1×1的卷积层用于降低通道数和恢复通道数；

根据该上采样特征图与该原始特征图的L2距离，构建损失函数：

式中L_L2为该上采样特征图与该原始特征图的L2距离，f_up为该上采样特征图，f为该原始特征图，该损失函数用于优化该场景分割结果；

将该特征超分辨率学习模块插入到特征学习网络中，并进行端对端的训练。

该基于特征图恢复的场景分割系统，其中

其中

分别是步骤1中特征学习网络的中间层特征图；

分别是由超分辨率恢复模块

产生的特征图；f^b3，f^b4分别是步骤2中特征学习网络的中间层特征图并作为期望恢复的特征图目标，用于得到辅助中间层监督的回归损失L_aux1，L_aux2

该第一模块的损失函数为：

L＝λ₁L_L2+λ₂L_s+λ₃(L_aux1+L_aux2)

其中L_s为softmax损失函数，λ₁、λ₂和λ₃是损失函数L中的权重；

其中L(p)代表损失函数L在像素p的损失，γ₁>γ₂。

本发明利用降采样输入图像可以获得的较快的分割速度；利用原始大小输入图像可以获得的较高的分割精度。此外，本发明还提出了辅助中间层监督和边境区域重加权的方法辅助场景分割神经网络模型的优化过程，从而在保持模型加速的前提下提升加速后模型的分割精度。

附图说明

图1为本发明基于特征图恢复的场景分割方法设计流程图；

图2为本发明基于特征图恢复的场景分割方法整体框架图。

具体实施方案

具体来说本发明提供了一种基于特征图恢复的场景分割方法，包括：

该基于特征图恢复的场景分割方法，其中

该场景分割方法还包括：

该步骤1还包括：

该场景分割方法还包括：

该基于特征图恢复的场景分割方法，其中

其中

分别是步骤1中特征学习网络的中间层特征图；

分别是由超分辨率恢复模块

L＝λ₁L_L2+λ₂L_s+λ₃(L_aux1+L_aux2)

该基于特征图恢复的场景分割方法，其中

其中L(p)代表损失函数L在像素p的损失，γ₁>γ₂。

为让本发明的上述特征和效果能阐述的更明确易懂，下文将步骤1内容命名为学生网络，步骤2内容命名为教师网络，并特举实施例，并配合说明书附图作详细说明如下。

为解决由于较大尺寸的输入图像和高分辨率的特征图导致的场景分割速度较慢的问题，本发明提出了一种高分辨率特征图恢复的方法对某个现有的场景分割框架进行加速。本发明结合了以下两种情况的优势而避免了其劣势，如图1所示：

1)利用降采样后的图像作为输入，分割速度较快但是精度较低，如图1(a)所示；

2)利用原始大小的图像作为输入，分割精度较高但是速度较慢，如图1(b)所示。

具体来说，本发明的主要思想是利用降采样后的输入，得到降采样特征图，并将降采样特征图恢复原始大小输入的原始特征图，如图1(c)所示。由于利用降采样的输入进行特征学习的速度相比利用原始大小输入较快，因此本发明是较为高效的，另一方面，将原始大小输入的特征图恢复出来可以极大避免降采样输入导致的细节信息的丢失和分割精度下降。而对特征图进行恢复是切实可行的，因为从原始尺寸输入和降采样输入得到的特征图是较为类似的，只是相比之下降采样的特征图的语义边界会比较模糊，缺少细节信息。

本发明整体框架。完整的基于高分辨率特征重建的场景分割加速方法的结构如图2所示。给定一幅原始大小的场景图像x，场景分割的目标是通过一个前向传播网络输出每个像素的类别预测y_N，公式化为：

y_N＝N(x)

目前大部分的场景分割框架都基于全卷积神经网络(FCN)框架，该框架主要包含两个串联的子网络，即特征学习子网络和分割子网络。给定利用原始大小的训练图像x训练得到的场景分割网络N，可以将其分解为特征学习子网络N_fea和分割子网络N_par，因此场景分割过程可以表示为：

f＝N_fea（x),y_N＝N_par(f)

其中f代表从特征学习子网络得到的特征图。这些特征图中包含了从原始场景图像x中学习得到的语义概念和空间位置信息，并利用这些特征图预测场景分割结果y_N。在以FCN为基础的框架中，特征学习子网络通常包含几十上百的全卷积层，而分割子网络通常仅包含几个卷积层。本发明将利用原始大小的图像训练得到的分割网络N命名为“教师网络”，该网络学习得到的是高分辨的特征图。

本发明提出的高分辨率特征学习的方法的目标是训练一个“学生网络”M，该网络可以利用降采样后的场景图像作为输入得到的特征，去重建教师网络N学习得到的高分辨的特征图f。学生网络与教师网络的结构相同，唯一的区别就是输入图像的大小不同。学生网络M学习得到的特征图f_d的分辨率较低，公式化为：

f_d＝M_fea(x_d)

其中x_d代表从x降采样后的图像，M_fea代表M的特征学习子网络。

为了重建教师网络生成的高分辨率特征图f，本发明设计了一个特征超分辨率学习模块M_SRM，该模块可以将低分辨率的特征图f_d恢复到高分辨率的特征图f_up，恢复到与f相同的分辨率，公式化为

f_up＝M_SRM(f_d)

最后，预期的学生网络的分割结果y_M可以从重建得到的高分辨特征图f_up计算得到：

y_M＝M_par(f_up)

该特征超分辨学习模块M_SRM设计为由若干卷积-反卷积层组成，并且其参数可以集成到整个框架中，通过端对端的训练学习到，M_par为学生网络的分割子网络。

在训练阶段，本发明以教师网络N作为目标，随机梯度下降方法优化学生网络M(包括M_fea、M_SRM和M_par)。使用M_SRM得到的上采样后的特征图f_up重建教师网络学习得到的高分辨率特征图f。因此，本发明使用二范数L2距离L_L2作为损失函数对学生网络的结果进行优化，公式化为

此外，原始的softmax损失函数L_s也应当被保留。因此，总体的损失函数L可以被表示为：

L＝λ₁L_L2+λ₂L_s

其中的λ₁和λ₂是损失函数中的权重。为了确保M_SRM的的参数可以被快速训练得到，本发明利用教师网络的参数对学生网络进行初始化，原始的softmax损失函数是利用学生网络生成的场景分割结果与场景分割数据集的人工标注进行比对，计算softmax函数的误差损失得到的。此外，本发明还使用在中间层添加额外的有监督分支，以及拟对边界区域加重损失函数的权重的方法，以能够更好的训练学生网络。在测试阶段，本发明仅使用学生网络和降采样后的场景图像获取分割结果。教师网络生成的高分辨率特征图仅在训练阶段被使用。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明提出的基于特征图恢复的场景分割方法进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

1.特征超分辨率学习模块

本发明设计了一个特征超分辨率学习模块M_SRM，用于从低分辨率的特征图f_d恢复到高分辨率的上采样特征图f_up。假设输入的场景图像其降采样比率为1/2ⁿ，n＝1,2,…，那么分割网络输出的低分辨率特征图f_d其尺寸也会下降到高分辨率特征图f的1/2ⁿ。为了利用f_d恢复f，特征超分辨率学习模块利用n个反卷积层将f_d上采样到和f相同的尺寸大小。其中每个反卷积层的卷积核大小为4，步长为2，可以将特征图放大2倍，这样n个反卷积层可以将f_d扩大2ⁿ倍，从而放大到和f相同的大小。此外，这些反卷积层的结构是与整个场景分割神经网络兼容的，因此可以插入到神经网络中形成一个完整的结构，并进行端对端的训练，这里端对端是一个专有名词，指的是在神经网络的结构中从原始图像输入到最终的输出结果可以使用一个统一的神经网络实现，不需要分成多个阶段。

值得注意的是，特征图f_up和f的通道数通常是非常大的，例如对于常用的残差网络结构，其通道数为2048。由于每个反卷积层连接的两端特征图的维度都是很高的，这将导致反卷积层包含大量参数，约为4×4×c×c，其中c为通道数，4为卷积核大小。这些数量巨大的参数中包含了大量的冗余，同时也会降低模型的分割速度。为了解决这个问题，本发明将特征超分辨率学习模块调整为一种带“瓶颈”的结构。在特征超分辨率学习模块的开头和结尾，分别添加1×1的卷积层用于降低通道数和恢复通道数。这种“瓶颈”结构可以极大的减少特征超分辨率学习模块的参数数量。假设添加的1×1卷积层可以将反卷积层的通道数从c减少到k(k<c)，那么特征超分辨率学习模块的参数数量将从n×4²×c²下降到n×4²×k²+2×c×k。举例来说，如果设置k＝c/4，那么这种“瓶颈”结构可以去除原始结构中超过90％的参数，极大的减少参数的冗余并提高模型的分割速度。

2.辅助中间层监督

通常较深的神经网络可以带来较好的精度，但同时也会带来优化的困难，这个问题也同样出现在本发明提出的超分辨率特征恢复框架中。为了解决这个问题，本发明使用了两个辅助回归损失函数。直观上分析，如果较前层的特征图可以被很好的恢复，那么后面层的特征图也会更容易被恢复。因此，本发明将另外两个超分辨率恢复模块应用在残差网络的第三和第四个网络模块后面，用于恢复中间层的特征图，并收集重建损失，公式化为：

其中

是从学生网络的第三和第四个网络模块学习得到的中间层特征图，

是从辅助的超分辨率恢复模块

产生的特征图。f^b3，f^b4是从教师网络的第三和第四个网络模块学习得到的中间层特征图，作为期望恢复的特征图目标，用于计算辅助中间层监督的回归损失L_aux1，L_aux2，残差网络为特征学习网络，具有ResNet101结构特征，这里的模块指的是神经网络的几个阶段，比如神经网络一共有一百层，每20层组成一个模块，某个模块的后面就是指这个模块的最后一个层的后面，这些模块的所有层的功能都是进行特征学习，第三和第四个网络模块在本实施例中为ResNet101网络的第3b3和4b22层，3b3和4b22是第三和第四模块中最后一层。因此损失函数为：

L＝λ₁L_L2+λ₂L_s+λ₃(L_aux1+L_aux2)

其中使用相同的权重λ₃作为辅助损失L_aux1L_aux2的权重，使得辅助损失对最终的优化过程提供一定的帮助作用，但损失函数的损失大部分还是来源于主要的回归分支L_L2和softmax损失L_s。在辅助回归损失的帮助下，特征恢复的整个优化过程将被分解为三个隐式的阶段，每个阶段都相对比较容易优化。此外，加入辅助损失后，在训练过程中，整个网络的所有模块都会被平均的对待，而不是将过多的注意力集中在最后的子网络中，这一改进也会提升分割精度。在测试阶段，添加的两个辅助分支将被丢弃，仅利用主要的回归分支进行特征图的恢复。

边界区域重加权。原始尺寸输入得到的特征图与降采样输入得到特征图是极为相似的。但是这两类特征图依然存在差异，例如降采样输入得到的特征图中包含许多模糊的细节和不精确的边界，这是导致分割精度的下降的主要原因。特征图中这些靠近边界的特征向量被称为边界区域。将更多的注意力集中于如何优化边界区域的特征恢复将会有效提升整体的特征恢复效果。本发明采用了一种边界区域重加权的方法增大边界区域的回归损失，从而有效提升边界区域的特征恢复能力。其中，边界区域B通过对语义边界进行半径为r的扩展得到，其中语义边界就是场景分割结果中不同类别的目标之间的边界，r为预设值，在本实施例中r为5。场景分割的数据集里是带有人工标注的，语义边界是从人工标注里面找到的。由此，损失函数改变为：

其中L(p)代表上一节中的全局损失函数L在像素p的损失。设置γ₁>γ₂可以实现在优化过程中对边界区域添加更多的关注。

以下为与上述方法实施例对应的系统实施例，本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效，为了减少重复，这里不再赘述。相应地，本实施系统中提到的相关技术细节也可应用在上述实施方式中。

该第一模块还包括：

该基于特征图恢复的场景分割系统，其中

其中

分别是步骤1中特征学习网络的中间层特征图；

分别是由超分辨率恢复模块

该第一模块的损失函数为：

L＝λ₁L_L2+λ₂L_s+λ₃(L_aux1+L_aux2)

其中L(p)代表损失函数L在像素p的损失，γ₁>γ₂。

虽然本发明以上述实施例公开，但具体实施例仅用以解释本发明，并不用于限定本发明，任何本技术领域技术人员，在不脱离本发明的构思和范围内，可作一些的变更和完善，故本发明的权利保护范围以权利要求书为准。