CN112215848B

CN112215848B - 一种基于空间信息引导的实时语义分割方法

Info

Publication number: CN112215848B
Application number: CN202011137108.7A
Authority: CN
Inventors: 郝世杰; 周源; 郭艳蓉; 洪日昌; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-03-11
Anticipated expiration: 2040-10-22
Also published as: CN112215848A

Abstract

本发明公开了一种基于空间信息引导的实时语义分割方法，具体步骤如下：获取输入图像；将所述输入图像输入主干网络；利用所述主干网络对所述输入图片进行编码，得到输入特征；所述输入特征映射得到第一高维特征和全局上下文特征；利用所述第一高维特征和所述全局上下文特征作为空间细节引导的上下文传播模块的输入；利用所述空间细节引导的上下文传播模块内不同路径交替，进行空间信息重构；得到分割预测结果。本发明在保证分割精度的前提下，该方法可以进一步提升模型的效率。该网络是一种典型的“编码器‑解码器”的网络结构。其中，编码器旨在对输入图片进行编码，在解码的过程中引入了空间细节信息的引导。

Description

一种基于空间信息引导的实时语义分割方法

技术领域

本发明涉及计算机视觉和深度学习技术领域，更具体的说是涉及一种基于空间信息引导的实时语义分割方法。

背景技术

语义分割旨在对输入的图片或视频帧做像素级的识别，即对其中的每一个像素进行类别预测。作为一种重要的计算机视觉技术，语义分割技术在一些实际应用中起着至关重要的作用，如自动驾驶，医学图像分析等。近年来，随着5G的不断发展和各种智能终端设备的出现，边缘计算已经日益成为物联网的一个重要组成部分。与云计算不同，边缘计算旨在将计算服务从云端驱动到网络边缘，从而提高服务的响应速度和效率。但是，边缘设备(如，智能手机)往往需要在其有限的计算能力和存储资源下，对输入的数据进行实时的分析和处理。所以，设计一个计算适度、内存友好的实时语义分割模型对构建智能化的终端的设备，以及物联网的发展都至关重要。

目前，主流的语义分割方法采用的是基于深度学习的框架，即卷积神经网络。其有两个关键点：1)减少网络内空间细节信息的损失；2)为神经网络聚合更多的语义上下文信息。为了满足这两个关键点，这些方法往往选择在卷积神经网络内部保持分辨率较高的特征图，从而保留网络管道内的空间细节。并且，使用空洞卷积为特征图聚合更多的语义上下文信息。然而，这往往需要消耗较多的计算开销，并且会降低模型的分割速度。

因此，如何提供一种兼顾分割精度，模型参数，执行速度三个方面的平衡基于空间信息引导的实时语义分割方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于空间信息引导的实时语义分割方法，本发明利用浅层的空间细节信息不断地引导深层的全局上下文特征向邻域传播，从而有效地对全局上下文特征中所丢失的空间信息进行重构，减轻了由于在网络内维持分辨率较高的特征图所带来的计算开销。在保证分割精度的前提下，该方法可以进一步提升模型的效率。该网络是一种典型的“编码器-解码器”的网络结构。其中，编码器旨在对输入图片进行编码，从而得到更加抽象、更加语义化的特征表达。在解码器部分，设计了轻量级的双向网络对编码后的特征进行解码，并在解码的过程中引入了空间细节信息的引导。同时本发明在分割精度，模型参数，执行速度方面取得了更好的平衡。

为了达到上述目的，本发明采用如下技术方案：

一种基于空间信息引导的实时语义分割方法，具体步骤如下：

获取输入图像；

将所述输入图像输入主干网络；

利用所述主干网络对所述输入图片进行编码，得到输入特征；

所述输入特征映射得到第一高维特征和全局上下文特征；利用所述第一高维特征和所述全局上下文特征作为空间细节引导的上下文传播模块的输入；

利用所述空间细节引导的上下文传播模块内不同路径交替，进行空间信息重构；

得到分割预测结果。

优选的，在上述的一种基于空间信息引导的实时语义分割方法中，所述输入图片依次经过所述主干网络的卷积层得到输入特征layer-3，layer-4，layer-5。

优选的，在上述的一种基于空间信息引导的实时语义分割方法中，将所述输入特征中经1×1的卷积操作得到对应的第一高维特征layer-3*，layer-4*，layer-5*。

优选的，在上述的一种基于空间信息引导的实时语义分割方法中，将所述第一高维特征中的layer-5*利用两个最大池化操作进一步提取layer-5*中第一全局上下文特征和第二全局上下文特征；其中所述最大池化操作的核均设置为3×3，步幅均设置为2。

优选的，在上述的一种基于空间信息引导的实时语义分割方法中，所述空间细节引导的上下文传播模块包括第一传播路径、第二传播路径和第三传播路径；其中，所述第一传播路径和所述第三传播路径中上一级的输出作为下一级的输入；所述第二传播路径中下一级的输出作为上一级的输入。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于空间信息引导的实时语义分割方法，本发明利用浅层的空间细节信息不断地引导深层的全局上下文特征向邻域传播，从而有效地对全局上下文特征中所丢失的空间信息进行重构，减轻了由于在网络内维持分辨率较高的特征图所带来的计算开销。在保证分割精度的前提下，该方法可以进一步提升模型的效率。该网络是一种典型的“编码器-解码器”的网络结构。其中，编码器旨在对输入图片进行编码，从而得到更加抽象、更加语义化的特征表达。在解码器部分，设计了轻量级的双向网络对编码后的特征进行解码，并在解码的过程中引入了空间细节信息的引导，同时本发明在分割精度，模型参数，执行速度方面取得了更好的平衡。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的方法示意图；

图2附图为本发明的空间细节引导的上下文传播网络示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，采用卷积操作对位于浅层的、分辨率较高的空间细节特征进行处理，从而进一步提取其中的空间信息。然后，用最邻近插值对位于深层的、分辨率较低的上下文特征进行上采样，让其和空间细节特征保持相同的特征分辨率。其中，这可以被看作是一种低级的上下文传播，因为这种传播策略没有考虑到视觉场景中实际所包含的空间信息。为了对上下文特征中的空间细节进行重构，引入了空间细节信息的引导。

具体地，本实施例公开了一种基于空间信息引导的实时语义分割方法，具体步骤如下：

获取输入图像；

将输入图像输入主干网络；

利用主干网络对输入图片进行编码，得到输入特征；

输入特征映射得到第一高维特征和全局上下文特征；利用第一高维特征和全局上下文特征作为空间细节引导的上下文传播模块的输入；

利用空间细节引导的上下文传播模块内不同路径交替，进行空间信息重构；

得到分割预测结果。

为了进一步优化上述技术方案，输入图片依次经过主干网络的卷积层得到输入特征layer-3，layer-4，layer-5。

为了进一步优化上述技术方案，将输入特征中经1×1的卷积操作得到对应的第一高维特征layer-3*，layer-4*，layer-5*。

为了进一步优化上述技术方案，将第一高维特征中的layer-5*利用两个最大池化操作进一步提取layer-5*中第一全局上下文特征和第二全局上下文特征；其中最大池化操作的核均设置为3×3，步幅均设置为2。

为了进一步优化上述技术方案，空间细节引导的上下文传播模块包括第一传播路径、第二传播路径和第三传播路径；其中，第一传播路径和第三传播路径中上一级的输出作为下一级的输入；第二传播路径中下一级的输出作为上一级的输入。

进一步，如图2所示，空间细节引导的上下文传播模块包括第一全局上下文特征、第二全局上下文特征、layer-3*、layer-4*和layer-5*分别作为第一传播路径每一层的基本输入；

具体地，第二全局上下文特征I₂和第一全局上下文特征I₁标量加权求和，经过1×1卷积操作得到第二特征A₂₁；第二特征A₂₁和layer-5*标量加权求和，经过1×1卷积操作得到第二特征B₂₂；第二特征B₂₂和layer-4*标量加权求和，经过1×1卷积操作得到第二特征C₂₃；第二特征C₂₃和layer-3*标量加权求和，经过1×1卷积操作得到第二特征D₂₄；第二特征D₂₄、第二特征C₂₃和layer-4*标量加权求和，经过1×1卷积操作得到第三特征A₃₁；第三特征A₃₁、第二特征B₂₂和layer-5*标量加权求和，经过1×1卷积操作得到第三特征B₃₂；第三特征B₃₂、第二特征A₂₁和第一全局上下文特征I₁标量加权求和，经过1×1卷积操作得到第三特征C₃₃；第三特征C₃₃和第二全局上下文特征I₂标量加权求和，经过1×1卷积操作得到第三特征D₃₄；第三特征D₃₄和第三特征C₃₃标量加权求和，经1×1卷积操作得到第四特征A₄₁；第四特征A₄₁和第三特征B₃₂标量加权求和得到第四特征B₄₂；第四特征B₄₂和第三特征A₃₁标量加权求和得到第四特征C₄₃；第四特征C₄₃和第二特征D₂₄标量加权求和得到第四特征D₄₄，最后经分类器得到输出分割结果。

在空间信息引导的过程中，空间细节特征和上下文特征可以不断地进行交互，从而其间的信息可以被不断地进行交换。这种特征的交互和信息的交换可以采用不同的实现方式，如注意力机制，特征融合等。考虑到方法的效率和计算成本，在本发明实施例中，采用标量加权求和的方式：f(X,Y)＝αX+βY；

其中，X表示空间细节特征，Y表示上采样后的上下文特征。标量α和β表示可学习的权值参数，旨在调节空间细节特征和上下文特征间融合的权重。

进一步，该网络具有典型的“编码器-解码器”的网络结构。编码器的结构具体如图2所示，即图2中主干网络，旨在对输入图片不断地进行编码，从而得到更加抽象，更加高维的特征表达。与当前主流的基于深度学习的语义分割方法不同，在编码的过程中，选择对网络内的特征图不断进行下采样，从而降低特征的分辨率。

这主要有两个好处：1)首先，将特征图下采样到低分辨率有助于全局语义上下文信息的提取。2)其次，这可以减少由于在卷积神经网络内维持较高分辨率的特征图所带来的计算开销。

然而，下采样操作也会不可避免地会造成网络管道内空间信息的流失，从而影响模型的分割性能。为了在提升模型执行速度的同时，尽可能地保持分割精度，提出了一个轻量级的解码器，即空间细节引导的上下文传播模块，该模块具有双向的网络结构。首先，使用1×1的卷积操作将主干网络中layer-3的特征映射到更加高维的表征空间，因为更加高维的表征空间具有更强的表征能力。为了和原来三层的特征进行区分，将所产生的更加高维的特征命名为layer-3*，layer-4*，layer-5*。然后，采用两个最大池化操作进一步提取layer-5*特征中所包含的语义上下文信息。其中，两个池化操作的核和步幅被均被设置为3×3和2。所以，特征图的分辨率最终变为了输入图片的1/128。更加全局上下文信息，能够帮助网络从更加全局的角度理解目标视觉场景，从而提升分割的准确性。最后，通过在上下文传播过程中引入空间细节的引导，来重构由于聚合上下文信息而损失的空间信息。

网络内上下文的传播可以满足两条一致性原则：1)首先，在传播过程中，上下文信息要和邻域内的空间细节信息表现出一致性。2)其次，在上下文传播之后，其所包含的语义上下文信息要与原始的全局上下文特征中的语义上下文信息表现出一致性。所以，构建了双向的网络结构，根据不同的方向，将其分为：1)由上至下的路径(第一传播路径和第三传播路径)和2)由下至上的路径(第二传播路径)。这两种路径具有相似的网络结构。其中，由上至下的路径由卷积操作，标量加权求和操作和最临近插值操作组成。而，由上至下的路径由卷积操作，标量加权求和操作和最大池化操作组成。为了减少解码器部分的计算开销，采用了分离卷积去构建双向路径中的卷积层。分离卷积是常规卷积操作的一种变种，它通过将常规的卷积操作分解为两种计算开销更少的卷积操作(即，深度卷积和点卷积操作)来达到节约计算资源的目的。在由上至下的路径中，全局上下文在空间信息的引导下不断地向邻域传播，从而其中的空间信息不断地被重构，特征分辨率不断地被恢复，而在由下至上的路径中，全局上下文特征逐渐被重新提取。为了保证全局上下文特征中所包含的语义信息在传播过程中没有“变质”，引入了跳跃连接，如图2所示，即在当前路径中引入未经传播的上下文特征。通过这两种路径的交替工作，全局上下文特征中的空间信息最终被重构，重构后的特征被送入最终的1×1卷积分类器，从而得出最终的分割预测。

在语义分割的公用数据集Cityscapes上，本方法的分割精度可以达到68.7％mIoU。与此同时，在仅用一块GTX 1080Ti显卡的前提下，对于768x1536的输入图片，本方法的处理速度可以达到178.5FPS。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于空间信息引导的实时语义分割方法，其特征在于，具体步骤如下：

获取输入图像；

将所述输入图像输入主干网络；

利用所述主干网络对所述输入图像进行编码，得到输入特征；

得到分割预测结果；

为保证所述全局上下文特征中所包含的语义信息在传播过程中没有“变质”引入跳跃连接，即在当前路径中引入未经传播的上下文特征；

所述空间细节引导的上下文传播模块包括第一传播路径、第二传播路径和第三传播路径；其中，所述第一传播路径和所述第三传播路径中上一级的输出作为下一级的输入；所述第二传播路径中下一级的输出作为上一级的输入；

所述第一传播路径、第三传播路径由卷积操作、标量加权求和操作和最临近插值操作组成。

2.根据权利要求1所述的一种基于空间信息引导的实时语义分割方法，其特征在于，所述输入图像依次经过所述主干网络的卷积层得到输入特征layer-3，layer-4，layer-5。

3.根据权利要求2所述的一种基于空间信息引导的实时语义分割方法，其特征在于，将所述输入特征经1×1的卷积操作得到对应的第一高维特征layer-3*，layer-4*，layer-5*。

4.根据权利要求3所述的一种基于空间信息引导的实时语义分割方法，其特征在于，将所述第一高维特征中的layer-5*利用两个最大池化操作进一步提取layer-5*中第一全局上下文特征和第二全局上下文特征；其中所述最大池化操作的核均设置为3×3，步幅均设置为2。