CN115082928B

CN115082928B - 面向复杂场景的不对称双分支实时语义分割网络的方法

Info

Publication number: CN115082928B
Application number: CN202210723314.9A
Authority: CN
Inventors: 陈波; 孙孟凡; 李伟; 冯莉尧
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2024-04-30
Anticipated expiration: 2042-06-21
Also published as: CN115082928A

Abstract

本发明涉及计算机视觉理解领域，尤其涉及面向复杂场景的不对称双分支实时语义分割网络的方法；包括以下步骤：基于特征共享的下采样模块获取低分辨率图像；基于更宽通道的轻量级双分支模块提取高级语义特征和低级细节特征；使用特征指导融合模块多尺度融合两个分支的语义和空间信息；基于特征恢复模块得到最终分割结果图。本发明通过共享浅层信息和特征指导的方式充分融合语义信息和空间信息，并基于不对称残差瓶颈模块作为语义分支的核心特征提取单元，最后结合多尺度信息完成密集特征的提取，解决了复杂场景中目标类别混淆、形状不规则和物体遮挡干扰，以及大部分的语义分割网络复杂度较高，无法实时高效地应用到移动/嵌入式平台中的技术问题。

Description

面向复杂场景的不对称双分支实时语义分割网络的方法

技术领域

本发明涉及计算机视觉理解领域，尤其涉及面向复杂场景的不对称双分支实时语义分割网络的方法。

背景技术

语义分割是计算机视觉中发展最快的领域之一，且被广泛应用于各种场景。近几年，基于深度卷积神经网络的语义分割模型实现了越来越高的精度表现，例如DeepLab系列，但高精度的模型往往伴随着着复杂的网络结构和惊人的计算开销，进而严重影响到了网络的运行时间和推理速度，使其在一些需要实时预测的现实场景中，例如现实增强、自动驾驶汽车等，迫于算力有限无法应用部署，人工智能技术的应用发展在一定程度上受到了限制，网络的轻量化和实时性成为了新的研究方向。

要减少语义分割的计算开销实现轻量化，目前有以下两种方式：(1)减小图片大小：通过裁剪、缩放等方式降低输入图片的大小，能最直接地从根源减少模型的计算量，但是图像经过裁剪后会丢失掉大量的空间细节信息，尤其是准确的边界形状信息，导致分割结果不准确；(2)降低模型复杂度：通过减少通道数，卷积核数目和大小，替换卷积结构等方式来降低模型复杂度，从而提高模型的推理速度，是目前最常用的方式，但需求充分利用资源，过度地追求紧凑的网络结构会产生模型空间信息丢失，感受野不足等问题，从而导致网络特征提取能力减弱，影响分割精度。现有网络为了弥补空间信息的丢失而多次引入浅层特征信息，但会在高分辨特征图上产生额外的计算，拖慢模型速度，且丢掉的空间信息难以通过引入浅层修复。

此外，在实际应用过程中，实时分割网络的分割效果往往达不到研究精度，常常会出现边界不清，错误分类的问题，主要原因在于真实的复杂环境存在非结构化、目标多样化、形状不规则化以及物体遮挡等多种干扰因素，因此需要使网络具备多尺度的上下文信息和高分辨率特征图来确保网络区分不同特征的能力，给图像语义分割任务带来巨大的挑战。

因此，如何在不超出资源预算的前提下进一步提升模型的特征表示能力，做到性能和效率的平衡，以及合理整合局部特征和全局特征，使之能够应对复杂环境下目标类别混淆的情况，仍是一个亟待解决的问题。

发明内容

为了解决上述现有技术中存在的问题，本发明提供一种面向复杂场景的不对称双分支实时语义分割网络的方法，拟解决真实复杂场景中目标类别混淆问题，为移动\嵌入式场景下实现高效图像语义分割提出一种可行方案。

面向复杂场景的不对称双分支实时语义分割网络的方法，包括以下步骤：

步骤1：对原始输入图像进行预处理操作，得到输入图像，基于特征共享的下采样模块对输入图像进行下采样，得到第三特征图；

步骤2：基于宽通道的轻量级双分支模块提取步骤1得到的特征图的高级语义特征和低级细节特征；

步骤3：使用特征指导融合模块对两个分支模块的语义信息和空间信息进行多尺度融合，得到第十四特征图；

步骤4：基于步骤3中的第十四特征图和特征恢复模块得到最终分割结果图。

优选的，所述步骤1包括如下步骤：

步骤1.1：对原始输入图像进行预处理操作，得到大小为1024×2048的输入图像；

步骤1.2：利用一个标准2D卷积对通道数为3，大小为1024×2048的输入图像进行2倍的下采样，得到通道数为32，分辨率为512×1024的第一特征图；

步骤1.3：利用一个深度可分离卷积对第一特征图进行2倍的下采样，得到通道数为48，分辨率为256×512的第二特征图；

步骤1.4：利用一个深度可分离卷积对第二特征图进行2倍的下采样，得到通道数为384，分辨率为128×256的第三特征图。

优选的，所述步骤2包括以下步骤：

步骤2.1：利用双分支模块的细节分支单元对步骤1中得到的第三特征图进行通道降维，得到通道数为128，分辨率为128×256的第四特征图；

步骤2.2：利用第一组不对称残差瓶颈模块对第三特征图进行卷积，第一组不对称残差瓶颈模块对第三特征图进行2倍的下采样，得到通道数为384，图像尺寸为64×128的第五特征图；

步骤2.3：利用第二组不对称残差瓶颈模块对第五特征图进行卷积，第二组不对称残差瓶颈模块对第五特征图进行2倍的下采样，得到通道数为576，图像尺寸为32×64的第六特征图；

步骤2.4：利用第三组不对称残差瓶颈模块对第六特征图进行卷积，分辨率保持不变，得到通道数为768，图像尺寸为32×64的第七特征图；

步骤2.5：利用轻量级空洞空间金字塔池化单元对第七特征图进行多尺度特征信息提取，分辨率保持不变，得到通道数为128，图像尺寸为32×64的第八特征图。

优选的，所述步骤3包括以下步骤：

步骤3.1：采用一个下采样单元对第四特征图进行4倍的下采样，得到通道数为128，分辨率为32×64的第九特征图；

步骤3.2：采用双线性差值方式对第八特征图进行4倍的上采样，得到通道数为128，分辨率为128×256第十特征图；

步骤3.3：基于Sigmoid函数得到第八特征图和第十特征图的特征关键信息，并将特征关键信息分别与第九特征图和第四特征图以向量相乘的方式进行特征指导，得到低分辨率的第十一特征图和高分辨率的第十二特征图；

步骤3.4：采用双线性差值方式对第十一特征图完成4倍上采样，得到第十三特征图，将第十三特征图和第十二特征图相加，得到通道数为128，分辨率为128×256的第十四特征图。

优选的，所述步骤4包括以下步骤：

步骤4.1：使用两个深度可分离卷积对第十四特征图进行卷积，分别率保持不变，得到通道数为128，分辨率为128×256的第十五特征图；

步骤4.2：利用逐点卷积对第十五特征图进行分割类别映射，得到通道数为C，分辨率为128×256的第十六特征图，所述通道数为C中的C指分割类别数；

步骤4.3：采用双线性插值的方式对第十六特征图进行8倍上采样，将第十六特征图的分辨率恢复至与原始输入图像的分辨一致，得到最终分割结果图。

优选的，步骤1.1中所述的预处理包括：在0.5到2之间随机调整大小、平移或裁剪、随机水平翻转、改变颜色、改变通道噪声以及改变亮度。

优选的，所述不对称残差瓶颈模块由两个深度可分离卷积构成，所述深度可分离卷积包括以串行和并行的方式拼接的深度卷积和逐点卷积，并引入分组卷积和跳跃连接操作构成。

优选的，第一组不对称残差瓶颈模块、第二组不对称残差瓶颈模块以及第三组不对称残差瓶颈模块均由三个串联而成不对称残差瓶颈模块组成；

每一组中第一个不对称残差瓶颈模块的处理结果传输给第二个不对称残差瓶颈模块，第二个不对称残差瓶颈模块的处理结果传输给第三个不对称残差瓶颈模块，由第三个不对称残差瓶颈模块输出最终的结果；

每一组中的第一个不对称残差瓶颈模块的步长设置为2或1，其余两个的步长设置为1；当每一组中的第一个不对称残差瓶颈模块进行下采样时，此时所设置的步长为2；当每一组中的第一个不对称残差瓶颈模块不进行下采样时，此时所设置的步长为1；

优选的，所述轻量级空洞空间金字塔池化单元由一个1x1卷积和三个空洞率分别为2，4，6的空洞深度可分离卷积和一个全局池化单元组成。

优选的，所述下采样单元由步长皆为2的深度可分离卷积层和平均池化层构成。

本发明的有益效果包括：

本发明从轻量级模型设计的角度出发，设计了一种高效轻量的非对称残差瓶颈模块，以串行和并行两种堆叠方向设计深度可分离卷积，串行结构在更宽的信道上提取特征，并行结构通过特征重用丰富信息流，从而提高网络的表示能力和信息容量，补偿近似卷积带来的性能缺失。整个分割网络结构，基于不对称的编码器-解码器结构和特征共享的双分支结构堆叠所提出的非对称残差瓶颈模块，实现更快的模型前向推理速度，并结合多尺度信息完成密集特征的提取，最后利用特征指导的方式充分融合语义信息和空间信息，进一步提高了网络对不同尺度特征的判别能力，实现了精度和效率的平衡，使其成为真实复杂场景中实现实时语义分割任务的一种解决方案。

附图说明

图1为本发明所述的面向复杂场景的不对称双分支实时语义分割网络架构图；

图2为本发明所述的用于语义特征提取的不对称残差瓶颈模块的结构图；

图3为本发明所述的用于整合不同尺度信息的轻量级空洞空间金字塔池化单元结构图；

图4为本发明所述的用于特征融合的多尺度特征指导融合模块结构图；

图5为本发明所述网络与其他轻量级分割网络在Cityscapes数据集上的分割可视化结果对比图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于本发明的附图中出现了大量的英文，因此对附图中的因为作出一下解释：

深度可分离卷积(Depthwise Separable Convolutions，DSConv)，该结构包括深度卷积(Depthwise Convolution，DWConv)，和逐点卷积(也称呼为1×1卷积，PointwiseConvolution，PWConv)；

ARBlock—不对称残差瓶颈模块(Asymmetrical Residual-bottleneck Block，ARBlock)；

LASPP—轻量级空洞空间金字塔池化单元(Light Atrous Spatial PyramidPooling,LASPP)；

GPW—分组逐点卷积(Group Pointwise Convolution，PWConv，GPW)；BN—批归一化层(Batch Normalization，BN)；

ReLU—一种非线性激活函数，是固有名称；g—分组卷积的分组数；Stride/s—卷积核滑动的步长，s取1或者2；Concat/C(图3)—通道拼接操作；GAPooing—全局平均池化(Global Average Pooling)；Average Pooling—平均池化操作；Up—UpSampling Unit(上采样单元，也就是发明中所述非线性差值操作)；Down—DownSampling Unit(下采样单元)；Softmax—是一种激活函数，固有名称。

下面结合附图对本发明的实施例作进一步的详细说明：

参见附图1所示，本发明所提出的不对称双分支实时语义分割网络结构与传统的编码器-解码器结构类似，但本发明的不对称双分支实时语义分割网络结构，是由一个较大的特征共享的双分支编码器端和一个小的解码器端组成，解码器端主要用于还原特征图像尺寸，并没有过多卷积操作导致额外参数产生。编码器端包括共享下采样模块，双分支模块(语义分支、细节分支)、以及特征指导融合模块三个基本组件，负责密集特征的提取，解码器端包括特征恢复模块，负责将融合后的特征映射到分割类别，并上采样单元恢复到原始特征图尺寸得到最后的分割结果。整个网络结构大量使用深度可分离卷积代替标准卷积操作，极大地减少了网络的复杂程度，核心语义特征提取单元是由提出的轻量级非对称残差瓶颈模块堆叠而成，该瓶颈块在更宽通道上进行特征编码和特征复用，由此补偿使用近似卷积带来的性能缺失。

所述步骤1包括如下步骤：

所述的预处理包括：在0.5到2之间随机调整大小、平移或裁剪、随机水平翻转、改变颜色、改变通道噪声以及改变亮度；

步骤1.2：利用一个卷积核大小为3×3，步长为2的标准2D卷积对通道数为3，大小为1024×2048的输入图像进行2倍的下采样，该标准2D卷积使用批量归一化(BN)和非线性激活函数ReLU，得到通道数为32，分辨率为512×1024的第一特征图；

步骤1.3：利用一个卷积核大小为3×3，步长为2的深度可分离卷积对第一特征图进行2倍的下采样，在深度卷积与逐点卷积之后都使用批量归一化(BN)和非线性激活函数ReLU，得到通道数为48，分辨率为256×512的第二特征图；

步骤1.4：利用一个卷积核大小为3×3，步长为2的深度可分离卷积对第二特征图进行2倍的下采样，在深度卷积与逐点卷积之后都使用批量归一化(BN)和非线性激活函数ReLU，得到通道数为384，分辨率为128×256的第三特征图；

所述步骤2包括以下步骤：

步骤2.1：利用双分支模块的细节分支单元(由一个卷积核个数为128的1×1逐点卷积构成)对步骤1中得到的第三特征图进行通道降维，得到通道数为128，分辨率为128×256的第四特征图；

步骤2.5：利用轻量级空洞空间金字塔池化单元对第七特征图进行多尺度特征信息提取，分辨率保持不变，得到通道数为128，图像尺寸为32×64的第八特征图。所述轻量级空洞空间金字塔池化单元由一个1x1卷积和三个空洞率分别为2，4，6的空洞深度可分离卷积和一个全局池化单元组成；

所述不对称残差瓶颈模块由两个深度可分离卷积构成，所述深度可分离卷积包括以串行和并行的方式拼接的深度卷积和逐点卷积，并引入分组卷积和跳跃连接操作构成。

第一组不对称残差瓶颈模块、第二组不对称残差瓶颈模块以及第三组不对称残差瓶颈模块均有三个串联而成不对称残差瓶颈模块组成；

参见附图2所示，所述不对称残差瓶颈模块包括两个深度可分离卷积层，以不对称的残差瓶颈结构进行堆叠，假设输入张量F∈R^H×W×C，输出张量G∈R^H'×W'×N，H，H'，W，W'，C，N分别代表输入、输出特征图的高度，宽度以及通道数。体系结构可被描述为：

其中PW(·)和DW(·)表示逐点卷积操作和深度卷积操作，GPW(·)表示分组逐点卷积，分组数g为1时退化成普通的逐点卷积；

所述不对称残差瓶颈模块的第一个深度可分离卷积采取串联的方式堆叠，先使用一个3×3深度卷积在高维通道上提取空间特征，再使用分组逐点卷积在编码通道信息的同时降低通道维度，形成瓶颈结构，分组卷积能进一步降低计算量；

所述不对称残差瓶颈模块的第二个深度可分离卷积采取并联的方式堆叠，先使用一个逐点卷积在低维通道上产生一半输出特征图，再使用3×3深度卷积生成另一半输出特征图，最后将两部分拼接，起到复用特征自身特征，丰富信息流的作用；

所述不对称残差瓶颈模块在每一层卷积层后使用BN层，但只在第一个深度卷积和第二个逐点卷积后使用非线性激活函数；

所述不对称残差瓶颈模块当输入特征图和输出特征图尺寸相同时，采用残差连接实现梯度回传。

如图3所示，给出了本发明中的轻量级空洞空间金字塔池化单元LASPP的结构示意图：

所述LASPP结构由一个1x1卷积和三个空洞率分别为2，4，6的3x3空洞深度可分离卷积和一个全局池化单元组成，形成空间金字塔结构，每个操作都生成128个特征图，全局池化层先使用双线性插值将特征图由原本的1×1分辨率恢复至32×64的分辨率尺寸，然后通过Concat函数将所有特征图按通道进行拼接，最后利用1×1卷积完成通道融合和降维。

所述LASPP结构将每一层在每个深度卷积层后使用ReLU激活函数和BN归一化操作，空洞卷积(Dilated Convolution)能够在不增加计算负担的前提下扩大网络感受野(Receptive Filed，卷积层输出特征图上的像素点对原始输入图像感知的区域)；

所述步骤3包括以下步骤：

步骤3.4：采用双线性差值方式对第十一特征图完成4倍上采样，得到第十三特征图，将第十三特征图和第十二特征图相加，并仅在此处之后使用ReLU非线性激活函数，但在每一层卷积层之后使用BN层，得到通道数为128，分辨率为128×256的第十四特征图；

下采样单元由步长都为2，卷积核大小都为3×3的深度可分离卷积层和平均池化层构成；

步骤4：基于步骤3中的第十四特征图和特征恢复模块得到最终分割结果图；

所述步骤4包括以下步骤：

步骤4.3：采用双线性插值的方式对第十六特征图进行8倍上采样，将第十六特征图的分辨率恢复至与原始图像的分辨率一致，得到最终分割结果图。

参见图5所示，为了验证本发明设计网络的准确性和实时性，在Cityscapes数据集上对模型进行训练和评估，在测试集上实现了69.78％的分割精度，在单个GTX 1080Ti GPU下，512×1024和1024×2048的输入分辨率下分别169.7FPS和58.8FPS的推理速度，且模型大小仅为1.44M，成为在移动\嵌入式场景下实现语义分割的可行办法。图5从上往下展示了输入图像、标注图像和ERFNet、ESPNetV2、DeeplabV3+、本发明设计ARSSNet四个网络的最佳预测可视化结果，明显可见其余网络分割结果存在界限模糊的问题，对相似但标签不同的物体无法正确分割，且在真实场景下也有更准确的分割结果，尤其是在小目标物体的分割上，不仅能够正确的对物体进行像素级分类，而且对于相邻区域的物体也能更好地区分，避免边界的锯齿化。

综上所述，本发明设计的实时语义分割网络通过共享浅层信息和特征指导的方式充分融合语义信息和空间信息，设计不对称残差瓶颈模块作为核心特征提取单元，并结合多尺度信息完成密集特征的提取。本发明在保证尽可能实时轻量的同时，细化复杂环境下物体边界的分割，在模型精度和效率之间达到平衡，成为一种在真实复杂场景中高效应用语义分割的可行方案。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.面向复杂场景的不对称双分支实时语义分割网络的方法，其特征在于，包括以下步骤：

所述步骤2包括以下步骤：

步骤2.5：利用轻量级空洞空间金字塔池化单元对第七特征图进行多尺度特征信息提取，分辨率保持不变，得到通道数为128，图像尺寸为32×64的第八特征图；

所述不对称残差瓶颈模块由两个深度可分离卷积构成，所述深度可分离卷积包括以串行和并行的方式拼接的深度卷积和逐点卷积，并引入分组卷积和跳跃连接操作构成；

所述步骤3包括以下步骤：

步骤3.4：采用双线性差值方式对第十一特征图完成4倍上采样，得到第十三特征图，将第十三特征图和第十二特征图相加，得到通道数为128，分辨率为128×256的第十四特征图；

所述步骤4包括以下步骤：

2.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法，其特征在于，所述步骤1包括如下步骤：

3.根据权利要求2所述的面向复杂场景的不对称双分支实时语义分割网络的方法，其特征在于，步骤1.1中所述的预处理包括：在0.5到2之间随机调整大小、平移或裁剪、随机水平翻转、改变颜色、改变通道噪声以及改变亮度。

4.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法，其特征在于，第一组不对称残差瓶颈模块、第二组不对称残差瓶颈模块以及第三组不对称残差瓶颈模块均有三个串联而成不对称残差瓶颈模块组成；

每一组中的第一个不对称残差瓶颈模块的步长设置为2或1，其余两个的步长设置为1。

5.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法，其特征在于，所述轻量级空洞空间金字塔池化单元由一个1x1卷积和三个空洞率分别为2，4，6的空洞深度可分离卷积和一个全局池化单元组成。

6.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法，其特征在于，所述下采样单元由步长皆为2的深度可分离卷积层和平均池化层构成。