CN113139551A

CN113139551A - 一种基于DeepLabv3+的改进语义分割方法

Info

Publication number: CN113139551A
Application number: CN202110443799.1A
Authority: CN
Inventors: 陈紫强; 张雅琼; 晋良念; 谢跃雷
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-20

Abstract

本发明公开了一种基于DeepLabv3+的改进语义分割方法，获取交通场景图像，并进行随机的旋转平移裁剪和数据预处理，得到训练图像；对所述训练图像进行特征提取和深度可分离卷积处理，得到对应的特征图；基于改进的DeepLabv3+网络对所述特征图进行分步上采样处理，完成分割，在解码模块中，利用逐层上采样替换直接4倍上采样操作降低了图像像素信息丢失的问题；在空洞空间金字塔ASPP模块中，用不同空洞率组合的空洞卷积替换原来的卷积，扩大特征图的感受野，使用深度可分离卷积代替标准卷积，减小了模型的复杂度，有助于提高分割的精细度。

Description

一种基于DeepLabv3+的改进语义分割方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于DeepLabv3+的改进语义分割方法。

背景技术

语义分割技术是计算机视觉领域研究的一个重要部分。语义分割主要目的是标记图像中的每个像素，并为其分类。传统的语义分割技术只能进行简单的分割，依赖人工设置参数，提高分割效果的空间有限。基于深度学习的语义分割方法有FCN、U-Net、DeepLab等，目前应用比较广泛的语义分割技术为DeepLab系列网络，其中较为成熟的DeepLabv3+在DeepLabv3上基础上，参照了U-Net的解码结构，提高了语义分割精度。

DeepLabv3+网络将DeepLabv3作为编码块，将骨干网络输出的特征图进行上采样变成和原图大小一样的部分作为解码器，构成编码器-解码器体系。但是在解码模块，由于它只利用了骨干网络产生的一个高分辨率低级特征图，没有利用网络生成的其它多阶段高分辨率特征图，所以预测结果中容易产生目标不连续的问题。在空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模块中，由于特征图分辨率随着网络层数的增加在减小，所以分辨率较低的特征图不适合空洞率较大的空洞卷积分割。在解码层中，对解码模块输出直接进行4倍上采样操作，并且与高分辨低级特征图拼接融合，可能导致特征图中重要像素信息的丢失，会造成语义分割不够精细。

发明内容

本发明的目的在于提供一种基于DeepLabv3+的改进语义分割方法，提高分割的精细度。

为实现上述目的，本发明提供了一种基于DeepLabv3+的改进语义分割方法，包括以下步骤：

获取交通场景图像，并进行随机的旋转平移裁剪和数据预处理，得到训练图像；

对所述训练图像进行特征提取和深度可分离卷积处理，得到对应的特征图；

基于改进的DeepLabv3+网络对所述特征图进行分步上采样处理，完成分割。

其中，对所述训练图像进行特征提取和深度可分离卷积处理，得到对应的特征图，包括：

将所述训练图像输入骨干网络ResNet101中进行特征提取，得到第一提取图像；

将输入空洞空间金字塔池化层中的所述第一提取图像执行深度可分离卷积处理，得到第二提取图像；

通过1×1卷积对所述第二提取图像进行拼接，得到特征图。

其中，将输入空洞空间金字塔池化层中的所述第一提取图像执行深度可分离卷积处理，得到第二提取图像，包括：

对所述第一提取图像进行通道分离，并在每个通道内进行3×3的卷积操作；

对卷积后的每个通道的输出数据进行1×1的拼接操作，得到第二提取图像。

其中，基于改进的DeepLabv3+网络对所述特征图进行分步上采样处理，完成分割，包括：

对得到的所述特征图进行2倍上采样；

基于改进的DeepLabv3+网络，将上采样结果与所述骨干网络ResNet101中的1/8原图大小的特征图进行拼接操作；

对拼接得到的图像再次进行2倍上采样，再与所述骨干网络ResNet101的1/4原图大小的特征图进行拼接操作，完成对图像的分割。

本发明的一种基于DeepLabv3+的改进语义分割方法，将训练图片输入骨干网络Resnet101中进行特征提取；然后通过空洞空间金字塔池化层进一步提取特征图信息；将输出的特征图进行2倍上采样，与骨干网络Resnet101中的1/8原图大小的高分辨低级特征进行拼接；然后再次进行2倍上采样，与骨干网络Resnet101中的1/4原图大小的高分辨低级特征进行拼接；最后进行4倍上采样，输出分割结果，减小了模型的复杂度，有助于提高分割的精细度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于DeepLabv3+的改进语义分割方法的步骤示意图。

图2是本发明提供的改进的DeepLabv3+网络结构图。

图3是本发明提供的深度可分离卷积结构图。

图4是本发明提供的改进的ASPP网络结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1，本发明提供一种基于DeepLabv3+的改进语义分割方法，包括以下步骤：

S101、获取交通场景图像，并进行随机的旋转平移裁剪和数据预处理，得到训练图像。

具体的，训练网络模型前需要对数据集中的图像进行预处理，主要分为两步：

第一步先对交通场景图像进行随机的旋转平移裁剪操作，将图片分辨率大小由2048×1024变为1024×512，降低了训练的难度且丰富了数据集；

第二步对数据进行减均值和除方差的操作，保证数据输入到网络中能保持在[0,1]内，防止数据在刚开始训练时出现震荡，加快了模型的收敛，提高稳定性。均值mean分别为0.485、0.456、0.406，方差std分别为0.229、0.224、0.225。

实验使用SGD模型优化器，动量momentum为0.9，权重衰减为0.0001，防止训练过程出现过拟合现象。采用poly的学习策略，初始学习率lr为0.01，power为0.9，全部迭代次数total_itrs为600000。每次训练在训练集中取batchsize＝8个样本训练，输出图像步长out_stride为16。

S102、对所述训练图像进行特征提取和深度可分离卷积处理，得到对应的特征图。

具体的，在编码模块，首先，将得到的训练图像输入骨干网络ResNet101中进行特征提取，然后然后通过空洞空间金字塔池化层进一步提取特征图信息；对卷积后的每个通道的输出数据进行1×1的拼接操作，得到特征图。

将ASPP模块中的标准卷积换为深度可分离卷积，由图2可知，将1×1卷积变为1×1深度可分离卷积，所有的3×3空洞卷积变为3×3空洞深度可分离卷积，相比标准卷积，深度可分离卷积需要的参数很少，计算量也更小，在对预测精度影响很小的情况下可以得到更小更快的模型；同时将ASPP模块中的空洞卷积由原来的6、12、18空洞率变为4、8、12、18的空洞率，随着网络层数的加深，图像的特征分辨率逐渐变小，通过具有较小空洞率的空洞卷积更有利于提取低分辨率的特征图信息。

深度可分离卷积(Depthwise Separable Convolution，DSConv)就是这个层对输入的每个通道分别执行空间卷积，然后通过逐点卷积(1×1卷积)将输出通道混合，这样相当于将通道特征学习和空间特征学习分开了。深度可分离卷积具体操作如图3所示，将输入特征先进行分离通道，然后每个通道进行3×3卷积操作，随后进行特征拼接，最后经过1×1卷积得到输出特征。深度可分离卷积主要应用在ASPP模块中。

相比标准卷积，深度可分离卷积所需要的参数很少，计算量也很小，所以速度很快，能够提升网络模型的训练效率。

对于一张大小为W_-in×H_-in×M像素的彩色输入图片，输出大小为W_-out×H_-out×N，卷积核大小为D_K×D_K，则有：

常规卷积的参数量为：

N_-std＝D_K×D_K×M×N

深度可分离卷积的参数量为：

N_-depthwise＝D_K×D_K×M

N_-pointwise＝1×1×M×N

N_-separable＝N_-depthwise+N_-pointwise

常规卷积的计算量为：

C_-std＝D_K×D_K×M×W_-out×H_-out×N

深度可分离卷积的计算量为：

C_-depthwise＝D_K×D_K×M×W_-out×H_-out

C_-pointwise＝1×1×M×W_-out×H_-out×N

C_-separable＝C_-depthwise+C_-pointwise

标准卷积和深度可分离卷积的比值为：

其中，W为图片的宽度，H为图片的高度，M为输入图片的深度，N为输出图片的深度，N_-std为标准卷积的参数量，N_-depthwise为深度可分离卷积中的空间卷积的参数量，N_-pointwise为深度可分离卷积中的逐点卷积的参数量，N_-separable为深度可分离卷积参数量，C_-std为标准卷积计算量，C_-depthwise为深度可分离卷积中的空间卷积的计算量，C_-pointwise为深度可分离卷积中的逐点卷积的计算量，C_-separable为深度可分离卷积的计算量。相同的输入，相同的输出，当卷积核大小为3×3时，常规卷积的参数量和计算量是深度可分离卷积8～9倍，所以使用深度可分离卷积能够减小模型的计算量，从而降低模型的复杂度，提高训练效率。

S103、基于改进的DeepLabv3+网络对所述特征图进行分步上采样处理，完成分割。

具体的，对得到的所述特征图进行2倍上采样；基于改进的DeepLabv3+网络，将上采样结果与所述骨干网络ResNet101中的1/8原图大小的特征图进行拼接操作；对拼接得到的图像再次进行2倍上采样，再与所述骨干网络ResNet101的1/4原图大小的特征图经过1×1卷积后进行拼接操作，紧接着，再进行3×3的卷积操作与4倍上采样后，完成对图像的分割

如图2所示，在解码模块，改进的DeepLabv3+网络充分利用了Block2产生的特征图。对于输出的分割结果来说，骨干网络ResNet101产生的各个阶段的特征图都是十分重要的，然而DeepLabv3+网络只利用了Block1产生的1/4原图大小的特征图，不利于目标的连续性，因此本发明还利用Block2产生的1/8原图大小的特征图，将它作为解码模块中特征融合的另一个分支。在DeepLabv3+网络在解码模块中，直接将编码模块中ASPP得到的最后低分辨率特征图经过1×1卷积后进行4倍上采样操作，导致图像中像素的不连续性，从而使得某些重要的像素信息丢失，这都是由于特征图的目标类别是由像素构成的，而每一个像素与像素之间有着密切的关系。改进的DeepLabv3+网络有效的解决了这一问题，改进的DeepLabv3+网络将ASPP得到的低分辨率特征图经过1×1标准卷积后先进行2倍上采样，然后与骨干网络中Block2产生的1/8原图大小的特征图进行concat操作，再进行2倍上采样，这样分两次上采样操作相当于原来DeepLabv3+中直接上采样4倍。幅值小的上采样操作得到的图像中像素信息更加连续，能够更加还原出下采样之前的像素值，使得网络预测结果更加准确。

ASPP对于给定的输入特征图，经过不同空洞率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文信息，空洞卷积可以在不增加太大计算量的情况下，尽可能的增大滤波器的感受野，空洞空间金字塔池化增强了对多尺度分割目标的感知能力。

DeepLabv3网络中，ASPP模块是由多个卷积和全局平均池化(包含1×1卷积核，输出256个通道，正则化，通过bilinear上采样还原到对应尺度)并行组成的，最后所有并行分支concat在一起。卷积包括1×1标准卷积和不同空洞率的3×3空洞卷积。较大的空洞率卷积有利于分割大目标，较小的空洞率卷积有利于分割小目标。本发明改进的DeepLabv3+网络中ASPP模块如图4所示，采用不同空洞率的空洞卷积增强模型分割不同大小目标的能力。由图4可知，立方体表示输入的特征图，大小为1/16的特征图，通道数为2048，然后经过ASPP模块中的1×1深度可分离卷积，空洞率为4、8、12、18的空洞深度可分离卷积和全局平均池化，分别得到6个1/16大小，通道数为256的特征图，最后将它们在通道维度上进行concat操作，输出ASPP模块产生的特征图。

实验结果

1、算法MIOU性能对比

由表1可以看出，在Cityscapes数据集中，FCN-8s算法的MIOU为56.1％，DeepLab的MIOU为63.1％，DCNNs算法的MIOU为70.06％，DeepLabv3+算法的MIOU为76.2％，改进的DeepLabv3+算法的MIOU为78.95％。相比其他算法，本文方法的MIOU有明显提升，验证了本文方法性能的优越性。

表1不同算法在Cityscapes上性能对比

2、算法模型复杂度分析

随着网络的不断深化，网络模型的复杂度也将变得越来越复杂。如表2所示，是本发明提出的深度可分离卷积方法与DeepLabv3+的标准卷积方法的模型复杂度的对比结果。相比DeepLabv3+网络，本发明改进的方法减少了17.69％的模型复杂度。

表2本发明与DeepLabv3+模型复杂度对比

本发明提出了改进的DeepLabv3+网络的语义分割模型，在编码结构中，将ASPP模块中空洞率为6、12、18的空洞卷积换成空洞率为4、8、12、18的空洞卷积，有效的扩大了特征图感受野，提取了多尺度特征图特征信息；将标准卷积换为深度可分离卷积，减小了模型的计算量，降低了模型的复杂度；在解码模块利用多阶段高分辨率低级特征，采用两步上采样的方法替换直接4倍上采样，改善了目标不连续和由于上采样倍数太大而导致的图像重要像素信息丢失的问题。最后本发明方法的有效性在Cityscapes数据集的验证集上得到验证，MIOU值达到78.95％，提高了2.75％，模型复杂度降低了17.69％，结果表明本发明方法优于DeepLabv3+。在后续的研究中，可以继续优化网络结构，提高预测目标的连续性，提高模型的速度和准确度。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于DeepLabv3+的改进语义分割方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于DeepLabv3+的改进语义分割方法，其特征在于，对所述训练图像进行特征提取和深度可分离卷积处理，得到对应的特征图，包括：

通过1×1卷积对所述第二提取图像进行拼接，得到特征图。

3.如权利要求2所述的基于DeepLabv3+的改进语义分割方法，其特征在于，将输入空洞空间金字塔池化层中的所述第一提取图像执行深度可分离卷积处理，得到第二提取图像，包括：

4.如权利要求1所述的基于DeepLabv3+的改进语义分割方法，其特征在于，基于改进的DeepLabv3+网络对所述特征图进行分步上采样处理，完成分割，包括：

对得到的所述特征图进行2倍上采样；