CN116977631A

CN116977631A - 一种基于DeepLabV3+的街景语义分割方法

Info

Publication number: CN116977631A
Application number: CN202310786421.0A
Authority: CN
Inventors: 宋宇; 刘伟达; 徐军生; 翟双; 郭昕刚; 梁超; 张丽影; 丁旭鲁
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-10-31

Abstract

本发明提出一种基于DeepLabV3+改进的街道图像分割方法。针对传统街景语义分割，DeepLabV3+主干网络较为庞大复杂，难以在如手机等轻量级设备进行使用。网络将DCNN部分由Xception部分更换为轻量级的MobilenetV2网络，该网络主要由Inverted resblock构成，并将ECA机制模块加入MobilenetV2网络，增强其表达性能。将ASPP部分的普通卷积替换为深度可分离卷积。同时将CBAM部分加入到ASPP部分中。最终达到增强网络表达能力，提高网络的运算速度与分割精度的效果。

Description

一种基于DeepLabV3+的街景语义分割方法

技术领域

本发明提出一种基于DeepLabV3+改进的街道图像分割方法，网络将DCNN部分由Xception部分更换为轻量级的MobilenetV2网络，该网络主要由Inverted resblock构成，并将ECA机制模块加入MobilenetV2网络，增强其表达性能。将ASPP部分的普通卷积替换为深度可分离卷积。同时将CBAM部分加入到ASPP部分中。最终达到增强网络表达能力，提高网络的运算速度与分割精度的效果。

背景技术

深度卷积神经网络DCNN(Deep Convolu-tional Neural Network)使计算机视觉领域的人工智能发生了革命性的变化，大部分工作致力于构建更深层和更复杂的网络结构,在诸多具有挑战性的视觉任务中展现出了优异的性能。随着机器人视觉、自动驾驶和环境感知等应用的发展,这些经典的网络对计算资源和占用内存的需求越来越大﹐远远超出了嵌入式平台应用程序的能力。图像分割是计算机视觉领域的重要研究任务之一。传统的图像分割方法多数是基于图像本身的特征如颜色、纹理、形状等进行区域的生成，通过合并分类区域来得到图像分割结果，过程较为烦琐，且分割精度也有很大的提升空间。深度学习技术由于其强大的计算能力与高效的非线性处理能力，现已被广泛应用在诸如图像分割、目标检测、模式识别在内的计算机视觉领域。近年来语义分割在图像分割领域中属于较为前沿的一种方法。

语义分割是图像分割的一个类别，其任务是为图像中每个像素都匹配对应的语义标签。语义分割在多个领域发挥着重要的作用例如：自动驾驶，卫星图像处理，环境分析，语义分割结果的精度直接决定了后续的图像分类及处理结果的好坏，因此具有十分重要的研究意义和应用价值。在城市中语义分割尤为重要，诸如特斯拉这类自动驾驶企业的纯视觉模型依赖相当多的训练标注数据，使得汽车更加智能。很不幸商业公司很难开放自己的数据，好在学界推出了Camvid和Cityscape城市语义分割数据集，使人们相当容易的调用模型实现任务。

在密集的预测任务——图像语义分割中这个问题尤为严重，如FCN，UNet和DeepLab系列等网络性能的提升往往是有代价的，因此需要对网络进行优化处理。目前有通过设计更精细的模型来降低计算复杂度的网络优化方法，如在移动端普遍使用的基础网络MobileNet、ShuffleNet和Xception等。此外，网络压缩的方法还有参数剪枝、量化和知识蒸馏等。为了实现良好的图像语义分割精度，同时尽可能降低网络的参数量，加快网络训练速度，提出基于DeepLabV3+的街景图像语义分割优化方法。优化后的网络能够有效提取图像特征信息，提高语义分割精度，同时降低模型复杂度。

发明内容

本发明实施例是提供一种模型基于deeplabv3+并优化，以解决如何提高针对街景语义分割效率的问题。

本发明实施例公开了一种模型生成方法，可以包括：

获取初始数据集，并确定所述初始数据集中的目标图像；

按照预设参数调整所述目标图像，生成目标数据集；

生成用于依次执行初级转换操作操作的第一模块；

确定初始主干网络，并将所述第一模块集成至所述初始主干网络，生成目标主干网络；

通过所述目标数据集和所述目标主干网络生成目标模型。

可选地，所述将所述第一模块集成至所述初始主干网络，生成目标主干网络的步骤可以包括：

将所述第一模块集成至所述初始主干网络，生成初始目标主干网络；

生成包括通道注意力机制的第二模块；

将所述第二模块添加至所述初始目标主干网络，生成目标主干网络。

可选地，所述通过所述目标数据集和所述目标主干网络生成目标模型的步骤可以包括：

采用所述目标主干网络从所述目标数据集中进行4次下采样；

将所述特征图通过浅层下采样生成low-level feature map；

基于所述4倍下采样结果生成deep feature map，并基于所述初始目标模型生成目标模型。

可选地，所述目标数据集具有对应的结果，所述基于所述预测结果生成目标模型的步骤可以包括：

针对ASPP部分加入CBAM注意力机制；

将ASPP部分的卷积替换为深度可分离卷积；

基于所述训练误差值生成初始目标模型。

可选地，所述基于所述初始目标模型生成目标模型的步骤可以包括：

通过对所述初始目标模型进行网络深度生成目标模型。

本发明实施例还公开了一种模型生成装置，包括：

初始数据集获取模块，用于获取初始数据集，并确定所述初始数据集中的目标图像；

目标图像调整模块，用于按照预设参数调整所述目标图像，生成目标数据集；

第一模块生成模块，用于生成用于依次执行初级转换操作的第一模块；

目标主干网络生成模块，用于确定初始主干网络，并将所述第一模块集成至所述初始主干网络，生成目标主干网络；

目标模型生成模块，用于通过所述目标数据集和所述目标主干网络生成目标模型。

可选地，所述目标主干网络生成模块可以包括：

初始目标主干网络生成子模块，用于将所述第一模块集成至所述初始主干网络，生成初始目标主干网络；

第二模块生成子模块，用于生成包括通道注意力机制的第二模块；

目标主干网络生成子模块，用于将所述第二模块添加至所述初始目标主干网络，生成目标主干网络。

可选地，所述目标模型生成模块可以包括：

中间特征图确定子模块，采用所述目标主干网络从所述目标数据集中进行4次下采样；；

预测结果生成子模块，将所述特征图通过浅层下采样生成low-level featuremap；

目标模型生成子模块，基于所述4倍下采样结果生成deep feature map，并基于所述初始目标模型生成目标模型。

可选地，所述目标模型生成子模块可以包括：

针对ASPP部分加入CBAM注意力机制；

将ASPP部分的卷积替换为深度可分离卷积；

基于所述训练误差值生成初始目标模型。

本发明实施例包括以下优点：

本发明实施例，通过获取初始数据集，并确定所述初始数据集中的目标图像；按照预设参数调整所述目标图像，生成目标数据集；生成用于依次执行初级转换操作的第一模块；确定初始主干网络，并将所述第一模块集成至所述初始主干网络，生成目标主干网络；通过所述目标数据集和所述目标主干网络生成目标模型，从而降低计算成本，提高主干网络的准确性，进而提升了针对环境感知的数据处理效率。

附图说明

图1是本发明实施例中提供的一种模型生成方法的步骤流程图；

图2是本发明实施例中提供的一种针对Deeplabv3网络+优化后的结构示意图；

图3是本发明实施例中提供的一种通道注意力子模块的机构示意图；

图4是本发明实施例中提供的一种深度可分离卷积的结构示意图。

实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

1.本发明主要针对DeepLabV3+网络在街道场景语义分割任务中主干网络较为复杂，运行速度较慢，难以在轻量级设备重视实现应用的问题。因此提出一种基于DeepLabV3+改进的网络模型，将它的DCNN部分由Xception更换为MobilenetV2，并在其中加入ECA机制。将ASPP部分的普通卷积更换为深度可分离卷积，并在ASPP部分加入CBAM注意力机制，提高网络的运算速度，并增强网络的分割精度；

步骤一：构建基于DeepLabV3+改进的神经网络；

步骤二：训练基于DeepLabV3+改进的神经网络；

步骤三：利用训练好的基于DeepLabV3+改进的神经网络进行街景图像语义分割。

(1)改进后的DeepLabV3+网络由编码器和解码器两部分组成，结构模型如图1所示，编码器DCNN部分由MobilenetV2替换原本的Xception部分，MobilnetV2主要由Invertedresblock组成。Inverted resblock可分为两个部分，左边是主干部分，首先利用1×1卷积进行升维，然后利用3×3深度可分离卷积进行特征提取，然后再利用1×1卷积降维，右边是残差边部分，输入和输出直接相连。

(2)ECA模块去除了原来SE模块中的全连接层，直接在全局平均池化之后特征上通过一个1D卷积进行学习。具体的讲：通过共享相同的学习参数，通过内核大小为k的1维卷积来实现通道之间的信息交互(一维卷积和1×1卷积是不同的，一维指的是1×k的卷积)。该模块避免了降维，有效捕获了跨通道交互的信息。

ECA-Net可以插入到其他DCNN网络中来增强其性能，比如：插入到ResNet、Unet中。本专利主要将ECA模块加入MobileNetV2的残差堆叠块中。

(3)空洞空间卷积池化金字塔(atrous spatial pyramid pooling(ASPP))通过对于输入的特征以不同的采样率进行采样，即从不同尺度提取输入特征，然后将所获取的特征进行融合，得到最终的特征提取结果。所述头部网络包括ASPP模块和全局权重计算模块；所述ASPP模块包括四个不同速率的膨胀卷积和一个平均池化层；所述全局权重计算模块由卷积层+relu激活函数+卷积层+softmax激活函数组成；所述ASPP模块完成ASPP计算以及所述全局权重计算模块完成全局权重计算后，将全局权重计算得到的4个权重矩阵加权至ASPP模块中四个不同速率的膨胀卷积结果上，再通过连接函数+卷积层得到最终特征，并将最终特征输出至结果预测模块；

本专利使用深度可分离卷积替换ASPP模块中的膨胀卷积，进一步降低模型的计算复杂度。深度可分离卷积主要分为两个过程：逐通道卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)。在卷积运算过程中，若输入通道数为C_i,卷积核大小为k×k，输入通道数为C_o，输出特征尺寸为H×W，则深度可分离卷积与标准卷积的参数量之比如式(1)所示：

(1)

计算量之比如式(2)所示：

在普通卷积运算中，一个卷积核处理输入数据的所有通道，而在深度卷积中，每个卷积核仅负责输入特征矩阵一个通道的空间信息，逐个通道的学习空间相关性，而不处理跨通道信息，这样会造成通道信息的丢失，为了补充跨通道信息，再使用逐点卷积映射跨通道信息的相关性，学习各通道间的相关信息。

(4)CBAM是一种将空间注意力和通道注意力组合起来的混合注意力机制，是一个通道注意力与一个空间注意力串行链接而成，简单高效且十分灵活，可以无缝地集成到现有的卷积网络架构中。CBAM包含CAM(Channel Attention Moudule)和SAM(SpartialAttention Module)两个子模块，分别在通道上和空间上添加注意力机制。这样不仅可以节约参数和计算力，而且保证了其能够作为即插即用的模块集成到现有网络架构中去。本专利将CBAM产生的权重值与原本输入的各个特征进行相乘，作为输入特征，可以直接使用。

通道注意力模块关注输入特征图中有哪些内容是十分重要的。对于输入的特征图F使用平均池化与最大池化聚合特征映射的空间信息，得到两个一维空间向量和/>，然后将两个一维空间向量送到一个简单的共享神经网络中，压缩输入特征图的空间维数，将输出特征逐元素求和，在经过/>（sigmoid）激活操作以产生一维通道注意力/>(F)。用和/>代表共享神经网络中的两层参数，得到通道注意力计算为：

（3）

之后将通道注意力与输入特征图F逐元素相乘，获得通道注意力调整后的特征图：

（4）

式中：逐元素相乘。

空间注意力模块关注输入特征图中哪些位置的特征是十分重要的。对于通道注意力模块输入的特征图使用平均池化与最大池化聚合特征映射的通道信息，得到两个一维向量空间/>和/>，将两者拼接之后送入卷积核大小为7/>7的标准卷积，再经过激活操作以产生二维空间注意力/>。用/>和/>代表共享神经网络中的两层参数，得到空间注意力计算公式：

（5）

式中：——卷积核大小为7/>7的标准卷积运算。

之后将空间注意力与通道注意力模块输入特征图逐元素相乘，获得最终的特征图：

（6）

结果预测模块根据最终特征得到预测语义分割图。

3.所述步骤二中的具体过程如下：

（1）获取街景图像的训练集；

（2）对训练集中的街景图像进行数据预处理；

（3）将数据预处理后的街景图像输入步骤1构建的基于DeepLabV3+改进的神经网络中进行训练。

4.所述步骤三中的具体过程如下：

利用训练好的基于DeepLabV3+改进的神经网络进行街景图像语义分割：

（1）获取街景图像；

（2）对街景图像进行数据预处理；

对街景图像进行包括上采样和随机裁剪的数据增强；

（3）将数据预处理后的街景图像输入步骤二训练好的基于DeepLabV3+改进的神经网络中进行街景图像语义分割。

Claims

1.一种基于DeepLabV3+改进的街道图像分割方法，其特征在于，包括以下步骤：

Step 1：构建基于DeepLabV3+改进的神经网络；

Step 2：训练基于DeepLabV3+改进的神经网络；

Step 3：利用训练好的基于DeepLabV3+改进的神经网络进行街景图像语义分割。

2.根据权利要求1所述的一种基于DeepLabV3+改进的街道图像分割方法，其特征在于，所述Step 1中的具体过程如下：

Step1.1 编码器DCNN部分由MobilenetV2替换原本的Xception部分；

Step1.2 将ECA模块加入MobileNetV2的残差堆叠块中。ECA模块去除了原来SE模块中的全连接层，直接在全局平均池化之后特征上通过一个1D卷积进行学习；

Step1.3 使用深度可分离卷积替换ASPP模块中的膨胀卷积；深度可分离卷积主要分为两个过程：逐通道卷积（Depthwise Convolution）和逐点卷积（Pointwise Convolution）。在卷积运算过程中，若输入通道数为,卷积核大小为k/>，输入通道数为/>，输出特征尺寸为H/>W，则深度可分离卷积与标准卷积的参数量之比如式（1）所示：

（1）

计算量之比如式（2）所示：

（2）

Step1.4 CBAM包含CAM和SAM两个子模块，分别在ASPP模块中的通道上和空间上添加注意力机制；

通道注意力模块关注输入特征图中有哪些内容是十分重要的。对于输入的特征图F使用平均池化与最大池化聚合特征映射的空间信息，得到两个一维空间向量和/>，然后将两个一维空间向量送到一个简单的共享神经网络中，压缩输入特征图的空间维数，将输出特征逐元素求和，在经过/>（sigmoid）激活操作以产生一维通道注意力/>(F)。用/>和代表共享神经网络中的两层参数，得到通道注意力计算为：

（3）

（4）

式中：逐元素相乘；

（5）

式中：——卷积核大小为7/>7的标准卷积运算

（6）

结果预测模块根据最终特征得到预测语义分割图。

3.根据权利要求1所述的一种基于DeepLabV3+改进的街道图像分割方法，其特征在于，所述Step 2中的具体过程如下：

Step2.1 获取街景图像的训练集；

Step2.2 对训练集中的街景图像进行数据预处理；

Step2.3 将数据预处理后的街景图像输入步骤1构建的基于DeepLabV3+改进的神经网络中进行训练。

4.根据权利要求1所述的一种基于DeepLabV3+改进的街道图像分割方法，其特征在于，所述Step 3中的具体过程如下：

Step3.1 获取街道图像；

Step3.2 对街道图像进行数据预处理；

Step3.3 将数据预处理后的街道图像输入步骤S2训练好的基于DeepLabV3改进的神经网络中进行街道图像语义分割。