CN115457498A

CN115457498A - 一种基于双注意力和密集连接的城市道路语义分割方法

Info

Publication number: CN115457498A
Application number: CN202211159236.0A
Authority: CN
Inventors: 林勇; 苏羿安; 林学威; 方贤宝; 钟乐天; 金钊
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-12-09

Abstract

本发明涉及图像分割技术领域，公开了一种基于双注意力和密集连接的城市道路语义分割方法包括以下步骤：构建城市道路语义分割数据集；构建深度卷积神经网络，所述深度卷积神经网络包括编码器模块、双注意力机制融合模块、密集连接并联池化模块、多尺度特征融合模块以及解码分支；利用所给的城市道路数据集对深度卷积神经网络进行训练，调整网络参数；将需要预测的图像输入进网络中获得语义分割结果。本发明能够较好的应对轻量级道路图像预测网络所需的预测速度与精度需求。

Description

一种基于双注意力和密集连接的城市道路语义分割方法

技术领域

本发明涉及图像分割技术领域，尤其涉及一种基于双注意力和密集连接的城市道路语义分割方法。

背景技术

道路场景的实时语义分割是图像处理的一个重要应用场景。通过车载摄像头拍摄的图像数据是由不同元素的不同像素组合在一起形成的，将这些像素按照元素分类的方法称为语义分割。基于深度学习的图像语义分割是近些年的研究热点，随着大量原本在图像分类、目标检测和自然语言处理等领域获得成功的深度学习方法被迁移到语义分割领域，图像语义分割得到了重大的突破，相对应适应各方向如自动驾驶、卫星遥感分割、农植物分割以及医学影像分割等多种具体应用方向上也得到了全面的发展。对于自动驾驶而言，面对道路场景的语义分割算法是实现自动驾驶的重要辅助手段，通过对车辆自身的摄像头返回的图像数据当中的行人、车辆以及建筑等与行车安全相关的目标进行精确到像素的分割，为自动驾驶汽车或机器智能提供切实的路况信息，从而保证行驶的安全性。然而在现实道路中，场景的复杂性、目标的多样性以及图像处理的实时性都极大要求了语义分割的效果。由此可见，如何提高道路场景语义分割的准确性和网络反应的快速性具有很重要的研究意义。

为了有效提升网络的分类准确性和快速性，相关研究人员从不同角度进行了大量的研究工作，并且取得了不错的效果。根据语义分割演变历程，在深度学习出来之前传统的语义分割算法主要根据图像的颜色、纹理、灰度、几何特征等信息将图像分割成不同的区域，但是这种方法实施过程比较繁琐、效率低且准确度不高，而且在很多方面具有局限性，特定的方法只能应用于特定的任务，泛化性能较弱。近年来，随着深度学习的发展，尤其是卷积神经网络的迅速迭代，受到了各相关领域研究人员的广泛关注，随之提出了AlexNet、GoogleNet、VGG、ResNet等优秀的网络模型。这些模型能够在大量的带有标签的样本中学习到有用的特征，相对于传统方法具有较高的准确率。2015年，Shelhamer等人提出了全卷积神经网络FCN(Fully Convolutional Network)的方法，设计了一种面对任意大小输入图像端到端逐像素分类的框架，奠定了使用深度卷积神经网络解决语义分割问题的一种基础框架。但是由于FCN的结果在边缘问题的处理上不够精细，而且仅仅是对单一尺度进行处理。在此基础上，Ronneberger等人提出了一种基于对称原理的语义分割模型U-Net，该模型通过收缩通路捕获上下文信息再将边缘信息映射到扩张通路形成对图像的语义分割。U-Net针对图像切块的方式进行训练，这样即使在训练数据集较少的情况下训练出的模型数据也能较好的拟合所需性能，有较好的鲁棒性。针对于FCN中会出现的感受野大小较为固定且分割细节易丢失问题，Brdrinarayanan等人提出一种深度卷积神经网络SegNet用于对图像语义分割。SegNet模型是一种典型的编码器-解码器结构，在编码的过程中将图像的特征提取出来，然后在解码时将高尺度特征图映射到原图分辨率的特征图中从而对像素进行分类。其创新在于解码端对低分辨率特征图以池化索引方式进行上采样，训练参数较少，在模型规模以及反应实时性上极为有优势。

针对于全卷积形式的对称网络分割算法忽略了对应像素点的空间一致性等问题，基于全卷积神经网络的空洞卷积语义分割算法纷纷涌现。Chen等人提出了一种基于空洞卷积的语义分割算法DeepLabV1，该网络主干部分采用VGG-16，并且引入空洞卷积与条件随机场，提高了整体模型对于图像细节和图形边界的敏感度，获得了较为良好的分割效果。DeepLabV2网络相对于DeepLabV1网络将主干网络改进为了ResNet-101，并且在主干网络后引入了空洞空间金字塔池化模块(ASPP)，ASPP模块以多个膨胀率的滤波器输入卷积，从而将输入图像的多尺度信息整合。DeepLabV3为了实现在多个尺度对输入图像进行分割，设计了级联并行的空洞卷积模块，以多种膨胀率捕获各种尺度的上下文信息。DeepLabV3+网络通过在DeepLabV3网络的基础上添加了解码器模块，使网络整体变成了编码器-解码器结构，融合了多尺度信息，获得了更加清晰的边界，优化了分割结果。

然而，目前的语义分割算法模型参数量过多，参数过大，导致在面对轻量级场景以及实时性要求较强的场景时不够理想，限制了语义分割技术的实际落地应用。例如在自动驾驶中，具有语义分割的实时性十分重要，能够及时的将图像获取设备获得的信息处理并即使反馈给控制系统。而现在追求快速的语义分割算法往往只采用了编码到解码的简单结构，忽略了多尺度信息以及边缘信息的重要性，导致分割精度过低，难以满足日常使用的需求。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于双注意力和密集连接的城市道路语义分割方法。

一种基于双注意力和密集连接的城市道路语义分割方法，包括以下步骤：

步骤1、构建城市道路语义分割数据集；

步骤2、构建深度卷积神经网络，所述深度卷积神经网络包括编码器模块、双注意力机制融合模块、密集连接并联池化模块、多尺度特征融合模块以及解码分支；所述编码器模块用于对输入图像进行编码获得多种尺度特征信息，所述双注意力机制融合模块对特征图重点区域提高权重并抑制对无用信息的获取，所述密集连接并联池化模块用于扩大同等卷积核下感受野范围并增加信息复用效率，所述多尺度特征融合模块用于将编码器的部分特征图与密集连接空洞空间金字塔池化模块特征图相融合，所述解码分支用于将高维度特征图通过上采样恢复到原图尺寸得到语义分割预测图；

步骤3、利用城市道路场景数据集对深度卷积神经网络进行训练修正相关网络参数；

步骤4、将待分割道路场景图片输入进训练完成的深度卷积神经网络获得语义分割结果。

进一步的，所述编码器模块结构为：

移除MobileNetV3最后四层用于分类任务的卷积池化层；

将MobileNetV3中连续的下采样瓶颈结构，根据所要产生的多尺度特征图重新划分为四个连续的瓶颈结构。

进一步的，所述瓶颈结构的输出特征为：

其中：k表示瓶颈结构中倒残差块的个数，x表示输入此环节的特征图，A_i表示1×1的升维卷积，D_i表示倒残差块中的3×3深度可分卷积，α表示注意力参数，E_i表示空间注意力机制权重，B_i表示1×1降维卷积，⊕表示加权操作。

进一步的，所述双注意力机制融合模块的结构具体包括：

对于输入特征图F分为三个特征分支，其中

对于第一个特征分支进行通道注意力特征化具体为：对F分别进行平均池化与最大池化，然后经过同一个多层感知机获得两个输出特征F_{avg_feature}和F_{max_feature}，将这两个特征经过一个卷积得到通道特征图F_{channel_feature}，最后将F_{channel_feature}与F融合特征得到此特征分支的输出F_c；

对于第二个特征分支空间注意力特征化具体为：对F分别进行平均池化与最大池化，然后经过特征堆叠获得F_concat，经过空间注意力卷积池化与标准化操作后得到空间特征图F_{spatial_feature}，然后将F_{spatial_feature}与F进行特征融合得到此特征分支的输出F_s；

对第三个特征分支特征细节保留，将输入F进行3×3卷积之后得到此特征分支的输出F_r，最后将三个特征分支的输出F_c，F_s，F_r进行堆叠作为双注意力机制融合结构的输出F_out。

进一步的，所述密集连接并联池化模块包含图像池化、密集连接空洞空间金字塔池化、卷积和双注意力特征处理四个部分，其中处理过程具体为：

图像池化：对于给定的特征图I∈R^C*H*W，经过一层最大池化得到输出特征图O₁∈R^C ^*H*W；

密集连接空洞空间金字塔池化：对于给定的特征图I，分为四个分支，第一，以膨胀率为6进行空洞卷积得到输出D₁∈R^C*H*W、第二，先将输入I与D₁进行concat得到特征图C₁再以膨胀率为12进行空洞卷积得到输出D₂∈R^C*H*W、第三，先将C₁与D₂进行concat得到输出特征图C₂再以膨胀率为18进行空洞卷积的到输出D₃∈R^C*H*W、第四，先将C₂与D₃进行concat得到输出C₃再进行膨胀率为24的空洞卷积得到输出D₄∈R^C*H*W，最后将四个分支获得的输出特征图进行整合获得密集连接空洞空间金字塔池化输出O₂∈R^4C*H*W；

卷积：对于给定的输入特征图I，经过一个1×1的卷积获得输出O₃；

双注意力特征处理：对于给定的输入特征图I，输入到一个与双注意力机制融合模块的结构中获得输出O₄；

最后将四个分支所获得的O₁、O₂、O₃与O₄通过特征与整合得到密集连接并联池化模块的输出O∈R^(7*C)*H*W。

进一步的，所述多尺度特征融合模块的处理过程包括：

输入图像经过编码器模块，获得四种尺寸的特征图M₁、M₂、M₃和M₄，特征图M₁相对于原图下采样2倍，特征图M₂相对于原图下采样4倍，特征图M₃相对于原图下采样8倍，特征图M₄相对于原图下采样16倍；

首先，将得到的输出特征图O作为输入，先进行一个1×1的卷积降低维度，再进行4倍的上采样得到M₅；

其次，将M₂经过一个1×1卷积再与M₅进行concat得到的输出特征图进行一个两倍的上采样得到M_{2_5}；

最后，将M₁经过1×1的卷积再与M_{2_5}进行concat得到本环节的输出M。

进一步的，所述解码分支生成语义分割预测图的过程包括：

针对于输入特征图，进行一个分类卷积得到所需类别的分类图像，然后经过上采样得到输出的语义分割预测图。

进一步的，所述深度卷积神经网络的处理过程为：

输入图像经过编码器模块，在下采样的过程中保留两倍下采样与四倍下采样的特征图M₁、M₂，并得到编码器输出下采样16倍且维度为160的特征图；

将得到的特征图输入双注意力机制融合模块，对特征图的空间与通道维度建立相关表征，输出结果为下采样16倍且维度为160的特征图；

将经过双注意力机制融合模块的特征图输入密集连接并联池化模块中，提高感受野并减少信息丢失，输出结果为下采样16倍且维度为1120的特征块；

将经过密集连接并联池化模块得到的特征图与M₁、M₂三张特征图输入多尺度特征融合模块，补全特征图边缘信息，输出结果为下采样2倍且维度为160的特征图；

最后将多尺度特征融合模块得到的特征图输入解码分支，进行语义分割，得到大小与原图大小相同维度为256的语义分割预测图，完成预测。

与现有技术相比，本发明的显著优点如下：

1、本发明构建了一种基于密集连接并联的特征金字塔池化模块，有效的弥补了空洞空间金字塔池化在尺度轴上特征分辨率不够密集，获取的感受野还不够大的问题，并有效的提取了上下文的信息作为特征融合的因素；

2、本发明构建了一种双注意力与输入特征相结合的注意力处理方式；

3、本发明设计了一种多尺度特征信息融合模块，能够将图像的一些细节信息跨特征点保留下来，进一步与密集连接并联池化模块的输出的高维抽象特征相结合；

4、本发明构建的解码器结构引入了编码器模块生成的低维图像，优化了对于图像边缘以及细节的处理，由于编码器以及密集连接并联池化模块中使用的深度可分离卷积，在保证网络精度的同时加快了预测速度。

附图说明

图1为本发明提出的一种基于双注意力和密集连接的城市道路语义分割方法的流程框图；

图2是本发明的算法框架；

图3是MobileNetV3网络结构相关参数图；

图4是本发明中编码器模块网络结构相关参数图；

图5是本发明中双注意力机制融合模块结构图；

图6是空间注意力机制结构图；

图7是通道注意力机制结构图；

图8是本发明中密集连接并联池化模块结构图；

图9是本发明中多尺度特征融合模块结构图；

图10是本发明中解码分支结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本申请实施例，参照图1，本发明提出的一种基于双注意力和密集连接的城市道路语义分割方法，包括以下步骤：

步骤1、构建城市道路语义分割数据集，具体为：

选取Cityscapes数据集，Cityscapes拥有5000张在城市环境中驾驶场景的图像，它具有19个类别的密集像素标注，是语义分割类的重要数据集。

步骤2、构建深度卷积神经网络，整体结构如图2所示：

所述深度卷积神经网络包括编码器模块、双注意力机制融合模块、密集连接并联池化模块、多尺度特征融合模块、解码分支。

在实施过程中，所述编码器模块采用部分MobileNetV3中的结构，如图3所示，本发明对其调整用作语义分割编码任务，如图4所示。表中C代表倒残差结构中扩张后的维度，S代表此环节的步长，特征图表示此处输出的特征图，具体实现过程为：

(1)切割MobileNetV3前16层作为使用，后4层的全连接层、池化层、分类层舍去。

(2)为调整适应本文算法结构，将16层分为四块瓶颈结构，其中前三块主要作用为下采样提高特征维度，将空间特征信息转化为维度特征信息，第四块瓶颈结构较深，主要作用为加深网络结构提取到含有较好表达能力的抽象特征信息。并获得四个大小不同的特征图，如图4。

每个瓶颈结构的输出为：

式中，k表示瓶颈结构中倒残差块的个数，x表示输入此环节的特征图，A_i表示1×1的升维卷积，D_i表示倒残差块中的3×3深度可分卷积，α表示注意力参数，E_i表示空间注意力机制权重，B_i表示1×1降维卷积，⊕表示加权操作。

对于瓶颈结构的具体操作流程为：对于输入特征图x∈R^C*H*W,首先进行A_i进行升维操作维度变化为R^{C*H*W→RN*H*W}，其中N为图4中扩张后的维度。经过D_i深度可分离卷积后，通过α注意力参数决定是否加入通道注意力机制。最后通过B_i进行维度调整，当此环节不用做通道数加深时维度变化为R^{N*H*W→RC*H*W}以及输出x_res，若此环节需要通道数加深则维度变化为R^{N*H*W→RCnew*H*W}以及输出x_out,其中Cnew是此环节需要的输出通道数，具体可参照图4。当此环节没有通道数变化，也就是输入通道与输出通道相同时，进行残差边连接，公式为：

x_out＝x+x_res

在下一步的实施过程中，所述双注意力机制融合模块具体结构如图5所示。

双注意力机制融合模块的作用在于从特征图的空间维度与通道维度之间提取注意力焦点，从而捕获全局特征信息，增强对应特征表达能力提高分类精度。具体环节由空间注意力机制、通道注意力机制与类残差边组成。

所述空间注意力机制具体过程如图6所示。如图6所示空间注意力流程为：输入进大小为C*W*H的特征图，先对特征图进行最大池化和平均池化操作得到F_Max和F_Avg并将两个特征图堆叠，通过卷积降维到1*W*H大小，并将其结果进行F_C特征映射使其和输入特征图进行元素相乘得到输出。具体到计算过程，公式为：

其中F_Out表示输出特征图，F_C表示对前面处理结果沿空间维度进行复制得到C*W*H大小特征图，Conv表示卷积操作，Concat表示堆叠操作，

表示元素间的乘法。

所述通道注意力机制具体过程如图7所示。如图7所示通道注意力流程为：首先对输入特征图分别进行平均池化和最大池化，然后经过多层感知机MLP组成的共享网络进行相加，经过非线性函数得到通道注意力机制特征映射图，再将映射图与输入特征图逐元素相乘得到最终的通道注意力加权图。具体到计算过程，公式为：

其中F_Out表示输出特征图，F_Max表示经过最大池化的输出，F_Avg表示经过平均池化的输出，

表示元素间的乘法，F_C表示对前面处理结果沿空间维度进行复制得到C*W*H大小的特征图便于与输入特征图进行元素乘法。

最后根据图5所示结构，将通道注意力机制输出特征图、空间注意力机制特征图和经过1×1过度卷积的输入图像进行concat得到本环节的输出x∈R^160*32*32。

在下一步的实施过程中，所述密集连接并联池化模块，结构图如图8所示。

如图8所示，密集连接并联池化模块由四个部分组成：图像池、密集连接空洞空间金字塔池化、图像卷积以及双注意力特征处理。其中各部分处理过程具体为：

图像池化：对于给定的特征图I∈R^160*32*32，经过一层最大池化得到输出特征图O₁∈R^160*32*32；

密集连接空洞空间金字塔池化：对于给定的特征图I，分为四个分支，第一，以膨胀率为6进行空洞卷积得到输出D₁∈R^160*32*32、第二，先将输入I与D₁进行concat得到特征图C₁再以膨胀率为12进行空洞卷积得到输出D₂∈R^160*32*32、第三，先将C₁与D₂进行concat得到输出特征图C₂再以膨胀率为18进行空洞卷积的到输出D₃∈R^160*32*32、第四，先将C₂与D₃进行concat得到输出C₃再进行膨胀率为24的空洞卷积得到输出D₄∈R^160*32*32。最后将四个分支获得的输出特征图进行整合获得密集连接空洞空间金字塔池化输出O₂∈R^640*32*32；

图像卷积：对于给定的输入特征图I，经过一个1×1的2d卷积获得输出O₃；

双注意力特征处理：对于给定的输入特征图I，输入到一个双注意力结构中获得输出O₄。

最后将四个分支所获得的O₁、O₂、O₃与O₄通过特征整合得到密集连接并联池化模块的输出O∈R^1120*32*32。

在下一步的实施过程中，所述多尺度特征融合模块，如图2所示，此环节输入由编码器模块的M₁、M₂与经过降维上采样的密集连接并联池化模块的输出O组成。其具体流程如图9所示。

根据图9所示结构，多尺度特征融合模块处理过程具体为：

将输入图像经过编码器部分，获得的四种尺寸的特征图M₁、M₂、M₃和M₄，取出特征图M₁∈R^16*256*256和特征图M₂∈R^24*128*128；

首先，密集连接并联池化模块中得到的输出特征图O∈R^1120*32*32作为输入，先进行一个1×1的卷积降低维度，再进行4倍的上采样得到M₅∈R^160*128*128。逐步上采样可以在恢复原图尺寸的同时与低级特征进行特征融合，补全边缘信息；

其次，将M₂经过一个1×1卷积再与M₅进行concat得到的输出特征图进行一个两倍的上采样得到M_{2_5}∈R^160*256*256；

最后，将M₁经过1×1的卷积再与M_{2_5}进行concat得到本环节的输出M∈R^160*256*256。

在下一步的实施过程中，所述解码分支作用在于：

(1)在特征图相应处理完成后对图像中各种目标进行分类，使深度卷积神经网络中各权重偏置发挥作用；

(2)对图像进行最后的上采样环节，使深度卷积神经网络的输出特征图大小与输入图像相同，得到语义分割结果。

所述解码分支具体流程如图10所示，解码分支具体流程为：

根据从多尺度特征融合模块的输出M∈R^160*256*256，先进行分类卷积将图像的通道数重新划分为num_class个，其中num_class为所需分类数，在选取Cityscapes数据集时，num_class可选为19；然后输出特征图为了保持和原图大小一致进行2倍上采样得到本环节输出F_out∈R^num_^{class*512*512}，也是深度卷积神经网络的最终输出语义分割预测图。

准备标签：在Cityscapes数据集官方提供的标签文件中，选用以labelTrainIds为结尾的对19个类别做了标注的类别标签图。

本发明的训练网络配置：显卡为NVIDIA 1660s 6G,CPU为Intel(R)Core(TM)i5-9400F@2.9GHz，RAM为16GB。

本发明的训练网络配置为python3.8、pytorch1.7.1和Cudnn8.2.1。

训练策略为：优化器采用随机梯度下降SGD，动量0.937，初始学习率为0.02，并且采用poly学习策略，轮次为200次。

本发明在编码器模块中采用包含注意力机制以及深度可分离卷积的倒残差模块对图像进行编码操作获得高维特征；设计了一种双注意力融合捕获图像的上下文信息；设计了一种密集连接并联池化模块增加了对应卷积的感受野并且提高信息的复用率；设计了一种多尺度特征融合模块通过对编码器的部分特征图保留与高纬度特征图进行特征融合保存了图像边缘信息，优化了网络分割效果；通过解码分支，对所得到的高维抽象特征进行分类，实现语义分割效果。

本发明公开了一种高效且精确的语义分割方法，对于道路场景的端到端语义分割技术较好的在保证精确度的同时提高了网络分类实时性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于双注意力和密集连接的城市道路语义分割方法，其特征在于，包括以下步骤：

步骤1、构建城市道路语义分割数据集；

2.根据权利要求1所述的一种基于双注意力和密集连接的城市道路语义分割方法，其特征在于，所述编码器模块结构为：

移除MobileNetV3最后四层用于分类任务的卷积池化层；

3.根据权利要求2所述的一种基于双注意力和密集连接的城市道路语义分割方法，其特征在于，所述瓶颈结构的输出特征为：

4.根据权利要求1或3所述的一种基于双注意力和密集连接的城市道路语义分割方法，其特征在于，所述双注意力机制融合模块的结构具体包括：

对于输入特征图F分为三个特征分支，其中

5.根据权利要求4所述的一种基于双注意力和密集连接的城市道路语义分割方法，其特征在于，所述密集连接并联池化模块包含图像池化、密集连接空洞空间金字塔池化、卷积和双注意力特征处理四个部分，其中处理过程具体为：

图像池化：对于给定的特征图I∈R^C*H*W，经过一层最大池化得到输出特征图O₁∈R^C*H*W；

6.根据权利要求5所述的一种基于双注意力和密集连接的城市道路语义分割方法，其特征在于，所述多尺度特征融合模块的处理过程包括：

7.根据权利要求6所述的一种基于双注意力和密集连接的城市道路语义分割方法，其特征在于，所述解码分支生成语义分割预测图的过程包括：

8.根据权利要求1所述的一种基于双注意力和密集连接的城市道路语义分割方法，其特征在于，所述深度卷积神经网络的处理过程为：