CN113688836A

CN113688836A - 一种基于深度学习的实时性道路图像语义分割方法及系统

Info

Publication number: CN113688836A
Application number: CN202111144614.3A
Authority: CN
Inventors: 张轶; 苗柳
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-11-23

Abstract

本发明涉及一种基于深度学习的实时性道路图像语义分割方法及系统，所述语义分割方法包括：建立基于编码器和解码器架构的神经网络模型；将测试的原始图像输入到编码器进行逐层特征提取与下采样，获取全局语义信息；解码器接收编码器的处理结果，融合多层多尺度的特征并进行上采样，恢复分割图像的空间细节得到与原图像尺寸相同的语义标记；将语义标记图映射到原始图像上，实现分割结果的可视化。本发明通过轻量级的逆残差瓶颈模块和深度可分离卷积，充分挖掘网络的多尺度特征，在保证了分割准确率的条件下大大减少了网络的计算规模，实时性效果好，充分使用多尺度特征融合，在对不同尺度的目标(行人、汽车)都能取得较好的分割效果。

Description

一种基于深度学习的实时性道路图像语义分割方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度学习的实时性道路图像语义分割方法及系统。

背景技术

语义分割包括场景解析和整体理解具有很长的研究历史；近年来因其在环境感知、自动驾驶和虚拟现实等领域的应用而备受关注，同时，深度卷积神经网络的发展，尤其是全卷积网络的引入促进了语义分割的显著进步；大多数现有方法利用全卷积网络来为给定图像中的每个像素分配类标签，这也导致了语义分割网络的计算规模巨大，然而，自动驾驶和虚拟现实等予以分割的应用领域对网络的实时性有较高的要求；因此，如何在推理速度和性能之间取得平衡至关重要，是现阶段需要考虑的问题。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于深度学习的实时性道路图像语义分割方法及系统，解决了现有技术存在的不足。

本发明的目的通过以下技术方案来实现：一种基于深度学习的实时性道路图像语义分割方法，所述语义分割方法包括：

建立基于编码器和解码器架构的神经网络模型；

将测试的原始图像输入到编码器进行逐层特征提取与下采样，获取全局语义信息；

解码器接收编码器的处理结果，融合多层多尺度的特征并进行上采样，恢复分割图像的空间细节得到与原图像尺寸相同的语义标记；

将语义标记图映射到原始图像上，实现分割结果的可视化。

所述编码器由级四层第一网络层组成，每一层都设置了批标准化，第一层由一个普通2D卷积和两个深度可分离卷积组成，剩下的三层每层都由三个逆残差瓶颈模块组成；第一层到第四层依次传递，前三层用于提取原始图的底层特征，并在第三层中进一步下采样得到原图像的1/32尺度，最终四个第一网络层输出特征图为{S₁，S₂，S₃，S₄}。

所述逆残差瓶颈模块中输入特征图首先根据膨胀系数由1×1卷积扩充通道系数，经过一个3×3的深度卷积后再由一个1×1的线性卷积将特征图映射到维度更少的空间上，以降低通道数据的冗余度和计算负荷。

所述解码器包括由四个自上而下形式第二网络层组成，每层第二网络层均由1×1卷积和3×3深度可分离卷积组成；所述解码器的输入为所述编码器四个第一网络层输出的特征图{S₁，S₂，S₃，S₄}，利用1×1卷积和上采样来调整相邻两阶段的特征尺寸，并将两组特征图相加之后，传递到下一层第二网络层，得到{M₁，M₂，M₃，M₄}，最后将{M₁，M₂，M₃，M₄}通过3×3深度可分离卷积和上采样，使其尺寸相同，最后全部进行相加融合，得到最终的特征图。

所述语义分割方法还包括设置于建立基于编码器和解码器架构的神经网络模型步骤之后的训练步骤；所述训练步骤包括将训练好的数据及输入到神经网络模型中进行训练，得到最优的网络权重。

所述训练步骤具体包括：对图像依次进行随机裁剪、随机缩放、随机水平翻转和随机光度畸变的预处理，以防止过拟合；采用损失函数为L(F，Y)＝Loss(softmax(D(F))，Y)的Stochastic Gradient Decent优化器进行训练，其中F为编码器输出结果，D为解码器，Y为真实标记图，Loss为交叉熵。

一种基于深度学习的实时性道路图像语义分割系统，它包括模型构建单元、训练单元、可视化单元；所述模型构建单元用于建立由编码器和解码器组成的神经网络模型并实现对输入的原始图像进行逐层特征提取与下采样，获取全局语义信息，并融合多层多尺度的特征并进行上采样，恢复分割图像的空间细节得到与原图像尺寸相同的语义标记；所述训练单元用于对图像依次进行随机裁剪、随机缩放、随机水平翻转和随机光度畸变的预处理，以防止过拟合；以及采用损失函数为L(F，Y)＝Loss(softmax(D(F))，Y)的StochasticGradient Decent优化器进行训练，其中F为编码器输出结果，D为解码器，Y为真实标记图，Loss为交叉熵；所述可视化单元用于将语义标记图映射到原始图像上，实现分割结果的可视化。

本发明具有以下优点：一种基于深度学习的实时性道路图像语义分割方法及系统，通过轻量级的逆残差瓶颈模块和深度可分离卷积，充分挖掘网络的多尺度特征，在保证了分割准确率的条件下大大减少了网络的计算规模，实时性效果好，充分使用多尺度特征融合，在对不同尺度的目标(行人、汽车)都能取得较好的分割效果。

附图说明

图1为本发明方法的流程示意图；

图2为本发明整体网络模型的结构示意图；

图3为逆残差瓶颈模块的结构图；

图4为编码器的结构图；

图5为解码器的结构图；

图6为Cityscapes数据集上可视化结果；

图7为CamVid数据集上的可视化结果。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1所示，本发明具体涉及一种基于深度学习的实时性图像语义分割的方法，包括以下步骤：

S1、建立基于编码器和解码器架构的神经网络模型；

S2、获取公开的城市道路图像的数据集；

S3、将训练的数据集输入到神经网络机型训练，得到最优的网络权重；

S4、将测试的原始图像输入到编码器进行逐层特征提取与下采样，获取全局语义信息；解码器接收编码器的处理结果，融合多层多尺度的特征并进行上采样，恢复分割图像的空间细节得到与原图像尺寸相同的语义标记；

S5、将语义标记图映射于原图像上，实现分割结果的可视化。

其中，网络的整体结构入图2所示，彩色图像输入到网络中后，经过编码器和解码器，最后生成语义分类图。因而网络整体可以分为两部分，其中包括:

基于逆残差瓶颈模块的轻量级编码器网络，目的是为了获取全局语义信息。编码器的具体结构由下表和图4所示。由四层组成，第一层由一个普通2D卷积(Conv2D)和两个深度可分离卷积(dwise sep)组成，剩下三层中，每层都由三个逆残差瓶颈模块(bottleneck)组成，其中逆残差瓶颈模块的结构图为图3，输入特征图首先根据膨胀系数(逆残差瓶颈模块中内部特征图和输入特征图通道数的比值)，由1×1卷积扩充通道数，经过一个3×3的深度卷积后，再由一个1×1的线性卷积将特征图映射到维度更少的空间上，提高计算效率。同时，如果输入和输出通道数相同的时候，网络会增加一个残差链接。记每个阶段最后输出的特征图为{S₁，S₂，S₃，S₄}，他们的尺度分别为原输入图像的

输入尺寸	模块名称	膨胀系数	通道数	模块数量	步长
						1024×2048×3	Conv2D	-	32	1	2
512×1024×32	dwisesep	-	48	1	2
						256×512×48	dwisesep	-	64	1	2
128×256×64	bottleneck	6	64	3	2
						64×128×64	bottleneck	6	96	3	2
32×64×96	bottleneck	6	128	3	1

通过基于金字塔特征融合与深度可分离卷积的轻量级解码器的具体结构为图5所示，解码器通过融合编码器网络的多层多尺度的输出{S₁，S₂，S₃，S₄}，来恢复局部的空间细节特征。具体来说，解码器的输入为编码器四个阶段的多尺度的特征图，{S₁，S₂，S₃，S₄}利用1×1卷积和上采样来调整相邻两阶段的特征尺寸，并将两组特征图相加之后，传递到下一层特征，最终得到{M₁，M₂，M₃，M₄}，最后将{M₁，M₂，M₃，M₄}通过3×3深度可分离卷积和上采样，使其尺寸相同，最后全部进行相加融合，得到最终的特征图，通过这个特征图由softmax得到最后的语义分类图。

步骤S2获取公开的城市道路图像的数据集，具体包括：

Cityscapes数据集是专注于城市街景解析的最著名的数据集之一，它是从汽车的角度拍摄的，包含了5,000张精细标注图像，分辨率为2048×1024，其中分为2975张用于训练的图像、500张用于验证的图像和1425张用于测试的图像。其中精细标注中定义了30个语义类。按照官方指南，我们使用其子集19类进行训练。

Cambridge-driving LabeledVideo Database(CamVid)数据集。Camvid也是从驾驶汽车的角度拍摄的道路场景数据集。它由701个精细标注的图像帧组成，分辨率为960×720，分为367个图像的训练集、101个图像的验证集和233个图像的测试集。原始的标注由32个语义类别组成，我们根据当前工作普遍采用的将其合并为11个类别作为训练。

步骤S3具体包括：

S31、为了防止过拟合，进行图像的预处理，其中包括：

随机裁剪：Citysapes的剪裁尺寸为1024×512，CamVid为512×512；随机缩放：缩放的范围为[0.5～2.0]；随机水平翻转:以概率为0.5随机将图片水平翻转；随机光度畸变。给图像增加随机的光度畸变，从而增加网络的判别能力。

S32、采用Stochastic Gradient Decent(SGD)优化器进行训练，损失函数如下：

L(F，Y)＝Loss(softmax(D(F))，Y)

其中F为编码器输出结果，D为解码器，Y为真实标记图，Loss为交叉熵。

步骤S4中输入测试的原始图片，得到与原图片尺寸相同的语义标记图，具体为测试阶段，对输入图像无需进行预处理，直接获得分割的标记图。

步骤S5将语义标记图映射于原图像上，实现分割结果的可视化，具体为将不同的语义类别映射为不同的颜色，覆盖于原图像，从而对分割结果有直观的可视化结果，图6为Cityscapes数据集上可视化结果，图7为CamVid数据集上的可视化结果。

由上表可知本发明提出方法能够较为快速准确地进行与语义分割，在具有挑战性的Cityscapes数据集上取得了69.5％类mIoU，在CamVid数据集上取得了66.1％的类mIoU％，在网络规模上，参数量仅有1.1百万，对于2048×1024尺寸的输入图片，浮点运算量仅有5.45G；可以看出，本发明具有极具竞争力的分割精度，在网络规模的缩减，分割速度的提升方面具有极大的创新。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于深度学习的实时性道路图像语义分割方法，其特征在于：所述语义分割方法包括：

建立基于编码器和解码器架构的神经网络模型；

将语义标记图映射到原始图像上，实现分割结果的可视化。

2.根据权利要求1所述的一种基于深度学习的实时性道路图像语义分割方法，其特征在于：所述编码器由级四层第一网络层组成，每一层都设置了批标准化，第一层由一个普通2D卷积和两个深度可分离卷积组成，剩下的三层每层都由三个逆残差瓶颈模块组成；第一层到第四层依次传递，前三层用于提取原始图的底层特征，并在第三层中进一步下采样得到原图像的1/32尺度，最终四个第一网络层输出特征图为{S₁，S₂，S₃，S₄}。

3.根据权利要求2所述的一种基于深度学习的实时性道路图像语义分割方法，其特征在于：所述逆残差瓶颈模块中输入特征图首先根据膨胀系数由1×1卷积扩充通道系数，经过一个3×3的深度卷积后再由一个1×1的线性卷积将特征图映射到维度更少的空间上，以降低通道数据的冗余度和计算负荷。

4.根据权利要求2所述的一种基于深度学习的实时性道路图像语义分割方法，其特征在于：所述解码器包括由四个自上而下形式第二网络层组成，每层第二网络层均由1×1卷积和3×3深度可分离卷积组成；所述解码器的输入为所述编码器四个第一网络层输出的特征图{S₁，S₂，S₃，S₄}，利用1×1卷积和上采样来调整相邻两阶段的特征尺寸，并将两组特征图相加之后，传递到下一层第二网络层，得到{M₁，M₂，M₃，M₄}，最后将{M₁，M₂，M₃，M₄}通过3×3深度可分离卷积和上采样，使其尺寸相同，最后全部进行相加融合，得到最终的特征图。

5.根据权利要求1-4中任意一项所述的一种基于深度学习的实时性道路图像语义分割方法，其特征在于：所述语义分割方法还包括设置于建立基于编码器和解码器架构的神经网络模型步骤之后的训练步骤；所述训练步骤包括将训练好的数据及输入到神经网络模型中进行训练，得到最优的网络权重。

6.根据权利要求5所述的一种基于深度学习的实时性道路图像语义分割方法，其特征在于：所述训练步骤具体包括：对图像依次进行随机裁剪、随机缩放、随机水平翻转和随机光度畸变的预处理，以防止过拟合；采用损失函数为L(F，Y)＝Loss(softmax(D(F))，Y)的Stochastic Gradient Decent优化器进行训练，其中F为编码器输出结果，D为解码器，Y为真实标记图，Loss为交叉熵。

7.一种基于深度学习的实时性道路图像语义分割系统，其特征在于：它包括模型构建单元、训练单元、可视化单元；所述模型构建单元用于建立由编码器和解码器组成的神经网络模型并实现对输入的原始图像进行逐层特征提取与下采样，获取全局语义信息，并融合多层多尺度的特征并进行上采样，恢复分割图像的空间细节得到与原图像尺寸相同的语义标记；所述训练单元用于对图像依次进行随机裁剪、随机缩放、随机水平翻转和随机光度畸变的预处理，以防止过拟合；以及采用损失函数为L(F，Y)＝Loss(softmax(D(F))，Y)的Stochastic Gradient Decent优化器进行训练，其中F为编码器输出结果，D为解码器，Y为真实标记图，Loss为交叉熵；所述可视化单元用于将语义标记图映射到原始图像上，实现分割结果的可视化。

8.根据权利要求7所述的一种基于深度学习的实时性道路图像语义分割系统，其特征在于：所述编码器由级四层第一网络层组成，每一层都设置了批标准化，第一层由一个普通2D卷积和两个深度可分离卷积组成，剩下的三层每层都由三个逆残差瓶颈模块组成；第一层到第四层依次传递，前三层用于提取原始图的底层特征，并在第三层中进一步下采样得到原图像的1/32尺度，最终四个第一网络层输出特征图为{S₁，S₂，S₃，S₄}。

9.根据权利要求8所述的一种基于深度学习的实时性道路图像语义分割系统，其特征在于：所述逆残差瓶颈模块中输入特征图首先根据膨胀系数由1×1卷积扩充通道系数，经过一个3×3的深度卷积后再由一个1×1的线性卷积将特征图映射到维度更少的空间上，以降低通道数据的冗余度和计算负荷。

10.根据权利要求7所述的一种基于深度学习的实时性道路图像语义分割系统，其特征在于：所述解码器包括由四个自上而下形式第二网络层组成，每层第二网络层均由1×1卷积和3×3深度可分离卷积组成；所述解码器的输入为所述编码器四个第一网络层输出的特征图{S₁，S₂，S₃，S₄}，利用1×1卷积和上采样来调整相邻两阶段的特征尺寸，并将两组特征图相加之后，传递到下一层第二网络层，得到{M₁，M₂，M₃，M₄}，最后将{M₁，M₂，M₃，M₄}通过3×3深度可分离卷积和上采样，使其尺寸相同，最后全部进行相加融合，得到最终的特征图。