CN114596316A

CN114596316A - 一种基于语义分割的道路图像细节抓取方法

Info

Publication number: CN114596316A
Application number: CN202111479069.3A
Authority: CN
Inventors: 冷庚; 谭志昊; 刘博文; 钱孝伟; 李彧; 江雪婷; 王树臣; 许文波
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-12-04
Filing date: 2021-12-04
Publication date: 2022-06-07

Abstract

本发明提出了一种基于语义分割的改进型DeepLabv3+技术来尽可能多的保留道路图像分割中的细节特征。该发明在图像分割细节提取方向上具有一定的通用性，该专利以道路图像分割为说明案例。传统的道路分割方法中存在着道路的细节特征被当成噪声滤除的不足，针对该问题，本发明引用了深度学习中的通用语义分割框架DeepLabv3，并对传统的人工图像分割以及采用MobileNetV2的分割所产生的细节特征滤除问题对DeepLabv3进行了进一步的改进。基于语义分割改进后的DeepLabv3+算法模型能够用于对具有复杂背景噪声的无人机图像进行道路分割并且在复杂的背景下实现细节特征的抓取。

Description

一种基于语义分割的道路图像细节抓取方法

技术领域

本发明涉及深度学习中的语义分割领域，针对道路图像进行细节抓取的技术。

背景技术

道路分割的关键是正确地将图像中的像素划分为道路或非道路(背景)。道路区域在位置、大小、形状和颜色方面的异质性使高效分割算法的发展复杂化。此外，当树木或建筑物在无人机图像中被阴影遮挡时，道路分割的准确性受到影响。由于遥感技术的快速发展，高分辨率可视遥感/无人机图像得到了广泛的应用。这些高分辨率图像比传统图像包含更多的信息，并且包含复杂的背景，这为道路分割算法提供了新的挑战。许多早期的研究已经建议使用高分辨率的可视遥感/无人机图像来识别和分割道路。Cheng等人利用基于对象的特征提取方法提取粗糙的道路区域，然后进行基于像素的道路分割。然而，这种方法在一致分割道路边界方面有困难。

语义分割是一种技术，它将图像分成不同的语义区域，并根据指定的类别对这些区域进行分类。由于类别变化、视角丢失、场景上下文和噪声的存在，语义分割仍然是困难的，特别是在道路分割传统的处理方法中，而且道路的细节特征也多被当成噪声而被滤除，导致细节特征所带来的信息不能被有效利用。近年来，深度卷积神经网络(DCNNs)已经帮助计算机视觉系统在包括图像分类、目标检测和语义分割在内的广泛应用中表现得更好。DCNN在各个科学技术领域得到了有效的应用。这是因为DCNN可以收集上下文信息，这在这些应用程序中是至关重要的。分割的准确性是由局部特征(颜色和强度)以及全局特征(纹理和上下文)决定的。该网络能够以端到端方式学习这两种特征，并有助于其在语义分割中取得成功。因此，由于深度学习依赖于学习特征，所以更倾向于采用深度学习方法进行语义分割。全卷积网络(FCNs)是第一个用于图像语义分割的神经网络。他们使用反卷积层构建框架，以将预测结果的大小恢复到输入的大小图像。此外，FCN在整个网络中使用卷积层，允许接受任何大小的输入图像。FCN也是一种不使用扩张卷积或条件随机场的小尺度分割网络。FCN对图像进行下采样以获取小尺度特征，然后对这些特征进行上采样，用于道路分割。虽然下采样-上采样过程成功地消除了来自复杂背景的干扰，但它也消除了狭窄道路上的细节。因此，FCN可能很难在高分辨率图像中分割多尺度的道路，特别是狭窄的道路。DeepLab系列版本v1、v2和v3提出了几种用于语义分割的网络结构。DeepLab采用扩张卷积，与标准卷积操作相比，它在不增加处理的情况下增加了接收域。此外，当特征图减小到相同倍数时，较大的接受域吸收了更多的信息，使分割预测更加准确。

Cheng等人提出了一种用于细粒度分割的结构，该结构包括一个带有心房褶积的编码器-解码器结构。该结构收集高级语义信息并提供细粒度的分割。本发明在DeepLabv3+中使用的下采样因子(输出步幅)为8，这意味着编码器部分将输入图像下采样高达8倍。所以为了从背景中分割道路并保留和提取更多的细节特征，本发明提出了一种基于带有Resnet-50主干网络的DeepLabv3+的高分辨率图像道路分割细节抓取方法，在语义分割细节提取领域有一定的通用性，并针对道路图像的细节抓取做了进一步的提升。

发明内容

为了克服传统的道路分割方法中道路的细节特征被当成噪声滤除的不足，本发明提出了一种基于语义分割的改进型deeplabv3+技术来尽可能多的保留道路图像分割中的细节特征。该技术引用了深度学习中的通用语义分割框架deeplabv3，并针对传统的人工图像分割以及采用MobileNetV2的分割所产生的细节特征滤除问题(如附图1和2所示)对DeepLabv3进行了进一步的改进。本发明所采用的技术方案是：

步骤1：使用无人机进行图像采集和数据收集；

步骤2：使用标注工具进行图像标注和处理；

步骤3：为了防止过拟合，采用水平翻转、垂直翻转和对角翻转这几种方法对图像进行增强；

步骤4：该步骤是该专利的核心内容，利用DCNN对无人机道路图像进行分割，将Deeplabv3+的思想运用到道路图像分割的细节提取上。在DCNN的框架里，改变了以往采用MobileNetV2主干网络进行分割，而是变为采用Resnet-50主干网络，该网络分成5部分，分别是：conv1，conv2_x，conv3_x，conv4_x，conv5_x；conv2_x到conv5_x经过了4个Block，每一个Block中分别有3，4，6，3个Bottleneck；每一个Bottleneck里面包含两种Block，第一种是Conv Block，一种是Identity Block。Conv Block总体的思路是先通过1×1的卷积对特征图像进行降维，做一次3×3的卷积操作，最后再通过1×1卷积恢复维度，后面跟着BN和ReLU层，Identity Block不经过卷积网络降维，直接将输入加到最后的1×1卷积输出上。经过后面的Block、平均池化和全连接，用softmax实现回归。

步骤5：使用统计性能矩阵在路面分割方案上进行测试得到最终的结果。

与现有技术相比，本发明的有益效果是：

(1)对于道路图像的分割，能够达到更高的分割查准率；

(2)能够保留更多的细节，减少了道路的细节特征被当成噪声滤除。

附图说明

图1为：道路路面分割方案图。

图2为：无人机拍摄的路面图像。

图3为：几种训练图像及其人工图像分割(a)使用无人机采集的原始道路图像(b)人工图像分割结果。

图4为：DeepLab V3+架构图。

图5为：基于树和建筑背景的分割结果(a)原始图像(b)Ground Truth(c)Resnet-50分割图像(d)MobileNetV2分割图像。

图6为：使用DeepLab V3+架构进行语义分割的一些结果。(a)原始图像(b)手动分割(c)使用Resnet-50分割图像(d)使用MobileNetV2分割图像。

具体实施方式

下面结合附图对本发明进一步说明。

图1随机选取了两张无人机图像被用作训练和测试图像。这些图像的大小为5472x3648像素，从离地面30米的高度拍摄。本次工作中使用的无人机型号为Mavic 2型。UAV的照相机有一个提供5472 3648图像分辨率的1CMOS传感器。数据收集在白天和自然气候进行。图2显示了Mavic 2无人机捕获的路面图像示例。图像包含一系列复杂的背景，包括建筑物、树木、车辆和阴影。

由于计算机资源的限制，所有无人机图片的大小调整为224x224像素。为了验证本发明模型的道路分割能力，在300张图像中选取180张作为训练数据集，其余图像作为测试数据集。通过对所有数据集进行随机洗牌，将训练数据集和验证数据集分离。为了防止过拟合，采用水平翻转、垂直翻转和对角翻转这几种方法对图像进行增强，这些方法可以在训练过程中改善网络性能。总共有300张标签图像作为这些变换方法的结果。

如图4所示，该模型使用了编码器和解码器结构，在提升分割效果的同时，也关注了边界的信息。该编码器使用Xception做为DCNN，框架里选取Resnet-50作为主干特征提取网络、使用ASPP，并将深度可分离卷积(depthwise deparable conv)应用在了ASPP和encoder模块中，使网络更快。并且编码器具体由五个标准的卷积模块开始，输出然后被并行地转移到四个Atrous卷积模块和一个平均的最大池化模块。使用预训练的主干模型构造了前5个正常卷积模块。而解码器结构采用一个简单的模块，用于回复目标边界细节。

本发明采用ResNet-50和MobileNetV2两个主干网络对DeepLabv3+架构进行评估，实现道路路面目标的分割和不相关背景的消除，从而降低背景噪声对道路路面图像的影响，尽可能多的抓取更多的细节特征。DeepLabv3+被广泛认为是一种先进的语义分割框架，在优化动量方面，我们采用的是随机梯度下降的方法。

通过定量评估来检验分割和抓取方法的性能。使用三个性能指标:像素查准率(PA)，平均相交于联合(mIoU)，和MeanF1得分。像素查准率(PA)表示正确识别和错误分类像素的数量，以及它们各自的百分比。PA计算公式为:PA＝(TP+TN)/(TP+FP+TN+FN)，其中TP、FP、TN、FN分别表示该类的真正、假正、真负、假负像素个数。这里，正例类别指的是道路像素，而负例类别指的是背景。

每个类的性能也通过对并集的平均交点(mIoU)来度量。一个类的借据定义为:IoU＝TP/(TP+FP+FN)，其中mIoU是通过对所有类借据平均计算的。另一个被选择的性能指标是MeanF1评分。这个度量是评估P和r的调和平均值的一个非常有效的度量。MeanF1是通过对所有类F1得分取平均来计算的。它使用以下等式计算:F1＝2x(查准率x查全率)/(查准率+查全率)。其中查准率和查全率由以下等式定义:查准率＝TP/(TP+FP)，查全率＝TP/(TP+FN)。

具体方法

(1)使用deeplabv3作为编码器。在编码器部分选取ResNet50作为提取特征的主干网络，用网络中的空洞卷积提取特征，获取多尺度的上下文信息，同时替代了下采样，使输出的feature map的output_stride＝16。这里的output_stride表示为输入图与输出图的比值。对于图像分类任务，通常output_stride＝32；对于语义分割，可以采用output_stride＝16or8提密集特征图，以及要修改最后的一个或者两个模块的滑动值(比如stride从2修改为1。当output_stride＝8时，最后两个模块的空洞值分别为rate＝2,4)。而ASPP模块使用了多个平行的空洞卷积，配合了图像级特征(即全局平均池化)。

(2)编码器输出的特征图的output_stride＝16，经过双线性上采样4倍得到F_a。F_a的output_stride＝4。取编码器的中间层(具有相同分辨率，output_stride＝4)，经过1x1卷积降通道(原因：要和F_a保持相同的channels，保持相同占比，利于模型学习)，此时输出的特征图记为F_b。然后将F_a和F_b做concat，在经过一个3x3卷积细化feature，最终再双线性上采样4倍得到预测的结果。output_stride＝16是查准率和速度的最好的平衡；当output_stride＝8时，需要付出额外的计算代价。

这样改进的好处主要是模型可以在复杂背景噪声下实现细节特征的抓取。

图5给出了无人机在树木和建筑物背景下拍摄的道路图像实例，以及对图像进行分割的结果。原始道路图像如图5(a)所示。同时，图5(b)-(d)分别给出了使用Resnet-50的DeepLab V3+和使用MobileNetV2主干网的DeepLab V3+人工分割的结果。如上图所示，背景类有一些错误的负片，这是由于建筑的存在。当标签为背景的项目被MobileNetV2预测为道路像素时，这种影响在图5(d)中很明显。图5(d)用黄色圆圈说明了假阴性。

图6给出了使用无人机采集的道路图像示例及图像分割结果。原始道路图像如图6(a)所示。同时，图6(b)-(d)分别给出了使用Resnet-50的DeepLab V3+和使用MobileNetV2主干网络的DeepLab V3+人工分割的结果。在这种情况下，从结果中识别出性能最好的分割方法，最好的方法在视觉上与手动分割相似。如图6所示，包括道路区域在内的像素出现了一些道路类误报。背景噪音，如建筑和阴影，造成了这种不确定性。总的来说，与MobileNetV2相比，使用带有Resnet-50的DeepLab V3+实现了更好的分割性能。

为了进一步验证分割的有效性，我们使用该方法对两种分割方法的结果进行了评价定量评估。对120幅道路图像进行测试，得到PA、mIoU和Mean F1的性能并进行平均。经过度量可以发现，使用Resnet-50的DeepLab v3+的PA要比使用MobileNetV2架构的DeepLabv3+的PA大得多。Resnet-50的PA为94.50％，而MobileNetV2的PA为93.11％。Resnet-50的mIoU和MeanF1同样产生了更准确的结果，准确率分别为89.79％和84.34％。同时，MobileNetV2的mIoU和MeanF1结果略低，分别为84.87％和74.63％。总体结果表明，带有Resnet-50的DeepLab v3+在PA、mIoU和MeanF1方面优于带有MobileNetV2架构的DeepLabv3+。这是因为在DeepLabV3+中，MobileNetV2编码器的尺寸很小，深度适中，并且有最小的残留结构。

本发明的主要贡献是实现了一个DeepLab V3+网络，用于对具有复杂背景噪声的无人机图像进行道路分割。该网络的先进设计能够处理复杂的噪声条件，在复杂的背景下实现细节特征的抓取。对比结果显示，采用Resnet-50主干网的DeepLab V3+优于采用Mobile NetV2主干网的DeepLab V3+。对于PA、mIoU和MeanF1，带有Resnet-50的DeepLab V3+分别比带有Mobile NetV2的DeepLab V3+高出1.39％、4.92％和9.71％。这项发明是研究发展自动路面分析和监测系统的第一步。未来的工作将集中在从分割图像中自动检测和识别道路严重程度，如裂缝和坑洼，以便自动进行路面病害分析。

以上所述，仅为本发明的具体实施方式，本说明中所公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征或/和步骤外，均可以任何方式组合。

Claims

1.一种基于语义分割的道路图像细节抓取方法，其特征在于，包括以下步骤：

步骤1：使用无人机进行图像采集和数据收集；

步骤2：使用标注工具进行图像标注和处理；

步骤4：该步骤是该专利的核心内容，利用DCNN对无人机道路图像进行分割，将Deeplabv3+的思想运用到道路图像分割的细节提取上，在DCNN的框架里，改变了以往采用MobileNetV2主干网络进行分割，而是变为采用Resnet-50主干网络，该网络分成5部分，分别是：conv1，conv2_x，conv3_x，conv4_x，conv5_x；conv2_x到conv5_x经过了4个Block，每一个Block中分别有3，4，6，3个Bottleneck；每一个Bottleneck里面包含两种Block，第一种是Conv Block，一种是Identity Block。Conv Block总体的思路是先通过1×1的卷积对特征图像进行降维，做一次3×3的卷积操作，最后再通过1×1卷积恢复维度，后面跟着BN和ReLU层，Identity Block不经过卷积网络降维，直接将输入加到最后的1×1卷积输出上。经过后面的Block、平均池化和全连接，用softmax实现回归。

2.如权利要求1所述方法，其特征在于，步骤3中的图像增强为水平翻转、垂直翻转和对角翻转方法。

3.如权利要求1所述方法，其特征在于，步骤4中的DCNN框架里采用Resnet-50作为主干特征提取网络的方法。

4.如权利要求1所述方法，其特征在于，步骤5中的性能测评方法采用定量评估来检验分割和抓取方法的性能。使用三个性能指标:像素查准率(PA)，平均相交于联合(mIoU)，和MeanF1得分。