CN113255678A

CN113255678A - 一种基于语义分割的道路裂缝自动识别方法

Info

Publication number: CN113255678A
Application number: CN202110673870.5A
Authority: CN
Inventors: 曾健; 苏建坤; 袁洋宇; 罗毅
Original assignee: YUNNAN AEROSPACE ENGINEERING GEOPHYSICAL SURVEY INSPECTION CO LTD
Current assignee: YUNNAN AEROSPACE ENGINEERING GEOPHYSICAL SURVEY INSPECTION CO LTD
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-08-13

Abstract

本发明提供一种基于语义分割的道路裂缝自动识别方法，包括以下步骤：步骤1：以Deeplab‑v3作为基础模型构建语义分割网络；其中，所述语义分割网络的输入为RGB‑D道路图像，输出为语义分类得分图；步骤2：训练步骤1构建的语义分割网络；步骤3：输入RGB‑D形式的待测试图像到步骤2训练的语义分割网络，以输出的语义分类得分图中最大得分类别作为各像素点类别，得到语义分割结果。本发明在网络结构并行设计的基础上，通过计算深度信息与RGB信息的区域性特征值与相似性程度的度量，辅助提升深度与RGB信息的融合效果。

Description

一种基于语义分割的道路裂缝自动识别方法

技术领域

本发明属于机器视觉人工智能技术领域，具体涉及一种基于语义分割的道路裂缝自动识别方法。

背景技术

道路，是最重要的基础设施之一，作为连接各地的纽带，道路在促进经济文化交流，团结人民群众，加快城市化、现代化进程等方面，都具有无可替代的作用。目前，我国各级道路在促进城乡一体化、提供就业、降低原材料成本，合理分配资源等方面都发挥了重要的作用。截至2020年，我国的公路总里程数已经超过500万公里，其中，高速公路总里程已经突破15万公里。

如此庞大的公路网带给我们无数便利的同时，也带给我们一个巨大的挑战——公路的养护与管理。由于道路的自然特性，无可避免地会损坏，因此需要进行养护。裂缝、坑槽等道路病害出现的频率高，对过往车辆会造成安全隐患，因此，对道路养护的首要任务是：及时发现道路病害。对海量的公路进行人工筛查是一种费事费力的行为，因此，需要利用机器视觉技术，实现图片自动识别裂缝的算法。

早期的识别裂缝的算法一般采用数字图像处理技术实现，如阈值分割、滤波算法、形态学操作、小波算法、分形理论等。因为道路路面的情况过于复杂，裂缝形态各异，采用传统的数字图像处理方法往往准确率不够，难以取得理想的裂缝识别水平。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于语义分割的道路裂缝自动识别方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于语义分割的道路裂缝自动识别方法，包括以下步骤：

步骤1：以Deeplab-v3作为基础模型构建语义分割网络；其中，所述语义分割网络的输入为RGB-D道路图像，输出为语义分类得分图；

步骤1.1：将Resnet101作为特征提取模块的骨干网络，构建并行的RGB分支网络与深度分支网络；其中，RGB分支网络与深度分支网络的网络结构保持一致；

步骤1.2：构建空间相似度模块：

步骤1.2.1：分别提取RGB分支网络与深度分支网络中的b个子模块的输出特征图，构建b组成对关系f_i：

f_i＝{f_i,rgb,f_i,dep}

其中：i∈{1,2,...,b}；

b表示选取的子模块数；

f_i,rgb表示RGB分支网络中第i个子模块的输出特征图；

f_i,dep表示深度分支网络中第i个子模块的输出特征图；

步骤1.2.2：对于每组成对关系f_i，将其RGB分支网络的输出特征图f_i,rgb转变为对应的特征区域G_i,rgb，将其深度分支网络的输出特征图f_i,dep转变为对应的特征区域G_i,dep，从而将每组成对关系f_i转变为对应的成对特征区域G_i，表达式如下：

G_i＝{G_i,rgb,G_i,dep}＝{p(f_i,rgb),p(f_i,dep)}

其中：

函数p(f_i,rgb)表示基于原特征尺度下对f_i,rgb采样的全局池化操作；

函数p(f_i,dep)表示基于原特征尺度下对f_i,dep采样的全局池化操作；

步骤1.2.3：计算成对特征区域G_i对应的自相关空间特征D_i：

D_i＝{D_i,rgb,D_i,dep}＝{d(G_i,rgb),d(G_i,dep)}

d(G_i,rgb)＝{dst(G_i,rgb,m,G_i,rgb,n)}

d(G_i,dep)＝{dst(G_i,dep,m,G_i,dep,n)}

其中：

D_i,rgb等于d(G_i,rgb)，表示G_i,rgb的自相关空间特征；d(G_i,rgb)为函数，表示计算G_i,rgb的自相关空间特征；

D_i,dep等于d(G_i,dep)，表示G_i,dep的自相关空间特征；d(G_i,dep)为函数，表示计算G_i,dep的自相关空间特征；

G_i,rgb,m和G_i,rgb,n表示G_i,rgb中任意两个区域m和n；

dst(G_i,rgb,m,G_i,rgb,n)表示计算区域G_i,rgb,m和区域G_i,rgb,n之间距离；

G_i,dep,m和G_i,dep,n表示G_i,dep中任意两个区域m和n；

dst(G_i,dep,m,G_i,dep,n)表示计算区域G_i,dep,m和G_i,dep,n之间距离；

步骤1.2.4：计算每对自相关空间特征D_i＝{D_i,rgb,D_i,dep}之间的距离，并生成空间关系相似度损失L_s：

步骤1.3：构建解码器模块，RGB分支网络与深度分支网络输出的最后一组特征图f_b＝{f_b,rgb,f_b,dep}经过特征加权模块进行特征拼接，得到特征图f_out；拼接后的特征图f_out再经过多尺度空洞卷积模块生成特征图f_aspp，f_aspp与特征图f_out进行通道上的叠加，最终得到语义分类得分图；

具体方法为：

步骤1.3.1：对于第b组成对关系f_b＝{f_b,rgb,f_b,dep}，将f_b,rgb,f_b,dep分别输入全局平均池化层，然后经过两个通道同比压缩、扩展的全连接层，并经激活函数后输出特征f'_b,rgb和特征f'_b,dep；

步骤1.3.2：将步骤1.3.1输出的特征f'_b,rgb和特征f'_b,dep相加，得到特征拼接后的特征图f_out；

步骤1.3.3：将步骤1.3.2拼接后的特征图f_out输入多尺度空洞卷积模块，并行通过4个不同尺度的空洞卷积层和1个均值池化层，将这5类输出在通道上叠加并以1×1的卷积进行压缩，输出特征图f_aspp；

步骤1.3.4：将特征图f_out和特征图f_aspp在通道上叠加后，输入3×3卷积层与1×1卷积层，最终输出语义分类得分图；

步骤1.4：构建损失函数模块，以交叉熵损失作为损失函数，拟合语义分类得分图与真实的标签，并以随机梯度下降法作为优化方法；从而构建得到语义分割网络；

步骤2：训练步骤1构建的语义分割网络；

步骤3：输入RGB-D形式的待测试图像到步骤2训练的语义分割网络，以输出的语义分类得分图中最大得分类别作为各像素点类别，得到语义分割结果。

优选的，步骤2具体为：

采用以下方法，对步骤1构建的语义分割网络进行训练：

使用随机翻转、剪裁、gamma值变换方法进行数据增强；模型中的RGB分支网络与深度分支网络对应的主干网络均加载ImageNet的预训练参数；并使用反向传播算法训练该模型，得到训练的语义分割网络。

本发明提供的一种基于语义分割的道路裂缝自动识别方法具有以下优点：

本发明是基于RGB-D传感器的图像融合描述子方法，针对室内场景的RGB-D图像进行语义分割，通过深度学习网络有效融合RGB信息与Depth信息，在骨干网络中引入空间关系相似度。本发明是在网络结构并行设计的基础上，通过计算深度信息与RGB信息的区域性特征值与相似性程度的度量，辅助提升深度与RGB信息的融合效果。本发明仅依赖于能够提供RGB数据和深度数据的传感器设备，方法简便，是基于Kinect、Xtion等体感设备应用中图像匹配的有效方法。

附图说明

图1为本发明提供的一种基于语义分割的道路裂缝自动识别方法的流程图；

图2为本发明提供的语义分割示意图；

图3为本发明提供的Deeplabv3+的主干网络结构图；

图4为本发明提供的空间注意力机制图；

图5为本发明提供的SE-Network压缩激活块示意图；

图6为本发明提供的通道注意力模块结构图；

图7为本发明提供的裂缝语义分割示例图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

随着计算机工艺的进步与人工智能技术的发展，机器学习和神经网络技术越来越多地被用在机器视觉领域。其中，卷积神经网络是图像识别领域最重要的神经网络技术。一般的神经网络每个神经元之间高度相关，而在图像识别领域，每个像素的相关性和像素之间的距离有很大的关系，一般是相近的像素之间的相似度更高，因此，普通的神经网络的处理方式不够精确。卷积神经网络通过模拟人脑皮层神经元识别图像的方式，通过卷积，消除大量类似的不重要的连接，让每一个神经元只接受来自前一层的一小部分输入，即每个神经元只处理图像中的一个特定部分，让图像识别取得更好的效果。本发明是使用基于卷积神经网络的语义分割技术，实现道路裂缝的自动识别。

参考图1，本发明提供一种基于语义分割的道路裂缝自动识别方法，包括以下步骤：

步骤1.2：构建空间相似度模块：

f_i＝{f_i,rgb,f_i,dep}

其中：i∈{1,2,...,b}；

b表示选取的子模块数；

f_i,rgb表示RGB分支网络中第i个子模块的输出特征图；

f_i,dep表示深度分支网络中第i个子模块的输出特征图；

G_i＝{G_i,rgb,G_i,dep}＝{p(f_i,rgb),p(f_i,dep)}

其中：

步骤1.2.3：计算成对特征区域G_i对应的自相关空间特征D_i：

D_i＝{D_i,rgb,D_i,dep}＝{d(G_i,rgb),d(G_i,dep)}

d(G_i,rgb)＝{dst(G_i,rgb,m,G_i,rgb,n)}

d(G_i,dep)＝{dst(G_i,dep,m,G_i,dep,n)}

其中：

G_i,rgb,m和G_i,rgb,n表示G_i,rgb中任意两个区域m和n；

G_i,dep,m和G_i,dep,n表示G_i,dep中任意两个区域m和n；

dst(G_i,dep,m,G_i,dep,n)表示计算区域G_i,dep,m和G_i,dep,n之间距离；

具体方法为：

步骤2：训练步骤1构建的语义分割网络；

步骤2具体为：

采用以下方法，对步骤1构建的语义分割网络进行训练：

本发明提出了一种新的用于语义分割基于空间注意力的CNN体系结构，该体系将信息显式地连接为一个单独的处理分支(即信息流)，该分支并行处理与经典流的信息。这种架构的关键是连接两种流的中间层的新型结构，用户提取更深层更高纬度的空间特征。具体来说，本发明使用经典流中的较高级别的激活来控制形状流中的较低级别的激活，从而有效地消除噪声并帮助形状流仅专注于处理相关的边界相关信息。这使本发明能够为图像流使用非常浅的体系结构，以图像级分辨率运行。本发明的实验表明，这导致了一种高效的体系结构，该体系结构围绕对象边界产生了更清晰的预测，并显著提高了对较小对象的性能。

图像语义分割的目标是寻求一种模型，使其可以自动的将输入图像中的每一个像素点都预测标注出一个语义标签。也就是说，图像中所包含的每个类别都可以全部从原图中标注出来。如图2所示，原图是一张相机自动拍摄获取的道路裂缝图像，通过模型计算，可以得到语义分割效果图。其中，白色标签代表裂缝区域，黑色部分代表非裂缝区域。

语义分割实际是对像素进行分类，离不开卷积，池层等基本的特征提取操作，本发明采用深度卷积神经网络(CNN)提取图像特征。从大小为W×H×3的输入彩色图像开始，由C通道滤镜组成的卷积层扫描输入图像，并输出W′×H′×C特征图，它将作为下一个卷积的输入层1。3D特征图的每个2D切片都会对过滤器通道产生的空间视觉响应进行编码，其中过滤器充当模式检测器-低层过滤器检测诸如边缘和拐角的低级视觉提示，而高层过滤器检测高水平的视觉提示，诸如部分和对象之类的语义模式。通过堆叠图层，CNN通过视觉抽象层次提取图像特征。因此，CNN图像特征本质上是空间的，逐通道的和多层的。然而，大多数现有的基于注意力的图像字幕模型仅考虑了空间特征，即注意力模型仅通过空间注意权重将句子上下文调制为最后的卷积层特征图。

(1)DeepLabv3+网络结构

本发明采用DeepLabv3+模型实现语义分割。

整体结构是Deeplabv3+网络结构模型，下面主要从Encoder-Decoder两个角度进行分析：

(1)Encoder即是DeepLabv3网络结构，用于提取丰富的图像特征，由于空间金字塔池化模块的引入，能够很好的融合不同粗细多个尺度的图像特征；

(2)Decoder部分则是实现从图像特征到分割结果的映射，其原理是先把Encoder的结果上采样4倍，然后与ASSP输出的多层次融合特征拼接在一起，这样就实现了从细粒度到粗粒度分割结果的融合。

主干网络。图中DCNN部分即为本发明提供的主干网络Xception，在常规的Xception网络上进行了几处改进，如图3所示：

(2)引入混合注意力机制的Deeplabv3+改进算法

注意力机制的本质就是定位到感兴趣的信息，抑制无用信息，结果通常都是以概率图或者概率特征向量的形式展示。本发明将空间注意力机制和通道注意力机制混合，得到混合注意力机制，并将混合注意力机制应用在Deeplabv3+网络中。

空间注意力：使用“硬”池选择最可能的注意区域，或者使用“软”池对空间特征和注意权值进行平均。对于采用“软”注意合并图像区域特征。为了进一步完善空间注意力，应用了堆叠的空间注意力模型，其中第二个注意力是基于由第一个注意力模型调制的注意力特征图。与传统方案不同的是，本发明对CNN的多层应用了多层关注。上述空间模型的一个共同缺陷是，通常会在注意力特征图上求助于加权池。因此，空间信息将不可避免地丢失。更严重的是，注意力仅应用于最后一个转换层，在该层中感受野的大小会很大，并且每个感受野区域之间的差异会非常有限，从而导致空间上的注意力微不足道。

多层注意：根据CNN架构的性质，对应于不同特征图层的各个字段的大小是不同的。为了克服最后一个卷积层关注中较大的各自场大小的弱点。与传统方案相比，本发明中，SCA-CNN还结合了多层的通道注意即将两种注意力机制混合。

1)空间注意力机制

空间注意力机制的具体结构如图4所示。高层特征首先用1×1卷积操作进行降维，然后使用Sigmoid公式进行标准化，即将每个像素的值约束在0-1之间，得到各个类别的概率图。具体做法是，通过计算出熵概率图，然后再将低层特征与熵概率图逐像素相乘，以对低层特征进行权重标定。然后，高层特征与加权后的低层特征进行按深度连接操作以向前传递进行下一步的解码操作。空间注意力机制的工作过程可由式1所示。

其中，F^SA代表空间注意力机制的输出，E[.]代表计算的熵概率图，f^upper和f^lower分别代表输入空间注意力机制的高、低层特征。

代表卷积操作，w_1×1代表1×1的卷积核，⊙代表按像素相乘，Con代表按深度连接。通过该公式可以看出，空间注意力机制的功能在于：在高低层特征融合之前依据高层特征的熵概率图对低层特征进行选择性增强。

如上图所示，给定初始特征图V，本发明采用逐通道注意Φ_c获得逐通道注意权重β。通过β和V的线性组合，获得一个通道加权特征图。然后，将基于通道的加权特征图馈入空间关注模型Φ_s，获得空间关注权重α。在获得两个注意力权重α和β之后，输入V，β，α来调制函数f以计算调制特征图X。所有过程总结如下：

β＝Φ_c(h_t-1,V) (2)

α＝Φ_s(h_t-1,f_c(V,β)) (3)

X＝f(V,α,β) (4)

其中f_c(·)是特征图通道和相应通道权重的通道方向乘法。

2)通道注意力机制

对于输入二维图像的CNN来说，一个维度是图像的尺度空间，即长宽，另一个维度就是通道。本发明网络模型从特征提取的角度考虑，为了区分不同通道特征图中特征的表达能力，引入了一个基于通道的注意力机制，通过建模各个特征通道的重要程度，然后针对不同的任务增强或者抑制不同的通道，其原理图如图5所示。其主要特点是：在正常的卷积操作后分出了一个旁路分支，首先进行Squeeze操作(即图中Fsq)，将空间维度进行特征压缩，相当于具有全局感受野的池化操作，特征通道数依然不变，而每个通道的二维特征图则变为一个实数。接下来是Excitation操作(即图中的Fex)，通过一个可学习的参数W显式地建模了特征通道间的相关性。本发明使用了一个2层bottleneck结构(先降维再升维)的全连接层后接Sigmoid函数实现。在获得了每一个特征通道的归一化权重之后，就将该权重应用于原来的每个特征通道。

对于SE类型，给定初始特征图V，首先利用空间注意力Φ_s来获得空间注意力权重α。基于α，线性函数f_s(·)和基于信道的注意力模型Φ_c，根据CS类型的公式计算调制特征X：

α＝Φ_s(h_t-1,V) (5)

β＝Φ_c(h_t-1,f_s(V,α)) (6)

X＝f(V,α,β) (7)

其中：f_s(·)是每个特征图通道的区域及其对应区域关注权重的逐元素乘法。

本发明中，通道注意力机制优点为：在增加少量计算量的情况下，能够获得较为明显的性能提升。

SE通道注意力模块则采用如图6所示的基本结构，Squeeze操作选取的是基本的全局池化操作。全局平均池化因为是当前通道特征的平均值，能够更好的衡量某一通道特征的重要性，而全局最大池化或者最小池化操作则容易受到通道特征中极值的影响，可能对数据噪声的鲁棒性更差，容易导致模型过拟合。本发明经验证，采用全局最大池化和全局最小池化后，模型分割准确率反而有所下降，因此，本发明采用全局平均池化。Excitation操作则采用FC(1024×256)-ReLU-FC(256×1024)-Sigmoid的基本结构，这种简单的先降维后升维的操作能够依靠两个全连接层之间的ReLU过滤掉部分数据噪声，有益于挖掘更准确的通道重要性。

(3)本发明的实验验证

在CRACK500、AEL、CFD等几个混合道路裂缝数据集的训练集上训练DeepLabv3+神经网络，并在验证集上进行验证分割的效果。

实验的仿真环境：系统为基于Linux4.15.0-112-generic内核的Ubuntu 16.04，构件神经网络所采用的软件为TensorFlow 1.12，硬件环境如下表所示

表1硬件环境

在实验数据集的训练集上进行训练后，使用验证集进行验证，运行的结果为：平均mIoU为0.7660，平均像素准确率为0.9819。

对图像进行裂缝语义分割的示例图，如图7所示。

本发明的有益效果：

1)采用神经网络用于道路裂缝的自动识别，使检测效率大大增加。

2)采用语义分割神经网络，较大程度地提高了裂缝识别的精度。

3)引入混合注意力机制的DeepLabv3+改进算法，在减少运算量的同时，使模型运行的效果得到了提升。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于语义分割的道路裂缝自动识别方法，其特征在于，包括以下步骤：

步骤1.2：构建空间相似度模块：

f_i＝{f_i,rgb,f_i,dep}

其中：i∈{1,2,...,b}；

b表示选取的子模块数；

f_i,rgb表示RGB分支网络中第i个子模块的输出特征图；

f_i,dep表示深度分支网络中第i个子模块的输出特征图；

G_i＝{G_i,rgb,G_i,dep}＝{p(f_i,rgb),p(f_i,dep)}

其中：

步骤1.2.3：计算成对特征区域G_i对应的自相关空间特征D_i：

D_i＝{D_i,rgb,D_i,dep}＝{d(G_i,rgb),d(G_i,dep)}

d(G_i,rgb)＝{dst(G_i,rgb,m,G_i,rgb,n)}

d(G_i,dep)＝{dst(G_i,dep,m,G_i,dep,n)}

其中：

G_i,rgb,m和G_i,rgb,n表示G_i,rgb中任意两个区域m和n；

G_i,dep,m和G_i,dep,n表示G_i,dep中任意两个区域m和n；

dst(G_i,dep,m,G_i,dep,n)表示计算区域G_i,dep,m和G_i,dep,n之间距离；

具体方法为：

步骤1.3.1：对于第b组成对关系f_b＝{f_b,rgb,f_b,dep}，将f_b,rgb,f_b,dep分别输入全局平均池化层，然后经过两个通道同比压缩、扩展的全连接层，并经激活函数后输出特征f′_b,rgb和特征f′_b,dep；

步骤1.3.2：将步骤1.3.1输出的特征f′_b,rgb和特征f′_b,dep相加，得到特征拼接后的特征图f_out；

步骤2：训练步骤1构建的语义分割网络；

2.根据权利要求1所述的一种基于语义分割的道路裂缝自动识别方法，其特征在于，步骤2具体为：

采用以下方法，对步骤1构建的语义分割网络进行训练：