CN116563691A

CN116563691A - 一种基于TransUnet模型的道路病害检测方法

Info

Publication number: CN116563691A
Application number: CN202310503910.0A
Authority: CN
Inventors: 程鑫; 牛亚妮; 周经美; 周洲; 刘霈源; 刘伟; 高建金; 曹轩; 武毓; 李雨祺; 邸林杰; 程灿
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-08

Abstract

本发明公开了一种基于TransUnet模型的道路病害检测方法，涉及深度学习技术领域，该方法包括以下步骤：获取待检测道路图像；将待检测道路图像输入至TransUnet模型中，输出分割图像；根据分割图像确定道路病害区域。本发明的TransUnet模型以Unet网络为框架，融合了CNN层以及多个transformer层。在encoder结构上运用了transformer的encoder结构，在上采样过程加入CNN从而获取较多的局部信息，能够在较小数据集中表现出较优的表现，在缺乏数据集的情况下本发明方法就具有较大的优势，且本发明对较小裂缝的识别具有较好的效果。

Description

一种基于TransUnet模型的道路病害检测方法

技术领域

本发明涉及深度学习技术领域，特别是涉及一种基于TransUnet模型的道路病害检测方法。

背景技术

道路网络建设和维护仍然需要大量的资金和人力投入。因此，如何高效地检测道路裂缝，并及时进行修补和维护，成为当前急需解决的问题之一。

针对这一问题，国内学者在道路裂缝检测方面做出了大量的研究工作。目前我国国内路面裂缝检测主要包括两大类：人工检测与基于新技术的多功能道路检测车自动化检测。近年来，基于机器视觉的自动检测系统由于其检测精度高、速度快等特点，在很多领域得到应用。Zhang等人应用稀疏处理算法来提取路面病害区域候选点，然后将提取的候选点与改进的最小成本生成树算法相结合，对路面病害进行检测。基于激光扫描的路面病害检测方法具有检测精度高、速度快的优点，但是由于激光设备的价格昂贵，所以没有得到大范围应用。Oliveira等人将均值和标准差用于无监督学习从而对带有裂缝的图像与没有裂缝的图像进行区分。Cord等人通过线性滤波器对图像纹理特征进行描述，并基于AdaBoost的监督学习算法区分路面病害与非病害特征。Shi等人提出了一种基于结构随机森林的算法对裂缝的特征进行描述。这些算法的检测效果较传统算法有了很大的提升，但是其结果非常依赖于所提取的特征，由于公路路面条件复杂，所以其检测精度也会受到影响。曹建农等人提出了用MeanShift实现路面裂缝损伤自动识别与特征测量，这种方法可以对裂缝进行高效的识别与测量，但该方法计算复杂，总体来看识别效率不够高且只能识别道路裂缝损伤不能对大部分的道路路面病害做出检测。用途单一不够全面，不适合大范围的应用。沈照庆等人提出了基于支持向量机的路面损伤识别技术，该方法能够降低噪声对图像的干扰，压缩数据量，可以提高识别的精度和准确性。但是这种技术只能够完成路面病害识别检测，达不到完成智慧高速建设的需求。上述检测方法逐渐不能满足日益增长的检测工作量的需要。为了更好的满足公路发展的需要，准确、快速地检测公路路面病害，需要进一步地对检测方法进行研究。

深度学习在计算机视觉领域取得了令人瞩目的成果，并在许多应用领域被证明是非常有效的。相比上述基于传统机器学习的公路路面病害检测算法，基于深度学习的公路路面病害检测算法可以更好地实现特征学习与特征分类。Cha等人应用滑动窗口将图像分割成块，然后应用卷积神经网络对裂缝病害特征进行提取并对含有裂缝的图像进行分类。LZhang等人基于图像局部块信息，利用卷积神经网络(Convolutional Neural Networks，CNN)判断单块图像是否属于裂缝。李楠基于深度学习框架Caffe，将LeNet-5网络模型应用于公路路面病害图像分类当中，并取得了很好的分类效果。黄建平等人采用基于二维图像和深度信息的路面检测，能一定程度上解决裂缝判别中的误判和漏检的问题，提高了查全率且实现了自动提取功能，但是该技术还并不完善，在特殊的情况下仍然会存在漏检的情况发生。且只能完成对道路路面病害中单条裂缝和交叉裂缝情况的提取，而实际中则存在许多混合型裂缝，这将会对检测精度造成影响。徐志刚等人提出了基于多特征融合的图像目标识别技术。这种技术提出了先分类，后识别的处理流程，使算法的应用有更好针对性提高了路面病害图像的处理精度。但仍然不能完成自动决策，同时因为算法的复杂度较高，无法进行实时线上检测，这将存在着一些弊端。上述算法对公路路面病害具有较高的识别精度，但是在进行检测时无法实现精准定位。

目前大多技术只针对单一路面或病害类型较少的路面，或者道路病害检测精度不高，例如使用基于U-Net的道路病害检测算法使用U-Net最终预测结果来计算分割损失，网络往往难以收敛，分割结果不理想；而基于DeepCrack病害检测方法缺点，数据集少且针对的道路场景少；基于全卷积网络的FCN病害检测方法缺点，只针对混凝土道路且实验场景只有四个。部分技术需要高精度检测设备，导致病害检测成本升高。

发明内容

本发明实施例提供了一种基于TransUnet模型的道路病害检测方法，解决了现有技术存在的只针对单一路面或病害类型较少的路面，或者道路病害检测精度不高的问题。

本发明提供一种基于TransUnet模型的道路病害检测方法，包括以下步骤：

获取待检测道路图像；

将待检测道路图像输入至TransUnet模型中，输出分割图像；

根据分割图像确定道路病害区域；

将待检测道路图像输入至TransUnet模型中，输出分割图像，包括：

基于CNN层对待检测道路图像进行编码处理得到多个向量，并对多个向量进行特征提取，得到多个特征图与隐藏特征；

基于线性投影将多个隐藏特征进行映射；

基于多个transformer层对映射后的多个隐藏特征进行重塑，得到编码图；

基于多个unet层的多层解码器对编码图进行上采样，并与多个特征图进行融合，得到分割图像。

优选的，将待检测道路图像进行切分，需要对待检测道路图像进行预处理，所述预处理包括图像调整、数据增强以及图像归一化。

优选的，所述数据增强包括旋转、翻转和剪裁。

优选的，根据多个待检测道路图像构建数据集，将数据集分为训练集和测试集，通过训练集对TransUnet模型进行训练，通过测试集对训练后的TransUnet模型进行测试。

优选的，基于CNN层对待检测道路图像进行编码处理得到多个向量，包括以下步骤：

对待检测道路图像进行切分，得到多个Patch；

对每个Patch进行Emdedding操作，得到Patch Embedding；

通过Patch Embedding对每个Patch切分，得到多个块；

将多个块进行编码，得到多个向量。

优选的，通过CNN层的多个卷积层对多个向量进行下采样，得到多个特征图和隐藏特征。

优选的，所述多层解码器均为上采样块，每个所述上采样块均包括一个2×上采样算子、一个3×3卷积层和一个ReLU层。

优选的，多个上采样块依次级联。

优选的，基于多个unet层的多层解码器对编码图进行上采样时，多个特征图与对应的上采样块跳跃连接。

优选的，基于多个unet层的多层解码器对编码图进行上采样前，需对编码图进行卷积处理，将向量维度转换为通道数。

与现有技术相比，本发明的有益效果是：

本发明的TransUnet模型以Unet网络为框架，融合了CNN层以及多个transformer层。在encoder结构上运用了transformer的encoder结构，在上采样过程加入CNN从而获取较多的局部信息，能够在较小数据集中表现出较优的表现，在缺乏数据集的情况下本发明方法就具有较大的优势，且本发明对较小裂缝的识别具有较好的效果。同时针对多种道路场景，对大多数病害能够准确识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于TransUnet模型的道路病害检测方法的流程图；

图2为本发明的TransUnet模型的结构示意图；

图3(a)为本实施例的第一原始图像；

图3(b)为本发明在第一原始图像上采用PSPNet模型的分割结果图；

图3(c)为本发明在第一原始图像上采用Deeplabv3模型的分割结果图；

图3(d)为本发明在第一原始图像上采用Unet模型的分割结果图；

图3(e)为本发明在第一原始图像上采用TransUnet模型的分割结果图；

图3(f)为第一原始图像的真值图；

图4(a)为本实施例的第二原始图像；

图4(b)为本发明在第二原始图像上采用PSPNet模型的分割结果图；

图4(c)为本发明在第二原始图像上采用Deeplabv3模型的分割结果图；

图4(d)为本发明在第二原始图像上采用Unet模型的分割结果图；

图4(e)为本发明在第二原始图像上采用TransUnet模型的分割结果图；

图4(f)为第一原始图像的真值图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图3，本发明提供了一种基于TransUnet模型的道路病害检测方法，使用win10或win11平台，RTX3060，6G，pytorch网络框架，将TransUnet应用到道路病害识别当中，使用Transformer中的自注意力机制获取较多的全局信息，并在上采样过程加入CNN从而获取较多的局部信息。具体包括以下步骤：

第一步：获取待检测道路图像。

使用基于视觉的相机进行道路图像采集，将待检测道路图像进行预处理。首先根据模型输入的大小将采集到的多个图像的进行调整，并构建数据集。将数据集进行数据增强，即进行旋转、翻转、裁剪等操作从而增加数据集的多样性，提高模型的鲁棒性。模型输入图像为RGB图像，包含道路丰富的颜色信息与空间信息，为了更好地进行梯度更新与训练需要将数据集的图像进行归一化。将数据集分为训练集和测试集，将预处理后的训练集送入搭建好的神经网络中，通过训练得到一组权重，并通过测试集对其进行验证。将训练好的权重保存。对使用已训练好的网络权重对新的待检测道路图像进行预测，最终输出道路病害检测图像。

第二步：将待检测道路图像输入至TransUnet模型中，输出分割图像。

本发明的TransUnet模型以Unet网络为框架，融合了CNN层以及多个transformer层。在encoder结构上运用了transformer的encoder结构，这样可以更好地提取特征。CNN因为感受野的缘故，始终不能很好地利用全局信息，或者说需要很多层才能得到抽象的全局信息，但是CNN对局部细节信息可以很好地提取。Transformer网络由于具有self-attention结构，所以对全局信息的提取有着天然的优势，但这也导致Transformer对局部信息的提取不是很准确。

将编码的特征表示其中H×W为图像分辨率，D表示空间维数，上采样到预测密集输出的完整分辨率。为了恢复空间顺序，首先要将编码特征的大小从/>(其中P×P表示每个patch的大小，/>为图像的patch个数)重塑为/>使用1×1的卷积将重构后的特征通道大小减小到类数，然后将特征映射直接双线性上采样到全分辨率H×W，预测最终分割结果。因为/>通常比原始图像的分辨率H×W要小得多，因此不可避免地会导致低级细节的丢失。为了弥补这种信息损失，TransUNet采用了CNN-Transformer混合架构作为编码器，以及级联上采样器，以实现精确定位。

在待检测道路图像输入TransUnet模型后，基于CNN层将图像进行切片处理得到多个Patch，对每个Patch进行Emdedding操作，得到Patch Embedding。Patch Embedding将图像切片成块，并将每个块转换为固定长度的向量表示。具体来说，Patch Embedding通过对每个块进行卷积和池化等操作，提取出块的特征信息，并将特征信息编码成固定长度的向量表示。

这些向量表示将作为Encoder的输入，通过CNN层的多个卷积层对这些向量进行卷积和池化等操作，提取出各种特征信息。最终，Encoder将提取出的特征信息转换成多个特征图，多个特征图会与相应级别的解码器进行跳跃连接，将特征图与相应解码器输出的解码图进行拼接，生成完整的分割结果。经过CNN部分输入图像会进行降维，使得后续操作计算速度更快，占用内存更小。

在Encoder的过程中，每个卷积层和池化层都会对输入的多个向量进行特征提取和抽象，将输入图像中的语义信息逐渐转换为更高级别的语义特征，得到多个隐藏特征，并保存在隐藏层中。这些高级语义特征包含了输入图像中的重要信息，如形状、纹理、物体部位等，可以帮助模型更好地理解输入图像的语义信息，从而实现更准确的像素级别分类和分割，提高分割的准确性和稳定性。线性投影Linear Projection将每个隐藏特征映射到一个更高维的向量空间，，便于传入transformer中处理，并在后续的卷积和池化等操作中进行处理，提取出更加抽象和高层次的特征信息。

基于多个transformer层对映射后的多个隐藏特征进行重塑，得到编码图。在本实施例中，编码图的大小为表明此时的高度与宽度缩小了16倍。在TransUnet中编码图会被用作Decoder的输入，通过上采样和反卷积等操作来恢复图像的原始尺寸。Decoder在生成分割掩码时，需要使用Encoder中提取的高级语义特征，通过反卷积和上采样的过程恢复图像细节，从而生成像素级别的分割结果。

基于多个unet层的多层解码器对编码图进行上采样，得到分割图像。在上采样前，需对编码图进行卷积处理，将向量维度转换为通道数。

本发明引入了一个级联上采样器(CUP)，它由多个上采样步骤来解码编码图的隐藏特征，以输出最终的分割掩码。将隐藏特征重构为/>的形状，通过级联多个上采样块实例化CUP，得到从/>到H×W的全分辨率，每个上采样块依次由一个2×上采样算子、一个3×3卷积层和一个ReLU层组成。

第三步：分割图像中包括道路病害的位置信息，因此可根据分割图像确定道路病害的区域。

本发明将TransUnet应用到道路病害识别当中，使用Transformer中的自注意力机制获取较多的全局信息，并在上采样过程加入CNN从而获取较多的局部信息。

实施例

本发明在自建数据集上完成PSPNet、Deeplabv3、UNet及本发明方法的模型训练，并在Crack500数据集上完成测试。PSPNet、Deeplabv3、UNet分别采用ResNet50、VGG、Xception作为主干网络完成特征提取。上述语义分割算法在CRACK500数据集上性能指标对比如表1所示，结果显示本发明方法的precision、Recall和F1-score值均高于其他模型，证明了本文方法的有效性。

表1不同算法性能对比

图3和图4为不同模型在Crack500数据集上对比效果图。从图像可以看出PSPNet模型图像分割结果较差且所得裂缝结果不完整，Deeplabv3和Unet优于PSPNet但对细小复杂裂缝分割性能较差，不够精准易受图像噪声干扰引入多余特征。本发明所用模型不受噪声干扰，分割出的裂缝图像边缘特征平且对细小裂缝也有较好的检测效果，能最大程度贴合label真值。与其他算法相比，本发明方法分割性能提升显著，分割精度最高。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于TransUnet模型的道路病害检测方法，其特征在于，包括以下步骤：

获取待检测道路图像；

将待检测道路图像输入至TransUnet模型中，输出分割图像；

根据分割图像确定道路病害区域；

基于线性投影将多个隐藏特征进行映射；

2.如权利要求1所述的一种基于TransUnet模型的道路病害检测方法，其特征在于，将待检测道路图像进行切分，需要对待检测道路图像进行预处理，所述预处理包括图像调整、数据增强以及图像归一化。

3.如权利要求1所述的一种基于TransUnet模型的道路病害检测方法，其特征在于，所述数据增强包括旋转、翻转和剪裁。

4.如权利要求1所述的一种基于TransUnet模型的道路病害检测方法，其特征在于，根据多个待检测道路图像构建数据集，将数据集分为训练集和测试集，通过训练集对TransUnet模型进行训练，通过测试集对训练后的TransUnet模型进行测试。

5.如权利要求1所述的一种基于TransUnet模型的道路病害检测方法，其特征在于，基于CNN层对待检测道路图像进行编码处理得到多个向量，包括以下步骤：

对待检测道路图像进行切分，得到多个Patch；

对每个Patch进行Emdedding操作，得到Patch Embedding；

通过Patch Embedding对每个Patch切分，得到多个块；

将多个块进行编码，得到多个向量。

6.如权利要求5所述的一种基于TransUnet模型的道路病害检测方法，其特征在于，通过CNN层的多个卷积层对多个向量进行下采样，得到多个特征图和隐藏特征。

7.如权利要求1所述的一种基于TransUnet模型的道路病害检测方法，其特征在于，所述多层解码器均为上采样块，每个所述上采样块均包括一个2×上采样算子、一个3×3卷积层和一个ReLU层。

8.如权利要求7所述的一种基于TransUnet模型的道路病害检测方法，其特征在于，多个上采样块依次级联。

9.如权利要求8所述的一种基于TransUnet模型的道路病害检测方法，其特征在于，基于多个unet层的多层解码器对编码图进行上采样时，多个特征图与对应的上采样块跳跃连接。

10.如权利要求9所述的一种基于TransUnet模型的道路病害检测方法，其特征在于，基于多个unet层的多层解码器对编码图进行上采样前，需对编码图进行卷积处理，将向量维度转换为通道数。