CN117197763A

CN117197763A - 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统

Info

Publication number: CN117197763A
Application number: CN202311154727.0A
Authority: CN
Inventors: 徐川; 张琪; 常秀丰; 梅礼晔; 孙少华; 杨威; 王颖; 阳威; 叶昭毅; 张依铭
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-12-08

Abstract

本发明公开了基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统。首先获取数据集，然后输入到道路裂缝自动化检测模型，输出得到裂缝检测结果；道路裂缝自动化检测模型包含编码阶段和解码阶段：编码阶段采用权重共享的协同网络对输入的裂缝图像进行下采样操作，提取丰富的多尺度特征信息，同时利用跨层交互模块促进特征的传递和特征的丰富性，以提高网络对不同层级特征的利用能力和语义信息的表示能力；解码阶段采用多尺度特征融合及特征对齐模块将来自不同层级或尺度的特征进行融合和对齐，以提高分割网络对细节和边界的感知能力，并改善分割结果的精度和准确性。本方法能够高效地进行多特征提取与融合，从而提高道路裂缝检测准确度。

Description

基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统

技术领域

本发明属于道路裂缝检测领域，更具体地，涉及一种用于道路裂缝的检测方法。

背景技术

道路在经济繁荣和扩张中发挥着至关重要的作用，它们具有显著的社会效益。道路网络促进交通和互联互通，它们为人们提供了方便的就业、社会、卫生和教育服务。因此，道路基础设施被认为是所有公共资产中最重要的部分之一。但是，由于位置、交通量、天气、施工材料等各种因素的影响，路面会随着时间的推移而逐渐磨损变质，造成交通事故。在许多国家，道路养护里程已占道路总里程的99％。因此，道路裂缝检测是道路基础设施领域的一项重要任务，涉及道路裂缝的定位和分类。它可以识别需要维护的道路，以减少潜在的安全隐患，对于有效、经济的道路养护和交通安全尤为重要。

传统方法中，道路裂缝区域通常使用阈值法进行检测。这些算法可以通过设置不同的阈值来快速检测输入图像的结果。由于道路裂缝区域吸收的光线较多，因此通常在图像中呈现为较暗的区域。然而，当存在一定程度的噪声时，低于损伤像素强度的像素严重降低了整体检测性能。这些方法缺乏全局信息的描述，对噪声敏感，并且主要依赖于阈值的选择。其他研究人员使用人工设计的特征描述符来识别图像中的损伤。例如，Gabor滤波器和小波变换在检测简单裂缝方面取得了显著进展。然而，由于道路上存在复杂的拓扑结构、任意的形状和宽度以及油渍、杂草、污渍和其他强烈的干扰，这些方法的性能仍然有限。

随着机器学习方法的进一步发展，它在道路裂缝检测领域得到了广泛应用。改进的主动轮廓模型和基于贪婪搜索的支持向量机(SVM)被用于桥梁损伤检测的研究。有研究者提出了一种基于SVM的方法，用于计算具有多尺度邻域信息的概率图。通过融合算法，从概率生成模型(PGM)和SVM方法获得的多个概率图被合并成一个融合图，可以比任何单独的概率图更精确地识别裂缝。也有研究者使用随机森林方法对多个经过空间调整的视觉特征进行分类。然而，这些检测方法只能检测已学习的裂缝，因此无法检测新的裂缝。为了解决上述问题，基于随机结构森林的CrackForest提出了自动裂缝检测方法，通过选择裂缝特征和学习内部结构来有效抑制噪声。然而，它未考虑复杂裂缝提取情况下的不同损伤类别。由于传统方法通过手动设置颜色或纹理特征来模拟裂缝，在特定情况下只能满足裂缝提取的需求。这些方法无法在多变环境中进行稳健的检测。因此，在复杂情况下，手动设计特征的效率低下，无法从不同的道路图像中提取裂缝。

最近的理论发展表明，深度学习可以通过自动学习不同层次的特征来解决复杂问题。深度卷积神经网络(DCNN)具有丰富的分层特征和端到端可训练的框架，在像素级语义分割任务中取得了重大进展。最近，提出了几种基于目标检测、图像块分割和利用深度学习的裂缝检测方法。然而，由于这些粗略估计的方法无法在像素级别提取裂缝，因此无法准确地对裂缝进行分类和严重程度级别分配。有研究人员提出了使用FCN网络进行像素级裂缝提取的解决方案。然而，这种方法没有考虑到具有不同宽度和拓扑结构的裂缝需要不同的上下文信息大小。此外，在该方法中，忽略了裂缝特征对裂缝检测的不同贡献，将所有裂缝特征都以相同的方式处理。部分研究人员在SegNet的编码器-解码器架构上实现了DeepCrack网络，并在相同尺度上将编码器和解码器网络中生成的卷积特征两两合并，实现了像素级裂缝检测。然而，基于SegNet网络结构，编码-解码阶段的学习特征相对简单，大部分空间信息在上采样过程中丢失，无法通过浅层恢复。也有研究人员在DeepLabv3框架中开发了一种用于隧道裂缝像素级精确分割的裂缝分割网络。尽管该方法充分利用了Atrous空间金字塔池化(ASPP)模块获取多尺度信息，但它未充分认识到上采样操作对于改善检测结果的重要性。深度学习方法的结果比传统方法更好。然而，对于可训练的DCNN模型在丰富的语义信息方面进行鲁棒像素级裂缝检测的研究仍然不足。以上基于DCNN的裂缝检测方法没有考虑裂缝分类和损伤严重程度。在这些检测方法中利用深度学习特征显著提高了道路裂缝检测的检测性能。然而，它们仍然面临一些重要的问题需要解决。首先，许多类型的道路裂缝，如裂缝、坑洞、路肩破损和路边设施，存在。每种损伤类型具有独特的特征和表现形式，使得学习有效的多尺度特征以实现高效的道路裂缝检测变得困难。其次，道路裂缝以不同的大小和形状出现，突出了利用具有不同分辨率的多个特征图来捕捉不同尺度特征的重要性。尽管有了进展，但现有方法在全面理解道路图像中不同区域的重要性并有效利用相关特征来提高道路裂缝检测任务的检测性能方面仍面临挑战。

发明内容

针对现有技术的缺陷以及改进需求，本发明提供了一种基于交叉注意引导特征对齐网络的道路裂缝检测方法，可以精准地实现道路裂缝自动化检测。包括如下步骤：

步骤1，采用车载高清摄像头采集到的道路裂缝图像作为数据集，将实际道路裂缝图像划分为训练集和测试集；

步骤2，构建由编码器和解码器组成的裂缝自动化检测模型，所述编码器包括权重共享的协同网络模块(encoder1和encoder2)和跨层交互模块，所述解码器包括多尺度特征融合以及特征对齐模块；

所述权重共享的协同网络包括多尺度图像块嵌入层和多头卷积自注意力层，且encoder1和encoder2分别都拥有K个阶段，输入裂缝图像，分别获取K个阶段的不同尺度特征图；

所述跨层交互模块首先对同一阶段的不同尺度特征图进行重塑和维度交换操作，然后对得到的张量进行归一化和全局平均池化的操作，最后利用自注意力机制提取更全面的裂缝特征语义信息，提高网络的多尺度特征表达能力；

所述多尺度特征融合模块采用重建与上采样块的双重渐进式融合策略，将提取到的含有丰富多尺度语义信息的特征进行融合；

所述特征对齐模块的输入为多尺度融合模块的输出图像，目的是结合图像中的上下文信息，确保不同层级或分支特征之间的尺度和语义一致性，从而提高对小裂缝的检测能力；

步骤3，利用步骤1中的训练集对步骤2中的裂缝自动化检测模型进行训练，利用训练好的模型实现道路裂缝检测。

进一步的，步骤1包括：

11)采用车载高清摄像头采集到的道路裂缝图像作为数据集，根据数据集中的裂缝图像来制作二值化标签图像，其中，标签图像中的每个像素代表一种类别，为裂缝或背景；

12)将道路裂缝图像以及其对应的二值化标签图像组成道路裂缝自动化检测图像数据集，在该数据集中按照一定的比例划分训练集和测试集。

进一步的，步骤2中权重共享的协同网络的处理过程具体实现包含以下子步骤；

211)给定输入的原始图像F1，首先采用由两个卷积层组成的主干块，调整图像的大小和通道数，得到第一阶段中的多尺度图像块嵌入层的输入特征；

212)将输入特征分别同时进入encoder1和encoder2中进行特征提取操作，每个阶段中包含多尺度图像块嵌入层和多头卷积自注意力层，来提取裂缝信息；

213)多尺度图像块嵌入层在同一特征级别上利用细粒度和粗粒度的视觉标记，使用带有重叠补丁的卷积操作；具体而言，对于来自前一阶段的2D重塑输出特征图作为第i阶段的输入，首先学习一个函数F_k×k(·)，将X_i映射为具有通道大小C_i的新标记F_k×k(X_i)，其中F(·)是核大小即补丁大小为k×k，步幅为s，填充为p的2D卷积操作；输出的2D标记图/>具有以下高度和宽度：/> 通过多尺度图像块嵌入层通过更改步幅和填充来调整标记的序列长度的方式，输出具有不同标记大小的相同分辨率大小的特征；

214)将多尺度图像块嵌入层得到的不同尺度的标记特征图分别输入到多头卷积自注意力层的每个自注意力层中，得到不同尺度的全局特征图；多尺度图像块嵌入层输出的特征中的最后一个尺度的特征输入到了卷积局部特征块得到局部特征图；最后，利用多尺度特征交互块，将局部特征和全局特征聚合起来，并通过一个卷积操作得到第一阶段的输出特征图；

215)每一阶段都按步骤213)-215)进行处理，encoder1和encoder2分别输出多个不同尺度的特征图。

进一步的，主干块中的第一个卷积层的通道数为C1/2，第二个卷积层的通道数为C1，两个卷积操作生成特征图的大小为H/4×W/4×C1，其中C1为第一阶段的通道大小，每个卷积之后是Batch Normalization和Hardswish激活函数。

进一步的，多头卷积自注意力层的处理过程为：输入首先经过Layer Norm进行归一化，然后通过Factorized MHSA进行自注意力计算，接着通过残差连接将原始输入与注意力输出相加，再进行Layer Norm归一化，之后，通过FFN进行非线性变换，再次通过残差连接，最后再进行Layer Norm归一化；卷积局部特征块采用由1×1卷积、3×3深度卷积和1×1卷积组成的残差瓶颈块实现。

进一步的，步骤2中的跨层交互模块的具体实现包含以下子步骤；

221)将特征形状分别为[B,C,H,W]、[B,2C,H,W]的输入特征矩阵分别进行形状调整操作，将它们从4D张量变成3D张量，并交换它们各自的第二和第三个维度，分别得到张量e，r；[B,C,H,W]代表的是encoder1中每一个阶段得到的特征图的统称，[B,2C,H,W]代表的是encoder2中每一个阶段得到的特征图的统称，encoder1和encoder相同阶段的特征图之间通道数之间是2倍的关系；

222)对张量e和r同时进行归一化和全局平均池化的操作，得到长度均为1的特征向量，记为e_t、r_t；

223)将e_t和r_t分别映射到对方的维度，并在第二个维度上插入一个长度为1的维度；

224)将r和e_t，e和r_t分别在第二个维度上进行拼接，然后将拼接后的特征张量同时传入Transformer编码器中中进行各自的跨注意力的计算，最后得到多个特征图，记为P₁、P₂、…、P_k。

进一步的，步骤S2中，跨层交互模块的跨注意计算公式为：

其中，表示查询向量矩阵，其中m表示查询向量的数量，d_k表示键向量的维度；/>表示键向量矩阵，其中n表示键向量的数量，d_k表示键向量的维度；/>表示值向量矩阵，其中d_v表示键向量的维度；QK^T表示查询向量和键向量之间的点积矩阵，其维度为m×n；softmax()表示softmax函数，用于将得分归一化为概率值；/>用于归一化点积，避免点积的值过大或过小。

进一步的，跨层交互模块得到K个不同尺度的特征图，当K＝4时，多尺度特征融合模块通过如下步骤实现K个特征图的融合处理；

第一步，先将跨层交互模块得到的4个特征图P₁、P₂、P₃、P₄分别在各自的第一维度进行拼接，再经过卷积操作生成4个新的特征图，记为A,B,C,D；

第二步，将D上采样再卷积得到新的特征图D'，然后C和D'在第一维度进行拼接之后再卷积得到特征图D”；

第三步，将D”上采样再卷积得到新的特征图D”'，然后B和D”'在第一维度进行拼接之后再卷积得到特征图B'；

第四步，将B'上采样再卷积得到新的特征图B”，然后A和B”在第一维度进行拼接之后再卷积得到特征图A'；

第五步，使用一个卷积层对特征图D”、B'、A'的通道数进行降维，同时将降维后的特征图做上采样处理，得到三个新的特征图P₅、P₆、P₇；

由此，经过上面五步多尺度融合操作，得到四个新的特征图为：P₁、P₅、P₆、P₇，这四个新的特征图则为特征对齐模块的输入。

进一步的，步骤S2中的特征对齐模块对多尺度特征融合模块的四个输出进行特征对齐操作，该过程是P₁分别与P₅、P₆、P₇进行特征对齐，得到三个新的特征图，然后将P₁和这三个新的特征图做合并处理，得到特征对齐模块的最终输出特征图，将[M₁,N₁]指代[P₁,P₅]、[P₁,P₆]、[P₁,P₇]这三个特征图对，下面是具体的特征对齐过程：

通道数为C的输入特征图[M₁,N₁]经过一个卷积层后得到特征图[M₂,N₂]，将[M₂,N₂]在第二个维度做拼接处理，得到了通道数为4C的特征图F₁，然后利用一个卷积层将特征图F₁的通道数由4C降到2C，得到了特征图F₂；为了区分不同的空间位置，采用一个1x1的卷积对F₂进行空间筛选，并经过SoftMax函数得到了通道数为2的特征图F₃；为了加权不同的特征通道，采用一个1x1的卷积对F₂进行通道筛选，并经过Sigmoid函数得到特征图F₄；将特征图F₃的第一个通道与特征图F₄对应位置的元素相乘得到了特征图F₅；将特征图F₃的剩余通道与特征图F₄对应位置的元素相乘得到了特征图F₆；将特征图F₅与输入特征图P₁，特征图F₆与输入特征图P₅分别进行加权融合，得到特征图[M₃,N₃]，将特征图M₃与N₃在第一位维度做拼接处理，得到特征图P'₅；

根据以上步骤，特征图[P₁,P₅]、[P₁,P₆]、[P₁,P₇]在特征对齐模块分别得到了新特征图P'₅、P'₆、P'₇；将P₁、P'₅、P'₆和P'₇做拼接处理，并经过多层卷积分割头得到最终的检测结果图。

本发明还提供一种基于交叉注意引导特征对齐网络的道路裂缝检测系统，包括如下模块：

数据集采集模块，用于采集道路裂缝图像作为数据集，并划分为训练集和测试集；

检测模型构建模块，用于构建由编码器和解码器组成的裂缝自动化检测模型，所述编码器包括权重共享的协同网络模块encoder1和encoder2，以及跨层交互模块，所述解码器包括多尺度特征融合以及特征对齐模块；

所述权重共享的协同网络encoder1和encoder2分别都拥有k个阶段，每个阶段包括多尺度图像块嵌入层和多头卷积自注意力层，输入裂缝图像，分别获取k个阶段的不同尺度特征图；

所述跨层交互模块首先对encoder1和encoder2中同一阶段的不同尺度特征图进行重塑和维度交换操作，然后对得到的张量进行归一化和全局平均池化的操作，最后利用自注意力机制提取更全面的裂缝特征语义信息，提高网络的多尺度特征表达能力；

所述特征对齐模块的输入为跨层交互模块的输出图像，目的是结合图像中的上下文信息，确保不同层级或分支特征之间的尺度和语义一致性，从而提高对小裂缝的检测能力；

道路裂缝检测模块，用于利用训练集对裂缝自动化检测模型进行训练，利用训练好的模型实现道路裂缝检测。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：以深度卷积神经网络为基础，构造由编码器和解码器所组成的道路裂缝自动化检测模型，能够有效地提取和融合道路裂缝图像中的多尺度特征信息，有效地提高了道路裂缝的检测准确度。最终，只需要将道路裂缝图像输入到训练好的模型中，即可自动检测道路的裂缝情况。

附图说明

图1是本发明实施例提供的流程示意图；

图2是本发明实施例提供的道路裂缝自动化检测模型示意图；

图3是本发明实施例提供的特征提取模块结构图；

图4是本发明实施例提供的跨层交互模块结构图；

图5是本发明实施例提供的特征交互模块结构图；

图6是本发明实施例提供的不同方法的检测对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细的说明。

本发明实施例采用一种基于交叉注意力引导的特征对齐网络，用于提取和整合道路裂缝的多尺度特征。首先，使用具有相同结构但不同patch大小(一个大patch和一个小patch)的双分支视觉编码器模型来提取多级损伤特征。利用交叉层互动模块在两个分支的相应层之间建立交互，结合它们各自的特征提取能力和上下文理解。其次，采用特征对齐块来在语义和空间方面对不同级别或分支的特征进行对齐，这显著提高了模型对裂缝区域的感知能力，减少了背景干扰，实现更精确的损伤检测和分割。最后，采用多层卷积分割头来获取高分辨率的特征图。并采用8个评价指标来评价本发明的性能，包括精确率(Precision)，召回率(Recall)，综合评价指标(F1-score)，交集(IOU)，无裂缝交集(IOU_0)，裂缝交集(IOU_1)，总体精度(OA)，Kappa系数(Kappa)作为评价指标。下面结合附图和实施例对本发明作进一步详细的说明。

图1所示是本发明实施例提供的一种用于道路裂缝自动化检测方法的流程示意图，具体包含以下步骤：

步骤1：采用人工制作的道路裂缝图像作为数据集，根据数据集中的裂缝图像来制作二值化标签图像，其中，标签图像中的每个像素代表一种类别，为裂缝或无裂缝；

在一些可选的实施方案中，采用车载高清摄像头采集到的道路裂缝图像作为数据集，根据数据集中的裂缝图像来制作二值化标签图像，其中，标签图像中的每个像素代表一种类别，为裂缝或背景；

构建合理的道路裂缝检测数据集能够有效提升模型的检测精度。在本发明实施例的实验中，使用CRACK500数据集，其包含来自该数据集包含500张分辨率约为2000×1500的图像，这些图像是从Temple大学的主校区用手机拍摄得到的。将每个图像划分为16个分辨率为256×256非重叠的裂缝区域，并且由于计算资源的限制，只保留包含1000个以上裂缝像素的区域，共包含3368张图像。本发明采用专业的计算机视觉标注软件，对道路裂缝图像进行像素级的标注。根据数据集中的裂缝图像来制作二值化标签图像。其中，道路裂缝图像中的类标签用0和1表示，0代表无裂缝(可以显示为黑色)，1代表裂缝区域(可以显示为白色)。

经过以上处理得到道路裂缝图像以及其对应的标签图像组成道路裂缝自动化检测图像数据集，在该数据集中按照8：2的比例划分训练集(共2694幅图像)和测试集(共674幅图像)。

步骤2：道路裂缝自动化检测模型构建：构建由编码器和解码器组成的交叉注意引导特征对齐网络作为裂缝自动化检测模型；

如图2所示，本发明实施例的道路裂缝自动化检测模型包括两个主要模块：编码器和解码器。所述编码器包括权重共享的协同网络模块encoder1和encoder2，以及跨层交互模块，所述解码器包括多尺度特征融合以及特征对齐模块；编码器负责提取输入图像中的多尺度特征信息。解码器将提取到多尺度特征进行渐进式交互融合，并且结合上下文差分信息计算概率损失，不断推进结果图接近于Ground Truth。

在本实施方案中，编码器中的权重共享的协同网络采用结构相同但不同patch大小(一个大patch和一个小patch)的双分支视觉编码器模型来提取多级损伤特征。编码器中的跨层交互模块在两个分支的相应层之间建立交互，结合它们各自的特征提取能力和上下文理解，通过促进信息传递、特征融合和梯度传播等方式，可以提高模型的感知能力、表达能力和性能，从而更准确地检测道路裂缝。所述解码器中的特征对齐模块利用多尺度特征对齐技术将编码器中提取到的多阶段输出特征进行融合，目的是通过调整和匹配不同层次、不同模态和不同尺度的特征，可以提高特征的一致性和可融合性，从而提升模型的性能和准确度。

如图2所示，以K＝4为例，步骤2中权重共享的协同网络对输入道路裂缝图像进行特征提取操作。给定一个大小为H×W×3的输入原始图像F1，首先采用由两个3×3卷积层组成的主干块，调整图像的大小和通道数，得到stage1中的多尺度图像块嵌入层的输入特征。其中第一个卷积层的通道数为C1/2，第二个卷积层的通道数为C1，他们的步幅都有为2。两个卷积操作生成特征图的大小为H/4×W/4×C1，其中C1为stage1的通道大小。每个卷积之后是Batch Normalization和Hardswish激活函数。如图3所示，将上述主干块得到的特征图输入stage1的多尺度图像块嵌入层，该层在同一特征级别上利用细粒度和粗粒度的视觉标记。为此，使用了带有重叠补丁的卷积操作。具体而言，对于来自前一阶段的2D重塑输出特征图(即标记图)作为第i阶段的输入。我们学习一个函数F_k×k(·)，将X_i映射为具有通道大小C_i的新标记F_k×k(X_i)，其中F(·)是核大小(即补丁大小)为k×k，步幅为s，填充为p的2D卷积操作。输出的2D标记图/>具有以下高度和宽度：通过多尺度图像块嵌入层通过更改步幅和填充来调整标记的序列长度的方式，输出具有不同标记大小的相同大小(即分辨率)的特征，本实施例中输出3个大小不同的特征。最后，将多尺度图像块嵌入层得到的不同尺度的标记特征图独立地输入到多头卷积自注意力层的每个多尺度自注意力头中。在每个层中，输入首先经过Layer Norm进行归一化，然后通过Factorized MHSA进行自注意力计算，接着通过残差连接(Add)将原始输入与注意力输出相加，再进行Layer Norm归一化。之后，通过FFN进行非线性变换，再次通过残差连接，最后再进行Layer Norm归一化。这样的层堆叠可以让模型逐渐学习到更高层次的特征和语义表示，有助于更好地捕捉输入序列中的信息。通过多尺度自注意力头来聚合所得特征，从而在同一特征级别实现精细和粗略的特征表示，得到不同尺度的全局特征图。将多尺度图像块嵌入层输出的特征中的最后一个尺度的特征输入到了卷积局部特征块，在多尺度自注意力层的卷积局部特征块中，采用由1×1卷积、3×3深度卷积和1×1卷积组成的残差瓶颈块得到可以得到局部特征图。最后，利用多尺度特征交互块(包括合并操作和1×1卷积)，将局部特征和全局特征聚合起来得到stage1的输出特征图。由此循环往复，可以得到stage2、stage3和stage4的输出特征图。

经过以上操作，encoder1中的stage1、stage2、stage3和stage4最后得到的特征图的尺寸分别为64×64、32×32、16×16、8×8，它们的分辨率分别是输入图像的1/4、1/8、1/16和1/32。并且，四个特征图的通道数分别是64、128、256、512。同理，将原始图像同时也输入到encoder2中，并且进行和encoder1一样的特征提取操作。最后四个stage得到了尺寸分别为64×64、32×32、16×16、8×8，通道数分别是128、256、512、1024的特征图。

如图4所示，步骤S2中的跨层交互模块对协同网络的8个输出进行同阶段特征之间的交互操作。将特征形状分别为[B,C,H,W]、[B,2C,H,W]的输入特征矩阵分别进行形状调整操作，将它们从4D张量变成3D张量，并交换它们各自的第二和第三个维度，分别得到张量e，r，其中B是批量大小，C是通道数，H是特征图的高度、W是特征图的宽度，[B,C,H,W]代表的是encoder1四个阶段的每一个阶段得到的特征图的统称，[B,2C,H,W]代表的是encoder2四个阶段的每一个阶段得到的特征图的统称，encoder1和encoder相同阶段的特征图之间通道数之间是2倍的关系。对张量e和r同时进行归一化和全局平均池化的操作，得到长度均为1的特征向量，记为e_t、r_t。将e_t和r_t分别映射到对方的维度，并在第二个维度上插入一个长度为1的维度。将r和e_t，e和r_t分别在第二个维度上进行拼接，然后将拼接后的特征张量同时传入Transformer编码器中进行各自的跨注意力的计算。最后得到四个特征图(记为P₁、P₂、P₃、P₄)，其尺寸分别为64×64、32×32、16×16、8×8，通道数分别为128，256，512，1024。

在一些可选的实施方案中，步骤S2中，所述跨层交互模块的跨注意力计算公式为：

根据上述特征交互过程，以此类推可以得到K个不同尺度的特征图。在多尺度特征融合模块中采用重建与上采样块的双重渐进式融合策略对这K个特征图进行融合处理。这是一个逐层级联的特征融合过程，从初始特征图逐步与后续特征图融合，最终获得综合的全局特征表示。以K＝4为例，融合的具体实现方式如下：

第一步，先将跨层交互模块得到的4个特征图(P₁、P₂、P₃、P₄)分别在各自的第一维度进行拼接，再经过卷积操作生成4个新的特征图(记为A,B,C,D)；

第四步,将B'上采样再卷积得到新的特征图B”，然后A和B”在第一维度进行拼接之后再卷积得到特征图A'；

第五步，使用一个卷积核大小为3的卷积层将特征图D”、B'、A'的通道数全部降为256。同时将降维后的特征图做上采样处理，将其尺寸全部调整为64×64，得到三个新的特征图P₅、P₆、P₇；

如图5所示，步骤S2中的特征对齐模块对多尺度特征融合模块的四个输出进行特征对齐操作。该过程是P₁分别与P₅、P₆、P₇进行特征对齐，得到三个新的特征图，然后将P₁和这三个新的特征图做合并处理，得到一个特征对齐模块的最终输出特征图。将[M₁,N₁]指代[P₁,P₅]、[P₁,P₆]、[P₁,P₇]这三个特征图对，下面是具体的特征对齐过程：

通道数为C的输入特征图[M₁,N₁]经过一个卷积核大小为1的卷积层后得到特征图[M₂,N₂]，通道数增加为512。将[M₂,N₂]在第二个维度做拼接处理，得到了通道数为4C的特征图F₁，然后利用一个卷积核大小为1的卷积将特征图F₁的通道数由4C降到2C，得到了特征图F₂。为了区分不同的空间位置，采用一个1x1的卷积对F₂进行空间筛选，并经过SoftMax函数得到了通道数为2的特征图F₃。为了加权不同的特征通道，采用一个1x1的卷积对F₂进行通道筛选，并经过Sigmoid函数得到了通道数为256的特征图F₄。将特征图F₃的第一个通道与特征图F₄对应位置的元素相乘得到了特征图F₅。将特征图F₃的剩余通道与特征图F₄对应位置的元素相乘得到了特征图F₆。将特征图F₅与输入特征图P₁，特征图F₆与输入特征图P₅分别进行加权融合，得到特征图[M₃,N₃]。将特征图M₃与N₃在第一位维度做拼接处理，得到特征图P'₅。根据以上步骤，特征图[P₁,P₅]、[P₁,P₆]、[P₁,P₇]在特征对齐模块分别得到了新特征图P'₅、P'₆、P'₇。将P₁、P'₅、P'₆和P'₇做拼接处理，并经过多层卷积分割头得到最终的检测结果图。

步骤3：利用步骤1中的训练集对步骤2中的道路裂缝自动化检测模型进行训练，利用训练好的模型实现裂缝检测，最后利用裂缝自动化检测模型评价指标对检测结果进行评价；

使用本发明所提出的网络结构在所述S1步骤中构建的CRACK500数据集上进行训练，获得模型权重用于模型评价。训练过程基于PyTorch深度学习框架，软件环境为Ubuntu20.04，硬件环境为3090显卡、显存为24GB。将batchsize设置为4，总共训练次数为300epoch。每次输入包含一幅图像：源道路裂缝图像，一次训练后进行一次测试，网络训练过程中不断学习真实道路裂缝图像中的裂缝信息。循环迭代直到epoch达到300，则训练结束。

选取精确率(Precision)，召回率(Recall)，综合评价指标(F1-score)交集(IOU)，无裂缝交集(IOU_0)，总体精度(OA)，裂缝交集(IOU_1)，Kappa系数(Kappa)作为评价指标，及其评价指标计算公式如下：

为了验证本发明所提的建筑物自动化检测模型的性能，本发明给出了最终的实验结果，图6为各种方法的视觉对比图，表1为各种方法的量化指标。

其中，图6表示各种方法得到的道路裂缝检测结果图像。(a)为源道路裂缝图像，(b)为实际裂缝图像(Ground Truth,GT)，(c)-(j)为不同方法的检测结果图像。通过比较实际裂缝图像，黑色代表无裂缝区域，白色代表裂缝区域。

表1：各种方法在CRACK500数据集建筑物检测精度

请注意，所有指标的单位均为百分比，且数值越大，效果越好。为了便于观察，将最好的指标结果加粗表示。

本发明实施例还提供一种基于交叉注意引导特征对齐网络的道路裂缝检测系统，包括如下模块：

各模块的具体实现方式与各步骤相应，本发明不予撰述。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而以，并不以限制本发明，凡在发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims

1.一种基于交叉注意引导特征对齐网络的道路裂缝检测方法，其特征在于，包括以下步骤：

步骤1，采集道路裂缝图像作为数据集，并划分为训练集和测试集；

步骤2，构建由编码器和解码器组成的裂缝自动化检测模型，所述编码器包括权重共享的协同网络模块encoder1和encoder2，以及跨层交互模块，所述解码器包括多尺度特征融合以及特征对齐模块；

所述跨层交互模块首先对encoder1和encoder2中同一阶段的不同尺度特征图进行重塑和维度交换操作，然后对得到的张量进行归一化和全局平均池化的操作，最后利用自注意力机制提取更全面的裂缝特征语义信息；

所述特征对齐模块结合图像中的上下文信息，对多尺度特征融合模块的输出图像进行特征对齐操作，确保不同层级或分支特征之间的尺度和语义一致性；

2.根据权利要求1所述的方法，其特征在于，步骤1包括：

3.根据权利要求1所述的方法，其特征在于：步骤2中权重共享的协同网络的处理过程具体实现包含以下子步骤；

4.根据权利要求3所述的方法，其特征在于：主干块中的第一个卷积层的通道数为C1/2，第二个卷积层的通道数为C1，两个卷积操作生成特征图的大小为H/4×W/4×C1，其中C1为第一阶段的通道大小，每个卷积之后是Batch Normalization和Hardswish激活函数。

5.根据权利要求3所述的方法，其特征在于：多头卷积自注意力层的处理过程为：输入首先经过Layer Norm进行归一化，然后通过Factorized MHSA进行自注意力计算，接着通过残差连接将原始输入与注意力输出相加，再进行Layer Norm归一化，之后，通过FFN进行非线性变换，再次通过残差连接，最后再进行Layer Norm归一化；卷积局部特征块采用由1×1卷积、3×3深度卷积和1×1卷积组成的残差瓶颈块实现。

6.根据权利要求1所述的方法，其特征在于：步骤2中的跨层交互模块的具体实现包含以下子步骤；

7.根据权利要求6所述的方法，其特征在于：步骤S2中，跨层交互模块的跨注意计算公式为：

其中，表示查询向量矩阵，其中m表示查询向量的数量，d_k表示键向量的维度；表示键向量矩阵，其中n表示键向量的数量，d_k表示键向量的维度；/>表示值向量矩阵，其中d_v表示键向量的维度；QK^T表示查询向量和键向量之间的点积矩阵，其维度为m×n；softmax()表示softmax函数，用于将得分归一化为概率值；/>用于归一化点积，避免点积的值过大或过小。

8.根据权利要求6所述的方法，其特征在于：跨层交互模块得到K个不同尺度的特征图，当K＝4时，多尺度特征融合模块通过如下步骤实现K个特征图的融合处理；

9.根据权利要求8所述的方法，其特征在于：步骤S2中的特征对齐模块对多尺度特征融合模块的四个输出进行特征对齐操作，该过程是P₁分别与P₅、P₆、P₇进行特征对齐，得到三个新的特征图，然后将P₁和这三个新的特征图做合并处理，得到特征对齐模块的最终输出特征图，将[M₁,N₁]指代[P₁,P₅]、[P₁,P₆]、[P₁,P₇]这三个特征图对，下面是具体的特征对齐过程：

10.一种基于交叉注意引导特征对齐网络的道路裂缝检测系统，其特征在于，包括如下模块：