CN115482491A

CN115482491A - 一种基于transformer的桥梁缺陷识别方法与系统

Info

Publication number: CN115482491A
Application number: CN202211161939.7A
Authority: CN
Inventors: 荣辉桂; 张宏铭; 火生旭; 晏班夫; 石洪霞
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-16
Anticipated expiration: 2042-09-23
Also published as: CN115482491B

Abstract

本发明公开了一种基于transformer的桥梁缺陷识别方法，包括：获取桥梁的视频，按照固定时间长度对该桥梁的视频进行视频帧提取，获取的所有视频帧构成视频帧集合，对视频帧集合进行灰度化处理，以获取灰度化处理后的视频帧集合，将经过预处理获取的视频帧集合输入训练好的桥梁缺陷识别模型中，以提取桥梁缺陷的目标位置和桥梁缺陷的类别，将桥梁缺陷的目标位置和桥梁缺陷的类别作为最终的桥梁缺陷识别结果。本发明能够解决现有基于人工实现的桥梁缺陷识别方法检测效率低下、以及对检测工作人员而言存在很大的人身安全隐患的技术问题。

Description

一种基于transformer的桥梁缺陷识别方法与系统

技术领域

本发明属于人工智能中的深度学习和图像处理技术领域，更具体地，涉及一种基于transformer的桥梁缺陷识别方法与系统。

背景技术

我国公共交通基础设施在过去十年飞速发展，桥梁里程逐年增加；近年来，随着桥梁的持续使用，我国的许多大型桥梁、公路的承重量远超其原本的设计水平再加上极端天气的影响，桥梁结构频繁出现不同程度的病害，这难免导致这些基础设施的老化甚至破损，从而时不时引发重大的交通安全事故，这些隐患对人们的生命财产安全带来了巨大的威胁，因此，桥梁缺陷识别在桥梁的修养与维护中起着重大作用。

目前传统的桥梁缺陷识别主要有两种，一种是采用人工检查来实现桥梁缺陷识别，这种识别方式需要工作人员手持测量仪器通过爬梯子或者架子的方式接近桥墩；另一种是基于神经网络模型的桥梁缺陷识别方法，目前这种方式使用的基本都是基于卷积神经网络训练出来的模型，在识别精度上很不理想。

然而，上述两种现有的缺陷识别方法存在一些不可忽略的缺陷：第一、对于基于人工实现的桥梁缺陷识别方法而言，由于该人工方法的局限性，往往会有许多地方无法检测到，检测效率低下，对于检测工作人员来说也存在很大的人身安全隐患；第二、针对基于神经网络模型的桥梁缺陷识别方法而言，在用于训练的数据不足时，容易导致神经网络模型在训练过程中出现过拟合的情况，并进而影响桥梁缺陷识别精度；同时现有方法在制作新的数据样本所需的开销巨大，在图片数据拍摄与标注标签方面都需要付出相当大的人力、物力和时间的技术问题；第三、针对基于神经网络模型的桥梁缺陷识别方法而言，其用于桥梁缺陷识别的数据集中桥梁缺陷的种类绝大部分为桥梁裂缝，其他种类的桥梁缺陷图片非常少，用这些数据集训练出来的神经网络模型只能有效检测桥梁裂缝这一种缺陷，导致该方法的应用领域狭窄；第四、现有的神经网络模型训练过程中是对输入的整张图片计算注意力的值，这就导致计算复杂度会随着输入图片大小呈指数级增长，在实际桥梁缺陷识别任务中很难达到较好的实时性；第五、现有的神经网络模型在特征提取过程中会造成许多特征损失，导致训练出来的模型在目标检测的边缘有很多的信息损失，对于桥梁裂缝这种本来就小的目标识别效果很差。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于transformer的桥梁缺陷识别方法和系统，其目的在于，解决现有基于人工实现的桥梁缺陷识别方法检测效率低下、以及对检测工作人员而言存在很大的人身安全隐患的技术问题，以及现有基于神经网络模型的桥梁缺陷识别方法在训练的数据不足时，容易导致神经网络模型在训练过程中出现过拟合的情况，并进而影响桥梁缺陷识别精度的技术问题，以及在制作新的数据样本所需的开销巨大，在图片数据拍摄与标注标签方面都需要付出相当大的人力、物力和时间的技术问题，以及神经网络模型只能有效检测桥梁裂缝这一种缺陷，导致该方法的应用领域狭窄的技术问题，以及计算复杂度会随着输入图片大小呈指数级增长，在实际桥梁缺陷识别任务中很难达到较好的实时性的技术问题，以及由于在特征提取过程中会出现许多特征损失，导致训练出来的模型在目标检测的边缘有很多的信息损失，并最终导致对桥梁裂缝这种小目标识别效果很差的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于transformer的桥梁缺陷识别方法，包括以下步骤：

（1）获取桥梁的视频，按照固定时间长度对该桥梁的视频进行视频帧提取，获取的所有视频帧构成视频帧集合；

（2）对步骤（1）获取的视频帧集合进行灰度化处理，以获取灰度化处理后的视频帧集合；

（3）将经过步骤（2）预处理获取的视频帧集合输入训练好的桥梁缺陷识别模型中，以提取桥梁缺陷的目标位置和桥梁缺陷的类别，将桥梁缺陷的目标位置和桥梁缺陷的类别作为最终的桥梁缺陷识别结果。

优选地，桥梁缺陷识别模型包含依次连接的特征提取主干网络、信息损失区域提取网络、区域推荐网络RPN、节点编码器、序列编码器以及像素解码器网络六个部分；

第一层是特征提取主干网络，特征提取主干网络包含一个区域分割模块、一个线性嵌入模块、三个顺次连接的区域合并模块、以及四个transformer单元；

第二层是信息损失区域提取网络，其输入为特征提取主干网络中最后一个区域合并模块输出的特征张量，经过特征图金字塔网络FPN上采样阶段的每一层获取一个特征图

，所有特征图构成特征图集合{

，

，

，…，

}，其中num表示FPN中上采样阶段的总层数，根据最后一层获取的特征图

获取桥梁缺陷目标掩膜

，然后对

经过FPN的下采样阶段的最后一层后获取另一个桥梁缺陷目标掩膜

，对

和

求差值，获取信息损失区域

，将桥梁缺陷目标掩膜

和信息损失区域

输入到一个全卷积网络中，最终输出目标边缘损失信息感兴趣区域RoI，其为四叉树结构；

第三层是区域推荐网络。其输入为第二层信息损失区域提取网络获取的特征图集合

，遍历其中的所有特征图，对每个特征图上的每个像素点都生成锚框，然后针对每个锚框而言，将其分为正样本和负样本，正样本为锚框和该特征图上人工标注的掩膜之间的交并比IoU大于0.7的锚框，负样本为锚框与掩膜的交并比小于0.3的锚框，然后对于每个正样本而言，进一步寻找该特征图上所有标注的掩膜中与其相交最大的掩膜，将这个最大的掩膜的桥梁缺陷的类别赋予这个正样本，然后对该正样本而言，利用前向传播方法计算偏移量，并根据偏移量对该正样本的位置进行调整，最终输出与该正样本对应的桥梁缺陷分类识别框；

第四层是节点编码器，其输入为第二层输出的四叉树结构的目标边缘损失信息RoI，根据该目标边缘损失信息RoI获取四叉树中每个节点的位置信息，将四叉树中每个节点的位置信息、FPN中对应位置的特征信息、以及桥梁缺陷目标掩膜

的语义信息三者进行融合后，输出特征融合后的四叉特征树；

第五层是序列编码器，其输入为第四层输出的特征融合后的四叉特征树，使用多头自注意力模块和全连接前馈网络对该四叉特征树进行特征融合和更新，输出为序列编码后的特征张量；

第六层是像素解码器，其输入为第五层输出的序列编码后的特征张量，使用多层感知机MLP对其进行解码，输出为预测的实例标签。

优选地，特征提取主干网络的具体结构为：

区域分割模块，其将输入的桥梁缺陷图片平均分割成16个区域，并在每个区域内部分别计算注意力；

线性嵌入模块，其将区域分割模块分割获取的16个区域的图像嵌入为维度为

的特征张量；其中W表示桥梁缺陷图片的宽度，H表示桥梁缺陷图片的高度；

transformer 单元，其输入为线性嵌入模块输出的

大小的特征张量，输出大小为

的特征张量，其中

=96；

对于第一个区域合并模块而言，其输入为transformer 单元的输出的

大小的特征张量，输出为

的特征张量，对于第二个区域合并模块而言，其输入为第一个区域合并模块输出的

的特征张量，输出为

的特征张量；对于第三个区域合并模块而言，其输入为第二个区域合并模块输出的

的特征张量，最终输出

大小的特征张量。

优选地，桥梁缺陷识别模型是通过以下步骤训练获取的：

（3-1）获取多张桥梁缺陷图片组成的桥梁缺陷数据集，对该桥梁缺陷数据集进行预处理，对预处理后获取的桥梁缺陷数据集进行数据增强操作，对数据增强后的桥梁缺陷数据集进行标注，并将标注后的桥梁缺陷数据集按照3:1:1的比例随机划分为训练集、验证集和测试集；其中标注过程是使用标注工具对数据增强后的桥梁缺陷数据集进行缺陷类别标注，即用掩膜的形式将桥梁缺陷标注为裂缝、锈蚀、或剥落；

（3-2）针对步骤（3-1）获取的训练集中的每张桥梁缺陷图片而言，将其输入特征提取主干网络，使用48个

大小的卷积核，将桥梁缺陷图片划分成16个

大小的区域，并将这16个区域嵌入成一个维度为

大小的特征张量I；

（3-3）针对步骤（3-1）获取的训练集中的每张桥梁缺陷图片而言，将步骤（3-2）获取的该张桥梁缺陷图片对应的特征张量I输入transformer 单元中，在该桥梁缺陷图片的16个区域内并行进行注意力的计算，并将注意力计算后的所有区域进行合并，以获取该桥梁缺陷图片对应的特征图

；其中在注意力计算过程中每个区域对应特征张量I的一个

大小的向量范围；

（3-4）针对步骤（3-1）获取的训练集中的每张桥梁缺陷图片而言，将步骤（3-3）获取的该桥梁缺陷图片对应的特征图

输入区域合并模块进行降采样，以获取该桥梁缺陷图片对应的、降采样后的特征图

；

（3-5）针对步骤（3-1）获取的训练集中的每张桥梁缺陷图片而言，将步骤（3-4）获取的该桥梁缺陷图片对应的特征图

输入FPN网络中，以获取对应的RoI金字塔，根据RoI金字塔预测桥梁缺陷粗略掩码，同时在RoI金字塔的每一层获取一个特征图

，根据获取的所有num个特征图获取目标边缘损失信息RoI特征，并根据目标边缘损失信息RoI特征构建与该桥梁缺陷图片对应的、多层次的RoI四叉树

，RoI四叉树

的各个节点中存储了每个像素点特征和节点之间的相对位置编码，其中i∈[1，num]，num表示RoI金字塔中的层数；

（3-6）使用步骤（3-5）中RoI金字塔的所有层获取的特征图对RPN网络进行训练，根据训练好的RPN网络为步骤（3-1）获取的训练集中每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框；

（3-7）针对步骤（3-5）中获取的每个桥梁缺陷图片而言，从其对应的RoI四叉树

中的所有节点的3×3 邻域中提取领域特征，再经全连接层将提取的领域特征压缩为1×1特征维度的局部特征，将步骤（3-5）中从 FPN 金字塔的每一层获取的特征图

中的所有像素点特征、步骤（3-5）中预测到的桥梁缺陷粗略掩码、步骤（3-5）获取的RoI四叉树

中所有节点之间的相对位置编码，以及本步骤压缩后的局部特征相加，获取该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树；

（3-8）针对步骤（3-1）获取的训练集中的每张桥梁缺陷图片而言，将（3-7）获取的该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树输入序列编码器中，由其中的多头注意力模块对该缺陷目标边缘损失信息四叉特征树中的每个节点进行特征融合及更新，从而最终获取该桥梁缺陷图片对应的、序列编码后的特征向量；

（3-9）针对步骤（3-1）获取的训练集中的每张桥梁缺陷图片而言，将经过步骤（3-8）获取的该桥梁缺陷图片对应的、序列编码后的特征向量输入像素解码器中，以对特征向量每个维度的输出查询进行解码，从而获取该桥梁缺陷图片中所有n个像素点中每个像素点对应的最终预测缺陷实例标签

，并根据该最终预测缺陷实例标签

和该像素点对应的实际标签

获取交叉熵损失函数

；

（3-10）根据步骤（3-9）获取的交叉熵损失损失函数、并利用反向传播方法对桥梁缺陷识别模型进行迭代训练，直到该桥梁缺陷识别模型收敛为止，从而获取初步训练好的桥梁缺陷识别模型；

（3-11）使用步骤（3-1）获取的测试集对步骤（3-10）初步训练好的桥梁缺陷识别模型进行验证，直到获取的检测精度达到最优为止，从而获取训练好的桥梁缺陷识别模型。

优选地，步骤（3-3）具体为，先将输入的特征张量I进行层归一化，然后将特征张量I对应的特征图切分成多个窗口，计算每个窗口之间的注意力值，随后将所有窗口合并，以形成整张桥梁缺陷图片的特征图，并将特征图和注意力值进行加权处理，以获取附加有注意力的特征图，最后再通过transformer 单元中的归一化操作和全连接层处理，输出该桥梁缺陷图片对应的特征图。

优选地，步骤（3-6）包括以下子步骤：

（3-6-1）设置计数器cnt=1；

（3-6-2）判断cnt1是否大于步骤（3-5）中RoI金字塔中的层数num，如果是则进入步骤（3-6-8），否则进入步骤（3-6-3）；

（3-6-3）设置计数器cnt2=1；

（3-6-4）判断cnt2是否大于RoI金字塔第cnt1层获取的特征图

中的像素点总数，如果是，则进入步骤（3-6-7），否则进入步骤（3-6-5）；

（3-6-5）对金字塔第cnt1层获取的特征图

中的第cnt2个像素点生成锚点框，计算锚点框和其标记的掩膜之间的IoU值，并判断IoU是否大于等于0.7，如果是则标记该锚点框为前景锚点框，并记录与该前景锚点框之间IoU值最大的掩膜的类别标签

（其中j∈[1,3]，第1个类别表示裂缝，第2个类别表示锈蚀，第3个类别表示剥落），然后转入步骤（3-6-6）；如果是处于0.3到0.7之间，则视为无效锚框，过程结束；如果IoU小于等于0.3，则标记该锚点框为背景锚点框，然后转入步骤（3-6-6）；

（3-6-6）设置cnt2 = cnt2 + 1，并返回步骤（3-6-4）；

（3-6-7）设置cnt1 = cnt1 + 1，并返回步骤（3-6-2）；

（3-6-8）获取所有前景锚点框和背景锚点框的个数，如果前景锚点框个数大于128，则只取IoU值最高的128个前景锚点框，其余舍弃，如果背景锚点框个数大于128，则只取IoU值最低的128个背景锚点框，其余舍弃，然后转入步骤（3-6-9）；

（3-6-9）通过RPN网络的前向传播方法计算出256个锚点框中每一个锚点框对应每个类别的得分

，并根据该得分

并通过softmax函数获取每一个锚点框对应每个类别j的概率

。

（3-6-10）利用步骤（3-6-9）获取的概率

和步骤（3-6-5）获取的类别标签

计算交叉熵损失函数，并利用该交叉熵损失函数训练RPN网络的权重参数，以获取训练好的RPN网络；

（3-6-11）根据训练好的RPN网络为步骤（3-1）获取的训练集中的每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框，该目标分类带有该桥梁缺陷图片中桥梁缺陷的种类。

优选地，步骤（3-9）中使用的交叉熵损失函数为：

其中n=50176。

优选地，步骤（3-6-9）中使用的Softmax函数为：

；

步骤（3-6-10）中使用的交叉熵损失函数为：

按照本发明的另一方面，提供了一种基于transformer的桥梁缺陷识别系统，包括：

第一模块，用于获取桥梁的视频，按照固定时间长度对该桥梁的视频进行视频帧提取，获取的所有视频帧构成视频帧集合；

第二模块，用于对第一模块获取的视频帧集合进行灰度化处理，以获取灰度化处理后的视频帧集合；

第三模块，用于将经过第二模块预处理获取的视频帧集合输入训练好的桥梁缺陷识别模型中，以提取桥梁缺陷的目标位置和桥梁缺陷的类别，将桥梁缺陷的目标位置和桥梁缺陷的类别作为最终的桥梁缺陷识别结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明由于采用了步骤（1），其可以通过道路巡检车、边缘摄像头设备、无人机载摄像头和用户手机摄像头拍摄桥梁、桥墩、桥梁拉索的表层视频来提取桥梁缺陷数据，因此能够解决现有基于人工的桥梁缺陷识别方法由于自身的局限性导致许多位置无法检测到、检测效率低下、对于检测工作人员存在很大人身安全隐患的技术问题。

2、本发明由于在桥梁缺陷识别模型训练过程中采用了步骤（3-1），其通过翻转、旋转、裁剪数据的方式增强了现有的数据集，因此，能够解决现有基于神经网络模型的桥梁缺陷识别方法其在数据不足时，容易导致模型在训练过程中出现过拟合的情况，并最终降低桥梁缺陷识别精度的技术问题以及现有基于神经网络模型的桥梁缺陷识别方法在制作新的数据样本所需的开销巨大，在图片数据拍摄与标注标签方面都需要付出相当大的人力、物力和时间的技术问题；

3、本发明由于在训练过程中采用了步骤（3-1），其使用了自己采集、处理和标注过的桥梁缺陷数据集进行桥梁缺陷识别模型的训练，扩展了桥梁缺陷的种类，训练出的桥梁缺陷识别模型能够对桥梁裂缝、锈蚀和剥落三种桥梁缺陷进行有效的识别。随着模型使用过程中数据量的增加，模型将能学习到更多的桥梁缺陷的特征，从而对更多的桥梁缺陷进行有效识别。因此能够解决用于桥梁缺陷识别的数据集中桥梁缺陷的种类绝大部分为桥梁裂缝，其他种类的桥梁缺陷图片非常少，用这些数据集训练出来的神经网络模型只能有效检测桥梁裂缝这一种缺陷，导致该方法的应用领域狭窄的技术问题。

4、本发明由于在桥梁缺陷的特征提取的过程中采用了步骤（3-2）到（3-4），其通过将输入图片数据划分成一个个区域并在每个区域内单独计算注意力的方式，从而使计算量不受图片大小的影响，能够有效的提高计算效率，因此能够解决现有的深度神经网络模型训练过程中是对输入的整张图片计算注意力的值，这就导致计算复杂度会随着输入图片大小呈指数级增长，在实际桥梁缺陷识别任务中很难达到较好的实时性的技术问题。

5、本发明由于采用了步骤（3-5）到（3-7），其提取了特征信息损失区域，在桥梁缺陷目标的边缘上加了一层特征信息，因此能够解决现有的卷积神经网络模型在特征提取过程中会造成许多特征损失，导致训练出来的模型在目标检测的边缘有很多的信息损失，对于桥梁裂缝这种本来就小的目标识别效果很差的技术问题。

6、本发明由于在步骤（3-3）和步骤（3-8）中加入了基于transformer结构的模块，因此能够避开图片数据上有较多类似桥梁缺陷的干扰项如阳光照射的阴影、桥梁积水等，虽然其特征类似桥梁缺陷的特征，但是模型不会将其识别出来。

附图说明

图1是本发明基于transformer的桥梁缺陷识别方法中使用的桥梁缺陷识别模型的示意图；

图2是本发明桥梁缺陷识别模型中特征提取主干网络中transformer单元的结构示意图；

图3是本发明基于transformer的桥梁缺陷识别方法的流程示意图；

图4是本发明将输入的桥梁缺陷图片划分成多个区域的示意图；

图5是本发明对于桥梁缺陷中剥落（sp）和锈蚀（rt）情况的识别结果示例；

图6是本发明对于桥梁缺陷中裂缝（ck）情况的识别结果示例；

图7是使用传统卷积神经网络训练出来的模型对于桥梁缺陷中裂缝况的识别结果示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明通过对桥梁缺陷的数据集观察分析发现，桥梁的几种缺陷——裂缝、剥落、锈蚀都有一个特征，即目标太小。过去的一些经典数据集如ImageNet、COCO和PASCAL VOC等，包含的种类都是诸如人类、动物、交通工具和家具用品等这种大的物品。本发明使用传统的语义分割算法在这种小目标的任务上会出现许多的问题——首先，受限于人力标注数据准确度有限，人们在直接标注语义分割数据集时往往很难准确的描绘出物体的边缘，但是将图片进行放大后再标注又会浪费很多的时间。当本发明将直接标注好的数据放大后进行查看，会发现在物体的边缘标注基本都不准确。其次，在目标物体比较小的时候，本发明的训练数据和测试数据对于模型的检测结果就有很大的影响。比如说整个目标物体原本应该占比100%，但是由于本发明标注不精确，这个比例就会降低，目标越大，这种不精确带来的误差就越小，举例来说对于一只小狗，本发明的标注如果边缘稍微多出一点，那么在检测出来时，这多出的一部分只占整个检测区域的很小一部分比例，但是对于一只蝴蝶，检测出来的误差区域就会变得更大。前面提到过桥梁缺陷的目标往往都非常小，所以最后这种边缘不精确会带来很大的误差。

对于图片的特征提取，传统卷积神经网络是使用一个卷积核对整个图像进行扫描。一个卷积核所能关注到的区域仅为m*n的大小。如图4所示，利用transformer结构，本发明可以将一个图片划分为一个一个的区域（patch，然后再对每个区域计算相互之间的一个自注意（self-attention），这样一来本发明就可以计算每一个像素点和其他像素点之间的一个关联性，从而能够关注到图片更多的细节，进而提高密集型的任务如桥梁缺陷识别的准确率。

针对桥梁缺陷识别领域存在的由于细小不足问题，本发明提出了一种基于transformer结构的，对样本进行特征提取、注意力计算和信息损失区域提取的方法。先对现有的数据进行扩充增强，扩充的数据能填补原始样本在样本空间的间隙，提升模型对整个样本空间的泛化能力。然后通过对信息损失区域的特征提取和利用transformer结构进行特征融合，进而提升桥梁缺陷识别模型识别的准确率。

如图3所示，本发明提供了一种基于transformer的桥梁缺陷识别方法，包括以下步骤：

具体而言，本步骤是通过诸如桥梁监测车辆、道路巡检车、边缘摄像头设备、无人机等工具获取桥梁、桥墩、桥梁拉索的表层视频，所有这些表层视频构成桥梁的视频；

本步骤中对视频提取视频帧的时间长度是20到80帧，优选为40帧。

本步骤的优点在于，可以筛选掉大部分的冗余数据，提升训练效率。由于相同的一个桥梁缺陷可能会在视频中连续的一些帧中重复出现，这些数据都提取出来的话对于模型的训练无法带来实际的提升，只会降低训练效率。

本步骤的优点在于，通过减少噪声像素，保留特征像素，简化特征矩阵从而提高计算效率。

如图1所示，本发明的桥梁缺陷识别模型包含依次连接的特征提取主干网络（其是基于transformer优化实现）、信息损失区域提取网络、区域推荐网络（Region ProposalNetwork，简称RPN）、节点编码器、序列编码器（基于transformer优化实现）以及像素解码器网络六个部分。

第一层是特征提取主干网络，特征提取主干网络包含一个区域分割（Patchpartition）模块、一个线性嵌入模块、三个顺次连接的区域合并（Patch merging）模块、以及四个如图2所示的transformer单元（Block），其具体结构为：

区域分割模块，将输入的桥梁缺陷图片（其为RGB图像，宽度W为224，高度H为224，通道数为3）平均分割成16个区域（如图4所示），并在每个区域内部分别计算注意力。

的特征张量。

transformer 单元，其输入为线性嵌入模块输出的

大小的特征张量，输出大小为

的特征张量，此处

=96。

大小的特征张量，输出为

的特征张量，输出为

的特征张量，最终输出

大小的特征张量。

第二层是信息损失区域提取网络，其输入为第一层中最后一个区域合并模块输出的特征张量，经过特征图金字塔网络（Feature Pyramid Networks，简称FPN）上采样阶段的每一层获取一个特征图

，所有特征图构成特征图集合{

，

，

，…，

获取桥梁缺陷目标掩膜

，然后对

，对

和

求差值，获取信息损失区域

，将桥梁缺陷目标掩膜

和信息损失区域

输入到一个全卷积网络中，最终输出目标边缘损失信息感兴趣区域（Region of interest，简称RoI），其为四叉树结构。

，遍历其中的所有特征图，对每个特征图上的每个像素点都生成锚框，然后针对每个锚框而言，将其分为正样本和负样本，正样本为锚框和该特征图上人工标注的掩膜（标注方式见下面步骤（3-1））之间的交并比（intersection overunion，简称IoU）大于0.7的锚框，负样本为锚框与掩膜的交并比小于0.3的锚框，然后对于每个正样本而言，进一步寻找该特征图上所有标注的掩膜中与其相交最大的掩膜，将这个最大的掩膜的桥梁缺陷的类别（裂缝、锈蚀、剥落）赋予这个正样本，然后对该正样本而言，利用前向传播方法计算偏移量，并根据偏移量对该正样本的位置进行调整，最终输出与该正样本对应的、准确的桥梁缺陷分类识别框。

的语义信息三者进行融合后，输出特征融合后的四叉特征树。

本步骤的优点在于，使用了四种不同的信息对节点进行编码，有助于物体边缘检测的优化。

第五层是序列编码器，其输入为第四层输出的特征融合后的四叉特征树，使用多头自注意力模块和全连接前馈网络对该四叉特征树进行特征融合和更新，输出为序列编码后的特征张量。

第六层是像素解码器，其输入为第五层输出的序列编码后的特征张量，使用多层感知机（Multilayer Perceptron，简称MLP）对其进行解码，输出为预测的实例标签。

具体而言，本发明的桥梁缺陷识别模型是通过以下步骤训练获取的：

（3-1）获取多张桥梁缺陷图片（在本实例中是3021张，每张桥梁缺陷图片宽W为224，高H为224，通道数为3）组成的桥梁缺陷数据集，对该桥梁缺陷数据集进行预处理，对预处理后获取的桥梁缺陷数据集进行数据增强操作，对数据增强后的桥梁缺陷数据集进行标注，并将标注后的桥梁缺陷数据集按照3:1:1的比例随机划分为训练集、验证集和测试集。

需要注意的是，本步骤中对图片进行预处理的过程和上述步骤（2）完全相同，在此不再赘述。

此外，针对桥梁缺陷数据集的数据量比较小的情况，在深度学习中，用于训练的数据量少将导致卷积神经网络学习到的特征更片面，所得模型泛化能力差，易发生过拟合。为了避免路面图像的特征和形态发生变化，本发明通过数据增强对数据集进行扩充，具体而言，本发明采用简单的图形变换技术，以获取的桥梁缺陷数据集为基准，创建一些数据的多个副本来增加样本集的多样性，这样能有效降低模型的泛化误差，增加模型的鲁棒性。

进而言之，本发明对桥梁缺陷数据集进行翻转（包括水平翻转和垂直翻转）、平移和旋转处理，神经网络对即便放在不同方向上物体也能进行稳健的分类，网络对物体的平移、旋转以及不同视角等保持高度不变性。利用图片空间上的特性，对数据集进行扩增，通过这种方法，本发明可以将原图片经过数据增强后可获取5个图像副本，这样原来的3021张桥梁缺陷图片增加到18126张。

更进而言之，本步骤中的标注过程具体为，使用标注工具labelme对数据增强后的桥梁缺陷数据集进行缺陷类别标注（即用掩膜的形式将桥梁缺陷标注出来）：裂缝（ck）、锈蚀（rt）、以及剥落（sp）。

再进而言之，本发明中的训练集用于调整桥梁缺陷识别模型中可训练权重和偏置等参数，验证集则被用来调整桥梁缺陷识别模型的学习率等超参数，测试集不参与模型的训练，用于统计测试桥梁缺陷识别模型最后的预测效果。

本步骤优点在于，扩展了桥梁缺陷种类，使得训练出来的桥梁缺陷识别模型不再只能针对裂缝一种缺陷有效，增强了模型的适用性。

大小的卷积核，将桥梁缺陷图片划分成16个

大小的区域，并将这16个区域嵌入成一个维度为

大小的特征张量I；

（3-3）针对步骤（3-1）获取的训练集中的每张桥梁缺陷图片而言，将步骤（3-2）获取的该张桥梁缺陷图片对应的特征张量I输入transformer 单元当中，在该桥梁缺陷图片的16个区域内并行进行注意力的计算（每个区域对应特征张量I的一个

大小的向量范围），并将注意力计算后的所有区域进行合并，以获取该桥梁缺陷图片对应的特征图

（该特征图附加了注意力）；

具体而言，先将输入的特征张量I进行层归一化，然后将特征张量I对应的特征图切分成一个个窗口，计算每个窗口之间的注意力值，计算完注意力之后，将各个窗口合并回来，形成整张桥梁缺陷图片的特征图，将特征图和注意力值进行加权处理，以获取对每个像素点都计算过注意力的特征图，最后再通过transformer 单元中的归一化操作和全连接层处理，输出该桥梁缺陷图片对应的特征图。

上述步骤（3-2）到步骤（3-3）的优点在于，第一：通过引入transformer结构进行特征提取，建立了桥梁缺陷图片中所有像素点之间的关系网络，有利于提高生成掩膜的准确度；第二：将注意力计算限制在

大小的区域内，进行并行的计算，节省总时间，提高运行效率。

输入区域合并模块进行降采样（其用于缩小分辨率，调整通道数），以获取该桥梁缺陷图片对应的、降采样后的特征图

。

具体而言，本步骤一共进行三次降采样，每次降采样在行方向和列方向上，间隔2选取元素，然后拼接在一起作为一整个特征张量，最后展开，此时通道维度会变成原先的4倍（因为高度H和宽度W各缩小2倍），此时再通过一个全连接层再调整通道维度为原来的两倍，从而节省一定的运算量，提高计算效率。

（其中i∈[1，num]，num表示RoI金字塔中的层数），根据获取的所有num个特征图获取目标边缘损失信息RoI特征，并根据目标边缘损失信息RoI特征构建与该桥梁缺陷图片对应的、多层次的RoI四叉树

，RoI四叉树

的各个节点中存储了每个像素点特征和节点之间的相对位置编码。

更为具体地，为了检测RoI金字塔上的不同层级上信息损失节点，信息损失区域提取网络先将特征图

经过FPN网络构建的RoI金字塔上最低层的RoI特征（28x28）和预测的桥梁缺陷粗略掩码作为输入，然后采用一个全卷积网络（四个3×3 卷积）预测四叉树的根节点，每个根结点会对应到临近更高RoI层的4个子节点，对于高层的RoI特征，信息损失区域提取网络对上一层损失区域检测的掩膜做上采样后与RoI特征拼接，并使用单个1×1卷积层预测更精细的信息损失节点，以保持检测模块的轻量化。

上述步骤（3-4）到步骤（3-5）的优点在于，提取了目标边缘的损失信息，使得我们在生成目标掩膜的过程中，可以特别注意损失信息区域特征，提高掩膜生成的准确度。

（3-6）使用步骤（3-5）中RoI金字塔的所有层获取的特征图对RPN网络进行训练，根据训练好的RPN网络为步骤（3-1）获取的训练集中每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框。

本步骤包括以下子步骤：

（3-6-1）设置计数器cnt=1；

（3-6-3）设置计数器cnt2=1；

（3-6-4）判断cnt2是否大于RoI金字塔第cnt1层获取的特征图

（3-6-5）对金字塔第cnt1层获取的特征图

（3-6-6）设置cnt2 = cnt2 + 1，并返回步骤（3-6-4）；

（3-6-7）设置cnt1 = cnt1 + 1，并返回步骤（3-6-2）；

，并根据该得分

并通过softmax函数获取每一个锚点框对应每个类别j的概率

。

Softmax函数如下所示：

3-6-10）利用步骤（3-6-9）获取的概率

和步骤（3-6-5）获取的类别标签

交叉熵损失函数如下：

（3-6-11）根据训练好的RPN网络为步骤（3-1）获取的训练集中的每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框，该目标分类带有该桥梁缺陷图片中桥梁缺陷的种类（裂缝、锈蚀或剥落中的一种）。

上述步骤（3-6-1）到步骤（3-6-11）的优点在于，为模型增加了一个标注框网络，使得模型可以将桥梁缺陷的位置利用锚点框标记出来，能在结果展示时更为直观。

中所有节点之间的相对位置编码，以及本步骤压缩后的局部特征相加，获取该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树。

本步骤优点在于，融合了四种特征对RoI四叉树进行编码，丰富了桥梁缺陷的语义信息，提高桥梁缺陷掩膜生成的精度。

（3-8）针对步骤（3-1）获取的训练集中的每张桥梁缺陷图片而言，将（3-7）获取的该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树输入序列编码器中，由其中的多头注意力（Multi-head Self- attention）模块对该缺陷目标边缘损失信息四叉特征树中的每个节点进行特征融合及更新，从而最终获取该桥梁缺陷图片对应的、序列编码后的特征向量。

具体而言，序列编码器的每一层都由多头自注意力模块和全连接的前馈网络组成。为了给输入序列补充足够的前景和背景信息，本发明还将RoI金字塔中最低层大小为14x14的196个特征点输入。

（3-9）针对步骤（3-1）获取的训练集中的每张桥梁缺陷图片而言，将经过步骤（3-8）获取的该桥梁缺陷图片对应的、序列编码后的特征向量输入像素解码器中（该像素解码器由两层 MLP组成），以对特征向量每个维度的输出查询进行解码，从而获取该桥梁缺陷图片中所有n个像素点（其中n=50176）中每个像素点对应的最终预测缺陷实例标签

，并根据该最终预测缺陷实例标签

和该像素点对应的实际标签

获取以下交叉熵损失函数

。

（3-10）根据步骤（3-9）获取的交叉熵损失损失函数、并利用反向传播方法对桥梁缺陷识别模型进行迭代训练，直到该桥梁缺陷识别模型收敛为止，从而获取初步训练好的桥梁缺陷识别模型。

实验结果

为了说明本发明方法的有效性以及对于分类效果的提升，在桥梁缺陷的数据集上与几个主流的网络模型展开了对比实验。Mask-RCNN和U-net网络是采用传统卷积神经网络方法来获取裂缝特征，再使用FPN，区域推荐的网络，全连接神经网络分类输出的一种裂缝检测算法。而本发明构建的算法由于在主干网络和预测网络不分都加上了多头自注意力，所以在识别的准确度上有较为明显的提高，在输出的分割图像上也更为精细。

从下面的实验结果分析表中可以看出，本发明提出的方法相对于传统方法，在每个桥梁缺陷种类的识别平均精度（Average Precision，简称AP）结果上，都有15%～40%的提升。

如图3所示，用户可以从小程序或无人机载摄像头拍摄桥梁表征图片，上传图片后会发送至本发明的云端服务器将图片数据输入至事先训练好的算法模型中，实时输出缺陷的语义分割图片，如图5、图6所示，从图5中可以看出，图中虽然有非常一小块桥梁剥落（sp）区域，但是模型能准确的将其标注出来，并且掩膜的覆盖度很高；同时，对于多个缺陷重叠的情况，如图中锈蚀和剥落的区域重叠了，模型也能准确的将二者区分开来；从图6中可以看出，对于这种细小的裂缝，模型也能精确的标注出裂缝的掩膜，不会出现传统神经网络训练出来的如图7所示的掩膜断裂的情况。并对缺陷的分类数据统计，最后展示给用户可视化的分析结果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于transformer的桥梁缺陷识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于transformer的桥梁缺陷识别方法，其特征在于，

桥梁缺陷识别模型包含依次连接的特征提取主干网络、信息损失区域提取网络、区域推荐网络RPN、节点编码器、序列编码器以及像素解码器网络六个部分；

，所有特征图构成特征图集合{

，

，

，…，

获取桥梁缺陷目标掩膜

，然后对

，对

和

求差值，获取信息损失区域

，将桥梁缺陷目标掩膜

和信息损失区域

第三层是区域推荐网络，其输入为第二层信息损失区域提取网络获取的特征图集合

3.根据权利要求2所述的基于transformer的桥梁缺陷识别方法，其特征在于，特征提取主干网络的具体结构为：

transformer 单元，其输入为线性嵌入模块输出的

大小的特征张量，输出大小为

的特征张量，其中

=96；

大小的特征张量，输出为

的特征张量，输出为

的特征张量，最终输出

大小的特征张量。

4.根据权利要求3所述的基于transformer的桥梁缺陷识别方法，其特征在于，桥梁缺陷识别模型是通过以下步骤训练获取的：

大小的卷积核，将桥梁缺陷图片划分成16个

大小的区域，并将这16个区域嵌入成一个维度为

大小的特征张量I；

；其中在注意力计算过程中每个区域对应特征张量I的一个

大小的向量范围；

；

，RoI四叉树

，并根据该最终预测缺陷实例标签

和该像素点对应的实际标签

获取交叉熵损失函数

；

5.根据权利要求4所述的基于transformer的桥梁缺陷识别方法，其特征在于，步骤（3-3）具体为，先将输入的特征张量I进行层归一化，然后将特征张量I对应的特征图切分成多个窗口，计算每个窗口之间的注意力值，随后将所有窗口合并，以形成整张桥梁缺陷图片的特征图，并将特征图和注意力值进行加权处理，以获取附加有注意力的特征图，最后再通过transformer 单元中的归一化操作和全连接层处理，输出该桥梁缺陷图片对应的特征图。

6.根据权利要求5所述的基于transformer的桥梁缺陷识别方法，其特征在于，步骤（3-6）包括以下子步骤：

（3-6-1）设置计数器cnt=1；

（3-6-3）设置计数器cnt2=1；

（3-6-4）判断cnt2是否大于RoI金字塔第cnt1层获取的特征图