CN112884760B

CN112884760B - 近水桥梁多类型病害智能检测方法与无人船设备

Info

Publication number: CN112884760B
Application number: CN202110285996.5A
Authority: CN
Inventors: 张建; 何至立; 蒋赏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2023-09-26
Anticipated expiration: 2041-03-17
Also published as: WO2022193420A1; CN112884760A; US20230351573A1

Abstract

本发明公开了一种近水桥梁多类型病害智能检测方法与无人船设备。其方法包括基础设施病害目标检测网络CenWholeNet和基于仿生思想的并行注意力模块PAM，其中的CenWholeNet是一种基于深度学习的Anchor‑free目标检测网络，主要包括骨干网络和检测器两部分，用于自动化、高精度检测采集图像中的病害。其中的PAM将注意力机制引入神经网络当中，包括空间注意力和通道注意力两部分，用于增强神经网络的表达能力。其无人船设备包括船体模块、视频采集模块、激光雷达导航模块和地面站模块，支持无需GPS信息的激光雷达导航、视频信息的远距离实时传输和高鲁棒性实时控制，用于自动化采集桥梁底部信息。本发明可以广泛应用于中小桥梁底部等GPS信号微弱且环境复杂的区域的病害检测中。

Description

近水桥梁多类型病害智能检测方法与无人船设备

技术领域

本发明属于土木工程中的结构健康检测领域，具体涉及一种近水桥梁多类型病害智能检测方法与无人船设备。

背景技术

工程结构在服役过程中，由于荷载和环境等影响，会产生诸多病害。这些病害一旦生成，就会极易累积和扩展，从而影响结构使用寿命和整体安全性，甚至影响人民的生命财产安全。近年来，因为缺乏有效检测保养而发生的结构破坏如桥梁垮塌的案例屡见不鲜。因此，对结构进行定期的检测和保养维护至关重要。

传统的基础设施病害检测方法主要是以人工为主，这些方法需要借助繁杂的工具，并且存在效率低下、人力成本高昂、检测盲区大等问题。所以，最近很多学者将智能检测方法和智能检测设备引入了基础设施病害检测领域。智能检测方法以深度学习技术为代表，它已经给很多行业带来了革命性的解决方案，比如医药健康、航空航天和材料科学等，例如公开号为CN111862112A的专利文献，公开了一种基于深度学习的医学图像分割方法，公开号为CN111651916A的专利文献，公开了一种基于深度学习的材料性能预测方法。同样的，使用深度学习技术进行结构病害的智能感知正吸引着越来越多的人的关注。研究人员将深度学习方法应用在不同病害、不同基础设施的检测中。比如混凝土结构裂缝检测、钢筋混凝土结构多病害检测、钢结构锈蚀检测、螺栓松动检测、古建筑病害检测、盾构隧道缺陷检测等等。但是光有智能算法是不够的，要想实现真正的自动检测，还需要智能的检测设备。为了满足不同的检测项目的需要，多种检测机器人被提出和应用。比如桥梁检测无人机，移动式隧道检测车，桥面检测机器人，爬索机器人等等。比如公开号为CN112171692A的专利文献，公开了一种适用于桥梁挠度智能检测的飞行吸附机器人；公开号为CN111413353A的专利文献，公开了一种智能的移动式隧道衬砌病害综合检测设备；公开号为CN111021244A的专利文献，公开了一种正交异性钢桥面板疲劳开裂检测机器人；公开号为CN109978847A的专利文献，公开了一种基于拉索机器人的索套病害识别方法。

这些方法已经解决了很多工程难题，但是我们同样要注意到目前的解决方案的两点突出不足。(1)目前的智能检测方法主要基于Anchor-based方法，即需要预先设定大量的先验框，也就是anchor boxes，故得名Anchor-based方法。比如公开号为CN111062437A的专利文献，公开了一种基于Faster R-CNN模型的桥梁病害目标检测模型，公开号为CN111310558A的专利文献，同样公开了一种基于Faster R-CNN模型的路面病害提取方法，公开号为CN111127399A的专利文献，公开了一种YOLOv3模型的桥墩病害检测方法。FasterR-CNN模型和YOLO系列模型都是非常经典的Anchor-based方法。Anchor-based方法的第一个突出问题是算法的效果会受到预先设定的先验框的影响。当在处理结构病害这种具有复杂形状、多种长宽比和多种尺寸的特征时，先验框的尺寸与长宽比可能与目标差异过大，这会降低预测结果的召回率。因此，为了提高检测效果往往会预设大量的先验框。这也就带来了Anchor-based方法的第二个突出问题，大量的先验框会引入大量的超参数和设计选择，这会使得模型非常复杂，且计算量较大，计算效率往往不高。所以，传统的智能检测方法并不适合于进行结构病害检测，工程界亟需更加高效简洁、泛化能力更强的新型智能检测算法。(2)目前，智能设备的可检测区域依然十分有限，主要是面向结构外表面等容易检测的区域，例如公开号为CN110894704A的专利文献，公开了一种基于无人机的公路路面表观病害检测方法，公开号为CN111260615A的专利文献，公开了一种基于无人机的桥梁表观病害检测方法。但是，无人机系统对于较为封闭的空间很难奏效，比如大量中小桥梁的底部区域，净空较低，且情况复杂，人工和智能检测设备往往束手无策。以无人机为例，其飞行往往需要有较广阔的无干扰空间、和GPS信号的辅助定位和操控等。但是净空很低的中小桥梁桥底区域GPS信号往往十分微弱，内部情况也十分复杂，无人机飞入会存在信号丢失、碰撞损坏等风险。并且有的区域非常狭小，可能存在有毒气体，人工难以轻易到达。因此，这些区域成为了多年的检测盲区。对这些区域的有效检测也是工程的重点和难点。工程界迫切需要新型的智能检测设备，去检测这种人工和其他智能设备难以检测的区域。

发明内容

为解决上述问题，本发明公开了近水桥梁多类型病害智能检测方法与无人船设备，适合于中小桥梁底部病害自动化、智能化的检测，所提方案包括智能算法和硬件设备两部分。在保证检测精度的同时兼顾检测速度，同时具有较好的泛化能力以及对复杂工程环境的适用性。

为达到上述目的，本发明的技术方案如下：

近水桥梁多类型病害智能检测方法，包括如下组成部分：

组成部分一：智能检测算法：基于深度学习的基础设施病害目标检测网络CenWholeNet；

组成部分二：将并行注意力模块PAM嵌入目标检测网络CenWholeNet中，所述并行注意力模块包括两个子模块，空间注意力子模块和通道注意力子模块；

组成部分三：智能检测设备：基于激光雷达导航的无人船系统，所述无人船系统包括四个模块，船体模块、视频采集模块、激光雷达导航模块和地面站模块。

进一步地，组成部分一中所述的基础设施病害目标检测网络CenWholeNet包括如下步骤：

步骤一：骨干网络：骨干网络用于提取图像的特征；步骤二：检测器：检测器将提取的图像特征转化为计算需要的张量形式，通过损失函数进行优化；步骤三：结果输出：结果输出则是将张量转化为边界框，实现目标检测的预测结果输出。

进一步地，组成部分一中所述的基础设施病害目标检测网络CenWholeNet的步骤一，骨干网络的具体方法如下：

给定输入图片其中W为图像的宽度，H为图像的高度，3表示图片的通道数，即RGB三个通道；通过骨干网络提取输入图像P的特征；本专利推荐采用两种具有影响力的卷积神经网络模型：沙漏网络Hourglass和深度残差网络ResNet，这是两种非常经典的全卷积编码-解码网络；当然，骨干网络的选择并没有明确的限制，其他的特征提取网络都可以作为本模型的骨干网络。

进一步地，组成部分一中所述的基础设施病害目标检测网络CenWholeNet的步骤二，检测器的具体方法如下：

检测器是CenWholeNet的核心，其将骨干网络提取后的特征转换为由4个张量组成的输出集合

表示中心关键点热力图，其中C为病害的类别，这里取为C＝3，r为输出步长，也就是下采样比例，默认的步长为4，通过下采样，我们可以极大提高计算效率；设为ground-truth热力图(ground-truth可以理解成标签)，对于类别c来说，位置(i,j)的ground-truth中心点为首先计算其下采样的等价位置这里然后通过一个高斯核函数，将映射到张量中，Y_p可以由下式定义：

其中，和表示中心点的位置(x,y)，σ_p＝gaussian_radius/3；gaussian_radius表示表示检测框角点偏移的最大半径，该最大半径保证偏移后的检测框与ground-truth检测框的IoU≥t，在所有的实验中都取t＝0.7；将不同中心点对应的所有的Y_p整合起来，即得到ground-truth热力图H：

其中，H_c，x，y表示H在位置(c,x,y)处的值，也就是这个位置为中心点的概率；具体得，H_c,x,y＝1表征中心关键点，即正样本；显然，H_c,x,y＝0为背景，也就是负样本；我们采用focal loss作为一个度量标准来衡量和H之间的距离，即

其中，N为所有中心关键点的数目，α和β是超参数，用来控制权重；在所有的情况下，均取α＝2，β＝4；通过最小化神经网络模型可以更好地预测出目标的中心点的位置；

我们需要获取预测框的尺寸信息W×H才能最终确定边界框，设第k个关键点p_k对应的ground-truth边界框的尺寸为d_k＝(w_k,h_k)，将所有d_k进行整合，即可得到ground-truth边界框尺寸张量

其中，表示像素级加法；对于所有的病害类别，模型会给出一个预测的维度张量我们使用L1 Loss来衡量D和的相似性：

通过最小化模型可以得到每一个预测框的粗略的宽度和高度；

由于图片存在r倍的尺寸缩放(这可以显著提高计算效率，并减少显卡的计算显存消耗)，我们通过引入位置偏移来修正下采样引起的误差；记第k个关键点p_k的坐标为(x_k,y_k)，则映射后的坐标为那么可以得到ground-truth偏移：

整合所有的o_k，即可得到ground-truth偏移矩阵：

这里，第一个维度的2表征关键点(x,y)在W和H两个方向的偏移量；对应的，模型会给出一个预测张量我们使用smooth L1 Loss来训练偏移损失：

此外，为了使模型更加关注目标的整体信息(只有宽度和高度信息是远远不够的)，我们引入了一组新的张量来修正预测框，实验验证这可以显著提高检测精度；具体地，我们将检测框一对角点的连线与x轴的夹角以及检测框的对角线长度作为训练目标；设检测框左上角点和右下角点的坐标为和所以检测框的对角线长度l_k可以计算为：

两个角点之间的连线的倾角θ_k可以由下式计算：

从而，可以构建一对补充极坐标更进一步可以获得ground-truth极坐标矩阵

对应的，模型也会给出一个预测张量这里，Polar和采用一个L1 loss来训练：

最终，对于每一个位置，模型都会预测出C+6的输出，这会组成集合它们也将共享网络的权重；网络总的损失函数可以由下式定义：

在所有的实验中，都设λ_Off＝10，λ_D和λ_Polar均取为0.1。

进一步地，组成部分一中所述的基础设施病害目标检测网络CenWholeNet的步骤三，结果输出的具体步骤如下：

结果输出部分要做的工作是从预测的热力图张量中提取可能的中心关键点坐标，然后根据对应的和中的信息得到预测的边界框；显然，的数值越大就越有可能是中心点；对于类别c来说，如果点p_cxy满足下式，则可以认为p_cxy是一个备选的中心点；

显然，我们并不需要非极大值抑制(NMS)，而是一个3×3的最大池化卷积层，就可以实现备选中心点的提取；设我们选择的中心点集合是其中N_p为选择的中心点总数；对于其中任一中心点我们可以提取对应的尺寸信息偏移信息和极坐标信息首先，根据计算出预测框尺寸修正值：

所以，预测框的具体位置为：

这里，我们简单将边界框尺寸调整超参数取为α_y＝α_x＝0.9，β_y＝β_x＝0.1，并没有涉及复杂的调参过程；值得注意的是，本专利介绍的模型并没有涉及复杂的图像旋转、缩放、翻转等仿射变换技巧，仅仅是一个纯的算法框架；显然，如果超参数数值被进一步优化，图像处理技巧被考虑其中，模型的性能可以进一步提高。

进一步地，组成部分二中所述的并行注意力模块PAM的具体步骤如下：

众所周知，注意力在人类的感知中起着非常重要的作用，人眼或者人耳等器官在获取信息的时候，往往会关注更感兴趣的目标，提高其注意力；而抑制不感兴趣的目标，降低其注意力；从人类的注意力中得到灵感，最近有研究人员提出了一种仿生想法，注意力机制：通过在神经网络中嵌入注意力模块，提高有意义的区域的特征张量的权重，降低没有意义的背景等区域的权重，从而可以提高网络的性能；本专利提出了一种轻量的，即插即用的并行注意力模块PAM，实验验证了PAM可以显著提高神经网络的表达能力；PAM考虑特征图两个维度的注意力，空间注意力和通道注意力，并通过并联的方式进行组合；

给定输入特征图为其中，C，H和W分别表示通道、高度和宽度；首先，通过空间注意力子模块实施变换然后，通过通道注意力子模块实施变换最后得到输出的特征图变换主要包括卷积、最大池化操作、均值池化操作和ReLU函数等等；总的计算过程如下：

其中，表示输出像素级张量加法；

空间注意力子模块强调“在哪里”提高注意力，关注感兴趣的区域的位置(ROIs)；首先，沿着通道方向对特征图进行最大池化操作和均值池化操作(这将有效凸显出ROIs)，得到若干个二维图像，和这里λ₁和λ₂为不同的池化操作权重调整超参数，这里取λ₁＝2，λ₂＝1；U_{avg_s}和U_{max_s}可以由下式计算，MaxPool和AvgPool分别表示最大池化操作和平均池化操作；

接着，引入卷积操作，生成空间注意力权重空间注意力子模块总的计算流程如下：

上式可以等价为：

其中，表示像素级张量乘法，σ表示Sigmoid激活函数，Conv表示卷积操作，卷积核尺寸为3×3；需要指出，空间注意力权重将会沿着通道轴复制；

通道注意力子模块用于寻找内部通道的关系，关心给定特征图中“什么”是令人感兴趣的；首先，沿着宽度和高度方向进行均值池化操作和最大池化操作，生成若干个1维向量，和λ₃和λ₄是不同的池化操作权重调整超参数，这里取λ₃＝2，λ₄＝1；U_{avg_c}和U_{max_c}可以由下式计算：

后续，引入point-wise卷积(PConv)作为通道上下文聚合器来实现point-wise的通道间交互；为了降低参数量，PConv被设计成沙漏的形式，设衰减的比例为r；最后，可以得到通道注意力权重该子模块的计算流程如下：

上式也就等价为：

其中，δ表示ReLU激活函数；PConv1的卷积核尺寸为C/r×C×1×1，逆变换PConv2的卷积核尺寸为C×C/r×1×1；比例r推荐取为16，其他的缩放比例也是可以选择的；需要指出，通道注意力权重将会沿着宽度和高度方向进行复制；

我们提出的PAM是一种即插即用的模块，在尺寸层面，保证了输入张量和输出张量的严格一致；因此理论上可以作为补充模块嵌入任何卷积神经网络模型的任何位置；本专利给出了PAM嵌入Hourglass和ResNet的两种推荐方案，针对ResNet网络，将PAM嵌于残差块中的批标准化层之后，残差连接之前，并在每个残差块中都进行同样的操作；针对Hourglass网络，分为下采样和上采样两个部分，下采样部分，将PAM嵌于残差块之间，作为过渡模块，上采样部分，将PAM嵌于残差连接之前，具体细节见附图。

进一步地，组成部分三中所述的基于激光雷达导航的无人船系统具体细节如下：

无人船系统包括四个模块，船体模块、视频采集模块、激光雷达导航模块和地面站模块，模块之间相互配合，协同工作；

船体模块包括三体船体和动力系统；三体船设计可以使船更加稳定，设计可抵抗6级风浪，有效遥控距离为500米，这基本可以适应绝大部分工程应用场景；船体尺寸为75×47×28厘米，方便运输；无人船有效载重5kg，可以加装多台科学仪器；此外，无人船具备定速巡航的功能，减轻人员的操控负担；

视频采集模块由三轴相机云台、固定前置摄像头和补光器组成；三轴相机云台支持10倍光学变焦、自动对焦、拍照和60FPS的视频录制；这可以满足不同尺度、不同位置的病害拍摄需求；固定前置摄像头可以方便确定船体姿态；通过无线图传设备可以将画面实时传回地面站，一方面可以进行病害识别，一方面可以辅助控制USV；为了应对中小桥梁桥底等光线不足的工作环境，我们加装了可控的LED补光板，内有180颗高亮度LED灯珠；3D打印了承载LED补光板的云台，这可以满足多角度的补光需求；此外还加装有固定前视的LED灯珠，为前视摄像头提供光源支持；

激光雷达导航模块包括二维激光雷达、迷你计算机、一套传输系统和控制系统；激光雷达有效扫描半径12米，可以进行360°全方位扫描；它与迷你计算机连接后，可以进行无人船周围环境的实时建图；通过无线图传，周围场景的信息可以实时传回地面站，从而实现无人船的激光雷达导航；基于激光雷达导航，无人船不再需要GPS定位，这在桥梁底部、地下暗渠等GPS信号微弱的区域非常有优势；无线传输系统支持1080P视频的实时传输，最大传输距离可达10千米；采用冗余传输，保证了链路稳定，抗干扰性较强；控制系统由无线图传设备、Pixhawk 2.4.8飞控、SKYDROID T12接收机组成；通过飞控和接收机，我们可以对船上设备进行有效的控制；

地面站模块包括两个遥控器和诸多显示设备；主遥控器用来操纵无人船，副遥控器用来控制船载科学设备，显示设备用来监视摄像头和激光雷达实时传回的信息；在实际工程检测中，计算机为可选设备，它一方面可以实时显示画面，一方面也可以对图像进行实时处理，识别病害；设备之间相互配合，实现无需GPS信号的智能病害检测。

本发明的有益效果是：

1.在智能检测算法方面，本发明是Anchor-free目标检测算法在结构病害领域的首次应用。传统的Anchor-based方法的检测结果会受到先验框(也就是anchor boxes)的设定的影响，这也就导致了这种算法处理像结构病害这种具有复杂形状、多种尺寸、多种长宽比的特征时(比如钢筋的长宽比可能很大，剥落的长宽比可能很小)，预设的先验框的尺寸与长细比与目标差异会很大，这会检测结果的召回率偏低。此外，为了达到较好的检测效果，往往要预设大量的先验框。这会引入许多超参数和设计选择。这使得模型的设计更加复杂，同时带来了较大的计算量。与Anchor-based方法相比，本发明提出的方法摒弃了复杂的先验框设定，直接预测关键点和相关向量(即宽度、高度等信息)，将它们组成检测框。本发明的方法更加简单、直接与有效，从根本上解决问题，更加适合于具有复杂特征的工程结构病害的检测。除此以为，本发明考虑了注意力机制对神经网络模型的表达能力的增益效果，提出了一个新颖的、轻量的注意力模块。实验结果显示，本发明提出的方法优于多个具有广泛影响力的神经网络模型，在效率和精度两个维度上达到了综合更优的效果。提出的注意力模块也可以在牺牲可以忽略的计算量的前提下，对不同的神经网络模型起到普遍的增益。

2.在智能检测设备方面，本发明提出了一种不依赖GPS信号的无人船方案用于检测中小桥梁底部病害。由于设计和性能的制约，目前的检测设备进行大量的中小桥梁桥底检测时，往往束手无策。以无人机为例，其飞行往往需要有较广阔的无干扰空间、需要GPS辅助定位等。但是在净空很低的中小桥梁桥底区域、城市地下暗渠和下水道等，空间比较封闭，GPS信号往往十分微弱，内部情况十分复杂。无人机飞入会存在信号丢失、碰撞损坏等风险。并且有的区域非常狭小，可能存在有毒气体，人工难以轻易到达。因此，工程界迫切需要一种新型的智能检测设备，去检测人工和其他智能设备难以检测的区域。本发明率先提出了适合于较封闭区域病害检测的高鲁棒性无人船系统，实验结果显示，该系统在提高检测效率的同时，可以降低工程人员的安全风险和检测难度，节省大量的人力成本，具有很强工程适用性和广阔的应用前景。此外，本发明提出的系统不仅适合于中小桥梁底部，对城市地下暗渠、下水道等工程场景同样具有较大应用潜力。

附图说明

图1本发明所提整体框架示意图；

图2本发明所提的CenWholeNet网络示意图；

图3本发明所提的注意力模块PAM细节图；

图4本发明所提的无人船系统架构方案图；

图5本发明所提的极坐标补充信息示意图；

图6本发明所提的PAM嵌入ResNet网络方案图；

图7本发明所提的PAM嵌入Hourglass网络方案图；

图8本发明所提的方法在桥梁群的应用示意图；

图9本发明所提的方法的检测结果示意图；

图10本发明所提的算法框架与其他先进的目标检测算法的检测结果对比表；

图11本发明所提的算法框架与其他先进的目标检测算法训练过程对比。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种近水桥梁多类型病害智能检测方法，该解决方案的整体流程图如图1所示，包括如下组成部分：

组成部分一：智能检测算法：基于深度学习的基础设施病害目标检测网络CenWholeNet，网络细节如图2所示。

组成部分二：将并行注意力模块PAM嵌入目标检测网络CenWholeNet中，所述并行注意力模块包括两个子模块，空间注意力子模块和通道注意力子模块，具体流程如图3所示。

组成部分三：智能检测设备：基于激光雷达导航的无人船系统，所述无人船系统包括四个模块，船体模块、视频采集模块、激光雷达导航模块和地面站模块。无人船系统架构方案如图4所示。

其中组成部分一中所述的基础设施病害目标检测网络CenWholeNet包括如下步骤：步骤一：骨干网络：骨干网络用于提取图像的特征；步骤二：检测器：检测器将提取的图像特征转化为计算需要的张量形式，通过损失函数进行优化；步骤三：结果输出：结果输出则是将张量转化为边界框，实现目标检测的预测结果输出。

给定输入图片其中W为图像的宽度，H为图像的高度，3表示图片的通道数，即RGB三个通道。通过骨干网络提取输入图像P的特征。本专利推荐采用两种具有影响力的卷积神经网络模型：沙漏网络Hourglass和深度残差网络ResNet，这是两种非常经典的全卷积编码-解码网络。当然，骨干网络的选择并没有明确的限制，其他的特征提取网络都可以作为本模型的骨干网络。

表示中心关键点热力图，其中C为病害的类别，这里取为C＝3，r为输出步长，也就是下采样比例，默认的步长为4，通过下采样，我们可以极大提高计算效率。设为ground-truth热力图(ground-truth可以理解成标签)，对于类别c来说，位置(i,j)的ground-truth中心点为首先计算其下采样的等价位置这里然后通过一个高斯核函数，将映射到张量中。Y_p可以由下式定义：

其中，和表示中心点的位置(x,y)，σ_p＝gaussian_radius/3。gaussian_radius表示表示检测框角点偏移的最大半径，该最大半径保证偏移后的检测框与ground-truth检测框的交并比IoU≥t，在所有的实验中都取t＝0.7。将不同中心点对应的所有的Yp整合起来，即得到ground-truth热力图H：

其中，H_c,x,y表示H在位置(c,x,y)处的值，也就是这个位置为中心点的概率。具体得，H_c,x,y＝1表征中心关键点，即正样本；显然，H_c,x,y＝0为背景，也就是负样本。我们采用focal loss作为一个度量标准来衡量和H之间的距离，即

其中，N为所有中心关键点的数目，α和β是超参数，用来控制权重。在所有的情况下，均取α＝2，β＝4。通过最小化神经网络模型可以更好地预测出目标的中心点的位置。

其中，表示像素级加法。对于所有的病害类别，模型会给出一个预测的维度张量我们使用L1 Loss来衡量D和的相似性：

通过最小化模型可以得到每一个预测框的粗略的宽度和高度。

整合所有的o_k，即可得到ground-truth偏移矩阵：

这里，第一个维度的2表征关键点(x,y)在W和H两个方向的偏移量。对应的，模型会给出一个预测张量我们使用smooth L1 Loss来训练偏移损失：

此外，为了使模型更加关注目标的整体信息(只有宽度和高度信息是远远不够的)，我们引入了一组新的张量来修正预测框，实验验证这可以显著提高检测精度。具体地，我们将检测框一对角点的连线与x轴的夹角以及检测框的对角线长度作为训练目标，如图5所示。设检测框左上角点和右下角点的坐标为和所以检测框的对角线长度l_k可以计算为：

两个角点之间的连线的倾角θ_k可以由下式计算：

最终，对于每一个位置，模型都会预测出C+6的输出，这会组成集合它们也将共享网络的权重。网络总的损失函数可以由下式定义：

在所有的实验中，都设λ_Off＝10，λ_D和λ_Polar均取为0.1。

结果输出部分要做的工作是从预测的热力图张量中提取可能的中心关键点坐标，然后根据对应的和中的信息得到预测的边界框。显然，的数值越大就越有可能是中心点。对于类别c来说，如果点p_cxy满足下式，则可以认为p_cxy是一个备选的中心点。

显然，我们并不需要非极大值抑制(NMS)，而是一个3×3的最大池化卷积层，就可以实现备选中心点的提取。设我们选择的中心点集合是其中N_p为选择的中心点总数。对于其中任一中心点我们可以提取对应的尺寸信息偏移信息和极坐标信息首先，根据计算出预测框尺寸修正值：

所以，预测框的具体位置为：

这里，我们简单将边界框尺寸调整超参数取为α_y＝α_x＝0.9，β_y＝β_x＝0.1，并没有涉及复杂的调参过程。值得注意的是，本专利介绍的模型并没有涉及复杂的图像旋转、缩放、翻转等仿射变换技巧，仅仅是一个纯的算法框架。显然，如果超参数数值被进一步优化，图像处理技巧被考虑其中，模型的性能可以进一步提高。

众所周知，注意力在人类的感知中起着非常重要的作用，人眼或者人耳等器官在获取信息的时候，往往会关注更感兴趣的目标，提高其注意力。而抑制不感兴趣的目标，降低其注意力。从人类的注意力中得到灵感，最近有研究人员提出了一种仿生想法，注意力机制：通过在神经网络中嵌入注意力模块，提高有意义的区域的特征张量的权重，降低没有意义的背景等区域的权重，从而可以提高网络的性能。本专利提出了一种轻量的，即插即用的并行注意力模块PAM，实验验证了PAM可以显著提高神经网络的表达能力。PAM考虑特征图两个维度的注意力，空间注意力和通道注意力，并通过并联的方式进行组合。

给定输入特征图为其中，C，H和W分别表示通道、高度和宽度。首先，通过空间注意力子模块实施变换然后，通过通道注意力子模块实施变换最后得到输出的特征图变换主要包括卷积、最大池化操作、均值池化操作和ReLU函数等等。总的计算过程如下：

其中，表示输出像素级张量加法。

空间注意力子模块强调“在哪里”提高注意力，关注感兴趣的区域的位置(ROIs)。首先，沿着通道方向对特征图进行最大池化操作和均值池化操作(这将有效凸显出ROIs)，得到若干个二维图像，和这里λ₁和λ₂为不同的池化操作权重调整超参数，这里取λ₁＝2，λ₂＝1。U_{avg_s}和U_{max_s}可以由下式计算，MaxPool和AvgPool分别表示最大池化操作和平均池化操作。

上式可以等价为：

其中，表示像素级张量乘法，σ表示Sigmoid激活函数，Conv表示卷积操作，卷积核尺寸为3×3。需要指出，空间注意力权重将会沿着通道轴复制。

通道注意力子模块用于寻找内部通道的关系，关心给定特征图中“什么”是令人感兴趣的。首先，沿着宽度和高度方向进行均值池化操作和最大池化操作，生成若干个1维向量，和λ₃和λ₄是不同的池化操作权重调整超参数，这里取λ₃＝2，λ₄＝1。U_{avg_c}和U_{max_c}可以由下式计算：

后续，引入point-wise卷积(PConv)作为通道上下文聚合器来实现point-wise的通道间交互。为了降低参数量，PConv被设计成沙漏的形式，设衰减的比例为r。最后，可以得到通道注意力权重该子模块的计算流程如下：

上式也就等价为：

其中，δ表示ReLU激活函数。PConv1的卷积核尺寸为C/r×C×1×1，逆变换PConv2的卷积核尺寸为C×C/r×1×1。比例r推荐取为16，其他的缩放比例也是可以选择的。需要指出，通道注意力权重将会沿着宽度和高度方向进行复制。

我们提出的PAM是一种即插即用的模块，在尺寸层面，保证了输入张量和输出张量的严格一致；因此理论上可以作为补充模块嵌入任何卷积神经网络模型的任何位置；本专利给出了PAM嵌入Hourglass和ResNet的两种推荐方案，针对ResNet网络，将PAM嵌于残差块中的批标准化层之后，残差连接之前，并在每个残差块中都进行同样的操作；针对Hourglass网络，分为下采样和上采样两个部分，下采样部分，将PAM嵌于残差块之间，作为过渡模块，上采样部分，将PAM嵌于残差连接之前，具体嵌入细节分别见图6和图7。

无人船系统包括四个模块，船体模块、视频采集模块、激光雷达导航模块和地面站模块，模块之间相互配合，协同工作。

船体模块包括三体船体和动力系统。三体船设计可以使船更加稳定，设计可抵抗6级风浪，有效遥控距离为500米，这基本可以适应绝大部分工程应用场景。船体尺寸为75×47×28厘米，方便运输。无人船有效载重5kg，可以加装多台科学仪器。此外，无人船具备定速巡航的功能，减轻人员的操控负担。

视频采集模块由三轴相机云台、固定前置摄像头和补光器组成。三轴相机云台支持10倍光学变焦、自动对焦、拍照和60FPS的视频录制。这可以满足不同尺度、不同位置的病害拍摄需求。固定前置摄像头可以方便确定船体姿态。通过无线图传设备可以将画面实时传回地面站，一方面可以进行病害识别，一方面可以辅助控制USV。为了应对中小桥梁桥底等光线不足的工作环境，我们加装了可控的LED补光板，内有180颗高亮度LED灯珠。3D打印了承载LED补光板的云台，这可以满足多角度的补光需求。此外还加装有固定前视的LED灯珠，为前视摄像头提供光源支持。

激光雷达导航模块包括二维激光雷达、迷你计算机、一套传输系统和控制系统。激光雷达有效扫描半径12米，可以进行360°全方位扫描。它与迷你计算机连接后，可以进行无人船周围环境的实时建图。通过无线图传，周围场景的信息可以实时传回地面站，从而实现无人船的激光雷达导航。基于激光雷达导航，无人船不再需要GPS定位，这在桥梁底部、地下暗渠等GPS信号微弱的区域非常有优势。无线传输系统支持1080P视频的实时传输，最大传输距离可达10千米。采用冗余传输，保证了链路稳定，抗干扰性较强。控制系统由无线图传设备、Pixhawk 2.4.8飞控、SKYDROID T12接收机组成。通过飞控和接收机，我们可以对船上设备进行有效的控制。

地面站模块包括两个遥控器和诸多显示设备。主遥控器用来操纵无人船，副遥控器用来控制船载科学设备，显示设备用来监视摄像头和激光雷达实时传回的信息。在实际工程检测中，计算机为可选设备，它一方面可以实时显示画面，一方面也可以对图像进行实时处理，识别病害。设备之间相互配合，实现无需GPS信号的智能病害检测。

实施例1

在南京九龙湖水系桥梁群中，对所提方案进行了检验，如图8所示。该桥梁群内共有5座中小桥梁，采集的图像包括三种病害：裂缝、剥落和钢筋漏出，病害图像的像素分辨率为512×512。基于PyTorch深度学习框架进行模型的搭建、训练和测试。训练时的Batchsize取为2，测试时的Batchsize取为1，学习率取为5×10^-4。本发明所提方案的检测结果如图9所示，热力图为网络直接输出的可视化结果，可以对目标检测的结果提供佐证。

我们还在相同数据集上，将本发明所提方法与最先进的目标检测模型进行了对比，包括Anchor-based方法中具有广泛影响力的目标检测方法Faster R-CNN方法和在工业界中得到广泛应用的YOLO方法中最新的YOLOv5模型，Anchor-free中广受好评的CenterNet方法。此外，我们还将我们提出的注意力模块PAM与深度学习社区公认的优秀的、经典的注意力模块SENet和CBAM进行了对比。

选择的评估指标是深度学习领域中普遍采用的平均精度AP和平均召回率AR。它们均是不同类别、不同图像下的平均值，下面简要叙述计算过程。首先介绍一个关键概念，交并比IoU。它是目标检测领域中的常用概念，衡量候选框也就是模型的预测结果和ground-truth边界框的重叠程度，即交集与并集的比值，可以由以下公式计算。

对于每一个预测框，其与ground-truth边界框之间考虑3种关系。与ground-truth边界框的IoU大于规定的阈值的预测框数量，则记为真正类TP；与ground truth边界框的IoU小于阈值的预测框数量，记为假正类FP，未检测到的ground truth边界框的数量，记为假负类FP。则准确率可以计算为

召回率可以计算为

因此，根据IoU阈值的不同，可以计算出不同的精度。通常将IoU划分为10类，0.50:0.05:0.95。实施例中用到的AP₅₀是IoU阈值为0.50时的精度，AP₇₅是IoU阈值为0.75时的精度，平均精度AP表示10个IoU阈值下的平均精度，即

这是衡量模型检测性能最重要的指标。平均召回率AR是每张图片上，给定1、10和100次检测下，产生的最大召回。然后在类别和10个IoU阈值下进行平均，可以得到3个子指标AR₁，AR₁₀和AR₁₀₀。显然，AP和AR的数值越接近1，则测试结果越好，越贴近标签。

不同方法间的预测结果对比如下图10所示，其中参数量是一个恒量深度学习模型“体积”的量。FPS(frame-per-second)表示算法1秒钟处理图像的数目，也就是表征了算法的运行速度。与Faster R-CNN方法相比，本发明提出的方法在效率和精度两个维度上，都明显优于Faster R-CNN。与YOLO v5的4个子版本YOLO v5s，YOLO v5m，YOLO v5l和YOLO v5x都进行了对比，可以看到效果并不是十分理想，我们对YOLOv5的差检测结果感到非常震惊。只能将最好的YOLO v5子版本YOLO v5x训练了更多的Epoch，才获得了可以比较的性能。虽然运行速度上，YOLO v5稍快，但是精度上远远不如本文所提方法。与CenterNet方法相比，运行速度相同，但是检测效果远高于CenterNet。在注意力模块层面上的比较可以得出两个结论：(1)本发明提出的PAM可以在牺牲少量计算量的前提下，对不同的深度学习模型起到普遍的、大幅的增益效果；(2)和SENet和CBAM相比，PAM可以获得更多的增益加成，明显优于SENet和CBAM。

不同方法间的训练过程对比如图11所示，本发明所提方法为圆圈标注线。可以很明显看到，虽然训练的结果会发生不同程度的震荡，但是与传统方法相比，我们的方法总体上均可以获得更高的AP和AR。即可以获得更好的目标检测效果。

综上，具体实施例验证了本发明所提方案的有效性和对复杂工程的适用性。与传统深度学习方法相比，所提智能检测方法更加适合于长细比多变和形态复杂的多病害检测。所提无人船系统也具有高鲁棒性和高实用性。

以上公开的仅为本发明的一个典型实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员经过阅读专利之后，对本专利进行的同质修改都应落入本发明的保护范围。

Claims

1.近水桥梁多类型病害智能检测方法，其特征在于：包括如下组成部分：

组成部分一：智能检测算法：基于深度学习的基础设施病害目标检测网络CenWholeNet；具体包括如下步骤：

步骤一：骨干网络：骨干网络用于提取图像的特征；具体方法如下：给定输入图片其中W为图像的宽度，H为图像的高度，3表示图片的通道数，即RGB三个通道；通过骨干网络提取输入图像P的特征；采用两种卷积神经网络模型：沙漏网络Hourglass和深度残差网络ResNet；

步骤二：检测器：检测器将提取的图像特征转化为计算需要的张量形式，通过损失函数进行优化；

具体方法如下：

表示中心关键点热力图，其中C为病害的类别，这里取为C＝3，r为输出步长，也就是下采样比例，默认的步长为4，通过下采样，提高计算效率；设为ground-truth热力图，对于类别C来说，位置(i，j)的ground-truth中心点为首先计算其下采样的等价位置这里然后通过一个高斯核函数，将映射到张量中，Y_p下式定义：

其中，和表示中心点的位置(x，y)，σ_p＝gaussian_radius/3；gaussian_radius表示表示检测框角点偏移的最大半径，该最大半径保证偏移后的检测框与ground-truth检测框的交并比IoU≥t，在所有的实验中都取t＝0.7；将不同中心点对应的所有的Y_p整合起来，即得到ground-truth热力图H：

其中，H_c，x，y表示H在位置(c，x，y)处的值，也就是这个位置为中心点的概率；具体得，H_c，x，y＝1表征中心关键点，即正样本；显然，H_c，x，y＝0为背景，也就是负样本；采用focalloss作为一个度量标准来衡量和H之间的距离，即

其中，N为所有中心关键点的数目，α和β是超参数，用来控制权重；在所有的情况下，均取α＝2，β＝4；通过最小化神经网络模型更好地预测出目标的中心点的位置；

获取预测框的尺寸信息W×H才能最终确定边界框，设第k个关键点p_k对应的ground-truth边界框的尺寸为d_k＝(w_k，h_k)，将所有d_k进行整合，得到ground-truth边界框尺寸张量

其中，表示像素级加法；对于所有的病害类别，模型会给出一个预测的维度张量使用L1 Loss来衡量D和的相似性：

通过最小化模型得到每一个预测框的粗略的宽度和高度；

由于图片存在r倍的尺寸缩放，通过引入位置偏移来修正下采样引起的误差；记第k个关键点p_k的坐标为(x_k，y_k)，则映射后的坐标为那么得到ground-truth偏移：

整合所有的o_k，得到ground-truth偏移矩阵

这里，第一个维度的2表征关键点(x，y)在W和H两个方向的偏移量；对应的，模型会给出一个预测张量使用smooth L1 Loss来训练偏移损失：

此外，为了使模型更加关注目标的整体信息，引入了一组新的张量来修正预测框，提高检测精度；具体地，将检测框一对角点的连线与x轴的夹角以及检测框的对角线长度作为训练目标；设检测框左上角点和右下角点的坐标为和所以检测框的对角线长度l_k计算为：

两个角点之间的连线的倾角θ_k由下式计算：

从而构建一对补充极坐标更进一步获得ground-truth极坐标矩阵

对应的，模型也会给出一个预测张量这里，Polar和采用一个L1loss来训练：

最终，对于每一个位置，模型都会预测出C+6的输出，这会组成集合它们也将共享网络的权重；网络总的损失函数由下式定义：

在所有的实验中，都设λ_Off＝10，λ_D和λ_Polar均取为0.1；

步骤三：结果输出：结果输出则是将张量转化为边界框，实现目标检测的预测结果输出；具体步骤如下：

结果输出部分要做的工作是从预测的热力图张量中提取可能的中心关键点坐标，然后根据对应的和中的信息得到预测的边界框；显然，的数值越大就越有可能是中心点；对于类别C来说，如果点p_cxy满足下式，则认为p_cxy是一个备选的中心点；

中心点集合是其中N_p为选择的中心点总数；对于其中任一中心点提取对应的尺寸信息偏移信息和极坐标信息首先，根据计算出预测框尺寸修正值：

所以，预测框的具体位置为：

这里，将边界框尺寸调整超参数取为α_y＝α_x＝0.9，β_y＝β_x＝0.1；

组成部分二：将并行注意力模块PAM嵌入目标检测网络CenWholeNet中，所述并行注意力模块包括两个子模块：空间注意力子模块和通道注意力子模块；其中并行注意力模块的具体步骤如下：

PAM考虑特征图两个维度的注意力，空间注意力和通道注意力，并通过并联的方式进行组合；

给定输入特征图为其中V、H和W分别表示通道、高度和宽度；首先，通过空间注意力子模块实施变换然后，通过通道注意力子模块实施变换最后得到输出的特征图变换主要包括卷积、最大池化操作、均值池化操作和ReLU函数；总的计算过程如下：

其中，表示输出像素级张量加法；

空间注意力子模块强调“在哪里”提高注意力，关注感兴趣的区域的位置；首先，沿着通道方向对特征图进行最大池化操作和均值池化操作，得到若干个二维图像，和这里λ₁和λ₂为不同的池化操作权重调整超参数，这里取λ₁＝2，λ₂＝1；U_{avg_s}和U_{max_s}由下式计算，MaxPool和AvgPool分别表示最大池化操作和平均池化操作；

上式等价为：

通道注意力子模块用于寻找内部通道的关系，关心给定特征图中“什么”是令人感兴趣的；首先，沿着宽度和高度方向进行均值池化操作和最大池化操作，生成若干个1维向量，和λ₃和λ₄是不同的池化操作权重调整超参数，这里取λ₃＝2，λ₄＝1；U_{avg_c}和U_{max_c}由下式计算：

后续，引入point-wise卷积作为通道上下文聚合器来实现point-wise的通道间交互；为了降低参数量，P_Conv被设计成沙漏的形式，设衰减的比例为_r；最后得到通道注意力权重该子模块的计算流程如下：

上式也就等价为：

其中，δ表示ReLU激活函数；PConv1的卷积核尺寸为V/r×V×1×1，逆变换PConv2的卷积核尺寸为V×V/r×1×1；比例r推荐取为16，需要指出，通道注意力权重将会沿着宽度和高度方向进行复制；

2.根据权利要求1所述的近水桥梁多类型病害智能检测方法，其特征在于：组成部分三中所述的基于激光雷达导航的无人船系统具体细节如下：

船体模块包括三体船体和动力系统；三体船更加稳定，能够抵抗6级风浪，有效遥控距离为500米，能够适应工程应用场景；船体尺寸为75×47×28cm，方便运输；无人船有效载重5kg，加装多台科学仪器；此外，无人船具备定速巡航的功能，减轻人员的操控负担；

视频采集模块由三轴相机云台、固定前置摄像头和补光器组成；三轴相机云台支持10倍光学变焦、自动对焦、拍照和60FPS的视频录制；满足不同尺度、不同位置的病害拍摄需求；固定前置摄像头能够方便确定船体姿态；通过无线图传设备将画面实时传回地面站，一方面进行病害识别，一方面辅助控制USV；为了应对中小桥梁桥底光线不足的工作环境，加装可控的LED补光板，内有180颗高亮度LED灯珠；3D打印了承载LED补光板的云台，满足多角度的补光需求；此外还加装有固定前视的LED灯珠，为前视摄像头提供光源支持；

激光雷达导航模块包括二维激光雷达、迷你计算机、一套传输系统和控制系统；激光雷达有效扫描半径12米，能够进行360°全方位扫描；它与迷你计算机连接后，能够进行无人船周围环境的实时建图；通过无线图传，周围场景的信息实时传回地面站，从而实现无人船的激光雷达导航；基于激光雷达导航，无人船不再需要GPS定位，这在桥梁底部、地下暗渠这些GPS信号微弱的区域非常有优势；无线传输系统支持1080P视频的实时传输，最大传输距离达10km；采用冗余传输，保证了链路稳定，抗干扰性较强；控制系统由无线图传设备、Pixhawk 2.4.8飞控、SKYDROID T12接收机组成；通过飞控和接收机，对船上设备进行有效的控制；

地面站模块包括两个遥控器和诸多显示设备；主遥控器用来操纵无人船，副遥控器用来控制船载科学设备，显示设备用来监视摄像头和激光雷达实时传回的信息；在实际工程检测中，计算机为可选设备，它一方面实时显示画面，一方面对图像进行实时处理，识别病害；设备之间相互配合，实现无需GPS信号的智能病害检测。