CN112767357A

CN112767357A - 一种基于Yolov4的混凝土结构病害检测方法

Info

Publication number: CN112767357A
Application number: CN202110076188.8A
Authority: CN
Inventors: 陈智丽; 张伍彪; 李宇鹏
Original assignee: Shenyang Jianzhu University
Current assignee: Shenyang Jianzhu University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-07

Abstract

本发明提供了一种基于Yolov4的混凝土结构病害检测方法，包括采集混凝土结构图像，并标注出图像中混凝土结构的病害，记录病害在图像中的位置信息和类别信息；根据采集并标注的混凝土结构图像建立混凝土结构病害数据集，并划分训练集和测试集；将训练集图像输入Yolov4网络模型进行训练；将测试集图像输入训练后的Yolov4网络模型，输出检测结果。以此方式，可以实现混凝土结构病害的自动检测和识别，很好地发挥了深度卷积神经网络强大的特征提取能力，充分地提取出每类病害的特征，解决现有技术仅能在有限环境下检测混凝土结构病害的问题，提高混凝土结构病害检测的检出率和准确率。

Description

一种基于Yolov4的混凝土结构病害检测方法

技术领域

本发明的实施例一般涉及混凝土检测领域，并且更具体地，涉及一种基于Yolov4的混凝土结构病害检测方法。

背景技术

混凝土长期受到各种不同力的综合作用以及在极端恶劣环境中受到氯盐和硫酸盐腐蚀等外部环境影响，不可避免地出现了裂缝、孔洞、破损、蜂窝麻面、泛碱和露筋等多种病害。而由混凝土结构组成的桥梁、堤坝等土木工程对混凝土结构的完整性要求极高，在其长期服役的过程中，若不及时进行检测和维护，随着时间的推移，最终会导致垮塌发生事故，造成不可挽回的损失。

现有技术主要检测混凝土结构病害中的裂缝，采用基于数字图像处理的传统检测算法，对采集后的裂缝图像进行灰度化、滤波、分割等预处理得到二值图像，再结合目标区域特点提取裂缝。也有一些技术使用机器学习与模式识别的方法，如卷积神经网络(Convolutional Neural Network,CNN)，BP(Back Propagation)神经网络、支持向量机等。

现有的混凝土结构病害检测技术虽然取得了一些进展，但是仍存在一些问题，混凝土结构病害是多样的，且每种病害类型又形态各异，给检测工作带来了很大的难度。以裂缝为例，有横向、纵向、右倾斜、左倾斜和网状裂缝，而且混凝土长期暴露在室外环境，病害周围通常会有一些水渍、污渍、树叶等杂物，存在大量的噪声干扰。使用传统的数字图像处理方法进行检测，很难确定阈值和参数，检测结果不尽人意。

部分研究者使用机器学习的方法进行检测，相对于传统的数字图像处理方法，其性能有了明显的提升。但是由于混凝土结构病害缺少公开的数据集，大部分研究者都是使用自己的数据集进行实验，其数据集一般都经过清洗，去除了复杂的背景，人工挑出感兴趣的区域，大大降低了检测的难度，实际工程意义并不大。此外，现有的混凝土结构病害检测技术主要是对裂缝单种病害进行检测，而不能同时检测破损、孔洞、露筋等多类病害，检测能力较为单一。

综上，现有技术实用性不强，泛化能力差，无法同时检测多类病害，且缺少具有实际工程意义的数据集用于技术开发和性能验证。

发明内容

根据本发明的实施例，提供了一种基于Yolov4的混凝土结构病害检测方案。

在本发明的第一方面，提供了一种基于Yolov4的混凝土结构病害检测方法。该方法包括：

S101、采集混凝土结构图像，并标注出图像中混凝土结构的病害，记录病害在图像中的位置信息和类别信息；

S102、根据采集并标注的混凝土结构图像建立混凝土结构病害数据集，并划分训练集和测试集；

S103、将训练集图像输入Yolov4网络模型进行训练，得到训练后的Yolov4网络模型；

S104、将测试集图像输入训练后的Yolov4网络模型，输出检测结果。

进一步地，所述Yolov4网络模型包括：

特征提取模块，用于将输入的图像调整为像素大小为m×m的图像，输入到cresblock中，得到若干特征层；

特征增强模块，用于获取特征层中的有效特征层，使用SPP和PAN进行特征增强，输出不同尺度的张量；

头部解码模块，用于对所述特征增强模块输出的张量进行解码，预测边界框，并得出每个边界框的输出结果。

进一步地，所述特征提取模块，还用于利用填充条填充调整后图像的缺失部分。

进一步地，所述cresblock是CSPNet与Residual block的结合，用于将残差块的堆叠进行拆分，得到第一部分和第二部分，所述第一部分直接进行残差块的堆叠，第二部分则作为一个正常的残差边，经过处理后与所述第一部分进行堆叠。

进一步地，所述对所述特征增强模块输出的张量进行解码，包括：

将若干组张量表示为X₁×X₁×E，X₂×X₂×E，…，X_n×E_n×E；其中E＝R×(Y+OP+CP)；R表示每个尺度的特征图的每个网格预测的边界框数量；Y表示先验框的调整参数个数和，所述先验框的调整参数包括中心调整参数和宽高调整参数；OP表示目标预测，即预测的边界框中包含目标的概率；CP表示类预测，即预测的边界框中包含的目标是某一类目标的概率。

进一步地，所述预测的边界框由边界框中心位置及宽高共同调整；其中预测的边界框的中心位置表示为(b_x，b_y)；

b_x＝σ(t_x)+C_x

b_y＝σ(t_y)+c_y

b_x为边界框的中心位置横坐标；b_y为边界框的中心位置纵坐标；σ为sigmoid函数；(t_x,t_y)为先验框中心的调整参数；(c_x,c_y)为网格相对于特征图左上角的偏移量；

预测的边界框的宽和高分别表示为：

其中，b_w为预测的边界框的宽；b_h为预测的边界框的高；p_w为先验框的宽；p_h为先验框的高；t_w为先验框宽的调整参数；t_h为先验框高的调整参数。

进一步地，所述得出每个边界框的输出结果，包括：

将目标预测和类预测相乘，得到置信度分数；

将每个边界框对应不同目标类别的置信度分数排序进行非极大值抑制，得到目标的类别信息和位置信息作为边界框的输出结果。

进一步地，所述Yolov4网络模型的损失函数包括位置损失、置信度损失和类别损失，即Yolov4网络模型的损失函数为：

LOSS＝L_CIoU+L_cls+L_obj

其中，LOSS为Yolov4网络模型的损失函数；L_CIoU表示位置损失；L_cls表示置信度损失；L_obj表示类别损失；

所述位置损失L_CIoU为：

其中，

IoU为真实的边界框B^gt与预测的边界框B之间的交并比，B^gt＝(x^gt,y^gt,w^gt,h^gt)，B＝(x,y,w,h)，(x^gt,y^gt)表示真实的边界框的中心位置，w^gt、h^gt分别表示真实的边界框的宽、高，(x,y)表示预测的边界框的中心位置，w、h分别表示预测的边界框的宽、高；R_DIoU为DIoU的惩罚项，

b和b^gt分别表示B和B^gt的中心点，ρ表示欧氏距离，c表示能够同时包含B和B^gt的最小矩形的对角线的长度；α为一个正权衡参数，

v用于度量长宽比的一致性，

S×S表示不同特征层的网格数量；Box是每个网格的预测的边界框数量；λ_coord是惩罚系数；

所述置信度损失L_cls为：

其中，

表示如果第i个网格中的第j个预测框包括目标，其值为1，否则为0；

表示第i个网格实际是某一类目标的概率；p_i(c)表示网络预测出的第i个网格是某一类目标的概率；

所述类别损失L_obj为：

其中，

表示如果第i个网格中的第j个预测框没有目标，其值为1，否则为0；

表示第i个网格中实际包含目标的概率，包含为1，反之为0；C_i表示网络预测出的第i个网格包含目标的概率；λ_noobj为惩罚项。

在本发明的第二方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本发明的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本发明的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。

本发明能够将基于深度学习的检测技术应用到混凝土结构病害检测，实现混凝土结构病害的自动检测和识别，很好地发挥了深度卷积神经网络强大的特征提取能力，能够充分地提取出每类病害的特征，解决现有技术仅能在有限环境下检测混凝土结构病害的问题，提高混凝土结构病害检测的检出率和准确率。

附图说明

结合附图并参考以下详细说明，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本发明的实施例的基于Yolov4的混凝土结构病害检测方法的流程图；

图2示出了根据本发明的实施例的存在混凝土裂缝病害的实际桥梁图像；

图3示出了根据本发明的实施例的存在混凝土孔洞病害的实际桥梁图像；

图4示出了根据本发明的实施例的标注出混凝土结构病害的实际桥梁图像；

图5示出了根据本发明的实施例的Yolov4网络模型的结构示意图；

图6示出了根据本发明的实施例的填充和未填充图像大小调整结果比较示意图；

图7示出了根据本发明的实施例的cresblock结构示意图；

图8示出了根据本发明的实施例的三个同的特征层示意图；

图9示出了根据本发明的实施例的预测的边界框位置示意图；

图10示出了根据本发明的实施例的置信度分数计算过程示意图；

图11示出了能够实施本发明的实施例的示例性电子设备的方框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明中，能够将基于深度学习的检测技术应用到混凝土结构病害检测，实现混凝土结构病害的自动检测和识别，很好地发挥了深度卷积神经网络强大的特征提取能力，能够充分地提取出每类病害的特征，解决现有技术仅能在有限环境下检测混凝土结构病害的问题，提高混凝土结构病害检测的检出率和准确率。

图1示出了本发明实施例的基于Yolov4的混凝土结构病害检测方法的流程图。

该方法包括：

S101、采集混凝土结构图像，并标注出图像中混凝土结构的病害，记录病害在图像中的位置信息和类别信息。

作为本发明的一种实施例，在室外实际工程环境下，使用相机采集大量实际桥梁图像。所述图像的分辨率为3000×4000像素。这些图像包含了一种或多种混凝土结构病害，如裂缝、孔洞、露筋、破损和泛碱等。如图2所示为存在混凝土裂缝病害的实际桥梁图像；如图3所示为存在混凝土孔洞病害的实际桥梁图像。

如图4所示为标注出混凝土结构病害的实际桥梁图像。在存在混凝土结构病害的实际桥梁图像中通过标注框标注出混凝土结构病害，将病害在图像上的位置信息和类别信息记录下来，保存至文件中，便于存储管理和后续的读取。

S102、根据采集并标注的混凝土结构图像建立混凝土结构病害数据集，并划分训练集和测试集。

网络上现有的公开混凝土结构病害数据集，图像简单，种类单一，实际意义不大。为了解决这一问题，本发明建立了一个新的混凝土结构病害数据集，所用数据均为在实际工程环境下采集的实际桥梁图像，其中的混凝土结构病害数据均为实际桥梁的真实病害数据。数据集中包含了裂缝、孔洞、破损、露筋和泛碱五类病害，病害种类繁多且背景复杂，具有实际工程意义。

作为本发明的一种实施例，混凝土结构病害数据集包含裂缝病害2250例，孔洞病害667例，破损病害848例，露筋病害718例，泛碱病害3213例。具体数据集如表1所示。

表1

在本实施例中，可以根据需求划分训练集和测试集。例如使用90％的数据进行训练，10％的数据进行测试。对于训练集和测试集的划分如表2所示。

表2

本发明使用的数据集是在实际工程环境下采集的真实桥梁的混凝土结构病害图像，病害类型包括裂缝、破损、孔洞和露筋等多类病害，且病害情况和背景复杂，具有实际工程意义。本发明使用深度学习方法进行病害检测，与传统方法相比，其不需要人工定义和提取特征，而是模拟人类的视觉系统，对图像的特征进行抽象感知，从而进行目标检测和识别。

S103、将训练集图像输入Yolov4网络模型进行训练，得到训练后的Yolov4网络模型。

YOLO网络是典型的一阶段检测模型，无需产生候选区域(region proposals)，而是直接预测出目标的类别信息和位置信息，经过一次检测即可得到最终的检测结果。YOLOv4是YOLO系列的最新版本。相对于YOLO的前几个版本，YOLOv4的性能有了大幅度的提升，不仅检测速度更快，准确度也更高，是一种快速而强有力的目标检测器。

在本发明的实施例中，如图5所示，所述Yolov4网络模型包括：

特征提取模块，用于将输入的图像调整为像素大小为m×m的图像，输入到cresblock中，得到若干特征层。

特征提取是整个目标检测器最为关键的部分，能否提取出良好的特征，直接决定了检测器的优劣。

作为本发明的一种实施例，YOLOv4网络模型使用CSPDarknet53(Cross StagePartial Darknet53)作为特征提取器，CSPDarknet53结合了当前优秀的检测框架思想，如残差网络、特征融合和CSPNet(Cross Stage Partial Network)等。

在本实施例中，所述特征提取模块，还用于利用填充条填充调整后图像的缺失部分。

作为本发明的一种实施例，可选的，YOLOv4网络模型默认的输入图像像素大小为416×416，三通道的图像作为输入，而户外采集的桥梁图像的大小为3000×4000像素，需要将其大小调整为416×416像素。为了防止形变，将较短的一边(像素为3000的边)用填充条进行填充。具体可以在图像的两侧填充，且每一侧填充部分为((4000-3000)/2)×4000像素。

如图6所示为填充和未填充图像大小调整结果比较示意图，图6(a)是实际采集的原始图像，图6(b)是未用填充条填充，直接调整到416×416像素大小的结果示意图，图6(c)是用填充条填充后调整到416×416像素大小的结果示意图，可以看到未用填充条填充的图像在调整大小后发生了形变。而用填充条填充的图像在调整大小后未发生形变，仍然保持原始图形的尺寸比例。

作为本发明的一种实施例，在输入416×416×3的图像后，首先经过一个卷积核大小为3×3，步长为1，卷积核个数为32的卷积操作，将通道数调整为32，输出变为416×416×32。将上步得到的416×416×32作为输入，输入到cresblock中。如图7所示，所述cresblock是CSPNet与Residual block的结合，用于将基础层的残差块的堆叠进行拆分，得到第一部分和第二部分，所述第一部分直接进行残差块的堆叠，第二部分则作为一个正常的残差边，经过处理后与所述第一部分进行堆叠。通过这种方式，能够有效地减少推理的成本，检测精度也能够有一定幅度的提升。

本发明通过上述过程很好地发挥了深度卷积神经网络强大的特征提取能力，能够充分地提取出每类病害的特征。

特征增强模块，用于获取特征层中的有效特征层，使用SPP和PAN进行特征增强，输出不同尺度的张量。

如图5所示，在特征提取完成后，取最后3层为有效特征层。为了进一步提取更加丰富有效的特征信息，YOLOv4网络使用SPP(Spatial Pyramid Pooling)和PAN(PathAggregation Network)进行特征增强。

在传统的CNN网络结构中，通常是由卷积、批标准化、激活函数、池化和全连接组成。全连接时固定了神经元的个数，所以在网络输入的时候，会要求输入固定大小的图像。比如经典的AlexNet、VGGNet网络都是输入固定大小的图像。但是在实际问题中，输入图像的尺寸并不都能满足网络对输入图像的大小要求。为了解决这个问题，通常的做法就是通过裁剪和拉伸将图像调整为指定大小。然而裁剪图像可能造成裁剪出的区域未包含整个对象，而拉伸图像可能导致图像的内容产生几何失真。

为解决上述网络对输入图像尺寸的限制问题，SPP-Net在最后一个卷积层后，接入了金字塔池化层，使用不同大小的池化核进行池化，之后对池化后的特征进行堆叠，从而使网络对任意尺寸的输入图像产生固定大小的输出。实验结果表明，在特征提取网络中加入SPP，能够有效地分离出显著的上下文特征，提高目标检测模型的精度。

作为本发明的一种具体实施例，卷积神经网络提取的特征中，低层的特征语义信息比较少，给出的目标位置准确；高层的特征语义信息比较丰富，给出的目标位置比较粗略。本发明采用特征融合的方式对特征层做处理，将高层提取到的特征进行卷积和上采样操作后，与底层的特征进行堆叠。将底层提取到的特征进行卷积和下采样操作后，与高层的特征进行堆叠。通过这种特征融合的方式能够有效融合高层的特征信息和低层的特征信息。

作为本发明的一种具体实施例，可以通过PAN采用自底向上路径增强的方法，将底层的特征通过卷积和下采样操作后，与上一层进行堆叠。缩短了较低层次与最上层特征之间的路径信息。其最主要的特点就是对于提取特征的反复堆叠，在完成了传统的特征金字塔网络自顶向下的特征堆叠后，还实现了自底向上途径的特征堆叠，获得了更加丰富的语义信息和准确的目标位置。

在经过特征提取网络和特征增强模块后，最终输入若干组张量。

在本实施例中，所述对所述特征增强模块输出的张量进行解码，包括：

将若干组张量表示为X₁×X₁×E，X₂×X₂×E，…，X_n×X_n×E；其中E＝R×(Y+OP+CP)；R表示每个尺度的特征图的每个网格预测的边界框数量；Y表示先验框的调整参数个数和，所述先验框的调整参数包括中心调整参数和宽高调整参数；OP表示目标预测，即预测的边界框中包含目标的概率；CP表示类预测，即预测的边界框中包含的目标是某一类目标的概率。

作为本发明的一种具体实施例，如图8所示，在经过特征提取网络和特征增强模块后，最终输出大小为13×13×30、26×26×30和52×52×30三组张量；其中图8(a)表示尺度为13×13的特征图，对应深层特征；图8(b)表示尺度为26×26的特征图，对应中层特征；图8(c)表示尺度为52×52的特征图，对应浅层特征。深层的特征图尺寸小，感受野大，有利于检测大尺度目标，而浅层的特征图则与之相反，更便于检测小尺度目标。

在13×13×30、26×26×30和52×52×30三组张量的表示中，E＝30由E＝R×(Y+OP+CP)＝3×(4+1+5)计算得到；其中，R＝3表示网络为每个尺度的特征图的每个网格预测3个边界框(bounding boxes)。

本发明对混凝土结构病害数据集中的病害标注框使用聚类算法得到了9个大小、宽高不同的先验框，如表3所示，分别对应大中小三种目标。

表3

Y＝4表示先验框的调整参数个数和为4，分别为t_x、t_y、t_w、t_h。

OP＝1表示目标预测(objectness prediction)，即预测的边界框中包含目标的概率，也被称为置信度(confidence)。CP＝5表示类预测(class predictions)的种类为5类，所述类预测即表示预测的边界框中包含的目标是某一类目标的概率。类预测CP表示的是预测的边界框内目标是裂缝、孔洞、破损、露筋和泛碱这5类病害的概率分别是多少。

在本实施例中，如图9所示，所述预测的边界框由边界框中心位置及宽高共同调整；其中预测的边界框的中心位置表示为(b_x,b_y)；

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

预测的边界框的宽和高分别表示为：

其中，b_w为预测的边界框的宽；b_h为预测的边界框的高；p_w为先验框的宽；p_h为先验框的高；t_w为先验框宽的调整参数；t_h为先验框高的调整参数。在图9中虚线框表示先验框，实线框表示预测的边界框。

将3种不同尺度特征图的预测结果进行合并，一共得到了3×(13×13+26×26+52×52)，共10647个预测的边界框。将目标预测OP和类预测CP相乘得到置信度分数(Confidence Score)。将每个预测的边界框对应不同目标类别的置信度分数排序进行非极大值抑制，得到边界框最终的输出结果，即目标的类别信息和位置信息。

在本实施例中，如图10所示，一个边界框包含10个输出值(p_c,b_x,b_y,b_w,b_h,c₁,c₂,c₃,c₄,c₅)，其中p_c为目标预测OP的值，b_x,b_y,b_w,b_h为边界框的中心点坐标和宽高，c₁,c₂,c₃,c₄,c₅表示类预测CP，即边界框中的目标是裂缝、孔洞、破损、露筋和泛碱的概率分别是多少。将p_c与c₁,c₂,c₃,c₄,c₅分别相乘得到每一类的置信度分数，选择分值最大的作为这个边界框的预测值。例如，图10中得分最高的为p_cc₂，该边界框的最终得分为0.81，病害类型为孔洞(hole)。

通过对提取的特征进行解码，能够准确地识别出病害的类型并对病害精准定位。本发明具备检测多种病害的能力，且使用了实际工程中真实的混凝土病害数据集进行训练和测试。较现有的技术而言，本发明更具有实际工程意义，更能在对实际土木工程的混凝土结构病害检测中有效应用。将基于深度学习的检测技术应用到混凝土结构病害检测，实现混凝土结构病害的自动检测和识别，对国民经济发展及重点工程安全有着重要的经济意义和战略意义，具有广阔的推广应用前景。

在本实施例中，所述Yolov4网络模型的损失函数包括位置损失、置信度损失和类别损失，即Yolov4网络模型的损失函数为：

LOSS＝L_CIoU+L_cls+L_obj

其中，LOSS为Yolov4网络模型的损失函数；L_CIoU表示位置损失；L_cls表示置信度损失；L_obj表示类别损失。

所述位置损失L_CIoU为：

位置损失使用的是CIoU(Complete Intersection over Union)损失。

首先介绍IoU(Intersection over Union)，其被定义为真实框(ground-truthbox)与预测框(predicted box)之间的交并比：

其中B^gt＝(x^gt,y^gt,w^gt,h^gt)是真实框(ground-truth box)，B＝(x,y,w,h)是预测框(predicted box)。

在IoU的基础上，DIoU(Distance Intersection over Union)计算如下：

DIoU＝IoU-R_DIoU

其中R_DIoU为DIoU的惩罚项，

b和b^gt表示B和B^gt的中心点，ρ表示欧氏距离，c表示能够同时包含B和B^gt的最小矩形的对角线的长度。

在DIoU的基础，进一步提出了CIoU，CIoU的惩罚项较DIoU增加了一项αv，完整的CIoU损失函数定义为：

其中，α是一个正权衡参数，定义为：

其中，v用于度量长宽比的一致性，定义为：

其中，w^gt，h^gt表示真实框的宽高，w，h表示预测框的宽高，arctan是反正切函数。S×S表示13×13，26×26，52×52三个不同特征层的网格数量，Box是每个网格的预测框数量，λ_coord是惩罚系数，设置为5。

CIoU损失考虑了三个重要的几何因素：重叠面积、中心点距离和长宽比。相对于YOLO之前版本所使用的均方误差(Mean-Square Error，MSE)回归框损失，CIoU损失更为精确，收敛更快。

所述置信度损失L_cls为：

其中，

表示第i个网格实际是某一类目标的概率；p_i(c)表示网络预测出的第i个网格是某一类目标的概率。

所述类别损失L_obj为：

其中，

表示第i个网格中实际包含目标的概率，包含为1，反之为0；C_i表示网络预测出的第i个网格包含目标的概率，即置信度；λ_noobj为惩罚项，设置为0.5。

作为本发明的一种实施例，使用预先在MS COCO(Microsoft Common Objects inContext)数据集上训练好的权重进行网络初始化。设置输入网络图像的分辨率为416×416，批大小(batch size)为64，初始学习率(learning rate)为0.001，最大迭代次数(iteration)为10000次，迭代8000次后学习率变为原来的1/10，9000次后变为原来的1/100。本发明使用的GPU是NVIDIA GeForce GTX 2080S。

在本实施例中，将测试集图像输入训练后的Yolov4网络模型，进行病害检测。每一张图像都会产生10647个预测框。首先通过Confidence Score进行第一轮的筛选，这里对置信度分数(Confidence Score)设置一个阈值为0.25，将大于0.25的预测框保留下来，小于0.25预测框的抑制掉。对于保留下来的预测框进行DIoU-NMS(Distance Intersectionover Union-Non-maximum Suppression)。

假设M是阈值化后保留下来的预测框中得分最高的，DIoU-NMS可以定义为：

其中B_i是待抑制的预测框，s_i是其置信度分数，ε是非极大值抑制的阈值，DIoU＝IoU-R_DIoU。

上述公式可解释为当M与B_i的DIoU小于ε时，B_i可以保留，否则B_i将被抑制掉。

作为本发明的一种实施例，可选的，在上述公式中，设置ε等于0.5进行第二轮的筛选，保留下的预测框就是最终的预测结果。

作为本发明的一种实施例，使用AP(Average Precision)和MAP(Mean AveragePrecision)作为病害检测的评价指标。建立以对每一类病害绘制检测结果的P-R(Precision-Recall)曲线。绘制P-R曲线，需要计算Precision和Recall，需要明确TP、FP、TN和FN的定义，表4给出了它们的定义。

表4根据表4确定TP、FP和FN后，Precision和Recall的定义如下：

改变置信度分数的阈值，计算对应的Precision和Recall的值，以Recall为x轴，Precision为y轴，绘制P-R曲线。AP就是P-R曲线下的面积，通常来说网络的性能越好，得到的AP值越高。MAP是多类目标AP的平均值，该指标是目标检测算法中最重要的指标。

根据本发明的实施例，使用实际的混凝土结构病害图像数据进行训练，旨在解决真实工程环境中混凝土结构病害的快速定位和准确识别，同时实现多类病害的检测，包括的病害类型有裂缝、孔洞、破损、露筋和泛碱五类，具备检测多种病害的能力，且使用了实际工程中真实的混凝土病害数据集进行训练和测试，较现有的技术而言，本发明更具有实际工程意义，更能在对实际土木工程的混凝土结构病害检测中有效应用。解决现有技术仅能在有限环境下检测混凝土结构病害的问题，提高混凝土结构病害检测的检出率和准确率。

其中，本发明使用的数据集是在实际工程环境下采集的真实桥梁的混凝土结构病害图像，病害类型包括裂缝、破损、孔洞和露筋等多类病害，且病害情况和背景复杂，具有实际工程意义。

本发明使用深度学习方法进行病害检测，与传统方法相比，其不需要人工定义和提取特征，而是模拟人类的视觉系统，对图像的特征进行抽象感知，从而进行目标检测和识别。将基于深度学习的检测技术应用到混凝土结构病害检测，很好地发挥了深度卷积神经网络强大的特征提取能力，能够充分地提取出每类病害的特征，通过对提取的特征进行解码，能够准确地识别出病害的类型并对病害精准定位，实现混凝土结构病害的自动检测和识别，对国民经济发展及重点工程安全有着重要的经济意义和战略意义，具有广阔的推广应用前景。

使用计算机视觉技术对混凝土结构病害检测是今后发展的趋势，相比于人工检测，计算机视觉技术效率高、速度快、成本低，而且大大降低了工人在对混凝土结构病害检测过程中的危险性。本发明提出的基于YOLOv4的混凝土结构病害检测方法，使用在户外环境采集的背景复杂的具有实际工程意义的混凝土病害数据集，采用计算机视觉领域最先进的目标检测算法，充分发挥了深度卷积神经网络的特征提取能力，能够对多类混凝土结构病害进行快速检测，解决了现有检测技术检测能力单一的问题。相比于现有的混凝土结构病害检测技术，本发明实用性更强，更具有实际的工程意义。

我国对土木工程结构的安全问题尤为关注，国内土木建筑行业对以混凝土结构为主的水利水电及大型桥梁工程的检测技术有着大量需求。本发明可以有效解决该问题，对以混凝土结构为主的桥梁、水坝等建筑进行快速检测，缓解了人工检测的压力，大大提升了检测速度。

如图11所示，电子设备包括中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的计算机程序指令或者从存储单元加载到随机访问存储器(RAM)中的计算机程序指令，来执行各种适当的动作和处理。在RAM中，还可以存储设备操作所需的各种程序和数据。电子设备中还包括GPU，用于执行Yolov4网络的训练与测试。CPU、GPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

电子设备中的多个部件连接至I/O接口，包括：输入单元，例如键盘、鼠标等；输出单元，例如各种类型的显示器、扬声器等；存储单元，例如磁盘、光盘等；以及通信单元，例如网卡、调制解调器、无线通信收发机等。通信单元允许电子设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元执行上文所描述的各个方法和处理，例如方法S101～S104。例如，在一些实施例中，方法S101～S104可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到RAM并由CPU执行时，可以执行上文描述的方法S101～S104的一个或多个步骤。备选地，在其他实施例中，CPU可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法S101～S104。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。