CN116485709A

CN116485709A - 一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法

Info

Publication number: CN116485709A
Application number: CN202310099315.5A
Authority: CN
Inventors: 邹兰林; 王罗昊
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-07-25

Abstract

本发明公开了一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，通过YOLOv5算法进行图像数据集的获取及预处理；通过YOLOv5输入端进行桥梁裂缝图片信息的输入；通过Mosaic进行数据增强；对数据集进行自适应锚框计算，然后可进行自适应图像缩放；输入backbone，通过卷积网络提取特征(包含focus层，卷积层、bottleneckCSP层及SPP层)；为backbone部分添加SE(Squeeze‑and‑ExcitationNetworks)注意力机制；输入neek，采用FPN+PAN结构；输入head，判断真实框和预测输出框吻合程度以及判断相邻网格是否识别为同一个物体；通过预测框筛选方式输出最终检测结果。本发明涉及一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，具有裂缝检测结果精准的特点。

Description

一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法

技术领域

本发明属于混凝土裂缝检测技术领域，具体为一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法。

背景技术

受建筑材料老化、环境温度等多种因素的影响，桥梁在在使用过程中会产生不同程度的裂缝，裂缝的存在不仅会造成混凝土保护层脱落还会引起钢筋裸露锈蚀影响桥梁的耐用性，是桥梁普遍存在的风险源，严重降低桥梁的可使用寿命和安全可靠性。因此需要科学手段检测桥梁裂缝，提前采取预防征求措施，可以有效避免桥梁垮塌等事故。

传统人工检测效率低下、成本高且费时费力，无法满足目前对目前我国庞大规模的桥梁检测的需求。近年来兴起的计算机视觉技术为桥梁裂缝的检测提供新的技术手段。近年来兴起的计算机视觉技术为桥梁裂缝的检测提供新的技术手段。Yang等[1]利用全卷积网络对裂缝进行检测和几何信息提取。马晓丽[2]等利用神经网络以路面图像灰度值为分类依据成功分类了路面图像。Shi等[3]提出一种大坝裂缝检测与分类方法，使用闪避算法来消除图像因不均匀光照产生的图像噪音，并结合大坝裂缝图像统计特性的基础与图像块的局部特征和连通域的全局特征进行裂缝检测。张阳在FPGA开发板上采用Sobel算子、形态学闭运算、形态学腐蚀等方法对路面裂缝图片进行预处理，提取裂缝特征并对其分类[4]。赵君爱提出了一种基于像元搜索算法的缺陷检测算法，使用改进滤波算法对图像去噪，又以像元搜索法确定背景、初始目标及伪目标区域，在检测复杂背景下的工件缺陷检测中得较高的准确度[5]。以上方法实现过程中，样本预处理方法及特征选择将对缺陷检测质量优劣性产生影响。李清泉等提出了一种自动匀光的路面裂缝图像分析方法，解决不同光照条件下裂缝检测的可靠性，并说明了其合理性及实用性[6]。因此，需要设计一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法。

桥梁裂缝的智能化快速检测，对管控桥梁风险具有重要意义。水痕、青苔及泥沙淤积等背景干扰增加裂缝检测的难度，常规裂缝检测方法的准确率、实时性均无法满足桥梁表观裂缝的检测需求。

发明内容：

本发明的目的就在于为了解决上述问题而提供一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，解决了背景技术中提到的问题。

为了解决上述问题，本发明提供了一种技术方案：

一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，具体步骤包括：

步骤S101：通过YOLOv5算法进行图像数据集的获取及预处理；

步骤S102：通过YOLOv5输入端进行桥梁裂缝图片信息的输入；

步骤S103：通过Mosaic进行数据增强；

步骤S104：对数据集进行自适应锚框计算，然后可进行自适应图像缩放；

步骤S105：输入backbone，通过卷积网络提取特征(包含focus层，卷积层、bottleneckCSP层及SPP层)；

步骤S106：为backbone部分添加SE(Squeeze-and-Excitation Networks)注意力机制；

步骤S107：输入neek，采用FPN+PAN结构；

步骤S108：输入head，判断真实框和预测输出框吻合程度以及判断相邻网格是否识别为同一个物体；

步骤S109：通过预测框筛选方式输出最终检测结果。

作为优选，所述步骤S101中，YOLO算法可以将图像直接作为目标输入，避免传统数据重建和特征提取的过程，只需要固定输入的图像尺寸，由于混凝土裂缝种类多，现场检测时环境复杂、数量多不便统计，为增强训练模型的泛化能力和鲁棒性，需要获取不同场景、不同光照、不同距离下足够丰富种类的数据集，并且加入如黑色水渍、印迹等干扰图像，同时避免过拟合现象，需要保证数据集容量足够大，保证在各种场合情况下识别出裂缝；采集桥梁裂缝图像可从两方面获取，人工实地拍摄采集裂缝缺陷图像与网络公开数据集，人工采集可使用无人机或工业相机进行拍摄并裁剪到合适分辨率大小，输入图像尺寸会影响到卷积神经网络隐藏层参数，越大分辨率图像对内存和显卡显存越高，因此图像统一划分为320×320的图像，统一编号命名方便后续操作；数据集分三类，训练集、验证集和测试集，比例划分为7.5：1.5：1，使用数据集之前使用labelimg软件对训练集进行分类标注，对图片进行目标裂缝位置进行加框标注，同时产生包含标注坐标信息的文件，尽量准确的标注会有助于卷积神经网络对目标裂缝的识别。

作为优选，所述步骤S103中，Mosaic数据增强即把4张图片通过随机裁剪、缩放和排布的方式进行拼接，具体操作是先随机生成拼接中心点坐标，新中心点对应第一张图片右下角坐标，第二张图片左下角坐标，第三张图片右上角坐标和第四张左上角坐标，摆放第一张图片右下角坐标于生成中心点上后，超过填充区域给定大小的部分会被舍弃，若没有超过给定区域则直接进行填充，同理其余三张图片放置于给定区域后再计算出边界角坐标，得到Mosaic bbox坐标，最后取出裁剪留下的新图像复制缩放到输入图像的大小，将其加入到数据中进行训练，Mosaic的随机缩放增加了小目标数量，有利于提升小目标检测性能，增加网络的鲁棒性，同时一次对4张图片直接计算，间接增大batch_size，减少GPU计算负担。

作为优选，所述步骤S104中，YOLOv5针对不同的数据集自适应设计初始锚框，在训练过程中嵌套锚框的计算，用Ground Truth与预设初始锚框输出的预测框进行对比，根据两者差值反向更新，迭代网络参数不断更新锚点框大小，在不同训练集中通过自适应的计算得出最佳锚框值；YOLOv5对原始图像自适应添加最少黑边避免黑边填充过多造成信息冗余，减少计算量，图片变化比例一致，长宽收缩比例保持相同比例再送入检测网络。

作为优选，所述步骤S105中，Focus结构用切片的操作在一张图片中每隔相邻像素取一个像素，即隔列采样与拼接获得四张图片同时也不会失去原有图片特征，输入通道拓展4倍即原有RGB3通道变为12通道，最后yolov5的focus部分使用32个卷积核的卷积操作，例如原图640×640×3经过Focus结构后得到320×320×12的特征图输出；

BottleneckCSP分2个部分，Bottleneck和CSP，Bottleneck即经典残差结构，先1×1的卷积(conv+batch_norm+leaky Relu)再3×3的卷积层，最后残差结构与初始输入相加。YOLOv5的设计包含2种CSP(Cross Stage Partial)模块，CSP1–x与CSP2–x分别用于主干部分和颈部，CSP在卷积神经网络优化过程中，解决梯度信息重复的问题，把梯度变化从头至尾集成到特征图中，加强网络特征融合能力，YOLOv5的4种不同参数是通过调整CSP模块的尺寸得到的；

SPP空间金字塔池化将任意大小特征图转换成固定大小的特征向量，首先利用一个卷积减少一半通道，再经过三个不同尺寸的最大池化层，最后融合结果输出，扩大特征图感受野，同样SPP也不改变输入尺寸大小。

作为优选，所述步骤S106中，SE注意力机制实现方式首先全局平均池化，将每个通道二维特征(h*w)压缩为一个实数，将特征图从[h,w,c]＝＝>[1,1,c],再给每个特征通道生成单独权重值，通过2个全连接层构建通道间相关性输出权重值数目和输入特征图通道数相同，[1,1,c]＝＝>[1,1,c]，利用该权重因子对原始特征图各通道进行乘积，最终能够输出不同比重通道的特征图。

作为优选，所述步骤S107中，FPN是自顶向下的侧边连接，通过上采样把高层特征信息传递融合传达强语义特征，于是PAN采用自底向上的路线改善低层特征传播，向上传达强定位特征。

作为优选，所述步骤S108中，目标检测损失函数一般由分类损失函数和回归损失函数；使用GIoU_Loss作为bound boxing的损失函数，若使用IoU函数来表示预测框和真实框交集面积之比会出现完全不重合IoU＝0损失函数不可导的情况，因此选用CIoU_LOSS代替IoU_LOSS，考虑重叠面积、高宽比和中心点距离，公式如下：

α是一个平衡参数，不参与梯度计算；

NMS非极大值抑制用来判断相邻网格识别是否为同一物体并消除多余检测框，遍历所有候选框得分并排序，依次与得分最高框的IoU对比，超过设定阈值则可以将其删除，只留下一个框表示同一类物体，其它剩余未处理框重复上述过程留下得分最高的box，低于阈值的候选框保留继续排序选出置信度高的框重复交并比的对比。

本发明的有益效果是：本发明涉及一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，具有裂缝检测结果精准的特点，在具体的使用中，与传统的基于YOLOv5改进算法的桥梁混凝土裂缝检测方法相比较而言，本基于YOLOv5改进算法的桥梁混凝土裂缝检测方法具有两个有益效果：

通过在YOLOv5算法基础上为Backbone部分添加SE(Squeeze-and-ExcitationNetworks)注意力机制，提高对当前任务有用的特征图通道并抑制不太可靠的特征，使神经网络重点关注全权重大的通道。在预测部分改进预选框筛选方式使用DIOU_NMS非极大极值抑制。

通过采用的DIOU_NMS(Distance Intersection Over Union_Non MaximumSuppression)非极大值抑制，将DIOU作为抑制的准则，不仅考虑重叠区域的影响，而且考虑两个框的中心距离信息，如果两个框之间IOU比较大且距离较大时可能会认为是两个物体的框而不会被过滤掉。可以提高重叠和被遮挡目标检测精度，使得预测结果更加合理和准确。

附图说明：

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1为本发明的工作流程图；

图2为本发明的Yolov5网络结构图；

图3为本发明的Focus结构图；

图4为本发明的不同比重通道特征图；

图5为本发明的检测速度比较图。

具体实施方式：

如图1-5所示，本具体实施方式采用以下技术方案：

实施例：

步骤S101：通过YOLOv5算法进行图像数据集的获取及预处理；

步骤S102：通过YOLOv5输入端进行桥梁裂缝图片信息的输入；

步骤S103：通过Mosaic进行数据增强；

步骤S107：输入neek，采用FPN+PAN结构；

步骤S109：通过预测框筛选方式输出最终检测结果。

其中，所述步骤S101中，YOLO算法可以将图像直接作为目标输入，避免传统数据重建和特征提取的过程，只需要固定输入的图像尺寸，由于混凝土裂缝种类多，现场检测时环境复杂、数量多不便统计，为增强训练模型的泛化能力和鲁棒性，需要获取不同场景、不同光照、不同距离下足够丰富种类的数据集，并且加入如黑色水渍、印迹等干扰图像，同时避免过拟合现象，需要保证数据集容量足够大，保证在各种场合情况下识别出裂缝；采集桥梁裂缝图像可从两方面获取，人工实地拍摄采集裂缝缺陷图像与网络公开数据集，人工采集可使用无人机或工业相机进行拍摄并裁剪到合适分辨率大小，输入图像尺寸会影响到卷积神经网络隐藏层参数，越大分辨率图像对内存和显卡显存越高，因此图像统一划分为320×320的图像，统一编号命名方便后续操作；数据集分三类，训练集、验证集和测试集，比例划分为7.5：1.5：1，使用数据集之前使用labelimg软件对训练集进行分类标注，对图片进行目标裂缝位置进行加框标注，同时产生包含标注坐标信息的文件，尽量准确的标注会有助于卷积神经网络对目标裂缝的识别。

其中，所述步骤S103中，Mosaic数据增强即把4张图片通过随机裁剪、缩放和排布的方式进行拼接，具体操作是先随机生成拼接中心点坐标，新中心点对应第一张图片右下角坐标，第二张图片左下角坐标，第三张图片右上角坐标和第四张左上角坐标，摆放第一张图片右下角坐标于生成中心点上后，超过填充区域给定大小的部分会被舍弃，若没有超过给定区域则直接进行填充，同理其余三张图片放置于给定区域后再计算出边界角坐标，得到Mosaic bbox坐标，最后取出裁剪留下的新图像复制缩放到输入图像的大小，将其加入到数据中进行训练，Mosaic的随机缩放增加了小目标数量，有利于提升小目标检测性能，增加网络的鲁棒性，同时一次对4张图片直接计算，间接增大batch_size，减少GPU计算负担。

其中，所述步骤S104中，YOLOv5针对不同的数据集自适应设计初始锚框，在训练过程中嵌套锚框的计算，用Ground Truth与预设初始锚框输出的预测框进行对比，根据两者差值反向更新，迭代网络参数不断更新锚点框大小，在不同训练集中通过自适应的计算得出最佳锚框值；YOLOv5对原始图像自适应添加最少黑边避免黑边填充过多造成信息冗余，减少计算量，图片变化比例一致，长宽收缩比例保持相同比例再送入检测网络。

其中，所述步骤S105中，Focus结构用切片的操作在一张图片中每隔相邻像素取一个像素，即隔列采样与拼接获得四张图片同时也不会失去原有图片特征，输入通道拓展4倍即原有RGB3通道变为12通道，最后yolov5的focus部分使用32个卷积核的卷积操作，例如原图640×640×3经过Focus结构后得到320×320×12的特征图输出；

其中，所述步骤S106中，SE注意力机制实现方式首先全局平均池化，将每个通道二维特征(h*w)压缩为一个实数，将特征图从[h,w,c]＝＝>[1,1,c],再给每个特征通道生成单独权重值，通过2个全连接层构建通道间相关性输出权重值数目和输入特征图通道数相同，[1,1,c]＝＝>[1,1,c]，利用该权重因子对原始特征图各通道进行乘积，最终能够输出不同比重通道的特征图。

其中，所述步骤S107中，FPN是自顶向下的侧边连接，通过上采样把高层特征信息传递融合传达强语义特征，于是PAN采用自底向上的路线改善低层特征传播，向上传达强定位特征。

其中，所述步骤S108中，目标检测损失函数一般由分类损失函数和回归损失函数；使用GIoU_Loss作为bound boxing的损失函数，若使用IoU函数来表示预测框和真实框交集面积之比会出现完全不重合IoU＝0损失函数不可导的情况，因此选用CIoU_LOSS代替IoU_LOSS，考虑重叠面积、高宽比和中心点距离，公式如下：

α是一个平衡参数，不参与梯度计算；

本发明的使用状态为：本次实验运行于深度学习框架Pytorch上，操作系统为Windows1020H2专业版，编程语言python3.8，硬件环境为：AMD Ryzen5800X处理器，NvidaGeForce RTX 308010G显存，16GRAM。使用格式为VOC的自制数据集，训练批次batch size设置为8，权重使用预训练后的best.pt权重文件，训练轮次为200,训练优化函数使用SGD。

4.2实验结果

实验对裂缝检测效果评价采用准确率(Precision)、召回率(Recall)和平均精度(mean average precision)三个指标衡量。并将采用滑动窗算法的Faster Rcnn网络和SSD网络用同样的数据集进行训练，比较同样数据集下检测结果。其中Precision和Recall计算公式如式(2)和式(3)所示：

其中TP表示目标为正样本且被正确识别的个数；FP表示目标是负目标且被错误识别为正样本的个数；FN表示目标为真实目标，检测结果为不是真实目标。则本文的Precision表示在检测出为裂缝的样本中有多少是真正的裂缝，反映了检测结果是否准确的问题。Recall表示在全部的目标图像样本中，有多少裂缝被正确检测出，反映了裂缝检测是否齐全的问题。精度均值AP定义为PR曲线下围成的曲线面积值。mAP为学习的所有类别精度均值的平均值。(Tensorboard截取结果4张)在训练25个epoch后准确率和召回率趋于稳定，同时损失函数降低到0.05以下，算法快速收敛。

为了体现出该算法对裂缝检测的性能较为优异，实验还对比SSD(Single ShotMultiBox Detector)、Faster R-CNN和YOLOv5，记录检测速度和mAP作为比较指标。

由表可以看出本文对YOLOv5改进后检测精度相较于SSD和YOLOv5都有所提高，特别是检测耗时是最少的。SSD由于利用多层的特征图作为结果输出，导致网络层数加深，弱小目标特征弱化，不利于弱小目标的检测。Faster R-CNN由于进行多次下采样操作，导致无法对小目标进行有效的特征提取，虽然精确度较高，但耗时久。改进后的YOLOv5则检测每帧图片相对Yolov5s耗时更短，精确保持基本一致，综合对于检测桥梁细小裂缝等目标改进Yolov5算法具有优势。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，其特征在于：具体步骤包括：

步骤S101：通过YOLOv5算法进行图像数据集的获取及预处理；

步骤S102：通过YOLOv5输入端进行桥梁裂缝图片信息的输入；

步骤S103：通过Mosaic进行数据增强；

步骤S107：输入neek，采用FPN+PAN结构；

步骤S109：通过预测框筛选方式输出最终检测结果。

2.根据权利要求1所述的一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，其特征在于：所述步骤S101中，YOLO算法可以将图像直接作为目标输入，避免传统数据重建和特征提取的过程，只需要固定输入的图像尺寸，由于混凝土裂缝种类多，现场检测时环境复杂、数量多不便统计，为增强训练模型的泛化能力和鲁棒性，需要获取不同场景、不同光照、不同距离下足够丰富种类的数据集，并且加入如黑色水渍、印迹等干扰图像，同时避免过拟合现象，需要保证数据集容量足够大，保证在各种场合情况下识别出裂缝；采集桥梁裂缝图像可从两方面获取，人工实地拍摄采集裂缝缺陷图像与网络公开数据集，人工采集可使用无人机或工业相机进行拍摄并裁剪到合适分辨率大小，输入图像尺寸会影响到卷积神经网络隐藏层参数，越大分辨率图像对内存和显卡显存越高，因此图像统一划分为320×320的图像，统一编号命名方便后续操作；数据集分三类，训练集、验证集和测试集，比例划分为7.5：1.5：1，使用数据集之前使用labelimg软件对训练集进行分类标注，对图片进行目标裂缝位置进行加框标注，同时产生包含标注坐标信息的文件，尽量准确的标注会有助于卷积神经网络对目标裂缝的识别。

3.根据权利要求1所述的一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，其特征在于：所述步骤S103中，Mosaic数据增强即把4张图片通过随机裁剪、缩放和排布的方式进行拼接，具体操作是先随机生成拼接中心点坐标，新中心点对应第一张图片右下角坐标，第二张图片左下角坐标，第三张图片右上角坐标和第四张左上角坐标，摆放第一张图片右下角坐标于生成中心点上后，超过填充区域给定大小的部分会被舍弃，若没有超过给定区域则直接进行填充，同理其余三张图片放置于给定区域后再计算出边界角坐标，得到Mosaic

bbox坐标，最后取出裁剪留下的新图像复制缩放到输入图像的大小，将其加入到数据中进行训练，Mosaic的随机缩放增加了小目标数量，有利于提升小目标检测性能，增加网络的鲁棒性，同时一次对4张图片直接计算，间接增大batch_size，减少GPU计算负担。

4.根据权利要求1所述的一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，其特征在于：所述步骤S104中，

YOLOv5针对不同的数据集自适应设计初始锚框，在训练过程中嵌套锚框的计算，用Ground

Truth与预设初始锚框输出的预测框进行对比，根据两者差值反向更新，迭代网络参数不断更新锚点框大小，在不同训练集中通过自适应的计算得出最佳锚框值；YOLOv5对原始图像自适应添加最少黑边避免黑边填充过多造成信息冗余，减少计算量，图片变化比例一致，长宽收缩比例保持相同比例再送入检测网络。

5.根据权利要求1所述的一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，其特征在于：所述步骤S105中，

Focus结构用切片的操作在一张图片中每隔相邻像素取一个像素，即隔列采样与拼接获得四张图片同时也不会失去原有图片特征，输入通道拓展4倍即原有RGB3通道变为12通道，最后yolov5的focus部分使用32个卷积核的卷积操作，例如原图640×640×3经过Focus结构后得到320×320×12的特征图输出；

BottleneckCSP分2个部分，Bottleneck和CSP，Bottleneck即经典残差结构，先1×1的卷积(conv+batch_norm+leaky

Relu)再3×3的卷积层，最后残差结构与初始输入相加。YOLOv5的设计包含2种CSP(Cross Stage Partial)模块，CSP1–x与CSP2–x分别用于主干部分和颈部，CSP在卷积神经网络优化过程中，解决梯度信息重复的问题，把梯度变化从头至尾集成到特征图中，加强网络特征融合能力，YOLOv5的4种不同参数是通过调整CSP模块的尺寸得到的；

6.根据权利要求1所述的一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，其特征在于：所述步骤S106中，SE注意力机制实现方式首先全局平均池化，将每个通道二维特征(h*w)压缩为一个实数，将特征图从[h,w,c]＝＝>[1,1,c],再给每个特征通道生成单独权重值，通过2个全连接层构建通道间相关性输出权重值数目和输入特征图通道数相同，[1,1,c]＝＝>[1,1,c]，利用该权重因子对原始特征图各通道进行乘积，最终能够输出不同比重通道的特征图。

7.根据权利要求1所述的一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，其特征在于：所述步骤S107中，FPN是自顶向下的侧边连接，通过上采样把高层特征信息传递融合传达强语义特征，于是PAN采用自底向上的路线改善低层特征传播，向上传达强定位特征。

8.根据权利要求1所述的一种基于YOLOv5改进算法的桥梁混凝土裂缝检测方法，其特征在于：所述步骤S108中，目标检测损失函数一般由分类损失函数和回归损失函数；使用GIoU_Loss作为bound boxing的损失函数，若使用IoU函数来表示预测框和真实框交集面积之比会出现完全不重合IoU＝0损失函数不可导的情况，因此选用CIoU_LOSS代替IoU_LOSS，考虑重叠面积、高宽比和中心点距离，公式如下：

α是一个平衡参数，不参与梯度计算；