CN116030266A

CN116030266A - 基于改进YOLOv3的自然场景下路面裂缝检测和分类方法

Info

Publication number: CN116030266A
Application number: CN202111243492.3A
Authority: CN
Inventors: 朱纤纤; 王琴; 丁军娣
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2023-04-28

Abstract

本发明公开了一种基于改进YOLOv3的自然场景下路面裂缝检测和分类方法。该方法采用聚类算法对实例进行分析获取新的最佳先验尺寸，并在YOLOv3特征提取网络后加入SPP模块，融合局部和全局特征，更好地捕获低层细粒度特征的信息，提高了小目标检测能力，有效减少裂缝目标过小造成的漏检问题；选取CIoU作为改进的边界框损失函数，在考虑预测框与真实框重叠面积的同时，还考虑到锚框的中心点距离和长宽比，对裂缝的定位准确度有所提升；对于正负样本不均衡问题，以Focal Loss取代交叉熵作为改进的置信度损失函数，进一步提高裂缝检测和分类的性能，达到了最优的检测效果。与原YOLOv3方法对比，本方法的检测精度和速度更高。

Description

基于改进YOLOv3的自然场景下路面裂缝检测和分类方法

技术领域

本发明属于目标识别领域，特别涉及一种基于改进YOLOv3的自然场景下路面裂缝检测和分类方法。

背景技术

路面裂缝检测一直是视觉研究的一个活跃领域。因气候、年久老化等因素，道路常常会产生裂缝，这不仅会降低路面性能，还会威胁到路面安全，政府每年都需要在道路维修上投入大量资金。因此，高效准确地检测路面裂缝具有重要的现实意义。

然而，在实际生活中，当道路管理人员需要修复某类裂缝时，要先清楚地了解裂缝的类型才能采取有效的行动。因此，裂缝检测任务在两个方面具有挑战性：首先，需要一种鲁棒的裂缝检测算法来定位不同天气或光照条件下的特定裂缝；其次，该算法能够区分不同类型的重叠的裂缝。

早期，研究人员通常采用传统的裂缝检测方法，如阈值法、边缘检测法、形态学方法等，其主要问题是容易受到噪声等因素的干扰，不能满足不同条件下的检测需要，鲁棒性较差。近年来，基于机器学习的裂缝检测方法越来越受到重视，包括支持向量机、随机森林等，而随着深度卷积神经网络(Convolutional Neural Network,CNN)的出现，许多基于CNN的目标检测算法开始发展，可根据其设计原理分为两种类型：一是以区域卷积网络(RegionConvolutional Neural Network,R-CNN)系列为代表的两阶段目标检测模型，但由于CNN的重复评估，速度缓慢，不适合实时应用；另一种是以YOLO系列和SSD(Single Shot multiboxDetector)为代表的单阶段检测模型。利用YOLO算法来检测路面裂缝，打破了R-CNN的限制，直接将整张图片作为输入，从而极大地加快了网络的训练速度，但也损失了一定的准确性。YOLOv2算法进行路面裂缝检测，通过去掉随机失活层而采用批归一化层提高了目标识别的准确率。YOLOv3则在YOLOv2的基础上进行了改进，采用残差模型和特征金字塔网络架构，极大地提升了网络性能，在VOC、COCO等数据集上取得了巨大的进展，其检测速度和准确率都更高。VOC、COCO这类数据集中不同的实例易于区分，例如椅子，汽车，人等。然而，不同于VOC、COCO这类数据集，大多数路面裂缝为细长线型，定位较为困难，当目标过小时还会出现漏检，且不同类型的裂缝容易混淆，存在大量的裂缝重叠，因此在路面裂缝检测和分类的应用中，YOLOv3算法仍需进一步优化。

发明内容

本发明的目的在于针对上述现有技术存在的问题，提供一种基于改进YOLOv3的自然场景下路面裂缝检测和分类方法。

实现本发明目的的技术解决方案为：一种基于改进YOLOv3的自然场景下路面裂缝检测和分类方法，所述方法包括以下步骤：

步骤1，对自然场景下的路面裂缝数据集进行处理，划分训练集和测试集，并对训练集进行数据增强；

步骤2，构建改进的YOLOv3网络模型；

步骤3，训练改进的YOLOv3网络模型；

步骤4，利用训练好的改进的YOLOv3网络模型，对测试集进行路面裂缝检测和分类。

进一步地，步骤1所述对自然场景下的路面裂缝数据集进行处理，划分训练集和测试集，并对训练集进行数据增强，具体包括：

步骤1-1，针对路面裂缝数据集的所有样本，将80％的样本作为训练集，其余20％的样本作为测试集；数据集中样本的标注信息包括裂缝区域的坐标以及裂缝类型；

步骤1-2，统计训练集中各裂缝类型的样本实例数，按照实例数的比例进行图像增强以实现裂缝类型数量均衡。

进一步地，步骤2所述构建改进的YOLOv3网络模型，具体包括：

步骤2-1，对训练集进行k-means聚类，获取锚框的几何先验知识，以候选框与真实框的交并比IoU作为评价标准，对IoU大于预设阈值的候选框进行降序排列，之后从中选取前9个先验框；

步骤2-2，采用Darknet-53网络的前52层作为改进的YOLOv3网络中的特征提取网络；

步骤2-3，在特征提取网络之后引入空间金字塔池化模块即SPP模块，该模块包括四个并行分支，分别为卷积核为5×5,9×9,13×13的最大池化层和一个跳跃连接，该跳跃连接为SPP模块的输入直接与3个池化层的输出连接。

进一步地，步骤3所述训练改进的YOLOv3网络模型，具体包括：

步骤3-1，初始化改进的YOLOv3网络参数及迭代次数；

步骤3-2，确定损失函数；

步骤3-3，将训练集中的图像压缩至改进的YOLOv3网络所要求的输入图像尺寸，之后输入至改进的YOLOv3网络模型的特征提取网络；

步骤3-4，采用上采样和融合方式，将步骤3-3输入的图像按所述特征提取网络输出的特征图尺度大小划分为S×S个网格；

步骤3-5，对每个网格使用3个先验框进行裂缝边界预测，具体为：对每个网格中的边界框进行预测：

b_x＝σ(t_x)+c_x，b_y＝σ(t_y)+c_y

式中，(b_x,b_y)表示预测边界框的中心坐标；b_w、b_h分别为预测边界框的宽度和高度；(t_x,t_y)、t_w、t_h为改进的YOLOv3网络直接预测处的边界框的中心坐标、宽度以及高度，(c_x,c_y)为目标的中心位置相对于网格左上角的偏移量，p_h、p_w分别为先验框的高度和宽度，σ为sigmoid激活函数；

步骤3-6，通过逻辑回归预测每个边界框的目标置信度Confidence：

Confidence＝Pr(object)×IoU(b,object)

其中，Pr(object)表示预测的边界框包含目标即裂缝的概率，IoU(b,object)表示预测的边界框与实际的边界框值重合部分；若预测的边界框与实际的边界框值重合部分IoU大于预设阈值，且其IoU最大，则该预测的边界框包含目标的概率Pr(object)置为1，否则置为0；

同时逻辑回归预测输出预测的边界框所包含目标的类别概率；

步骤3-8，随机选取训练集中的10％作为验证集，采用提前终止机制，验证损失是否收敛，直至损失收敛或达到设置的最大迭代次数时停止训练，由此得到训练好的裂缝检测模型。

进一步地，步骤3-2所述损失函数为：

Loss＝loss_{b_box}+loss_confidence+loss_class

式中，loss_{b_box}为边界框损失，loss_confidence为置信度损失，loss_class为类别损失；

(1)边界框损失loss_{b_box}为：

其中，loss_CIoU为：

式中，K×K为输入图像被模型划分后形成的所有网格单元，M为每个网格包含的检测框数；

判断第i个网格单元中第j个检测框是否有需要检测的目标；w_i,h_i分别为第i个网格中真实框的宽度和高度；

B、B^gt分别表示预测框和真实框；b、b^gt分别代表预测框和真实框的中心点，ρ表示预测框和真实框两个中心点间的欧式距离，c表示能够同时包含预测框和真实框的最小矩形的对角线距离；v用来度量anchor和目标框之间的长宽比的相似性，权重函数α用来平衡比例，

w和h分别为检测框的宽度和高度，w^gt、h^gt分别为实际框的宽度和高度；

(2)置信度损失loss_confidence为：

式中，

表示第i个网格单元中第j个检测框是否有需要检测的目标，

表示第i个网格单元中第j个检测框不负责预测目标，c_i表示第i个网格中真实框的置信度，

表示第i个网格中预测框的置信度；

(3)类别损失loss_class为：

式中，p_i表示第i个网格中真实框的类别概率，

表示第i个网格中预测框的类别概率。

本发明与现有技术相比，其显著优点为：1)利用聚类算法获取待检测目标的几何先验知识，优化了模型生成建议区域的能力，提高了模型边框回归精度；2)加入改进空间金字塔池化模块即SPP模块，融合局部和全局特征，更好地捕获低层细粒度特征的信息，提高了小目标检测能力；3)选取CIoU作为改进的边界框损失函数，在考虑预测框与真实框重叠面积的同时，还考虑到了锚框的中心点距离和长宽比，对裂缝的定位准确度有所提升；4)采用Focal Loss作为改进的置信度损失函数，缓解正负样本不均衡以及易分类和难分类样本不平衡的问题，以进一步提高检测性能；5)针对数据集的类别不平衡问题采取了数据增强的方法，使模型对裂缝类型的检测能力相对平衡，并提高了裂缝检测和分类的精度。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为一个实施例中基于改进YOLOv3的自然场景下路面裂缝检测和分类方法流程图。

图2为一个实施例中搭建的基于改进的YOLOv3网络整体结构示意图。

图3为一个实施例中搭建的基于改进的YOLOv3网络的卷积组件(CBL)，由卷积层(Conv)、批归一化层(BN)和Leaky ReLU激活函数层构成。

图4为一个实施例中搭建的基于改进的YOLOv3网络的残差组件(Res Unit)，由2个卷积组件(CBL)和一个跳跃连接构成，该跳跃连接为残差组件的输入与其经过2个卷积组件的输出连接。

图5为一个实施例中搭建的基于改进的YOLOv3网络的残差块组件(ResN)，由ZeroPadding层、卷积层和N个残差组件(Res Unit)构成。

图6为一个实施例中改进的SPP模块示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，结合图1，提供了一种基于改进YOLOv3的自然场景下路面裂缝检测和分类方法，该方法包括以下步骤：

步骤2，构建改进的YOLOv3网络模型；

步骤3，训练改进的YOLOv3网络模型；

进一步地，在其中一个实施例中，步骤1所述对自然场景下的路面裂缝数据集进行处理，划分训练集和测试集，并对训练集进行数据增强，具体包括：

步骤1-2，统计训练集中各裂缝类型的样本实例数，按照实例数的比例进行图像增强以实现裂缝类型数量均衡(对实例较多的裂缝类型以较小的比例增强，对实例较少的裂缝类型以较大的比例增强)。

优选地，在其中一个实施例中，步骤1-2中所述图像增强的方法采用对比度调整和或亮度调整和或高斯模糊。

进一步地，在其中一个实施例中，结合图2至图6，步骤2所述构建改进的YOLOv3网络模型，具体包括：

步骤2-1，对训练集进行k-means聚类，获取锚框的几何先验知识，以候选框与真实框的交并比IoU(一般设置阈值为0.5)作为评价标准，对IoU大于预设阈值的候选框进行降序排列，之后从中选取前9个先验框；

步骤2-3，在特征提取网络之后引入空间金字塔池化模块即SPP模块(将局部和全局的多尺度特征相融合来获得更完整的信息，丰富特征图的表达能力，以提高小目标检测的精度)，该模块包括四个并行分支，分别为卷积核为5×5,9×9,13×13的最大池化层和一个跳跃连接，该跳跃连接为SPP模块的输入直接与3个池化层的输出连接。这里，SPP模块将局部和全局的多尺度特征相融合，因此可以获得更完整的图像信息，丰富特征图的表达能力，以提高小目标检测的精度。

进一步地，在其中一个实施例中，步骤3所述训练改进的YOLOv3网络模型，具体包括：

步骤3-1，初始化改进的YOLOv3网络参数及迭代次数；

步骤3-2，确定损失函数；

b_x＝σ(t_x)+c_x，b_y＝σ(t_y)+c_y

Confidence＝Pr(object)×IoU(b,object)

这里，优选地参数设置为：模型训练的初始学习率设置为0.001，批大小设为10，动量为0.9，权重衰减系数为0.0005，优化器采用Adam，并且在迭代次数达到100时，学习率变为0.0001，使用减少学习率和提前终止机制，最大迭代次数为300；损失函数的参数α为0.8，γ为2。

进一步地，在其中一个实施例中，步骤3-2所述损失函数为：

Loss＝loss_{b_box}+loss_confidence+loss_class

(1)采用CIoU(Complete Intersection over Union)优化原有的边界框损失，同时考虑了目标的重叠面积，中心点距离及长宽比，使得目标框回归变得更加稳定，避免了IoU在训练过程中出现发散等问题。边界框损失loss_{b_box}为：

其中，loss_CIoU为：

(2)采用Focal Loss思想优化置信度交叉熵损失，更好地缓解正负样本不均衡以及易分类和难分类样本不平衡的问题，以提高模型检测效果。置信度损失loss_confidence为：

式中，

表示第i个网格单元中第j个检测框是否有需要检测的目标，

表示第i个网格中预测框的置信度；

(3)类别损失loss_class为：

式中，p_i表示第i个网格中真实框的类别概率，

表示第i个网格中预测框的类别概率。

示例性地，在一个实施例中，使用相同的道路图像裂缝数据集进行训练与测试，将本发明模型与经典目标检测模型(R-CNN、Faster-RCNN、Faster-RCNN&SSD、Mask R-CNN、RetinaNet、YOLO、YOLOv2、YOLOv3算法)进行对比，评估标准采用平均F1 score和平均精度均值(mean Average Precision,mAP)。

其中，F1 score是模型精确率和召回率的一种加权平均：

这里，精确率Precision和召回率Recall分别为：

式中，TP为检测正确的个数(IoU＞0.5)，FP为检测错误(IoU≤0.5)的个数或检测到同一裂缝的多余检测框数量，FN为未检测到的裂缝的数量；

AP为裂缝检测的平均精度，即P-R(Precision-Recall)曲线下的面积，mAP是所有类型的AP的平均值：

式中，N(classes)表示类别数目。

对比实验结果如下表1至表3所示。

表1 F1 score对比结果

表2 mAP对比结果

表3平均检测时间对比结果

从上表可以看出，原YOLOv3算法相比其他方法有更高的F1，但比RetinaNet算法的mAP更低，然而YOLOv3在检测速度方面有明显的优势。本发明改进的YOLOv3算法与原YOLOv3算法相比，F1提高了8.65％，mAP提高了26.78％，平均检测时间减少了7ms，具有更高的精度和速度。相比其他算法综合来看，本改进的YOLOv3算法获得了87.45％的mAP，F1达到0.8582，平均检测时间也最短，优于所有其他算法。

由上可知，针对裂缝目标过小、定位困难、样本不平衡、标注遗漏等问题，本发明提出的改进YOLOv3的自然场景下路面裂缝检测和分类方法，能够有效地提高目标的识别准确率，优于原始YOLOv3以及其他具有代表性的流行算法。

综上，本方法采用k-means聚类算法对实例进行分析获取新的最佳先验尺寸，并在YOLOv3特征提取网络后加入SPP模块，融合局部和全局特征，更好地捕获低层细粒度特征的信息，提高了小目标检测能力，有效减少裂缝目标过小造成的漏检问题；选取CIoU(Complete Intersection over Union)作为改进的边界框损失函数，在考虑预测框与真实框重叠面积的同时，还考虑到锚框的中心点距离和长宽比，对裂缝的定位准确度有所提升；对于正负样本不均衡问题，以Focal Loss取代交叉熵作为改进的置信度损失函数，进一步提高裂缝检测和分类的性能，达到了最优的检测效果；通过数据增强的方法，有效解决了类别不平衡问题。在自然场景下的路面裂缝数据集上与原YOLOv3方法对比，本方法的检测精度和速度更高。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。