CN117315441A

CN117315441A - 基于改进yolox的道路井盖状态检测方法

Info

Publication number: CN117315441A
Application number: CN202311274299.5A
Authority: CN
Inventors: 许浩杰; 马楚纯; 顾国生
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-29

Abstract

本发明提供基于改进YOLOX的道路井盖状态检测方法，包括以下步骤：S1：建立模型需要的数据集，采集多种不同情况下的道路井盖图像，并进行图像处理；S2：建立YOLOX模型，得到的一种无锚框检测器；S3：在Decoupled Head模块的输入之前插入高效的通道注意力模块(ECANet)，进一步提取通道特征；S4：使用了PyTorch框架进行了冻结骨干网络的训练策略，实现模型；S5：通过分类和回归得到最后道路井盖状态的检测结果。本发明将井盖状态细分为正常、破损和沉降三类，并在YOLOX模型的解耦头之前，加入了注意力模块ECANet进一步提取通道特征，为高效确定道路井盖位置并识别其状态提供了一种新方法。

Description

基于改进YOLOX的道路井盖状态检测方法

技术领域

本发明涉及深度学习神经网络与道路异常检测结合领域，更具体地，涉及基于改进YOLOX的道路井盖状态检测方法。

背景技术

随着城市化进程的步伐加快，市政公用设施建设也得到了迅速发展，井盖作为城市重要公共设施，在市政、通信、燃气、交管、电力等行业被大量使用，而井盖设施由于铺设在道路表面，常面临破损、凹陷等情况，不仅破坏市容，还成为了影响道路安全的常见诱因。此外，路面状况检测也是许多智能交通系统(ITS)的一个重要应用，实时有效的反馈道路状况能在一定程度上为行车提供安全保护。综上，高效、可行、及时的悉知井盖状况，不仅能协助政府维护道路交通安全，成为智能城市发展的一部分，还能在智能交通系统方面对自动驾驶在内的应用提供支持。

在道路异常检测领域，比较传统的方式是通过人工巡检来排查隐患，不仅费时费力，对工人也存在安全威胁，不过随着传感器的发展，LiDAR和其他高精度设备逐渐被用来检测道路异常，如使用Mobile LiDAR来自动检测道路井盖，使用Arduino收集数据，并基于物联网构建针对井盖的检测和监测系统。然而相比于基于图像的机器学习算法，基于传感器的研究在设备和计算成本方面的开销往往会更加昂贵，而且随着技术进步，特别是在卷积神经网络(CNN)的帮助下，以图像为基础的目标检测性能有了很大的提高，这使得利用深度学习算法实时、准确地获取井盖位置及其状态的方式拥有更高的性价比，不少学者开始尝试利用航拍或遥感图像训练模型来检测道路井盖，尽管这些研究取得了一定效果，具有成本低、检测范围广、检测精度高等优点，但航拍图像无法检测出井盖的损坏和沉降状态，且容易受到建筑物和植被的影响。还有部分学者直接从谷歌街景中截取模型需要的训练数据，但这种方式在获取上较为被动，也不够实时。

行车记录仪作为常见的车载设备，可以在汽车行驶过程中拍摄道路情况，通过这种方式获取图像不仅方便、廉价，还能主观地保证图像质量。在众多实时路面状况(roadsurface condition,RSC)监测的研究中，使用行车记录仪来获取图像也是常见手段之一。井盖检测作为路况检测的内容之一，我们使用行车记录仪拍摄道路图像并自制数据集，在先进的无锚框检测器YOLOX的基础上，融入注意力机制训练模型，实验证明，改进后的模型能有效识别井盖位置并确定其状态，与Faster-RCNN、SDD以及YOLO其他系列模型相比，具有更平衡的检测精度和检测速度。

发明内容

本发明提供基于改进YOLOX的道路井盖状态检测方法，更好地识别井盖位置并确定其状态。

为解决上述技术问题，本发明的技术方案如下：

基于改进YOLOX的道路井盖状态检测方法，包括以下步骤：

S1：建立模型需要的数据集，采集多种不同情况下的道路井盖图像，并进行图像处理；

S2：建立YOLOX模型，得到的一种无锚框检测器；

S3：在Decoupled Head模块的输入之前插入高效的通道注意力模块(ECANet)，进一步提取通道特征；

S4：使用了PyTorch框架进行了冻结骨干网络的训练策略，实现模型；

S5：通过分类和回归得到最后道路井盖状态的检测结果。

优选地，步骤S1中数据集的建立，具体为：

为了建立模型需要的数据集，实验使用行车记录仪自主拍摄并收集整理出637张道路图像，每张图像包括1个及以上的井盖实例，分辨率大小为3200×1800，其中破损类井盖实例有246个，沉降类149个，正常类345个。由于拍摄时间、道路状况以及位置的不同，采集到的道路井盖图像包括了多种不同情况，如受其他车辆或阴影遮挡的井盖，位置不明显的井盖，周围路面出现裂痕的井盖，表面涂有道路标识的井盖以及入画不完整的井盖等等，这些多样性使得数据集本身具备一定的稳健性。

优选地，步骤S1中图像数据的处理，具体为：

尽管我们有意采集出具有变化的图像，但为了进一步提高模型鲁棒性，使用了包括如过滤变换、噪声变换在内的图像处理手段对数据集进行扩增，其中每种类别都扩增两倍，并按8：1：1的比例随机划分Train-Val和Test集，即训练集1548张，验证集172张，测试集192张。

优选地，步骤S2中构建无锚框检测器YOLOX，具体为：

在主干部分使用Focus网络结构，以便将图片的宽高信息集中到通道中，具体实现方式是每隔一个像素拿取一个值，以此获得了四个独立的特征层，最后在通道中堆叠这些独立特征层；使用Decoupled Head进行两个平行的分支解耦分类和回归任务；将Mosaic和MixUp加入到增强策略中；削减每个位置的预测值数量，并直接预测四个值；定义SimOTA，为不同大小的目标动态匹配正样本。最终得到构建的无锚框检测器。

优选地，步骤S3中Decoupled Head插入高效的通道注意力模块，具体为：

高效的通道注意力模块(ECANet)是在SE的基础上提出的一种无需降维的局部跨通道交互策略，可以通过一维卷积高效实现。在全局平均池化后(GAP)，用一个大小为k的快速1D卷积替换SENet中的全连接层(fully-connected,FC)。为了避免通过交叉验证手动调整k，ECANet提出了一种生成自适应卷积核的方法，卷积核大小可由通道维数的非线性映射自适应确定。

GAP的计算过程为：

其中，W、H分别代表宽和高，χ_ij代表i行j列的特征值。确定k值的非线性映射自适应计算过程为：

其中，C表示通道维度；|t|_odd表示最接近的奇数t；γ和b是线性函数的参数，这里分别设置为常量2和1。

优选地，步骤S4中冻结骨干网络的训练策略，具体为：

在训练过程中，设置总训练迭代数epochs为200，学习率为0.001，权重衰减为0.0005，为了避免显存溢出，我们根据模型结构设置了不同的batchsize，分别是2、4和8，最后，使用随机梯度下降法(SGD)和余弦退火算法来优化训练过程。由于使用了预训练权值，在前50个迭代中，进行了冻结骨干网络的训练策略。

优选地，步骤S5中通过分类和回归得到最后的检测结果，具体为：

通过两个子网，分别进行检测框回归和分类，两个子网包括定位子网络和分类子网络，其中，定位子网预测出初步预测代表性点集以及精炼的预测代表性点集/>再根据生成有方向的目标检测框预测结果，而分类子网结合定位子网输出的初步预测代表性点集/>生成分类预测结果，最终通过融合两个预测结果得到最终的预测结果。

与现有技术相比，本发明技术方案的有益效果是：

1.自制井盖检测数据集。研究使用行车记录仪拍摄路面情况，并整理出637张图像，同时细化井盖状态，主要将其分为三类情况：正常(normal)、破损(broken)和沉降(down)。

2.创新改进井盖检测模型。研究以先进的无锚框检测器YOLOX为基础，加入注意力机制进一步提取特征，提升模型的准确性。

附图说明

图1为本发明的方法流程图。

图2为高效的通道注意力模块的结构图。

图3为本发明的算法结构图。

图4为改进后的模型与基线的预测对比图。

图5为不同注意力模块的预测热力图可视化对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供基于改进YOLOX的道路井盖状态检测方法，如图1所示，包括以下步骤：

S2：建立YOLOX模型，得到的一种无锚框检测器；

S5：通过分类和回归得到最后道路井盖状态的检测结果。

步骤S1中数据集的建立，具体为：

步骤S1中图像数据的处理，具体为：

步骤S2中构建无锚框检测器YOLOX，具体为：

通常基于深度学习的目标检测算法可分为两类：二阶段算法和单阶段算法。以R-CNN为代表的两阶段检测器精度高但速度慢，这类检测器会生成一系列可能包含目标的候选区域(region ofinterests,ROI)，然后利用这些区域对其中的前景进行分类和定位得到结果。相比之下，以YOLO系列以及SSD为代表的单阶段检测器将过程简化为回归任务，端到端的设计简化了算法结构，较大程度的提高了检测速度，但这类检测器通常需要设置大量的先验框来确保与ground-truth对象有足够高的IoU(intersection over union)率，且检测前还须通过聚类分析找到合适的锚大小和纵横比，因此学术界开始发展对无锚框检测器的研究，YOLOX正是在YOLO系列模型的基础上改进得到的一种无锚框检测器。在主干部分使用Focus网络结构，以便将图片的宽高信息集中到通道中，具体实现方式是每隔一个像素拿取一个值，以此获得了四个独立的特征层，最后在通道中堆叠这些独立特征层；使用Decoupled Head进行两个平行的分支解耦分类和回归任务；将Mosaic和MixUp加入到增强策略中；削减每个位置的预测值数量，并直接预测四个值；定义SimOTA，为不同大小的目标动态匹配正样本。最终得到构建的无锚框检测器。

步骤S3中在Decoupled Head插入高效的通道注意力模块，具体为：

在目标检测任务中，head常被用来确定目标的分类和预测框位置，其中，分类任务更关注目标的纹理信息，而回归任务则更关注目标的边缘信息，这些信息通常分布在特征通道中，因此，我们在Decoupled Head模块的输入之前插入高效的通道注意力模块(ECANet)，获取跨通道的信息，进一步提取通道特征，以帮助模型更准确的定位、识别目标。

高效的通道注意力模块是在SE的基础上提出的一种无需降维的局部跨通道交互策略，可以通过一维卷积高效实现。图2展示了ECANet模型的示意图，在全局平均池化后(GAP)，用一个大小为k的快速1D卷积替换SENet中的全连接层(fully-connected,FC)，以避免因FC层导致的维度衰减影响到通道注意力的权重学习。在1D卷积中，卷积核大小k代表了局部跨通道交互的覆盖率，即有多少领域参与了一个通道的注意预测，为了避免通过交叉验证手动调整k，ECANet提出了一种生成自适应卷积核的方法，卷积核大小可由通道维数的非线性映射自适应确定。

GAP的计算过程为：

其中，C表示通道维度；|t|_odd表示最接近的奇数t；γ和b是线性函数的参数，这里分别设置为常量2和1。最终的算法结构图如图3。

步骤S4中冻结骨干网络的训练策略，具体为：

在训练过程中，设置总训练迭代数epochs为200，学习率为0.001，权重衰减为0.0005，为了避免显存溢出，我们根据模型结构设置了不同的batchsize，分别是2、4和8。实验选取了精度(AP)、平均精度(mAP)、参数量(params)、计算量(GFlops)和每秒帧数(FPS)作为评价指标进行对比评估，各个评价指标的计算方法为：

Params＝(C_inK²+1)*C_out

GFLOPs＝10⁹FLOPs

FLOPs＝2*H*W*(C_inK²+1)*C_out

式中，p表示精度，表示召回率，H、W分别表示宽、高。C_in、C_out表示输入、输出的通道数，K为卷积核大小，frame是模型检测到的图像数量，time是检测的总时间。

步骤S5中通过分类和回归得到最后的检测结果，具体为：

参考了YOLOv5模型根据图像宽高配置不同网络结构的策略，提供了多种可选配的结构，包括4个标准网络结构：YOLOX-s、YOLOX-m、YOLOX-l、YOLOX-x，和两个轻量级的网络结构：YOLOX-Nano、YOLOX-Tiny。在本文，实验选取的是标准网络中更轻量的YOLOX-s作为基线。

图4展示了改进后的模型与基线的预测对比。通过直观对比，我们发现baseline更容易混淆down和broken，如图4的第1行，这使得baseline模型的误判情况会更多；此外，就像图4第2行展示的那样，baseline的漏检率相对来说也更高，特别是针对增强后的图像。总体来说，通过增加ECA注意力模块，改进后的模型在预测结果上取得了更好的效果。

尽管我们确定了使用注意力机制进一步提取特征以提升模型检测精度的策略，但注意力模型的种类繁多，关注的特征重点也不同，为了选择出更合适的类型，我们实验了三种目前最常见的注意力模型：SE、CBAM以及ECA。表1展示了使用不同的注意力模块对整个网络的提升差异，SE模块的效果是最差的，甚至为负作用，而CBAM模块尽管在broken类的效果更好，但整体来看，ECA的提升是更多的。

之所以ECA的整体效果更好，我们认为这可能与YOLOX模型和ECA模块各自的特性有关，在YOLOX模型中，Focus模块会将输入图像的宽高信息集中到通道中，而ECA模块又以其卷积具有跨通道提取信息的特点著称，这可能为模型更好的确定目标提供积极作用。为了更直观的解释三类注意力模块的预测效果，我还绘制了可视化后的预测值热力图，图5是可视化后的对比结果。

为了评估所提出的模型的性能，本文在训练条件相同的情况下，与目前大部分主流目标检测器进行了对比，包括经典的二阶段检测器Faster R-CNN、轻量级的SSD模型、同样是无锚框结构的CenterNet检测器、工业上更常使用的YOLOv3模型以及YOLO其他系列模型。

表2展示了实验对比结果，可以明显看出，我们的模型能有效地检测出井盖的位置和状态，其中正常、沉降状态以及平均精度的效果是最好的，特别是最难检测的沉降状态，其检测效果远远高于其他模型，AP值达到了92.2％，此外，尽管破损类的检测效果不是最好的，但也仅比Faster R-CNN低不到0.1个百分点，而检测速度要远远快于Faster R-CNN，更好的实现了速度与精度的平衡。在模型结构方面，由于ECA模块是一种轻量级的注意力模块，仅增加了0.003G的计算量，因此不会给整个网络带来较大负担影响检测速度。

表1不同的注意力模块对整个网络的提升差异

表2不同模型对比实验结果

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于改进YOLOX的道路井盖状态检测方法，其特征在于，包括以下步骤：

S2：建立YOLOX模型，得到的一种无锚框检测器；

S3：在Decoupled Head模块的输入之前插入高效的通道注意力模块，进一步提取通道特征；

S5：通过分类和回归得到最后道路井盖状态的检测结果。

2.根据权利要求1所述的基于改进YOLOX的道路井盖状态检测方法，其特征在于，步骤S1中数据集的建立，具体为：

为了建立模型需要的数据集，实验使用行车记录仪自主拍摄并收集整理出637张道路图像，每张图像包括1个及以上的井盖实例，分辨率大小为3200×1800，其中破损类井盖实例有246个，沉降类149个，正常类345个；由于拍摄时间、道路状况以及位置的不同，采集到的道路井盖图像包括了多种不同情况，如受其他车辆或阴影遮挡的井盖，位置不明显的井盖，周围路面出现裂痕的井盖，表面涂有道路标识的井盖以及入画不完整的井盖，这些多样性使得数据集本身具备一定的稳健性。

3.根据权利要求1所述的基于改进YOLOX的道路井盖状态检测方法，其特征在于，步骤S1中图像数据的处理，具体为：

4.根据权利要求1所述的基于改进YOLOX的道路井盖状态检测方法，其特征在于，步骤S2中构建无锚框检测器YOLOX，具体为：

在主干部分使用Focus网络结构，以便将图片的宽高信息集中到通道中，具体实现方式是每隔一个像素拿取一个值，以此获得了四个独立的特征层，最后在通道中堆叠这些独立特征层；使用Decoupled Head进行两个平行的分支解耦分类和回归任务；将Mosaic和MixUp加入到增强策略中；削减每个位置的预测值数量，并直接预测四个值；定义SimOTA，为不同大小的目标动态匹配正样本；最终得到构建的无锚框检测器。

5.根据权利要求1所述的基于改进YOLOX的道路井盖状态检测方法，其特征在于，步骤S3中在Decoupled Head插入高效的通道注意力模块，具体为：

高效的通道注意力模块是在SE的基础上提出的一种无需降维的局部跨通道交互策略，可以通过一维卷积高效实现；在全局平均池化后，用一个大小为k的快速1D卷积替换SENet中的全连接层；为了避免通过交叉验证手动调整k，ECANet提出了一种生成自适应卷积核的方法，卷积核大小可由通道维数的非线性映射自适应确定；

GAP的计算过程为：

其中，W、H分别代表宽和高，χ_ij代表i行j列的特征值；确定k值的非线性映射自适应计算过程为：

6.根据权利要求1所述的基于改进YOLOX的道路井盖状态检测方法，其特征在于，步骤S4中冻结骨干网络的训练策略，具体为：

在训练过程中，设置总训练迭代数epochs为200，学习率为0.001，权重衰减为0.0005，为了避免显存溢出，我们根据模型结构设置了不同的batchsize，分别是2、4和8，最后，使用随机梯度下降法和余弦退火算法来优化训练过程。

7.根据权利要求1所述的基于改进YOLOX的道路井盖状态检测方法，其特征在于，步骤S5中通过分类和回归得到最后的检测结果，具体为：

通过两个子网，分别进行检测框回归和分类，两个子网包括定位子网络和分类子网络，其中，定位子网预测出初步预测代表性点集以及精炼的预测代表性点集/>再根据/>生成有方向的目标检测框预测结果，而分类子网结合定位子网输出的初步预测代表性点集/>生成分类预测结果，最终通过融合两个预测结果得到最终的预测结果。