CN115019274A

CN115019274A - 一种融合追踪与检索算法的路面病害识别方法

Info

Publication number: CN115019274A
Application number: CN202210663058.9A
Authority: CN
Inventors: 张子睿; 程了然; 王慧; 林子杰; 李天畅; 韩冬; 王震
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-09-06
Anticipated expiration: 2042-06-13

Abstract

本发明公开了一种融合追踪与检索算法的路面病害识别方法，包括：根据汽车在包含目标物体的路面上移动的视频填充多边形，获取撞线；对视频的每帧图像进行预处理，得到预处理图像；基于YOLOv5网络和DeepSort构建MOT模型，基于预处理图像、视频、包含视频中路面位置信息的GPS文件和MOT模型，获取预测框和预测框经过撞线时的相撞地理位置；获取最佳撞线和预测框经过最佳撞线时对应视频中的相撞帧图像和相撞帧图像中的预测框图像，继而获取道路病害类型标签，道路病害类型标签用于识别路面病害。本发明提供了一种路面病害识别方法，避免了重复标注或目标丢失问题，提高了运算速度、模型自动化效率和确定路面病害的精准度。

Description

一种融合追踪与检索算法的路面病害识别方法

技术领域

本发明属于道路检测技术领域，具体涉及一种融合追踪与检索算法的路面病害识别方法。

背景技术

高频图像或视频数据采集逐渐应用于道路检测领域，基于多源及众包数据的应用场景为管理部门的数据分析带了精度、泛用性和效率的挑战。

已有目标检测模型尤其是模型的主干网络(backbone)并没有重大突破，所以推测算法的提升更多的来自机器学习技巧的应用，尤其是模型融合技巧，通过多种模型的融合推理，可以显著提升模型的识别精度，但这种技巧只能用于特定数据集并且模型-推理速度很慢，难以用于实际生产工作。

目前对路面病害识别效果显著并且成熟的人工智能算法模型有Cascade-RCNN为首的RCNN系列目标检测模型和YOLOv3等YOLO系列目标检测模型。在公开的数据分析比赛中，获得第一名的队伍算法用的是YOLOv5模型以及集成预测、模型融合等技巧，而参赛前十名的大多数队伍使用的是YOLO系列模型以及一些比较通用的数据增强技巧如随机剪裁、图像转换等。

发明内容

本发明提出了一种融合追踪与检索算法的路面病害识别方法，旨在通过YOLOv5网络与DeepSort构建MOT模型，采用YOLOv5网络对目标物体进行检测，采用DeepSort对预测框进行跟踪，减少模型运算量，提高模型运算速度，避免目标重复标注或者目标丢失；通过直接引入GPS文件，省去人工上传的步骤，提高模型自动化效率；通过不断调整撞线位置获取最佳撞线，提高确定路面病害的精准度。

为实现上述目的，本发明提供了如下方案：本发明提供一种融合追踪与检索算法的路面病害识别方法，具体如下：

S1、根据汽车在包含目标物体的路面上移动时的视频填充多边形，获取撞线；

S2、对所述视频中的每帧图像进行预处理操作，得到预处理图像；

S3、基于YOLOv5网络和DeepSort，构建MOT模型；

S4、基于所述预处理图像和所述MOT模型，获取所述目标物体的预测框；

S5、基于所述视频、包含所述视频中所述路面位置信息的GPS文件和所述MOT模型，获取所述预测框经过所述撞线时的相撞地理位置；

S6、基于所述相撞地理位置，获取最佳撞线；

S7、基于所述预测框和所述最佳撞线，获取所述预测框经过所述最佳撞线时对应所述视频中的相撞帧图像和所述相撞帧图像中的预测框图像；

S8、基于所述相撞帧图像和所述预测框图像，获取道路病害类型标签，所述道路病害类型标签用于识别所述路面的路面病害。

优选的，所述S1中获取所述撞线，包括以下步骤：

S1.1、根据所述视频的尺寸，填充多边形；

S1.2、将所述多边形缩放到预定尺寸，得到所述撞线。

优选的，所述S2中得到所述预处理图像的方法包括：

S2.1、在所述每帧图像的周围生成灰条，得到初步预处理图像；

S2.2、对所述初步预处理图像进行格式转换、归一化处理和添加维度操作，得到所述预处理图像。

优选的，所述S4中获取所述预测框，包括以下步骤：

S4.1、基于所述MOT模型中所述的YOLOv5网络的主干特征提取网络对所述预处理图像进行特征提取，获取初步有效特征层；

S4.2、基于所述MOT模型中所述的YOLOv5网络的特征金字塔对所述初步有效特征层进行加强特征提取，获取加强有效特征层；

S4.3、基于所述MOT模型中所述的YOLOv5网络的预测网络对所述加强有效特征层进行预测，获取所述预测框。

优选的，所述S4.2中所述加强特征提取的方法包括：上采样特征融合和下采样特征融合。

优选的，所述S5中获取所述相撞地理位置，包括以下步骤：

S5.1、根据所述视频，获取所述视频的每帧帧数、帧率FPS和创建时间，计算得到所述视频的每帧实际时间：

所述每帧实际时间＝所述创建时间+所述每帧帧数/所述帧率FPS；

S5.2、对所述GPS文件进行解析，获取所述GPS文件中的有效信息；

S5.3、基于所述MOT模型中的所述DeepSort对所述预测框进行追踪，获取追踪结果；

S5.4、基于所述有效信息、所述每帧实际时间和所述追踪结果，得到所述预测框经过所述撞线时的所述相撞地理位置。

优选的，所述S6中获取最佳撞线的方法是基于所述相撞地理位置，调整所述撞线的位置，获取最佳撞线。

优选的，一种融合追踪与检索算法的路面病害识别系统，其特征在于，包括撞线模块、图像预处理模块、模块模型、预测框模块、相撞地理位置模块、最佳撞线模块、相撞帧图像模块和识别模块：

所述撞线模块，用于根据汽车在包含目标物体的路面上移动时的视频填充多边形，获取撞线；

所述图像预处理模块，用于对所述视频中的每帧图像进行预处理，得到预处理图像；

所述模块模型，用于基于YOLOv5网络和DeepSort，构建MOT模型；

所述预测框模块，用于基于所述预处理图像和所述MOT模型，获取所述目标物体的预测框；

所述相撞地理位置模块，用于基于所述视频、包含所述视频中所述路面位置信息的GPS文件和所述MOT模型，获取所述预测框经过所述撞线时的相撞地理位置；

所述最佳撞线模块，用于基于所述相撞地理位置，获取最佳撞线；

所述相撞帧图像模块，基于所述预测框和所述最佳撞线，获取所述预测框经过所述最佳撞线时对应所述视频中的相撞帧图像和所述相撞帧图像中的预测框图像；

所述识别模块，用于基于所述相撞帧图像和所述预测框图像，获取道路病害类型标签，所述道路病害类型标签用于识别所述路面的路面病害。

本发明的有益效果为：基于YOLOv5网络和DeepSort构建了MOT模型，通过YOLOv5网络进行目标物体检测，大幅度减少了模型运算量，提高了模型运算速度，通过DeepSort进行预测框跟踪，极大程度上避免了重复标注或者追踪目标丢失的问题，直接引入GPS文件，省去人工上传的步骤，提高了模型自动化效率，通过不断调整撞线位置获取最佳撞线，提高了确定路面病害的精准度。

本方法具有广阔的推广空间和使用价值。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图；

图2为本发明实施例中YOLOv5网络的框架图；

图3为本发明实施例中Focus原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种融合追踪与检索算法的路面病害识别方法，具体如下：

1、根据汽车在包含目标物体的路面上移动时的视频填充多边形，获取撞线，具体过程如下：

1.1、根据视频的尺寸，填充一个黄色多边形；

1.2、将黄色多边形缩放到预定尺寸，得到撞线。

2、对视频中的每帧图像进行预处理，得到预处理图像，具体过程如下：

2.1、采用letterbox函数在每帧图像周围生成灰条，在保证每帧图像长宽比的前提下，保证了每帧图像大小的变化，得到初步预处理图像；

2.2、将初步预处理图像由BGR格式转换成RBG格式，将转换格式后获得的图像进行归一化处理并添加上batch_size维度，得到预处理图像608x608x3。

3、根据YOLOv5网络和DeepSort构建MOT模型。

如图2所示，YOLOv5网络的基本框架可以分为三个部分：主干特征提取网络(backbone)、用于加强特征提取的特征金字塔(FPN)和预测网络(YOLO Head)。

其中，主干特征提取网络(backbone)主要包括：Focus网络、SiLU激活函数、SPP结构、CSPnet。

主干特征提取网络使用了残差网络结构ResNets，其主干部分第一个卷积为1x1的卷积，第二个卷积为3x3的卷积，残差边部分不做任何处理，直接将主干的输入与输出相结合。CSPLayer定义了3个卷积，第一个卷积对输入进来的特征层进行一个简单的通道调整，第二个卷积进行特征提取，第一个卷积的结果会不断的通过残差结构进行特征提取，大的残差边部分只会进行少量的处理直接将输入和输出相接，第三个卷积用于通道的整合，倘若C3结构的输入通道数等于输出通道数，那么完成此计算结构后保证了特征层的shape不发生变化。

Focus网络：在图片进入YOLOv5网络的backbone前，Focus网络对图片进行切片操作，即在一张图片中每隔一个像素拿到一个值，这样就拿到了四张图片，四张图片互补，大小相等(相似)，避免了信息丢失。这样的操作将H,W信息集中到了通道空间，输入通道扩充了4倍，从原先的RGB三通道模式扩展到了12个通道，最后再经过卷积操作，得到了没有信息丢失的二倍下采样特征图。

Focus网络只存在于YOLOv5中，它相较其它YOLO用Focus代替了3个卷积层，减少了参数运算，减小了CUDA的使用内存，提高了运算速度。

如图3所示，将4×4×3的Tensor通过间隔采样拆分成4份，在通道维度上进行拼接生成2×2×12的Tensor。Focus层将w-h平面上的信息转换到通道维度，再通过卷积的方式提取不同特征。采用这种方式可以减少下采样带来的信息损失，之后，网络会对此特征层进行卷积、标准化和激活函数处理。

YOLOv5网络的损失包括：分类损失(classification loss)、定位损失(localization loss)和置信度损失(confidence loss)。

分类损失：对于分类预测，在YOLOv5网络中对每一个类别预测的结果使用二元交叉熵损失函数。

定位损伤：边界框预测是目标检测中最主要的任务之一，目标检测中如果想要框出检测到的目标，就需要通过对边界框所在位置数据的预测。由于边界框预测需要着重于该框与真实框的重叠区域面积，且重叠区域的面积与两者并集区域的面积之比越大越好，但光使用平方损失无法很好地衡量这一点，所以对于定位损失本发明采用CIOU损失。

FPN结构沿用了PANet的主要结构，主要功能是进行特征融合，可以分为：上采样的特征融合和下采样的特征融合。

YOLO Head预测包括分类预测和回归预测，YOLO Head的预测结果有三个功能：第一个是回归功能，对先验框进行调整获得预测框，先验框由先验框中心的x轴、y轴坐标以及先验框的宽、高组成，通过对这4个参数进行调整得到预测框；第二个功能为判断先验框内是否包含物体；第三个功能是判断先验框所属物体的种类。YOLO Head实质为三个1x1的卷积，利用这三个卷积可以将输出结果调整到一个特定的通道数。

初始化YOLOv5网络，设置参数count来统计数量。

DeepSort用于追踪预测框，判断预测框与撞线是否相撞。

4、根据得到的预处理图像和MOT模型，获取目标物体的预测框，具体过程如下：

4.1、将预处理图像608x608x3输入MOT模型，MOT模型中YOLOv5网络的主干特征提取网络(backbone)对预处理图像608x608x3进行特征提取，获取初步有效特征层，过程如下：

预处理图像608x608x3经过Focus网络得到304x304x12的特征层，然后经过卷积标准化和SiLU激活函数得到304x304x64的特征层，经过2次Resblock_body的卷积、标准化、SiLU激活函数、CSPLayer残差网络得到76x76x256的初步有效特征层；76x76x256的初步有效特征层通过Resblock_body得到38x38x512的初步有效特征层；38x38x512的初步有效特征层再次经过卷积，标准化、SiLU激活函数和SPP网络，以及CSPLayer得到最后一个19x19x1024的初步有效特征层。可知，最终得到了3个初步有效特征层：76x76x256的初步有效特征层，38x38x512的初步有效特征层和19x19x1024的初步有效特征层。

4.2、将得到是3个初步有效特征层传入MOT模型中YOLOv5网络的特征金字塔(FPN)进行加强特征提取，得到3个加强有效特征层，该过程主要可以分为两步：上采样的特征融合和下采样的特征融合，具体过程如下：

上采样特征融合：首先FPN将19x19x1024的初步有效特征层经过卷积缩小通道得到F1(19x19x512)的特征层，然后经过上采样得到38x38x512的特征层，之后将上采样的结果和38x38x512的初步有效特征层堆叠获得38x38x1024的特征层，再次经过CSPLayer获得38x38x512的特征层。将结果进行卷积获得F2(38x38x256)的特征层，再将此特征层进行上采样获得76x76x256的特征层，将其与76x76x256的初步有效特征层堆叠后获得76x76x512的特征层，经过CSPLayer获得F3(76x76x256)的加强有效特征层。

下采样特征融合：将F3(76x76x256)的加强有效特征层进行下采样特征融合得到38x38x256的特征层，再将其与F2进行堆叠得到38x38x512的特征层，再通过CSPLayer获得F4(38x38x512)的加强有效特征层，继续进行下采样获得19x19x512的特征层，将其与F1堆叠，获得19x19x1024的特征层，经过CSPLayer获得F5(19x19x1024)的加强有效特征层。

4.3、将得到的3个加强有效特征层传入YOLO Head中进行预测，得到预测框，以76x76x256的加强有效特征层为例，过程如下：

76x76x256的加强有效特征层中每一个特征点有3个先验框，经过卷积后变为76x76x(3*(4+1+num_classes))，其中“4”表示4个参数，用于对先验框中心和宽高的调整，“1”的作用为判断先验框内是否存在目标物体(通过置信度进行判断)，“num_classes”是需要区分的类别的个数，代表先验框属于哪一个种类的概率。

首先对取得的所有预测结果取一个sigmoid,然后根据76x76x256的加强有效特征层的高和宽生成网格，将每个76x76x256的加强有效特征层对应的先验框映射到每一个特征点，利用预测结果对先验框调整：将中心向右下角移动，调整高宽，使得每个特征点的预测范围的x和y为[-0.5，1.5]个特征点，w和h为[0，4]倍的区间进行调整获得预测框，输出预测框标签，将输出结果进行归一化，完成预测框解码后对预测框进行非极大抑制处理，只保留最合适的预测框。

非极大抑制处理过程：将预测框的结果由中心坐标和宽高形式改为左上角和右下角坐标的形式，之后对每一个预测框进行循环，对网络种类预测的部分取max，获得预测框所对应的可能性最大的种类，将种类置信度和先验框置信度相乘，之后进行门限判断，倘若满足要求则保留该预测框；若无预测框满足要求则删除该预测框。将预测框坐标，预测置信度，种类置信度以及种类进行堆叠，将其输入官方自带的非极大抑制，保存得分最大的预测框。

5、根据视频、包含视频中路面位置信息的GPS文件和MOT模型，获取预测框经过撞线时的相撞地理位置，过程如下：

5.1、获取视频的每帧帧数，帧率FPS和创建时间，计算视频的每帧实际时间：

每帧实际时间＝创建时间+每帧帧数/帧率FPS；

5.2、对GPS文件进行解析，获取GPS文件中的经纬度和时间信息；

5.3、使用MOT模型中的DeepSort对预测框进行追踪，判断预测框与撞线是否相撞；

5.4、当预测框与撞线相撞时，根据GPS文件中的经纬度和时间信息、每帧实际时间，得到预测框经过撞线时的相撞地理位置信息。

6、根据相撞地理位置信息，对撞线的位置进行调整和测试，缩小GPS文件中经纬度和时间的误差范围，得到最佳撞线位置，在最佳撞线位置绘制最佳撞线。

7、根据预测框和最佳撞线，获取预测框经过最佳撞线时对应视频中的相撞帧图像和相撞帧图像中的预测框图像，过程如下：

当预测框与最佳撞线相撞时，检测到预测框标签，count数加1，保存此时对应视频中的相撞帧图像和相撞帧图像中的预测框图像，并以id和类别名命名。

8、根据相撞帧图像和预测框图像，得到道路病害类型标签，道路病害类型标签用于识别路面的路面病害，过程如下：

将相撞帧图像和预测框图像封装进一个用帧数命名的文件夹，在文件夹中设置一个名为counter的txt文件，该文件中包含了相撞帧图像的时间time，道路病害类型标签label、id和相撞帧图像的纬度坐标lat和经度坐标lon信息。

道路病害类型标签对照表1识别路面的路面病害。

表1

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种融合追踪与检索算法的路面病害识别方法，其特征在于，包括以下步骤：

S3、基于YOLOv5网络和DeepSort，构建MOT模型；

S6、基于所述相撞地理位置，获取最佳撞线；

2.根据权利要求1所述的融合追踪与检索算法的路面病害识别方法，其特征在于：

所述S1中获取所述撞线，包括以下步骤：

S1.1、根据所述视频的尺寸，填充多边形；

S1.2、将所述多边形缩放到预定尺寸，得到所述撞线。

3.根据权利要求1所述的融合追踪与检索算法的路面病害识别方法，其特征在于：

所述S2中得到所述预处理图像的方法包括：

4.根据权利要求1所述的融合追踪与检索算法的路面病害识别方法，其特征在于：

所述S4中获取所述预测框，包括以下步骤：

S4.1、基于所述MOT模型中的所述YOLOv5网络的主干特征提取网络对所述预处理图像进行特征提取，获取初步有效特征层；

S4.2、基于所述MOT模型中的所述YOLOv5网络的特征金字塔对所述初步有效特征层进行加强特征提取，获取加强有效特征层；

S4.3、基于所述MOT模型中的所述YOLOv5网络的预测网络对所述加强有效特征层进行预测，获取所述预测框。

5.根据权利要求4所述的融合追踪与检索算法的路面病害识别方法，其特征在于：

所述S4.2中所述加强特征提取的方法包括：上采样特征融合和下采样特征融合。

6.根据权利要求1所述的融合追踪与检索算法的路面病害识别方法，其特征在于：

所述S5中获取所述相撞地理位置，包括以下步骤：

7.根据权利要求1所述的融合追踪与检索算法的路面病害识别方法，其特征在于：

所述S6中获取最佳撞线的方法是基于所述相撞地理位置，调整所述撞线的位置，获取最佳撞线。

8.一种融合追踪与检索算法的路面病害识别系统，其特征在于，包括撞线模块、图像预处理模块、模型模块、预测框模块、相撞地理位置模块、最佳撞线模块、相撞帧图像模块和识别模块：

所述模型模块，用于基于YOLOv5网络和DeepSort，构建MOT模型；