CN114548363A

CN114548363A - 一种基于YOLOv5的无人车辆搭载摄像头目标检测方法

Info

Publication number: CN114548363A
Application number: CN202111633725.0A
Authority: CN
Inventors: 张青春; 吴峥; 周玲; 姚胜; 刘晓洋; 蒋方呈; 王文聘
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-27

Abstract

本发明公开了一种基于YOLOv5的无人车辆搭载摄像头目标检测方法,包括无人车本体，以及安装在无人车本体前端的摄像头；所述的摄像头采集图片，将图片进行分类预处理后，再将预处理过的图片放入到YOLOv5网络模型中进行训练处理，训练过程中模型会对训练集中的图像特征点进行提取，经过多次迭代，可以得到训练完成的检测模型文件，检测模型文件为.pt格式；处理后得到的最优异的文件检测模型部署到嵌入式等设备并应用。本发明在训练时能够提取更多的特征信息，大大加强了YOLO算法对于隐蔽性强的目标的提取性能，有效地提升了识别准确率，训练效果较好，漏检率较低。

Description

一种基于YOLOv5的无人车辆搭载摄像头目标检测方法

技术领域

本发明涉及计算机视觉图像处理技术领域，具体涉及一种基于YOLOv5的无人车辆搭载摄像头目标检测方法。

背景技术

在计算机图像视觉检测领域，深度学习神经网络模型可通过较好的训练获得分辨识别出不同类别的物体，且模型展现出较好的性能。在一些物体检测技术中，通常会采用Faster R-CNN算法来对物体进行识别检测，该算法准确率较高，漏检率也较低，但是无人驾驶领域的应用对模型识别速度要求较高，因此该算法变的不适用。

目前较为先进的算法为YOLO算法。YOLO最早是在2015年由Joseph Redmon和AliFarhadi等人提出的一个基于神经网络的目标检测系统，由于其在检测速度以及精度的优势巨大，很快被人们熟知应用在各行各业，同时YOLO的强大也为后续更新版本奠定了稳固的基础。在之后技术的不断发展过程中，YOLO的作者在原有网络模型上不断地改进，与2017年的CVPR（IEEE Conference on Computer Vision and Pattern Recognition），即IEEE国际计算机视觉与模式识别会议发表了性能更加优秀的YOLO v2，YOLO v2在原有YOLO的网络模型上进一步地提升了网络模型对于目标检测的检测精度以及检测速度。

截止目前最新的模型版本为YOLOv5，其中包含四个版本分别为YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个基础模型。其中YOLOv5s的模型文件大小最小，其是深度、特征图的宽度最小的网络，YOLOv5m、YOLOv5l、YOLOv5x与YOLOv5s相比，深度、特征图的宽度依次不断加深、加宽。但是，现有的YOLOv5网络模型存在：参数量较多，导致检测识别速度较为缓慢；以及训练产生的权重文件较大，不易部署到嵌入式设备中的缺陷。

发明内容

针对上述的技术问题，本发明提供了一种基于YOLOv5的无人车辆搭载摄像头目标检测方法,对原始YOLOv5网络模型进行改进，降低原始YOLOv5网络模型的参数量，使得YOLOv5模型识别过程中需要处理的数据量减少；同时还降低原始YOLOv5网络模型训练产生的权重文件大小，使其更易部署到嵌入式设备中；可有效的解决上述问题。

本发明通过以下技术方案实现：

一种基于YOLOv5的无人车辆搭载摄像头目标检测方法,包括无人车本体，以及安装在无人车本体前端的摄像头；所述的摄像头采集图片，将图片放入到YOLO网络模型中进行训练处理，处理后得到的best.pt检测模型部署到嵌入式等设备并应用；具体的操作步骤如下：

步骤1：将摄像头安装在车辆的顶部或者前端便于摄像头能拍摄到车辆前侧图像的位置；在车辆行驶过程中，摄像头采集视频流信息，获取车辆行驶过程中的图像；

步骤2：对于步骤1采集到的视频流信息，进行关键帧截取，将截取出来的图像进行分类预处理；划分为用于训练的预训练图像数据集、用于验证的验证图像数据集以及用于测试的测试图像数据集；

对于图像的预处理包括图像有效性的检测，删除模糊、特征点不明显的图像，还包括对于选出的有效图像进行检测目标的打标签操作，通过对图像数据集的打标签生成多个待检测图像的txt标签文件，标签文件中包括图像数据集各个类别的待检测目标的坐标位置信息；

步骤3：搭建YOLO网络训练模型，对YOLO网络训练模型中的参数进行设定，将步骤2中预处理后的图像用于参数设定完整的YOLO训练；训练过程中模型会对训练集中的图像特征点进行提取，经过多次迭代，可以得到训练完成的检测模型文件，检测模型文件为.pt格式；

步骤4：经过步骤3的网络模型训练，可得到最优训练结果权重文件和最后训练结果权重文件，其中最优训练结果权重文件表示在训练过程中表现最优异的检测模型，最后训练结果权重文件表示整个训练过程的最后一次训练的检测模型；对训练产生的模型文件进行分析，查看模型训练是否发生过拟合或者欠拟合现象，若发生过拟合或欠拟合现象，根据实验结果调整训练次数和超参数，得到合理的检测模型；

步骤5：将步骤4中训练得到的最优训练结果权重文件检测模型部署到嵌入式等设备并应用。

进一步的，步骤2所述的进行关键帧截取的具体方式为：将步骤1中采集到的视频影像数据进行关键帧抽取，每隔5帧抽取一帧作为数据集中的一张图片。

进一步的，步骤2所述的对图像进行分类预处理的具体操作方式为：先将所有抽取出来的图片进行整理，删除一部分不满足训练要求的图片，对无效图片、模糊、与目的无关的图片进行删除处理；

其次，将经过删选操作后剩下的图片进行整理，按照7：2:1的比例分为三份分别作为用于模型训练的训练集、用于模型验证的验证集、用于测试模型的测试集；

最后，利用LabelImg标签工具对训练集、验证集进行待检测目标的标签处理；在LabelImg对训练集、验证集和测试集的全部图片标签处理结束后，将LabelImg生成txt标签文件。

进一步的，所述的YOLO网络训练模型在Pytorch环境下搭建，将步骤2中所得到训练集、验证集、测试集路径添加至模型配置文件中，并在YOLO网络训练模型中设置相应参数。

进一步的，所述的YOLO网络训练模型重要训练参数设置如下：训练轮次为300，批尺寸为32，初始学习率为0.01，余弦退火超参数为0.1，学习率动量为0.921，权重衰减系数为0.0004；经过参数的设置，对改进后的YOLOv5网络模型进行学习训练。

进一步的，所述YOLOv5网络模型的改进方式为在不同尺寸的特征图后添加注意力模块，即在原始YOLOv5网络模型的第五、七、九层的输出端添加注意力模块，使得特征图的深度加权平均，提升网络模型的精度；并将原始YOLOv5网络模型中的结构残差+卷积模块以及卷积层模块用分阶段的卷积计算模块替代；其中第三层残差+卷积模块用步长为1的分阶段的卷积计算模块替代；第四层卷积层以及第六层卷积层用步长为2的分阶段的卷积计算模块替代，对数据进行降维处理，减少YOLOv5中学习过程中的参数数量；第五层的残差+卷积模块以及第七层的残差+卷积模块用3个步长为1的分阶段的卷积计算模块替换；改进后的YOLOv5网络模型还包括提取特征骨干网络，SPP模块和特征融合模块。

进一步的，所述的提取特征骨干网络：特征提取网络选用分阶段的卷积计算模块网络结构，分阶段的卷积计算模块网络结构类似于ResNet中的基本残差块；由两个Ghost模块构成，第一个Ghost模块主要是为了增加通道数，用来作为扩展层；第二个Ghost模块用于减少通道数，保证通道数匹配；在该网络结构中，特征图经过Ghost Module进行两步卷积，第一次卷积的输出作为第二次卷积的输入，将两次卷积的结果串联输出，在此过程中添加注意力模块来更好的辅助网络进行特征点提取。

进一步的，所述的SPP模块：该模块分别采用5*5、9*9、13*13的最大池化层，对输入的特征图进行池化处理，将经过最大池化处理后的输出进行拼接融合，提升感受野。

进一步的，所述的特征融合模块：该模块包括按照数据流向的分阶段的卷积计算模块层、深度卷积层、第一上采样层、第一拼接层、深度卷积层、分阶段的卷积计算模块层、深度卷积层、第二上采样层、第二拼接层、深度卷积层、分阶段的卷积计算模块层、深度卷积层、第三拼接层、分阶段的卷积计算模块层、深度卷积层、第四拼接层以及分阶段的卷积计算模块层。

有益效果

本发明提出的一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，与现有技术相比较，其具有以下有益效果：

（1）本技术方案针对原始YOLOv5网络模型参数量较多的问题，采用GhostBottleneck模块替换BottleneckCSP模块，在不影响识别精度的基础上，大大减少了整个网络模型所需要处理的参数量；针对模型训练产生的权重文件较大问题，采用DWConv模块替换Neck中的Conv模块，经过GhostBottleneck模块以及DWConv模块后，模型由原始的7095906个参数量减少为2546136个参数量，mAP@0.5由87.36%提升至95.88%。

（2）本技术方案通过改进后的YOLOv5网络模型对于特征提取网络能够提取更多的特征信息，加强了YOLOv5网络模型对于隐蔽性强的目标的提取性能，有效地提升了识别准确率，改进后的YOLOv5网络模型的mAP@0.5（Mean Accuracy）可达到95.88%，较原始YOLOv5算法模型mAP@0.5（Mean Accuracy）提高了4.05%；检测速度为40.00帧/s，与原始YOLOv5算法模型对比，速度提升了32.01%。

附图说明

图1是本发明在训练过程中的流程示意图。

图2是本发明中改进后的YOLOv5网络模型架构图。

图3是本发明中YOLOv5网络模型的模块替换示意图。

图4是改进后的YOLOv5网络模型在实际应用中检测效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。在不脱离本发明设计构思的前提下，本领域普通人员对本发明的技术方案做出的各种变型和改进，均应落入到本发明的保护范围。

实施例1：

如图1-图4所示，一种基于YOLOv5的无人车辆搭载摄像头目标检测方法,包括无人车本体，以及安装在无人车本体前端的摄像头；所述的摄像头采集图片，将图片放入到YOLO网络模型中进行训练处理，处理后得到的best.pt检测模型部署到嵌入式等设备并应用；具体的操作步骤如下：

步骤2：对于步骤1采集到的视频流信息，进行关键帧截取；将步骤1中采集到的视频影像数据进行关键帧抽取，每隔5帧抽取一帧作为数据集中的一张图片。

将截取出来的图像进行分类预处理；划分为用于训练的预训练图像数据集、用于验证的验证图像数据集以及用于测试的测试图像数据集。对于图像的预处理包括图像有效性的检测，删除模糊、特征点不明显的图像，还包括对于选出的有效图像进行检测目标的打标签操作，通过对图像数据集的打标签生成多个待检测图像的txt标签文件，标签文件中包括图像数据集各个类别的待检测目标的坐标位置信息。

先将所有抽取出来的图片进行整理，删除一部分不满足训练要求的图片，对无效图片、模糊、与目的无关的图片进行删除处理。

其次，将经过删选操作后剩下的图片进行整理，按照7：2:1的比例分为三份分别作为用于模型训练的训练集、用于模型验证的验证集、用于测试模型的测试集。

步骤3：搭建YOLO网络训练模型，对YOLO网络训练模型中的参数进行设定，将步骤2中预处理后的图像用于参数设定完整的YOLO训练；训练过程中模型会对训练集中的图像特征点进行提取，经过多次迭代，可以得到训练完成的检测模型文件，检测模型文件为.pt格式。

所述的YOLO网络训练模型在Pytorch环境下搭建，将步骤2中所得到的3个数据集：训练集、验证集、测试集路径添加至模型配置文件中，并在YOLOv5中设置相应参数。

网络模型部分重要训练参数设置如下：训练跌宕次数为300，批尺寸为32，初始学习率为0.01，余弦退火超参数为0.1，学习率动量为0.921，权重衰减系数为0.0004。

经过上述参数的设置，对改进后的YOLOv5网络模型进行学习训练。

具体的，改进后的YOLOv5网络结构如下：

改进后的YOLOv5网络模型在不同尺寸的特征图后添加注意力注意力模块，即在第五、七、九层的输出端添加注意力模块，使得特征图的深度加权平均，提升网络模型的精度。

将原始YOLOv5网络结构残差+卷积模块以及卷积层模块用分阶段的卷积计算模块替代，其中第三层残差+卷积模块用步长为1的分阶段的卷积计算模块替代；第四层卷积层以及第六层卷积层用步长为2的分阶段的卷积计算模块替代，对数据进行降维处理，减少YOLOv5中学习过程中的参数数量；第五层的残差+卷积模块以及第七层的残差+卷积模块用3个步长为1的分阶段的卷积计算模块替换。

提取特征骨干网络：特征提取网络选用分阶段的卷积计算模块网络结构，分阶段的卷积计算模块网络结构类似于ResNet中的基本残差块。由两个Ghost模块构成，第一个Ghost模块主要是为了增加通道数，用来作为扩展层；第二个Ghost模块用于减少通道数，保证通道数匹配。在该网络结构中，特征图经过Ghost Module进行两步卷积，第一次卷积的输出作为第二次卷积的输入，将两次卷积的结果串联输出，在此过程中添加注意力模块来更好的辅助网络进行特征点提取。

SPP模块：该模块分别采用5*5、9*9、13*13的最大池化层，对输入的特征图进行池化处理，将经过最大池化处理后的输出进行拼接融合，提升感受野。

特征融合模块：该模块包括按照数据流向的分阶段的卷积计算模块层、深度卷积层、第一上采样层、第一拼接层、深度卷积层、分阶段的卷积计算模块层、深度卷积层、第二上采样层、第二拼接层、深度卷积层、分阶段的卷积计算模块层、深度卷积层、第三拼接层、分阶段的卷积计算模块层、深度卷积层、第四拼接层以及分阶段的卷积计算模块层。

通过特征融合模块将提取出来的不同尺度下特征图进行上采样以及拼接，可得到较为丰富的特征信息。

步骤4：经过步骤3的网络模型训练，可得到最优训练结果权重文件和最后训练结果权重文件，其中最优训练结果权重文件表示在训练过程中表现最优异的检测模型，最后训练结果权重文件表示整个训练过程的最后一次训练的检测模型。

对训练产生的模型文件进行分析，查看模型训练是否发生过拟合或者欠拟合现象，若发生过拟合或欠拟合现象，根据实验结果调整训练次数和超参数，得到理想的检测模型。

本实施例的实验是基于windows 10系统下进行实验验证的。采用的GPU显卡为Nvidia GeForce RTX 3090（24GB/微星），Inter(R) Core(TM) i9-10920X CPU @ 3.5GHzCPU处理器，语言为Python3.8，加速环境为CUDA11.3，深度学习网络框架为Pytorch。

表1 算法网络模型对比

算法	layers	parameters	gradients	权重文件大小（MB）
					YOLOv5	283	7095906	7095906	14.4
本方案	413	2546136	2546136	5.8

表2 算法训练识别对比

算法	模型大小（MB）	训练时间（h）	mAP@0.5（%）	速度（帧/s）	漏检率（%）
						YOLOv5	14.4	10.246	87.36	30.30	8.61
本方案	5.8	10.639	95.88	40.00	8.43

在图4中，展示了利用改进后的模型训练得到的权重文件对测试集进行检测测试的部分图片，图片检测时间为0.025s，识别速度为40.00帧/s，另通过测试结果图片可看出改进后的模型训练效果较好，漏检率较低。

由于改进后的算法对于特征提取网络能够提取更多的特征信息，大大加强了YOLO算法对于隐蔽性强的目标的提取性能，因此本文对于YOLO v5算法的改进有效地提升了识别准确率，改进后的算法较原本算法mAP@0.5（Mean Accuracy）可达到95.88%，较原始YOLOv5算法模型mAP@0.5（Mean Accuracy）提高了4.05%；检测速度为40.00帧/s，与原始YOLOv5算法模型对比，速度提升了32.01%。

Claims

1.一种基于YOLOv5的无人车辆搭载摄像头目标检测方法,包括无人车本体，以及安装在无人车本体前端的摄像头；所述的摄像头采集图片，将图片放入到YOLO网络模型中进行训练处理，处理后得到的best.pt检测模型部署到嵌入式等设备并应用；具体的操作步骤如下：

2.根据权利要求1所述的一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，其特征在于：步骤2所述的进行关键帧截取的具体方式为：将步骤1中采集到的视频影像数据进行关键帧抽取，每隔5帧抽取一帧作为数据集中的一张图片。

3.根据权利要求1所述的一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，其特征在于：步骤2所述的对图像进行分类预处理的具体操作方式为：先将所有抽取出来的图片进行整理，删除一部分不满足训练要求的图片，对无效图片、模糊、与目的无关的图片进行删除处理；

4.根据权利要求3所述的一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，其特征在于：所述的YOLO网络训练模型在Pytorch环境下搭建，将步骤2中所得到训练集、验证集、测试集路径添加至模型配置文件中，并在YOLO网络训练模型中设置相应参数。

5.根据权利要求4所述的一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，其特征在于：所述的YOLO网络训练模型重要训练参数设置如下：训练轮次为300，批尺寸为32，初始学习率为0.01，余弦退火超参数为0.1，学习率动量为0.921，权重衰减系数为0.0004；经过参数的设置，对改进后的YOLOv5网络模型进行学习训练。

6.根据权利要求5所述的一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，其特征在于：所述YOLOv5网络模型的改进方式为在不同尺寸的特征图后添加注意力模块，即在原始YOLOv5网络模型的第五、七、九层的输出端添加注意力模块，使得特征图的深度加权平均，提升网络模型的精度；并将原始YOLOv5网络模型中的结构残差+卷积模块以及卷积层模块用分阶段的卷积计算模块替代；其中第三层残差+卷积模块用步长为1的分阶段的卷积计算模块替代；第四层卷积层以及第六层卷积层用步长为2的分阶段的卷积计算模块替代，对数据进行降维处理，减少YOLOv5中学习过程中的参数数量；第五层的残差+卷积模块以及第七层的残差+卷积模块用3个步长为1的分阶段的卷积计算模块替换；改进后的YOLOv5网络模型还包括提取特征骨干网络，SPP模块和特征融合模块。

7.根据权利要求6所述的一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，其特征在于：所述的提取特征骨干网络：特征提取网络选用分阶段的卷积计算模块网络结构，分阶段的卷积计算模块网络结构类似于ResNet中的基本残差块；由两个Ghost模块构成，第一个Ghost模块主要是为了增加通道数，用来作为扩展层；第二个Ghost模块用于减少通道数，保证通道数匹配；在该网络结构中，特征图经过Ghost Module进行两步卷积，第一次卷积的输出作为第二次卷积的输入，将两次卷积的结果串联输出，在此过程中添加注意力模块来更好的辅助网络进行特征点提取。

8.根据权利要求6所述的一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，其特征在于：所述的SPP模块：该模块分别采用5*5、9*9、13*13的最大池化层，对输入的特征图进行池化处理，将经过最大池化处理后的输出进行拼接融合，提升感受野。

9.根据权利要求6所述的一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，其特征在于：所述的特征融合模块：该模块包括按照数据流向的分阶段的卷积计算模块层、深度卷积层、第一上采样层、第一拼接层、深度卷积层、分阶段的卷积计算模块层、深度卷积层、第二上采样层、第二拼接层、深度卷积层、分阶段的卷积计算模块层、深度卷积层、第三拼接层、分阶段的卷积计算模块层、深度卷积层、第四拼接层以及分阶段的卷积计算模块层。