CN113255634A

CN113255634A - 基于改进Yolov5的车载移动端目标检测方法

Info

Publication number: CN113255634A
Application number: CN202110810233.8A
Authority: CN
Inventors: 高明裕; 王俊帆; 董哲康; 杨宇翔; 周洪涛; 王耀农; 赵志定
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-07-18
Filing date: 2021-07-18
Publication date: 2021-08-13

Abstract

本发明公开了基于改进Yolov5的车载移动端目标检测方法。本发明通过RFP（Receptive Field Pyramids）模块对Yolov5网络进行改进，在Yolov5网络的Neck部分的特征金字塔后加入RFP模块；利用数据集对改进后的网络进行训练，得到权重模型。然后将训练好的模型移植到车载移动端上进行实时检测识别。通过在特征金字塔后加入RFP模块，使Yolov5网络原本在Neck层输出的特征图能够自适应的具有不同的感受域，提高其对多尺度目标的识别精度，与此同时模型大小较小并且识别速度较快。解决了模型过大而无法在车载板上实时检测以及对多尺度目标识别精确率不高的问题。

Description

基于改进Yolov5的车载移动端目标检测方法

技术领域

本发明属于目标检测技术领域，涉及一种车载移动端的目标检测方法，具体涉及一种基于改进Yolov5的车载移动端目标检测方法。

背景技术

无人驾驶系统的核心可以分为三个部分：感知、规划和控制。感知是从车辆的驾驶环境中收集信息并提取到相关的知识用于后期的规划和控制，是无人驾驶技术实现过程中的基础环节。

传统的目标检测方法主要基于特征学习。特征学习根据模型的复杂程度、特征选取和分类计算可以分为机器学习方法和深度学习算法。传统的机器学习方法，首先进行区域选择，通常采用滑动窗口，设置不同大小、不同长宽的窗口对图像进行遍历；之后进行特征提取，比如SIFT、HOG等；最后利用分类器进行分类，主要有SVM、Adaboost等。在传统的机器学习方法中，进行区域选择时，遍历图像会使得时间复杂度较高，同时特征提取时会因为形态多样性、光照多样性、背景多样性使得鲁棒性变差。

为克服传统机器学习方法的局限，卷积神经网络（CNN）应运而生。与传统方法相比，CNN可以准确地提取出合适的特征，无需额外设计特定的特征。基于CNN的检测方法可以分为one-stage和two-stage两大类。YOLO系列属于one-stage的检测方法，因其检测速度快而被广泛应用于目标检测任务中。最新发布的Yolov5中，给出了四个应用于目标检测的模型，分别是Yolov5s、Yolov5m、Yolov5l和Yolov5x。这四个模型的参数量从小到大依次递增，相比于two-stage检测方法，Yolov5由于网络深度较浅因而速度更快，但同时其目标识别精度也有所下降。其中，Yolov5s的模型参数最少，但是检测精度不高，在实际应用时无法保证识别的可靠性；而Yolov5l、Yolov5x其识别准确率提高后检测速度则无法满足实时要求。

发明内容

针对现有技术的不足，本发明提出了基于改进Yolov5的车载移动端目标检测方法，使用RFP模块对Yolov5进行改进，再将训练后的模型部属到车载硬件上，在提高多尺度目标识别精确度的同时，满足车载移动端实时检测的速度要求。

基于改进Yolov5的车载移动端目标检测方法，具体包括以下步骤：

步骤1、在Yolov5模型三个输出分支的全连接层前加入RFP模块，构建改进的Yolov5网络模型。所述RFP模块包括多分支卷积层和分支池化层，其中多分支卷积层为3个并行的、扩张率分别为1、3、5的卷积核大小为3x3的扩张卷积。分支池化层的输入为3个并行的卷积层的输出，利用平均操作将输入数据相加取平均后再输出。

步骤2、采集包含信号灯或交通标志的图片，标识后作为训练集输入到步骤1构建的改进的Yolov5网络模型中，设置迭代次数、初始学习率和学习衰减策略，使用优化器调整网络模型的权重参数，当训练次数达到设定值或损失函数值不变化时，完成训练，保存此时的网络权重参数。

步骤3、将步骤2训练完成的改进的Yolov5网络模型部属到车载移动端，将行车记录仪拍摄的包含信号灯或交通标志的道路视频输入到车载移动端，对道路视频中出现的标志进行分类，输出结果通过车载移动端查看，完成目标检测。

本发明具有以下有益效果：

1、在本地离线端训练神经网络，并将训练完成的神经网络型移植到车载移动端上，节约硬件资源，实现车载移动端对多尺度目标进行实时检测。

2、在Yolov5神经网络上集成RFP模块，利用多分支卷积层和分支池化层，使每个特征图具有不同的感受域，并且降低了推理成本、推理速度保持不变。在保证目标识别实时性的同时，提高了目标识别准确性。

附图说明

图1为目标检测方法的流程图；

图2为RFP模块结构图；

图3为改进的Yolov5网络模型结构图；

图4（a）、（b）为实施例中的目标检测结果图。

具体实施方式

以下结合附图对本发明作进一步的解释说明。

如图1所示，基于改进Yolov5的车载移动端目标检测方法，具体包括以下步骤：

步骤1、在Yolov5模型三个输出分支的全连接层前加入如图2所示的RFP模块，所述RFP模块包括多分支卷积层和分支池化层，多分支卷积层中的3个卷积层并行，共享相同的结构与权重，通过不同的扩张率为输入特征提供不同的感受域，从而改变输出特征的感受域大小，让每个特征图的自适应具有不同的感受域，提高多尺度目标的识别精度。其中多分支卷积层为3个并行的、扩张率分别为1、3、5的卷积核大小为3x3的扩张卷积。分支池化层将3个并行的卷积层的输出通过大小为1x1的卷积层连接在一起，利用平均操作将其相加取平均后再输出，可以减少通道数与额外的参数，并且可以平衡训练过程中不同并行分支输出的特征表示，加快推理速度。

构建如图3所示的改进的Yolov5网络模型，Yolov5网络的Neck部分为FPN结构，形成一个三级的特征金字塔结构，主干网络部分通过大小为3x3、步长为2的卷积以及下采样生成特征图C1、C2、C3，然后三个特征图通过自上而下的垂直连接生成具有256个通道的特征金字塔的特征图P1、P2、P3，P1、P2、P3先经过RFP模块获取不同的感受野，再进入Yolov5网络的三个预测分支，通过softmax损失和平滑L1损失进行分类和回归，完成端到端的优化，得到预测结果。

步骤2、通过行车记录仪拍摄视频，以一分钟为间隔截取10000张图片，对图片中出现的信号灯或交通标志进行统计、标识，选择出现频率最高的25类交通标志或信号灯作为数据集类别，选择8000张标识后的图片组成训练集输入到步骤1构建的改进的Yolov5网络模型中，设置初始学习率和学习衰减策略，使用优化器调整网络模型的权重参数，当训练次数达到300次或损失函数值不变化时，完成训练，保存此时的网络权重参数。

将剩余的2000张图片作为测试集输入训练后的Yolov5网络和改进的Yolov5网络模型中，对模型性能进行测试，实验环境为： CPU Intel(R) Core(TM) i7-6800K CPU @3.40GHz，GPU为GTX1080Ti，显卡内存为11GB，系统版本为Linux 5.4.0-72-generic Ubuntu20.04.2 LTS, Cuda版本为10.1，使用的深度学习框架是Pytorch 1.8.0，测试结果如下表所示：

	FPS	mAP	Weights
				Yolov5	27.78	0.37	14.8
Yolov5-RFP	24.87	0.41	19.1

表1

其中FPS是网络模型每秒能识别的图像数，其数值越大表示识别速度越快；mAP表示识别精确度；Weights表示训练完后的模型大小。从表1可以看出，使用本申请改进的Yolov5网络模型在移动设备上进行实时目标识别方面具备较大的优势，在保持模型大小不发生较大改变的情况下，可以提高对小目标的识别效果和识别精度，同时保持较快的识别速度，对于便于携带的移动硬件设备在算例不足的时下，也可以实现在车载移动端对多尺度目标进行实时识别检测。

步骤3、将步骤2训练完成的改进的Yolov5网络模型部属到配属好运行环境的车载移动端，选择USB3.0接口的高清可变焦工业摄像头拍摄道路视频并输入到车载移动端上的网络模型中，对视频中出现的标志进行分类，输出结果如图4（a）、4（b）所示，可以看到在不同拍摄地点、不同道路上都可以完成目标检测。

Claims

1.基于改进Yolov5的车载移动端目标检测方法，其特征在于：该方法具体包括以下步骤：

步骤1、在Yolov5模型预测分支的全连接层前加入RFP模块，构建改进的Yolov5网络模型；所述RFP模块包括多分支卷积层和分支池化层，其中多分支卷积层为并行的、扩张率不同的扩张卷积；分支池化层接收多分支卷积层的输出，相加取平均后输入Yolov5模型预测分支的全连接层；

步骤2、采集包含信号灯或交通标志的图片，标识后作为训练集输入到步骤1构建的改进的Yolov5网络模型中，设置迭代次数、初始学习率和学习衰减策略，使用优化器调整网络模型的权重参数，当训练的迭代次数达到设定值或损失函数值不变化时，完成训练，保存此时的网络权重参数；

步骤3、将步骤2训练完成的改进的Yolov5网络模型部署到车载移动端，将行车记录仪拍摄的包含信号灯或交通标志的道路视频输入到车载移动端，对道路视频中出现的标志进行分类，输出结果通过车载移动端查看，完成目标检测。

2.如权利要求1所述基于改进Yolov5的车载移动端目标检测方法，其特征在于：分支池化层通过大小为1x1的卷积层将多分支卷积层的输出连接在一起。

3.如权利要求1所述基于改进Yolov5的车载移动端目标检测方法，其特征在于：步骤2中改进的Yolov5网络模型训练的迭代次数为300次。

4.如权利要求1所述基于改进Yolov5的车载移动端目标检测方法，其特征在于：所述行车记录仪为带有USB3.0接口的可变焦摄像头。

5.如权利要求1所述基于改进Yolov5的车载移动端目标检测方法，其特征在于：所述RFP模块的多分支卷积层为3个并行的、扩张率分别为1、3、5的卷积核大小为3x3的扩张卷积。

6.如权利要求1或5所述基于改进Yolov5的车载移动端目标检测方法，其特征在于：通过不同扩张率的扩张卷积提供不同的感受域。

7.如权利要求1所述基于改进Yolov5的车载移动端目标检测方法，其特征在于：步骤2中采集的图片通过行车记录仪拍摄视频后，以1分钟为间隔截取获得。

8.如权利要求1或7所述基于改进Yolov5的车载移动端目标检测方法，其特征在于：统计采集的图片中出现频率最高的25类交通标志或信号灯作为训练集中的数据类别，训练集中的图片数量为8000张。