CN115171059A

CN115171059A - 基于改进YOLOv5网络模型的车辆感知方法

Info

Publication number: CN115171059A
Application number: CN202210856506.7A
Authority: CN
Inventors: 赵池航; 诸雨; 刘洋
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-10-11

Abstract

本发明公开了基于改进YOLOv5网络模型的车辆感知方法，包括：在现有成熟的YOLOv5模型基础上，通过对模型特征提取网络引入CA注意力机制模块，同时对模型添加一组锚框和检测层，构造了适用于高速公路场景下的车辆检测和车型分类模型。本发明通过深度学习网络的紧密结合，将其应用于高速公路车辆感知领域可以大大提高车型识别的准确率和实时性，对高速运营管理提供技术支持。

Description

基于改进YOLOv5网络模型的车辆感知方法

技术领域

本发明专利涉及智能交通，智慧高速研究领域，具体涉及基于改进YOLOv5网络模型的车辆感知方法。

背景技术

当前，高速公路交通流量日益增大，作为事故多发场景，其安全形势面临着严峻的挑战，在存在遮挡车牌、套牌、私自改装车辆的情况下如何有效准确地检索肇事车辆成为一大难题；传统的ETC识别常出现逃费、“蹭卡”等行为，已经远远不能满足高速公路日常运营管理的需求。基于深度学习和计算机视觉的目标检测算法为高速公路场景下对车辆进行全自动快速定位和分类提供了新的解决方案和思路。鉴于此，本发明通过对高速公路车辆感知数据进行深度学习建模，在分析YOLOv5网络模型的整体框架结构的基础上，构建了引入CA注意力机制和添加初始锚框及小目标检测层的YOLOv5模型，研究了基于改进YOLOv5网络模型的车辆感知方法。

发明内容

发明目的：为了克服现有技术中存在的不足，提供的基于改进YOLOv5网络模型的车辆感知方法，其利用基于改进YOLOv5模型的深度学习方法快速、有效地对高速公路场景中的车辆进行精确的定位和车型分类，可对高速公路运营管理提供技术支持。

技术方案：为实现上述目的，本发明提供的基于改进YOLOv5网络模型的车辆感知方法，包括如下步骤：

S1：构建高速公路车辆感知数据集，包括训练数据集和测试数据集。

S2：对模型添加一组小尺寸初始锚框，并向Neck中添加小目标检测层。

S3：在YOLOv5网络模型中引入CA注意力机制模块，增强模型的特征表达和学习能力；

进一步的，所述步骤S1中构建高速公路车辆感知数据集的方法为：采用山东高速监控抓拍图像构建车辆感知训练数据集和测试数据集；训练数据集由2440幅图像组成，包含bus、car、truck三类样本，并按照train：val：test＝6：2：2的比例划分为训练集1464幅、验证集488幅、测试集488幅用于模型训练、验证及测试，其中，bus为中型客车、大型客车；car为包含轿车、面包车、SUV各种形态的小汽车；truck为包含皮卡在内的小、中、大型货车；测试数据集由两日全天的高速公路监控抓拍图像共20000幅组成，用于对训练后的模型进行性能测试；对训练数据集，使用labelImg对图像中的目标车辆进行标注，标注类型为PascalVOC格式，标注方法为对每张图像的中心车辆使用矩形框进行标注，将除车轮外的车辆及车身全部包含在框内，以避免车轮及车底阴影对模型边界框位置回归造成干扰和偏移。

进一步的，所述步骤S2中对模型添加一组小尺寸初始锚框，并向Neck中添加小目标检测层，步骤如下：

S2-1：对模型添加一组小尺寸初始锚框，尺寸分别为5，6，8，14，15和11，用于对输出最大特征图进行检测；

S2-2：在第18层后，添加一个上采样层对特征图进行上采样操作，使特征图的尺寸从80×80扩大至160×160，并使用添加的较小anchor在第21层时，将获取到的大小为160×160的特征图与backbone中第2层特征图进行concat融合，获取更大的特征图进行小目标检测。

其中，对模型中添加一组更小尺寸的初始锚框，尺寸分别为5，6，8，14，15和11，用于对最终输出的尺寸最大的特征图进行检测；在YOLOv5模型的第18层后，添加一个上采样层对特征图进行上采样操作，使特征图的尺寸从80×80扩大至160×160，获得更大的特征图以捕捉尺寸更小的目标和特征；在第21层时，将获取到的大小为160×160的特征图与backbone中第2层特征图进行concat融合，使获得的特征图保留更多的原始特征信息，增强特征图的表达能力；将上述改进引入YOLOv5模型即可得到改进后的YOLOv5_st模型。

进一步的，所述步骤S3中YOLOv5拥有YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x五种网络模型，它们的深度和特征图的宽度依次增加，更深更宽的网络消耗更多的检测时间以获取更高的检测精度。YOLOv5的网络结构分为Input、Backbone、Neck和Prediction四个部分，其各部分中做出的主要改进和提升为：

1)Input输入图像。YOLOv5采用YOLOv4中的马赛克数据增强方法，该方法将四张图片进行随机缩放、裁切、排列的方式进行组合。其主要优点在于：增强数据集，对四张图片进行上述随机处理，丰富了数据集，且提高了数据集中小目标的比例，使YOLOv5在小目标的检测性能方面有所提升；同时，降低对GPU的要求，马赛克增强训练过程中直接计算4张图片的数据，减小了mini-batch的大小，当仅有一个GPU时也能获得较为理想的效果。

YOLOv5相较于YOLOv3和YOLOv4的提升还有自适应锚框计算以及图片缩放功能。YOLOv5可在每次训练中计算相应的最佳初始锚框值，而无需同YOLOv4一样运行单独的程序进行计算；在缩放时输入图片时，对原图进行最少的黑边填充，显著加快检测速度。

2)Backbone提取特征。YOLOv5使用跨阶段局部网络CSPNet作为Backbone进行特征提取。CSP1结构由卷积层和残差模块组成，其将基础层的特征映射划分为两部分，然后通过跨阶段层次结构将它们合并，减少梯度信息重复，在确保推理速度和准确率的同时缩小了模型尺寸。

3)Neck生成特征金字塔。YOLOv5采用与YOLOv4相同的FPN+PAN的结构，其创新之处在于设计并加入了新的CSP模块(CSP2_X)以增强网络特征融合。

4)Prediction生成检测结果。YOLOv5采用了YOLOv3的Head结构，其损失函数由边界框回归损失(box_loss)、置信度损失(obj_loss)以及分类损失(cls_loss)组成。

YOLOv5的损失函数由三部分构成。其中，置信度损失obj_loss和分类损失cls_loss采用BCEWithLogitsLoss计算，边界框回归损失box_loss采用CIoU_Loss，其定义式如下：

其中，

其中，b和b^gt为两个矩形框的中心点，ρ为两个矩形框之间的欧氏距离，c表示两个矩形框的区域的对角线的距离，c的作用是防止损失函数的值过大，提升收敛速度。v衡量两个矩形框长宽比的一致性，α为权重系数。

进一步的，所述步骤S3中定义CA注意力机制模块，并添加到backbone网络末尾，对高速公路车辆感知图像进行特征提取：

S3-1：声明CA注意力模块；

S3-2：将CA注意力模块添加至YOLOv5的backbone网络中；

进一步的，声明CA注意力模块的方法为：首先，将输入特征图分为宽度和高度两个方向，并分别进行全局平均池化，获得在宽度和高度两个方向的特征图；接着，将获得全局感受野的宽度和高度两个方向的特征图拼接在一起，送入共享的卷积核为1×1的卷积模块，将其维度降低为原来的C/r，再将经过批量归一化处理的特征图F1送入Sigmoid激活函数得到形如1×(W+H)×C/r的特征图f；接着将特征图f按照原来的高度和宽度进行卷积核为1×1的卷积分别得到通道数与原来一样的特征图F_h和F_w，经过Sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重g^h和在宽度方向的注意力权重g^w；最后在原始特征图上通过乘法加权计算，将得到最终在宽度和高度方向上带有注意力权重的特征图。

进一步的，将CA注意力模块添加至YOLOv5的backbone网络中的方法为：在YOLOv5的backbone网络末尾，即backbone网络中最后一个CBL模块和SPPF模块之间，插入CA注意力模块，对特征图进行坐标注意力权重赋值，提升模型特征表达能力。

本发明改进了YOLOv5中的backbone网络和Neck网络，引入了注意力机制，增加了一组初始锚框和小目标检测层。

有益效果：本发明与现有技术相比，在原有的深度学习网络模型上进行改进，从而可以更精准的实现高速公路场景下的车辆快速准确的定位和车型分类，对高速公路运营管理提供技术支持。

附图说明

图1为应用不同改进后模型的精确率、召回率指标的条状图和推理速度的折线图的组合图。

图2为CA注意力模块结构图。

图3为所提出的改进YOLOv5网络结构图。

具体实施方法

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供的基于改进YOLOv5网络模型的车辆感知方法，包括如下步骤：

采用山东高速监控抓拍图像构建车辆感知训练数据集和测试数据集；训练数据集由2440幅图像组成，包含bus、car、truck三类样本，并按照train：val：test＝6：2：2的比例划分为训练集1464幅、验证集488幅、测试集488幅用于模型训练、验证及测试；测试数据集由两日全天的高速公路监控抓拍图像共20000幅组成，用于对训练后的模型进行性能测试；对训练数据集，使用labelImg对图像中的目标车辆进行标注，标注方法为对每张图像的中心车辆使用矩形框进行标注，将除车轮外的车辆及车身全部包含在框内，以避免车轮及车底阴影对模型边界框位置回归造成干扰和偏移。

S2-1：对模型添加一组小尺寸初始锚框。

新的一组初始锚框尺寸分别为5，6，8，14，15和11，用于对输出最大特征图进行检测；

S2-2：向Neck中添加小目标检测层.

添加小目标检测层的Neck(如表1所示)通过在第18层后，添加一个上采样层对特征图进行上采样操作，使特征图的尺寸从80×80扩大至160×160，并使用添加的较小anchor在第21层时，将获取到的大小为160×160的特征图与backbone中第2层特征图进行concat融合，获取更大的特征图进行小目标检测。将该Neck网络代入YOLOv5模型即可得到YOLOv5_st网络模型。

表1添加检测层的Neck网络结构表

layer	n	Operator	Arguments
				11	1	Conv	[768，384，1，1]
12	1	Upsample	[None，2，‘nearest’]
				13	1	Concat	[1]
14	2	C3	[768，384，2，False]
				15	1	Conv	[384，768，1，1]
16	1	Upsample	[None，2，‘nearest’]
				17	1	Concat	[1]
18	2	C3	[576，384，2，False]
				19	1	Conv	[384，192，1，1]
20	1	Upsample	[None，2，‘nearest']
				21	1	Concat	[1]
22	2	C3	[288，192，2，False]
				23	1	Conv	[192，192，3，2]
24	1	Concat	[1]
				25	2	C3	[384，192，2，False]
26	1	Conv	[192，192，3，2]
				27	1	Concat	[1]
28	2	C3	[576，384，2，False]
				29	1	Conv	[384，384，3，2]
30	1	Concat	[1]
				31	2	C3	[768，768，2，False]

S3-1：定义CA注意力模块。

CA注意力模块首先将输入特征图分为宽度和高度两个方向，并分别进行全局平均池化，获得在宽度和高度两个方向的特征图；接着，将获得全局感受野的宽度和高度两个方向的特征图拼接在一起，送入共享的卷积核为1×1的卷积模块，将其维度降低为原来的C/r，再将经过批量归一化处理的特征图F1送入Sigmoid激活函数得到形如1×(W+H)×C/r的特征图f；接着将特征图f按照原来的高度和宽度进行卷积核为1×1的卷积分别得到通道数与原来一样的特征图F_h和F_w，经过Sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重g^h和在宽度方向的注意力权重g^w；最后在原始特征图上通过乘法加权计算，将得到最终在宽度和高度方向上带有注意力权重的特征图。

S3-2：将CA注意力模块添加至YOLOv5的backbone网络中，将CA注意力模块插入CBL模块和SPPF模块之间即可得到YOLOv5_CA模型。

插入CA注意力模块的模型backbone网络(如表2所示)，将backbone经过卷积模块和

将该backbone网络带入到YOLOv5_st模型即可得到YOLOv5_st_CA模型。

表2插入CA注意力模块的backbone网络结构表

layer	n	Operator	Arguments
				0	1	Conv	[3，48，6，2，2]
1	1	Conv	[48，96，3，2]
				2	2	C3	[96，96，2]
3	1	Conv	[96，192，3，2]
				4	4	C3	[192，192，4]
5	1	Conv	[192，384，3，2]
				6	6	C3	[384，384，6]
7	1	Conv	[384，768，3，2]
				8	2	C3	[768，768，2]
9	1	CABlock	[768，768，32]
				10	1	SPPF	[768，768，5]

为验证上述方法的效果，本实施例中将步骤S1的YOLOv5模型中加入新的初始锚框组和小目标检测层进行实验对比，具体如表3、图1所示。

表3加入初始锚框组和小目标检测层前后模型性能对比

实验表明，添加检测层的改进措施对漏检和误检情况均有明显改善，且对推理速度影响较小。添加检测层的YOLOv5s_st模型优于原始YOLOv5s网络模型，其准确率达到99.410％，精确率达到99.609％，召回率达到99.800％，推理速度仍有81.3FPS，图像平均处理时间与添加检测层前相同，均为0.100s。

在此基础上，本实施例中将步骤S2的backbone网络带入YOLOv5_st模型进行实验对比，具体如表4、图2所示：

表4引入CA注意力模块前后模型性能对比

实验结果对比可知，添加CA注意力机制后高速公路场景中的车辆感知精度有明显提升。与YOLOv5s_st对比，添加CA注意力机制后，YOLOv5s_st_CA的推理速度仅下降不到5FPS，图像平均处理时间仍为0.100s，性能与未经优化的YOLOv5m接近，同时具有更好的实时性。可见引入CA注意力机制是性价比极高的改进措施。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于改进YOLOv5网络模型的车辆感知方法，其特征在于：包括如下步骤：

S1：构建高速公路车辆感知数据集，包括训练数据集和测试数据集；

S2：对模型添加一组小尺寸初始锚框，并向Neck中添加小目标检测层；

S3：在YOLOv5网络模型中引入CA注意力机制模块，增强模型的特征表达和学习能力。

2.根据权利要求1所述的基于改进YOLOv5网络模型的车辆感知方法，其特征在于：采用高速监控抓拍图像构建车辆感知训练数据集和测试数据集，所使用的均为真实拍摄图像；训练数据集由2440幅图像组成，包含bus、car、truck三类样本，并按照train：val：test＝6：2：2的比例划分为训练集1464幅、验证集488幅、测试集488幅用于模型训练、验证及测试；测试数据集由两日全天的高速公路监控抓拍图像共20000幅组成，用于对训练后的模型进行性能测试。

3.根据权利要求2所述的基于改进YOLOv5网络模型的车辆感知方法，其特征在于：bus为中型客车、大型客车；car为包含轿车、面包车、SUV各种形态的小汽车；truck为包含皮卡在内的小、中、大型货车。

4.根据权利要求1所述的基于改进YOLOv5网络模型的车辆感知方法，其特征在于：对训练数据集，使用labelImg对图像中的目标车辆进行标注，标注类型为PascalVOC格式，标注方法为对每张图像的中心车辆使用矩形框进行标注，将除车轮外的车辆及车身全部包含在框内，以避免车轮及车底阴影对模型边界框位置回归造成干扰和偏移。

5.根据权利要求1所述的基于改进YOLOv5网络模型的车辆感知方法，其特征在于：所述在步骤S2中对模型添加一组小尺寸初始锚框，并向Neck中添加小目标检测层的具体步骤如下：

S2-2：在模型第18层后，添加一个上采样层对特征图进行上采样操作，使特征图的尺寸从80×80扩大至160×160；在第21层时，将获取到的大小为160×160的特征图与backbone中第2层特征图进行concat融合，获取更大的特征图进行小目标检测。

6.根据权利要求5所述的基于改进YOLOv5网络模型的车辆感知方法，其特征在于：对模型中添加一组更小尺寸的初始锚框，尺寸分别为5，6，8，14，15和11，用于对最终输出的尺寸最大的特征图进行检测。

7.根据权利要求5所述的基于改进YOLOv5网络模型的车辆感知方法，其特征在于：在YOLOv5模型的第18层后，添加一个上采样层对特征图进行上采样操作，使特征图的尺寸从80×80扩大至160×160，获得更大的特征图以捕捉尺寸更小的目标和特征；在第21层时，将获取到的大小为160×160的特征图与backbone中第2层特征图进行concat融合，使获得的特征图保留更多的原始特征信息，增强特征图的表达能力；将上述改进引入YOLOv5模型即可得到改进后的YOLOv5_st模型。

8.根据权利要求1所述的基于改进YOLOv5网络模型的车辆感知方法，其特征在于：所述在步骤S3中在YOLOv5网络模型中引入CA注意力机制模块的具体步骤如下：

S3-1：声明CA注意力模块；

S3-2：将CA注意力模块添加至YOLOv5的backbone网络中。

9.根据权利要求8所述的基于改进YOLOv5网络模型的车辆感知方法，其特征在于：声明CA注意力模块的方法为：首先，将输入特征图分为宽度和高度两个方向，并分别进行全局平均池化，获得在宽度和高度两个方向的特征图；接着，将获得全局感受野的宽度和高度两个方向的特征图拼接在一起，送入共享的卷积核为1×1的卷积模块，将其维度降低为原来的C/r，再将经过批量归一化处理的特征图F1送入Sigmoid激活函数得到形如1×(W+H)×C/r的特征图f；接着将特征图f按照原来的高度和宽度进行卷积核为1×1的卷积分别得到通道数与原来一样的特征图F_h和F_w，经过Sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重g^h和在宽度方向的注意力权重g^w；最后在原始特征图上通过乘法加权计算，将得到最终在宽度和高度方向上带有注意力权重的特征图。

10.根据权利要求8所述的基于改进YOLOv5网络模型的车辆感知方法，其特征在于：在YOLOv5的backbone网络末尾，即backbone网络中最后一个CBL模块和SPPF模块之间，插入CA注意力模块，对特征图进行坐标注意力权重赋值，提升模型特征表达能力；将改进后的backbone网络带入YOLOv5_st模型即得到YOLOv5_st_CA模型。