CN112990065B - 一种基于优化的YOLOv5模型的车辆分类检测方法 - Google Patents
一种基于优化的YOLOv5模型的车辆分类检测方法 Download PDFInfo
- Publication number
- CN112990065B CN112990065B CN202110345431.1A CN202110345431A CN112990065B CN 112990065 B CN112990065 B CN 112990065B CN 202110345431 A CN202110345431 A CN 202110345431A CN 112990065 B CN112990065 B CN 112990065B
- Authority
- CN
- China
- Prior art keywords
- input image
- feature map
- vehicle
- image
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于优化的YOLOv5模型的车辆分类检测方法,包括:获取道路交通车辆图像数据;对所述道路交通车辆图像数据进行车辆类型划分,以建立车辆识别检测数据集;根据所述车辆识别检测数据集构建OP‑YOLOv5车辆分类检测模型;向所述OP‑YOLOv5车辆分类检测模型输入待检测图像数据,得到检测结果。本发明提高了对车辆的检测的精度和速度。
Description
技术领域
本发明涉及目标识别技术领域,特别涉及一种基于优化的YOLOv5模型的车辆分类检测方法。
背景技术
近年来,随着经济的高速发展,全国汽车保有量飞速增长,与此同时对汽车信息统计和管理的费用也在逐年提升。随着计算机技术的火热发展与社会重视智能化的发展,图像识别与目标检测等技术近年来也发展迅速,不仅为人们的生活带来了便捷,也对社会的管理提供了一种新的选择,并进一步促进了自动驾驶技术甚至无人驾驶在未来广泛普及成为可能。
以往的车辆目标检测通常包含目标分割、候选区域生成、特征提取、分类器分类等步骤,但这类算法也在实际应用中显示出他疲软的一面,例如在复杂多变的实际场景中此类算法的准确度会发生明显的下降,并且人工设计的特征泛化能力较差。近年来,深度学习在目标检测和识别领域表现突出,Girshick等提出了R-CNN模型,将卷积神经网络应用到目标检测领域,随后改进的Fast R-CNN、Faster R-CNN模型不断提高检测精度。YOLO模型实现了端到端的实时目标检测,但也有一些仍待提高的方面。例如在识别小物体及重叠部分较多的目标进行检测时准确率较差。2020年6月,YOLOv5模型被提了出来,该算法使用CSPDarknet作为主干网络Backbone从输入图像中提取大量的信息特征,克服了主干网络优化的梯度信息重复现象。此外,YOLOv5模型中用到的两个优化函数Adam和SGD,两者都预设了与之对应的训练超参数,可训练较小的自定义数据集。总的来说,YOLOv5模型在之前的YOLO系列算法上有了大幅提升。但面对当前更为复杂的交通环境,如车辆图像偏小、车辆遮挡重叠、无法满足对车辆的检测速度和精度要求。
发明内容
本发明的目的在于提供一种基于优化的YOLOv5模型的车辆分类检测方法,以实现提高对车辆的检测的精度和速度的目的。
为了实现以上目的,本发明通过以下技术方案实现:
一种基于优化的YOLOv5模型的车辆分类检测方法,包括:
步骤S1、获取道路交通车辆图像数据;
步骤S2、对所述道路交通车辆图像数据进行车辆类型划分,以建立车辆识别检测数据集;
步骤S3、根据所述车辆识别检测数据集构建OP-YOLOv5车辆分类检测模型;
步骤S4、向所述OP-YOLOv5车辆分类检测模型输入待检测图像数据,得到检测结果。
优选地,所述步骤S1包括:利用监控摄像采集不同的待检测的道路上以及不同时段的道路交通车辆视频数据,对所述道路交通车辆视频数据以预设间隔的视频帧进行视频帧提取,得到所述道路交通车辆图像数据。
优选地,所述步骤S2包括:将所述道路交通车辆图像数据划分为五大类型,包括大货车类、大客车类、轿车类、自行车类和摩托车类;
对所述道路交通车辆图像数据中的每一图像中的车辆进行标注,并将所述图像信息转换成416×416分辨率的车辆图像信息;
将每一所述车辆图像信息生成相对应的xml文件,所述xml文件包含图片名称、图片路径、目标标签名称及目标位置坐标;
将每一所述xml文件在Python中进行图像格式转化,转换成YOLO模型支持的txt文件,得到所述车辆识别检测数据集;
将所述道路交通车辆图像数据及所述车辆识别检测数据集按照VOC数据文件结构进行存储。
优选地,所述OP-YOLOv5车辆分类检测模型包括:
依次连接的输入端、骨干网络、头部模块和输出端;
将所述待检测图像数据通过所述输入端输入至所述骨干网络,
所述骨干网络用于对所述待检测图像数据提取具有不同尺寸的特征图;
所述头部模块用于进行目标框选及目标检测得到检测结果;
所述输出端用于将所述检测结果输出。
优选地,所述测试集图像数据集中每一所述输入图像都经过如下处理:
所述输入图像通过所述输入端输入至所述骨干网络内,
所述骨干网络用于对接收到的所述输入图像均进行如下处理:
所述输入图像依次经过了Focus操作、Conv卷积操作、BCSP1操作和Conv卷积操作和BCSP3操作,输出所述输入图像的第一特征图;
所述输入图像的第一特征图依次经过Conv卷积操作和BCSP3操作,输出所述输入图像的第二特征图;
所述输入图像的第二特征图依次经过Conv卷积操作、SPP空间金字塔池化操作和BCSP1操作,输出所述输入图像的第三特征图;
在所述头部模块中,
所述输入图像的第三特征图依次经过Conv卷积操作和上采样操作输出所述输入图像的第四特征图;
所述输入图像的第二特征图和所述输入图像的第四特征图进行Concat拼接操作后,依次经过BCSP1操作、Conv卷积操作和上采样操作后输出所述输入图像的第五特征图像;
所述输入图像的第一特征图和所述输入图像的第五特征图进行Concat拼接操作后,得到所述输入图像的第六特征图;
所述输入图像的第六特征图经加入的SE注意力模块和BCSP1操作后,输出所述输入图像的第七特征图;
所述输入图像的第七特征图经过深度可分离卷积处理后与经过Conv卷积操作的所述输入图像的第四特征图进行Concat拼接操作后,输出所述输入图像的第八特征图;
所述输入图像的第八特征图依次经过加入的SE注意力模块和BCSP1操作后,输出所述输入图像的第九特征图;
所述输入图像的第九特征图经过替换后的深度可分离卷积处理后与经过Conv卷积操作的所述输入图像的第三特征图进行Concat拼接操作后,得到所述输入图像的第十特征图;
所述输入图像的第十特征图依次经过加入的SE注意力模块和BCSP1操作后分别与所述输入图像的第七特征图和所述输入图像的第九特征图进行Detect处理,得到所述输入图像的第十一特征图;此时,所述输入图像的第十一特征图完成了目标检测及目标框选;
所述输出端对所述输入图像的第十一特征图进行目标Bounding box的损失函数计算,采用DIoU方式进行非极大值抑制操作,输出大小为20×20、40×40、80×60特征图,且该特征图的深度为255,由此得到所述检测结果。
另一方面,本发明还提供一种电子设备,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上文所述的方法。
另一方面,本发明还提供一种可读存储介质,所述可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现如上文所述的方法。
本发明至少具有以下优点之一:
本发明所提供的一种基于优化的YOLOv5模型的车辆分类检测方法,包括:获取道路交通车辆图像数据;对所述道路交通车辆图像数据进行车辆类型划分,以建立车辆识别检测数据集;根据所述车辆识别检测数据集构建OP-YOLOv5车辆分类检测模型;向所述OP-YOLOv5车辆分类检测模型输入待检测图像数据,得到检测结果。通过设有的所述OP-YOLOv5车辆分类检测模型由此提高了对车辆的检测的精度和速度。
使用K-Means算法对数据集中所述已标注目标检测框的宽高进行重新聚类从而获得适用于道路视频监控中车辆检测数据集的Anchor尺寸,提高检测精度。
通过在Head部分加入了SE注意力模块,将部分普通卷积替换成了深度可分离卷积,可适应目标车辆较少且目标图像较小的情形,并且使检测速度进一步提升。
在输出端以DIoU的方式替换原IoU方式,将边界框列表及其对应的置信度得分列表并设定阈值,剔除重复的候选边界框,再进行DIoU计算,对于一些遮挡重叠的车辆目标可以提高辨识准确率。
附图说明
图1为本发明一实施例提供的一种基于优化的YOLOv5模型的车辆分类检测方法的流程示意图;
图2为本发明一实施例提供的原始的YOLOv5模型的结构框图;
图3为本发明一实施例提供的基于图2所示的原始的YOLOv5模型进行优化的OP-YOLOv5车辆分类检测模型的结构框图;
图4为本发明一实施例提供的原始的YOLOv5模型的各指标与迭代次数关系示意图;
图5为本发明一实施例提供的优化的OP-YOLOv5车辆分类检测模型的各指标与迭代次数关系示意图。
具体实施方式
以下结合附图和具体实施方式对本发明提出的一种基于优化的YOLOv5模型的车辆分类检测方法作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
如图1所示,本实施例提供的一种基于优化的YOLOv5模型的车辆分类检测方法,包括:
步骤S1、获取道路交通车辆图像数据。
步骤S2、对所述道路交通车辆图像数据进行车辆类型划分,以建立车辆识别检测数据集。
步骤S3、根据所述车辆识别检测数据集构建OP-YOLOv5车辆分类检测模型。
步骤S4、向所述OP-YOLOv5车辆分类检测模型输入待检测图像数据,得到检测结果。
具体的,所述步骤S4包括:所述的OP-YOLOv5车辆分类检测模型进行图像或视频流的输入,设置参数批量为32,动量为0.937,权重衰减配置为0.0005,总迭代次数为200次,初始学习率lr=0.01。经过训练得到车辆检测分类结果。
所述步骤S1包括:利用监控摄像采集不同的待检测的道路上以及不同时段的道路交通车辆视频数据,对所述道路交通车辆视频数据以预设间隔的视频帧进行视频帧提取,得到所述道路交通车辆图像数据。
具体的,通过人工截取出不同时段、不同道路的视频帧,为了尽量避免采集到的样本中含有过多过于相似的正样本,所述对采集到的视频至少每隔10帧图像取出一帧。
在一些其他的实施例中,所述道路交通车辆图像数据为利用监控摄像采集所需检测的道路上的交通车辆图片。
所述步骤S2包括:将所述道路交通车辆图像数据划分为五大类型,包括大货车类、大客车类、轿车类、自行车类和摩托车类,建立车辆识别检测数据集。
对所述道路交通车辆图像数据中的每一图像中的车辆进行标注,并对经标注的每一所述图像中的车辆进行特征提取,得到图像信息,并将所述图像信息转换成416×416分辨率的车辆图像信息。在本实施例中,标注格式参照VOC2007数据集。
将每一所述车辆图像信息生成相对应的xml文件,所述xml文件包含图片名称、图片路径、目标标签名称及目标位置坐标;
将每一所述xml文件在Python中进行图像格式转化,转换成YOLO模型支持的txt文件,得到所述车辆识别检测数据集。
将所述建立好的车辆识别检测数据集按照VOC数据文件结构进行存储,以供训练车辆检测模型使用。
具体的,所述步骤S2所述车辆识别检测数据集的建立过程如下:
S21:车辆识别检测数据集制作首先通过截取不同路段和时段的车载记录仪的视频,由此选出包含21000张有清晰样本的道路交通车辆图像数据,之后要对所述道路交通车辆图像数据中的每一图像中的车辆进行标注,标注格式参照VOC2007;在之后,要进行车辆类型划分,将其划分为五大类型,包括大货车(Car)、大客车(Bus)、轿车(Truck)、自行车(Bicycle)、摩托车(Motorcycle);再之后,并将其分成三部分:16800张图像作为训练集,2100张图像作为验证集,2100张图像作为测试集,由此得到车辆识别检测数据集具体参见表1。
表1车型(车辆)识别检测数据集
如图2和图3所示,所述步骤S3包括利用所述车辆识别检测数据集初步搭建YOLOv5算法模型,并对所述YOLOv5算法模型进行优化,形成OP-YOLOv5车辆分类检测模型。所述待检测图像数据可以为上述的测试集。
请继续参考图3所示,所述OP-YOLOv5算法模型结构包括以下部分:
输入端:经所述输入端输入的测试集图像数据集中每一所述输入图像的大小为640×640,通道为3;并对每一所述输入图像进行马赛克(Mosaic)数据增强、自适应图片缩放以及自适应锚框计算处理后输入给骨干网络(Backbone)。
骨干网络:每一所述输入图像均经过如下处理,例如:所述输入图像依次经过了Focus操作、Conv卷积操作、BCSP1(Bottleneck Cross-Stage-Partial-connection)操作和Conv卷积操作和BCSP3操作,输出所述输入图像的第一特征图。
所述输入图像的第一特征图依次经过Conv卷积操作和BCSP3操作,输出所述输入图像的第二特征图。
所述输入图像的第二特征图依次经过Conv卷积操作、SPP空间金字塔池化操作和BCSP1操作,输出所述输入图像的第三特征图。
所述输入图像的第三特征图依次经过Conv卷积操作和上采样(UpSamping)操作输出所述输入图像的第四特征图。
所述输入图像的第二特征图和所述输入图像的第四特征图进行Concat拼接操作后,依次经过BCSP1操作、Conv卷积操作和上采样操作后输出所述输入图像的第五特征图像。
所述输入图像的第一特征图和所述输入图像的第五特征图进行Concat拼接操作后,得到所述输入图像的第六特征图。
所述输入图像的第六特征图经加入的SE注意力模块(SElayer)和BCSP1操作后,输出所述输入图像的第七特征图。
所述输入图像的第七特征图经过深度可分离卷积处理(DWConv)后与经过Conv卷积操作的所述输入图像的第四特征图进行Concat拼接操作后,输出所述输入图像的第八特征图。
所述输入图像的第八特征图依次经过加入的SE注意力模块和BCSP1操作后,输出所述输入图像的第九特征图。
所述输入图像的第九特征图经过深度可分离卷积处理(DWConv)后与经过Conv卷积操作的所述输入图像的第三特征图进行Concat拼接操作后,得到所述输入图像的第十特征图。
所述输入图像的第十特征图依次经过加入的SE注意力模块和BCSP1操作后分别与所述输入图像的第七特征图和所述输入图像的第九特征图进行Detect处理,得到所述输入图像的第十一特征图;此时,所述输入图像的第十一特征图完成了目标检测及目标框选。
输出端:对所述输入图像的第十一特征图进行目标Bounding box的损失函数计算,将原有IoU方式改为DIoU方式进行非极大值抑制操作,输出大小为20×20、40×40、80×60特征图,且该特征图的深度为255。
YOLOv5模型采用GIOU_loss作为Bounding box的损失函数,并采用加权nms的方式。
此外,OP-YOLOv5车辆分类检测模型中的Conv卷积操作含义为步长为2的卷积操作+BN(Batch Normalization)操作+HardSwish(激活函数)操作;其中,BN操作为批量归一化的运算;+HardSwish操作具体采用Leaky ReLU为激活函数运算。
OP-YOLOv5车辆分类检测模型中的第一BCSP1(Bottleneck Cross-Stage-Partial-connection)操作和第二BCSP3操作中的Bottlenack(True/False)含义为直连shortcut等于真或假时,执行各自模块操作,若为假依次执行两次Conv卷积操作,若为真,在依次执行两次Conv卷积操作后与输入Conv卷积操作之前的特征图进行add相加运算。
其中,BCSP1操作中的BCSP1角标1含义为1个Bottleneck串联组成。BCSP3操作中的BCSP3角标3含义为3个Bottleneck串联组成,由此上述BCSP1操作和BCSP3操作4统一采用BCSPn表示,其中角标n含义为n个Bottleneck串联组成。
由此OP-YOLOv5车辆分类检测模型中的BCSPn操作含义为输入到此操作中的特征图依次经过Conv卷积操作、n个Bottleneck为真时的操作和Conv卷积操作后的输出的特征图与输入到此操作中的特征图经过Conv卷积操作的特征图进行Concat拼接操作后进行BN操作、Leaky ReLU激活操作和卷积操作。
OP-YOLOv5车辆分类检测模型中的Focus操作含义是通过slice操作来对输入图片进行分片,之后进行Concat拼接操作以及一次Conv卷积操作,具有下采样的效果,减少浮点运算量从而加快运算速度。
对于OP-YOLOv5车辆分类检测模型中的SPP空间金字塔池化操作的含义为:首先进行一次Conv卷积操作,之后进行最大池化操作,分别采用5×5、9×9、13×13的池化核大小,包括一条直连线路,再进行Concat拼接操作从而提高感受野,最后进行Conv卷积操作并输出。该部分总共经过5次下采样,即32倍的下采样,主要作用为提取原始图片的不同尺寸的特征图,用以后续的检测。
由此可知,本实施例提供的OP-YOLOv5车辆分类检测模型中的头部(Head)模块部分:包括Conv操作,上采样操作,BSP1操作,其上采样和Conv的输出会和部分Backbone结构的BCSP3的输出进行Concat拼接,之后进行BCSP1模块操作,以及Detect模块的操作,用于进行目标检测及目标框选。
由此可知,本实施例提供的OP-YOLOv5车辆分类检测模型相比于图2中的YOLOv5模型做了如下优化:
目标先验框Anchor Boxes的改进:使用K-Means算法对数据集中所述已标注目标检测框的宽高进行重新聚类从而获得适用于不同大小车辆检测数据集的Anchor尺寸。
聚类方法中的距离公式见下式:
d(box,centroid)=1-IoU(box,centroid)d(box,centroid)=1-IoU(box,centroid) (1)
式中,d表示聚类距离度量参数;box表示标注的边框坐标;centroid表示簇的中心;IoU表示簇的中心框和聚类框的交并比;
选取合适的先验框k值可以使得在尽可能高IoU的情况下,模型复杂度也较低,取得一个较好的平衡。
经过试验,得到了OP-YOLOv5车辆分类检测模型适用的九组适用于本数据集的Anchor,大小分别为:[32,28,70,59,127,119],[252,227,585,275,596,392],[454,577,587,477,573,580]。
Head部分的改进:
加入了SE注意力模块,能够忽略无关信息而将注意力放在重点关注信息上。在车辆检测过程中,可以将检测视野集中于所需检测的目标车辆上,这样可以大大减少了背景建筑物的干扰。
将部分普通卷积操作替换成了深度可分离卷积操作,将一个完整的卷积运算划分为两个过程完成,分别为逐深度卷积与逐点卷积。逐深度卷积是将单个滤波器应用到每一个输入通道,之后逐点卷积应用1×1卷积以组合形式输出深度卷积,得到最终的输出。
进行深度可分离卷积后与普通卷积的计算量之比为其中N为卷积核数量,DF为卷积核尺寸。
所述改进可适应少量目标车辆且图像较小的情形,并且使检测速度进一步提升。
输出端:在输出端以DIoU的方式替换原IoU方式进行非极大值抑制,将边界框列表及其对应的置信度得分列表并设定阈值,剔除重复的候选边界框,再进行DIoU计算,其原理公式如下式:
其中,Si为分类置信度,ε为NMS阈值,M是最高置信度的预测框,Bi为预测框的面积;bi和bj分别表示两预测框的中心点,ρ2(bi,bj)是两点的欧氏距离,c为是最小包围两个预测框的对角线长度,RDIoU称为惩罚项。
DIoU在IoU基础上引入了惩罚项R,目的是最小化两个与预测框的中心点距离。
当两边界框的距离越大时,惩罚项将越大。
当式子中Si值取0时,预测框就被过滤掉。
DIoU可以直接最小化两个目标框的距离,因此比IoU速度快。对于包含两个车辆交错重叠的情况,采用DIoU-nms的方式可以将其区分检测出来,检测效果有了进一步改善。
试验结果见下表2:
表2改进前后方法实验对比结果
选取P查准率、R查全率来评价车辆检测模型。模型损失随着训练次数的增加而逐渐下降,当训练次数达100次左右时,模型的损失变化趋于平缓,基本达到收敛;当训练次数达到200次时,各个车辆检测模型的损失均降到0.0025以下,改进前后模型的损失基本不再变化,此时终止训练即可获得稳定的模型权重。此外,模型检测的准确性会随着查全率的升高而降低,当查全率约为90%时,查准率约为90%,此时模型在具有较高的查全率的同时,又保证了较高的检测精度。当查准率相等时,相对于YOLOv5模型来说,OP-YOLOv5车辆分类检测模型能够取得更高的查全率。上表可以看出OP-YOLOv5车辆分类检测模型获得了高达95.7%的平均检测精度,同时在检测速度上优于所有其他方法,达到了60.5f/s的快速识别检测速度,对于大客车、摩托车检测效果最佳,具有良好的检测实时性。
此外,对于道路交通中存在的小尺度目标及车辆重叠遮挡的车辆,检测效果有了提升,如图4所示,图4中横坐标为迭代次数,纵坐标从左到右依次为定位损失(Box loss)、置信度损失(Objectness loss)以及分类损失(Classfication loss)、查准率(Precision)、查全率(Recall),mAP@0.5(平均检测精度,当IoU交并比≥0.5时)。
如图5所示,图5中,横坐标为迭代次数,纵坐标从左到右依次为定位损失(Boxloss)、置信度损失(Objectness loss)以及分类损失(Classfication loss)、查准率(Precision)、查全率(Recall),mAP@0.5(平均检测精度,当IoU≥0.5时)。
综上所述,本发明所提出的OP-YOLOv5车辆分类检测模型在车辆检测的精度及速度上都有了提升,可以保证检测实时性的要求,并且能够很好地对车辆进行分类。另外,对于道路交通中存在的小尺度目标及车辆重叠遮挡的车辆,漏检率更低。
本实施例设计了一种基于优化YOLOv5模型的车辆分类检测方法。该方法具有处理速度快,准确率高等优点。本实施例在目标先验框处理部分使用到了K-Means算法来获取适用于不同大小车辆检测数据集的Anchor尺寸,并在Head部分加入了SE注意力模块且将普通卷积替换成了深度可分离卷积,这样做的目的是为了适应少量目标车辆且图像较小的情形。另一方面,在输出端以DIoU的方式替换原IoU方式进行非极大值抑制,实现了对于一些遮挡重叠的车辆目标辨识准确率的提升,有效的克服了原有的YOLOv5模型在识别小物体时准确率较低的缺陷。即OP-YOLOv5车辆分类检测模型基于现有的YOLOv5模型做了如下三方面的改进Kmeans聚类生成锚框,引入SE模块和卷积核部分替换、非极大值抑制方式修改为DIoU。同时,本实施例在原有识别技术的基础上提高了收敛速度和精度,改善了对于重叠部分较多的目标的识别。实验结果表明,本实施例有较好的识别效果,可用于道路交通流的实时检测和分类。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应当注意的是,在本文的实施方式中所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施方式仅仅是示意性的,例如,附图中的流程图和框图显示了根据本文的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用于执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本文各个实施方式中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (4)
1.一种基于优化的YOLOv5模型的车辆分类检测方法,其特征在于,包括:
步骤S1、获取道路交通车辆图像数据;
步骤S2、对所述道路交通车辆图像数据进行车辆类型划分,以建立车辆识别检测数据集;
所述步骤S2包括:
将所述道路交通车辆图像数据划分为五大类型,包括大货车类、大客车类、轿车类、自行车类和摩托车类;
对所述道路交通车辆图像数据中的每一图像中的车辆进行标注,并将所述图像信息转换成416×416分辨率的车辆图像信息;
将每一所述车辆图像信息生成相对应的xml文件,所述xml文件包含图片名称、图片路径、目标标签名称及目标位置坐标;
将每一所述xml文件在Python中进行图像格式转化,转换成YOLO模型支持的txt文件,得到所述车辆识别检测数据集;
将所述道路交通车辆图像数据及所述车辆识别检测数据集按照VOC数据文件结构进行存储;
步骤S3、根据所述车辆识别检测数据集构建OP-YOLOv5车辆分类检测模型;
所述OP-YOLOv5车辆分类检测模型包括:
依次连接的输入端、骨干网络、头部模块和输出端;
将所述待检测图像数据通过所述输入端输入至所述骨干网络,
所述骨干网络用于对所述待检测图像数据提取具有不同尺寸的特征图;
所述头部模块用于进行目标框选及目标检测得到检测结果;
所述输出端用于将所述检测结果输出;步骤S4、向所述OP-YOLOv5车辆分类检测模型输入待检测图像数据,得到检测结果;
所述测试集图像数据集中每一所述输入图像都经过如下处理:
所述输入图像通过所述输入端输入至所述骨干网络内,
所述骨干网络用于对接收到的所述输入图像均进行如下处理:
所述输入图像依次经过了Focus操作、Conv卷积操作、BCSP1操作和Conv卷积操作和BCSP3操作,输出所述输入图像的第一特征图;
所述输入图像的第一特征图依次经过Conv卷积操作和BCSP3操作,输出所述输入图像的第二特征图;
所述输入图像的第二特征图依次经过Conv卷积操作、SPP空间金字塔池化操作和BCSP1操作,输出所述输入图像的第三特征图;
在所述头部模块中,
所述输入图像的第三特征图依次经过Conv卷积操作和上采样操作输出所述输入图像的第四特征图;
所述输入图像的第二特征图和所述输入图像的第四特征图进行Concat拼接操作后,依次经过BCSP1操作、Conv卷积操作和上采样操作后输出所述输入图像的第五特征图像;
所述输入图像的第一特征图和所述输入图像的第五特征图进行Concat拼接操作后,得到所述输入图像的第六特征图;
所述输入图像的第六特征图经加入的SE注意力模块和BCSP1操作后,输出所述输入图像的第七特征图;
所述输入图像的第七特征图经过深度可分离卷积处理后与经过Conv卷积操作的所述输入图像的第四特征图进行Concat拼接操作后,输出所述输入图像的第八特征图;
所述输入图像的第八特征图依次经过加入的SE注意力模块和BCSP1操作后,输出所述输入图像的第九特征图;
所述输入图像的第九特征图经过替换后的深度可分离卷积处理后与经过Conv卷积操作的所述输入图像的第三特征图进行Concat拼接操作后,得到所述输入图像的第十特征图;
所述输入图像的第十特征图依次经过加入的SE注意力模块和BCSP1操作后分别与所述输入图像的第七特征图和所述输入图像的第九特征图进行Detect处理,得到所述输入图像的第十一特征图;此时,所述输入图像的第十一特征图完成了目标检测及目标框选;
所述输出端对所述输入图像的第十一特征图进行目标Bounding box的损失函数计算,采用DIoU方式进行非极大值抑制操作,输出大小为20×20、40×40、80×60特征图,且该特征图的深度为255,由此得到所述检测结果。
2.如权利要求1所述的基于优化的YOLOv5模型的车辆分类检测方法,其特征在于,所述步骤S1包括:
利用监控摄像采集不同的待检测的道路上以及不同时段的道路交通车辆视频数据,对所述道路交通车辆视频数据以预设间隔的视频帧进行视频帧提取,得到所述道路交通车辆图像数据。
3.一种电子设备,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1或2所述的方法。
4.一种可读存储介质,其特征在于,所述可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110345431.1A CN112990065B (zh) | 2021-03-31 | 2021-03-31 | 一种基于优化的YOLOv5模型的车辆分类检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110345431.1A CN112990065B (zh) | 2021-03-31 | 2021-03-31 | 一种基于优化的YOLOv5模型的车辆分类检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990065A CN112990065A (zh) | 2021-06-18 |
CN112990065B true CN112990065B (zh) | 2024-03-22 |
Family
ID=76338580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110345431.1A Active CN112990065B (zh) | 2021-03-31 | 2021-03-31 | 一种基于优化的YOLOv5模型的车辆分类检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990065B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705494A (zh) * | 2021-09-01 | 2021-11-26 | 武汉铁路职业技术学院 | 一种货物列车制动性能动态检测方法、系统及装置 |
CN113971667B (zh) * | 2021-11-02 | 2022-06-21 | 上海可明科技有限公司 | 一种仓储环境手术器械目标检测模型训练及优化方法 |
CN114128950A (zh) * | 2021-12-01 | 2022-03-04 | 杭州电力设备制造有限公司 | 一种智能头盔及其智能管控方法 |
CN114241792B (zh) * | 2022-02-28 | 2022-05-20 | 科大天工智能装备技术(天津)有限公司 | 一种车流量检测方法及系统 |
CN114677362B (zh) * | 2022-04-08 | 2023-09-12 | 四川大学 | 基于改进YOLOv5的表面缺陷检测方法 |
CN116189115A (zh) * | 2023-04-24 | 2023-05-30 | 青岛创新奇智科技集团股份有限公司 | 车型识别方法、电子设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
WO2020258077A1 (zh) * | 2019-06-26 | 2020-12-30 | 深圳大学 | 一种行人检测方法及装置 |
CN112232237A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 车辆流量的监控方法、系统、计算机设备和存储介质 |
CN112270252A (zh) * | 2020-10-26 | 2021-01-26 | 西安工程大学 | 一种改进YOLOv2模型的多车辆目标识别方法 |
-
2021
- 2021-03-31 CN CN202110345431.1A patent/CN112990065B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
WO2020258077A1 (zh) * | 2019-06-26 | 2020-12-30 | 深圳大学 | 一种行人检测方法及装置 |
CN112232237A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 车辆流量的监控方法、系统、计算机设备和存储介质 |
CN112270252A (zh) * | 2020-10-26 | 2021-01-26 | 西安工程大学 | 一种改进YOLOv2模型的多车辆目标识别方法 |
Non-Patent Citations (2)
Title |
---|
基于YOLOv3的车辆多目标检测;王萍萍;仇润鹤;;科技与创新(03);全文 * |
基于改进SSD的航拍施工车辆检测识别系统设计;刘寒迪;赵德群;陈星辉;李新梦;;国外电子测量技术(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112990065A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN111368687B (zh) | 一种基于目标检测和语义分割的人行道车辆违停检测方法 | |
CN110263706B (zh) | 一种雾霾天气车载视频动态目标检测和识别的方法 | |
CN111104903B (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
Ohgushi et al. | Road obstacle detection method based on an autoencoder with semantic segmentation | |
CN106599832A (zh) | 一种基于卷积神经网络的多类障碍物检测与识别方法 | |
CN109886200B (zh) | 一种基于生成式对抗网络的无人驾驶车道线检测方法 | |
Rafique et al. | Smart traffic monitoring through pyramid pooling vehicle detection and filter-based tracking on aerial images | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
CN113723377A (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
CN111062347B (zh) | 一种自动驾驶中交通要素分割方法、电子设备及存储介质 | |
CN115376108A (zh) | 一种复杂天气下障碍物检测方法及装置 | |
CN112613434A (zh) | 道路目标检测方法、装置及存储介质 | |
Chen et al. | Investigating low level features in CNN for traffic sign detection and recognition | |
CN116630702A (zh) | 一种基于语义分割网络的路面附着系数预测方法 | |
Yasmin et al. | Small obstacles detection on roads scenes using semantic segmentation for the safe navigation of autonomous vehicles | |
CN111160282B (zh) | 一种基于二值化Yolov3网络的红绿灯检测方法 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
Cho et al. | Modified perceptual cycle generative adversarial network-based image enhancement for improving accuracy of low light image segmentation | |
CN117058641A (zh) | 一种基于深度学习的全景驾驶感知方法 | |
Thakare et al. | Object interaction-based localization and description of road accident events using deep learning | |
CN116311154A (zh) | 一种基于YOLOv5模型优化的车辆检测与识别方法 | |
Zhang et al. | Chinese license plate recognition using machine and deep learning models | |
CN110738113B (zh) | 一种基于邻近尺度特征滤除与转移的物体检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |