CN117831005A - 一种基于改进的YOLOv5s的分心驾驶行为检测方法 - Google Patents
一种基于改进的YOLOv5s的分心驾驶行为检测方法 Download PDFInfo
- Publication number
- CN117831005A CN117831005A CN202311418793.4A CN202311418793A CN117831005A CN 117831005 A CN117831005 A CN 117831005A CN 202311418793 A CN202311418793 A CN 202311418793A CN 117831005 A CN117831005 A CN 117831005A
- Authority
- CN
- China
- Prior art keywords
- yolov5s
- frame
- model
- driving behavior
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 230000006399 behavior Effects 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000000391 smoking effect Effects 0.000 claims abstract description 7
- 230000035622 drinking Effects 0.000 claims abstract description 3
- 238000012795 verification Methods 0.000 claims abstract 2
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 230000004927 fusion Effects 0.000 abstract description 7
- 235000019504 cigarettes Nutrition 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 20
- 239000010410 layer Substances 0.000 description 7
- 230000001965 increasing effect Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于改进的YOLOv5s的分心驾驶行为检测方法,属于计算机视觉技术领域。解决了驾驶行为中抽烟、喝水及接打电话行为检测精度低的技术问题。其技术方案为:包括以下步骤:S1:获取分心驾驶行为数据图片,得到对应的分心驾驶行为数据集,并将该数据集按照9:1的比例分为训练集和验证集;S2:构建分心驾驶行为检测模型;S3:使用分心驾驶行为数据集对改进后的YOLOv5s模型进行训练;S4:通过训练好的模型对分心驾驶行为进行检测。本发明的有益效果为:本发明增强对烟头等小目标物体的检测能力,以及模型的特征融合能力,提高模型的检测精度。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于改进的YOLOv5s的分心驾驶行为检测方法。
背景技术
目前,分心驾驶检测主要分为基于驾驶员的生理信号如脑电、心电,以及基于传感器对车辆加速度、行动轨迹等进行监测。基于人生理信号的检测方式基本上都需要佩戴相关仪器设备,这会给驾驶员带来不便。基于传感器这种检测方式可能会因为不同驾驶员的驾驶习惯不同等因素造成监测准确率太低,偏差过大,因此以上两种方法都存在着一定的局限性。
驾车安全对每一位驾驶员来说都是至关重要的,准确高效的检测出分心驾驶行为,并及时给出提醒,能够在很大程度上减少交通事故的发生,保障生命安全。通过深度学习的方法检测是目前主流的检测方法,其中YOLOv5s是一个非常优秀的网络模型,但是原始的YOLOv5s模型在实际应用中会对烟头这类小目标物体造成漏捡、误检,从而导致对抽烟等常见的分心行为检测准确率降低,使得模型的泛化能力变差。
发明内容
本发明的目的在于提供一种基于改进的YOLOv5s的分心驾驶行为检测方法,是基于深度学习的分心驾驶识别,主要通过摄像头去实时监测驾驶员的驾驶行为,将获取到的数据通过深度学习网络模型进行处理,从而判断是否为分心驾驶行为,这种计算机视觉的方法不仅具有非接触的特点,而且能够更及时直观的反映出驾驶员的分心状态,增强对烟头等小目标物体的检测能力,以及模型的特征融合能力,提高模型的检测精度;其中,比较优秀的网络模型是YOLOv5s,该模型是一种高效、灵活、快速的目标检测模型,具有广泛的应用前景。
为了实现上述发明目的,本发明采用技术方案具体为:一种基于改进YOLOv5s的分心驾驶行为检测方法,包括以下步骤:
S1:获取分心驾驶行为数据图片,对每张图片中抽烟、喝水,接打电话行为进行标注,得到对应的分心驾驶行为数据集,并将该数据集按照9:1的比例分为训练集和验证集。
S2:对原始的YOLOv5s目标检测模型进行改进,构建分心驾驶行为检测模型,具体步骤如下:
(1)在主干网络中加入BiFormer模块
BiFormer是基于Transformer提出的一种新型的视觉网络模块构,BiFormer的主要核心是一种动态的查询感知的稀疏注意力机制BRA,在粗糙区域级别过滤掉大部分不相关的键值对,以便只保留一小部分路由区域,让每个查询都关注语义上最相关的键值对的一小部分,最后应用到细粒度的token-to-token注意力上。该网络模块在目标检测方面表现出很好的性能,尤其是小目标检测的效果更佳。
YOLOv5s的主干网络Backbone层主要负责对输入图像进行特征提取,其结构由Conv模块、C3模块、SPP模块组成。其中C3模块是网络中一个重要组成部分,每一个C3模块都包含了3个标准卷积和若干个Bottleneck结构,该模块能够增加网络的深度和感受野,提高特征提取能力。将BiFormer模块加入到C3模块中,替换其Bottleneck结构,构成新的C3模块。
(2)MPDIoU Loss替换CIoU Loss
目标检测任务的损失函数一般是由边界框回归损失、分类损失和置信度损失构成,边界回归损失中最常见的计算指标是交并比IoU,可以获得预测框和真实框之间的距离。YOLOv5s模型采用的是CIoU作为边界框回归的损失函数,CIoU Loss的计算公式如下所示。
其中IoU是预测框和真实框的交并比;b、bgt分别是预测框和真实框;ρ是指预测框与真实框之间的欧氏距离;C代表二者之间的最小闭包区域内的对角线距离;α是用于平衡比例的参数;v是用来描述长宽比比例一致性的参数。
虽然CIoU引入了预测边界框与真实边界框的的长宽比,使得损失函数更加关注于边界框的形状,但是随之带来的是计算变得复杂,可能导致训练过程的计算开销较大。
MPDIoU是基于最小点距离提出的一种新颖的边界框相似性比较度量。该损失函数包含了现有损失函数中考虑的所有相关因素,即重叠或非重叠区域、中心点距离以及宽度和高度偏差,同时简化了计算过程,性能是优于现有的损失函数,将YOLOv5s模型中的CIoULoss替换成MPDIoU Loss,MPDIoU的计算方式如下所示:
所以MPDIoU的损失函数的定义如下:
其中A、B分别指的是预测框和真实框;IoU是预测框与真实框的交并比,结果是预测框和真实框的交并比;w、h分别指的是输入图像的宽和高;分别是预测框A的左上点和右下点的坐标,/>分别是真实框B的左上点和右下点的坐标;/>表示预测框左上点与真实框左上点距离值的平方,/>表示预测框右下点与真实框右下点距离值的平方。
(3)在Neck网络部分加入Gather-and-Distribut机制
Gather-and-Distribute即收集和分发,该过程分为3个模块:特征对齐模块(FAM),信息融合模块(IFM)和信息注入模块(Inject)。同时为了增对不同尺寸物体的检测能力,该机制分为两个分支分别为低阶收集和分发分支(Low-GD)和高阶收集和分发分支(High-GD),这些分支分别提取和融合大尺寸和小尺寸特征图。
在原始的YOLOv5s的模型中加入Gather-and-Distribute(GD)机制,对Neck网络部分进行改进。该机制通过卷积和自注意力实现,放弃了原始的递归方法,使用统一的模块来收集和融合所有Level的信息,并将其分发到不同的Level。通过这种方式,这种方式不仅避免了传统FPN结构固有的信息丢失问题,增加多尺度特征融合的能力,而且并没有显著增加延迟。
S3:使用分心驾驶行为数据集对改进后的YOLOv5s模型进行训练,
S4:通过训练好的模型对分心驾驶行为进行检测。在PC端进行分心驾驶行为检测,查看检测结果。
与现有技术相比,本发明的有益效果为:
1、本发明对香烟这类小目标检测进行了改进,通过在主干网络中加入BiFormer模块,替换C3中原有的Bottleneck结构,增加网络的感受野,提高对小目标的检测能力。
2、本发明对原始YOLOv5s模型的损失函数进行了改进,优化模型,能够快速准确的识别以及定位图像中的对象,提高了模型的准确性和鲁棒性。
3、本发明对模型Neck网络部分做了改进,加入Gather-and-Distribut机制,提高了模型的特征提取能力和多尺度融合能力。能够满足在实际驾驶情况中检测目标大小由于距离和角度而变化的问题,提高了模型的对分心驾驶行为的检测能力和准确性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明分心驾驶行为检测的流程图。
图2为本发明改进后的C3结构图。
图3为本发明中GD机制结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1,本实施例提供其技术方案为,一种基于改进YOLOv5s的分心驾驶行为检测方法,图1描述了驾驶员的分心驾驶行为检测的流程,具体的步骤如下:
S1:分心驾驶行为数据集的获取和制作
本实施例中检测的分心驾驶行为共分为三类:打电话、喝水、抽烟。数据集由kaggle竞赛提供的开源数据集以及网络上的图片组成;用LabelImg工具进行数据的标注,标注每张图片的类别,生成yolo格式对应的.txt文件,完成标注工作后,对数据集图片进行数据预处理,即对数据进行数据清洗和数据增强,最后将处理好的分心驾驶检测行为数据集按照9:1的比例分为训练集和验证集。
S2:改进YOLOv5s模型
YOLOv5s有四种量级的网络结构,分别是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,YOLOv5s是四种结构中网络深度最浅且训练速度最快的网络,其他结构的网络层数依次增加,考虑到实际情况的应用,选用YOLOv5s作为基础模型更适合部署到嵌入式设备中,且计算成本更低。
YOLOv5s网络模型主要由Backbone网络、Neck网络、Head网络组成,本实施例对原始的YOLOv5s进行改进,在Backbone网络、Neck网络以及损失函数进行相对应的改进和优化,增加其对烟头这类小目标物体的检测能力,增强模型的特征提取能力和多尺度融合能力,以及模型检测的准确性。并使用改进后的模型检测分心驾驶行为。
首先,对于分心驾驶行为中的抽烟行为,由于烟头目标小,在图像中所占像素较少,特征的表达能力较弱,因此会容易造成对抽烟行为的漏检和误检,影响模型的检测结果。针对该情况,对YOLOv5s主干网络进行改进,加入一种新型的视觉网络模块BiFormer模块,BiFormer的主要核心是一种动态的查询感知的稀疏注意力机制BRA。Bi-level RoutingAttention(BAR)是一种双层路由注意力机制,在粗糙区域级别过滤掉大部分不相关的键值对,以便只保留小部分路由区域,让每个查询都关注语义上最相关的键值对的一小部分,最后应用到细粒度的token-to-token注意力上。
具体地,输入一张图片,X∈RH×W×C,首先将其划分为S×S个不同的区域,其中每个区域包含个特征向量。即X变为/>通过线性映射获得/>得到
Q=XrWq,K=XrWK,V=XrWV
其中,Wq,Wk,Wv∈RC×C分别是查询、键、值的投影权重。
具体地,通过构造一个有向图找到每个给定区域应参与的区域,计算区域间相关性的及邻接矩阵,只保留每个区域前K个连接修剪相关性图。最后利用区域到区域路由索引矩阵,计算细粒度的token-to-token注意力。
具体地,YOLOv5s的主干网络Backbone层主要负责对输入图像进行特征提取,其结构由Conv模块、C3模块、SPP模块组成。其中C3模块是网络中一个重要组成部分,每一个C3模块都包含了3个标准卷积和若干个Bottleneck结构。其主要作用是增加网络的深度和感受野,提高特征提取的能力。如图2所示,将BiFormer模块加入到YOLOv5s的主干网络中,替换C3结构中的Bottleneck模块,改变C3的网络结构。从而增加模型对小目标特征提取能力,加强对小目标的检测。
具体地,其次,替换YOLOv5s的损失函数CIoU为MPDIoU。损失函数是用来衡量模型预测值和真实值不一样的程度,极大程度上决定了模型的性能。YOLOv5s中的损失函数由三个部分组成,其分别为:分类损失,边界框损失和置信度损失。
具体地,分类损失计算锚框与对应的标定分类是否正确,边界框损失计算预测框与标框之间的误差,置信度损失则用来计算网络的置信度。YOLOv5s模型的边界框损失函数采用的是CIoU,CIoU损失函数的公式如下所示。
其中,IoU是预测框与真实框的交并比,b、bgt分别代表预测框和真实框,ρ是指预测框与真实框之间的欧氏距离。C代表二者之间的最小闭包区域内的对角线距离。α是用于平衡比例的参数,v是用来描述长宽比比例一致性的参数。
具体地,虽然CIoU引入了预测边界框与真实边界框的的长宽比,使得损失函数更加关注于边界框的形状,但是随之带来的是计算变得复杂,可能导致训练过程的计算开销较大,因此为了解决该问题,本实施例使用MPDIoU Loss替换CIoU Loss。MPDIoU是基于最小点距离提出的一种新颖的边界框相似性比较度量,通过最小化预测边界框和真实边界框之间的左上和右下点距离,其包含了现有损失函数中考虑的所有相关因素,即重叠或非重叠区域、中心点距离以及宽度和高度偏差,同时简化了计算过程,性能是优于现有的损失函数。MPDIoU损失函数的计算过程如下所示。
其中,IoU损失函数的公式如下:
因此,MPDIoU的损失函数如下:
其中,分别是预测框的左上点和右下点的坐标;分别是真实框的左上点和右下点的坐标;/>表示预测框左上点与真实框左上点距离值的平方;/>表示预测框右下点与真实框右下点距离值的平方;Aprd、Agt分别是预测框和真实框的面积;/>分别表示预测框和真实框的点x、y坐标的最大值;/>分别表示预测框和真实框的点x、y坐标的最小值;I是预测框和真实框的交集;/>是预测框和真实框的并集,/>w、h分别指的是输入图像的宽和高。
最后,对YOLOv5s的Neck网络部分进行改进,由于物体在图像中的大小和位置是不确定的,因此需要一种机制来处理不同尺度和大小的目标。
在YOLOv5s中采用的是FPN特征金字塔结构,通过上采样和下采样操作将不同层次的特征图融合在一起,生成多尺度的特征金字塔。当需要跨层进行特征交互时,这种信息融合的方法存在信息损失,阻碍模型的特征融合。
针对以上这种情况引入Gather-and-Distribut机制,对Neck网部分改进。如图3所示,该机制主要分为3个模块:特征对齐模块(FAM),信息融合模块(IFM)和信息注入模块(Inject)。
首先,FAM收集backbone不同尺度的特征图,并通过上采样和下采样的方式进行对齐。IFM融合对齐后的特征生成全局特征,通过切片为两部分,针对性地对其他尺度进行分发。Inject模块使用简单注意力操作将全局特征切片后分发到各个层级。同时为了增对不同尺寸物体的检测能力,该机制分为两个分支分别为低阶收集和分发分支(Low-GD)和高阶收集和分发分支(High-GD),这些分支分别提取和融合大尺寸和小尺寸特征图。
S3:对改进后的模型进行训练
对改进后的YOLOv5s模型进行训练,训练的数据集为上述S1中制作好的分心驾驶检测数据集,epochs值为300,batch_size值为32,初始学习率为0.001,训练结束保存最优模型。使用训练好的模型对分心驾驶行为进行检测,对视频数据和实时摄像头采集到的数据进行测试。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于改进的YOLOv5s的分心驾驶行为检测方法,其特征在于,包括以下步骤:
S1:获取分心驾驶行为数据图片,对每张图片中抽烟、喝水,接打电话行为进行标注,得到对应的分心驾驶行为数据集,并将该数据集按照9:1的比例分为训练集和验证集;
S2:对原始的YOLOv5s目标检测模型进行改进,构建分心驾驶行为检测模型;
S3:使用分心驾驶行为数据集对改进后的YOLOv5s模型进行训练;
S4:通过训练好的模型对分心驾驶行为进行检测,在PC端进行分心驾驶行为检测,查看检测结果。
2.根据权利要求1所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法,其特征在于,所述步骤S2中,构建分心驾驶行为检测模型包括如下步骤:
S21、在主干网络中加入BiFormer模块
BiFormer是基于Transformer提出的一种新型的视觉网络模块构,BiFormer的核心是动态的查询感知的稀疏注意力机制BRA,在粗糙区域级别过滤掉大部分不相关的键值对,保留部分路由区域,让每个查询关注语义上相关的键值对的一部分,应用到细粒度的token-to-token注意力上;
S22、MPDIoU Loss替换CIoU Loss
目标检测任务的损失函数由边界框回归损失、分类损失和置信度损失构成,边界回归损失中计算指标是交并比IoU,获得预测框和真实框之间的距离,YOLOv5s模型采用的是CIoU作为边界框回归的损失函数;
S23、在Neck网络部分加入Gather-and-Distribut机制
Gather-and-Distribute是收集和分发,该过程分为3个模块:特征对齐模块FAM,信息融合模块IFM和信息注入模块Inject,该机制分为两个分支分别为低阶收集、分发分支Low-GD和高阶收集和分发分支High-GD,分支分别提取、融合大尺寸和小尺寸特征图。
3.根据权利要求1或2所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法,其特征在于,所述步骤S21中,YOLOv5s的主干网络Backbone层对输入图像进行特征提取,其结构由Conv模块、C3模块、SPP模块组成,其中,C3模块是网络中一个组成部分,每一个C3模块包含了3个标准卷积和若干个Bottleneck结构,将BiFormer模块加入到C3模块中,替换其Bottleneck结构,构成新的C3模块。
4.根据权利要求1-3任一项所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法,其特征在于,所述步骤S22中,
MPDIoU是基于最小点距离提出的边界框相似性比较度量,该损失函数包含现有损失函数中考虑的所有相关因素,重叠或非重叠区域、中心点距离以及宽度和高度偏差,将YOLOv5s模型中的CIoU Loss替换成MPDIoU Loss,MPDIoU的计算方式如下所示:
MPDIoU的损失函数的定义如下:
其中,A、B分别指的是预测框和真实框;IoU是预测框与真实框的交并比,结果是预测框和真实框的交并比;w、h分别指的是输入图像的宽和高;分别是预测框A的左上点和右下点的坐标,/>分别是真实框B的左上点和右下点的坐标;/>表示预测框左上点与真实框左上点距离值的平方,/>表示预测框右下点与真实框右下点距离值的平方。
5.根据权利要求1-4任一项所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法,其特征在于,所述步骤S22中,CIoU作为边界框回归的损失函数,CIoU Loss的计算公式如下所示:
其中,IoU是预测框和真实框的交并比;b、bgt分别是预测框和真实框;ρ是指预测框与真实框之间的欧氏距离;C代表二者之间的最小闭包区域内的对角线距离;α是用于平衡比例的参数;v是用来描述长宽比比例一致性的参数。
6.根据权利要求1-5任一项所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法,其特征在于,所述步骤S23中,在原始的YOLOv5s的模型中加入Gather-and-Distribute机制,对Neck网络部分进行改进。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311418793.4A CN117831005A (zh) | 2023-10-30 | 2023-10-30 | 一种基于改进的YOLOv5s的分心驾驶行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311418793.4A CN117831005A (zh) | 2023-10-30 | 2023-10-30 | 一种基于改进的YOLOv5s的分心驾驶行为检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117831005A true CN117831005A (zh) | 2024-04-05 |
Family
ID=90510302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311418793.4A Pending CN117831005A (zh) | 2023-10-30 | 2023-10-30 | 一种基于改进的YOLOv5s的分心驾驶行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117831005A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220292311A1 (en) * | 2021-03-12 | 2022-09-15 | Dibi (Chongqing) Intelligent Technology Research Institute Co., Ltd. | Method for object detection and recognition based on neural network |
CN115082698A (zh) * | 2022-06-28 | 2022-09-20 | 华南理工大学 | 一种基于多尺度注意力模块的分心驾驶行为检测方法 |
US20230186436A1 (en) * | 2021-12-14 | 2023-06-15 | Anhui University | Method for fine-grained detection of driver distraction based on unsupervised learning |
US20230186652A1 (en) * | 2021-12-10 | 2023-06-15 | Anhui University | Transformer-based driver distraction detection method and apparatus |
CN116434202A (zh) * | 2023-03-15 | 2023-07-14 | 浙江大学 | 基于目标和关键点检测的低光照驾驶员分心检测方法 |
CN116721398A (zh) * | 2023-07-14 | 2023-09-08 | 长沙理工大学 | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 |
CN116740538A (zh) * | 2023-07-19 | 2023-09-12 | 浙江师范大学 | 一种基于YOLOv8改进的轻量化目标检测方法及系统 |
CN116740050A (zh) * | 2023-07-13 | 2023-09-12 | 淮阴工学院 | 一种基于改进的YOLOv5的织物瑕疵检测方法及装置 |
CN116824341A (zh) * | 2023-07-03 | 2023-09-29 | 海南电网有限责任公司电力科学研究院 | 一种基于YOLOv7改进的绝缘子异常温升检测方法 |
CN116935361A (zh) * | 2023-07-18 | 2023-10-24 | 长春理工大学 | 一种基于深度学习的驾驶员分心行为检测方法 |
-
2023
- 2023-10-30 CN CN202311418793.4A patent/CN117831005A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220292311A1 (en) * | 2021-03-12 | 2022-09-15 | Dibi (Chongqing) Intelligent Technology Research Institute Co., Ltd. | Method for object detection and recognition based on neural network |
US20230186652A1 (en) * | 2021-12-10 | 2023-06-15 | Anhui University | Transformer-based driver distraction detection method and apparatus |
US20230186436A1 (en) * | 2021-12-14 | 2023-06-15 | Anhui University | Method for fine-grained detection of driver distraction based on unsupervised learning |
CN115082698A (zh) * | 2022-06-28 | 2022-09-20 | 华南理工大学 | 一种基于多尺度注意力模块的分心驾驶行为检测方法 |
CN116434202A (zh) * | 2023-03-15 | 2023-07-14 | 浙江大学 | 基于目标和关键点检测的低光照驾驶员分心检测方法 |
CN116824341A (zh) * | 2023-07-03 | 2023-09-29 | 海南电网有限责任公司电力科学研究院 | 一种基于YOLOv7改进的绝缘子异常温升检测方法 |
CN116740050A (zh) * | 2023-07-13 | 2023-09-12 | 淮阴工学院 | 一种基于改进的YOLOv5的织物瑕疵检测方法及装置 |
CN116721398A (zh) * | 2023-07-14 | 2023-09-08 | 长沙理工大学 | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 |
CN116935361A (zh) * | 2023-07-18 | 2023-10-24 | 长春理工大学 | 一种基于深度学习的驾驶员分心行为检测方法 |
CN116740538A (zh) * | 2023-07-19 | 2023-09-12 | 浙江师范大学 | 一种基于YOLOv8改进的轻量化目标检测方法及系统 |
Non-Patent Citations (8)
Title |
---|
CHENGCHENG WANG: "Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism", COMPUTER SCIENCE, 20 September 2023 (2023-09-20), pages 1 - 5 * |
IPYVARIABLE: "YOLOv5改进:在C3模块的不同位置添加BiFormer计算机视觉", pages 1 - 3, Retrieved from the Internet <URL:https://blog.csdn.net/IpyVariable/article/details/133226008> * |
MA SILIANG: "MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression", COMPUTER SCIENCE, 14 July 2023 (2023-07-14), pages 1 - 6 * |
刘伟;周广平;杨春亭;: "基于局部信息和卷积网络的分心行为识别", 信息技术, no. 07, 22 July 2020 (2020-07-22) * |
叶绿;陈铖;SUGIANTO SUGIANTO;CHIDO NATASHA MUPONDA;AGORDZO GEORGE KOFI;KOI DAVID ERNEST;: "基于图像分割的驾驶员分心行为识别研究", 浙江科技学院学报, no. 03, 30 June 2020 (2020-06-30) * |
吴明杰: "改进YOLOv5s的无人机视角下小目标检测算法", 计算机工程与应用, 21 September 2023 (2023-09-21), pages 1 - 2 * |
白中浩;王韫宇;张林伟;: "基于图卷积网络的多信息融合驾驶员分心行为检测", 汽车工程, no. 08, 25 August 2020 (2020-08-25) * |
陈军;张黎;周博;罗维平;马双宝;: "基于级联卷积神经网络的驾驶员分心驾驶行为检测", 科学技术与工程, no. 14, 18 May 2020 (2020-05-18) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766808B (zh) | 道路网络空间中车辆对象移动轨迹聚类的方法及系统 | |
CN111079602B (zh) | 基于多尺度区域特征约束的车辆细粒度识别方法及装置 | |
CN109948497A (zh) | 一种物体检测方法、装置及电子设备 | |
CN112418117A (zh) | 一种基于无人机图像的小目标检测方法 | |
CN114565900A (zh) | 基于改进YOLOv5和双目立体视觉的目标检测方法 | |
CN104881671B (zh) | 一种基于2D‑Gabor的高分遥感影像局部特征提取方法 | |
CN110866079A (zh) | 一种智慧景区实景语义地图的生成与辅助定位方法 | |
CN106647742A (zh) | 移动路径规划方法及装置 | |
CN112668375B (zh) | 景区内游客分布分析系统及方法 | |
CN106960210A (zh) | 目标检测的方法和装置 | |
CN103778411B (zh) | 一种基于栅格图像划分的圆检测方法及装置 | |
CN111428558A (zh) | 一种基于改进YOLOv3方法的车辆检测方法 | |
CN106815578A (zh) | 一种基于深度运动图‑尺度不变特征变换的手势识别方法 | |
CN112241969A (zh) | 基于交通监控视频的目标检测跟踪方法、装置及存储介质 | |
CN115346177A (zh) | 一种新的路侧视角下目标检测系统及方法 | |
CN113950611B (zh) | 用于预测道路属性的方法和数据处理系统 | |
CN110070106A (zh) | 烟雾检测方法、装置及电子设备 | |
CN115546793B (zh) | 水尺刻度自动读数方法、系统及电子设备 | |
WO2023060632A1 (zh) | 基于点云数据的街景地物多维度提取方法和系统 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
US20240077331A1 (en) | Method of predicting road attributers, data processing system and computer executable code | |
CN110136174A (zh) | 一种目标对象跟踪方法和装置 | |
CN116935361A (zh) | 一种基于深度学习的驾驶员分心行为检测方法 | |
CN111738164A (zh) | 一种基于深度学习的行人检测方法 | |
CN109147322B (zh) | 一种城市交通大数据处理中多源数据自适应融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |