CN117831005A

CN117831005A - 一种基于改进的YOLOv5s的分心驾驶行为检测方法

Info

Publication number: CN117831005A
Application number: CN202311418793.4A
Authority: CN
Inventors: 李跃华; 王金凤; 张月月; 吴赛林; 冯浩宸; 曹睿吉; 胡彬
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-04-05

Abstract

本发明提供了一种基于改进的YOLOv5s的分心驾驶行为检测方法，属于计算机视觉技术领域。解决了驾驶行为中抽烟、喝水及接打电话行为检测精度低的技术问题。其技术方案为：包括以下步骤：S1：获取分心驾驶行为数据图片，得到对应的分心驾驶行为数据集，并将该数据集按照9：1的比例分为训练集和验证集；S2：构建分心驾驶行为检测模型；S3：使用分心驾驶行为数据集对改进后的YOLOv5s模型进行训练；S4：通过训练好的模型对分心驾驶行为进行检测。本发明的有益效果为：本发明增强对烟头等小目标物体的检测能力，以及模型的特征融合能力，提高模型的检测精度。

Description

一种基于改进的YOLOv5s的分心驾驶行为检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于改进的YOLOv5s的分心驾驶行为检测方法。

背景技术

目前，分心驾驶检测主要分为基于驾驶员的生理信号如脑电、心电，以及基于传感器对车辆加速度、行动轨迹等进行监测。基于人生理信号的检测方式基本上都需要佩戴相关仪器设备，这会给驾驶员带来不便。基于传感器这种检测方式可能会因为不同驾驶员的驾驶习惯不同等因素造成监测准确率太低，偏差过大，因此以上两种方法都存在着一定的局限性。

驾车安全对每一位驾驶员来说都是至关重要的，准确高效的检测出分心驾驶行为，并及时给出提醒，能够在很大程度上减少交通事故的发生，保障生命安全。通过深度学习的方法检测是目前主流的检测方法，其中YOLOv5s是一个非常优秀的网络模型，但是原始的YOLOv5s模型在实际应用中会对烟头这类小目标物体造成漏捡、误检，从而导致对抽烟等常见的分心行为检测准确率降低，使得模型的泛化能力变差。

发明内容

本发明的目的在于提供一种基于改进的YOLOv5s的分心驾驶行为检测方法，是基于深度学习的分心驾驶识别，主要通过摄像头去实时监测驾驶员的驾驶行为，将获取到的数据通过深度学习网络模型进行处理，从而判断是否为分心驾驶行为，这种计算机视觉的方法不仅具有非接触的特点，而且能够更及时直观的反映出驾驶员的分心状态，增强对烟头等小目标物体的检测能力，以及模型的特征融合能力，提高模型的检测精度；其中，比较优秀的网络模型是YOLOv5s，该模型是一种高效、灵活、快速的目标检测模型，具有广泛的应用前景。

为了实现上述发明目的，本发明采用技术方案具体为：一种基于改进YOLOv5s的分心驾驶行为检测方法，包括以下步骤：

S1：获取分心驾驶行为数据图片，对每张图片中抽烟、喝水，接打电话行为进行标注，得到对应的分心驾驶行为数据集，并将该数据集按照9：1的比例分为训练集和验证集。

S2：对原始的YOLOv5s目标检测模型进行改进，构建分心驾驶行为检测模型，具体步骤如下：

(1)在主干网络中加入BiFormer模块

BiFormer是基于Transformer提出的一种新型的视觉网络模块构，BiFormer的主要核心是一种动态的查询感知的稀疏注意力机制BRA，在粗糙区域级别过滤掉大部分不相关的键值对，以便只保留一小部分路由区域，让每个查询都关注语义上最相关的键值对的一小部分，最后应用到细粒度的token-to-token注意力上。该网络模块在目标检测方面表现出很好的性能，尤其是小目标检测的效果更佳。

YOLOv5s的主干网络Backbone层主要负责对输入图像进行特征提取，其结构由Conv模块、C3模块、SPP模块组成。其中C3模块是网络中一个重要组成部分，每一个C3模块都包含了3个标准卷积和若干个Bottleneck结构，该模块能够增加网络的深度和感受野，提高特征提取能力。将BiFormer模块加入到C3模块中，替换其Bottleneck结构，构成新的C3模块。

(2)MPDIoU Loss替换CIoU Loss

目标检测任务的损失函数一般是由边界框回归损失、分类损失和置信度损失构成，边界回归损失中最常见的计算指标是交并比IoU，可以获得预测框和真实框之间的距离。YOLOv5s模型采用的是CIoU作为边界框回归的损失函数，CIoU Loss的计算公式如下所示。

其中IoU是预测框和真实框的交并比；b、b^gt分别是预测框和真实框；ρ是指预测框与真实框之间的欧氏距离；C代表二者之间的最小闭包区域内的对角线距离；α是用于平衡比例的参数；v是用来描述长宽比比例一致性的参数。

虽然CIoU引入了预测边界框与真实边界框的的长宽比，使得损失函数更加关注于边界框的形状，但是随之带来的是计算变得复杂，可能导致训练过程的计算开销较大。

MPDIoU是基于最小点距离提出的一种新颖的边界框相似性比较度量。该损失函数包含了现有损失函数中考虑的所有相关因素，即重叠或非重叠区域、中心点距离以及宽度和高度偏差，同时简化了计算过程，性能是优于现有的损失函数，将YOLOv5s模型中的CIoULoss替换成MPDIoU Loss，MPDIoU的计算方式如下所示：

所以MPDIoU的损失函数的定义如下：

其中A、B分别指的是预测框和真实框；IoU是预测框与真实框的交并比，结果是预测框和真实框的交并比；w、h分别指的是输入图像的宽和高；分别是预测框A的左上点和右下点的坐标，/>分别是真实框B的左上点和右下点的坐标；/>表示预测框左上点与真实框左上点距离值的平方，/>表示预测框右下点与真实框右下点距离值的平方。

(3)在Neck网络部分加入Gather-and-Distribut机制

Gather-and-Distribute即收集和分发，该过程分为3个模块：特征对齐模块(FAM)，信息融合模块(IFM)和信息注入模块(Inject)。同时为了增对不同尺寸物体的检测能力，该机制分为两个分支分别为低阶收集和分发分支(Low-GD)和高阶收集和分发分支(High-GD)，这些分支分别提取和融合大尺寸和小尺寸特征图。

在原始的YOLOv5s的模型中加入Gather-and-Distribute(GD)机制，对Neck网络部分进行改进。该机制通过卷积和自注意力实现，放弃了原始的递归方法，使用统一的模块来收集和融合所有Level的信息，并将其分发到不同的Level。通过这种方式，这种方式不仅避免了传统FPN结构固有的信息丢失问题，增加多尺度特征融合的能力，而且并没有显著增加延迟。

S3：使用分心驾驶行为数据集对改进后的YOLOv5s模型进行训练，

S4:通过训练好的模型对分心驾驶行为进行检测。在PC端进行分心驾驶行为检测，查看检测结果。

与现有技术相比，本发明的有益效果为：

1、本发明对香烟这类小目标检测进行了改进，通过在主干网络中加入BiFormer模块，替换C3中原有的Bottleneck结构，增加网络的感受野，提高对小目标的检测能力。

2、本发明对原始YOLOv5s模型的损失函数进行了改进，优化模型，能够快速准确的识别以及定位图像中的对象，提高了模型的准确性和鲁棒性。

3、本发明对模型Neck网络部分做了改进，加入Gather-and-Distribut机制，提高了模型的特征提取能力和多尺度融合能力。能够满足在实际驾驶情况中检测目标大小由于距离和角度而变化的问题，提高了模型的对分心驾驶行为的检测能力和准确性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明分心驾驶行为检测的流程图。

图2为本发明改进后的C3结构图。

图3为本发明中GD机制结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1，本实施例提供其技术方案为，一种基于改进YOLOv5s的分心驾驶行为检测方法，图1描述了驾驶员的分心驾驶行为检测的流程，具体的步骤如下：

S1：分心驾驶行为数据集的获取和制作

本实施例中检测的分心驾驶行为共分为三类：打电话、喝水、抽烟。数据集由kaggle竞赛提供的开源数据集以及网络上的图片组成；用LabelImg工具进行数据的标注，标注每张图片的类别，生成yolo格式对应的.txt文件，完成标注工作后，对数据集图片进行数据预处理，即对数据进行数据清洗和数据增强，最后将处理好的分心驾驶检测行为数据集按照9：1的比例分为训练集和验证集。

S2：改进YOLOv5s模型

YOLOv5s有四种量级的网络结构，分别是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x，YOLOv5s是四种结构中网络深度最浅且训练速度最快的网络，其他结构的网络层数依次增加，考虑到实际情况的应用，选用YOLOv5s作为基础模型更适合部署到嵌入式设备中，且计算成本更低。

YOLOv5s网络模型主要由Backbone网络、Neck网络、Head网络组成，本实施例对原始的YOLOv5s进行改进，在Backbone网络、Neck网络以及损失函数进行相对应的改进和优化，增加其对烟头这类小目标物体的检测能力，增强模型的特征提取能力和多尺度融合能力，以及模型检测的准确性。并使用改进后的模型检测分心驾驶行为。

首先，对于分心驾驶行为中的抽烟行为，由于烟头目标小，在图像中所占像素较少，特征的表达能力较弱，因此会容易造成对抽烟行为的漏检和误检，影响模型的检测结果。针对该情况，对YOLOv5s主干网络进行改进，加入一种新型的视觉网络模块BiFormer模块，BiFormer的主要核心是一种动态的查询感知的稀疏注意力机制BRA。Bi-level RoutingAttention(BAR)是一种双层路由注意力机制，在粗糙区域级别过滤掉大部分不相关的键值对，以便只保留小部分路由区域，让每个查询都关注语义上最相关的键值对的一小部分，最后应用到细粒度的token-to-token注意力上。

具体地，输入一张图片，X∈R^H×W×C,首先将其划分为S×S个不同的区域，其中每个区域包含个特征向量。即X变为/>通过线性映射获得/>得到

Q＝X^rW^q,K＝X^rW^K,V＝X^rW^V

其中，W^q，W^k，W^v∈R^C×C分别是查询、键、值的投影权重。

具体地，通过构造一个有向图找到每个给定区域应参与的区域，计算区域间相关性的及邻接矩阵，只保留每个区域前K个连接修剪相关性图。最后利用区域到区域路由索引矩阵，计算细粒度的token-to-token注意力。

具体地，YOLOv5s的主干网络Backbone层主要负责对输入图像进行特征提取，其结构由Conv模块、C3模块、SPP模块组成。其中C3模块是网络中一个重要组成部分，每一个C3模块都包含了3个标准卷积和若干个Bottleneck结构。其主要作用是增加网络的深度和感受野，提高特征提取的能力。如图2所示，将BiFormer模块加入到YOLOv5s的主干网络中，替换C3结构中的Bottleneck模块，改变C3的网络结构。从而增加模型对小目标特征提取能力，加强对小目标的检测。

具体地，其次，替换YOLOv5s的损失函数CIoU为MPDIoU。损失函数是用来衡量模型预测值和真实值不一样的程度，极大程度上决定了模型的性能。YOLOv5s中的损失函数由三个部分组成，其分别为：分类损失，边界框损失和置信度损失。

具体地，分类损失计算锚框与对应的标定分类是否正确，边界框损失计算预测框与标框之间的误差，置信度损失则用来计算网络的置信度。YOLOv5s模型的边界框损失函数采用的是CIoU，CIoU损失函数的公式如下所示。

其中，IoU是预测框与真实框的交并比，b、b^gt分别代表预测框和真实框，ρ是指预测框与真实框之间的欧氏距离。C代表二者之间的最小闭包区域内的对角线距离。α是用于平衡比例的参数，v是用来描述长宽比比例一致性的参数。

具体地，虽然CIoU引入了预测边界框与真实边界框的的长宽比，使得损失函数更加关注于边界框的形状，但是随之带来的是计算变得复杂，可能导致训练过程的计算开销较大，因此为了解决该问题，本实施例使用MPDIoU Loss替换CIoU Loss。MPDIoU是基于最小点距离提出的一种新颖的边界框相似性比较度量，通过最小化预测边界框和真实边界框之间的左上和右下点距离，其包含了现有损失函数中考虑的所有相关因素，即重叠或非重叠区域、中心点距离以及宽度和高度偏差，同时简化了计算过程，性能是优于现有的损失函数。MPDIoU损失函数的计算过程如下所示。

其中，IoU损失函数的公式如下：

因此，MPDIoU的损失函数如下：

其中，分别是预测框的左上点和右下点的坐标；分别是真实框的左上点和右下点的坐标；/>表示预测框左上点与真实框左上点距离值的平方；/>表示预测框右下点与真实框右下点距离值的平方；A^prd、A^gt分别是预测框和真实框的面积；/>分别表示预测框和真实框的点x、y坐标的最大值；/>分别表示预测框和真实框的点x、y坐标的最小值；I是预测框和真实框的交集；/>是预测框和真实框的并集，/>w、h分别指的是输入图像的宽和高。

最后，对YOLOv5s的Neck网络部分进行改进，由于物体在图像中的大小和位置是不确定的，因此需要一种机制来处理不同尺度和大小的目标。

在YOLOv5s中采用的是FPN特征金字塔结构，通过上采样和下采样操作将不同层次的特征图融合在一起，生成多尺度的特征金字塔。当需要跨层进行特征交互时，这种信息融合的方法存在信息损失，阻碍模型的特征融合。

针对以上这种情况引入Gather-and-Distribut机制，对Neck网部分改进。如图3所示，该机制主要分为3个模块：特征对齐模块(FAM)，信息融合模块(IFM)和信息注入模块(Inject)。

首先，FAM收集backbone不同尺度的特征图，并通过上采样和下采样的方式进行对齐。IFM融合对齐后的特征生成全局特征，通过切片为两部分，针对性地对其他尺度进行分发。Inject模块使用简单注意力操作将全局特征切片后分发到各个层级。同时为了增对不同尺寸物体的检测能力，该机制分为两个分支分别为低阶收集和分发分支(Low-GD)和高阶收集和分发分支(High-GD)，这些分支分别提取和融合大尺寸和小尺寸特征图。

S3：对改进后的模型进行训练

对改进后的YOLOv5s模型进行训练，训练的数据集为上述S1中制作好的分心驾驶检测数据集，epochs值为300，batch_size值为32，初始学习率为0.001，训练结束保存最优模型。使用训练好的模型对分心驾驶行为进行检测，对视频数据和实时摄像头采集到的数据进行测试。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进的YOLOv5s的分心驾驶行为检测方法，其特征在于，包括以下步骤：

S1：获取分心驾驶行为数据图片，对每张图片中抽烟、喝水，接打电话行为进行标注，得到对应的分心驾驶行为数据集，并将该数据集按照9：1的比例分为训练集和验证集；

S2：对原始的YOLOv5s目标检测模型进行改进，构建分心驾驶行为检测模型；

S3：使用分心驾驶行为数据集对改进后的YOLOv5s模型进行训练；

S4：通过训练好的模型对分心驾驶行为进行检测，在PC端进行分心驾驶行为检测，查看检测结果。

2.根据权利要求1所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法，其特征在于，所述步骤S2中，构建分心驾驶行为检测模型包括如下步骤：

S21、在主干网络中加入BiFormer模块

BiFormer是基于Transformer提出的一种新型的视觉网络模块构，BiFormer的核心是动态的查询感知的稀疏注意力机制BRA，在粗糙区域级别过滤掉大部分不相关的键值对，保留部分路由区域，让每个查询关注语义上相关的键值对的一部分，应用到细粒度的token-to-token注意力上；

S22、MPDIoU Loss替换CIoU Loss

目标检测任务的损失函数由边界框回归损失、分类损失和置信度损失构成，边界回归损失中计算指标是交并比IoU，获得预测框和真实框之间的距离，YOLOv5s模型采用的是CIoU作为边界框回归的损失函数；

S23、在Neck网络部分加入Gather-and-Distribut机制

Gather-and-Distribute是收集和分发，该过程分为3个模块：特征对齐模块FAM，信息融合模块IFM和信息注入模块Inject，该机制分为两个分支分别为低阶收集、分发分支Low-GD和高阶收集和分发分支High-GD，分支分别提取、融合大尺寸和小尺寸特征图。

3.根据权利要求1或2所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法，其特征在于，所述步骤S21中，YOLOv5s的主干网络Backbone层对输入图像进行特征提取，其结构由Conv模块、C3模块、SPP模块组成，其中，C3模块是网络中一个组成部分，每一个C3模块包含了3个标准卷积和若干个Bottleneck结构，将BiFormer模块加入到C3模块中，替换其Bottleneck结构，构成新的C3模块。

4.根据权利要求1-3任一项所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法，其特征在于，所述步骤S22中，

MPDIoU是基于最小点距离提出的边界框相似性比较度量，该损失函数包含现有损失函数中考虑的所有相关因素，重叠或非重叠区域、中心点距离以及宽度和高度偏差，将YOLOv5s模型中的CIoU Loss替换成MPDIoU Loss，MPDIoU的计算方式如下所示：

MPDIoU的损失函数的定义如下：

其中，A、B分别指的是预测框和真实框；IoU是预测框与真实框的交并比，结果是预测框和真实框的交并比；w、h分别指的是输入图像的宽和高；分别是预测框A的左上点和右下点的坐标，/>分别是真实框B的左上点和右下点的坐标；/>表示预测框左上点与真实框左上点距离值的平方，/>表示预测框右下点与真实框右下点距离值的平方。

5.根据权利要求1-4任一项所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法，其特征在于，所述步骤S22中，CIoU作为边界框回归的损失函数，CIoU Loss的计算公式如下所示：

其中，IoU是预测框和真实框的交并比；b、b^gt分别是预测框和真实框；ρ是指预测框与真实框之间的欧氏距离；C代表二者之间的最小闭包区域内的对角线距离；α是用于平衡比例的参数；v是用来描述长宽比比例一致性的参数。

6.根据权利要求1-5任一项所述的一种基于改进的YOLOv5s的分心驾驶行为检测方法，其特征在于，所述步骤S23中，在原始的YOLOv5s的模型中加入Gather-and-Distribute机制，对Neck网络部分进行改进。