CN114882478B

CN114882478B - 权重优化下的局部多尺度特征融合的驾驶员行为识别方法

Info

Publication number: CN114882478B
Application number: CN202210294364.XA
Authority: CN
Inventors: 高尚兵; 李少凡; 张莹莹; 杨苏强; 黄想; 郭筱宇
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2023-08-22
Anticipated expiration: 2042-03-24
Also published as: CN114882478A

Abstract

本发明公开了一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法，首先用YOLOv5对驾驶员进行检测，得到驾驶人体检测框相对位置信息；将原图片送入ResNet50中进行特征提取，在主干网络ResNet50的三个不同尺度利用驾驶人相对位置信息进行ROI+Pooling操作，得到三个不同尺度的驾员人体的特征，并进行重复多尺度特征融合；最后将Resnet最终得到的全局特征与多尺度特征融合后的驾驶员人体特征进行权重优化策略后结合，通过Softmax层预测相应的类别。本发明在结合目标检测和局部多尺度重复融合结构充分提取人体特征的同时，也兼顾了全局背景对预测产生的效应；在复杂驾驶环境下的检测效果良好,准确度高，具有较好的鲁棒性。

Description

权重优化下的局部多尺度特征融合的驾驶员行为识别方法

技术领域

本发明属于计算机视觉和自动驾驶领域，具体涉及一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法。

背景技术

分心驾驶是交通事故发生的首要原因，据交通管理局的数据显示，每年大约发生200万起交通事故，其中超过80％是由分心驾驶造成的。近年来，ADAS(高级驾驶辅助系统)被许多汽车厂商采用，ADAS使用一系列的传感器来收集车内外的数据，并对车内外的静态和动态目标进行检测和识别。驾驶行为监控是ADAS的关键技术，利用这些技术，可以有效提醒驾驶员安全行为，避免车祸的发生。因而，驾驶员分心行为检测在计算机视觉和自动驾驶领域有着广阔的研究前景。

尽管驾驶员分心行为识别是人类动作识别的一个通用问题，但是由于车内狭小复杂的环境和驾驶员分心时的体态的细微差异，目前用于人体动作识别的方法并不适用于驾驶员分心识别。

随着深度学习和计算机视觉的快速发展，许多研究者都用各种方式来对分心驾驶检测进行研究。在近些年，深度学习开始广泛的使用在图像分类和复原领域。和传统算法相比较，深度学习在性能和准确率方面得到了大幅提升。在深度卷积神经网络的应用领域如分类和目标检测等场景，各类有着优异表现的模型被提出，如AlexNet，VGG，GoogleNet，ResNet等，这些都在计算机视觉领域取得了优异的表现。

由于分心驾驶导致交通事故频发，分心驾驶检测吸引了工业界和学术研究团体大量的关注，现有的研究都致力于对各种分心行为进行检测，也都取得了不错的改进成果。然而，现有的大多数研究都集中在利用全局特征，驶员行为识别的主体是驾驶员，在复杂多变的驾驶环境下对驾驶员的特征提取容易受到噪声干扰。为了获得驾驶员丰富的特征，同时考虑到全局背景也有一定的线索作用。本发明提出了一种权重优化下的多尺度特征融合的驾驶员行为识别方法，在充分提取人体特征的同时，也兼顾了全局背景对预测产生的效应。

发明内容

发明目的：针对现有技术中存在的问题，本发明提出一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法，结合目标检测和局部多尺度重复融合结构充分提取人体特征的同时，也兼顾了全局背景对预测产生的效应；在复杂驾驶环境下的检测效果良好,准确度高，具有较好的鲁棒性。

技术方案：本发明提出一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法，具体包括以下步骤：

(1)预先获取驾驶室的监控视频，选取其中的分心驾驶行为并分割成相应图片，作为数据集；

(2)采用YOLOv5对驾驶员进行检测，得到驾驶人体检测框相对位置信息；

(3)将原图片送入ResNet50网络中进行特征提取；

(4)分别在ResNet50网络的28*28、14*14和7*7尺度的特征图上，利用步骤(2)所得到人体检测框相对位置，进行ROI+Pooling得到驾驶人的底层细节特征和高层抽象特征，并对三个尺度的特征进行重复多尺度融合，得到更加全面丰富的驾驶人特征；

(5)提出一种权重分配方法用于对驾驶人特征和全局特征进权衡，将分配后的驾驶人的特征和全局特征相结合，并对驾驶员行为进行识别。

进一步地，所述步骤(2)实现过程如下：

其中，YOLOv5网络为Y(x)，其中将图片x作为输入，输出一个包含网格的特征图，其中(t_x,t_y)为偏移量，(c_x,c_y)为相当于左上角的坐标位置，(t_w,t_h)为尺度缩放比例，(p_w,p_h)为先验框的长宽；b_x，b_y为检测框的中心坐标，b_w,b_h为检测框的长宽，将检测出的人体框命名为x_h。

进一步地，所述步骤(3)实现过程如下：

将整张图片作为全局特征提取的输入，使用ResNet-50在ImageNet进行过预训练模型，并对模型进行微调，将模型的最后的全连接层进行相应修改以适应具体驾驶员行为识别任务；整张图片经过主干网络后得到特征图F，对特征图F添加残差块结构得到全局特征f_C：

f_V＝(Res_C (F))。 (1)

进一步地，所述步骤(4)实现过程如下：

利用步骤(2)目标检测得到人体框x_h，用感兴趣区域和池化对人体区域进行特征提取的到局部人体特征，在局部人体特征后面跟上残差结构和全局最大池化来获取单个尺度的人体特征f_h：

f_h＝GAP(Res_h (RoI(F,x_h))) (3)

设主干网络要输入到多尺度特征融合结构的三个尺度的输入特征Pⁱⁿ＝(Pⁱⁿ _l1,Pⁱⁿ _l2,Pⁱⁿ _l4)，输出特征为P^out＝h(Pⁱⁿ)，h()为多尺度融合运算，其中Pⁱⁿ _l1代表分辨率为输入图像的1/2，Pⁱⁿ _l2代表分辨率为输入图像的1/4，Pⁱⁿ _l4代表原图的1/16；多尺度重复融合采样操作可表示如下：

P^out _l1＝Conv(UpSample(Pⁱⁿ _l2)⊕UpSample(Pⁱⁿ _l4)+Pⁱⁿ _l1) (4)

P^out _l2＝Conv(DownSample(Pⁱⁿ _l1)⊕UpSample(Pⁱⁿ _l4)+Pⁱⁿ _l2) (5)

P^out _l4＝Conv(DownSample(Pⁱⁿ _l1)⊕DownSample(Pⁱⁿ _l2)+Pⁱⁿ _l4) (6)

其中，⊕代表concat运算；最后通过一种阶梯型的特征融合方式将融合后的不同尺度的向量进行相加，得到最终多特征融合后的f^h _fusion：

进一步地，所述步骤(5)实现过程如下：

引入权重ρ对全局特征f_C特征和f^h _fusion进行合理分配：

其中，代表对特征进行最大池化操作，/>代表进行平均池化操作。

有益效果：与现有技术相比，本发明的有益效果：本发明提出一种局部人体多尺度特征重复融合方法，充分提取驾驶人底层和高层并进行重复多尺度融合获取丰富的特征；本发明提出一种权重优化策略对局部人体多尺度特征和全局特征进行权重优化，使得模型能够充分考虑上下文信息，学习到更为合理的特征；本发明在复杂驾驶环境下的检测效果良好,准确度高，具有较好的鲁棒性。

附图说明

图1为本发明的流程图；

图2为本发明提出的权重优化下的局部多尺度特征融合的驾驶员行为识别系统结构示意图；

图3为本发明提出的权重优化下的局部多尺度特征融合的驾驶员行为识别网络结构示意图；

图4为江苏省淮安市三危一客数据集样例图；

图5为AUC分心驾驶数据集样例图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法，人体信息在本方法中扮演着重要角色，为了能够更加准确的对驾驶员进行定位，本发明利用YOLOv5对驾驶员的人体进行检测，并对人体坐标进行归一化。然后在主干网络的三个尺度利用坐标对驾驶员特征进行提取并进行重复多尺度特征融合，并与主干网络的全局特征进行权重策略优化融合对驾驶员行为进行识别。本发明主要分为2个并行的分支，一个全局分支利用基础的ResNet50来获取图片的高级特征图。另一个局部人体分支测专注结合YOLOv5目标检测网络和多尺度结构来获取局部驾驶员的丰富的来自底层和高层的尺度特征。其次本发明还提出了一种结合全局平均池化和全局最大池化的权重优化策略。如图1、图2所示，具体包括以下步骤：

步骤1：预先获取驾驶室的监控视频，选取其中的分心驾驶行为并分割成相应图片，人工筛选特征相应动作的图片作为数据集。

本实施方式中选取江苏省淮安市三客一危(三客是指客运车辆、校车、旅游车辆，一危是指危化品运输车辆)数据集。这类车和传统小型汽车空间结构不同，数据场景相对复杂。数据集来自工业界的合作公司所提供的车内监控视频，图4为数据集中五个动作里面的一些样例图，分别是安全驾驶、分神、打电话、使用手机和抽烟。如图4所示，不同车内摄像头的安装位置不是固定的，而是安装在驾驶员的不同角度，有效提升了数据的丰富性，场景相对复杂多变。首先将长监控视频分割成有分心动作的短视频，然后将短监控视频分割成视频帧，选取其中具有代表性的帧作为数据集。数据集总共包括43776张图片，其中38756张作为训练集，5020张作为测试集；训练集和测试集的类是没有交叉的。表1为数据集的具体描述。

表1淮安三客一危分心驾驶数据集

步骤2：如图3所示，首先采用YOLOv5对驾驶员进行检测，得到驾驶人体检测框相对位置信息。

由于现在存在大量公开可用的人体图像数据集和高性能的目标检测器，使用现有的目标检测器很容易对人体进行检测。本文采用YOLOv5作为人体检测器，YOLOv5会对图片中的人体位置进行预测。

其中，YOLOv5网络为为Y(x)，其中将图片x作为输入，输出一个包含网格的特征图，其中(t_x,t_y)为偏移量，(c_x,c_y)为相当于左上角的坐标位置，(t_w,t_h)为尺度缩放比例，(p_w,p_h)为先验框的长宽；b_x，b_y为检测框的中心坐标，b_w,b_h为检测框的长宽，将检测出的人体框命名为x_h。

步骤3：将原图片送入ResNet50网络中进行特征提取。

全局特征在驾驶员行为识别中扮演着重要角色，描述了驾驶员动作与车辆和整张图片的关系，本发明采用广泛使用的ResNet-50网络作为主干网络。将整张图片作为全局特征提取的输入。使用的ResNet-50在ImageNet进行过预训练模型，并对模型进行微调，将模型的最后的全连接层进行修改以适应驾驶员行为识别任务。整张图片经过主干网络后得到特征图F，对特征图F进行残差连接得到全局特征f_C：

f_C＝(Res_C (F))。 (2)

步骤4：分别在ResNet50网络的28*28、14*14和7*7尺度的特征图上，利用步骤2所得到人体检测框相对位置，进行ROI+Pooling得到驾驶人的底层细节特征和高层抽象特征，图3黑色的方块代表人体局部特征。并对三个尺度的特征进行重复多尺度融合，得到更加全面丰富的驾驶人特征。

这个分支主要用来提取图片局部人体的丰富特征，首先进行目标检测得到人体框x_h，随后用感兴趣区域(ROI)池化对人体区域进行特征提取。之后在其后面跟上残差结构和全局最大池化来获取单个尺度的人体特征f_h。

f_h＝GAP(Res_h (RoI(F,x_h))) (3)

多尺度特征融合模块需要来自主干网络的三个尺度的输入特征Pⁱⁿ＝Pⁱⁿ _l1,Pⁱⁿ _l2,Pⁱⁿ _l5)，输出特征为P^out＝h(Pⁱⁿ)，h()为多尺度融合运算，其中Pⁱⁿ _l1代表分辨率为输入图像的1/2，Pⁱⁿ _l2代表分辨率为输入图像的1/4，Pⁱⁿ _l4代表原图的1/16。例如，如果输入分辨率为512×512，则Pⁱⁿ _l1代表的2倍下采样后分辨率为256×256的特征图(512÷2¹＝256)，而Pⁱⁿ _l4代表16倍下采样后分辨率为32×32。多尺度重复融合采样操作可表示如下：

其中，代表concat运算。如图3结构所示，最后通过一种阶梯型的特征融合方式将融合后的不同尺度的向量进行相加，阶梯型的融合方式相比于上下采样聚合的方式，所需的参数更少。得到最终多特征融合后的f^h _fusion：

步骤5：提出一种权重分配方法用于对驾驶人特征和全局特征进权衡，将分配后的驾驶人的特征和全局特征相结合，并对驾驶员行为进行识别。

全局特征f_C能为驾驶员行为识别提供一些可分辨的线索信息，而局部人体多尺度融合特征f^h _fusion则提供了丰富的人体特征。通常来说是将两者特征用GAP(全局平均池化)或GMP(全局最大池化)将特征进行聚合并通过全连接层进行分类。可以将其看作是一个有结构的正则化，在不需要其他参数的同时将特征强制映射到所要区分的C个类上，因而，可以有效的避免过拟合的现象。然而，对与GAP和GMP的使用是完全取决于所要实现具体任务，GAP是将所有的值进行平均的聚合，这种就比较适合局部人体特征f^h _fusion，但是也有一个问题就是GAP总会过多的注意那些频繁出现的块状特征,而GMP则恰恰相反。GMP只注意特征中最大的值，但也会丢失一些对当前识别重要的信息，两者是一种互补的关系，因而为了获取更加全面合理的信息，本文引入权重ρ对全局特征f_C特征和f^h _fusion进行合理分配。权重优化策略对应为图3中的OW(OptimalWeight)模块：

对于全局特征，本发明采用了ResNet-50进行特征提取，输入的尺寸缩放到224*224。对于局部特征，采用YOLOv5进行人体框的检测，并对人体框进行归一化，以便于在主干网络的不同尺度对局部特征进行提取，局部特征提取的手段为ROI+Pooling操作，主干网络提取的三个尺度的特征分别28*28，14*14，7*7。进行重复多尺度特征融合的后的三个尺度的特征仍保持原有分辨率。

网络训练采用交叉熵损失函数对网络模型的权重进行更新，初始化学习率初始设为1e-3，算法训练的批次大小为64，采用momentum进行优化，同时将学习率衰减权重设置外0.0006，训练的批次为50个epochs。实验在Python3.8和Pytorch1.8的深度学习框架上进行。使用的操作系统为Ubuntu16.04,GPU为一块显存为16GB的英伟达Tesla V100。

AUC分心驾驶数据集是Yehya等发布，数据集仅有两个视角，AUC视频数据集随机分割为3:1比例的训练测试数据集。图片的训练数据集和测试集包括同一司机的动作，这样会导致训练集和测试集有着相近的分布比例。

为了能够使得数据集更加接近真实世界场景，Yehya等又在2019年发布了AUC第二个版本数据集，AUC V2数据集的训练集和测试集没有包含相同驾驶员。38个驾驶员的视频帧里用于进行训练，剩余的6个驾驶员的视频帧用作测试。V1数据集总共有图片17308张，其中12977张用于训练，4331张用于测试。V2数据集总共包括14478张数据集，12555张用于训练，1923张用于测试。图5是AUC数据集十个动作的样例图。

将本发明分别在公开数据集AUCV1和AUCV2上进行测试，表2为本发明在淮安三客一危驾驶数据集上的结果，结果表明本发明的准确率较原ResNet50的网络的准确率的到了显著提升，增强了在复杂驾驶环境下的检测能力，证明了本发明方法的有效性。表3为本发明和其他方法准确率对比结果，由于AUCV1的测试数据集存在交叉驾驶员，结果可以看出，AUCV1数据集的准确率普遍要高于AUCV2的准确率。本发明在利用局部多尺度特征融合结构充分提取融合了驾驶行为识别主体的驾驶员的底层细节和高层抽象特征，并且同时也考量了背景全局特征所带来的上下文线索信息，又对GMP全局特征和GAP局部特征进行权重分配，取得了比其他几种方法更高的准确率。

表2在淮安三客一危数据集上的结果

表3在AUCV1和AUCV2数据集上的准确率

本发明提出了一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法，结合目标检测和局部多尺度重复特征融合结构获取丰富的人体特征的同时，又利用带有GMP和GAP的权重优化策略去侧重学习那些具有代表性的全局特征和局部人体特征。本发明在充分考虑以人为中心的驾驶行为识别的同时，也注意了全局的上下文线索，在自建的复杂场景数据集和公开数据集AUC上都取得了较为理想的效果。

Claims

1.一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法，其特征在于，包括以下步骤：

(3)将原图片送入ResNet50网络中进行特征提取；

(5)提出一种权重分配方法用于对驾驶人特征和全局特征进权衡，将分配后的驾驶人的特征和全局特征相结合，并对驾驶员行为进行识别；

所述步骤(4)实现过程如下：

利用步骤(2)目标检测得到人体框x_h，用感兴趣区域和池化对人体区域进行特征提取得到局部人体特征，在局部人体特征后面跟上残差结构和全局平均池化来获取单个尺度的人体特征f_h：

f_h＝GAP(Res_h(RoI(F,x_h))) (3)

F为整张图片的特征图；设主干网络要输入到多尺度特征融合结构的三个尺度的输入特征Pⁱⁿ＝(Pⁱⁿ _l1,Pⁱⁿ _l2,Pⁱⁿ _l4)，输出特征为P^out＝h(Pⁱⁿ)，h()为多尺度融合运算，其中Pⁱⁿ _l1代表分辨率为输入图像的1/2，Pⁱⁿ _l2代表分辨率为输入图像的1/4，Pⁱⁿ _l4代表原图的1/16；多尺度重复融合采样操作可表示如下：

其中，代表concat运算；最后通过一种阶梯型的特征融合方式将融合后的不同尺度的向量进行相加，得到最终多特征融合后的f^h _fusion：

所述步骤(5)实现过程如下：

通过引入权重系数ρ对全局特征图f_C和局部多尺度人体融合特征图f^h _fusion进行合理分配：

2.根据权利要求1所述的权重优化下的局部多尺度特征融合的驾驶员行为识别方法，其特征在于，所述步骤(2)实现过程如下：

3.根据权利要求1所述的权重优化下的局部多尺度特征融合的驾驶员行为识别方法，其特征在于，所述步骤(3)实现过程如下：

f_C＝(Res_C(F)) (1)。