CN113343764A

CN113343764A - 一种基于级联式网络架构的驾驶员分心检测方法及系统

Info

Publication number: CN113343764A
Application number: CN202110506405.2A
Authority: CN
Inventors: 尹智帅; 肖轶戈; 王鹏; 秦国钰
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-09-03

Abstract

本发明公开了一种基于级联式网络架构的驾驶员分心检测方法及系统，通过人体姿态估计网络用于对驾驶员分心行为视频进行人体骨架的特征提取，获得人体骨架运动视频，并基于此获得单帧的人体骨架图像和连续帧的人体骨架光流图像；光流图像可以作为双流卷积网络的时间流网络的输入以提供驾驶行为的时序信息，弥补了仅依赖空间流网络片面利用驾驶分心行为信息的不足。基于人体骨架的特征光流图像减少背景信息，加快了光流图像的生成速度，解决了传统双流卷积网络应用实时性不足和受到背景信息干扰的问题。采用了决策级融合，通过训练调参得到最优的权重参数，从而获得最终的实时性更高、鲁棒性更好的驾驶人分心状态检测方法。

Description

一种基于级联式网络架构的驾驶员分心检测方法及系统

技术领域

本发明属于计算机技术领域，涉及一种基于级联式网络架构的驾驶员分心检测方法及系统。

背景技术

随着科技的发展，人机共驾成为智能汽车关注的一个重点，相应的，驾驶控制权切换机制的确定必将成为研究与开发的重点，而驾驶人分心状态作为驾驶控制权切换机制制定过程中重要的依据指标，具有较高的研究价值和意义。

驾驶人分心检测的技术，虽然使用基于脑电心电等生理特征的方法效果不错，但目前生理特征的测量手段决定了其实际应用中的不现实性，另外检测准确度受环境的影响较大。而基于计算机视觉的检测方法适用性更强，但在进行驾驶分心行为识别时，基于传统机器学习的行为识别算法将面临适用性差、准确率低等问题。基于深度学习的静态图像算法模型不能很好的完成驾驶人分心行为检测。

驾驶员分心行为的检测是一种行为识别，由于深度学习模型的兴起，驾驶员分心检测的性能迅速提高，其中一些网络架构是为行为识别开发的。目前，驾驶员分心检测中一种主流的方法是利用行为识别中双流卷积网络进行驾驶员分心检测。双流卷积网络由空间流网络和时间流网络组成。其中空间流网络的输入是普通可见光图像，其中包含了丰富的驾驶员空间结构信息；时间流网络的输入是由连续视频帧产生的光流图像。光流是用于描述目标运动的经典方法。它通过检测图像像素强度随时间的变化来推断移动对象的速度和方向。相较单帧光流图像，连续多帧光流图像更能描述运动信息，因此被输入时间网络的图像可以被看作是连续光流图像序列。但是，由于双流卷积网络时间流的输入为连续光流图像序列，因此存在以下问题：

(1)生成光流图像的速度过低，不具备实时检测的能力。

(2)由于车内背景信息的干扰，导致该检测方法的鲁棒性较差。

发明内容

为了解决驾驶员分心检测时实时性和鲁棒性较差的问题，本申请提供了一种基于级联式网络架构的驾驶员分心检测方法及系统。

本发明的方法所采用的技术方案是：一种基于级联式网络架构的驾驶员分心检测方法，包括以下步骤：

步骤1：对输入的驾驶员分心行为视频进行人体姿态估计；

输入的驾驶员分心行为视频包括驾驶人看窗外风景、操控车载影音娱乐设备、操控手机、使用手机接听电话、吃零食、和乘客聊天共六种类别；并对视频数量和长度进行统一，每类驾驶员分心行为中都有N个[M1，M2]秒的具有类似特征的短视频；其中，N、M1、M2为预设值；

步骤2：将步骤1中得到的人体姿态估计的输出视频去除背景，得到人体骨架运动视频，并从中提取出单帧人体骨架图像作为空间流卷积神经网络的输入；

所述空间流卷积神经网络的卷积层的卷积核全部是3×3的小型滤波器，操作步长为1，4个卷积层的卷积核数目依次为16个、32个、64个、128个；中间插入最大池化层，以减少中间数据的空间，操作步长为1；最后用2个大小不同的全连接层依次进行特征降维，后一个全连接层的输出神经元个数为6，对应于驾驶员分心行为的6个类别；

步骤3：利用步骤2中得到的人体骨架运动视频计算得到连续帧的人体骨架光流图像，作为时间流卷积神经网络的输入；

所述时间流卷积神经网络结构与空间流卷积神经网络结构相同；

步骤4：对生成的单帧的人体骨架图像和连续帧人体骨架光流图像分别输入到空间流卷积神经网络和时间流卷积神经网络，得到两个通道的驾驶员分心检测结果；

步骤5：对双流网络的输出结果进行决策级融合，生成最终的检测结果。

本发明的系统所采用的技术方案是：一种基于级联式网络架构的驾驶员分心检测系统，包括以下模块：

模块1，用于对输入的驾驶员分心行为视频进行人体姿态估计；

模块2：用于将模块1中得到的人体姿态估计的输出视频去除背景，得到人体骨架运动视频，并从中提取出单帧人体骨架图像作为空间流卷积神经网络的输入；

模块3，用于利用模块2中得到的人体骨架运动视频计算得到连续帧的人体骨架光流图像，作为时间流卷积神经网络的输入；

模块4，用于对生成的单帧的人体骨架图像和连续帧人体骨架光流图像分别输入到空间流卷积神经网络和时间流卷积神经网络，得到两个通道的驾驶员分心检测结果；

模块5，用于对双流网络的输出结果进行决策级融合，生成最终的检测结果。

与现有的检测驾驶员分心行为的双流神经网络相比，本发明采用人体姿态网络和双流检测网络组成的级联式网络架构，在网络训练和运用时，有效地剔除了背景信息，提高了光流图像的生成速度，提升了网络鲁棒性。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施例中利用人体姿态估计网络生成的人体姿态估计视频截图示例。

图3是本发明实施例中空间流卷积神经网络结构图。

图4是本发明实施例中去除背景信息后的单帧人体骨架图像示例。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于级联式网络架构的驾驶员分心检测方法，包括以下步骤：

步骤1：对输入的驾驶员分心行为视频进行人体姿态估计；

本实施例中，驾驶员分心行为视频来源于网络收集的驾驶员各类分心行为视频，包括驾驶人看窗外风景、操控车载影音娱乐设备、操控手机、使用手机接听电话、吃零食、和乘客聊天这6种驾驶分心行为分类。并对视频数量和长度进行统一，每类驾驶员分心行为中都有10个5-10秒的具有类似特征的短视频(25帧/秒)。

本实施例中，人体姿态估计的具体方法如下：为了实现实时的人体姿态检测，本发明中人体姿态网络在英伟达xavier开发板上搭建，使用了英伟达的模型加速工具tensorRT，并利用深度学习框架转化工具torch2trt使得pytorch环境下运行的人体姿态估计网络能够使用tensorRT加速，得到的人体姿态估计视频截图如图2所示。

本实施例中，将经过人体姿态估计网络处理的驾驶员分心行为的视频按照基于人体骨架关键点构建的人体上半身区域进行裁剪保存，再以长边为基准统一缩放成大小为224×224(空白补零)的大小进行输出。

请见图3，本实施例的空间流卷积神经网络的卷积层的卷积核全部是3×3的小型滤波器，操作步长为1，4个卷积层的卷积核数目依次为16个、32个、64个、128个；中间插入最大池化层，以减少中间数据的空间，操作步长为1；最后用2个大小不同的全连接层依次进行特征降维，后一个全连接层的输出神经元个数为6，对应于驾驶员分心行为的6个类别；

本实施例中，对人体姿态估计的输出视频去除背景的具体操作如下：对原输入图像做乘以0的操作，将原输入图像置为黑色，仅保留提取到的人体骨架信息，从而达到去除背景的目的，得到人体骨架运动视频，并从中提取出单帧的人体骨架图像，如图4所示。

本实施例将提取出的单帧人体骨架图像保存下来，用于制作驾驶员分心检测数据集。将驾驶员分心行为分为看车外风景、接听电话、操控车载影音娱乐设备、操控手机、吃零食、和乘客聊天等六类驾驶分心行为。数据集分为训练集和测试集，训练集用于识别网络的训练，测试集用于识别网络准确率的验证。

本实施例的时间流卷积神经网络结构与空间流卷积神经网络结构相同。

本实施例利用FFmpeg从得到的人体骨架运动视频中提取出连续帧的人体骨架光流图像。

光流场是一种经典的运动描述方法，该方法通过检测图像像素点的强度随时间的变化进而推断出运动目标移动的速度与方向。

本实施例考虑一个像素I(x,y,t)在第一帧的光强度(其中t代表其所在的时间维度)。该像素移动了(dx，dy)的距离到下一帧，用了dt时间。假设该像素在运动前后的光强度是不变的，即：

I(x,y,t)＝I(x+dx,y+dy,t+dt) 公式(1)；

将公式(1)右端进行泰勒展开，得：

其中ε代表二阶无穷小项，可忽略不计。再将公式(2)代人公式(1)可得：

令

分别表示图像中像素点的灰度沿x，y，t方向的偏导数，

分别代表光流沿x轴与y轴的速度矢量。

综上，公式(3)可以写为：

I_xu+I_yv+I_t＝0 公式(4)；

其中，I_x，I_y，I_t均可由图像数据求得，而(u，v)即为所求光流矢量。

但是对于时间流网络而言，相较单帧人体骨架光流图像，连续多帧人体骨架光流图像更能描述运动信息。

普通可见光图像为单帧RGB图像，具有3个通道，表征不同光照条件下驾驶分心行为特征与空间位置信息。

本实施例将连续5帧光流图像堆叠在一起同时输入时间流网络，由于一帧光流图像具有垂直与水平两个分量，因此可以看作一次输入时间流网络的光流堆具有10个通道。

空间流卷积神经网络的卷积层的卷积核全部是3×3的小型滤波器，操作步长为1，4个卷积层的卷积核数目依次为16个、32个、64个、128个；中间插入最大池化层，以减少中间数据的空间，操作步长为1；最后用2个大小不同的全连接层依次进行特征降维，后一个全连接层的输出神经元个数为6，对应于驾驶员分心行为的6个类别；时间流卷积神经网络结构与空间流卷积神经网络相同；

空间流与时间流网络融合策略上，结合本发明的实际应用背景，普通静态图像与连续帧光流图像在表征的信息类型与通道数上有明显的区别，因此实现数据级融合与特征级融合是极其困难的，并且融合过程中产生的一些冗余信息，很大程度上会对深度神经网络在训练时产生干扰，影响最终的驾驶分心行为识别模型性能。

因此，本实施例采用决策级加权融合策略，既对每一种信息源分别训练深度神经网络，每种神经网络都能对多类驾驶分心行为做出分类决策，然后再对这些决策结果进行融合，通过训练调参得到最优的权重参数，从而获得最终的驾驶分心行为检测结果。

本实施例的级联式网络是由人体姿态估计网络和双流卷积神经网络所组成的。人体姿态估计网络用于对驾驶员分心行为视频进行人体骨架的特征提取，获得人体骨架运动视频，并基于此获得单帧的人体骨架图像和连续帧的人体骨架光流图像；光流图像可以作为双流卷积网络的时间流网络的输入以提供驾驶行为的时序信息，弥补了仅依赖空间流网络片面利用驾驶分心行为信息的不足。基于人体骨架的特征光流图像减少背景信息，加快了光流图像的生成速度，解决了传统双流卷积网络应用实时性不足和受到背景信息干扰的问题。采用决策级融合，即对每一种信息源分别训练深度神经网络，空间流网络和时间流网络都对多类驾驶分心行为做出分类决策，然后再对这些决策结果进行融合，通过训练调参得到最优的权重参数，从而获得最终的实时性更高、鲁棒性更好的驾驶人分心状态检测方法。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于级联式网络架构的驾驶员分心检测方法，其特征在于，包括以下步骤：

步骤1：对输入的驾驶员分心行为视频进行人体姿态估计；

2.根据权利要求1所述的基于级联式网络架构的驾驶员分心检测方法，其特征在于：步骤1中，利用训练好的人体姿态识别网络对输入的驾驶员分心行为视频进行人体姿态估计；再将经过人体姿态估计网络处理的驾驶员分心行为视频按照人体骨架关键点构建的人体上半身区域进行裁剪保存，再以长边为基准统一缩放成预定大小进行输出。

3.根据权利要求1所述的基于级联式网络架构的驾驶员分心检测方法，其特征在于：步骤2中，对原输入图像做乘以0的操作，将原输入图像置为黑色，仅保留提取到的人体骨架信息，从而去除背景和减少光流计算成本，弥补以原始RGB生成光流图像实时性不足的缺点。

4.根据权利要求1所述的基于级联式网络架构的驾驶员分心检测方法，其特征在于：步骤3中，考虑一个像素I(x，y，t)在第一帧的光强度，该像素移动了(dx，dy)的距离到下一帧，用了dt时间，其中t代表其所在的时间维度；假设该像素在运动前后的光强度是不变的，即：

I(x，y，t)＝I(x+dx，y+dy，t+dt) (1)；

将公式(1)右端进行泰勒展开，得：

其中ε代表二阶无穷小项，再将公式(2)代人公式(1)得：

令

分别表示图像中像素点的灰度沿x，y，t方向的偏导数，

分别代表光流沿x轴与y轴的速度矢量；

则公式(3)为：

I_xu+I_yv+I_t＝0 (4)；

其中，I_x，I_y，I_t均由图像数据求得，(u，v)即为所求光流矢量。

5.根据权利要求1-4任意一项所述的基于级联式网络架构的驾驶员分心检测方法，其特征在于：步骤5中，所述决策级融合，对每一种信息源分别训练深度神经网络，每种神经网络都能对多类驾驶分心行为做出分类决策，然后再对这些决策结果进行融合，通过训练调参得到最优的权重参数，从而获得最终的驾驶分心行为检测结果。

6.一种基于级联式网络架构的驾驶员分心检测系统，其特征在于，包括以下模块：