CN112101103A

CN112101103A - 一种基于深度集成网络的视频驾驶员疲劳检测方法

Info

Publication number: CN112101103A
Application number: CN202010790835.7A
Authority: CN
Inventors: 路小波; 胡耀聪; 陆明琦
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-12-18
Anticipated expiration: 2040-08-07
Also published as: CN112101103B

Abstract

本发明涉及了一种基于深度集成网络的视频驾驶员疲劳检测方法，框架包含风格迁移模块、人脸关键点检测模块和分类模块，风格迁移模块由一个编解码生成网络构成，用于复原输入红外视频帧的颜色信息，输出彩色视频帧；人脸关键点检测模块采用全卷积神经网络结构，以红外视频帧和风格迁移模块生成的彩色视频帧作为输入，对人脸关键点进行定位并输出掩膜特征图；分类模块由一个3D卷积神经网络组成，集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息，判定驾驶员疲劳状态。相比现有的疲劳驾驶检测算法，本发明检测率高，误报率低，可用于红外监控视频下的驾驶员疲劳检测。发明在智能交通领域有重要的应用价值。

Description

一种基于深度集成网络的视频驾驶员疲劳检测方法

技术领域

本发明属于图像处理和模式识别领域，涉及一种基于深度集成网络的视频驾驶员疲劳检测方法。

背景技术

疲劳驾驶是指驾驶员在长时间持续驾驶后所出现的生理机能下降现象，从而出现注意力下降并无法正常操控车辆。世界卫生组织的调研显示2018年有135万人死于交通事故，这其中疲劳驾驶是导致事故的重要因素之一，占总死亡的6％。因此驾驶员疲劳检测系统的开发在公共交通安全领域有十分重要的应用价值。

在早期的监测系统中，汽车传感器通常可以用来监测汽车的速度，脚踏板压力，反向盘的握力等。然而汽车传感器对异常信号的检测通常滞后于驾驶员的实际疲劳状态。随着计算机视觉技术的发展，基于视频的驾驶员疲劳检测算法逐渐成为研发主流。在视频监测系统中，车载红外摄像头捕捉驾驶员脸部信息并通过视频处理技术自动分析驾驶员疲劳程度。现有的基于视频的驾驶员疲劳检测算法的主要问题包括：

(1)驾驶员疲劳的表现呈现多样性，如闭眼、打哈欠、神态恍惚等，通用的人工设计特征难以克服较大的类内方差。

(2)红外摄像头可以通过红外光捕捉夜间驾驶员的疲劳状态，然而红外摄像头拍摄的视频帧为灰度图像，缺少相关的颜色信息。

(3)驾驶员疲劳通常体现在人脸局部关键点特征上，而现有的疲劳检测算法未能有效的利用脸部显著性信息。

发明内容

技术问题：本发明提供了一种基于深度集成网络的视频驾驶员疲劳检测方法。该模型包含的风格迁移模块可以有效地恢复红外视频帧的颜色信息，人脸关键点检测模块计算出的掩膜特征图可以提供疲劳显著性信息，分类模块集成了这些补充信息并最终输出每帧图像中的驾驶员疲劳程度。

本发明采用的技术方案为：一种基于深度集成网络的视频驾驶员疲劳检测方法，包括以下步骤：

步骤1：构建疲劳驾驶检测数据集。本发明使用台湾交通大学公开的NTHU-DDD驾驶员疲劳检测数据集。如图1所示，该数据集共有380个由红外摄像头录制的视频，其中训练视频360个(722223帧)、测试视频20个(173259帧)。数据集中的视频包含白天和夜间两个光照场景，视频帧率为30fps，分辨率为640×480。每个视频都包括四个标签文件，逐帧的标注了整体疲劳状态(疲劳、非疲劳)，眼睛疲劳状态(正常、闭眼)，嘴巴疲劳状态(正常、哈欠、说话)和头部疲劳状态(正常、侧脸、头部下垂)。在本发明中将该数据集的360个训练视频全部用于训练深度集成网络，其余的20个视频用于模型测试。

步骤2：设计人脸检测跟踪算法。驾驶员疲劳状态只取决于视频帧中人脸区域的状态。在本发明中结合了人脸检测和目标跟踪获得视频帧每一帧的人脸区域。在视频的初始帧，MTCNN网络用于检测人脸，后续帧中，核相关滤波算法跟踪人脸区域。

步骤3：构建风格迁移模块。该模块由一个编解码生成网络构成，用于复原输入红外视频帧的颜色信息，输出彩色视频帧，如图2所示。

步骤301：使用CycleGAN模型在LFW人脸数据集上进行预训练，获得灰度图像域X与彩色图像域Y之间的两个映射，分别记为：X→Y→X,Y→X→Y。CycleGAN模型包含两个编解码生成网络G_XY,G_YX,两个判别网络D_X,D_Y。给定灰度图像x(x∈X)，生成网络G_XY可以将灰度图像x映射为对应的彩色图像G_XY(x)，而生成网络G_YX对生成的彩色图像进行复原并输出重构图像G_YX(G_XY(x))，判别网络D_Y区分生成的彩色图像G_XY(x)和真实彩色图像y(y∈Y)。同样的，给定彩色图像y(y∈Y)，生成网络G_YX可以将彩色图像y映射为对应的灰度图像G_YX(y)，而生成网络G_XY对生成的灰度图像进行复原并输出重构图像G_XY(G_YX(y))，判别网络D_X区分生成的灰度图像G_YX(y)和真实灰度图像x(x∈X)。

步骤302：读取步骤301中预训练编解码生成网络模型G_XY的参数，用于图像风格迁移。将红外人脸视频帧送入G_XY中，输出生成的彩色人脸视频帧。该过程可定义为：

I_C＝G_XY(I_I|θ_gen) (1)

其中I_I表示红外视频帧，θ_gen为编解码生成网络的相关参数，I_C表示输出的彩色视频帧。

步骤4：构建人脸关键点检测模块，该模块采用全卷积神经网络结构，以红外视频帧和风格迁移模块生成的彩色视频帧作为输入，对人脸关键点进行定位并输出掩膜特征图，如图3所示。

步骤401：人脸关键点检测模块以MobileNet-V2作为骨架网络，输入包含红外视频帧I_I，彩色视频帧I_C。该模型的第一层为基础卷积层，中间层结合深度可分离卷积和残差学习加速特征提取，最后一层对红外帧特征图和彩色帧特征图进行通道堆叠，并通过卷积运算得到人脸68个关键点对应的热区图

该过程可定义为：

其中I_I表示红外视频帧，I_C表示输出的彩色视频帧，θ_mob为MobileNet-V2模型的相关参数，

表示人脸关键点热区图的预测值。

步骤402：采用双线性插值对预测的关键点热区图进行上采样，接着通过argmax函数获得人脸关键点所对应的坐标值，该运算可以表示为：

其中

表示第i个关键点所对应的热区图，

为第i个关键点所对应的坐标。

步骤403：通过高斯核函数将人脸关键点映射为掩膜特征图，该运算可表示为：

其中

为第i个关键点所对应的坐标，G表示高斯核函数，σ²为其对应的方差，I_M表示生成的掩膜特征图。

步骤5：构建分类模块，该模块由一个3D卷积神经网络组成，集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息，判定驾驶员疲劳状态，如图4所示。对于给定的连续相邻T帧红外人脸序列

通过步骤3输出生成的彩色人脸序列

通过步骤4输出掩膜特征序列

分类模块的输入为V_I，V_C，V_M，其中红外人脸序列V_I和彩色人脸序列V_C送入一个参数共享的时空卷积分支中提取时空信息和颜色信息，掩膜特征序列V_M送入另一个单独的时空卷积分支中提取显著性信息。随后伪3D卷积分支对两个时空卷积分支的输出特征图进行级联和下采样操作，即分解3×3×3时空卷积为1×3×3的空间卷积和3×1×1的时间卷积，加速特征提取运算。Softmax分类器融合红外人脸序列特征图和彩色人脸特征图输出疲劳相关状态的分类得分。分类模块的运算过程可定义为：

score＝3DCNN(V_I,V_C,V_M|θ_3dc,θ_cls) (5)

其中θ_3dc和θ_cls分别表示3D卷积网络(包含3D卷积及伪3D卷积)和softmax分类器的相关参数，score＝{s_drow,s_eye,s_mou,s_hea}表示分类得分，包含输入序列的整体疲劳得分和疲劳相关状态如眼部(正常、闭眼)，嘴部(正常、哈欠、说话)，头部(正常、侧脸、头部下垂)的分类结果。

步骤6：模型训练。使用Pytorch开源库搭建深度集成神经网路模型，在Intel CoreI7服务器上运行，使用NVIDIATITAN X GPU，Ubuntu 18.04操作系统下训练模型框架，实现视频驾驶员疲劳检测。

步骤601：预训练风格迁移模块和人脸关键点检测模块。其中CycleGAN模型在LFW数据集上进行预训练，以学习从灰度图像到彩色图像的一个映射。MobileNet-V2模型在AFLW数据集上预训练，实现快速人脸关键点定位和掩模特征图生成。

步骤602：将风格迁移模块和人脸关键点检测模块的输出集成到分类模块中以实现各模块之间的互优化。其中风格迁移模块包含以下的训练任务：

(1)对于给定的连续相邻T帧红外人脸序列

生成网络G_XY复原输入红外人脸序列的颜色信息并输出彩色人脸序列

生成网络G_YX对G_XY生成的彩色人脸序列进行复原并输出重构序列，其损失函数可表示为：

其中

为输入的第T'帧红外人脸图像，

表示第T'帧的人脸重构结果。||·||₁即表示输入帧和重构帧的L1范数距离，而

即序列中逐帧循环一致性损失之和。

(2)生成网络G_XY复原输入红外人脸序列的颜色信息,以使得判别网络D_Y无法判断其真实性，具体可表示为：

其中

表示生成的第T'帧彩色人脸图像，而

即序列中逐帧最小二乘损失之和。

(3)红外人脸序列和生成的彩色人脸序列被送入人脸关键点检测模块中，其损失函数可表示为：

其中Mobile(·)表示MobileNet-V2网络模型，其输出为第T'帧人脸关键点热区图的预测值，H^T'表示关键点热区图的真实值，

即表示输入帧和重构帧的L2范数距离，

即序列中逐帧定位回归损失之和。

(4)给定风格迁移模块合成的彩色人脸序列V_C和人脸关键点检测模块输出的掩膜特征序列V_M，分类模块集成颜色信息和显著性信息，准确的判定疲劳相关状态，交叉损失熵函数优化softmax分类器，具体可表示为：

其中V_I,V_C和V_M分别表示红外人脸序列，彩色人脸序列和掩膜特征序

输出第j'个状态的分类得分，α＝{α_drow,α_eye,α_mou,α_hea}表示不同属性的疲劳状态(包含整体疲劳、眼部疲劳、嘴部疲劳、头部疲劳)的权重参数。

风格迁移模块的训练损失为不同学习任务的损失加权组合，最终的损失函数可表示为：

其中

表示风格迁移模块中不同损失的权重参数。

人脸关键点检测模块以红外人脸序列和风格迁移模块生成的彩色人脸序列作为输入，对人脸关键点进行定位并输出掩膜特征图，其损失函数L_mob即关键点热区图的回归损失。

分类模块集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息，判定驾驶员疲劳状态，其损失函数L_3dc即softmax分类器的交叉熵损失。

步骤7：对本发明提出的基于深度集成网络的疲劳检测方法进行测试，该框架的整体示意图如图5所示。给定一个测试红外视频序列，通过步骤2获取红外人脸序列，利用步骤3的风格迁移模块还原颜色信息并输出彩色人脸序列。利用步骤4的人脸关键点检测模块输出掩膜特征序列，步骤5集成了步骤3和步骤4中提取的颜色信息和显著信息(如图6所示)，并最终输出视频中每帧的疲劳检测结果。

有益效果：

相比现有的疲劳驾驶检测算法，本发明检测率高，误报率低，可用于红外监控视频下的驾驶员疲劳检测，在智能交通领域有重要的应用价值。

附图说明

图1是本发明中疲劳驾驶数据集样例图，

图2是本发明中风格迁移模块示意图，

图3是本发明中人脸关键点检测模块示意图，

图4是本发明中分类模块示意图，

图5是本发明中基于集成深度网络的疲劳检测算法框架示意图，

图6是本发明中风格迁移和掩模特征生成结果示意图。

图7是本发明的方法流程图。

具体实施方式

下面结合具体实施例和说明附图对本发明作进一步说明，应当理解，此处所描述的优先实施例仅用于说明和解释本发明，并不用于限定本发明。

如图7所示，本实施例公开了一种基于深度集成网络的视频驾驶员疲劳检测方法，具体实施步骤如下：

I_C＝G_XY(I_I|θ_gen) (1)

该过程可定义为：

表示人脸关键点热区图的预测值。

其中

表示第i个关键点所对应的热区图，

为第i个关键点所对应的坐标。

其中

通过步骤3输出生成的彩色人脸序列

通过步骤4输出掩膜特征序列

score＝3DCNN(V_I,V_C,V_M|θ_3dc,θ_cls) (5)

(5)对于给定的连续相邻T帧红外人脸序列

其中

为输入的第T'帧红外人脸图像，

即序列中逐帧循环一致性损失之和。

(6)生成网络G_XY复原输入红外人脸序列的颜色信息,以使得判别网络D_Y无法判断其真实性，具体可表示为：

其中

表示生成的第T'帧彩色人脸图像，而

即序列中逐帧最小二乘损失之和。

(7)红外人脸序列和生成的彩色人脸序列被送入人脸关键点检测模块中，其损失函数可表示为：

即表示输入帧和重构帧的L2范数距离，

即序列中逐帧定位回归损失之和。

(8)给定风格迁移模块合成的彩色人脸序列V_C和人脸关键点检测模块输出的掩膜特征序列V_M，分类模块集成颜色信息和显著性信息，准确的判定疲劳相关状态，交叉损失熵函数优化softmax分类器，具体可表示为：

其中V_I,V_C和V_M分别表示红外人脸序列，彩色人脸序列和掩膜特征序列。

其中

表示风格迁移模块中不同损失的权重参数。

以上所述仅是本发明的优选实施方式，应当指出对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度集成网络的视频驾驶员疲劳检测方法，其特征在于，包括下列步骤：

步骤1：构建疲劳驾驶检测数据集，使用台湾交通大学公开的NTHU-DDD驾驶员疲劳检测数据集，将该数据集的360个训练视频全部用于训练深度集成网络，其余的20个视频用于模型测试；

步骤2：设计人脸检测跟踪算法，结合人脸检测和目标跟踪获得视频帧每一帧的人脸区域，在视频的初始帧，MTCNN网络用于检测人脸，后续帧中，核相关滤波算法跟踪人脸区域；

步骤3：构建风格迁移模块，该模块由一个编解码生成网络构成，用于复原输入红外视频帧的颜色信息，输出彩色视频帧；

步骤301：使用CycleGAN模型在LFW人脸数据集上进行预训练，获得灰度图像域X与彩色图像域Y之间的两个映射，分别记为：X→Y→X,Y→X→Y；CycleGAN模型包含两个编解码生成网络G_XY,G_YX,两个判别网络D_X,D_Y；给定灰度图像x(x∈X)，生成网络G_XY可以将灰度图像x映射为对应的彩色图像G_XY(x)，而生成网络G_YX对生成的彩色图像进行复原并输出重构图像G_YX(G_XY(x))，判别网络D_Y区分生成的彩色图像G_XY(x)和真实彩色图像y(y∈Y)；给定彩色图像y(y∈Y)，生成网络G_YX可以将彩色图像y映射为对应的灰度图像G_YX(y)，而生成网络G_XY对生成的灰度图像进行复原并输出重构图像G_XY(G_YX(y))，判别网络D_X区分生成的灰度图像G_YX(y)和真实灰度图像x(x∈X)；

步骤302：读取步骤301中预训练编解码生成网络模型G_XY的参数，用于图像风格迁移。将红外人脸视频帧送入G_XY中，输出生成的彩色人脸视频帧，该过程定义为：

I_C＝G_XY(I_I|θ_gen) (1)

其中I_I表示红外视频帧，θ_gen为编解码生成网络的相关参数，I_C表示输出的彩色视频帧；

步骤4：构建人脸关键点检测模块，该模块采用全卷积神经网络结构，以红外视频帧和风格迁移模块生成的彩色视频帧作为输入，对人脸关键点进行定位并输出掩膜特征图；

步骤401：人脸关键点检测模块以MobileNet-V2作为骨架网络，输入包含红外视频帧I_I，彩色视频帧I_C，该模型的第一层为基础卷积层，中间层结合深度可分离卷积和残差学习加速特征提取，最后一层对红外帧特征图和彩色帧特征图进行通道堆叠，并通过卷积运算得到人脸68个关键点对应的热区图

该过程定义为：

表示人脸关键点热区图的预测值；

步骤402：采用双线性插值对预测的关键点热区图进行上采样，接着通过argmax函数获得人脸关键点所对应的坐标值，该运算表示为：

其中

表示第i个关键点所对应的热区图，

为第i个关键点所对应的坐标；

步骤403：通过高斯核函数将人脸关键点映射为掩膜特征图，该运算表示为：

其中

为第i个关键点所对应的坐标，G表示高斯核函数，σ²为其对应的方差，I_M表示生成的掩膜特征图；

步骤5：构建分类模块，该模块由一个3D卷积神经网络组成，集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息，判定驾驶员疲劳状态，对于给定的连续相邻T帧红外人脸序列

通过步骤3输出生成的彩色人脸序列

通过步骤4输出掩膜特征序列

分类模块的输入为V_I，V_C，V_M，其中红外人脸序列V_I和彩色人脸序列V_C送入一个参数共享的时空卷积分支中提取时空信息和颜色信息，掩膜特征序列V_M送入另一个单独的时空卷积分支中提取显著性信息，随后伪3D卷积分支对两个时空卷积分支的输出特征图进行级联和下采样操作，即分解3×3×3时空卷积为1×3×3的空间卷积和3×1×1的时间卷积，加速特征提取运算，Softmax分类器融合红外人脸序列特征图和彩色人脸特征图输出疲劳相关状态的分类得分，分类模块的运算过程定义为：

score＝3DCNN(V_I,V_C,V_M|θ_3dc,θ_cls) (5)

其中θ_3dc和θ_cls分别表示3D卷积网络和softmax分类器的参数，score＝{s_drow,s_eye,s_mou,s_hea}表示分类得分，包含输入序列的整体疲劳得分和疲劳相关状态的分类结果；

步骤6：模型训练，使用Pytorch开源库搭建深度集成神经网路模型，，使用NVIDIATITAN X GPU，Ubuntu 18.04操作系统下训练模型框架，实现视频驾驶员疲劳检测；

步骤601：预训练风格迁移模块和人脸关键点检测模块，其中CycleGAN模型在LFW数据集上进行预训练，以学习从灰度图像到彩色图像的一个映射，MobileNet-V2模型在AFLW数据集上预训练，实现快速人脸关键点定位和掩模特征图生成；

步骤602：将风格迁移模块和人脸关键点检测模块的输出集成到分类模块中以实现各模块之间的互优化，其中风格迁移模块包含以下的训练任务：

(1)对于给定的连续相邻T帧红外人脸序列

其中

为输入的第T'帧红外人脸图像，

表示第T'帧的人脸重构结果，||·||₁即表示输入帧和重构帧的L1范数距离，

即序列中逐帧循环一致性损失之和；

其中

表示生成的第T'帧彩色人脸图像，而

即序列中逐帧最小二乘损失之和；

即表示输入帧和重构帧的L2范数距离，

即序列中逐帧定位回归损失之和；

其中V_I,V_C和V_M分别表示红外人脸序列，彩色人脸序列和掩膜特征序列；

输出第j'个状态的分类得分，α＝{α_drow,α_eye,α_mou,α_hea}表示不同属性的疲劳状态的权重参数；

风格迁移模块的训练损失为不同学习任务的损失加权组合，最终的损失函数表示为：

其中

表示风格迁移模块中不同损失的权重参数；

人脸关键点检测模块以红外人脸序列和风格迁移模块生成的彩色人脸序列作为输入，对人脸关键点进行定位并输出掩膜特征图，其损失函数L_mob即关键点热区图的回归损失

分类模块集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息，判定驾驶员疲劳状态，其损失函数L_3dc即softmax分类器的交叉熵损失

步骤7：使用训练好的模型测试疲劳检测结果。

2.根据权利要求1所述的一种基于深度集成网络的视频驾驶员疲劳检测方法，其特征在于，步骤7的具体方法为：给定一个测试红外视频序列，通过步骤2获取红外人脸序列，利用步骤3的风格迁移模块还原颜色信息并输出彩色人脸序列利用步骤4的人脸关键点检测模块输出掩膜特征序列，步骤5集成了步骤3和步骤4中提取的颜色信息和显著信息，并最终输出视频中每帧的疲劳检测结果。