CN112101103A - 一种基于深度集成网络的视频驾驶员疲劳检测方法 - Google Patents
一种基于深度集成网络的视频驾驶员疲劳检测方法 Download PDFInfo
- Publication number
- CN112101103A CN112101103A CN202010790835.7A CN202010790835A CN112101103A CN 112101103 A CN112101103 A CN 112101103A CN 202010790835 A CN202010790835 A CN 202010790835A CN 112101103 A CN112101103 A CN 112101103A
- Authority
- CN
- China
- Prior art keywords
- face
- sequence
- color
- frame
- infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及了一种基于深度集成网络的视频驾驶员疲劳检测方法,框架包含风格迁移模块、人脸关键点检测模块和分类模块,风格迁移模块由一个编解码生成网络构成,用于复原输入红外视频帧的颜色信息,输出彩色视频帧;人脸关键点检测模块采用全卷积神经网络结构,以红外视频帧和风格迁移模块生成的彩色视频帧作为输入,对人脸关键点进行定位并输出掩膜特征图;分类模块由一个3D卷积神经网络组成,集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态。相比现有的疲劳驾驶检测算法,本发明检测率高,误报率低,可用于红外监控视频下的驾驶员疲劳检测。发明在智能交通领域有重要的应用价值。
Description
技术领域
本发明属于图像处理和模式识别领域,涉及一种基于深度集成网络的视频驾驶员疲劳检测方法。
背景技术
疲劳驾驶是指驾驶员在长时间持续驾驶后所出现的生理机能下降现象,从而出现注意力下降并无法正常操控车辆。世界卫生组织的调研显示2018年有135万人死于交通事故,这其中疲劳驾驶是导致事故的重要因素之一,占总死亡的6%。因此驾驶员疲劳检测系统的开发在公共交通安全领域有十分重要的应用价值。
在早期的监测系统中,汽车传感器通常可以用来监测汽车的速度,脚踏板压力,反向盘的握力等。然而汽车传感器对异常信号的检测通常滞后于驾驶员的实际疲劳状态。随着计算机视觉技术的发展,基于视频的驾驶员疲劳检测算法逐渐成为研发主流。在视频监测系统中,车载红外摄像头捕捉驾驶员脸部信息并通过视频处理技术自动分析驾驶员疲劳程度。现有的基于视频的驾驶员疲劳检测算法的主要问题包括:
(1)驾驶员疲劳的表现呈现多样性,如闭眼、打哈欠、神态恍惚等,通用的人工设计特征难以克服较大的类内方差。
(2)红外摄像头可以通过红外光捕捉夜间驾驶员的疲劳状态,然而红外摄像头拍摄的视频帧为灰度图像,缺少相关的颜色信息。
(3)驾驶员疲劳通常体现在人脸局部关键点特征上,而现有的疲劳检测算法未能有效的利用脸部显著性信息。
发明内容
技术问题:本发明提供了一种基于深度集成网络的视频驾驶员疲劳检测方法。该模型包含的风格迁移模块可以有效地恢复红外视频帧的颜色信息,人脸关键点检测模块计算出的掩膜特征图可以提供疲劳显著性信息,分类模块集成了这些补充信息并最终输出每帧图像中的驾驶员疲劳程度。
本发明采用的技术方案为:一种基于深度集成网络的视频驾驶员疲劳检测方法,包括以下步骤:
步骤1:构建疲劳驾驶检测数据集。本发明使用台湾交通大学公开的NTHU-DDD驾驶员疲劳检测数据集。如图1所示,该数据集共有380个由红外摄像头录制的视频,其中训练视频360个(722223帧)、测试视频20个(173259帧)。数据集中的视频包含白天和夜间两个光照场景,视频帧率为30fps,分辨率为640×480。每个视频都包括四个标签文件,逐帧的标注了整体疲劳状态(疲劳、非疲劳),眼睛疲劳状态(正常、闭眼),嘴巴疲劳状态(正常、哈欠、说话)和头部疲劳状态(正常、侧脸、头部下垂)。在本发明中将该数据集的360个训练视频全部用于训练深度集成网络,其余的20个视频用于模型测试。
步骤2:设计人脸检测跟踪算法。驾驶员疲劳状态只取决于视频帧中人脸区域的状态。在本发明中结合了人脸检测和目标跟踪获得视频帧每一帧的人脸区域。在视频的初始帧,MTCNN网络用于检测人脸,后续帧中,核相关滤波算法跟踪人脸区域。
步骤3:构建风格迁移模块。该模块由一个编解码生成网络构成,用于复原输入红外视频帧的颜色信息,输出彩色视频帧,如图2所示。
步骤301:使用CycleGAN模型在LFW人脸数据集上进行预训练,获得灰度图像域X与彩色图像域Y之间的两个映射,分别记为:X→Y→X,Y→X→Y。CycleGAN模型包含两个编解码生成网络GXY,GYX,两个判别网络DX,DY。给定灰度图像x(x∈X),生成网络GXY可以将灰度图像x映射为对应的彩色图像GXY(x),而生成网络GYX对生成的彩色图像进行复原并输出重构图像GYX(GXY(x)),判别网络DY区分生成的彩色图像GXY(x)和真实彩色图像y(y∈Y)。同样的,给定彩色图像y(y∈Y),生成网络GYX可以将彩色图像y映射为对应的灰度图像GYX(y),而生成网络GXY对生成的灰度图像进行复原并输出重构图像GXY(GYX(y)),判别网络DX区分生成的灰度图像GYX(y)和真实灰度图像x(x∈X)。
步骤302:读取步骤301中预训练编解码生成网络模型GXY的参数,用于图像风格迁移。将红外人脸视频帧送入GXY中,输出生成的彩色人脸视频帧。该过程可定义为:
IC=GXY(II|θgen) (1)
其中II表示红外视频帧,θgen为编解码生成网络的相关参数,IC表示输出的彩色视频帧。
步骤4:构建人脸关键点检测模块,该模块采用全卷积神经网络结构,以红外视频帧和风格迁移模块生成的彩色视频帧作为输入,对人脸关键点进行定位并输出掩膜特征图,如图3所示。
步骤401:人脸关键点检测模块以MobileNet-V2作为骨架网络,输入包含红外视频帧II,彩色视频帧IC。该模型的第一层为基础卷积层,中间层结合深度可分离卷积和残差学习加速特征提取,最后一层对红外帧特征图和彩色帧特征图进行通道堆叠,并通过卷积运算得到人脸68个关键点对应的热区图该过程可定义为:
步骤402:采用双线性插值对预测的关键点热区图进行上采样,接着通过argmax函数获得人脸关键点所对应的坐标值,该运算可以表示为:
步骤403:通过高斯核函数将人脸关键点映射为掩膜特征图,该运算可表示为:
步骤5:构建分类模块,该模块由一个3D卷积神经网络组成,集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,如图4所示。对于给定的连续相邻T帧红外人脸序列通过步骤3输出生成的彩色人脸序列通过步骤4输出掩膜特征序列分类模块的输入为VI,VC,VM,其中红外人脸序列VI和彩色人脸序列VC送入一个参数共享的时空卷积分支中提取时空信息和颜色信息,掩膜特征序列VM送入另一个单独的时空卷积分支中提取显著性信息。随后伪3D卷积分支对两个时空卷积分支的输出特征图进行级联和下采样操作,即分解3×3×3时空卷积为1×3×3的空间卷积和3×1×1的时间卷积,加速特征提取运算。Softmax分类器融合红外人脸序列特征图和彩色人脸特征图输出疲劳相关状态的分类得分。分类模块的运算过程可定义为:
score=3DCNN(VI,VC,VM|θ3dc,θcls) (5)
其中θ3dc和θcls分别表示3D卷积网络(包含3D卷积及伪3D卷积)和softmax分类器的相关参数,score={sdrow,seye,smou,shea}表示分类得分,包含输入序列的整体疲劳得分和疲劳相关状态如眼部(正常、闭眼),嘴部(正常、哈欠、说话),头部(正常、侧脸、头部下垂)的分类结果。
步骤6:模型训练。使用Pytorch开源库搭建深度集成神经网路模型,在Intel CoreI7服务器上运行,使用NVIDIATITAN X GPU,Ubuntu 18.04操作系统下训练模型框架,实现视频驾驶员疲劳检测。
步骤601:预训练风格迁移模块和人脸关键点检测模块。其中CycleGAN模型在LFW数据集上进行预训练,以学习从灰度图像到彩色图像的一个映射。MobileNet-V2模型在AFLW数据集上预训练,实现快速人脸关键点定位和掩模特征图生成。
步骤602:将风格迁移模块和人脸关键点检测模块的输出集成到分类模块中以实现各模块之间的互优化。其中风格迁移模块包含以下的训练任务:
(2)生成网络GXY复原输入红外人脸序列的颜色信息,以使得判别网络DY无法判断其真实性,具体可表示为:
(3)红外人脸序列和生成的彩色人脸序列被送入人脸关键点检测模块中,其损失函数可表示为:
其中Mobile(·)表示MobileNet-V2网络模型,其输出为第T'帧人脸关键点热区图的预测值,HT'表示关键点热区图的真实值,即表示输入帧和重构帧的L2范数距离,即序列中逐帧定位回归损失之和。
(4)给定风格迁移模块合成的彩色人脸序列VC和人脸关键点检测模块输出的掩膜特征序列VM,分类模块集成颜色信息和显著性信息,准确的判定疲劳相关状态,交叉损失熵函数优化softmax分类器,具体可表示为:
其中VI,VC和VM分别表示红外人脸序列,彩色人脸序列和掩膜特征序 输出第j'个状态的分类得分,α={αdrow,αeye,αmou,αhea}表示不同属性的疲劳状态(包含整体疲劳、眼部疲劳、嘴部疲劳、头部疲劳)的权重参数。
风格迁移模块的训练损失为不同学习任务的损失加权组合,最终的损失函数可表示为:
人脸关键点检测模块以红外人脸序列和风格迁移模块生成的彩色人脸序列作为输入,对人脸关键点进行定位并输出掩膜特征图,其损失函数Lmob即关键点热区图的回归损失。
分类模块集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,其损失函数L3dc即softmax分类器的交叉熵损失。
步骤7:对本发明提出的基于深度集成网络的疲劳检测方法进行测试,该框架的整体示意图如图5所示。给定一个测试红外视频序列,通过步骤2获取红外人脸序列,利用步骤3的风格迁移模块还原颜色信息并输出彩色人脸序列。利用步骤4的人脸关键点检测模块输出掩膜特征序列,步骤5集成了步骤3和步骤4中提取的颜色信息和显著信息(如图6所示),并最终输出视频中每帧的疲劳检测结果。
有益效果:
相比现有的疲劳驾驶检测算法,本发明检测率高,误报率低,可用于红外监控视频下的驾驶员疲劳检测,在智能交通领域有重要的应用价值。
附图说明
图1是本发明中疲劳驾驶数据集样例图,
图2是本发明中风格迁移模块示意图,
图3是本发明中人脸关键点检测模块示意图,
图4是本发明中分类模块示意图,
图5是本发明中基于集成深度网络的疲劳检测算法框架示意图,
图6是本发明中风格迁移和掩模特征生成结果示意图。
图7是本发明的方法流程图。
具体实施方式
下面结合具体实施例和说明附图对本发明作进一步说明,应当理解,此处所描述的优先实施例仅用于说明和解释本发明,并不用于限定本发明。
如图7所示,本实施例公开了一种基于深度集成网络的视频驾驶员疲劳检测方法,具体实施步骤如下:
步骤1:构建疲劳驾驶检测数据集。本发明使用台湾交通大学公开的NTHU-DDD驾驶员疲劳检测数据集。如图1所示,该数据集共有380个由红外摄像头录制的视频,其中训练视频360个(722223帧)、测试视频20个(173259帧)。数据集中的视频包含白天和夜间两个光照场景,视频帧率为30fps,分辨率为640×480。每个视频都包括四个标签文件,逐帧的标注了整体疲劳状态(疲劳、非疲劳),眼睛疲劳状态(正常、闭眼),嘴巴疲劳状态(正常、哈欠、说话)和头部疲劳状态(正常、侧脸、头部下垂)。在本发明中将该数据集的360个训练视频全部用于训练深度集成网络,其余的20个视频用于模型测试。
步骤2:设计人脸检测跟踪算法。驾驶员疲劳状态只取决于视频帧中人脸区域的状态。在本发明中结合了人脸检测和目标跟踪获得视频帧每一帧的人脸区域。在视频的初始帧,MTCNN网络用于检测人脸,后续帧中,核相关滤波算法跟踪人脸区域。
步骤3:构建风格迁移模块。该模块由一个编解码生成网络构成,用于复原输入红外视频帧的颜色信息,输出彩色视频帧,如图2所示。
步骤301:使用CycleGAN模型在LFW人脸数据集上进行预训练,获得灰度图像域X与彩色图像域Y之间的两个映射,分别记为:X→Y→X,Y→X→Y。CycleGAN模型包含两个编解码生成网络GXY,GYX,两个判别网络DX,DY。给定灰度图像x(x∈X),生成网络GXY可以将灰度图像x映射为对应的彩色图像GXY(x),而生成网络GYX对生成的彩色图像进行复原并输出重构图像GYX(GXY(x)),判别网络DY区分生成的彩色图像GXY(x)和真实彩色图像y(y∈Y)。同样的,给定彩色图像y(y∈Y),生成网络GYX可以将彩色图像y映射为对应的灰度图像GYX(y),而生成网络GXY对生成的灰度图像进行复原并输出重构图像GXY(GYX(y)),判别网络DX区分生成的灰度图像GYX(y)和真实灰度图像x(x∈X)。
步骤302:读取步骤301中预训练编解码生成网络模型GXY的参数,用于图像风格迁移。将红外人脸视频帧送入GXY中,输出生成的彩色人脸视频帧。该过程可定义为:
IC=GXY(II|θgen) (1)
其中II表示红外视频帧,θgen为编解码生成网络的相关参数,IC表示输出的彩色视频帧。
步骤4:构建人脸关键点检测模块,该模块采用全卷积神经网络结构,以红外视频帧和风格迁移模块生成的彩色视频帧作为输入,对人脸关键点进行定位并输出掩膜特征图,如图3所示。
步骤401:人脸关键点检测模块以MobileNet-V2作为骨架网络,输入包含红外视频帧II,彩色视频帧IC。该模型的第一层为基础卷积层,中间层结合深度可分离卷积和残差学习加速特征提取,最后一层对红外帧特征图和彩色帧特征图进行通道堆叠,并通过卷积运算得到人脸68个关键点对应的热区图该过程可定义为:
步骤402:采用双线性插值对预测的关键点热区图进行上采样,接着通过argmax函数获得人脸关键点所对应的坐标值,该运算可以表示为:
步骤403:通过高斯核函数将人脸关键点映射为掩膜特征图,该运算可表示为:
步骤5:构建分类模块,该模块由一个3D卷积神经网络组成,集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,如图4所示。对于给定的连续相邻T帧红外人脸序列通过步骤3输出生成的彩色人脸序列通过步骤4输出掩膜特征序列分类模块的输入为VI,VC,VM,其中红外人脸序列VI和彩色人脸序列VC送入一个参数共享的时空卷积分支中提取时空信息和颜色信息,掩膜特征序列VM送入另一个单独的时空卷积分支中提取显著性信息。随后伪3D卷积分支对两个时空卷积分支的输出特征图进行级联和下采样操作,即分解3×3×3时空卷积为1×3×3的空间卷积和3×1×1的时间卷积,加速特征提取运算。Softmax分类器融合红外人脸序列特征图和彩色人脸特征图输出疲劳相关状态的分类得分。分类模块的运算过程可定义为:
score=3DCNN(VI,VC,VM|θ3dc,θcls) (5)
其中θ3dc和θcls分别表示3D卷积网络(包含3D卷积及伪3D卷积)和softmax分类器的相关参数,score={sdrow,seye,smou,shea}表示分类得分,包含输入序列的整体疲劳得分和疲劳相关状态如眼部(正常、闭眼),嘴部(正常、哈欠、说话),头部(正常、侧脸、头部下垂)的分类结果。
步骤6:模型训练。使用Pytorch开源库搭建深度集成神经网路模型,在Intel CoreI7服务器上运行,使用NVIDIATITAN X GPU,Ubuntu 18.04操作系统下训练模型框架,实现视频驾驶员疲劳检测。
步骤601:预训练风格迁移模块和人脸关键点检测模块。其中CycleGAN模型在LFW数据集上进行预训练,以学习从灰度图像到彩色图像的一个映射。MobileNet-V2模型在AFLW数据集上预训练,实现快速人脸关键点定位和掩模特征图生成。
步骤602:将风格迁移模块和人脸关键点检测模块的输出集成到分类模块中以实现各模块之间的互优化。其中风格迁移模块包含以下的训练任务:
(6)生成网络GXY复原输入红外人脸序列的颜色信息,以使得判别网络DY无法判断其真实性,具体可表示为:
(7)红外人脸序列和生成的彩色人脸序列被送入人脸关键点检测模块中,其损失函数可表示为:
其中Mobile(·)表示MobileNet-V2网络模型,其输出为第T'帧人脸关键点热区图的预测值,HT'表示关键点热区图的真实值,即表示输入帧和重构帧的L2范数距离,即序列中逐帧定位回归损失之和。
(8)给定风格迁移模块合成的彩色人脸序列VC和人脸关键点检测模块输出的掩膜特征序列VM,分类模块集成颜色信息和显著性信息,准确的判定疲劳相关状态,交叉损失熵函数优化softmax分类器,具体可表示为:
其中VI,VC和VM分别表示红外人脸序列,彩色人脸序列和掩膜特征序列。输出第j'个状态的分类得分,α={αdrow,αeye,αmou,αhea}表示不同属性的疲劳状态(包含整体疲劳、眼部疲劳、嘴部疲劳、头部疲劳)的权重参数。
风格迁移模块的训练损失为不同学习任务的损失加权组合,最终的损失函数可表示为:
人脸关键点检测模块以红外人脸序列和风格迁移模块生成的彩色人脸序列作为输入,对人脸关键点进行定位并输出掩膜特征图,其损失函数Lmob即关键点热区图的回归损失。
分类模块集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,其损失函数L3dc即softmax分类器的交叉熵损失。
步骤7:对本发明提出的基于深度集成网络的疲劳检测方法进行测试,该框架的整体示意图如图5所示。给定一个测试红外视频序列,通过步骤2获取红外人脸序列,利用步骤3的风格迁移模块还原颜色信息并输出彩色人脸序列。利用步骤4的人脸关键点检测模块输出掩膜特征序列,步骤5集成了步骤3和步骤4中提取的颜色信息和显著信息(如图6所示),并最终输出视频中每帧的疲劳检测结果。
以上所述仅是本发明的优选实施方式,应当指出对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (2)
1.一种基于深度集成网络的视频驾驶员疲劳检测方法,其特征在于,包括下列步骤:
步骤1:构建疲劳驾驶检测数据集,使用台湾交通大学公开的NTHU-DDD驾驶员疲劳检测数据集,将该数据集的360个训练视频全部用于训练深度集成网络,其余的20个视频用于模型测试;
步骤2:设计人脸检测跟踪算法,结合人脸检测和目标跟踪获得视频帧每一帧的人脸区域,在视频的初始帧,MTCNN网络用于检测人脸,后续帧中,核相关滤波算法跟踪人脸区域;
步骤3:构建风格迁移模块,该模块由一个编解码生成网络构成,用于复原输入红外视频帧的颜色信息,输出彩色视频帧;
步骤301:使用CycleGAN模型在LFW人脸数据集上进行预训练,获得灰度图像域X与彩色图像域Y之间的两个映射,分别记为:X→Y→X,Y→X→Y;CycleGAN模型包含两个编解码生成网络GXY,GYX,两个判别网络DX,DY;给定灰度图像x(x∈X),生成网络GXY可以将灰度图像x映射为对应的彩色图像GXY(x),而生成网络GYX对生成的彩色图像进行复原并输出重构图像GYX(GXY(x)),判别网络DY区分生成的彩色图像GXY(x)和真实彩色图像y(y∈Y);给定彩色图像y(y∈Y),生成网络GYX可以将彩色图像y映射为对应的灰度图像GYX(y),而生成网络GXY对生成的灰度图像进行复原并输出重构图像GXY(GYX(y)),判别网络DX区分生成的灰度图像GYX(y)和真实灰度图像x(x∈X);
步骤302:读取步骤301中预训练编解码生成网络模型GXY的参数,用于图像风格迁移。将红外人脸视频帧送入GXY中,输出生成的彩色人脸视频帧,该过程定义为:
IC=GXY(II|θgen) (1)
其中II表示红外视频帧,θgen为编解码生成网络的相关参数,IC表示输出的彩色视频帧;
步骤4:构建人脸关键点检测模块,该模块采用全卷积神经网络结构,以红外视频帧和风格迁移模块生成的彩色视频帧作为输入,对人脸关键点进行定位并输出掩膜特征图;
步骤401:人脸关键点检测模块以MobileNet-V2作为骨架网络,输入包含红外视频帧II,彩色视频帧IC,该模型的第一层为基础卷积层,中间层结合深度可分离卷积和残差学习加速特征提取,最后一层对红外帧特征图和彩色帧特征图进行通道堆叠,并通过卷积运算得到人脸68个关键点对应的热区图该过程定义为:
步骤402:采用双线性插值对预测的关键点热区图进行上采样,接着通过argmax函数获得人脸关键点所对应的坐标值,该运算表示为:
步骤403:通过高斯核函数将人脸关键点映射为掩膜特征图,该运算表示为:
步骤5:构建分类模块,该模块由一个3D卷积神经网络组成,集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,对于给定的连续相邻T帧红外人脸序列通过步骤3输出生成的彩色人脸序列通过步骤4输出掩膜特征序列分类模块的输入为VI,VC,VM,其中红外人脸序列VI和彩色人脸序列VC送入一个参数共享的时空卷积分支中提取时空信息和颜色信息,掩膜特征序列VM送入另一个单独的时空卷积分支中提取显著性信息,随后伪3D卷积分支对两个时空卷积分支的输出特征图进行级联和下采样操作,即分解3×3×3时空卷积为1×3×3的空间卷积和3×1×1的时间卷积,加速特征提取运算,Softmax分类器融合红外人脸序列特征图和彩色人脸特征图输出疲劳相关状态的分类得分,分类模块的运算过程定义为:
score=3DCNN(VI,VC,VM|θ3dc,θcls) (5)
其中θ3dc和θcls分别表示3D卷积网络和softmax分类器的参数,score={sdrow,seye,smou,shea}表示分类得分,包含输入序列的整体疲劳得分和疲劳相关状态的分类结果;
步骤6:模型训练,使用Pytorch开源库搭建深度集成神经网路模型,,使用NVIDIATITAN X GPU,Ubuntu 18.04操作系统下训练模型框架,实现视频驾驶员疲劳检测;
步骤601:预训练风格迁移模块和人脸关键点检测模块,其中CycleGAN模型在LFW数据集上进行预训练,以学习从灰度图像到彩色图像的一个映射,MobileNet-V2模型在AFLW数据集上预训练,实现快速人脸关键点定位和掩模特征图生成;
步骤602:将风格迁移模块和人脸关键点检测模块的输出集成到分类模块中以实现各模块之间的互优化,其中风格迁移模块包含以下的训练任务:
(2)生成网络GXY复原输入红外人脸序列的颜色信息,以使得判别网络DY无法判断其真实性,具体可表示为:
(3)红外人脸序列和生成的彩色人脸序列被送入人脸关键点检测模块中,其损失函数可表示为:
其中Mobile(·)表示MobileNet-V2网络模型,其输出为第T'帧人脸关键点热区图的预测值,HT'表示关键点热区图的真实值,即表示输入帧和重构帧的L2范数距离,即序列中逐帧定位回归损失之和;
(4)给定风格迁移模块合成的彩色人脸序列VC和人脸关键点检测模块输出的掩膜特征序列VM,分类模块集成颜色信息和显著性信息,准确的判定疲劳相关状态,交叉损失熵函数优化softmax分类器,具体可表示为:
风格迁移模块的训练损失为不同学习任务的损失加权组合,最终的损失函数表示为:
人脸关键点检测模块以红外人脸序列和风格迁移模块生成的彩色人脸序列作为输入,对人脸关键点进行定位并输出掩膜特征图,其损失函数Lmob即关键点热区图的回归损失
分类模块集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,其损失函数L3dc即softmax分类器的交叉熵损失
步骤7:使用训练好的模型测试疲劳检测结果。
2.根据权利要求1所述的一种基于深度集成网络的视频驾驶员疲劳检测方法,其特征在于,步骤7的具体方法为:给定一个测试红外视频序列,通过步骤2获取红外人脸序列,利用步骤3的风格迁移模块还原颜色信息并输出彩色人脸序列利用步骤4的人脸关键点检测模块输出掩膜特征序列,步骤5集成了步骤3和步骤4中提取的颜色信息和显著信息,并最终输出视频中每帧的疲劳检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010790835.7A CN112101103B (zh) | 2020-08-07 | 2020-08-07 | 一种基于深度集成网络的视频驾驶员疲劳检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010790835.7A CN112101103B (zh) | 2020-08-07 | 2020-08-07 | 一种基于深度集成网络的视频驾驶员疲劳检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101103A true CN112101103A (zh) | 2020-12-18 |
CN112101103B CN112101103B (zh) | 2022-08-09 |
Family
ID=73752878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010790835.7A Active CN112101103B (zh) | 2020-08-07 | 2020-08-07 | 一种基于深度集成网络的视频驾驶员疲劳检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101103B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733628A (zh) * | 2020-12-28 | 2021-04-30 | 杭州电子科技大学 | 基于MobileNet-V3的疲劳驾驶状态检测方法 |
CN113792663A (zh) * | 2021-09-15 | 2021-12-14 | 东北大学 | 一种驾驶员酒驾以及疲劳驾驶的检测方法、装置及存储介质 |
CN114821747A (zh) * | 2022-05-26 | 2022-07-29 | 深圳市科荣软件股份有限公司 | 一种工地人员异常状态识别方法及装置 |
CN117079255A (zh) * | 2023-10-17 | 2023-11-17 | 江西开放大学 | 一种基于人脸识别和语音交互的疲劳驾驶检测方法 |
CN117574136A (zh) * | 2024-01-16 | 2024-02-20 | 浙江大学海南研究院 | 一种基于多元高斯函数空间变换的卷积神经网络计算方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108670278A (zh) * | 2018-05-30 | 2018-10-19 | 东南大学 | 一种基于智能手机的驾驶员疲劳检测和报警系统及方法 |
CN110674701A (zh) * | 2019-09-02 | 2020-01-10 | 东南大学 | 一种基于深度学习的驾驶员疲劳状态快速检测方法 |
CN110717389A (zh) * | 2019-09-02 | 2020-01-21 | 东南大学 | 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法 |
CN110728824A (zh) * | 2019-09-25 | 2020-01-24 | 东南大学 | 一种基于多源数据的驾驶员疲劳状态检测及提醒方法 |
-
2020
- 2020-08-07 CN CN202010790835.7A patent/CN112101103B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108670278A (zh) * | 2018-05-30 | 2018-10-19 | 东南大学 | 一种基于智能手机的驾驶员疲劳检测和报警系统及方法 |
CN110674701A (zh) * | 2019-09-02 | 2020-01-10 | 东南大学 | 一种基于深度学习的驾驶员疲劳状态快速检测方法 |
CN110717389A (zh) * | 2019-09-02 | 2020-01-21 | 东南大学 | 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法 |
CN110728824A (zh) * | 2019-09-25 | 2020-01-24 | 东南大学 | 一种基于多源数据的驾驶员疲劳状态检测及提醒方法 |
Non-Patent Citations (1)
Title |
---|
陈之坤等: "基于深度学习的疲劳检测算法", 《计算机与网络》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733628A (zh) * | 2020-12-28 | 2021-04-30 | 杭州电子科技大学 | 基于MobileNet-V3的疲劳驾驶状态检测方法 |
CN113792663A (zh) * | 2021-09-15 | 2021-12-14 | 东北大学 | 一种驾驶员酒驾以及疲劳驾驶的检测方法、装置及存储介质 |
CN113792663B (zh) * | 2021-09-15 | 2024-05-14 | 东北大学 | 一种驾驶员酒驾以及疲劳驾驶的检测方法、装置及存储介质 |
CN114821747A (zh) * | 2022-05-26 | 2022-07-29 | 深圳市科荣软件股份有限公司 | 一种工地人员异常状态识别方法及装置 |
CN117079255A (zh) * | 2023-10-17 | 2023-11-17 | 江西开放大学 | 一种基于人脸识别和语音交互的疲劳驾驶检测方法 |
CN117079255B (zh) * | 2023-10-17 | 2024-01-05 | 江西开放大学 | 一种基于人脸识别和语音交互的疲劳驾驶检测方法 |
CN117574136A (zh) * | 2024-01-16 | 2024-02-20 | 浙江大学海南研究院 | 一种基于多元高斯函数空间变换的卷积神经网络计算方法 |
CN117574136B (zh) * | 2024-01-16 | 2024-05-10 | 浙江大学海南研究院 | 一种基于多元高斯函数空间变换的卷积神经网络计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112101103B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101103B (zh) | 一种基于深度集成网络的视频驾驶员疲劳检测方法 | |
Pan et al. | Visual recognition based on deep learning for navigation mark classification | |
Varghese et al. | ChangeNet: A deep learning architecture for visual change detection | |
Ludl et al. | Simple yet efficient real-time pose-based action recognition | |
CN112200161A (zh) | 一种基于混合注意力机制的人脸识别检测方法 | |
CN107239730B (zh) | 智能汽车交通标志识别的四元数深度神经网络模型方法 | |
CN110717389B (zh) | 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法 | |
CN106295568A (zh) | 基于表情和行为双模态结合的人类自然状态情感识别方法 | |
Roche et al. | A multimodal data processing system for LiDAR-based human activity recognition | |
CN112800937A (zh) | 一种智能人脸识别方法 | |
CN112434723B (zh) | 一种基于注意力网络的日/夜间图像分类及物体检测方法 | |
CN110348463A (zh) | 用于识别车辆的方法和装置 | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN113537027A (zh) | 基于面部划分的人脸深度伪造检测方法及系统 | |
Cao et al. | MCS-YOLO: A multiscale object detection method for autonomous driving road environment recognition | |
Sang et al. | Two-level attention model based video action recognition network | |
CN112257741A (zh) | 一种基于复数神经网络的生成性对抗虚假图片的检测方法 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
Zimmer et al. | Real-time and robust 3d object detection within road-side lidars using domain adaptation | |
Jegham et al. | Deep learning-based hard spatial attention for driver in-vehicle action monitoring | |
Jiang et al. | Application of a fast RCNN based on upper and lower layers in face recognition | |
CN109543519B (zh) | 一种用于物体检测的深度分割引导网络 | |
CN114550270A (zh) | 一种基于双注意力机制的微表情识别方法 | |
Liu et al. | Double mask R-CNN for pedestrian detection in a crowd | |
Miao et al. | Abnormal Behavior Learning Based on Edge Computing toward a Crowd Monitoring System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |