CN112101103B - 一种基于深度集成网络的视频驾驶员疲劳检测方法 - Google Patents

一种基于深度集成网络的视频驾驶员疲劳检测方法 Download PDF

Info

Publication number
CN112101103B
CN112101103B CN202010790835.7A CN202010790835A CN112101103B CN 112101103 B CN112101103 B CN 112101103B CN 202010790835 A CN202010790835 A CN 202010790835A CN 112101103 B CN112101103 B CN 112101103B
Authority
CN
China
Prior art keywords
face
sequence
color
frame
infrared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010790835.7A
Other languages
English (en)
Other versions
CN112101103A (zh
Inventor
路小波
胡耀聪
陆明琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010790835.7A priority Critical patent/CN112101103B/zh
Publication of CN112101103A publication Critical patent/CN112101103A/zh
Application granted granted Critical
Publication of CN112101103B publication Critical patent/CN112101103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及了一种基于深度集成网络的视频驾驶员疲劳检测方法,框架包含风格迁移模块、人脸关键点检测模块和分类模块,风格迁移模块由一个编解码生成网络构成,用于复原输入红外视频帧的颜色信息,输出彩色视频帧;人脸关键点检测模块采用全卷积神经网络结构,以红外视频帧和风格迁移模块生成的彩色视频帧作为输入,对人脸关键点进行定位并输出掩膜特征图;分类模块由一个3D卷积神经网络组成,集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态。相比现有的疲劳驾驶检测算法,本发明检测率高,误报率低,可用于红外监控视频下的驾驶员疲劳检测。发明在智能交通领域有重要的应用价值。

Description

一种基于深度集成网络的视频驾驶员疲劳检测方法
技术领域
本发明属于图像处理和模式识别领域,涉及一种基于深度集成网络的视频驾驶员疲劳检测方法。
背景技术
疲劳驾驶是指驾驶员在长时间持续驾驶后所出现的生理机能下降现象,从而出现注意力下降并无法正常操控车辆。世界卫生组织的调研显示2018年有135万人死于交通事故,这其中疲劳驾驶是导致事故的重要因素之一,占总死亡的6%。因此驾驶员疲劳检测系统的开发在公共交通安全领域有十分重要的应用价值。
在早期的监测系统中,汽车传感器通常可以用来监测汽车的速度,脚踏板压力,反向盘的握力等。然而汽车传感器对异常信号的检测通常滞后于驾驶员的实际疲劳状态。随着计算机视觉技术的发展,基于视频的驾驶员疲劳检测算法逐渐成为研发主流。在视频监测系统中,车载红外摄像头捕捉驾驶员脸部信息并通过视频处理技术自动分析驾驶员疲劳程度。现有的基于视频的驾驶员疲劳检测算法的主要问题包括:
(1)驾驶员疲劳的表现呈现多样性,如闭眼、打哈欠、神态恍惚等,通用的人工设计特征难以克服较大的类内方差。
(2)红外摄像头可以通过红外光捕捉夜间驾驶员的疲劳状态,然而红外摄像头拍摄的视频帧为灰度图像,缺少相关的颜色信息。
(3)驾驶员疲劳通常体现在人脸局部关键点特征上,而现有的疲劳检测算法未能有效的利用脸部显著性信息。
发明内容
技术问题:本发明提供了一种基于深度集成网络的视频驾驶员疲劳检测方法。该模型包含的风格迁移模块可以有效地恢复红外视频帧的颜色信息,人脸关键点检测模块计算出的掩膜特征图可以提供疲劳显著性信息,分类模块集成了这些补充信息并最终输出每帧图像中的驾驶员疲劳程度。
本发明采用的技术方案为:一种基于深度集成网络的视频驾驶员疲劳检测方法,包括以下步骤:
步骤1:构建疲劳驾驶检测数据集。本发明使用台湾交通大学公开的NTHU-DDD驾驶员疲劳检测数据集。如图1所示,该数据集共有380个由红外摄像头录制的视频,其中训练视频360个(722223帧)、测试视频20个(173259帧)。数据集中的视频包含白天和夜间两个光照场景,视频帧率为30fps,分辨率为640×480。每个视频都包括四个标签文件,逐帧的标注了整体疲劳状态(疲劳、非疲劳),眼睛疲劳状态(正常、闭眼),嘴巴疲劳状态(正常、哈欠、说话)和头部疲劳状态(正常、侧脸、头部下垂)。在本发明中将该数据集的360个训练视频全部用于训练深度集成网络,其余的20个视频用于模型测试。
步骤2:设计人脸检测跟踪算法。驾驶员疲劳状态只取决于视频帧中人脸区域的状态。在本发明中结合了人脸检测和目标跟踪获得视频帧每一帧的人脸区域。在视频的初始帧,MTCNN网络用于检测人脸,后续帧中,核相关滤波算法跟踪人脸区域。
步骤3:构建风格迁移模块。该模块由一个编解码生成网络构成,用于复原输入红外视频帧的颜色信息,输出彩色视频帧,如图2所示。
步骤301:使用CycleGAN模型在LFW人脸数据集上进行预训练,获得灰度图像域X与彩色图像域Y之间的两个映射,分别记为:X→Y→X,Y→X→Y。CycleGAN模型包含两个编解码生成网络GXY,GYX,两个判别网络DX,DY。给定灰度图像x(x∈X),生成网络GXY可以将灰度图像x映射为对应的彩色图像GXY(x),而生成网络GYX对生成的彩色图像进行复原并输出重构图像GYX(GXY(x)),判别网络DY区分生成的彩色图像GXY(x)和真实彩色图像y(y∈Y)。同样的,给定彩色图像y(y∈Y),生成网络GYX可以将彩色图像y映射为对应的灰度图像GYX(y),而生成网络GXY对生成的灰度图像进行复原并输出重构图像GXY(GYX(y)),判别网络DX区分生成的灰度图像GYX(y)和真实灰度图像x(x∈X)。
步骤302:读取步骤301中预训练编解码生成网络模型GXY的参数,用于图像风格迁移。将红外人脸视频帧送入GXY中,输出生成的彩色人脸视频帧。该过程可定义为:
IC=GXY(IIgen) (1)
其中II表示红外视频帧,θgen为编解码生成网络的相关参数,IC表示输出的彩色视频帧。
步骤4:构建人脸关键点检测模块,该模块采用全卷积神经网络结构,以红外视频帧和风格迁移模块生成的彩色视频帧作为输入,对人脸关键点进行定位并输出掩膜特征图,如图3所示。
步骤401:人脸关键点检测模块以MobileNet-V2作为骨架网络,输入包含红外视频帧II,彩色视频帧IC。该模型的第一层为基础卷积层,中间层结合深度可分离卷积和残差学习加速特征提取,最后一层对红外帧特征图和彩色帧特征图进行通道堆叠,并通过卷积运算得到人脸68个关键点对应的热区图
Figure BDA0002623690280000041
该过程可定义为:
Figure BDA0002623690280000042
其中II表示红外视频帧,IC表示输出的彩色视频帧,θmob为MobileNet-V2模型的相关参数,
Figure BDA0002623690280000043
表示人脸关键点热区图的预测值。
步骤402:采用双线性插值对预测的关键点热区图进行上采样,接着通过argmax函数获得人脸关键点所对应的坐标值,该运算可以表示为:
Figure BDA0002623690280000044
其中
Figure BDA0002623690280000045
表示第i个关键点所对应的热区图,
Figure BDA0002623690280000046
为第i个关键点所对应的坐标。
步骤403:通过高斯核函数将人脸关键点映射为掩膜特征图,该运算可表示为:
Figure BDA0002623690280000047
其中
Figure BDA0002623690280000048
为第i个关键点所对应的坐标,G表示高斯核函数,σ2为其对应的方差,IM表示生成的掩膜特征图。
步骤5:构建分类模块,该模块由一个3D卷积神经网络组成,集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,如图4所示。对于给定的连续相邻T帧红外人脸序列
Figure BDA0002623690280000051
通过步骤3输出生成的彩色人脸序列
Figure BDA0002623690280000052
通过步骤4输出掩膜特征序列
Figure BDA0002623690280000053
分类模块的输入为VI,VC,VM,其中红外人脸序列VI和彩色人脸序列VC送入一个参数共享的时空卷积分支中提取时空信息和颜色信息,掩膜特征序列VM送入另一个单独的时空卷积分支中提取显著性信息。随后伪3D卷积分支对两个时空卷积分支的输出特征图进行级联和下采样操作,即分解3×3×3时空卷积为1×3×3的空间卷积和3×1×1的时间卷积,加速特征提取运算。Softmax分类器融合红外人脸序列特征图和彩色人脸特征图输出疲劳相关状态的分类得分。分类模块的运算过程可定义为:
score=3DCNN(VI,VC,VM3dccls) (5)
其中θ3dc和θcls分别表示3D卷积网络(包含3D卷积及伪3D卷积)和softmax分类器的相关参数,score={sdrow,seye,smou,shea}表示分类得分,包含输入序列的整体疲劳得分和疲劳相关状态如眼部(正常、闭眼),嘴部(正常、哈欠、说话),头部(正常、侧脸、头部下垂)的分类结果。
步骤6:模型训练。使用Pytorch开源库搭建深度集成神经网路模型,在Intel CoreI7服务器上运行,使用NVIDIATITAN X GPU,Ubuntu 18.04操作系统下训练模型框架,实现视频驾驶员疲劳检测。
步骤601:预训练风格迁移模块和人脸关键点检测模块。其中CycleGAN模型在LFW数据集上进行预训练,以学习从灰度图像到彩色图像的一个映射。MobileNet-V2模型在AFLW数据集上预训练,实现快速人脸关键点定位和掩模特征图生成。
步骤602:将风格迁移模块和人脸关键点检测模块的输出集成到分类模块中以实现各模块之间的互优化。其中风格迁移模块包含以下的训练任务:
(1)对于给定的连续相邻T帧红外人脸序列
Figure BDA0002623690280000061
生成网络GXY复原输入红外人脸序列的颜色信息并输出彩色人脸序列
Figure BDA0002623690280000062
生成网络GYX对GXY生成的彩色人脸序列进行复原并输出重构序列,其损失函数可表示为:
Figure BDA0002623690280000063
其中
Figure BDA0002623690280000064
为输入的第T'帧红外人脸图像,
Figure BDA0002623690280000065
表示第T'帧的人脸重构结果。||·||1即表示输入帧和重构帧的L1范数距离,而
Figure BDA0002623690280000066
即序列中逐帧循环一致性损失之和。
(2)生成网络GXY复原输入红外人脸序列的颜色信息,以使得判别网络DY无法判断其真实性,具体可表示为:
Figure BDA0002623690280000067
其中
Figure BDA0002623690280000068
表示生成的第T'帧彩色人脸图像,而
Figure BDA0002623690280000069
即序列中逐帧最小二乘损失之和。
(3)红外人脸序列和生成的彩色人脸序列被送入人脸关键点检测模块中,其损失函数可表示为:
Figure BDA0002623690280000071
其中Mobile(·)表示MobileNet-V2网络模型,其输出为第T'帧人脸关键点热区图的预测值,HT'表示关键点热区图的真实值,
Figure BDA0002623690280000072
即表示输入帧和重构帧的L2范数距离,
Figure BDA0002623690280000073
即序列中逐帧定位回归损失之和。
(4)给定风格迁移模块合成的彩色人脸序列VC和人脸关键点检测模块输出的掩膜特征序列VM,分类模块集成颜色信息和显著性信息,准确的判定疲劳相关状态,交叉损失熵函数优化softmax分类器,具体可表示为:
Figure BDA0002623690280000074
其中VI,VC和VM分别表示红外人脸序列,彩色人脸序列和掩膜特征序
Figure BDA0002623690280000075
Figure BDA0002623690280000076
输出第j'个状态的分类得分,α={αdroweyemouhea}表示不同属性的疲劳状态(包含整体疲劳、眼部疲劳、嘴部疲劳、头部疲劳)的权重参数。
风格迁移模块的训练损失为不同学习任务的损失加权组合,最终的损失函数可表示为:
Figure BDA0002623690280000077
其中
Figure BDA0002623690280000078
表示风格迁移模块中不同损失的权重参数。
人脸关键点检测模块以红外人脸序列和风格迁移模块生成的彩色人脸序列作为输入,对人脸关键点进行定位并输出掩膜特征图,其损失函数Lmob即关键点热区图的回归损失。
Figure BDA0002623690280000081
分类模块集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,其损失函数L3dc即softmax分类器的交叉熵损失。
Figure BDA0002623690280000082
步骤7:对本发明提出的基于深度集成网络的疲劳检测方法进行测试,该框架的整体示意图如图5所示。给定一个测试红外视频序列,通过步骤2获取红外人脸序列,利用步骤3的风格迁移模块还原颜色信息并输出彩色人脸序列。利用步骤4的人脸关键点检测模块输出掩膜特征序列,步骤5集成了步骤3和步骤4中提取的颜色信息和显著信息(如图6所示),并最终输出视频中每帧的疲劳检测结果。
有益效果:
相比现有的疲劳驾驶检测算法,本发明检测率高,误报率低,可用于红外监控视频下的驾驶员疲劳检测,在智能交通领域有重要的应用价值。
附图说明
图1是本发明中疲劳驾驶数据集样例图,
图2是本发明中风格迁移模块示意图,
图3是本发明中人脸关键点检测模块示意图,
图4是本发明中分类模块示意图,
图5是本发明中基于集成深度网络的疲劳检测算法框架示意图,
图6是本发明中风格迁移和掩模特征生成结果示意图。
图7是本发明的方法流程图。
具体实施方式
下面结合具体实施例和说明附图对本发明作进一步说明,应当理解,此处所描述的优先实施例仅用于说明和解释本发明,并不用于限定本发明。
如图7所示,本实施例公开了一种基于深度集成网络的视频驾驶员疲劳检测方法,具体实施步骤如下:
步骤1:构建疲劳驾驶检测数据集。本发明使用台湾交通大学公开的NTHU-DDD驾驶员疲劳检测数据集。如图1所示,该数据集共有380个由红外摄像头录制的视频,其中训练视频360个(722223帧)、测试视频20个(173259帧)。数据集中的视频包含白天和夜间两个光照场景,视频帧率为30fps,分辨率为640×480。每个视频都包括四个标签文件,逐帧的标注了整体疲劳状态(疲劳、非疲劳),眼睛疲劳状态(正常、闭眼),嘴巴疲劳状态(正常、哈欠、说话)和头部疲劳状态(正常、侧脸、头部下垂)。在本发明中将该数据集的360个训练视频全部用于训练深度集成网络,其余的20个视频用于模型测试。
步骤2:设计人脸检测跟踪算法。驾驶员疲劳状态只取决于视频帧中人脸区域的状态。在本发明中结合了人脸检测和目标跟踪获得视频帧每一帧的人脸区域。在视频的初始帧,MTCNN网络用于检测人脸,后续帧中,核相关滤波算法跟踪人脸区域。
步骤3:构建风格迁移模块。该模块由一个编解码生成网络构成,用于复原输入红外视频帧的颜色信息,输出彩色视频帧,如图2所示。
步骤301:使用CycleGAN模型在LFW人脸数据集上进行预训练,获得灰度图像域X与彩色图像域Y之间的两个映射,分别记为:X→Y→X,Y→X→Y。CycleGAN模型包含两个编解码生成网络GXY,GYX,两个判别网络DX,DY。给定灰度图像x(x∈X),生成网络GXY可以将灰度图像x映射为对应的彩色图像GXY(x),而生成网络GYX对生成的彩色图像进行复原并输出重构图像GYX(GXY(x)),判别网络DY区分生成的彩色图像GXY(x)和真实彩色图像y(y∈Y)。同样的,给定彩色图像y(y∈Y),生成网络GYX可以将彩色图像y映射为对应的灰度图像GYX(y),而生成网络GXY对生成的灰度图像进行复原并输出重构图像GXY(GYX(y)),判别网络DX区分生成的灰度图像GYX(y)和真实灰度图像x(x∈X)。
步骤302:读取步骤301中预训练编解码生成网络模型GXY的参数,用于图像风格迁移。将红外人脸视频帧送入GXY中,输出生成的彩色人脸视频帧。该过程可定义为:
IC=GXY(IIgen) (1)
其中II表示红外视频帧,θgen为编解码生成网络的相关参数,IC表示输出的彩色视频帧。
步骤4:构建人脸关键点检测模块,该模块采用全卷积神经网络结构,以红外视频帧和风格迁移模块生成的彩色视频帧作为输入,对人脸关键点进行定位并输出掩膜特征图,如图3所示。
步骤401:人脸关键点检测模块以MobileNet-V2作为骨架网络,输入包含红外视频帧II,彩色视频帧IC。该模型的第一层为基础卷积层,中间层结合深度可分离卷积和残差学习加速特征提取,最后一层对红外帧特征图和彩色帧特征图进行通道堆叠,并通过卷积运算得到人脸68个关键点对应的热区图
Figure BDA0002623690280000111
该过程可定义为:
Figure BDA0002623690280000112
其中II表示红外视频帧,IC表示输出的彩色视频帧,θmob为MobileNet-V2模型的相关参数,
Figure BDA0002623690280000113
表示人脸关键点热区图的预测值。
步骤402:采用双线性插值对预测的关键点热区图进行上采样,接着通过argmax函数获得人脸关键点所对应的坐标值,该运算可以表示为:
Figure BDA0002623690280000114
其中
Figure BDA0002623690280000115
表示第i个关键点所对应的热区图,
Figure BDA0002623690280000116
为第i个关键点所对应的坐标。
步骤403:通过高斯核函数将人脸关键点映射为掩膜特征图,该运算可表示为:
Figure BDA0002623690280000117
其中
Figure BDA0002623690280000118
为第i个关键点所对应的坐标,G表示高斯核函数,σ2为其对应的方差,IM表示生成的掩膜特征图。
步骤5:构建分类模块,该模块由一个3D卷积神经网络组成,集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,如图4所示。对于给定的连续相邻T帧红外人脸序列
Figure BDA0002623690280000121
通过步骤3输出生成的彩色人脸序列
Figure BDA0002623690280000122
通过步骤4输出掩膜特征序列
Figure BDA0002623690280000123
分类模块的输入为VI,VC,VM,其中红外人脸序列VI和彩色人脸序列VC送入一个参数共享的时空卷积分支中提取时空信息和颜色信息,掩膜特征序列VM送入另一个单独的时空卷积分支中提取显著性信息。随后伪3D卷积分支对两个时空卷积分支的输出特征图进行级联和下采样操作,即分解3×3×3时空卷积为1×3×3的空间卷积和3×1×1的时间卷积,加速特征提取运算。Softmax分类器融合红外人脸序列特征图和彩色人脸特征图输出疲劳相关状态的分类得分。分类模块的运算过程可定义为:
score=3DCNN(VI,VC,VM3dccls) (5)
其中θ3dc和θcls分别表示3D卷积网络(包含3D卷积及伪3D卷积)和softmax分类器的相关参数,score={sdrow,seye,smou,shea}表示分类得分,包含输入序列的整体疲劳得分和疲劳相关状态如眼部(正常、闭眼),嘴部(正常、哈欠、说话),头部(正常、侧脸、头部下垂)的分类结果。
步骤6:模型训练。使用Pytorch开源库搭建深度集成神经网路模型,在Intel CoreI7服务器上运行,使用NVIDIATITAN X GPU,Ubuntu 18.04操作系统下训练模型框架,实现视频驾驶员疲劳检测。
步骤601:预训练风格迁移模块和人脸关键点检测模块。其中CycleGAN模型在LFW数据集上进行预训练,以学习从灰度图像到彩色图像的一个映射。MobileNet-V2模型在AFLW数据集上预训练,实现快速人脸关键点定位和掩模特征图生成。
步骤602:将风格迁移模块和人脸关键点检测模块的输出集成到分类模块中以实现各模块之间的互优化。其中风格迁移模块包含以下的训练任务:
(5)对于给定的连续相邻T帧红外人脸序列
Figure BDA0002623690280000131
生成网络GXY复原输入红外人脸序列的颜色信息并输出彩色人脸序列
Figure BDA0002623690280000132
生成网络GYX对GXY生成的彩色人脸序列进行复原并输出重构序列,其损失函数可表示为:
Figure BDA0002623690280000133
其中
Figure BDA0002623690280000134
为输入的第T'帧红外人脸图像,
Figure BDA0002623690280000135
表示第T'帧的人脸重构结果。||·||1即表示输入帧和重构帧的L1范数距离,而
Figure BDA0002623690280000136
即序列中逐帧循环一致性损失之和。
(6)生成网络GXY复原输入红外人脸序列的颜色信息,以使得判别网络DY无法判断其真实性,具体可表示为:
Figure BDA0002623690280000137
其中
Figure BDA0002623690280000138
表示生成的第T'帧彩色人脸图像,而
Figure BDA0002623690280000139
即序列中逐帧最小二乘损失之和。
(7)红外人脸序列和生成的彩色人脸序列被送入人脸关键点检测模块中,其损失函数可表示为:
Figure BDA0002623690280000141
其中Mobile(·)表示MobileNet-V2网络模型,其输出为第T'帧人脸关键点热区图的预测值,HT'表示关键点热区图的真实值,
Figure BDA0002623690280000142
即表示输入帧和重构帧的L2范数距离,
Figure BDA0002623690280000143
即序列中逐帧定位回归损失之和。
(8)给定风格迁移模块合成的彩色人脸序列VC和人脸关键点检测模块输出的掩膜特征序列VM,分类模块集成颜色信息和显著性信息,准确的判定疲劳相关状态,交叉损失熵函数优化softmax分类器,具体可表示为:
Figure BDA0002623690280000144
其中VI,VC和VM分别表示红外人脸序列,彩色人脸序列和掩膜特征序列。
Figure BDA0002623690280000145
输出第j'个状态的分类得分,α={αdroweyemouhea}表示不同属性的疲劳状态(包含整体疲劳、眼部疲劳、嘴部疲劳、头部疲劳)的权重参数。
风格迁移模块的训练损失为不同学习任务的损失加权组合,最终的损失函数可表示为:
Figure BDA0002623690280000146
其中
Figure BDA0002623690280000147
表示风格迁移模块中不同损失的权重参数。
人脸关键点检测模块以红外人脸序列和风格迁移模块生成的彩色人脸序列作为输入,对人脸关键点进行定位并输出掩膜特征图,其损失函数Lmob即关键点热区图的回归损失。
Figure BDA0002623690280000151
分类模块集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,其损失函数L3dc即softmax分类器的交叉熵损失。
Figure BDA0002623690280000152
步骤7:对本发明提出的基于深度集成网络的疲劳检测方法进行测试,该框架的整体示意图如图5所示。给定一个测试红外视频序列,通过步骤2获取红外人脸序列,利用步骤3的风格迁移模块还原颜色信息并输出彩色人脸序列。利用步骤4的人脸关键点检测模块输出掩膜特征序列,步骤5集成了步骤3和步骤4中提取的颜色信息和显著信息(如图6所示),并最终输出视频中每帧的疲劳检测结果。
以上所述仅是本发明的优选实施方式,应当指出对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (2)

1.一种基于深度集成网络的视频驾驶员疲劳检测方法,其特征在于,包括下列步骤:
步骤1:构建疲劳驾驶检测数据集,使用台湾交通大学公开的NTHU-DDD驾驶员疲劳检测数据集,将该数据集的360个训练视频全部用于训练深度集成网络,其余的20个视频用于模型测试;
步骤2:设计人脸检测跟踪算法,结合人脸检测和目标跟踪获得视频帧每一帧的人脸区域,在视频的初始帧,MTCNN网络用于检测人脸,后续帧中,核相关滤波算法跟踪人脸区域;
步骤3:构建风格迁移模块,该模块由一个编解码生成网络构成,用于复原输入红外视频帧的颜色信息,输出彩色视频帧;
步骤301:使用CycleGAN模型在LFW人脸数据集上进行预训练,获得灰度图像域X与彩色图像域Y之间的两个映射,分别记为:X→Y→X,Y→X→Y;CycleGAN模型包含两个编解码生成网络GXY,GYX,两个判别网络DX,DY;给定灰度图像x,x∈X,生成网络GXY可以将灰度图像x映射为对应的彩色图像GXY(x),而生成网络GYX对生成的彩色图像进行复原并输出重构图像GYX(GXY(x)),判别网络DY区分生成的彩色图像GXY(x)和真实彩色图像y,y∈Y;给定彩色图像y,y∈Y,生成网络GYX可以将彩色图像y映射为对应的灰度图像GYX(y),而生成网络GXY对生成的灰度图像进行复原并输出重构图像GXY(GYX(y)),判别网络DX区分生成的灰度图像GYX(y)和真实灰度图像x,x∈X;
步骤302:读取步骤301中预训练编解码生成网络模型GXY的参数,用于图像风格迁移;将红外人脸视频帧送入GXY中,输出生成的彩色人脸视频帧,该过程定义为:
IC=GXY(IIgen) (1)
其中II表示红外视频帧,θgen为编解码生成网络的相关参数,IC表示输出的彩色视频帧;
步骤4:构建人脸关键点检测模块,该模块采用全卷积神经网络结构,以红外视频帧和风格迁移模块生成的彩色视频帧作为输入,对人脸关键点进行定位并输出掩膜特征图;
步骤401:人脸关键点检测模块以MobileNet-V2作为骨架网络,输入包含红外视频帧II,彩色视频帧IC,该模型的第一层为基础卷积层,中间层结合深度可分离卷积和残差学习加速特征提取,最后一层对红外帧特征图和彩色帧特征图进行通道堆叠,并通过卷积运算得到人脸68个关键点对应的热区图
Figure FDA0003714129000000021
该过程定义为:
Figure FDA0003714129000000022
其中II表示红外视频帧,IC表示输出的彩色视频帧,θmob为MobileNet-V2模型的相关参数,
Figure FDA0003714129000000023
表示人脸关键点热区图的预测值;
步骤402:采用双线性插值对预测的关键点热区图进行上采样,接着通过argmax函数获得人脸关键点所对应的坐标值,该运算表示为:
Figure FDA0003714129000000024
其中
Figure FDA0003714129000000025
表示第i个关键点所对应的热区图,
Figure FDA0003714129000000026
为第i个关键点所对应的坐标;
步骤403:通过高斯核函数将人脸关键点映射为掩膜特征图,该运算表示为:
Figure FDA0003714129000000031
其中
Figure FDA0003714129000000032
为第i个关键点所对应的坐标,G表示高斯核函数,σ2为其对应的方差,IM表示生成的掩膜特征图;
步骤5:构建分类模块,该模块由一个3D卷积神经网络组成,集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,对于给定的连续相邻T帧红外人脸序列
Figure FDA0003714129000000033
通过步骤3输出生成的彩色人脸序列
Figure FDA0003714129000000034
通过步骤4输出掩膜特征序列
Figure FDA0003714129000000035
分类模块的输入为VI,VC,VM,其中红外人脸序列VI和彩色人脸序列VC送入一个参数共享的时空卷积分支中提取时空信息和颜色信息,掩膜特征序列VM送入另一个单独的时空卷积分支中提取显著性信息,随后伪3D卷积分支对两个时空卷积分支的输出特征图进行级联和下采样操作,即分解3×3×3时空卷积为1×3×3的空间卷积和3×1×1的时间卷积,加速特征提取运算,Softmax分类器融合红外人脸序列特征图和彩色人脸特征图输出疲劳相关状态的分类得分,分类模块的运算过程定义为:
score=3DCNN(VI,VC,VM3dccls) (5)
其中θ3dc和θcls分别表示3D卷积网络和softmax分类器的参数,score={sdrow,seye,smou,shea}表示分类得分,包含输入序列的整体疲劳得分和疲劳相关状态的分类结果;
步骤6:模型训练,使用Pytorch开源库搭建深度集成神经网路模型,使用NVIDIA TITANX GPU,Ubuntu 18.04操作系统下训练模型框架,实现视频驾驶员疲劳检测;
步骤601:预训练风格迁移模块和人脸关键点检测模块,其中CycleGAN模型在LFW数据集上进行预训练,以学习从灰度图像到彩色图像的一个映射,MobileNet-V2模型在AFLW数据集上预训练,实现快速人脸关键点定位和掩模特征图生成;
步骤602:将风格迁移模块和人脸关键点检测模块的输出集成到分类模块中以实现各模块之间的互优化,其中风格迁移模块包含以下的训练任务:
(1)对于给定的连续相邻T帧红外人脸序列
Figure FDA0003714129000000041
生成网络GXY复原输入红外人脸序列的颜色信息并输出彩色人脸序列
Figure FDA0003714129000000042
生成网络GYX对GXY生成的彩色人脸序列进行复原并输出重构序列,其损失函数可表示为:
Figure FDA0003714129000000043
其中
Figure FDA0003714129000000044
为输入的第T'帧红外人脸图像,
Figure FDA0003714129000000045
表示第T'帧的人脸重构结果,||·||1即表示输入帧和重构帧的L1范数距离,
Figure FDA0003714129000000046
即序列中逐帧循环一致性损失之和;
(2)生成网络GXY复原输入红外人脸序列的颜色信息,以使得判别网络DY无法判断其真实性,具体可表示为:
Figure FDA0003714129000000047
其中
Figure FDA0003714129000000048
表示生成的第T'帧彩色人脸图像,而
Figure FDA0003714129000000049
即序列中逐帧最小二乘损失之和;
(3)红外人脸序列和生成的彩色人脸序列被送入人脸关键点检测模块中,其损失函数可表示为:
Figure FDA0003714129000000051
其中Mobile(·)表示MobileNet-V2网络模型,其输出为第T'帧人脸关键点热区图的预测值,HT'表示关键点热区图的真实值,
Figure FDA0003714129000000052
即表示输入帧和重构帧的L2范数距离,
Figure FDA0003714129000000053
即序列中逐帧定位回归损失之和;
(4)给定风格迁移模块合成的彩色人脸序列VC和人脸关键点检测模块输出的掩膜特征序列VM,分类模块集成颜色信息和显著性信息,准确的判定疲劳相关状态,交叉损失熵函数优化softmax分类器,具体可表示为:
Figure FDA0003714129000000054
其中VI,VC和VM分别表示红外人脸序列,彩色人脸序列和掩膜特征序列;
Figure FDA0003714129000000055
输出第j'个状态的分类得分,α={αdroweyemouhea}表示不同属性的疲劳状态的权重参数;
风格迁移模块的训练损失为不同学习任务的损失加权组合,最终的损失函数表示为:
Figure FDA0003714129000000056
其中
Figure FDA0003714129000000057
表示风格迁移模块中不同损失的权重参数;
人脸关键点检测模块以红外人脸序列和风格迁移模块生成的彩色人脸序列作为输入,对人脸关键点进行定位并输出掩膜特征图,其损失函数Lmob即关键点热区图的回归损失
Figure FDA0003714129000000061
分类模块集成红外视频序列的时空信息、彩色视频序列的颜色信息、和掩膜特征序列的显著性信息,判定驾驶员疲劳状态,其损失函数L3dc即softmax分类器的交叉熵损失
Figure FDA0003714129000000062
步骤7:使用训练好的模型测试疲劳检测结果。
2.根据权利要求1所述的一种基于深度集成网络的视频驾驶员疲劳检测方法,其特征在于,步骤7的具体方法为:给定一个测试红外视频序列,通过步骤2获取红外人脸序列,利用步骤3的风格迁移模块还原颜色信息并输出彩色人脸序列利用步骤4的人脸关键点检测模块输出掩膜特征序列,步骤5集成了步骤3和步骤4中提取的颜色信息和显著信息,并最终输出视频中每帧的疲劳检测结果。
CN202010790835.7A 2020-08-07 2020-08-07 一种基于深度集成网络的视频驾驶员疲劳检测方法 Active CN112101103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010790835.7A CN112101103B (zh) 2020-08-07 2020-08-07 一种基于深度集成网络的视频驾驶员疲劳检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010790835.7A CN112101103B (zh) 2020-08-07 2020-08-07 一种基于深度集成网络的视频驾驶员疲劳检测方法

Publications (2)

Publication Number Publication Date
CN112101103A CN112101103A (zh) 2020-12-18
CN112101103B true CN112101103B (zh) 2022-08-09

Family

ID=73752878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010790835.7A Active CN112101103B (zh) 2020-08-07 2020-08-07 一种基于深度集成网络的视频驾驶员疲劳检测方法

Country Status (1)

Country Link
CN (1) CN112101103B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733628A (zh) * 2020-12-28 2021-04-30 杭州电子科技大学 基于MobileNet-V3的疲劳驾驶状态检测方法
CN113792663B (zh) * 2021-09-15 2024-05-14 东北大学 一种驾驶员酒驾以及疲劳驾驶的检测方法、装置及存储介质
CN114821747A (zh) * 2022-05-26 2022-07-29 深圳市科荣软件股份有限公司 一种工地人员异常状态识别方法及装置
CN117079255B (zh) * 2023-10-17 2024-01-05 江西开放大学 一种基于人脸识别和语音交互的疲劳驾驶检测方法
CN117574136B (zh) * 2024-01-16 2024-05-10 浙江大学海南研究院 一种基于多元高斯函数空间变换的卷积神经网络计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108670278A (zh) * 2018-05-30 2018-10-19 东南大学 一种基于智能手机的驾驶员疲劳检测和报警系统及方法
CN110674701A (zh) * 2019-09-02 2020-01-10 东南大学 一种基于深度学习的驾驶员疲劳状态快速检测方法
CN110717389A (zh) * 2019-09-02 2020-01-21 东南大学 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法
CN110728824A (zh) * 2019-09-25 2020-01-24 东南大学 一种基于多源数据的驾驶员疲劳状态检测及提醒方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108670278A (zh) * 2018-05-30 2018-10-19 东南大学 一种基于智能手机的驾驶员疲劳检测和报警系统及方法
CN110674701A (zh) * 2019-09-02 2020-01-10 东南大学 一种基于深度学习的驾驶员疲劳状态快速检测方法
CN110717389A (zh) * 2019-09-02 2020-01-21 东南大学 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法
CN110728824A (zh) * 2019-09-25 2020-01-24 东南大学 一种基于多源数据的驾驶员疲劳状态检测及提醒方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的疲劳检测算法;陈之坤等;《计算机与网络》;20200426;第68-71页 *

Also Published As

Publication number Publication date
CN112101103A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112101103B (zh) 一种基于深度集成网络的视频驾驶员疲劳检测方法
CN112200161B (zh) 一种基于混合注意力机制的人脸识别检测方法
Pan et al. Visual recognition based on deep learning for navigation mark classification
Varghese et al. ChangeNet: A deep learning architecture for visual change detection
CN110717389B (zh) 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法
CN107239730B (zh) 智能汽车交通标志识别的四元数深度神经网络模型方法
CN106295568A (zh) 基于表情和行为双模态结合的人类自然状态情感识别方法
CN112766159A (zh) 一种基于多特征融合的跨数据库微表情识别方法
CN112434723B (zh) 一种基于注意力网络的日/夜间图像分类及物体检测方法
CN112800937A (zh) 一种智能人脸识别方法
CN110348463A (zh) 用于识别车辆的方法和装置
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
Cao et al. MCS-YOLO: A multiscale object detection method for autonomous driving road environment recognition
CN113537027A (zh) 基于面部划分的人脸深度伪造检测方法及系统
CN114022726A (zh) 一种基于胶囊网络的人员车辆监控方法及系统
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
Sang et al. Two-level attention model based video action recognition network
Jegham et al. Deep learning-based hard spatial attention for driver in-vehicle action monitoring
Zimmer et al. Real-time and robust 3d object detection within road-side lidars using domain adaptation
CN114550270A (zh) 一种基于双注意力机制的微表情识别方法
Miao et al. Abnormal Behavior Learning Based on Edge Computing toward a Crowd Monitoring System
CN109543519A (zh) 一种用于物体检测的深度分割引导网络
CN116935361A (zh) 一种基于深度学习的驾驶员分心行为检测方法
CN110502995A (zh) 基于细微面部动作识别的驾驶员打哈欠检测方法
CN114783054B (zh) 一种基于无线和视频特征融合的步态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant