CN113343926A

CN113343926A - 一种基于卷积神经网络的驾驶员疲劳检测方法

Info

Publication number: CN113343926A
Application number: CN202110749601.2A
Authority: CN
Inventors: 周先春; 邹清宇; 石兰芳; 张婕; 殷豪; 唐慧
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-09-03

Abstract

本发明公开了一种基于卷积神经网络的驾驶员疲劳检测方法，其特征在于包括以下步骤：步骤一：使用红外摄像头进行面部采集；步骤二：使用HOG检测算法结合KCF跟踪算法对采集的人脸进行检测和跟踪；步骤三：调用Dlib库进行脸部关键点的提取；步骤四：引入可变形卷积神经网络对提取的眼部和嘴部进行状态识别；步骤五：眼部和嘴部数据集检测；步骤六：疲劳检测，输出检测结果，对驾驶员疲劳驾驶行为做出预警。本发明将传统的检测算法与深度学习方面相结合，提出了一种基于可变形卷积神经网络的疲劳检测方法，能够实时的检测驾驶员疲劳，并且具有较高的准确率，解决了当前的疲劳检测算法准确率低或实时性差的缺问题。

Description

一种基于卷积神经网络的驾驶员疲劳检测方法

技术领域

本发明属于图像处理与机器视觉技术领域，具体涉及一种基于卷积神经网络的驾驶员疲劳检测方法。

背景技术

随着经济的快速发展，人民生活水平得到了普遍提高，整个社会对于汽车的需求日益增长。但是汽车的增加，使得道路交通状况恶化，疲劳驾驶是导致道路交通事故的主要因素之一。疲劳驾驶引起的交通事故发生概率是正常驾驶的四到六倍，引起的交通事故约占事故总数的20％，占重大交通事故的40％以上。因此，对驾驶员的驾驶状况进行实时检测，当发生疲劳驾驶时给出有效的预警，对于减少交通事故的发生有重要意义。当驾驶员处于疲劳状态时，能够发现并且对驾驶员进行提醒，这对可能因为疲劳驾驶产生的交通事故进行预防。

常用的疲劳驾驶检测方法有三类：基于车辆驾驶状态检测，生理信号检测和驾驶员的面部特征检测。现在大多数疲劳检测系统，通过多种设备采用多种参数数据，这些数据用来检测驾驶人员的疲劳状态。使用多种特征参数检测疲劳驾驶，提高了检测精度，但是也增加了成本。基于图像处理技术的驾驶员面部的疲劳检测方法，相对于用多种设备检测，有更低的成本和不错的检测效果。驾驶员脸部特征的疲劳检测方法，主要是通过对驾驶员脸部状态的识别来判断驾驶员的状态。基于传统的疲劳检测的算法，检测的正确率低，基于深度学习的疲劳检测算法，参数较多，模型比较大，失去了在实际应用中的时效性。随着深度学习技术的不断发展，神经网络从图像中提取特征的能力不断加强，疲劳检测的准确性也得到了提升。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于卷积神经网络的驾驶员疲劳检测方法，其将传统的检测算法与深度学习方面相结合，提出了一种基于可变形卷积神经网络的疲劳检测方法，能够实时的检测驾驶员疲劳，并且具有较高的准确率，解决了当前的疲劳检测算法准确率低或实时性差的缺问题。

为实现上述技术目的，本发明采取的技术方案为：

一种基于卷积神经网络的驾驶员疲劳检测方法，其特征在于包含以下步骤：

步骤一：人脸采集：

使用红外摄像头采集驾驶员的面部视频，从而得到驾驶员的面部表情图像；

步骤二：人脸检测与跟踪：

首先选取HOG算法驾驶员的面部进行人脸检测，方向梯度直方图(HOG)是使用统计图像的局部区域的梯度方向直方图来描述对象的特性，可以恰当地描述目标的轮廓，并且保持收集和光学转换的不变性，再结合KCF跟踪算法提取人脸图像；

步骤三：脸部关键点提取：

调用Dlib库进行人脸关键点检测，提取眼部和嘴部的实时特征，并且构建疲劳数据集；

步骤四：基于可变形卷积神经网络的眼部和嘴部状态识别：

引入可变形卷积神经网络，构建能够识别眼部和嘴部状态的模型结构，根据步骤三中得到的数据集进行训练，从而获得识别眼部和嘴部的模型；

步骤五：眼部和嘴部数据集检测：

使用步骤四中的识别模型完成驾驶员的眼部和嘴部状态识别，然后进行通过数据集进行识别，从而得到识别结果；

步骤六：疲劳检测：

根据设定的阈值通过多个疲劳检测的参数计算驾驶员疲劳状态的情况，输出检测结果，对驾驶员疲劳驾驶行为做出预警。

上述的步骤二中的HOG算法对人脸进行检测包含以下步骤：

第一步：gamma归一化，用gamma对采集的图像进行颜色空间的归一化，调节图像的对比度，抑制噪声，并减少局部阴影和光照的影响，公式(1)为：

I(x,y)＝I(x,y)^gamma (1)

第二步：计算图像梯度，获取图像轮廓的信息，进一步减少光照的干扰，图像在(x,y)点的水平方向和竖直方向的梯度计算公式分别为公式(2)和公式(3)：

G_x＝I(x+1,y)-I(x-1,y) (2)

Gy＝I(x,y+1)-I(x,y-1) (3)

再由和计算得到梯度值和梯度方向，公式分别为(4)和(5)：

第三步：将图像分割成多个均匀大小的Cell单元格，相邻的单元格之间不重合，为每个单元构建梯度方向直方图，将固定数量的Cell单元形成大的块(block)，块内归一化梯度直方图；

第四步：HOG特征的则是单元块内所有block的HOG描述符一起组合起来得到，通过滑动每个单元块窗口完成图像的人脸检测。

上述的步骤四中的搭建的可变形卷积神经网络结构选择LeNet5，最终得到的网络结构包括2个卷积层(C)、2个抽样层(S)、1个可变形卷积层(DC)和一个全连接层(F)。

本发明将HOG人脸检测器结合KCF跟踪算法，再用可变形卷积神经网络检测驾驶员脸部状态，最后根据疲劳参数设定的阈值进行疲劳判断，其准确度和速度都得到了提成，大大提高了驾驶员疲劳状态检测的可行性。

本发明旨在提供一种准确度高，具有高可扩展性的驾驶员疲劳检测的方法，在帮助驾驶员保护自己的同时也能保护行人的生命安全及其它车辆的财产安全；本发明的工作流程图如图1所示，首先使用红外摄像头采集驾驶员视频数据；使用HOG检测算法结合KCF跟踪算法对采集的人脸进行检测和跟踪；随后调用Dlib库进行驾驶员眼部和嘴部进行提取；然后采用LeNet5网络结构，在此结构基础上引入可变形的卷积神经网络，训练出准确率较高的眼部和嘴部识别的模型；最后对该模型进行大量测试，然后按照多个疲劳准则计算方式对驾驶员当前的疲劳程度进行检测。

本发明的优点在于以下几点：

(1)本发明使用红外摄像头采集驾驶员的视频数据，这样可以在夜间或者光照不足的情况可以获取清晰的视频数据；

(2)使用HOG人脸检测器结合KCF跟踪算法，大大的减少了人脸检测算法的计算量，可以缩短运算时间，使疲劳检测的实时性得到满足；

(3)引用可变形卷积神经网络，对驾驶员眼部和嘴部状态的识别率达到94％以上，相对于其他的疲劳检测方法，准确率有明显的提升。

附图说明

图1为本发明的工作流程图；

图2为本发明人脸特征点定位效果图；

图3为本发明LeNet网络结构图；

图4为本发明可变形卷积神经网络结构图；

图5为本发明卷积核采样点的位置分布图；

图6为本发明可变形卷积原理图；

图7为本发明部分眼部和嘴部样本图；

图8为本发明眼部仿真结果图；

图9为本发明嘴部仿真结果图；

图10为本发明模拟测试结果图。

具体实施方式

下面结合附图对本发明的具体实施方式作出进一步说明：

一种基于卷积神经网络的驾驶员疲劳检测方法，其特征在于：其特征在于包含以下步骤：

步骤一：人脸采集：

步骤二：人脸检测与跟踪：

步骤三：脸部关键点提取：

步骤四：基于可变形卷积神经网络的眼部和嘴部状态识别：

步骤五：眼部和嘴部数据集检测：

步骤六：疲劳检测：

实施例中，步骤二中的HOG算法对人脸进行检测包含以下步骤：

I(x,y)＝I(x,y)^gamma (1)

G_x＝I(x+1,y)-I(x-1,y) (2)

Gy＝I(x,y+1)-I(x,y-1) (3)

再由和计算得到梯度值和梯度方向，公式分别为(4)和(5)：

实施例中，步骤四中的搭建的可变形卷积神经网络结构选择LeNet5，最终得到的网络结构包括2个卷积层(C)、2个抽样层(S)、1个可变形卷积层(DC)和一个全连接层(F)。

本发明中实际应用的疲劳检测系统对算法的实时性要求较高，为了缩短人脸检测的时间，提出将HOG人脸检测器和KCF跟踪算法结合，对人脸进行实时检测，这种方法可以减少人脸检测的次数，从而减少检测消耗的时间，同时增加了对人脸姿态变化，遮挡等的鲁棒性。KCF跟踪算法是一种实时性相关滤波算法，相对主流的深度学习跟踪算法，运算速度更快。它一般在跟踪过程中训练一个目标检测器，用目标检测器检测下一帧的预测位置是否是目标，然后用新的检测结果更新训练集，再更新目标检测器。训练目标检测器时，一般选择目标区域作为正样本，而目标周围区域为负样本。这使得分类器能够专注于区分前景和背景，因此类鉴别器通常优于生成的类。在KCF跟踪算法中，以核回归分类器为核心，构造循环样本矩阵来训练分类器，并对样本进行巧妙的变换。通过使训练数据矩阵循环，离散傅里叶变换可以对角化，减少几个数量级的存储和计算，从而达到快速有效地检测和跟踪目标的目的。因此，采用HOG人脸检测器结合KCF跟踪算法，大大的减少了人脸检测算法的计算量，可以缩短运算时间，使疲劳检测的实时性得到满足。

本发明中的脸部关键点的提取能够降低图像背景和环境的干扰，快速定位到人脸的眼部和嘴部；然后定位到人脸的关键点，增加了疲劳检测方法的准确性，在疲劳检测系统的研究中有着重要的作用；选取基于Dlib库的人脸特征点检测方法，可以直接调用Dlib库进行脸部关键点的提取；Dlib是一个开源数据工具库，库中含有很多机器学习的成熟的算法和模型，Dlib解决了学术界和工业界上各种问题；相比tensorflow和Pytorch，Dlib用于人脸面部特征提取具有通用性和优越性；为了提高人脸的识别率，使用shape_predictor_68_face_landmarks人脸关键点模型，结构如图2所示，包括眼睛轮廓和嘴部轮廓等；在Python中直接调用Dlib库，编程简单，准确度也高，并且消耗的时间很短；在许多情况下，由于误报率很小，因此Dlib比Haar级联更为准确；同样，在测试时进行调整需要较少的参数；首先，可以在各种物体中异常描述轮廓和边缘特征，因此特别适用于面部检测；其次，在区域单元上执行操作，从而可以忽略对象的运动。基于Dlib库的脸部关键点检测效果如图2所示。

本发明步骤四中搭建的网络结构选择LeNet5，结构如图3所示；在卷积神经网络中引入可变形卷积，就是在CNN的基础上加以改进，将所设计的部分卷积层替换为可变形卷积层，解决了脸部状态识别的问题；最终得到的网络结构包括2个卷积层(C)，2个抽样层(S)，1个可变形卷积层(DC)和一个全连接层(F)；改进后的网络命名DC-CNN网络，使用DC-CNN网络提取特征之后，将某一中间层作为特征描述，然后通过Softmax分类器对眼部和嘴部进行分类；DC-CNN输入需要32×32规格的图像，经过每个网络层最终得到输出的结果，脸部状态识别的模型结构如图4所示。

本发明提出的可变形卷积运算是标准卷积运算的扩展；它使用额外的标准卷积运算来引入与标准卷积相比的网格点上的值的空间偏移，用于改变均匀网格采样的位置，使得卷积运算可以学习自由变形信息；这不仅指形状的变化，还包括感受野范围的变化；该偏差的学习来自于输入当前可变形卷积模块的特征图；经过充分的学习，不同特征映射上的不同位置会为当前卷积核生成不同的偏移信息；鉴于可变形卷积的优点，使用可变形卷积的网络在不同的任务上取得了良好的效果；但这仍然没有摆脱需要完全重新训练网络的缺点；其提出了一种使用可变形卷积来增强现有网络效果的算法，该算法可以将网络中的标准卷积升级为可变形卷积，网络升级到位；它不会降低网络的结果，只有少量的数据微调才能达到比以前更好的效果；可变形卷积，就是将偏移变量添加到标准的卷积核中的常规采样位置，可以使采样网格自由变形，卷积核采样点的位置分布如图5所示，图(a)是传统的卷积神经网络的卷积核，图(b)是引入随机偏移变量的卷积核，图(c)和图(d)是图(b)的特殊形式；与正常的卷积神经网络相比，可变形卷积网络提取图像特征效率增加；DC-CNN是根据输入图像提取特征，得到的特征再作为输入，对特征图再加一个卷积层，是得到可变形卷积的变形偏移量；对眼部和嘴部训练时，用于生成输出特征的卷积核和偏移量的卷积核同步学习，提高脸部状态的识别率；选取的卷积核是3×3采样，定义为：R＝{(-1,-1),(-1,0),...,(0,1),(1,1)}，则每个元素表示卷积中每个位置相对于中心位置的偏移量，则对于输出的特征图y上的每一个位置p0，通过公式(7)得出结果，p_n表示区域内的任意位置，p₀表示中心位置，w表示卷积核的权重，x表示输入，y表示输出；对每个卷积核的采样位置增加额外的参数使采样位置能够自动向脸部目标区域偏移。可变形卷积得到的矩阵为公式(8)，其中Δp₀是p₀的偏移量。

图6是可变形卷积层的学习过程，在输入层中加入偏移变量，使用插值算法将任意位置的输出转换成对于特征图的插值操作，这样既可以保证得到的像素准确还可以进行方向传播；然后使带偏移变量的输出特征图与输入特征图具有一致的空间分辨率，传递给下一个网络层，实现了对图像特征的提取；使用步骤四中的识别模型完成驾驶员的眼部和嘴部状态识别，然后进行量化识别，从而得到识别结果；为了构建眼部数据集和嘴部数据集，提高脸部状态识别的准确率，提出的方法选取网上公开的CEW眼部数据集、YAWDD打哈欠数据集和自制的数据集；公开的眼数据集和选取包含大量眼睛和嘴巴的样本，自制的数据集包括多名实验人员的眨眼，打哈欠的图片。最终共有8500张图片，包含眼睛样本5500张图像，嘴巴样本3000张图片；为了提升检测结果的效果，对图片进行归一化为32x32像素进行网络训练，部分眼部样本和嘴部样本如图7所示；为验证提出的眼部和嘴部状态方法能否达到预期的效果，使用DC-CNN对训练好的数据集进行测试验证，表1为眼睛状态和嘴巴状态测试结果。

表1眼睛状态和嘴巴状态测试结果

状态	测试样本数量	识别错误数量	准确率
				嘴巴张开	750	39	95.47％
嘴巴闭合	500	24	95.18％
				睁眼	2500	88	96.48％
闭眼	1500	65	95.67％

根据设定的阈值通过多个疲劳检测的参数计算驾驶员疲劳状态的情况，输出检测结果，预警疲劳驾驶行为；驾驶员在行驶的过程中，出现眨眼次数减少，频率降低以及频繁打哈欠的行为时，可以判断此时的驾驶员是疲劳驾驶；通过基于可变形卷积神经网络的状态识别结果的基础上，计算PERCLOS值和打哈欠的数据，作为判断疲劳驾驶的依据。PERCLOS值的计算公式如公式(9)，PERCLOS疲劳判断原理是是通过判断原理是通过计算眼睛处于闭合状态的时间与某段时间的比例来判断驾驶员的疲劳状态；打哈欠的参数统计如公式(10),n是单位时间内嘴巴张开状态的总帧数，N为单位时间内的总帧数，如果驾驶员打哈欠，那么F会达到最大值。

利用可变形卷积神经网络对眼部的状态作出准确分类，通过PERCLOS参数对眼睛闭合状态作出统计；使用CEW眼部数据集YAWDD视频数据集来测试疲劳检测算法的性能。疲劳状态的阈值是根据PERCLOS超过0.4、一分钟眨眼频率超过20或打哈欠频率超过3来判断驾驶员是否疲劳；通过判断眼部和嘴部的状态，实现疲劳的判断，通过CEW部分数据集根据设定的阈值进行疲劳测试，实验仿真结果如图8和图9所示，分别为眼部正常和疲劳状态以及嘴部正常和疲劳状态的结果。采用一种基于人脸检测驾驶员疲劳检测的方法向监控系统发送驾驶员疲劳报警和时间,监控系统记录驾驶员状态并向驾驶员发送语音报警。通过人脸检测和跟踪，眼部和嘴部状态的提取，眼部和嘴部状态识别工作，现实中统计多名测试人员的数据，最终测试结果部分示意图如图10所示，(e)为模拟正常驾驶的图片，(f)(g)模拟疲劳驾驶的图片，正常驾驶状态显示‘Normal’，疲劳驾驶状态显示‘Fatigue’。

最后，实验疲劳检测系统对收集的CEW眼部数据集、YAWDD打哈欠数据集进行测试，准确率达到94.36％。该系统经过测试，达到了预期的设计目标，满足了实际应用的需求。实验结果表明，该设计的疲劳检测系统具有良好的优越性，能够准确判断驾驶员的疲劳状态。与传统Adaboost的疲劳检测方法相比，本发明提出的新方法时效性和准确性都优于上述两种方法。与传统的HOG+CNN疲劳检测方法相比,新方法在人脸检测时，增加了KCF跟踪算法起到算法加速作用。与MTCNN+CNN算法相比，引入了可变性卷积神经网络，增加了算法的准确性。由此可知，新方法提高了疲劳驾驶检测算法的准确性，具有较好的实时性，满足疲劳驾驶检测系统的要求，与上述四种疲劳检测方法对比结果如表2所示。

表2不同算法疲劳状态判断对比

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。