CN110427871B

CN110427871B - 一种基于计算机视觉的疲劳驾驶检测方法

Info

Publication number: CN110427871B
Application number: CN201910701129.8A
Authority: CN
Inventors: 马素刚; 侯志强; 刘晓义; 惠飞; 王忠民; 孙韩林; 赵祥模
Original assignee: Changan University; Xian University of Posts and Telecommunications
Current assignee: Changan University; Xian University of Posts and Telecommunications
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2022-10-14
Anticipated expiration: 2039-07-31
Also published as: CN110427871A

Abstract

本发明属于疲劳驾驶检测技术领域，具体涉及一种基于计算机视觉的疲劳驾驶检测方法。现有的检测方法在检测准确性和反应速度上不能很好地满足实际产品的需求，存在着不能有效避免疲劳事故的发生的问题。本发明提供的一种基于计算机视觉的疲劳驾驶检测方法，启动设备，对摄像头进行初始化操作；然后进行视频采集、人脸检测、目标跟踪、神经网络判断、缓存图像和报警步骤，利用深度特征提取、目标检测、目标跟踪和行为识别等方法，实现对疲劳驾驶行为的准确判断。该方法准确度高，检测速度快，利用定期检测更新跟踪模板有效解决了跟踪失败问题，同时采用了单幅图像特征和连续多幅图像序列特征对疲劳行为进行描述，从而提高整个系统判断的准确性。

Description

一种基于计算机视觉的疲劳驾驶检测方法

技术领域

本发明属于疲劳驾驶检测技术领域，具体涉及一种基于计算机视觉的疲劳驾驶检测方法。

背景技术

据美国汽车交通安全基金会的一项调查表明，疲劳驾驶在美国的交通事故死亡事件中占据21％。据美国国家公路交通安全管理局统计，仅2015年就有近9万次交通事故是由疲劳驾驶引发的。在我国随着汽车保有量的逐年增加，交通安全形势愈发严峻。相关数据表明，疲劳驾驶造成的事故约占交通事故总数的7％，约占特大交通事故总数的40％。由此可见，疲劳驾驶导致了非常高比例的交通事故，对疲劳驾驶行为的及时准确预测对于保障驾乘人员生命财产安全具有重要的现实意义。

在目前众多的疲劳驾驶检测方法中，基于计算机视觉的检测方法具有无需与驾驶员物理接触，不会干扰驾驶员的正常操作等特点，而且稳定性好，能够实时检测驾驶员状态，具有较高的推广价值。

常见的基于计算机视觉的检测方法是：通过图像输入设备对驾驶员的表情、姿态、行为等特征进行实时检测，根据检测到的状态变化判断驾驶员是否处于疲劳状态，例如：当驾驶员出现打哈欠、眯眼睛、点头及其他疲劳驾驶行为时，预警系统将会对此类行为进行分析，并进行及时告警。

但是因现实环境中存在光照变化、尺度变化、背景干扰等多种复杂因素的影响，现有的检测方法在检测准确性和反应速度上仍然不能很好地满足实际产品的需求，并不能有效避免疲劳事故的发生。

发明内容

本发明要解决现有技术存在的检测准确性和反应速度不够高的问题，提供一种基于计算机视觉的疲劳驾驶检测方法。

为解决上述技术问题，本发明采用的技术方案是：

一种基于计算机视觉的疲劳驾驶检测方法，首先启动设备，对摄像头进行初始化操作；然后依次进行以下步骤：

步骤一、视频采集：对驾驶员面部视频进行采集，获取驾驶员面部图像序列；

步骤二、人脸检测：

1)输入图像I，经过深层卷积网络提取特征，获得输入图像的特征图。

2)在RPN网络中使用双阈值-非极大值抑制方法获得多个候选区域，具体公式为：

式中，S_i为该检测框的原始得分，S_f为该检测框的最后得分，M为得分最高的候选框，b_i为待检测框，IoU(M,b_i)为当前检测框b_i和M的交并比，N_t和N_i为阈值。

3)得到特征图的候选区域信息后，结合深层卷积网络提取的特征，使用双线性插值法替换原始的最近邻插值法，将不同大小的候选框变换成统一尺寸。

4)经过两个全连接层得到一个特征向量，该特征向量分别再经过两个全连接层，其中一个输出为图像的矩形框的位置与大小，另一个输出经过Softmax分类器，从而确定对象的类别。

步骤三、目标跟踪：对步骤一获得的驾驶员面部图像序列中的人脸进行跟踪，获得更为精确的驾驶员面部图像。

步骤四、神经网络Fatigue-CNN：利用神经网络Fatigue-CNN对步骤三获得的驾驶员面部图像逐帧进行判断，确定是否为疲劳驾驶；

步骤五、缓存图像：将步骤三获得的图像进行缓存；

步骤六、神经网络Conv-LSTM：从步骤五缓存的图像序列中，选择连续的N帧图像，并将这N帧图像视为一个整体，用来表示一种行为；利用神经网络Conv-LSTM中的重复模块A提取该种行为的特征，并通过Softmax分类器判断是否为疲劳驾驶；

步骤七、告警：在判断为疲劳驾驶的情况下，发出告警信号。

上述步骤三具体包括以下步骤：

1)利用DenseNet网络的某一层L对输入图像进行特征提取。

2)利用首帧图像构建核相关位置滤波器(KCF)，第二帧以后的图像经过该位置滤波器后，能够得到目标的中心位置，即实现了目标的定位。c₀对应目标的中心位置。

3)对获得的目标进行N个尺度采样，得到N个尺度的目标样本。

4)对多个尺度的样本分别进行fHOG特征提取，得到N个fHOG特征。

5)利用首帧图像构建相关尺度滤波器(CF)，第二帧以后的图像经过该尺度滤波器后，能够得到目标的尺度，即实现了目标的尺度估计。

6)利用跟踪得到的目标位置和尺度，分别对位置滤波器和尺度滤波器进行模型更新，提高跟踪准确度和成功率。尺度模型更新策略如公式(11)、(12)所示：

η′为尺度滤波器的学习率。

上述步骤四中的神经网络Fatigue-CNN是参照卷积神经网络模型VGG-19进行设计的，对输入面部图像进行疲劳驾驶行为判断；该神经网络Fatigue-CNN，首先在一般的图像数据集ImageNet上进行训练，然后在疲劳驾驶数据集YawDD上进行微调训练。

上述步骤六中的神经网络Conv-LSTM是参照长短期记忆模型LSTM，同时结合卷积神经网络CNN进行设计的，对输入的图像序列进行疲劳驾驶行为判断。

与现有技术相比，本发明的优点是：

1、本发明利用深度特征提取、目标检测、目标跟踪和行为识别等方法，实现对疲劳驾驶行为的准确判断，该方法准确度高，检测速度快，易于在实际场景中推广应用。

2、步骤二中通过定期检测方式，持续更新下一阶段目标跟踪的模板，有效解决了跟踪失败问题。

3、步骤四与步骤六同步执行，由于同时采用了单幅图像特征和连续多幅图像序列特征对疲劳行为进行描述，从而提高整个系统判断的准确性。

附图说明：

图1是本发明的结构图；

图2是步骤四中神经网络Fatigue-CNN结构图；

图3是步骤六中神经网络Conv-LSTM结构图。

具体实施方式：

下面将结合附图和实施例对本发明进行详细地描述。

本发明综合采用了深度学习技术、目标检测技术、目标跟踪技术和行为识别技术，总体结构如图1所示：

S0(启动设备)：启动设备，检测设备集成的摄像头，对摄像头进行初始化。

S1(视频采集)：对驾驶员面部视频进行采集，即获取驾驶员面部图像序列。这里采集的图像序列含有较多的背景信息。

S2(人脸检测)：定期对图像进行人脸检测，得到更为精确的驾驶员面部图像。该图像作为下一步目标跟踪的首帧模板。定期(如每5分钟)进行人脸检测，是为了定期更新下一阶段目标跟踪的模板，这样能够有效解决跟踪失败问题。

S3(目标跟踪)：对步骤S1获得的驾驶员面部图像序列中的人脸进行跟踪，获得更为精确的驾驶员面部图像。

S4(神经网络)：利用神经网络Fatigue-CNN对步骤S3获得的驾驶员面部图像逐帧进行判断，确定是否为疲劳驾驶。

S5(缓存图像)：将步骤S3获得的图像进行缓存，即对步骤S3的跟踪结果进行缓存。

S6(特征提取)：对S5缓存的图像序列进行疲劳驾驶行为判断。从步骤S5缓存的图像序列中，选择连续的N帧图像，并将这N帧图像视为一个整体，用来表示一种行为(例如打哈欠、眯眼睛、点头等)。利用神经网络Conv-LSTM中的重复模块A提取该种行为的特征，并通过Softmax分类器判断是否为疲劳驾驶。这里的神经网络结构与步骤S4中Fatigue-CNN不同。步骤S6与步骤S4同步执行，从而提高整个系统判断的准确性。

S7(告警)：在判断为疲劳驾驶的情况下，通过指示灯或蜂鸣器告警。

实施例：

本发明提供了一种基于计算机视觉的疲劳驾驶检测方法，具体包括以下步骤：

步骤一、视频采集：对驾驶员面部视频进行采集，即获取驾驶员面部图像序列。这里采集的图像序列含有较多的背景信息。

步骤二、人脸检测：

步骤1)输入图像I，经过深层卷积网络提取特征(feature extraction)，获得输入图像的特征图(feature)。

步骤2)在RPN网络中使用双阈值-非极大值抑制(DT-NMS)方法获得多个候选框，具体公式为：

本实施例中选取出得分在前300的窗口作为建议窗口用于之后检测阶段。

步骤3)结合feature，经过BI-RoI pooling方法，将不同大小的候选框变换成统一尺寸。BI-RoI pooling方法的具体步骤如下：

首先，将候选区域分成7×7个单元，使候选区域和每一个单元的浮点坐标保持不变，这样使得候选区域中的全部像素信息都被使用。然后，将每个单元平均分成4等份，取每一等份的中心点作为采样点。假设采样点分别为a,b,c,d点，根据以下公式，

使用双线性插值法计算出这四个点处的像素值。最后，取这四个像素值中的最大值，进行池化操作。

步骤4)经过两个全连接层得到一个特征向量，该特征向量分别再经过两个全连接层。其中一个输出为图像的矩形框的位置与大小(bbox_pred)，另一个输出经过Softmax分类器，从而确定对象的类别(cls_prob)。

步骤三、目标跟踪：

在目标跟踪算法中引入了密集连接卷积神经网络(DenseNet)，用于目标特征提取,通过尺度变换技术，能够适应跟踪过程中目标尺度的不断变化。具体步骤如下：

步骤1)利用DenseNet网络的某一层L对输入图像进行特征提取；

步骤2)利用首帧图像构建核相关位置滤波器(KCF)，第二帧以后的图像经过该位置滤波器后，能够得到目标的中心位置，即实现了目标的定位。

核相关滤波器可以用公式(3)表示，

其中，y为通过高斯函数构建的响应值，

为y的傅里叶变换，λ为正则项。

如果选择高斯核，则k^xx可以用公式(4)计算，

其中，exp表示指数函数，||·||表示向量的2-范数，x表示样本特征，

表示

的共轭，σ为常数，F^-1表示傅里叶逆变换，⊙表示点乘运算。

假设输入图像中感兴趣区域(Region of Interest,RoI)大小为m×n×3，经过DenseNet网络提取后，得到的特征大小分别为m′×n′×l′，l′表示所提取特征的通道数。该特征经过核相关位置滤波器后，得到响应图大小为s×t，在响应图中值最大的点对应目标的中心位置。

设c_pq表示响应图中一个响应值，其所在的行为p，列为q，p＝1,2,…,s，q＝1,2,…t，则如公式(5)所示，c₀对应目标的中心位置。

步骤3)对获得的目标进行N个尺度(例如，取尺度个数N＝33)采样，得到N个尺度的目标样本。

步骤4)对多个尺度的样本分别进行fHOG特征提取，得到N个fHOG特征。

步骤5)利用首帧图像构建相关尺度滤波器(CF)，第二帧以后的图像经过该尺度滤波器后，能够得到目标的尺度，即实现了目标的尺度估计。

依据目标中心位置，进行尺度采样，得到33个不同尺度的样本，把所有样本变换成相同大小，分别提取每个样本的fHOG特征(共有d维)。33个特征向量，经过尺度滤波器，响应值最大的点对应当前帧中目标的精确尺度。

尺度滤波器如公式(6)所示，

其中，G为利用高斯函数构建的响应值，G^*表示G的共轭，F^l表示第l维特征的傅里叶变换，d表示特征维数，λ为正则项。

尺度滤波器的分子项、部分分母项可以分别用A、B表示，如公式(7)、(8)所示。

A^l＝G^*⊙F^l (7)

响应值y如公式(9)所示，

y中最大值位置对应目标最佳尺度。

步骤6)利用跟踪得到的目标位置和尺度，分别对位置滤波器和尺度滤波器进行模型更新，提高跟踪准确度和成功率。

确定第t帧图像中目标的位置和尺度后，为了使得跟踪算法更加鲁棒，需要在第t+1帧跟踪前对位置滤波器和尺度滤波器分别进行更新。

参照公式(3)，位置模型更新策略如公式(10)所示：

α_t＝(1-η)α_t-1+ηα(t) (10)

其中，α_t-1表示对第t帧图像跟踪前求得的滤波器模板，α(t)表示根据第t帧图像求得的滤波器模板，η为位置滤波器的学习率。

参照公式(6)，对第t帧图像跟踪后，尺度模型更新策略如公式(11)、(12)所示：

η′为尺度滤波器的学习率。

步骤四、设计神经网络Fatigue-CNN：

参照卷积神经网络模型VGG-19，设计神经网络Fatigue-CNN，对输入面部图像进行疲劳驾驶行为判断。神经网络Fatigue-CNN结构如图2所示，首先在一般的图像数据集ImageNet上进行训练，使其具有提取一般图像特征的能力；然后在疲劳驾驶数据集YawDD上进行微调训练，使其能够更好地对打哈欠等疲劳驾驶行为进行判断。参见图2，具体包括下述步骤：

1、图像预处理：对输入图像大小进行重置，输入面部图像为彩色图像，大小为：224×224×3，即长、宽均为224像素，通道数为3。

2、卷积Conv1：卷积核大小为3×3，卷积核个数为64，得到的卷积结果为：224×224×64。

3、池化Pooling1：采用最大值池化max-pooling方法，max-pooling的窗口是4×4，步长设置为4。池化结果为：56×56×64。

4、卷积Conv2：卷积核大小为3×3，卷积核个数为256，得到的卷积结果为：56×56×256。

5、池化Pooling2：采用最大值池化max-pooling方法，max-pooling的窗口是4×4，步长设置为4。池化结果为：14×14×256。

6、卷积Conv3：卷积核大小为3×3，卷积核个数为512，得到的卷积结果为：14×14×512。

7、池化Pooling3：采用最大值池化max-pooling方法，max-pooling的窗口是2×2，步长设置为2。池化结果为：7×7×512。

8、全连接层FC：包含的神经元个数为1024，即全连接输出为：1×1×1024。

9、分类器Softmax：这里选择二分类器，判断输入图像是否为疲劳驾驶。

步骤五、缓存图像：将步骤三获得的图像进行缓存，即对步骤三的跟踪结果进行缓存。

步骤六、设计神经网络Conv-LSTM

参照长短期记忆模型LSTM(Long Short-Term Memory)，同时结合卷积神经网络CNN(Convolutional Neural Network)，设计神经网络Conv-LSTM，对输入的图像序列进行疲劳驾驶行为判断。LSTM是一种能够对以前的信息进行记忆的神经网络模型，即利用了连续多帧图像的时间信息。结合CNN模型，能够更好地利用图像的空间信息。神经网络Conv-LSTM结构参见图3。该神经网络Conv-LSTM，可以通过疲劳驾驶数据集YawDD进行训练。

2、卷积Conv：卷积核大小为3×3，卷积核个数为64，得到的卷积结果为：224×224×64。

3、池化Pooling：采用最大值池化max-pooling方法，max-pooling的窗口是4×4，步长设置为4。池化结果为：56×56×64。

4、LSTM中的重复模块A对输入图像进行特征提取，并把提取的特征向前反馈，与下一帧图像一起作为输入。这样就能够对连续多帧图像时间信息进行充分利用。

5、分类器Softmax：这里选择多分类器，能够对输入图像序列表示的行为进行判断，例如打哈欠、眯眼睛、点头、正常驾驶、唱歌等，从而判断是否存在疲劳驾驶行为。

步骤七、告警：在判断为疲劳驾驶的情况下，通过指示灯或蜂鸣器告警。

对于本技术领域的普通技术人员来说，在不脱离本发明所属原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于计算机视觉的疲劳驾驶检测方法，其特征在于，首先启动设备，对摄像头进行初始化操作；然后依次进行以下操作：

步骤二、人脸检测：

1)输入图像I，经过深层卷积网络提取特征，获得输入图像的特征图；

式中，S_i为该检测框的原始得分，S_f为该检测框的最后得分，M为得分最高的候选框，b_i为待检测框，IoU(M,b_i)为当前检测框b_i和M的交并比，N_t和N_i为阈值；

3)得到特征图的候选区域信息后，结合深层卷积网络提取的特征，使用双线性插值法替换原始的最近邻插值法，将不同大小的候选框变换成统一尺寸；

4)经过两个全连接层得到一个特征向量，该特征向量分别再经过两个全连接层，其中一个输出为图像的矩形框的位置与大小，另一个输出经过Softmax分类器，从而确定对象的类别；

步骤三、目标跟踪：对步骤一获得的驾驶员面部图像序列中的人脸进行跟踪，获得更为精确的驾驶员面部图像；

步骤五、缓存图像：将步骤三获得的图像进行缓存；

2.如权利要求1所述的一种基于计算机视觉的疲劳驾驶检测方法，其特征在于：所述步骤三具体包括以下步骤

1)利用DenseNet网络的某一层L对输入图像进行特征提取；

2)利用首帧图像构建核相关位置滤波器(KCF)，第二帧以后的图像经过该位置滤波器后，能够得到目标的中心位置，即实现了目标的定位；c₀对应目标的中心位置；

3)对获得的目标进行N个尺度采样，得到N个尺度的目标样本；

4)对多个尺度的样本分别进行fHOG特征提取，得到N个fHOG特征；

5)利用首帧图像构建相关尺度滤波器(CF)，第二帧以后的图像经过该尺度滤波器后，能够得到目标的尺度，即实现了目标的尺度估计；

6)利用跟踪得到的目标位置和尺度，分别对位置滤波器和尺度滤波器进行模型更新，提高跟踪准确度和成功率；尺度模型更新策略如公式(11)、(12)所示：

η′为尺度滤波器的学习率。

3.如权利要求1或2所述的一种基于计算机视觉的疲劳驾驶检测方法，其特征在于：所述步骤四中的神经网络Fatigue-CNN是参照卷积神经网络模型VGG-19进行设计的，对输入面部图像进行疲劳驾驶行为判断；该神经网络Fatigue-CNN，首先在一般的图像数据集ImageNet上进行训练，然后在疲劳驾驶数据集YawDD上进行微调训练。

4.如权利要求3所述的一种基于计算机视觉的疲劳驾驶检测方法，其特征在于：所述步骤六中的神经网络Conv-LSTM是参照长短期记忆模型LSTM，同时结合卷积神经网络CNN进行设计的，对输入的图像序列进行疲劳驾驶行为判断。