CN111898473A

CN111898473A - 一种基于深度学习的司机状态实时监测方法

Info

Publication number: CN111898473A
Application number: CN202010661595.0A
Authority: CN
Inventors: 王金凤; 王文中; 刘君扬; 何振宇
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-11-06
Anticipated expiration: 2040-07-10
Also published as: CN111898473B

Abstract

本发明公开了一种基于深度学习的司机状态实时监测方法，包括以下步骤：通过图像获取装置实时获取司机面部图像，得到司机面部图像集；构建基于感受野的特征提取网络，用于提取司机面部特征，进而计算网络最终特征图的感受野和步长，使得感受野符合司机面部大小；通过聚类分析模块对司机面部特征数据集进行聚类分析，得到司机面部信息，根据检测对象选择相应的检测层，并设置先验框大小；对司机面部信息进行司机面部疲劳识别，得到司机状态信息；本发明结合感受野设计特征提取网络并优化检测层，能有效提取脸部特征；结合聚类方法进一步提高检测速度。

Description

一种基于深度学习的司机状态实时监测方法

技术领域

本发明涉及计算机信息的研究领域，特别涉及一种基于深度学习的司机状态实时监测方法。

背景技术

疲劳检测在道路交通领域是一个重点研究方向，倘若能够及时检测到驾驶员的疲劳状态则可以避免很多交通事故。有人提出了基于短时心电信号的疲劳驾驶检测算法以及基于心肌电的联合收获驾驶人疲劳检测，均表明人的疲劳状态可以从生理激素、心电信号等基于医学设备的方法测得，但是这种方法需要专业设备，在实际生活中布置的可能性较小。进而有人提出基于机器视觉的疲劳识别方法，传统的疲劳识别方法一般是通过Haar-like特征检测出司机面部的位置，然后通过计算眼睛纵横比来描述眼睛的张开程度判断疲劳状态。还可以通过计算眼睑和瞳孔区域像素个数占眼部区域像素总个数的比值和嘴部区域的宽高比,分别判断眼睛和嘴巴的开闭状态,从而提取出PERCLOS特征、眨眼频率和哈欠频率等面部疲劳特征,通过疲劳特征可以进一步判断驾驶员的疲劳状态，但是算法没有将特征关联。有算法对眼睛和嘴巴进行定位和状态分析，在决策阶段采用信息融合的方法对疲劳状态进行判断，但实时性不足。因此，司机面部疲劳检测存在两个问题需要解决：(1)检测速度慢；(2)单一特征的识别结果并不可靠。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于深度学习的司机状态实时监测方法，实现快速网络计算以解决实时检测的问题，并辅以个性化特征识别算法，提高疲劳识别率。

本发明的目的通过以下的技术方案实现：

一种基于深度学习的司机状态实时监测方法，其特征在于，包括以下步骤：

通过图像获取装置实时获取司机面部图像，得到司机面部图像集；

构建基于感受野的特征提取网络，用于提取司机面部图像集中司机面部特征，得到司机面部特征数据集，并计算网络最终特征图的感受野和步长，使得网络最终特征图的感受野符合司机面部大小；

通过聚类分析模块对司机面部特征数据集进行聚类分析，得到司机面部信息，根据司机面部信息的检测对象选择相应的检测层，并设置先验框大小，通过先验框矫正预测框的坐标和长宽，从而确定司机脸部检测框的位置；

通过训练得到能识别人脸疲劳状态的深度学习框架，深度学习框架对司机面部信息进行司机面部疲劳识别，得到司机状态信息。

进一步地，所述使用基于感受野的特征提取网络提取司机面部图像，获取司机面部特征，具体如下：

通过特征图感受野的计算，确定特征提取网络的层数，并在下采样中利用卷积层代替池化层；

特征图感受野计算和步长计算如下：

s′＝s₀*s₁，

k′＝s₀*(k₁-1)+k₀，

其中，s₀初始化为1，k₀是卷积核大小，s₁是卷积的步长，s′是经过卷积后特征图中每个特征点相对于原图的步长，k₁是前一个特征图的感受野，k′是最终得到的感受野；

将司机面部图像通过基于感受野的特征提取网络进行K次3×3的卷积，并在训练阶段加入辅助疲劳识别网络进行多任务训练，得到司机面部特征数据；

进一步地，所述辅助疲劳识别网络用于在训练中识别人物状态的辅助分类，所述人物状态的辅助分类包括睁眼、闭眼、说话、发笑、打哈欠。

进一步地，所述通过聚类分析模块对司机面部特征数据集进行聚类分析，具体如下：

在设置先验框前通过聚类分析模块对司机面部特征数据集进行聚类分析，在得到人脸尺寸的类别数后根据检测对象选择检测层，最后再设置先验框大小；

在初始阶段，把一个类别作为一个节点，构建无向图，在不同节点之间计算相似度，即计算权重，当两个节点之间的相似度超过阈值，则在两个节点间形成关联边；在迭代阶段随机选取一个节点a，并在该节点的相邻节点中选择权重最大的节点b，将节点a归为节点b的类别，遍历所有节点，重复迭代直到满足迭代次数；

通过目标检测算法获取检测框坐标、检测框含有检测对象的概率、检测框含有检测对象类别的概率，进而得到预测特征图通道数，预测特征图通道数计算如下：

C＝B*(loc+conf+cls)，

其中，loc为通道预测检测框坐标信息，conf为通道预测定位置信度，cls为通道预测类别，B为预测特征图中每个点所预测的检测框数目；

对于边界框的不同属性采用不同的损失函数，将司机面部定位任务和疲劳识别任务同时进行。

进一步地，所述对于边界框的不同属性采用不同的损失函数，具体如下：

司机面部定位任务中的坐标误差计算如下：

其中，D₁是预测的中心坐标的损失值，S²表示最终特征图的网格总数，B表示每个像素点预测的边框个数，

值为1表示如果网格单元i中存在目标，即第j个边框预测值对该预测有效；

值为0表示如果网格单元i中不存在目标；(x,y)是预测边框的位置，

是从训练数据中得到的实际位置；D₂是预测边框的宽高的损失值,(w,h)是预测边框的宽高，

是从训练数据中得到的实际宽高；

物体置信度的损失计算如下：

其中，E₁+E₂是预测的置信度的损失函数，

这里分别表示1和0，C_i是网络输出的置信度,BCE表示二元交叉熵损失函数，λ参数用于损失函数的不同加权部分。

定义为：1，如果网格中不存在目标；0，如果网格中存在目标；

疲劳识别任务的分类误差计算如下：

其中，F是预测的置信度的损失值，classes是类别数目，

表示真实的类别得分，p_ij(c)表示网络输出的类别得分；

由各项损失构成最终的损失函数：

loss＝D₁+D₂+E₁+E₂+F。

进一步地，通过训练得到能识别人脸疲劳状态的深度学习框架，深度学习框架对司机面部信息进行司机面部疲劳识别，得到司机状态信息，具体如下：

在测试阶段，通过待测实际面部特征向量、同一人物的疲劳状态向量、同一人物的非疲劳状态向量进行训练，得到能识别人脸疲劳状态的深度学习框架，通过该深度学习框架识别人物状态的主要分类；并通过构建辅助疲劳识别网络，通过辅助疲劳识别网络对司机面部特征向量进行判断，识别人物状态的辅助分类，得到司机状态信息。

本发明与现有技术相比，具有如下优点和有益效果：

本发明结合感受野设计简易的特征提取网络并优化检测层，能有效提取脸部特征并且减少网络层数，综合司机面部的特征，使得网络最终的感受野符合司机面部大小；提出了结合聚类方法进一步提高检测速度。

附图说明

图1是本发明所述一种基于深度学习的司机状态实时监测方法流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

一种基于深度学习的司机状态实时监测方法，如图1所示，包括以下步骤：

构建基于感受野的特征提取网络，用于提取司机面部图像集中司机面部特征，得到司机面部特征数据集，并计算网络最终特征图的感受野和步长，使得网络最终特征图的感受野符合司机面部大小，通过先验框矫正预测框的坐标和长宽，从而确定司机脸部检测框的位置；

通过聚类分析模块对司机面部特征数据集进行聚类分析，得到司机面部信息，根据司机面部信息的检测对象选择相应的检测层，并设置先验框大小；

具体如下：

基于感受野的特征提取网络：

本实施例中，提出基于感受野设计特征提取网络，能有效提取脸部特征并且减少网络层数，通过一个步长为1的3x3卷积层和一个步长为2的3x3卷积层，使得特征图的尺寸变为原来的二分之一，再经过一个步长为1的1x1卷积层，形成一个块。在每个块之间会进行下采样，目的在于减少网络参数达到压缩网络的目的。本发明没有采用传统的池化方法进行下采样，而是采用卷积层进行下采样，可以加强网络的学习能力，同时利用感受野设计特征网络，从而达到优化目的。网络最终特征图的感受野和步长计算如下。

s′＝s₀*s₁，

k′＝s₀*(k₁-1)+k₀，

特征提取网络经过5个块后，特征图的尺寸为19x19x512。特征图在第一次卷积后的感受野为3x3，由于低层卷积层感受野很小，网络只能学习到线条等低级特征。继续进行卷积操作，每进行一次3x3的卷积，特征图的感受野就会增大。本发明提出的特征提取网络共进行了10次3x3的卷积，最终得到的特征图感受野为145x145，总步长为32，使得网络最终的感受野符合司机面部大小。

司机面部聚类分析：

除了结合感受野设计特征提取网络，本发明还提出了司机面部聚类分析模块，进一步提高检测速度。在设置先验框前先对数据集的司机面部进行聚类分析，在得到司机面部尺寸的类别后，根据检测对象选择相应的检测层，最后再设置先验框大小。

此算法在初始化阶段以每个节点为一个类别构建无向图，不同节点之间计算相似度，当相似度超过阈值就在两个节点间形成关联边，权重为相似度。在迭代阶段首先随机选取一个节点a，在相邻的节点中选择权重最大的b，然后将a归为b的类别；遍历所有节点，重复迭代直到满足迭代次数。

标注信息包含司机面部框的左上角坐标和长宽(w，h)，在二维向量(w,h)基础上进行聚类。为了减少随机性，本发明对(w,h)进行了多次聚类，如果聚类结果均为1，说明训练数据的司机面部尺寸相近，只需要在一个特征图上进行预测。

本实施例中，借鉴了YOLO目标检测算法的思想，并结合聚类分析来提高疲劳检测的实时性。YOLO检测算法直接得到检测框的坐标、检测框中含有检测对象的概率和检测对象类别的概率，实现了检测和分类两个任务在同一个网络里完成，得到最终的预测特征图通道数，预测特征图通道数计算如下：

C＝B*(loc+conf+cls)，

式中loc取值为4，表示用4个通道预测检测框位置，4个通道预测的值分别是检测框的左上角坐标和长宽。conf取值为1，表示用1个通道预测定位置信度，这个通道用来预测检测框中含有司机面部的概率。cls取值为2，表示用2个通道预测类别，在司机面部疲劳识别中表示疲劳和非疲劳两类，B为预测特征图中每个点所预测的检测框数目。对于边界框的不同属性采取不同的损失函数，将司机面部定位任务和疲劳识别任务同时进行。

损失函数计算如下：

司机面部定位任务中的坐标误差计算如下：

是从训练数据中得到的实际宽高；

物体置信度的损失计算如下：

其中，E₁+E₂是预测的置信度的损失函数，

疲劳识别任务的分类误差计算如下：

其中，F是预测的置信度的损失值，classes是类别数目，

表示真实的类别得分，p_ij(c)表示网络输出的类别得分；

由各项损失构成最终的损失函数：

loss＝D₁+D₂+E₁+E₂+F。

最终特征图中的像素点称为cell，每个cell预测B个边界框。

分别对应于预测框中各个属性的估计，由各项损失构成了最终的损失函数。

个性化司机面部疲劳识别：

本实施例中，使用MTCNN进行司机面部检测，提出了一种新的司机面部疲劳判别方法并设计了辅助网络进行疲劳识别。辅助网络用于判断司机面部的部分特征，包括谈话、哈欠、发笑、睁眼、闭眼，仅在训练时候使用，而主干网络最终输出的是司机面部特征向量。

本实施例分别从疲劳识别准确率和疲劳识别时间两个指标判断本方法的有效性。

首先，为了验证有效性，本发明分别和几种基于眼睛和嘴巴闭合程度的算法进行对比。基于DWC的one-stage疲劳识别算法在训练阶段需要用到司机面部疲劳状态的图片和正常状态的图片。训练数据由网上搜集和制作两部分组成。制作部分是从视频流中获取的各种疲劳形态图片和非疲劳状态图片共800张，另外从网上搜集200张符合要求的图片，总共1000张图片。实施方案采用的处理器为英特尔Core i5-4460@3.20GHz，内存RAM16GB，显存12GB，显卡GeForce GTX TITAN，输入的图像分辨率为640x480，输入网络前会将图片尺寸统一为608x 608。初始学习率设为0.001，迭代10000次，在每次迭代开始前会通过改变图片的饱和度、曝光、色调产生新的训练图片。为了能让算法学习到丰富的疲劳表达形式，训练集包含各种表征疲劳的行为，其中包括佩戴眼镜和不佩戴眼镜的正常状态以及在疲劳时会出现的打哈欠和打盹等脸部表情。

本实施例为了满足疲劳识别的实时性，减少网络冗余，根据对司机面部尺寸聚类的结果决定检测层数量，分别对特征提取网络部分和目标检测部分进行了优化。对训练样本中的司机面部宽高(w,h)聚为1类后，分别对w和h求均值，w的均值为138.8像素，h的均值为143.3像素。数据集中w的最小值为119像素，h的最小值为119像素。本发明的端到端网络基于YOLOv3的网络结构，只保留了一个大目标检测层。结果如表1所示检测能力并没有下降，从而验证了此框架的有效性。

本实施例在特征提取阶段基于感受野优化网络，在检测阶段基于CW聚类减少冗余，识别精度与YOLOv3相同，比分阶段的识别算法略低，检测速度比YOLOv3快4.5倍。

表1聚类检测对算法的影响

此外，本发明将基于聚类的one-stage疲劳识别算法与现有的几个根据五官特征判断疲劳的算法在自建的数据集、CASIA-FACEV5数据集和YawDD数据集上进行对比，测试样本数均为200张图像。其中，基于ASM的疲劳识别算法结合Haar级联特征，实现对眼睛疲劳状态识别；MTCNN+HOG+random ferns、MTCNN+MultiHPOG+SVM、MTCNN+MSP-Net三种算法均是先用MTCNN检测出眼睛和嘴巴，再根据眼睛和嘴巴的闭合判断疲劳状态；而基于DWC的one-stage疲劳识别算法则是综合了司机面部的全部信息。

表2与其他疲劳识别算法在自建测试集上的对比

表3与其他疲劳识别算法在CASIA-FACEV5数据集上的对比

表4与其他疲劳识别算法在YawDD数据集上的对比

在三个数据集上的对比结果如表2至表4所示，表明本发明算法具有更高的准确率和效率。在CASIA-FACEV5数据集中大多是非疲劳状态的样本，各个算法的精度并无太大波动。在YawDD数据集中有说话和打哈欠的样本，导致根据嘴巴闭合程度判断疲劳状态的算法精度有所下降，而one-stage疲劳识别算法仍然保持比较平稳的精度。

本实施例设计了消融实验，在训练阶段去掉辅助网络得到的模型在测试阶段准确率下降了2.6％。辅助网络用于判断样本是否睁眼、谈话或打哈欠等动作。在没有辅助网络时三元组较难收敛，导致最终疲劳识别准确率下降。由于辅助网络在测试阶段不参与运算，检测时间一致；个性化疲劳识别最终把司机面部用向量表示，通过与疲劳司机面部向量比对判断对象是否处于疲劳状态。本实施例还对向量的维度做了对比，发现128维的向量能够较好地表示司机面部。

本发明首先将one-stage目标检测算法和疲劳识别结合，通过聚类算法分析司机面部疲劳识别的特点，结合感受野设计高效的特征提取网络并简化检测网络。实验表明该方法在保证识别准确率的前提下提高识别效率；实验结果表明，个性化疲劳识能满足实时性的需求，同时提高了识别准确率，设计更加合理。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。