CN110472512A

CN110472512A - 一种基于深度学习的人脸状态识别方法及其装置

Info

Publication number: CN110472512A
Application number: CN201910653685.2A
Authority: CN
Inventors: 胡鹤轩; 周全; 朱宇航; 彭守恒; 刘航; 朱映恺; 谭国平; 冯芸
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-11-19
Anticipated expiration: 2039-07-19
Also published as: CN110472512B

Abstract

本发明公开了一种基于深度学习的人脸状态识别方法及其装置，其方法包括：采集被识别人的脸部图像并记录采集时间，使用人脸识别算法对被识别人的图像进行处理，输出人脸识别结果。将人脸识别结果输入到预训练的深度神经网络和人脸特征点模型进行处理，得到表情识别结果和疲劳识别结果；其表情识别结果包括表情类型及其预测值。将表情识别结果和对应的采集时间作为表情数据，依序记录到表情数据库中；将疲劳数据也按照时间记录到疲劳数据库中。从表情和疲劳数据库中获取多个数据并进行分析，从而得到对被识别人的状态识别结果。本发明能够高效地感知和分析被识别人的情绪和疲劳程度，可广泛应用于疲劳驾驶检测、机器人等自动化领域。

Description

一种基于深度学习的人脸状态识别方法及其装置

技术领域

本发明属于图像识别处理技术领域，涉及一种基于深度学习的人脸状态识别方法及装置。

背景技术

情绪识别是指研究一个自动、高效、准确的系统来识别人脸表情的状态，进而通过人脸表情信息了解人的情绪状态，比如高兴、悲伤、惊讶、愤怒等。该研究在人机交互、人工智能等方面有着重要的应用价值，是当前计算机视觉、模式识别、情感计算等领域的重要课题之一。

在需要进行人机交互的技术领域，尤其是机器人技术方面，通常需要能够对人的情感进行分析，以进行有效的人机交互，为用户的交互体验带来感官上的改善，但现有的人机交互技术缺乏有效的情感分析和效识别人的情绪的技术手段。比如，在预防疲劳驾驶等交通事故方面，现有的基于计算机视觉的监测方法可以在不影响正常驾驶的情况下，利用驾驶员的面部特征进行疲劳状态的判断。而基于图像处理的疲劳监测方法，大多只获取到驾驶员人眼以下位置，并没有针对人眼等局部特征信息进一步提取特征点。因此，如何有效地提取出面部特征，获得最大化的特征信息，从而建立疲劳和情绪检测模型，准确分析出驾驶员的驾驶状态，是解决驾驶员疲劳驾驶，降低交通事故发生率的一个主要研究方向。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于深度学习的人脸状态识别方法及装置。本发明可有效地提取出被识别人的面部特征，获得最大化的特征信息，从而建立情绪检测模型。该方法应用在疲劳驾驶检测上，能够准确分析出驾驶员的驾驶状态，进而采取措施来降低交通事故发生率。

为了解决上述技术问题，本发明采用以下技术方案。

本发明的一种基于深度学习的人脸状态识别方法，包括以下步骤：

步骤一.采集被识别人的脸部图像并记录采集时间，使用人脸识别算法对被识别人的图像进行处理，输出人脸识别结果；

步骤二.将人脸识别结果输入到预训练的深度神经网络和人脸特征点模型进行处理，得到表情识别结果和疲劳识别结果；所述的表情识别结果包括表情类型及其预测值；

步骤三.将表情识别结果和对应的采集时间作为表情数据，依序记录到表情数据库中；将疲劳数据也按照时间记录到疲劳数据库中；

步骤四.从表情和疲劳数据库中获取多个数据并进行分析，从而得到对被识别人的状态识别结果；

所述的深度神经网络配置为：

第一层为输入层，输入图片参数为L*W*H，L为图片长度，W为图片宽度，H为图片通道数；

第二层为第一层卷积层，卷积核大小为k1*k1，步长为s1，填充尺寸为p1，深度为D1；

根据卷积公式：

得到输出的特征张量为Lout*Wout*D1；

第三层为第一层池化层，池化层参数为L1*L1，步长为sd1，其中l的大小设置为2或3。所得结果记为f(x)；

接下来的网络结构以一层卷积层加一层池化层为搭配，第四层为第二层卷积层，卷积核大小为k2*k2，步长为s2，填充尺寸为p2，深度为D2；其中k2的大小不大于前一层卷积层，其值设置在3～5范围内；采取的激活函数的形式为y＝max(0,x)，深度可保持不变或更大；第五层为第二层池化层池化层参数大小为l2*l2，步长为sd2，池化层不做改变；所得的结果记为f1(x)；

在前后两层卷积层深度不变的情况下，此时进入下一层卷积层的输入变为f(x)+f1(x)；若深度不同，则上一层的输出仍为下一层输入；以此类推；

隐藏层层数设置在50～60层；

倒数第二层为第一层全连接层，分类回归输出一组一维的向量V，输出参数为(x,1,1)的一维张量；

最后一层为输出层也是全连接层的第二层，分类回归输出一组一维的向量V1，输出参数为(x1,1,1)的一维张量。

所述步骤二中所述深度神经网络预训练过程包括：

(1)利用ImageNet数据集对深度神经网络进行预训练；

(2)利用改进fer2013数据集对深度神经网络进行微调；所述改进fer2013数据集为在fer2013数据集基础上增加从互联网上获取的人脸图像所扩展形成的数据集，并且增加一类以疲劳为标签的人脸数据集；所述的从互联网上获取的人脸图像包含带眼镜的人脸图像；

(3)将扩展后的数据集送入人脸特征点提取模型中进行预先训练。

进一步的，所述人脸识别结果为视频流时，所述步骤二包括：

(2-1)将人脸识别结果在时刻ti以及时刻ti之前的时刻ti-1、ti-2、ti-3、ti-4和ti-5分别对应的帧输入到经过预先训练的CNN卷积神经网络进行处理，从而输出时刻ti、ti-1、ti-2、ti-3、ti-4和ti-5分别对应的表情预测值，其中i为时刻的序号；

(2-2)利用加权求和判断方法，对所述各待定表情预测值进行加权求和，从而得到加权求和结果，根据加权求和结果，得到时刻ti的表情识别结果；所述过程包括：

将所述各个待定表情预测值集合记为R＝{P_m,ti|P_m,ti＝const_m,ti,m＝0,1,...,7}，其中p_m,ti表示当前ti时刻的第m种表情的预测值；

利用右式计算平均化结果：

其中，m为表情类型记号，i为对应时刻的序号，n为求和序号，σ_m,ti为加权求和取平均后的结果；其中将疲劳的预测值结果记为Q_ti；

(2-3)将视频帧输入到人脸特征点识别模型中，得到特征点在图像中的坐标值(X,Y)；取出眼睛与嘴巴处的特征点的横纵坐标值，进行以下处理：

(2-3-1)将眼睛上部的点的纵坐标值记为y_j，将眼睛下部的点纵坐标值记为y_k，将眼睛最左的点横坐标值记为x，将眼睛最右的点横坐标值记为x’；其中j，k为点的标号。由此可以得到比值：

设定阈值mi，当Q低于mi则判定为疲劳；

(2-3-2)将嘴巴上部的点的纵坐标值记为y′_j，将嘴巴下部的点纵坐标值记为y′_k,将嘴巴最左的点横坐标值记为x1，将嘴巴最右的点横坐标值记为x1’。其中j，k为点的标号。由此可以得到比值：

设定阈值ni，当Q高于ni则判定为疲劳。

(2-3-3)由于嘴巴与眼睛对于疲劳判别的关键度不同，相对应的权值也不同，最终的疲劳程度：

将其与阈值Z进行比较，若低于Z则判定为疲劳；

(2-3-4)取ti时刻前固定N帧图片进行特征点检测，将判定为疲劳的图片数量记为M，可以得到比例值为T1＝M/N，第一种CNN卷积神经网络得到的疲劳预测值为Q_ti。将两种网络的值综合可得到：

设定若干阈值Si，当S处于不同Si中时，判定的疲劳程度不同。

进一步的，所述步骤三中，以时间轴的形式记录表情数据，即将表情识别结果和采集时间对应存储至表情数据库中。同理，以时间轴形式记录疲劳数据和采集时间，记录到疲劳数据库中。

进一步的，所述步骤四包括：

(4-1)从表情和疲劳数据库中获取在同一时间段内连续采集的多个表情和疲劳数据；

(4-2)对所有表情预测平均值进行比较，平均值最大的表情即为ti时刻的情绪识别结果；所述表情类型包括厌恶、恐惧、开心、伤心、生气、惊讶、中性。根据疲劳阈值进行疲劳程度划分，作为疲劳识别结果。

本发明的一种基于深度学习的人脸状态识别装置，包括：

第一模块，通过摄像头采集被识别人的脸部图像并记录采集时间，使用边缘设备存有的人脸识别算法对被识别人的图像进行处理，输出人脸识别结果；

第二模块，用于将人脸识别结果输入到边缘设备的预训练的深度神经网络和人脸特征点模型进行处理，得到表情和疲劳识别结果；

第三模块，用于将表情和疲劳识别结果和以及对应采集时间作为表情数据，上传到云端的表情数据库中；

第四模块，用于从表情和疲劳数据库中获取多个表情和疲劳数据并进行分析，从而得到对被识别人的状态识别结果并进行相应的调节；

所述的第二模块中所采用的深度神经网络配置为：

所述的深度神经网络配置为：

根据卷积公式：

得到输出的特征张量为Lout*Wout*D1；

隐藏层层数设置在50～60层；

所述第二模块中所述深度神经网络预训练过程包括：

(1)利用ImageNet数据集对深度神经网络进行预训练；

进一步的，所述人脸识别结果为视频流时，所述第二模块用于执行以下步骤：

利用右式计算平均化结果：

设定阈值mi，当Q低于mi则判定为疲劳；

设定阈值ni，当Q高于ni则判定为疲劳。

将其与阈值Z进行比较，若低于Z则判定为疲劳；

(2-3-4)取ti时刻前固定N帧图片进行特征点检测，将判定为疲劳的图片数量记为M，可以得到比例值为T1＝M/N，第一种CNN卷积神经网络得到的疲劳预测值为Q_ti。将两种网络的值综合起来得到：

进一步的，所述第四模块采用以下方式，从表情和疲劳数据库中获取多个表情和疲劳数据并进行分析，从而得到对被识别人的状态识别结果：

(4-3)根据所得的情绪与疲劳识别结果播放相应的音乐或语音提示来进行被识别人的状态调节。

与现有技术相比，本发明的优点和有益效果包括：

1.本发明采用深度神经网络与脸部特征点处理多模型融合识别技术实现对被识别人的人脸信息进行分析，可以识别出人的情感信息，并确定出被识别人的七种情绪。

2.本发明针对人眼等局部特征信息提取特征点，能够最大化地提取被识别人面部信息，丰富情绪检测模型。

3.本发明将表情识别技术应用到情绪识别中，可以应用在疲劳驾驶检测、机器人等自动化领域，使得机器能够高效地感知和分析人的情绪和情感，机器与人之间能够以更加高效的方式进行人机交互。

附图说明

图1为本发明方法的一种实施例的流程图。

图2为本发明方法的一种实施例的神经网络部分结构示意图。

图3为本发明方法的一种实施例的眼睛特征点示例图。

图4为本发明方法的一种实施例的嘴巴特征点示例图。

具体实施方式

本发明涉及深度学习技术，采用深度神经网络与脸部特征点处理模型信息综合判别实现对被识别人的人脸信息进行分析，从而识别被识别人的七种情绪以及被识别人的疲劳状况。根据这些信息我们可以播放合适的音乐调节被识别人的情绪以及疲劳状况。所述方法包括采集被识别人的图像并记录采集时间；使用人脸识别算法进行处理并输出人脸识别结果；将人脸识别结果输入到深度神经网络和特征点处理模型进行处理得到表情和疲劳识别结果；将表情和疲劳识别结果和对应的采集时间作为表情数据依序记录到表情和疲劳数据库中，从表情和疲劳数据库中获取多个表情和疲劳数据进行分析，从而得到对被识别人的状态识别结果；本发明使得机器能够高效地感知和分析人的情绪和疲劳程度，能够以更加高效的方式进行人机交互。本发明可广泛应用于图像识别处理技术领域。

下面结合附图和实施例对本发明做进一步详细说明。

图1为本发明基于深度学习的人脸情绪识别方法的一种实施例的流程图。如图1所示，本实施例包括以下步骤：

Step1.采集被识别人的图像并记录采集时间，使用人脸识别算法对被识别人的图像进行处理，从而输出人脸识别结果；

Step2.将人脸识别结果输入到预训练的深度神经网络和人脸特征点模型进行处理，得到表情识别结果和疲劳识别结果；所述的表情识别结果包括表情类型及其预测值；

Step3.将表情识别结果和对应的采集时间作为表情数据，依序记录到表情数据库中；将疲劳数据也按照时间记录到疲劳数据库中；

Step4.从表情和疲劳数据库中获取多个数据并进行分析，从而得到对被识别人的状态识别结果；

在步骤Step1中，可以使用摄像头以拍摄单张照片或者拍摄视频的方式来采集被识别人脸的图像。人脸识别算法可以是dlib等算法，其可以将被识别人的图像中的脸部部分识别并提取出来，其既可以对单张照片也可以对视频流进行识别。

在步骤Step2中，深度神经网络可以选用RESNET50，其经过预先训练后具有表情识别能力，能够识别出人脸识别结果中的人脸表情，并将对应的表情类型作为表情识别结果输出。深度神经网络能够识别出的表情类型包括厌恶、恐惧、开心、伤心、生气、惊讶、中性，可以由深度神经网络的训练方式决定。深度神经网络尤其是卷积神经网络能够提取出图像的深层次特征，能够精确地输出表情识别结果。特征点处理模型可以使用Landmark68模型，可以提取出人脸68个特征点进行疲劳识别处理，输出疲劳识别结果。

在步骤Step3中，表情和疲劳数据库以时间轴的形式记录表情和疲劳数据，即将表情和疲劳识别结果和采集时间对应存储起来。建立表情和疲劳数据库，使得在步骤Step4中可以综合多个表情和疲劳数据来进行分析，使得对被识别人的状态识别结果更加精确。

通过以下步骤对所述深度神经网络进行预先训练：

利用ImageNet数据集对深度神经网络进行预训练；

利用改进fer-2013数据集对深度神经网络进行微调，所述改进fer-2013数据集为在fer-2013数据集基础上增加从互联网上取得的人脸图像包括含有眼镜的人脸图像所扩展形成的数据集。

可以使用RESNET50作为深度神经网络，先用ImageNet数据集对RESNET50进行预训练，然后再用改进fer-2013数据集对深度神经网络进行微调。训练过程中，可以优选使用以下参数：批量为32，学习率为0.001，迭代20000步结果趋于稳定。

在用改进fer-2013数据集对深度神经网络进行训练前还可以对改进fer-2013数据集中的人脸图像进行预处理，包括对图像进行翻转、旋转、扩充、灰度变换、尺寸调节和图像校准，还可以将图像减去均值，例如减去(104.，117.，124.)，以进行归一化处理，再通过dlib进行人脸检测和人脸分割，再进行灰度化，将图像尺寸调整为48*48。

在所述人脸识别结果为视频流，所述步骤Step2具体包括：

a.将人脸识别结果在时刻ti以及时刻ti之前的时刻ti-1、ti-2、ti-3、ti-4和ti-5分别对应的帧输入到经过预先训练的深度神经网络进行处理，从而输出时刻ti、ti-1、ti-2、ti-3、ti-4和ti-5分别对应的待定表情识别结果，其中i为时刻的序号；

b.利用加权求和取平均值的判断方法，对所述各待定表情识别结果进行加权求和并取平均值，从而得到情绪预测值，根据情绪预测值，得到时刻ti的表情识别结果。

如果步骤Step1中人脸识别算法对视频流进行识别，那么其输出的人脸识别结果也将是视频流形式，也将是包含连续多帧的画面。

由于在对被识别人的图像采集过程中，容易因被识别人运动或者成像不清晰等造成图像模糊，如果仅针对视频画面的其中一帧进行单独识别，容易造成识别不正确。

为了提高针对视频画面的表情识别的正确率，可以综合考虑对连续多帧画面的识别结果，来确定对其中某一帧画面的识别结果。

在执行步骤a之前，已经获得并确定了时刻ti-1的帧的状态识别结果。

步骤b中，为了对时刻ti的帧进行表情识别，可以连续采集时刻ti之前的时刻ti-1、ti-2、ti-3、ti-4和ti-5分别对应的帧。然后将这6个帧输入到深度神经网络中进行识别，输出7个待定表情识别结果。使用加权求和判断方法，对这7个待定表情识别结果赋予权重，并跟据加权求和结果来确定时刻ti的表情识别结果。

本发明方法对于疲劳值的获取，设备通过Landmark68特征点提取模型进行疲劳值的判断。该系统使用并改进PERCLOS算法，统计在特定时间内，眼睛闭合一定程度的时间占总时间的比例。由于眼睑的存在，人们在眨眼的时候，眼睑会不同程度地覆盖眼睛。通过实际测试，选用眼睑覆盖瞳孔的面积超过75％就认为眼睛处于闭合状态。图3为本发明方法的一种实施例的眼睛特征点示例图。如图3所示，本发明实施例通过openCV的68点模型，在左眼和右眼各取8个特征点。

判断疲劳的依据在根据眼睑覆盖瞳孔的面积超过75％的基础上，进行了相应的转化，以左眼为例，通过横向的眼睛距离(36与39的横坐标差值)与纵向眼睛距离(取37与41的纵坐标差值与38与40的纵坐标差值的平均值)的比值Q，通过摄像头捕捉实际人眨眼的时候的数据，拟合了一个比值与时间相关的函数。当Q小于0.1时，与眼睑覆盖瞳孔的面积超过75％相匹配，此时判定此帧图片为疲劳状态。当Q小于0.2大于0.1，与眼睑覆盖瞳孔的面积超过30％但小于75％相匹配，此时判定此帧图片为微疲劳状态。当Q大于0.2时，与眼睑覆盖瞳孔的面积小于30％相匹配，此时判定此帧图片为非疲劳状态。

对于眼睛的判断，在某段特定时间内，待检测的图片数量为100张，比值符合疲劳状态的图片数量为M1，当M1/100>0.4时，判定为疲劳状态。

同时，判断疲劳也需要对嘴巴的特征点进行疲劳判断。图4为本发明方法的一种实施例的嘴巴特征点示例图。

判断疲劳的依据在根据嘴巴的开合程度的基础上，进行了转化。考虑到嘴唇的厚度，取50与61，51与62，52与63，67与58，66与57，65与56，48与60，54与64的横纵坐标的平均值来减少嘴唇厚度的影响。之后取嘴巴横向距离X2(x7与x8的横坐标的差值)和嘴巴纵向距离Y2(y1与y4，y2与y5，y3与y6的差值加权和的平均值)的比值P。根据通过摄像头捕捉实际人嘴部变化与打哈欠的的时候的数据，拟合了一个比值与时间相关的函数。当P大于0.8时，与嘴巴张开程度100％相匹配，此时判定此帧图片为疲劳状态。当P大于0.4小于0.8时，与嘴巴张开程度50％-100％相匹配，此时判定此帧图片为微疲劳状态。当P小于0.4时，与嘴巴张开程度50％及以下相匹配，此时判定此帧图片为非疲劳状态。

对于嘴巴的判断，在某段特定时间内，待检测的图片数量为100张，比值符合疲劳状态的图片数量为M2，当M2/100>0.5时，判定为疲劳状态。

本发明在应用中的装置包括：

本发明的一种基于深度学习的人脸状态识别装置，包括：

所述的第二模块中所采用的深度神经网络配置为：

所述的深度神经网络配置为：

根据卷积公式：

得到输出的特征张量为Lout*Wout*D1；

隐藏层层数设置在50～60层；

所述第二模块中所述的深度神经网络预训练过程包括：

(1)利用ImageNet数据集对深度神经网络进行预训练；

利用右式计算平均化结果：

设定阈值mi，当Q低于mi则判定为疲劳；

设定阈值ni，当Q高于ni则判定为疲劳。

将其与阈值Z进行比较，若低于Z则判定为疲劳；

Claims

1.一种基于深度学习的人脸状态识别方法，其特征在于，包括以下步骤：

所述的深度神经网络配置为：

根据卷积公式：

得到输出的特征张量为Lout*Wout*D1；

第三层为第一层池化层，池化层参数为L1*L1，步长为sd1，其中l的大小设置为2或3；所得结果记为f(x)；

隐藏层层数设置在50～60层；

2.根据权利要求1所述的一种基于深度学习的人脸状态识别方法，其特征在于，步骤二中所述深度神经网络预训练过程包括：

(1)利用ImageNet数据集对深度神经网络进行预训练；

3.根据权利要求1所述的一种基于深度学习的人脸状态识别方法，其特征在于，所述人脸识别结果为视频流时，所述步骤二包括：

利用右式计算平均化结果：

(2-3-1)将眼睛上部的点的纵坐标值记为y_j，将眼睛下部的点纵坐标值记为y_k，将眼睛最左的点横坐标值记为x，将眼睛最右的点横坐标值记为x’；其中j，k为点的标号；由此可以得到比值：

设定阈值mi，当Q低于mi则判定为疲劳；

(2-3-2)将嘴巴上部的点的纵坐标值记为y′_j，将嘴巴下部的点纵坐标值记为y′_k,将嘴巴最左的点横坐标值记为x1，将嘴巴最右的点横坐标值记为x1’；其中j，k为点的标号；由此可以得到比值：

设定阈值ni，当Q高于ni则判定为疲劳；

将其与阈值Z进行比较，若低于Z则判定为疲劳；

(2-3-4)取ti时刻前固定N帧图片进行特征点检测，将判定为疲劳的图片数量记为M，可以得到比例值为T1＝M/N，第一种CNN卷积神经网络得到的疲劳预测值为Q_ti；将两种网络的值综合起来得到：

4.根据权利要求1所述的一种基于深度学习的人脸状态识别方法，其特征在于，所述步骤三中，以时间轴的形式记录表情数据，即将表情识别结果和采集时间对应存储至表情数据库中；同时，以时间轴形式记录疲劳数据和采集时间，记录到疲劳数据库中。

5.根据权利要求1所述的一种基于深度学习的人脸状态识别方法，其特征在于，所述步骤四包括：

(4-2)对所有表情预测平均值进行比较，平均值最大的表情即为ti时刻的情绪识别结果；所述表情类型包括厌恶、恐惧、开心、伤心、生气、惊讶、中性；根据疲劳阈值进行疲劳程度划分，作为疲劳识别结果。

6.一种基于深度学习的人脸状态识别装置，其特征在于，包括：

所述的第二模块中所采用的深度神经网络配置为：

根据卷积公式：

得到输出的特征张量为Lout*Wout*D1；

隐藏层层数设置在50～60层；

7.根据权利要求5所述的一种基于深度学习的人脸状态识别装置，其特征在于，第二模块中所述的深度神经网络预训练过程包括：

(1)利用ImageNet数据集对深度神经网络进行预训练；

8.根据权利要求6所述的一种基于深度学习的人脸状态识别装置，其特征在于，所述人脸识别结果为视频流时，所述第二模块用于执行以下步骤：

利用右式计算平均化结果：

设定阈值mi，当Q低于mi则判定为疲劳；

设定阈值ni，当Q高于ni则判定为疲劳；

将其与阈值Z进行比较，若低于Z则判定为疲劳；

9.根据权利要求6所述的一种基于深度学习的人脸状态识别装置，其特征在于，所述第四模块采用以下方式，从表情和疲劳数据库中获取多个表情和疲劳数据并进行分析，从而得到对被识别人的状态识别结果：

(4-2)对所有表情预测平均值进行比较，平均值最大的表情即为ti时刻的情绪识别结果；所述表情类型包括厌恶、恐惧、开心、伤心、生气、惊讶、中性；根据疲劳阈值进行疲劳程度划分，作为疲劳识别结果；