CN109635727A

CN109635727A - 一种人脸表情识别方法及装置

Info

Publication number: CN109635727A
Application number: CN201811514246.5A
Authority: CN
Inventors: 王林水
Original assignee: Kunshan Youni Electric Energy Motion Technology Co Ltd
Current assignee: Kunshan Helang Aviation Technology Co ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-04-16

Abstract

本发明属于计算机视觉及人机交互技术领域，具体涉及一种基于深度神经网络和动态贝叶斯网络的人脸表情识别方法及装置。识别方法包括以下步骤，S101、获取待识别图像序列和前一帧关键点信息；S102、对待识别图像序列进行预处理，检测图像中关键点信息；S103、将预处理后图像输入深度神经网络模型，获取人脸表情初步识别结果序列和置信度序列，提取人脸关键点信息；S104、将人脸表情初步识别结果序列、置信度序列和人脸关键点信息输入到动态贝叶斯网络模型，得到最终人脸表情识别结果。本发明构建了一种基于深度神经网络和动态贝叶斯网络的处理模型，能够识别出多种人脸表情，识别速度快，识别效果高。

Description

一种人脸表情识别方法及装置

技术领域

本发明属于计算机视觉及人机交互技术领域，具体涉及一种基于深度神经网络和动态贝叶斯网络的人脸表情识别方法及装置。

背景技术

人脸表情识别是指从给定的人脸图像中识别确定人脸的表情状态，包括，微笑、悲伤、惊讶、恐惧、厌恶、生气和自然等。通过分析人脸表情，进而分析人类的心理活动和精神状态，具有广泛的应用前景，目前已在人机交互、安全驾驶提醒、远程教育系统、智能交通、辅助医护等方面取得了良好的应用效果。相关技术中，通常基于单张图片进行人类面部表情的识别。但人类面部表情往往是一个连贯的动作，基于单张图片进行识别可能造成准确率较低的问题。

深度卷积神经网络通过构建含有多层神经网络和海量的训练样本，把低层特征组合起来形成高层特征进行表示，进而增强模型的分类或预测能力。它不仅强调了学习模型的深度，而且突出了特征学习对于网络模型的重要性，已经广泛应用于各种视觉处理任务并取得了良好的结果。

贝叶斯网络是不确定知识表达和推理领域最有效的理论模型之一。一个贝叶斯网络是一个有向无环图，由代表变量节点及连接这些节点有向边构成。节点代表随机变量，节点间的有向边代表了节点间的互相关系(由父节点指向其子节点)，用条件概率进行表达关系强度，适用于表达和分析不确定性和概率性的事件应用于有条件地依赖多种控制因素的决策，可以从不完全、不精确或不确定的知识或信息中做出推理。动态贝叶斯网络理论是贝叶斯网络理论的延拓，内容涉及推理和学习两大方面，该理论在人工智能、机器学习、自动控制领域得到越来越广泛的应用。

本发明公开了一种基于深度神经网络和动态贝叶斯网络来实现视频中的人脸表情识别方法。这种方法不但能够具有较高的准确率和鲁棒性，而且运行速度快，能应用于各种嵌入式系统。

发明内容

为克服相关技术中存在的问题，本发明公开提供一种人脸表情识别方法及装置，本发明构建了一种基于深度神经网络和动态贝叶斯网络的处理模型，能够识别出多种人脸表情，识别速度快，识别效果高。

本发明采用如下技术方案：

一种人脸表情识别方法，包括以下步骤，

S101、获取待识别图像序列和前一帧关键点信息；

S102、对待识别图像序列进行预处理，检测图像中关键点信息；

S103、将预处理后图像输入深度神经网络模型，获取人脸表情初步识别结果序列和置信度序列，提取人脸关键点信息；

S104、将人脸表情初步识别结果序列、置信度序列和人脸关键点信息输入到动态贝叶斯网络模型，得到最终人脸表情识别结果。

本技术方案进一步的优化，步骤S101中待识别图像序列包括单帧或两帧以上人脸图像，所述前一帧关键点信息是指人脸关键点中的活动单元位置及内容信息。

本技术方案进一步的优化，步骤S101中待识别图像的获取包括通过摄像头实时获取、通过接收来自外部设备传输或基于用户已有图像数据库或视频数据库中的一种或者多种。

本技术方案进一步的优化，步骤S102中图像预处理包括确定人脸区域中的关键特征点的位置，根据在人脸区域中检测到的关键特征点，通过刚体变换对相应的人脸图像进行对齐校准，使得人脸在图像中各关键特征点的位置一致。

本技术方案进一步的优化，步骤S103具体包括如下步骤，

S1031、从人脸表情数据库和应用测试数据中采集和标记人脸表情数据；

S1032、构建深度卷积神经网络；

S1033、利用S1031中的数据训练深度神经网络，得到各层的权重向量；

S1034、输入经过归一化的待识别图像；

S1035、利用S1033中训练的深度神经网络模型，对S1034的输入图像进行识别，得到人脸表情初步识别结果以及置信度；

S1036、重复S1034～S1035，得到人脸表情初步识别结果序列和置信度序列；

S1037、提取人脸关键点信息。

本技术方案进一步的优化，步骤S104具体包括如下步骤，

S1041、构建动态贝叶斯模型，包括条件概率和转移概率；

S1042、利用采集到的已知数据，训练动态贝叶斯网络，得到条件概率和转移概率矩阵；

S1043、利用动态贝叶斯网络，对于步骤S103输入的人脸表情初步识别结果序列、置信度序列和人脸关键点信息进行标记，得到待识别图像序列的最终人脸表情识别结果。

一种人脸表情识别装置，包括，

图像获取模块，用于获取待识别图像序列和前一帧关键点信息；

图像识别模块，对待识别图像序列进行预处理，检测图像中关键点信息；

人脸表情初步识别模块，将预处理后图像输入深度神经网络模型，获取人脸表情初步识别结果序列和置信度序列，提取人脸关键点信息；

人脸表情最终识别模块，将人脸表情初步识别模块输出的人脸表情初步识别结果序列、置信度序列和人脸关键点信息输入到动态贝叶斯网络模型，得到最终人脸表情识别结果。

本技术方案进一步的优化，图像获取模块中待识别图像序列包括单帧或两帧以上人脸图像，所述前一帧关键点信息是指人脸关键点中的活动单元位置及内容信息。

本技术方案进一步的优化，图像获取模块中待识别图像的获取包括通过摄像头实时获取、通过接收来自外部设备传输或基于用户已有图像数据库或视频数据库中的一种或者多种。

本技术方案进一步的优化，图像识别模块中图像预处理包括确定人脸区域中的关键特征点的位置，根据在人脸区域中检测到的关键特征点，通过刚体变换对相应的人脸图像进行对齐校准，使得人脸在图像中各关键特征点的位置一致。

本技术方案进一步的优化，人脸表情初步识别模块，具体包括如下步骤，

S1032、构建深度卷积神经网络；

S1034、输入经过归一化的待识别图像；

S1036、重复S1034～S1035，得到人脸表情初步识别结果序列和置信度序列

S1037、提取人脸关键点信息。

本技术方案进一步的优化，人脸表情最终识别模块，具体包括如下步骤，

S1041、构建动态贝叶斯模型，包括条件概率和转移概率；

本发明提出的人脸表情识别方法及装置，采用深度神经网络和动态贝叶斯网络相结合的方法，实现了对于视频流中的人脸表情识别，与传统的表情分析相比显著优势。首先，深度卷积神经网络模型采用非全连接方式传递特征，且同一特征图中神经元之间具有权值共享特点，减少了权值数量，降低了网络模型的复杂度，提高训练效率；第二，卷积神经网络模型直接使用训练图像样本进行自主学习，隐式的获取图像特征，实现特征提取和表情分类的同时进行；第三，动态贝叶斯网络利用人脸表情在时间域上的相关性，根据条件概率和转移函数，实现对于视频流中的图像序列进行标记，提高了人脸表情识别的准确性和鲁棒性。

附图说明

图1是人脸表情识别方法的流程图；

图2是人脸表情识别方法的原理图；

图3是深度卷积神经网络模型图；

图4是基于动态贝叶斯的人脸表情识别模型示意图；

图5是人脸表情识别装置示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

本发明基于深度神经网络训练一个对于单帧图像的人脸表情识别分类器，对于输入的人脸区域，输出预定义中的初始表情类别结果以及置信度。同时对于人脸区域，提取其中的若干关键点，包括眼睛、鼻子、嘴巴等，获得连续帧间的关键点活动单元。将深度网络识别结果和获取的关键点活动单元结合起来，构建动态贝叶斯网络，充分利用视频流的时空信息，实现对于每帧图像的最终人脸表情标注。

参阅图1所示，为本发明优选一实施例人脸表情识别方法的流程图，一种人脸表情识别方法，包括以下步骤，

S101、获取待识别图像序列和前一帧关键点信息。

其中，上述待识别图像序列包含单帧或两帧以上人脸图像。也即，本发明提出的人脸表情识别方法可以对连续的多帧人脸图像(例如视频)进行识别，同时，也兼容对单帧人脸图像的识别。

在步骤S101中，可以通过摄像头实时获取待识别的人脸图像序列，或者，也可以通过接收来自外部设备的人脸图像序列的方式，获取待识别的人脸图像序列，或者，也可以基于用户在已有图像数据库或视频数据库。

前一帧关键点信息是指人脸关键点中的活动单元(AU，ActionUnit)位置及内容信息。面部活动单元作为人脸表情识别的特征得到了广泛的研究并且取得了很好的效果，但是单纯利用AU通常很难精确定位，特别是在图像序列中间AU强度较低的图片很难准确识别。该实施例主要通过获取AU序列来构建系统模型。

S102、对待识别图像序列进行预处理，检测图像中关键点信息。

在步骤S101获取待识别的人脸图像序列之后，分别对上述人脸图像序列中的各帧人脸图像进行预处理，以使得预处理后的人脸图像能够更适用于后续的表情识别。

检测上述人脸区域中的关键特征点，并基于检测到的关键特征点对相应的人脸图像进行对齐校准。确定人脸区域中的关键特征点(例如眼睛、眉毛、鼻子、嘴巴、脸部外轮廓等)的位置，根据在人脸区域中检测到的关键特征点，可通过刚体变换对相应的人脸图像进行对齐校准，使得人脸在图像中各关键特征点的位置基本一致。

需要说明的是，若上述人脸图像序列包含单帧人脸图像，则上述分别对上述人脸图像序列中的各帧人脸图像进行预处理实际表现为对该单帧人脸图像进行预处理；若上述人脸图像序列包含两帧以上人脸图像，则上述分别对上述人脸图像序列中的各帧人脸图像进行预处理实际表现为对上述两帧以上人脸图像中的各帧人脸图像分别进行预处理。

S103、将预处理后图像输入深度神经网络模型，获取人脸表情初步识别结果序列和置信度序列，提取人脸关键点信息。

S1032、构建深度卷积神经网络；

S1034、输入经过归一化的待识别图像；

S1037、提取人脸关键点信息。

S1041、从输入的视频流中产生如S1036的人脸表情初步识别结果序列及置信度序列；

S1042、从驶入的视频流中产生基于S1037的人脸关键点活动单元；

S1043、构建动态贝叶斯模型，包括条件概率和转移概率；

S1044、利用采集到的已知数据，训练动态贝叶斯网络，得到条件概率和转移概率矩阵；

S1045、利用动态贝叶斯网络，对于S1041和S1042的输入进行标记，得到视频流中每帧的最终人脸表情识别结果。

步骤S103和步骤S104构成一个训练模型，该模型由深度卷积神经网络和动态贝叶斯网络构成。将步骤S102预处理后的各帧人脸图像输入已训练好的训练模型进行表情识别，获得上述人脸图像序列的表情识别结果。上述表情识别结果可指示上述人脸图像序列所属的表情类别，其中，存在的表情类别可包括但不限于：生气、厌恶、高兴、难过、害怕、惊讶、自然等。

参阅图2所示，为人脸表情识别方法的原理图，训练模型的输入输出端由深度卷积神经网络，动态贝叶斯网络以及相关的后处理组成。并且，上述训练模型通过标注表情类别的连续帧图像集合训练得到。由于上述训练模型是通过标注表情类别的连续帧图像集合训练得到，因此，一方面，上述训练模型可自动学习时间尺度的依赖关系，充分利用脸部表情变化的动态信息，联系表情当前帧的前后帧信息，使得表情识别更具鲁棒性；另一方面，可以精确界定中性表情以消除不同对象之间表情张力与强度等不同所带来的影响，提升识别准确率；再一方面，由于连续帧图像集合中的各帧图像与所标注的表情类别具有强相关性，因此，即使输入的图像序列存在扭曲失真也能够实现表情识别。

本发明中的深度卷积神经网络模型，参阅图3，为深度卷积神经网络模型图。该CNN模型的输入端到输出端依次由第一卷积层、局部对比度归一化层、第一池化层、第二卷积层、第二池化层、第三卷积层、全连接层和Softmax回归层构建。在具体实施例中，上述CNN模型也可以参照已有的CNN模型构建，此处不作限定。通过已训练完成的深度卷积神经网络对校准后的所述人脸图像进行人脸表情初步识别，并输出识别初步结果。即通过训练数据集对深度卷积神经网络进行训练，获得深度卷积神经网络的参数，通过获得所述参数的深度卷积神经网络(即训练后的所述深度卷积神经网络)对校准后的所述人脸图像进行初步识别，并输出初步识别结果。

面部活动单元(AU)定义了特定部位的面部肌肉的活动，本发明实施例基于需要识别的面部表情，特别的定义了以下面部活动单元：

AU1 眉角上升

AU2 眼睑上升

AU3 面颊上升

AU4 鼻子向上皱

AU5 嘴角拉升

AU6 嘴唇分开

AU7 下巴上升

对于每个AU的识别，在确定关键点位置和区域的前提下，可以通过提取相应的特征并训练分类器来实现，比如Gabor特征和Adaboost分类器，也可以通过训练卷积神经网络来实现分类，本发明不做限定。

每个AU的动态发展，他们之间的关系也经历着随时间的演变，并且可以真实的反应从一个中立的状态到弱情绪的演变，然后到达一个顶点，最后到达一个释放的状态。例如，一个微笑，通常，AU5首先出现来表示一个轻微的情绪，随着这个情绪的不断强烈，AU3或者AU6出现，之后行为同步的到达他们的顶峰，AU3和AU6将逐步的被释放，最后，AU5将被释放，并且所有的AU返回到中立的状态。

每个AU的动态发展和AU之间的关系都随着时间的演变而发展，通过一串AU随时间的变化的观测值，构建动态贝叶斯模型来模拟AU的演变及随着时间的发展，可以更好的对人脸表情进行识别。

一个动态贝叶斯网络通过连接一些静态贝叶斯网络的时间片得到，并且两个相邻的有关系的时间片通过隐形马尔科夫链被模拟，以至于随机变量在t时刻被其它变量的影响，除此之外，还会受到相应的随机变量在t-1时刻的影响。本发明实施例中，参阅图4所示，为基于动态贝叶斯的人脸表情识别模型示意图。确定节点间的相互关系，构建动态贝叶斯网络；通过对深度网络识别得到的人脸表情初步识别结果以及置信度、帧间人脸关键点活动单元的关系，分析得出用于人脸表情识别的动态贝叶斯网络拓扑结构图。

本实施例模型有一个隐藏节点(人脸表情)，n个观测节点(深度神经网络的识别结果，人脸关键运动单元结果)，可得到静态网络模型推理的数学公式为：

将静态的贝叶斯估计网络模型随着时间展开，得到由T个时间片静态网络节点构成的动态贝叶斯网络模型，每个时间片均含有一个隐藏节点和m个观测节点，对于由n个隐藏节点和m个可观测节点的网络，某个表情X的概率计算为：

其中，i＝1，2，…，T，j＝1，2，…m，k＝1，2，…n，x_ij为X_ij的一个状态的取值，下表i表示的是第i个时间片，下表j表示的是该时间片内的第j个隐藏节点，y_ij为观测变量Y_ij的状态取值，p(Y_ijo＝y_ij)为Y_ij的连续观测值属于状态y_ij的隶属度，p(x_ik|p_a(X_ik)为节点x_ij在父节点pa(X_ik)下的条件概率；p(y_ij|p_a(Y_ij)为节点y_ij在其父节点p_a(Y_ij)下的条件概率。

对于动态贝叶斯网络中选定的目标节点，结合历史样本的状态信息的统计和经验知识，求得相应的条件概率及转移概率，构建选定目标节点的各时刻特征。分别用表示某个表情下，由卷积神经网络识别结果和关键点基本运动的条件概率，其值由训练数据和经验得到。

用p_ij表示动态贝叶斯网络的转移概率，表示由t时刻由状态i变到状态j的概率。对于当前时刻的输入图像，可以由t-1时刻的深度神经网络识别结果，关键点基本活动单元信息，根据动态贝叶斯网络的计算，得到各个人脸表情的识别概率，选取其中概率值最大的作为当前人脸表情的识别结果。

根据得到的实际状态的值以及对应时刻的人脸表情观测值的类别，不断调整条件概率表和转移概率表。

一种人脸表情识别装置，包括，

参阅图5所示，为人脸表情识别装置示意图。该装置识别人脸表情的流程：S31、初始化系统，图像获取模块输入视频；S32、图像识别模块对于每一帧图像进行人脸检测，确认人脸区域，同时获取人脸关键点信息；S33、图像识别模块对于每一帧图像中的人脸进行对齐，得到正面人脸姿态的人脸区域图像；S34、利用人脸表情初步识别模块的深度神经网络，对单帧人脸图像进行识别，得到人脸表情结果及置信度；S35、计算人脸关键点活动单元；S36、不断重复S32～S35，得到人脸表情及置信度序列，人脸关键点活动单元；S37、利用人脸表情最终识别模块的动态贝叶斯网络，对于S36的人脸表情序列进行标记，得到视频流中每帧图像的人脸表情识别结果。

图像识别模块中，可以利用多种机器学习算法或者现成的库来获取人脸区域，比如OpenCV和dlib库。特别的，MTCNN人脸检测算法可以在检测人脸的同时，获取人脸的关键点信息，这样不但能提高检测准确率，也有利于提高系统处理效率。如果待处理图像中包含多个人脸，那么在对待处理图像中的人脸进行提取后，可能会获得多个大小不同的人脸图像，然后再对获得的多个人脸图像分别进行表情分类和人脸验证，以识别出每个人脸的表情。

图像识别模块中具体可以采用landmark方法来进行人脸图像的对齐校准。另外，在对人脸图像进行对齐校准的过程中，还可以根据预置的人脸模型进行关键特征点的定位调整。进一步，为了避免图像大小不统一影响识别的结果，上述分别对上述人脸图像序列中的各帧人脸图像进行预处理还可以包括如下步骤：将对齐校准后的人脸图像按照预设的模板进行编辑处理，以获得统一大小的人脸图像，其中，上述编辑处理包括如下一种或两种以上：剪切处理、缩放处理。例如，在上述编辑处理过程中，基于检测到的人脸区域中的关键特征点，将相应的人脸图像按统一模板剪切出来，并将人脸图像缩放到统一大小。

人脸表情初步识别模块中，训练并利用深度卷积神经网络进行人脸表情识别，具体的是，获取人脸表情数据库；将所述人脸表情数据库中的人脸表情图像作为训练数据集，并对所述训练数据集进行所述校准处理；对校准处理后的所述训练数据集进行数据增强处理；通过数据增强处理后的所述训练数据集对深度卷积神经网络进行训练，获得训练后的所述深度卷积神经网络；

需要说明的是，现有采用深度卷积神经网络识别人脸表情的方法，在人脸图像比较少的数据库中，由于训练数据较少，使得深度卷积神经网络在进行人脸表情识别时容易出现过拟合现象。而本发明通过对所述人脸图像进行数据增强处理，使得训练数据可以扩大到原来的20倍，从而有效避免了深度卷积神经网络在人脸图像少的数据库中出现过拟合现象。

人脸表情最终识别模块中，利用动态贝叶斯网络得到的人脸表情识别结果，其结果需要考虑到各个表情的特点和概率值之间的关联，以得到合理的结果。在很多情况下，通常自然表情会获得较高的概率值，对于最终的表情结果，需要基于概率计算结果，利用设定的阈值，静态或者动态的来进行判断分类。

需要说明的是，本发明实施例中的人脸表情识别方法可以由人脸表情识别装置执行，上述人脸表情识别装置可以集成在无人机、机器人、监控终端或其它终端中，此处不作限定。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种人脸表情识别方法，其特征在于：包括以下步骤，

S101、获取待识别图像序列和前一帧关键点信息；

2.如权利要求1所述的人脸表情识别方法，其特征在于：所述步骤S101中待识别图像序列包括单帧或两帧以上人脸图像，所述前一帧关键点信息是指人脸关键点中的活动单元位置及内容信息。

3.如权利要求1所述的人脸表情识别方法，其特征在于：所述步骤S101中待识别图像的获取包括通过摄像头实时获取、通过接收来自外部设备传输或基于用户已有图像数据库或视频数据库中的一种或者多种。

4.如权利要求1所述的人脸表情识别方法，其特征在于：所述步骤S102中图像预处理包括确定人脸区域中的关键特征点的位置，根据在人脸区域中检测到的关键特征点，通过刚体变换对相应的人脸图像进行对齐校准，使得人脸在图像中各关键特征点的位置一致。

5.如权利要求1所述的人脸表情识别方法，其特征在于：所述步骤S103具体包括如下步骤，

S1032、构建深度卷积神经网络；

S1034、输入经过归一化的待识别图像；

S1036、重复S1034～S1035，得到人脸表情初步识别结果序列和置信度序列S1037、提取人脸关键点信息。

6.如权利要求1所述的人脸表情识别方法，其特征在于：所述步骤S104具体包括如下步骤，

S1041、构建动态贝叶斯模型，包括条件概率和转移概率；

7.一种基于权利要求1-6任一项所述的人脸表情识别装置，其特征在于：包括，图像获取模块，用于获取待识别图像序列和前一帧关键点信息；

8.如权利要求7所述的人脸表情识别装置，其特征在于：所述图像获取模块中待识别图像序列包括单帧或两帧以上人脸图像，所述前一帧关键点信息是指人脸关键点中的活动单元位置及内容信息。

9.如权利要求7所述的人脸表情识别装置，其特征在于：所述图像获取模块中待识别图像的获取包括通过摄像头实时获取、通过接收来自外部设备传输或基于用户已有图像数据库或视频数据库中的一种或者多种。

10.如权利要求7所述的人脸表情识别装置，其特征在于：所述图像识别模块中图像预处理包括确定人脸区域中的关键特征点的位置，根据在人脸区域中检测到的关键特征点，通过刚体变换对相应的人脸图像进行对齐校准，使得人脸在图像中各关键特征点的位置一致。

11.如权利要求7所述的人脸表情识别装置，其特征在于：所述人脸表情初步识别模块，具体包括如下步骤，

S1032、构建深度卷积神经网络；

S1034、输入经过归一化的待识别图像；

S1036、重复S1034～S1035，得到人脸表情初步识别结果序列和置信度序列；S1037、提取人脸关键点信息。

12.如权利要求7所述的人脸表情识别装置，其特征在于：所述人脸表情最终识别模块，具体包括如下步骤，

S1041、构建动态贝叶斯模型，包括条件概率和转移概率；