CN109766840A

CN109766840A - 人脸表情识别方法、装置、终端及存储介质

Info

Publication number: CN109766840A
Application number: CN201910029579.7A
Authority: CN
Inventors: 李冠彬; 朱鑫; 王巨宏; 黄婷婷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2019-05-17
Anticipated expiration: 2039-01-10
Also published as: CN109766840B

Abstract

本发明实施例公开了一种人脸表情识别方法、装置、终端及存储介质，其中方法包括：获取目标人脸图像，所述目标人脸图像包括多个面部动作单元，所述多个面部动作单元之间的关系满足表情关联规则；调用深度神经网络从所述目标人脸图像中提取各面部动作单元的第一图像特征；调用图神经网络按照所述表情关联规则对所述各面部动作单元的第一图像特征进行传播处理，得到所述各面部动作单元的第二图像特征；根据所述各面部动作单元的第二图像特征识别所述目标人脸图像对应的目标表情。本发明实施例可以更好地对人脸图像进行表情识别，提高准确性。

Description

人脸表情识别方法、装置、终端及存储介质

技术领域

本发明涉及互联网技术领域，具体涉及图像识别技术领域，尤其涉及一种人脸表情识别方法、一种人脸表情识别装置、一种终端及一种计算机存储介质。

背景技术

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术。在图像识别领域中，人脸表情识别成为了一个热门的研究课题，所谓的人脸表情识别是指：从给定的人脸图像中识别出人脸图像所对应的表情，例如高兴、悲伤、兴奋等表情。因此，如何更好地对人脸图像进行表情识别成为了研究热点。

发明内容

本发明实施例提供了一种人脸表情识别方法、装置、终端及计算机存储介质，可以更好地对人脸图像进行表情识别，提高准确性。

一方面，本发明实施例提供了一种人脸表情识别方法，所述人脸表情识别方法包括：

获取目标人脸图像，所述目标人脸图像包括多个面部动作单元，所述多个面部动作单元之间的关系满足表情关联规则；

调用深度神经网络从所述目标人脸图像中提取各面部动作单元的第一图像特征；

调用图神经网络按照所述表情关联规则对所述各面部动作单元的第一图像特征进行传播处理，得到所述各面部动作单元的第二图像特征；

根据所述各面部动作单元的第二图像特征识别所述目标人脸图像对应的目标表情。

另一方面，本发明实施例提供了一种人脸表情识别装置，所述人脸表情识别装置包括：

获取单元，获取目标人脸图像，所述目标人脸图像包括多个面部动作单元，所述多个面部动作单元之间的关系满足表情关联规则；

调用单元，用于调用深度神经网络从所述目标人脸图像中提取各面部动作单元的第一图像特征；

所述调用单元，用于调用图神经网络按照所述表情关联规则对所述各面部动作单元的第一图像特征进行传播处理，得到所述各面部动作单元的第二图像特征；

识别单元，用于根据所述各面部动作单元的第二图像特征识别所述目标人脸图像对应的目标表情。

再一方面，本发明实施例提供了一种终端，所述终端包括输入设备和输出设备，所述终端还包括：

处理器，适于实现一条或一条以上指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由所述处理器加载并执行如下步骤：

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如下步骤：

本发明实施例可以获取目标人脸图像，目标人脸图像包括多个面部动作单元，该多个面部动作单元之间的关系满足表情关联规则。首先，调用深度神经网络从目标人脸图像中提取各面部动作单元的第一图像特征；通过提取各面部动作单元的第一图像特征，可以减少与面部动作单元的无关的冗余信息，有利于提升表情识别的准确性。其次，调用图神经网络按照表情关联规则对各面部动作单元的第一图像特征进行传播处理，得到各面部动作单元的第二图像特征；通过按照表情关联规则对第一图像特征进行传播处理，考虑了各面部动作单元之间的全局信息，使得传播处理所得到的第二图像特征较为全面准确。根据第二图像特征识别目标人脸图像对应的目标表情，可以提高目标表情的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种人脸表情的示意图；

图1b是本发明实施例提供的另一种人脸表情的示意图；

图1c是本发明实施例提供的另一种人脸表情的示意图；

图2a是本发明实施例提供的一种人脸表情识别方案的应用场景图；

图2b是本发明实施例提供的另一种人脸表情识别方案的应用场景图；

图2c是本发明实施例提供的另一种人脸表情识别方案的应用场景图；

图3a是本发明另一实施例提供的一种人脸表情识别方案的应用场景图；

图3b是本发明另一实施例提供的另一种人脸表情识别方案的应用场景图；

图3c是本发明另一实施例提供的另一种人脸表情识别方案的应用场景图；

图4是本发明实施例提供的一种人脸表情识别方法的流程示意图；

图5是本发明实施例提供的一种深度神经网络的结构示意图；

图6是本发明另一实施例提供的一种人脸表情识别方法的流程示意图；

图7a是本发明实施例提供的一种面部动作单元和人脸骨骼点的对应关系示意图；

图7b是本发明实施例提供的一种节点关系图的示意图；

图8是本发明实施例提供的一种人脸表情识别装置的结构示意图；

图9是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

面部动作单元(Action Units，AU)，又可称为人脸动作单元，是一种由人脸的一块或多块肌肉的运动所构成的单元，可用于表示人脸上微小的动作变化，不同的动作变化可以构成不同的人脸表情。因此，可以通过分析面部动作单元确定人脸表情，不同组合的面部动作单元的可以对应不同的人脸表情。例如，脸颊上提(AU6)和嘴角上扬(AU12)两个面部动作单元组合可以对应“高兴”的表情，如图1a所示；又如，眉毛下压(AU4)、脸颊上提(AU6)和鼻子紧皱(AU9)三个面部动作单元组合可以对应“厌恶”的表情，如图1b所示；再如，内侧眉毛上扬(AU1)、嘴角上扬(AU12)和下颌下垂(AU26)三个面部动作单元组合可以对应“惊讶”的表情，如图1c所示，等等。

本发明实施例基于面部动作单元提出了一种人脸表情识别方案，该方案可以应用在终端中以使得终端可以对目标人脸图像进行表情识别，此处的终端可以包括但不限于：智能手机、平板电脑、膝上计算机等便携式设备，台式计算机，以及用于人脸表情识别的设备，等等。终端可根据实际的业务需求将此人脸表情识别方案应用在不同的应用场景下，例如：人脸表情交互的应用场景、交通安全提醒的应用场景，等等。

以将人脸表情识别方案应用在人脸表情交互的应用场景中为例：终端可以为用户提供一个人脸表情识别的智能贴图功能，该智能贴图功能可作为一个系统功能，也可作为一个独立的应用程序；用户想要根据人脸表情实现智能贴图时，可以开启该智能贴图功能，如图2a所示。然后，终端可以通过摄像头获取用户的目标人脸图像，并从目标人脸图像中获取面部动作单元的图像特征，以及根据该图像特征识别目标人脸图像对应的目标表情，如图2b所示。在得到目标人脸图像对应的目标表情之后，终端可以根据目标表情确定出与目标表情相匹配的心情贴图，并将相匹配的心情贴图贴在目标人脸图像上。例如，目标人脸图像对应的目标表情为“高兴”，相匹配的心情贴图为贴图1，那么可以将贴图1贴在目标人脸图像上，如图2c所示。

以将人脸表情识别方案应用在交通安全提醒的应用场景中为例：终端可以和目标车辆建立连接，并为用户提供一个安全驾驶提醒功能，所述目标车辆配置有摄像头，该摄像头用于获取用户的目标人脸图像。用户在驾驶目标车辆前，可以通过终端开启该安全驾驶提醒功能，如图3a所示。在用户驾驶目标车辆的过程中，目标车辆上的摄像头可以实时采集用户的目标人脸图像，目标车辆可将采集到的目标人脸图像发送至终端。终端在接收到目标车辆发送的目标人脸图像之后，可以从目标人脸图像中获取面部动作单元的图像特征，以及根据该图像特征识别目标人脸图像对应的目标表情，如图3b所示。在得到目标人脸图像对应的目标表情之后，可以判断该目标表情与预设表情是否匹配，预设表情可以包括以下至少一种：“疲劳”、“愤怒”以及“焦虑”；若匹配，则可以认为此时的用户不适合继续驾驶，此时可以输出提示信息，以提示用户进行短暂休息，如图3c所示。

由上述的应用场景可知，终端需要对目标人脸图像进行表情识别，根据识别出的目标表情执行相应的操作。基于此，本发明实施例提出一种人脸表情识别方法以识别出目标表情，该人脸表情识别方法可以由上述所提及的终端执行。请参见图4，该人脸表情识别方法可包括以下步骤S401-S404：

S401，获取目标人脸图像。

目标人脸图像是指包含待识别人脸的图像，该目标人脸图像包括多个面部动作单元，多个面部动作单元之间的关系满足表情关联规则。其中，表情关联规则是一种包含多个面部动作单元之间的相关关系的规则，此处的相关关系可以包括正相关关系和负相关关系；所谓的正相关关系是指面部动作单元可同时出现的关系，所谓的负相关关系是指面部动作单元不可同时出现的关系。例如：AU4和AU7可以同时出现，则AU4和AU7之间为正相关关系；AU2和AU6不可同时出现，则AU2和AU6之间为负相关关系。

目标人脸图像可以包含以下至少一种人脸图像：实时拍摄的人脸图像、已存储的人脸图像，互联网中的人脸图像，等等。相应的，在获取目标人脸图像时，终端可以调用摄像组件对待识别人脸进行拍摄，将拍摄得到的人脸图像作为目标人脸图像，该摄像组件可以包括：终端上所配置的摄像头或者与终端相连接的摄像设备。在其他实施例中，终端也可以将从本地图库或者云相册中获取到的已存储的人脸图像作为目标人脸图像，此处的云相册是指基于云计算平台的网络相册；终端还可以在浏览互联网中的图像时，将用户界面所显示的人脸图像作为目标人脸图像，等等。

在其他实施例中，终端在获取目标人脸图像之前，还可以判断是否检测到人脸表情识别的触发事件；若是，则执行获取目标人脸图像的步骤。在一种实施方式中，触发事件可以包括：检测到用户正在使用目标应用程序的事件，例如：人脸表情识别应用程序、智能贴图应用程序等；检测到用户界面所显示的图像为人脸图像的事件；或者，检测到用户发送的人脸表情识别指令的事件，该人脸表情识别指令可以是语音指令、按压/点击指令、开启人脸表情识别功能的指令，等等。

S402，调用深度神经网络从目标人脸图像中提取各面部动作单元的第一图像特征。

在获取到目标人脸图像之后，可以调用深度神经网络对目标人脸图像进行特征识别，提取出各面部动作单元的第一图像特征；第一图像特征可以包括但不限于：颜色特征、纹理特征、形状特征和空间关系特征，等等。具体的，终端可以将目标人脸图像输入至深度神经网络中，由深度神经网络对目标人脸图像进行特征提取、归一化、裁剪以及特征学习等一系列处理，从而输出各面部动作单元的第一图像特征。本发明实施例所提及的深度神经网络可以包括用于特征提取的卷积神经网络，该卷积神经网络可以包括但不限于：VGG(Visual Geometry Group Network，视觉几何群网络)，例如VGG19网络、VGG16网络；AlexNet网络(一种神经网络)；ResNet(Residual Neural Network，残差神经网络)；以及DenseNet网络(Densely Connected Convolutional Networks，密集连通卷积网络)，等等；卷积神经网络的激活函数可以选用ReLU函数(Rectified Linear Unit，线性整流函数)、sigmoid函数(一种用作神经网络的阈值函数)、tanh函数(双曲正切函数)等。

以深度神经网络为VGG19网络，激活函数为ReLU函数为例，深度神经网络的结构可以如图5所示：该深度神经网络可以包括特征提取模块、归一化模块、裁剪模块、局部学习模块等。其中，特征提取模块用于对目标人脸图像进行特征提取，从而得到目标人脸图像所对应的初始全局特征图。该特征提取模块可以包括多组卷积层，每组卷积层中均可包括多个卷积层，且每组卷积层后面均可以接一个池化层。本发明实施例在每组卷积层后面连接池化层，可以对每组卷积层所提取的图像特征进行压缩，提取主要的图像特征；减小卷积层所得到的特征图的大小，简化网络计算复杂度。以特征提取模块包括12个卷积层为例，可以将12个卷积层划分为4个组，每个组可以包括2、2、4和4个卷积核大小为3×3的卷积层；每个组后面接有2×2的池化层。需要说明的是，每组卷积层后面所连接的池化层的大小可以相同，也可以不同；例如每个组后面可以均接2×2的池化层，也可以分别接16×16、8×8、4×4、2×2的池化层。当然，可以理解的是，根据业务需求可以指定某组卷积层后面不接池化层，例如指定最后一组卷积层后面不接池化层。

归一化模块用于对初始全局特征图进行归一化处理，得到目标全局特征图，使得深度神经网络可以更好地收敛；归一化模块可以包括局部响应层(Local response nom，LRN)。裁剪模块用于对目标全局特征图进行裁剪，得到每个面部动作单元所对应的局部特征图，由于人脸对称性，每个面部动作单元可以包括两个局部特征图。局部学习模块用于对每个面部动作单元所对应的局部特征图进行特征学习，得到每个面部动作单元的第一图像特征。局部学习模块可以包括多个局部特征学习通道，一个局部特征图对应一个局部特征学习通道；每个局部特征学习通道由一个或多个卷积层和一个或多个全连接层构成。例如每个局部特征学习通道可以由一个大小为3×3的卷积层和一个全连接层构成。

S403，调用图神经网络按照表情关联规则对各面部动作单元的第一图像特征进行传播处理，得到各面部动作单元的第二图像特征。

实践表明，AU由人脸面部的肌肉控制，有些面部动作单元经常同时出现(正相关)，而有些面部动作单元则几乎不同时出现(负相关)。由此可见，面部动作单元之间具有相关关系，面部动作单元之间存在全局关系信息，所谓的全局关系信息是指各面部动作单元之间的图像信息，例如，脸颊上提AU和嘴角上扬AU之间的图像信息。而调用深度神经网络所提取得到的各面部动作单元的第一图像特征只包含了各面部动作单元的局部关系信息，所谓的局部关系信息是指面部动作单元自身的图像信息；例如脸颊上提面部动作单元(AU6)的第一图像特征只包含了AU6自身的局部关系信息，如脸颊的图像信息。

由于各面部动作单元的第一图像特征只包含了局部关系信息，缺少全局关系信息，可能导致根据第一图像特征所识别出的目标人脸图像的目标表情不准确。由前述可知，目标人脸图像中的各面部动作单元之间的关系满足表情关联规则，而表情关联规则是一种包含多个面部动作单元之间的相关关系的规则；因此在得到各面部动作单元的第一图像特征后，可以调用图神经网络按照表情关联规则对各面部动作单元的第一图像特征进行传播处理，此处的图神经网络是一种基于图结构的广义人工神经网络，所谓的图结构是一种复杂的数据结构，可由多个节点构成，两个节点之间可具有相关关系。通过调用图神经网络进行图像特征的传播处理可以考虑各面部动作单元之间的全局关系信息(或称为上下文关系)，基于各面部动作单元之间的上下文关系可实现基于语义关系的表情识别，使得传播处理所得到的第二图像特征较为全面准确。在一个实施例中，图神经网络可以包括但不限于：GGNN(Gated Graph Neural Network，门控图神经网络)、GCN(Graph ConvolutionalNetwork，图卷积网络)等，本发明实施例以GGNN网络为例。

S404，根据各面部动作单元的第二图像特征识别目标人脸图像对应的目标表情。

请参见图6，是本发明实施例提供的另一种人脸表情识别方法的流程示意图。该人脸表情识别方法可以由上述所提及的终端执行。请参见图6，该人脸表情识别方法可包括以下步骤S601-S605：

S601，获取目标人脸图像。

S602，调用深度神经网络从目标人脸图像中提取各面部动作单元的第一图像特征。

步骤S601的具体实施方式可以参见上述实施例的步骤S401，在此不再赘述。目标人脸图像包括多个面部动作单元，多个面部动作单元之间的关系满足表情关联规则。多个面部动作单元包括目标面部动作单元，所述目标面部动作单元为多个面部动作单元中的任一个面部动作单元。在获取到目标人脸图像之后，可以调用深度神经网络从目标人脸图像中提取各面部动作单元的第一图像特征，其具体的实施过程可包括如下步骤s11-s13：

s11，调用深度神经网络对目标人脸图像进行特征提取得到多组特征图，并对多组特征图进行拼接处理得到目标全局特征图。

具体的，可以将目标人脸图像输入至深度神经网络中的特征提取模块中，由特征提取模块中的多组卷积层和池化层分别对目标人脸图像进行特征提取，得到多组特征图；然后再对多组特征图进行拼接处理得到目标全局特征图。其中，在对多组特征图进行拼接处理得到目标全局特征图时，可以先按照预设尺寸对多组特征图的图像尺寸进行调整，使得调整后的多组特征图的图像尺寸相同以便于后续的拼接处理；预设尺寸可以根据业务需求或者经验值设置，例如预设尺寸设置为14×14。其次，将调整后的多组特征图进行拼接处理得到初始全局特征图。然后，对初始全局特征图进行归一化处理得到目标全局特征图。具体的，可以调用归一化模块中的局部响应层(LRN)采用式1.1所示的归一化公式对初始全局特征图进行归一化处理。

其中，α，β和k均为超参数，所谓的超参数是指在网络训练前所设置的参数，即不是通过网络训练所得到的参数；C表示特征图的通道数，a_c表示第c个通道的像素a，n表示用来归一化a_c的相邻通道数，b_c表示对第c个通道的像素a进行归一化处理后的像素。

s12，确定目标面部动作单元的中心点，并根据目标面部动作单元的中心点对目标全局特征图进行裁剪，得到目标面部动作单元所对应的局部特征图。

由于人脸具有对称性，因此每个面部动作单元至少有两个中心点。在本实施例中，目标面部动作单元的中心点包括第一中心点和第二中心点。相应的，确定目标面部动作单元的中心点的具体实施方式可以是：先采用骨骼点检测算法检测目标全局特征图中的人脸骨骼点，此处的骨骼点检测算法可以包括但不限于：G-RMI算法(一种用于检测骨骼点的算法)、CFN算法(一种用于检测骨骼点的算法)、RMPE(Regional Multi-Person PoseEstimation，区域多人姿态估计)算法、Mask R-CNN算法(一种用于检测骨骼点的算法)，等等。其次，基于面部动作单元与人脸骨骼点的对应关系，将目标面部动作单元所对应的人脸骨骼点作为第一中心点。此处的面部动作单元与人脸骨骼点的对应关系可以预先设置：可以预先采用大量的人脸图像统计每个面部动作单元被激活时所对应的人脸位置，该人脸位置可表示面部动作单元的区域，面部动作单元被激活是指构成该面部动作单元的肌肉产生了运动；根据统计到的人脸位置和人脸骨骼点位置的关系确定面部动作单元与人脸骨骼点的对应关系，该对应关系表征面部动作单元和离该面部动作单元的区域中心最近的人脸骨骼点之间的一一对应关系。通过上述方法，可以得到每个面部动作单元与人脸骨骼点的对应关系，如图7a所示。

因此，在基于面部动作单元与人脸骨骼点的对应关系，将目标面部动作单元所对应的人脸骨骼点作为第一中心点时，可以选取离目标面部动作单元的区域中心最近的人脸骨骼点作为该目标面部动作单元所对应的人脸骨骼点，即选取离目标面部动作单元的区域中心最近的人脸骨骼点作为目标面部动作单元的第一中心点，以提高准确性。然后，可以根据人脸对称性和第一中心点确定第二中心点，该第二中心点与第一中心点在目标全局特征图中相对于人脸正中线相互对称，所谓人脸正中线是指：将人脸等分成左右两部分的假想线，如图7a中的虚线所示。具体的，可以先将人脸中的眉心、鼻尖以及唇珠所构成的连线作为人脸正中线，再根据人脸对称性以及人脸正中线在目标全局特征图中查找与第一中心点相对称的点，并将查找到的与第一中心点相对称的点作为第二中心点。举例来说，设目标面部动作单元为AU6，如图7a所示，根据人脸对称性可知，目标人脸图像以人脸正中线为对称轴被等分为左右两侧，左右两侧各包含一个AU6；那么，可以在目标全局特征图左侧中选取离左侧AU6的区域中心最近的人脸骨骼点作为AU6的第一中心点，如图7a中所标识的“1”；然后根据人脸对称性以及人脸正中线在目标全局特征图的右侧中查找右侧AU6的第二中心点，第二中心点距离人脸正中线的距离与第一中心点距离人脸正中线的距离相等，如图7a中所标识的“2”。

在确定了目标面部动作单元的中心点之后，可以根据目标面部动作单元的中心点对目标全局特征图进行裁剪，得到目标面部动作单元所对应的局部特征图。具体的，可以调用深度神经网络中的裁剪模块以目标面部动作单元的中心点为中心，在目标全局特征图上裁剪出预设图像大小的局部特征图。预设图像大小可以根据业务需求或者经验值设置，例如预设图像大小设置为6×6，那么可以调用裁剪模块以目标面部动作单元的中心点为中心，在目标全局特征图上裁剪出6×6大小的局部特征图。本发明实施例采用先拼接，再裁剪的方式获取目标面部动作单元所对应的局部特征图，可使得目标面部动作单元所对应的局部特征图的表达更为准确，以提高后续表情识别的准确性。需要说明的是，可以按照此裁剪方法对每个面部动作单元进行裁剪，得到每个面部动作单元的局部特征图。由于每个面部动作单元均有两个中心点，那么设有N个面部动作单元，则可以裁剪得到2N个局部特征图。

s13，对目标面部动作单元所对应的局部特征图进行特征学习，得到目标面部动作单元的第一图像特征。

由于目标面部动作单元的中心点包括第一中心点和第二中心点，那么相应的，目标面部动作单元所对应的局部特征图包括第一中心点的第一局部特征图和第二中心点的第二局部特征图。在对目标面部动作单元所对应的局部特征图进行特征学习，得到目标面部动作单元的第一图像特征时，可以对第一局部特征图进行特征学习得到第一局部特征，并对第二局部特征图进行特征学习得到第二局部特征。具体的，可以将第一局部特征图输入至深度神经网络中的局部学习模块中的第一局部特征学习通道中进行特征学习，得到第一局部特征；同理可以将第二局部特征图输入至第二局部特征学习通道中进行特征学习，得到第二局部特征。然后，求取第一局部特征和第二局部特征的平均特征作为目标面部动作单元的第一图像特征。在一种实施方式中，可以采用式1.2计算目标面部动作单元的第一图像特征。

其中，x_v表示目标面部动作单元的第一图像特征，f_2v和f_2v+1分别表示目标面部动作单元的第一局部特征和第二局部特征，表示第一局部特征和第二局部特征之间的元素相加。其中，第一图像特征可以采用多维向量表示，例如可以是150维的特征向量。通过利用人脸对称性确定出与第一中心点相对称的第二中心点，可使得在因遮挡物等导致第一中心点的图像信息不完整时，通过求取第一中心点的第一局部特征图和第二中心点的第二局部特征图的平均特征作为目标面部动作单元的第一图像特征，从而保证第一图像特征的完整性，提高后续表情识别的准确性。

S603，调用图神经网络按照表情关联规则对各面部动作单元的第一图像特征进行传播处理，得到各面部动作单元的第二图像特征。

表情关联规则可以包括关系矩阵，关系矩阵包括多个面部动作单元之间的相关关系，该相关关系包括正相关关系和负相关关系。而图神经网络由多个节点构成，每个节点对应一个面部动作单元，各节点之间具有正相关关系或者负相关关系。因此，图神经网络中可包括一个节点关系图，该节点关系图可以与关系矩阵相对应。终端可以先获取表情关系规则中的关系矩阵，然后根据关系矩阵构建图神经网络的节点关系图，以便后续可以调用图神经网络基于该节点关系图(或关系矩阵)进行传播处理，使得在图像特征更新过程中加入面部动作单元之间的上下文关系，提高准确性。在获取关系矩阵时，可以获取样本数据集，该样本数据集中包括多个面部动作单元；基于样本数据集中的各面部动作单元之间的关系统计信息构建初始矩阵，该初始矩阵根据正相关关系矩阵和负相关关系矩阵确定。其中，关系统计信息可以如式1.3和1.4所示：

a_pos_i,j＝[P(y_i＝1|y_j＝1)-P(y_i＝1)>p_positive] 式1.3

a_neg_i,j＝[P(y_i＝1|y_j＝1)-P(y_j＝1)<p_negative] 式1.4其中，y_n表示第n个面部动作单元的标签，P表示条件概率，p_positive表示正相关的阈值，p_negative表示负相关的阈值，正相关的阈值和负相关的阈值均可以根据实际的业务需求或者经验值设置；a_pos_i,j∈A_pos，a_neg_i,j∈A_neg。因此在得到各面部动作单元的关系统计信息之后，可以先基于得到的关系统计信息确定正相关关系矩阵A_pos以及负相关关系矩阵A_neg。然后可以根据该正相关关系矩阵A_pos和该负相关关系矩阵A_neg确定初始矩阵为A＝[A_pos-I(A_pos),A_neg-I(A_neg),(A_pos-I(A_pos))^T,(A_neg-I(A_neg))^T]。其中，I(A_pos)表示与正相关关系矩阵A_pos大小相同的单位矩阵；I(A_neg)表示与负相关关系矩阵A_neg大小相同的单位矩阵。

在构建初始矩阵之后，可以获取先验信息，该先验信息包括样本数据集中的至少一对面部动作单元之间的关系标注信息，关系标注信息可以包括从面部解剖学所得到的至少一对面部动作单元之间的相关关系，例如(AU4，AU7)，(AU15，AU24)为正相关关系，(AU2，AU6)，(AU12，AU15)，(AU12，AU17)为负相关关系。然后采用先验信息对初始矩阵进行校正，得到关系矩阵A'。在得到关系矩阵之后，可以将各面部动作单元设置为节点关系图的各节点，然后根据关系矩阵确定各节点之间的相关关系，从而得到节点关系图，如图7b所示。其中，在节点关系图中，用有箭头的直线表示单向关系，用无箭头的直线表示双向关系；用实线表示正相关关系，用虚线表示负相关关系。

终端在调用图神经网络按照表情关联规则对各面部动作单元的第一图像特征进行传播处理，得到各面部动作单元的第二图像特征时，可以先调用图神经网络按照表情关联规则对目标面部动作单元的第一图像特征进行传播处理，得到目标面部动作单元的中间图像特征；再根据目标面部动作单元的中间图像特征和目标面部动作单元的第一图像特征进行特征映射，得到目标面部动作单元的第二图像特征。

其中，调用图神经网络按照表情关联规则对目标面部动作单元的第一图像特征进行传播处理，得到目标面部动作单元的中间图像特征的具体实施方式可以是：先调用图神经网络对目标面部动作单元的第一图像特征进行初始化处理，得到目标面部动作单元的初始图像特征。其次，根据关系矩阵中的各面部动作单元之间的相关关系，从多个面部动作单元中确定与目标面部动作单元相关的相关面部动作单元。然后，将目标面部动作单元的初始图像特征传播至相关面部动作单元进行特征更新，得到目标面部动作单元的中间图像特征。

在具体实施过程中，终端可以先调用图神经网络采用式1.5所示的特征初始化公式将目标面部动作单元的第一图像特征x_v进行初始化处理，得到目标面部动作单元的初始图像特征

然后确定与目标面部动作单元相关的相关面部动作单元，并采用如下式所示的传播方法将目标面部动作单元的初始图像特征传播至相关面部动作单元进行特征更新：

其中，A_v是关系矩阵A'中有关目标面部动作单元的子矩阵，W和U为图神经网络中的节点关系图中的权重值，σ和tanh为激活函数，表示元素间相乘，以及均可表示目标面部动作单元的图像特征在第t次迭代传播后所生成的中间变量；具体的：表示目标面部动作单元的上一时刻的图像特征经过一次特征传播后所得到的图像特征，以及均表示目标面部动作单元的图像特征在第t次迭代传播后所得到的图像特征；b为模型参数，r和z用于区分W^z和W^r两个不同的模型参数，以及区分U^z和U^r两个不同的模型参数。经过T次迭代传播更新后，可以得到目标面部动作单元的中间图像特征然后将中间图像特征和第一图像特征进行特征映射，得到目标面部动作单元的第二图像特征g表示中间图像特征和第一图像特征之间的映射关系。

需要说明的是，本发明实施例中的深度神经网络和图神经网络均是采用大量的训练集进行网络学习训练所得到的网络，深度神经网络和图神经网络在网络训练过程中受加权损失函数的约束。本发明实施例以一种端到端的方式，通过加权损失函数将深度神经网络和图神经网络一起联合训练，可成功将图像特征提取和面部动作单元之间的相关关系建模于一体，从而提高表情识别精度。在网络训练的过程中，深度神经网络和图神经网络采用加权损失函数进行学习，主要分为三个阶段，首先微调预训练的深度神经网络，然后固定深度神经网络的多组卷积层以训练其余的特征提取模块和裁剪模块的参数，最后固定特征提取模块和裁剪模块的参数，训练图神经网络的参数。其中，加权损失函数可以如式1.6所示：

其中，l表示标签，p表示预测值，[x]代表x成立时为1，C表示面部动作单元的个数，N代表批处理个数，M表示训练集中样本个数，此处的样本是指训练集中的样本图像，表示第i个动作单元正样本在训练集中的比例，表示第i个动作单元负样本在训练集中的比例。其中，正样本是指标签为“1”的样本，即被激活的面部动作单元；负样本是指标签为“0”的样本，即未被激活的面部动作单元。例如，i等于1时，第1个动作单位为AU1，那么表示标签为“1”的AU1在训练集中的比例，表示标签为“0”的AU1在训练集中的比例。

S604，根据各面部动作单元的第二图像特征预测各面部动作单元的标签信息。

此处的标签信息用于表征各面部动作单元的状态，此处的状态可包括激活状态和未激活状态。所谓的激活状态是指构成面部动作单元的肌肉产生运动的状态，所谓的未激活状态是指构成面部动作单元的肌肉未产生运动的状态。本发明实施例用“1”表示激活状态，用“0”表示未激活状态；因此，根据各面部动作单元的第二图像特征预测得到的各面部动作单元的标签信息可以表示为“1”或者“0”。具体实施过程中，可以将各面部动作单元的第二图像特征输入至分类器中进行标签预测，从而得到各面部动作单元的标签信息。

S605，根据各面部动作单元的标签信息识别目标人脸图像对应的目标表情。

在得到各面部动作单元的标签信息之后，可以根据各面部单元的标签信息确定目标人脸图像中的处于激活状态的面部动作单元。具体的，可以将标签信息表示为“1”的面部动作单元确定为处于激活状态的面部动作单元。由前述可知，不同组合的面部动作单元的可以对应不同的人脸表情，因此可以根据处于激活状态的面部动作单元所构成的组合确定目标人脸图像所对应的目标表情。例如，目标人脸图像中处于激活状态的面部动作单元包括脸颊上提(AU6)和嘴角上扬(AU12)，那么根据AU6和AU12可以确定目标人脸图像所对应的目标表情为“高兴”。

在一个实施例中，在识别出目标人脸图像对应的目标表情之后，还可以根据目标表情进行业务处理，业务处理包括以下至少一项：行为/心理分析处理、人脸表情交互处理、以及交通安全处理，等等。其中，人脸表情交互处理是指：根据目标表情确定与该目标表情相匹配的心情贴图，将相匹配的贴图贴在目标人脸图像上；交通安全处理是指：若目标表情为“疲劳”“愤怒”或者“焦虑”，则输出提示信息，以提示驾驶员进行短暂休息。

基于上述人脸表情识别方法实施例的描述，本发明实施例还公开了一种人脸表情识别装置，所述人脸表情识别装置可以是运行于终端中的一个计算机程序(包括程序代码)，也可以是包含在终端中的一个实体装置。该人脸表情识别装置可以执行图4和图6所示的方法。请参见图8，所述人脸表情识别装置可以运行如下单元：

获取单元101，获取目标人脸图像，所述目标人脸图像包括多个面部动作单元，所述多个面部动作单元之间的关系满足表情关联规则；

调用单元102，用于调用深度神经网络从所述目标人脸图像中提取各面部动作单元的第一图像特征；

所述调用单元102，用于调用图神经网络按照所述表情关联规则对所述各面部动作单元的第一图像特征进行传播处理，得到所述各面部动作单元的第二图像特征；

识别单元103，用于根据所述各面部动作单元的第二图像特征识别所述目标人脸图像对应的目标表情。

在一种实施方式中，所述多个面部动作单元包括目标面部动作单元，所述目标面部动作单元为所述多个面部动作单元中的任一个面部动作单元；相应的，调用单元102在用于调用深度神经网络从所述目标人脸图像中提取各面部动作单元的第一图像特征时，具体用于：

调用深度神经网络对所述目标人脸图像进行特征提取得到多组特征图，并对所述多组特征图进行拼接处理得到目标全局特征图；

确定所述目标面部动作单元的中心点，并根据所述目标面部动作单元的中心点对所述目标全局特征图进行裁剪，得到所述目标面部动作单元所对应的局部特征图；

对所述目标面部动作单元所对应的局部特征图进行特征学习，得到所述目标面部动作单元的第一图像特征。

再一种实施方式中，调用单元102在用于对所述多组特征图进行拼接处理得到目标全局特征图时，具体用于：

按照预设尺寸对所述多组特征图的图像尺寸进行调整；

将调整后的多组特征图进行拼接处理得到初始全局特征图；

对所述初始全局特征图进行归一化处理得到目标全局特征图。

再一种实施方式中，所述目标面部动作单元的中心点包括第一中心点和第二中心点；相应的，调用单元102在用于确定所述目标面部动作单元的中心点时，具体用于：

采用骨骼点检测算法检测所述目标全局特征图中的人脸骨骼点；

基于面部动作单元与人脸骨骼点的对应关系，将所述目标面部动作单元所对应的人脸骨骼点作为所述第一中心点；

根据人脸对称性和所述第一中心点确定所述第二中心点，所述第二中心点与所述第一中心点在所述目标全局特征图中相对于人脸正中线相互对称。

再一种实施方式中，所述目标面部动作单元所对应的局部特征图包括所述第一中心点的第一局部特征图和所述第二中心点的第二局部特征图；相应的，调用单元102在用于对所述目标面部动作单元所对应的局部特征图进行特征学习，得到所述目标面部动作单元的第一图像特征时，具体用于：

对所述第一局部特征图进行特征学习得到第一局部特征，并对所述第二局部特征图进行特征学习得到第二局部特征；

求取所述第一局部特征和第二局部特征的平均特征作为所述目标面部动作单元的第一图像特征。

再一种实施方式中，调用单元102在用于调用图神经网络按照所述表情关联规则对所述各面部动作单元的第一图像特征进行传播处理，得到所述各面部动作单元的第二图像特征时，具体用于：

调用所述图神经网络按照所述表情关联规则对所述目标面部动作单元的第一图像特征进行传播处理，得到所述目标面部动作单元的中间图像特征；

根据所述目标面部动作单元的中间图像特征和所述目标面部动作单元的第一图像特征进行特征映射，得到所述目标面部动作单元的第二图像特征。

再一种实施方式中，所述表情关联规则包括关系矩阵，所述关系矩阵包括多个面部动作单元之间的相关关系，所述相关关系包括正相关关系和负相关关系；相应的，调用单元102在用于调用所述图神经网络按照所述表情关联规则对所述目标面部动作单元的第一图像特征进行传播处理，得到所述目标面部动作单元的中间图像特征时，具体用于：

调用所述图神经网络对所述目标面部动作单元的第一图像特征进行初始化处理，得到所述目标面部动作单元的初始图像特征；

根据所述关系矩阵中的各面部动作单元之间的相关关系，从所述多个面部动作单元中确定与所述目标面部动作单元相关的相关面部动作单元；

将所述目标面部动作单元的初始图像特征传播至所述相关面部动作单元进行特征更新，得到所述目标面部动作单元的中间图像特征。

再一种实施方式中，获取单元101，还可用于：

获取样本数据集，所述样本数据集中包括多个面部动作单元；

基于所述样本数据集中的各面部动作单元之间的关系统计信息构建初始矩阵，所述初始矩阵根据正相关关系矩阵和负相关关系矩阵确定；

获取先验信息，所述先验信息包括所述样本数据集中的至少一对面部动作单元之间的关系标注信息；

采用所述先验信息对所述初始矩阵进行校正，得到所述关系矩阵。

再一种实施方式中，识别单元103在用于根据所述各面部动作单元的第二图像特征识别所述目标人脸图像对应的目标表情时，具体用于：

根据所述各面部动作单元的第二图像特征预测所述各面部动作单元的标签信息，所述标签信息用于表征所述各面部动作单元的状态，所述状态包括激活状态和未激活状态；

根据所述各面部动作单元的标签信息识别所述目标人脸图像对应的目标表情。

再一种实施方式中，所述深度神经网络和所述图神经网络在网络训练过程中受加权损失函数的约束。

根据本发明的一个实施例，图4和图6所示的方法所涉及的各个步骤均可以是由图8所示的人脸表情识别装置中的各个单元来执行的。例如，图4中所示的步骤S401可以由图8中所示的获取单元101来执行，步骤S402和S403可由图8中所示的调用单元102来执行，步骤S404可由图8中所示的识别单元103来执行；又如，图6中所示的步骤S601可以由图8中所示的获取单元101来执行，步骤S602和S603可由图8中所示的调用单元102来执行，步骤S604和S605可由图8中所示的识别单元103来执行。

根据本发明的另一个实施例，图8所示的人脸表情识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，人脸表情识别装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图4和图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的人脸表情识别装置设备，以及来实现本发明实施例的人脸表情识别方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种终端。请参见图9，该终端至少包括处理器201、输入设备202、输出设备203以及计算机存储介质204。其中，终端内的处理器201、输入设备202、输出设备203以及计算机存储介质204可通过总线或其他方式连接。在一种实施方式中，所述输入设备202中还可包括摄像组件，摄像组件可用于采集目标人脸图像，所述摄像组件可以是终端出厂时配置在终端上的组件，也可以是与终端相连接的外部组件。在一种实施方式中，所述终端还可包括人脸表情识别装置，该人脸表情识别装置用于对目标人脸图像进行人脸表情识别。

计算机存储介质204可以存储在终端的存储器中，所述计算机存储介质204用于存储计算机程序，所述计算机程序包括程序指令，所述处理器201用于执行所述计算机存储介质204存储的程序指令。处理器201(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器201可以用于对获取到的目标人脸图像进行一系列的表情识别处理，包括：获取目标人脸图像，所述目标人脸图像包括多个面部动作单元，所述多个面部动作单元之间的关系满足表情关联规则；调用深度神经网络从所述目标人脸图像中提取各面部动作单元的第一图像特征；调用图神经网络按照所述表情关联规则对所述各面部动作单元的第一图像特征进行传播处理，得到所述各面部动作单元的第二图像特征；根据所述各面部动作单元的第二图像特征识别所述目标人脸图像对应的目标表情，等等。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器201加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器201加载并执行计算机存储介质中存放的一条或一条以上指令，以实现上述有关人脸表情识别实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或一条以上指令由处理器201加载并执行如下步骤：

在一种实施方式中，所述多个面部动作单元包括目标面部动作单元，所述目标面部动作单元为所述多个面部动作单元中的任一个面部动作单元；相应的，在调用深度神经网络从所述目标人脸图像中提取各面部动作单元的第一图像特征时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，在对所述多组特征图进行拼接处理得到目标全局特征图时，所述一条或一条以上指令由处理器201加载并具体执行：

按照预设尺寸对所述多组特征图的图像尺寸进行调整；

将调整后的多组特征图进行拼接处理得到初始全局特征图；

再一种实施方式中，所述目标面部动作单元的中心点包括第一中心点和第二中心点；相应的，在确定所述目标面部动作单元的中心点时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，所述目标面部动作单元所对应的局部特征图包括所述第一中心点的第一局部特征图和所述第二中心点的第二局部特征图；相应的，在对所述目标面部动作单元所对应的局部特征图进行特征学习，得到所述目标面部动作单元的第一图像特征时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，在调用图神经网络按照所述表情关联规则对所述各面部动作单元的第一图像特征进行传播处理，得到所述各面部动作单元的第二图像特征时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，所述表情关联规则包括关系矩阵，所述关系矩阵包括多个面部动作单元之间的相关关系，所述相关关系包括正相关关系和负相关关系；相应的，在调用所述图神经网络按照所述表情关联规则对所述目标面部动作单元的第一图像特征进行传播处理，得到所述目标面部动作单元的中间图像特征时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，所述一条或一条以上指令还可由处理器201加载并具体执行：

再一种实施方式中，在根据所述各面部动作单元的第二图像特征识别所述目标人脸图像对应的目标表情时，所述一条或一条以上指令由处理器201加载并具体执行：

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种人脸表情识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述多个面部动作单元包括目标面部动作单元，所述目标面部动作单元为所述多个面部动作单元中的任一个面部动作单元；

所述调用深度神经网络从所述目标人脸图像中提取各面部动作单元的第一图像特征，包括：

3.如权利要求2所述的方法，其特征在于，所述对所述多组特征图进行拼接处理得到目标全局特征图，包括：

按照预设尺寸对所述多组特征图的图像尺寸进行调整；

将调整后的多组特征图进行拼接处理得到初始全局特征图；

4.如权利要求2所述的方法，其特征在于，所述目标面部动作单元的中心点包括第一中心点和第二中心点；所述确定所述目标面部动作单元的中心点，包括：

5.如权利要求4所述的方法，其特征在于，所述目标面部动作单元所对应的局部特征图包括所述第一中心点的第一局部特征图和所述第二中心点的第二局部特征图；

所述对所述目标面部动作单元所对应的局部特征图进行特征学习，得到所述目标面部动作单元的第一图像特征，包括：

6.如权利要求2所述的方法，其特征在于，所述调用图神经网络按照所述表情关联规则对所述各面部动作单元的第一图像特征进行传播处理，得到所述各面部动作单元的第二图像特征，包括：

7.如权利要求6所述的方法，其特征在于，所述表情关联规则包括关系矩阵，所述关系矩阵包括多个面部动作单元之间的相关关系，所述相关关系包括正相关关系和负相关关系；

所述调用所述图神经网络按照所述表情关联规则对所述目标面部动作单元的第一图像特征进行传播处理，得到所述目标面部动作单元的中间图像特征，包括：

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

9.如权利要求1-8任一项所述的方法，其特征在于，所述根据所述各面部动作单元的第二图像特征识别所述目标人脸图像对应的目标表情，包括：

10.如权利要求1-8任一项所述的方法，其特征在于，所述深度神经网络和所述图神经网络在网络训练过程中受加权损失函数的约束。

11.一种人脸表情识别装置，其特征在于，包括：

12.一种终端，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或一条以上指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由所述处理器加载并执行如权利要求1-10任一项所述的人脸表情识别方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如权利要求1-10任一项所述的人脸表情识别方法。