CN107045618B

CN107045618B - 一种人脸表情识别方法及装置

Info

Publication number: CN107045618B
Application number: CN201610082722.5A
Authority: CN
Inventors: 张默
Original assignee: Beijing Moshanghua Technology Co ltd
Current assignee: Beijing Moshanghua Technology Co ltd
Priority date: 2016-02-05
Filing date: 2016-02-05
Publication date: 2020-07-03
Anticipated expiration: 2036-02-05
Also published as: CN107045618A

Abstract

本申请公开了一种人脸表情识别方法及装置，所述方法包括：提取检测图像中人脸的局部特征以及整体特征；将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果；其中，所述深度学习模型预先根据不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征对深度神经网络进行训练获得；根据所述分类结果，确定所述检测图像的人脸表情。本申请实施例提高了人脸表情识别的精确度。

Description

一种人脸表情识别方法及装置

技术领域

本申请属于人脸属性识别技术领域，具体地说，涉及一种人脸表情识别方法及装置。

背景技术

人脸表情是一种能够表达人类认知、情感和状态的手段，包含了众多的个人行为信息。因此，通过对人脸表情进行识别，可以在人机交互等不同领域提高用户体验，从而推动科技的进步。

人脸表情通常包括高兴、悲伤、愤怒、恐惧、惊讶以及厌恶等，不同人脸表情可以通过人脸图像的特征进行表示，因此可以通过提取人脸图像的特征，利用机器学习算法，让机器学习特征中蕴含的人脸表情信息，以实现人脸表情识别。

传统的人脸表情识别主要是通过提取人脸图像的局部特征或整体特征来实现，但是局部特征无法描述人脸轮廓信息，而整体特征无法描述人脸细节信息，因此人脸表情识别的精确度并不高。

发明内容

有鉴于此，本申请所要解决的技术问题是提供了一种人脸表情识别方法及装置，解决了现有技术中人脸表情识别的精确度不高的技术问题。

为了解决上述技术问题，本申请公开了一种人脸表情识别方法，包括：

提取检测图像中人脸的局部特征以及整体特征；

将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果；其中，所述深度学习模型预先根据不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征对深度神经网络进行训练获得；

根据所述分类结果，确定所述检测图像的人脸表情。

优选地，将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果包括：

将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型；

利用所述深度学习模型提取所述检测图像中人脸的深度学习特征，并将所述深度学习特征、所述局部特征以及所述整体特征进行融合，获得融合特征；利用所述融合特征，获得所述检测图像属于不同人脸表情的概率；其中，所述深度学习模型具体是预先根据不同人脸表情的训练图像的融合特征以及不同人脸表情标签对深度神经网络进行训练获得；所述训练图像的融合特征通过将所述深度神经网络提取的深度学习特征，以及所述训练图像的局部特征和整体特征进行融合获得；所述人脸表情标签包括人脸表情概率；

所述根据所述分类结果，确定所述检测图像的人脸表情包括：

将概率最高的人脸表情作为所述检测图像的人脸表情。

优选地，所述提取所述人脸图像的局部特征以及整体特征包括：

将所述检测图像进行尺度变换，获得不同尺度的多个尺度图像；

提取每一个尺度图像中人脸的每一个关键点的局部特征，并将所述每一个关键点的局部特征进行拼接，获得所述检测图像的局部特征；

提取所述检测图像中人脸的表观特征作为所述人脸图像的整体特征，所述表观特征用于表示人脸轮廓以及五官分布。

优选地，所述深度学习模型具体按照如下方式预先训练获得：

获取每一个人脸表情对应的多个训练图像以及对应的人脸表情标签；

提取每一个训练图像的局部特征以及整体特征；

将每一个训练图像及每一个训练图像的局部特征和整体特征输入深度卷积神经网络；

训练所述深度卷积神经网络提取每一个训练图像的深度学习特征，以及，

将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征进行融合学习，获得融合特征；

利用各个人脸表情标签以及不同人脸表情对应的各个训练图像的融合特征，训练获得所述深度神经网络的权重系数，得到深度学习模型。

优选地，所述将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征进行融合学习，获得融合特征包括：

将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征，通过深度神经网络的全连接层进行融合学习，获得融合特征；

所述利用各个人脸表情标签以及各个人脸表情的训练图像的融合特征，训练获得所述深度神经网络的权重系数，得到深度学习模型包括：

将各个人脸表情标签以及不同人脸表情对应的各个训练图像的融合特征，利用softmax函数对所述深度神经网络的类别输出层进行训练，获得所述类别输出层的权重系数，得到所述深度学习模型。

一种人脸表情识别装置，包括：

特征提取模块，用于提取检测图像中人脸的局部特征以及整体特征；

表情识别模块，用于将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果；其中，所述深度学习模型预先根据不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征对深度神经网络进行训练获得；

表情确定模块，用于根据所述分类结果，确定所述检测图像的人脸表情。

优选地，所述表情识别模块包括：

输入单元，用于将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型；

识别单元，用于利用所述深度学习模型提取所述检测图像中人脸的深度学习特征，并将所述深度学习特征、所述局部特征以及所述整体特征进行融合，获得融合特征；利用所述融合特征，获得所述检测图像属于不同人脸表情的概率；其中，所述深度学习模型预先根据不同人脸表情的训练图像的融合特征以及各个人脸表情标签对深度神经网络进行训练获得；所述训练图像的融合特征通过将所述深度神经网络提取的深度学习特征，以及所述训练图像的局部特征和整体特征进行融合获得；所述人脸表情标签包括人脸表情概率；

所述表情确定模块具体用于将概率最高的人脸表情作为所述检测图像的人脸表情。

优选地，所述特征提取模块包括：

尺度变换单元，用于将所述检测图像进行尺度变换，获得不同尺度的多个尺度图像；

第一特征提取单元，用于提取每一个尺度图像中人脸的每一个关键点的局部特征，并将所述每一个关键点的局部特征进行拼接，获得所述检测图像的局部特征；

第二特征提取单元，用于提取所述检测图像中人脸的表观特征作为所述人脸图像的整体特征，所述表观特征用于表示人脸轮廓以及五官分布。

优选地，还包括：

预获取模块，用于获取每一个人脸表情对应的多个训练图像以及对应的人脸表情标签；

预提取模块，用于提取每一个训练图像的局部特征以及整体特征；

预训练模块，用于将每一个训练图像及每一个训练图像的局部特征和整体特征输入深度卷积神经网络；训练所述深度卷积神经网络提取每一个训练图像的深度学习特征，以及，将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征进行融合学习，获得融合特征；利用各个人脸表情标签以及不同人脸表情对应的各个训练图像的融合特征，训练获得所述深度神经网络的权重系数，得到深度学习模型。

优选地，所述预训练模块将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征进行融合学习，获得融合特征具体是：

所述预训练模块利用各个人脸表情标签以及各个人脸表情的训练图像的融合特征，训练获得所述深度神经网络的权重系数，得到深度学习模型包括：

与现有技术相比，本申请可以获得包括以下技术效果：

在本申请实施例中，通过提取检测图像中人脸的局部特征以及整体特征；然后将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果；其中，所述深度学习模型预先根据不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征对深度神经网络进行训练获得；根据分类结果，即可以确定所述检测图像的人脸表情。通过本申请实施例，局部特征能够描述人脸的细节，整体特征可以刻画人脸轮廓信息和五官空间分布，而深度学习特征可以表征人脸整体信息，将三者结合起来，特征描述能力优势互补，能够从不同维度描述人脸表情信息，提高人脸表情识别的精确度。

当然，实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种人脸表情识别方法一个实施例的流程图；

图2是本申请实施例的深度学习模型获得过程的一个实施例的流程图；

图3是本申请实施例的深度卷积神经网络的一种配置示意图；

图4是本申请实施例的一种人脸表情识别装置一个实施例的结构示意图；

图5是本申请实施例的一种人脸表情识别装置又一个实施例的结构示意图。

具体实施方式

以下将配合附图及实施例来详细说明本申请的实施方式，藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本申请实施例的技术方案主要应用于对人脸表情的识别，正如背景技术中所述，传统的人脸表情识别主要是通过提取人脸图像的局部特征或整体特征来实现，局部特征描述了人脸的局部和整体的纹理、形状信息，但这个特征向量往往高维、冗余，并且含有一些噪声信息，不适合直接用来做人脸识别，而表观模型在正脸等特定角度有良好的识别效果，可以有效刻画出人脸轮廓信息，但是无法描述人脸细节信息。

因此，发明人经过研究发现，可以将局部特征以及整体特征进行结合，使得可以从不同维度描述人脸表情信息，提高人脸表情识别的精确度。

如何将局部特征以及整体特征进行结合，发明人又经过一系列的研究，基于深度神经网络的人脸特征，也即深度学习特征，可以在训练样本加入各种姿态、光照、背景和遮挡的人脸等，使得学习出的深度学习特征既稀疏又鲁棒，具有通用的特征表征能力，但却缺乏对人脸情感的细节描述。因此，发明人提出，可以将局部特征以及整体特征加入到训练图像的深度神经网络里面进行深度学习，从而使得获得的深度学习模型即可以实现精确的实现人脸表情的识别。

因此，发明人提出本申请的技术方案，在本申请实施例中，通过提取检测图像中人脸的局部特征以及整体特征；然后将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果；其中，所述深度学习模型预先根据不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征对深度神经网络进行训练获得；根据分类结果，即可以确定所述检测图像的人脸表情。通过本申请实施例，局部特征能够描述人脸的细节，整体特征可以刻画人脸轮廓信息和五官空间分布，而深度学习特征可以表征人脸整体信息，将三者结合起来，特征描述能力优势互补，能够从不同维度(局部、整体、形状、纹理等)描述人脸表情信息，提高人脸表情识别的精度。

图1为本申请实施例提供的一种人脸表情识别方法一个实施例的流程图，该方法可以包括以下几个步骤：

101：提取检测图像中人脸的局部特征以及整体特征。

局部特征可以选用SIFT(Scale-invariant feature transform，尺度不变特征变换)、HOG((Histogram of Oriented Gradient，方向梯度直方图特征)、Gabor、LBP(LocalBinary Pattern，局部二值模式)等局部特征描述子，或者这些特征的组合特征等。

整体特征可以是选用利用表观模型如ASM(Active Shape Model，主动形状模型)和AAM(Active appearance model，主动外观模型)，提取的表观模型特征等。

局部特征以及整体特征的提取在下面实施例中会详细进行介绍。

102：将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果。

其中，所述深度学习模型预先根据不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征对深度神经网络进行训练获得。

深度神经网络包括多层，通过深度神经网络进行学习，可以提取训练图像的深度学习特征，本申请实施例中，将训练图像的局部特征以及整体特征同时输入到深度神经网络进行学习，将这两种特征加入到深度神经网络里面学习，可以有效降低特征向量维度并去除特征的噪声信息，可以利于网络的学习，获得更加鲁棒性的特征

利用不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征对深度神经网络进行训练，可以获得深度学习模型的权重系数。

从而将检测图像以及检测图像中人脸的局部特征以及整体特征输入到所述深度学习模型，即可以获得该检测图像属于不同人脸表情的分类结果。

103：根据所述分类结果，确定所述检测图像的人脸表情。

根据深度学习模型输出的分类结果即可以获得检测图像的人脸表情。

本实施例中，对深度神经网络的学习，同时结合了训练图像的局部特征以及整体特征，使得获得的深度学习模型结合了局部特征、整体特征以及基于深度神经网络的深度学习特征，使得特征描述能力互补，实现多模态学习，有力地克服了特征描述能力不够导致的人脸情感识别精度急速下降的问题。本申请不依赖任何图像预处理技术和经验参数，对于图像或者视频中人脸表情的检测和和识别，具有通用性和鲁棒性。

其中，作为又一个实施例，获得的所述检测图像属于不同人脸表情的分类结果可以是检测图像属于不同人脸表情的表情概率。

因此深度学习模型具体是可以是预先根据不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征以及各个人脸表情标签对深度神经网络进行训练获得；人脸表情标签中包括人脸表情概率。

从而利用深度学习模型即可以获得检测图像属于不同人脸表情的表情概率。概率最高的人脸表情即作为检测图像的人脸表情。

另外，作为又一个实施例，提取检测图像中人脸的局部特征可以是：

提取每一个尺度图像中人脸的每一个关键点的局部特征，并将各个尺度图像中的各个关键点的局部特征进行拼接，获得所述检测图像的局部特征。

从而即可以获得高维局部特征，可以详细描述人脸的纹理信息等。

其中，关键点至少包括眼睛、鼻子、嘴巴、眉毛等五官部位。在提取检测图像中人脸的局部特征之前，可以首先识别检测图像中人脸的位置和大小，在得到的人脸区域内，精细定位人脸的五官位置，如眼睛、鼻子、嘴巴、眉毛等部位，并将人脸大小归一化，得到对齐后的人脸；在规范化后的人脸的关键点位置处提取局部特征，局部特征可以为LBP、SIFT、Gabor或者HOG等描述子。

其中，将检测图像进行尺度变换，获得不同尺度的多个尺度图像。例如，对检测图像进行5个尺度的变化，生成300*300,212*212,150*150,106*106，75*75的图像。在每个尺度图像中的每个关键点均提取对应的局部特征，假设在每个关键点处划分4*4的方格，每个小方格为10*10，在每个小方格内提取59维uniform的LBP特征，并将各个局部特征拼接起来，从而得到的检测图像的局部特征即为高危局部特征向量，特征向量的长度为23600(23600＝5*5*4*4*59)。

作为又一个实施例，提取检测图像中人脸的整体特征可以是：

可以利用表观模型，提取所述检测图像中人脸的表观特征作为所述人脸图像的整体特征。

为了方便表观模型提取整体特征，首先将检测图像进行归一化，获得与表观模型适应尺寸的检测图像。然后利用表观模型提取人脸的多个关键点处的关键点坐标，减去人脸平静状态下的多个关键点的坐标，即可以获得表观特征。

其中，多个关键点可以包括眼睛、鼻子、嘴巴、眉毛等五官部位处关键点，以及人脸中其它任意的关键点。

表观模型可以为AAM或ASM，假设将检测图像归一化为75*75的图像，利用表观模型AAM提取面部的68个关键点，提取出68个人脸面部关键点的坐标，将这些坐标减去人脸平静状态下的68个坐标，获得136维的坐标差值特征向量，即为表观特征。

其中，由于基于深度神经网络可以提取深度学习特征，为了实现深度神经网络能够进行人脸表情识别，将局部特征、整体特征以及深度学习特征进行融合，可以在深度神经网络中加入一个全连接层，通过训练学习，使得全连接层可以进行特征融合，并将输出层训练为类别输出层，通过训练学习使得可以实现人脸表情的识别。

因此，作为又一个实施例，将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果可以具体是：

利用所述深度学习模型提取所述检测图像中人脸的深度学习特征，并将所述深度学习特征、所述局部特征以及所述整体特征进行融合，获得融合特征；利用所述融合特征，获得所述检测图像属于不同人脸表情的概率。

所述深度学习模型则具体是预先根据不同人脸表情的训练图像的融合特征以及各个人脸表情标签对深度神经网络进行训练获得；所述训练图像的融合特征通过将所述深度神经网络提取的深度学习特征，以及所述训练图像的局部特征和整体特征进行融合获得。

深度学习模型是通过对深度神经网络进行训练获得，因此利用深度学习模型可以提取检测图像中人脸的深度学习特征。

该深度神经网络可以选择深度卷积神经网络、AutoEncoder或DBM等。

通过上述描述可知，使用高维局部特征描述人脸的纹理，解决了表观模型特征和深度学习特征无法描述人脸细节的问题；使用表观模型特征描述人脸的轮廓信息，解决了深度学习特征和高维局部特征无法描述人脸轮廓的问题；使用深度学习特征提取人脸的特征表示，解决了局部特征对关键点定位精度敏感、遮挡情况下不鲁棒的缺点；将传统高维局部特征、传统表观模型特征和深度学习特征结合起来，特征描述能力优势互补，极大地提高了人脸表情识别的精度。

其中，本申请实施例中，训练用的深度神经网络可以包括多层，在深度神经网络的类别输出层之前加一个全连接层，通过训练全连接层之前的各层使其可以提取深度学习特征；深度学习特征、局部特征以及整体特征通过全连接层进行融合，可以获得融合特征。全连接层可以实现特征融合。

利用融合特征以及各个人脸表情标签对类别输出层进行训练，可以获得类别输出层的权重系数，从而在进行人脸表情识别时，通过深度学习模型中全连接层之前的各层提取的深度学习特征，将深度学习特征与输入的局部特征以及整体特征进行融合，获得融合特征，融合特征通过类别输出层，即可以获得属于各个人脸表情的表情概率。

因此，如图2所示，为本申请实施例中人脸表情识别方法中深度学习模型获得过程的流程图，该深度学习模型为预先获得的，可以包括以下几个步骤：

201：获取每一个人脸表情对应的多个训练图像以及对应的人脸表情标签。

训练图像可以是从互联网上下载的人脸表情图片和一些公开数据集，为了提高训练准确度，可以首先利用人脸检测和人脸关键点定位过滤训练图像，去除没有人脸或者有多张人脸的训练图像。

其中，从人脸表情标签中，可以获得对应的人脸表情的表情概率。

不同人脸表情也可以通过人脸表情标签进行区分，常见的人脸表情可以包括高兴、悲伤、愤怒、恐惧、惊讶以及厌恶等。

202：提取每一个训练图像的局部特征以及整体特征。

首先对于每一个训练图像首先提取局部特征以及整体特征。

其中局部特征以及整体特征的提取可以参见上述实施例中所述，与提取检测图像的局部特征以及整体特征相同，在此不再赘述。

203：将每一个训练图像及每一个训练图像的局部特征和整体特征输入深度神经网络。

为了提高训练准确度，可以首先将训练图像进行归一化处理，得到尺寸相同的训练图像。

204：训练所述深度神经网络提取每一个训练图像的深度学习特征。

深度神经网络包括多层，本实施例中主要可以包括输入层、特征提取层、全连接层以及类别输出层。特征提取层包括多层，通过对深度神经网络进行训练，可以使得深度神经网络的特征提取层提取深度学习特征。

205：将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征进行融合学习，获得每一个训练图像融合特征。

将深度学习特征、局部特征以及整体特征对全连接层进行融合学习，可以在全连接层实现特征融合，获得融合特征。

206：利用各个人脸表情标签以及不同人脸表情对应的各个训练图像的融合特征，训练获得所述深度神经网络的权重系数，得到深度学习模型。

利用融合特征以及各个人脸表情标签对类别输出层进行训练，可以获得类别输出层的权重系数，从而即可以得到对深度神经网络训练获得的深度学习模型。

在将深度学习特征、局部特征以及整体特征在全连接层进行融合学习，时，可以利用BP算法(Back Propagation，反向传导)实现。

其中，类别输出层可以是利用softmax函数实现，权重系数为softmax函数的系数，从而在进行检测图像人脸表情识别时，利用softmax函数，可以计算获得检测图像属于人脸表情的概率。

利用训练获得的深度学习模型的特征提取层可以提取检测图像的深度学习特征，利用全连接层将深度学习特征以及同时输入的局部特征和整体特征进行融合，获得融合特征，将融合特征输入类别输出层，即可以输出检测图像属于不同人脸表情的表情概率。

本申请实施例中，深度学习模型训练用的深度神经网络可以选择深度卷积神经网络、AutoEncoder(一种无监督的学习算法)或DBM(Deep Boltzmann Machine，深度玻尔兹曼机)等。

下面以深度卷积神经网络为例，对深度学习模型的获得进行说明。

假设深度卷积神经网络配置如图3所示，主要包括有2个卷积(convolution)层：convolution1和convolution1，5个池化(pooling)层：pooling1～pooling5，9个开端(Inception)层：Inception1～Inception9，3个全连接(full-connection)层：full-connection1～full-connection3，和3个softmax层：softmax1～softmax3，1个丢失(Dropout)层：Dropout1，用于防止模型过拟合。softmax3为最终的类别输出层，本假设中利用softmax函数实现，因此命名为softmax层。

由于利用反向传导算法进行训练，加入softmax1层、softmax2、full-connection1以及full-connection2主要是为了防止BP(Back Propagation)训练梯度衰减，并且这些层的输出可以得到人脸的中层特征描述，可以作为softmax3层对应的高层特征的补充。

训练图像由输入层输入，通过多层卷积层以及多层池化层，将每一个训练图像进行多层卷积以及多层池化获得的中级特征，作为每一个训练图像的深度学习特征；在全连接层3中将通过卷积操作学习的深度学习特征和局部特征和整体特征在全连接层融合在一起之后，利用softmax3层的softmax函数，结合各个人脸表情标签对softmax3层进行训练，即可以获得softmax3层的权重系数，从而得到深度学习模型。

对深度卷积神经网络的训练可以利用BP算法实现，权重系数使用随机数初始化，可以初始LearningRate(学习率)设为0.01，让模型更快的收敛，当分类精度稳定时，然后调小LearningRate继续训练，直到模型收敛到一个很好的值。训练完成后得到深度卷积神经网络的权重系数即为深度学习模型。

当然，初始化还可以选用已有的公开的模型参数，或者采用layer wise(分层总合)的Pre-train(前训练)的方式初始化权重系数，在这个基础上调整权重系数，通过这些方法可以加速模型训练，得到更精确的模型参数。

需要说明的是，图3仅是一种可能的深度神经网络，本申请并不仅限定于此。只有可以提取深度学习特征，并通过训练可以将深度学习特征以及局部特征、整体特征进行融合，利用融合特征实现人脸表情识别的任意深度神经网络都应在本申请的保护范围内。

图4为本申请实施例提供的一种人脸表情识别装置一个实施例的结构示意图，该装置可以包括：

特征提取模块401，用于提取检测图像中人脸的局部特征以及整体特征。

表情识别模块402，用于将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果。其中，所述深度学习模型预先根据不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征对深度神经网络进行训练获得。

表情确定模块403，用于根据所述分类结果，确定所述检测图像的人脸表情。

深度学习模型可以由该装置预先训练获得，因此，作为又一个实施例，

该装置还可以包括一个模型训练模块，用于根据不同人脸表情的训练图像以及各个训练图像的局部特征和整体特征对深度神经网络进行训练，获得所述深度学习模型。

也即表情识别模块具体是将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的表情概率。

表情确定模块即是将概率最高的人脸表情即作为检测图像的人脸表情。

其中，作为又一个实施例，所述特征提取模块包括：

关键点至少包括眼睛、鼻子、嘴巴、眉毛等五官部位。在提取检测图像中人脸的局部特征之前，可以首先识别检测图像中人脸的位置和大小，在得到的人脸区域内，精细定位人脸的五官位置，如眼睛、鼻子、嘴巴、眉毛等部位，并将人脸大小归一化，得到对齐后的人脸；在规范化后的人脸的关键点位置处提取局部特征，局部特征可以为LBP、SIFT、Gabor或者HOG等描述子。

因此，作为又一个实施例，所述表情识别模块可以包括：

识别单元，用于利用所述深度学习模型提取所述检测图像中人脸的深度学习特征，并将所述深度学习特征、所述局部特征以及所述整体特征进行融合，获得融合特征；利用所述融合特征，获得所述检测图像属于不同人脸表情的概率；

其中，所述深度学习模型预先根据不同人脸表情的训练图像的融合特征以及各个人脸表情标签对深度神经网络进行训练获得；所述训练图像的融合特征通过将所述深度神经网络提取的深度学习特征，以及所述训练图像的局部特征和整体特征进行融合获得；所述人脸表情标签包括人脸表情概率。

此时，所述表情确定模块具体用于将概率最高的人脸表情作为所述检测图像的人脸表情。

作为又一个实施例，该装置还包括模型训练模块时，该模型训练模块即具体用于预先根据不同人脸表情的训练图像的融合特征以及各个人脸表情标签对深度神经网络进行训练获得；所述训练图像的融合特征通过将所述深度神经网络提取的深度学习特征，以及所述训练图像的局部特征和整体特征进行融合获得。

本申请实施例中，可以使用高维局部特征描述人脸的纹理，解决了表观模型特征和深度学习特征无法描述人脸细节的问题；使用表观特征描述人脸的轮廓信息，解决了深度学习特征和高维局部特征无法描述人脸轮廓的问题；使用深度学习特征提取人脸的特征表示，解决了局部特征对关键点定位精度敏感、遮挡情况下不鲁棒的缺点；将传统高维局部特征、传统表观模型特征和深度学习特征结合起来，特征描述能力优势互补，极大地提高了人脸表情识别的精度。

因此，作为又一个实施例，如图5所示，该装置还可以包括：

预获取模块404，用于获取每一个人脸表情对应的多个训练图像以及对应的人脸表情标签；

其中，人脸表情标签包括人脸表情概率。

预提取模块405，用于提取每一个训练图像的局部特征以及整体特征；

预训练模块406，用于将每一个训练图像及每一个训练图像的局部特征和整体特征输入深度卷积神经网络；训练所述深度卷积神经网络提取每一个训练图像的深度学习特征，以及，将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征进行融合学习，获得融合特征；利用各个人脸表情标签以及不同人脸表情对应的各个训练图像的融合特征，训练获得所述深度神经网络的权重系数，得到深度学习模型。

预获取模块、预提取模块以及预训练模块可以配置在上述实施例描述的模型训练模块中，实现深度学习模型的获得。

本申请实施例中，深度学习模型训练用的深度神经网络可以选择DCNN(DeepConvolutional Neural Network，深度卷积神经网络、AutoEncoder(一种无监督的学习算法)或DBM(Deep Boltzmann Machine，深度玻尔兹曼机)等。

其中，所述预训练模块将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征进行融合学习，获得融合特征可以具体是：

所述预训练模块利用各个人脸表情标签以及不同人力表情对应的各个训练图像的融合特征，训练获得所述深度神经网络的权重系数，得到深度学习模型可以具体是：

利用各个人脸表情标签以及不同人脸表情对应的各个训练图像的融合特征，利用softmax函数对所述深度神经网络的类别输出层进行训练，获得所述类别输出层的权重系数，得到所述深度学习模型。

通过本申请实施例，可以使用局部高维特征向量描述人脸，包含更多的人脸细节纹理描述，解决了仅使用深度学习特征无法描述人脸局部信息的弊端。使用表观模型特征表示人脸，包含人脸在做不同表情时的轮廓特征变换，解决了仅使用深度学习特征难以描述人脸轮廓信息的弊端。使用深度学习特征描述人脸，学习出的特征具有稀疏、鲁棒、选择性强的优点，解决了仅使用局部高维特征向量和表观模型向量对关键点定位精度敏感、遮挡情况下特征描述能力下降的问题。将局部高维特征向量，表观模型向量融合到深度学习模型中，使用多模态的方法对特征再学习，而不是仅仅简单拼接，能够将三种不同维度的特征描述优势互补，去粗存精，全方面描述人脸局部到整体的信息，提高人脸识别的精度。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种人脸表情识别方法，其特征在于，包括：

提取检测图像中人脸的局部特征以及整体特征；

根据所述分类结果，确定所述检测图像的人脸表情；

其中，获得的所述检测图像属于不同人脸表情的分类结果是检测图像属于不同人脸表情的表情概率；人脸表情标签中包括人脸表情概率；利用深度学习模型获得检测图像属于不同人脸表情的表情概率；概率最高的人脸表情作为检测图像的人脸表情；

提取检测图像中人脸的局部特征是：

提取每一个尺度图像中人脸的每一个关键点的局部特征，并将各个尺度图像中的各个关键点的局部特征进行拼接，获得所述检测图像的局部特征；

其中，关键点至少包括眼睛、鼻子、嘴巴、眉毛；在提取检测图像中人脸的局部特征之前，首先识别检测图像中人脸的位置和大小，在得到的人脸区域内，精细定位人脸的五官位置，并将人脸大小归一化，得到对齐后的人脸；在规范化后的人脸的关键点位置处提取局部特征；

其中，将检测图像进行尺度变换，获得不同尺度的多个尺度图像；在每个尺度图像中的每个关键点均提取对应的局部特征，并将各个局部特征拼接起来，从而得到的检测图像的局部特征即为高危局部特征向量；

提取检测图像中人脸的整体特征是：

提取所述检测图像中人脸的表观特征作为所述人脸图像的整体特征，所述表观特征用于表示人脸轮廓以及五官分布；

利用表观模型，提取所述检测图像中人脸的表观特征作为所述人脸图像的整体特征；

其中，首先将检测图像进行归一化，获得与表观模型适应尺寸的检测图像；然后利用表观模型提取人脸的多个关键点处的关键点坐标，减去人脸平静状态下的多个关键点的坐标，获得表观特征。

2.根据权利要求1所述的方法，其特征在于，将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的分类结果包括：

利用所述深度学习模型提取所述检测图像中人脸的深度学习特征，并将所述深度学习特征、所述局部特征以及所述整体特征进行融合，获得融合特征；利用所述融合特征，获得所述检测图像属于不同人脸表情的概率；其中，所述深度学习模型具体是预先根据不同人脸表情的训练图像的融合特征以及不同人脸表情标签对深度神经网络进行训练获得；所述训练图像的融合特征通过将所述深度神经网络提取的深度学习特征，以及所述训练图像的局部特征和整体特征进行融合获得。

3.根据权利要求1或2所述的方法，其特征在于，所述深度学习模型具体按照如下方式预先训练获得：

提取每一个训练图像的局部特征以及整体特征；

4.根据权利要求3所述的方法，其特征在于，所述将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征进行融合学习，获得融合特征包括：

5.一种人脸表情识别装置，其特征在于，包括：

表情确定模块，用于根据所述分类结果，确定所述检测图像的人脸表情；

其中，获得的所述检测图像属于不同人脸表情的分类结果是检测图像属于不同人脸表情的表情概率；表情识别模块是将所述局部特征、所述整体特征以及所述检测图像输入深度学习模型，获得所述检测图像属于不同人脸表情的表情概率；表情确定模块是将概率最高的人脸表情作为检测图像的人脸表情；

其中，所述特征提取模块包括：

关键点至少包括眼睛、鼻子、嘴巴、眉毛；在提取检测图像中人脸的局部特征之前，首先识别检测图像中人脸的位置和大小，在得到的人脸区域内，精细定位人脸的五官位置，并将人脸大小归一化，得到对齐后的人脸；在规范化后的人脸的关键点位置处提取局部特征；

第二特征提取单元，用于提取所述检测图像中人脸的表观特征作为所述人脸图像的整体特征，所述表观特征用于表示人脸轮廓以及五官分布；

首先将检测图像进行归一化，获得与表观模型适应尺寸的检测图像；然后利用表观模型提取人脸的多个关键点处的关键点坐标，减去人脸平静状态下的多个关键点的坐标，获得表观特征。

6.根据权利要求5所述的装置，其特征在于，所述表情识别模块包括：

识别单元，用于利用所述深度学习模型提取所述检测图像中人脸的深度学习特征，并将所述深度学习特征、所述局部特征以及所述整体特征进行融合，获得融合特征；利用所述融合特征，获得所述检测图像属于不同人脸表情的概率；其中，所述深度学习模型预先根据不同人脸表情的训练图像的融合特征以及各个人脸表情标签对深度神经网络进行训练获得；所述训练图像的融合特征通过将所述深度神经网络提取的深度学习特征，以及所述训练图像的局部特征和整体特征进行融合获得。

7.根据权利要求5或6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，所述预训练模块将每一个训练图像的深度学习特征与每一个训练图像的局部特征和整体特征进行融合学习，获得融合特征具体是：