CN109902660A

CN109902660A - 一种表情识别方法及装置

Info

Publication number: CN109902660A
Application number: CN201910202697.3A
Authority: CN
Inventors: 贺珂珂; 葛彦昊; 汪铖杰; 李季檩; 吴永坚; 黄飞跃; 朱敏; 黄小明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-18

Abstract

本发明公开了一种表情识别方法及装置，所述方法包括：获取待识别人脸图像；通过表情识别模型从所述待识别人脸图像中提取出表情特征，所述表情特征指向所述待识别人脸图像中人脸区域的像素值；以所述表情特征为输入，通过所述表情识别模型识别所述待识别人脸图像对应的表情类型；其中，所述表情识别模型是通过使用多个人脸样本图像进行机器学习训练，并在训练过程中调整所述表情识别模型的模型参数而获得的，所述表情识别模型的模型参数指向所述人脸样本图像中人脸各区域的权重值，每个所述人脸样本图像具有一种表情类型。本发明能够准确识别图像中表情。

Description

一种表情识别方法及装置

技术领域

本发明涉及互联网通信技术领域，尤其涉及一种表情识别方法及装置。

背景技术

随着计算机和互联网技术的快速发展，表情识别开始应用于许多领域中。表情识别从给定的静态图像或动态视频序列中分离出特定的表情特征，从而确定被识别对象的表情类型。高兴、自然、难过、惊讶、厌恶、生气和害怕等表情类型，体现着被识别对象在该场景下的状态，也在一定程度上影响着被识别对象的行为活动。

目前，在一些应用场景中，例如商超场景下，表情识别的图像中常人脸姿态多变、背景复杂(比如光照多变)。然而，现有的一些表情识别方法往往基于社交场景中比较清晰的图片设置，并不能提供准确识别表情的有效方案。

发明内容

为了解决现有技术应用在对人脸姿势多变、背景复杂的图像作表情识别时准确率低等问题，本发明提供了一种表情识别方法及装置：

一方面，本发明提供了一种表情识别方法，所述方法包括：

获取待识别人脸图像；

通过表情识别模型从所述待识别人脸图像中提取出表情特征，所述表情特征指向所述待识别人脸图像中人脸区域的像素值；

以所述表情特征为输入，通过所述表情识别模型识别所述待识别人脸图像对应的表情类型；

其中，所述表情识别模型是通过使用多个人脸样本图像进行机器学习训练，并在训练过程中调整所述表情识别模型的模型参数而获得的，所述表情识别模型的模型参数指向所述人脸样本图像中人脸各区域的权重值，每个所述人脸样本图像具有一种表情类型。

另一方面提供了一种表情识别装置，所述装置包括：

获取模块：用于获取待识别人脸图像；

识别模块：用于通过表情识别模型从所述待识别人脸图像中提取出表情特征，所述表情特征指向所述待识别人脸图像中人脸区域的像素值；以及以所述表情特征为输入，通过所述表情识别模型识别所述待识别人脸图像对应的表情类型；

另一方面提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的表情识别方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的表情识别方法。

本发明提供的一种表情识别方法及装置，具有如下技术效果：

本发明能够得到具有高泛化能力的表情识别模型，在利用表情识别模型进行表情识别处理时可以提高对待识别人脸图像的表情识别适应能力，进而可以大大提高对图像中表情的识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种表情识别方法的流程示意图；

图2是本发明实施例提供的基于所述表情特征与所述模型参数的初始值，调整所述模型参数的当前值至所述深度卷积神经网络模型输出的表情类型与输入的所述人脸样本图像的表情类型相匹配的一种的流程示意图；

图3是本发明实施例提供的一种表情识别模型的应用场景的示意图；

图4也是本发明实施例提供的一种表情识别方法的流程示意图；

图5是本发明实施例提供的获取待识别人脸图像的一种流程示意图；

图6是本发明实施例提供的一种表情识别装置的组成框图；

图7也是本发明实施例提供的一种表情识别装置的组成框图；

图8是应用本发明实施例输出待识别人脸图像对应的表情类型的示意图；

图9也是本发明实施例提供的一种表情识别模型的应用场景的示意图；

图10是本发明实施例提供的深度卷积神经网络模型中的流程示意图；

图11是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，在一些应用场景中，例如商超场景下，进行表情识别的图像中往往人脸姿态多变、背景复杂(比如光照多变)。该场景下图像中不同表情类型的分布是极不平衡的。同时，因为人脸表情具有很强的主观性，一些表情类型也容易混淆。通过诸如尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)算法或者局部二值模式(Local BinaryPattern，LBP)算法等特征提取算法从图像中提取出被识别对象的特征。以及将提取的特征输入诸如支持向量机(Support VectorMachine，SVM)算法的分类器，通过分类器进行表情的分类。这些现有的表情识别方法识别能力较弱。

针对上述表情识别方法所存在的问题，可以采用深度卷积神经网络模型训练得到表情识别模型，利用深度卷积神经网络模型训练得到具有高泛化能力的表情识别模型，在利用表情识别模型进行表情识别时可以提高对商超等场景下表情的识别适应能力，进而可以大大提高表情识别的可靠性和有效性。

以下先具体介绍训练深度卷积神经网络模型得到表情识别模型的实现过程：

图1是本发明实施例提供的一种表情识别方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示，所述方法可以包括：

S101：使用深度卷积神经网络模型从所述人脸样本图像中提取出表情特征，所述表情特征指向所述人脸样本图像中人脸区域的像素值；

在本发明实施例中，在将作为训练数据的人脸样本图像输入深度卷积神经网络模型前，需要对人脸样本图像进行采集和标注。在实际应用中，一般社交场景下会定义的7种表情类型包括高兴、自然、难过、惊讶、厌恶、生气和害怕。而在商超场景下，经过观察发现难过、厌恶、生气和害怕这类表情出现的概率非常少。同时，因为对表情类型的判断也存在一定的主观性，不同标注者对一些表情类型也可能存在不同的理解，比如厌恶可能会被标注为生气。因此，本发明实施例中将难过、厌恶、生气和害怕这四种表情类型统一为一种称为“消极”的表情类型。也就是说，对人脸样本图像标注的表情类型包括自然、高兴、惊讶和消极。这样一方面降低了标注的难度、节省了标注的成本，另一方面也能提高了标注的准确率。其中，每个所述人脸样本图像具有一种表情类型。在进行人工标注时，每个人脸样本图像只需要一人进行标注，提升了标注的效率，降低了标注资源的消耗。这样能够对更多商超场景下的人脸样本图像进行标注，用于训练的数据更多、更全，提升深度卷积神经网络模型的鲁棒性。

在一些实施例中，输入深度卷积神经网络模型的人脸样本图像可以是经处理的，比如对采集到的原始图像进行人脸检测，获取包含人脸的中间图像；再对所述中间图像进行归一化处理，得到所述待识别人脸图像。比如对中间图像进行裁剪和或灰度化，得到如图9、10所示的大小为64*64像素的图像，当然图像的大小还可以为128*128像素或32*32像素等。具体的，所述表情特征可以为一串数字。

在一些实施例中，如图10所示，所述深度卷积神经网络模型中包括残差网络ResNet18，人脸样本图像输入ResNet18，通过ResNet18提取出表情特征。

在一些实施例中，商超场景下，表情类型为惊讶和消极的人脸样本图像较少。例如，表情类型为惊讶的人脸样本图像在总的人脸样本图像中的占比为2.6％，表情类型为惊讶的人脸样本图像占比为3.8％。在所述使用深度卷积神经网络模型从所述人脸样本图像中提取出表情特征的步骤之前，按照预设比例获取标注有对应表情类型的所述人脸样本图像，可以设置表情类型为自然、高兴、惊讶和消极的人脸样本图像数量比例为：[71.3％,14.3％,4.8％,9.6％]。这样可以避免表情类型为惊讶和消极的人脸样本图像因为数量较少而没有机会被充分地学习到，通过平衡采样的策略解决商超场景下样本分布不均衡的问题，保证模型能够达到较好的效果，实现较高的识别准确率。

S102：以所述表情特征为输入，使用所述深度卷积神经网络模型随机生成模型参数的初始值，所述模型参数指向所述人脸样本图像中人脸各区域的权重值；

在本发明实施例中，如图10所示，首先，基于所述表情特征，使用所述深度卷积神经网络模型随机生成区域引导特征，所述区域引导特征指向所述人脸样本图像中未遮挡的人脸区域和或与表情变化相关性高的人脸区域。特定的表情类型与人脸区域的变化存在一定的相关性(比如，表情类型为高兴时，涉及的人脸区域常有：嘴角翘起，面颊上抬起皱，眼睑收缩，眼睛尾部会形成“鱼尾纹”)，通过生成的区域引导特征可以更好地提高模型表情识别的准确性。然后，对所述区域引导特征进行归一化处理，得到所述模型参数的初始值。具体的，比如对人脸区域作了如下划分：眼部、鼻部和嘴部。那么模型参数中包括眼部对应的注意力值、鼻部对应的注意力值和嘴部对应的注意力值，眼部对应的注意力值、鼻部对应的注意力值和嘴部对应的注意力值表示该区域的重要性，注意力值越接近1越重要，注意力值在0至1范围内越小越不重要。其中，可以通过Sigmoid函数(S型生长曲线)对所述区域引导特征进行归一化处理，得到模型参数中在0至1范围内的注意力值的初始值。

在一些实施例中，所述区域引导特征可以为为一串与所述表情特征维度大小一样的数字。

在一些实施例中，在残差网络ResNet18的基础上，增加两层网络：一层网络为卷积层，用于获得区域引导特征；一层网络为归一层，用于获得模型参数的初始值。当然在残差网络ResNet18的基础上增减卷积层的方式不限于此。

S103：基于所述表情特征与所述模型参数的初始值，调整所述模型参数的当前值至所述深度卷积神经网络模型输出的表情类型与输入的所述人脸样本图像的表情类型相匹配；

在本发明实施例中，如图2所示，所述基于所述表情特征与所述模型参数的初始值，调整所述模型参数的当前值至所述深度卷积神经网络模型输出的表情类型与输入的所述人脸样本图像的表情类型相匹配的步骤，包括：

S201：对所述表情特征与所述模型参数的当前值作点乘计算，得到区域引导表情特征；

具体的，可以对表示表情特征的一串数字，与表示模型参数的在0至1范围内的数值作点乘计算。

在一些实施例中，比如对人脸区域作了如下划分：眼部、鼻部和嘴部。那么模型参数中包括眼部对应的注意力值、鼻部对应的注意力值和嘴部对应的注意力值。在对所述表情特征与所述模型参数的当前值作点乘计算时，分别将眼部表情特征(指向所述人脸样本图像中眼部区域的像素值)与眼部对应的注意力值的当前值作点乘计算，将鼻部表情特征(指向所述人脸样本图像中鼻部区域的像素值)与鼻部对应的注意力值的当前值作点乘计算，将嘴部表情特征(指向所述人脸样本图像中嘴部区域的像素值)与嘴部对应的注意力值的当前值作点乘计算。

S202：根据所述区域引导表情特征，计算所述深度卷积神经网络模型得到的目标值与所述人脸样本图像的标注值之间的损失值，根据所述损失值调整所述模型参数，所述人脸样本图像的标注值指向所述人脸样本图像的表情类型。

具体的，采用梯度下降法对所述深度卷积神经网络模型进行训练，设置学习率的初始值为0.0005至0.0015，每隔1000至3000次迭代调整所述学习率的取值。比如可以设置学习率的初始值为0.001，每隔2000次迭代调整所述学习率的取值。当然，对学习率的设置方式不限于此。

在一些实施例中，所述根据所述区域引导表情特征，计算所述深度卷积神经网络模型得到的目标值与所述人脸样本图像的标注值之间的损失值，根据所述损失值调整所述模型参数的步骤，包括：首先，对多个所述人脸样本图像的所述损失值进行降序排列以得到排序结果。对于某个所述人脸样本图像，由所述深度卷积神经网络模型得到的目标值(训练中间结果)，可以与所述人脸样本图像的标注值(正确答案)存在差异(损失值)。然后，根据目标损失值利用反向传播算法优化所述深度卷积神经网络模型，所述目标损失值为在所述排序结果中的位置在预设参考位置之前的损失值。比如，预设参考位置为排序结果中降序处于70％的位置，那么当所述人脸样本图像对应的所述损失值在所述排序结果的位置处于前70％及70％时，根据所述损失值利用反向传播算法优化所述深度卷积神经网络模型。而当所述人脸样本图像对应的所述损失值在所述排序结果的位置处于后30％在所述预设序列位之后时，设置所述损失值为0。当然，对预设参考位置的设置不限于上述，比如对于不同训练轮次预设参考位置也可以作不同的设置。人脸样本图像中存在简单样本和难样本。本发明实施例通过损失值的计算提取出其中的难样本，忽略掉其中的简单样本，基于难样本进行学习，这样重点关注难样本可以更好的更新深度卷积神经网络模型，提升深度卷积神经网络模型的识别能力。具体的，可以通过Softmax函数(归一化指数函数)计算多个所述人脸样本图像的所述损失值。

在一些实施例中，比如对人脸区域作了如下划分：眼部、鼻部和嘴部。那么模型参数中包括眼部对应的注意力值、鼻部对应的注意力值和嘴部对应的注意力值。模型参数的初始值是所述深度卷积神经网络模型以所述表情特征为输入随机生成的。比如，眼部对应的注意力值的初始值为0.6，鼻部对应的注意力值的初始值为0.9，嘴部对应的注意力值的初始值为0.5。模型参数根据所述损失值而调整，经过学习将眼部对应的注意力值由0.6的初始值调整至0.9的当前值，将鼻部对应的注意力值由0.9的初始值调整至0.3的当前值，将嘴部对应的注意力值由0.5的初始值调整至0.7的当前值。通过优化，指向所述人脸样本图像中人脸各区域的权重值的模型参数在取值上更为合理。

S104：将调整后的所述模型参数对应的所述深度卷积神经网络模型作为所述表情识别模型。

如图3、9所示，图3、9是本发明实施例提供的一种表情识别模型的应用场景的示意图。图3中训练数据为人脸样本数据，每个所述人脸样本图像具有一种表情类型；相应的，后续训练出来的表情识别模型可以对待识别人脸图像进行表情类型的识别。图9中输入表情识别模型的是大小为64*64像素的待识别人脸图像，经所述表情识别模型输出的是惊讶的表情类型。

此外，需要说明的是，本发明实施例中采用深度卷积神经网络模型作为机器学习模型进行训练，当然用于训练的机器学习模型并不仅限于此，还可以包括蜕化的回归机器学习模型、决策树机器学习模型等。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中通过指向人脸样本图像中人脸各区域的权重值的模型参数进行注意力引导，训练深度卷积神经网络模型得到表情识别模型，表情识别模型能够自动关注到面部中跟表情变化相关的区域，表情识别模型的表达能力与适应能力更强，表情识别模型能够对商超等场景下人脸姿态多变、背景复杂(比如光照多变)的图像进行表情识别。训练深度卷积神经网络模型过程中，采用在线难样本学习策略，进行了相关特征的深度挖掘，保证表情识别模型具有较好的识别准确率和鲁棒性。

基于上述的表情识别模型，以下介绍本说明书一种表情识别方法的一种具体实施例。图4是本发明实施例提供的一种表情识别方法的流程示意图，本发明提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图4所示，所述方法可以包括：

S401：获取待识别人脸图像；

在本发明实施例中，如图5所示，所述获取待识别人脸图像的步骤，包括：

S501：采集待识别图像；

具体的，商超(包括智能商超)场景下，表情识别装置(包括比如摄像头)可以用于拍摄商超中有关顾客的图像或者视频，表情识别装置也可以接收来自外部设备(比如摄像头)发送的图像或视频。待识别图像可以是静态图片或者动态图片。摄像头拍摄的内容通常为视频，那么待识别图像则可以是从视频中截取的图片。

S502：对所述待识别图像进行人脸检测，获取包含人脸的中间图像；

待识别图像中通常除了人脸之外，还会包括其他的内容，例如商品或者货架等，但是这些内容对于表情识别而言是毫无用处的，并且识别过程中所要处理的内容越多，反而还会使得识别速度较慢，因此为了提高识别过程的效率，通过人脸检测(捕获)，从拍摄的图像或者视频中筛选出包含人脸的中间图像。

S503：对所述中间图像进行归一化处理，得到所述待识别人脸图像。

具体的，可以对中间图像进行裁剪和或灰度化，得到如图9、10所示的大小为64*64像素的图像，当然图像的大小还可以为128*128像素或32*32像素等。

S402：通过表情识别模型从所述待识别人脸图像中提取出表情特征，所述表情特征指向所述待识别人脸图像中人脸区域的像素值；

所述表情识别模型是通过使用多个人脸样本图像进行机器学习训练，并在训练过程中调整所述表情识别模型的模型参数而获得的，所述表情识别模型的模型参数指向所述人脸样本图像中人脸各区域的权重值，每个所述人脸样本图像具有一种表情类型。

S403：以所述表情特征为输入，通过所述表情识别模型识别所述待识别人脸图像对应的表情类型；

如图8所示，展示所述表情识别模型对待识别人脸图像的识别结果，用于对到店的顾客进行分析。顾客面部呈现的不同表情类型一定程度上反应了此刻顾客的内心感受，通过对识别表情可以更好的分析顾客对某类实体商品或虚拟服务的满意度，进而实现基于商品类型、顾客群体、消费时间等不同维度上的统计、分析及应用。比如，对于商品A，表情识别模型识别出第一部分顾客的表情类型为“高兴”，第二部分顾客的表情类型为“消极”。那么第一部分顾客展现出了一定的购买意向，可以作为商品A的目标顾客。经统计、分析第一部分顾客主要为青年女性，那么符合青年女性特质的顾客可以作为商品A及其相关商品的重点推广对象。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中通过指向人脸样本图像中人脸各区域的权重值的模型参数进行注意力引导，由深度卷积神经网络模型训练得到表情识别模型能够自动关注到面部中跟表情变化相关的区域，表情识别模型的表达能力与适应能力更强，表情识别模型能够对商超等场景下人脸姿态多变、背景复杂(比如光照多变)的图像进行表情识别。

本发明实施例还提供了一种表情识别装置，如图6所示，所述装置包括：

获取模块61：用于获取待识别人脸图像；

识别模块62：用于通过表情识别模型从所述待识别人脸图像中提取出表情特征，所述表情特征指向所述待识别人脸图像中人脸区域的像素值；以及以所述表情特征为输入，通过所述表情识别模型识别所述待识别人脸图像对应的表情类型；

如图7所示，所述装置还包括训练模块63，所述训练模块包括：

提取单元631：用于使用深度卷积神经网络模型从所述人脸样本图像中提取出表情特征，所述表情特征指向所述人脸样本图像中人脸区域的像素值；

生成单元632：用于以所述表情特征为输入，使用所述深度卷积神经网络模型随机生成模型参数的初始值，所述模型参数指向所述人脸样本图像中人脸各区域的权重值；

调整单元633：用于基于所述表情特征与所述模型参数的初始值，调整所述模型参数的当前值至所述深度卷积神经网络模型输出的表情类型与输入的所述人脸样本图像的表情类型相匹配；以及将调整后的所述模型参数对应的所述深度卷积神经网络模型作为所述表情识别模型。所述调整单元633包括：计算子单元：用于对所述表情特征与所述模型参数的当前值作点乘计算，得到区域引导表情特征；调整子单元：用于根据所述区域引导表情特征，计算所述深度卷积神经网络模型得到的目标值与所述人脸样本图像的标注值之间的损失值，根据所述损失值调整所述模型参数，所述人脸样本图像的标注值指向所述人脸样本图像的表情类型。

需要说明的，所述装置实施例中的装置与方法实施例基于同样的发明构思。

本发明实施例提供了一种服务器，该服务器包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的表情识别方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例还提供了一种服务器的结构示意图，请参阅图11，该服务器1100用于实施上述实施例中提供的表情识别方法，具体来讲，所述服务器结构可以包括上述表情识别装置。该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1110(例如，一个或一个以上处理器)和存储器1130，一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中，存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1110可以设置为与存储介质1120通信，在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个或一个以上电源1160，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1140，和/或，一个或一个以上操作系统1121，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种表情识别方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的表情识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种表情识别方法，其特征在于，所述方法包括：

获取待识别人脸图像；

2.根据权利要求1所述的方法，其特征在于，所述表情识别模型的训练过程包括如下步骤：

使用深度卷积神经网络模型从所述人脸样本图像中提取出表情特征，所述表情特征指向所述人脸样本图像中人脸区域的像素值；

以所述表情特征为输入，使用所述深度卷积神经网络模型随机生成模型参数的初始值，所述模型参数指向所述人脸样本图像中人脸各区域的权重值；

基于所述表情特征与所述模型参数的初始值，调整所述模型参数的当前值至所述深度卷积神经网络模型输出的表情类型与输入的所述人脸样本图像的表情类型相匹配；

将调整后的所述模型参数对应的所述深度卷积神经网络模型作为所述表情识别模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述表情特征与所述模型参数的初始值，调整所述模型参数的当前值至所述深度卷积神经网络模型输出的表情类型与输入的所述人脸样本图像的表情类型相匹配的步骤，包括：

对所述表情特征与所述模型参数的当前值作点乘计算，得到区域引导表情特征；

根据所述区域引导表情特征，计算所述深度卷积神经网络模型得到的目标值与所述人脸样本图像的标注值之间的损失值，根据所述损失值调整所述模型参数，所述人脸样本图像的标注值指向所述人脸样本图像的表情类型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述区域引导表情特征，计算所述深度卷积神经网络模型得到的目标值与所述人脸样本图像的标注值之间的损失值，根据所述损失值调整所述模型参数的步骤，包括：

对多个所述人脸样本图像的所述损失值进行降序排列以得到排序结果；

根据目标损失值利用反向传播算法优化所述深度卷积神经网络模型，所述目标损失值为在所述排序结果中的位置在预设参考位置之前的损失值。

5.根据权利要求2或3任一所述的方法，其特征在于，所述以所述表情特征为输入，使用所述深度卷积神经网络模型随机生成模型参数的初始值的步骤，包括：

基于所述表情特征，使用所述深度卷积神经网络模型随机生成区域引导特征，所述区域引导特征指向所述人脸样本图像中未遮挡的人脸区域和或与表情变化相关性高的人脸区域；

对所述区域引导特征进行归一化处理，得到所述模型参数的初始值。

6.根据权利要求2所述的方法，其特征在于，所述使用深度卷积神经网络模型从所述人脸样本图像中提取出表情特征的步骤之前，包括：

按照预设比例获取标注有对应表情类型的所述人脸样本图像；

其中，所述表情类型包括自然、高兴、惊讶和消极。

7.根据权利要求1所述的方法，其特征在于，所述获取待识别人脸图像的步骤，包括：

采集待识别图像；

对所述待识别图像进行人脸检测，获取包含人脸的中间图像；

对所述中间图像进行归一化处理，得到所述待识别人脸图像。

8.一种表情识别装置，其特征在于，所述装置包括：

获取模块：用于获取待识别人脸图像；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括训练模块，所述训练模块包括：

提取单元：用于使用深度卷积神经网络模型从所述人脸样本图像中提取出表情特征，所述表情特征指向所述人脸样本图像中人脸区域的像素值；

生成单元：用于以所述表情特征为输入，使用所述深度卷积神经网络模型随机生成模型参数的初始值，所述模型参数指向所述人脸样本图像中人脸各区域的权重值；

调整单元：用于基于所述表情特征与所述模型参数的初始值，调整所述模型参数的当前值至所述深度卷积神经网络模型输出的表情类型与输入的所述人脸样本图像的表情类型相匹配；以及将调整后的所述模型参数对应的所述深度卷积神经网络模型作为所述表情识别模型。

10.根据权利要求9所述的装置，其特征在于，所述调整单元包括：

计算子单元：用于对所述表情特征与所述模型参数的当前值作点乘计算，得到区域引导表情特征；

调整子单元：用于根据所述区域引导表情特征，计算所述深度卷积神经网络模型得到的目标值与所述人脸样本图像的标注值之间的损失值，根据所述损失值调整所述模型参数，所述人脸样本图像的标注值指向所述人脸样本图像的表情类型。