CN108921061A

CN108921061A - 一种表情识别方法、装置和设备

Info

Publication number: CN108921061A
Application number: CN201810638695.4A
Authority: CN
Inventors: 贺珂珂; 葛彦昊; 汪铖杰; 李季檩; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-11-30
Anticipated expiration: 2038-06-20
Also published as: CN108921061B

Abstract

本发明实施例公开了一种表情识别方法、装置和设备，可通过多种表情的概率分布来更加准确的表达人脸的表情。表情识别方法包括：从获取的包含人脸的待识别图像中提取出人脸区域图像；通过深度卷积神经网络模型从人脸区域图像中提取出低层次特征和高层次特征，其中，低层次特征包括人脸区域图像中脸部线条的轮廓以及每一个像素点灰度的强度，高层次特征包括人脸区域图像中脸部五官的形态；通过深度卷积神经网络模型对提取的特征进行组合，并根据深度卷积神经网络模型中通过训练学习得到的决策规则对组合后的特征进行判定，以得到M种表情的概率，M为大于1的正整数。

Description

一种表情识别方法、装置和设备

技术领域

本发明涉及机器学习技术领域，尤其涉及一种表情识别方法、装置和设备。

背景技术

表情识别是指从给定的图像中识别出该图像中的被识别对象的表情，从而确定被识别对象的心理情绪，一般是指人脸识别。目前，表情识别过程通常包括如下两个步骤：

(1)通过特征提取算法从图像中提取出被识别对象的特征。其中，特征提取算法例如可以是尺度不变特征变换(Scale-invariant feature transform，SIFT)算法或者局部二值模式(Local Binary Pattern，LBP)算法。

(2)将提取的特征输入分类器，通过分类器进行表情的分类。其中，分类器例如可以是基于支持向量机(Support Vector Machine，SVM)算法的分类器。

可见，目前的表情识别过程所得到的识别结果是基于分类的，也就是说最终得到的被识别对象的表情只会是高兴或者悲伤等，但是，人脸上所呈现的表情实质上是很丰富的，例如，惊喜的表情可能是由高兴和惊讶两种表情组合而成的，因此单纯的对表情进行分类并不足以准确的表达人脸的表情。

发明内容

本发明实施例提供一种表情识别方法、装置和设备，可通过深度卷积神经网络模型对人脸进行识别，得到多种表情在人脸上的概率，进而能够通过多种表情的概率分布来更加准确的表达人脸的表情。

第一方面，提供一种表情识别方法，该方法包括：

从获取的包含人脸的待识别图像中提取出人脸区域图像；

通过深度卷积神经网络模型从所述人脸区域图像中提取出低层次特征和高层次特征，其中，所述低层次特征包括所述人脸区域图像中脸部线条的轮廓以及每一个像素点灰度的强度，所述高层次特征包括所述人脸区域图像中脸部五官的形态；

通过所述深度卷积神经网络模型对提取的特征进行组合，并根据所述深度卷积神经网络模型中通过训练学习得到的决策规则对组合后的特征进行判定，以得到M种表情的概率，所述M为大于1的正整数；

其中，所述深度卷积神经网络模型是通过多个人脸训练样本进行训练学习获得的，每一个人脸训练样本中标注了M种表情的概率。

这样，对深度卷积神经网络模型对待识别图像进行表情识别，能够输出多种表情在人脸中出现的概率，由于人脸中可能同时存在多种表情，因而通过多种表情的概率分布来表达人脸的表情能够更加准确。

较佳的，针对所述多个人脸训练样本中的每一个人脸训练样本，训练所述深度卷积神经网络模型的过程包括如下步骤：

从人脸训练样本中提取出所述人脸区域图像；

将所述人脸区域图像的像素矩阵按照预设步长以及预设大小的卷积核进行N次卷积运算，并进行N次归一化运算，得到包括所述低层次特征和所述高层次特征的归一化后的特征图，其中，在每一次卷积运算完成之后，进行一次归一化运算，所述N为正整数；

根据所述归一化后的特征图得到M维的特征矩阵，其中，所述M维的特征矩阵中的M个值与所述M种表情的概率一一对应；

分别计算所述M个值，与标注的M种表情的概率之间的差异度，根据所述差异度对初始模型的决策规则进行调整，以得到所述深度卷积神经网络模型。

这样，通过对人脸训练样本中的像素矩阵进行多次卷积运算，增加最终建立的深度卷积神经网络模型的复杂度，进而提高模型识别的准确度。并且，在每一次卷积运算之后，都会进行归一化运算，使得卷积运算结果的值都为较接近的数量值，以提高模型训练的收敛速度。

较佳的，根据所述归一化后的特征图得到M维的特征矩阵，包括：

将所述归一化后的特征图依次与至少一个预设矩阵相乘，以将所述归一化后的特征图中的特征进行组合，得到所述M维的特征矩阵，其中，在一次相乘完成之后，将相乘得到的特征矩阵与下一个预设矩阵相乘，且，用于最后一次相乘的预设矩阵为M维的矩阵。

这样，由于归一化后的特征图的维度较高，通过与至少一个预设矩阵的相乘，最终能够将归一化后的特征图从高维变换至M维，从而得到M种表情的概率。

较佳的，

在根据所述归一化后的特征图得到所述M维的特征矩阵之前，所述方法还包括：对每一次归一化运算后的特征图进行非线性激活处理，得到非线性激活后的特征图；其中，所述非线性激活处理为将所述每一次归一化后的特征图中的每个值与预设数值进行比较，并选取所述每个值与所述预设数值中较大的值的处理过程；以及

所述根据所述归一化后的特征图得到所述M维的特征矩阵，包括：根据最后一次非线性激活后的特征图得到所述M维的特征矩阵。

这样，通过进行非线性激活处理，给训练后的模型增加非线性因素，增加模型的非线性能力，从而提高深度卷积神经网络模型的准确度。

较佳的，

在根据所述归一化后的特征图得到M维的特征矩阵之前，所述方法还包括：在所述N次卷积运算中至少一次卷积运算之后，对得到的卷积运算后的特征图进行池化处理，得到池化后的特征图；或者，

在所述N次归一化运算中至少一次归一化运算之后，对得到的归一化后的特征图进行池化处理，得到池化后的特征图；

则所述根据所述归一化后的特征图得到M维的特征矩阵，包括：根据最后一次池化后的特征图得到所述M维的特征矩阵。

这样，通过池化处理保留了特征图中主要的特征，去除了特征图中的非主要特征，从而减少非主要特征对模型训练的影响，那么在通过训练后的模型进行识别时，同样会去除这些非主要特征，减少非主要特征对识别结果的干扰，提高了训练所得的模型的鲁棒性；此外，由于特征数量减少了，后续的计算量相应的减少，有利于加快模型训练速度。

较佳的，根据所述差异度对所述初始模型的决策规则进行调整，以得到所述深度卷积神经网络模型，包括：

根据所述差异度计算对每一个卷积核的权重矩阵以及所述至少一个预设矩阵中每个值的调整值；

对按照所述调整值对每一个卷积核的权重矩阵以及所述至少一个预设矩阵进行调整后的初始模型，继续进行多次训练学习，直至所述差异度小于预设差异度阈值，并将最后一次调整后的初始模型作为所述深度卷积神经网络模型。

较佳的，通过深度卷积神经网络模型从所述人脸区域图像中提取出所述低层次特征和所述高层次特征，包括：

将所述人脸区域图像的像素矩阵按照所述预设步长和所述预设大小的卷积核，与所述深度卷积神经网络模型中的权重矩阵进行N次卷积运算，并进行N次归一化运算，得到包括所述低层次特征和所述高层次特征的归一化后的特征图；

则通过所述深度卷积神经网络模型对提取的特征进行组合，并根据所述深度卷积神经网络模型中通过训练学习得到的决策规则对组合后的特征进行判定，以得到M种表情的概率，包括：

将所述归一化后的特征图与所述深度卷积神经网络模型中的至少一个预设矩阵相乘，以将所述归一化后的特征图中的特征进行组合，得到所述M维的特征矩阵，其中，所述M维的特征矩阵中的M个值与所述M种表情的概率一一对应。

较佳的，

在将所述归一化后的特征图与所述深度卷积神经网络模型中的至少一个预设矩阵相乘之前，所述方法还包括：

对每一次归一化运算后的特征图进行非线性激活处理，得到所述非线性激活后的特征图；

则将所述归一化后的特征图与所述深度卷积神经网络模型中的至少一个预设矩阵相乘，包括：

将所述非线性激活后的特征图与所述深度卷积神经网络模型中的至少一个预设矩阵相乘。

较佳的，

在所述N次卷积运算中至少一次卷积运算之后，对得到的卷积运算后的特征图进行池化处理，得到所述池化后的特征图；或者，

在所述N次归一化运算中至少一次归一化运算之后，对得到的归一化后的特征图进行池化处理，得到所述池化后的特征图；

则所述将所述归一化后的特征图与所述深度卷积神经网络模型中的至少一个预设矩阵相乘，包括：

将所述池化后的特征图与所述深度卷积神经网络模型中的至少一个预设矩阵相乘。

第二方面，提供了一种表情识别装置，所述装置包括：

获取单元，用于从获取的包含人脸的待识别图像中提取出人脸区域图像；

识别单元，用于通过深度卷积神经网络模型从所述人脸区域图像中提取出低层次特征和高层次特征，其中，所述低层次特征包括所述人脸区域图像中脸部线条的轮廓以及每一个像素点灰度的强度，所述高层次特征包括所述人脸区域图像中脸部五官的形态；以及通过所述深度卷积神经网络模型对提取的特征进行组合，并根据所述深度卷积神经网络模型中通过训练学习得到的决策规则对组合后的特征进行判定，以得到M种表情的概率，所述M为大于1的正整数；

较佳的，所述设备包括模型训练单元，模型训练单元用于：

从人脸训练样本中提取出所述人脸区域图像；

较佳的，所述模型训练单元具体用于：

较佳的，所述模型训练单元还用于：

对每一次归一化运算后的特征图进行非线性激活处理，得到非线性激活后的特征图，其中，所述非线性激活处理为将所述每一次归一化后的特征图中的每个值与预设数值进行比较，并选取所述每个值与所述预设数值中较大的值的处理过程；以及

根据最后一次非线性激活后的特征图得到所述M维的特征矩阵。

较佳的，所述模型训练单元还用于：

在所述N次卷积运算中至少一次卷积运算之后，对得到的卷积运算后的特征图进行池化处理，得到池化后的特征图；或者，

根据最后一次池化后的特征图得到所述M维的特征矩阵。

较佳的，所述模型训练单元具体用于：

较佳的，所述识别单元具体用于：

较佳的，所述识别单元还用于：

第三方面，提供了一种表情识别设备，所述设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的方法。

第四方面，提供了一种可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如第一方面所述的方法。

本发明实施例中，可通过深度卷积神经网络模型对待识别图像中的人脸进行表情识别，以输出多种表情在人脸中出现的概率。首先，输出的表情识别结果是多种表情在人脸中出现的概率，由于人脸中可能同时存在多种表情，因而通过多种表情的概率分布来表达人脸的表情能够更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例的一种应用场景的示意图；

图2为本发明实施例的表情识别方法的流程示意图；

图3为本发明实施例中对图像进行预处理的示意图；

图4为本发明实施例中针对一个人脸训练样本标注得到的7种表情的概率分布示意图；

图5为本发明实施例中初始模型的结构示意图；

图6为本发明实施例中通过初始模型对人脸训练样本进行训练学习的流程示意图；

图7为本发明实施例中卷积层进行卷积运算的示意图；

图8为本发明实施例中增加非线性激活处理的训练学习的流程示意图；

图9为本发明实施例中增加池化层的初始模型的结构示意图；

图10为本发明实施例中增加了池化处理的训练学习的流程示意图；

图11为本发明实施例中池化层进行池化处理的示意图；

图12为本发明实施例中通过深度卷积神经网络模型进行表情识别的流程示意图；

图13为本发明实施例提供的顾客在超市中购物的场景示意图；

图14为表情识别方法的具体应用的流程示意图；

图15为本发明实施例中表情识别装置的一种结构示意图；

图16为本发明实施例中表情识别设备的一种结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

下面介绍本发明实施例的技术背景。

表情识别可以从给定的图像中识别出该图像中的被识别对象的表情，但是，目前的表情识别过程所得到的识别结果通常是基于分类的，也就是说最终得到的被识别对象的表情只会是高兴或者悲伤等，但是，人脸上所呈现的表情实质上是很丰富的，例如，惊喜的表情可能是由高兴和惊讶两种表情组合而成的，因而单纯的对表情进行分类并不足以准确的表达人脸的表情。

鉴于此，在考虑到人脸上所呈现的表情是很丰富的，单纯的表情分类很难准确的进行表达，故而本发明实施例中通过对多个人脸训练样本进行训练，得到能够输出多种表情的概率分布的深度卷积神经网络模型，进而通过该模型对人脸进行识别就可以直接输出人脸上的表情的概率分布，也就是能够获知待识别图像中的人脸上包括了哪些表情，以及这些表情的概率，这种表达方式更能够准确的表达人脸的表情。

本发明实施例的表情识别方法可以应用于如图1所示的应用场景中，在该场景中包括摄像头10、服务器20和用户设备30。

摄像头10可以设置在智能商超中，用于拍摄智能商超中的顾客的图像或者视频，并将拍摄的图像或者视频传输给服务器20。

服务器20用于对摄像头10拍摄的图像进行处理，并对该图像中包括的人脸进行表情识别；或者服务器用于从摄像头10拍摄的视频中捕捉人脸，并对该人脸进行表情识别。服务器20还可以将表情识别结果发送给用户设备30，或者根据表情识别结果生成分析报告后再发送给用户设备30。其中，本发明实施例所提供的表情识别方法可以通过服务器20来执行。

用户设备30可以是智能商超中的商家的设备，商家可以通过服务器的表情识别结果或者分析报告了解到顾客在本店中的购买意向，或者可以针对某一顾客人群进行重点推广等。例如，对于某一商品，大部分顾客看到后都会是高兴的表情，而对于另一商品，大部分顾客看到表情后都很平淡，那么商家既可以对这两种商品中的前者进行重点销售。或者，对于某商品，感兴趣的顾客大部分人群都是20～30左右的女性，那么在进行产品推广时，可以将人群定位到20～30这个区间的女性。

摄像头10、服务器20以及用户设备30之间可以通过无线网络(wirelessnetwork)或者有线网络来进行数据传输，其中，无线网络例如可以是通过无线局域网(WirelessLAN，WLAN)或者蜂窝网络等。

当然，本发明实施例提供的表情识别方法并不限用于图1中所示的应用场景中，还可以用于其他可能的应用场景，本发明实施例并不进行限制。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

请参见图2，本发明实施例提供一种表情识别方法，该方法可以应用于图1所示的应用场景中，该方法可以通过本发明实施例提供的表情识别设备来执行，该表情识别设备例如可以通过图1中所示的服务器20来实现。该方法的流程描述如下。

步骤201：从获取的包含人脸的待识别图像中提取出人脸区域图像。

本发明实施例中，待识别图像可以是如图1中所示的摄像头10所拍摄的图像，或者，待识别图像还可以是从摄像头10拍摄的视频中截取的包括人脸的图像，或者，待识别图像也可以是用户通过网络上传到服务器的图像。其中，待识别图像可以是静态图片，或者还可以是动态图片，例如摄像头10所拍摄的内容通常为视频，那么待识别图像则可以是从视频中截取的包括同一人脸的动态图片。当然，待识别图像的获取方式还可以包括其他可能的方式，本发明实施例对此不做限制。

由于摄像头10所拍摄的图像或者视频中通常除了人脸之外，还会包括其他的内容，例如商品或者货架等，但是这些内容对于表情识别而言是毫无用处的，并且识别过程中所要处理的内容越多，反而还会使得识别速度较慢，因此为了提高识别过程的效率，还可以在获取图像之后，先对图像进行预处理，再将预处理完成后的图像作为输入至深度卷积神经网络模型的待识别图像。具体的，请参见图3，为一种对图像进行预处理的流程示意图。

在具体实施过程中，在有图像输入时，可以先检测到输入的图像中是否包括人脸，若是输入的图像中包括人脸，再对输入的图像进行预处理，若是输入的图像中未检测到人脸，则跳过该图像，继续处理下一张输入的图像。从获取的包含人脸的待识别图像中提取出人脸区域图像具体包括如下步骤：

步骤301：检测人脸中的关键点。

其中，关键点的检测是指定位关键点在人脸上的位置，关键点可以是眼睛或者嘴，或者人脸上的多个特征的组合。图3中所示具体以眼睛作为关键点为例。

步骤302：人脸区域的矫正。

由于输入的图像中人脸有可能存在偏斜的情况，因此，可以通过关键点来确定人脸是否偏斜。例如，当以眼睛作为关键点时，可以将两个瞳孔的中心点之间的连线与水平线进行对比，若两个瞳孔的中心点之间的连线与水平线之间存在一定的角度，则说明人脸发生了偏斜，那么可以对图像进行旋转，以使得两个瞳孔的中心点之间的连线与水平线的夹角为零。如图3中所示，通过将图像逆时针旋转一定的角度，即可以使得两个瞳孔的中心点之间的连线与水平线的夹角为零。

步骤303：人脸区域的剪裁。

具体的，将除去人脸之外的其他区域均剪除，得到人脸区域图像，这样，可以减少冗余特征对表情识别的干扰，同时减少训练过程或者识别过程中的计算量。其中，剪裁时可以将图像按照预设的大小进行剪裁，预设的大小例如可以为112*112。

本发明实施例中，由于获取到的图像很有可能为彩图，但是色彩对于表情识别结果并不是决定性因素，因而在获取到彩图时，可以将彩图转换成灰度图，这样，可以大大减少训练过程或者识别过程中的计算量。具体的，这个色彩的转换过程可以是在关键点之前完成的，也可以是在剪裁之后再进行，本发明实施例对此并不做限制。

步骤202：通过深度卷积神经网络模型从人脸区域图像中提取出低层次特征和高层次特征，其中，低层次特征包括人脸区域图像中脸部线条的轮廓以及每一个像素点灰度的强度，高层次特征包括人脸区域图像中脸部五官的形态。

本发明实施例中，对输入的图像的预处理完成之后，则可以将预处理得到后的人脸区域图像输入至预先训练的深度卷积神经网络模型中，进而通过深度卷积神经网络模型从人脸区域图像中提取出低层次特征和高层次特征，其中，低层次特征可以包括人脸区域图像中脸部线条的轮廓以及每一个像素点灰度的强度，高层次特征可以包括人脸区域图像中脸部五官的形态。

其中，深度卷积神经网络模型是通过多个人脸训练样本进行训练学习获得的，每一个人脸训练样本中标注了M种表情的概率。对于深度卷积神经网络模型的训练过程将在后续的实施例中具体进行介绍，在此不过多赘述。

步骤203：通过深度卷积神经网络模型对提取的特征进行组合，并根据深度卷积神经网络模型中通过训练学习得到的决策规则对组合后的特征进行判定，以得到M种表情的概率，M为大于1的正整数。

本发明实施例中，可以根据提取的特征进行组合，进而根据组合的特征以及训练学习得到的决策规则来判断人脸区域图像中的M种表情的概率。

具体的，M种表情可以为常见的表情的分类，例如M种表情可以包括高兴，自然，难过，惊讶，厌恶，生气以及害怕这7种表情，当然，M种表情也可以包括其他可能的表情，在此就不一一赘述了。

本发明实施例中，深度卷积神经网络模型是利用多个人脸训练样本进行训练获得的，每一个人脸训练样本中标注了M种表情的概率。其中，对于模型的训练是指通过初始模型对训练样本集中的人脸训练样本进行表情识别，再将表情识别结果与实际的表情结果进行对比，根据两者之间的差异度不断对初始模型的参数进行调整，直至最终得到的模型的准确度能够满足准确度要求的过程。

在通过训练样本集进行深度卷积神经网络模型的训练之前，还需要对训练样本集中的每一个人脸训练样本进行标注。

具体的，对于一个人脸训练样本，以M种表情为高兴，自然，难过，惊讶，厌恶，生气以及害怕这7种表情为例，可以通过直观的感受对该人脸训练样本的各个表情进行标注，这样，对于每一个人脸训练样本，经过标注后，都可以得到一个7维的表情概率分布。如图4中所示，为针对一个人脸训练样本标注得到的7种表情的概率分布示意图，其中，高兴为主导表情，自然为次主导表情，惊讶的概率次于自然，其他表情的概率皆为零。

由于表情的标注具有较强的主观性，为了使得标注的表情的概率分布更准确，每个人脸训练样本可以由多个标注者进行标注，最终取多个标注者标注的每个表情的概率的平均值作为最终的概率。

示例性的，对于一张图像，通过5个标注者进行标注，这5个标注者标注的结果如下表所示。

标注者编号	表情1概率	表情2概率	表情3概率	表情4概率	表情5概率
						1	0.8	0.2	0	0	0
2	0	0.6	0.4	0	0
						3	0.7	0.3	0	0	0
4	0.8	0	0	0	0.2
						5	0.6	0	0	0.4	0

则最终得到标注的表情1～表情5的概率依次为：0.58、0.22、0.08、0.08和0.04。

请参见图5，初始模型的构成可以包括输入层、N个卷积层、N个归一化层、全连接层和损失层，N为正整数。下面将结合图5中的初始模型对本发明实施例的模型训练过程进行描述，此外，对于每一层所进行的处理，也将在训练过程的描述中一并进行，在此先不过多赘述。

本发明实施例中，模型的训练是对训练样本集中的人脸训练样本多次学习的过程，一次学习的过程也是对人脸训练样本的一次识别过程。在具体实施过程中，由于训练样本集中包含的人脸训练样本数量众多，一次学习的过程即会消耗大量的时间，因此在每一次学习的过程中可以仅对训练样本集中的部分人脸训练样本进行学习。具体的，部分人脸训练样本可以是随机从训练样本集中选取的，对于部分人脸训练样本的数量可以根据经验进行设置，或者，还可以根据训练样本集包括的人脸训练样本的量进行设置。

请参见图6，为通过初始模型对人脸训练样本进行学习的流程示意图。由于在本发明实施例中，对于不同的人脸训练样本的学习过程均是相同的，因而下面以一个人脸训练样本为例对学习过程进行描述。

步骤601：输入层接收人脸训练样本。

具体的，输入层可以对接收的人脸训练样本进行预处理，得到人脸区域图像，或者，输入层接收的图像还可以是经过预处理后的人脸区域图像，对于预处理过程可以参见图3所示的实施例部分的描述，在此不再赘述。

步骤602：通过N个卷积层进行N次卷积运算(Convolution operation)。

人脸区域图像输入输入层之后，即会进入第一个卷积层进行卷积运算。其中，对于设备而言，人脸训练样本实质上是由像素矩阵的形式进行存储的，因此后续所言的对人脸训练样本进行的处理实质上也是基于该像素矩阵进行的。相应的，在卷积层中是将人脸区域图像的像素矩阵按照预设步长以及预设大小的卷积核进行卷积运算。

卷积核是像素矩阵中的局部区域。对于图像来说，局部区域的像素在空间上的联系较为紧密，例如距离较近的像素通常具有相同的颜色纹理，从而距离较近的像素之间的相关性较强，反之距离较远的像素相关性则较弱，因而，可以通过对图像的局部区域进行感知，并将这些局部区域的信息进行组合，就可以得到整个图像的全局信息。

卷积运算是将一个预设大小的卷积核与该卷积核的权重的各个值相乘后求和，然后再按照预设步长移动到下一个卷积核，并将下一个卷积核与该卷积核的权重的各个值相乘后求和的过程。其中，卷积核的大小越小，相当于查看图像越仔细，从该图像中获取的信息量也就越大，相对应的，整个卷积运算的计算量也就越大，因而在选取卷积核的大小时可以根据实际情况进行衡量，例如，预设大小可以是3*3，当然，卷积核的大小还可以是其他可能的值。

一般而言，预设步长可以设置为1，也就是说，针对一个卷积核计算完成后，下一个卷积核即是上一个卷积核向右移动一个像素。当然，预设步长也可以设置为其他的值，例如预设步长可以设置为2或者3，本发明实施例对此不做限制。

示例性的，请参见图7，为卷积层进行卷积运算的示意图。其中，人脸训练样本的像素矩阵大小例如可以为112*112，但是为了方便示出，选取了像素矩阵中的部分区域进行示出，即图7中所示的大小为6*6的像素矩阵，卷积核的预设大小为3*3，预设步长为1。

对人脸训练样本的像素矩阵进行卷积运算时，会从第一个卷积核开始，即图7中所示的阴影部分，将第一个卷积核与该卷积核的权重矩阵中对应部分的值进行相乘后再求和，可得到计算结果为4，即图7中右侧矩阵中阴影部分中的值。当第一个卷积核计算完成之后，将第一个卷积核向右移动一个像素，再将第二个卷积核与其对应的权重矩阵进行上述运算，当移动到边界时回到像素矩阵的最左端并向下移动一个像素，后续过程依次类推。完成所有卷积核的运算之后，即可得到卷积运算后的特征图(feature map)，即图7中右侧所示的4*4的矩阵。其中，特征图中包括通过卷积层提取的低层次特征和高层次特征，这些特征不同时，所对应的表情的概率即可能是不同的。其中，N个卷积层中通常前几个卷积层用于提取低层次特征，后几个卷积层用于提取高层次特征，具体可以根据实际应用进行设置，例如在N为10时，可以通过前5个卷积层来提取低层次特征，以及通过后5个卷积层来提取高层次特征。

在初始模型中，可以通过对每一个卷积核的权重矩阵随机赋值，进而通过对初始模型进行训练学习，对权重矩阵中的值不断进行调整。

本发明实施例中，卷积层的数量N可以根据经验进行设置，或者根据实际建模过程进行调整。例如N可以为10，当然，N也可以为其他可能的值。

步骤603：通过N个归一化(normalization)层进行N次归一化运算。

由于在卷积运算之后，所得到的卷积运算后的特征图中的值可能较大，数值之间的差异也可能较大，不利于模型的收敛，因而可以在每一个卷积层之后，设置一个归一化层，以将卷积运算后的特征图中的值转换为较为接近的值，例如，使得所有值都位于[-1，1]这个区间内，从而加快模型的收敛速度。

可选的，可以按照如下公式进行归一化运算：

其中，x_ij为卷积运算后的特征图中第i行第j列的值，y_ij为对归一化后的特征图中第i行第j列的值，μ和σ分别为卷积运算后的特征图中所有值的均值和标准差。

具体的，通过上述公式进行归一化运算，所求的值还是有可能未位于指定的取值区间内，从而为了避免这种情况，还可以通过如下公式进行归一化运算：

其中，a为归一化系数，在初始模型中，归一化系数可以是按照经验预先设置的值，或者也可以是随机选择的值，也就是说，a也可以作为模型训练对象，通过训练学习不断的对a进行调整。

可选的，还可以按照如下公式进行归一化运算：

其中，x_ij为卷积运算后的特征图中第i行第j列的值，y_ij为对归一化后的特征图中第i行第j列的值，x_min和x_max分别为卷积运算后的特征图中的最小值和最大值。

步骤604：通过至少一个全连接层(Fully Connected layers，FC)得到M维的特征矩阵。

本发明实施例中，一个全连接层即是将归一化后的特征图与一个预设矩阵相乘的过程。其中，至少一个全连接层可以包括多个高维的全连接层和一个M维的全连接层，高维的全连接层的数量例如可以为2，并且维度例如可以为1024或者2048等，或者，其他可能的值，M维的全连接层的维度M是与表情的种类M相同的，例如表情的种类M为7，则M维的全连接层的维度M也为7。

具体的，全连接层的计算公式如下：

Y＝W*B

其中，W为输入至全连接层的特征图，例如是在归一化层后面设置一个全连接层的话，则W为归一化后的特征图。B为预设矩阵，例如，在高维的全连接层中，B可以为1024*1的矩阵，在M维的全连接层中，B可以为7*1的矩阵，B是模型训练的对象，对于初始模型中，B中的值可以是随机赋予的，以通过训练学习不断对B中的值进行调整。Y为全连接层的输出矩阵，例如对于M维的全连接层，Y即为M*1的矩阵。

本发明实施例中，最终通过与M维的预设矩阵相乘，最终能够将归一化后的特征图中的特征进行映射至M维中，最终得到的M维的特征矩阵中的M个值与M种表情的概率一一对应，从而得到M种表情的概率。

全连接层的运算过程实质上是对前面提取的特征进行组合和分类的过程，也就是说，预设矩阵即可以认为是一种决策规则，在训练过程中对预设矩阵进行不断的调整的过程即是对训练学习得到决策规则的过程，进而使得最终得到的深度神经网络模型中的预设矩阵能够达到特征组合以及分类足够准确的效果。

步骤605：通过损失层(loss layer)计算预测的M种表情的概率与标注的M种表情的概率之间的差异度，并根据差异度对初始模型的参数进行调整，以得到深度卷积神经网络模型。

其中，预测的M种表情的概率即是指上述M维的特征矩阵中的M个值。

本发明实施例中，可以通过交叉熵损失函数(Sigmoid Cross Entropy LossFunction)计算预测的M种表情的概率与标注的M种表情的概率之间的差异度。交叉熵损失函数的计算公式如下：

其中，p表征标注的M种表情的概率，q表征预测的M种表情的概率，H(p,q)为p和q的交叉熵，也就是预测的M种表情的概率与标注的M种表情的概率之间的差异度，交叉熵越小，则差异度也越小。

示例性的，若是M为3，分别为高兴，自然和伤心，预测的这3种表情的概率依次为0.5、0.2和0.3，标注的这3种表情的概率依次为1、0和0，那么

H(p,q)＝-(1*log^0.5+0*log^0.2+0*log^0.3)＝0.3

也就是说，预测的M种表情的概率与标注的M种表情的概率之间的差异度为0.3。

本发明实施例中，还可以通过欧氏距离算法来获得预测的M种表情的概率与标注的M种表情的概率之间的差异度，当然，还可以通过其他可能的损失函数计算差异度，在此就不一一例举了。

本发明实施例中，若是计算所得的差异度大于或者等于预设差异度阈值，则根据差异度对初始模型的参数进行调整。其中，初始模型的参数主要包括卷积层中每一个卷积核的权重矩阵和全连接层中的至少一个预设矩阵，若是归一化层中还包括归一化系数，则初始模型的参数则还应包括归一化系数。

具体的，可以通过梯度下降算法(Gradient Descent Optimization)来计算对于初始模型的参数的调整值。进一步地，梯度下降算法具体包括批量梯度下降法(BatchGradient Descent，BGD)、随机梯度下降算法(Stochastic Gradient Descent，SGD)和小批量梯度下降算法(Mini-batch Gradient Descent，MBGD)。

其中，梯度下降算法中的学习率是机器学习中一个重要的参数，它影响着基于损失梯度调整神经网络模型的参数的速度，一般来说，学习率越大，模型的学习速度越快，但是学习率过大时，可能不能准确的对模型的参数进行调整，因而需要设置一个合适的值，一般来讲，可以在开始时将学习率(learning rate)设置为较大的值，例如可以将学习率设置为0.01，通过不断的训练，在差异度不在发生变化时，则可以降低学习率后在继续进行训练。

本发明实施例中，获取对初始模型的参数的调整值之后，则可以按照调整值计算得到调整后的初始模型的参数，并根据调整后的初始模型继续进行多次训练学习，直至差异度小于预设差异度阈值，并将最后一次调整后的初始模型作为深度卷积神经网络模型。其中，在对进行参数的调整时，可以通过反向传播(Backpropagation algorithm，BP)算法进行。

在一种可选的实施方式中，由于对像素矩阵或者特征图进行计算的过程均是线性的，从而得到的深度卷积神经网络模型实质上也是线性的模型，但是实际上图像的处理是很复杂的，仅通过线性的模型无法准确的进行表达，因而有必要引入非线性因素，以提高模型的表达能力。

请参见图8，为增加非线性激活处理的训练流程示意图。

步骤801：输入层接收人脸训练样本。

步骤802：通过N个卷积层进行N次卷积运算。

步骤803：通过N个归一化层进行N次归一化运算。

步骤804：对归一化后的特征图进行非线性激活处理，得到非线性激活后的特征图。

步骤805：通过至少一个全连接层得到M维的特征矩阵。

步骤806：通过损失层计算预测的M种表情的概率与标注的M种表情的概率之间的差异度，并根据差异度对初始模型的参数进行调整，以得到深度卷积神经网络模型。

其中，步骤801～步骤803以及步骤805～步骤806分别与图6所示的实施例部分的内容相同，因而对于这些步骤参考对应部分的描述，在此不做过多赘述。

本发明实施例中，在每一个归一化层之后，均可以进行一次非线性激活处理，从而得到非线性激活后的特征图，那么输入至全连接层的也就为最后一次非线性激活后的特征图。具体的，非线性激活处理通过非线性激活函数来实现，非线性激活函数可以采用线性整流函数(Rectified Linear Unit，ReLU)，ReLU的具体公式如下：

f(x_ij)＝max(0,x_ij)

根据上述公式，ReLU在归一化后的特征图中的值大于0，取该值本身，若是该值小于或者等于0，则将值所在位置的值替换为0。

通过进行非线性激活处理，给训练后的模型增加非线性因素，增加模型的非线性能力，增加深度卷积神经网络模型的复杂度，进而提高深度卷积神经网络模型的准确度。

在一种可选的实施方式中，由于特征图中存在着一些非主要特征，因而有必要对特征图进行池化(pooling)处理。请参见图9，为增加池化层的初始模型的结构示意图。

请参见图10，为增加了池化处理的训练流程示意图。

步骤1001：输入层接收人脸训练样本。

步骤1002：通过N个卷积层进行N次卷积运算。

步骤1003：通过N个归一化层进行N次归一化运算。

步骤1004：对归一化后的特征图进行池化处理，得到池化后的特征图。

步骤1005：通过至少一个全连接层得到M维的特征矩阵。

步骤1006：通过损失层计算预测的M种表情的概率与标注的M种表情的概率之间的差异度，并根据差异度对初始模型的参数进行调整，以得到深度卷积神经网络模型。

本发明实施例中，可以在N个卷积层中的其中一个或者几个卷积层之后，增加一个池化层(pooling layer)，得到池化后的特征图，那么输入至归一化层的也就为池化后的特征图。例如，若是卷积层的数量为10时，则可以在第2、4、7和10个卷积层之后设置一个池化层。

或者，还可以在N个归一化层中的其中一个或者几个归一化层之后，增加一个池化层，得到池化后的特征图，那么输入至全连接层的也就为池化后的特征图。图9和图10中均以此为例。

其中，步骤1001～步骤1003以及步骤1005～步骤1006分别与图6所示的实施例部分的内容相同，因而对于这些步骤参考对应部分的描述，在此不做过多赘述。

请参见图11，为池化层进行池化处理的示意图。沿用图7中卷积层输出的4*4的特征图，对该特征图进行池化处理，即是对特征图中的部分区域进行求均值或者取最大值，图11中以取最大值为例。如图11中所述，4*4的特征图可以按照2*2划分为4个区域，第一区域即为左上角的4个方格，包括4个值，即4、3、2和4，取最大值即为4，即图11中右侧所示2*2的特征图的左上角的值。

这样，通过池化处理可以对特征图中的邻近区域的特征进行合并，进而使得池化处理后的特征图能够保留特征图中主要的特征，去除特征图中的非主要特征，从而减少非主要特征对模型训练的影响，那么在通过训练后的模型进行识别时，同样会去除这些非主要特征，减少非主要特征对识别结果的干扰，提高了训练所得的模型的鲁棒性；此外，由于特征数量减少了，后续的计算量相应的减少，有利于加快模型训练速度以及加快识别速度。

本发明实施例中，非线性激活处理和池化处理也可以同时增加至初始模型中进行训练，本领域技术人员可以根据实际需求灵活的进行选取，本发明实施例对此不做限制。

本发明实施例中，训练得到深度卷积神经网络模型之后，还可以验证深度卷积神经网络模型识别得到的表情的概率是否准确，则可以通过验证样本集对深度卷积神经网络模型进行验证，由于验证过程实质上是与训练过程是类似的，因此不再对该过程进行赘述。

若是通过验证样本集验证得到的深度卷积神经网络模型的准确度已经能够满足要求时，则可以将深度卷积神经网络模型用于表情的识别。

请参见图12，基于上述训练所得到的深度卷积神经网络模型，对待识别图像进行识别得到表情识别结果的流程如下。

步骤1201：输入层从获取的待识别图像中提取人脸区域图像。

步骤1202：通过N个卷积层对人脸区域图像的像素矩阵进行N次卷积运算。

本发明实施例中，在深度卷积神经网络模型训练完成之后，N个卷积层中用于与像素矩阵的每一个卷积核相乘的权重矩阵已经确定，那么在待识别图像的识别过程中，则是将人脸区域图像的像素矩阵中的每一个卷积核与深度卷积神经网络模型中确定的相应位置的权重矩阵进行卷积运算。其中，卷积核的大小以及步长在深度卷积神经网络模型同样已经确定。

卷积层可以从人脸区域图像中提取脸部线条的轮廓以及每一个像素点灰度的强度，以及人脸区域图像中脸部五官的形态等特征，以提供给后续的层进行表情的判定。

步骤1203：通过N个归一化层对卷积运算后的特征图进行N次归一化运算。

在每一个卷积层之后，都会通过一个归一化层对卷积运算后的特征图进行归一化运算，以使得特征图中的邻近的值都处于较为接近的范围内，加快运算过程的收敛速度，从而提高识别速度。

步骤1204：对归一化后的特征图进行非线性激活处理，得到非线性激活后的特征图。

步骤1205：对非线性激活后的特征图进行池化处理，得到池化后的特征图。

本发明实施例中，池化层可以是在归一化层、卷积层或者非线性激活函数之后，图12中以池化层在非线性激活函数之后为例。池化层可以对特征图中邻近区域的特征进行合并，减少特征图中的非主要特征，从而减少非主要特征对识别结果的干扰，提高了训练所得的模型的鲁棒性，此外，由于特征数量减少了，后续的计算量相应的减少，提升了识别速度。

步骤1206：通过至少一个全连接层得到M维的特征矩阵。

相同的，在深度卷积神经网络模型训练完成之后，至少一个全连接层中的预设矩阵也已经确定，那么在待识别图像的识别过程中，则是将输入至全连接层中的特征图与深度卷积神经网络模型中确定的预设矩阵进行相乘。

全连接层可以通过训练得到的预设矩阵对前序各层提取的特征进行组合以及判定，从而输出M维的特征矩阵，M维中的每一维的值可以代表一个表情维度的概率，从而得到M种表情的概率。

本发明实施例中，训练得到的深度卷积神经网络模型中，主要通过卷积层、归一化层、非线性激活函数以及池化层等对原始人脸区域图像中的低层次和高层次特征进行提取以及一定的处理，并通过全连接层将提取得到的特征进行组合和分类，进而得到M种表情在原始人脸区域图像中出现的概率。其中，由于识别过程中每一个层的处理方法是与训练过程中对应部分相同的，因而针对每一个层的处理过程，可以参考训练过程中对应部分的描述，在此不过多赘述。

需要声明的是，步骤1204和步骤1205虽然在图12中一并示出，但需要知道的是，步骤1204和步骤1205并不是必选的步骤，因此在图12中以虚线示出。此外，本领域技术人员还可以对步骤1205的位置进行灵活的调整。

为了更好的解释本发明实施例，下面结合具体的实施场景对本发明实施例提供的一种表情识别方法的具体应用进行描述，如图13所示，为顾客在超市中购物的场景示意图，该方法可以包括如图14所示的步骤：

步骤1401：摄像头录制超市中的视频。

步骤1402：摄像头将录制的视频传输给服务器。

如图13中所示，顾客经过商品A时，拿起了商品A进行查看，同时摄像头可以实时录制超市中的场景，那么就会将顾客拿起商品A的情形录制下来，并实时传输给服务器。

步骤1403：服务器检测视频中的人脸，并截取包括人脸的图像。

服务器在对视频进行人脸检测时，则会检测到顾客拿起商品A查看时的人脸，并将包括该顾客的人脸的图像截取出来。

步骤1404：服务器检测顾客关注的商品。

具体的，可以通过检测顾客的视线所对应的商品，来确认该顾客关注的商品。对于图13中示例的场景，由于顾客拿起了商品A，因而通常该顾客视线所在的商品即为手中拿起的商品A。

步骤1405：服务器对截取的图像进行预处理。

对截取的图像进行预处理，以将图像中的人脸摆正，提高对该人脸进行表情识别的效果。

步骤1406：服务器对预处理后的图像进行表情识别，得到表情预测结果。

可以通过本发明实施例提供的深度卷积神经网络模型对该顾客的人脸进行识别，得到多种表情在该顾客脸上出现的概率，对于识别过程，在此不过多赘述。

步骤1407：服务器对顾客关注的商品以及该商品所对应的顾客的表情进行统计。

步骤1408：将统计结果反馈至商家的终端设备。

步骤1409：商家根据统计结果制定商品推广策略。

服务器可以对检测到的顾客关注的商品，以及顾客在关注该商品时的表情进行统计，并将统计结果反馈给商家，这样，商家可以知道超市中哪些商品是最多顾客喜欢的，而哪些商品喜欢的顾客较少，从而可以针对最多顾客喜欢的商品进行重点推广，例如可以将其摆放在最显眼的位置，或者在印制宣传单时将其作为主打产品。例如，对于商品A，最后可以统计得到如下的表格：

时间	高兴	自然	厌恶
				20180613 12:09:55	0.8	0.2	0
20180613 12:12:35	0.6	0.4	0
				20180613 12:16:42	0.2	0.4	0.4
20180613 12:18:28	0.1	0.2	0.7

其中，可以按照时间将对顾客表情识别的结果进行排列，上述表格中示意了4个时刻关注商品A的顾客的表情预测结果，进而根据上述表格就可以得到商品A受顾客的喜爱程度，即顾客看到商品A高兴的概率为0.425，顾客看到商品A表情自然的概率为0.3，顾客看到商品A厌恶的概率为0.275。同理，可以得到超市中商品B或者商品C受顾客的喜爱程度。当然，在实际应用中，数据相较上表中要多得多。

表情识别并不仅仅用于某一商品的推广方面，通过表情识别的结果，商家还可以知道顾客在本店购物的满意程度，若是不满意的顾客较多，那么就可以根据具体的表情识别结果查找顾客不满意的原因，进而及时进行调整，以提高顾客的满意程度。

综上所述，本发明实施例中，可通过深度卷积神经网络模型对待识别图像中的人脸进行表情识别，以输出多种表情在人脸中出现的概率。首先，输出的表情识别结果是多种表情在人脸中出现的概率，由于人脸中可能同时存在多种表情，因而通过多种表情的概率分布来表达人脸的表情能够更加准确；其次，本发明实施例的识别过程中只需要将待识别图像输入到深度卷积神经网络模型即可得到表情识别结果，相较目前首先提取特征，再通过特征进行分类的技术方案而言，操作步骤更加简洁并且方便。此外，本发明实施例提供的深度卷积神经网络模型中通过如卷积层、归一化层以及全连接层直接从人脸训练样本中学习到复杂的特征表示，使得最终得到的深度卷积神经网络模型的表达能力更强，并且通过非线性激活处理增加模型的线性能力，进一步增强深度卷积神经网络模型的表达能力。

请参见图15，基于同一发明构思，本发明实施例还提供了一种表情识别装置，该装置包括：

获取单元1501，用于从获取的包含人脸的待识别图像中提取出人脸区域图像；

识别单元1502，用于通过深度卷积神经网络模型从所述人脸区域图像中提取出低层次特征和高层次特征，其中，所述低层次特征包括所述人脸区域图像中脸部线条的轮廓以及每一个像素点灰度的强度，所述高层次特征包括所述人脸区域图像中脸部五官的形态；以及通过所述深度卷积神经网络模型对提取的特征进行组合，并根据所述深度卷积神经网络模型中通过训练学习得到的决策规则对组合后的特征进行判定，以得到M种表情的概率，所述M为大于1的正整数；

较佳的，设备包括模型训练单元1503，模型训练单元1503用于：

从人脸训练样本中提取出所述人脸区域图像；

较佳的，模型训练单元1503具体用于：

较佳的，模型训练单元1503还用于：

根据最后一次池化后的特征图得到所述M维的特征矩阵。

较佳的，模型训练单元1503具体用于：

较佳的，识别单元1502具体用于：

较佳的，识别单元1502还用于：

该装置可以用于执行图2～图12所示的实施例所提供的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图2～图12所示的实施例的描述，不多赘述。

请参见图16，基于同一技术构思，本发明实施例还提供了一种表情识别设备，该设备可以包括存储器1601和处理器1602。

所述存储器1601，用于存储处理器1602执行的计算机程序。存储器1601可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据表情识别设备的使用所创建的数据等。处理器1602，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本发明实施例中不限定上述存储器1601和处理器1602之间的具体连接介质。本发明实施例在图16中以存储器1601和处理器1602之间通过总线1603连接，总线1603在图16中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线1603可以分为地址总线、数据总线、控制总线等。为便于表示，图16中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1601可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1601也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1601可以是上述存储器的组合。

处理器1602，用于调用所述存储器1601中存储的计算机程序时执行如图2～图12中所示的实施例提供的表情识别方法。

本发明实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本发明提供的表情识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的表情识别中的步骤，例如，所述计算机设备可以执行如图2～图12中所示的实施例提供的表情识别方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于表情识别方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种表情识别方法，其特征在于，所述方法包括：

从获取的包含人脸的待识别图像中提取出人脸区域图像；

2.如权利要求1所述的方法，其特征在于，针对所述多个人脸训练样本中的每一个人脸训练样本，训练所述深度卷积神经网络模型的过程包括如下步骤：

从人脸训练样本中提取出所述人脸区域图像；

3.如权利要求2所述的方法，其特征在于，根据所述归一化后的特征图得到M维的特征矩阵，包括：

4.如权利要求2或3所述的方法，其特征在于，

在根据所述归一化后的特征图得到所述M维的特征矩阵之前，所述方法还包括：对每一次归一化运算后的特征图进行非线性激活处理，得到非线性激活后的特征图，其中，所述非线性激活处理为将所述每一次归一化后的特征图中的每个值与预设数值进行比较，并选取所述每个值与所述预设数值中较大的值的处理过程；以及

5.如权利要求2或3所述的方法，其特征在于，

在根据所述归一化后的特征图得到M维的特征矩阵之前，所述方法还包括：

则所述根据所述归一化后的特征图得到M维的特征矩阵，包括：

根据最后一次池化后的特征图得到所述M维的特征矩阵。

6.如权利要求3所述的方法，其特征在于，根据所述差异度对所述初始模型的决策规则进行调整，以得到所述深度卷积神经网络模型，包括：

7.如权利要求6所述的方法，其特征在于，

通过深度卷积神经网络模型从所述人脸区域图像中提取出所述低层次特征和所述高层次特征，包括：

8.如权利要求7所述的方法，其特征在于，在将所述归一化后的特征图与所述深度卷积神经网络模型中的至少一个预设矩阵相乘之前，所述方法还包括：

9.如权利要求7所述的方法，其特征在于，在将所述归一化后的特征图与所述深度卷积神经网络模型中的至少一个预设矩阵相乘之前，所述方法还包括：

10.一种表情识别装置，其特征在于，所述装置包括：

11.如权利要求10所述的装置，其特征在于，所述装置还包括：模型训练单元，用于：

从人脸训练样本中提取出所述人脸区域图像；

12.如权利要求11所述的装置，其特征在于，所述模型训练单元还用于：

对每一次归一化运算后的特征图进行非线性激活处理，得到非线性激活后的特征图；其中，所述非线性激活处理为将所述每一次归一化后的特征图中的每个值与预设数值进行比较，并选取所述每个值与所述预设数值中较大的值的处理过程；

13.如权利要求11所述的装置，其特征在于，所述模型训练单元还用于：

根据最后一次池化后的特征图得到所述M维的特征矩阵。

14.如权利要求11-13任一所述的装置，其特征在于，所述识别单元具体用于：

15.一种表情识别设备，其特征在于，所述设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至9任一权利要求所述的方法。