CN113869234B

CN113869234B - 人脸表情识别方法、装置、设备及存储介质

Info

Publication number: CN113869234B
Application number: CN202111157668.3A
Authority: CN
Inventors: 孔德松
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-05-28
Anticipated expiration: 2041-09-29
Also published as: CN113869234A

Abstract

本申请涉及图像处理技术领域，公开了一种人脸表情识别方法、装置、设备及存储介质，方法包括：获取待识别的人脸表情图像序列；在时空维度对人脸表情图像序列进行分割，得到至少一个分块；对各个分块进行特征提取，得到各个分块的时空特征；构建核化稀疏参数组学习模型，并将各个分块的时空特征输入核化稀疏参数组学习模型，得到人脸表情图像序列的重要性权重矩阵，其中，重要性权重矩阵用于描述各个分块的重要性权重；根据各个分块的时空特征和重要性权重矩阵，得到人脸表情图像序列的时空特征向量；通过分类器对时空特征向量进行分类，得到人脸表情的识别结果。本申请对不同分块的时空特征赋予不同的重要性权重，提高人脸表情识别的精度。

Description

人脸表情识别方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别地，涉及一种人脸表情识别方法、装置、设备及存储介质。

背景技术

微表情(Micro-expression)是一种自发式的表情，在人试图掩盖内在情绪时产生，既无法伪造也无法抑制，因此微表情可作为判断人主观情绪的重要依据，在保险风控，公共安防和司法审判等存在巨大的应用前景。

区别于宏观表情，微表情持续的时间非常短，据相关研究表明，微表情的持续的时间在1/25s～1/3s之间，并且微表情脸部的变化幅度特别小，集中于上脸以及下脸部分，因此微表情特征提取是非常困难的。相关微表情识别算法包括基于时域光流估计算法(以光流的主要方向提取微表情特征)以及平均光流算法(结合空间域信息，以空间的局部纹理作为主要方向的等)，这些微表情识别方法，通常只结合一方面的微表情特征方向，实现特征识别，但是却存在容易丢弃不同维度的特征信息缺陷，进而并不能实现高精度的微表情识别。

发明内容

本申请的目的在于提供一种人脸表情识别方法、装置、设备及存储介质，从而可以解决人脸表情识别精准度不高的技术问题，提高人员表情识别精确度。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种人脸表情识别方法，所述方法包括：

获取待识别的人脸表情图像序列；

对所述人脸表情图像序列进行分割，得到至少一个分块；

在时空维度对各个分块进行特征提取，得到所述各个分块的时空特征；

构建核化稀疏参数组学习模型，并将所述各个分块的时空特征输入核化稀疏参数组学习模型，得到所述人脸表情图像序列的重要性权重矩阵；

根据所述各个分块的时空特征和所述重要性权重矩阵，得到所述人脸表情图像序列的时空特征向量；

通过分类器对所述时空特征向量进行分类，得到人脸表情的识别结果。

在本申请的一些实施例中，基于前述方案，所述根据各个分块的时空特征和所述重要性权重矩阵，得到所述人脸表情图像序列的时空特征向量之后，所述方法还包括：

构建卷积降噪自动编码网络，所述卷积降噪自动编码网络包括卷积编码网络和卷积解码网络；

根据所述卷积编码网络的网络参数，构建用于对所述卷积降噪自动编码网络的输出进行微调的有监督的人工神经网络；

通过所述卷积降噪自动编码网络和所述有监督的人工神经网络，对所述人脸表情图像序列的时空特征向量进行特征提取，得到二次提取的特征向量；

通过所述分类器对所述二次提取的特征向量进行分类，获取所述识别结果。

在本申请的一些实施例中，基于前述方案，所述对各个分块进行特征提取，得到各个分块的时空特征，包括：

获取各个分块的XT平面、YT平面以及XY平面的直方图向量，其中，XT平面为二维空间X轴与时间T轴组成的时空平面，YT平面为二维空间Y轴与时间T轴组成的时空平面，XY平面为二维空间X轴与Y轴组成的空间平面；

将各个分块的XT平面、YT平面以及XY平面的直方图向量归一化；

将各个分块的归一化后的XT平面、YT平面以及XY平面的直方图向量级联，得到各个分块的时空特征向量。

在本申请的一些实施例中，基于前述方案，所述对所述人脸表情图像序列进行分割，得到至少一个分块之前，所述方法还包括：

对所述人脸表情图像序列中的每一帧人脸表情图像进行灰度归一化处理；

对灰度归一化处理后的每一帧人脸表情图像进行裁剪；

对裁剪后的人脸表情图像进行几何归一化处理。

在本申请的一些实施例中，基于前述方案，所述构建核化稀疏参数组学习模型包括：

获取包含人脸表情图像序列样本的第一数据集和所述第一数据集对应的标签矩阵；

对所述第一数据集中的第一样本进行分割，并提取所述第一样本的各个分块的时空特征，得到所述第一样本的时空特征；

基于所述标签矩阵和所述第一样本的时空特征，对所述第一样本的时空特征的桥接和正则化处理，得到处理后的第一样本的时空特征；

通过非线性函数将处理后的时空特征向量映射到核空间，得到初始化的核化的稀疏参数组学习模型；

基于交替方向法，对所述初始化的核化的稀疏参数组学习模型进行迭代训练，直至收敛，得到所述核化的稀疏参数组学习模型。

在本申请的一些实施例中，基于前述方案，所述构建卷积降噪自动编码网络，包括：

获取包含人脸表情图像序列样本的第二数据集；

获取所述第二数据集中第二样本的时空特征向量；

对所述第二样本的时空特征向量进行加噪处理，得到加噪后的时空特征向量；

基于损失函数，对所述卷积降噪自动编码网络进行迭代训练,得到训练后的卷积降噪自动编码网络。

在本申请的一些实施例中，基于前述方案，所述构建有监督的人工神经网络包括：

获取包含带标签的人脸表情图像序列样本的第三数据集；

获取所述第三数据集中第三样本的时空特征向量；

构建初始化的人工神经网络，并将训练后的卷积编码网络的网络参数作为所述初始化的人工神经网络的预训练参数；

将所述第三样本的时空特征向量输入所述初始化的人工神经网络，对初始化的人工神经网络进行有监督地迭代训练，直至收敛，得到训练后的人工神经网络。

根据本申请实施例的一个方面，提供了一种人脸表情识别装置，所述装置包括：

序列获取单元，用于获取待识别的人脸表情图像序列；

分割单元，用于对所述人脸表情图像序列进行分割，得到至少一个分块；

特征提取单元，用于对各个分块进行特征提取，得到所述各个分块的时空特征；

权重矩阵获取单元，用于构建核化稀疏参数组学习模型，并将所述各个分块的时空特征输入核化稀疏参数组学习模型，得到所述人脸表情图像序列的重要性权重矩阵，其中，所述重要性权重矩阵用于描述各个分块的重要性权重；

特征向量获取单元，用于根据所述各个分块的时空特征和所述重要性权重矩阵，得到所述人脸表情图像序列的时空特征向量；

分类单元，用于通过分类器对所述时空特征向量进行分类，得到人脸表情的识别结果。

根据本申请实施例的一个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述的人脸表情识别方法。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被计算机执行时实现上述的人脸表情识别方法。

在本申请一些实施例的技术方案中，通过将待识别的人脸表情序列的各个分块的特征向量根据其对分类器的重要性贡献程度赋予不同的权重，提高人脸表情识别的精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过参照附图详细描述其示例性实施例，本申请的上述和其它特征及优点将变得更加明显。

图1示出了根据本申请一个实施例的一种人脸表情识别方法的流程图。

图2示出了根据本申请一个实施例的又一种人脸表情识别方法的流程图。

图3示出了根据本申请一个实施例的一种分块特征提取方法的流程图。

图4示出了根据本申请一个实施例的一种图像预处理方法的流程图。

图5示出了根据本申请一个实施例构建核化稀疏参数组学习模型方法的流程图。

图6示出了根据本申请一个实施例的一种构建卷积降噪自动编码网络的方法的流程图。

图7示出了根据本申请一个实施例的构建有监督的人工神经网络的方法的流程图。

图8示出了根据本申请一个实施例的一种人脸表情识别装置的结构示意图。

图9示出了根据本申请一个实施例的用于实现上述方法的程序产品示意图。

图10示出了根据本申请一个实施例的电子设备的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要注意的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。

图1示出了根据本申请一个实施例的一种人脸表情识别方法的流程图，如图1所示，该方法至少包括以下步骤。

步骤110：获取待识别的人脸表情图像序列。

人脸表情序列是表情动态序列，相当于一个的三维立体图像，可以看作多个二维平面在某个维度上的堆叠。

步骤120：在时空维度对人脸表情图像序列进行分割，得到至少一个包含时空特征信息的分块。

在具体实施中，可以将人脸表情序列分割成为A1×A2×A3个块，分块之间可以相互重叠。例如可以将人脸表情序列分割成为8×8×1＝64个分块或者4×4×2＝32个分块。

步骤130：对各个分块进行特征提取，得到各个分块的时空特征向量。

在一实施例中，各个分块的时空特征向量可以为LBP-TOP(Local Binary Patternfrom Three Orthogonal Planes，三个正交平面上的局部二值模式)直方图特征向量。

例如，采用分块策略将人脸表情图像序列划分为8×8×2个分块；对每个块提取48维的LBP-TOP特征向量，得到128个48维的LBP-TOP特征向量。

步骤140：构建核化稀疏参数组学习模型，并将各个分块的时空特征输入核化稀疏参数组学习模型，得到人脸表情图像序列的重要性权重矩阵。

重要性权重矩阵用于描述各个分块的重要性权重，图像序列的分块个数众多，然而每个分块对表情分类的贡献程度是不一样的，通过核化稀疏参数组学习模型从图像序列各个分块的时空特征中自动筛选出稀疏的最优特征用于后续人脸表情识别，将冗余的信息筛除，可以降低图像序列特征维度的同时，提高微表情识别的准确率。

步骤150：根据各个分块的时空特征和重要性权重矩阵，得到人脸表情图像序列的时空特征向量。

在具体实施中，各个分块的时空特征与重要性权重矩阵的乘积，并将各个分块的时空特征级联，得到人脸表情图像序列的赋予权重的时空特征向量。

步骤160：对时空特征向量进行分类，得到人脸表情的识别结果。

逻辑回归、SVM等常用于解决二分类问题，而人脸表情分类属于多分类问题，例如通常将人脸表情分为多个分类，例如，愤怒，蔑视，厌恶，恐惧，快乐，悲伤和惊喜等。虽然采用多个二分类(逻辑回归或SVM)组成多分类，但是表情分类的类别是互斥的，因此本申请可以采用SoftMax对表情进行分类，Softmax回归模型是logistic回归模型在多分类问题上的推广，当分类数为2的时候会退化为Logistic分类。

本申请实施例通过核化稀疏参数组学习模型为各个分块的时空特征分别赋予不同的重要性权重，表征各个分块对分类器的贡献程度不同，可以降低图像序列特征维度的同时，提高微表情识别的准确率。

图2示出了根据本申请一个实施例的另一种人脸表情识别方法的流程图，如图2所示，该方法至少包括以下步骤。

步骤210-步骤250的实现过程与步骤110-步骤150的实现过程类似，在此不再赘述。

步骤260：构建卷积降噪自动编码网络，卷积降噪自动编码网络包括卷积编码网络和卷积解码网络。

步骤270：根据卷积编码网络的网络参数，构建用于对卷积降噪自动编码网络的输出进行微调的有监督的人工神经网络。

步骤280：通过卷积降噪自动编码网络和有监督的人工神经网络，对人脸表情图像序列的时空特征向量进行特征提取，得到二次提取的特征向量。

步骤290：通过分类器对二次提取的特征向量进行分类，获取识别结果。

本申请可以同时采用不带标签的样本对卷积降噪自动编码网络进行模型训练，使用少量带标签的样本对有监督的人工神经网络进行模拟训练，使仅有少量带标签的样本也可以实现有效的人脸表情识别，可以大大节省图像的人力标签成本。

图3示出了根据本申请一个实施例的一种分块特征提取方法的流程图，如图3所示，该方法至少包括以下步骤。

步骤310：获取各个分块的XT平面、YT平面以及XY平面的直方图向量。

人脸表情序列的每个分块也相当于一个X×Y×T的三维立体图像，X、Y及T为时空维度轴，XT平面、YT平面为时间特征面，XY平面为空间特征面，三个平面相互正交。XT和YT平面的图像有更多时间维度信息，并且更好地反应面部肌肉的运动方向。

对于人脸表情图像序列中坐标为(x_c，y_c，t_c)的中心像素点，用g_c表示其灰度值，g_p表示中心像素点的第p个邻域像素点的灰度值，P为中心像素点的邻域像素点的个数，R表示邻域半径的大小。将中心像素点的灰度值与其邻域的像素点的灰度值做比较，如果邻域像素点的灰度值比中心像素点大，则赋为1，反之，则赋为0，从中心像素点的左上角开始得到比特链条(bit chain)，将bit chain转换为十进制数即可得到局部纹理特征值LBP(LocalBinaryPattern)，因此二进制模式的LBP特征计算公式如下：

其中，s为阈值函数，当g_p≥g_c时，s＝1，否则，s＝1。

LBP特征可以表示一个像素点与其邻域像素点的灰度差值关系。由于LBP记录的是像素点与邻域像素的差值关系，而光照变化引起像素值的同增同减，所以光照变化不会改变LBP特征的大小，特别是在局部的区域，光照对图像造成的像素值变化是单向的，所以LBP特征可以很好的保存图像中像素值的差值关系。

进一步，对各个分块的LBP特征进行直方图统计，分别得到各个分块的XY平面、XT平面以及YT平面的直方图向量。

I为二值函数，定义如下：

其中，H_i,XY表示某个分块的XY平面的直方图向量中第i个元素，H_i,XT表示某个分块的XT平面的直方图向量中第i个元素，H_i,YT表示某个分块的YT平面的直方图向量中第i个元素，i表示LBP的模式。

当R＝1,P＝8，bit chain为8bit二进制数，那么某个像素点以十进制表示的LBP特征是0-255之间的某一数值，即像素点的LBP特征可能产生256种模式，如果用直方图统计所有像素点的LBP，需要一个256维的数组在存储这个直方图。

需要说明的是，为了缩小存储空间可以采用uniform code编码方式对bit chain进行编码，根据一个bit chain中0，1之间的转换次数定义uniform pattern等价模式。如果一个bit chain中，0,1之间的转换次数不超过两次，那么该bit chain就是uniformpattern，比如，00000000转换次数为0，00001111转换次数为1,00011100转换次数为2，01101100转换次数为4,01101010转换次数为6，转换次数不超过两次的模式都属于uniformpattern，转换次数大于等于两次的模式都属于混合模式。

对原256个二进制LBP模式进行分配，转换小于2次的模式为等价模式类，共58个，按照从小到大的顺序将等价模式类一一映射编码为1-58，即等价模式类在LBP特征图像中的灰度值在1-58范围内，而混合模式类均映射编码为0，即混合模式类在LBP特征中的灰度值为0，因此通过uniform code编码，可以将LBP模式从256维降到59维，等价模式的LBP特征图像整体偏暗。

因此，当R＝1，P＝8，LBP特征采用二进制模式编码时，i∈[0，255]；LBP特征采用uniform pattern编码时，i∈[0，58]。

步骤320：将各个分块的XT平面、YT平面以及XY平面的直方图向量归一化。

其中，d为每个平面的直方图向量的维度。

步骤330：将各个分块的归一化后的XT平面、YT平面以及XY平面的直方图向量级联，得到各个分块的时空特征向量。

第a个分块的时空特征向量为X_a：

X_a＝(X_XY，a，X_XT，a，X_YT，a)∈R^D×1

其中，D＝d×3，D为时空特征维度。

需要说明的是，在对待识别的人脸表情图像序列中每一帧人脸表情图像进行预处理。图4示出了根据本申请一个实施例的一种图像预处理方法的流程图，如图4所示，该方法至少包括以下步骤。

步骤410：对待识别的人脸表情图像序列中的每一帧人脸表情图像进行灰度归一化处理。

为了增加图像的对比度，可以采用灰度归一化对人脸表情图像进行光照补偿，使图像的细节更加清楚，以减弱光线和光照强度的影响。

步骤420：对灰度归一化处理后的每一帧人脸表情图像进行裁剪。

为了后续仅对人脸表情图像中关键区域进行处理，需要对灰度归一化后的图像进行裁剪。在具体实施中可以采用人脸检测算法，如SDM算法或者手动标定人脸特征点，获取两眼和鼻子的坐标值；以两只眼睛瞳孔距离的中点为中心点，左右各取d，垂直方向各取0.5d和1.5d的矩形区域进行裁剪。

步骤430：对裁剪后的人脸表情图像进行几何归一化处理。

将裁剪后的人脸表情图像变换为统一的尺寸，更有利于图像特征的提取。

图5示出了根据本申请一个实施例的一种构建核化稀疏参数组学习模型方法的流程图，如图5所示，该方法至少包括以下步骤。

步骤510：获取包含人脸表情图像序列样本的第一数据集和第一数据集对应的标签矩阵。

从微表情数据集中选择M个微表情序列，设微表情类别数为c，对每个微表情序列的类别标签采用one-hot编码，M个微表情序列的标签向量组成标签矩阵

L＝[l₁，l₂，...，l_N]∈R^c×M

在具体实施中可以采用SMIC-HS或者Cohn-Kanade(CK+)微表情数据集，SMIC-HS样本包含，三种微表情类别的164个表情序列，即M＝164，c＝3；Cohn-Kanade(CK+)数据集包含6种基本表情的309个表情序列，即M＝309，c＝6。

步骤520：对第一数据集中的第一样本进行分割，并提取第一样本的各个分块的时空特征，得到第一样本的时空特征。

在具体实施中，对第m个(m＝1，2，...，M)样本进行特征提取，得到第m个样本的时空特征

[x_m，1，x_m，2，...，x_m，N]∈R^d1×N；

N代表第m个样本的分块的个数，x_m，i∈R^d1×1代表第m个样本的第i个分块的时空特征向量。

将各个样本的第i个分块的特征向量组成一组特征矩阵X_i

X_i＝[x_1，i，x_2，i，...，x_M，i]∈R^d1×M，i＝1，2，...，N

因此，M个样本的时空特征组成时空特征矩阵X为

其中，D＝d1×N。

步骤530：基于标签矩阵和第一样本的时空特征，对第一样本的时空特征的桥接和正则化处理，得到处理后的第一样本的时空特征。

该步骤相当于构建稀疏参数组学习模型，可以通过以下两个步骤来实现。

(1)通过投影矩阵将样本的时空特征矩阵与标签矩阵进行桥接。

其中，投影矩阵是对称幂等矩阵，用于将特征矩阵映射到标签矩阵，y_i是X_i对应的投影矩阵。

(2)在桥接后的样本的时空特征中加入重要性权重，并进行正则化处理，得到稀疏参数组学习模型

其中为正则化惩罚项，用于约束重要性权重w_i的稀疏性，使冗余分块的特征向量的权重尽可能为0，/>为可调的正则化系数，决定w_i的系数程度，即/>越大，w_i中包含的0元素越多。对样本的每个分块赋予不同的重要性权重。

步骤540：通过非线性函数将处理后的时空特征向量映射到核空间，得到初始化的核化的稀疏参数组学习模型。

其中，为核函数，/>表示不同分块的时空特征之间的相关性，λ||P||为正则化惩罚项，用于约束P的稀疏性，防止过拟合，λ为可调的正则化系数。在具体实施中可以采用非线性函数ChiSquare进行核空间映射。

步骤550：基于交替方向法，对初始化的核化的稀疏参数组学习模型进行迭代训练，直至收敛，得到核化的稀疏参数组学习模型。

图6示出了根据本申请一个实施例的一种构建卷积降噪自动编码网络的方法的流程图，如图6所示，该方法至少包括以下步骤。

步骤610：获取包含人脸表情图像序列样本的第二数据集。

步骤620：获取第二数据集中第二样本的时空特征向量。

需要说明的是，可以通过以下两步骤获取样本的时空特征向量：

(1)将样本各个分块的时空特征输入训练后的核化的稀疏参数组学习模型，获取样本的重要性权重矩阵。

(2)根据样本的重要性权重向量为样本的各个分块的时空特征赋予权重，得到样本的加权后的时空特征向量。

步骤630：对第二样本的时空特征向量进行加噪处理，得到加噪后的时空特征向量。

结合降噪自动编码机的降噪思想，为了实现更好的微表情数据的鲁棒性，可以对时空特征向量进行加噪。

其中，f为加权后的时空特征向量，σ为高斯白噪声。

步骤640：基于损失函数，对卷积降噪自动编码网络进行迭代训练，得到训练后的卷积降噪自动编码网络。

卷积降噪自动编码网络包含卷积编码网络和卷积解码网络，在具体实施中可以通过以下步骤实现对卷积降噪自动编码网络的训练。

(1)将加噪后的特征向量输入卷积编码网络，得到隐含层表示。

一实施例中，可以构造两个连续卷积层C1，C2，在卷积层C2后，构造池化层L1。在池化层后L1后，进一步构造两个卷积层，C3，C4，同样的在卷积层C4后，构造池化层L2。两个卷积层和一个池化层相当于一个卷积核，卷积层相当于卷积神经网络，用于提取输入特征向量的特征，以增强样本的特征向量。池化层相当于降噪编码网络，用于对增强后特征向量进行下采样操作，以实现特征降维。

通过卷积编码网络对加噪后的特征向量进行多次卷积池化后，得到的输出结果相当于降噪编码机的编码隐含层表示hⁱ

其中，{kⁱ，b}为卷积编码网络的权值和偏置，δ为映射函数。

在具体实施中，可以采用最大池化，以保留更多的人脸表情特征信息，同时方便在卷积解码网络中，实现反采样操作。

(2)将隐含层表示输入卷积解码网络，得到重构后的时空特征向量。

相对应的，卷积解码网络同样由多个反卷积层和多个反池化层构造而成，以重构输入。卷积解码网络对编码隐含层表示进行重构，得到重构后的时空特征向量f′

其中，为卷积解码网络的权值和偏置。

需要说明的是，在卷积编码网络中采用最大池化时，由于最大池化的采样操作是不可逆转，因此在卷积解码网络的反池化中，保存卷积编码的卷积和池化的特征值以及其相对应的位置，并进行补0操作，以恢复特征图维度大小，实现反池化操作。

(3)基于损失函数对卷积降噪自动编码网络进行迭代训练，得到训练后的卷积降噪自动编码网络。

在训练过程中更新卷积降噪自动编码网络的参数损失函数为：

此处采用的MSE(最小均方差)函数，即：目标值减去实际值的平方和再求均值作为损失函数，其中，f_y代表第y个样本的时空特征向量，n代表输入卷积降噪自动编码网络的样本的个数。

图7示出了根据本申请一个实施例的一种构建有监督的人工神经网络的方法的流程图，如图7所示，该方法至少包括以下步骤。

步骤710：获取包含带标签的人脸表情图像序列样本的第三数据集。

在具体实施中第三数据集中可以采用SMIC-HS或者Cohn-Kanade(CK+)微表情数据集，SMIC-HS样本包含三种微表情类别的164个表情序列；Cohn-Kanade(CK+)数据集包含6种基本表情的309个表情序列。图像序列均包含对应的标签，如高兴、悲伤、愤怒等。

步骤720：获取第三数据集中第三样本的时空特征向量。

在具体实施中，可以对带标签的人脸表情图像序列样本进行分割，提取各个分块的时空特征，得到样本的时空特征。

步骤730：构建初始化的人工神经网络，并将训练后的卷积编码网络的网络参数作为初始化的人工神经网络的预训练参数。

在具体实施中，构造基于有监督训练的人工神经网络(Artificial NeuralNetwork，ANN)后，为了使人工神经网络的性能更好，将网络参数{k，b}作为ANN的网络预训练参数。

步骤740：将第三样本的时空特征向量输入初始化的人工神经网络，对初始化的人工神经网络进行有监督地迭代训练，直至收敛，得到训练后的有监督的人工神经网络。

在具体实施中，可以利用反向传播不断调整ANN的网络参数，直到ANN收敛。

以下介绍本申请的人脸表情识别装置的实施例，可以用于执行本申请上述实施例中的排版方法。对于本申请定单处理装置实施例中未披露的细节，请参照本申请上述的人脸表情识别方法的实施例。

图8示出了根据本申请一个实施例的一种人脸表情识别装置的结构示意图，如图8所示，该方法至少包括以下步骤。

序列获取单元810，用于获取待识别的人脸表情图像序列。

分割单元820，用于对人脸表情图像序列进行分割，得到至少一个分块。

特征提取单元830，用于对各个分块进行特征提取，得到各个分块的时空特征。

权重矩阵获取单元840，用于构建核化稀疏参数组学习模型，并将各个分块的时空特征输入核化稀疏参数组学习模型，得到人脸表情图像序列的重要性权重矩阵，其中，重要性权重矩阵用于描述各个分块的重要性权重；

特征向量获取单元850，用于根据各个分块的时空特征和重要性权重矩阵，得到人脸表情图像序列的时空特征向量。

分类单元860，用于通过分类器对时空特征向量进行分类，得到人脸表情的识别结果。

应当注意，尽管在上文详细描述中提及了人脸表情识别装置的若干单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

作为另一方面，本申请还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

参考图9所示，描述了根据本申请的实施方式的用于实现上述方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

作为另一方面，本申请还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本申请的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022，还可以进一步包括只读存储单元(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024，这样的程序模块1025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

此外，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种人脸表情识别方法，其特征在于，所述方法包括：

获取待识别的人脸表情图像序列；

在时空维度对所述人脸表情图像序列进行分割，得到至少一个分块；

对各个分块进行特征提取，得到所述各个分块的时空特征；

通过分类器对所述二次提取的时空特征向量进行分类，得到人脸表情的识别结果；

所述构建核化稀疏参数组学习模型，包括：

基于交替方向法，对所述初始化的核化的稀疏参数组学习模型进行迭代训练，直至收敛，得到所述核化的稀疏参数组学习模型；

所述构建卷积降噪自动编码网络，包括：

获取包含人脸表情图像序列样本的第二数据集；

获取所述第二数据集中第二样本的时空特征向量；

基于损失函数，对所述卷积降噪自动编码网络进行迭代训练，得到训练后的卷积降噪自动编码网络。

2.根据权利要求1所述的方法，其特征在于，所述对各个分块进行特征提取，得到所述各个分块的时空特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述人脸表情图像序列进行分割，得到至少一个分块之前，所述方法还包括

对灰度归一化处理后的每一帧人脸表情图像进行裁剪；

对裁剪后的人脸表情图像进行几何归一化处理。

4.根据权利要求1所述的方法，其特征在于，所述构建有监督的人工神经网络包括：

获取包含带标签的人脸表情图像序列样本的第三数据集；

获取所述第三数据集中第三样本的时空特征向量；

5.一种人脸表情识别装置，其特征在于，所述装置包括：

序列获取单元，用于获取待识别的人脸表情图像序列；

权重矩阵获取单元，用于构建核化稀疏参数组学习模型，并将所述各个分块的时空特征输入核化稀疏参数组学习模型，得到所述人脸表情图像序列的重要性权重矩阵，其中，所述重要性权重矩阵用于描述所述各个分块的重要性权重；所述构建核化稀疏参数组学习模型，包括：获取包含人脸表情图像序列样本的第一数据集和所述第一数据集对应的标签矩阵；对所述第一数据集中的第一样本进行分割，并提取所述第一样本的各个分块的时空特征，得到所述第一样本的时空特征；基于所述标签矩阵和所述第一样本的时空特征，对所述第一样本的时空特征的桥接和正则化处理，得到处理后的第一样本的时空特征；通过非线性函数将处理后的时空特征向量映射到核空间，得到初始化的核化的稀疏参数组学习模型；基于交替方向法，对所述初始化的核化的稀疏参数组学习模型进行迭代训练，直至收敛，得到所述核化的稀疏参数组学习模型；

特征向量获取单元，用于根据所述各个分块的时空特征和所述重要性权重矩阵，得到所述人脸表情图像序列的时空特征向量；构建卷积降噪自动编码网络，所述卷积降噪自动编码网络包括卷积编码网络和卷积解码网络；根据所述卷积编码网络的网络参数，构建用于对所述卷积降噪自动编码网络的输出进行微调的有监督的人工神经网络；通过所述卷积降噪自动编码网络和所述有监督的人工神经网络，对所述人脸表情图像序列的时空特征向量进行特征提取，得到二次提取的特征向量；所述构建卷积降噪自动编码网络，包括：获取包含人脸表情图像序列样本的第二数据集；获取所述第二数据集中第二样本的时空特征向量；对所述第二样本的时空特征向量进行加噪处理，得到加噪后的时空特征向量；基于损失函数，对所述卷积降噪自动编码网络进行迭代训练，得到训练后的卷积降噪自动编码网络；

分类单元，用于通过分类器对所述二次提取的时空特征向量进行分类，得到人脸表情的识别结果。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1-4中任一项所述的方法。

7.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1-4中任一项所述的方法。