CN110674774A

CN110674774A - 一种改进的深度学习人脸面部表情识别方法及系统

Info

Publication number: CN110674774A
Application number: CN201910937372.XA
Authority: CN
Inventors: 伊力哈木·亚尔买买提
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-10

Abstract

本发明公开了一种改进的深度学习人脸面部表情识别方法及系统。所述方法首先对人脸面部表情图像提取其多个尺度和方向的Log‑Gabor特征向量图，再将所有的Log‑Gabor特征向量图按照统一的方式进行分块，再利用Gist算法对每张Log‑Gabor特征向量图进行处理，提取其Gist特征块，并将所有的Log‑Gabor特征向量图的Gist特征块级联起来作为一个人脸面部表情图像的级联融合特征向量，然后将多幅人脸面部表情图像样本的级联融合特征向量作为栈式自编码器(SAE)的输入特征进行训练，最后将训练后的表情特征输入到分类器中进行识别，获得最后的辨识结果。实验证明，本发明方法能够在非均匀光照下很好地提取人脸表情特征，具有很高的识别率，稳定的实时性和鲁棒性。

Description

一种改进的深度学习人脸面部表情识别方法及系统

技术领域

本发明涉及人脸面部表情识别技术领域，特别是涉及一种改进的深度学习人脸面部表情识别方法及系统。

背景技术

近些年来，随着人机交互技术的飞速发展，人脸表情识别日益受到研究者的关注。随着模式识别与人机交互技术的不断发展，人脸表情识别研宄己经成为智能化人机交互领域的热点研宄内容之一。目前，受控环境下的人脸表情识别研究已经取得了很大的进展，然而在自然环境下，表情图像通常存在许多不可控因素，使得现有表情识别算法性能表现不佳。由于人类情感表达的多样性和人脸表情自身的复杂性，单一类别特征并不能很好地用于表情识别，为此，越来越多的研究者开始趋于多特征融合方向的研究。

目前，主流的表情特征提取方法有活动外观模型(Active Appearance Model，AAM)，Gabor小波变换，线性判别分析(lineardiscriminant analysis，LDA)以及局部二元模式(Local BinaryPattern，LBP)等。在这些方法中，AAM能够描述对象的纹理和形状两种属性，但是难以确定初始参数，并且计算复杂；Gabor小波提取的是多尺度多方向信息，由此产生的高维特征向量不利于算法的实时处理；线性判别分析(LDA)可实现快速识别，但它依赖训练和检测图像的灰度相关性，有很大局限；相比于Gabor小波特征，局部二元模式(LBP)具有灰度和旋转不变性，同时在一定程度上可以抑制光照的影响，计算简单，是一种有效的局部纹理描述算子。然而在识别表情时，传统局部二元模式(LBP)算法很难精确描述不同方向上额头、眼睛、嘴巴等关键表情区域的灰度变化趋势，分类效果不太理想。

2006年，AI教父Hinton等训练了一个深层自编码器并逐渐缩小隐层，在30个单元时达到极值。相比30维的PCA(Principal ComponentsAnalysis，主成分分析)，其生成的编码所产生的重构误差更少，所学习到的特征更容易定性地解释。因此，SAE(StackedAutoencoder)具有优于其他方法的降维和特征表达效果；然而，它的性能优劣依赖于输入层的特征充分与否，如果特征表达不充分、噪声含量大，那么训练好的SAE模型并不理想。

发明内容

本发明的目的是提供一种改进的深度学习人脸面部表情识别方法及系统，以解决现有人脸面部表情识别方法识别结果不理想的问题。

为实现上述目的，本发明提供了如下方案：

一种改进的深度学习人脸面部表情识别方法，所述方法包括：

获取多幅人脸面部表情图像作为训练样本；

采用Log-Gabor滤波器提取所述人脸面部表情图像多个尺度和方向的Log-Gabor特征向量图；

采用Gist算法提取所述Log-Gabor特征向量图的级联融合特征向量；

将多幅所述人脸面部表情图像的所述级联融合特征向量作为栈式自编码器的输入，采用逐层贪婪训练法逐层训练所述栈式自编码器的网络参数，生成预训练后的栈式自编码器；

采用反向传播算法对所述预训练后的栈式自编码器的网络参数进行微调，训练得到最优栈式自编码器；

将softmax分类器作为所述最优栈式自编码器的输出层，构建人脸面部表情识别模型；

获取待识别人脸面部表情图像的待识别级联融合特征向量；

将所述待识别级联融合特征向量输入所述人脸面部表情识别模型，由所述人脸面部表情识别模型输出识别结果。

可选的，所述采用Log-Gabor滤波器提取所述人脸面部表情图像多个尺度和方向的Log-Gabor特征向量图，具体包括：

采用公式

提取每一幅所述人脸面部表情图像I的m个尺度n个方向的Log-Gabor特征向量图

其中

表示第i张Log-Gabor特征向量图；I(x,y)为所述人脸面部表情图像I在(x，y)点处的灰度值；L_μ,ν(x,y)表示μ尺度、ν方向的Log-Gabor滤波器；μ＝1,2,...,m；ν＝1,2,...,n。

可选的，所述采用Gist算法提取所述Log-Gabor特征向量图的级联融合特征向量，具体包括：

采用Gist算法提取第i张Log-Gabor特征向量图

的Gist特征块

将所有的

对应的Gist特征块

级联起来生成所述人脸面部表情图像的级联融合特征向量H^{Log-Gabor+Gist}，其中

可选的，所述采用Gist算法提取第i张Log-Gabor特征向量图

的Gist特征块具体包括：

对所述Log-Gabor特征向量图进行分块，生成多个小块图像；

对每个所述小块图像，用n_c个通道的滤波器进行卷积滤波，并将n_c个通道滤波后的结果级联起来，形成所述小块图像的特征

其中，i＝1,2…,n_a×n_a，n_a×n_a为小块图像的数量；f(x,y)为所述Log-Gabor特征向量图F(x,y)的灰度图像，f(x,y)里的x,y为第i小块中的坐标值；g_mn(x，y)表示大小为m*n的滤波器；函数

表示将n_c个通道滤波后的结果进行级联；

表示所述小块图像进行第n_c个通道滤波后所产生的特征值；

计算每一个所述小块图像的特征值并取平均值，得到所述小块图像的Gist特征

其中，表示所述小块图像在第n_c个通道滤波后所产生的平均特征值；h′×w′为所述小块图像的大小；

将每一个所述小块图像中产生的n_c个平均特征值

级联起来，生成整幅所述Log-Gabor特征向量图

的Gist特征块

一种改进的深度学习人脸面部表情识别系统，所述系统包括：

训练样本获取模块，用于获取多幅人脸面部表情图像作为训练样本；

特征向量图提取模块，用于采用Log-Gabor滤波器提取所述人脸面部表情图像多个尺度和方向的Log-Gabor特征向量图；

级联融合模块，用于采用Gist算法提取所述Log-Gabor特征向量图的级联融合特征向量；

栈式自编码器预训练模块，用于将多幅所述人脸面部表情图像的所述级联融合特征向量作为栈式自编码器的输入，采用逐层贪婪训练法逐层训练所述栈式自编码器的网络参数，生成预训练后的栈式自编码器；

网络参数微调模块，用于采用反向传播算法对所述预训练后的栈式自编码器的网络参数进行微调，训练得到最优栈式自编码器；

模型建立模块，用于将softmax分类器作为所述最优栈式自编码器的输出层，构建人脸面部表情识别模型；

待识别图像获取模块，用于获取待识别人脸面部表情图像的待识别级联融合特征向量；

人脸面部表情识别模块，用于将所述待识别级联融合特征向量输入所述人脸面部表情识别模型，由所述人脸面部表情识别模型输出识别结果。

可选的，所述特征向量图提取模块具体包括：

特征向量图提取单元，用于采用公式

提取每一幅所述人脸面部表情图像I的m个尺度n个方向的Log-Gabor特征向量图其中

可选的，所述级联融合模块具体包括：

Gist特征块提取单元，用于采用Gist算法提取第i张Log-Gabor特征向量图

的Gist特征块

Gist特征块级联单元，用于将所有的

对应的Gist特征块

可选的，所述Gist特征块提取单元具体包括：

图像分块子单元，用于对所述Log-Gabor特征向量图进行分块，生成多个小块图像；

小块图像特征提取子单元，用于对每个所述小块图像，用n_c个通道的滤波器进行卷积滤波，并将n_c个通道滤波后的结果级联起来，形成所述小块图像的特征

表示将n_c个通道滤波后的结果进行级联；

表示所述小块图像进行第n_c个通道滤波后所产生的特征值；

小块图像Gist特征计算子单元，用于计算每一个所述小块图像的特征值并取平均值，得到所述小块图像的Gist特征

其中，

表示所述小块图像在第n_c个通道滤波后所产生的平均特征值；h′×w′为所述小块图像的大小；

Gist特征块生成子单元，用于将每一个所述小块图像中产生的n_c个平均特征值

级联起来，生成整幅所述Log-Gabor特征向量图

的Gist特征块

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种改进的深度学习人脸面部表情识别方法及系统，所述方法首先对人脸面部表情图像提取其多个尺度和方向的Log-Gabor特征向量图，再将所有的Log-Gabor特征向量图按照统一的方式进行分块，再利用Gist算法对每张Log-Gabor特征向量图进行处理，提取其Gist特征块，并将所有的Log-Gabor特征向量图的Gist特征块级联起来作为一个人脸面部表情图像的级联融合特征向量，然后将多幅人脸面部表情图像样本的级联融合特征向量作为栈式自编码器(SAE)的输入特征进行训练，最后将训练后的表情特征输入到分类器中进行识别，获得最后的辨识结果。实验证明，本发明方法能够在非均匀光照下很好地提取人脸表情特征，具有很高的识别率，稳定的实时性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的改进的深度学习人脸面部表情识别方法的流程图；

图2为本发明提供的改进的深度学习人脸面部表情识别方法的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的改进的深度学习人脸面部表情识别方法的流程图，图2为本发明提供的改进的深度学习人脸面部表情识别方法的原理图。本发明方法是一种SAE特征融合下的人脸面部表情识别方法，所述方法首先将Log-Gabor特征向量与Gist特征块级联融合，再将级联融合的特征向量作为栈式自编码器(Stacked Autoencoders，SAE)的输入特征进行训练，最后将SAE的不同层特征融合作为softmax分类器的输入，得到人脸面部表情识别结果。参见图1和图2，本发明提供的改进的深度学习人脸面部表情识别方法具体包括：

步骤101：获取多幅人脸面部表情图像作为训练样本。

所述人脸面部表情图像(简称人脸图像)的大小为M×N。

步骤102：采用Log-Gabor滤波器提取所述人脸面部表情图像多个尺度和方向的Log-Gabor特征向量图。

对每一幅人脸图像I(大小为M×N)使用Log-Gabor滤波器组处理，提取其m个尺度n个方向的Log-Gabor特征向量，共得到mn个Log-Gabor特征向量表情图像

而且每个Log-Gabor特征向量图的规格也为M×N。

本发明采用的Log-Gabor滤波器为Gabor滤波器的一种改进。Gabor特征主要包含空间尺度、空间位置、方向选择等图像局部纹理信息。二维Gabor滤波器g_α，β(z)定义为：

上式中，z＝(x,y)为图像上定点位置，α和β分别表示Gabor滤波器的方向和尺度(频率)，k_α,β为滤波器的中心频率，k_α,β＝k_β(cosφ,sinφ)^T，k_β＝2^(-β+2)2π，φ＝α·π/K，K为方向个数，i为复数算子，σ为滤波器的带宽，||·||表示模。

与传统的Gabor滤波器相比，Log-Gabor滤波器有了一定的改进。首先Log-Gabor滤波器没有直流分量，带宽可以扩展，能够处理亮度变化较大的图像；其次，Log-Gabor滤波器的传递函数在高频端有一个延长的尾巴，更适合对自然图像进行编码，克服了传统Gabor滤波器函数在低频表示过度而在高频表示不足的缺点。

本发明采用的二维Log-Gabor滤波器L(f，g)定义为：

上式中，f₁＝fcosγ+gsinγ，g₁＝-fsinγ+gcosγ，f代表径向分量，g代表方向分量，f₀为滤波器的中心频率，γ为为滤波器的方向角度，k为控制f₁方向的带宽，δ为控制g₁方向的带宽。

为了获得人脸面部表情图像的Log-Gabor特征，需要将人脸图像与Log-Gabor滤波器进行卷积。若一幅人脸图像I的灰度值为I(x,y)，那么经过Log-Gabor滤波器后的结果为：

其中L_μ,ν(x,y)表示μ尺度，ν方向的Log-Gabor滤波器，μ＝1,2,...,m；ν＝1,2,...,n。F(x,y)为Log-Gabor滤波器滤波后的结果，

其中

为第i张Log-Gabor特征向量图。

代表卷积。I(x,y)为所述人脸面部表情图像I在(x，y)点处的灰度值。

通常情况下，选取m＝4个不同尺度(μ＝1,2,3,4)，n＝6个不同方向(v＝1,2,3,4,5,6)的Log-Gabor滤波器构成Log-Gabor滤波器组对人脸图像进行特征提取，得到所述人脸图像I的m个尺度n个方向的mn个Log-Gabor特征向量图

步骤103：采用Gist算法提取所述Log-Gabor特征向量图的级联融合特征向量。

将所有的Log-Gabor特征向量图按照统一的方式进行分块，利用Gist算法对每张Log-Gabor特征向量图

进行处理，利用公式(4)-(6)提取其Gist特征块

特征块

表示每个人脸图像样本中第i幅Log-Gabor特征向量图的Gist特征。将所有的

的Gist特征块级联起来作为一个人脸图像样本的特征向量H^{Log-Gabor+Gist}，其中

本发明采用的Gist特征和Gabor特征原理类似，是一种生物启发式特征，该特征模拟人的视觉，形成对外部世界的一种空间表示，捕获图像中的上下文信息。Gist算法不是直接对整幅人脸图像用Gabor滤波器组进行处理，而是先对图像进行分块，对每一小块进行特征提取，再把所有的小块的Gist特征联合起来。Gist特征具体提取步骤如下：

⑴将一幅大小为h×w的灰度图像f(x,y)划分成大小相等的n_a×n_a个网格，则生成n_a×n_a个小块图像，每个网格(即小块图像)的大小为h′×w′，其中h′＝h/n_a，w′＝w/n_a。本发明中，f(x,y)为F(x,y)中任意一幅Log-Gabor特征向量图

的灰度图像。

⑵对每个小块图像用n_c个通道的滤波器进行卷积滤波，并将n_c个通道滤波后的结果级联起来，形成该小块图像的特征：

式中，i＝1,2…,n_a×n_a，n_a×n_a为小块图像的数量；f(x,y)里的x,y为第i个小块图像中的坐标值，g_mn(x，y)表示大小为m*n的滤波器；函数

表示将n_c个通道滤波后的结果进行级联；

即为所述小块图像进行第n_c个通道滤波后所产生的特征值；G_i的维数为h′×w′×n_c。

⑶将每一个小块图像计算出的特征值

取平均值，得到该小块图像的Gist特征：

其中，

表示在第n_c个通道滤波后所产生的平均特征值；

表示第n_c个通道滤波后所产生的特征值。h′×w′为所述小块图像的大小。这样，每一个小块图像就会产生n_c个特征值。

⑷将第⑶步中每一个小块图像产生的n_c个平均特征值级联起来，就得到了整幅特征向量图的Gist特征，其维数为n_a×n_a×n_c。最后将所述Log-Gabor特征向量图

划分成4×4的网格，用4个尺度8个方向的Gabor滤波器组处理得到图像的Gist特征，则整幅图像的Gist特征维数为4×4×32＝512维，即

即为整幅所述Log-Gabor特征向量图

的Gist特征块。

将所有特征向量图

的Gist特征块

级联起来，作为一个人脸图像样本的级联融合特征向量H^{Log-Gabor+Gist}，其中

步骤104：将多幅所述人脸面部表情图像的所述级联融合特征向量作为栈式自编码器的输入，采用逐层贪婪训练法逐层训练所述栈式自编码器的网络参数，生成预训练后的栈式自编码器。

将步骤103所得到的人脸图像样本的级联融合特征向量H^{Log-Gabor+Gist}作为栈式自编码器SAE的输入，进行SAE网络的训练，融合特征中的互补信息，并采用逐层贪婪训练法，预训练栈式自编码器SAE的网络参数，生成预训练后的栈式自编码器。

自编码器是一种神经网络，包含输入层、隐藏层和输出重构层，其包括编码和解码两个过程。其中输入层和隐藏层组成编码器，将输入信号x编码转化为a，隐藏层和输出重构层之间构成解码器，将编码a变换为输出信号y，即：

a＝f(Wx+b) (7)

y＝g(W′a+b′) (8)

上式中，W和W′分别为编码层与解码层权值矩阵，b和b’分别为编码层与解码层的函数偏置项，f(·)与g(·)均代表映射函数，通常情况下取sigmoid函数。对于一个包含m个人脸图像样本的数据集，定义其代价函数J(W，b)为：

上式中，x_i和y_i分别表示自编码器第i个样本的输入和输出，W_ji ^(l)代表第l层第i单元与第l+1层第j单元之间的连接权值，b表示偏置项，n_l和s_l分别表示网络层数和第l层的神经元数，s_i表示第i层的神经元数，λ表示权重衰减参数。

寻找最优的参数(W,b)使得代价函数J(W,b)最小时，则认为自编码器的输出y重构了输入x，此时隐层的输出a则可认为是输入x的特征表达。为使自编码器具有更强的特征表达能力，通常对网络的权值设置稀疏性限制，从而得到稀疏自编码器。

当a_j ⁽²⁾(x)表示在给定输入为x的情况下自编码器隐藏神经元j的输出，则隐藏神经元j的平均活跃度表示为：

上式中的稀疏自编码器通常限制网络平均激活度为

ρ是稀疏性参数，一般取一个接近于0的较小的值。

为了实现网络稀疏性限制，需要在优化目标函数中加入一个额外的稀疏惩罚因子，从而使得隐藏神经元的平均活跃度保持在较小范围内。稀疏后的代价函数J_Sparse(W，b)为：

β为惩罚因子，利用后向传播算法，计算代价函数J_Sparse(W，b)的偏导数，最后利用批量梯度下降法迭代更新参数W和b来求解SAE的最优解。

将前一层稀疏自编码器的输出作为其后一层自编器的输入，多层稀疏自编码器可组成本发明采用的栈式自编码器SAE。

采用逐层贪婪训练法对SAE的网络参数进行训练，即在训练某一层的参数时，将其它各层参数保持不变，逐层训练得到预训练后的栈式自编码器。

步骤105：采用反向传播算法对所述预训练后的栈式自编码器的网络参数进行微调，训练得到最优栈式自编码器。

为得到更好的结果，预训练过程完成之后，利用softmax分类器，对预训练后的SAE进行微调。通过计算概率：

利用softmax的分类结果与输入样本的标签，构建分类器的代价函数，通过反向传播算法，微调网络的权值，训练得到最优的模型参数θ，采用最优的模型参数θ构成最优栈式自编码器。上式中θ_j为参数向量，输入x_i所属类必为概率最大的类别，l表示图像样本数，k为训练数据集包含的类别数目，y_i表示第i幅图像实例对应的预测类别。

预训练结束后，将带标签的训练数据输入到SAE得到期望输出，并利用反向传播算法对网络权值进行微调，得到训练好的网络。本发明微调过程利用全局监督，使网络进而收敛至全局最小解，因此栈式自编码具有强大的特征表达能力，能更好的学习到输入的特征中的深层特征。与随机初始化网络参数相比，栈式自编码器通过无监督的预训练过程，使网络参数初始化至容易收敛的值，相当于暗示了隐含层需要学习的内容，再引入稀疏性，防止网络过拟合，提高了网络的泛化能力。

步骤106：将softmax分类器作为所述最优栈式自编码器的输出层，构建人脸面部表情识别模型。

所述最优栈式自编码器最后一个SAE隐含层只能输出输入数据的重构，不具有分类识别功能。为实现人脸面部表情的识别和分类，本发明在最后一个SAE隐含层后加入softmax分类器，将softmax分类器作为所述最优栈式自编码器的输出层，构建基于SAE和softmax分类器人脸面部表情识别模型。

步骤107：获取待识别人脸面部表情图像的待识别级联融合特征向量。

如图2所示，所述人脸面部表情识别模型的输入为级联融合特征向量H^{Log-Gabor+Gist}。所述待识别人脸面部表情图像的待识别级联融合特征向量的提取方法与所述人脸图像样本的级联融合特征向量提取方法相同，均是采用Log-Gabor滤波器提取所述待识别人脸面部表情图像多个尺度和方向的Log-Gabor特征向量图；然后采用Gist算法提取所述Log-Gabor特征向量图的级联融合特征向量作为所述待识别人脸面部表情图像的待识别级联融合特征向量。

步骤108：将所述待识别级联融合特征向量输入所述人脸面部表情识别模型，由所述人脸面部表情识别模型输出识别结果。

测试训练好的网络模型，将测试集输入到SAE中，最后将SAE的不同层特征融合，再通过作为softmax分类器的输入，从而得到识别结果。

本发明改进的深度学习人脸面部表情识别方法是一种SAE特征融合下的人脸表情识别算法。所述方法首先将Log-Gabor特征向量与Gist特征块级联融合，再将级联融合的特征向量作为栈式自编码器(StackedAutoencoders，SAE)的输入特征进行训练，最后将SAE的不同层特征融合作为softmax分类器的输入，得到人脸面部表情识别结果。实验证明，本发明方法在非均匀光照下具有很好地提取人脸表情特征的特点，拥有很高的识别率，稳定的实时性和鲁棒性。

基于本发明提供的改进的深度学习人脸面部表情识别方法，本发明还提供一种改进的深度学习人脸面部表情识别系统，所述系统包括：

其中，所述特征向量图提取模块具体包括：

特征向量图提取单元，用于采用公式

其中

所述级联融合模块具体包括：

的Gist特征块

Gist特征块级联单元，用于将所有的

对应的Gist特征块

所述Gist特征块提取单元具体包括：

图像分块子单元，用于对所述Log-Gabor特征向量图

进行分块，生成多个小块图像；

表示将n_c个通道滤波后的结果进行级联；

表示所述小块图像进行第n_c个通道滤波后所产生的特征值；

其中，

级联起来，生成整幅所述Log-Gabor特征向量图

的Gist特征块

本发明方法及系统首先对一幅人脸图像提取其多个尺度和方向的Log-Gabor特征向量表情图像，再将所有的Log-Gabor特征向量图按照统一的方式进行分块，其次利用Gist算法对每张Log-Gabor特征向量图进行处理，提取其Gist特征块，将所有的Log-Gabor特征向量图的Gist特征块级联起来作为一个人脸表情样本的特征向量，然后将人脸表情样本的融合特征向量作为栈式自编码器(SAE)的输入特征进行训练，最后将训练后的表情特征输入到分类器中进行识别，获得最后的辨识结果。实验证明，本发明方法及系统能够在非均匀光照下很好地提取人脸表情特征，拥有很高的识别率，稳定的实时性和鲁棒性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。