CN109508669B

CN109508669B - 一种基于生成式对抗网络的人脸表情识别方法

Info

Publication number: CN109508669B
Application number: CN201811332661.9A
Authority: CN
Inventors: 严严; 黄颖; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2021-07-23
Anticipated expiration: 2038-11-09
Also published as: CN109508669A

Abstract

一种基于生成式对抗网络的人脸表情识别方法，涉及计算机视觉技术。首先设计一个基于生成式对抗网络的人脸表情生成网络并对其预训练，该网络由一个生成器和两个判别器构成，能够生成指定表情的随机身份的人脸图；然后设计一个人脸表情识别网络，该网络在训练时同时接收训练集中的真实人脸表情图以及由人脸表情生成网络产生的随机人脸表情图，使用一种类内损失来减少真实样本和生成样本之间的人脸表情特征差异性；同时还使用一种真实样本导向的梯度更新方法来促进生成样本的特征学习；最后根据训练好的人脸表情识别网络模型，从模型最后的柔性最大分类层得到最终的人脸表情识别结果。

Description

一种基于生成式对抗网络的人脸表情识别方法

技术领域

本发明涉及计算机视觉技术，具体涉及一种基于生成式对抗网络的人脸表情识别方法。

背景技术

在过去的几年时间里，人脸表情自动识别已经在计算机视觉领域广泛地吸引了许多专家的注意力。人脸表情自动识别技术在许多应用场景上具有重要的显示意义，如社交机器人、医疗保健和人机交互等。尽管这些年来人脸表情自动识别技术已经取得了不错的进展，但是它仍然面对着巨大的挑战，尤其在复杂的环境下，如不同的姿势、光照和遮挡等，人脸表情自动识别的识别率还有待提高。

现有的人脸表情识别技术可以分为两大类：基于手工设计特征的方法和基于卷积神经网络特征的方法。Liu等人(P.Liu,J.T.Zhou,W.H.Tsang,Z.Meng,S.Han,Y.Tong,“Feature disentangling machine-a novel approach of feature selection anddisentangling in facial expression analysis”,in European Conference onComputer Vision(ECCV),2014,pp.151–166.)提出了特征分解机的方法，该方法将结合了多任务深度学习和稀疏支持向量机，首先对输入图像提取手工设计的特征，然后将所提取的特征分为通用特征和特定特征两大类，通用特征被用来识别所有的表情，而特定特征只用来识别一种特定的表情。这些基于手工设计特征的方法将特征学习和分类器训练分开进行，可能会导致表情识别的次优性能。目前，基于卷积神经网络的计算机视觉技术在计算机视觉领域已经取得了重大的成功。许多人脸表情识别的工作开始采用深度学习模型来预测人脸的表情。Jung等人(H.Jung,S.Lee,J.Yim,S.Park,“Joint fine-tuning in deepneural networks for facial expression recognition”,in:IEEE InternationalConference on Computer Vision(ICCV),2015,pp.2983–2991.)训练了一个深度表观模型和一个深度几何模型来分别学习人脸的表观特征和几何特征，最后将两个模型联合联合训练来预测人脸的表情。基于卷积神经网络特征的方法做到了特征提取与分类器训练相结合的端到端训练，可以很大地提升识别性能。然而，卷积神经网络模型依赖于大量的有标签数据，对人脸表情识别技术来说，目前公开的数据集的图片数量还远远不够。最近，生成式对抗网络被广泛地应用在人脸合成领域，并且在多姿态人脸合成和人脸属性迁移等任务上取得了不错的效果。生成式对抗网络可以生成各种不同表情、姿势的人脸图片，这些图片可以用来扩充数据集，从而缓解卷积神经网络中训练数据不足的问题。然而，直接把这些生成的图片用作训练数据时又会带来新的问题，比如如何产生高质量的人脸图片，以及如何保证这些图片在训练卷积神经网络是可以带来正面的影响。这些问题如果没有处理好，很可能不但不会提高模型的性能，而且会削弱模型的特征表示能力。

发明内容

本发明的目的在于提供一种基于生成式对抗网络的人脸表情识别方法。

本发明包括以下步骤：

1)准备训练样本集(P_i,y_i)，

其中N为样本的数目，c表示训练样本集包含的类别数，N和c为自然数；P_i表示第i个训练样本对应的固定大小的图像；y_i表示第i个训练样本的类别标签：

表示第i个样本属于第j类表情；

2)设计一个基于生成式对抗网络的人脸表情生成网络并进行预训练，所述人脸表情生成网络由一个生成器和两个判别器构成，其中，在训练时，一个判别器用于与生成器对抗优化；另一个判别器用于与生成器的编码器对抗优化，使得输入图片经过编码器编码后的特征映射到一个均匀分布上；

3)设计一个人脸表情识别网络；

4)将预训练的人脸表情生成网络与人脸表情识别网络联合训练，在训练时，人脸表情识别网络接收两种样本作为输入：(1)训练样本集中的人脸表情图；(2)由人脸表情生成网络生成的随机人脸表情图，使用一种类内损失减少真实样本与生成样本之间的人脸表情特征差异性；

5)利用训练好的人脸表情识别模型进行人脸表情识别。

在步骤2)中，所述设计一个基于生成式对抗网络的人脸表情生成网络并进行预训练可包括以下子步骤：

(1)网络的生成器G由一个编码器G_enc和一个解码器G_dec组成，编码器由5个卷积层和一个全连接层构成，编码器将128×128大小的人脸表情图编码成64维的特征向量，表示如下：

g(x)＝G_enc(x)， (公式1)

其中，x表示输入的训练样本，g(x)表示人脸表情特征向量。解码器由一些转置卷积层构成，解码器接收一个64维特征向量以及一个类别向量(维度与表情类别数一致)，输出一张在大小、通道上与编码器的输入一致的人脸表情图，表示如下：

其中，

表示生成器生成的样本，_y'表示生成样本的类别向量，[·]表示向量的连接操作；

(2)网络的一个判别器D_img由一些卷积层构成，输入为真实样本或者生成器生成的样本，末端有两个输出，其中一个输出用来表示真实样本或生成样本的分布，计算图像对抗损失：

其中，

表示真实样本的分布，

表示生成样本的分布，

表示生成器的图像对抗损失，

表示判别器D_img的图像对抗损失，

表示数学期望(下标τ表示输给网络的真实数据)，判别器D_img的另一个输出用来表示输入样本的类别概率，计算分类损失：

其中，

表示对生成样本

正确分类的概率，y表示真实样本的类别标签，

表示对真实样本x正确分类的概率，

表示生成器的分类损失，

表示判别器D_img的分类损失；

(3)网络的另一个判别器D_z由一些全连接层构成，输入为64维的人脸表情特征向量(由生成器的编码器得到)或者在均匀分布上的随机采样，输出为一个概率值，表示输入是否符合均匀分布的概率，计算向量对抗损失：

其中，z表示在均匀分布上的随机采样，

表示生成器的向量对抗损失，

表示判别器D_z的向量对抗损失；

(4)对生成器生成的图片，计算重构损失：

其中，||·||₁表示1范数，x^rec表示输入原图和原图的类别向量得到的重构图，计算如下：

x^rec＝G_dec([g(x),y]) (公式10)

计算身份保持损失：

其中，F_id表示人脸身份特征提取器，采用Light CNN-29模型(X.Wu,R.He,Z.Sun,T.Tan,“A Light CNN for Deep Face Representation with Noisy Labels”,arXiv:1511.02683v4,2018)；

(5)生成器G的总损失为：

判别器D_img的总损失为：

判别器D_z的总损失为：

其中，λ₁，λ₂是用于调整损失大小的系数，整个网络通过WGAN-GP(I.Gulrajani,F.Ahmed,M.Arjovsky,V.Dumoulin,A.Courville,“Improved Training of WassersteinGANs”,arXiv:1704.00028v3,2017)优化。

在步骤3)中，设计一个人脸表情识别网络可包括以下步骤：

(1)对于人脸表情识别网络的第一部分，采用Light CNN-29(X.Wu,R.He,Z.Sun,T.Tan,“A Light CNN for Deep Face Representation with Noisy Labels”,arXiv:1511.02683v4,2018)中的前部分网络结构(”Conv1-Pool3”)，该部分网络在训练时权重冻结；

(2)人脸表情识别网络的第二部分由两个卷积层、两个全连接层以及一个用于多表情分类的柔性最大(softmax)分类层组成。

在步骤4)中，将预训练的人脸表情生成网络与人脸表情识别网络联合训练可包括以下子步骤：

(1)在训练时，人脸表情识别网络R接收一个三元组输入(x,x^p,r,x^p,f)，三个输入的类别一致，其中x表示输入的真实样本，x^p,r表示另一个真实样本，x^p,f表示由人脸表情生成网络生成的随机人脸表情图，计算如下：

x^p,f＝G_dec([z,y]) (公式15)

(2)计算输入样本特征的类内损失：

其中，

表示x和x^p,r的特征之间的欧氏距离，

表示x和x^p,f的特征之间的欧氏距离，计算公式如下：

其中，R_ext表示人脸表情识别网络R中除去的柔性最大(softmax)分类层的部分，用来提取输入样本的特征，||·||₂表示欧氏距离；

(3)对于类内损失的

部分，使用传统的随机梯度下降方法更新网络权重，梯度计算方式如下：

其中，W_ext表示R_ext的网络权重。对于类内损失的

部分，使用一种真实样本导向的梯度更新方法更新网络权重，梯度计算方式如下：

(4)在柔性最大分类层对真实样本x和生成样本x^p,^f计算分类损失：

其中，

和

分别表示对真实样本分类损失和对生成样本的分类损失，计算如下：

其中，R_cls表示人脸表情识别网络R的柔性最大分类层，输出表示对样本特征正确分类的概率；

(5)结合公式1～14，生成器G的总损失为：

判别器D_img的总损失参照(公式13)，判别器D_z的总损失参照(公式14)，人脸表情识别网络的总损失为：

其中，λ₁，λ₂，λ₃是用来调整损失大小的系数，整个网络通过反向传播算法进行优化。

本发明将一个基于生成式对抗网络的人脸表情生成网络和一个人脸表情识别网络联合训练，这两个网络在训练中可以互相提升。该方法在训练模型时，使用了多种损失来提高生成图片的质量，同时，由人脸表情生成网络生成的图片与数据集中真实的图片一起被用来训练人脸表情识别网络。本发明使用了一种类内损失来减少生成样本和真实样本之间的特征差异性，同时还使用了一种真实样本导向的梯度更新方法来促进生成样本的特征学习，提高网络的特征表示能力。

本发明首先设计一个基于生成式对抗网络的人脸表情生成网络并对其预训练，该网络由一个生成器和两个判别器构成，能够生成指定表情的随机身份的人脸图；然后设计一个人脸表情识别网络，该网络在训练时同时接收训练集中的真实人脸表情图以及由人脸表情生成网络产生的随机人脸表情图，使用一种类内损失来减少真实样本和生成样本之间的人脸表情特征差异性；同时还使用一种真实样本导向的梯度更新方法来促进生成样本的特征学习；最后根据训练好的人脸表情识别网络模型，从模型最后的柔性最大分类层得到最终的人脸表情识别结果。

本发明将一个人脸表情生成网络与一个人脸表情识别网络放在一个端到端的框架中进行联合学习，并使用基于生成式对抗网络的人脸表情生成网络来生成人脸表情图，用来增加表情识别网络的训练样本集的多样性，从而使表情识别网络有效地从输入图片中提取出判别性的特征。通过实验分析可知，本发明性能卓越，在多个公开的数据集上都取得了良好的识别性能。

附图说明

图1为本发明实施例的框架图。

图2为在CK+数据集上本发明所提出的方法对生气表情图进行特征可视化的对比图。在图2中，(a)为使用类内损失，(b)为不使用类内损失。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程.

参见图1，本发明实施例的实施方式包括以下步骤：

1.设计基于生成式对抗网络的人脸表情生成网络并进行预训练。该网络由一个生成器和两个判别器构成。其中，在训练时，一个判别器用来与生成器对抗优化；另一个判别器用来与生成器的编码器对抗优化，使得输入图片经过编码器编码后的特征映射到一个均匀分布上。

A1.网络的生成器G由一个编码器G_enc和一个解码器G_dec组成。编码器由一些卷积层和一个全连接层构成，编码器将128×128大小的人脸表情图编码成64维的特征向量，表示如下：

g(x)＝G_enc(x) (公式1)

其中，

表示生成器生成的样本，y'表示生成样本的类别向量，[·]表示向量的连接操作。

A2.网络的一个判别器D_img由一些卷积层构成，输入为真实样本或者生成器生成的样本，末端有两个输出。其中一个输出用来表示真实样本或生成样本的分布，在此基础上，计算图像对抗损失：

其中，

表示真实样本的分布，

表示生成样本的分布，

表示生成器的图像对抗损失，

表示判别器D_img的图像对抗损失，

表示数学期望(下标τ表示输给网络的真实数据)。判别器D_img的另一个输出用来表示输入样本的类别概率，在此基础上，计算分类损失：

其中，

表示对生成样本

正确分类的概率，y表示真实样本的类别标签，

表示对真实样本x正确分类的概率，

表示生成器的分类损失，

表示判别器D_img的分类损失。

A3.网络的另一个判别器D_z由一些全连接层构成，输入为64维的人脸表情特征向量(由生成器的编码器得到)或者在均匀分布上的随机采样，输出为一个概率值，表示输入是否符合均匀分布的概率。在此基础上，计算向量对抗损失：

其中，z表示在均匀分布上的随机采样，

表示生成器的向量对抗损失，

表示判别器D_z的向量对抗损失。

A4.对生成器生成的图片，计算重构损失：

x^rec＝G_dec([g(x),y]) (公式10)计算身份保持损失：

其中，F_id表示人脸身份特征提取器，采用Light CNN-29模型(X.Wu,R.He,Z.Sun,T.Tan,“A Light CNN for Deep Face Representation with Noisy Labels”,arXiv:1511.02683v4,2018)。

A5.生成器G的总损失为：

判别器D_img的总损失为：

判别器D_z的总损失为：

其中，λ₁，λ₂是用来调整损失大小的系数，整个网络通过WGAN-GP(I.Gulrajani,F.Ahmed,M.Arjovsky,V.Dumoulin,A.Courville,“Improved Training of WassersteinGANs”,arXiv:1704.00028v3,2017)优化。

2.设计一个人脸表情识别网络。

3.将预训练的人脸表情生成网络与人脸表情识别网络联合训练。在训练时，人脸表情识别网络接收两种样本作为输入：1)训练样本集中的人脸表情图，2)由人脸表情生成网络生成的随机人脸表情图。使用一种类内损失减少真实样本与生成样本之间的人脸表情特征差异性(参见图2)。

C1.在训练时，人脸表情识别网络R接收一个三元组输入(x,x^p,r,x^p,f)，三个输入的类别一致，其中x表示输入的真实样本，x^p,r表示另一个真实样本，x^p,f表示由人脸表情生成网络生成的随机人脸表情图，计算如下：

x^p,f＝G_dec([z,y]) (公式15)

C2.计算输入样本特征的类内损失：

其中，

表示x和x^p,r的特征之间的欧氏距离，

表示x和x^p,f的特征之间的欧氏距离，计算公式如下：

其中，R_ext表示人脸表情识别网络R中除去的柔性最大(softmax)分类层的部分，用来提取输入样本的特征，||·||₂表示欧氏距离。

C3.对于类内损失的

其中，W_ext表示R_ext的网络权重。对于类内损失的

C4.在柔性最大分类层对真实样本x和生成样本x^p,f计算分类损失：

其中，

和

其中，R_cls表示人脸表情识别网络R的柔性最大分类层，输出表示对样本特征正确分类概率。

C5.结合公式1～14，生成器G的总损失为：

4.利用训练好的人脸表情识别模型进行人脸表情识别。

表1

表1给出在CK+，Oulu-CASIA和MMI数据集上，本发明提出的方法与其他方法的人脸表情结果对比，其中：

LBP-TOP对应G.Zhao等人提出的方法(G.Zhao,M.Pietikainen,“Dynamic texturerecognition using local binary patterns with an application to facialexpressions”,in IEEE Transactions on Pattern Analysis and MachineIntelligence 29(6)(2007)915–928.)；

STM-ExpLet对应M.Liu等人提出的方法(M.Liu,S.Shan,R.Wang,X.Chen,“Learning expressionlets on spatiotemporal manifold for dynamic facialexpression recognition”,in IEEE Conference on Computer Vision and PatternRecognition(CVPR),2014,pp.1749–1756)；

DTAGN对应H.Jung等人提出的方法(H.Jung,S.Lee,J.Yim,S.Park,“Jointfine-tuning in deep neural networks for facial expression recognition”,in IEEEInternational Conference on Computer Vision(ICCV),2015,pp.2983–2991)；

PHRNN-MSCNN对应K.Zhang等人提出的方法(K.Zhang,Y.Huang,Y.Du,L.Wang,“Facial expression recognition based on deep evolutional spatial-temporalnetworks”,in IEEE Transactions on Image Processing 26(9)(2017)4193–4203)。