CN109508669B - 一种基于生成式对抗网络的人脸表情识别方法 - Google Patents

一种基于生成式对抗网络的人脸表情识别方法 Download PDF

Info

Publication number
CN109508669B
CN109508669B CN201811332661.9A CN201811332661A CN109508669B CN 109508669 B CN109508669 B CN 109508669B CN 201811332661 A CN201811332661 A CN 201811332661A CN 109508669 B CN109508669 B CN 109508669B
Authority
CN
China
Prior art keywords
facial expression
network
sample
loss
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811332661.9A
Other languages
English (en)
Other versions
CN109508669A (zh
Inventor
严严
黄颖
王菡子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201811332661.9A priority Critical patent/CN109508669B/zh
Publication of CN109508669A publication Critical patent/CN109508669A/zh
Application granted granted Critical
Publication of CN109508669B publication Critical patent/CN109508669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于生成式对抗网络的人脸表情识别方法,涉及计算机视觉技术。首先设计一个基于生成式对抗网络的人脸表情生成网络并对其预训练,该网络由一个生成器和两个判别器构成,能够生成指定表情的随机身份的人脸图;然后设计一个人脸表情识别网络,该网络在训练时同时接收训练集中的真实人脸表情图以及由人脸表情生成网络产生的随机人脸表情图,使用一种类内损失来减少真实样本和生成样本之间的人脸表情特征差异性;同时还使用一种真实样本导向的梯度更新方法来促进生成样本的特征学习;最后根据训练好的人脸表情识别网络模型,从模型最后的柔性最大分类层得到最终的人脸表情识别结果。

Description

一种基于生成式对抗网络的人脸表情识别方法
技术领域
本发明涉及计算机视觉技术,具体涉及一种基于生成式对抗网络的人脸表情识别方法。
背景技术
在过去的几年时间里,人脸表情自动识别已经在计算机视觉领域广泛地吸引了许多专家的注意力。人脸表情自动识别技术在许多应用场景上具有重要的显示意义,如社交机器人、医疗保健和人机交互等。尽管这些年来人脸表情自动识别技术已经取得了不错的进展,但是它仍然面对着巨大的挑战,尤其在复杂的环境下,如不同的姿势、光照和遮挡等,人脸表情自动识别的识别率还有待提高。
现有的人脸表情识别技术可以分为两大类:基于手工设计特征的方法和基于卷积神经网络特征的方法。Liu等人(P.Liu,J.T.Zhou,W.H.Tsang,Z.Meng,S.Han,Y.Tong,“Feature disentangling machine-a novel approach of feature selection anddisentangling in facial expression analysis”,in European Conference onComputer Vision(ECCV),2014,pp.151–166.)提出了特征分解机的方法,该方法将结合了多任务深度学习和稀疏支持向量机,首先对输入图像提取手工设计的特征,然后将所提取的特征分为通用特征和特定特征两大类,通用特征被用来识别所有的表情,而特定特征只用来识别一种特定的表情。这些基于手工设计特征的方法将特征学习和分类器训练分开进行,可能会导致表情识别的次优性能。目前,基于卷积神经网络的计算机视觉技术在计算机视觉领域已经取得了重大的成功。许多人脸表情识别的工作开始采用深度学习模型来预测人脸的表情。Jung等人(H.Jung,S.Lee,J.Yim,S.Park,“Joint fine-tuning in deepneural networks for facial expression recognition”,in:IEEE InternationalConference on Computer Vision(ICCV),2015,pp.2983–2991.)训练了一个深度表观模型和一个深度几何模型来分别学习人脸的表观特征和几何特征,最后将两个模型联合联合训练来预测人脸的表情。基于卷积神经网络特征的方法做到了特征提取与分类器训练相结合的端到端训练,可以很大地提升识别性能。然而,卷积神经网络模型依赖于大量的有标签数据,对人脸表情识别技术来说,目前公开的数据集的图片数量还远远不够。最近,生成式对抗网络被广泛地应用在人脸合成领域,并且在多姿态人脸合成和人脸属性迁移等任务上取得了不错的效果。生成式对抗网络可以生成各种不同表情、姿势的人脸图片,这些图片可以用来扩充数据集,从而缓解卷积神经网络中训练数据不足的问题。然而,直接把这些生成的图片用作训练数据时又会带来新的问题,比如如何产生高质量的人脸图片,以及如何保证这些图片在训练卷积神经网络是可以带来正面的影响。这些问题如果没有处理好,很可能不但不会提高模型的性能,而且会削弱模型的特征表示能力。
发明内容
本发明的目的在于提供一种基于生成式对抗网络的人脸表情识别方法。
本发明包括以下步骤:
1)准备训练样本集(Pi,yi),
Figure BDA0001860433340000021
其中N为样本的数目,c表示训练样本集包含的类别数,N和c为自然数;Pi表示第i个训练样本对应的固定大小的图像;yi表示第i个训练样本的类别标签:
Figure BDA0001860433340000022
Figure BDA0001860433340000023
表示第i个样本属于第j类表情;
2)设计一个基于生成式对抗网络的人脸表情生成网络并进行预训练,所述人脸表情生成网络由一个生成器和两个判别器构成,其中,在训练时,一个判别器用于与生成器对抗优化;另一个判别器用于与生成器的编码器对抗优化,使得输入图片经过编码器编码后的特征映射到一个均匀分布上;
3)设计一个人脸表情识别网络;
4)将预训练的人脸表情生成网络与人脸表情识别网络联合训练,在训练时,人脸表情识别网络接收两种样本作为输入:(1)训练样本集中的人脸表情图;(2)由人脸表情生成网络生成的随机人脸表情图,使用一种类内损失减少真实样本与生成样本之间的人脸表情特征差异性;
5)利用训练好的人脸表情识别模型进行人脸表情识别。
在步骤2)中,所述设计一个基于生成式对抗网络的人脸表情生成网络并进行预训练可包括以下子步骤:
(1)网络的生成器G由一个编码器Genc和一个解码器Gdec组成,编码器由5个卷积层和一个全连接层构成,编码器将128×128大小的人脸表情图编码成64维的特征向量,表示如下:
g(x)=Genc(x), (公式1)
其中,x表示输入的训练样本,g(x)表示人脸表情特征向量。解码器由一些转置卷积层构成,解码器接收一个64维特征向量以及一个类别向量(维度与表情类别数一致),输出一张在大小、通道上与编码器的输入一致的人脸表情图,表示如下:
Figure BDA0001860433340000031
其中,
Figure BDA0001860433340000032
表示生成器生成的样本,y'表示生成样本的类别向量,[·]表示向量的连接操作;
(2)网络的一个判别器Dimg由一些卷积层构成,输入为真实样本或者生成器生成的样本,末端有两个输出,其中一个输出用来表示真实样本或生成样本的分布,计算图像对抗损失:
Figure BDA0001860433340000033
Figure BDA0001860433340000034
其中,
Figure BDA0001860433340000035
表示真实样本的分布,
Figure BDA0001860433340000036
表示生成样本的分布,
Figure BDA0001860433340000037
表示生成器的图像对抗损失,
Figure BDA0001860433340000038
表示判别器Dimg的图像对抗损失,
Figure BDA0001860433340000039
表示数学期望(下标τ表示输给网络的真实数据),判别器Dimg的另一个输出用来表示输入样本的类别概率,计算分类损失:
Figure BDA00018604333400000310
Figure BDA00018604333400000311
其中,
Figure BDA00018604333400000312
表示对生成样本
Figure BDA00018604333400000313
正确分类的概率,y表示真实样本的类别标签,
Figure BDA00018604333400000314
表示对真实样本x正确分类的概率,
Figure BDA00018604333400000315
表示生成器的分类损失,
Figure BDA00018604333400000316
表示判别器Dimg的分类损失;
(3)网络的另一个判别器Dz由一些全连接层构成,输入为64维的人脸表情特征向量(由生成器的编码器得到)或者在均匀分布上的随机采样,输出为一个概率值,表示输入是否符合均匀分布的概率,计算向量对抗损失:
Figure BDA00018604333400000317
Figure BDA00018604333400000318
其中,z表示在均匀分布上的随机采样,
Figure BDA00018604333400000319
表示生成器的向量对抗损失,
Figure BDA00018604333400000320
表示判别器Dz的向量对抗损失;
(4)对生成器生成的图片,计算重构损失:
Figure BDA00018604333400000321
其中,||·||1表示1范数,xrec表示输入原图和原图的类别向量得到的重构图,计算如下:
xrec=Gdec([g(x),y]) (公式10)
计算身份保持损失:
Figure BDA0001860433340000041
其中,Fid表示人脸身份特征提取器,采用Light CNN-29模型(X.Wu,R.He,Z.Sun,T.Tan,“A Light CNN for Deep Face Representation with Noisy Labels”,arXiv:1511.02683v4,2018);
(5)生成器G的总损失为:
Figure BDA0001860433340000042
判别器Dimg的总损失为:
Figure BDA0001860433340000043
判别器Dz的总损失为:
Figure BDA0001860433340000044
其中,λ1,λ2是用于调整损失大小的系数,整个网络通过WGAN-GP(I.Gulrajani,F.Ahmed,M.Arjovsky,V.Dumoulin,A.Courville,“Improved Training of WassersteinGANs”,arXiv:1704.00028v3,2017)优化。
在步骤3)中,设计一个人脸表情识别网络可包括以下步骤:
(1)对于人脸表情识别网络的第一部分,采用Light CNN-29(X.Wu,R.He,Z.Sun,T.Tan,“A Light CNN for Deep Face Representation with Noisy Labels”,arXiv:1511.02683v4,2018)中的前部分网络结构(”Conv1-Pool3”),该部分网络在训练时权重冻结;
(2)人脸表情识别网络的第二部分由两个卷积层、两个全连接层以及一个用于多表情分类的柔性最大(softmax)分类层组成。
在步骤4)中,将预训练的人脸表情生成网络与人脸表情识别网络联合训练可包括以下子步骤:
(1)在训练时,人脸表情识别网络R接收一个三元组输入(x,xp,r,xp,f),三个输入的类别一致,其中x表示输入的真实样本,xp,r表示另一个真实样本,xp,f表示由人脸表情生成网络生成的随机人脸表情图,计算如下:
xp,f=Gdec([z,y]) (公式15)
(2)计算输入样本特征的类内损失:
Figure BDA0001860433340000045
其中,
Figure BDA0001860433340000046
表示x和xp,r的特征之间的欧氏距离,
Figure BDA0001860433340000047
表示x和xp,f的特征之间的欧氏距离,计算公式如下:
Figure BDA0001860433340000051
Figure BDA0001860433340000052
其中,Rext表示人脸表情识别网络R中除去的柔性最大(softmax)分类层的部分,用来提取输入样本的特征,||·||2表示欧氏距离;
(3)对于类内损失的
Figure BDA0001860433340000053
部分,使用传统的随机梯度下降方法更新网络权重,梯度计算方式如下:
Figure BDA0001860433340000054
其中,Wext表示Rext的网络权重。对于类内损失的
Figure BDA0001860433340000055
部分,使用一种真实样本导向的梯度更新方法更新网络权重,梯度计算方式如下:
Figure BDA0001860433340000056
(4)在柔性最大分类层对真实样本x和生成样本xp,f计算分类损失:
Figure BDA0001860433340000057
其中,
Figure BDA0001860433340000058
Figure BDA0001860433340000059
分别表示对真实样本分类损失和对生成样本的分类损失,计算如下:
Figure BDA00018604333400000510
Figure BDA00018604333400000511
其中,Rcls表示人脸表情识别网络R的柔性最大分类层,输出表示对样本特征正确分类的概率;
(5)结合公式1~14,生成器G的总损失为:
Figure BDA00018604333400000512
判别器Dimg的总损失参照(公式13),判别器Dz的总损失参照(公式14),人脸表情识别网络的总损失为:
Figure BDA00018604333400000513
其中,λ1,λ2,λ3是用来调整损失大小的系数,整个网络通过反向传播算法进行优化。
本发明将一个基于生成式对抗网络的人脸表情生成网络和一个人脸表情识别网络联合训练,这两个网络在训练中可以互相提升。该方法在训练模型时,使用了多种损失来提高生成图片的质量,同时,由人脸表情生成网络生成的图片与数据集中真实的图片一起被用来训练人脸表情识别网络。本发明使用了一种类内损失来减少生成样本和真实样本之间的特征差异性,同时还使用了一种真实样本导向的梯度更新方法来促进生成样本的特征学习,提高网络的特征表示能力。
本发明首先设计一个基于生成式对抗网络的人脸表情生成网络并对其预训练,该网络由一个生成器和两个判别器构成,能够生成指定表情的随机身份的人脸图;然后设计一个人脸表情识别网络,该网络在训练时同时接收训练集中的真实人脸表情图以及由人脸表情生成网络产生的随机人脸表情图,使用一种类内损失来减少真实样本和生成样本之间的人脸表情特征差异性;同时还使用一种真实样本导向的梯度更新方法来促进生成样本的特征学习;最后根据训练好的人脸表情识别网络模型,从模型最后的柔性最大分类层得到最终的人脸表情识别结果。
本发明将一个人脸表情生成网络与一个人脸表情识别网络放在一个端到端的框架中进行联合学习,并使用基于生成式对抗网络的人脸表情生成网络来生成人脸表情图,用来增加表情识别网络的训练样本集的多样性,从而使表情识别网络有效地从输入图片中提取出判别性的特征。通过实验分析可知,本发明性能卓越,在多个公开的数据集上都取得了良好的识别性能。
附图说明
图1为本发明实施例的框架图。
图2为在CK+数据集上本发明所提出的方法对生气表情图进行特征可视化的对比图。在图2中,(a)为使用类内损失,(b)为不使用类内损失。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程.
参见图1,本发明实施例的实施方式包括以下步骤:
1.设计基于生成式对抗网络的人脸表情生成网络并进行预训练。该网络由一个生成器和两个判别器构成。其中,在训练时,一个判别器用来与生成器对抗优化;另一个判别器用来与生成器的编码器对抗优化,使得输入图片经过编码器编码后的特征映射到一个均匀分布上。
A1.网络的生成器G由一个编码器Genc和一个解码器Gdec组成。编码器由一些卷积层和一个全连接层构成,编码器将128×128大小的人脸表情图编码成64维的特征向量,表示如下:
g(x)=Genc(x) (公式1)
其中,x表示输入的训练样本,g(x)表示人脸表情特征向量。解码器由一些转置卷积层构成,解码器接收一个64维特征向量以及一个类别向量(维度与表情类别数一致),输出一张在大小、通道上与编码器的输入一致的人脸表情图,表示如下:
Figure BDA0001860433340000071
其中,
Figure BDA0001860433340000072
表示生成器生成的样本,y'表示生成样本的类别向量,[·]表示向量的连接操作。
A2.网络的一个判别器Dimg由一些卷积层构成,输入为真实样本或者生成器生成的样本,末端有两个输出。其中一个输出用来表示真实样本或生成样本的分布,在此基础上,计算图像对抗损失:
Figure BDA0001860433340000073
Figure BDA0001860433340000074
其中,
Figure BDA0001860433340000075
表示真实样本的分布,
Figure BDA0001860433340000076
表示生成样本的分布,
Figure BDA0001860433340000077
表示生成器的图像对抗损失,
Figure BDA0001860433340000078
表示判别器Dimg的图像对抗损失,
Figure BDA0001860433340000079
表示数学期望(下标τ表示输给网络的真实数据)。判别器Dimg的另一个输出用来表示输入样本的类别概率,在此基础上,计算分类损失:
Figure BDA00018604333400000710
Figure BDA00018604333400000711
其中,
Figure BDA00018604333400000712
表 示对生成样本
Figure BDA00018604333400000713
正确分类的概率,y表示真实样本的类别标签,
Figure BDA00018604333400000714
表示对真实样本x正确分类的概率,
Figure BDA00018604333400000715
表示生成器的分类损失,
Figure BDA00018604333400000716
表示判别器Dimg的分类损失。
A3.网络的另一个判别器Dz由一些全连接层构成,输入为64维的人脸表情特征向量(由生成器的编码器得到)或者在均匀分布上的随机采样,输出为一个概率值,表示输入是否符合均匀分布的概率。在此基础上,计算向量对抗损失:
Figure BDA00018604333400000717
Figure BDA0001860433340000081
其中,z表示在均匀分布上的随机采样,
Figure BDA0001860433340000082
表示生成器的向量对抗损失,
Figure BDA0001860433340000083
表示判别器Dz的向量对抗损失。
A4.对生成器生成的图片,计算重构损失:
Figure BDA0001860433340000084
其中,||·||1表示1范数,xrec表示输入原图和原图的类别向量得到的重构图,计算如下:
xrec=Gdec([g(x),y]) (公式10)计算身份保持损失:
Figure BDA0001860433340000085
其中,Fid表示人脸身份特征提取器,采用Light CNN-29模型(X.Wu,R.He,Z.Sun,T.Tan,“A Light CNN for Deep Face Representation with Noisy Labels”,arXiv:1511.02683v4,2018)。
A5.生成器G的总损失为:
Figure BDA0001860433340000086
判别器Dimg的总损失为:
Figure BDA0001860433340000087
判别器Dz的总损失为:
Figure BDA0001860433340000088
其中,λ1,λ2是用来调整损失大小的系数,整个网络通过WGAN-GP(I.Gulrajani,F.Ahmed,M.Arjovsky,V.Dumoulin,A.Courville,“Improved Training of WassersteinGANs”,arXiv:1704.00028v3,2017)优化。
2.设计一个人脸表情识别网络。
3.将预训练的人脸表情生成网络与人脸表情识别网络联合训练。在训练时,人脸表情识别网络接收两种样本作为输入:1)训练样本集中的人脸表情图,2)由人脸表情生成网络生成的随机人脸表情图。使用一种类内损失减少真实样本与生成样本之间的人脸表情特征差异性(参见图2)。
C1.在训练时,人脸表情识别网络R接收一个三元组输入(x,xp,r,xp,f),三个输入的类别一致,其中x表示输入的真实样本,xp,r表示另一个真实样本,xp,f表示由人脸表情生成网络生成的随机人脸表情图,计算如下:
xp,f=Gdec([z,y]) (公式15)
C2.计算输入样本特征的类内损失:
Figure BDA0001860433340000091
其中,
Figure BDA0001860433340000092
表示x和xp,r的特征之间的欧氏距离,
Figure BDA0001860433340000093
表示x和xp,f的特征之间的欧氏距离,计算公式如下:
Figure BDA0001860433340000094
Figure BDA0001860433340000095
其中,Rext表示人脸表情识别网络R中除去的柔性最大(softmax)分类层的部分,用来提取输入样本的特征,||·||2表示欧氏距离。
C3.对于类内损失的
Figure BDA0001860433340000096
部分,使用传统的随机梯度下降方法更新网络权重,梯度计算方式如下:
Figure BDA0001860433340000097
其中,Wext表示Rext的网络权重。对于类内损失的
Figure BDA0001860433340000098
部分,使用一种真实样本导向的梯度更新方法更新网络权重,梯度计算方式如下:
Figure BDA0001860433340000099
C4.在柔性最大分类层对真实样本x和生成样本xp,f计算分类损失:
Figure BDA00018604333400000910
其中,
Figure BDA00018604333400000911
Figure BDA00018604333400000912
分别表示对真实样本分类损失和对生成样本的分类损失,计算如下:
Figure BDA00018604333400000913
Figure BDA00018604333400000914
其中,Rcls表示人脸表情识别网络R的柔性最大分类层,输出表示对样本特征正确分类概率。
C5.结合公式1~14,生成器G的总损失为:
Figure BDA00018604333400000915
判别器Dimg的总损失参照(公式13),判别器Dz的总损失参照(公式14),人脸表情识别网络的总损失为:
Figure BDA0001860433340000101
其中,λ1,λ2,λ3是用来调整损失大小的系数,整个网络通过反向传播算法进行优化。
4.利用训练好的人脸表情识别模型进行人脸表情识别。
表1
Figure BDA0001860433340000102
表1给出在CK+,Oulu-CASIA和MMI数据集上,本发明提出的方法与其他方法的人脸表情结果对比,其中:
LBP-TOP对应G.Zhao等人提出的方法(G.Zhao,M.Pietikainen,“Dynamic texturerecognition using local binary patterns with an application to facialexpressions”,in IEEE Transactions on Pattern Analysis and MachineIntelligence 29(6)(2007)915–928.);
STM-ExpLet对应M.Liu等人提出的方法(M.Liu,S.Shan,R.Wang,X.Chen,“Learning expressionlets on spatiotemporal manifold for dynamic facialexpression recognition”,in IEEE Conference on Computer Vision and PatternRecognition(CVPR),2014,pp.1749–1756);
DTAGN对应H.Jung等人提出的方法(H.Jung,S.Lee,J.Yim,S.Park,“Jointfine-tuning in deep neural networks for facial expression recognition”,in IEEEInternational Conference on Computer Vision(ICCV),2015,pp.2983–2991);
PHRNN-MSCNN对应K.Zhang等人提出的方法(K.Zhang,Y.Huang,Y.Du,L.Wang,“Facial expression recognition based on deep evolutional spatial-temporalnetworks”,in IEEE Transactions on Image Processing 26(9)(2017)4193–4203)。

Claims (4)

1.一种基于生成式对抗网络的人脸表情识别方法,其特征在于包括以下步骤:
1)准备训练样本集
Figure FDA0003105237780000011
i=1,…,N,其中N为样本的数目,c表示训练样本集包含的类别数,N和c为自然数;Pi表示第i个训练样本对应的固定大小的图像;yi表示第i个训练样本的类别标签:
Figure FDA0003105237780000012
Figure FDA0003105237780000013
表示第i个样本属于第j类表情;
2)设计一个基于生成式对抗网络的人脸表情生成网络并进行预训练,所述人脸表情生成网络由一个生成器和两个判别器构成,其中,在训练时,一个判别器Dimg用于与生成器对抗优化;另一个判别器Dz用于与生成器的编码器对抗优化,使得输入图片经过编码器编码后的特征映射到一个均匀分布上;
所述一个判别器Dimg由一些卷积层构成,输入为真实样本或者生成器生成的样本,末端有两个输出,其中一个输出用来表示真实样本或生成样本的分布,另一个输出用来表示输入样本的类别概率;
所述另一个判别器Dz由一些全连接层构成,输入为64维的人脸表情特征向量或者在均匀分布上的随机采样,输出为一个概率值,表示输入是否符合均匀分布的概率;
3)设计一个人脸表情识别网络;
4)将预训练的人脸表情生成网络与人脸表情识别网络联合训练,在训练时,人脸表情识别网络接收两种样本作为输入:(1)训练样本集中的人脸表情图;(2)由人脸表情生成网络生成的随机人脸表情图,使用一种类内损失减少真实样本与生成样本之间的人脸表情特征差异性;
5)利用训练好的人脸表情识别模型进行人脸表情识别。
2.如权利要求1所述一种基于生成式对抗网络的人脸表情识别方法,其特征在于在步骤2)中,所述设计一个基于生成式对抗网络的人脸表情生成网络并进行预训练包括以下子步骤:
(1)网络的生成器G由一个编码器Genc和一个解码器Gdec组成,编码器由5个卷积层和一个全连接层构成,编码器将128×128大小的人脸表情图编码成64维的特征向量,表示如下:
g(x)=Genc(x), 公式1
其中,x表示输入的训练样本,g(x)表示人脸表情特征向量;解码器由一些转置卷积层构成,解码器接收一个64维特征向量以及一个类别向量,维度与表情类别数一致,输出一张在大小、通道上与编码器的输入一致的人脸表情图,表示如下:
Figure FDA0003105237780000021
其中,
Figure FDA0003105237780000022
表示生成器生成的样本,y'表示生成样本的类别向量,[·]表示向量的连接操作;
(2)网络的一个判别器Dimg由一些卷积层构成,输入为真实样本或者生成器生成的样本,末端有两个输出,其中一个输出用来表示真实样本或生成样本的分布,计算图像对抗损失:
Figure 1
公式3
Figure 2
公式4
其中,
Figure FDA0003105237780000025
表示真实样本的分布,
Figure FDA0003105237780000026
表示生成样本的分布,
Figure FDA0003105237780000027
表示生成器的图像对抗损失,
Figure FDA0003105237780000028
表示判别器Dimg的图像对抗损失,
Figure FDA0003105237780000029
表示数学期望,下标τ表示输给网络的真实数据,判别器Dimg的另一个输出用来表示输入样本的类别概率,计算分类损失:
Figure FDA00031052377800000210
Figure FDA00031052377800000211
其中,
Figure FDA00031052377800000212
表示对生成样本
Figure FDA00031052377800000213
正确分类的概率,y表示真实样本的类别标签,
Figure FDA00031052377800000214
表示对真实样本x正确分类的概率,
Figure FDA00031052377800000215
表示生成器的分类损失,
Figure FDA00031052377800000216
表示判别器Dimg的分类损失;
(3)网络的另一个判别器Dz由一些全连接层构成,输入为64维的人脸表情特征向量或者在均匀分布上的随机采样,输出为一个概率值,表示输入是否符合均匀分布的概率,计算向量对抗损失:
Figure FDA00031052377800000217
Figure FDA00031052377800000218
其中,z表示在均匀分布上的随机采样,
Figure FDA00031052377800000219
表示生成器的向量对抗损失,
Figure FDA00031052377800000220
表示判别器Dz的向量对抗损失;
(4)对生成器生成的图片,计算重构损失:
Figure FDA00031052377800000221
其中,||·||1表示1范数,xrec表示输入原图和原图的类别向量得到的重构图,计算如下:
xrec=Gdec([g(x),y]) 公式10
计算身份保持损失:
Figure FDA0003105237780000031
其中,Fid表示人脸身份特征提取器,采用Light CNN-29模型;
(5)生成器G的总损失为:
Figure FDA0003105237780000032
判别器Dimg的总损失为:
Figure FDA0003105237780000033
判别器Dz的总损失为:
Figure FDA0003105237780000034
其中,λ1,λ2是用于调整损失大小的系数,整个网络通过WGAN-GP优化。
3.如权利要求1所述一种基于生成式对抗网络的人脸表情识别方法,其特征在于在步骤3)中,设计一个人脸表情识别网络包括以下子步骤:
(1)对于人脸表情识别网络的第一部分,采用Light CNN-29中的前部分网络结构,该部分网络在训练时权重冻结;
(2)人脸表情识别网络的第二部分由两个卷积层、两个全连接层以及一个用于多表情分类的softmax分类层组成。
4.如权利要求1或2所述一种基于生成式对抗网络的人脸表情识别方法,其特征在于在步骤4)中,将预训练的人脸表情生成网络与人脸表情识别网络联合训练包括以下子步骤:
(1)在训练时,人脸表情识别网络R接收一个三元组输入(x,xp,r,xp,f),三个输入的类别一致,其中x表示输入的真实样本,xp,r表示另一个真实样本,xp,f表示由人脸表情生成网络生成的随机人脸表情图,计算如下:
xp,f=Gdec([z,y]) 公式15
(2)计算输入样本特征的类内损失:
Figure FDA0003105237780000035
其中,
Figure FDA0003105237780000039
表示x和xp,r的特征之间的欧氏距离,
Figure FDA0003105237780000036
表示x和xp,f的特征之间的欧氏距离,计算公式如下:
Figure FDA0003105237780000037
Figure FDA0003105237780000038
其中,Rext表示人脸表情识别网络R中用于提取特征的子网络,用来提取输入样本的特征,||·||2表示欧氏距离;
(3)对于类内损失的
Figure FDA00031052377800000411
部分,使用传统的随机梯度下降方法更新网络权重,梯度计算方式如下:
Figure FDA0003105237780000041
其中,Wext表示Rext的网络权重;对于类内损失的
Figure FDA0003105237780000042
部分,使用一种真实样本导向的梯度更新方法更新网络权重,梯度计算方式如下:
Figure FDA0003105237780000043
(4)在softmax分类层对真实样本x和生成样本xp,f计算分类损失:
Figure FDA0003105237780000044
其中,
Figure FDA0003105237780000045
Figure FDA0003105237780000046
分别表示对真实样本分类损失和对生成样本的分类损失,计算如下:
Figure FDA0003105237780000047
Figure FDA0003105237780000048
其中,Rcls表示人脸表情识别网络R中的softmax分类层,输出表示对样本特征正确分类的概率;
(5)结合公式1~14,生成器G的总损失为:
Figure FDA0003105237780000049
判别器Dimg的总损失参照公式13,判别器Dz的总损失参照公式14,人脸表情识别网络的总损失为:
Figure FDA00031052377800000410
其中,λ1,λ2,λ3是用来调整损失大小的系数,整个网络通过反向传播算法进行优化。
CN201811332661.9A 2018-11-09 2018-11-09 一种基于生成式对抗网络的人脸表情识别方法 Active CN109508669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811332661.9A CN109508669B (zh) 2018-11-09 2018-11-09 一种基于生成式对抗网络的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811332661.9A CN109508669B (zh) 2018-11-09 2018-11-09 一种基于生成式对抗网络的人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN109508669A CN109508669A (zh) 2019-03-22
CN109508669B true CN109508669B (zh) 2021-07-23

Family

ID=65748093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811332661.9A Active CN109508669B (zh) 2018-11-09 2018-11-09 一种基于生成式对抗网络的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN109508669B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456297A (zh) * 2019-03-31 2024-01-26 华为技术有限公司 图像生成方法、神经网络的压缩方法及相关装置、设备
CN110070174B (zh) * 2019-04-10 2020-11-27 厦门美图之家科技有限公司 一种生成对抗网络的稳定训练方法
CN110147797B (zh) * 2019-04-12 2021-06-01 中国科学院软件研究所 一种基于生成式对抗网络的草图补全与识别方法和装置
CN110084193B (zh) 2019-04-26 2023-04-18 深圳市腾讯计算机系统有限公司 用于面部图像生成的数据处理方法、设备和介质
CN113936298A (zh) * 2019-05-08 2022-01-14 北京市商汤科技开发有限公司 一种特征识别方法及装置、计算机可读存储介质
CN110188706B (zh) * 2019-06-03 2022-04-19 南京邮电大学 基于生成对抗网络的视频中人物表情的神经网络训练方法及检测方法
CN110222668B (zh) * 2019-06-17 2020-12-22 苏州大学 基于生成对抗网络的多姿态面部表情识别方法
CN110599487A (zh) * 2019-09-23 2019-12-20 北京海益同展信息科技有限公司 物品检测方法、装置以及存储介质
CN110619315B (zh) * 2019-09-24 2020-10-30 重庆紫光华山智安科技有限公司 人脸识别模型的训练方法、装置及电子设备
CN110717434B (zh) * 2019-09-30 2023-05-23 华南理工大学 一种基于特征分离的表情识别方法
CN110909680A (zh) * 2019-11-22 2020-03-24 咪咕动漫有限公司 人脸图像的表情识别方法、装置、电子设备及存储介质
CN111160555B (zh) * 2019-12-26 2023-12-01 北京迈格威科技有限公司 基于神经网络的处理方法、装置及电子设备
CN111275779B (zh) * 2020-01-08 2022-12-16 网易(杭州)网络有限公司 表情迁移方法、图像生成器的训练方法、装置及电子设备
CN111325319B (zh) * 2020-02-02 2023-11-28 腾讯云计算(北京)有限责任公司 一种神经网络模型的检测方法、装置、设备及存储介质
CN111382684B (zh) * 2020-03-02 2022-09-06 中国科学技术大学 基于对抗学习的角度鲁棒的个性化人脸表情识别方法
CN111353546B (zh) * 2020-03-09 2022-12-23 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置、计算机设备和存储介质
CN111652079B (zh) * 2020-05-12 2023-04-07 五邑大学 应用于流动人群的表情识别方法、系统及存储介质
CN111666846B (zh) * 2020-05-27 2023-05-30 厦门大学 一种人脸属性识别方法和装置
CN111639607A (zh) * 2020-06-01 2020-09-08 广州虎牙科技有限公司 模型训练、图像识别方法和装置、电子设备及存储介质
CN111798546B (zh) * 2020-06-03 2022-04-26 浙江大学 一种基于生成对抗机制的多人表情迁移方法
CN111932661B (zh) * 2020-08-19 2023-10-24 上海艾麒信息科技股份有限公司 一种人脸表情编辑系统及方法、终端
CN111883222B (zh) * 2020-09-28 2020-12-22 平安科技(深圳)有限公司 文本数据的错误检测方法、装置、终端设备及存储介质
CN112989904B (zh) * 2020-09-30 2022-03-25 北京字节跳动网络技术有限公司 风格图像生成方法、模型训练方法、装置、设备和介质
CN112668529A (zh) * 2020-12-31 2021-04-16 神思电子技术股份有限公司 一种菜品样本图像增强识别方法
CN112949535B (zh) * 2021-03-15 2022-03-11 南京航空航天大学 一种基于生成式对抗网络的人脸数据身份去识别方法
CN112990097B (zh) * 2021-04-13 2022-11-04 电子科技大学 一种基于对抗消除的人脸表情识别方法
CN113239833B (zh) * 2021-05-20 2023-08-29 厦门大学 一种基于双分支干扰分离网络的人脸表情识别方法
CN113361489B (zh) * 2021-07-09 2022-09-16 重庆理工大学 基于解耦表示的人脸正面化模型构建方法和训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171770A (zh) * 2018-01-18 2018-06-15 中科视拓(北京)科技有限公司 一种基于生成式对抗网络的人脸表情编辑方法
CN108446667A (zh) * 2018-04-04 2018-08-24 北京航空航天大学 基于生成对抗网络数据增强的人脸表情识别方法和装置
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014124407A2 (en) * 2013-02-08 2014-08-14 Emotient Collection of machine learning training data for expression recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171770A (zh) * 2018-01-18 2018-06-15 中科视拓(北京)科技有限公司 一种基于生成式对抗网络的人脸表情编辑方法
CN108446667A (zh) * 2018-04-04 2018-08-24 北京航空航天大学 基于生成对抗网络数据增强的人脸表情识别方法和装置
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Joint fine-tuning in deep neural networks for facial expression recognition;H. Jung, et.al;《in Proc. IEEE Conf.Comput. Vision Pattern Recognit》;20151231;全文 *
Wasserstein gan;M. Arjovsky, et.al;《arXiv preprint arXiv: 1701.07875》;20171231;全文 *
Yang, H., et.al.Identity-adaptive facial expression recognition through expression regeneration using conditional generative adversarial networks.《In 2018 13th IEEE International Conference on Automatic Face & Gesture Recognition》.2018, *

Also Published As

Publication number Publication date
CN109508669A (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
CN109508669B (zh) 一种基于生成式对抗网络的人脸表情识别方法
CN109376582B (zh) 一种基于生成对抗网络的交互式人脸卡通方法
CN110188343A (zh) 基于融合注意力网络的多模态情感识别方法
CN112887698B (zh) 基于神经辐射场的高质量人脸语音驱动方法
CN108629338B (zh) 一种基于lbp和卷积神经网络的人脸美丽预测方法
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
Hou et al. Improving variational autoencoder with deep feature consistent and generative adversarial training
CN107679491A (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN110634170B (zh) 一种基于语义内容和快速图像检索的照片级图像生成方法
Pham et al. Generative adversarial talking head: Bringing portraits to life with a weakly supervised neural network
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN110852935A (zh) 一种人脸图像随年龄变化的图像处理方法
Zhai et al. Asian female facial beauty prediction using deep neural networks via transfer learning and multi-channel feature fusion
Hajarolasvadi et al. Generative adversarial networks in human emotion synthesis: A review
CN110889335B (zh) 基于多通道时空融合网络人体骨架双人交互行为识别方法
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
Zhang et al. A survey on multimodal-guided visual content synthesis
CN110598719A (zh) 一种依据视觉属性描述自动生成人脸图像的方法
CN111368734A (zh) 一种基于正常表情辅助的微表情识别方法
CN115761048A (zh) 基于视频时序的人脸年龄编辑方法
Jia et al. Face aging with improved invertible conditional GANs
Zeng et al. Controllable face aging
Li et al. Large-pose facial makeup transfer based on generative adversarial network combined face alignment and face parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant