CN111445548A - 一种基于非配对图像的多视角人脸图像生成方法 - Google Patents

一种基于非配对图像的多视角人脸图像生成方法 Download PDF

Info

Publication number
CN111445548A
CN111445548A CN202010204022.5A CN202010204022A CN111445548A CN 111445548 A CN111445548 A CN 111445548A CN 202010204022 A CN202010204022 A CN 202010204022A CN 111445548 A CN111445548 A CN 111445548A
Authority
CN
China
Prior art keywords
image
view
encoder
input
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010204022.5A
Other languages
English (en)
Other versions
CN111445548B (zh
Inventor
闵卫东
王帅
熊辛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202010204022.5A priority Critical patent/CN111445548B/zh
Publication of CN111445548A publication Critical patent/CN111445548A/zh
Application granted granted Critical
Publication of CN111445548B publication Critical patent/CN111445548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于非配对图像的多视角人脸图像生成方法,包括以下步骤:步骤A:训练时,编码器E将输入的人脸图像映射为身份表示z和视角表示
Figure DDA0002420338760000011
判别器Dz迫使z服从均匀分布,判别器Dv迫使
Figure DDA0002420338760000012
服从范畴分布;步骤B:使用半监督学习,通过最小化真实视角标签v和对应预测的视角标签
Figure DDA0002420338760000013
的交叉熵,使视角表示更加准确;步骤C:生成器G利用
Figure DDA0002420338760000014
和z重建图像,重建图像与真实图像分别与
Figure DDA0002420338760000015
连接后输入判别器Dimg进行相似性判断;步骤D:测试时,使用训练好的编码器解开身份表示和视角表示,将多个代表视角的one‑hot向量分别强加给身份表示,输入训练好的生成器生成多视角图像,本发明在使用极少量视角标签的情况下,生成了清晰真实的多视角人脸图像。

Description

一种基于非配对图像的多视角人脸图像生成方法
技术领域
本发明涉及人脸图像生成技术领域,具体为一种基于非配对图像的多视角人脸图像生成方法。
背景技术
多视角人脸图像生成在无约束人脸识别和计算机图形学等多个领域都有广泛的应用。给定一张人脸图像,让计算机生成其在不同视角下的图像,这是一个有趣但又有挑战性的问题。
由单视图生成的多视角图像需要达到两个要求:1)生成图像要和输入图像保持同一身份;2)不同身份的同一视角应当一致。
解决这个问题的传统方法分为两类,基于3D人脸模型的方法和基于深度学习的方法。基于3D人脸模型的方法首先建立三维人脸模型作为参考,然后通过模型拟合,合成新角度的人脸图像。Blanz et al.利用一个人脸数据库构造出一个平均人脸形变模型,在给出新的人脸图像后,将人脸图像与模型进行匹配,修改模型相应的参数,直到拟合出人脸的新角度图像。尽管这些3D方法是有效的,但合成的结果往往不太逼真。基于深度学习的方法通过训练神经网络使模型学习到输入图像的身份和视角的抽象表示,然后通过特征融合得到多视角图像。Ghodrati et al.将一系列身份相同但姿态不同的人脸图像和视角标签输入网络,首先通过图像编码,属性向量编码,特征图融合,图像解码得到多视角图像,然后通过细化生成图像使图像更加清晰。Zhu et al.将同一身份的不同视角图像输入多视图感知器,确定性隐藏神经元和随机隐藏神经元分别用来学习身份特征和视图表示,然后将学习到的不同的视图表示与身份特征融合生成不同视角的图像。这些基于卷积神经网络和其他深度神经网络的方法合成的人脸通常缺少精细的细节。
生成对抗网络(GAN)基于决策理论和博弈论模拟数据分布,可以生成清晰真实的样本,其在多视图生成方面也取得了令人印象深刻的成果。基于GAN的方法在训练时,通常需要将同一身份的不同视角图像(xi,xj)输入模型,首先在潜空间中解开身份表示和视角表示,然后将身份表示在另一视角标签vj的约束下输入生成器,生成同一身份的另一种视图
Figure BDA0002420338740000011
进而训练判别器以使其有能力区分
Figure BDA0002420338740000012
和真实图像xj,这些模型在训练过程中,不仅使用了视角标签,还需要身份标签。此外,为了使生成的图像更加真实,TP-GAN和LB-GAN需要标注人脸图像的眼睛,鼻子和嘴巴,通过训练局部网络,获得局部纹理的特征张量。这些基于GAN的方法对数据集的采集和标注提出了极高的要求,需要耗费大量人力和时间。例如,为了收集Multi-PIE,使用了15个高质量摄像机和18个闪光灯组成的硬件同步网络对337名受试者进行记录,然后标注身份,光照,姿态和表情。
发明内容
本发明的目的在于提供一种基于非配对图像的多视角人脸图像生成方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于非配对图像的多视角人脸图像生成方法,所述方法基于对抗自编码器和生成对抗网络,结构由编码器、生成器和三个判别器构成,包括以下步骤:
步骤A:训练时,编码器E将输入的人脸图像分别映射为身份表示z和视角表示
Figure BDA0002420338740000021
判别器Dz迫使z服从均匀分布,判别器Dv迫使
Figure BDA0002420338740000022
服从范畴分布;
步骤B:使用半监督学习,将无标签数据和有标签数据交替输入编码器E,通过最小化真实视角标签v和对应预测的视角标签
Figure BDA0002420338740000023
的交叉熵,使编码器E逐渐成为一个好的视角估计器;
步骤C:生成器G利用
Figure BDA0002420338740000024
和z重建图像,重建的结果与真实图像分别与
Figure BDA0002420338740000025
连接后输入判别器Dimg进行相似性判断;
步骤D:测试时,使用训练好的编码器解开身份表示和视角表示,然后将多个代表视角的one-hot向量分别强加给身份表示,将它们输入训练好的生成器生成多视角图像。
进一步的,所述步骤A具体包括:
①得到人脸的身份表示,输入的人脸图像x被编码器E映射为特征向量z,然后特征向量z和从先验分布中采样的得到的样本被输入判别器Dz,通过min-max game训练E和Dz,迫使z逐渐接近均匀分布:
Figure BDA0002420338740000026
其中,pz(z)表示先验分布,pdata(x)表示真实输入图像的数据分布,
Figure BDA0002420338740000027
Figure BDA0002420338740000028
n表示人脸特征的维数,z′~pz(z)表示pz(z)的随机抽样过程。
②得到人脸的视角表示,编码器E将人脸图像x映射为视角向量
Figure BDA0002420338740000029
Figure BDA00024203387400000210
和从先验分布中采样的得到的样本输入判别器Dv,使编码器E生成视角标签,同时让Dv可以区分真实标签和预测标签,通过min-max game训练E和Dv,迫使
Figure BDA00024203387400000211
逐渐接近范畴分布:
Figure BDA00024203387400000212
其中,pv(v)表示先验分布,
Figure BDA00024203387400000213
n表示视角个数,v′~pv(v)表示pv(v)的随机抽样过程。
进一步的,所述步骤B具体包括:
S1.将无标签数据和有标签数据交替输入编码器,直到有标签数据被全部使用,通过下式计算真实标签v和编码器E的输出
Figure BDA00024203387400000214
的交叉熵:
Figure BDA00024203387400000215
通过最小化交叉熵优化E,以降低分类误差;
S2.当输入有标签数据时,通过式(3)更新E;通过这种策略,充分利用了未标记数据,经过多次迭代,使E成为一个好的视图估计器。
进一步的,所述步骤C具体为:为了使重建图像更加逼真,将特征向量z和对应的视角标签向量
Figure BDA00024203387400000216
输入到生成器G生成重建图像
Figure BDA00024203387400000217
然后将
Figure BDA00024203387400000218
Figure BDA00024203387400000219
输入判别器Dimg,通过下式训练G和Dimg:
Figure BDA00024203387400000220
另外,使用L1损失衡量输入图像x与重建图像
Figure BDA0002420338740000032
的差距:
Figure BDA0002420338740000031
与现有技术相比,本发明的有益效果是:
1.本发明的方法在训练时不需要使用成对图像,不依赖数据集的身份信息;
2.本发明使用了半监督学习,进一步减少了标签的使用数量,训练时仅需少量视角标签,测试时不需要标签;
3.实验结果表明,本发明的网络有效解开了人脸身份表示和视角表示,在保持身份特征的同时,生成了清晰真实的多视角人脸图像,对人脸图像在无配对数据下的合成做了有益的探索。
附图说明
图1为本发明结构框架图;
图2为本发明在Multi-PIE上的重建结果;第一行是重建图像,第二行是数据集中的图像;
图3为本发明在300W-LP上的重建结果;第一行是重建图像,第二行是数据集中的图像;
图4为DR-GAN,CR-GAN和本发明的方法的比较;
图5为本发明的方法的部分生成结果;每行的第一个图像为输入图像;
图6为Multi-PIE数据集示例;
图7为300W-LP数据集示例;
图8为DR-GAN,CR-GAN与本发明的方法人脸矫正的结果;第一列为输入图像,第二列为DR-GAN的矫正结果,第三列为CR-GAN的矫正结果,第四列为本发明的方法的矫正结果,第五列为真实图像。
图9为CR-GAN和本发明的方法在300W-LP上的结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
GAN在图像生成方面取得了巨大成功,受到了广泛的关注,它通过轮流训练判别器和生成器,使其相互对抗,来从复杂概率分布中采样.但由于GAN是从随机噪声中产生图像,因此输出图像无法控制。近年来,GAN的体系结构被不断改进。CGAN尝试在生成器和判别器端加入额外的条件信息来指导GAN两个模型的训练。CC-GAN使用半监督学习的方法,修补图像上缺失的部分AC-GAN的生成器生成的每张图像,都带有一个类别标签,判别器也会同时针对来源和类别标签给出两个概率分布InfoGAN通过非监督学习得到可分解的特征表示,不需要大量额外的计算花销就能得到可解释的特征。GAN能够生成清晰的图像,但从GAN中生成的样本往往远不自然,变分自编码器(VAE)生成的样本很接近原始图像,但通常是模糊的。CVAE-GAN结合了二者的优点,能够生成逼真且多样的样本。VAE通过KL散度来反向传播,因此需要先验分布的明确泛函形式,而对抗自编码器(AAE)只需要从先验分布中采样,然后通过对抗训练使先验分布拟合真实分布。为了避免使用KL散度,本发明使用了基于AAE的模型。
人脸矫正是利用其它角度的人脸图像合成正面图像的技术,这对提高人脸识别率很有帮助,因此得到了广泛的研究。现有的人脸矫正n方法可以分为三类:基于3d的方法、统计方法和深度学习方法。E.g.,Zhu et al.首先根据关键点匹配规则建立不同角度下的2D人脸和3D模型的对应关系;建立3D模型,去除角度的影响,生成正面人脸图像。Sagonas etal.认为人脸正面图像在所有不同姿态中有最小秩,通过最小化核范数和矩阵L1范数,得到正脸图像。Yin et al.结合3DMM和GAN,利用3D模型得到大概信息,然后将3DMM系数和原始图像输入到GAN生成有细节的正脸图像。相比上述方法,本发明的方法使用两个判别器确保身份和视角的准确性。
学习样本的有效表示可以简化处理数据的难度。自编码器通过最小化重构误差学习样本的有效表示。自编码器将输入的数据压缩成潜在空间表征,然后通过这种表征来重构输出。通常被用来数据去噪和可视化降维。对抗自编码器在自编码器的基础上使用了对抗性策略,训练一个判别器来有区分地预测样本是来自自编码器的隐藏代码还是用户确定的先验分布。Eduardo et al.的研究表明,具有对抗网络的模型可以提高表示学习的质量。Jirui et al.提出了一种多视图预测潜空间学习(MVP)模型,该模型通过最大化的特征空间与潜空间的相关性来学习潜在表征。Zhu et al.提出多视图感知器,解开了身份和视图表示,确定性隐藏神经元和随机隐藏神经元分别用来学习身份特征和捕捉视图表示。DR-GAN在MVP的基础上,引入对抗策略,使模型有了更好表示学习能力,获得了高质量的人脸合成图像。Tian et al.提出了CR-GAN,使用双通路学习完整的表示。本发明的方法与多视图感知器和DR-GAN最相关,但又有所不同。DR-GAN不能学习到输入图像的条件表示,多视图感知器使用不同的神经元解开了身份和视角表示,本发明则使用了对抗训练使学习到的数据表示更加准确。
从单视图输入生成多视图图像是一个必要但又有挑战性的问题。广泛使用的方法在训练模型时需要使用成对图像。然而,收集并标注大规模的成对人脸图像需要庞大的人力成本。为了避免使用成对图像并减少对标签的依赖,本发明训练编码器和判别器,使编码器可以学习到输入的图像在流形空间中的身份表示和视角表示,然后将这些低维编码输入生成器,得到高维数据,通过训练生成器和判别器,使生成器可以重建出逼真的人脸图像。本发明在编码器和生成器上分别施加了两个对抗性网络,迫使网络在保持身份特征同时,产生视角不同的逼真面孔。为了进一步减少对视角标签的依赖,本发明在编码器上施加了另外一个判别器,迫使其输出遵守范畴分布,并通过最小化预测的视角标签和真实视角标签的交叉熵,使视角表示更加准确。图1展示了本发明的方法。本发明训练五个子网络,目的是为了在潜空间解开输入图像的身份表示和视角表示,并且通过生成器重建图像。测试时,将多个one-hot向量强加给潜空间中的身份表示,将这些表示视角的向量分别与身份表示连接,然后输入生成器,即可在保持身份特征的同时,生成多视角图像。
本发明提供一种技术方案:如图1所示,一种基于非配对图像的多视角人脸图像生成方法,所述方法基于对抗自编码器和生成对抗网络,结构由编码器、生成器和三个判别器构成,包括以下步骤:
输入大小为N的训练集,其中带标签的图像个数M,随机打乱训练集,获取一批人脸图像输入编码器E。
步骤A:训练时,编码器E将输入的人脸图像压缩成潜空间表征,通过训练学习到高级的抽象特征,即分别映射为身份表示z和视角表示
Figure BDA0002420338740000041
判别器Dz迫使z服从均匀分布,判别器Dv迫使
Figure BDA0002420338740000042
服从范畴分布,使得生成的脸更加真实。
步骤B:使用半监督学习,将无标签数据和有标签数据交替输入编码器E,通过最小化真实视角标签v和对应预测的视角标签
Figure BDA0002420338740000051
的交叉熵,使视角表示更加准确,使编码器E逐渐成为一个好的视角估计器;
步骤C:生成器G利用潜空间中的
Figure BDA0002420338740000052
和z重建图像,并在训练过程中,与判别器Dimg相互博弈,确保重建图像逼真且保留身份特征值,重建的结果与真实图像分别与
Figure BDA0002420338740000053
连接后输入判别器Dimg进行相似性判断,Dimg判别生成的人脸和真实人脸的差别;
步骤D:测试时,使用训练好的编码器解开身份表示和视角表示,然后将多个代表视角的one-hot向量分别强加给身份表示,将它们输入训练好的生成器,即可在保持身份特征的同时,生成多视角图像,注意测试时不需要图像的真实标签。
期望生成的图像需要满足三个要求:1)输入脸和输出脸应保持身份特征不变2)不同身份人脸的同一视角应当一致3)输出的人脸应逼真。
为了得到人脸的身份表示,输入的人脸图像x被编码器E映射为特征向量z,然后特征向量z和从先验分布中采样的得到的样本被输入判别器Dz,通过min-max game训练E和Dz,迫使z逐渐接近均匀分布:
Figure BDA0002420338740000054
其中,pz(z)表示先验分布,pdata(x)表示真实输入图像的数据分布,
Figure BDA0002420338740000055
Figure BDA0002420338740000056
n表示人脸特征的维数,z′~pz(z)表示pz(z)的随机抽样过程。
为了得到人脸的视角表示,编码器E将人脸图像x映射为视角向量
Figure BDA0002420338740000057
Figure BDA0002420338740000058
和从先验分布中采样的得到的样本输入判别器Dv,使编码器E生成视角标签,同时让Dv可以区分真实标签和预测标签,通过min-max game训练E和Dv,迫使
Figure BDA0002420338740000059
逐渐接近范畴分布:
Figure BDA00024203387400000510
其中,pv(v)表示先验分布,
Figure BDA00024203387400000511
n表示视角个数,v′~pv(v)表示pv(v)的随机抽样过程。
随着数据收集和存储技术的发展,通常很容易收集到大量数据,但是其中仅有一小部分数据能够被正确标注。为了进一步减少标签的使用数量,本发明在模型中使用了半监督学习,期望编码器能够估计人脸图像的视角,步骤如下:
S1.将无标签数据和有标签数据交替输入编码器,直到有标签数据被全部使用,通过下式计算真实标签v和编码器E的输出
Figure BDA00024203387400000512
的交叉熵:
Figure BDA00024203387400000513
通过最小化交叉熵优化E,以降低分类误差;需要注意的是,由于训练样本非常多,很小的分类误差对生成结果的影响微乎其微。
S2.当输入有标签数据时,通过式(3)更新E;通过这种策略,充分利用了未标记数据,经过多次迭代,使E成为一个好的视图估计器。与目前大多数半监督GAN不同的是,本发明的判别器只判断真假,而不输出类别。
为了使重建图像更加逼真,将特征向量z和对应的视角标签向量
Figure BDA00024203387400000514
输入到生成器G生成重建图像
Figure BDA00024203387400000515
然后将
Figure BDA00024203387400000516
Figure BDA00024203387400000517
输入判别器Dimg,通过下式训练G和
Figure BDA0002420338740000061
另外,使用L1损失衡量输入图像x与重建图像
Figure BDA0002420338740000062
的差距:
Figure BDA0002420338740000063
图2和图3分别展示了本发明在两个数据集上的重建结果。
将本发明的方法与DR-GAN和CR-GAN进行了比较,图4展示了他们的网络结构与本发明的网络结构。本发明的网络结构与DR-GAN有三点不同,首先,DR-GAN的编码器不能用于视角估计,而本发明通过判别器Dv和最小化交叉熵,使编码器对输入图像有效进行视角估计,大大减少了标签的使用量。其次,本发明通过对编码器施加判别器Dz,确保了潜空间的平滑过渡,而DR-GAN则没有使用这个对抗策略。另外,DR-GAN的判别器输入需要同一身份的两种不同视角的图像(一个真实图像,另一个是重建图像),这就使他们的生成器需要使用同一身份的另一种视角标签,而本发明的网络只需要一种视角标签,通过训练使编码器可以解开身份表示和视角表示,使生成器可以重建出逼真的图像。CR-GAN在DR-GAN的基础上,增加了一条路径,确保网络学习到完整的表示。除了上述3点,本发明与CR-GAN有两点不同,首先,CR-GAN使用双路径,确保网络在测试时也能有良好的生成效果,而本发明通过训练判别器Dimg达到了同样的目的。图5展示了本发明的测试结果,每行的第一个图像为输入图像,生成图像保持了输入图像的身份特征,而且有连续的角度变化。其次,为了减少标签的使用,CR-GAN使用自监督学习,而本发明使用半监督学习。
实验
实验设置
数据集:Multi-PIE是在受限环境下收集的标记数据集。该数据集部分图像如图6。我们使用来session1的249个志愿者的人脸图像(共129480幅图像),每个志愿者的头部图像包含±90°内的13个偏航角(每两个姿态间隔15°),20种光照和2中表情。其中103584幅图像用于训练,其余图像用于测试。需要注意的是,训练时只使用了3000幅图像的标签。300W-LP是基于2D人脸对齐数据集,通过3D MM拟合,得到的3D人脸对齐数据集,共122450幅图像,该数据集部分图像如图7。正如CR-GAN那样,我们使用偏航角在±60°内的图像,并离散成9间隔,使用其中的97960幅图像用于训练,其中2500幅图像使用了标签。
需要注意的是,DR-GAN和CR-GA需要根据身份划分训练集合测试集,比如在Multi-PIE中,CR-GAN使用200个身份用于训练,其余身份用于测试。而本发明的方法在训练时不需要身份标签,所以对训练集没有身份要求。
实现细节:编码器E的详细结构在表1。E有两个全连接层,分别使用了双曲正切函数和sofemax函数,输入图像的像素归一化为[-1,1],通过E分别被映射为50维向量z,和13维向量
Figure BDA0002420338740000064
(在300W-LP中,
Figure BDA0002420338740000065
为9维)。表2展示了判别器Dz和Dv的结构,两个判别器在结构上是相同的.Dz和Dv分别迫使z和
Figure BDA0002420338740000066
服从先验分布。z和
Figure BDA0002420338740000067
连接后被输入生成器G,G的结构如表3所示。表4展示了Dimg的结构。判别器Dimg用来判断生成图像和输入图像的相似性。无标签图像和有标签图像交替输入,通过最小化真实标签v和对应的
Figure BDA0002420338740000071
的交叉熵,使编码器E逐渐成为一个好的视角估计器,当有3000幅图像使用标签且batch size为100时,这一过程会持续30个batch。注意真实标签不会被输入生成器。输入网络的图像尺寸为128*128,batch size=100,使用Adam optimizer作为优化器算法,learning rate=0.0002,momentum=[0.5,0.999]。
表1 编码器结构。Multi-PIE上fc2的输出大小为13,300W-LP上fc2的输出大小为9
Figure BDA0002420338740000072
表2 判别器Dz和Dv的结构
Figure BDA0002420338740000073
表3 生成器结构
Figure BDA0002420338740000074
表4 判别器Dimg的结构
Figure BDA0002420338740000075
Figure BDA0002420338740000081
实验结果
对本发明的方法进行了定性和定量评价。具体考虑了视觉质量、身份保留属性和视角保留属性三个方面。
(1)视觉质量
图5展示了本发明的方法的结果。生成图像与输入图像非常相似,而且有连续的角度变化。这表明本发明模型不仅解开了人脸图像的身份表示和视角表示,而且能够合成逼真的人脸图像。图8展示了DR-GAN,CR-GAN与本发明的方法人脸人脸矫正的结果。本发明的方法在没有使用身份标签的情况下,生成了与真实图像非常相似的逼真的人脸图像,CR-GAN和DR-GAN也有很好的效果,但他们在训练时都需要成对图像。另外,在输入大姿态人脸图像时,本发明的方法也有不错的人脸矫正效果。图9展示了CR-GAN和本发明的方法在300W-LP上的结果。本发明的方法(第二行)能够合成高质量的图像,而CR-GAN(第一行)合成的图像与真实图像差距较大,且容易产生扭曲。图8和图9中的测试图像都不包含在训练集中。
(2)身份保留属性
为了评估本发明的模型的身份保留属性,在Multi-PIE session1上对每个身份(共249个身份)随机选取10个角度,将同一身份的所有生成图像输入facenet,计算两两之间的L2距离。L2距离反映了人脸的相似度,同一身份不同角度的人脸应有较小的L2距离,不同身份人脸之间应有较大的L2距离。L2距离为n维空间中两个点x(x1,x2,...,xn)与y(y1,y2,…,yn)间的欧氏距离,其计算公式如下:
Figure BDA0002420338740000082
表5显示了DR-GAN,CR-GAN和本发明的方法的L2距离的平均值和方差。本发明的方法虽然在与DR-GAN和CR-GAN有较小差距,但需要注意的是,本发明的方法没有使用身份标签,而且每个人脸都生成了13种角度,而DR-GAN和CR-GAN在使用身份标签的情况下,只生成了9种角度,也就是说,这个统计中,本发明的方法的结果包含由大角度人脸生成的13种姿态,以及由其他角度生成的大角度姿态。
表5 真实图像和生成图像身份的相似性
Figure BDA0002420338740000083
(3)视角保留属性
为了评估本发明的模型的视角保留属性,采用第三方姿态估计器(THPE)1,在Multi-PIE上计算了真实图像和我们的模型生成的图像的偏航角,由于THPE只能计算±45°内的偏航角,因此只测试了这个范围内的人脸图像。表6展示了真实图像和生成图像的偏航角的平均值,结果显示,本发明的模型生成的多视角图像和真实图像有很小的平均姿态估计误差。需要注意的是,本发明的方法基于半监督学习,仅使用了极少量的视角标签。
表6 THPE预测的Multi-PIE平均姿态估计误差
Figure BDA0002420338740000091
实验结果表明,本发明提出了使用非配图人脸图像生成多视图的方法,该方法基于对抗自编码器和生成对抗网络,通过训练五个子网络,解开了身份表示和视角表示,并且可以重建出逼真的人脸图像。在测试时对身份表示强加多个one-hot向量,使生成的图像不仅保持了身份特征,而且有连续的视角变化。相比其他多视角人脸生成方法,本发明的方法在训练时不需要使用成对人脸图像,不依赖数据集的身份标签,且仅需少量视角标签,生成了清晰真实的多视角人脸图像。
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种基于非配对图像的多视角人脸图像生成方法,其特征在于:所述方法基于对抗自编码器和生成对抗网络,结构由编码器、生成器和三个判别器构成,包括以下步骤:
步骤A:训练时,编码器E将输入的人脸图像分别映射为身份表示z和视角表示
Figure FDA0002420338730000011
判别器Dz迫使z服从均匀分布,判别器Dv迫使
Figure FDA00024203387300000119
服从范畴分布;
步骤B:使用半监督学习,将无标签数据和有标签数据交替输入编码器E,通过最小化真实视角标签v和对应预测的视角标签
Figure FDA00024203387300000118
的交叉熵,使编码器E逐渐成为一个好的视角估计器;
步骤C:生成器G利用
Figure FDA0002420338730000012
和z重建图像,重建的结果与真实图像分别与
Figure FDA0002420338730000013
连接后输入判别器Dimg进行相似性判断;
步骤D:测试时,使用训练好的编码器解开身份表示和视角表示,然后将多个代表视角的one-hot向量分别强加给身份表示,将它们输入训练好的生成器生成多视角图像。
2.根据权利要求1所述的一种基于非配对图像的多视角人脸图像生成方法,其特征在于:所述步骤A具体包括:
①得到人脸的身份表示,输入的人脸图像x被编码器E映射为特征向量z,然后特征向量z和从先验分布中采样的得到的样本被输入判别器Dz,通过min-max game训练E和Dz,迫使z逐渐接近均匀分布:
Figure FDA0002420338730000014
其中,pz(z)表示先验分布,pdata(x)表示真实输入图像的数据分布,
Figure FDA0002420338730000015
Figure FDA0002420338730000016
n表示人脸特征的维数,z′~pz(z)表示pz(z)的随机抽样过程;
②得到人脸的视角表示,编码器E将人脸图像x映射为视角向量
Figure FDA0002420338730000017
Figure FDA0002420338730000018
和从先验分布中采样的得到的样本输入判别器Dv,使编码器E生成视角标签,同时让Dv可以区分真实标签和预测标签,通过min-max game训练E和Dv,迫使
Figure FDA0002420338730000019
逐渐接近范畴分布:
Figure FDA00024203387300000110
其中,pv(v)表示先验分布,
Figure FDA00024203387300000111
n表示视角个数,v′~pv(v)表示pv(v)的随机抽样过程。
3.根据权利要求2所述的一种基于非配对图像的多视角人脸图像生成方法,其特征在于:所述步骤B具体包括:
S1.将无标签数据和有标签数据交替输入编码器,直到有标签数据被全部使用,通过下式计算真实标签v和编码器E的输出
Figure FDA00024203387300000112
的交叉熵:
Figure FDA00024203387300000113
通过最小化交叉熵优化E,以降低分类误差;
S2.当输入有标签数据时,通过式(3)更新E;通过这种策略,充分利用了未标记数据,经过多次迭代,使E成为一个好的视图估计器。
4.根据权利要求1所述的一种基于非配对图像的多视角人脸图像生成方法,其特征在于:所述步骤C具体为:为了使重建图像更加逼真,将特征向量z和对应的视角标签向量
Figure FDA00024203387300000114
输入到生成器G生成重建图像
Figure FDA00024203387300000115
然后将
Figure FDA00024203387300000116
Figure FDA00024203387300000117
输入判别器Dimg,通过下式训练G和Dimg
Figure FDA0002420338730000021
另外,使用L1损失衡量输入图像x与重建图像
Figure FDA0002420338730000023
的差距:
Figure FDA0002420338730000022
CN202010204022.5A 2020-03-21 2020-03-21 一种基于非配对图像的多视角人脸图像生成方法 Active CN111445548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010204022.5A CN111445548B (zh) 2020-03-21 2020-03-21 一种基于非配对图像的多视角人脸图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010204022.5A CN111445548B (zh) 2020-03-21 2020-03-21 一种基于非配对图像的多视角人脸图像生成方法

Publications (2)

Publication Number Publication Date
CN111445548A true CN111445548A (zh) 2020-07-24
CN111445548B CN111445548B (zh) 2022-08-09

Family

ID=71629582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010204022.5A Active CN111445548B (zh) 2020-03-21 2020-03-21 一种基于非配对图像的多视角人脸图像生成方法

Country Status (1)

Country Link
CN (1) CN111445548B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598775A (zh) * 2020-12-21 2021-04-02 广东工业大学 一种基于对比学习的多视图生成方法
CN112712106A (zh) * 2020-12-07 2021-04-27 西安交通大学 基于多视图对抗自编码器的机械设备健康状态识别方法
CN113077543A (zh) * 2021-03-11 2021-07-06 东华大学 一种基于3dmm和gan的人脸图像生成方法
CN113505829A (zh) * 2021-07-09 2021-10-15 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN117036620A (zh) * 2023-10-07 2023-11-10 中国科学技术大学 基于单幅图像的三维人脸重建方法
CN117372631A (zh) * 2023-12-07 2024-01-09 之江实验室 一种多视角图像生成模型的训练方法、应用方法
CN117953544A (zh) * 2024-03-26 2024-04-30 安徽农业大学 一种目标行为监测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
CN110348330A (zh) * 2019-06-24 2019-10-18 电子科技大学 基于vae-acgan的人脸姿态虚拟视图生成方法
CN110502995A (zh) * 2019-07-19 2019-11-26 南昌大学 基于细微面部动作识别的驾驶员打哈欠检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
CN110348330A (zh) * 2019-06-24 2019-10-18 电子科技大学 基于vae-acgan的人脸姿态虚拟视图生成方法
CN110502995A (zh) * 2019-07-19 2019-11-26 南昌大学 基于细微面部动作识别的驾驶员打哈欠检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
YIBO HU等: "Pose-Guided Photorealistic Face Rotation", 《PROCEEDINGS OF THE IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
YIRU ZHAO等: "Stylized Adversarial AutoEncoder for Image Generation", 《PROCEEDINGS OF THE 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
YU TIAN等: "CR-GAN: Learning Complete Representations for Multi-view Generation", 《ARXIV》 *
ZHIXIN SHU等: "Deforming autoencoders: Unsupervised disentangling of shape and appearance", 《PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV)》 *
刘浩: "基于半监督对抗自编码器的人脸自然演变研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
鲍建敏: "基于生成对抗网络的图像合成", 《中国博士学位论文全文数据库 信息科技辑》 *
黄菲等: "基于生成对抗网络的异质人脸图像合成:进展与挑战", 《南京信息工程大学学报(自然科学版)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712106A (zh) * 2020-12-07 2021-04-27 西安交通大学 基于多视图对抗自编码器的机械设备健康状态识别方法
CN112712106B (zh) * 2020-12-07 2022-12-09 西安交通大学 基于多视图对抗自编码器的机械设备健康状态识别方法
CN112598775A (zh) * 2020-12-21 2021-04-02 广东工业大学 一种基于对比学习的多视图生成方法
CN112598775B (zh) * 2020-12-21 2021-10-29 广东工业大学 一种基于对比学习的多视图生成方法
CN113077543A (zh) * 2021-03-11 2021-07-06 东华大学 一种基于3dmm和gan的人脸图像生成方法
CN113505829A (zh) * 2021-07-09 2021-10-15 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN113505829B (zh) * 2021-07-09 2024-04-26 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN117036620A (zh) * 2023-10-07 2023-11-10 中国科学技术大学 基于单幅图像的三维人脸重建方法
CN117036620B (zh) * 2023-10-07 2024-03-01 中国科学技术大学 基于单幅图像的三维人脸重建方法
CN117372631A (zh) * 2023-12-07 2024-01-09 之江实验室 一种多视角图像生成模型的训练方法、应用方法
CN117372631B (zh) * 2023-12-07 2024-03-08 之江实验室 一种多视角图像生成模型的训练方法、应用方法
CN117953544A (zh) * 2024-03-26 2024-04-30 安徽农业大学 一种目标行为监测方法及系统

Also Published As

Publication number Publication date
CN111445548B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111445548B (zh) 一种基于非配对图像的多视角人脸图像生成方法
Jin et al. Generative adversarial network technologies and applications in computer vision
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN112766386B (zh) 一种基于多输入多输出融合网络的广义零样本学习方法
Miao et al. Learning the lie groups of visual invariance
Sun et al. Facial age synthesis with label distribution-guided generative adversarial network
Kazemi et al. Unsupervised facial geometry learning for sketch to photo synthesis
CN113642621A (zh) 基于生成对抗网络的零样本图像分类方法
CN112580521A (zh) 一种基于maml元学习算法的多特征真假视频检测方法
Wang et al. Face aging on realistic photos by generative adversarial networks
Wu et al. Adversarial UV-transformation texture estimation for 3D face aging
Basak et al. 3D face-model reconstruction from a single image: A feature aggregation approach using hierarchical transformer with weak supervision
Di et al. Multimodal face synthesis from visual attributes
Chen et al. From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos
Luan et al. Learning unsupervised face normalization through frontal view reconstruction
Xie et al. Learning to memorize feature hallucination for one-shot image generation
Szabo et al. Understanding degeneracies and ambiguities in attribute transfer
CN115457374B (zh) 基于推理模式评估深伪图像检测模型泛化性方法及装置
CN114627531A (zh) 一种基于人脸重构和Gabor遮挡字典的人脸识别方法
CN113344814A (zh) 一种基于生成机制的高分辨率对抗样本的合成方法
Talafha et al. Attentional adversarial variational video generation via decomposing motion and content
Tian et al. Cluster-based Dual-branch Contrastive Learning for unsupervised domain adaptation person re-identification
Tang et al. Prototype-aware heterogeneous task for point cloud completion
Guo et al. Attributes guided facial image completion
Duan et al. DIQA-FF: dual image quality assessment for face frontalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant