CN111445548A

CN111445548A - 一种基于非配对图像的多视角人脸图像生成方法

Info

Publication number: CN111445548A
Application number: CN202010204022.5A
Authority: CN
Inventors: 闵卫东; 王帅; 熊辛
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2020-03-21
Filing date: 2020-03-21
Publication date: 2020-07-24
Anticipated expiration: 2040-03-21
Also published as: CN111445548B

Abstract

本发明提供了一种基于非配对图像的多视角人脸图像生成方法，包括以下步骤：步骤A：训练时，编码器E将输入的人脸图像映射为身份表示z和视角表示

判别器D_z迫使z服从均匀分布，判别器D_v迫使

服从范畴分布；步骤B：使用半监督学习，通过最小化真实视角标签v和对应预测的视角标签

的交叉熵，使视角表示更加准确；步骤C：生成器G利用

和z重建图像，重建图像与真实图像分别与

连接后输入判别器D_img进行相似性判断；步骤D：测试时，使用训练好的编码器解开身份表示和视角表示，将多个代表视角的one‑hot向量分别强加给身份表示，输入训练好的生成器生成多视角图像，本发明在使用极少量视角标签的情况下，生成了清晰真实的多视角人脸图像。

Description

一种基于非配对图像的多视角人脸图像生成方法

技术领域

本发明涉及人脸图像生成技术领域，具体为一种基于非配对图像的多视角人脸图像生成方法。

背景技术

多视角人脸图像生成在无约束人脸识别和计算机图形学等多个领域都有广泛的应用。给定一张人脸图像，让计算机生成其在不同视角下的图像，这是一个有趣但又有挑战性的问题。

由单视图生成的多视角图像需要达到两个要求：1)生成图像要和输入图像保持同一身份；2)不同身份的同一视角应当一致。

解决这个问题的传统方法分为两类，基于3D人脸模型的方法和基于深度学习的方法。基于3D人脸模型的方法首先建立三维人脸模型作为参考，然后通过模型拟合，合成新角度的人脸图像。Blanz et al.利用一个人脸数据库构造出一个平均人脸形变模型，在给出新的人脸图像后，将人脸图像与模型进行匹配，修改模型相应的参数，直到拟合出人脸的新角度图像。尽管这些3D方法是有效的，但合成的结果往往不太逼真。基于深度学习的方法通过训练神经网络使模型学习到输入图像的身份和视角的抽象表示，然后通过特征融合得到多视角图像。Ghodrati et al.将一系列身份相同但姿态不同的人脸图像和视角标签输入网络，首先通过图像编码，属性向量编码，特征图融合，图像解码得到多视角图像，然后通过细化生成图像使图像更加清晰。Zhu et al.将同一身份的不同视角图像输入多视图感知器，确定性隐藏神经元和随机隐藏神经元分别用来学习身份特征和视图表示，然后将学习到的不同的视图表示与身份特征融合生成不同视角的图像。这些基于卷积神经网络和其他深度神经网络的方法合成的人脸通常缺少精细的细节。

生成对抗网络(GAN)基于决策理论和博弈论模拟数据分布，可以生成清晰真实的样本，其在多视图生成方面也取得了令人印象深刻的成果。基于GAN的方法在训练时，通常需要将同一身份的不同视角图像(x_i，x_j)输入模型，首先在潜空间中解开身份表示和视角表示，然后将身份表示在另一视角标签v_j的约束下输入生成器，生成同一身份的另一种视图

进而训练判别器以使其有能力区分

和真实图像x_j，这些模型在训练过程中，不仅使用了视角标签，还需要身份标签。此外，为了使生成的图像更加真实，TP-GAN和LB-GAN需要标注人脸图像的眼睛,鼻子和嘴巴，通过训练局部网络，获得局部纹理的特征张量。这些基于GAN的方法对数据集的采集和标注提出了极高的要求，需要耗费大量人力和时间。例如，为了收集Multi-PIE，使用了15个高质量摄像机和18个闪光灯组成的硬件同步网络对337名受试者进行记录，然后标注身份，光照，姿态和表情。

发明内容

本发明的目的在于提供一种基于非配对图像的多视角人脸图像生成方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于非配对图像的多视角人脸图像生成方法，所述方法基于对抗自编码器和生成对抗网络，结构由编码器、生成器和三个判别器构成，包括以下步骤：

步骤A：训练时，编码器E将输入的人脸图像分别映射为身份表示z和视角表示

判别器D_z迫使z服从均匀分布，判别器D_v迫使

服从范畴分布；

步骤B：使用半监督学习，将无标签数据和有标签数据交替输入编码器E，通过最小化真实视角标签v和对应预测的视角标签

的交叉熵，使编码器E逐渐成为一个好的视角估计器；

步骤C：生成器G利用

和z重建图像，重建的结果与真实图像分别与

连接后输入判别器D_img进行相似性判断；

步骤D：测试时，使用训练好的编码器解开身份表示和视角表示，然后将多个代表视角的one-hot向量分别强加给身份表示，将它们输入训练好的生成器生成多视角图像。

进一步的，所述步骤A具体包括：

①得到人脸的身份表示，输入的人脸图像x被编码器E映射为特征向量z，然后特征向量z和从先验分布中采样的得到的样本被输入判别器D_z，通过min-max game训练E和D_z，迫使z逐渐接近均匀分布：

其中，p_z(z)表示先验分布，p_data(x)表示真实输入图像的数据分布，

n表示人脸特征的维数，z′～p_z(z)表示p_z(z)的随机抽样过程。

②得到人脸的视角表示，编码器E将人脸图像x映射为视角向量

将

和从先验分布中采样的得到的样本输入判别器D_v，使编码器E生成视角标签，同时让D_v可以区分真实标签和预测标签，通过min-max game训练E和D_v，迫使

逐渐接近范畴分布：

其中，p_v(v)表示先验分布，

n表示视角个数，v′～p_v(v)表示p_v(v)的随机抽样过程。

进一步的，所述步骤B具体包括：

S1.将无标签数据和有标签数据交替输入编码器，直到有标签数据被全部使用，通过下式计算真实标签v和编码器E的输出

的交叉熵：

通过最小化交叉熵优化E，以降低分类误差；

S2.当输入有标签数据时，通过式(3)更新E；通过这种策略，充分利用了未标记数据，经过多次迭代，使E成为一个好的视图估计器。

进一步的，所述步骤C具体为：为了使重建图像更加逼真，将特征向量z和对应的视角标签向量

输入到生成器G生成重建图像

然后将

和

输入判别器D_img,通过下式训练G和D_img:

另外，使用L1损失衡量输入图像x与重建图像

的差距：

与现有技术相比，本发明的有益效果是：

1.本发明的方法在训练时不需要使用成对图像，不依赖数据集的身份信息；

2.本发明使用了半监督学习，进一步减少了标签的使用数量，训练时仅需少量视角标签，测试时不需要标签；

3.实验结果表明，本发明的网络有效解开了人脸身份表示和视角表示，在保持身份特征的同时，生成了清晰真实的多视角人脸图像，对人脸图像在无配对数据下的合成做了有益的探索。

附图说明

图1为本发明结构框架图；

图2为本发明在Multi-PIE上的重建结果；第一行是重建图像，第二行是数据集中的图像；

图3为本发明在300W-LP上的重建结果；第一行是重建图像，第二行是数据集中的图像；

图4为DR-GAN,CR-GAN和本发明的方法的比较；

图5为本发明的方法的部分生成结果；每行的第一个图像为输入图像；

图6为Multi-PIE数据集示例；

图7为300W-LP数据集示例；

图8为DR-GAN,CR-GAN与本发明的方法人脸矫正的结果；第一列为输入图像，第二列为DR-GAN的矫正结果，第三列为CR-GAN的矫正结果，第四列为本发明的方法的矫正结果，第五列为真实图像。

图9为CR-GAN和本发明的方法在300W-LP上的结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案，并不限于本发明。

GAN在图像生成方面取得了巨大成功，受到了广泛的关注，它通过轮流训练判别器和生成器，使其相互对抗，来从复杂概率分布中采样.但由于GAN是从随机噪声中产生图像，因此输出图像无法控制。近年来，GAN的体系结构被不断改进。CGAN尝试在生成器和判别器端加入额外的条件信息来指导GAN两个模型的训练。CC-GAN使用半监督学习的方法，修补图像上缺失的部分AC-GAN的生成器生成的每张图像，都带有一个类别标签，判别器也会同时针对来源和类别标签给出两个概率分布InfoGAN通过非监督学习得到可分解的特征表示,不需要大量额外的计算花销就能得到可解释的特征。GAN能够生成清晰的图像，但从GAN中生成的样本往往远不自然，变分自编码器(VAE)生成的样本很接近原始图像，但通常是模糊的。CVAE-GAN结合了二者的优点，能够生成逼真且多样的样本。VAE通过KL散度来反向传播，因此需要先验分布的明确泛函形式，而对抗自编码器(AAE)只需要从先验分布中采样，然后通过对抗训练使先验分布拟合真实分布。为了避免使用KL散度，本发明使用了基于AAE的模型。

人脸矫正是利用其它角度的人脸图像合成正面图像的技术，这对提高人脸识别率很有帮助，因此得到了广泛的研究。现有的人脸矫正n方法可以分为三类：基于3d的方法、统计方法和深度学习方法。E.g.,Zhu et al.首先根据关键点匹配规则建立不同角度下的2D人脸和3D模型的对应关系；建立3D模型，去除角度的影响，生成正面人脸图像。Sagonas etal.认为人脸正面图像在所有不同姿态中有最小秩，通过最小化核范数和矩阵L1范数，得到正脸图像。Yin et al.结合3DMM和GAN，利用3D模型得到大概信息，然后将3DMM系数和原始图像输入到GAN生成有细节的正脸图像。相比上述方法，本发明的方法使用两个判别器确保身份和视角的准确性。

学习样本的有效表示可以简化处理数据的难度。自编码器通过最小化重构误差学习样本的有效表示。自编码器将输入的数据压缩成潜在空间表征，然后通过这种表征来重构输出。通常被用来数据去噪和可视化降维。对抗自编码器在自编码器的基础上使用了对抗性策略，训练一个判别器来有区分地预测样本是来自自编码器的隐藏代码还是用户确定的先验分布。Eduardo et al.的研究表明，具有对抗网络的模型可以提高表示学习的质量。Jirui et al.提出了一种多视图预测潜空间学习(MVP)模型，该模型通过最大化的特征空间与潜空间的相关性来学习潜在表征。Zhu et al.提出多视图感知器，解开了身份和视图表示，确定性隐藏神经元和随机隐藏神经元分别用来学习身份特征和捕捉视图表示。DR-GAN在MVP的基础上，引入对抗策略，使模型有了更好表示学习能力，获得了高质量的人脸合成图像。Tian et al.提出了CR-GAN,使用双通路学习完整的表示。本发明的方法与多视图感知器和DR-GAN最相关，但又有所不同。DR-GAN不能学习到输入图像的条件表示，多视图感知器使用不同的神经元解开了身份和视角表示，本发明则使用了对抗训练使学习到的数据表示更加准确。

从单视图输入生成多视图图像是一个必要但又有挑战性的问题。广泛使用的方法在训练模型时需要使用成对图像。然而，收集并标注大规模的成对人脸图像需要庞大的人力成本。为了避免使用成对图像并减少对标签的依赖，本发明训练编码器和判别器，使编码器可以学习到输入的图像在流形空间中的身份表示和视角表示，然后将这些低维编码输入生成器，得到高维数据，通过训练生成器和判别器，使生成器可以重建出逼真的人脸图像。本发明在编码器和生成器上分别施加了两个对抗性网络，迫使网络在保持身份特征同时，产生视角不同的逼真面孔。为了进一步减少对视角标签的依赖，本发明在编码器上施加了另外一个判别器，迫使其输出遵守范畴分布，并通过最小化预测的视角标签和真实视角标签的交叉熵,使视角表示更加准确。图1展示了本发明的方法。本发明训练五个子网络，目的是为了在潜空间解开输入图像的身份表示和视角表示，并且通过生成器重建图像。测试时，将多个one-hot向量强加给潜空间中的身份表示，将这些表示视角的向量分别与身份表示连接，然后输入生成器，即可在保持身份特征的同时，生成多视角图像。

本发明提供一种技术方案：如图1所示，一种基于非配对图像的多视角人脸图像生成方法，所述方法基于对抗自编码器和生成对抗网络，结构由编码器、生成器和三个判别器构成，包括以下步骤：

输入大小为N的训练集,其中带标签的图像个数M,随机打乱训练集，获取一批人脸图像输入编码器E。

步骤A：训练时，编码器E将输入的人脸图像压缩成潜空间表征，通过训练学习到高级的抽象特征，即分别映射为身份表示z和视角表示

判别器D_z迫使z服从均匀分布，判别器D_v迫使

服从范畴分布，使得生成的脸更加真实。

的交叉熵，使视角表示更加准确，使编码器E逐渐成为一个好的视角估计器；

步骤C：生成器G利用潜空间中的

和z重建图像，并在训练过程中，与判别器D_img相互博弈，确保重建图像逼真且保留身份特征值，重建的结果与真实图像分别与

连接后输入判别器D_img进行相似性判断，D_img判别生成的人脸和真实人脸的差别；

步骤D：测试时，使用训练好的编码器解开身份表示和视角表示，然后将多个代表视角的one-hot向量分别强加给身份表示，将它们输入训练好的生成器，即可在保持身份特征的同时，生成多视角图像，注意测试时不需要图像的真实标签。

期望生成的图像需要满足三个要求：1)输入脸和输出脸应保持身份特征不变2)不同身份人脸的同一视角应当一致3)输出的人脸应逼真。

为了得到人脸的身份表示，输入的人脸图像x被编码器E映射为特征向量z，然后特征向量z和从先验分布中采样的得到的样本被输入判别器D_z，通过min-max game训练E和D_z，迫使z逐渐接近均匀分布：

为了得到人脸的视角表示，编码器E将人脸图像x映射为视角向量

将

逐渐接近范畴分布：

其中，p_v(v)表示先验分布，

n表示视角个数，v′～p_v(v)表示p_v(v)的随机抽样过程。

随着数据收集和存储技术的发展，通常很容易收集到大量数据，但是其中仅有一小部分数据能够被正确标注。为了进一步减少标签的使用数量，本发明在模型中使用了半监督学习，期望编码器能够估计人脸图像的视角，步骤如下：

的交叉熵：

通过最小化交叉熵优化E，以降低分类误差；需要注意的是，由于训练样本非常多，很小的分类误差对生成结果的影响微乎其微。

S2.当输入有标签数据时，通过式(3)更新E；通过这种策略，充分利用了未标记数据，经过多次迭代，使E成为一个好的视图估计器。与目前大多数半监督GAN不同的是，本发明的判别器只判断真假，而不输出类别。

为了使重建图像更加逼真，将特征向量z和对应的视角标签向量

输入到生成器G生成重建图像

然后将

和

输入判别器D_img，通过下式训练G和

另外，使用L1损失衡量输入图像x与重建图像

的差距：

图2和图3分别展示了本发明在两个数据集上的重建结果。

将本发明的方法与DR-GAN和CR-GAN进行了比较，图4展示了他们的网络结构与本发明的网络结构。本发明的网络结构与DR-GAN有三点不同，首先，DR-GAN的编码器不能用于视角估计，而本发明通过判别器D_v和最小化交叉熵，使编码器对输入图像有效进行视角估计，大大减少了标签的使用量。其次，本发明通过对编码器施加判别器D_z,确保了潜空间的平滑过渡，而DR-GAN则没有使用这个对抗策略。另外，DR-GAN的判别器输入需要同一身份的两种不同视角的图像(一个真实图像，另一个是重建图像)，这就使他们的生成器需要使用同一身份的另一种视角标签，而本发明的网络只需要一种视角标签，通过训练使编码器可以解开身份表示和视角表示，使生成器可以重建出逼真的图像。CR-GAN在DR-GAN的基础上，增加了一条路径，确保网络学习到完整的表示。除了上述3点，本发明与CR-GAN有两点不同，首先，CR-GAN使用双路径，确保网络在测试时也能有良好的生成效果，而本发明通过训练判别器D_img达到了同样的目的。图5展示了本发明的测试结果，每行的第一个图像为输入图像，生成图像保持了输入图像的身份特征，而且有连续的角度变化。其次，为了减少标签的使用，CR-GAN使用自监督学习，而本发明使用半监督学习。

实验

实验设置

数据集：Multi-PIE是在受限环境下收集的标记数据集。该数据集部分图像如图6。我们使用来session1的249个志愿者的人脸图像(共129480幅图像)，每个志愿者的头部图像包含±90°内的13个偏航角(每两个姿态间隔15°),20种光照和2中表情。其中103584幅图像用于训练，其余图像用于测试。需要注意的是，训练时只使用了3000幅图像的标签。300W-LP是基于2D人脸对齐数据集，通过3D MM拟合，得到的3D人脸对齐数据集，共122450幅图像，该数据集部分图像如图7。正如CR-GAN那样,我们使用偏航角在±60°内的图像,并离散成9间隔，使用其中的97960幅图像用于训练，其中2500幅图像使用了标签。

需要注意的是，DR-GAN和CR-GA需要根据身份划分训练集合测试集，比如在Multi-PIE中，CR-GAN使用200个身份用于训练，其余身份用于测试。而本发明的方法在训练时不需要身份标签，所以对训练集没有身份要求。

实现细节：编码器E的详细结构在表1。E有两个全连接层，分别使用了双曲正切函数和sofemax函数，输入图像的像素归一化为[-1,1]，通过E分别被映射为50维向量z，和13维向量

(在300W-LP中,

为9维)。表2展示了判别器D_z和D_v的结构，两个判别器在结构上是相同的.D_z和D_v分别迫使z和

服从先验分布。z和

连接后被输入生成器G，G的结构如表3所示。表4展示了D_img的结构。判别器D_img用来判断生成图像和输入图像的相似性。无标签图像和有标签图像交替输入，通过最小化真实标签v和对应的

的交叉熵，使编码器E逐渐成为一个好的视角估计器，当有3000幅图像使用标签且batch size为100时，这一过程会持续30个batch。注意真实标签不会被输入生成器。输入网络的图像尺寸为128*128，batch size＝100，使用Adam optimizer作为优化器算法，learning rate＝0.0002，momentum＝[0.5,0.999]。

表1 编码器结构。Multi-PIE上fc2的输出大小为13,300W-LP上fc2的输出大小为9

表2 判别器D_z和D_v的结构

表3 生成器结构

表4 判别器D_img的结构

实验结果

对本发明的方法进行了定性和定量评价。具体考虑了视觉质量、身份保留属性和视角保留属性三个方面。

(1)视觉质量

图5展示了本发明的方法的结果。生成图像与输入图像非常相似,而且有连续的角度变化。这表明本发明模型不仅解开了人脸图像的身份表示和视角表示，而且能够合成逼真的人脸图像。图8展示了DR-GAN,CR-GAN与本发明的方法人脸人脸矫正的结果。本发明的方法在没有使用身份标签的情况下，生成了与真实图像非常相似的逼真的人脸图像，CR-GAN和DR-GAN也有很好的效果，但他们在训练时都需要成对图像。另外，在输入大姿态人脸图像时，本发明的方法也有不错的人脸矫正效果。图9展示了CR-GAN和本发明的方法在300W-LP上的结果。本发明的方法(第二行)能够合成高质量的图像，而CR-GAN(第一行)合成的图像与真实图像差距较大，且容易产生扭曲。图8和图9中的测试图像都不包含在训练集中。

(2)身份保留属性

为了评估本发明的模型的身份保留属性，在Multi-PIE session1上对每个身份(共249个身份)随机选取10个角度，将同一身份的所有生成图像输入facenet,计算两两之间的L2距离。L2距离反映了人脸的相似度，同一身份不同角度的人脸应有较小的L2距离，不同身份人脸之间应有较大的L2距离。L2距离为n维空间中两个点x(x₁，x₂，...，x_n)与y(y₁，y₂，…，y_n)间的欧氏距离，其计算公式如下：

表5显示了DR-GAN,CR-GAN和本发明的方法的L2距离的平均值和方差。本发明的方法虽然在与DR-GAN和CR-GAN有较小差距，但需要注意的是，本发明的方法没有使用身份标签，而且每个人脸都生成了13种角度，而DR-GAN和CR-GAN在使用身份标签的情况下，只生成了9种角度，也就是说，这个统计中，本发明的方法的结果包含由大角度人脸生成的13种姿态，以及由其他角度生成的大角度姿态。

表5 真实图像和生成图像身份的相似性

(3)视角保留属性

为了评估本发明的模型的视角保留属性，采用第三方姿态估计器(THPE)1，在Multi-PIE上计算了真实图像和我们的模型生成的图像的偏航角，由于THPE只能计算±45°内的偏航角，因此只测试了这个范围内的人脸图像。表6展示了真实图像和生成图像的偏航角的平均值，结果显示，本发明的模型生成的多视角图像和真实图像有很小的平均姿态估计误差。需要注意的是，本发明的方法基于半监督学习，仅使用了极少量的视角标签。

表6 THPE预测的Multi-PIE平均姿态估计误差

实验结果表明，本发明提出了使用非配图人脸图像生成多视图的方法，该方法基于对抗自编码器和生成对抗网络，通过训练五个子网络，解开了身份表示和视角表示，并且可以重建出逼真的人脸图像。在测试时对身份表示强加多个one-hot向量，使生成的图像不仅保持了身份特征，而且有连续的视角变化。相比其他多视角人脸生成方法，本发明的方法在训练时不需要使用成对人脸图像，不依赖数据集的身份标签，且仅需少量视角标签，生成了清晰真实的多视角人脸图像。

以上所述仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。