CN112233012A

CN112233012A - 一种人脸生成系统及方法

Info

Publication number: CN112233012A
Application number: CN202010793914.3A
Authority: CN
Inventors: 宋利; 薛涵; 凌军; 解蓉; 张文军
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2021-01-15
Anticipated expiration: 2040-08-10
Also published as: CN112233012B

Abstract

本发明提供了一种人脸生成系统及方法，引入几何感知特征转换模块，利用目标人脸解析图去指导源人脸特征图的变换，从而将目标人脸的姿态和表情迁移到源人脸上，同时保留源人脸的身份；引入多尺度空间一致性传输单元，将目标人脸解析图作为条件输入该单元，指导编码器特征传入解码端，最终生成人脸，在提升生成图片质量的同时，不弱化模型对人脸的操纵能力；使用目标人脸解析图引导编码器特征的传输，保持了编码器和解码器特征之间的一致性，解决了编码器和解码器特征在空间上未对齐的问题；通过结合内部和外部的编码器特征，结合了多尺度的信息，提升了生成人脸的质量。本发明能够生成逼真的人脸，同时可以应用到模型训练时未见过的人脸。

Description

一种人脸生成系统及方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种人脸生成系统及方法。

背景技术

人脸生成一直是计算机视觉领域的研究热点，得到了学界和工业界的广泛关注，其目标是生成逼真的人脸，使其拥有目标姿态和表情，同时保留源人脸的身份。这项任务在电话会议系统，电影制作，虚拟现实和动画行业中有着极其广泛的应用。然而，由于对人脸姿态和表情进行转换的高度复杂性，合成逼真的人脸图像仍然极具挑战性。

经典的参数化方法利用预定义的模型(例如3D人脸模型)来表示源人脸，然后在给定目标参数的情况下渲染出结果。尽管这些算法可以直接操纵人脸的姿态和表情，但是由于模型能力有限，结果大多不能令人满意，并且它们需要精细的设计，同时有着很高的计算复杂度。

随着生成对抗网络在图像生成领域取得了巨大成功，许多方法尝试使用该技术进行人脸的生成，但是现有的方法大多存在两个问题。第一，很多方法都是针对特定目标的，无法在训练集中未见过的人脸上进行应用，对于新的人脸需要重新训练模型，这极大地限制了它们在实际场景中的应用。第二，现有方法无法生成高质量的逼真的人脸，特别是在人脸的姿态和表情出现大规模变化时，这些方法生成的人脸常常会出现模糊、不匹配的面部细节等伪影，同时源人脸的身份信息也在一定程度上遭到了破坏，无法满足高保真度生成的要求。

发明内容

本发明针对现有技术中存在的上述技术问题，提出一种人脸生成系统及方法。

为解决上述技术问题，本发明是通过如下技术方案实现的。

根据本发明的一个方面，提供了一种人脸生成系统，其特征在于，包括：合成网络生成器；其中：

所述合成网络生成器的编码端包含几何感知特征转换模块，所述几何感知特征转换模块利用目标人脸解析图去指导源人脸特征图的变换，从而将目标人脸的姿态和表情迁移到源人脸上，同时保留源人脸的身份，输出编码器特征图；

所述合成网络生成器的编码端和解码端之间搭建了多尺度空间一致性传输单元，将目标人脸解析图作为条件输入所述多尺度空间一致性传输单元，指导编码器特征图传入解码端，最终生成人脸图像。

优选地，所述合成网络生成器，包括：依次设置的编码器、瓶颈层和解码器；所述几何感知特征转换模块设置于编码器的每个卷积层之后的位置；所述多尺度空间一致性传输单元设置于编码器和解码器的对应卷积层之间的位置。

优选地，所述编码器包含4个步长为2的卷积层进行下采样，所述瓶颈层包含2个残差块，所述解码端包含4个转置卷积层进行上采样；所有卷积层和转置卷积层均采用实例归一化层来对单个学习样本进行归一化。

优选地，所述合成网络生成器采用如下任意一项或任意多项损失函数：

-对抗损失，采用最小Wasserstein距离，并添加梯度惩罚项，用于保证判别器满足利普西茨连续条件，从而稳定训练过程；

-逐像素损失，包含目标人脸与源人脸不同时的一范数损失以及目标人脸与源人脸相同时的重建损失，用于保证生成人脸在像素层面上接近真实人脸；

-特征匹配损失，用于最小化生成人脸和真实人脸输入判别器所得到的不同层特征图之间的距离，从而提升生成图像的视觉质量。。

优选地，所述几何感知特征转换模块，包括：利用一个实例归一化层将编码器特征进行归一化，分别利用两个包含卷积层、激活函数和卷积层的网络将目标人脸解析图变为转换参数，接着使用这两个转换参数对归一化的特征进行转换，最后通过激活函数得到转换后的特征。

优选地，所述多尺度空间一致性传输单元，包括：将里层的编码器特征与目标人脸解析图级联，通过一个转置卷积层和激活函数后再与外层的编码器特征级联，最后送入一个卷积层和激活函数得到输出的特征。

优选地，所述系统还包括合成网络判别器，所述合成网络判别器设置于所述合成网络生成器的后端，用于通过将真实图像或生成图像映射为分数图再取平均来计算生成图像的真实度得分。

优选地，所述合成网络判别器为基于分块的判别器，采用最小Wasserstein距离作为对抗损失，并添加梯度惩罚项，用于保证判别器满足利普西茨连续条件，从而稳定训练过程。

根据本发明的另一个方面，提供了一种人脸生成方法，包括：

在生成网络的编码端引入几何感知特征转换模块，所述几何感知特征转换模块利用目标人脸解析图去指导源人脸特征图的变换，从而将目标人脸的姿态和表情迁移到源人脸上，同时保留源人脸的身份，输出编码器特征图；

在生成网络的编解码器之间引入多尺度空间一致性传输单元，将目标人脸解析图作为条件输入所述多尺度空间一致性传输单元，指导编码器特征图传入解码端，最终生成人脸图像。

优选地，所述几何感知特征转换模块接收上一级编码器输出的特征图Fⁱⁿ以及目标人脸解析图L_t作为输入，通过先对特征图Fⁱⁿ进行实例归一化再进行调制得到该模块输出的特征图F^out：

其中，γ_i,l和β_i,l是从目标人脸解析图L_t计算得来的转换参数，i,l分别为特征图通道和网络层的索引，mean为求均值操作，std为求标准差操作。

优选地，从目标人脸解析图L_t计算转换参数γ_i,l和β_i,l的方法为：将L_t分别送入两路结构相同的网络，所述网络的结构包括卷积层、激活函数和卷积层，得到转换参数γ_i,l和β_i,l。

优选地，所述将目标信息作为条件输入所述多尺度空间一致性传输单元，指导编码器特征图传入解码端，包括：

编码器各级的特征图在传输给解码器之前先由多尺度空间一致性传输单元进行转换；在所述多尺度空间一致性传输单元中，所述目标人脸解析图L_t作为条件输入，用于引导编码器特征图的传输，保持编码器和解码器特征之间的一致性，解决编码器和解码器特征在空间上未对齐的问题；将目标人脸解析图L_t与特征图级联后再进行卷积，从而指导特征图的传输。

优选地，所述编码器各级的特征图包括内部编码器的特征图和外部编码器的特征图；在所述多尺度空间一致性传输单元中，将内部编码器的特征图与目标人脸解析图L_t级联后，送入转置卷积层中，所述转置卷积层的激活输出再与外部编码器的特征图级联后进行卷积，从而结合多尺度信息获得传输后的特征图。

由于采用了上述方案，相较于现有技术，本发明具有以下有益效果：

(1)本发明提供的人脸生成系统及方法，在生成网络的编码端引入几何感知特征转换模块，利用目标人脸解析图去指导源人脸特征图的变换。现有的基于扭曲的方法直接在图像上进行扭曲和变化，这使得生成图像会出现模糊、拖影、不匹配的细节等，而本发明通过在特征层面进行变换，使得网络可以自行进行推理和补全，解决了前述问题，提升了生成图像的质量；

(2)本发明提供的人脸生成系统及方法，利用几何感知特征转换模块接收两个输入：上一级编码器输出的特征图以及目标人脸解析图，通过先对特征图进行实例归一化再进行调制得到该模块输出的特征图。该模块可以有效地解决传统的目标信息注入方法中的问题；现有的一些方法直接将目标信息比如面部动作单元等和源图像级联，这样无法进行细粒度的生成；还有一些方法对特征图进行变换，但这些变换是逐通道进行的，丢失了目标的几何信息；而在本发明中，特征图上每个空间位置的变换参数进行了独立的学习，因此可以更好地注入目标的几何信息；

(3)本发明提供的人脸生成系统及方法，在生成网络的编解码器之间引入多尺度空间一致性传输单元，使用目标信息引导编码器特征的传输；现有的许多方法都直接采用原始的跨越连接，而编码器和解码器的特征在空间上是未对齐的，直接级联两者的特征会使得生成的结果中出现伪影；而本发明利用目标信息(目标人脸解析图)对编码器特征先进行变换再与送入解码端，保持了编码器和解码器特征之间的一致性；

(4)本发明提供的人脸生成系统及方法，在多尺度空间一致性传输单元中通过结合内部和外部的编码器特征，结合了多尺度的信息，提升了生成人脸的质量；

(5)本发明提供的人脸生成系统及方法，通过基于分块的判别器，将真实图像或生成图像映射为分数图再取平均来计算输入图像的真实度得分，以此对输入图像的不同块进行评价，减少了网络的参数量，同时使得生成图像的局部细节更加丰富；

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的人脸生成方法的流程图；

图2为本发明一实施例的几何感知特征转换模块的结构示意图；

图3为本发明一实施例中生成结果与ReeanctGAN方法在CelebV数据集上的效果对比图；

图4为本发明一实施例中生成结果与X2Face方法在VoxCeleb1数据集上的效果对比图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明一实施例提供了一种人脸生成系统，该系统结合了几何感知特征转换模块以及多尺度空间一致性传输单元，实现了逼真的人脸图像的生成。

该系统包括：合成网络生成器；其中，

合成网络生成器的编码端包含几何感知特征转换模块，用于处理姿态表情迁移问题：该几何感知特征转换模块利用目标人脸解析图去指导源人脸特征图的变换，从而将目标人脸的姿态和表情迁移到源人脸上，同时保留源人脸的身份，输出编码器特征图；

合成网络生成器的编码端和解码端之间搭建了多尺度空间一致性传输单元，用于解决人脸生成质量问题：将目标信息作为条件输入该多尺度空间一致性传输单元，指导编码器特征图传入解码端，最终生成人脸图像，在提升生成图片质量的同时，不弱化模型对人脸的操纵能力。

在本发明部分实施例中，多尺度空间一致性传输单元，同时实现了如下功能：

使用目标信息引导编码器特征的传输，保持了编码器和解码器特征之间的一致性，解决了编码器和解码器特征在空间上未对齐的问题；

通过结合内部和外部的编码器特征，结合了多尺度的信息，提升了生成人脸图像的质量。

作为一优选实施例，本实施例提供的系统还包括合成网络判别器，该判别器用于通过将真实图像或生成图像映射为分数图再取平均来计算输入图像(生成图像)的真实度得分。

作为一优选实施例，判别器为基于分块的判别器。

作为一优选实施例，合成网络生成器及判别器采用最小Wasserstein距离作为对抗损失；进一步地，

对抗损失添加梯度惩罚项，用于保证生成器及判别器满足利普西茨连续条件，从而稳定训练过程。

作为一优选实施例，合成网络生成器采用逐像素损失来保证生成人脸在像素层面上接近真实人脸；进一步地，

逐像素损失包含目标人脸与源人脸不同时的一范数损失以及目标人脸与源人脸相同的重建损失。

作为一优选实施例，合成网络生成器引入特征匹配损失，用于最小化生成人脸和真实人脸输入判别器所得到的不同层特征图之间的距离，从而提升生成图片的视觉质量。

作为一优选实施例，合成网络生成器将多尺度空间一致性传输单元输出的特征图与解码器各级的输出在通道上进行级联，补充由于下采样而丢失的部分细节，级联后的特征图接着送入解码器的下一级。

本发明另一实施例提供了一种人脸生成方法，其包括以下步骤：

S11：利用几何感知特征转换模块处理姿态表情迁移问题：在生成网络的编码端引入几何感知特征转换模块，该几何感知特征转换模块利用目标人脸解析图去指导源人脸特征图的变换，从而将目标人脸的姿态和表情迁移到源人脸上，同时保留源人脸的身份，输出编码器特征图；

S12：利用多尺度空间一致性传输单元解决人脸生成质量问题：在生成网络的编解码器之间引入多尺度空间一致性传输单元，将目标信息作为条件输入该多尺度空间一致性传输单元，指导编码器特征传入解码端，最终生成人脸图像，在提升生成图片质量的同时，不弱化模型对人脸的操纵能力。

在本发明部分实施例中，多尺度空间一致性传输单元同时实现了如下功能：

通过结合内部和外部的编码器特征，结合了多尺度的信息，提升了生成人脸的质量。

作为一优选实施例，S12中：编码器各级的特征图在传输给解码器之前先由多尺度空间一致性传输单元进行转换。在该单元中，目标人脸解析图作为条件输入，用于引导编码器特征图的传输，保持编码器和解码器特征之间的一致性，解决编码器和解码器特征在空间上未对齐的问题；将目标人脸解析图L_t与特征图级联后再进行卷积，从而指导特征图的传输。

作为一优选实施例，S12中：在多尺度空间一致性传输单元中，将内部编码器的特征图与目标人脸解析图级联后，送入转置卷积层中，该层的激活输出再与外部编码器的特征图级联后卷积，从而结合多尺度信息获得传输后的特征图。

作为一优选实施例，S11中：

利用几何感知特征转换模块接收两个输入：上一级编码器输出的特征图Fⁱⁿ以及目标人脸解析图L_t，通过先对特征图进行实例归一化再进行调制得到该模块输出的特征图Fⁱⁿ：

作为一优选实施例，从目标人脸解析图L_t计算转换参数γ_i,l和β_i,l的方法为：将L_t分别送入两路结构相同的网络，其中网络的结构包括卷积层、激活函数和卷积层，得到转换参数γ_i,l和β_i,l。

下面结合附图，对本发明上述实施例所提供的系统及方法进一步详细描述如下。

如图1所示为本发明一实施例的人脸生成方法的流程图，其是基于特征转换以及增强传输单元的人脸生成方法。

请参考图1，该人脸生成方法包括以下步骤：

S11：利用几何感知特征转换模块处理姿态表情迁移问题：在生成网络的编码端引入几何感知特征转换模块，利用目标人脸解析图去指导源人脸特征图的变换，从而将目标人脸的姿态和表情迁移到源人脸上，同时保留源人脸的身份；

S12：利用多尺度空间一致性传输单元解决人脸生成质量问题：在生成网络的编解码器之间引入多尺度空间一致性传输单元，将目标信息作为条件输入该单元，指导编码器特征传入解码端，最终生成人脸，在提升生成图片质量的同时，不弱化模型对人脸的操纵能力。

该多尺度空间一致性传输单元同时实现了如下功能：

使用目标信息引导编码器特征的传输，保持了编码器和解码器特征之间的一致性，解决了编码器和解码器特征在空间上未对齐的问题，从而在解码端补充细节的同时不影响原有的解码过程，减少了生成结果中的伪影；

通过结合内部和外部的编码器特征，结合了多尺度的信息，同时保持了编码器不同级输出之间的一致性，提升了生成人脸的质量。

整个合成网络包括生成器和判别器，其中生成器包括了几何感知特征转换模块和多尺度空间一致性传输单元。在几何感知特征转换模块，利用输入的目标人脸解析图，生成相应的转换参数，对进行完实例归一化后的编码特征图进行转换，通过在各级编码器之间添加此模块，将目标人脸的姿态和表情迁移到源人脸上，并被得到的特征图送入解码端。在多尺度空间一致性传输单元中，将目标人脸解析图作为条件指导各级编码器特征进行变换，接着将变换后的特征再与解码器各级的特征进行级联，从而补充细节，同时融合各级编码器之间的特征，结合了多尺度的信息，最终得到解码后的输出。

下面结合具体实例对上述各个步骤中详细技术操作进行说明。

(1)几何感知特征转换模块

比起直接在图像上进行类似扭曲的变换，本实例选择在特征层面进行变换，使得网络可以自行进行推理和补全，减少了诸如模糊、拖影、不匹配的细节等伪影，从而获得更高质量的人脸。

为了对目标人脸的姿态和表情进行表征，现有的很多方法采用了人脸动作单元、姿态向量或者人脸关键点，其中人脸动作单元的提取本身就有着较大的误差，特别是对于某些极端表情很难准确表达，同时姿态向量包含的姿态信息过少，而人脸关键点则较好地代表了目标人脸的姿态和表情。因此本实例首先提取出目标人脸的人脸关键点，接着将其转换为一个六通道的人脸解析图，其中每个通道代表了一个具体的人脸区域(包括眼睛，鼻子，嘴巴等)以及人脸之外的背景。

为了较好地保留源人脸的身份信息，同时进行目标姿态和表情的迁移，本实例在合成网络的编码端添加了几何感知特征转换模块。如图2所示，该模块添加在编码端每一个卷积层后，接收卷积得到的特征图Fⁱⁿ以及目标人脸解析图L_t作为输入，通过先对特征图进行实例归一化再进行调制得到该模块输出的特征图F^out：

其中，γ_i,l和β_i,l是从目标人脸解析图L_t计算得来的转换参数。

值得注意的是，这两个转换参数是由目标人脸解析图通过卷积后得到的，因此可以有效地解决传统的目标信息注入方法中的问题：现有的一些方法直接将目标信息比如面部动作单元等和源图像级联，这样无法进行细粒度的生成；还有一些方法对特征图进行变换，但这些变换是逐通道进行的，丢失了目标的几何信息。而本实例的转换参数是针对特征图上每个空间位置进行独立学习所得到的，因此可以更好地注入目标的几何信息，促进目标姿态和表情的迁移。

(2)多尺度空间一致性传输单元

由包含几何感知特征转换模块的编码端得到的特征需要进行解码，生成最终的人脸。为了补充细节，提升图片质量，使用编解码网络的很多方法都会添加跨越连接，将编码端各级输出的特征图与解码端各级的特征图在通道上进行级联。然而，由于源人脸和最终生成的人脸的姿态和表情往往是不同的，因此编码器和解码器的特征在空间上是未对齐的，直接级联两者的特征会使得生成的结果中出现类似源人脸的边缘图等伪影。为了解决该问题，本实例设计了多尺度空间一致性传输单元，并将其搭建在编码器和解码器之间，提升生成图像的质量，同时不弱化模型对人脸的操纵能力。

多尺度空间一致性传输单元接受三个输入，分别是编码端各级输出的特征图，目标人脸解析图以及偏向内部一级的编码器的输出特征图(最内部的多尺度空间一致性传输单元无此项输入)。与原始的跨越连接不同，在多尺度空间一致性传输单元中，编码器的特征要先经过变换再送入解码器，保持了编码器和解码器特征之间的一致性，同时通过结合内部和外部的编码器特征，结合了多尺度的信息，提升了生成人脸的质量。

具体地，本实例首先将偏向内部一级的编码器的输出特征图和目标人脸解析图进行级联，送入转置卷积层。接着，本实例将这一层的激活输出与该级的编码器输出特征图级联。最后，将级联的特征送入一个卷积层，得到变换后的特征图。

通过该多尺度空间一致性传输单元，变换后的特征图由于受到了目标信息的引导，可以更好地与解码器特征图进行结合而不会产生明显的伪影，同时多尺度特征的融合也帮助本实例丰富了生成人脸的细节。

一较佳实施例中，使用基于分块的判别器，通过将真实图像或生成图像映射为分数图再取平均来计算输入图像的真实度得分，以此对输入图像的不同块进行评价，减少了网络的参数量，同时使得生成图像的局部细节更加丰富。

一较佳实施例中，合成网络的生成器及判别器采用最小Wasserstein距离作为对抗损失，同时添加梯度惩罚项，以此保证判别器满足利普西茨连续条件，缓解梯度爆炸的问题，从而稳定了训练过程。

一较佳实施例中，合成网络生成器采用逐像素损失来保证生成人脸在像素层面上接近真实人脸，其中逐像素损失包含目标人脸与源人脸不同时的一范数损失以及目标人脸与源人脸相同的重建损失，计算两种损失时使用的是同一个生成器，减小了网络规模，提升了效率。

一较佳实施例中，合成网络生成器使用特征匹配损失。由于判别器可以用来对图片的逼真程度进行评价，因此其中间层的特征也可以作为一种图像质量的表征，通过最小化生成人脸和真实人脸输入判别器所得到的不同层特征图之间的距离，提升了生成图片的视觉质量。

一较佳实施例中，合成网络生成器将多尺度空间一致性传输单元输出的特征图与解码器各级的输出在通道上进行级联，补充由于下采样而丢失的部分细节，级联后的特征图接着送入解码器的下一级。

一具体实例中，模型均利用PyTorch这一深度学习框架实现。在训练合成网络的过程中，采用了Adam优化器，参数设置为β₁＝0.5，β₂＝0.999。生成器和判别器的学习率均设置为0.0001，训练时每优化5次判别器再去优化一次生成器，保证训练的稳定性。批量大小设为16，一共训练40轮，训练的前20轮学习率保持不变，后20轮学习率线性衰减到0，以获得更佳的收敛结果。

下面对上述实施例的人脸生成方法的结果进行评估，使用ReenactGAN和X2Face作为目前最先进的方法，分别在CelebV数据集和VoxCeleb1数据集上进行训练和测试，和本发明上述实施例方法进行定量和定性的比较。

关于质量评估指标，采用了峰值信噪比(PSNR)、结构相似性(SSIM)以及弗雷歇距离(FID)，其中PSNR和SSIM用来测量生成图像和真实图像之间的低层次相似度，FIR则用来评估生成图像的真实性和多样性，更接近人的感知。越高的PSNR和SSIM表明生成图像越接近真实图像，而越低的FID，则说明生成图像的分布与真实图像的分布越接近。在CelebV数据集上与ReenactGAN对比时，本发明实施例提供的方法随机选取了2500个图像对来计算评估指标。在VoxCeleb1数据集上与X2Face对比时，本发明实施例提供的方法随选取了1000个样本来计算相应的指标。

最终定量比较结果如表1所示。在CelebV数据集上，本发明方法生成图像的峰值信噪比、结构相似性比ReenactGAN的结果高，同时弗雷歇距离要更小，说明了本发明方法生成的图像更接近真实图像，视觉质量也更高。在VoxCeleb1数据集上，本发明方法生成图像的三项质量评估指标均优于X2Face的结果，这说明了本发明方法在生成高质量人脸上的优越性。

表1本发明实施例与现有方法的生成质量对比

为了说明本发明实施例提供的方法不仅能够生成高质量的图片，还能准确将目标人脸的姿态和表情迁移到源人脸上，本发明实施例提供的方法还使用了动作单元平均绝对误差和头部角度平均绝对误差这两个指标去衡量不同的方法进行姿态表情迁移的准确性。具体来说，本发明实施例提供的方法使用OpenFace工具计算了生成人脸以及目标人脸的动作单元以及头部角度之间的平均绝对误差，越小越好，结果如表2所示。可以看到，在CelebV和VoxCeleb1数据集上，本发明实施例提供的方法的两项指标分别超过了ReenactGAN和X2Face，说明本发明实施例提供的方法能够准确地迁移目标人脸的姿态和表情。

表2本发明实施例与现有方法的姿态表情迁移结果对比

为了定性比较生成图像的质量，本发明实施例提供的方法选择相同的源人脸和目标人脸，来观察不同方法的生成结果。首先，本发明实施例提供的方法在CelebV数据集上与ReenactGAN方法进行比较，结果如图3所示。可以直观地看到，当需要进行大规模的姿态和表情变化时，ReenactGAN方法无法生成合理的结果。相反，本发明实施例提供的方法的模型在这些情况下仍然成功地迁移目标姿态和表情，生成了高质量的人脸。接着，本发明实施例提供的方法在VoxCeleb1数据集上与X2Face方法进行比较，结果如图4所示。本发明实施例提供的方法在从图4中可以清楚地看到，X2Face方法在一些面部区域，例如嘴巴区域和眼睛附近常常产生伪影，这是由于其直接对源人脸图像进行了扭曲操作，使得模型无法推理和补充细节，而本发明实施例提供的方法选择在特征层面进行变换，让模型很好地学习到了如何进行面部细节的生成。同样由于引入了扭曲的过程，X2Face方法因此在处理极端姿势和表情时会产生模糊和拖影，例如图4第三行第五列和第八列的图像，出现了大面积的伪影。相比之下，本发明实施例提供的方法则很少在生成结果中出现模糊等伪影，与真实图像更加接近，在图像质量和姿态表情一致性上都要表现得更加出色。

一实施例中，还提供一种人脸生成系统，其与上述实施例的人脸生成方法相对应，其包括：合成网络生成器，还可以包括合成网络判别器；其中，合成网络生成器的编码端包含几何感知特征转换模块，用于处理姿态表情迁移问题：利用目标人脸解析图去指导源人脸特征图的变换，从而将目标人脸的姿态和表情迁移到源人脸上，同时保留源人脸的身份；合成网络生成器的编码端和解码端之间搭建了多尺度空间一致性传输单元，用于解决人脸生成质量问题：将目标信息作为条件输入该单元，指导编码器特征传入解码端，最终生成人脸，在提升生成图片质量的同时，不弱化模型对人脸的操纵能力。进一步地，多尺度空间一致性传输单元同时实现了：

(1)使用目标信息引导编码器特征的传输，保持了编码器和解码器特征之间的一致性，解决了编码器和解码器特征在空间上未对齐的问题；

(2)通过结合内部和外部的编码器特征，结合了多尺度的信息，提升了生成人脸的质量。

较佳实施例中，合成网络判别器为基于分块的判别器，用于通过将真实图像或生成图像映射为分数图再取平均来计算输入图像的真实度得分，以此对输入图像的不同块进行评价，减少了网络的参数量，同时使得生成图像的局部细节更加丰富。

较佳实施例中，合成网络生成器及判别器采用最小Wasserstein距离作为对抗损失；进一步地，对抗损失添加梯度惩罚项，用于保证判别器满足利普西茨连续条件，缓解梯度爆炸的问题，从而稳定训练过程。

较佳实施例中，合成网络生成器采用逐像素损失来保证生成人脸在像素层面上接近真实人脸；进一步地，逐像素损失包含目标人脸与源人脸不同时的一范数损失以及目标人脸与源人脸相同的重建损失，计算两种损失时使用的是同一个生成器，减小了网络规模，提升了效率。

较佳实施例中，合成网络生成器引入特征匹配损失，用于最小化生成人脸和真实人脸输入判别器所得到的不同层特征图之间的距离，从而提升生成图片的视觉质量。

较佳实施例中，合成网络生成器将多尺度空间一致性传输单元输出的特征图与解码器各级的输出在通道上进行级联，补充由于下采样而丢失的部分细节，级联后的特征图接着送入解码器的下一级。

较佳实施例中，合成网络的生成器整体上采用编码-瓶颈层-解码的结构。其中，除了几何感知特征转换模块，编码端包含4个步长为2的卷积层进行下采样，瓶颈层包含2个残差块，解码端包含4个转置卷积层进行上采样。同时，由于同一批样本中人脸的姿态和表情基本是不同的，因此所有卷积层和转置卷积层均采用实例归一化层来对单个学习样本进行归一化，从而提升模型的表现。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。

本发明上述实施例所提供的人脸生成系统及方法，在生成网络的编码端引入几何感知特征转换模块，利用目标人脸解析图去指导源人脸特征图的变换，从而将目标人脸的姿态和表情迁移到源人脸上，同时保留源人脸的身份；在生成网络的编解码器之间引入多尺度空间一致性传输单元，将目标信息作为条件输入该单元，指导编码器特征传入解码端，最终生成人脸，在提升生成图片质量的同时，不弱化模型对人脸的操纵能力；多尺度空间一致性传输单元实现了：使用目标信息引导编码器特征的传输，保持了编码器和解码器特征之间的一致性，解决了编码器和解码器特征在空间上未对齐的问题；通过结合内部和外部的编码器特征，结合了多尺度的信息，提升了生成人脸的质量。本发明上述实施例所提供的人脸生成系统及方法，能够生成逼真的人脸，同时可以应用到模型训练时未见过的人脸。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照系统的技术方案实现方法的步骤流程，即，系统中的实施例可理解为实现方法的优选例，在此不予赘述。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种人脸生成系统，其特征在于，包括：合成网络生成器；其中：

2.根据权利要求1所述的人脸生成系统，其特征在于，所述合成网络生成器，包括：依次设置的编码器、瓶颈层和解码器；所述几何感知特征转换模块设置于编码器的每个卷积层之后的位置；所述多尺度空间一致性传输单元设置于编码器和解码器的对应卷积层之间的位置；

其中：

所述编码器包含4个步长为2的卷积层进行下采样，所述瓶颈层包含2个残差块，所述解码端包含4个转置卷积层进行上采样；所有卷积层和转置卷积层均采用实例归一化层来对单个学习样本进行归一化；所述合成网络生成器采用如下任意一项或任意多项损失函数：

-特征匹配损失，用于最小化生成人脸和真实人脸输入判别器所得到的不同层特征图之间的距离，从而提升生成图像的视觉质量。

3.根据权利要求1所述的人脸生成系统，其特征在于，所述几何感知特征转换模块，包括：利用一个实例归一化层将编码器特征进行归一化，分别利用两个包含卷积层、激活函数和卷积层的网络将目标人脸解析图变为转换参数，接着使用这两个转换参数对归一化的特征进行转换，最后通过激活函数得到转换后的特征；

所述多尺度空间一致性传输单元，包括：将里层的编码器特征与目标人脸解析图级联，通过一个转置卷积层和激活函数后再与外层的编码器特征级联，最后送入一个卷积层和激活函数得到输出的特征。

4.根据权利要求1-3任一项所述的人脸生成系统，其特征在于，还包括合成网络判别器，所述合成网络判别器设置于所述合成网络生成器的后端，用于通过将真实图像或生成图像映射为分数图再取平均来计算生成图像的真实度得分。

5.根据权利要求4所述的人脸生成系统，其特征在于，所述合成网络判别器为基于分块的判别器，采用最小Wasserstein距离作为对抗损失，并添加梯度惩罚项，用于保证判别器满足利普西茨连续条件，从而稳定训练过程。

6.一种人脸生成方法，其特征在于，包括：

7.根据权利要求6所述的人脸生成方法，其特征在于，所述几何感知特征转换模块接收上一级编码器输出的特征图Fⁱⁿ以及目标人脸解析图L_t作为输入，通过先对特征图Fⁱⁿ进行实例归一化再进行调制得到该模块输出的特征图F^out：

其中，γ_i，l和β_i，l是从目标人脸解析图L_t计算得来的转换参数，i，l分别为特征图通道和网络层的索引，mean为求均值操作，std为求标准差操作。

8.根据权利要求6所述的人脸生成方法，其特征在于，从目标人脸解析图L_t计算转换参数γ_i，l和β_i，l的方法为：将L_t分别送入两路结构相同的网络，所述网络的结构包括卷积层、激活函数和卷积层，得到转换参数γ_i，l和β_i，l。

9.根据权利要求6所述的人脸生成方法，其特征在于，所述将目标信息作为条件输入所述多尺度空间一致性传输单元，指导编码器特征图传入解码端，包括：

10.根据权利要求9所述的人脸生成方法，其特征在于，所述编码器各级的特征图包括内部编码器的特征图和外部编码器的特征图；在所述多尺度空间一致性传输单元中，将内部编码器的特征图与目标人脸解析图L_t级联后，送入转置卷积层中，所述转置卷积层的激活输出再与外部编码器的特征图级联后进行卷积，从而结合多尺度信息获得传输后的特征图。