CN111797891A

CN111797891A - 基于生成对抗网络的非成对异质人脸图像生成方法、装置

Info

Publication number: CN111797891A
Application number: CN202010435726.3A
Authority: CN
Inventors: 霍静; 王逸群; 高阳
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-10-20

Abstract

本发明公开了一种基于生成对抗网络的非成对异质人脸图像生成方法、装置，所述方案包括：通过多次迭代对异质人脸图像生成模型进行训练，其中每次迭代包括：将域a和域b中采样的非成对的异质人脸图像分别输入域a的生成器和域b的生成器，使用域a的解码器和域b的解码器分别得到跨域生成图像，使用域a的判别器和域b的判别器分别评价跨域生成图像的真假，基于异质人脸图像生成模型的损失更新模型参数；采用训练完成的异质人脸图像生成模型进行人脸图像生成。采用上述技术方案，可以在无监督、非成对的条件下进行异质人脸图像生成，增强生成图像的质量、多样性以及大幅度地增强身份信息保持能力。

Description

基于生成对抗网络的非成对异质人脸图像生成方法、装置

技术领域

本发明涉及图像处理领域，尤其涉及一种基于生成对抗网络的非成对异质人脸图像生成方法、装置。

背景技术

现代成像技术的不断发展提供了不同类型、不同模态的图像形态，可以称之为异质图像。以人脸图像数据为例，现有的异质人脸图像可以大致分成可见光人脸图像、近红外人脸图像、素描人脸图像、热成像人脸图像以及3D人脸图像等等。

异质人脸图像可以在不同的表达空间给出同一个目标的非常丰富的描述和刻画，它们之间既存在冗余信息也存在互补信息，异质人脸图像互信息的有效利用和分析，可以加深视觉认识、感知理解，对公共安全领域和媒体娱乐领域等有着广泛而重要的应用价值。

现有技术多关注于异质人脸图像识别，而鲜有涉及异质人脸图像生成。

发明内容

发明目的：本发明旨在提供一种基于生成对抗网络的非成对异质人脸图像生成方法、装置。

技术方案：本发明实施例中提供一种基于生成对抗网络的非成对异质人脸图像生成方法，包括：对域a和域b的异质人脸图像进行归一化处理；预训练异质人脸识别模型；通过多次迭代对异质人脸图像生成模型进行训练，其中每次迭代包括：将域a和域b中采样的非成对的异质人脸图像分别输入域a的生成器和域b的生成器，使用域a的解码器和域b的解码器分别得到跨域生成图像，使用域a的判别器和域b的判别器分别评价跨域生成图像的真假，基于异质人脸图像生成模型的损失更新模型参数；采用训练完成的异质人脸图像生成模型进行人脸图像生成。

具体的，利用同质人脸图像数据集预训练身份特征抽取器；然后通过异质人脸图像数据集调整异质人脸图像识别模型。

具体的，域a的生成器和域b的生成器的内容编码器，分别使用卷积对输入的人脸图像进行下采样，使用残差块进行处理，分别输出带有图像结构信息的内容特征图；域a的生成器和域b的生成器的风格编码器，分别使用卷积对输入的人脸图像进行下采样，使用全局平均池化后进行全连接，分别输出风格向量。

具体的，域a的解码器和域b的解码器基于跨域的内容特征图和风格向量，分别解码得到跨域生成图像。

具体的，域a的解码器和域b的解码器基于同域的内容特征图和风格向量，分别解码得到域内生成图像。

具体的，将跨域生成图像分别作为域a的生成器和域b的生成器的输入，使用域a的解码器和域b的解码器分别得到双跨域生成图像。

具体的，基于以下损失更新异质人脸图像生成模型的参数：对抗损失、内容一致性损失、风格一致性损失、图像重建损失、域无关感知损失、循环一致性损失、恒等映射损失以及域无关身份特征匹配损失。

具体的，域a的判别器和域b的判别器基于对应的输入的人脸图像，在多个尺度上分别评价跨域生成图像的真假，对每个尺度进行权重分配，加权计算后分别得到评价结果。

本发明实施例中提供一种基于生成对抗网络的非成对异质人脸图像生成装置，包括：预处理单元、微调单元、训练单元和测试单元，其中：所述预处理单元，用于对两个域的异质人脸图像进行归一化处理；所述微调单元，用于预训练一个异质人脸识别模型；所述训练单元，用于通过多次迭代对异质人脸图像生成模型进行训练，其中每次迭代包括：将域a和域b中采样的非成对的异质人脸图像分别输入域a的生成器和域b的生成器，使用域a的解码器和域b的解码器分别得到跨域生成图像，使用域a的判别器和域b的判别器分别评价跨域生成图像的真假，基于异质人脸图像生成模型的损失更新模型参数；所述测试单元，用于采用训练完成的异质人脸图像生成模型进行人脸图像生成。

有益效果：与现有技术相比，本发明具有如下显著优点：可以在无监督、非成对的条件下进行异质人脸图像生成，增强生成图像的质量、多样性以及大幅度地增强身份信息保持能力。

附图说明

图1为本发明实施例中提供的基于生成对抗网络的非成对异质人脸图像生成方法的流程示意图；

图2为本发明实施例中提供的异质人脸图像生成模型的总体网络结构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参阅图1，其为本发明实施例中提供的基于生成对抗网络的非成对异质人脸图像生成方法的流程示意图，包括具体步骤。

步骤S101，对域a和域b的异质人脸图像进行归一化处理。

在具体实施中，不同域的人脸图像是指通过不同图像采集设备采集下来的人脸图像，例如素描人脸图像、热红外人脸图像、近红外人脸图像和可见光人脸图像等。

在具体实施中，两个域中的异质人脸图像，在进行后续的处理时，为了提升后续生成的图像质量，可以对两个域的异质人脸图像进行归一化处理，例如包括不同域的人脸图像都根据人脸关键点进行裁剪、统一转化为灰度图像以减少不同域的人脸图像之间的差异、尺寸调整、水平翻转、角度旋转等。

步骤S102，预训练异质人脸识别模型。

本发明实施例中，预训练异质人脸识别模型包括两个步骤，首先利用大规模同质人脸图像数据集预训练身份特征抽取器；然后通过异质人脸图像数据集来微调异质人脸图像识别模型。

在具体实施中，在大规模同质人脸图像(例如大规模的可见光人脸图像)的数据集上预训练的VGGFace2网络作为身份特征抽取器F；然后在异质人脸图像的数据集上利用ArcFace进行微调(finetune)网络以得到最终的“域无关”的人脸图像身份特征抽取器F。域无关特征是指跨域不变的特征，也即该特征不受域的变化的影响。

步骤S103，通过多次迭代对异质人脸图像生成模型进行训练，其中每次迭代包括：将域a和域b中采样的非成对的异质人脸图像分别输入域a的生成器和域b的生成器，使用域a的解码器和域b的解码器分别得到跨域生成图像，使用域a的判别器和域b的判别器分别评价跨域生成图像的真假，基于异质人脸图像生成模型的损失更新模型参数。

本发明实施例中，域a的生成器和域b的生成器的内容编码器，分别使用卷积对输入的人脸图像进行下采样，使用残差块进行处理，分别输出带有图像结构信息的内容特征图(内容编码)；域a的生成器和域b的生成器的风格编码器，分别使用卷积对输入的人脸图像进行下采样，使用全局平均池化后进行全连接，分别输出风格向量(风格编码)。

本发明实施例中，域a的解码器和域b的解码器基于跨域的内容特征图和风格向量，分别解码得到跨域生成图像(例如图像x_ab和图像x_ba)。

本发明实施例中，域a的解码器和域b的解码器基于同域的内容特征图和风格向量，分别解码得到域内生成图像(例如

图像和

图像)。

本发明实施例中，将跨域生成图像分别作为输入域a的生成器和域b的生成器的输入，使用域a的解码器和域b的解码器分别得到双跨域生成图像(例如图像x_aba和图像x_bab)。

本发明实施例中，域a的判别器和域b的判别器基于对应的输入的人脸图像，在多个尺度上分别评价跨域生成图像的真假，对每个尺度进行权重分配，加权计算后分别得到评价结果。

参阅图2，其为本发明实施例中提供的异质人脸图像生成模型的总体网络结构图。

在具体实施中，异质人脸图像生成模型包括两个域上的相互对应的一套内容编码器、风格编码器、解码器、判别器以及域无关的身份特征抽取器。

在具体实施中，人脸图像可以被编码成域无关的内容编码和域相关的风格编码。跨域生成需要交换内容编码和风格编码。具体而言，为了将域a的图像x_a跨域生成为域b的图像x_ab，需要将其内容编码

和域b的风格编码s_b(或者采样)组合进行解码生成。同理，可以将图像x_ab再跨域生成x_aba。利用身份特征抽取器F约束(x_a,x_ab)和(x_b,x_ba)的域无关身份特征匹配。域a和域b，可以分别是近红外和可见光，或者素描和可见光，也可以是其他组合方式。

在具体实施中，异质人脸图像生成模型至少包括两个生成器G_a、G_b。单个生成器属于自动编码器(auto-encoder)结构，依据域a或者域b，生成器包括内容编码器

或者

风格编码器

或者

解码器Dec_a或者Dec_b组成，模型包括至少两个判别器D_a(域a判别器)、D_b(域b判别器)。

在具体实施中，内容编码器的卷积、残差块处理，全部使用实例规范化(IN)；风格编码器的卷积、全局平均池化和全连接处理，不使用实例规范化(IN)，因为实例规范化会移除表示重要的风格信息的原始特征的均值和方差。

在具体实施中，解码器利用内容编码和风格编码以解码生成图像，使用残差块处理内容编码，使用上采样、卷积重建图像，同时残差块使用自适应实例规范化(AdaIN)，参数是风格编码通过MLP动态生成的，解码器使用实例规范化(AdaIN)将内容编码和风格编码组合进行图像生成。

在具体实施中，判别器属于多尺度判别器结构，例如在三个不同的尺度上进行判别并对结果取平均或加权计算，三个尺度为：原图尺度、原图的1/2降采样尺度、原图的1/4降采样尺度。

在具体实施中，经过多次迭代，基于损失更新模型参数，以训练异质人脸图像生成模型，多次迭代后完成异质人脸图像生成模型的训练，迭代次数可以根据实际应用场景进行相应的设定。

本发明实施例中，基于以下损失更新异质人脸图像生成模型的参数：对抗损失、内容一致性损失、风格一致性损失、图像重建损失、域无关感知损失、循环一致性损失、恒等映射损失以及域无关身份特征匹配损失。

在具体实施中，关于对抗损失计算，使用对抗损失(Adversarial Loss)以匹配跨域生成图像的分布与目标域分布一致，也即，跨域生成图像与目标域的真实图像在目标域下无法分辨。综合域a和域b得到的对抗损失L_GAN的公式为：

其中，

是域a对抗损失，

是域b对抗损失，E是采样，c_a、c_b分别是域a和域b的内容编码，s_a、s_b分别是域a和域b的风格编码，p(c_a)、p(c_b)分别是域a和域b的内容编码的先验分布，q(c_a)、q(c_a)分别是域a和域b的风格编码的先验分布，D_a、D_b分别是域a和域b的判别器，Dec_a、Dec_b分别是域a和域b的解码器，x_a、x_b分别是域a和域b的人脸图像。

在具体实施中，关于内容一致性损失计算，由于解码得到的内容空间是域无关和不变的，所以内容编码在跨域生成应该保持一致，也即，内容一致性通常指输入图像和生成图像的语义内容保持一致，综合域a和域b得到的内容一致性损失

的公式为：

其中，

分别是域a和域b的内容一致性损失，

分别是域a和域b的内容编码器。

在具体实施中，关于风格一致性损失计算，风格编码是域相关的，但是风格应当在解码和编码之后仍保持一致性，不同的风格编码产生丰富多样的输出，相同的风格编码在编解码过程中保持一致，综合域a和域b得到的风格一致性损失

的公式为：

其中，

分别是域a和域b的风格一致性损失，

分别是域a和域b的风格编码器。

在具体实施中，关于图像重建损失计算，对于任意采样后输入的人脸图像，应该保证在经过编码和解码后得到的域内生成图像(重构图像)与输入的人脸图像基本一致，综合域a和域b得到的图像重建损失

的公式为：

其中，

分别为域a和域b的图像重建损失，

分别是域a和域b的重构图像(域内生成图像)，

同理。

在具体实施中，关于域无关感知损失计算，感知损失是比较两张图像内容感知上的距离，不是直接逐像素进行计算，更多的是考虑到像素之间的关系，域无关感知损失考虑移除域之间的感知距离的偏差，综合域a和域b得到的域无关感知损失

的公式为：

其中，

分别是域a和域b的域无关感知损失，V(·)是抽取感知特征网络，IN(·)表示实例规范化。

在具体实施中，关于循环一致性损失计算，循环一致性是指输入的图像经过正向映射和逆向映射之后得到的生成图像应与原始输入图像尽可能相似，即在循环训练中应该保持一致，循环一致性能够增加异质人脸图像生成的确定性，综合域a和域b得到的循环一致性损失

的公式为：

其中，

分别是域a和域b的循环一致性损失，x_ab＝G_ab(x_a)，x_aba＝G_ba(x_ab)，其他同理，x_ab是域a的图像经过生成后得到的域b的图像，x_ba是域b的图像经过生成后得到的域a的图像，x_aba是域a的图像经过域b又回到域a的图像，x_bab是域b的图像经过域a又回到域b的图像。

在具体实施中，关于恒等映射损失计算，当向生成器输入原域的图像时，希望生成的是目标域风格的图像，反之向同一个生成器输入目标域的图像时，希望生成的图像不发生变化，也即，生成器应该对目标域图像是恒等映射，恒等映射损失能够约束和稳定生成过程，综合域a和域b得到的恒等映射损失

的公式为：

其中，

分别是域a和域b的恒等映射损失。

在具体实施中，关于域无关身份特征匹配损失计算，在异质人脸图像生成中，域无关身份特征匹配能够显著增强身份信息保持能力，同时不会导致生成偏移到任一域的分布，综合域a和域b得到的域无关身份特征匹配损失

的公式为：

其中，

分别是域a和域b的域无关身份特征匹配损失，F(·)表示抽取身份特征网络，IN(·)表示实例规范化。

步骤S104，采用训练完成的异质人脸图像生成模型进行人脸图像生成。

本发明实施例中，还提供一种基于生成对抗网络的非成对异质人脸图像生成装置，包括：预处理单元、微调单元、训练单元和测试单元，其中：

所述预处理单元，用于对两个域的异质人脸图像进行归一化处理；

所述微调单元，用于预训练一个异质人脸识别模型；

所述训练单元，用于通过多次迭代对异质人脸图像生成模型进行训练，其中每次迭代包括：将域a和域b中采样的非成对的异质人脸图像分别输入域a的生成器和域b的生成器，使用域a的解码器和域b的解码器分别得到跨域生成图像，使用域a的判别器和域b的判别器分别评价跨域生成图像的真假，基于异质人脸图像生成模型的损失更新模型参数；

所述测试单元，用于采用训练完成的异质人脸图像生成模型进行人脸图像生成。

本发明实施例中，所述微调单元，用于利用大规模同质人脸图像数据集预训练身份特征抽取器；通过异质人脸图像数据集来微调异质人脸图像识别模型。。

本发明实施例中，所述训练单元，用于域a的生成器和域b的生成器的内容编码器，分别使用卷积对输入的人脸图像进行下采样，使用残差块进行处理，分别输出带有图像结构信息的内容特征图；域a的生成器和域b的生成器的风格编码器，分别使用卷积对输入的人脸图像进行下采样，使用全局平均池化后进行全连接，分别输出风格向量。

本发明实施例中，所述训练单元，用于域a的解码器和域b的解码器基于跨域的内容特征图和风格向量，分别解码得到跨域生成图像。

本发明实施例中，所述训练单元，用于域a的解码器和域b的解码器基于同域的内容特征图和风格向量，分别解码得到域内生成图像。

本发明实施例中，所述训练单元，用于将跨域生成图像分别作为域a的生成器和域b的生成器的输入，使用域a的解码器和域b的解码器分别得到双跨域生成图像。

本发明实施例中，所述训练单元，用于基于以下损失更新异质人脸图像生成模型的参数：对抗损失、内容一致性损失、风格一致性损失、图像重建损失、域无关感知损失、循环一致性损失、恒等映射损失以及域无关身份特征匹配损失。

本发明实施例中，所述训练单元，用于域a的判别器和域b的判别器基于对应输入的人脸图像，在多个尺度上分别评价跨域生成图像的真假，对每个尺度进行权重分配，加权计算后分别得到评价结果。

Claims

1.一种基于生成对抗网络的非成对异质人脸图像生成方法，其特征在于，包括：

对域a和域b的异质人脸图像进行归一化处理；

预训练异质人脸识别模型；

通过多次迭代对异质人脸图像生成模型进行训练，其中每次迭代包括：将域a和域b中采样的非成对的异质人脸图像分别输入域a的生成器和域b的生成器，使用域a的解码器和域b的解码器分别得到跨域生成图像，使用域a的判别器和域b的判别器分别评价跨域生成图像的真假，基于异质人脸图像生成模型的损失更新模型参数；

采用训练完成的异质人脸图像生成模型进行人脸图像生成。

2.根据权利要求1所述的基于生成对抗网络的非成对异质人脸图像生成方法，其特征在于，所述预训练异质人脸识别模型，包括：

利用同质人脸图像数据集预训练身份特征抽取器；

通过异质人脸图像数据集调整异质人脸图像识别模型。

3.根据权利要求1所述的基于生成对抗网络的非成对异质人脸图像生成方法，其特征在于，所述将域a和域b中采样的非成对的异质人脸图像分别输入域a的生成器和域b的生成器，包括：

域a的生成器和域b的生成器的内容编码器，分别使用卷积对输入的人脸图像进行下采样，使用残差块进行处理，分别输出带有图像结构信息的内容特征图；域a的生成器和域b的生成器的风格编码器，分别使用卷积对输入的人脸图像进行下采样，使用全局平均池化后进行全连接，分别输出风格向量。

4.根据权利要求3所述的基于生成对抗网络的非成对异质人脸图像生成方法，其特征在于，所述使用域a的解码器和域b的解码器分别得到跨域生成图像，还包括：

域a的解码器和域b的解码器基于跨域的内容特征图和风格向量，分别解码得到跨域生成图像。

5.根据权利要求3所述的基于生成对抗网络的非成对异质人脸图像生成方法，其特征在于，所述使用域a的解码器和域b的解码器分别得到域内生成图像，还包括：

域a的解码器和域b的解码器基于同域的内容特征图和风格向量，分别解码得到域内生成图像。

6.根据权利要求1所述的基于生成对抗网络的非成对异质人脸图像生成方法，其特征在于，在所述使用域a的解码器和域b的解码器分别得到跨域生成图像之后，还包括：

将跨域生成图像分别作为域a的生成器和域b的生成器的输入，使用域a的解码器和域b的解码器分别得到双跨域生成图像。

7.根据权利要求1所述的基于生成对抗网络的非成对异质人脸图像生成方法，其特征在于，所述基于异质人脸图像生成模型的损失更新模型参数，包括：

基于以下损失更新异质人脸图像生成模型的参数：对抗损失、内容一致性损失、风格一致性损失、图像重建损失、域无关感知损失、循环一致性损失、恒等映射损失以及域无关身份特征匹配损失。

8.根据权利要求1所述的基于生成对抗网络的非成对异质人脸图像生成方法，其特征在于，所述使用域a的判别器和域b的判别器分别评价跨域生成图像的真假，包括：

域a的判别器和域b的判别器基于对应输入的人脸图像，在多个尺度上分别评价跨域生成图像的真假，对每个尺度进行权重分配，加权计算后分别得到评价结果。

9.一种基于生成对抗网络的非成对异质人脸图像生成装置，其特征在于，包括：预处理单元、微调单元、训练单元和测试单元，其中：

所述微调单元，用于预训练一个异质人脸识别模型；