CN111428667A

CN111428667A - 一种基于解耦表达学习生成对抗网络的人脸图像转正方法

Info

Publication number: CN111428667A
Application number: CN202010242869.2A
Authority: CN
Inventors: 马鑫; 侯峦轩; 赫然; 孙哲南
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co ltd
Current assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-17

Abstract

本发明公开一种基于解耦表达学习生成对抗网络的人脸图像转正方法，其方法是通过训练包括U‑net网络结构的自编码器与三个判别器的模型，然后通过自编码器学习人脸图像的身份信息表征，结合姿态隐码可以显式的控制生成人脸图像的姿态，三个判别器分别预测人脸图像的真假、姿态和身份信息，从而生成具有丰富纹理细节的人脸图像。本发明能显著的提高生成的人脸图像的视觉质量。

Description

一种基于解耦表达学习生成对抗网络的人脸图像转正方法

技术领域

本发明涉及人脸图像转正技术领域，特别是涉及一种基于解耦表达学习生成对抗网络的人脸图像转正方法。

背景技术

人脸图像转正任务实际上是服务于人脸识别的。近年来，基于深度学习方法的人脸识别取得了极大的进展。但是，当把在正脸人脸图像数据集上训练的人脸识别模型检测侧脸人脸图像上时，其模型的性能会严重下降。这说明了，在人脸识别中，人脸的姿态变化仍然是一个挑战，值得进一步的研究。因此，为了提高人脸识别模型的准确率，人脸图像转正方法自然被引入其中。顾名思义，人脸图像转正任务，指的是从给定的一张侧脸人脸图像中推理出对应的正脸人脸图像。人脸图像转正是计算机视觉和图像处理中一个重要的任务，并且受到了AI公司和研究社区的广泛关注。在现实世界的很多场景下都能够看到广泛的应用，比如高铁安全检查的人俩识别。但是人脸转正问题仍然具有挑战性，因为这是个典型的病态问题，即给定一张侧脸人脸图像，可能存在多张对应的正脸人脸图像。

近年来，深度学习在机器视觉的众多领域都取得了令人瞩目的效果，尤其是生成对抗网络在图像生成方面引起了巨大反响。对抗生成网络启发自博弈论中二人零和博弈的思想，具有生成式网络和判别式网络两个网络，利用它们之间的相互竞争从而不断提升网络性能，最终达到平衡。基于生成对抗网络的思想，衍生出许多变种网络，并且这些网络在图像合成、图像超分、图像风格转换和人脸合成等方面都取得了显著的进步。对于人脸合成相关的研究，包括侧脸转正、人脸补全、去遮挡、多视角人脸生成和人脸表情合成等都得到了研究者们的广泛关注。基于对抗生成的人脸合成方法通常分为两个循环迭代的过程：首先使用生成式网络模型对输入进行非线性处理(一般为卷积操作)得到生成图像；然后利用判别式网络来对生成图像作真假判别并进行参数反向传播以改善网络性能。

发明内容

本发明的目的是为了提高人脸转正的可视化真实性，并保持原本的身份特征，而提供一种解耦表达学习生成对抗网络的人脸图像转正方法，可以生成具有丰富纹理细节的人脸图像。

为实现本发明的目的所采用的技术方案是：

一种基于解耦表达学习生成对抗网络的人脸图像转正方法，包括步骤：

S1.将人脸图像数据集中的图像预处理，得到训练数据集与测试数据集：

S2.使用训练数据集训练基于解耦表达学习生成对抗网络的模型，得到能对侧脸人脸图像转正为正脸人脸图像的人脸图像转正模型；

模型中包含一个U-net网络结构的自编码器和三个判别器；

自编码器中包含一个编码器和解码器，解码器和编码器各包含N个卷积层，每个卷阶层后均接有正则化层和激活层；

判别器均由N个卷积层和一个全连接层堆叠而成；判别器的作用分别为判断输入图像的真假、判断输入图像的姿态和判断输入图像的身份类别；

利用训练集中的人脸图像作为模型的输入，显式地加入姿态隐码，以此训练模型，使得生成的人脸图像的姿态和姿态隐码一致并且保持身份不变；

将输入的人脸图像和生成的人脸图像输入到三个判别器中，分别预测输入的真伪、姿态信息和身份信息；模型迭代多次达到稳定后完成模型的训练；

S3.使用训练好的人脸图像转正模型在测试集上测试其转正性能，输入人脸图像并给定正脸的姿态隐码，即可显式地控制解码器生成正脸的人脸图像。

其中，步骤S2包括：

S21.使用标准高斯分布随机初始化自编码器和三个判别器的权重参数，自编码器的重建损失函数为L₂，真伪判别器的对抗损失函数为

真伪判别器的损失函数为

姿态判别器对抗损失函数为

姿态判别器的损失函数为

身份判别器对抗损失函数为

身份判别器的损失函数为

S22.将人脸图像输入到自编码器中，自编码器中的编码器学习输出输入人脸图像的身份表征，身份表征和姿态隐码拼接起来输入到自编码器中的解码器中生成和姿态隐码一致的人脸图像；

S23.三个判别器的输入为自编码器生成的人脸图像和输入到自编码器的人脸图像；三个判别器判断输入图像真假、姿态信息和身份信息；计算判别器的损失函数

和

该三个损失函数只用于更新判别器参数，不更新自编码器网络参数；

S24.交替训练自编码器和判别器，直到所有损失函数不再降低，得到最终人脸图像转正模型。

其中，所述自编码器的目标函数如下：

其中，λ₁，λ₂，λ₃，λ₄为平衡因子，用于调整各个损失函数所占的权重；

所述判别器的目标函数如下：

其中，

其中x，y，c分别为输入的人脸图像、该人脸图像的标签信息和姿态隐码，标签信息包括姿态信息和身份信息，E(*)表示取平均操作，

表示L₂范数，F_ae为自编码器对应的映射函数。

其中，

其中，E(*)表示取平均操作，x，y，c分别为输入的人脸图像、该人脸图像的标签信息和姿态隐码，标签信息包括姿态信息和身份信息，D(*)表示真伪判别器的映射函数，D_pose表示姿态判别器的映射函数，D_id表示身份判别器的映射函数。

其中：

其中，E(*)表示取平均操作，x，y，c分别为输入的人脸图像、该人脸图像的标签信息和姿态隐码，标签信息包括姿态信息和身份信息，D(*)表示真伪判别器的映射函数，D_pose表示姿态判别器的映射函数，D_id表示身份判别器的映射函数，F_ae为自编码器对应的映射函数。

其中，训练数据集中的人脸图像为[x,y]，其中，x为输入的人脸图像，y 为人脸图像的标签信息，标签信息包括姿态信息和身份信息，且自编码器的输出为

F_ae为自编码器对应的映射函数，c为姿态隐码。

其中，步骤S1包括以下步骤：

以统一对齐裁剪的方式裁剪原始的人脸图像，只保留人脸区域；对裁剪好的人脸图像对进行数据增广，以增加训练数据集中的图像数量.

本发明基于解耦表达学习生成对抗网络的人脸图像转正方法，使用U-net 结构作为网络的构建基础，结合多种损失函数，使得模型收敛更快，效果更好，泛化能力更强；可生成具有丰富纹理细节的人脸图像。

本发明使用自编码器，提高了模型容量和加快训练速度，提高模型的泛化能力和加快训练速度；引入了判别器，使生成的高分辨率人脸图像更加接近真实的高分辨率人脸图像，显著的提高生成的高分辨率图像的视觉质量。

本发明是依靠对抗损失函数而不是L₂损失函数，使用对抗损失函数可以生成更加真实的人脸图像；而使用L₂损失函数会使得生成的图像缺乏高频信息且模糊。

附图说明

图1是本发明基于解耦表达学习生成对抗网络的人脸图像转正方法的流程图；

图2是本发明在测试数据集中的人脸图像上的测试结果；左边是时输入的侧脸人脸图像，中间是生成的正脸人脸图像，右边是目标正脸人脸图像(Ground Truth)。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明通过一种基于解耦表达学习生成对抗网络的人脸图像转正方法来学习一组高度复杂的非线性的变换，用于显示地把人脸图像的姿态转化角度，同时保持很好的纹理和身份特征。

如图1所示，基于解耦表达学习生成对抗网络的人脸图像转正方法，包括步骤：

步骤S1，先对Multi-PIE人脸数据集中的人脸图像进行预处理。

第一，以一种统一的对齐裁剪方式裁剪原始的高分辨率人脸图像，且只保留人脸区域，得到训练数据集和测试数据集；

第二，对裁剪后的人脸图像对进行数据增广，以增加训练数据集中的图像数量，包括随机水平翻转，随机颜色变换；

步骤S2，利用S1的训练数据集，训练基于解耦表达学习生成对抗网络的人脸图像转正模型，以用来完成人脸图像转正任务。

在模型的自编码器中，使用由14个卷积层堆叠而成的编码器学习输入的人脸图像身份信息的表征；将由编码器得到的身份信息表征与输入的姿态隐码拼接起来输入到解码器中生成和输入图像大小一致、身份信息一致和指定姿态的人脸图像，该解码器同样由14个卷积层堆叠而成。

模型的自编码器为U-net网络结构，人脸图像输入到U-net网络后，随着卷积层数的增加，特征图的大小逐渐减小，通道数逐渐增大，到达某个特定层后，其处理过程相反，即随着卷积层数的增加，特征图的大小逐渐增大，通道数逐渐减小。

其中，编码器中的14个卷积层的输入通道分别为3，32，64，64，64，128,128， 96，192，192，128，256，256，160；输出通道分别为32，64，64，64，128， 128，96，192，192，128，256，256，160，320；滤波器大小，步长和填充分别为3，1，1。每经过三个卷积层，特征图会进过一个池化层，输出的特征图的大小会减半。每个卷积层后面均接有正则化层(BatchNorm)和激活层(ReLu)。

与此相反，解码器中的14个卷积层的输入通道数为编码器中14个卷积层的输出通道数，输出通道数为编码器中14卷积层的输入通道数。解码器中，每经过三个卷积层，特征图会经过一个上采样层，特输出的特征图的大小会增加一倍。

其中，卷积层的个数可根据实际情况进行选择设置。卷积层中的通道数也可以根据实际情况进行选择设置。

判别器的网络结构和自编码器中的编码器一致，不同点在于三个判别器最后的全连接层的输出维度。真伪判别器中的全连接层的输出维度为1，姿态判别器中的全连接层的输出维度为2，身份判别器中的全连接层的输出维度为200。

同样，上述的判别器的网络结构可根据实际情况做出更改。全连接层的输出维度可根据训练数据集而定。

该步骤中，利用Multi-PIE数据集中的人脸图像作为模型的输入，标签信息作为监督信息，使用交叉熵损失函数交替训练模型，完成人脸图像转正任务。

具体地，通过模型中的自编码器对输入的人脸图像进行转脸操作，得到生成的人脸图像。生成的人脸图像与输入图像进行重建L₂损失函数的计算，在一定程度上保留输入图像的身份信息。

需要注意的是，L₂损失函数的权重要设置的很低。

其中x，y，c分别为输入的人脸图像、该人脸图像的标签信息(姿态信息和身份信息等)和姿态隐码，E(*)表示取平均操作，

表示L₂范数，F_ae为自编码器对应的映射函数。

将生成的人脸图像作为判别器的输入，计算对抗损失函数

和

其中，E(*)表示取平均操作，x，y，c分别为输入的人脸图像、该人脸图像的标签信息(姿态信息和身份信息等)和姿态隐码，D(*)表示真伪判别器的映射函数，D_pose表示姿态判别器的映射函数，D_id表示身份判别器的映射函数。

通过判别器对输入的生成人脸图像和输入给自编码器的人脸图像判断真假、姿态和身份信息，计算损失函数

该损失函数只用于更新判别器的网络参数。模型迭代多次达到稳定后完成模型的训练。

其中，E(*)表示取平均操作，x，y，c分别为输入的人脸图像、该人脸图像的标签信息(姿态信息和身份信息等)和姿态隐码，D(*)表示真伪判别器的映射函数，D_pose表示姿态判别器的映射函数，D_id表示身份判别器的映射函数。F_ae为自编码器对应的映射函数。

本发明中，利用所述卷积神经网络的高度非线性拟合能力，针对人脸图像转正任务，构造以人脸图像作为输入的神经网络模型。

特别的，模型中自编码器以U-net为基础，具有更好的模型容量，且不易出现梯度消失和爆炸的问题。

本发明中，主要使用对抗损失作为损失函数，相比于L₂损失函数，使用对抗损失函数可以生成更加逼真的人脸图像。这样，通过如图1所示的网络结构，利用对抗自编码器可以训练一个，在保持身份信息不变的同时生成更加真实人脸图像的人脸图像转正模型。

在测试阶段，使用Multi-PIE测试集中的人脸图像作为模型中自编码器的输入，结合显式的正脸姿态隐码，自编码器可以生成正脸人脸图像。模型中判别器不参与测试，得到生成的效果图，如图2所示。

具体的，基于解耦表达学习生成对抗网络的人脸转正模型包含四个网络，分别是自编码器、真伪判别器、姿态判别器和身份判别器。特别的，模型的自编码器目标函数如下：

其中，λ₁，λ₂，λ₃，λ₄为平衡因子，用于调整各个损失函数所占的权重。本发明中，λ₂，λ₃，λ₄均为1，λ₁为0.0001。

上述自编码器模型，主要完成人脸图像转正任务，所述模型的最终目标为L₂、

和

四个损失函数降低至最低且保持稳定。

所述基于解耦表达学习生成对抗网络的人脸转正模型的四个网络如下训练：

步骤S21：初始化模型中的自编码器，λ₂，λ₃，λ₄均为1，λ₁为0.0001，批处理大小设为32，学习率设为10^-4，并在整个训练过程中保持不变；

步骤S22：通过模型中的自编码器对输入的人脸图像进行转脸操作，得到生成的人脸图像。生成的人脸图像与输入图像进行重建L₂损失函数的计算，在一定程度上保留输入图像的身份信息，将生成的人脸图像输入到判别器中，并计算

和

对抗损失函数。

步骤S23：判别器的输入为自编码器生成的人脸图像和输入给自编码器的人脸图像。三个判别器分别判断输入人脸图像的真伪、姿态和身份信息，并计算

和

对抗损失函数。该对抗损失函数只用于更新判别器的参数。

步骤S24：模型中的自编码器和判别器同时交替训练，更新其网络权重。

步骤S3：使用训练好的人脸图像转正模型在测试集上测试其转正性能，输入人脸图像并给定正脸的姿态隐码既可显式地控制解码器生成正脸的人脸图像。

为了详细说明本发明的具体实施方式及验证本发明的有效性，将本发明提出的方法应用于一个公开的数据集中训练(Multi-PIE)，该人脸图像大概有75 万多张人脸图像。划分Multi-PIE人脸数据集为训练集和测试集，测试集用于测试模型的泛化性能。

先对Multi-PIE人脸数据集中的人脸图像进行预处理。以一种统一的对齐裁剪方式裁剪原始的人脸图像，且只保留人脸区域；对人脸图像对进行数据增广，以增加训练数据集中的图像数量，如随机颜色变换(不包含翻转以避免姿态的改变)。使用训练数据集训练模型，利用梯度反传技术优化模型参数，得到用来人脸图像转正的模型。

为了测试该模型的有效性，使用划分好的测试集评估训练好的模型，可视化的结果如图2所示。在实验中，与Ground Truth真实图像进行了对比，实验的结果如图2所示。该实施例有效证明了本发明所提出方法对人脸图像转正的有效性。

所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。