CN108776983A

CN108776983A - 基于重建网络的人脸重建方法和装置、设备、介质、产品

Info

Publication number: CN108776983A
Application number: CN201810551916.4A
Authority: CN
Inventors: 张韵璇; 吴文岩; 李�诚; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-09

Abstract

本发明实施例公开了一种基于重建网络的人脸重建方法和装置、设备、介质、产品，其中，方法包括：分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线；根据所述人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整所述待处理人脸轮廓线，得到至少一个目标人脸轮廓线；基于所述目标人脸轮廓线获得待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像。本发明上述实施例通过人脸轮廓线可更快分析得到人脸的姿势和/或表情，使转换更准确且稳定，提升了网络对输入大角度姿势和没见过的图片的鲁棒性，并减少了不成对的训练数据带来的转换信息的损失。

Description

基于重建网络的人脸重建方法和装置、设备、介质、产品

技术领域

本发明涉及计算机视觉技术，尤其是一种基于重建网络的人脸重建方法和装置、设备、介质、产品。

背景技术

换脸技术即将视频或者照片中的人脸(以下称为源)换成另一个目标人物(以下称为目标)，要求满足真实性与一致性，真实性指转换后的人脸效果真实，一致性指转换前后目标和源的人脸角度和表情一致。换脸技术被广泛的应用在趣味应用中。

发明内容

本发明实施例提供的一种基于重建网络的人脸重建技术。

根据本发明实施例的一个方面，提供的一种基于重建网络的人脸重建方法，包括：

分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线，所述人脸图像集包括至少一个人脸图像；

根据所述人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整所述待处理人脸轮廓线，得到至少一个目标人脸轮廓线；

基于所述目标人脸轮廓线获得所述待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像。

可选地，所述人脸轮廓线包括脸型轮廓线和五官轮廓线；

所述人脸的姿势基于所述脸型轮廓线的角度和形状确定，包括以下至少一种：人脸朝向、人脸宽度、人脸俯仰角度、人脸长度；所述人脸的表情基于所述五官轮廓线的角度和形状确定，包括以下至少一种：喜、怒、哀、乐、惊讶、害怕。

可选地，所述分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线，包括：

基于编码器将所述人脸图像集中的至少一个人脸图像映射到隐空间，得到至少一个人脸轮廓线构成的人脸轮廓线集；

基于所述编码器将所述待处理人脸图像映射到隐空间，得到待处理人脸轮廓线。

基于关键点提取网络，分别对所述人脸图像集中的至少一个人脸图像和所述待处理人脸图像进行关键点提取，分别得到所述人脸图像对应的至少一组人脸关键点和所述待处理人脸图像对应的一组待处理人脸关键点；

连接每组所述人脸关键点得到至少一个人脸轮廓线，连接所述待处理人脸关键点得到待处理人脸轮廓线。

可选地，所述根据所述人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整所述待处理人脸轮廓线，得到至少一个目标人脸轮廓线，包括：

基于转换器，分别识别所述至少一个人脸轮廓线和所述待处理人脸轮廓线对应人脸的姿势和/或表情；

将所述待处理人脸轮廓线对应人脸的姿势和/或表情分别转换为所述人脸轮廓线对应人脸的姿势和/或表情，得到至少一个目标人脸轮廓线。

可选地，所述基于所述目标人脸轮廓线获得所述待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像，包括：

基于解码器，将所述至少一个目标人脸轮廓线映射到人脸空间，得到至少一个所述待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像，每个所述目标人脸图像对应一个变更后的姿势和/或表情。

可选地，还包括：

基于样本人脸图像集训练重建网络，所述样本人脸图像集包括至少两组样本人脸图像组，每组所述样本人脸图像组包括对应一个人脸的至少一种姿态和/或表情的样本人脸图像，所述样本人脸图像集中各人脸对应的姿态和/或表情的种类相同；每个所述样本人脸图像对应一个样本人脸轮廓线。

可选地，所述重建网络包括编码器、转换器和解码器；

所述基于样本人脸图像集训练重建网络，包括：

基于所述样本人脸图像集训练所述编码器；

基于至少两个样本人脸轮廓线训练所述转换器；

基于所述至少两个样本人脸轮廓线训练所述解码器。

可选地，所述基于所述样本人脸图像集训练所述编码器，包括：

基于所述编码器将所述样本人脸图像集中的至少两个样本人脸图像映射到隐空间，得到至少两个预测人脸轮廓线；

基于所述预测人脸轮廓线和所述样本人脸轮廓线获得编码损失；

基于所述编码损失调整所述编码器的参数。

可选地，还包括：将所述至少两个样本人脸轮廓线分为一个第一样本人脸轮廓线和至少一个第二样本人脸轮廓线；

所述基于所述至少两个样本人脸轮廓线训练所述转换器，包括：

基于所述转换器识别所述第一样本人脸轮廓线和各所述第二样本人脸轮廓线对应人脸的姿势和/或表情；

将所述第一样本人脸轮廓线对应人脸的姿势和/或表情分别转换为所述第二样本人脸轮廓线对应人脸的姿势和/或表情，得到至少一个预测人脸轮廓线；

基于判别网络对所述预测人脸轮廓线进行判别，得到判别结果，所述判别网络用于判别所述预测人脸轮廓线是实际输入的人脸轮廓线或经过转换器转换得到的人脸轮廓线；

基于所述判别结果和所述预测人脸轮廓线获得综合损失；

基于所述综合损失交替训练所述转换器和所述判别网络。

可选地，所述基于所述判别结果和所述预测人脸轮廓线获得综合损失，包括：

基于所述判别结果获得判别损失；

基于所述预测人脸轮廓线与所述第一样本人脸轮廓线对应人脸的姿势和/或表情确定转换损失；

基于所述判别损失与所述转换损失确定所述综合损失。

可选地，所述基于判别结果和预测人脸轮廓线获得综合损失，还包括：

基于所述预测人脸轮廓线与所述第二样本人脸轮廓线对应人脸的姿势和/或表情确定形态一致损失；

基于所述判别损失、所述转换损失和所述形态一致损失确定所述综合损失。

可选地，所述基于所述至少两个样本人脸轮廓线训练所述解码器，包括：

基于所述解码器对所述至少两个样本人脸轮廓线进行映射，得到至少两个预测人脸图像；

基于所述预测人脸图像与所述样本人脸图像确定解码损失；

基于所述解码损失调整所述解码器的参数。

可选地，还包括：

将所述样本人脸图像组中的第一样本人脸图像输入所述训练后的编码器、转换器和解码器构成的重建网络，得到转换样本人脸图像；

基于所述转换样本人脸图像和所述样本人脸图像组中的第二样本人脸图像，调整所述重建网络的参数，所述第二样本人脸图像为所述样本人脸图像组中除了第一样本人脸图像之外的样本人脸图像。

可选地，所述重建网络包括编码器、转换器和解码器；

所述基于样本人脸图像集训练重建网络，包括：

基于所述样本人脸图像集训练所述编码器；

基于所述至少两个样本人脸轮廓线训练所述转换器；

基于所述样本人脸图像集结合所述训练后的编码器和所述训练后的转换器，训练所述解码器。

基于所述编码器将所述样本人脸图像集中的至少两个所述样本人脸图像映射到隐空间，得到至少两个预测人脸轮廓线；

基于所述编码损失调整所述编码器的参数。

基于所述判别结果和所述预测人脸轮廓线获得综合损失；

基于所述综合损失交替训练所述转换器和所述判别网络。

基于所述判别结果获得判别损失；

基于所述判别损失与所述转换损失确定所述综合损失。

可选地，所述基于所述样本人脸图像集结合所述训练后的编码器和所述训练后的转换器，训练所述解码器，包括：

将所述样本人脸图像组中的第一样本人脸图像输入训练后的编码器和所述训练后的转换器，得到至少一个预测转换人脸轮廓线；

基于所述解码器对所述预测转换人脸轮廓线进行解码，得到预测转换人脸图像；

基于所述预测转换人脸图像与所述样本人脸图像组中的至少一个第二样本人脸图像，训练所述解码器，所述第二样本人脸图像为所述样本人脸图像组中除了第一样本人脸图像之外的样本人脸图像。

根据本发明实施例的另一个方面，提供的一种基于重建网络的人脸重建装置，其特征在于，包括：

轮廓线提取单元，用于分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线，所述人脸图像集包括至少一个人脸图像；

轮廓线调整单元，用于根据所述人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整所述待处理人脸轮廓线，得到至少一个目标人脸轮廓线；

图像获得单元，用于基于所述目标人脸轮廓线获得所述待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像。

可选地，所述人脸轮廓线包括脸型轮廓线和五官轮廓线；

可选地，所述轮廓线提取单元，具体用于基于编码器将所述人脸图像集中的至少一个人脸图像映射到隐空间，得到至少一个人脸轮廓线构成的人脸轮廓线集；基于所述编码器将所述待处理人脸图像映射到隐空间，得到待处理人脸轮廓线。

可选地，所述轮廓线提取单元，具体用于基于关键点提取网络，分别对所述人脸图像集中的至少一个人脸图像和所述待处理人脸图像进行关键点提取，分别得到所述人脸图像对应的至少一组人脸关键点和所述待处理人脸图像对应的一组待处理人脸关键点；

可选地，所述轮廓线调整单元，具体用于基于转换器，分别识别所述至少一个人脸轮廓线和所述待处理人脸轮廓线对应人脸的姿势和/或表情；将所述待处理人脸轮廓线对应人脸的姿势和/或表情分别转换为所述人脸轮廓线对应人脸的姿势和/或表情，得到至少一个目标人脸轮廓线。

可选地，所述图像获得单元，具体用于基于解码器，将所述至少一个目标人脸轮廓线映射到人脸空间，得到至少一个所述待处理人脸图像对应的人脸变更姿势和/或表情变更后的目标人脸图像，每个所述目标人脸图像对应一个变更后的姿势和/或表情。

可选地，还包括：

训练单元，用于基于样本人脸图像集训练重建网络，所述样本人脸图像集包括至少两组样本人脸图像组，每组所述样本人脸图像组包括对应一个人脸的至少一种姿态和/或表情的样本人脸图像，所述样本人脸图像集中各人脸对应的姿态和/或表情的种类相同；每个所述样本人脸图像对应一个样本人脸轮廓线。

可选地，所述重建网络包括编码器、转换器和解码器；

所述训练单元，包括：

编码器训练模块，用于基于所述样本人脸图像集训练所述编码器；

转换器训练模块，用于基于至少两个样本人脸轮廓线训练所述转换器；

第一解码器训练模块，用于基于所述至少两个样本人脸轮廓线训练所述解码器。

可选地，所述编码器训练模块，具体用于基于所述编码器将所述样本人脸图像集中的至少两个样本人脸图像映射到隐空间，得到至少两个预测人脸轮廓线；基于所述预测人脸轮廓线和所述样本人脸轮廓线获得编码损失；基于所述编码损失调整所述编码器的参数。

可选地，所述训练单元，还包括：样本区分模块，用于将所述至少两个样本人脸轮廓线分为一个第一样本人脸轮廓线和至少一个第二样本人脸轮廓线；

所述转换器训练模块，包括：

识别模块，用于基于所述转换器识别所述第一样本人脸轮廓线和各所述第二样本人脸轮廓线对应人脸的姿势和/或表情；

转换模块，用于将所述第一样本人脸轮廓线对应人脸的姿势和/或表情分别转换为所述第二样本人脸轮廓线对应人脸的姿势和/或表情，得到至少一个预测人脸轮廓线；

判别模块，用于基于判别网络对所述预测人脸轮廓线进行判别，得到判别结果，所述判别网络用于判别所述预测人脸轮廓线是实际输入的人脸轮廓线或经过转换器转换得到的人脸轮廓线；

综合损失模块，用于基于所述判别结果和所述预测人脸轮廓线获得综合损失；

网络训练模块，用于基于所述综合损失交替训练所述转换器和所述判别网络。

可选地，所述综合损失模块，包括：

判别损失模块，用于基于所述判别结果获得判别损失；

转换损失模块，用于基于所述预测人脸轮廓线与所述第一样本人脸轮廓线对应人脸的姿势和/或表情确定转换损失；

综合计算模块，用于基于所述判别损失与所述转换损失确定所述综合损失。

可选地，所述综合损失模块，还包括：

一致损失模块，用于基于所述预测人脸轮廓线与所述第二样本人脸轮廓线对应人脸的姿势和/或表情确定形态一致损失；

损失综合计算模块，具体用于基于所述判别损失、所述转换损失和所述形态一致损失确定所述综合损失。

可选地，所述第一解码器训练模块，具体用于基于所述解码器对所述至少两个样本人脸轮廓线进行映射，得到至少两个预测人脸图像；基于所述预测人脸图像与所述样本人脸图像确定解码损失；基于所述解码损失调整所述解码器的参数。

可选地，所述训练单元，还包括：

重建网络模块，用于将所述样本人脸图像组中的第一样本人脸图像输入所述训练后的编码器、转换器和解码器构成的重建网络，得到转换样本人脸图像；

参数调整模块，用于基于所述转换样本人脸图像和所述样本人脸图像组中的第二样本人脸图像，调整所述重建网络的参数，所述第二样本人脸图像为所述样本人脸图像组中除了第一样本人脸图像之外的样本人脸图像。

可选地，所述重建网络包括编码器、转换器和解码器；

所述训练单元，包括：

转换器训练模块，用于基于所述至少两个样本人脸轮廓线训练所述转换器；

第二解码器训练模块，用于基于所述样本人脸图像集结合所述训练后的编码器和所述训练后的转换器，训练所述解码器。

所述转换器训练模块，包括：

可选地，所述综合损失模块，包括：

判别损失模块，用于基于所述判别结果获得判别损失；

可选地，所述综合损失模块，还包括：

可选地，所述第二解码器训练模块，具体用于将所述样本人脸图像组中的第一样本人脸图像输入训练后的编码器和所述训练后的转换器，得到至少一个预测转换人脸轮廓线；基于所述解码器对所述预测转换人脸轮廓线进行解码，得到预测转换人脸图像；基于所述预测转换人脸图像与所述样本人脸图像组中的至少一个第二样本人脸图像，训练所述解码器，所述第二样本人脸图像为所述样本人脸图像组中除了第一样本人脸图像之外的样本人脸图像。

根据本发明实施例的另一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上任意一项所述的基于重建网络的人脸重建装置。

根据本发明实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上任意一项所述基于重建网络的人脸重建方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上任意一项所述基于重建网络的人脸重建方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上任意一项所述基于重建网络的人脸重建方法的指令。

基于本发明上述实施例提供的一种基于重建网络的人脸重建方法，分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线，人脸图像集包括至少一个人脸图像；根据人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整待处理人脸轮廓线，得到至少一个目标人脸轮廓线；基于目标人脸轮廓线获得待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像，通过人脸轮廓线可更快分析得到人脸的姿势和/或表情，使转换更准确且稳定，提升了网络对输入大角度姿势(large pose)和没见过的图片(unseen data)的鲁棒性，并减少了不成对的训练数据带来的转换信息的损失。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明基于重建网络的人脸重建方法一个实施例的流程图。

图2为本发明基于重建网络的人脸重建方法一个示例中获得的人脸轮廓线示意图。

图3为本发明基于重建网络的人脸重建方法一个具体示例的应用示意图。

图4为本发明基于重建网络的人脸重建装置一个实施例的结构示意图。

图5为适于用来实现本发明实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

目前使用度较高的换脸方法主要分为两类1：基于模型，2：基于图片。

基于模型是当前使用最广泛的方法，但是，用单纯的基于学习的方法训练人脸转换模型并不简单，主要原因可以概括为：1.人脸图片包含不同的姿势，表情，光照条件。因此学习一个脸到脸的映射(map)对训练集的多样性要求较高，用有限的样本训练满足多样性的模型是十分困难的。比如要学习两个集合A，B之间的互相转换，但是A，B分别有对方没有的姿势，表情，光照等样例，会导致学习失败。2.对于任意的目标和源的集合，很难存在恰好的成对的数据，这也会给转换的训练带来麻烦。3.无法实现多人(source)转换到一个目标(target)。

图1为本发明基于重建网络的人脸重建方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤110，分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线。

其中，人脸图像集包括至少一个人脸图像；本实施例中，将人脸图像集中的人脸图像作为源(source)，将待处理人脸图像作为目标(target)，通过人脸轮廓线的获取，实现多对一的转换。

步骤120，根据人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整待处理人脸轮廓线，得到至少一个目标人脸轮廓线。

可选地，人脸轮廓线包括脸型轮廓线和五官轮廓线；其中确定用于确定脸型的轮廓线为脸型轮廓线，用于确定眼睛、鼻子和嘴的轮廓线为五官轮廓线；

人脸的姿势基于脸型轮廓线的角度和形状确定，包括但不限于以下至少一种：人脸朝向(yaw)、人脸宽度(roll)、人脸俯仰角度(pitch)、人脸长度；人脸的表情基于所述五官轮廓线的角度和形状确定，包括但不限于以下至少一种：喜、怒、哀、乐、惊讶、害怕。

图2为本发明基于重建网络的人脸重建方法一个示例中获得的人脸轮廓线示意图。如图2所示，其中包括9张人脸获得的9个人脸轮廓线，其中每个人脸轮廓线都包括脸型轮廓线和五官轮廓线。

步骤130，基于目标人脸轮廓线获得待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像。

在一个或多个可选的实施例中，步骤110可以包括：

基于编码器将人脸图像集中的至少一个人脸图像映射到隐空间，得到至少一个人脸轮廓线构成的人脸轮廓线集；

基于编码器将待处理人脸图像映射到隐空间，得到待处理人脸轮廓线。

本实施例中的编码器(encoder)将输入的人脸图片映射到轮廓线(boundary)隐空间上，在脸部轮廓线这个空间中，一个人的脸部表情和姿态可以被完全且准确的表示。之后我们在这个boundary空间上做转换，再经过解码器使boundary拥有纹理等信息，从而生成一张真实的人脸。可选地，隐空间的具体参数为15x64x64的矩阵，一共15个通道，每个通道代表面部的不同部分，分别为：脸外部轮廓，左眉毛上边缘，左眉毛下边缘，右眉毛上边缘，右眉毛下边缘，鼻梁，鼻翼，左眼上边缘，左眼下边缘，右眼上边缘，右眼下边缘，嘴唇外轮廓上边缘，嘴唇外轮廓下边缘，嘴唇内轮廓上边缘，嘴唇内轮廓下边缘。

在一个或多个可选的实施例中，步骤110可以包括：

基于关键点提取网络，分别对人脸图像集中的至少一个人脸图像和待处理人脸图像进行关键点提取，分别得到人脸图像对应的至少一组人脸关键点和待处理人脸图像对应的一组待处理人脸关键点；

连接每组人脸关键点得到至少一个人脸轮廓线，连接待处理人脸关键点得到待处理人脸轮廓线。

可选地，将人脸转换到boundary这一步可以看做是解码。Boundary空间拥有很多优点，人脸到boundary的转换可以利用较成熟的人脸转正(alignment)以及关键点检测(landmark)技术，关键点提取网络可以应用现有技术中的可实现人脸关键点提取的任一网络，可选地，对关键点提取获得的106点进行插值，将这些点连接起来构成人脸轮廓线。

在一个或多个可选的实施例中，步骤120可以包括：

基于转换器，分别识别至少一个人脸轮廓线和待处理人脸轮廓线对应人脸的姿势和/或表情；

将待处理人脸轮廓线对应人脸的姿势和/或表情分别转换为人脸轮廓线对应人脸的姿势和/或表情，得到至少一个目标人脸轮廓线。

通过人脸轮廓线的处理，可以对不同的姿势，表情，光照，都可得到稳定且准确的boundary。单纯的像素层面的转换就不具备这个优点。两个boundary集合A、B，转换的目的是保证表情，姿势的情况下实现人脸上的转换。

在一个或多个可选的实施例中，步骤130可以包括：

基于解码器，将至少一个目标人脸轮廓线映射到人脸空间，得到至少一个待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像，每个目标人脸图像对应一个变更后的姿势和/或表情。

因为解码器对脸型较为敏感，如果把A的脸型直接输入B的解码器，会生成失败的图片，现有的转换方法中，成对的数据训练得到的转换结果比不成对的数据效果好，因为不成对的训练数据会损失部分匹配信息，这些信息只靠网络学习得到会增大难度，同时成对的数据在真实情况下很难得到，也就是说我们很难得到不同人做相同表情的数据，所以在训练的时候我们不得不采用不成对的数据。

本实施例引入boundary作隐空间后，在转正和关键点检测的步骤中使用了大量的成对数据(人脸和boundary的成对数据很容易得到)，所以不成对数据之间的转换只发生在隐空间上，这个隐空间相较于人脸原空间更加简单，故而这一空间的引入简化了不成对数据转化带来的困难。

图3为本发明基于重建网络的人脸重建方法一个具体示例的应用示意图。如图3所示，X表示人脸图像集，ψ表示解码器，ψ_A和ψ_B表示分别对应T_A和T_B的解码器，φ表示解码器，B表示隐空间中的人脸轮廓线，T_A和T_B分别表示对于待处理人脸A和待处理人脸B转换并解码得到的目标人脸图像。

在一个或多个可选的实施例中，还包括：

基于样本人脸图像集训练重建网络。

其中，样本人脸图像集包括至少两组样人脸图像组，每组样本人脸图像组包括对应一个人脸的至少一种姿态和/或表情的样本人脸图像，样本人脸图像集中各人脸对应的姿态和/或表情的种类相同；每个样本人脸图像对应一个样本人脸轮廓线。

本实施例基于boundary隐空间，提出了一个特别的基于学习的人脸重定制网络结构。重建网络(ReenactGAN)的所有部分都是前馈网络，支持端到端训练。相较于传统的基于模型的方法，重建网络(ReenactGAN)更容易实现以及训练。

可选地，基于样本人脸图像集训练重建网络，包括：

基于样本人脸图像集训练编码器；

基于至少两个样本人脸轮廓线训练转换器；

基于至少两个样本人脸轮廓线训练解码器。

由于重建网络包括编码器、转换器和解码器；其中编码器、转换器和解码器都支持端到端的训练，因此，对重建网络的3个部分分开训练能有效提高训练效率，加快训练速度。

可选地，基于样本人脸图像集训练编码器，包括：

基于编码器将样本人脸图像集中的至少两个样本人脸图像映射到隐空间，得到至少两个预测人脸轮廓线；

基于预测人脸轮廓线和样本人脸轮廓线获得编码损失；

基于编码损失调整编码器的参数。

编码器(encoder)将输入的人脸图片映射到轮廓线(boundary)隐空间上，在脸部轮廓线这个空间中，一个人的脸部表情和姿态可以被完全且准确的表示。之后我们在这个boundary空间上做转换，再经过解码器使boundary拥有纹理等信息，从而生成一张真实的人脸。可选地，隐空间的具体参数为15x64x64的矩阵，一共15个通道，每个通道代表面部的不同部分，分别为：脸外部轮廓，左眉毛上边缘，左眉毛下边缘，右眉毛上边缘，右眉毛下边缘，鼻梁，鼻翼，左眼上边缘，左眼下边缘，右眼上边缘，右眼下边缘，嘴唇外轮廓上边缘，嘴唇外轮廓下边缘，嘴唇内轮廓上边缘，嘴唇内轮廓下边缘。编码器的训练与常规神经网络的训练相同。

可选地，将至少两个样本人脸轮廓线分为一个第一样本人脸轮廓线和至少一个第二样本人脸轮廓线；

基于至少一个样本人脸轮廓线训练转换器，包括：

基于转换器识别第一样本人脸轮廓线和各第二样本人脸轮廓线对应人脸的姿势和/或表情；

将第一样本人脸轮廓线对应人脸的姿势和/或表情分别转换为第二样本人脸轮廓线对应人脸的姿势和/或表情，得到至少一个预测人脸轮廓线；

基于判别网络对预测人脸轮廓线进行判别，得到判别结果，判别网络用于判别预测人脸轮廓线是实际输入的人脸轮廓线或经过转换器转换得到的人脸轮廓线；

基于判别结果和预测人脸轮廓线获得综合损失；

基于综合损失交替训练转换器和判别网络。

可选地，包括：

基于判别结果获得判别损失；

基于预测人脸轮廓线与第一样本人脸轮廓线对应人脸的姿势和/或表情确定转换损失；

基于判别损失与转换损失确定综合损失。

可选地，基于判别损失与转换损失之和确定综合损失；或对判别损失与转换损失加权求和，确定综合损失。

其中，第一样本人脸轮廓线和各第二样本人脸轮廓线对应不同的人脸，将多源的boundary转换成对应目标的boundary(保持姿势和表情一致，只做人脸的变化)。为了保证转换有好的效果，可以利用循环损失函数(cycle loss)和对抗损失函数(gan loss)，通过结合判别网络对转换器进行对抗性训练，实现在无监督情况下的训练。

可选地，基于判别结果和预测人脸轮廓线获得综合损失，还包括：

基于预测人脸轮廓线与第二样本人脸轮廓线对应人脸的姿势和/或表情确定形态一致损失；

基于判别损失、转换损失和形态一致损失确定综合损失。

可选地，基于判别损失、转换损失和形态一致损失之和确定综合损失；或对判别损失、转换损失和形态一致损失确定综合损失加权求和，确定综合损失。

转换损失保证了每个人脸在转换过程中的循环一致性，判别损失是基于判别网络获得的真实判别结果获得的，本实施例中的转换网络的目的是使输出的预测人脸轮廓线无法被判别网络正确判断其真实性，而判别网络的目的是将预测人脸轮廓线判断为非真实值，本实施例中形态一致损失(shape loss)是基于PCA获得的，PCA(principal ComponentAnalysis)，即主成分分析方法，是一种使用最广泛的数据压缩算法。在PCA中，数据从原来的坐标系转换到新的坐标系，由数据本身决定。转换坐标系时，以方差最大的方向作为坐标轴方向，因为数据的最大方差给出了数据的最重要的信息。第一个新坐标轴选择的是原始数据中方差最大的方法，第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程，重复次数为原始数据的特征维数。可选地，本实施例中将人脸的关键点经过PCA变换，其前几维代表人脸的pose信息，基于空间上的形状损失函数来限制转换的过程。

在一个或多个可选的实施例中，基于至少两个样本人脸轮廓线训练解码器，包括：

基于解码器对至少两个样本人脸轮廓线进行映射，得到至少两个预测人脸图像；

基于预测人脸图像与样本人脸图像确定解码损失；

基于解码损失调整解码器的参数。

可选地，将boundary空间的数据映射回人脸空间。Reenact GAN在实现上很容易，因为其中的编码器、转换器和解码器都是前馈网络(feed-forward network)，支持端到端的训练，这一特性也使得整个结构的运行时间非常快，达到80fps(frame per second,每秒帧数)，支持实时转换。训练过程中的使用的损失函数如公式(1)所示：

其中，指基于1范数(绝对值的和)的重构误差，L_feat指基于2范数(平方和)VGG_16网络的relu2-2和relu2-3得到的特征误差，其中ψ表示解码器，φ表示解码器，θ表示网络中的参数的统称。

在一个或多个可选的实施例中，还包括：

将样本人脸图像组中的第一样本人脸图像输入训练后的编码器、转换器和解码器构成的重建网络，得到转换样本人脸图像；

基于转换样本人脸图像和样本人脸图像组中的第二样本人脸图像，调整重建网络的参数，第二样本人脸图像为样本人脸图像组中除了第一样本人脸图像之外的样本人脸图像。

为了实现更好的重建效果，在分别对编码器、转换器和解码器训练后，通过样本人脸图像对训练后的重建网络进行微调，使重建网络更适合人脸的重建。

在一个或多个可选的实施例中，重建网络包括编码器、转换器和解码器；

基于样本人脸图像集训练重建网络，包括：

基于样本人脸图像集训练编码器；

基于至少一个样本人脸轮廓线训练转换器；

基于样本人脸图像集结合训练后的编码器和训练后的转换器，训练解码器。

对于重建网络的训练，除了分别进行训练，还可以在训练完编码器和转换器之后，基于训练后的编码器和转换器输出的转换人脸轮廓线对解码器进行训练，这样由于训练玩解码器即可得到训练完的重建网络，不需要进行微调，可以进一步提高训练速度。

可选地，基于样本人脸图像集结合训练后的编码器和训练后的转换器，训练解码器，包括：

将样本人脸图像组中的第一样本人脸图像输入训练后的编码器和训练后的转换器，得到至少一个预测转换人脸轮廓线；

基于解码器对预测转换人脸轮廓线进行解码，得到预测转换人脸图像；

基于预测转换人脸图像与样本人脸图像组中的至少一个第二样本人脸图像，训练解码器。

其中，第二样本人脸图像为样本人脸图像组中除了第一样本人脸图像之外的样本人脸图像，其中由于样本人脸图像组对应的是同一人脸，例如：一个样本人脸图像组中可以包括4个样本人脸图像分别表示为：A₁，A₂，A₃，A₄，另一个样本人脸图像组中可以包括4个样本人脸图像分别表示为：B₁，B₂，B₃，B₄；经过训练后的编码器和转换器将获得转换后，将A₁的姿势根据B₂，B₃，B₄进行转换，将得到A₂′，A₃′，A₄′，此时A₂′，A₃′，A₄′作为预测转换人脸图像，A₂，A₃，A₄作为样本人脸图像组中的第二样本人脸图像，基于A₂′，A₃′，A₄′和A₂，A₃，A₄，即可获得解码器对应的损失，通过该损失对解码器进行训练。

在本实施例中，对于编码器和转换器的训练与上一实施例相同，如下：

可选地，基于样本人脸图像集训练编码器，包括：

基于预测人脸轮廓线和样本人脸轮廓线获得编码损失；

基于编码损失调整编码器的参数。

将至少两个样本人脸轮廓线分为一个第一样本人脸轮廓线和至少一个第二样本人脸轮廓线；

基于至少一个样本人脸轮廓线训练转换器，包括：

基于判别结果和预测人脸轮廓线获得综合损失；

基于综合损失交替训练转换器和判别网络。

基于判别结果和预测人脸轮廓线获得综合损失，包括：

基于判别结果获得判别损失；

基于判别损失与转换损失之和确定综合损失。

基于判别结果和预测人脸轮廓线获得综合损失，还包括：

基于判别损失、转换损失和形态一致损失确定综合损失。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本发明基于重建网络的人脸重建装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图4所示，该实施例的装置包括：

轮廓线提取单元41，用于分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线。

轮廓线调整单元42，用于根据人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整待处理人脸轮廓线，得到至少一个目标人脸轮廓。

图像获得单元43，用于基于目标人脸轮廓线获得待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像。

基于本发明上述实施例提供的一种基于重建网络的人脸重建装置，分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线，人脸图像集包括至少一个人脸图像；根据人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整待处理人脸轮廓线，得到至少一个目标人脸轮廓线；基于目标人脸轮廓线获得待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像，通过人脸轮廓线可更快分析得到人脸的姿势和/或表情，使转换更准确且稳定，提升了网络对输入大角度姿势(large pose)和没见过的图片(unseen data)的鲁棒性，并减少了不成对的训练数据带来的转换信息的损失。

人脸轮廓线包括脸型轮廓线和五官轮廓线；

姿势基于脸型轮廓线的角度和形状确定，包括以下至少一种：人脸朝向、人脸宽度、人脸俯仰角度、人脸长度；人脸表情基于五官轮廓线的角度和形状确定，包括以下至少一种：喜、怒、哀、乐、惊讶、害怕。

在一个或多个可选的实施例中，轮廓线提取单元41，具体用于基于编码器将人脸图像集中的至少一个人脸图像映射到隐空间，得到至少一个人脸轮廓线构成的人脸轮廓线集；基于编码器将待处理人脸图像映射到隐空间，得到待处理人脸轮廓线。

在一个或多个可选的实施例中，轮廓线提取单元41，具体用于基于关键点提取网络，分别对人脸图像集中的至少一个人脸图像和待处理人脸图像进行关键点提取，分别得到人脸图像对应的至少一组人脸关键点和待处理人脸图像对应的一组待处理人脸关键点；

在一个或多个可选的实施例中，轮廓线调整单元42，具体用于基于转换器，分别识别至少一个人脸轮廓线和待处理人脸轮廓线对应人脸的姿势和/或表情；将待处理人脸轮廓线对应人脸的姿势和/或表情分别转换为人脸轮廓线对应人脸的姿势和/或表情，得到至少一个目标人脸轮廓线。

在一个或多个可选的实施例中，图像获得单元43，具体用于基于解码器，将至少一个目标人脸轮廓线映射到人脸空间，得到至少一个待处理人脸图像对应的人脸变更姿势和/或表情变更后的目标人脸图像，每个目标人脸图像对应一个变更后的姿势和/或表情。

在一个或多个可选的实施例中，还包括：

训练单元，用于基于样本人脸图像集训练重建网络。

样本人脸图像集包括至少两组样本人脸图像组，每组样本人脸图像组包括对应一个人脸的至少一种姿态和/或表情的样本人脸图像，样本人脸图像集中各人脸对应的姿态和/或表情的种类相同；每个样本人脸图像对应一个样本人脸轮廓线。

可选地，重建网络包括编码器、转换器和解码器；

训练单元，包括：

编码器训练模块，用于基于样本人脸图像集训练编码器；

转换器训练模块，用于基于至少两个样本人脸轮廓线训练转换器；

第一解码器训练模块，用于基于至少两个样本人脸轮廓线训练解码器。

可选地，编码器训练模块，具体用于基于编码器将样本人脸图像集中的至少两个样本人脸图像映射到隐空间，得到至少两个预测人脸轮廓线；基于预测人脸轮廓线和样本人脸轮廓线获得编码损失；基于编码损失调整编码器的参数。

可选地，训练单元，还包括：样本区分模块，用于将至少两个样本人脸轮廓线分为一个第一样本人脸轮廓线和至少一个第二样本人脸轮廓线；

转换器训练模块，包括：

识别模块，用于基于转换器识别第一样本人脸轮廓线和各第二样本人脸轮廓线对应人脸的姿势和/或表情；

转换模块，用于将第一样本人脸轮廓线对应人脸的姿势和/或表情分别转换为第二样本人脸轮廓线对应人脸的姿势和/或表情，得到至少一个预测人脸轮廓线；

判别模块，用于基于判别网络对预测人脸轮廓线进行判别，得到判别结果，判别网络用于判别预测人脸轮廓线是实际输入的人脸轮廓线或经过转换器转换得到的人脸轮廓线；

综合损失模块，用于基于判别结果和预测人脸轮廓线获得综合损失；

网络训练模块，用于基于综合损失交替训练转换器和判别网络。

可选地，综合损失模块，包括：

判别损失模块，用于基于判别结果获得判别损失；

转换损失模块，用于基于预测人脸轮廓线与第一样本人脸轮廓线对应人脸的姿势和/或表情确定转换损失；

综合计算模块，用于基于判别损失与转换损失确定综合损失。

可选地，综合损失模块，还包括：

一致损失模块，用于基于预测人脸轮廓线与第二样本人脸轮廓线对应人脸的姿势和/或表情确定形态一致损失；

损失综合计算模块，具体用于基于判别损失、转换损失和形态一致损失确定综合损失。

可选地，第一解码器训练模块，具体用于基于解码器对至少两个样本人脸轮廓线进行映射，得到至少两个预测人脸图像；基于预测人脸图像与样本人脸图像确定解码损失；基于解码损失调整解码器的参数。

可选地，训练单元，还包括：

重建网络模块，用于将样本人脸图像组中的第一样本人脸图像输入训练后的编码器、转换器和解码器构成的重建网络，得到转换样本人脸图像；

参数调整模块，用于基于转换样本人脸图像和样本人脸图像组中的第二样本人脸图像，调整重建网络的参数，第二样本人脸图像为样本人脸图像组中除了第一样本人脸图像之外的样本人脸图像。

训练单元，包括：

编码器训练模块，用于基于样本人脸图像集训练编码器；

第二解码器训练模块，用于基于样本人脸图像集结合训练后的编码器和训练后的转换器，训练解码器。

转换器训练模块，包括：

可选地，综合损失模块，包括：

判别损失模块，用于基于判别结果获得判别损失；

可选地，综合损失模块，还包括：

可选地，第二解码器训练模块，具体用于将样本人脸图像组中的第一样本人脸图像输入训练后的编码器和训练后的转换器，得到至少一个预测转换人脸轮廓线；基于解码器对预测转换人脸轮廓线进行解码，得到预测转换人脸图像；基于预测转换人脸图像与样本人脸图像组中的至少一个第二样本人脸图像，训练解码器，第二样本人脸图像为样本人脸图像组中除了第一样本人脸图像之外的样本人脸图像。

根据本公开实施例的另一个方面，提供的一种电子设备，包括处理器，处理器包括本公开上述任一实施例所述的基于重建网络的人脸重建装置。

根据本公开实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与存储器通信以执行可执行指令从而完成本公开上述任一实施例中所述的基于重建网络的人脸重建方法。

根据本公开实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，指令被处理器执行时，该处理器执行本公开上述任一实施例中所述的基于重建网络的人脸重建方法。

根据本公开实施例的另一个方面，提供的一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行本公开上述任一实施例中所述的基于重建网络的人脸重建方法。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。

还应理解，在本公开中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

本公开实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图3，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备500的结构示意图：如图5所示，电子设备500包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信部512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器502和/或随机访问存储器503中通信以执行可执行指令，通过总线504与通信部512相连、并经通信部512与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线，人脸图像集包括至少一个人脸图像；根据人脸轮廓线集中至少一个人脸轮廓线人脸轮廓线集的姿势和/或表情，调整待处理人脸轮廓线，得到至少一个目标人脸轮廓线；基于目标人脸轮廓线获得待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像。

此外，在RAM 503中，还可存储有装置操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使中央处理单元501执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至总线504。通信部512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU513和CPU501可分离设置或者可将GPU513集成在CPU501上，通信部可分离设置，也可集成设置在CPU501或GPU513上，等等。这些可替换的实施方式均落入本公开公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线，人脸图像集包括至少一个人脸图像；根据人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整待处理人脸轮廓线，得到至少一个目标人脸轮廓线；基于目标人脸轮廓线获得待处理人脸图像对应的人脸变更姿势和/或表情后的目标人脸图像。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能的操作。

可能以许多方式来实现本公开的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于重建网络的人脸重建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述人脸轮廓线包括脸型轮廓线和五官轮廓线；

3.根据权利要求1或2所述的方法，其特征在于，所述分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述分别对人脸图像集和待处理人脸图像进行轮廓线提取，获得人脸轮廓线集和待处理人脸轮廓线，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述根据所述人脸轮廓线集中至少一个人脸轮廓线对应人脸的姿势和/或表情，调整所述待处理人脸轮廓线，得到至少一个目标人脸轮廓线，包括：

6.一种基于重建网络的人脸重建装置，其特征在于，包括：

7.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求6所述的基于重建网络的人脸重建装置。

8.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至5任意一项所述基于重建网络的人脸重建方法的操作。

9.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至5任意一项所述基于重建网络的人脸重建方法的操作。

10.一种计算机程序产品，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1至5任意一项所述基于重建网络的人脸重建方法的指令。