CN110084193B

CN110084193B - 用于面部图像生成的数据处理方法、设备和介质

Info

Publication number: CN110084193B
Application number: CN201910345276.6A
Authority: CN
Inventors: 张勇; 李乐; 刘志磊; 吴保元; 樊艳波; 李志锋; 刘威
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2023-04-18
Anticipated expiration: 2039-04-26
Also published as: JP7246811B2; EP3961486A1; US11854247B2; WO2020216033A1; KR102602112B1; US20210279515A1; JP2022513858A; EP3961486A4; CN110084193A; KR20210095696A

Abstract

公开了用于面部图像生成的数据处理方法、设备和介质。所述数据处理方法包括：获取第一面部图像及第二面部图像；获取第一面部图像(I_MA)中与面部特征对应的M个第一图像块，并获取第二面部图像(I_FA)中与面部特征对应的N个第二图像块；将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块；根据特定的控制向量选择一部分第一特征块和一部分第二特征块；至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图；以及将所述第一合成特征图反变换回图像空间以生成第三面部图像，其中M和N为自然数。

Description

用于面部图像生成的数据处理方法、设备和介质

技术领域

本发明涉及图像处理领域，更具体地说，涉及用于面部图像生成的数据处理方法、设备和介质。

背景技术

面部图像生成技术是一个新兴的研究领域，这在子代人脸预测、刑事侦查中的罪犯图像恢复、构建虚拟人物等方面都有广阔的应用前景。例如，通过输入一张面部图像，可以生成与该张面部图像相像但不同的另一张全新的面部图像，作为目标图像。

现有的面部图像生成方案采用通用的处理网络来生成目标图像。例如，将一张面部图像输入至完成训练的编码网络和解码网络，然后输出目标图像。然而，这样的问题在于，该通用的处理网络输出的合成后的面部图像的和谐度和自然度很差，难以让用户相信这是真实的面部图像。

发明内容

鉴于以上情形，期望提供新的用于面部图像生成的数据处理方法、设备和介质，能够生成更接近真实面部图像的合成面部图像。

根据本发明的一个方面，提供了一种用于面部图像生成的数据处理方法，包括：获取第一面部图像及第二面部图像；获取第一面部图像(I_MA)中与面部特征对应的M个第一图像块，并获取第二面部图像(I_FA)中与面部特征对应的N个第二图像块；将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块；根据特定的控制向量选择一部分第一特征块和一部分第二特征块；至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图；以及将所述第一合成特征图反变换回图像空间以生成第三面部图像，其中M和N为自然数。

另外，在根据本发明实施例的方法中，所述特定的控制向量包括与各面部特征对应的L个信息位，其中L为自然数，且M≤L且N≤L，并且根据特定的控制向量选择一部分第一特征块和一部分第二特征块的步骤进一步包括：当所述特定的控制向量中的一个信息位为第一值时，从M个第一特征块中选择与该位对应的面部特征的特征块，而当所述特定的控制向量中的该信息位为第二值时，从N个第二特征块中选择与该位对应的面部特征的特征块。

另外，在根据本发明实施例的方法中，至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图的步骤进一步包括：将指定属性信息扩展为处于所述特征空间中的属性特征块；以及基于所选择的一部分第一特征块、一部分第二特征块以及属性特征块，生成第一合成特征图。

另外，在根据本发明实施例的方法中，通过将M个第一图像块和N个第二图像块输入到继承网络来生成所述第三面部图像，并且所述继承网络通过以下训练步骤得到：获取第五面部图像(I_M)中与各面部特征对应的L个第五图像块，并获取第六面部图像(I_F)中与各面部特征对应的L个第六图像块，其中L为自然数，且M≤L且N≤L；根据第一控制向量选择一部分第五图像块和一部分第六图像块以生成第一合成图像

并根据第二控制向量选择另一部分第五图像块和另一部分第六图像块以生成第二合成图像

获取第一合成图像

中与各面部特征对应的L个第七图像块，并获取第二合成图像

中与各面部特征对应的L个第八图像块；将L个第七图像块和L个第八图像块输入到继承网络；通过所述继承网络，输出基于第一控制向量选择的一部分第七图像块和一部分第八图像块而生成的第七面部图像(I'_M)，并输出基于第二控制向量选择的另一部分第七图像块和另一部分第八图像块而生成的第八面部图像(I'_F)，其中第五面部图像是用于对第七面部图像提供监督信息的监督图像，第六面部图像是用于对第八面部图像提供监督信息的监督图像，并且将第五至第八面部图像作为一组继承训练数据；将至少一组继承训练数据输入至第一判别网络，其中所述第一判别网络被设置为当向所述第一判别网络输入一图像时，输出该图像为真实图像的概率值；以及基于第一损失函数，交替地训练所述继承网络和所述第一判别网络，直至所述第一损失函数收敛为止。

另外，在根据本发明实施例的方法中，所述第一损失函数基于所述第一判别网络对于至少一组继承训练数据输出的概率值以及至少一组继承训练数据中面部图像与对应的监督图像之间的像素差异而确定。

另外，在根据本发明实施例的方法中，所述第一损失函数进一步基于以下至少之一而确定：至少一组继承训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组继承训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

另外，根据本发明实施例的方法进一步包括：将所述第三面部图像变换至特征空间以生成第三特征图；将特定的属性信息扩展为与所述特征空间中的属性特征图；基于所述属性特征图与所述第三特征图，生成第二合成特征图；以及将第二合成特征图反变换回图像空间，以生成第四面部图像。

另外，在根据本发明实施例的方法中，通过将第三面部图像输入到属性增强网络来生成所述第四面部图像，并且所述属性增强网络通过以下训练步骤得到：将第七面部图像(I'_M)和第八面部图像(I'_F)输入至属性增强网络；通过属性增强网络，输出与第七面部图像对应的第九面部图像

以及与第八面部图像对应的第十面部图像

其中第七面部图像是用于对第九面部图像提供监督信息的监督图像，第八面部图像是用于对第十面部图像提供监督信息的监督图像，并且将第七至第十面部图像作为一组属性训练数据；将至少一组属性训练数据输入至第二判别网络，其中所述第二判别网络被设置为当向所述第二判别网络输入一图像时，输出该图像为真实图像的概率值；基于第二损失函数，交替地训练所述属性增强网络和所述第二判别网络，直至所述第二损失函数收敛为止。

另外，在根据本发明实施例的方法中，所述第二损失函数基于所述第二判别网络对于至少一组属性训练数据输出的概率值以及至少一组属性训练数据中面部图像与对应的监督图像之间的像素差异而确定。

另外，在根据本发明实施例的方法中，所述第二损失函数进一步基于以下至少之一而确定：至少一组属性训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组属性训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

另外，在根据本发明实施例的方法中，所述继承网络和所述属性增强网络通过以下联合训练步骤进一步优化：基于所述第一损失函数和所述第二损失函数，确定总损失函数；基于所述总损失函数，交替地训练所述继承网络和所述属性增强网络与第一判别网络和第二判别网络，直至所述总损失函数收敛为止。

根据本发明的另一方面，提供了一种用于面部图像生成的数据处理设备，包括：分割装置，用于获取输入的第一面部图像中与面部特征对应的M个第一图像块，并获取输入的第二面部图像中与面部特征对应的N个第二图像块；第一变换装置，用于将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块；选择装置，用于根据特定的控制向量选择一部分第一特征块和一部分第二特征块；第一合成装置，用于至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图；以及第一反变换装置，用于将所述第一合成特征图反变换回图像空间以生成第三面部图像。

另外，在根据本发明实施例的方法中，所述特定的控制向量包括与各面部特征对应的L个信息位，其中L为自然数，且M≤L且N≤L，并且所述选择装置进一步被配置为：当所述特定的控制向量中的一个信息位为第一值时，从M个第一特征块中选择与该位对应的面部特征的特征块，而当所述特定的控制向量中的该信息位为第二值时，从N个第二特征块中选择与该位对应的面部特征的特征块。

另外，在根据本发明实施例的方法中，所述第一合成装置进一步被配置为：将指定属性信息扩展为处于所述特征空间中的属性特征块；以及基于所选择的一部分第一特征块、一部分第二特征块以及属性特征块，生成第一合成特征图。

另外，在根据本发明实施例的方法中，所述第一变换装置被配置为通过第一变换网络来将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块，且所述第一反变换装置被配置为通过第一反变换网络将所述第一合成特征图反变换回图像空间以生成第三面部图像，并且所述第一变换网络和所述第一反变换网络构成一继承网络；其中所述设备进一步包括：训练装置，用于在训练模式下，对所述继承网络进行训练，包括：预交换模块，用于获取第五面部图像(I_M)中与各面部特征对应的L个第五图像块，获取第六面部图像(I_F)中与各面部特征对应的L个第六图像块，其中L为自然数，且M≤L且N≤L，根据第一控制向量选择一部分第五图像块和一部分第六图像块以生成第一合成图像

其中在训练模式下，所述分割装置进一步被配置为获取第一合成图像

中与各面部特征对应的L个第七图像块，并获取第二合成图像

中与各面部特征对应的L个第八图像块，并将L个第七图像块和L个第八图像块输入到继承网络；第一判别模块，用于接收至少一组继承训练数据，并通过第一判别网络，输出用于判别输入的继承训练数据为真实图像的概率值，其中所述至少一组继承训练数据包括第五至第八面部图像，所述第七面部图像(I'_M)通过所述继承网络基于第一控制向量选择一部分第七图像块和一部分第八图像块而生成，所述第八面部图像(I'_F)通过所述继承网络基于第二控制向量选择另一部分第七图像块和另一部分第八图像块而生成，其中第五面部图像是用于对第七面部图像提供监督信息的监督图像，第六面部图像是用于对第八面部图像提供监督信息的监督图像；第一训练模块，用于基于第一损失函数，交替地训练所述继承网络和所述第一判别网络，直至所述第一损失函数收敛为止。

另外，在根据本发明实施例的设备中，所述第一损失函数基于所述第一判别网络对于至少一组继承训练数据输出的概率值以及至少一组继承训练数据中面部图像与对应的监督图像之间的像素差异而确定。

另外，在根据本发明实施例的设备中，所述第一损失函数进一步基于以下至少之一而确定：至少一组继承训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组继承训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

另外，根据本发明实施例的设备进一步包括：第二变换装置，用于将所述第三面部图像变换至特征空间以生成第三特征图；扩展装置，用于将特定的属性信息扩展为与所述特征空间中的属性特征图；第二合成模块，用于基于所述属性特征图与所述第三特征图，生成第二合成特征图；以及第二反变换装置，用于将第二合成特征图反变换回图像空间，以生成第四面部图像。

另外，在根据本发明实施例的设备中，所述第二变换装置被配置为通过第二变换网络来将所述第三面部图像变换至特征空间以生成第三特征图，且所述第二反变换装置被配置为通过第二反变换网络来将第二合成特征图反变换回图像空间，以生成第四面部图像，并且所述第二变换网络和所述第二反变换网络构成一属性增强网络，其中，所述训练装置进一步包括：第二判别模块，用于接收至少一组属性训练数据，并通过第二判别网络，输出用于判别输入的属性训练数据为真实图像的概率值，其中所述至少一组属性训练数据包括第七至第十面部图像，所述第九面部图像

通过所述属性增强网络基于第七面部图像输出，所述第十面部图像

通过所述属性增强网络基于第八面部图像输出，其中第七面部图像是用于对第九面部图像提供监督信息的监督图像，第八面部图像是用于对第十面部图像提供监督信息的监督图像；第二训练模块，用于基于第二损失函数，交替地训练所述属性增强网络和所述第二判别网络，直至所述第二损失函数收敛为止。

另外，在根据本发明实施例的设备中，所述第二损失函数基于所述第二判别网络对于至少一组属性训练数据输出的概率值以及至少一组属性训练数据中面部图像与对应的监督图像之间的像素差异而确定。

另外，在根据本发明实施例的设备中，所述第二损失函数进一步基于以下至少之一而确定：至少一组属性训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组属性训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

另外，在根据本发明实施例的设备中，所述训练装置进一步包括：联合训练模块，用于基于所述第一损失函数和第二损失函数，确定总损失函数，并基于所述总损失函数，交替地训练所述继承网络和所述属性增强网络与第一判别网络和第二判别网络，直至所述总损失函数收敛为止。

在根据本发明实施例的用于面部图像生成数据处理方法、设备和介质中，通过面部特征图像的分割，以及特征空间内的重组，能够生成继承了一部分第一面部图像中的面部特征和一部分第二面部图像中的面部特征的第三面部图像。与现有技术中使用通用处理网络的方案相比，能够在保证输出的第三面部图像与作为输入源的面部图像的相似性的同时，使得输出的第三面部图像接近于真实图像。换言之，当由用户观看该第三面部图像时，难以分辨该图像是真实图像还是合成图像。

根据本发明的再一方面，提供了一种计算机可读记录介质，其上存储有计算机程序，用于当由处理器执行所述计算机程序时，执行以下处理：获取输入的第一面部图像中与面部特征对应的M个第一图像块，并获取输入的第二面部图像中与面部特征对应的N个第二图像块；将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块；根据特定的控制向量选择一部分第一特征块和一部分第二特征块；至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图；以及将所述第一合成特征图反变换回图像空间以生成第三面部图像。

并且，在继承网络中，通过设置控制向量，能够精确地控制第三面部图像继承两个输入面部图像中的哪些面部特征。通过特征空间内属性特征的叠加，能够指定第三面部图像的属性并进一步提升第三面部图像的和谐度和自然度。此外，通过额外的属性增强网络，可以在更大范围中改变生成的面部图像的属性。并且，通过训练过程中的两次面部特征交换，可以不需要建立存在父、母和孩子关系的人脸数据库，而是直接利用任意的已经存在的人脸数据库就能够完成继承网络的训练过程，大幅地降低了成本和实现难度。

附图说明

图1是图示根据本发明实施例的用于面部图像生成的数据处理方法的过程的流程图；

图2示出了根据本发明实施例的关于继承网络的数据流图；

图3示出了根据本发明实施例的不同控制向量下的面部图像生成结果；

图4示出了根据本发明实施例的当输入的面部图像中增加随机因素时的面部图像生成结果；

图5示出了根据本发明实施例的关于属性增强网络的数据流图；

图6示出了在指定的控制向量下生成的不同年龄阶段的面部图像；

图7示出了在指定的控制向量下生成的不同年龄和不同性别的面部图像；

图8是图示根据本发明实施例的继承网络的训练过程的流程图；

图9是图示继承网络的训练过程中两次面部特征交换的过程的示意图；

图10示出了根据本发明实施例的继承网络的训练过程中的数据流图；

图11是图示根据本发明实施例的属性增强网络的训练过程的流程图；

图12示出了根据本发明实施例的属性增强网络的训练过程中的数据流图；

图13示出了本发明的实施例的应用环境的示意图；

图14是示出了根据本发明实施例的用于面部图像生成的数据处理设备的配置的功能性框图；

图15示出了根据本发明的实施例的用于面部图像生成的数据处理设备作为硬件实体的一个示例；以及

图16示出了根据本发明的实施例的计算机可读记录介质的示意图。

具体实施方式

下面将参照附图对本发明的各个优选的实施方式进行描述。提供以下参照附图的描述，以帮助对由权利要求及其等价物所限定的本发明的示例实施方式的理解。其包括帮助理解的各种具体细节，但它们只能被看作是示例性的。因此，本领域技术人员将认识到，可对这里描述的实施方式进行各种改变和修改，而不脱离本发明的范围和精神。而且，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造的详细描述。

如上文在背景技术中所述，由于根据现有技术的面部生成方案采用的是通用处理网络，因此输出的面部图像与真实面部图像的差距较大。除此之外，在根据现有技术的面部生成方案中，训练通用处理网络中的编码网络和解码网络需要搜集和建立真实面部数据库，以便为输出的合成面部图像提供监督信息。例如，在子代人脸预测的应用场景中，需要搜集和建立存在父、母和孩子关系的人脸数据库。以真实的孩子面部图像作为处理网络基于父或母面部图像输出的合成孩子面部图像的监督信息，以便调节处理网络的参数，使得训练完成的处理网络能够输出与输入的面部图像相像且类似于真实图像的合成面部图像。然而，在实践中，搜集和建立这样的数据库需要较大的成本。

因此，在本发明中，提出了一种专用于面部图像合成的继承网络，与通用处理网络相比，能够输出更接近于真实图像的合成面部图像，且能够精确地控制合成面部图像继承两个输入面部图像中的哪些面部特征。并且，本发明还进一步提出了属性增强网络，能够在继承网络输出的合成面部图像的基础上，在较大范围中调节合成面部图像的属性(如，年龄、性别等)。此外，在本发明中，提出了一种在没有父、母和孩子关系的人脸数据库的情况下的继承网络和属性增强网络的训练方式。在根据本发明的继承网络和属性增强网络的训练过程中，不需要建立存在父、母和孩子关系的人脸数据库，而是直接利用任意的现有人脸数据库就可以完成处理网络的训练。

为了更好地理解本发明，在下文中将要提及的名称的具体含义如下：

第一面部图像：在应用模式下，向继承网络输入的一个图像，以I_MA表示；

第二面部图像：在应用模式下，向继承网络输入的另一个图像，以I_FA表示；

第三面部图像：在应用模式下，由继承网络输出的图像，以I_o1表示；

第四面部图像：在应用模式下，进一步由属性继承网络输出的图像，以I_o2表示；

第五面部图像：在训练模式下，向继承网络输入的一个图像，以I_M表示；

第六面部图像：在训练模式下，向继承网络输入的另一个图像，以I_F表示；

第七面部图像：在训练模式下，由继承网络输出的一个图像，以I'_M表示，以第五面部图像I_M作为监督图像；

第八面部图像：在训练模式下，由继承网络输出的一个图像，以I'_F表示,以I'_M表示，以第六面部图像I_F作为监督图像；

第九面部图像：在训练模式下，由属性增强网络输出的一个图像，以

表示，以第七面部图像I'_M作为监督图像；

第十面部图像：在训练模式下，由属性增强网络输出的一个图像，以

表示，以第七面部图像I'_F作为监督图像。

接下来，将参照附图详细描述根据本发明的各个实施例。首先，将参照图1描述根据本发明实施例的用于面部图像生成的数据处理方法。如图1所示，所述数据处理方法包括以下步骤。

在步骤S101，获取第一面部图像及第二面部图像。

然后，在步骤S102，获取第一面部图像(I_MA)中与面部特征对应的M个第一图像块，并获取第二面部图像(I_FA)中与面部特征对应的N个第二图像块。这里，面部特征可以是器官(如，眉毛、眼睛、鼻子、嘴巴、脸廓)、组织或局部特征(如额头、脸部、皮肤上的特征)等。M个第一图像块分别与不同的面部特征对应，且类似地，N个第二图像块也分别与不同的面部特征对应。其中，M和N为自然数。

例如，第一面部图像和第二面部图像可以是不同性别的人的面部图像，如一张男性面部图像和一张女性面部图像。或者，第一面部图像和第二面部图像可以是相同性别的人的面部图像。

此外，例如，第一面部图像和第二面部图像可以是由照相机拍摄的真实面部图像。或者，第一面部图像和第二面部图像也可以是基于从现有面部特征库中选择的面部特征图像而生成的合成图像。具体地，第一面部图像可以是在一个人原有面部特征的基础上从面部特征库中随机挑选并更换一个面部特征而生成的合成图像，且第二面部图像也可以是通过类似方式生成的合成图像。或者，第一面部图像也可以是全部面部特征从面部特征库中随机挑选并组合而生成的合成图像，且第二面部图像也可以是通过类似方式生成的合成图像。

再如，第一面部图像和第二面部图像也可以是卡通面部图像。可见，在本发明中，并不特别地限定第一面部图像和第二面部图像的类型，任何能够作为输入的两张面部图像都可以类似地应用于本发明，且包括在本发明的范围中。

对于输入的面部图像，可以先通过面部校准来定位各面部特征的位置，然后将面部图像分解为与各面部特征对应的图像块。预先设置生成新的面部图像所需的不同面部特征的总数，将其表示为L，L为自然数。例如，作为一种可能的实施方式，可以将面部特征分为左眼睛和左眉毛、右眼睛和右眉毛、鼻子、嘴巴以及脸廓。在这种情况下，生成新的面部图像所需的不同面部特征的总数为五。如果输入的一个面部图像为完整的正面图像，那么分解得到的图像块的数量将与上述不同面部特征的总数一致，换言之，能够检测到所有需要的不同面部特征。在该实施方式中，可以将输入的面部图像分解为五个图像块，分别为：对应于左眼睛和左眉毛的图像块、对应于右眼睛和右眉毛的图像块、对应于鼻子的图像块、对应于嘴巴的图像块以及对应于脸廓的图像块。当然，这种分解方式仅为示例，任何其他的分解方式也是可行的。例如，也可以将输入的面部图像分解为对应于眼睛的图像块、对应于眉毛的图像块、对应于鼻子的图像块、对应于嘴巴的图像块以及对应于脸廓的图像块。然而，如果输入的一个面部图像为一定角度下的侧面图像，或者输入的一个面部图像为不完整的正面图像，那么从这个面部图像分解的图像块的数量将小于所需的不同面部特征的总数，换言之，可能检测不到有些面部特征。由于在后续步骤中通过选择第一面部图像中的一些面部特征和第二面部图像中的一些面部特征来合成新的面部图像，因此不需要在一个输入的面部图像中获得生成新的面部图像所需的所有面部特征，只需要从两个输入的面部图像中能够拼凑出生成新的面部图像所需的所有面部特征即可。

总结来说，第一图像块的数量M和第二图像块的数量N可以都等于生成新的面部图像所需的不同面部特征的总数L。或者，第一图像块的数量M和第二图像块的数量N中的一个可以等于生成新的面部图像所需的不同面部特征的总数L，而另一个可以小于L。或者，第一图像块的数量M和第二图像块的数量N可以都小于L，并且，M和N可以相等，也可以不等。

接下来，在步骤S103，将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块。

可以通过变换网络，如编码网络，来实现图像空间到特征空间的变换。可以对于不同面部特征的图像块设置相同的编码网络。或者，作为另一种可能的实施方式，由于每个面部特征表观上的差异，因此针对每个面部特征获取专属特征。具体来说，可以关于对应于每一面部特征的图像块设置一个编码网络。例如，设置一组编码网络，其中编码网络E1用于对应于左眼睛和左眉毛的图像块，编码网络E2用于对应于右眼睛和右眉毛的图像块，编码网络E3用于对应于鼻子的图像块，编码网络E4用于对应于嘴巴的图像块，且编码网络E5用于对应于脸廓的图像块。编码网络E1～E5的参数各不相同。将M个第一图像块分别通过对应的编码网络E1～E5变换到特征空间，并且同样地，将N个第二图像块分别通过对应的编码网络E1～E5变换到特征空间。例如，通过编码网络，可以将二维图像块变换为具有长宽高的三维特征块。

然后，在步骤S104，根据特定的控制向量选择一部分第一特征块和一部分第二特征块。

特定的控制向量包括与各面部特征对应的L个信息位。这里需要注意的是，信息位的数量与上文中所述的生成新的面部图像所需的不同面部特征的总数相同，并且如上文中所述，L为自然数，且M≤L，N≤L。例如，在上文中描述的将面部特征分为左眼睛和左眉毛、右眼睛和右眉毛、鼻子、嘴巴和脸廓的情况下，所述控制向量包括五位，且这五位分别对应于左眼睛和左眉毛、右眼睛和右眉毛、鼻子、嘴巴和脸廓。并且，特定的控制向量可以由用户手动设置，也可以随机地自动设置。

具体来说，根据特定的控制向量选择一部分第一特征块和一部分第二特征块的步骤进一步包括：当所述特定的控制向量中的一个信息位为第一值时，从M个第一特征块中选择与该位对应的面部特征的特征块，而当所述特定的控制向量中的该信息位为第二值时，从N个第二特征块中选择与该位对应的面部特征的特征块。依次根据控制向量中的每一位进行选择，进而获得L个特征块，这些特征块是由一部分第一特征块和一部分第二特征块组成的混合特征块。

举例而言，假如控制向量ν为10010，那么这意味着选择第一特征块中对应于左眼睛和左眉毛的特征块以及对应于嘴巴的特征块，并选择第二特征块中对应于右眼睛和右眉毛的特征块、对应于鼻子的特征块以及对应于脸廓的特征块。

接下来，在步骤S105，至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图。

例如，沿用上文中的例子，在控制向量ν为10010的情况下，可以基于第一特征块中对应于左眼睛和左眉毛的特征块、对应于嘴巴的特征块以及第二特征块中对应于右眼睛和右眉毛的特征块、对应于鼻子的特征块、对应于脸廓的特征块来生成第一合成特征图，即：在特征空间中，将来自不同源的面部特征的特征块重新组合成一个新的具有各面部特征的合成特征图。

另外，可以对输出的第三面部图像的属性(如，年龄和性别)进行控制。例如，可以指定希望输出的第三面部图像的性别。并且，输入的第一面部图像和第二面部图像的属性信息可能存在较大差异。具体来说，第一面部图像的年龄与第二面部图像的年龄可能相差很大。例如，第一面部图像的年龄为20岁，而第二面部图像的年龄为60岁。为了对输出的第三面部图像的属性进行控制并防止最终生成的第三面部图像的不和谐，作为另一种可能的实施方式，在选择的特征块的基础上，进一步叠加属性特征。例如，如果希望输出的第三面部图像为女性面部图像，则可以进一步叠加性别为女的属性特征，以便去除诸如胡子之类的男性特征。或者，如果希望平衡输入面部图像的年龄差异，则可以进一步叠加平均年龄(在以上例子中，40岁)的属性特征。

具体地，至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图的步骤进一步包括可以进一步包括以下步骤。首先，将指定属性信息扩展为处于所述特征空间中的属性特征块。在上文中所述的将二维图像块变换为具有长宽高的三维特征块的情况下，可以将属性信息扩展为与特征块相同长宽但不同高度的特征块。然后，基于所选择的一部分第一特征块、一部分第二特征块以及属性特征块，生成第一合成特征图。

最后，在步骤S106，将所述第一合成特征图反变换回图像空间以生成第三面部图像(I_o1)。可以通过反变换网络，如解码网络D，来实现特征空间到图像空间的反变换。

可以认为，上文中所述的基于M个第一图像块和N个第二图像块而生成第三面部图像是由一继承网络来实现的。所述继承网络可以包括上文中所述的编码网络和解码网络，且可以通过各种神经网络来实现。如果将该继承网络表示为一函数f_inh，那么该函数的输入包括第一面部图像I_MA和第二面部图像I_FA以及控制向量ν,且输出为第三面部图像I_o1，具体公式如下：

I_o1＝f_inh(I_MA,I_FA,ν) (1)

或者，在增加属性特征的情况下，该函数的输入还进一步包括希望输出的第三面部图像的年龄(y_a)和性别(y_g)，具体公式如下：

I_o1＝f_inh(I_MA,I_FA,ν,y_a,y_g) (2)

图2是示出根据本发明实施例的关于继承网络的数据流图。如图2所示，作为输入源的第一面部图像I_MA和第二面部图像I_FA在分解为与面部特征对应的图像块后经由一组编码网络E1～E5变换到特征空间的特征块，根据控制向量ν选择并交换特征块，然后与属性特征块拼接，最后经由解码网络D变换回图像空间，以生成第三面部图像I_o1。

第三面部图像是继承了第一面部图像中的一部分面部特征和第二面部图像中的一部分面部特征的合成面部图像。在第一面部图像和第二面部图像为不同性别的两人的面部图像时，生成的第三面部图像可以是假定该两人为父母时的子代面部图像。在第一面部图像和第二面部图像为相同性别的两人的面部图像时，生成的第三面部图像可以是集合该两人的面部特征优点而合成的假想面部图像。在第一面部图像和第二面部图像为拼凑了多个人的面部特征而生成的合成图像时，通过生成的第三面部图像可以推断特定人的面部图像。这在刑事侦查中的目击证人指认中尤其重要。例如，在目击证人从面部特征库中挑选出与嫌疑人类似的各面部特征后，将各面部特征组合以生成一低质量的、不像真实照片的合成面部图像。通过将该合成面部图像作为第一面部图像，同时任意选取一个第二面部图像，并将特定的控制向量设置为11111(即，全部选择第一面部图像中的面部特征图像)，可以输出非常类似于真实图像的第三面部图像，以便于嫌疑人的确定。

在根据本发明的用于面部图像生成的数据处理方法中，通过参照图1所述的各处理步骤可以看出，通过面部特征图像的分割，以及特征空间内的重组，能够生成继承了一部分第一面部图像中的面部特征和一部分第二面部图像中的面部特征的第三面部图像。与现有技术中使用通用处理网络的方案相比，能够在保证输出的第三面部图像与作为输入源的面部图像的相似性的同时，使得输出的第三面部图像接近于真实图像。换言之，当由用户观看该第三面部图像时，难以分辨该图像是真实图像还是合成图像。

并且，通过设置控制向量，能够精确地控制第三面部图像继承两个输入面部图像中的哪些面部特征。图3示出了不同控制向量下的面部图像生成结果。从图3可以看出，通过设置不同的控制向量，可以精确地控制生成的第三面部图像中的五官与作为输入源的两个面部图像的继承关系。

图4示出了在输入的面部图像中增加随机因素的面部图像生成结果，即如在上文中所述的那样，在输入的面部图像是在一个人原有面部特征的基础上从面部特征库中随机挑选并更换一个面部特征而生成的合成图像的情况下的面部生成结果。在图4中，从上到下的各行分别示出了在眼睛和眉毛、鼻子、嘴巴以及脸廓上增加随机因素的生成结果。

此外，通过特征空间内属性特征的叠加，能够指定第三面部图像的属性并进一步提升第三面部图像的和谐度和自然度。

上文中所述的继承网络的主要目的在于，输出与第一面部图像和第二面部图像在面部特征上相似的第三面部图像，因此其中包括的属性特征块的叠加是在保证相似度前提下的微调。换言之，继承网络输出的第三面部图像在诸如年龄之类的属性方面与作为输入源的第一面部图像和第二面部图像近似。

为了在更大范围中调节输出面部图像的属性，作为另一种可能的实施方式，返回参照图1，在步骤S105之后，还可以进一步包括以下步骤。

在步骤S107，将所述第三面部图像变换至特征空间以生成第三特征图。例如，可以通过编码网络来实现图像空间到特征空间的变换。当然，这里的编码网络E0的参数与上文中所述的编码网络E1～E5的参数并不相同。

然后，在步骤S108，将特定的属性信息扩展为与所述特征空间中的属性特征图。例如，在步骤S107将二维图像变换为具有长宽高的三维特征图的情况下，可以将属性信息扩展为与三维特征图相同长宽但不同高度的特征图。

接下来，在步骤S109，基于所述属性特征图与所述第三特征图，生成第二合成特征图。

最后，在步骤S110，将第二合成特征图反变换回图像空间，以生成第四面部图像。例如，可以通过解码网络D0来实现特征空间到图像空间的反变换。这里，解码网络D0的参数与上文中的步骤S105中提及的解码网络D的参数也不相同。

由于步骤S107～S110的可选性，因此在图1中以虚线框示出。

可以认为，上文中所述的基于第三面部图像而生成所述第四面部图像是由属性增强网络来实现的。所述属性增强网络可以包括上文中所述的编码网络和解码网络，且可以通过各种神经网络来实现。如果将该属性增强网络表示为一函数f_att，那么该函数的输入包括第三面部图像I_o1、以及期望输出的第四面部图像的年龄(y_a)和性别(y_g)，输出为第四面部图像I_o2，具体公式如下：

I_o2＝f_att(I_o1,y_a,y_g) (3)

图5是示出了根据本发明实施例的关于属性增强网络的数据流图。如图5所示，第三面部图像I_o1通过编码网络E0变换为特征空间中的第三特征图Z₁，然后将Z₁在特征空间中与属性信息y_a和y_g进行拼接，并通过解码网络D0反变换回图像空间，以得到第四面部图像I_o2。

与第三面部图像相比，第四面部图像能够在属性上发生很大改变。例如，基于输入的年龄为20岁的第三面部图像，可以输出年龄为5岁的第四面部图像。

图6示出了在指定的控制向量下生成的不同年龄阶段的面部图像。从图6中可以看出，通过继承网络和属性增强网络，可以生成不同年龄段的面部图像，且每个年龄段的面部差异明显。

图7示出了在指定的控制向量下生成的不同年龄和不同性别的面部图像。从图7中可以看出，通过继承网络和属性增强网络，即使在相同的控制向量下，也可以体现生成的面部图像由于性别和年龄不同在五官上的差异，如苹果肌、眉毛、法令纹、嘴唇颜色等。

在上文中参照图1到图7详细描述了根据本发明的用于生成面部图像的数据处理方法的具体过程。所述数据处理方法是通过继承网络或者继承网络和属性增强网络来实现的。上文中描述的数据处理方法是在继承网络和属性增强网络的应用过程中执行的处理。然而，如上文中所述，继承网络和属性增强网络可以包括编码网络和解码网络，且编码网络和解码网络中都包括多个待确定的参数。通过训练过程来确定这些参数，从而完成继承网络和属性增强网络的构建。这样，继承网络和属性增强网络才能实现面部图像生成的功能。换言之，在应用继承网络和属性增强网络之前，首先要训练继承网络和属性增强网络。接下来，首先将参照图8描述继承网络的训练过程。所述继承网络可以通过图8中所示的以下训练步骤得到。

为了与上文中的应用过程中的第一到第四面部图像相区分，在下文中，将在训练过程中涉及的面部图像限定为第五至第十面部图像。

首先，在步骤S801，获取第五面部图像(I_M)中与各面部特征对应的L个第五图像块，并获取第六面部图像(I_F)中与各面部特征对应的L个第六图像块。

这里，需要特别指出的是，在上文中的应用过程中，由于基于作为输入源的两个面部图像仅需要生成一个新的面部图像，因此从输入的两个面部图像中获取的、与面部特征对应的图像块的数量可以小于或等于L，其中L为生成新的面部图像所需的不同面部特征的总数，只需要从两个输入的面部图像中能够拼凑出生成新的面部图像所需的所有面部特征即可。然而，与上文中的应用过程不同，在训练过程中，由于需要基于作为输入源的两个面部图像生成两个新的面部图像，因此从作为输入源的第五面部图像和第六面部图像中获取的图像块的数量均为L个，其中如上文中所述，L为生成新的面部图像所需的不同面部特征的总数。

然后，在步骤S802，根据第一控制向量ν₁选择一部分第五图像块和一部分第六图像块以生成第一合成图像

并根据第二控制向量ν₂选择另一部分第五图像块和另一部分第六图像块以生成第二合成图像

假设交换面部特征所对应的函数为f_syn，那么交换面部特征的合成过程可以由如下公式表示：

为了确保后续的训练效果，对于交换面部特征后的合成图像进一步通过颜色校正的方法进行融合，避免合成图像中出现不连贯的色块。这里，需要指出的是，在上文中描述的应用过程中，也提到了第一面部图像和第二面部图像可以为基于从现有面部特征库中选择的面部特征图像而生成的合成图像。然而，在应用过程中，由于继承网络已经训练完毕，因此合成图像可以不需要执行颜色校正处理。

接下来，在步骤S803，获取第一合成图像

中与各面部特征对应的L个第七图像块，并获取第二合成图像

中与各面部特征对应的L个第八图像块。

在步骤S804，将L个第七图像块和L个第八图像块输入到继承网络。

然后，在步骤S805，通过所述继承网络，输出基于第一控制向量选择的一部分第七图像块和一部分第八图像块而生成的第七面部图像(I'_M)，并输出基于第二控制向量选择的另一部分第七图像块和另一部分第八图像块而生成的第八面部图像(I'_F)。其中第五面部图像是用于对第七面部图像提供监督信息的监督图像，第六面部图像是用于对第八面部图像提供监督信息的监督图像，并且将第五至第八面部图像作为一组继承训练数据。

假设继承网络所对应的函数为f_inh，那么继承网络的生成过程可以由如下公式表示：

其中

和

分别表示第五面部图像的属性和性别，

和

分别表示第六面部图像的属性和性别。在训练过程中，将希望输出的面部图像的属性设置为与作为输入源的面部图像的属性相同，以便于后续损失函数的计算。

从以上步骤可以看出，与继承网络的应用过程相比，继承网络的训练过程的不同之处在于，在将作为输入源的面部图像输入到继承网络之前，预先进行一次面部特征交换处理。这样做的目的在于为继承网络输出的面部图像提供监督信息。

具体来说，如果在将作为输入源的第五面部图像和第六面部图像提供至继承网络之前，先通过一个控制向量交换一次面部特征，并将面部特征交换后的合成图像提供至继承网络，那么如果继承网络的参数设置准确，通过使用同样的控制向量再交换一次面部特征，应该能够得到原始的第五面部图像或第六面部图像。

为了便于理解，图9示出了继承网络的训练过程中两次面部特征交换的示意性过程。在图9中，以字母A表示作为输入源的第五面部图像(I_M)中各面部特征的图像块，以字母B表示作为输入源的第六面部图像(I_F)中各面部特征的图像块。对于第五面部图像(I_M)，如果以第一控制向量ν₁＝01010进行面部特征交换，然后以同样的第一控制向量ν₁＝01010再次执行面部特征交换，那么将得到与原始的第五面部图像(I_M)相同的图像。类似地，对于第六面部图像(I_F)，如果以第二控制向量ν₂＝10101进行面部特征交换，然后以同样的第二控制向量ν₂＝10101再次执行面部特征交换，那么将得到与原始的第六面部图像(I_F)相同的图像。注意，这里需要指出的是，第一控制向量ν₁和第二控制向量ν₂需要彼此相反。

因此，通过将第五面部图像(I_M)作为继承网路输出的第七面部图像(I'_M)的监督图像，并且将第六面部图像(I_F)作为继承网路输出的第七面部图像(I'_F)的监督图像，可以不需要建立存在父、母和孩子关系的人脸数据库，而是直接利用任意的已经存在的人脸数据库就能够完成继承网络的训练过程。

在根据本发明的继承网络的训练过程中，采用生成式对抗网络(GAN)的方式来学习。生成式对抗网路包括生成网络和判别网络，通过生成网络与判别网络之间对弈的新方式来学习数据分布。生成网络的目的是尽量去学习真实的数据分布，而判别网络的目的是尽量正确判别输入数据是来自真实数据还是来自生成网络；在训练过程中，生成网络和判别网络需要不断优化，各自提高自己的生成能力和判别能力。

继承网络可以看作是这里的生成网络。此外，还需要针对继承网络输出的图像，设置一个判别网络，如第一判别网络，用于判断向其输入的图像的真伪。所谓真，是指输出的面部图像为真实图像；所谓伪，是指输出的面部图像为继承网络输出的图像。

因此，接下来，在步骤S806，将至少一组继承训练数据输入至第一判别网络，其中所述第一判别网络被设置为当向所述第一判别网络输入一图像时，输出该图像为真实图像的概率值。

最后，在步骤S807，基于第一损失函数，交替地训练所述继承网络和所述第一判别网络，直至所述第一损失函数收敛为止。

图10示出了根据本发明实施例的继承网络的训练过程中的数据流图。由于在训练过程中，如上文中所述，将输入源的两个面部图像分别作为继承网络的两个输出面部图像的监督图像，因此为了便于对照，在图10中同时示出了继承网络的两路输出。事实上，如上文中参照图2所述，每当向继承网络提供两个面部图像作为输入时，仅输出一个面部图像。

如图10所示，第五面部图像I_M经过相同的控制向量ν₁交换两次后得到第七面部图像I'_M，并以I_M作为I'_M的监督图像。类似地，第六面部图像I_F经过相同的控制向量ν₂交换两次后得到第八面部图像I'_F，并以I_F作为I'_F的监督图像。

作为一种可能的实施方式，所述第一损失函数基于所述第一判别网络对于至少一组继承训练数据输出的概率值以及至少一组继承训练数据中面部图像与对应的监督图像之间的像素差异而确定。

具体来说，所述第一损失函数包括对抗损失和像素损失两部分之和。对抗损失

使继承网络生成的面部图像的分布更接近于真实图像，且可以通过以下公式来计算：

其中，D_I表示第一判别网络，D_I(I′_s)为向第一判别网络输入继承网络输出的图像时第一判别网络的输出(概率值)，D_I(I_s)为向第一判别网络输入真实图像时第一判别网络的输出(概率值)。

表示在输入面部图像I′_s时第一判别网络输出的均值，其中I′_s是继承网络输出的面部图像。

表示在输入面部图像I_s时第一判别网络输出的均值，其中I_s是来自真实人脸数据库的面部图像。

此外，作为另一种可能的实施方式，为了使得第一损失函数更加稳定，也可以基于WGAN(Wasserstein GAN)的框架，在其中增加噪声分量，具体公式如下：

其中λ_gp为WGAN的超参数，

为向第一判别网络输入噪声

时第一判别网络的输出，

表示对

求梯度后的二范数。

像素损失

用于确保继承网络生成的面部图像与作为输入源的面部图像的相似性，由继承网络生成的面部图像与真实面部图像之间像素级别的损失，即两张图像的像素值间的差异的绝对值之和表示，具体公式如下：

因此，第一损失函数可以表示如下：

其中，λ₁₁和λ₁₂为权重系数。

基于第一损失函数交替地训练所述继承网络和所述第一判别网络。具体来说，可以先固定继承网络，并训练第一判别网络。此时，希望第一损失函数的值尽可能地小。然后，可以再固定第一判别网络，并训练继承网络。此时，希望第一损失函数的值尽可能地大。在经过多轮训练后，当第一损失函数对于不同的继承训练数据的波动不大，即第一损失函数收敛时，完成继承网络的训练。

作为另一种可能的实施方式，除了上文中所述的对抗损失和像素损失之外，第一损失函数还可以进一步基于以下至少之一而确定：至少一组继承训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组继承训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

具体来说，第一损失函数还可以进一步包括属性损失。属性损失由继承网络输出的面部图像的属性与作为输入源的真实面部图像的属性之间的差异来确定。年龄和性别的损失函数分别为，可以由以下公式来计算：

其中，D_a和D_g分别判别一个图像的年龄和性别的网络。例如，可以使用ResNet预训练年龄和性别的回归模型，从而当向该模型输入一个图像I′_s的时，可以输出该图像的年龄和性别信息。D_a(I′_s)表示通过D_a判断的面部图像(I′_s)的年龄，D_g(I′_s)表示通过D_g判断的面部图像(I′_s)的性别。

表示作为输入源的真实面部图像的年龄，

表示作为输入源的真实面部图像的性别。

此外，第一损失函数还可以进一步包括感知损失。例如，可以使用19层VGG特征来计算感知损失

即继承网络输出的面部图像的VGG特征与作为输入源的真实面部图像的VGG特征的距离，具体公式如下：

其中，

和

分别是指面部图像I_s和I′_s在VGG19中第i个池化层前，第j个卷积层的特征。

例如，作为另一种可能的实施方式，第一损失函数也可以表示如下：

其中，λ₁₁、λ₁₂、λ₁₃、λ₁₄和λ₁₅均为不同的权重系数，可以根据各损失函数的重要性来分配。

接下来，将参照图11描述属性增强网络的训练过程。所述属性增强网络可以通过图11中所示的以下训练步骤得到。

在根据本发明的属性增强网络的训练过程中，也采用生成式对抗网络(GAN)的方式来学习。

属性增强网络可以看作是这里的生成网络。此外，还需要针对属性增强网络输出的图像，设置一个判别网络，如第一判别网络，用于判断向其输入的图像的真伪。所谓真，是指输出的面部图像为真实图像；所谓伪，是指输出的面部图像为属性增强网络输出的图像。

如上文中所述，通过将第三面部图像输入到属性增强网络来生成所述第四面部图像，并且所述属性增强网络通过图11中所示的以下训练步骤得到。

首先，在步骤S1101，将第七面部图像(I'_M)和第八面部图像(I'_F)输入至属性增强网络。

然后，在步骤S1102，通过属性增强网络，输出与第七面部图像对应的第九面部图像

以及与第八面部图像对应的第十面部图像

其中第七面部图像是用于对第九面部图像提供监督信息的监督图像，第八面部图像是用于对第十面部图像提供监督信息的监督图像，并且将第七至第十面部图像作为一组属性训练数据。

假设属性增强网络所对应的函数为f_att，那么属性增强网络的生成过程可以由如下公式表示：

其中

和

分别表示第五面部图像的属性和性别，

和

接下来，在步骤S1103，将至少一组属性训练数据输入至第二判别网络，其中所述第二判别网络被设置为当向所述第二判别网络输入一图像时，输出该图像为真实图像的概率值。

最后，在步骤S1104，基于第二损失函数，交替地训练所述属性增强网络和所述第二判别网络，直至所述第二损失函数收敛为止。

图12示出了根据本发明实施例的属性增强网络的训练过程中的数据流图。与图10类似地，在图12中也同时示出了属性增强网络的两路输出。

如图12所示，将第七面部图像I'_M和第八面部图像I'_F输入到属性增强网络，变换到特征空间分别得到特征图Z_M和Z_F，在特征空间中与属性特征拼接并反变换回图像空间得到第九面部图像

和第十面部图像

并分别以第七面部图像I'_M和第八面部图像I'_F作为第九面部图像

和第十面部图像

的监督图像。

作为一种可能的实施方式，所述第二损失函数基于所述第二判别网络对于至少一组属性训练数据输出的概率值以及至少一组属性训练数据中面部图像与对应的监督图像之间的像素差异而确定。

具体来说，所述第二损失函数包括对抗损失和像素损失两部分之和。对抗损失

使属性增强网络生成的面部图像的分布更接近于真实图像，且可以通过以下公式来计算：

其中，

表示第二判别网络，

为向第二判别网络输入属性增强网络输出的图像时第二判别网络的输出(概率值)，

为向第二判别网络输入真实图像时第二判别网络的输出(概率值)。

表示在输入面部图像

时第二判别网络输出的对数的均值，其中

是属性增强网络输出的面部图像。

表示在输入面部图像I_s时第二判别网络输出的对数的均值，其中I_s是来自真实人脸数据库的面部图像。

此外，作为另一种可能的实施方式，为了使得第二损失函数更加稳定，也可以基于WGAN(Wasserstein GAN)的框架，在其中增加噪声分量，具体公式如下：

其中λ_gp为WGAN的超参数，

为向第二判别网络输入噪声

时第二判别网络的输出，

表示对

求梯度后的二范数。

像素损失

用于确保属性增强网络生成的面部图像与继承网络输出的面部图像的相似性，由属性增强网络生成的面部图像与继承网络输出的图像之间像素级别的损失，即两张图像的像素值间的差异的绝对值之和表示，具体公式如下：

因此，第二损失函数可以表示如下：

其中，λ₂₁和λ₂₂为权重系数。

作为另一种可能的实施方式，除了上文中所述的对抗损失和像素损失之外，第二损失函数还可以进一步基于以下至少之一而确定：至少一组属性训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组属性训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

具体来说，第二损失函数还可以进一步包括属性损失。属性损失由属性增强网络输出的面部图像的属性与继承网络输出的面部图像的属性之间的差异来确定。年龄和性别的损失函数分别为，可以由以下公式来计算：

其中，D_a和D_g分别判别一个图像的年龄和性别的网络。例如，可以使用ResNet预训练年龄和性别的回归模型，从而当向该模型输入一个图像I′_s的时，可以输出该图像的年龄和性别信息。

表示通过D_a判断的面部图像

的年龄，

表示通过D_g判断的面部图像

的性别。

表示作为继承网络输出的面部图像的年龄，

表示作为继承网络输出的面部图像的性别。由于继承网络输出的面部图像的年龄和性别与作为输入源的真实面部图像的年龄和性别相同，因此可以直接使用真实面部图像的年龄和性别作为这里的

和

即属性增强网络输出的面部图像的VGG特征与继承网络输出的面部图像的VGG特征的距离，具体公式如下：

其中，

和

是指面部图像

和I′_s在VGG19中第i个池化层前，第j个卷积层的特征。

例如，作为另一种可能的实施方式，第二损失函数也可以表示如下：

其中，λ₂₁、λ₂₂、λ₂₃、λ₂₄和λ₂₅均为不同的权重系数，可以根据各损失函数的重要性来分配。

基于第二损失函数交替地训练所述属性增强网络和所述第二判别网络。具体来说，可以先固定属性增强网络，并训练第二判别网络。此时，希望第二损失函数的值尽可能地小。然后，可以再固定第二判别网络，并训练属性增强网络。此时，希望第二损失函数的值尽可能地大。在经过多轮训练后，当第二损失函数对于不同的属性训练数据的波动不大，即第二损失函数收敛时，完成属性增强网络的训练。

这里，需要指出的是，尽管在属性增强网络的应用过程中，可以大幅地改变原有输入面部图像的属性(如，年龄)，但是在属性增强网络的训练过程中，为了能够提供监督信息，选择与最初输入的面部图像相同的属性。

在上文中，描述了针对继承网络和属性增强网络单独进行的训练过程。作为另一种可能的实施方式，除了继承网络和属性增强网络的单独训练之外，还可以对这两个网络进行联合训练，以寻求全局最优解。

具体来说，所述继承网络和所述属性增强网络通过以下联合训练步骤进一步优化：基于所述第一损失函数和所述第二损失函数，确定总损失函数；基于所述总损失函数，交替地训练所述继承网络和所述属性增强网络与所述第一判别网络和所述第二判别网络，直至所述总损失函数收敛为止。

具体来说，可以将第一损失函数和第二损失函数的加权和作为总损失函数L，具体公式如下：

L＝λ₀₁L_inh+λ₀₂L_att (23)

其中，λ₀₁和λ₀₂为不同的权重系数，可以根据各损失函数的重要性来分配。

在联合训练过程中，例如，可以先固定继承网络和属性增强网络，并训练第一判别网络和第二判别网络。此时，希望总损失函数的值尽可能地小，统一地调整第一判别网络和第二判别网络的参数。然后，可以再固定第一判别网络和第二判别网络，并训练继承网络和属性增强网络。此时，希望总损失函数的值尽可能地大，统一地调整继承网络和属性增强网络的参数。在经过多轮训练后，当总损失函数收敛时，完成两个网络的联合训练。

在上文中，已经参照图1到图12详细描述了根据本发明实施例的用于面部图像生成的数据处理方法。接下来，将描述根据本发明实施例的用于面部图像生成的数据处理设备。

首先，将简要描述本发明的实施例的应用环境。如图13所示，服务器10通过网络30连接到多个终端设备20。所述多个终端设备20是提供作为输入源的第一面部图像和第二面部图像的设备。所述终端可以是智能终端，例如智能电话、PDA(个人数字助理)、台式计算机、笔记本计算机、平板计算机等，也可以是其他类型的终端。所述服务器10为用于基于现有人脸数据库训练上文中所述的继承网络和属性增强网络的设备。并且，所述服务器也是将完成训练的继承网络和属性增强网络应用于面部图像生成的设备。具体来说，所述服务器10与终端设备20连接，从终端设备20接收第一面部图像和第二面部图像，基于服务器10上的训练好的继承网络和属性增强网络生成第三面部图像或第四面部图像，并将生成的面部图像传送到终端设备20。所述服务器10可以是下文中描述的数据处理设备。所述网络30可以是任何类型的有线或无线网络，例如因特网。应当认识到，图13所示的终端设备20的数量是示意性的，而不是限制性的。当然，根据本发明的用于面部图像生成的数据处理设备也可以是不联网的单机设备。

图14是图示根据本发明实施例的用于面部图像生成的数据处理设备。如图14所示，数据处理设备1400包括：分割装置1401、第一变换装置1402、选择装置1403、第一合成装置1404和第一反变换装置1405。

分割装置1401用于获取输入的第一面部图像中与各面部特征对应的M个第一图像块，并获取输入的第二面部图像中与各面部特征对应的N个第二图像块。

第一变换装置1402用于将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块。第一变换装置1402可以通过第一变换网络(如，编码网络)来执行该变换。

选择装置1403用于根据特定的控制向量选择一部分第一特征块和一部分第二特征块。

其中，所述特定的控制向量包括与各面部特征对应的L个信息位，并且所述选择装置1403进一步被配置为：当所述特定的控制向量中的一个信息位为第一值时，从M个第一特征块中选择与该位对应的面部特征的特征块，而当所述特定的控制向量中的该信息位为第二值时，从N个第二特征块中选择与该位对应的面部特征的特征块。

第一合成装置1404用于至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图。

另外，可以对输出的第三面部图像的属性(如，年龄和性别)进行控制。例如，可以指定希望输出的第三面部图像的性别。并且，输入的第一面部图像和第二面部图像的属性信息可能存在较大差异。因此，作为另一种可能的实施方式，所述第一合成装置140进一步被配置为：将指定属性信息扩展为处于所述特征空间中的属性特征块；以及基于所选择的一部分第一特征块、一部分第二特征块以及属性特征块，生成第一合成特征图。

第一反变换装置1405用于将所述第一合成特征图反变换回图像空间以生成第三面部图像。第一反变换装置1405可以通过第一反变换网络(如，解码网络)来执行该反变换。并且，第一变换网络和第一反变换网络构成继承网络。

在根据本发明的用于面部图像生成的数据处理设备中，通过面部特征图像的分割，以及特征空间内的重组，能够生成继承了一部分第一面部图像中的面部特征和一部分第二面部图像中的面部特征的第三面部图像。与现有技术中使用通用处理网络的方案相比，能够在保证输出的第三面部图像与作为输入源的面部图像的相似性的同时，使得输出的第三面部图像接近于真实图像。换言之，当由用户观看该第三面部图像时，难以分辨该图像是真实图像还是合成图像。并且，通过设置控制向量，能够精确地控制第三面部图像继承两个输入面部图像中的哪些面部特征。此外，通过特征空间内属性特征的叠加，能够指定第三面部图像的属性并进一步提升第三面部图像的和谐度和自然度。

为了在更大范围中调节输出面部图像的属性，作为另一种可能的实施方式，数据处理设备1400可以进一步包括：第二变换装置1406、扩展装置1407、第二合成模块1408和第二反变换装置1409。

第二变换装置1406用于将所述第三面部图像变换至特征空间以生成第三特征图。第二变换装置可以通过第二变换网络(如，编码网络)来执行该变换，且这里的第二变换网络与上文中的第一变换网络不同。

扩展装置1407用于将特定的属性信息扩展为与所述特征空间中的属性特征图。

第二合成模块1408用于基于所述属性特征图与所述第三特征图，生成第二合成特征图。

第二反变换装置1409用于将第二合成特征图反变换回图像空间，以生成第四面部图像。第二反变换装置可以通过第二反变换网络(如，解码网络)来执行该变换，且这里的第二反变换网络与上文中的第一反变换网络不同。且第二变换网络和第二反变换网络构成一属性增强网络。

由于第二变换装置1406、扩展装置1407、第二合成模块1408和第二反变换装置1409的可选性，因此在图14中以虚线框示出。

如上文中所述，继承网络和属性增强网络可以包括编码网络和解码网络，且编码网络和解码网络中都包括多个待确定的参数。通过训练过程来确定这些参数，从而完成继承网络和属性增强网络的构建。这样，继承网络和属性增强网络才能实现面部图像生成的功能。换言之，在应用继承网络和属性增强网络之前，首先要训练继承网络和属性增强网络。

因此所述数据处理设备1400进一步包括训练装置1410。

训练装置1410用于在训练模式下，对所述继承网络进行训练。具体来说，训练装置1410包括：预交换模块、第一判别模块和第一训练模块。

预交换模块用于获取第五面部图像(I_M)中与各面部特征对应的L个第五图像块，获取第六面部图像(I_F)中与各面部特征对应的L个第六图像块，根据第一控制向量选择一部分第五图像块和一部分第六图像块以生成第一合成图像

中与各面部特征对应的L个第七图像块，并获取第二合成图像

中与各面部特征对应的L个第八图像块，并将L个第七图像块和L个第八图像块输入到继承网络。

第一判别模块用于接收至少一组继承训练数据，并通过第一判别网络，输出用于判别输入的继承训练数据为真实图像的概率值，其中所述至少一组继承训练数据包括第五至第八面部图像，所述第七面部图像(I'_M)通过所述继承网络基于第一控制向量选择一部分第七图像块和一部分第八图像块而生成，所述第八面部图像(I'_F)通过所述继承网络基于第二控制向量选择另一部分第七图像块和另一部分第八图像块而生成，其中第五面部图像是用于对第七面部图像提供监督信息的监督图像，第六面部图像是用于对第八面部图像提供监督信息的监督图像。

第一训练模块用于基于第一损失函数，交替地训练所述继承网络和所述第一判别网络，直至所述第一损失函数收敛为止。

其中，所述第一损失函数基于所述第一判别网络对于至少一组继承训练数据输出的概率值以及至少一组继承训练数据中面部图像与对应的监督图像之间的像素差异而确定。

或者，作为另一种可能的实施方式，所述第一损失函数进一步基于以下至少之一而确定：至少一组继承训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组继承训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

此外，训练装置1410还用于在训练模式下，对所述属性增强网络进行训练。

具体来说，所述训练装置1410进一步包括：第二判别模块和第二训练模块。

第二判别模块用于接收至少一组属性训练数据，并通过第二判别网络，输出用于判别输入的属性训练数据为真实图像的概率值，其中所述至少一组属性训练数据包括第七至第十面部图像，所述第九面部图像

通过所述属性增强网络基于第八面部图像输出，其中第七面部图像是用于对第九面部图像提供监督信息的监督图像，第八面部图像是用于对第十面部图像提供监督信息的监督图像。

第二训练模块用于基于第二损失函数，交替地训练所述属性增强网络和所述第二判别网络，直至所述第二损失函数收敛为止。

其中，所述第二损失函数基于所述第二判别网络对于至少一组属性训练数据输出的概率值以及至少一组属性训练数据中面部图像与对应的监督图像之间的像素差异而确定。

或者，作为另一种可能的实施方式，所述第二损失函数进一步基于以下至少之一而确定：至少一组属性训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组属性训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

此外，所述训练装置还可以进一步包括：联合训练模块，用于基于所述第一损失函数和第二损失函数，确定总损失函数，并基于所述总损失函数，交替地训练所述继承网络和所述属性增强网络与第一判别网络和第二判别网络，直至所述总损失函数收敛为止。

由于根据本发明实施例的数据处理设备中各装置的具体操作与根据本发明实施例的数据处理方法中的各步骤完全对应，因此为了避免冗余起见，这里未对其细节展开赘述。本领域的技术人员可以理解，根据本发明实施例的数据处理方法中的各步骤可以类似地应用于根据本发明实施例的数据处理设备中的各装置。

根据本发明的实施例的用于游戏的数据处理设备作为硬件实体的一个示例如图15所示。所述终端设备包括处理器1501、存储器1502以及至少一个外部通信接口1503。所述处理器1501、存储器1502以及外部通信接口1503均通过总线1504连接。

对于用于数据处理的处理器1501而言，在执行处理时，可以采用微处理器、中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital SingnalProcessor)或可编程逻辑阵列(FPGA，Field－Programmable Gate Array)实现；对于存储器1502来说，包含操作指令，该操作指令可以为计算机可执行代码，通过所述操作指令来实现上述本发明实施例的用于游戏的数据处理方法中的各个步骤。

图16示出了根据本发明的实施例的计算机可读记录介质的示意图。如图16所示，根据本发明实施例的计算机可读记录介质1600其上存储有计算机程序指令1601。当所述计算机程序指令1601由处理器运行时，执行参照以上附图描述的根据本发明实施例的用于游戏的数据处理方法。

迄今为止，已经参照图1到图16详细描述了根据本发明实施例的用于面部图像生成数据处理方法、设备和介质。在根据本发明实施例的用于面部图像生成数据处理方法、设备和介质中，通过面部特征图像的分割，以及特征空间内的重组，能够生成继承了一部分第一面部图像中的面部特征和一部分第二面部图像中的面部特征的第三面部图像。与现有技术中使用通用处理网络的方案相比，能够在保证输出的第三面部图像与作为输入源的面部图像的相似性的同时，使得输出的第三面部图像接近于真实图像。换言之，当由用户观看该第三面部图像时，难以分辨该图像是真实图像还是合成图像。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过软件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于面部图像生成的数据处理方法，包括：

获取第一面部图像及第二面部图像；

获取第一面部图像(I_MA)中与面部特征对应的M个第一图像块，并获取第二面部图像(I_FA)中与面部特征对应的N个第二图像块；

将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块；

根据特定的控制向量选择一部分第一特征块和一部分第二特征块；

至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图；以及

将所述第一合成特征图反变换回图像空间以生成第三面部图像(I_O1)，

其中M和N为自然数，

其中通过将M个第一图像块和N个第二图像块输入到继承网络来生成所述第三面部图像，并且

所述继承网络通过以下训练步骤得到：

获取第五面部图像(I_M)中与各面部特征对应的L个第五图像块，并获取第六面部图像(I_F)中与各面部特征对应的L个第六图像块，其中L为自然数，且M≤L且N≤L；

根据第一控制向量选择一部分第五图像块和一部分第六图像块以生成第一合成图像

获取第一合成图像

中与各面部特征对应的L个第七图像块，并获取第二合成图像

中与各面部特征对应的L个第八图像块；

将L个第七图像块和L个第八图像块输入到继承网络；

通过所述继承网络，输出基于第一控制向量选择的一部分第七图像块和一部分第八图像块而生成的第七面部图像(I'_M)，并输出基于第二控制向量选择的另一部分第七图像块和另一部分第八图像块而生成的第八面部图像(I'_F)，其中第五面部图像是用于对第七面部图像提供监督信息的监督图像，第六面部图像是用于对第八面部图像提供监督信息的监督图像，并且将第五至第八面部图像作为一组继承训练数据；

将至少一组继承训练数据输入至第一判别网络，其中所述第一判别网络被设置为当向所述第一判别网络输入一图像时，输出该图像为真实图像的概率值；以及

基于第一损失函数，交替地训练所述继承网络和所述第一判别网络，直至所述第一损失函数收敛为止，

其中，在所述继承网络的训练过程中，不需要建立存在父、母和孩子关系的人脸数据库。

2.根据权利要求1所述的方法，其中所述特定的控制向量包括与各面部特征对应的L个信息位，其中L为自然数，且M≤L，N≤L，并且

根据特定的控制向量选择一部分第一特征块和一部分第二特征块的步骤进一步包括：

当所述特定的控制向量中的一个信息位为第一值时，从M个第一特征块中选择与该位对应的面部特征的特征块，而当所述特定的控制向量中的该信息位为第二值时，从N个第二特征块中选择与该位对应的面部特征的特征块。

3.根据权利要求1所述的方法，其中至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图的步骤进一步包括：

将指定属性信息扩展为处于所述特征空间中的属性特征块；以及

基于所选择的一部分第一特征块、一部分第二特征块以及属性特征块，生成第一合成特征图。

4.根据权利要求1所述的方法，其中所述第一损失函数基于所述第一判别网络对于至少一组继承训练数据输出的概率值以及至少一组继承训练数据中面部图像与对应的监督图像之间的像素差异而确定。

5.根据权利要求4所述的方法，其中所述第一损失函数进一步基于以下至少之一而确定：

至少一组继承训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组继承训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

6.根据权利要求1所述的方法，进一步包括：

将所述第三面部图像(I_O1)变换至特征空间以生成第三特征图；

将特定的属性信息扩展为与所述特征空间中的属性特征图；

基于所述属性特征图与所述第三特征图，生成第二合成特征图；以及

将第二合成特征图反变换回图像空间，以生成第四面部图像(I_O2)。

7.根据权利要求6所述的方法，其中通过将第三面部图像输入到属性增强网络来生成所述第四面部图像，并且

所述属性增强网络通过以下训练步骤得到：

将第七面部图像(I'_M)和第八面部图像(I'_F)输入至属性增强网络；

通过属性增强网络，输出与第七面部图像对应的第九面部图像

以及与第八面部图像对应的第十面部图像

其中第七面部图像是用于对第九面部图像提供监督信息的监督图像，第八面部图像是用于对第十面部图像提供监督信息的监督图像，并且将第七至第十面部图像作为一组属性训练数据；

将至少一组属性训练数据输入至第二判别网络，其中所述第二判别网络被设置为当向所述第二判别网络输入一图像时，输出该图像为真实图像的概率值；

基于第二损失函数，交替地训练所述属性增强网络和所述第二判别网络，直至所述第二损失函数收敛为止。

8.根据权利要求7所述的方法，其中所述第二损失函数基于所述第二判别网络对于至少一组属性训练数据输出的概率值以及至少一组属性训练数据中面部图像与对应的监督图像之间的像素差异而确定。

9.根据权利要求8所述的方法，其中所述第二损失函数进一步基于以下至少之一而确定：

至少一组属性训练数据中面部图像的属性与对应的监督图像的属性之间的差异和至少一组属性训练数据中面部图像的特征与对应的监督图像的特征之间的差异。

10.根据权利要求7所述的方法，其中所述继承网络和所述属性增强网络通过以下联合训练步骤进一步优化：

基于所述第一损失函数和所述第二损失函数，确定总损失函数；

基于所述总损失函数，交替地训练所述继承网络和所述属性增强网络与第一判别网络和第二判别网络，直至所述总损失函数收敛为止。

11.一种用于面部图像生成的数据处理设备，包括：

分割装置，用于获取输入的第一面部图像中与面部特征对应的M个第一图像块，并获取输入的第二面部图像中与面部特征对应的N个第二图像块；

第一变换装置，用于将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块；

选择装置，用于根据特定的控制向量选择一部分第一特征块和一部分第二特征块；

第一合成装置，用于至少基于所选择的一部分第一特征块和一部分第二特征块，生成第一合成特征图；以及

第一反变换装置，用于将所述第一合成特征图反变换回图像空间以生成第三面部图像，

其中，所述第一变换装置还被配置为通过第一变换网络来将M个第一图像块和N个第二图像块变换到特征空间以生成M个第一特征块和N个第二特征块，且所述第一反变换装置还被配置为通过第一反变换网络将所述第一合成特征图反变换回图像空间以生成第三面部图像，并且所述第一变换网络和所述第一反变换网络构成一继承网络，

其中所述设备进一步包括训练装置，用于在训练模式下，对所述继承网络进行训练，所述训练装置包括：

预交换模块，用于获取第五面部图像(I_M)中与各面部特征对应的L个第五图像块，获取第六面部图像(I_F)中与各面部特征对应的L个第六图像块，其中L为自然数，且M≤L且N≤L，根据第一控制向量选择一部分第五图像块和一部分第六图像块以生成第一合成图像

中与各面部特征对应的L个第七图像块，并获取第二合成图像

中与各面部特征对应的L个第八图像块，并将L个第七图像块和L个第八图像块输入到继承网络；

第一判别模块，用于接收至少一组继承训练数据，并通过第一判别网络，输出用于判别输入的继承训练数据为真实图像的概率值，其中所述至少一组继承训练数据包括第五至第八面部图像，其中第七面部图像(I'_M)通过所述继承网络基于第一控制向量选择一部分第七图像块和一部分第八图像块而生成，第八面部图像(I'_F)通过所述继承网络基于第二控制向量选择另一部分第七图像块和另一部分第八图像块而生成，第五面部图像是用于对第七面部图像提供监督信息的监督图像，第六面部图像是用于对第八面部图像提供监督信息的监督图像；

第一训练模块，用于基于第一损失函数，交替地训练所述继承网络和所述第一判别网络，直至所述第一损失函数收敛为止，

12.一种计算机可读记录介质，在其上存储计算机程序，当由处理器执行所述计算机程序时，执行根据权利要求1至10中任意一项所述的方法。