CN109961507A

CN109961507A - 一种人脸图像生成方法、装置、设备及存储介质

Info

Publication number: CN109961507A
Application number: CN201910222403.3A
Authority: CN
Inventors: 者雪飞; 凌永根; 暴林超; 宋奕兵; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-07-02
Anticipated expiration: 2039-03-22
Also published as: CN109961507B; US11380050B2; EP3944200B1; US20210241521A1; WO2020192568A1; EP3944200A4; EP3944200A1

Abstract

本申请公开了一种人脸图像生成方法，包括：根据第一参考元素中的第一人脸图像确定与其对应的三维人脸可变模型作为第一模型；根据第二参考元素确定与其对应的三维人脸可变模型作为第二模型；根据第一模型和第二模型，确定第一人脸图像对应的初始光流图，并根据初始光流图对第一人脸图像进行形变得到形变图；根据第一人脸图像及其对应的初始光流图和形变图，通过卷积神经网络获得光流增量图和可见概率图；根据第一人脸图像及其对应的初始光流图、光流增量图和可见概率图，生成目标人脸图像。该方法一方面实现了参数化控制，另一方面基于光流保留原始图像细节信息，从而使得生成的图像逼真自然。本申请还公开了对应的装置、设备及介质。

Description

一种人脸图像生成方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种人脸图像生成方法、装置、设备及存储介质。

背景技术

如今，很多场景下会用到人脸图像生成技术，以一张或者多张人脸图像作为输入，生成与该输入的姿态、面部表情相类似的其他人脸图像；例如，以一个人的一张侧脸图像作为基础，通过人脸图像生成技术生成这个人的正脸图像。

现有的人脸图像生成技术直接依赖生成式对抗网络来合成人脸图像，该生成式对抗网络的参数空间比较大、模型复杂性比较高，其实际训练效果并不好，容易出现过拟合，导致合成的人脸图像还不够自然逼真，而且其仅以特定人脸图像为目标，无法实现个性化的人脸合成。

发明内容

本申请实施例提供了一种人脸图像生成方法，通过三维人脸可变模型生成初始光流图，再基于卷积神经网络对初始光流图进行光流补全，基于光流补全后的光流图最终合成目标人脸图像，如此，既能够保留第一参考元素中人脸图像的轮廓，又能够保留第二参考元素所表征目标人脸的位姿和表情，使得生成的目标人脸图像更逼真自然，而且，基于三维人脸可变模型能实现个性化的人脸合成。对应地，本申请实施例还提供了一种人脸图像生成装置、设备、计算机可读存储介质以及计算机程序产品。

有鉴于此，本申请第一方面提供了一种人脸图像生成方法，所述方法包括：

根据第一参考元素中的第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情；

根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，并根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的形变图；

根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图；

根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像。

本申请第二方面提供一种人脸图像生成装置，所述装置包括：

第一模型生成模块，用于根据第一参考元素中的第一人脸图像确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

第二模型生成模块，用于根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情；

确定模块，用于根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，并根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的形变图；

获取模块，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图；

目标人脸图像生成模块，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像。

本申请第三方面提供一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的人脸图像生成方法的步骤。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的人脸图像生成方法。

本申请第五方面提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的人脸图像生成方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中提供了一种人脸图像生成方法，根据第一参考元素中的第一人脸图像确定与第一人脸图像对应的三维人脸可变模型作为第一模型，根据用于表征目标人脸图像的姿态和/或表情的第二参考元素确定与其对应的三维人脸可变模型作为第二模型，然后根据第一模型和第二模型确定第一人脸图像对应的初始光流图；可知，该方法通过三维人脸可变模型确定出初始光流图，一方面能够保留第一参考元素中人脸图像的轮廓和第二参考元素所标识的目标人脸的姿态和表情，另一方面能够通过三维人脸可变模型实现参数化控制，方便用户根据实际需求实现个性化的图像合成，接着根据该初始光流图对第一人脸图像进行形变得到对应的形变图，通过卷积神经网络获得第一人脸图像对应的光流增量图和可见概率图，再根据第一人脸图像及其对应的初始光流图、光流增量图和可见概率图生成目标人脸图像，使得其保留原始图像更多的细节信息，因而较为逼真和自然。此外，由于不再依赖单一网络，而是通过不同的小型网络分别实现相应的功能，如此大大减小了参数空间，降低了模型复杂性，提高了泛化性能，在实际应用时，能够生成自然逼真的人脸图像。

附图说明

图1为本申请实施例中人脸图像生成方法的场景架构图；

图2A为本申请实施例中人脸图像生成方法的流程图；

图2B为基于图2A进行图像合成的示例效果图；

图2C为基于图2A生成初始光流图的示例效果图；

图3为本申请实施例中基于神经网络确定三维人脸可变模型的流程图；

图4为本申请实施例中光流补全网络输入输出示意图；

图5A为本申请实施例中生成式对抗网络模型的结构示意图；

图5B为本申请实施例中生成式对抗网络模型训练方法的流程图；

图6为本申请实施例中生成目标人脸图像的效果示意图；

图7为本申请实施例中生成目标人脸图像的效果示意图；

图8A为本申请实施例中人脸图像生成方法的应用场景示意图；

图8B为本申请实施例中人脸图像生成方法的另一应用场景示意图；

图9为本申请实施例中人脸图像生成装置的一个结构示意图；

图10为本申请实施例中人脸图像生成装置的一个结构示意图；

图11为本申请实施例中人脸图像生成装置的一个结构示意图；

图12为本申请实施例中人脸图像生成装置的一个结构示意图；

图13为本申请实施例中人脸图像生成装置的一个结构示意图；

图14为本申请实施例中人脸图像生成装置的一个结构示意图；

图15为本申请实施例中人脸图像生成装置的一个结构示意图；

图16为本申请实施例中人脸图像生成装置的一个结构示意图；

图17为本申请实施例中服务器的一个结构示意图；

图18为本申请实施例中终端的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对现有技术中，基于生成式对抗网络生成人脸图像存在的训练不稳定和模式丢失的问题，以及模型复杂性变高、泛化性能较差导致基于生成对抗神经网络生成的人脸图像不够自然逼真的问题，本申请提供了一种基于光流图的人脸图像生成方法，该方法通过三维人脸可变模型(3D Morphable Models，3DMM)确定初始光流图，如此，该方法一方面能够保留第一参考元素中人脸图像的轮廓和第二参考元素所标识的目标人脸的姿态和表情，另一方面能够通过三维人脸可变模型实现参数化控制，方便用户根据实际需求实现个性化的图像合成，然后根据该初始光流图对人脸图像进行形变得到形变图，根据初始光流图和形变图，利用卷积神经网络获取对应的光流增量图和可见概率图，再根据第一人脸图像及其对应的初始光流图、光流增量图和可见概率图生成目标人脸图像，使得其保留原始图像更多的细节信息，因而较为逼真和自然。

由于不再依赖单一网络，而是通过不同的小型网络分别实现相应的功能，如此大大减小了参数空间，降低了模型复杂性，提高了泛化性能，在实际应用时，能够生成自然逼真的人脸图像。

可以理解，本申请提供的人脸图像生成方法可以应用于具有图形处理能力的处理设备，该处理设备可以是任意包括中央处理器(Central Processing Unit，CPU)和/或图形处理器(Graphics Processing Unit，GPU)的终端或服务器，处理设备在执行本申请提供的人脸图像生成方法时，可以是独立执行，也可以通过集群协作的方式执行。需要说明的是，该方法可以采用应用程序或软件的形式存储于处理设备，处理设备通过执行该应用程序或软件实现本申请提供的人脸图像生成方法。

为了使得本申请的技术方案更加清楚、易于理解，下面将结合具体场景对本申请提供的人脸图像生成方法进行介绍。参见图1所示的人脸图像生成方法的场景架构图，该场景中包括服务器10和终端20，终端20向服务器10发送人脸图像生成请求，该人脸图像生成请求中携带有第一参考元素和第二参考元素，其中，第一参考元素包括第一人脸图像，第二参考元素用于表征目标人脸图像的姿态和/或表情，服务器10根据第一人脸图像确定与该第一人脸图像对应的3DMM作为第一模型，根据第二参考元素确定与其对应的3DMM作为第二模型，然后根据第一模型和第二模型确定第一人脸图像对应的初始光流图，根据该初始光流图对第一人脸图像进行形变得到第一人脸图像对应的形变图，服务器10再根据第一人脸图像及该第一人脸图像对应的初始光流图和形变图，通过卷积神经网络获得第一人脸图像对应的光流增量图和可见概率图，基于第一人脸图像及其对应的初始光流图、光流增量图和可见概率图生成目标人脸图像，然后向终端20返回目标人脸图像。

接下来，从服务器的角度对本申请实施例提供的人脸图像生成方法的各个步骤进行详细说明。

参见图2A所示的人脸图像生成方法的流程图，该方法包括：

S201：根据第一参考元素中的第一人脸图像确定与所述第一人脸图像对应的3DMM作为第一模型。

S202：根据第二参考元素确定与所述第二参考元素对应的3DMM作为第二模型。

所述第一参考元素包括第一人脸图像，所述第二参考元素用于表征目标人脸图像的姿态和/或表情，本申请实施例提供的人脸图像生成方法即为在第一人脸图像的基础上生成指定姿态和/或指定表情的目标人脸图像。

其中，姿态具体是指身体呈现的样子，具体到本实施例，姿态可以理解为头部呈现的样子，其可以通过头部中轴线与水平方向或竖直方向的角度进行表征。作为本申请的一些具体示例，姿态可以包括与竖直方向呈30°夹角左偏，或者与竖直方向呈60°夹角右偏。

表情是指表达在面部或姿态上的思想感情。针对面部表情，其可以通过五官与正常情况下的差异进行表征，如通过嘴角上翘表征微笑、嘴角下垂表征沮丧等，当然，有些表情也可以通过姿态进行表征，例如不知所措的表情可以通过手挠头的姿态进行表征。

基于此，第二参考元素可以通过不同形式表征目标人脸图像的姿态和/或表情。在一些可能的实现方式中，第二参考元素可以是表征姿态和/或表情的目标模型参数，也可以是第二人脸图像，该第二人脸图像与第一人脸图像存在差异，在此种情形下，第二人脸图像中的姿态和/或表情即表征目标人脸图像的姿态和/或表情。

在本实施例中，当第二参考元素为目标模型参数时，根据所述目标模型参数确定3DMM，作为第二模型；当所述第二参考元素为第二人脸图像时，根据所述第二人脸图像确定3DMM，作为第二模型。

当参考元素为人脸图像时，本申请实施例提供了通过数学算法计算模型系数和通过网络直接确定模型系数两种实现方式确定人脸图像对应的3DMM。下面对这两种实现方式进行详细说明。

一种实现方式为，服务器检测人脸图像中的人脸关键点坐标，根据平均脸构建3DMM，将所述3DMM的三维坐标投影至二维图像得到投影坐标，然后确定使得所述人脸关键点坐标与所述投影坐标距离最小化的模型参数，根据所述模型参数确定与所述人脸图像对应的3DMM。

具体地，3DMM可以通过人脸3D点的集合表征，该集合记作S＝{p＝(x，y，z)}，3DMM为3D人脸的线性模型，具体可以通过如下公式表征：

其中，为平均脸，A_id和A_exp为形状基与表情基，a_id和a_exp为形状基与表情基各自对应的系数。其可以按照如下弱投影模型投影至2D图像得到投影坐标：

V(p)＝f*Pr*R*S+t_2d (2)

其中，f为相机的焦距，Pr为正交投影矩阵，在一个示例中，R为对应旋转角旋转矩阵，t_2d为像素平移参数。针对单张人脸图像，服务器检测该人脸图像中的人脸关键点坐标u(x，y)，则人脸关键点坐标与投影坐标距离E₁可以通过下式表征：

E₁＝∑||u(x,y)-V(p)|| (3)

通过最小化E₁，可以求解得到模型参数[a_id,a_exp,f,R,t_2d]，根据该模型参数可以确定3DMM。

另一种实现方式为，服务器检测人脸图像中的人脸关键点坐标，然后根据所述人脸关键点坐标和所述人脸图像，通过神经网络模型获得模型参数，再根据所述模型参数确定所述人脸图像对应的3DMM。

图3示出了基于神经网络确定3DMM的流程图，如图3所示，该神经网络包括深度编码器和基于模型的解码器，输入人脸图像后，对该人脸图像进行人脸检测，得到人脸关键点坐标，神经网络的深度编码器(Deep Encoder)可以对人脸图像以及人脸关键点坐标编码，然后语义编码向量对编码文本进行语义编码，其中，编码器可以通过alexNet或VGG-Face实现，语义编码向量可以通过神经网络的模型参数[a_id,a_exp,f,R,t_2d]实现，接着，神经网络利用基于模型的解码器(Model-based Decoder)对语义编码后的文本解码以重建图像，接着服务器计算模型的损失函数，该损失函数至少包括人脸关键点坐标与投影坐标距离和人脸关键点投影亮度差，其中，距离计算可以参见式3，投影亮度差的计算可以参见如下公式：

E₂＝∑||Iu(x,y)-I(V(p))|| (4)

其中，E₂表征投影亮度差，I表征亮度，Iu(x,y)即为检测人脸图像得到的人脸关键点u(x,y)的亮度，I(V(p))即为人脸关键点从3DMM投影至2D图像时的亮度。

当参考元素为表征姿态或表情的目标模型参数时，则服务器可以直接基于该参数确定对应的3DMM。具体地，当参考元素仅包括模型参数[a_id,a_exp,f,R,t_2d]中的部分参数时，则可以利用参考元素中的模型参数替换初始模型参数，其余参数为默认值。

还需要说明的是，第一参考元素可以是一张第一人脸图像，也可以是多张人脸图像。当所述第一参考元素包括属于同一人的多张不同的第一人脸图像时，服务器可以针对所述第一参考元素中的每一张第一人脸图像，确定与上述第一人脸图像对应的三维人脸可变模型，作为与该第一人脸图像对应的第一模型。

为了便于理解，下面结合图2B对方法实现效果进行示例性说明。如图2B所示，第一参考元素包括两张第一人脸图像211，第二参考元素包括一张第二人脸图像212，根据第一人脸图像211确定对应的第一模型，根据第二人脸图像确定对应的第二模型。

S203：根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，并根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的形变图。

在本实施例中，服务器对比第一模型和第二模型，并基于投影几何关系计算初始光流图。在一些可能的实现方式中，服务器可以通过投影归一化坐标编码图像(ProjectedNormalized coordinate code，PNCC)计算初始光流图。具体地，服务器根据投影归一化坐标编码算法对第一模型投影得到输入PNCC图像，对第二模型投影得到目标PNCC图像，然后查找输入PNCC图像和目标PNCC图像中像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成初始光流图。

请参见图2C，输入两张第一人脸图像以及表征目标人脸图像姿态和表情的第二参考元素，得到与两张第一人脸图像对应的3DMM模型和与第二参考元素对应的目标3DMM模型(即第二模型)后，可以通过对上述模型进行投影得到对应的PNCC图像，具体地，对3DMM模型1投影得到PNCC1，对3DMM模型2投影得到PNCC2，对目标3DMM模型投影得到PNCC T，查找PNCC1和PNCC T中像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成与输入图像1对应的初始光流图，类似的，查找PNCC2和PNCC T中像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成与输入图像2对应的初始光流图。需要说明的时，初始光流图一般以彩色形式呈现，图2C中的初始光流图仅为将彩色转成灰度的效果。

进一步地，服务器可以根据初始光流图对第一人脸图像进行形变得到第一人脸图像对应的形变图。可以理解的是，初始光流图描述的是第一参考元素中的第一人脸图像与第二参考元素所表征的图像之间像素对应关系，因此，根据初始光流图，找到其对应的在第一人脸图像上的像素位置，将其像素值复制过来，得到第一人脸图像对应的形变图。

请参见图2B，根据第一模型和第二模型确定出初始光流图213后，根据初始光流图213对第一人脸图像211进行形变生成对应的形变图214。

S204：根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图。

由于初始光流图中仅包含人脸部分区域，为了生成逼真自然的人脸图像，服务器可以对初始光流图进行补全和矫正。在实际应用时，服务器可以通过卷积神经网络获得第一人脸图像对应的光流增量图和可见概率图。

其中，光流增量图是根据第一人脸图像各点的光流增量形成的，根据第一人脸图像各像素点的光流增量和第一人脸图像对应的初始光流图中各像素点的初始光流可以生成第一人脸图像各点的光流，从而实现光流补全和矫正。可见概率图表征了第一人脸图像中各像素点出现在目标人脸图像中的概率，基于该可见概率图可以确定在目标人脸图像中保留的第一人脸图像细节。

请参见图2B，将第一人脸图像211及其对应的初始光流图213和形变图214输入至卷积神经网络，获得卷积神经网络输出的第一人脸图像211对应的光流增量图215和可见概率图216。

其中，卷积神经网络模型可以采用编码器和解码器的网络结构。作为本申请的一个示例，该网络结构具体可以是U-NET结构。U-NET是一种基于编码器-解码器结构的卷积神经网络，常用于图像分割任务。编码器结构通过池化层降低空间维度并提取图像语义特征，解码器结构通过反卷积层修复物体的细节并恢复空间维度。编码器和解码器之间存在快捷连接，以帮助解码器更好地复原目标的细节信息。

具体到本实施例，U-NET以第一人脸图像及其对应的初始光流图和形变图为输入，以第一人脸图像对应的光流增量图和可见概率图为输出。图4示出了光流补全网络输入输出示意图，在该示例中，该光流补全网络采用U-NET网络结构，第一人脸图像包括I₀和I₁，I₀和I₁各自对应的初始光流图包括和I₀和I₁各自对应的形变图包括和I₀和I₁各自对应的光流增量图包括ΔF_0→t和ΔF_1→t，I₀和I₁各自对应可见概率图包括V_0→t和V_1→t，该光流补全网络以I₀、I₁、和为输入，以ΔF_0→t、ΔF_1→t、I₀和I₁为输出。

本申请实施例还提供了训练卷积神经网络的一种实现方式，具体地，服务器确定第一训练样本集，所述第一训练样本集中的每个训练样本包括至少一组图像数据及其对应的标签数据，所述图像数据包括人脸图像及其对应的初始光流图和基于初始光流图形变的形变图，所述标签数据包括标定的光流增量图和可见概率图，然后服务器通过所述第一训练样本集中的训练样本训练所述U-net网络，获得所述卷积神经网络模型。

S205：根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成目标人脸图像。

在具体实现时，服务器可以根据所述第一人脸图像对应的光流增量图对所述第一人脸图像对应的初始光流图进行光流补全，得到所述第一人脸图像对应的光流图，然后根据所述第一人脸图像对应的光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的目标形变图，再根据所述第一人脸图像对应的目标形变图和可见概率图，生成目标人脸图像。

在具体实现时，当第一参考元素包括一张第一人脸图像时，所述目标人脸图像可以通过所述第一人脸图像对应的目标形变图和可见概率图的乘积来确定；

当第一参考元素包括多张第一人脸图像时，所述目标人脸图像具体可以通过以下方式确定：

根据各所述第一人脸图像对应的可见概率图确定各所述第一人脸图像对应的目标形变图的权值，利用该权值对各所述第一人脸图像对应的目标形变图进行加权平均。

下面以第一参考元素包括两张不同的第一人脸图像为例进行示例说明。

仍以图2B作为示例进行说明，根据第一人脸图像211对应的光流增量图215对初始光流图213进行光流补全，得到与第一人脸图像211对应的光流图，根据该光流图对第一人脸图像211进行形变可以得到目标形变图217，然后，根据目标形变图217和可见概率图216可以生成目标人脸图像218。

以图4的光流补全网络为例，服务器根据ΔF_0→t对I₀对应的初始光流图进行光流补全得到I₀对应的光流图F_0→t，根据ΔF_1→t对I₁对应的初始光流图进行光流补全得到I₀对应的光流图F_1→t，然后根据F_0→t对I₀进行形变得到I₀对应的目标形变图g(I₀，F_0→t)，根据F_1→t对I₁进行形变得到I₁对应的目标形变图g(I₁，F_1→t)，服务器可以将各张第一人脸图像对应的可见概率图与其对应的目标形变图对应位置的数值进行乘法运算，针对各张第一人脸图像运算结果进行求和，再将求和结果除以各第一人脸图像对应的可见概率图之和，从而生成目标人脸图像，具体参见如下公式：

其中，表征目标人脸图像，V₀、V₁分别表征第一人脸图像I₀、I₁对应的可见概率图，g(I₀，F_0→t)、g(I₁，F_1→t)分别表征I₀、I₁对应的目标形变图，⊙表征对两张图像对应位置进行乘法运算。

可以理解的是，当第一参考元素包括n张第一人脸图像时，可以通过如下公式(6)生成目标人脸图像：

其中，n为大于1的正整数，I_n-1表征第一参考元素中的第n张第一人脸图像，V_n-1表征I_n-1对应的可见概率图，g(I_n-1，F_n-1→t)表征I_n-1对应的目标形变图，公式(6)中其他元素的含义参见公式(5)。

由上可知，本申请实施例提供了一种人脸图像生成方法，该方法是基于光流图实现生成目标人脸图像的，具体地，根据包括第一人脸图像的第一参考元素确定与其对应的三维人脸可变模型作为第一模型，根据用于表征目标人脸图像的姿态和/或表情的第二参考元素确定与其对应的三维人脸可变模型作为第二模型，然后根据第一模型和第二模型确定第一人脸图像对应的初始光流图，一方面利用三维人脸可变模型实现了参数化控制，另一方面通过该初始光流图保留了原始图像身份形状信息，接着根据该初始光流图对第一人脸图像进行形变得到对应的形变图，通过卷积神经网络获得第一人脸图像对应的光流增量图和可见概率图，再根据第一人脸图像及其对应的初始光流图、光流增量图和可见概率图生成目标人脸图像，其保留原始图像细节信息，因而较为逼真和自然。此外，由于不再依赖单一网络，而是通过不同的小型网络分别实现相应的功能，如此大大减小了参数空间，降低了模型复杂性，提高了泛化性能，在实际应用时，能够生成自然逼真的人脸图像。

在一些可能的实现方式中，服务器还可以通过生成式对抗网络模型对所述目标人脸图像进行优化，获得所述生成式对抗神经网络模型输出的优化后的目标人脸图像。该生成式对抗网络模型能够对形变过程中产生的人工纹理以及目标形变图中存在的不可见区域进行进一步改善，因而能够生成自然、逼真的人脸图像。

其中，生成式对抗网络模型结构包括生成器和判别器，参见图5A所示的生成式对抗网络的结构示意图，生成器用于生成改善后图像，其以S205生成的目标人脸图像为输入，以改善人工纹理和不可见区域后的图像为输出，如图5A所示，输入图像为基于S205生成的目标人脸图像，其在边界位置存在形变，在经过生成对抗网络的生成器后，可以生成修复后的人脸图像，判别器用于判别生成器生成的图像是否真实，具体地，其以生成器生成的图像为输入，判别该图像是否为真实图像，若是，则输出该图像作为优化后的目标人脸图像，若否，则重新生成改善后的图像，并执行相应的判别步骤，直至生成器生成的图像被判别器判别为真实图像为止。

在实际应用时，本申请实施例还提供了训练生成式对抗网络的具体实现方式。参见图5B所示的生成式对抗网络模型训练方法的流程图，该方法包括：

S501：确定第二训练样本集。

所述第二训练样本集中的每个训练样本包括所述目标人脸图像及其对应的标定人脸图像。其中，目标人脸图像是指根据第一人脸图像及其对应的初始光流图、光流增量图和可见概率图所生成的图像，标定人脸图像是指预先标定的真实人脸图像。

为了便于理解，下面结合具体示例对第二训练样本集中的训练样本进行说明。在一个示例中，第一人脸图像为头部左偏15°，面部表情为微笑的人脸图像，目标人脸图像是指基于图2A所示实施例提供的人脸图像生成方法所生成的目标人脸图像，在目标人脸图像中，人物头部右偏30°，面部表情为哀伤，而标定人脸图像则是人物头部右偏30°，面部表情为哀伤时拍摄所得图像。

S502：通过所述第二训练样本集中的训练样本训练生成式对抗网络，获得所述生成式对抗网络模型。

在具体实现时，服务器以像素误差和对抗损失函数作为损失函数，利用第二训练样本集中的训练样本训练生成式对抗网络，从而获得生成式对抗网络模型。

以上为本申请实施例提供的人脸图像生成方法的一些具体实现方式，为了便于理解，下面将从产品应用的角度对本申请实施例提供的人脸图像生成方法进行介绍。

可以理解，本申请实施例提供的人脸图像生成方法可以通过人工智能(Artificial Intelligence，AI)技术应用于许多领域，例如可以运用于网络社交领域或视频剪辑领域，根据第一人脸图像合成多张目标人脸图像，基于多种不同目标人脸图像生成动态短视频或动态表情，并将其应用于虚拟主播、电影特效或者程序式合成等场景中。

下面对本申请实施例提供的人脸图像生成方法在产品侧应用进行详细说明。

在一些可能的实现方式中，所述第二参考元素包括多组有序的目标模型参数或者来源于指定视频的多张有序的第二人脸图像或者来源于指定动画的多张有序的第二人脸图像；当所述第二参考元素包括多组有序的目标模型参数时，按照顺序针对每组目标模型参数，确定与其对应的三维人脸可变模型，作为该目标模型参数对应的第二模型；当所述第二参考元素包括多张有序的第二人脸图像时，按照顺序针对每张第二人脸图像，确定与其对应的三维人脸可变模型，作为该第二人脸图像对应的第二模型。

然后，服务器按照顺序针对每个所述第二模型，执行根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图的步骤，如此，可以得到多张初始光流图，进而可以生成多张有序的目标人脸图像，服务器可以根据所述第二模型的顺序和基于每个所述第二模型生成的所述目标人脸图像，生成有序图像集。其中，有序图像集具体可以是视频或动态表情等等，本实施例对其形式不作限定。

其中，第二参考元素为目标模型参数时，基于上述方法生成的目标人脸图像和第一人脸图像是属于同一人的人脸图像，服务器可以基于多张有序目标人脸图像，生成与该人物对应的视频或表情包。参见图6，其示出了生成目标人脸图像的效果示意图，在该示例中，服务器以第一列和第二列图像(如图6中61所示)作为输入，生成不同姿态下的目标人脸图像，以输入图像为第一列和第二列图像中的第一行图像(如图6中62所示)为例，基于图像62可以确定对应的第一模型，基于目标模型参数可以确定对应的第二模型，根据第一模型和第二模型可以确定与图像62对应的初始光流图，根据该初始光流图对图像62进行形变可以得到对应的形变图，然后根据初始光流图和形变图，通过卷积神经网络可以获得对应的光流增量图和可见概率图，根据图像62及其对应的初始光流图、光流增量图和可见概率图可以生成目标人脸图像(如图6中63所示)。由于这多张不同姿态下的目标人脸图像体现了人物头部从某一角度向另一角度变化的过程，因此，服务器可以基于多张目标人脸图像生成人物头部从一角度向另一角度变化的视频或动态表情。

第二参考元素包括第二人脸图像时，第二人脸图像和第一人脸图像可以是属于同一人的人脸图像，也可以是属于不同人的人脸图像。当第二人脸图像和第一人脸图像是属于同一人的人脸图像时，生成目标人脸图像效果与图6类似，当第二人脸图像和第一人脸图像属于不同人的人脸图像时，服务器可以生成与第一人脸图像中姿态和/或表情存在差异的目标人脸图像，基于多张有序目标人脸图像，可以生成第一人脸图像中人物对应的视频或表情包。

具体地，第一人脸图像可以是公众人物的人脸图像，如明星的人脸图像，第二人脸图像可以是任意具有指定姿态或指定表情的人脸图像，例如可以是非公众人物呈现指定姿态或指定表情的人脸图像，如此，可以基于本申请实施例提供的人脸图像生成方法生成公众人物呈现指定姿态或指定表情的目标人脸图像，根据多张公众人物呈现指定姿态或指定表情的目标人脸图像可以生成关于该公众人物的视频或动态表情。

参见图7，其示出了生成目标人脸图像的效果示意图，在该示例中，服务器以前两列图像(如图7中71所示)作为输入图像，以第一行图像(如图7中72所示)作为驱动，生成目标人脸图像。具体地，以71中的第一行图像73包括的两个图像作为第一参考元素，以72中包含的多个图像作为第二参考元素，分别针对第一参考元素和上述第二参考元素生成与其对应的多张有序的目标人脸图像74，该目标人脸图像与第一参考元素中的第一人脸图像属于同一人且该目标人脸图像中人物的姿态和表情与第二参考元素中的第二人脸图像中人物的姿态和表情相同，如此，服务器基于多张目标人脸图像生成关于第一人脸图像中人物相关的视频或动态表情。

需要说明的是，服务器生成有序图像集后，还可以接收针对所述有序图像集的分享指令，根据所述分享指令，分享所述有序图像集，以便吸引用户，增加用户活跃度。

在直播应用场景或社交网络应用场景中，常常需要用户配置头像，基于此，本申请实施例提供的方法还可以用于根据用户实际需求实现头像个性化定制。具体地，服务器响应于用户请求，生成对应的目标人脸图像，然后向终端发送所述目标人脸图像，指示所述终端将所述目标人脸图像作为用户的社交网络头像进行显示。

需要说明的是，当本申请实施例提供的人脸图像生成方法由终端执行时，终端在生成目标人脸图像后，将该目标人脸图像设置为用户的社交网络头像，并在头像显示界面显示所述社交网络头像。

为了使得本申请的技术方案更加清楚，下面将结合视频剪辑的应用场景对本申请提供的人脸图像生成方法进行介绍。

参见图8A所示的人脸图像生成方法的应用场景示意图，该应用场景包括服务器10和终端20，用户通过终端20向服务器10发送视频生成请求，该视频生成请求携带有第一参考元素和第二参考元素，第一参考元素包括第一人脸图像，该第一人脸图像具体为某明星的人脸图像，第二参考元素包括多张第二人脸图像，该第二人脸图像可以是用户自身展示不同姿态和表情时拍摄得到的人脸图像，服务器10接收到视频生成请求后，利用本申请实施例提供的人脸图像生成方法生成多张有序的目标人脸图像，该目标人脸图像具体为该明星展示上述姿态和表情时的人脸图像，进一步地，服务器10利用上述多张目标人脸图像生成该明星展示上述姿态和表情的视频。

具体地，服务器10检测第一人脸图像中的人脸关键点坐标，然后根据所述人脸关键点坐标和第一人脸图像，通过神经网络模型获得模型参数，再根据所述模型参数确定所述第一人脸图像对应的3DMM，即第一模型。

然后，针对每一张第二人脸图像，服务器10采用与生成第一模型相同的方式，检测第二人脸图像中的人脸关键点坐标，根据所述人脸关键点坐标和第二人脸图像，通过神经网络模型获得模型参数，再根据所述模型参数确定所述第二人脸图像对应的3DMM，即第二模型。在该示例中，每一张第二人脸图像对应一个第二模型。

接着，服务器10根据投影归一化坐标编码算法对第一模型投影得到输入PNCC图像，对第二模型投影得到目标PNCC图像，然后查找输入PNCC图像和目标PNCC图像中像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成初始光流图。如此，针对每一个第二模型，可以得到一个初始光流图。针对每一个初始光流图，服务器10可以利用初始光流图对第一人脸图像进行形变得到与该第一人脸图像对应的形变图，如此，服务器10可以进行形变得到多个形变图。

再次，服务器10通过U-NET进行光流补全和矫正。具体地，服务器10采用U-NET结构训练光流补全网络，该光流补全网络以第一人脸图像及其对应的初始光流图和形变图为输入，以第一人脸图像对应的光流增量图和可见概率图为输出。如此，服务器10可以将初始光流图和光流增量图叠加得到光流图，根据第一人脸图像对应的光流图对第一人脸图像进行形变得到第一人脸图像对应的目标形变图，并根据所述第一人脸图像对应的目标形变图和可见概率图，生成目标人脸图像。由于第二参考元素包括多张第二人脸图像，对应地，服务器10可以生成与第二人脸图像一一对应的多张光流图，进而生成与第二人脸图像一一对应的多张目标人脸图像。

最后，服务器10将上述多张目标人脸图像输入至预先训练的生成式对抗网络模型，以消除人工纹理和不可见区域，实现对目标人脸图像的优化，服务器10获取优化后的目标人脸图像，根据优化后的目标人脸图像生成关于该明星展示上述姿态和表情的视频，并向终端20返回该视频。

下面将结合图8B对本申请提供的人脸图像生成方法应用进行另一示例说明。

本申请提供的人脸图像生成方法在实现时可以包括：光流激活、光流补全和形变改善这三个阶段，图8B中以基于用户的两张人脸图像合成该用户在目标姿态和表情下的目标人脸图像为例，对上述三个阶段的具体实现进行说明。

请参见图8B，在光流激活阶段，输入两张第一人脸图像即第一参考元素，并输入表征目标人脸图像的姿态和表情的第二参考元素，得到与两张第一人脸图像对应的第一模型以及与第二参考元素对应的第二模型，对上述模型进行投影得到对应的PNCC图像，针对每一个第一模型对应的PNCC图像，查找其与目标PNCC图像像素差最小的点作为对应点，基于每组对应的点的像素差可以生成初始光流图，如此可以得到每张第一人脸图像各自对应的初始光流图；然后在光流补全阶段，通过卷积神经网络针对每一个第一模型，分别查找其与第二模型中像素像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成与输入图像1对应的初始光流图，类似的，查找PNCC2和PNCC T中像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成与输入图像2对应的初始光流图。

在光流补全阶段，通过卷积神经网络得到各输入图像对应的光流增量图和可见概率图，基于初始光流图和光流增量图可以得到各输入图像对应的光流图，根据该光流图对输入图像进行形变可以得到各输入图像对应的目标形变图。然后基于卷积神经网络输出的可见概率图，将目标形变图1和目标形变图2进行合并得到目标人脸图像。

在形变改善阶段，将目标人脸图像输入生成式对抗网络，可以对目标人脸图像中的人工纹理、伪影及不可见区域等进行改善，生成修复后的人脸图像，若该修复后的人脸图像被判别器判别为真，则输出该修复后的人脸图像。

基于本申请实施例提供的人脸图像生成方法的具体实现方式，本申请实施例还提供了对应的装置，下面将从功能模块化的角度对装置进行介绍。

参见图9所示的人脸图像生成装置的结构示意图，该装置900包括：

第一模型生成模块910，用于根据第一参考元素中的第一人脸图像确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

第二模型生成模块920，用于根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情，；

确定模块930，用于根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，并根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的形变图；

获取模块940，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图；

目标人脸图像生成模块950，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像。

可选的，参见图10，图10为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

优化模块960，用于通过生成式对抗网络模型对所述目标人脸图像进行优化，获得所述生成式对抗神经网络模型输出的优化后的目标人脸图像。

可选的，所述第二模型生成模块920具体用于：

当第二参考元素为目标模型参数时，根据所述目标模型参数确定三维人脸可变模型，作为第二模型；或者，

当所述第二参考元素为第二人脸图像时，根据所述第二人脸图像确定三维人脸可变模型，作为第二模型；

其中，所述第二人脸图像与所述第一人脸图像存在差异。

可选的，参见图11，图11为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

三维人脸可变模型生成模块970，用于检测人脸图像中的人脸关键点坐标；根据平均脸构建三维人脸可变模型，将所述三维人脸可变模型的三维坐标投影至二维图像得到投影坐标；确定使得所述人脸关键点坐标与所述投影坐标距离最小化的模型参数，根据所述模型参数确定与所述人脸图像对应的三维人脸可变模型。

需要说明的是，该人脸图像生成装置也可以是在图10所示结构的基础上还包括三维人脸可变模型生成模块970，本实施例对此不作限定。

可选的，所述三维人脸可变模型生成模块970通过以下方式确定人脸图像对应的三维人脸可变模型：

检测人脸图像中的人脸关键点坐标；

根据平均脸构建三维人脸可变模型，将所述三维人脸可变模型的三维坐标投影至二维图像得到投影坐标；

确定使得所述人脸关键点坐标与所述投影坐标距离最小化的模型参数，根据所述模型参数确定与所述人脸图像对应的三维人脸可变模型。

检测人脸图像中的人脸关键点坐标；

根据所述人脸关键点坐标和所述人脸图像，通过神经网络模型获得模型参数；

根据所述模型参数确定所述人脸图像对应的三维人脸可变模型。

可选的，所述目标人脸图像生成模块950具体用于：

根据所述第一人脸图像对应的光流增量图对所述第一人脸图像对应的初始光流图进行光流补全，得到所述第一人脸图像对应的光流图；

根据所述第一人脸图像对应的光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的目标形变图；

根据所述第一人脸图像对应的目标形变图和可见概率图，生成所述目标人脸图像。

可选的，参见图12，图12为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述第二参考元素包括多组有序的目标模型参数或者多张有序的第二人脸图像；

则所述第二模型生成模块920具体用于：

当所述第二参考元素包括多组有序的目标模型参数时，按照顺序针对每组目标模型参数，确定与所述目标模型参数对应的三维人脸可变模型，作为该目标模型参数对应的第二模型；

当所述第二参考元素包括多张有序的第二人脸图像时，按照顺序针对每张第二人脸图像，确定与所述第二人脸图像对应的三维人脸可变模型，作为该第二人脸图像对应的第二模型；

所述确定模块930具体用于：

按照顺序针对每个所述第二模型，执行所述步骤：根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图；

所述装置900还包括：

图像集生成模块980，用于根据所述第二模型的顺序和基于每个所述第二模型生成的所述目标人脸图像，生成有序图像集。

可选的，参见图13，图13为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图12所示结构的基础上，所述装置900还包括：

图像集分享模块981，用于接收针对所述有序图像集的分享指令，根据所述分享指令，分享所述有序图像集。

可选的，参见图14，图14为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

发送模块990，用于向终端发送所述目标人脸图像，指示所述终端将所述目标人脸图像作为用户的社交网络头像进行显示。

可选的，所述第一参考元素包括属于同一人的多张不同的第一人脸图像；

所述第一模型生成模块910具体用于：

针对所述第一参考元素中的每张第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型，作为与所述第一人脸图像对应的第一模型。

可选的，参见图15，图15为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述卷积神经网络模型采用编码器和解码器的网络结构；

所述装置900还包括：

卷积神经网络模型训练模块991，用于确定第一训练样本集，所述第一训练样本集中的每个训练样本包括至少一组图像数据及其对应的标签数据，所述图像数据包括人脸图像及其对应的初始光流图和基于初始光流图形变的形变图；所述标签数据包括标定的光流增量图和可见概率图；通过所述第一训练样本集中的训练样本进行网络训练，获得所述卷积神经网络模型。

可选的，参见图16，图16为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图10所示结构的基础上，所述装置900还包括：

生成式对抗网络模型训练模块961，用于确定第二训练样本集，所述第二训练样本集中的每个训练样本包括所述目标人脸图像及其对应的标定人脸图像；通过所述第二训练样本集中的训练样本训练生成式对抗网络，获得所述生成式对抗网络模型。

本申请实施例还提供了一种用于生成人脸图像的设备，该设备可以是服务器，也可以是终端，下面将从硬件实体化的角度对本申请实施例提供的设备进行详细说明。

图17是本申请实施例提供的一种服务器结构示意图，该服务器1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1722(例如，一个或一个以上处理器)和存储器1732，一个或一个以上存储应用程序1742或数据1744的存储介质1730(例如一个或一个以上海量存储设备)。其中，存储器1732和存储介质1730可以是短暂存储或持久存储。存储在存储介质1730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1722可以设置为与存储介质1730通信，在服务器1700上执行存储介质1730中的一系列指令操作。

服务器1700还可以包括一个或一个以上电源1726，一个或一个以上有线或无线网络接口1750，一个或一个以上输入输出接口1758，和/或，一个或一个以上操作系统1741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图17所示的服务器结构。

其中，CPU1722用于执行如下步骤：

根据第一参考元素中的第一人脸图像确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

可选的，CPU1722还可以用于执行本申请实施例中人脸图像生成方法的任意一种实现方式的步骤。

本申请实施例还提供了另一种用于生成人脸图像的设备，如图18所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：PersonalDigitalAssistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图18示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图18，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1810、存储器1820、输入单元1830、显示单元1840、传感器1850、音频电路1860、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1870、处理器1880、以及电源1890等部件。本领域技术人员可以理解，图18中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1820可用于存储软件程序以及模块，处理器1880通过运行存储在存储器1820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1820内的软件程序和/或模块，以及调用存储在存储器1820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1880可包括一个或多个处理单元；优选的，处理器1880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1880中。

在本申请实施例中，该终端所包括的处理器1880还具有以下功能：

可选的，处理器1880还可以用于执行本申请实施例中人脸图像生成方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种人脸图像生成方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种人脸图像生成方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种人脸图像生成方法，其特征在于，包括：

2.根据权利要求1所述的人脸图像生成方法，其特征在于，所述方法还包括：

通过生成式对抗网络模型对所述目标人脸图像进行优化，获得所述生成式对抗神经网络模型输出的优化后的目标人脸图像。

3.根据权利要求1所述的人脸图像生成方法，其特征在于，所述根据第二参考元素确定与其对应的三维人脸可变模型作为第二模型，包括：

其中，所述第二人脸图像与所述第一人脸图像存在差异。

4.根据权利要求1至3中任一项所述的人脸图像生成方法，其特征在于，通过以下方式确定人脸图像对应的三维人脸可变模型：

检测人脸图像中的人脸关键点坐标；

5.根据权利要求1至3中任一项所述的人脸图像生成方法，其特征在于，通过以下方式确定人脸图像对应的三维人脸可变模型：

检测人脸图像中的人脸关键点坐标；

6.根据权利要求1所述的人脸图像生成方法，其特征在于，所述根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像，包括：

7.根据权利要求1所述的人脸图像生成方法，其特征在于，所述第二参考元素包括多组有序的目标模型参数或者多张有序的第二人脸图像；

则所述根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型，包括：

当所述第二参考元素包括多组有序的目标模型参数时，按照顺序针对每组目标模型参数，确定与所述目标模型参数对应的三维人脸可变模型，作为所述目标模型参数对应的第二模型；

当所述第二参考元素包括多张有序的第二人脸图像时，按照顺序针对每张第二人脸图像，确定与所述第二人脸图像对应的三维人脸可变模型，作为所述第二人脸图像对应的第二模型；

则按照顺序针对每个所述第二模型，执行所述步骤：根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图；

则所述方法还包括：

根据所述第二模型的顺序和基于每个所述第二模型生成的所述目标人脸图像，生成有序图像集。

8.根据权利要求7所述的人脸图像生成方法，其特征在于，所述方法还包括：

接收针对所述有序图像集的分享指令；

根据所述分享指令，分享所述有序图像集。

9.根据权利要求1所述的人脸图像生成方法，其特征在于，所述方法还包括：

向终端发送所述目标人脸图像，指示所述终端将所述目标人脸图像作为用户的社交网络头像进行显示。

10.根据权利要求1所述的人脸图像生成方法，其特征在于，所述第一参考元素包括属于同一人的多张不同的第一人脸图像；

则所述确定第一参考元素中的第一人脸图像对应的三维人脸可变模型，作为第一模型，包括：

11.根据权利要求1所述的人脸图像生成方法，其特征在于，所述卷积神经网络模型采用编码器和解码器的网络结构；

所述卷积神经网络模型通过以下方式训练生成：

确定第一训练样本集，所述第一训练样本集中的每个训练样本包括至少一组图像数据及其对应的标签数据，所述图像数据包括人脸图像及其对应的初始光流图和基于初始光流图形变的形变图；所述标签数据包括标定的光流增量图和可见概率图；

通过所述第一训练样本集中的训练样本进行网络训练，获得所述卷积神经网络模型。

12.根据权利要求2所述的人脸图像生成方法，其特征在于，所述生成式对抗网络模型通过以下方式训练生成：

确定第二训练样本集，所述第二训练样本集中的每个训练样本包括所述目标人脸图像及其对应的标定人脸图像；

通过所述第二训练样本集中的训练样本训练生成式对抗网络，获得所述生成式对抗网络模型。

13.一种人脸图像生成装置，其特征在于，包括：

第一模型生成模块，用于根据第一参考元素中的第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

第二模型生成模块，用于根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情，；

14.一种设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码；

所述处理器用于根据所述程序代码中的指令执行权利要求1-12任一项所述的人脸图像生成方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-12任一项所述的人脸图像生成方法。