CN111583105B

CN111583105B - 人像生成方法、装置、设备及存储介质

Info

Publication number: CN111583105B
Application number: CN202010410046.6A
Authority: CN
Inventors: 李少辉; 王晓晶; 王宇萌; 江源; 皮成祥
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2023-08-29
Anticipated expiration: 2040-05-14
Also published as: CN111583105A

Abstract

本发明提供一种人像生成方法、装置、设备及存储介质，涉及人工智能技术领域。该人像生成方法，包括：获取待生成人脸图像的人脸特征点图像。根据待生成人脸图像的人脸特征点图像、以及待生成人脸图像，通过预先训练的生成网络，将预设人像的人脸图像替换为待生成人脸图像，生成目标人像。由于只需要获取待生成人脸图像的人脸特征点图像，就可通过预先训练的生成网络实现换脸，因此无需针对每个人物重新训练生成模型，降低了操作难度，提升了便利性。

Description

人像生成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种人像生成方法、装置、设备及存储介质。

背景技术

随着科技发展和娱乐生活的多样化，单纯的观看图片和视频渐渐的已经不能满足人们对娱乐的需求，许多时候，人们想要与图片和视频进行互动，增加乐趣。

现有技术中，可以通过换脸的方式，控制视频或图片中的人物眼神、或者驱动人物表情等，以实现与图片和视频进行互动，目前最常用的换脸方法，需收集两个数据集，如，分别为人物A面部数据集，以及人物B面部数据集，通过一个编码器将两者编码到同一空间中，再各自使用对应的解码器进行解码还原得到图像，最后交换两者的解码器即可实现人物A到人物B的换脸操作。

但是，现有技术中，如果要实现其他人物的人脸换到人物B时，就需要重新训练一个对应的网络模型，操作复杂，便利性不足。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种人像生成方法、装置、设备及存储介质，以改善现有技术中，改变换脸对象时，需要重新训练一个对应的网络模型，操作复杂，便利性不足的问题。

为实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种人像生成方法，包括：获取待生成人脸图像的人脸特征点图像。根据待生成人脸图像的人脸特征点图像、以及待生成人脸图像，通过预先训练的生成网络，将预设人像的人脸图像替换为待生成人脸图像，生成目标人像。

可选地，获取待生成人脸图像的人脸特征点图像，包括：获取待生成人脸图像。将待生成人脸图像输入人脸点检测网络，得到多个人脸特征点，其中，每个人脸特征点处于一个人脸区域。在待生成人脸图像中，为每个人脸区域中的人脸特征点加入相同的噪声扰动，获取待生成人脸图像的人脸特征点图像。

可选地，根据待生成人脸图像的人脸特征点图像、以及待生成人脸图像，通过预先训练的生成网络，将预设人像的人脸图像替换为待生成人脸图像，生成目标人像，包括：通过预先训练的生成网络，将待生成人脸图像的人脸特征点图像与预设人像的人脸图像的人脸特征点图像中，相同位置的人脸特征点一一对应，确定预设人像中人脸图像的位置。将待生成人脸图像通过预先训练的生成网络，替换至预设人像中人脸图像的位置。

可选地，预先训练的生成网络采用下述步骤进行训练得到：将预设数据库中的样本人脸图像的人脸特征点图像输入生成网络，将预设样本人像的人脸图像替换为样本人脸图像，得到样本目标人像。根据样本目标人像、样本人脸图像的人脸特征点图像、预设数据库中的真实人脸图像、真实人脸图像的人脸特征点图像、以及判别网络，训练生成网络，得到预先训练的生成网络，其中，判别网络用于确定样本目标人像和真实人脸图像的判别结果，判别结果包括：真或假。

可选地，根据样本目标人像、样本人脸图像的人脸特征点图像、以及判别网络，训练生成网络，包括：将样本目标人像、样本人脸图像的人脸特征点图像输入判别网络，获取样本人脸图像的判别结果。将预设数据库中的真实人脸图像、以及真实人脸图像的人脸特征点图像输入判别网络，获取真实人脸图像的判别结果。若样本人脸图像的判别结果为假、真实人脸图像的判别结果为真的概率，符合第一阈值，则根据真实人脸图像，训练生成网络，直到判别网络获取到样本人脸图像的判别结果和真实人脸图像的判别结果均为真的概率，符合第二阈值。

可选地，该人脸生成方法还包括：若判别网络获取到样本人脸图像的判别结果和真实人脸图像的判别结果均为真的概率，符合第二阈值，则根据真实人脸图像，训练判别网络，直到判别网络获取到样本人脸图像的判别结果为假、真实人脸图像的判别结果为真的概率，符合第一阈值。

第二方面，本发明实施例提供一种人像生成装置，包括：

获取模块，用于获取待生成人脸图像的人脸特征点图像。生成模块，用于根据待生成人脸图像的人脸特征点图像、以及待生成人脸图像，通过预先训练的生成网络，将预设人像的人脸图像替换为待生成人脸图像，生成目标人像。

可选地，获取模块，具体用于获取待生成人脸图像。将待生成人脸图像输入人脸点检测网络，得到多个人脸特征点，其中，每个人脸特征点处于一个人脸区域。在待生成人脸图像中，为每个人脸区域中的人脸特征点加入相同的噪声扰动，获取待生成人脸图像的人脸特征点图像。

可选地，生成模块，具体用于通过预先训练的生成网络，将待生成人脸图像的人脸特征点图像与预设人像的人脸图像的人脸特征点图像中，相同位置的人脸特征点一一对应，确定预设人像中人脸图像的位置。将待生成人脸图像通过预先训练的生成网络，替换至预设人像中人脸图像的位置。

可选地，该装置还包括训练模块，用于根据下述步骤得到预先训练的生成网络：将预设数据库中的样本人脸图像的人脸特征点图像输入生成网络，将预设样本人像的人脸图像替换为样本人脸图像，得到样本目标人像。根据样本目标人像、样本人脸图像的人脸特征点图像、预设数据库中的真实人脸图像、真实人脸图像的人脸特征点图像、以及判别网络，训练生成网络，得到预先训练的生成网络，其中，判别网络用于确定样本目标人像和真实人脸图像的判别结果，判别结果包括：真或假。

可选地，训练模块，具体用于将样本目标人像、样本人脸图像的人脸特征点图像输入判别网络，获取样本人脸图像的判别结果。将预设数据库中的真实人脸图像、以及真实人脸图像的人脸特征点图像输入判别网络，获取真实人脸图像的判别结果。若样本人脸图像的判别结果为假、真实人脸图像的判别结果为真的概率，符合第一阈值，则根据真实人脸图像，训练生成网络，直到判别网络获取到样本人脸图像的判别结果和真实人脸图像的判别结果均为真的概率，符合第二阈值。

可选地，训练模块，还用于若判别网络获取到样本人脸图像的判别结果和真实人脸图像的判别结果均为真的概率，符合第二阈值，则根据真实人脸图像，训练判别网络，直到判别网络获取到样本人脸图像的判别结果为假、真实人脸图像的判别结果为真的概率，符合第一阈值。

第三方面，本发明实施例提供一种人像生成设备，包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当人像生成设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行上述第一方面任一方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行如上述第一方面任一方法的步骤。

本发明的有益效果是：获取待生成人脸图像的人脸特征点图像，通过预先训练的生成网络，根据人脸特征点图像，将预设人像的人脸图像替换为待生成人脸图像，生成目标人像。由于只需要获取待生成人脸图像的人脸特征点图像，就可通过预先训练的生成网络实现换脸，因此无需针对每个人物重新训练生成模型，降低了操作难度，提升了便利性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的人像生成方法流程示意图；

图2为本申请另一实施例提供的人像生成方法流程示意图；

图3为本申请另一实施例提供的人像生成方法流程示意图；

图4为本申请另一实施例提供的人像生成方法流程示意图；

图5为本申请另一实施例提供的人像生成方法流程示意图；

图6为本申请另一实施例提供的人像生成方法流程示意图；

图7为本申请一实施例提供的人像生成装置结构示意图；

图8为本申请另一实施例提供的人像生成装置结构示意图；

图9本申请一实施例提供的人像生成设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

图1为本申请一实施例提供的人像生成方法流程示意图。其中，本申请中的人像生成方法的执行主体可以是终端设备、服务器等具有计算能力的设备，例如，终端设备可以是台式计算机、笔记本电脑、平板电脑、智能手机等，服务器可以是具有实体服务器设备，也可以是提供服务器功能的云端设备等，但不以此为限。

如图1所示，该人像生成方法，包括：

S110、获取待生成人脸图像的人脸特征点图像。

其中，人脸特征点图像包括多个人脸特征点，人脸特征点根据用于指示人脸图像中，人脸各个部位的位置，例如，可以指示鼻子的位置、眼睛的位置、嘴巴的位置等。

S120、根据待生成人脸图像的人脸特征点图像、以及待生成人脸图像，通过预先训练的生成网络，将预设人像的人脸图像替换为待生成人脸图像，生成目标人像。

一些实施方式中，目标人像可以是静态的人像，例如，生成的目标人像是换脸后的静态图片，或者，目标人像也可以是动态人像，例如，可以是通过人脸特征点图像驱动待生成人脸图像后，生成的动态图像。

在本实施例中，由于只需要获取待生成人脸图像的人脸特征点图像，就可通过预先训练的生成网络实现换脸，因此无需针对每个人物重新训练生成模型，降低了操作难度，提升了便利性。

图2为本申请另一实施例提供的人像生成方法流程示意图。

可选地，如图2所示，获取待生成人脸图像的人脸特征点图像，包括：

S111、获取待生成人脸图像。

一些实施方式中，待生成人脸图像可以是通过与终端设备通信的镜头或摄像头实时获取的，也可以是预先存储在终端设备或服务器中的图像，在此不做限制。

S112、将待生成人脸图像输入人脸点检测网络，得到多个人脸特征点。

其中，每个人脸特征点处于一个人脸区域。

一些实施方式中，人脸区域可以包括如外轮廓、左眼、左眼眉毛、右眼、右眼眉毛、鼻子、嘴巴等，每个区域中包括多个人脸特征点，用于表示该区域内的人脸特征，比如，可以通过6个人脸特征点，表示左眼的形状，以确定左眼的位置；通过8个人脸特征点表示鼻子的形状，以确定鼻子的位置等，在此不做限制。

需要说明的是，人脸点检测网络可以是R-CNN系列，如区域卷积神经网络(Region-Convolutional Neural Networks,R-CNN)、快速区域卷积神经网络(FastRegion-Convolutional Neural Networks,Fast R-CNN)、更快区域卷积神经网络(FasterRegion-Convolutional Neural Networks,Faster R-CNN)等，也可以是人脸检测(Multi-taskCascaded Convolutional Networks，MTCNN)，人脸特征点检测(Tasks-Constrained DeepConvolutional Network，TCDCN)等，在此不做限制。

S113、在待生成人脸图像中，为每个人脸区域中的人脸特征点加入相同的噪声扰动，获取待生成人脸图像的人脸特征点图像。

一些实施方式中，为每个人脸区域中的人脸特征点加入相同的噪声扰动的方式，可以通过为每个人脸特征点的横坐标和纵坐标的数值分别加入范围[-5,5]的均匀分布噪声，将加入噪声后的横坐标和纵坐标的数值作为该人脸特征点的横坐标和纵坐标的数值，但不以此为限。

在本实施例中，通过在待生成人脸图像中，为每个人脸区域中的人脸特征点加入相同的噪声扰动，获取待生成人脸图像的人脸特征点图像。由于不同的待生成人脸图像中，人脸特征点的位置都会存在一定程度的偏移，加入噪声后，可以使生成网络忽略不同待生成人脸图像的人脸特征点图像之间的差异，使得人脸特征点图像的适用性更强。

图3为本申请另一实施例提供的人像生成方法流程示意图。

可选地，如图3所示，根据待生成人脸图像的人脸特征点图像、以及待生成人脸图像，通过预先训练的生成网络，将预设人像的人脸图像替换为待生成人脸图像，生成目标人像，包括：

S121、通过预先训练的生成网络，将待生成人脸图像的人脸特征点图像与预设人像的人脸图像的人脸特征点图像中，相同位置的人脸特征点一一对应，确定预设人像中人脸图像的位置。

一些实施方式中，预设人像是将要替换人脸的图像，例如，可以是某个影视形象的图片、或者某个自定义的形象等。

预设人像中包括人脸图像，预设人像的人脸图像的人脸特征点图像中的人脸特征点与待生成人脸图像的人脸特征点图像中的人脸特征点，用相同的数量的人脸特征点表示相同的人脸区域，例如，二者均使用6个人脸特征点，表示左眼的形状，以确定左眼的位置；通过8个人脸特征点表示鼻子的形状，以确定鼻子的位置等。预先训练的生成网络将二者之间表示相同位置的人脸特征点一一对应后，即可获得二者之间的位置关系，进而确定将待生成人脸图像替换至的位置。

S122、将待生成人脸图像通过预先训练的生成网络，替换至预设人像中人脸图像的位置。

一些实施方式中，将待生成人脸图像通过预先训练的生成网络，替换至预设人像中人脸图像的位置后，即可生成包括待生成人脸图像的目标人像。

其中，目标人像是静态图片还是动态，取决于预设人像的是静态还是动态。

若预设人像为静态图片，则替换后即可生成静态的目标人像。

若预设人像为动态图像，则替换后还需要根据人脸特征点图像驱动人脸，例如，获取动态图像中，每一帧的人脸特征点图像，然后将待生成人脸图像依次替换至每一帧中，生成动态的目标人像。

图4为本申请另一实施例提供的人像生成方法流程示意图。

可选地，如图4所示，预先训练的生成网络采用下述步骤进行训练得到：

S210、将预设数据库中的样本人脸图像的人脸特征点图像输入生成网络，将预设样本人像的人脸图像替换为样本人脸图像，得到样本目标人像。

其中，S210中的替换方式与S121、S122中相同，在此不再赘述。

S220、根据样本目标人像、样本人脸图像的人脸特征点图像、预设数据库中的真实人脸图像、真实人脸图像的人脸特征点图像、以及判别网络，训练生成网络，得到预先训练的生成网络。

其中，判别网络用于确定样本目标人像和真实人脸图像的判别结果，判别结果包括：真或假。

一些实施方式中，可以将样本目标人像和样本人脸图像的人脸特征点图像输入判别网络，得到样本目标人像的判别结果；将预设数据库中的真实人脸图像和真实人脸图像的人脸特征点图像得到真实人脸图像的判别结果。

需要说明的是，判别结果为真，则判别网络确定该图像中的人脸为真人，判别结果为假，则判别网络确定该图像中的人脸为合成人脸。

一些实施方式中，通过判别网络训练生成网络，是一种条件生成对抗网络，设生成网络为G，判别网络为D，将样本人脸图像的人脸特征点图像设为X，将X输入G，得到样本目标人像G(X)，将X和G(X)输入D，通过D判断G(X)为真(D的输出为1)或假(D的输出为0)，然后再将预设数据库中的真实人脸图像Y、真实人脸图像的人脸特征点图像输入D，通过D判断Y为真或假。

根据G(X)和Y的真假，对抗训练G，得到训练后的生成网络，其中，网络训练可以通过以下公式表示：

L_cGAN(G，D)＝E_x，y[log D(x，y)]+E_x，z[log(1-D(x，G(x，z)))]

其中，z为随机噪声，该公式中，G会使得该方程趋近最小化，D会使得该方程趋近最大化，该方程最大化时，表示D能够准确判别输入的图像的真假，即G(X)为假，Y为真，该方程最小化时，D无法准确判别输入的图像的真假。在方程趋近最大化时，固定G，训练D，使得方程趋近最小化，然后在方程趋近最小化后，再固定D，训练G使得方程趋近最大化，反复多次，即可得到训练后的生成网络，作为预先训练的生成网络进行使用。

其中，通过判别网络对抗训练生成网络，可以更好的提升生成网络的能力，使得生成网络生成的目标人像更加逼真。

图5为本申请另一实施例提供的人像生成方法流程示意图，图6为本申请另一实施例提供的人像生成方法流程示意图。

可选地，如图5所示，根据样本目标人像、样本人脸图像的人脸特征点图像、以及判别网络，训练生成网络，包括：

S221、将样本目标人像、样本人脸图像的人脸特征点图像输入判别网络，获取样本人脸图像的判别结果。

S222、将预设数据库中的真实人脸图像、以及真实人脸图像的人脸特征点图像输入判别网络，获取真实人脸图像的判别结果。

其中，上述S221、S222中获取判别结果的过程采用的是S220中的判别网络，在此不再赘述。

S223、若样本人脸图像的判别结果为假、真实人脸图像的判别结果为真的概率，符合第一阈值，则根据真实人脸图像，训练生成网络，直到判别网络获取到样本人脸图像的判别结果和真实人脸图像的判别结果均为真的概率，符合第二阈值。

如图6所示，S223可以为：S224、若判别网络获取到样本人脸图像的判别结果和真实人脸图像的判别结果均为真的概率，符合第二阈值，则根据真实人脸图像，训练判别网络，直到判别网络获取到样本人脸图像的判别结果为假、真实人脸图像的判别结果为真的概率，符合第一阈值。

S223和S224是两个相反的训练过程，对应上述S220中条件生成对抗网络，分别用于训练判别网络和生成网络。

其中，参考S220中的方程，第一阈值可以根据需求设置，例如，刚开始训练时，由于生成网络的效果不好，判别网络可以轻易判断G(X)的真假，此时，第一阈值可以设置的比较大，例如85％或90％，第一阈值设置的越大，符合第一阈值时，方程越趋近于最大化。

同样的，第二阈值也可以根据需求设置，不同的是，D无法准确判别训练好的生成网络输出的G(X)，所以判别G(X)为真或为假的概率为50％，说明生成网络输出的目标图像已经和真实图像非常接近，难以区分了。所以，当第二阈值越接近50％时，符合第二阈值时，方程越趋近于最小值。

在本实施例中，通过设置第一阈值和第二阈值来训练生成网络和判别网络，使得训练后的生成网络生成目标图像的效果更好，更加逼真。

图7为本申请一实施例提供的人像生成装置结构示意图。

如图7所示，人像生成装置，包括：

获取模块301，用于获取待生成人脸图像的人脸特征点图像。

生成模块302，用于根据待生成人脸图像的人脸特征点图像、以及待生成人脸图像，通过预先训练的生成网络，将预设人像的人脸图像替换为待生成人脸图像，生成目标人像。

可选地，获取模块301，具体用于获取待生成人脸图像。将待生成人脸图像输入人脸点检测网络，得到多个人脸特征点，其中，每个人脸特征点处于一个人脸区域。在待生成人脸图像中，为每个人脸区域中的人脸特征点加入相同的噪声扰动，获取待生成人脸图像的人脸特征点图像。

可选地，生成模块302，具体用于通过预先训练的生成网络，将待生成人脸图像的人脸特征点图像与预设人像的人脸图像的人脸特征点图像中，相同位置的人脸特征点一一对应，确定预设人像中人脸图像的位置。将待生成人脸图像通过预先训练的生成网络，替换至预设人像中人脸图像的位置。

图8为本申请另一实施例提供的人像生成装置结构示意图。

可选地，如图8所述，该装置还包括训练模块303，用于根据下述步骤得到预先训练的生成网络：

将预设数据库中的样本人脸图像的人脸特征点图像输入生成网络，将预设样本人像的人脸图像替换为样本人脸图像，得到样本目标人像。根据样本目标人像、样本人脸图像的人脸特征点图像、预设数据库中的真实人脸图像、真实人脸图像的人脸特征点图像、以及判别网络，训练生成网络，得到预先训练的生成网络，其中，判别网络用于确定样本目标人像和真实人脸图像的判别结果，判别结果包括：真或假。

可选地，训练模块303，具体用于将样本目标人像、样本人脸图像的人脸特征点图像输入判别网络，获取样本人脸图像的判别结果。将预设数据库中的真实人脸图像、以及真实人脸图像的人脸特征点图像输入判别网络，获取真实人脸图像的判别结果。若样本人脸图像的判别结果为假、真实人脸图像的判别结果为真的概率，符合第一阈值，则根据真实人脸图像，训练生成网络，直到判别网络获取到样本人脸图像的判别结果和真实人脸图像的判别结果均为真的概率，符合第二阈值。

可选地，训练模块303，还用于若判别网络获取到样本人脸图像的判别结果和真实人脸图像的判别结果均为真的概率，符合第二阈值，则根据真实人脸图像，训练判别网络，直到判别网络获取到样本人脸图像的判别结果为假、真实人脸图像的判别结果为真的概率，符合第一阈值。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图9本申请一实施例提供的人像生成设备结构示意图。

如图9所示，人像生成设备，包括：处理器401、存储介质402和总线403，存储介质402存储有处理器401可执行的机器可读指令，当人像生成设备运行时，处理器401与存储介质402之间通过总线403通信，处理器401执行机器可读指令，以执行上述人像生成方法的步骤。

需要说明的是，处理器401可以包括一个或多个处理核(例如，单核处理器或多核处理器)。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit，CPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用指令集处理器(Application Specific Instruction-set Processor，ASIP)、图形处理单元(GraphicsProcessing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field Programmable GateArray，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing，RISC)、或微处理器等，或其任意组合。

存储介质402可以包括：包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory，ROM)等，或其任意组合。作为举例，大容量存储器可以包括磁盘、光盘、固态驱动器等；可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等；易失性读写存储器可以包括随机存取存储器(Random Access Memory，RAM)；RAM可以包括动态RAM(Dynamic Random Access Memory，DRAM)，双倍数据速率同步动态RAM(Double Date-Rate Synchronous RAM，DDR SDRAM)；静态RAM(Static Random-AccessMemory，SRAM)，晶闸管RAM(Thyristor-Based Random Access Memory，T-RAM)和零电容器RAM(Zero-RAM)等。作为举例，ROM可以包括掩模ROM(Mask Read-Only Memory，MROM)、可编程ROM(Programmable Read-Only Memory，PROM)、可擦除可编程ROM(ProgrammableErasable Read-only Memory，PEROM)、电可擦除可编程ROM(Electrically ErasableProgrammable read only memory，EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。

为了便于说明，在人像生成设备中仅描述了一个处理器401。然而，应当注意，本申请中的电子设备还可以包括多个处理器401，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若人像生成设备的处理器401执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

可选地，本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行如上述人像生成方法的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种人像生成方法，其特征在于，包括：

获取待生成人脸图像的人脸特征点图像；

根据所述待生成人脸图像的人脸特征点图像以及所述待生成人脸图像，通过预先训练的生成网络，将预设人像的人脸图像替换为所述待生成人脸图像，生成目标人像；

所述获取待生成人脸图像的人脸特征点图像，包括：

获取待生成人脸图像；

将所述待生成人脸图像输入人脸点检测网络，得到多个所述人脸特征点，其中，每个所述人脸特征点处于一个人脸区域；

在所述待生成人脸图像中，为每个所述人脸区域中的人脸特征点加入相同的噪声扰动，获取所述待生成人脸图像的人脸特征点图像；其中，将每个所述人脸特征点的横坐标和纵坐标的数值分别加入[-5，5]范围的均匀分布噪声；

所述预先训练的生成网络采用下述步骤进行训练得到：

将预设数据库中的样本人脸图像的人脸特征点图像输入生成网络，将预设样本人像的人脸图像替换为所述样本人脸图像，得到样本目标人像；

根据所述样本目标人像、所述样本人脸图像的人脸特征点图像、所述预设数据库中的真实人脸图像、所述真实人脸图像的人脸特征点图像以及判别网络，训练所述生成网络，得到所述预先训练的生成网络，其中，所述判别网络用于确定所述样本目标人像和所述真实人脸图像的判别结果，所述判别结果包括：真或假；

根据所述样本目标人像、所述样本人脸图像的人脸特征点图像以及判别网络，训练所述生成网络，包括：

将所述样本目标人像、所述样本人脸图像的人脸特征点图像输入所述判别网络，获取所述样本人脸图像的判别结果；

将所述预设数据库中的真实人脸图像以及所述真实人脸图像的人脸特征点图像输入所述判别网络，获取所述真实人脸图像的判别结果；

若所述样本人脸图像的判别结果为假、所述真实人脸图像的判别结果为真的概率，符合第一阈值，则根据所述真实人脸图像，训练所述生成网络，直到所述判别网络获取到所述样本人脸图像的判别结果和所述真实人脸图像的判别结果均为真的概率，符合第二阈值。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待生成人脸图像的人脸特征点图像以及所述待生成人脸图像，通过训练后的生成网络，将预设人像的人脸图像替换为所述待生成人脸图像，生成目标人像，包括：

通过所述预先训练的生成网络，将所述待生成人脸图像的人脸特征点图像与所述预设人像的人脸图像的人脸特征点图像中，相同位置的所述人脸特征点一一对应，确定所述预设人像中人脸图像的位置；

将所述待生成人脸图像通过所述预先训练的生成网络，替换至所述预设人像中人脸图像的位置。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述判别网络获取到所述样本人脸图像的判别结果和所述真实人脸图像的判别结果均为真的概率，符合第二阈值，则根据所述真实人脸图像，训练所述判别网络，直到所述判别网络获取到所述样本人脸图像的判别结果为假、所述真实人脸图像的判别结果为真的概率，符合第一阈值。

4.一种人像生成装置，其特征在于，包括：

获取模块，用于获取待生成人脸图像的人脸特征点图像；

生成模块，用于根据所述待生成人脸图像的人脸特征点图像以及所述待生成人脸图像，通过预先训练的生成网络，将预设人像的人脸图像替换为所述待生成人脸图像，生成目标人像；

获取模块，具体用于获取待生成人脸图像；将待生成人脸图像输入人脸点检测网络，得到多个人脸特征点，其中，每个人脸特征点处于一个人脸区域；在待生成人脸图像中，为每个人脸区域中的人脸特征点加入相同的噪声扰动，获取待生成人脸图像的人脸特征点图像；其中，将每个所述人脸特征点的横坐标和纵坐标的数值分别加入[-5，5]范围的均匀分布噪声；

所述装置还包括训练模块，用于根据下述步骤得到预先训练的生成网络：将预设数据库中的样本人脸图像的人脸特征点图像输入生成网络，将预设样本人像的人脸图像替换为样本人脸图像，得到样本目标人像；根据样本目标人像、样本人脸图像的人脸特征点图像、预设数据库中的真实人脸图像、真实人脸图像的人脸特征点图像以及判别网络，训练生成网络，得到预先训练的生成网络，其中，判别网络用于确定样本目标人像和真实人脸图像的判别结果，判别结果包括：真或假；

所述训练模块，具体用于将样本目标人像、样本人脸图像的人脸特征点图像输入判别网络，获取样本人脸图像的判别结果；将预设数据库中的真实人脸图像以及真实人脸图像的人脸特征点图像输入判别网络，获取真实人脸图像的判别结果；若样本人脸图像的判别结果为假、真实人脸图像的判别结果为真的概率，符合第一阈值，则根据真实人脸图像，训练生成网络，直到判别网络获取到样本人脸图像的判别结果和真实人脸图像的判别结果均为真的概率，符合第二阈值。

5.根据权利要求4所述的装置，其特征在于，所述装置还包括训练模块，用于根据下述步骤得到所述预先训练的生成网络：

根据所述样本目标人像、所述样本人脸图像的人脸特征点图像、所述预设数据库中的真实人脸图像、所述真实人脸图像的人脸特征点图像以及判别网络，训练所述生成网络，得到预先训练的生成网络，其中，所述判别网络用于确定所述样本目标人像和所述真实人脸图像的判别结果，所述判别结果包括：真实或合成。

6.一种人像生成设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述人像生成设备运行时，所述处理器与所述存储介质之间通过所述总线通信，所述处理器执行所述机器可读指令，以执行权利要求1-3任一项所述的人像生成方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行权利要求1-3任一项所述的人像生成方法的步骤。