CN112330526B

CN112330526B - 一种人脸转换模型的训练方法、存储介质及终端设备

Info

Publication number: CN112330526B
Application number: CN201910720823.4A
Authority: CN
Inventors: 薛凯文; 赖长明; 徐永泽
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2024-02-09
Anticipated expiration: 2039-08-05
Also published as: CN112330526A; WO2021023003A1

Abstract

本发明公开了一种人脸转换模型的训练方法、存储介质及终端设备，所述方法包括：采用待转换人脸图像、目标人脸图像以及待转换人脸图像的第一人脸状态作为训练样本数据，通过预设生成对抗网络输出转换人脸图像以及转换人脸图像对应的真实率，再提取转换人脸图像的第二人脸状态，根据目标人脸图像和待转换人脸图像、第一人脸状态和第二人脸状态、及真实率对预设生成对抗网络进行训练，得到已训练的人脸转换模型。这样在对抗生成网络训练过程中加入第一人脸状态和第二人脸状态，使得所述对抗生成网络可以将待转换人脸图像的人脸状态迁移至目标人脸图像上，使得人脸转换模型无需针对不同表情朝向进行一一对应，从而提高了人脸转换模型的训练速度。

Description

一种人脸转换模型的训练方法、存储介质及终端设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种人脸转换模型的训练方法、存储介质及终端设备。

背景技术

人脸转换技术为将图片或者视频中的人脸图像转换为目标人脸图像，例如，将泰坦尼克号中rose以及jack的人脸图像换成小明和小红的人脸图像等，再如如果一部影片中的女主角为用户不喜欢，用户也可以换成自己喜欢的女星的人脸图像以提高用户观影乐趣。

人脸转换技术涉及到人脸检测、生成虚拟人脸、人脸状态的迁移三个关键技术，即在人脸转换过程中需要检测图片或者视频中的人脸图像，并根据检测得到的人脸图像生成目标人脸图像，并将人脸图像的表情和朝向转移至目标人脸图像上。而目前现有的人脸转换技术常见的方法是基于cycle gan算法的人脸转换技术，其在训练人脸转换模型时，需要转换人脸换脸和目标人脸图像一一对应，并且在训练过程中需要将同一种表情，同一种朝向的人脸图像进行一一对应，这不但增加了人脸转换模型的训练难度，而且当需要增加新人脸图像的转换时，需要重复上述对应的工作。

发明内容

本发明所要解决的技术问题是，提供一种人脸转换模型的训练方法、存储介质及终端设备。

为了解决上述技术问题，本发明所采用的技术方案为：

一种人脸转换模型的训练方法，所述方法包括：

获取训练样本数据，所述训练样本数据包括待转换人脸图像集和目标人脸图像集，所述待转换人脸图像集包括待转换人脸图像以及待转换人脸图像对应的第一人脸状态，所述目标人脸图像集包括待转换人脸图像集中每一张待转换人脸图像对应的目标人脸图像，其中，第一人脸状态包括待转换人脸图像中的人脸朝向和/或人脸表情；

将所述训练样本数据输入预设生成对抗网络，通过所述预设生成对抗网络获取待转换人脸图像分别对应的转换人脸图像以及所述转换人脸图像对应的真实率，其中，所述转换人脸图像的人脸样貌与所述目标人脸图像的人脸样貌对应，所述转换人脸图像的第二人脸状态与所述待转换人脸图像的第一人脸状态对应；

识别所述转换人脸图像的第二人脸状态；

根据所述第一人脸状态和所述第二人脸状态，以及所述真实率对所述预设生成对抗网络进行修正，得到已训练的人脸转换模型。

所述人脸转换模型的训练方法，其中，所述预设生成对抗网络包括生成器和判别器；所述将所述训练样本数据输入预设生成对抗网络，通过所述预设生成对抗网络获取待转换人脸图像分别对应的转换人脸图像以及所述转换人脸图像对应的真实率，具体包括：

将所述待转换人脸图像、所述第一人脸状态以及目标人脸图像输入所述生成器，通过所述生成器生成所述待转换人脸图像对应的转换人脸图像；

将所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像输入所述判别器，通过所述判别器输出所述转换人脸图像与目标人脸图像的真实率。

所述人脸转换模型的训练方法，其中，根据所述第一人脸状态和所述第二人脸状态，以及所述真实率对所述预设生成对抗网络进行修正，得到已训练的人脸转换模型，具体包括：

固定所述生成器，根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行训练；

固定所述判别器，根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练；

继续执行固定所述生成器的步骤直至所述预设生成对抗网络满足预设条件，以得到已训练的人脸转换模型。

所述人脸转换模型的训练方法，其中，所述固定所述生成器，根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行训练，具体包括：

固定所述生成器，根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像计算第一损失值；

根据所述第一损失值对所述判别器的网络参数进行修正，以对修正后的所述判别器进行训练。

所述人脸转换模型的训练方法，其中，所述固定所述判别器，根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练具体包括：

根据所述真实率计算第二损失值，并根据所述第一人脸状态和所述第二人脸状态进行第三损失值；

根据所述第二损失值和第三损失值计算第四损失值，并根据所述第四损失值对所述生成器的网络参数进行修正，以对修正后的所述生成器进行训练。

所述人脸转换模型的训练方法，其中，所述识别所述转换人脸图像的第二人脸状态具体包括：

将所述转换人脸图像输入已训练的人脸识别模型，以得到转换人脸图像的第一特征坐标点集，其中，所述人脸识别模型为基于人脸图像训练样本集训练得到的，所述人脸图像训练样本集包括多组人脸图像训练样本，各组人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标点集；

根据所述第一特征坐标点集确定所述转换人脸图像的第二人脸状态。

所述人脸转换模型的训练方法，其中，，所述获取训练样本数据具体包括：

获取待转换人脸图像以及所述待转换人脸图像对应的目标人脸图像；

将所述待转换人脸图像输入已训练的人脸识别模型，以得到所述待转换人脸图像对应的第二特征坐标点集，其中，所述人脸识别模型为基于人脸图像训练样本集训练得到的，所述人脸图像训练样本集包括多组人脸图像训练样本，各组人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标点集；

根据所述第二特征坐标点集确定所述待转换人脸图像的第一人脸状态；

根据所述待转换人脸图像以及所述待转换人脸图像对应的第一人脸状态生成待转换人脸图像集，并根据所述目标人脸图像生成目标人脸图像集。

一种人脸图像转换方法，应用如上任意一项所述的人脸转换模型的训练方法得到的已训练的人脸转换模型，所述人脸图像转换方法包括：

获取待转换人脸图像以及目标人脸图像，并将所述待转换人脸图像以及所述目标人脸图像输入所述已训练的人脸转换模型；

获取所述已训练的人脸转换模型所输出的转换人脸图像，以得到所述待转换人脸图像对应的转换人脸图像；其中，所述待转换人脸图像对应的第一人脸状态与所述转换人脸图像的第二人脸状态数据对应，所述转换人脸图像的人脸样貌与所述目标人脸图像的人脸样貌对应。

所述人脸图像转换方法，其中，所述已训练的人脸转换模型包括生成器，所述获取待转换人脸图像以及目标人脸图像，并将所述待转换人脸图像以及目标人脸图像输入所述已训练的人脸转换模型具体包括：

获取待转换人脸图像以及目标人脸图像，并将所述待转换人脸图像以及目标人脸图像输入生成器；

获取所述生成器输出的转换人脸图像，以得所述待转换人脸图像对应的转换人脸图像。

所述人脸图像转换方法，其中，所述获取待转换人脸图像具体为：

获取具有人脸图像的待处理图像；

提取所述待处理图像中的人脸图像，并将提取到的所述人脸图像作为待转换人脸图像。

所述人脸图像转换方法，其中，所述待处理图像为具有人脸图像的视频帧或携带人脸图像的图片。

所述人脸图像转换方法，其中，所述获取所述已训练的人脸转换模型所输出的转换人脸图像，以得到所述待转换人脸图像对应的转换人脸图像之后还包括：

将所述转换人脸图像替换所述待处理图像中的所述待转换人脸图像，以得到携带所述转换人脸图像的待处理图像。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述人脸转换模型的训练方法或者如上任一所述的人脸图像转换方法中的步骤。

一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述人脸转换模型的训练方法或者如上任一所述的人脸转换模型的训练方法中的步骤。

与现有技术相比，本发明实施例具有以下优点：

根据本发明实施方式提供人脸转换模型的训练方法，采用待转换人脸图像、目标人脸图像以及待转换人脸图像的第一人脸状态作为训练样本数据，通过预设生成对抗网络输出转换人脸图像以及转换人脸图像对应的真实率，再提取转换人脸图像的第二人脸状态，根据所述目标人脸图像和待转换人脸图像、第一人脸状态和第二人脸状态、以及真实率对预设生成对抗网络进行训练，以得到已训练的人脸转换模型。可见，本发明实施例中，在对抗生成网络训练过程中加入待转换人脸图像的第一人脸状态和转换人脸图像的第二人脸状态，使得所述对抗生成网络可以将待转换人脸图像的人脸状态迁移至目标人脸图像上，使得人脸转换模型无需针对不同表情朝向进行一一对应，从而提高了人脸转换模型的训练速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要支持的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一个示例性应用场景的框架示意图；

图2为本发明实施例中一种人脸转换模型的训练方法的流程示意图；

图3为本发明实施例中一种人脸转换模型的训练方法中流程框图；

图4为本发明实施例中一种人脸转换模型的训练方法中预设人脸识别模型的训练过程的流程示意图；

图5为本发明实施例中一种人脸转换模型的训练方法中步骤S20的流程示意图；

图6为本发明实施例中一种人脸转换模型的训练方法中人脸图像的特征点的示意图；

图7为本发明实施例中一种人脸图像转换方法的流程示意图；

图8为本发明实施例中一种终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人经过研究发现，人脸转换技术涉及到人脸检测、生成虚拟人脸、人脸状态的迁移三个关键技术，即在人脸转换过程中需要检测图片或者视频中的待转换人脸图像，再获取期望转换得到的目标人脸图像，最后将待转换人脸图像映射至目标人脸图像上，并将待转换人脸图像的人脸状态迁移至目标人脸图像上。而目前现有的人脸转换技术常见的方法是基于cycle gan算法的人脸转换技术，其在训练人脸转换模型时，需要转换人脸换脸和目标人脸图像一一对应，并且在训练过程中需要将同一种表情，同一种朝向的人脸图像进行一一对应，这不但增加了人脸转换模型的训练难度，而且当需要增加新人脸图像的转换时，需要重复上述对应的工作。

为了解决上述问题，在本发明实施例中，采用待转换人脸图像、目标人脸图像以及待转换人脸图像的第一人脸状态作为训练样本数据，通过预设生成对抗网络输出转换人脸图像以及转换人脸图像对应的真实率，再提取转换人脸图像的第二人脸状态，根据所述目标人脸图像和待转换人脸图像、第一人脸状态和第二人脸状态、以及真实率对预设生成对抗网络进行训练，以得到已训练的人脸转换模型。可见，本发明实施例中，在对抗生成网络训练过程中加入待转换人脸图像的第一人脸状态和转换人脸图像的第二人脸状态，使得所述对抗生成网络可以将待转换人脸图像的人脸状态迁移至目标人脸图像上，使得人脸转换模型无需针对不同表情朝向进行一一对应，从而提高了人脸转换模型的训练速度。

举例说明，本发明实施例可以应用到如图1所示的场景。在该场景中，首先，用户101可以采集训练数据样本，并将所述训练数据样本输入终端设备，以使得终端设备102依据所述训练数据样本对预设生成对抗网络。终端设备102可以预先存储有预设生成对抗网络，并响应用户101的输入的训练数据样本，将所述训练样本作为输入项输入预设生成对抗网络，然后，通过预设人脸识别模型获取对抗生成网络输出的转换人脸图像的第二人脸状态；根据所述转换人脸图像和待转换人脸图像，所述第一人脸状态和所述第二人脸状态，以及真实率对所述预设生成对抗网络进行修正，以得到所述人脸转换模型。

需要注意的是，上述应用场景仅是为了便于理解本发明而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

下面结合附图，详细说明本发明的各种非限制性实施方式。

本实施例提供了一种人脸转换模型的训练方法，如图2和3所示，所述方法例如可以包括以下步骤：

S10、获取训练样本数据，所述训练样本数据包括待转换人脸图像集和目标人脸图像集，所述待转换人脸图像集包括待转换人脸图像以及待转换人脸图像对应的第一人脸状态，所述目标人脸图像集包括待转换人脸图像集中每一张待转换人脸图像对应的目标人脸图像，其中，第一人脸状态包括待转换人脸图像中的人脸朝向和/或人脸表情。

具体地，所述训练样本数据为对预设生成对抗网络进行训练所需的人脸图像，所述训练样本数据包括待转换人脸图像集和目标人脸图像集。所述待转换人脸图像集包括待转换人脸图像以及待转换人脸图像对应的第一人脸状态，所述目标人脸图像集中的目标人脸图像与待转换人脸图像集中的一张待转换人脸图像对应。这里将待转换人脸图像期望转换到的人脸图像记为转换人脸图像，所述转换人脸图像的人脸样貌与目标人脸图像的人脸样貌相对应，所述转换人脸图像的第二人脸状态与待转换人脸图像的第一人脸状态相对应。

进一步所述人脸状态至少包含人脸朝向和人脸表情中的一种，其中，所述人脸朝向可以包括正前方向、左前方等。所述人脸表情可以包括笑，哭等。在本实施例中，所述人脸状态包括人脸朝向和人脸表情。相应的，所述第一人脸状态指的是待转换人脸图像的人脸状态，例如第一人脸状态可以包括待转换人脸图像的人脸朝向和/或人脸表情，所述第二人脸状态指的是转换人脸图像的人脸状态，例如第二人脸状态可以包括转换人脸图像的人脸朝向和人脸表情。

举例说明：所述待转换人脸图像为A的人脸图像，其对应的目标人脸图像为B的人脸图像，所述A的人脸图像期望得到的转换人脸图像的人脸样貌为B的人脸样貌，转换人脸图像的人脸状态为A的人脸状态。

进一步，在本实施例的一个实现方式中，所述获取训练样本数据具体包括以下步骤：

S11、获取待转换人脸图像以及所述待转换人脸图像对应的目标人脸图像；

S12、将所述待转换人脸图像输入已训练的人脸识别模型，以得到所述待转换人脸图像对应的第二特征坐标点集，其中，所述人脸识别模型为基于人脸图像训练样本集训练得到的，所述人脸图像训练样本集包括多组人脸图像训练样本，各组人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标点集；

S13、根据所述第二特征坐标点集确定所述待转换人脸图像的第一人脸状态；

S14、根据所述待转换人脸图像以及所述待转换人脸图像对应的第一人脸状态生成待转换人脸图像集，并根据所述目标人脸图像生成目标人脸图像集。

具体地，所述已训练的人脸识别模型为用于识别人脸特征点的网络模型，通过所述人脸识别模型可以识别人脸图像中人脸特征点集合。所述人脸识别模型是基于人脸图像训练样本集训练得到，所述人脸图像训练样本集中的每一人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标点集。在本实施例中，所述人脸识别模型为MTCNN神经网络，所述人脸图像训练样本集为人脸数据集。所述人脸数据集优选为300W数据集，所述300W数据集包含300张室内图像和300张室外图像，并且300W数据集中各图像的表情、光照条件、姿态、遮挡以及脸部大小均不同，并且各人脸图像均标注了人脸的68个关键点，这样将人脸图像输入到已训练的人脸识别模型可以识别到人脸的68个关键点。当然，在本实施例的其他实现方式中，所述人脸数据集还可以为哥伦比亚大学公开人物脸部数据库等，所述各人脸图像上可以标注其他数量的关键点，例如，5个关键点等。

进一步，所述MTCNN神经网络包括P-Net(Proposal Network)层、O-Net(OutputNetwork)层和R-Net层，P-Net层用于对图像金字塔特征提取与标定边框，O-Net层用户识别面部的区域，R-Net层用于会滤除面部特征少的候选框。如图4所示，所述已训练人脸识别模型使用过程具体可以为：首先将输入的图片分解成大小不同的若干图片，以形成一个图片金字塔,然后将图片金字塔中的各图片依次送入P-Net输出人脸框，O-Net识别面部的区域，并根据识别到的面部区域对P-Net输出的人脸框进行位置的调整，R-Net获取O-Net输出的各人脸框识别到的面部特征，并各人脸框包含的面部特征对人脸进行调整，以输出人脸特征点的坐标，例如，左右眼瞳孔，左右眼嘴角以及鼻尖。

此外，在预设人脸识别模型检测到待转换人脸图像和转换人脸图像的特征点坐标后，可以分别将待转换人脸图像和转换人脸图像的特征点坐标进行归一化处理，在所述归一化处理过程中，对于每个特征点坐标的横坐标处于人脸检测框的宽度范围内，对于每个特征点坐标的纵坐标处于人脸检测框的高度范围内，其中，所述人脸检测框宽和高优选为128。这里特征点P(x，y)，x表示特征点的横坐标，y表示特征点的纵坐标，所述横坐标x的归一化公式和纵坐标y的归一化公式可以分为：

x₁＝x/w

y₁＝y/h

其中，w为人脸检测框的宽，h为人脸检测框的高，x₁为归一化后的横坐标，y₁为归一化后的纵坐标。

S20、将所述训练样本数据输入预设生成对抗网络，通过所述预设生成对抗网络获取待转换人脸图像分别对应的转换人脸图像以及所述转换人脸图像对应的真实率，其中，所述转换人脸图像的人脸样貌与所述目标人脸图像的人脸样貌对应，所述转换人脸图像的第二人脸状态与所述待转换人脸图像的第一人脸状态对应。

具体地，所述预设生成对抗网络为预先建立的用于人脸转换的生成对抗网络，通过所述训练样本数据对所述预设生成对抗网络进行训练，可以得到用于人脸交换的人脸交换模型。在本实施例中，所述预设生成对抗网络采用Generative Adversarial Nets网络(GAN网络)，其具体可以包括生成器和判别器，所述生成器用于根据人脸图像生成转换人脸图像，所述判别器用于判别转换人脸图像与目标人脸图像的真实率。相应的，如图5所示，所述预设生成对抗网络包括生成器和判别器；所述将所述训练样本数据输入预设生成对抗网络，通过所述预设生成对抗网络获取待转换人脸图像分别对应的转换人脸图像以及所述转换人脸图像对应的真实率，具体包括以下步骤：

S21、将所述待转换人脸图像、所述第一人脸状态以及目标人脸图像输入所述生成器，通过所述生成器生成所述待转换人脸图像对应的转换人脸图像；

S22、将所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像输入所述判别器，通过所述判别器输出所述转换人脸图像与目标人脸图像的真实率。

具体地，所述生成器为全卷积模型，所述全卷积模型包括输入层、六层卷积层以及输出层，所述输入层的输入项为待转换人脸图像、目标人脸图像以及第一人脸状态，所述输出层输出转换人脸图像。在本实施例中，生成器的网络结构可以如表1所示，所述输入层记为Input网络层，六层卷积层按照卷积层的排布顺序依次记为C7s1_32网络层、D64网络层、D128网络层、Res_block网络层、U64网络层以及U32网络层，所述输出层记为C7s1_3网络层。所述输入层的输出项为所述C7s1_32网络层的输入项，所述C7s1_32网络层的输出项为所述D64网络层的输入项，所述D64网络层的输出项为所述D128网络层的输入项，所述D128网络层的输出项为Res_block网络层的输入项，所述Res_block网络层的输出项为U64网络层的输入项，所述U64网络层的输出项为U32网络层的输入项，所述U32网络层的输出项为C7s1_32网络层的输入项，所述C7s1_32网络层输出生成器生成的转换人脸图像。

表1生成器的网络结构

网络层名字	输入大小(HWC)	输出大小(HWC)	特性
				Input	1281283	1281283	RGB,归一化到[-1,1]
C7s1_32	1281283	12812832	Conv；K:7,S:1,P:3,O:32
				D64	12812832	646464	Conv；K:3,S:2,P:1,O:64
D128	646464	3232128	Conv；K:3,S:2,P:1,O:128
				Res_block	3232128	3232128	*6；Conv；K:3,S:1,P:1,O:128
U64	3232128	646464	Deconv；K:3,S:2,P:1,O:64
				U32	646464	12812832	Deconv；K:3,S:2,P:1,O:32
C7s1_3	12812832	1281283	Conv；K:7,S:1,P:3,O:3

进一步，如表1所示，所述Input层的输入项为128*128*3的待转换人脸图像，所述待转换人脸图像依次通过各卷积层后通C7s1_3层输出转换人脸图像。此外，在所述特性中的conv:卷积层，Deconv:反卷积层,K:卷积核的大小，S：步幅Stride的大小，P:填充像素padding的大小，O:输出通道数。所述生成器的网络结构中的Input层未配置有激活层，最后C7s1_3层的激活函数采用tanh作为激活函数，而除了Input层和C7s1_3层外均采用Relu作为激活函数，通过ReLU作为激活函数，可以提高C7s1_32网络层、D64网络层、D128网络层、Res_block网络层、U64网络层以及U32网络层的梯度传递效率，并且经过多次的反向传播，梯度幅度变化小，提高了训练的生成器的准确性。

进一步，在本实施例的一个实现方式中，所述Res_block残差层的网络结构可以如表2所示。

表2 Res_block残差层的网络结构

网络层名字	输入大小(HWC)	输出大小(HWC)	特性
				Res_input	3232128	3232128
Res_conv1	3232128	3232128	Conv；K:3,S:1,P:1,O:128
				Res_conv2	3232128	3232128	Conv；K:3,S:1,P:1,O:128
Res_elewise_add	3232128	3232128	逐元素相加

其中，所述Res_block残差层采用了4层Res_block残差模块，所述4层Res_block残差模块中的最后一层残差模块将Res_input和Res_conv2的输出逐元素相加，并且每个Res_block残差模块后均加入batch normization和relu层。所述Res_block残差层通过入batchnormization可以提高训练加速并防止过拟合，并通过加入所述relu层来进入非线性运算，加强网络表示性，防止梯度消失并且梯度计算方便。此外，所述表格2中的特性中的各符号的意思与表格1中的特性中的各符号的意思相同，这里就不在赘述。

进一步，所述判别器采用交叉熵损失函数进行训练，并且所述判别器的网络结构可以如表3所示，所述网格结构中除了Last_conv卷积层之外其余的卷积层均采用relu激活函数，通过ReLU作为激活函数，可以提高除Last_conv卷积层之外其余的卷积层梯度传递效率，并且经过多次的反向传播，梯度幅度变化小，提高了训练的生成器的准确性，而Last_conv卷积层采用sigmoid激活函数，可以通过sigmoid激活函数来抑制转换人脸图像与目标人脸图像的真实率的误差。所述网络结构中的各卷积层依次设置，并且前一卷积层的输出项为后一卷积层的输入项。

表3判别器的网络结构

网络层名字	输入大小(HWC)	输出大小(HWC)	特性
				Input	1281283	1281283	值范围[-1,1]
C64	1281283	646464	Conv；K:3,S:2,P:1,O:64
				C128	646464	3232128	Conv；K:3,S:2,P:1,O:128
C256	3232128	1616256	Conv；K:3,S:2,P:1,O:256
				C512	1616256	88512	Conv；K:3,S:2,P:1,O:512
Last_conv	88512	881	Conv；K:3,S:1,P:1,O:1
				Pool	881	111	AvePool；K:8,S:1,P:0,O:1

S30、识别所述转换人脸图像的第二人脸状态。

具体地，所述第二人脸状态为转换得到的转换人脸图像的人脸状态，所述人脸状态与所述待转换人脸图像的第一人脸状态相对应。所述第二人脸状态可以运用基于边缘检测Canny算子的随机Hough变化定位到的瞳孔、鼻子以及嘴部的坐标来确定，也可以是通过人脸识别模型识别得到。在本实施例的一种实现方式中，当所述第二人脸状态通过人脸识别模型识别得到时，相应的，所述识别所述转换人脸图像的第二人脸状态，具体包括以下步骤：

S31、将所述转换人脸图像输入已训练的人脸识别模型，以得到转换人脸图像的第一特征坐标点集，其中，所述人脸识别模型为基于人脸图像训练样本集训练得到的，所述人脸图像训练样本集包括多组人脸图像训练样本，各组人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标点集；

S32、根据所述第一特征坐标点集确定所述转换人脸图像的第二人脸状态。

具体地，所述已训练的人脸识别模型为基于MTCNN神经网络训练得到，所述预设人脸识别模型的训练样本为人脸数据集。所述人脸数据集优选为300W数据集，所述300W数据集包含300张室内图像和300张室外图像，并且300W数据集中各图像的表情、光照条件、姿态、遮挡以及脸部大小均不同，并且各人脸图像均标注了人脸的68个关键点，这样将人脸图像输入到已训练的人脸识别模型可以识别到人脸的68个关键点。当然，在本实施例的其他实现方式中，所述人脸数据集还可以为哥伦比亚大学公开人物脸部数据库等，所述各人脸图像上可以标注其他数量的关键点，例如，5个关键点等。

在本实施例中，所述MTCNN神经网络包括P-Net(Proposal Network)层、O-Net(Output Network)层和R-Net层，P-Net层用于对图像金字塔特征提取与标定边框，O-Net层用户识别面部的区域，R-Net层用于会滤除面部特征少的候选框。如图6所示，所述已训练人脸识别模型使用过程具体可以为：首先将输入的图片分解成大小不同的若干图片，以形成一个图片金字塔,然后将图片金字塔中的各图片依次送入P-Net输出人脸框，O-Net识别面部的区域，并根据识别到的面部区域对P-Net输出的人脸框进行位置的调整，R-Net获取O-Net输出的各人脸框识别到的面部特征，并各人脸框包含的面部特征对人脸进行调整，以输出人脸特征点的坐标，例如，左右眼瞳孔，左右眼嘴角以及鼻尖。此外，在预设人脸识别模型检测到待转换人脸图像和转换人脸图像的特征点坐标后，可以分别将待转换人脸图像和转换人脸图像的特征点坐标进行归一化处理，在所述归一化处理过程中，对于每个特征点坐标的横坐标处于人脸检测框的宽度范围内，对于每个特征点坐标的纵坐标处于人脸检测框的高度范围内，其中，所述人脸检测框宽和高优选为128。这里特征点P(x，y)，x表示特征点的横坐标，y表示特征点的纵坐标，所述横坐标x的归一化公式和纵坐标y的归一化公式可以分为：

x₁＝x/w

y₁＝y/h

进一步，所述第一特征坐标点集和第二特征坐标点集包含的坐标点数量相同且一一对应。例如，所述第一特征坐标点集记为(A₁，A₂，...，A_i，...，A_N)，第二特征坐标点集记为(B₁，B₂，...，B_i，...，B_N)，那么所述A₁和B₁相对应，A_i和B_i相对应，A_N和B_N相对应。此外在本实施例中，所述已训练的人脸识别模型用于识别人脸的68个关键点，如图6所示，所述68个关键点分别分布在眼睛、鼻子、嘴部以及面部轮廓，通过所述68个关键点可以确定人脸图像的人脸朝向和表情。相应的，所述第一特征坐标点集和第二特征坐标点集均包括68个坐标点，并且每个坐标点表示一个人脸关键点的位置。这样根据所述第一特征坐标点集可以确定转换人脸图像中眼睛、鼻子、嘴部以及面部轮廓的位置，根据转换人脸图像中眼睛、鼻子、嘴部以及面部轮廓的位置可以确定转换人脸图像的人脸状态；根据第二特征坐标点集可以确定待转换人脸图像中眼睛、鼻子、嘴部以及面部轮廓的位置，根据待转换人脸图像中眼睛、鼻子、嘴部以及面部轮廓的位置可以确定待转换人脸图像的人脸状态。

S40、根据所述第一人脸状态和所述第二人脸状态，以及所述真实率对所述预设生成对抗网络进行修正，得到已训练的人脸转换模型。

具体地，所述对所述预设生成对抗网络进行修正指的是对所述预设生成对抗网络的网络参数进行修正，直至所述网络参数满足预设条件。所述预设条件包括损失函数值满足预设要求或者训练次数达到预设次数。所述预设要求可以是根据人脸转换模型精度来确定，这里不做详细说明，所述预设次数可以为预设神经网络的最大训练次数，例如，4000次等。

进一步，所述对抗生成网络包括生成器和判别器，所述生成器用于生成转换人脸图像，所述转换人脸图像用于输出转换人脸图像，并期望转换人脸图像骗过所述判别器，所述判别器用于判断转换人脸图像的真假所述生成器与所述判别器为对抗关系，而为了保证生成对抗网络中生成器和判别器的平衡性，在对预设生成对抗网络进行训练时，可以采用对生成器和判别器交替训练的方式。相应的，所述根据所述第一人脸状态和所述第二人脸状态，以及所述真实率对所述预设生成对抗网络进行修正，得到已训练的人脸转换模型，具体包括以下步骤：

S41、固定所述生成器，根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行训练；

S42、固定所述判别器，根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练；

S43、继续执行固定所述生成器的步骤直至所述预设生成对抗网络满足预设条件，以得到已训练的人脸转换模型

具体地，所述固定所述生成器指的是固定所述生成器的网络参数，所述固定所述判别器指的是固定所述判别器的网络参数。在对所述判别器进行训练时，保持所述生成器的网络参数不变，而在对所述生成器进行训练时，保证所述判别器的网络参数不变，并交替对所述生成器和判别器进行训练。

进一步，在本实施例的一个实现方式中，所述生成器和判别器的交替训练可以在一次训练中完成，所述交替训练的过程可以为：首先，将待转换人脸图像、目标人脸图像以及第一人脸状态输入生成器，并且读取生成器输出的转换人脸图像；其次，固定所述生成器，根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行训练，并通过训练后的判别器输出转换人脸图像与目标人脸图像的真实率；然后，固定所述判别器，根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练，以实现对生成器与判别的交替训练。

进一步，在本实施例的一个实现方式中，所述生成器和判别器的交替训练可以在两次训练中完成，第一次训练的过程：将待转换人脸图像、目标人脸图像以及第一人脸状态输入生成器，并且读取生成器输出的转换人脸图像，固定所述生成器，根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行训练，并通过训练后的判别器输出转换人脸图像与目标人脸图像的真实率；第二训练的过程为：将待转换人脸图像、目标人脸图像以及第一人脸状态输入生成器，并且读取生成器输出的转换人脸图像；固定判别器，根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练，以实现对生成器与判别的交替训练。

进一步，在本实施例的一个实现方式中，如图7所示，所述固定所述生成器，根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行训练，具体包括：

S411、固定所述生成器，根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像计算第一损失值；

S412、根据所述第一损失值对所述判别器的网络参数进行修正，以对修正后的所述判别器进行训练。

具体地，所述第一损失值为判别器判别转换人脸图像与目标人脸图像的真实率的损失值，所述第一损失值表示所述判别器判别得到的真实率与转换人脸图像与目标人脸图像的真实率的损失值，所述第一损失值越大，说明判别器判断的准确性越低，所述第一损失值越小，说明判别器判断的准确性越高。在本实施例中，所述第一损失值对应的损失函数记为所述第一损失函数L_d，根据所述第一损失函数计算判别器的第一损失值，并通过所述第一损失值对所述判别器的网络参数进行修正。在本实施例中，所述第一损失函数L_d的表达式可以为：

其中，所述B表示转换人脸图像，D为判别器，所述C表示目标人脸图像，D(B)表示判别器判别B的真实率，D(C)表示判别器判别C的真实率。

进一步，在本实施例的一个实现方式中，所述固定所述判别器，根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练具体包括：

S421、根据所述真实率计算第二损失值，并根据所述第一人脸状态和所述第二人脸状态进行第三损失值；

S422、根据所述第二损失值和第三损失值计算第四损失值，并根据所述第四损失值对所述生成器的网络参数进行修正，以对修正后的所述生成器进行训练。

具体地，所述生成器包括两部分损失值，两部分损失值中的一部分损失值用于表示人脸样貌转换的损失值，记为第二损失值，另一部分损失值用于表示人脸状态的损失，记为第三损失值。其中，所述第二损失值用于表示转换人脸图像的人脸样貌与目标人脸图像的人脸样貌的损失值，通过第二损失值可以反映反应转换人脸图像与目标人脸图像的相似程度，并且所述第二损失值越大，转换人脸图像的相似程度越低，反之，所述二损失值越小，转换人脸图像的相似程度越高。所述第三损失值为待转换人脸图像的第二人脸状态与转换人脸图像的第一人脸状态的损失值，所述第三损失值用于表示待转换人脸图像的第一人脸状态与转换人脸图像的第二人脸状态的相似程度，第二损失值越大，待转换人脸图像的第一人脸状态与转换人脸图像的第二人脸状态的相似程度越低，反之，所述二损失值越小，第一人脸状态与第二人脸状态的相似程度越高。在本实施例中，所述第二损失值对应的第二损失函数L_d，所述第三损失值对应的所述第三损失函数L_lm，所述第二损失函数L_g的表达式可以为：

L_g＝-log(D(B))

其中，所述B表示转换人脸图像，D为判别器。

进一步，所述第三损失函数的表达式可以为：

其中，所述A_i表示待转换人脸图像的特征点坐标，B_i表示转换人脸图像的特征坐标点，所述N表示特征点坐标的数量，为正整数，i代表特征点坐标在特征点坐标集中的位置，为正整数。

进一步，所述生成器的损失值根据所述第二损失值和所述第三损失值计算计算得到，从而，在得到第二损失值和第三损失值之后，可以根据所述第二损失值和第三损失值计算所述生成器的损失值，其中，所述生成器的损失值L的计算公式为：

L＝L_g+λL_lm

其中，L表示生成器损失值，L_g为第二损失函数，L_lm为第三损失函数，λ为权重系数。

此外，基于上述的人脸转换模型的训练方法，本发明还提供了一种人脸图像转换方法，应用上述所述的人脸转换模型的训练方法得到的已训练的人脸转换模型，如图7所示，所述人脸图像转换方法包括：

M10、获取待转换人脸图像以及目标人脸图像，并将所述待转换人脸图像以及所述目标人脸图像输入所述已训练的人脸转换模型；

M20、获取所述已训练的人脸转换模型所输出的转换人脸图像，以得到所述待转换人脸图像对应的转换人脸图像；其中，所述待转换人脸图像对应的第一人脸状态与所述转换人脸图像的第二人脸状态数据对应，所述转换人脸图像的人脸样貌与所述目标人脸图像的人脸样貌对应。

具体地，所述待转换人脸图像可以为预先设置的人脸图像，也可以是根据接收的选取操作而确定的人脸图像，还可以是根据用户输入的关键词查找到的人脸图像，例如，待转换人脸图像为根据接收的选取操作，在当前显示的画面中选取的人脸图像。所述目标人脸图像可以是用户预先设置的，也可以是根据用户输入的关键词查找到。例如，所述目标人脸图像为根据用户输入的关键“张曼玉”查找到的张曼玉的人脸图像。

进一步，在本实施例的一个实现方式中，所述已训练的人脸转换模型包括生成器，相应的，所述获取待转换人脸图像以及目标人脸图像，并将所述待转换人脸图像以及目标人脸图像输入所述已训练的人脸转换模型具体包括：

具体地，在获取到待转换人脸图像和目标人脸图像后，将所述待转换人脸图像和目标人脸图像输入生成器中，通过所述生成器生成所述待转换人脸图像对应的转换人脸图像。所述待转换人脸图像对应的第一人脸状态与所述转换人脸图像的第二人脸状态数据对应，所述转换人脸图像的人脸样貌与所述目标人脸图像的人脸样貌对应，以使得转换得到的目标人脸图像的人脸状态与所述待转换人脸图像一致，从而实现了人脸图像转换以及人脸状态的迁移，提高转换得到的目标人脸图像的真实性。

进一步，在本实施例的一个实现方式中，所述人脸图像是通过对待处理图像进行识别得到的，相应的，所述获取待转换人脸图像具体为：

获取具有人脸图像的待处理图像；

具体地，所所述待处理图像可以具有人脸图像的视频帧。所述具有人脸图像的视频帧的选取过程可以为：将视频文件划分为若干视频帧，在划分得到的若干视频帧内选取具有人脸图像的人脸视频帧，可以在选取到的具有人脸图像的人脸视频帧中任选一人脸视频帧作为待处理图像，也可以是接收到选取操作，并将选取操作对应的人脸视频帧作为待处理图像。其中，所述选取操作可以是选取特定人脸视频帧的操作，也可以是输入人脸关键词的操作。例如，选取操作为输入人脸关键词“A”，在所有人脸视频帧中查找携带A的人脸视频帧，将查找到人脸视频帧作为待处理图像。同时，在将待处理图像中的待转换人脸图像转换为目标人脸图像后，对于所述视频中任一携带所述待转换人脸图像的视频帧，均将所述视频帧中携带的待转换人脸图像转换为目标人脸图像。此外，所述待处理图像还可以为携带人脸图像的图片，所述图片可以输用户输入的，也可以是通过互联网下载的，还可以是通过拍摄装置拍摄得到的。

举例说明：当用户观看电影“泰坦尼克号”时，想要将rose的人脸转换为C的人脸，那么接收用户输入的关键字“rose”，根据所述关键字在“泰坦尼克号”的视频中查找所有携带“rose”人脸图像的视频帧，分别将查找到的各视频帧作为待处理图像，将各待处理图像携带的“rose”人脸图像转换为“C”人脸图像，在播放“泰坦尼克号”的视频的过程中，携带“rose”人脸图像的视频帧中“rose”人脸图像转换为“C”人脸图像。

进一步，在获取到待转换人脸图像对应的转换人脸图像后，采用所述转换人脸图像替换待转换人脸图像，以得到转换后的图像。相应的，所述获取所述已训练的人脸转换模型所输出的转换人脸图像，以得到所述待转换人脸图像对应的转换人脸图像之后还包括：

具体地，所述转换人脸图像替换所述待转换人脸图像可以为将处理图像中的待转换人脸图像去除，并将转换人脸图像添加到所述去除区域，以使得转换人脸图像替换所述待转换人脸图像；也可以将处理图像中的待转换人脸图像去除，将转换人脸图像融合到所述去除区域，例如，泊松融合。

基于上述人脸转换模型的训练方法，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述实施例所述的人脸转换模型的训练方法中的步骤。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供了一种终端设备，如图8所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸转换模型的训练方法，其特征在于，所述方法包括：

所述获取训练样本数据具体包括：

根据所述待转换人脸图像以及所述待转换人脸图像对应的第一人脸状态生成待转换人脸图像集，并根据所述目标人脸图像生成目标人脸图像集；

识别所述转换人脸图像的第二人脸状态；

所述识别所述转换人脸图像的第二人脸状态具体包括：

根据所述第一特征坐标点集确定所述转换人脸图像的第二人脸状态；

根据所述第一人脸状态和所述第二人脸状态，以及所述真实率对所述预设生成对抗网络进行修正，得到已训练的人脸转换模型；

所述第一特征坐标点集和所述第二特征坐标点集包含的坐标点数量相同且一一对应。

2.根据权利要求1所述人脸转换模型的训练方法，其特征在于，所述预设生成对抗网络包括生成器和判别器；所述将所述训练样本数据输入预设生成对抗网络，通过所述预设生成对抗网络获取待转换人脸图像分别对应的转换人脸图像以及所述转换人脸图像对应的真实率，具体包括：

3.根据权利要求2所述人脸转换模型的训练方法，其特征在于，根据所述第一人脸状态和所述第二人脸状态，以及所述真实率对所述预设生成对抗网络进行修正，得到已训练的人脸转换模型，具体包括：

4.根据权利要求3所述人脸转换模型的训练方法，其特征在于，所述固定所述生成器，根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行训练，具体包括：

5.根据权利要求3所述人脸转换模型的训练方法，其特征在于，所述固定所述判别器，根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练具体包括：

6.一种人脸图像转换方法，其特征在于，应用如权利要求1-5任意一项所述的人脸转换模型的训练方法得到的已训练的人脸转换模型，所述人脸图像转换方法包括：

7.根据权利要求6所述人脸图像转换方法，其特征在于，所述已训练的人脸转换模型包括生成器，所述获取待转换人脸图像以及目标人脸图像，并将所述待转换人脸图像以及目标人脸图像输入所述已训练的人脸转换模型具体包括：

8.根据权利要求6所述人脸图像转换方法，其特征在于，所述获取待转换人脸图像具体为：

获取具有人脸图像的待处理图像；

9.根据权利要求8所述人脸图像转换方法，其特征在于，所述待处理图像为具有人脸图像的视频帧或携带人脸图像的图片。

10.根据权利要求8或9所述人脸图像转换方法，其特征在于，所述获取所述已训练的人脸转换模型所输出的转换人脸图像，以得到所述待转换人脸图像对应的转换人脸图像之后还包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～5任意一项所述人脸转换模型的训练方法或者如权利要求6～10任意一项所述的人脸图像转换方法中的步骤。

12.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1～5任意一项所述人脸转换模型的训练方法或者如权利要求6～10任意一项所述的人脸转换模型的训练方法中的步骤。