CN113689527A

CN113689527A - 一种人脸转换模型的训练方法、人脸图像转换方法

Info

Publication number: CN113689527A
Application number: CN202010414518.5A
Authority: CN
Inventors: 汪浩; 刘阳兴
Original assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Current assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-23
Anticipated expiration: 2040-05-15
Also published as: CN113689527B

Abstract

本申请涉及一种人脸转换模型的训练方法、人脸图像转换方法，所述人脸转换模型的训练方法包括：根据目标音频数据以及待转换人脸图像的待转换人脸关键点确定预测人脸关键点；将待转换人脸图像、目标人脸图像、待转换人脸关键点以及预测人脸关键点输入预设生成对抗网络模型，生成预测人脸图像以及判别结果；根据目标人脸图像、预测人脸图像以及判别结果，对预设生成对抗网络模型的模型参数进行修正，以得到已训练的人脸转换模型。在确定目标音频数据对应的预测人脸关键点时，目标音频数据中与语音内容无关的视听信号并不会体现在预测人脸关键点上，因此，可以避免拟合与语音内容无关的视听信号之间的假相关性，得到的预测人脸图像效果较佳。

Description

一种人脸转换模型的训练方法、人脸图像转换方法

技术领域

本申请涉及图像处理技术领域，特别是涉及一种人脸转换模型的训练方法、人脸图像转换方法。

背景技术

经过近几年深度学习尤其是计算机视觉技术的飞速发展，计算机视觉技术已经广泛应用于安防监控，医疗健康等众多领域。虚拟现实技术作为更高级别的计算机视觉技术已成为目前的研究热点。虚拟真人是指利用数字化技术生成真人视频，根据另一种模态对移动的人脸或者身体的动态建模是计算机视觉中的一个基本问题，其应用范围从音频到视频生成、文本到视频生成和驱动图像或视频到目标视频生成。

有很多网络或者很多算法来进行生成人脸动画的研究，现有技术中简单的利用音频、图像和视频端到端的生成图像或视频时，容易拟合与语音内容无关的视听信号之间的假相关性。

因此，现有技术有待改进。

发明内容

本发明所要解决的技术问题是，提供生成对抗网络的训练方法、人脸图像转换方法，以实现图像生成时，避免拟合与语音内容无关的视听信号之间的假相关性。

第一方面，本发明实施例提供了一种人脸转换模型的训练方法，所述训练方法包括：

获取训练样本数据中目标音频数据以及所述目标音频数据对应的待转换人脸图像、目标人脸图像；其中，所述目标人脸图像为所述目标音频数据对应的原始人脸图像；

根据所述目标音频数据以及所述待转换人脸图像的待转换人脸关键点，确定所述目标音频数据对应的预测人脸关键点；

将所述待转换人脸图像、所述目标人脸图像、所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入预设生成对抗网络模型，通过所述预设生成对抗网络模型，生成所述目标音频数据对应的预测人脸图像以及所述预测人脸图像对应的判别结果；其中，所述预测人脸图像中的人脸与所述待转换人脸图像中的人脸为同一目标人物的人脸图像，所述预测人脸图像的人脸关键点与所述目标音频数据对应的预测人脸关键点的相似度满足预设条件；

根据所述目标人脸图像、所述目标音频数据对应的预测人脸图像以及所述判别结果，对所述预设生成对抗网络模型的模型参数进行修正，以得到已训练的人脸转换模型。

第二方面，本发明实施例提供了一种人脸图像转换方法，所述人脸图像转换方法包括：

获取待处理音频数据以及所述待处理音频数据对应的待处理人脸图像；

根据所述待处理人脸图像确定所述待处理人脸图像对应的待处理人脸关键点；

根据所述待处理音频数据以及所述待处理人脸关键点，确定所述待处理音频数据对应的目标人脸关键点；

将所述待处理人脸图像、所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点，输入至所述已训练的人脸转换模型，通过所述已训练的人脸转换模型得到所述待处理音频数据对应的目标人脸图像；其中，所述目标人脸图像中人脸与所述待处理人脸图像中的人脸为同一目标人物的人脸图像，所述目标人脸图像中的人脸关键点与所述待处理音频数据对应的目标人脸关键点的相似度满足预设条件，所述已训练的人脸转换模型为上述任意一项所述的人脸转换模型。

第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

与现有技术相比，本发明实施例具有以下优点：

在训练预设生成对抗网络模型的过程中，根据所述目标音频数据以及所述待转换人脸图像的待转换人脸关键点，确定所述目标音频数据对应的预测人脸关键点。并基于所述待转换人脸图像、所述待转换人脸关键点、所述预测人脸关键点和所述目标人脸图像，对所述预设生成对抗网络模型的模型参数进行修正，得到已训练的人脸转换模型。在确定目标音频数据对应的预测人脸关键点时，目标音频数据中与语音内容无关的视听信号并不会体现在预测人脸关键点上，因此，采用所述目标音频数据对应的预测人脸关键点作为所述预设生成对抗网络模型的约束条件，生成的预测人脸图像也就与语音内容无关的视听信号无关，可以避免拟合与语音内容无关的视听信号之间的假相关性，得到的预测人脸图像效果较佳。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中预设生成对抗网络模型的训练方法的应用环境图；

图2为本发明实施例中预设生成对抗网络模型的训练方法的第一流程示意图；

图3为本发明实施例中预设生成对抗网络模型的训练方法的第二流程示意图；

图4为图3中LSTM网络的结构示意图；

图5为本发明实施例中预设生成对抗网络模型的训练方法的第三流程示意图；

图6为本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人经过研究发现，利用数字化技术生成真人视频时，例如，从音频到目标视频生成、文本到目标视频生成以及驱动图像或视频到目标视频生成，通常都是简单利用音频、图像和视频，实现端到端的生成图像或视频，这种直接从端到端的方式容易拟合与语音内容无关的视听信号之间的假相关性，这里与语音内容无关的视听信号是指音频中除了语音内容以外的声音信号，与语音内容无关的视听信号包括语音内容的背景声音信号和环境声音信号，直接从端到端的方式也会对这些与语音内容无关的视听信号进行拟合，从而影响目标视频的生成。

为了解决上述问题，如图2所示，在本发明实施例中，为了避免拟合与语音内容无关的视听信号之间的假相关性，在将人脸转换模型的训练方法分解成两步：

第一步、根据待转换人脸图像对应的待转换人脸关键点以及目标音频数据，确定所述目标音频数据对应的预测人脸关键点。

具体地，先根据所述待转换人脸图像确定所述待转换人脸图像对应的待转换人脸关键点，再根据所述待转换人脸关键点和所述目标音频数据确定所述目标音频数据对应的预测人脸关键点。举例说明，可以通过人脸标注或自动识别的方式确定所述待转换人脸图像对应的待转换人脸关键点，例如采用自动识别的方式时，将所述待转换人脸图像输入待转换人脸关键点识别模型中，通过待转换人脸关键点识别模型得到待转换人脸关键点。可以通过自动识别的方式确定所述目标音频数据对应的预测人脸关键点，例如，将所述待转换人脸关键点和所述目标音频数据输入预测人脸关键点识别模型中，通过预测人脸关键点识别模型得到预测人脸关键点。待转换人脸关键点识别模型和预测人脸关键点识别模可以形成人脸关键点识别模型，具体采用如下公式表示：

其中，

表示预测人脸关键点，α_t表示目标音频数据，l_t表示待转换人脸图像v_t对应的待转换人脸关键点，Θ(·)表示人脸关键点识别模型，t表示序列，例如时间序列。

第二步、根据所述待转换人脸图像、所述目标人脸图像、所述待转换人脸关键点以及所述目标音频数据生成所述目标音频数据对应的预测人脸图像。举例说明，可以通过自动识别的方式生成所述预测人脸图像，例如，将所述待转换人脸图像、所述目标人脸图像、所述待转换人脸关键点以及所述目标音频数据输入预测人脸图像生成模型，通过预测人脸图像生成模型得到预测人脸图像，具体采用如下公式表示：

其中，

表示预测人脸图像，Φ(·)表示预测人脸图像生成模型。需要说明的是，本申请实施例中预测人脸图像生成模型采用预设生成对抗网络。

在训练过程中，采用所述待转换人脸图像对应的待转换人脸关键点作为所述预设生成对抗网络的约束条件，可以避免拟合与语音内容无关的视听信号之间的假相关性，所述预设生成对抗网络生成的预测人脸图像效果较佳。所述预测人脸图像中的人脸与所述待转换人脸图像中的人脸为同一目标人物的人脸图像，所述预测人脸图像的人脸关键点与所述目标音频数据对应的预测人脸关键点的相似度满足预设条件。

举例说明，将目标人物张三的人脸图像作为待转换人脸图像，将李四的音频数据作为目标音频数据，那么李四在发出这一音频数据时的原始人脸图像作为目标人脸图像，例如，李四念“o”时，呈现一原始人脸图像，该原始人脸图像中李四的嘴型呈O型。再如，李四念“啊”时，呈现一原始人脸图像，该原始人脸图像中李四的嘴呈张大状态。需要说明的是，待转换人脸图像中人脸表情与目标人脸图像中人脸表情不相同，即张三的人脸图像中人脸表情与李四的人脸图像中的表情不相同，具体地，通过人脸关键点来体现人脸表情，也就是说，待转换人脸图像中待转换人脸关键点与目标人脸图像中目标人脸关键点不相同。根据待转换人脸图像对应的待转换人脸关键点以及目标音频数据，得到的预测人脸关键点，预测人脸关键点与目标人脸图像的目标人脸关键点相似或者相同，也就是说，预测人脸关键点体现与目标人脸图像相似或相同的人脸表情，也即体现李四的人脸表情。而预测人脸图像中的人脸与所述待转换人脸图像中的人脸为同一目标人物的人脸图像，也就是说，待转换人脸图像中的人脸是张三的人脸图像时，预测人脸图像中也是张三的人脸图像。预测人脸图像的人脸关键点与目标音频数据对应的预测人脸关键点的相似度满足预设条件，也就是说，预测人脸图像的人脸表情与李四的人脸表情相似或者相同，预设条件包括相似度满足预设相似度阈值，例如将预设相似度阈值设置成90％，当相似度为100％时，可认为是相同，在相似度为[90％，100％)时，可认为是相似。总的来说，就是预测人脸图像是张三的人脸和李四的表情的结合，从而实现了人脸转换，生成了新的人脸图像。

另外，简单的利用音频、图像和视频端到端生成的图像效果较差，具体地，准确性较差、泛化能力差、平稳性差，准确性较差是因为没有考虑到图像中目标人脸是一个结构化的人脸，泛化能力差是以对齐后的目标人脸作为输入，没有考虑到视频中的目标人脸是存在一定的角度，当输入一个存在一定角度的目标人脸时效果大部分非常差，平稳性差是因为视频生成问题是一个非时间独立的图像生成问题，而没有考虑到时间依耐性。本申请中将人脸图像的转换的过程分两步的方式，即先确定目标音频数据对应的预测人脸关键点，再生成目标音频数据对应的预测人脸图像，因此，在确定目标音频数据对应的预测人脸关键点时，目标音频数据中与语音内容无关的视听信号并不会体现在预测人脸关键点上，那么生成的预测人脸图像也就与语音内容无关的视听信号无关，从而改善生成的预测人脸图像的效果，具体地，由于采用根据目标音频数据和待转换人脸关键点确定的预测人脸关键点作为约束条件，考虑到了目标人脸的结构化的因素，可以提高生成准确性，且考虑到了目标人脸不完全相同，例如人脸的脸型、视角、面部特征不完全相同，相应的关键点也不相同，则可以提高泛化能力。具体如何改善平稳性在下文中具体说明。

本发明实施例可以应用到如下场景中，首先，终端设备可以采集训练样本数据，并将所述训练样本数据输入服务器，以使得服务器依据所述训练样本数据对所述预设生成对抗网络进行训练。服务器可以预先存储有预设生成对抗网络，并响应终端设备的输入的训练样本数据，并进行训练，得到已训练的人脸转换模型。

可以理解的是，如图1所示，在上述应用场景中，虽然将本发明实施方式的动作描述为由部分由终端设备10执行、部分由服务器20执行。但是，这样动作可以完全有服务器20或者完全由终端设备10执行。本发明在执行主体方面不受限制，只要执行了本发明实施方式所公开的动作即可。其中，终端设备10包括台式终端或移动终端，例如台式电脑、平板电脑、笔记本电脑、智能手机等。服务器20包括独立的物理服务器、物理服务器集群或虚拟服务器。

在得到所述已训练的人脸转换模型后，可以将所述已训练的人脸转换模型用于处理通过具有摄像头的终端设备拍摄的照片。例如，将通过具有摄像头的终端设备拍摄的照片作为输入项输入所述已训练的人脸转换模型，通过所述已训练的人脸转换模型对该照片进行动画图像生成，以得到动画图像。当然，在实际应用中，所述已训练的人脸转换模型可作为一个人脸转换模块配置于具有摄像头的终端设备，当具有摄像头的终端设备拍摄到照片时，启动所述人脸转换模块，通过所述人脸转换模块对该照片进行生成动画图像处理，使得去具有摄像头的终端设备输出照片对应的动画图像。

需要注意的是，上述应用场景仅是为了便于理解本发明而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

下面结合附图，详细说明本发明的各种非限制性实施方式。

参见图5，示出了本发明实施例中的一种人脸转换模型的训练方法。在本实施例中，所述人脸转换模型的训练方法例如可以包括以下步骤：

S1、获取训练样本数据中目标音频数据以及所述目标音频数据对应的待转换人脸图像、目标人脸图像；其中，所述目标人脸图像为所述目标音频数据对应的原始人脸图像。

具体地，所述目标人脸图像是指与目标音频数据同时出现的原始人脸图像。所述目标人脸图像与所述目标音频数据具有同时性，也就是说，当目标对象发出目标音频数据时形成的原始人脸图像，即为目标人脸图像。所述待转换人脸图像是有待转换人脸的人脸图像，当然待转换人脸图像中的人脸与目标人脸图像中的人脸可以不是同一目标人物的人脸图像。

本发明实施例的一种实现方式中，所述训练样本数据包括：若干个样本数据组，每个样本数据组均包括一待转换人脸图像、所述待转换人脸图像对应的目标人脸图像以及所述目标人脸图像对应的目标音频数据；每个样本数据组中的目标人脸图像均为目标视频中视频帧序列携带的人脸图像，所述目标音频数据为所述视频帧序列对应的音频片段，并且各目标人脸图像各自分别对应的视频帧序列互不相同。

目标视频对应的视频文件是由多个视频帧组成的，因此，可以以视频帧为单位确定目标人脸图像，将每个视频帧均作为目标人脸图像，将目标视频对应的音频文件以视频帧对应的时间戳(包括开始时间和结束时间)进行划分，得到音频片段，即为目标音频数据。

由于相邻两个视频帧的相似程度较高，也就是说，相邻两个视频帧中的人脸表情相差不大。由于无需重复训练两个人脸表情相差不大的人脸图像，因此，以视频帧序列为单位确定目标人脸图像。视频帧序列是指多个连续的视频帧组成的序列，相邻两个视频帧序列中的视频帧之间的相似程度较低，人脸表情则不同，因此，将目标视频对应的视频文件以视频帧序列为单位进行划分，将视频帧序列中的人脸图像作为目标人脸图像，也就是说，将每个视频帧序列确定一个视频帧作为目标人脸图像。将目标视频中该视频帧序列对应的音频片段作为该目标人脸图像对应的目标音频数据，也就是说，将目标视频对应的音频文件以视频帧序列对应的时间戳(包括开始时间和结束时间)进行划分，得到音频片段，即为目标音频数据。

本发明实施例的一种实现方式中，所述目标音频数据和所述目标人脸图像的获取方式包括：

获取目标视频，并确定所述目标视频对应的视频文件和音频文件；根据所述视频文件确定各样本数据组各自分别对应的视频帧序列；针对每一个样本数据组，根据该样本数据组对应的视频帧序列确定该样本数据组对应的目标人脸图像，以及，根据所述音频文件和该样本数据组对应的视频帧序列确定该样本数据组对应的目标音频数据。

举例说明，获取李四的目标视频，李四的目标视频存在目标视频对应的视频文件和音频文件。视频文件是指包含视频信息的多媒体文件，音频文件是指包含音频信息的多媒体文件，本发明实施例中，目标视频对应的视频文件是指包含目标人物的视频信息的多媒体文件，目标视频对应的音频文件是指包含目标人物的音频信息的多媒体文件。当然目标视频对应的视频文件和音频文件之间具有同时性。

S2、根据所述目标音频数据以及所述待转换人脸图像的待转换人脸关键点，确定所述目标音频数据对应的预测人脸关键点。

人脸的关键点：人脸的关键点是指能够反映人脸各个部位的点，具体于人脸图像而言，即是指人脸图像中反映人脸各个部位的特征点。例如，人脸五官关键点：用于表示五官在人脸上的位置，每个五官的位置是一个关键点。人脸的关键点还包括眼球中心、眼角、鼻尖、嘴角、人脸轮廓、眉毛等部位的关键点。所述待转换人脸图像的待转换人脸关键点是指根据待转换人脸图像得到的人脸关键点。所述待转换人脸关键点的获取方式包括人工标注、自动识别。下面以自动识别为例进行说明。

本发明实施例的一种实现方式中，所述待转换人脸关键点的获取方式包括：

将训练样本数据中待转换人脸图像输入已训练的第一神经网络模型，通过所述第一神经网络模型得到所述待转换人脸图像的待转换人脸关键点；其中，所述已训练的第一神经网络模型是基于第一样本训练集训练得到的，所述第一样本训练集包括：多组样本图像，每组样本图像均包括一历史人脸图像和所述历史人脸图像对应的人脸关键点。

具体地，所述已训练的第一神经网络模型为用于识别人脸关键点的网络模型，通过所述已训练的第一神经网络模型可以识别所述待转换人脸图像中待转换人脸的各待转换人脸关键点。所述已训练的第一神经网络模型是基于第一样本训练集训练得到，所述第一样本训练集中包括：多组样本图像，每组样本图像均包括一历史人脸图像和所述历史人脸图像对应的人脸关键点。

所述预测人脸关键点是指根据待转换人脸关键点和目标音频数据确定的人脸关键点。所述预测人脸关键点是根据所述目标音频数据和所述待转换人脸图像对应的待转换人脸关键点得到的。也就是说，基于目标音频数据获得所述预测人脸关键点，其目的是基于目标音频数据将待转换人脸关键点转化为所述预测人脸关键点，其关键在于得到目标音频数据与所述预测人脸关键点之间的对应关系。所述预测人脸关键点是对目标音频数据对应目标人脸图像的目标人脸关键点的预测，也就是说，需要使所述预测人脸关键点与目标音频数据对应目标人脸图像的目标人脸关键点相似或相同，所述预测人脸关键点与所述目标人脸关键点越相似越好。

本发明实施例的一种实现方式中，所述预测人脸关键点采用如下步骤得到：

A、确定所述目标音频数据对应的目标音频特征。

具体地，确定所述目标音频数据对应的目标音频特征，是对所述目标人脸图像v_g对应的目标音频数据α_t进行提取处理F_audio得到目标音频特征F_audio(a_t)。举例说明，通过Mel频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7或者其他音频提取特征方法，提取目标音频数据得到目标音频数据对应的目标音频特征，其中MFCC是基于倒谱的，更符合人的听觉原理，因而是最普遍、最有效的声音特征提取算法。

B、将所述待转换人脸关键点以及所述目标音频特征输入已训练的第二神经网络模型，通过所述第二神经网络模型得到所述目标音频数据对应的预测人脸关键点；其中，所述已训练的第二神经网络模型是基于第二样本训练集训练得到的，所述第二样本训练集包括多组样本数据，每组样本数据均包括一历史音频特征，以及所述历史音频特征对应的历史待转换人脸关键点和历史目标人脸关键点，所述历史目标人脸关键点为所述历史音频特征对应的原始人脸关键点。

具体地，所述已训练的第二神经网络模型是指用于生成预测人脸关键点的已训练神经网络模型。所述已训练的第二神经网络模型的输入数据是所述待转换人脸关键点以及所述目标音频特征，所述已训练的第二神经网络模型的输出数据是所述目标音频数据对应的预测人脸关键点。也就是说，所述已训练的第二神经网络模型通过目标音频特征对所述待转换人脸关键点进行处理得到所述预测人脸关键点。所述已训练的第二神经网络模型包括卷积神经网络和循环神经网络。

本发明实施例的一个实现方式中，如图4所示，所述已训练的第二神经网络模型为LSTM网络，即长短时记忆(LongShort-TermMemory)网络。所述LSTM网络包括：依次堆叠的编码器和解码器。LSTM网络的编码器如下：

[h_t,c_t]＝Ψ(F_audio(a_t),F_landmark(l_t),c_t-1)

其中，h_t为当前系列的隐藏单元状态，c_t为当前系列的细胞状态，Ψ(·)表示LSTM网络的编码器，c_t-1表示上一个序列的细胞状态。

具体地，通过Dlib库提取方法，对所述待转换人脸图像进行提取处理得到所述待转换人脸图像对应的待转换人脸关键点l_t的提取特征F_landmark(l_t)。当然还可以采用边缘感知人脸对齐算法(LAB)，相比于目前普遍使用的Dlib人脸关键点检测算法，LAB将检测的人脸关键点数量从68个直接提高到98个，而且检测出的人脸关键点在帧与帧之间比Dlib更加的稳定。

需要说明的是，将所述待转换人脸关键点以及所述目标音频特征输入已训练的第二神经网络模型时，采用序列的形式输入，将多个目标音频特征和多个待转换人脸关键点依次排列，并同时输入，多个目标音频特征依次排列形成目标音频特征序列，多个待转换人脸关键点依次排列形成待转换人脸关键点序列，当然，目标音频特征序列中目标音频特征的数量与待转换人脸关键点序列中待转换人脸关键点的数量是相同的。编码器将输入序列(即目标音频特征序列和待转换人脸关键点序列)转化成一个固定长度的向量，解码器将生成的固定长度的向量转化成输出序列。

对所述待转换人脸关键点的提取特征F_landmark(l_t)进行降维处理得到降维的关键点特征p_t，将F_audio(a_t)、p_t和上一个序列的细胞状态的c_t-1输入到网络中得到当前系列的隐藏单元状态h_t和细胞状态c_t。

本发明实施例的一种实现方式中，采用主成分分析(PCA，PrincipalComponentAnalysis)等降维方法对F_landmark(l_t)进行降维处理。PCA是一种常用的数据分析方法。PCA通过线性变换将所述待转换人脸关键点的提取特征F_landmark(l_t)变换为一组各维度线性无关的表示，可用于提取所述待转换人脸关键点的提取特征F_landmark(l_t)的主要特征分量，用于高维数据的降维。

LSTM网络的解码器模型如下：

其中，Ω(·)表示LSTM网络的解码器，w_t表示权重矩阵，b_t表示偏置。

已训练的第二神经网络模型是基于第二样本训练集训练得到的，所述第二样本训练集包括多组样本数据，每组样本数据均包括一历史音频特征，以及所述历史音频特征对应的历史待转换人脸关键点和历史目标人脸关键点，所述历史目标人脸关键点为所述历史音频特征对应的原始人脸关键点。历史音频特征是指根据历史音频数据提取得到的特征，历史音频数据是指训练第二神经网络模型时所输入的音频数据。历史待转换人脸关键点是指训练第二神经网络模型时所输入的待转换人脸关键点，历史目标人脸关键点是指训练第二神经网络模型时用于修正第二神经网络模型的模型参数的人脸关键点。

具体地，LSTM网络是基于第二样本训练集训练得到的，所述第二样本训练集包括多组样本数据，每组样本数据均包括一历史音频特征，以及所述历史音频特征对应的历史待转换人脸关键点和历史目标人脸关键点，所述历史目标人脸关键点为所述历史音频特征对应的原始人脸关键点。在训练第二神经网络模型时，将历史音频特征和所述历史音频特征对应的历史待转换人脸关键点输入第二神经网络模型，通过第二神经网络模型得到所述历史音频特征对应的历史预测人脸关键点，再根据历史预测人脸关键点和历史目标人脸关键点对第二神经网络模型的模型参数进行修正，并继续训练直至满足预设训练条件得到已训练的第二神经网络模型。

S3、将所述待转换人脸图像、所述目标人脸图像、所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入预设生成对抗网络模型，通过所述预设生成对抗网络模型，生成所述目标音频数据对应的预测人脸图像以及所述预测人脸图像对应的判别结果；其中，所述预测人脸图像中的人脸与所述待转换人脸图像中的人脸为同一目标人物的人脸图像，所述预测人脸图像的人脸关键点与所述目标音频数据对应的预测人脸关键点相似。

具体地，所述预测人脸图像中的人脸与所述待转换人脸图像中的人脸为同一目标人物的人脸图像，所述预测人脸图像的人脸关键点与所述目标音频数据对应的预测人脸关键点的相似度满足预设条件。目标人物是指待转换人脸图像中的人物，举例说明，待转换人脸图像是张三的人脸图像，也就是说，待转换人脸图像中的人是张三，那么目标人物就是张三。在待转换人脸图像是张三的人脸图像时，预测人脸图像也是目标人物张三的人脸图像，预测人脸图像与待转换人脸图像均是张三这个目标人物的人脸图像，需要说明的是，虽然所述预测人脸图像中的人脸与所述待转换人脸图像中的人脸为同一目标人物的人脸图像，但是所述预测人脸图像中的人脸表情与所述待转换人脸图像中的人脸表情是不同的，也就是说，所述预测人脸图像和所述待转换人脸图像中目标人物相同，且目标人物的表情不相同。本发明中，在所述待转换人脸图像是张三的人脸图像，所述目标人脸图像是李四的人脸图像，所述目标音频数据是李四的音频数据时，通过人脸关键点来体现人脸表情，预测人脸关键点是对应于目标音频数据的，并与目标人脸图像的目标人脸关键点相似或相同。因此，预测人脸关键点体现的是李四的人脸表情。而所述预测人脸图像的人脸关键点与所述目标音频数据对应的预测人脸关键点的相似度满足预设条件，也就是说，预测人脸图像中的人脸表情是李四的人脸表情。可见，预测人脸图像中的人脸是张三的人脸，预测人脸图像中的人脸表情是李四的人脸表情。具体地，所述待转换人脸图像是张三的人脸图像，呈现的是张三念“o”的表情，目标人脸图像是李四的人脸图像，呈现的是李四念“a”的表情，目标音频数据是李四念“a”的音频数据，那么预测人脸图像是张三的人脸图像，呈现的是张三念“a”的表情。

所述预设生成对抗网络模型的输入数据为所述待转换人脸图像、所述目标人脸图像、所述待转换人脸关键点以及所述预测人脸关键点，所述预设生成对抗网络模型的输出数据为所述预测人脸图像以及所述判别结果。

步骤S3包括：

S31、将所述待转换人脸图像、所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述生成器，通过所述生成器得到所述目标音频数据对应的预测人脸图像。

本发明实施例中，如图3所示，所述预设生成对抗网络模型包括：生成器(Generator)网络和判别器(Discriminator)网络，所述生成器用于通过机器生成数据，目的是“骗过”判别器；所述判别器用于判断该数据是真实的还是机器生成的，目的是找出生成器做的“假数据”。也就是说，所述生成器根据所述待转换人脸图像、所述待转换人脸关键点以及所述预测人脸关键点得到所述生成器生成的预测人脸图像，所述判别器判断所述生成器生成的预测人脸图像是否跟所述目标人脸图像一样，并输出判别结果。如果判别结果表明所述预测人脸图像与所述目标人脸图像不一样，则需要调整所述预设生成对抗网络模型的参数，直至训练结束，最后所述预测人脸图像几乎与所述目标人脸图像一样，以至于所述判别器无法区分出来。

具体地，所述生成器的输入数据为所述待转换人脸图像、所述待转换人脸关键点以及所述预测人脸关键点，所述预设生成对抗网络模型的输出数据为所述预测人脸图像。

本发明实施例中所述生成器并不是采用随机噪声生成数据，而是采用所述待转换人脸图像作为所述预设生成对抗网络模型的输入，同时将所述预测人脸关键点作为条件约束与所述待转换人脸图像一起输入到所述预设生成对抗网络模型。由于所述预设生成对抗网络的输入并不是随机噪声，而是采用所述待转换人脸图像，所述待转换人脸图像具有图像的细节，所述生成器生成的预测人脸图像的准确性较高，效果较佳。

所述待转换人脸图像作为所述预设生成对抗网络模型的输入，并将所述预测人脸关键点作为所述预设生成对抗网络的条件输入，实际上，所述预设生成对抗网络模型为条件预设生成对抗网络模型(ConditionalGenerativeAdversarial Networks，CGAN)，可以在生成器和判别器的训练中均引入条件变量l(conditionalvariablel，也即待转换人脸关键点l_t)，在所述预设生成对抗网络模型引入条件变量l后，有利于提高所述生成器的预测人脸图像的精度。

步骤S31包括：

S311、将所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述注意力模块，通过所述注意力模块得到所述目标音频数据对应的注意力图像。

由于卷积神经网络中，每个卷积核的尺寸比较有限(基本上不会大于5)，因此，每次卷积操作只能覆盖像素点周围很小一块邻域。对于距离较远的特征，例如狗有四条腿这类特征，就不容易捕获到了(也不是完全捕获不到，因为多层的卷积、池化操作会把特征图像的高和宽变得越来越小，越靠后的层，其卷积核覆盖的区域映射回原图对应的面积越大。但总而言之，毕竟还得需要经过多层映射，不够直接)。注意力机制通过直接计算图像中任意两个像素点之间的关系，一步到位地获取图像的全局几何特征。需要说明的是，可以形成注意力模块嵌入到所需要的网络中。

本发明实施例的一个实现方式中，所述生成器包括：卷积模块和注意力模块。由于考虑到视频的时间依耐性，本发明实施例采用卷积模块，一个序列当前的输出与该序列之前的输出有关，从而提高了平稳性。所述注意力模块包括：第一拼接层、第一输出层。

步骤S311包括：

S311a、将所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述第一拼接层，通过所述第一拼接层得到所述目标音频数据对应的第一拼接图像。

所述第一拼接层用于将所述待转换人脸关键点对应的编码特征和所述预测人脸关键点对应的编码特征进行拼接得到所述第一拼接图像。

所述注意力模块采用编解码模式，所述第一拼接层包括：第一编码单元，用于将所述待转换人脸关键点进行编码处理得到待转换人脸关键点对应的编码特征；第二编码单元，用于将所述预测人脸关键点进行编码处理得到预测人脸关键点对应的编码特征；第一拼接单元，用于将所述待转换人脸关键点的编码特征和所述预测人脸关键点的编码特征拼接得到所述第一拼接图像。

具体地，将所述待转换人脸关键点l_t进行编码处理得到待转换人脸关键点对应的编码特征F_landmark(l_t)。将所述预测人脸关键点

进行编码处理得到预测人脸关键点对应的编码特征

将两者拼接得到所述第一拼接图像，即

S311b、将所述目标音频数据对应的第一拼接图像输入所述第一输出层，通过所述第一输出层得到所述目标音频数据对应的注意力图像。

具体地，所述第一输出层用于将所述第一拼接图像进行解码处理得到所述注意力图像。所述注意力图像为：

其中，attmap_t表示注意力图像，σ(·)表示解码处理，

表示拼接。

可以把注意力图像看成是所述待转换人脸关键点的编码特征和所述预测人脸关键点的编码特征拼接。

S312、将所述待转换人脸图像、所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点和注意力图像输入所述卷积模块，通过所述卷积模块得到所述目标音频数据对应的预测人脸图像。

将所述注意力图像引入到所述生成器的预测人脸图像中，也就是说，将所述注意力图像中的所述待转换人脸关键点的像素和所述预测人脸关键点的像素引入到生成器中，加快收敛，提高所述生成器的预测人脸图像的生成速度。

所述卷积模块包括：残差层、第二拼接层、第二输出层。步骤S312包括：

S312a、将所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述残差层，通过所述残差层得到所述目标音频数据对应的残差图像。

所述残差层包括：第三编码单元，用于将所述待转换人脸关键点进行编码处理得到待转换人脸关键点对应的编码特征；第四编码单元，用于将所述预测人脸关键点进行编码处理得到预测人脸关键点对应的编码特征；残差单元，用于将所述待转换人脸关键点的编码特征和所述预测人脸关键点的编码特征作差得到所述残差图像。

进行编码处理得到预测人脸关键点对应的编码特征

将两者作差得到所述残差图像，即

所述残差图像反映所述预测人脸关键点的编码特征与所述待转换人脸关键点的编码特征的间距。具体地，通过所述预测人脸关键点的编码特征与所述待转换人脸关键点的编码特征之间的差值作为所述预测人脸关键点的编码特征与所述待转换人脸关键点的编码特征的区别，即

所述间距反映出所述预测人脸关键点的编码特征和所述待转换人脸关键点的编码特征的不同的地方，也就是说，反映出两个关键点的不同点。

S312b、将所述待转换人脸图像以及所述目标音频数据对应的残差图像输入所述第二拼接层，通过所述第二拼接层得到所述目标音频数据对应的第二拼接图像。

具体地，所述第二拼接层包括第五编码单元，用于将所述待转换人脸图像进行编码处理得到待转换人脸图像的特征；第二拼接单元，用于将待转换人脸图像的特征与残差图像进行拼接得到第二拼接图像。

具体地，对所述待转换人脸图像v_t进行编码处理得到待转换人脸图像的特征F_img(v_t)。将所述间距加在所述待转换人脸图像的特征上得到所述第二拼接图像，所述第二拼接图像为：

S312c、将所述目标音频数据对应的第二拼接图像和注意力图像输入所述第二输出层，通过所述第二输出层得到所述目标音频数据对应的预测人脸图像。

具体地，第二输出层包括：第五解码单元，用于将所述第二拼接图像进行解码得到解码图像；直积单元，用于将解码图像和所述注意力图像进行矩阵乘积处理后得到所述预测人脸图像。

具体地，对所述第二拼接图像进行解码处理得到所述解码图像

其中，

表示解码处理。将所述解码图像和所述注意力图像进行矩阵乘积处理后得到所述生成器的预测人脸图像。所述生成器的预测人脸图像为：

其中，

表示所述生成器的预测人脸图像。

所述卷积模块的基本单元包括：卷积(convolution)层、池化(Pooling)层、上采样(subsampled)层、跳跃连接。当然，所述生成器还可以包括如下基本单元：全连接层(FullyConnectedNetwork)、归一化(BatchNormalization，BN)层、Dropout层等等。也就是说，本发明不限定所述预设生成对抗网络的具体结构，只要能实现上述步骤的功能即可。

S4、根据所述目标人脸图像、所述目标音频数据对应的预测人脸图像以及所述判别结果，对所述预设生成对抗网络模型的模型参数进行修正，以得到已训练的人脸转换模型。

具体的，由于所述预设生成对抗网络包括所述生成器和所述判别器，因此，基于所述待转换人脸图像、所述预测人脸关键点和所述目标人脸图像，对所述预设生成对抗网络模型的模型参数进行修正，得到已训练的预设生成对抗网络。

在预设生成对抗网络模型的模型参数的修正过程中，有两种修正方式，第一种、直接对所述生成器和所述判别器进行交替训练；第二种、将训练过程分为两个阶组：第一阶组、基于所述待转换人脸图像、所述待转换人脸关键点和所述目标人脸图像，对所述生成器进行训练，得到预训练的生成器；第二阶组、基于所述待转换人脸图像、所述预测人脸关键点和所述目标人脸图像，对所述预训练的生成器和所述判别器进行训练，得到已训练的预设生成对抗网络。

以下针对第一种训练方式进行说明，采用交替训练的方式修正所述预设生成对抗网络模型的模型参数。步骤S4包括：

S41、固定所述生成器，根据所述判别结果对所述判别器的模型参数进行修正。

固定所述生成器的模型参数不变，基于所述待转换人脸图像、所述预测人脸关键点和所述目标人脸图像，对所述判别器的模型参数进行修正。(1)将所述待转换人脸图像、所述预测人脸关键点输入所述生成器中进行处理，得到所述生成器的预测人脸图像。(2)根据所述目标人脸图像和所述生成器的预测人脸图像输入到所述判别器，得到所述预测人脸图像的判别结果，根据所述判别结果调整所述判别器的模型参数。所述判别器的模型参数的修正进行一次或多次后再进行所述生成器的模型参数的修正。

S42、固定所述判别器，根据所述目标人脸图像和所述目标音频数据对应的预测人脸图像对所述生成器的模型参数进行修正。

具体地，固定所述判别器的参数不变，基于所述待转换人脸图像、所述预测人脸关键点和所述目标人脸图像，对生成器进行训练。(1)将所述待转换人脸图像、所述预测人脸关键点输入所述生成器中进行处理，得到所述生成器的预测人脸图像。(2)根据所述目标人脸图像和所述生成器的预测人脸图像输入到所述判别器，得到所述预测人脸图像的判别结果，根据所述判别结果调整所述生成器的参数。所述生成器可以训练一次或多次后进行所述判别器的训练。

所述判别结果包括：正确率和真实率。正确率是指判别为真的预测人脸图像的数量占预测人脸图像的总数量的比值，例如，在一批输出的预测人脸图像共有100张，其中，25张被判别为真(即为1)，75张被判别为假(即为0)，那么正确率为0.25。真实率是指表征预测人脸图像相对于目标人脸图像的真实程度的指标，例如，预测人脸图像相对于目标人脸图像来说，真实率为0.95，真实率越高，表明预测人脸图像与目标人脸图像的差别越小。

步骤S41包括：

S411、根据所述判别结果确定第一判别值；其中，当所述判别结果为真实率时，所述第一判别值为第一损失值，当所述判别结果为正确率时，所述第一判别值为第一训练误差。

S412、根据所述第一判别值对所述判别器的模型参数进行修正。

具体地，判别结果可以采用真实率以及正确率表示，当判别结果采用正确率时，则根据正确率确定第一训练误差，并根据第一训练误差对判别器的模型参数进行修正。当判别结果采用真实率时，则根据真实率确定第一损失值，并根据第一损失值对判别器的模型参数进行修正。

当判别结果采用正确率时，步骤S411包括：

S411a、根据所述正确率确定第一训练误差。

具体地，正确率与第一训练误差之和为1，因此，在得到正确率后，利用1减去正确率，可得到第一训练误差。

当判别结果采用正确率时，步骤S412包括：

S412a、根据第一训练误差对所述判别器的模型参数进行修正。

具体地，可设置一第一误差阈值，当第一训练误差小于第一误差阈值时，则可确定所述判别器训练完成。当第一训练误差大于或等于第一误差阈值时，则根据该第一训练误差对所述判别器的模型参数进行修正。

当判别结果采用真实率时，步骤S411包括：

S411b、根据所述真实率确定第一损失值。

所述第一损失值的计算有两种方式，第一种方式中：

第二种方式中：

其中，L_gan表示判别器的损失函数，E(·)表示分布函数的期望值，l_t表示待转换人脸图像v_t对应的待转换人脸关键点，

表示预测人脸关键点，l_g表示目标人脸图像v_g对应的目标人脸关键点，D(·)表示判别器判别得到的真实率，

表示预测人脸图像。D(v_g)表示判别器判别目标人脸图像得到的真实率；D(l_g,v_g)表示判别器判别目标人脸图像及目标人脸关键点得到的真实率；

表示判别器判别预测人脸图像得到的真实率；

判别器判别预测人脸图像及预测人脸关键点得到的真实率。

在第一种方式中，仅通过预测人脸图像和目标人脸图像计算第一损失值。在第二种方式中，通过预测人脸图像、预测人脸关键点、目标人脸图像以及目标人脸关键点计算第一损失值。在第二种方式中，将预测人脸关键点和目标人脸关键点纳入判别器的判别中，也就是说，不仅要判别预测人脸图像，还要判别预测人脸关键点，从而提高了判别精度。在判别时，可以采用分开判别的方式和拼接判别的方式；在分开判别的方式中，通过预测人脸图像与目标人脸图像进行判别，通过预测人脸关键点与目标人脸关键点进行判别。在拼接判别的方式中，将预测人脸图像与预测人脸关键点进行拼接得到拼接的预测人脸图像，将目标人脸图像和目标人脸关键点进行拼接得到拼接的目标人脸图像，并通过拼接的预测人脸图像和拼接的目标人脸图像进行判别。所述目标人脸关键点的获取方式包括：人工标注、自动识别。下面以自动识别为例进行说明。

将目标人脸图像输入已训练的第一神经网络模型，通过所述第一神经网络模型得到所述目标人脸图像的目标人脸关键点；其中，所述已训练的第一神经网络模型是基于第一样本训练集训练得到的，所述第一样本训练集包括：多组样本图像，每组样本图像均包括一历史人脸图像和所述历史人脸图像对应的人脸关键点。

当判别结果采用真实率时，步骤S412包括：

S412b、根据所述第一损失值对所述判别器的模型参数进行修正。

具体地，在得到所述第一损失值后，根据所述第一损失值对所述判别器的模型参数进行修正。

步骤S42包括：

S421、根据所述目标人脸图像和所述目标音频数据对应的预测人脸图像确定第二判别值；其中，当所述判别结果为真实率时，所述第二判别值为第二损失值，当所述判别结果为正确率时，所述第二判别值为第二训练误差。

S422、根据所述第二判别值对所述生成器的模型参数进行修正。

具体地，判别结果可以采用真实率以及正确率表示，当判别结果采用正确率时，则根据所述目标人脸图像和所述目标音频数据对应的预测人脸图像确定正确率，根据所述正确率确定第二训练误差，并根据第二训练误差对生成器的模型参数进行修正。当判别结果采用真实率时，则根所述目标人脸图像和所述目标音频数据对应的预测人脸图像确定确定第二损失值，并根据第二损失值对判别器的模型参数进行修正。

当判别结果采用正确率时，步骤S421包括：

S421a、根据所述目标人脸图像和所述目标音频数据对应的预测人脸图像确定正确率，根据所述正确率确定第二训练误差。

具体地，正确率与第二训练误差之和为1，因此，在得到正确率后，利用1减去正确率，可得到第二训练误差。

当判别结果采用正确率时，步骤S422包括：

S422a、根据第二训练误差对所述生成器的模型参数进行修正。

具体地，可设置一第二误差阈值，当第二训练误差小于第二误差阈值时，则可确定所述生成器训练完成。当第二训练误差大于或等于第二误差阈值时，则根据该第二训练误差对所述生成器的模型参数进行修正。

当判别结果采用真实率时，步骤S421包括：

S421b、根据所述目标人脸图像和所述目标音频数据对应的预测人脸图像确定第二损失值。

所述第二损失值包括均方误差(MeanSquaredError，MSE)、均方根误差(RootMeanSquareerror，RMSE)、平均绝对误差(MeanAbsoluteError，MAE)、平均绝对百分比误差(MeanAbsolutePercentageError，MAPE)、对称平均绝对百分比误差(SymmetricMeanAbsolutePercentageError，AMAPE)、最小绝对值误差(LeastAbsoluteDeviations，LAD)、最小平方误差(LeastSquareError，LSE)。

均方误差是指参数估计值与参数真值之差平方的期望值；MSE可以评价数据的变化程度，MSE的值越小，说明所述生成器具有更好的精确度。

均方根误差是均方误差的算术平方根，它是参数估计值和参数真值之差的平方和次数比值的平方根，均方根误差能够很好的反映出所述生成器的精密度。

平均绝对值误差表示参数估计值和参数真值之间绝对误差的平均值。MAE的值越小，说明所述生成器拥有更好的精确度。

平均绝对百分比误差是一个百分比值，因此比其他统计量更容易理解。例如，如果MAPE为5，则表示参数估计值较参数真值平均偏离5％。MAPE的值越小，说明所述生成器拥有更好的精确度。

本发明实施例的一种实现方式中，所述第二损失值为：

其中，L_p表示第二损失值，t表示序列，T表示序列总数，v_g表示目标人脸图像，

表示预测人脸图像，‖·‖表示1范数，∑表示求和符号。

当判别结果采用真实率时，步骤S422包括：

S422b、根据所述第二损失值对所述生成器的模型参数进行修正。

具体地，在得到所述第二损失值后对所述生成器的模型参数进行修正。

基于上述人脸转换模型的训练方法，本发明实施例中还提供了一种人脸图像转换方法，所述人脸图像转换方法包括以下步骤包括：

A1、获取待处理音频数据以及所述待处理音频数据对应的待处理人脸图像。

具体的，所述待处理音频数据是指有待处理的音频数据，所述待处理人脸图像是指有待进行人脸转换处理的人脸图像，所述待处理图像可以为通过摄像头拍摄得到的图像，也可以为预先设置的图像，还可以为根据接收到的选取操作而确定的图像。在本实施例中，所述待处理图像优选为通过摄像头拍摄得到的图像。

本发明实施例的一种实现方式中，所述待处理人脸图像的获取方式包括获取待处理视频，并根据所述待处理视频确定待处理音频数据。具体地，步骤A1包括：

A11、获取待处理视频并确定所述待处理视频对应的视频文件和音频文件；根据所述视频文件确定若干个视频帧序列；针对每一个视频帧序列，根据所述音频文件和该视频帧序列确定该视频帧序列对应的待处理音频数据。

具体地，所述待处理视频是指有待处理的视频，对所述待处理视频进行处理可以得到待处理音频数据。所述待处理视频对应的音频文件是由多个视频帧组成的，因此，可以以视频帧为单位确定，将目标视频对应的音频文件以视频帧对应的时间戳(包括开始时间和结束时间)进行划分，得到音频片段，即为目标音频数据。

由于相邻两个视频帧的相似程度较高，也就是说，相邻两个视频帧对应的音频数据相差不大。由于无需重复处理两个音频数据相差不大的待处理音频数据，因此，以视频帧序列为单位确定待处理音频数据。视频帧序列是指多个连续的视频帧组成的序列，相邻两个视频帧序列对应的音频数据之间的相似程度较低，待处理音频数据则不同，因此，将待处理视频对应的视频文件以视频帧序列为单位进行划分，将待处理视频中该视频帧序列对应的音频片段作为该待处理人脸图像对应的待处理音频数据，也就是说，将待处理视频对应的音频文件以视频帧序列对应的时间戳(包括开始时间和结束时间)进行划分，得到音频片段，即为待处理音频数据。

举例说明，获取李四的待处理视频，李四的待处理视频存在待处理视频对应的视频文件和音频文件。视频文件是指包含视频信息的多媒体文件，音频文件是指包含音频信息的多媒体文件，本发明实施例中，待处理视频对应的视频文件是指包含待转换人脸的视频信息的多媒体文件，待处理视频对应的音频文件是指包含待转换人脸的音频信息的多媒体文件。当然待处理视频对应的视频文件和音频文件之间具有同时性。

A2、根据所述待处理人脸图像确定所述待处理人脸图像对应的待处理人脸关键点。

人脸的关键点：人脸的关键点是指能够反映人脸各个部位的点，具体于人脸图像而言，即是指人脸图像中反映人脸各个部位的特征点。例如，人脸五官关键点：用于表示五官在人脸上的位置，每个五官的位置是一个关键点。人脸的关键点还包括眼球中心、眼角、鼻尖、嘴角、人脸轮廓、眉毛等部位的关键点。所述待处理人脸图像的待处理人脸关键点是指根据待处理人脸图像得到的人脸关键点。所述待处理人脸关键点的获取方式包括人工标注、自动识别。下面以自动识别为例进行说明。

本发明实施例的一种实现方式中，步骤A2包括：

A21、将所述待处理人脸图像输入已训练的第一神经网络模型，通过所述已训练的第一神经网络模型得到所述待处理人脸图像的待处理人脸关键点；其中，所述已训练的第一神经网络模型是基于第一样本训练集训练得到的，所述第一样本训练集包括：多组样本图像，每组样本图像均包括一历史人脸图像和所述历史人脸图像对应的人脸关键点。

具体地，所述已训练的第一神经网络模型为用于识别人脸关键点的网络模型，通过所述已训练的第一神经网络模型可以识别所述待处理人脸图像中人脸的各待处理人脸关键点。所述已训练的第一神经网络模型是基于第一样本训练集训练得到，所述第一样本训练集中包括：多组样本图像，每组样本图像均包括一历史人脸图像和所述历史人脸图像对应的人脸关键点。

A3、根据所述待处理音频数据以及所述待处理人脸关键点，确定所述待处理音频数据对应的目标人脸关键点。

所述目标人脸关键点是指根据待处理人脸关键点和待处理音频数据确定的人脸关键点。所述目标人脸关键点是根据所述待处理音频数据和所述待转换人脸图像对应的待转换人脸关键点得到的。也就是说，基于待处理音频数据获得所述目标人脸关键点，其目的是基于待处理音频数据将待转换人脸关键点转化为所述目标人脸关键点，其关键在于得到待处理音频数据与所述目标人脸关键点之间的对应关系。所述目标人脸关键点是对待处理音频数据对应源人脸图像的源人脸关键点的预测，也就是说，需要使所述目标人脸关键点与待处理音频数据对应源人脸图像的源人脸关键点相似或相同，所述目标人脸关键点与所述源人脸关键点越相似越好。

本发明实施例的一种实现方式中，步骤A3包括：

A31、确定所述待处理音频数据对应的待处理音频特征。

具体地，确定所述待处理音频数据对应的目标音频特征，是对所述目标人脸图像对应的待处理音频数据进行提取处理得到目标音频特征。举例说明，通过Mel频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7或者其他音频提取特征方法，提取待处理音频数据得到待处理音频数据对应的目标音频特征，其中MFCC是基于倒谱的，更符合人的听觉原理，因而是最普遍、最有效的声音特征提取算法。

A32、将所述待处理音频特征以及所述待处理人脸关键点输入已训练的第二神经网络模型，通过所述已训练的第二神经网络模型得到所述待处理音频数据对应的目标人脸关键点；其中，所述已训练的第二神经网络模型是基于第二样本训练集训练得到的，所述第二样本训练集包括多组样本数据，每组样本数据均包括一历史音频特征，以及所述历史音频特征对应的历史待转换人脸关键点和历史目标人脸关键点，所述历史目标人脸关键点为所述历史音频特征对应的原始人脸关键点。

具体地，所述已训练的第二神经网络模型是指用于生成目标人脸关键点的已训练神经网络模型。所述已训练的第二神经网络模型的输入数据是所述待处理人脸关键点以及所述待处理音频特征，所述已训练的第二神经网络模型的输出数据是所述待处理音频数据对应的目标人脸关键点。也就是说，所述已训练的第二神经网络模型通过待处理音频特征对所述待处理人脸关键点进行处理得到所述目标人脸关键点。

本发明实施例的一个实现方式中，如图4所示，所述已训练的第二神经网络模型为LSTM网络，即长短时记忆网络。所述LSTM网络包括：依次堆叠的编码器和解码器。LSTM网络的编码器如下：

[h_t,c_t]＝Ψ(F_audio(a_t),F_landmark(l_t),c_t-1)

具体地，通过Dlib库提取方法，对所述待处理人脸图像进行提取处理得到所述待处理人脸图像对应的待处理人脸关键点l_t的提取特征F_landmark(l_t)。当然还可以采用边缘感知人脸对齐算法(LAB)，相比于目前普遍使用的Dlib人脸关键点检测算法，LAB将检测的人脸关键点数量从68个直接提高到98个，而且检测出的人脸关键点在帧与帧之间比Dlib更加的稳定。

需要说明的是，将所述待处理人脸关键点以及所述待处理音频特征输入已训练的第二神经网络模型时，采用序列的形式输入，将多个待处理音频特征和多个待处理人脸关键点依次排列，并同时输入，多个待处理音频特征依次排列形成待处理音频特征序列，多个待处理人脸关键点依次排列形成待处理人脸关键点序列，当然，待处理音频特征序列中待处理音频特征的数量与待处理人脸关键点序列中待处理人脸关键点的数量是相同的。编码器将输入序列(即待处理音频特征序列和待处理人脸关键点序列)转化成一个固定长度的向量，解码器将生成的固定长度的向量转化成输出序列。

对所述待处理人脸关键点的提取特征F_landmark(l_t)进行降维处理得到降维的关键点特征p_t，将F_audio(a_t)、p_t和上一个序列的细胞状态的c_t-1输入到网络中得到当前系列的隐藏单元状态h_t和细胞状态c_t。

本发明实施例的一种实现方式中，采用主成分分析(PCA，PrincipalComponentAnalysis)等降维方法对F_landmark(l_t)进行降维处理。PCA是一种常用的数据分析方法。PCA通过线性变换将所述待处理人脸关键点的提取特征F_landmark(l_t)变换为一组各维度线性无关的表示，可用于提取所述待处理人脸关键点的提取特征F_landmark(l_t)的主要特征分量，用于高维数据的降维。

LSTM网络的解码器模型如下：

已训练的第二神经网络模型是基于第二样本训练集训练得到的，所述第二样本训练集包括多组样本数据，每组样本数据均包括一历史音频特征，以及所述历史音频特征对应的历史待转换人脸关键点和历史目标人脸关键点，所述历史目标人脸关键点为所述历史音频特征对应的原始人脸关键点。历史音频特征是指根据历史音频数据提取得到的特征，历史音频数据是指训练第二神经网络模型时所输入的音频数据。历史待转换人脸关键点是指训练第二神经网络模型时所输入的待处理人脸关键点，历史目标人脸关键点是指训练第二神经网络模型时用于修正第二神经网络模型的模型参数的人脸关键点。

A4、将所述待处理人脸图像、所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点，输入至所述已训练的人脸转换模型，通过所述已训练的人脸转换模型得到所述待处理音频数据对应的目标人脸图像；其中，所述目标人脸图像中人脸与所述待处理人脸图像中的人脸为同一目标人物的人脸图像，所述目标人脸图像中的人脸关键点与所述待处理音频数据对应的目标人脸关键点的相似度满足预设条件，所述已训练的人脸转换模型为上述任意一实施例所述的人脸转换模型。

具体地，所述目标人脸图像中的人脸与所述待处理人脸图像中的人脸为同一目标人物的人脸图像，所述目标人脸图像的人脸关键点与所述待处理音频数据对应的目标人脸关键点的相似度满足预设条件。举例说明，待处理人脸图像是张三的人脸，待处理音频数据是李四的音频数据。那么，目标人脸图像是张三的人脸，目标人脸图像与待处理人脸图像均是张三这个人的人脸。本发明中，通过人脸关键点来体现人脸表情，目标人脸关键点是对应于待处理音频数据的。因此，目标人脸关键点体现的是李四的人脸表情。而所述目标人脸图像的人脸关键点与所述待处理音频数据对应的目标人脸关键点的相似度满足预设条件，也就是说，目标人脸图像中的人脸表情是李四的人脸表情。可见，目标人脸图像中的人脸是张三的人脸，目标人脸图像中的人脸表情是李四的人脸表情。

所述已训练的人脸转换模型的输入数据为所述待处理人脸图像、所述待处理人脸关键点以及所述目标人脸关键点，所述已训练的人脸转换模型的输出数据为所述目标人脸图像。

在本发明实施例的一种实现方式中，所述已训练的人脸转换模型是基于历史训练样本数据训练得到的，所述历史训练样本数据包括若干个历史样本数据组，每个历史样本数据组均包括一历史待转换人脸图像、所述历史待转换人脸图像对应的历史目标人脸图像以及所述历史目标人脸图像对应的历史目标音频数据；每个历史样本数据组中的历史目标人脸图像均为历史目标视频中历史视频帧序列携带的人脸图像，所述历史目标音频数据为所述历史视频帧序列对应的历史音频片段，并且各历史目标人脸图像各自分别对应的历史视频帧序列互不相同。

所述已训练的人脸转换模型包括：生成器。具体地，所述生成器的输入数据为所述待处理人脸图像、所述待处理人脸关键点以及所述目标人脸关键点，所述生成器的输出数据为所述目标人脸图像。

本发明实施例中所述生成器并不是采用随机噪声生成数据，而是采用所述待处理人脸图像作为所述生成器的输入，同时将所述目标人脸关键点作为条件约束与所述待处理人脸图像一起输入到所述生成器。由于所述预设生成对抗网络的输入并不是随机噪声，而是采用所述待处理人脸图像，所述待处理人脸图像具有图像的细节，所述生成器生成的目标人脸图像的准确性较高，效果较佳。

所述待处理人脸图像作为所述生成器的输入，并将所述目标人脸关键点作为所述生成器的条件输入，可以在生成器中引入条件变量l(conditionalvariablel，也即待处理人脸关键点l_t)，在所述生成器引入条件变量l后，有利于提高所述生成器的目标人脸图像的精度。

步骤A4包括：

A41、将所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点输入所述注意力模块，通过所述注意力模块得到所述待处理音频数据对应的注意力图像。

本发明实施例的一个实现方式中，所述生成器包括：卷积模块和注意力模块。由于考虑到视频的时间依耐性，本发明实施例采用卷积模块，一个序列当前的输出与该序列之前的输出有关，从而提高了平稳性。

所述注意力模块包括：第一拼接层、第一输出层。步骤A41包括：

A411、将所述待处理人脸关键点和所述待处理音频数据对应的目标人脸关键点输入所述第一拼接层，通过所述第一拼接层得到所述待处理音频数据对应的第一拼接图像。

所述第一拼接层用于将所述待处理人脸关键点对应的编码特征和所述目标人脸关键点对应的编码特征进行拼接得到所述第一拼接图像。

所述注意力模块采用编解码模式，所述第一拼接层包括：第一编码单元，用于将所述待处理人脸关键点进行编码处理得到待处理人脸关键点对应的编码特征；第二编码单元，用于将所述目标人脸关键点进行编码处理得到目标人脸关键点对应的编码特征；第一拼接单元，用于将所述待处理人脸关键点的编码特征和所述目标人脸关键点的编码特征拼接得到所述第一拼接图像。

具体地，将所述待处理人脸关键点l_t进行编码处理得到待处理人脸关键点对应的编码特征F_landmark(l_t)。将所述目标人脸关键点

进行编码处理得到目标人脸关键点对应的编码特征

将两者拼接得到所述第一拼接图像，即

A412、将所述待处理音频数据对应的第一拼接图像输入所述第一输出层，通过所述第一输出层得到所述待处理音频数据对应的注意力图像。

其中，attmap_t表示注意力图像，σ(·)表示解码处理，

表示拼接。

可以把注意力图像看成是所述待处理人脸关键点的编码特征和所述目标人脸关键点的编码特征拼接。

A42、将所述待处理人脸图像、所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点和注意力图像输入所述卷积模块，通过所述卷积模块得到所述待处理音频数据对应的目标人脸图像。

将所述注意力图像引入到所述生成器的目标人脸图像中，也就是说，将所述注意力图像中的所述待处理人脸关键点的像素和所述目标人脸关键点的像素引入到生成器中，加快收敛，提高所述生成器的目标人脸图像的生成速度。

所述卷积模块包括：残差层、第二拼接层、第二输出层。步骤A42包括：

A421、将所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点输入所述残差层，通过所述残差层得到所述待处理音频数据对应的残差图像。

所述残差层包括：第三编码单元，用于将所述待处理人脸关键点进行编码处理得到待处理人脸关键点对应的编码特征；第四编码单元，用于将所述目标人脸关键点进行编码处理得到目标人脸关键点对应的编码特征；残差单元，用于将所述待处理人脸关键点的编码特征和所述目标人脸关键点的编码特征作差得到所述残差图像。

进行编码处理得到目标人脸关键点对应的编码特征

将两者作差得到所述残差图像，即

所述残差图像反映所述目标人脸关键点的编码特征与所述待处理人脸关键点的编码特征的间距。具体地，通过所述目标人脸关键点的编码特征与所述待处理人脸关键点的编码特征之间的差值作为所述目标人脸关键点的编码特征与所述待处理人脸关键点的编码特征的区别，即

所述间距反映出所述目标人脸关键点的编码特征和所述待处理人脸关键点的编码特征的不同的地方，也就是说，反映出两个关键点的不同点。

A422、将所述待处理人脸图像以及所述待处理音频数据对应的残差图像输入所述第二拼接层，通过所述第二拼接层得到所述待处理音频数据对应的第二拼接图像。

具体地，所述第二拼接层包括第五编码单元，用于将所述待处理人脸图像进行编码处理得到待处理人脸图像的特征；第二拼接单元，用于将待处理人脸图像的特征与残差图像进行拼接得到第二拼接图像。

具体地，对所述待处理人脸图像v_t进行编码处理得到待处理人脸图像的特征F_img(v_t)。将所述间距加在所述待处理人脸图像的特征上得到所述第二拼接图像，所述第二拼接图像为：

A423、将所述待处理音频数据对应的第二拼接图像和注意力图像输入所述第二输出层，通过所述第二输出层得到所述待处理音频数据对应的目标人脸图像。

具体地，第二输出层包括：第五解码单元，用于将所述第二拼接图像进行解码得到解码图像；直积单元，用于将解码图像和所述注意力图像进行矩阵乘积处理后得到所述目标人脸图像。

其中，

表示解码处理。将所述解码图像和所述注意力图像进行矩阵乘积处理后得到所述生成器的目标人脸图像。所述生成器的目标人脸图像为：

其中，

表示所述生成器的目标人脸图像。

在一个实施例中，本发明提供了一种计算机设备，该设备可以是终端，内部结构如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现所述人脸转换模型的训练方法或者所述的动画图像生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6所示的仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种人脸转换模型的训练方法，其特征在于，所述训练方法包括：

2.根据权利要求1所述人脸转换模型的训练方法，其特征在于，所述训练样本数据包括若干个样本数据组，每个样本数据组均包括一待转换人脸图像、所述待转换人脸图像对应的目标人脸图像以及所述目标人脸图像对应的目标音频数据；每个样本数据组中的目标人脸图像均为目标视频中视频帧序列携带的人脸图像，所述目标音频数据为所述视频帧序列对应的音频片段，并且各目标人脸图像各自分别对应的视频帧序列互不相同。

3.根据权利要求2所述人脸转换模型的训练方法，其特征在于，各样本数据组各自分别对应的所述目标人脸图像和所述目标音频数据的获取方式包括：

获取目标视频，并确定所述目标视频对应的视频文件和音频文件；

根据所述视频文件确定各样本数据组各自分别对应的视频帧序列；针对每一个样本数据组，根据该样本数据组对应的视频帧序列确定该样本数据组对应的目标人脸图像，以及，根据所述音频文件和该样本数据组对应的视频帧序列确定该样本数据组对应的目标音频数据。

4.根据权利要求1所述人脸转换模型的训练方法，其特征在于，所述待转换人脸关键点采用如下步骤得到：

5.根据权利要求1所述人脸转换模型的训练方法，其特征在于，所述根据所述目标音频数据以及所述待转换人脸图像的待转换人脸关键点，确定所述目标音频数据对应的预测人脸关键点，包括：

确定所述目标音频数据对应的目标音频特征；

将所述待转换人脸关键点以及所述目标音频特征输入已训练的第二神经网络模型，通过所述第二神经网络模型得到所述目标音频数据对应的预测人脸关键点；其中，所述已训练的第二神经网络模型是基于第二样本训练集训练得到的，所述第二样本训练集包括多组样本数据，每组样本数据均包括一历史音频特征，以及所述历史音频特征对应的历史待转换人脸关键点和历史目标人脸关键点，所述历史目标人脸关键点为所述历史音频特征对应的原始人脸关键点。

6.根据权利要求1-5任意一项所述人脸转换模型的训练方法，其特征在于，所述预设生成对抗网络模型包括：生成器和判别器；

所述将所述待转换人脸图像、所述目标人脸图像、所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入预设生成对抗网络模型，通过所述预设生成对抗网络模型，生成所述目标音频数据对应的预测人脸图像以及所述预测人脸图像对应的判别结果，包括：

将所述待转换人脸图像、所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述生成器，通过所述生成器得到所述目标音频数据对应的预测人脸图像；

将所述目标音频数据对应的预测人脸图像以及所述目标人脸图像输入所述判别器，通过所述判别器得到所述预测人脸图像对应的判别结果。

7.根据权利要求6所述人脸转换模型的训练方法，其特征在于，所述生成器包括：卷积模块和注意力模块；所述将所述待转换人脸图像、所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述生成器，通过所述生成器得到所述目标音频数据对应的预测人脸图像，包括：

将所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述注意力模块，通过所述注意力模块得到所述目标音频数据对应的注意力图像；

将所述待转换人脸图像、所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点和注意力图像输入所述卷积模块，通过所述卷积模块得到所述目标音频数据对应的预测人脸图像。

8.根据权利要求7所述人脸转换模型的训练方法，其特征在于，所述注意力模块包括：第一拼接层、第一输出层；

所述将所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述注意力模块，通过所述注意力模块得到所述目标音频数据对应的注意力图像，包括：

将所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述第一拼接层，通过所述第一拼接层得到所述目标音频数据对应的第一拼接图像；

将所述目标音频数据对应的第一拼接图像输入所述第一输出层，通过所述第一输出层得到所述目标音频数据对应的注意力图像。

9.根据权利要求8所述人脸转换模型的训练方法，其特征在于，所述卷积模块包括：残差层、第二拼接层、第二输出层；

所述将所述待转换人脸图像、所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点和注意力图像输入所述卷积模块，通过所述卷积模块得到所述目标音频数据对应的预测人脸图像，包括：

将所述待转换人脸关键点以及所述目标音频数据对应的预测人脸关键点输入所述残差层，通过所述残差层得到所述目标音频数据对应的残差图像；

将所述待转换人脸图像以及所述目标音频数据对应的残差图像输入所述第二拼接层，通过所述第二拼接层得到所述目标音频数据对应的第二拼接图像；

将所述目标音频数据对应的第二拼接图像和注意力图像输入所述第二输出层，通过所述第二输出层得到所述目标音频数据对应的预测人脸图像。

10.根据权利要求6所述人脸转换模型的训练方法，其特征在于，所述根据所述目标人脸图像、所述目标音频数据对应的预测人脸图像以及所述判别结果，对所述预设生成对抗网络模型的模型参数进行修正，包括：

固定所述生成器，根据所述判别结果对所述判别器的模型参数进行修正；

固定所述判别器，根据所述目标人脸图像和所述目标音频数据对应的预测人脸图像对所述生成器的模型参数进行修正。

11.根据权利要求10所述人脸转换模型的训练方法，其特征在于，所述判别结果包括真实率和正确率；所述根据所述判别结果对所述判别器的模型参数进行修正，包括：

根据所述判别结果确定第一判别值；其中，当所述判别结果为真实率时，所述第一判别值为第一损失值，当所述判别结果为正确率时，所述第一判别值为第一训练误差；

根据所述第一判别值对所述判别器的模型参数进行修正。

12.根据权利要求11所述人脸转换模型的训练方法，其特征在于，所述根据所述目标人脸图像和所述目标音频数据对应的预测人脸图像对所述生成器的模型参数进行修正，包括：

根据所述目标人脸图像和所述目标音频数据对应的预测人脸图像确定第二判别值；其中，当所述判别结果为真实率时，所述第二判别值为第二损失值，当所述判别结果为正确率时，所述第二判别值为第二训练误差；

根据所述第二判别值对所述生成器的模型参数进行修正。

13.一种人脸图像转换方法，其特征在于，所述人脸图像转换方法包括：

将所述待处理人脸图像、所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点，输入至所述已训练的人脸转换模型，通过所述已训练的人脸转换模型得到所述待处理音频数据对应的目标人脸图像；其中，所述目标人脸图像中人脸与所述待处理人脸图像中的人脸为同一目标人物的人脸图像，所述目标人脸图像中的人脸关键点与所述待处理音频数据对应的目标人脸关键点的相似度满足预设条件，所述已训练的人脸转换模型为权利要求1-12任意一项所述的人脸转换模型。

14.根据权利要求13所述的人脸图像转换方法，其特征在于，所述已训练的人脸转换模型是基于历史训练样本数据训练得到的，所述历史训练样本数据包括若干个历史样本数据组，每个历史样本数据组均包括一历史待转换人脸图像、所述历史待转换人脸图像对应的历史目标人脸图像以及所述历史目标人脸图像对应的历史目标音频数据；每个历史样本数据组中的历史目标人脸图像均为历史目标视频中历史视频帧序列携带的人脸图像，所述历史目标音频数据为所述历史视频帧序列对应的历史音频片段，并且各历史目标人脸图像各自分别对应的历史视频帧序列互不相同。

15.根据权利要求13所述的人脸图像转换方法，其特征在于，所述获取待处理音频数据，包括：

获取待处理视频并确定所述待处理视频对应的视频文件和音频文件；根据所述视频文件确定若干个视频帧序列；针对每一个视频帧序列，根据所述音频文件和该视频帧序列确定该视频帧序列对应的待处理音频数据。

16.根据权利要求13所述的人脸图像转换方法，其特征在于，所述根据所述待处理人脸图像确定所述待处理人脸图像对应的待处理人脸关键点，包括：

将所述待处理人脸图像输入已训练的第一神经网络模型，通过所述已训练的第一神经网络模型得到所述待处理人脸图像的待处理人脸关键点；其中，所述已训练的第一神经网络模型是基于第一样本训练集训练得到的，所述第一样本训练集包括：多组样本图像，每组样本图像均包括一历史人脸图像和所述历史人脸图像对应的人脸关键点。

17.根据权利要求13所述的人脸图像转换方法，其特征在于，所述根据所述待处理音频数据以及所述待处理人脸图像的待处理人脸关键点，确定所述待处理音频数据对应的目标人脸关键点，包括：

确定所述待处理音频数据对应的待处理音频特征；

将所述待处理音频特征以及所述待处理人脸关键点输入已训练的第二神经网络模型，通过所述已训练的第二神经网络模型得到所述待处理音频数据对应的目标人脸关键点；其中，所述已训练的第二神经网络模型是基于第二样本训练集训练得到的，所述第二样本训练集包括多组样本数据，每组样本数据均包括一历史音频特征，以及所述历史音频特征对应的历史待转换人脸关键点和历史目标人脸关键点，所述历史目标人脸关键点为所述历史音频特征对应的原始人脸关键点。

18.根据权利要求13所述的人脸图像转换方法，其特征在于，所述已训练的人脸转换模型包括：生成器，所述生成器包括：卷积模块和注意力模块；

所述将所述待处理人脸图像、所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点，输入至所述已训练的人脸转换模型，通过所述已训练的人脸转换模型得到所述待处理音频数据对应的目标人脸图像，包括：

将所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点输入所述注意力模块，通过所述注意力模块得到所述待处理音频数据对应的注意力图像；

将所述待处理人脸图像、所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点和注意力图像输入所述卷积模块，通过所述卷积模块得到所述待处理音频数据对应的目标人脸图像。

19.根据权利要求18所述的人脸图像转换方法，其特征在于，所述注意力模块包括：第一拼接层、第一输出层；

所述将所述待处理人脸关键点、所述待处理音频数据对应的目标人脸关键点输入所述注意力模块，通过所述注意力模块得到所述待处理音频数据对应的注意力图像，包括：

将所述待处理人脸关键点和所述待处理音频数据对应的目标人脸关键点输入所述第一拼接层，通过所述第一拼接层得到所述待处理音频数据对应的第一拼接图像；

将所述待处理音频数据对应的第一拼接图像输入所述第一输出层，通过所述第一输出层得到所述待处理音频数据对应的注意力图像。

20.根据权利要求18所述的人脸图像转换方法，其特征在于，所述卷积模块包括：残差层、第二拼接层、第二输出层；

所述将所述待处理人脸图像、所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点和注意力图像输入所述卷积模块，通过所述卷积模块得到所述待处理音频数据对应的目标人脸图像，包括：

将所述待处理人脸关键点以及所述待处理音频数据对应的目标人脸关键点输入所述残差层，通过所述残差层得到所述待处理音频数据对应的残差图像；

将所述待处理人脸图像以及所述待处理音频数据对应的残差图像输入所述第二拼接层，通过所述第二拼接层得到所述待处理音频数据对应的第二拼接图像；

将所述待处理音频数据对应的第二拼接图像和注意力图像输入所述第二输出层，通过所述第二输出层得到所述待处理音频数据对应的目标人脸图像。

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述人脸转换模型的训练方法的步骤，或者实现权利要求13-20中所述的人脸图像转换方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述人脸转换模型的训练方法的步骤，或者实现权利要求13-20中所述的人脸图像转换方法的步骤。