CN117523051B

CN117523051B - 基于音频生成动态图像的方法、装置、设备及存储介质

Info

Publication number: CN117523051B
Application number: CN202410022841.6A
Authority: CN
Inventors: 司马华鹏; 张茂林; 毛丽艳
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-05-07
Anticipated expiration: 2044-01-08
Also published as: CN117523051A

Abstract

本申请实施例提供一种基于音频生成动态图像的方法、装置、设备及存储介质，涉及自然人机交互领域；该方法包括：先获取用户输入的参考图像和参考音频；之后，基于参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征，并基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整，得到目标生成网络模型；最后，基于参考音频、参考图像和目标生成网络模型，对待处理图像进行处理，得到目标动态图像；其中，待处理图像与参考图像中的图像对象相同；如此，基于目标人物的单张图片即可得到对应的数字人；这样不需要进行视频采集工作以及数据清洗工作，能够降低数字人的制作成本，且缩短了数字人的制作周期。

Description

基于音频生成动态图像的方法、装置、设备及存储介质

技术领域

本发明涉及自然人机交互领域，尤其是涉及一种基于音频生成动态图像的方法、装置、设备及存储介质。

背景技术

数字人（Digital Human/Meta Human），是运用数字技术创造出来的、与人类形象接近的数字化人物形象。目前，数字人的制作过程为：采集目标人物说话的视频数据；之后，通过深度学习网络（如，GAN网络模型），学习视频数据中目标人物的声音和口型的对应关系，从而得到完成训练的网络模型；最后，向完成训练的网络模型输入新的音频，以使得完成训练的网络模型生成该音频对应的口型动画，进而完成数字人的制作。

但是，上述数字人制作的方式需要大量的视频采集工作，以及数据清洗工作；即用户想要生成对应数字人时，需要获取用户说话的大量视频数据；且为了保证得到的数字人的效果，对于用户说话的视频数据的质量也有一定要求；如此，导致生成用户对应的数字人时，较为麻烦，成本过高，周期较长。

发明内容

本申请提供一种基于音频生成动态图像的方法、装置、设备及存储介质，能够基于目标人物的单张图片得到目标人物的动态图像，从而得到数字人；这样不需要进行视频采集工作以及数据清洗工作，能够降低数字人的制作成本，且缩短了数字人的制作周期。

本申请的第一方面，提供了一种基于音频生成动态图像的方法，包括：

获取用户输入的参考图像和参考音频；

基于参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征；

基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整，得到目标生成网络模型；

基于参考音频、参考图像和目标生成网络模型，对待处理图像进行处理，得到目标动态图像；目标动态图像表征待处理图像中目标人物基于参考音频变化面部表情的动态图像；待处理图像与参考图像中的图像对象相同。

上述技术方案中，基于参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征，包括：

基于参考图像，得到参考数据；

通过训练后的生成网络模型从参考数据中提取目标头部动作特征和目标表情系数特征。

上述技术方案中，通过训练后的生成网络模型从参考数据中提取目标头部动作特征和目标表情系数特征，包括：

通过训练后的生成网络模型从参考数据中确定多帧目标人物的面部图像；

通过训练后的生成网络模型基于各帧目标人物的面部图像进行特征提取，得到目标头部动作特征和目标表情系数特征。

上述技术方案中，目标生成网络模型包括仿射子网络和驱动子网络；

基于参考音频、参考图像和目标生成网络模型，对待处理图像进行处理，得到目标动态图像，包括：

通过仿射子网络对待处理图像进行处理，得到待处理特征图，并通过仿射子网络基于参考音频、参考图像和待处理特征图，得到形变特征图；

通过驱动子网络基于形变特征图，对待处理图像进行处理，得到目标动态图像。

上述技术方案中，仿射子网络包括语音处理层、特征提取层、特征融合层和特征仿射层；

通过仿射子网络对待处理图像进行处理，得到待处理特征图，并通过仿射子网络基于参考音频、参考图像和待处理特征图，得到形变特征图，包括：

通过语音处理层确定参考音频对应的目标梅尔倒谱系数特征；

通过特征提取层对参考图像进行特征提取，得到参考特征图；

通过特征提取层对待处理图像进行特征提取，得到待处理特征图；

通过特征融合层对参考特征图和待处理特征图进行特征堆叠对齐处理，得到融合特征图；

通过特征仿射层基于融合特征图和目标梅尔倒谱系数特征确定仿射系数，并基于仿射系数对参考特征图进行仿射变换的空间形变，得到形变特征图。

上述技术方案中，驱动子网络包括特征处理层、特征同步层和图像驱动层；

通过驱动子网络基于形变特征图，对待处理图像进行处理，得到目标动态图像，包括：

通过特征处理层基于目标梅尔倒谱系数特征，得到初始驱动特征；

通过图像驱动层基于初始驱动特征对待处理特征图进行驱动处理，得到初始特征图；

通过特征同步层对形变特征图与初始特征图进行堆叠处理，以确定形变特征图与初始特征图之间的特征同步参数；

通过特征处理层基于特征同步参数对初始驱动特征进行调整，得到目标驱动特征；

通过图像驱动层基于目标驱动特征，对待处理图像进行驱动处理，得到目标动态图像。

上述技术方案中，方法还包括：

获取样本视频；其中，样本视频中的视频对象与待处理图像中的图像对象不同；

通过待训练的生成网络模型对样本视频进行处理，提取样本音频数据和样本图像数据；

基于待训练的生成网络模型对样本音频数据和样本图像数据进行处理，得到预测训练结果；

以预测训练结果作为待训练的生成网络模型的初始训练输出，样本图像数据作为监督信息，迭代训练待训练的生成网络模型得到训练后的生成网络模型。

上述技术方案中，基于待训练的生成网络模型对样本音频数据和样本图像数据进行处理，得到预测训练结果，包括：

基于待训练的生成网络模型从样本音频数据中提取参考梅尔倒谱系数特征；

基于待训练的生成网络模型从样本图像数据中提取参考头部动作、参考表情系数特征和参考人脸特征；

通过待训练的生成网络模型基于参考梅尔倒谱系数特征、参考头部动作、参考表情系数特征和参考人脸特征，得到预测训练结果。

上述技术方案中，以预测训练结果作为待训练的生成网络模型的初始训练输出，样本图像数据作为监督信息，迭代训练待训练的生成网络模型得到训练后的生成网络模型，包括：

根据预测训练结果和样本图像数据，确定损失值；

根据损失值，迭代更新待训练的生成网络模型，得到训练后的生成网络模型。

本申请第二方面，提供一种基于音频生成动态图像的装置，包括：

获取模块，用于获取用户输入的参考图像和参考音频；

处理模块，用于基于参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征；

调整模块，用于基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整，得到目标生成网络模型；

处理模块，还用于基于参考音频、参考图像和目标生成网络模型，对待处理图像进行处理，得到目标动态图像；目标动态图像表征待处理图像中目标人物基于参考音频变化面部表情的动态图像；待处理图像与参考图像中的图像对象相同。

本申请第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如上述任一项实施例方法的步骤。

本申请第四方面，提供一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述任一项实施例方法的步骤。

本申请实施例提供一种基于音频生成动态图像的方法、装置、设备及存储介质，其中，基于音频生成动态图像的方法包括获取用户输入的参考图像和参考音频；基于参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征；基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整，得到目标生成网络模型；基于参考音频、参考图像和目标生成网络模型，对待处理图像进行处理，得到目标动态图像；目标动态图像表征待处理图像中目标人物基于参考音频变化面部表情的动态图像；待处理图像与参考图像中的图像对象相同；如此，基于目标人物的单张图片（参考图像）即可得到数字人（目标人物基于参考音频变化面部表情的动态图像）；这样不需要进行视频采集工作以及数据清洗工作，能够降低数字人的制作成本，且缩短了数字人的制作周期。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种基于音频生成动态图像的方法的流程示意图；

图2为本申请实施例提供的另一种基于音频生成动态图像的方法的流程示意图；

图3为本申请实施例提供的又一种基于音频生成动态图像的方法的流程示意图；

图4为本申请实施例提供的一种目标生成网络模型的结构示意图；

图5A为本申请实施例提供的又一种基于音频生成动态图像的方法的流程示意图；

图5B为本申请实施例提供的又一种基于音频生成动态图像的方法的流程示意图；

图5C为本申请实施例提供的又一种基于音频生成动态图像的方法的流程示意图；

图6为本申请实施例提供的又一种基于音频生成动态图像的方法的流程示意图；

图7为本申请实施例提供的又一种基于音频生成动态图像的方法的流程示意图；

图8为本申请实施例提供的又一种基于音频生成动态图像的方法的流程示意图；

图9为本申请实施例提供的又一种基于音频生成动态图像的方法的流程示意图；

图10为本申请实施例提供的一种训练生成网络模型的方法的流程示意图；

图11为本申请实施例提供的一种基于音频生成动态图像的装置的结构示意图；

图12为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述。

数字人（Digital Human/Meta Human），是运用数字技术创造出来的、与人类形象接近的数字化人物形象。随着元宇宙概念的普及，数字人进入大众生活。目前，数字人的制作过程为：采集目标人物说话的视频数据；之后，通过深度学习网络（如，GAN网络模型），学习视频数据中目标人物的声音和口型的对应关系，从而得到完成训练的网络模型；最后，向完成训练的网络模型输入新的音频，以使得完成训练的网络模型生成该音频对应的口型动画，进而完成数字人的制作。

但是，上述数字人制作的方式需要大量的视频采集工作，以及数据清洗工作；即用户想要生成对应数字人时，需要获取用户说话的大量视频数据，且为了保证得到的数字人的效果，对于用户说话的视频数据的质量也有一定要求。且由于视频数据需要拆解成一帧一帧来学习，数据量较大，且对设备的硬件配置要求也较高。如此，导致生成用户对应的数字人时，较为麻烦，成本过高，周期较长。

为了解决采用上述技术问题。本申请提供一种基于音频生成动态图像的方法，能够基于目标人物的单张图片（参考图像）得到数字人（目标人物基于参考音频变化面部表情的动态图像）；这样不需要进行视频采集工作以及数据清洗工作，能够降低数字人的制作成本，且缩短了数字人的制作周期。

参见图1，本申请实施例提供一种基于音频生成动态图像的方法，包括S101-S104。

S101、获取用户输入的参考图像和参考音频。

在一些实施例中，用户输入的参考图像为目标人物的单张照片，即参考图像的数量为一个。参考图像中展示了目标人物头部的正面信息，即参考图像中能够完整露出人物的面部或完整露出人物的嘴部区域。其中，参考图像可以是从网上下载的图像，也可以是由用户通过带有摄像功能的移动终端拍摄的人物图像，还可以是虚拟数字人物图像、动漫人物图像等。本申请实施例对参考图像的获取方式和参考图像中的人物类型不作限定。下述实施例中将以参考图像的获取方式为拍摄得到为例进行示例性说明。

在一些实施例中，用户输入的参考音频可以是从网上下载的音频，也可以是自己录音得到的音频。本申请实施例对参考音频的获取方式不作限定。下述实施例中将以参考音频的获取方式为从网上下载为例进行示例性说明。

在一些实施例中，获取的参考图像可以是经过预处理后的参考图像，也可以是未经过预处理的参考图像；获取的参考音频可以是预处理后的参考音频，也可以是未经过预处理的参考音频。若参考图像和/或参考音频未经过预处理，则在S101之后，要对参考图像和/或参考音频进行预处理。其中，参考图像的预处理方法可以是裁切、降噪等；参考音频的预处理方法可以是降噪、增强音频、剪辑等。本申请实施例对参考图像和/或参考音频的预处理时间和预处理方式均不作限定。下述实施例中将以S101中用户输入的参考图像和参考音频均以完成预处理处理为例进行示例性说明。

S102、基于参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征。

在一些实施例中，将参考图像输入至训练后的网络模型中。训练后的生成网络模型将会对参考图像进行处理，以从参考图像中确定目标头部动作特征和目标表情系数特征。其中，训练后的生成网络模型包括多个生成器。训练后的生成网络模型通过各生成器基于参考图像，生成多个预测图像。之后，基于各预测图像与参考图像之间的区别，学习确定目标头部动作特征和目标表情系数特征。

需要说明的是，当参考图像中仅存在一个人物时，训练后的生成网络模型可直接对参考图像进行处理，以确定目标头部动作特征和目标表情系数特征。当参考图像中存在多个人物时，训练后的生成网络模型可以识别参考图像中的人数，并选完整露出面部的任务作为目标人物。

参见图2，在一些实施例中，S102可以包括S1021-S1022。

S1021、基于参考图像，得到参考数据。

在一些实施例中，基于参考图像生成预设时长的视频，并对视频进行处理，以得到参考数据。其中，基于参考图像生成的预设时长的视频可以是静默视频，即视频中的音频为空白音频。

示例性地，基于参考图像生成一段1分钟的视频，以帧为单位对1分钟的视频进行处理。其中，每一帧图像均为参考图像。

在一些实施例中，可以通过训练后的生成网络模型基于参考图像得到参考数据，也可以在将参考数据输入至训练后的生成网络模型之前，通过设置有训练后的生成网络模型的电子设备基于参考图像得到参考数据。

本申请实施例中对参考数据的生成方式不作限定。本申请实施例中将以通过训练后的生成网络模型基于参考图像得到参考数据为例进行示例性说明。

S1022、通过训练后的生成网络模型从参考数据中提取目标头部动作特征和目标表情系数特征。

在一些实施例中，将参考数据输入至训练后的生成网络模型中，以通过训练后的生成网络模型从参考数据中确定目标人脸部分；之后，从目标人脸部分提取得到目标头部动作特征（head pose）和目标表情系数特征。

示例性地，目标头部动作特征可以表征目标人物头部的朝向，还可以表征目标人物头部的动作。目标表情系数特征可以表征目标人物的至少一个嘴部动作，还可以表征目标人物的除了嘴部之外的，其余器官的动作；如，眼部。本申请实施例对目标头部动作特征的内容和目标表情系数特征的内容均不作限定。本申请实施例中将以目标头部动作特征包括目标人物的头部动作信息，目标表情系数特征包括目标人物的嘴部动作信息为例进行示例性说明。

参见图3，在一些实施例中，S1022可以包括S401-S402。

S401、通过训练后的生成网络模型从参考数据中确定多帧目标人物的面部图像。

在一些实施例中，将参考数据输入至训练后的生成网络模型后，训练后的生成网络模型基于参考数据进行学习，以从参考数据中确定多帧目标人物的面部图像。

S402、通过训练后的生成网络模型基于各帧目标人物的面部图像进行特征提取，得到目标头部动作特征和目标表情系数特征。

在一些实施例中，通过训练后的生成网络模型，从各帧目标人物的面部图像中提取对应的特征，即对各帧目标人物的面部图像进行特征提取；以得到目标头部动作特征和目标表情系数特征。

S103、基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整，得到目标生成网络模型。

在一些实施例中，基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型的参数进行调整，以使得训练后的生成网络模型更贴合目标人物。对训练后的网络模型进行调整后，得到目标生成网络模型。

S104、基于参考音频、参考图像和目标生成网络模型，对待处理图像进行处理，得到目标动态图像。

其中，目标动态图像表征待处理图像中目标人物基于参考音频变化面部表情的动态图像；待处理图像与参考图像中的图像对象相同。

在一些实施例中，将参考音频和参考图像输入至目标生成网络模型中，通过目标生成网络基于参考音频和参考图像对待处理图像进行处理，以得到目标动态图像。其中，目标动态图像中的目标区域会根据参考音频进行变化，使得待处理图像中目标人物的面部表情能够根据参考音频变化。

示例性地，目标区域包括嘴部区域、眼部区域、鼻子区域、耳朵区域或眉毛区域中的至少一项。本申请实施例中对目标区域不作限定。本申请实施例中以目标区域包括嘴部区域、眼部区域和眉毛区域为例进行示例性说明。

在一些实施例中，参考音频中包括文字语音。

示例性地，若参考语音为欢迎大家体验，则通过目标生成网络基于“欢迎大家体验”的文字语音，得到的目标动态图像中，目标人物的面部表情变化与“欢迎大家体验”的文字语音对应。

由于目标生成网络模型是基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整得到的，因此目标生成网络模型的模型结构与训练生成网络模型相同。如图4所示，在一些实施例中，目标生成网络模型包括仿射子网络和驱动子网络。仿射子网络包括特征语音处理层、特征提取层、特征融合层和特征仿射层；驱动子网络包括特征处理层、特征同步层和图像驱动层。

基于图4，参见图5A所示，在一些实施例中，S104可以包括S1041-S1042。

S1041、通过仿射子网络对待处理图像进行处理，得到待处理特征图，并通过仿射子网络基于参考音频、参考图像和待处理特征图，得到形变特征图。

在一些实施例中，仿射子网络包括语音处理层、特征提取层、特征融合层和特征仿射层。

参见图5B，在一些实施例中，S1041可以包括S10411-S10415。

S10411、通过语音处理层确定参考音频对应的目标梅尔倒谱系数特征。

在一些实施例中，语音处理层将参考音频在频域上的能量谱转换为梅尔频率尺度上的能量分布，以从参考音频中确定参考音频对应的目标梅尔频率倒谱系数特征。

S10412、通过特征提取层对参考图像进行特征提取，得到参考特征图。

在一些实施例中，通过特征提取层对参考图像进行特征提取，以得到参考图像中各像素的特征向量，从而得到参考图像对应的参考特征图。

S10413、通过特征提取层对待处理图像进行特征提取，得到待处理特征图。

在一些实施例中，通过特征提取层对待处理图像进行特征提取，以得到待处理图像中各像素的特征向量，从而得到待处理图像对应的待处理特征图。

S10414、通过特征融合层对参考特征图和待处理特征图进行特征堆叠对齐处理，得到融合特征图。

示例性地，特征融合层对参考特征图和待处理特征图沿特征通道堆叠在一切，之后，将堆叠在一起的参考特征图和待处理特征图输入至对齐编码器中，得到融合特征图。

S10415、通过特征仿射层基于融合特征图和目标梅尔倒谱系数特征确定仿射系数，并基于仿射系数对参考特征图进行仿射变换的空间形变，得到形变特征图。

示例性地，确定仿射系数后，基于仿射系数对参考特征图中各特征通道进行仿射变换的空间形变，得到形变特征图。

S1042、通过驱动子网络基于形变特征图，对待处理图像进行处理，得到目标动态图像。

在一些实施例中，驱动子网络包括特征处理层、特征同步层和图像驱动层。

参见图5C，在一些实施例中，S1042可以包括S10421-S10425。

S10421、通过特征处理层基于目标梅尔倒谱系数特征，得到初始驱动特征。

S10422、通过图像驱动层基于初始驱动特征对待处理特征图进行驱动处理，得到初始特征图。

S10423、通过特征同步层对形变特征图与初始特征图进行堆叠处理，以确定形变特征图与初始特征图之间的特征同步参数。

S10424、通过特征处理层基于特征同步参数对初始驱动特征进行调整，得到目标驱动特征。

S10425、通过图像驱动层基于目标驱动特征，对待处理图像进行驱动处理，得到目标动态图像。

示例性地，目标驱动特征表征待处理图像中的目标区域。其中，通过图像驱动层基于目标驱动特征，对待处理图像中的目标区域进行驱动，以得到目标动态图像。如，驱动目标区域中的嘴部区域，使得待处理图像中的目标人物嘴部由闭合状态变为“O”状；驱动目标区域中的眼部区域，使得待处理图像中的目标人物眼部由睁开状态变为闭合状态；驱动目标区域中的眉毛区域，使得待处理图像中的目标人物眉毛上挑。需要说明的是，在目标区域包括多个区域的情况下，通过图像驱动层对待处理图像中的多个目标区域进行驱动时，可以对多个目标区域依次进行驱动，如：先驱动嘴部区域，再驱动眼部区域，最后驱动眉毛区域；也可以同时对多个目标区域进行驱动。本申请实施例对此不作点多。

在一些实施例中，可以通过目标生成网络模型对参考音频进行特征提取得到参考音频对应的目标梅尔倒谱系数特征，也可以通过对参考音频进行预处理以确定参考音频对应的目标梅尔倒谱系数特征，还可以通过设置有目标生成网络模型的电子设备中的其他模型对参考音频进行处理得到参考音频对应的目标梅尔倒谱系数特征。本申请实施例对确定参考音频对应的目标梅尔频率倒谱系数特征的方式不做限定。本申请实施例以通过设置有目标生成网络模型的电子设备中的其他模型对参考音频进行处理得到参考音频对应的目标梅尔倒谱系数特征为例进行示例性说明。

可以理解是，本申请提出的基于音频生成动态图像的方法能够通过训练后的生成网络模型学习他人的头部动作、表情，以及音频口型对应关系，并迁移到单张待处理图像（照片）上。如此，能够使用单张待处理图像制作出具备头部、表情变化，并可通过任意音频进行驱动的数字人。使得不需要进行视频采集工作以及数据清洗工作，能够降低数字人的制作成本。且因为待处理图像为一张，即一帧；能够减少待处理的数据量，这样缩短了数字人的制作周期。

参见图6，在一些实施例中，本申请提供的基于音频生成动态图像的方法，还包括S601-S604。

S601、获取样本视频。

其中，样本视频中的视频对象与待处理图像中的图像对象不同。

在一些实施例中，样本视频中展示了人物（任意第三人）头部的正面信息，且样本视频中包括待提取音频数；即样本视频中展示了人物说话时的面部信息。如此，通过样本视频，能够确定人物说话过程中的面部表情。

其中，样本视频可以是从公共渠道（如，互联网）下载的视频，也可以是由用户通过带有摄像功能的移动终端拍摄的人物视频，还可以是虚拟数字人物图像、动漫人物图像等。本申请实施例对样本视频的获取方式和样本视频中的人物类型不作限定。下述实施例中将以从网上下载以得到样本视频为例进行示例性说明。

在一些实施例中，可以获取一个样本视频，也可以为了保证后续对待训练的生成网络模型的训练效果获取多个样本视频。本申请实施例对获取的样本视频的数量不作限定。下述实施例中将以获取多个样本视频为例进行示例性说明。

S602、通过待训练的生成网络模型对样本视频进行处理，提取样本音频数据和样本图像数据。

在一些实施例中，将样本视频作为训练数据输入至待训练的生成网络模型中，通过待训练的生成网络模型对样本视频进行处理，以从样本视频中提取出样本音频数据和样本图像数据。其中，样本图像数据包括至少一张样本图像。样本图像中展示了人物的头部的正面信息。

在一些实施例中，各样本图像中的人物面部表情可以相同，也可以不同。本申请实施例对样本图像数据中的样本图像数量以及样本图像的内容不作限定。下述实施例中将以样本图像数据中包括多张样本图像，且各样本图像中的人物面部表情不同为例进行示例性说明。

S603、基于待训练的生成网络模型对样本音频数据和样本图像数据进行处理，得到预测训练结果。

在一些实施例中，通过待训练的生成网络模型对样本音频数据和样本图像数据进行处理，得到预测训练结果。

参见图7，在一些实施例中，S603可以包括S6031-S6033。

S6031、基于待训练的生成网络模型从样本音频数据中提取参考梅尔倒谱系数特征。

在一些实施例中，通过待训练的生成网络模型对样本音频数据进行特征提取，以从样本音频数据中提取参考梅尔倒谱系数特征。其中，通过待训练的生成网络模型从样本音频数据中提取参考梅尔倒谱系数特征的方式，可以与S1041中从参考音频中确定目标梅尔倒谱系数特征的方式相同。

S6032、基于待训练的生成网络模型从样本图像数据中提取参考头部动作、参考表情系数特征和参考人脸特征。

在一些实施例中，通过待训练的生成网络模型对样本图像数据进行特征提取，以从样本图像数据中提取参考头部动作、参考表情系数特征和参考人脸特征。

S6033、通过待训练的生成网络模型基于参考梅尔倒谱系数特征、参考头部动作、参考表情系数特征和参考人脸特征，得到预测训练结果。

在一些实施例中，将参考梅尔倒谱系数特征、参考头部动作、参考表情系数特征和参考人脸特征输入至待训练的生成网络模型，通过待训练的生成网络模型基于参考梅尔倒谱系数特征、参考头部动作、参考表情系数特征和参考人脸特征，得到预测训练结果。

其中，待训练的生成网络模型的结构与训练后的生成网络模型的结构相同，此处不再赘述。

S604、以预测训练结果作为待训练的生成网络模型的初始训练输出，样本图像数据作为监督信息，迭代训练待训练的生成网络模型得到训练后的生成网络模型。

参见图8，在一些实施例中，S604可以包括：

S6041、根据预测训练结果和样本图像数据，确定损失值。

在一些实施例中，基于预设的损失函数确定预测训练结果与样本图像数据之间的损失值。其中，预设的损失函数可以是交叉熵损失函数。

本申请实施例对确定预测训练结果和样本图像数据的损失值的方式不作限定。下述实施例中将以通过预设的损失函数确定预测训练结果和样本图像数据的损失值方式进行示例性说明。

S6042、根据损失值，迭代更新待训练的生成网络模型，得到训练后的生成网络模型。

在一些实施例中，根据损失值，迭代更新待训练的生成网络模型，直至损失值不再增大，或者，损失值低于预设损失阈值，得到训练后的生成网络模型。

如图9所示，在一些实施例中，本申请提供另一种基于音频生成动态图像的方法，包括：先获取参考视频数据（参考数据）和说话音频（参考音频）。其中，可以同时获取参考视频数据和说话音频，也可以分别获取参考视频数据和说话音频，本申请实施例对参考视频数据和说话音频的获取顺序不作限定。下述实施例中将以分别获取参考视频数据和说话音频为例进行示例性说明。

分别获取参考视频数据和说话音频之后，对参考视频数据进行处理，得到目标人脸部分。之后，对目标人脸部分进行特征提取，从而得到head pose（目标头部动作特征）和表情系数（目标表情系数特征）。并对说话音频进行特征提取，以得到目标梅尔倒谱系数（Mel-Frequency Cepstral Coefficient,MFCC）特征。本申请实施例对说话音频和目标人脸部分的特征提取顺序不作限定。本申请实施例将以同时对说话音频和目标人脸部分进行特征提取为例进行示例性说明。

得到表情系数、head pose和目标MFCC特征之后，将表情系数、head pose、目标MFCC特征和单张照片（待处理图像）输入至训练好的生成器网络（目标生成网络模型）中，以通过训练好的生成器网络基于表情系数、head pose、目标MFCC特征和单张照片，生成动态照片（目标动态图像）。其中，训练好的生成器网络基于训练后的生成网络模型得到，即将head pose与表情系数输入训练后的生成网络模型，以对训练后的生成网络模型中的模型参数进行微调，从而得到后训练好的生成器网络。

如图10所示，在一些实施例中，本申请还提供一种训练生成网络模型的方法，包括：

先获取样本视频数据；之后，对视频样本数据进行处理，得到标准数字音频数据（wav）和样本人脸部分（样本图像数据）。再之后，对wav（又称为样本音频数据）进行特征提取，以得到样本MFCC特征；对样本人脸部分进行处理，得到参考head pose（参考头部动作）、参考表情系数特征和参考人脸帧（参考人脸特征）。本申请实施例对wav和样本人脸部分的特征提取顺序不作限定。本申请实施例将以同时对wav和样本人脸部分进行特征提取为例进行示例性说明。

得到参考head pose、参考表情系数特征、参考人脸帧和样本MFCC特征之后，将参考head pose、参考表情系数特征、参考人脸帧和样本MFCC特征输入至生成器网络（待训练的生成网络模型）中，以通过生成器网络生成预测人脸数据（预测训练结果）。最后，基于预测人脸数据和样本人脸部分之间的损失值，得到训练后的生成网络模型，从而完成生成网络模型的训练。

与前述基于音频生成动态图像的方法的实施例相对应，本申请还提供了基于音频生成动态图像的装置的实施例。

参照图11，本申请实施例提供一种基于音频生成动态图像的装置，包括：

获取模块1101，用于获取用户输入的参考图像和参考音频；

处理模块1102，用于基于所述参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征；

调整模块1103，用于基于所述目标头部动作特征和所述目标表情系数特征对所述训练后的生成网络模型进行调整，得到目标生成网络模型；

处理模块1102，还用于基于所述参考音频、所述参考图像和所述目标生成网络模型，对待处理图像进行处理，得到目标动态图像；所述目标动态图像表征所述待处理图像中目标人物基于所述参考音频变化面部表情的动态图像；所述待处理图像与所述参考图像中的图像对象相同。

在一些实施例中，处理模块1102，还用于基于所述参考图像，得到参考数据；还用于通过训练后的生成网络模型从参考数据中提取目标头部动作特征和目标表情系数特征。

在一些实施例中，处理模块1102，还用于通过训练后的生成网络模型从参考数据中确定多帧目标人物的面部图像；还用于通过训练后的生成网络模型基于各帧目标人物的面部图像进行特征提取，得到目标头部动作特征和目标表情系数特征。

在一些实施例中，所述目标生成网络模型包括仿射子网络和驱动子网络；

处理模块1102，还用于通过所述仿射子网络对所述待处理图像进行处理，得到待处理特征图，并通过所述仿射子网络基于所述参考音频、所述参考图像和所述待处理特征图，得到形变特征图；通过所述驱动子网络基于所述形变特征图，对所述待处理图像进行处理，得到所述目标动态图像。

在一些实施例中，所述仿射子网络包括语音处理层、特征提取层、特征融合层和特征仿射层；

处理模块1102，还用于通过所述语音处理层确定所述参考音频对应的目标梅尔倒谱系数特征；通过所述特征提取层对所述参考图像进行特征提取，得到参考特征图；通过所述特征提取层对所述待处理图像进行特征提取，得到待处理特征图；通过所述特征融合层对所述参考特征图和所述待处理特征图进行特征堆叠对齐处理，得到融合特征图；通过所述特征仿射层基于所述融合特征图和所述目标梅尔倒谱系数特征确定仿射系数，并基于所述仿射系数对所述参考特征图进行仿射变换的空间形变，得到所述形变特征图。

在一些实施例中，所述驱动子网络包括特征处理层、特征同步层和图像驱动层；

处理模块1102，还用于通过所述特征处理层基于所述目标梅尔倒谱系数特征，得到初始驱动特征；通过所述图像驱动层基于所述初始驱动特征对所述待处理特征图进行驱动处理，得到初始特征图；通过所述特征同步层对所述形变特征图与所述初始特征图进行堆叠处理，以确定所述形变特征图与所述初始特征图之间的特征同步参数；通过所述特征处理层基于所述特征同步参数对所述初始驱动特征进行调整，得到目标驱动特征；通过所述图像驱动层基于所述目标驱动特征，对所述待处理图像进行驱动处理，得到所述目标动态图像。

在一些实施例中，获取模块1101，还用于获取样本视频；其中，所述样本视频中的视频对象与所述待处理图像中的图像对象不同；

处理模块1102，还用于通过待训练的生成网络模型对样本视频进行处理，提取样本音频数据和样本图像数据；还用于基于待训练的生成网络模型对样本音频数据和样本图像数据进行处理，得到预测训练结果；还用于以预测训练结果作为待训练的生成网络模型的初始训练输出，样本图像数据作为监督信息，迭代训练待训练的生成网络模型得到训练后的生成网络模型。

在一些实施例中，处理模块1102，还用于基于待训练的生成网络模型从样本音频数据中提取参考梅尔倒谱系数特征；还用于基于待训练的生成网络模型从样本图像数据中提取参考头部动作、参考表情系数特征和参考人脸特征；还用于通过待训练的生成网络模型基于参考梅尔倒谱系数特征、参考头部动作、参考表情系数特征和参考人脸特征，得到预测训练结果。

在一些实施例中，处理模块1102，还用于根据预测训练结果和样本图像数据，确定损失值；还用于根据损失值，迭代更新待训练的生成网络模型，得到训练后的生成网络模型。

如图12所示，本申请实施例提供的一种电子设备可以包括：处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240，其中，处理器1210，通信接口1220，存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令，以执行上述各方法。

此外，上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述开关设备机械状态监测方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于音频生成动态图像的方法，其特征在于，包括：

获取用户输入的参考图像和参考音频；

基于所述参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征；所述训练后的生成网络模型用于基于输入的所述参考图像生成多个预测图像，并基于各所述预测图像和所述参考图像之间的区别，确定目标头部动作特征和目标表情系数特征；

基于所述目标头部动作特征和所述目标表情系数特征对所述训练后的生成网络模型进行调整，得到目标生成网络模型；

基于所述参考音频、所述参考图像和所述目标生成网络模型，对待处理图像进行处理，得到目标动态图像；所述目标动态图像表征所述待处理图像中目标人物基于所述参考音频变化面部表情的动态图像；所述待处理图像与所述参考图像中的图像对象相同；所述目标生成网络模型用于基于输入的所述参考音频和所述参考图像得到目标驱动特征，并基于所述目标驱动特征对输入的所述待处理图像中的目标区域进行驱动以输出所述目标动态图像。

2.根据权利要求1所述的方法，其特征在于，所述基于所述参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征，包括：

基于所述参考图像生成的预设时长的视频以得到参考数据；所述参考数据通过对基于参考图像进行处理得到；

通过所述训练后的生成网络模型从所述参考数据中提取所述目标头部动作特征和所述目标表情系数特征。

3.根据权利要求2所述的方法，其特征在于，所述通过所述训练后的生成网络模型从所述参考数据中提取所述目标头部动作特征和所述目标表情系数特征，包括：

通过所述训练后的生成网络模型从所述参考数据中确定多帧目标人物的面部图像；

通过所述训练后的生成网络模型基于各帧所述目标人物的面部图像进行特征提取，得到所述目标头部动作特征和所述目标表情系数特征。

4.根据权利要求1所述的方法，其特征在于，所述目标生成网络模型包括仿射子网络和驱动子网络；

所述基于所述参考音频、所述参考图像和所述目标生成网络模型，对待处理图像进行处理，得到目标动态图像，包括：

通过所述仿射子网络对所述待处理图像进行处理，得到待处理特征图，并通过所述仿射子网络基于所述参考音频、所述参考图像和所述待处理特征图，得到形变特征图；所述仿射子网络用于确定所述参考音频对应的目标梅尔倒谱系数特征，对所述参考图像进行特征提取得到参考特征图，以及对所述参考特征图进行仿射变换得到所述形变特征图；

通过所述驱动子网络基于所述形变特征图，对所述待处理图像进行处理，得到所述目标动态图像；所述驱动子网络用于对所述待处理图像进行驱动处理，得到所述目标动态图像。

5.根据权利要求4所述的方法，其特征在于，所述仿射子网络包括语音处理层、特征提取层、特征融合层和特征仿射层；

所述通过所述仿射子网络对所述待处理图像进行处理，得到待处理特征图，并通过所述仿射子网络基于所述参考音频、所述参考图像和所述待处理特征图，得到形变特征图，包括：

通过所述语音处理层确定所述参考音频对应的目标梅尔倒谱系数特征；

通过所述特征提取层对所述参考图像进行特征提取，得到参考特征图；

通过所述特征提取层对所述待处理图像进行特征提取，得到待处理特征图；

通过所述特征融合层对所述参考特征图和所述待处理特征图进行特征堆叠对齐处理，得到融合特征图；

通过所述特征仿射层基于所述融合特征图和所述目标梅尔倒谱系数特征确定仿射系数，并基于所述仿射系数对所述参考特征图进行仿射变换的空间形变，得到所述形变特征图。

6.根据权利要求5所述的方法，其特征在于，所述驱动子网络包括特征处理层、特征同步层和图像驱动层；

所述通过所述驱动子网络基于所述形变特征图，对所述待处理图像进行处理，得到所述目标动态图像，包括：

通过所述特征处理层基于所述目标梅尔倒谱系数特征，得到初始驱动特征；

通过所述图像驱动层基于所述初始驱动特征对所述待处理特征图进行驱动处理，得到初始特征图；

通过所述特征同步层对所述形变特征图与所述初始特征图进行堆叠处理，以确定所述形变特征图与所述初始特征图之间的特征同步参数；

通过所述特征处理层基于所述特征同步参数对所述初始驱动特征进行调整，得到目标驱动特征；

通过所述图像驱动层基于所述目标驱动特征，对所述待处理图像进行驱动处理，得到所述目标动态图像。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

获取样本视频；其中，所述样本视频中的视频对象与所述待处理图像中的图像对象不同；

通过待训练的生成网络模型对所述样本视频进行处理，提取样本音频数据和样本图像数据；

基于所述待训练的生成网络模型对所述样本音频数据和所述样本图像数据进行处理，得到预测训练结果；

以所述预测训练结果作为所述待训练的生成网络模型的初始训练输出，所述样本图像数据作为监督信息，迭代训练所述待训练的生成网络模型得到所述训练后的生成网络模型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述待训练的生成网络模型对所述样本音频数据和所述样本图像数据进行处理，得到预测训练结果，包括：

基于所述待训练的生成网络模型从所述样本音频数据中提取参考梅尔倒谱系数特征；

基于所述待训练的生成网络模型从所述样本图像数据中提取参考头部动作、参考表情系数特征和参考人脸特征；

通过所述待训练的生成网络模型基于所述参考梅尔倒谱系数特征、所述参考头部动作、所述参考表情系数特征和所述参考人脸特征，得到所述预测训练结果。

9.根据权利要求7所述的方法，其特征在于，所述以所述预测训练结果作为所述待训练的生成网络模型的初始训练输出，所述样本图像数据作为监督信息，迭代训练所述待训练的生成网络模型得到所述训练后的生成网络模型，包括：

根据所述预测训练结果和所述样本图像数据，确定损失值；

根据所述损失值，迭代更新所述待训练的生成网络模型，得到所述训练后的生成网络模型。

10.一种基于音频生成动态图像的装置，其特征在于，包括：

获取模块，用于获取用户输入的参考图像和参考音频；

处理模块，用于基于所述参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征；所述训练后的生成网络模型用于基于输入的所述参考图像生成多个预测图像，并基于各所述预测图像和所述参考图像之间的区别，确定目标头部动作特征和目标表情系数特征；

调整模块，用于基于所述目标头部动作特征和所述目标表情系数特征对所述训练后的生成网络模型进行调整，得到目标生成网络模型；

所述处理模块，还用于基于所述参考音频、所述参考图像和所述目标生成网络模型，对待处理图像进行处理，得到目标动态图像；所述目标动态图像表征所述待处理图像中目标人物基于所述参考音频变化面部表情的动态图像；所述待处理图像与所述参考图像中的图像对象相同；所述目标生成网络模型用于基于输入的所述参考音频和所述参考图像得到目标驱动特征，并基于所述目标驱动特征对输入的所述待处理图像中的目标区域进行驱动以输出所述目标动态图像。

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-9任一项所述的方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的方法的步骤。