CN111243626A

CN111243626A - 一种说话视频生成方法及系统

Info

Publication number: CN111243626A
Application number: CN201911402438.1A
Authority: CN
Inventors: 刘永进; 易冉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-06-05
Anticipated expiration: 2039-12-30
Also published as: CN111243626B

Abstract

本发明实施例提供一种说话视频生成方法及系统，该方法包括：基于训练好的深度神经网络语音模型，对预设音频文件进行预测处理，得到人脸表情系数序列和第一人脸姿势系数序列；对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将短视频文件的背景匹配到人脸图像序列，得到背景匹配后的人脸图像序列；基于训练好的深度神经网络细化模型，对背景匹配后的人脸图像序列进行处理，得到目标人脸图像序列，以根据目标人脸图像序列和预设音频文件，合成得到目标人物的说话视频。本发明实施例通过在说话视频生成过程中引入三维人脸信息，并结合神经网络模型生成头部姿势自然转动且具有个性化说话习惯的说话视频。

Description

一种说话视频生成方法及系统

技术领域

本发明涉及计算机视觉和深度学习技术领域，尤其涉及一种说话视频生成方法及系统。

背景技术

说话视频生成，是指根据目标人物的视觉信息(图像或视频)和一段音频，生成与该音频同步的目标人物说话的视频。这种音频驱动的说话视频生成有着广泛的应用，例如，带宽受限情况下的视频转换和虚拟主播等。

在现实世界中，自然的头部运动在人类沟通中具有重要的作用。但是，现有基于语音的说话视频生成技术，大多是生成头部姿势固定的说话视频，即生成的说话视频中仅有面部嘴型的变化，而头部姿势保持不变，导致这些说话视频无法体现出目标人物的个性化说话习惯，以致于这些通过现有技术生成的头部姿势固定的说话视频，很容易被判断为伪造的说话视频。

因此，现在亟需一种说话视频生成方法及系统来解决上述问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种说话视频生成方法及系统。

第一方面，本发明实施例提供了一种说话视频生成方法，包括：

基于训练好的深度神经网络语音模型，对预设音频文件进行预测处理，得到人脸表情系数序列和第一人脸姿势系数序列；所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的；

对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，所述短视频文件为目标人物的真实说话视频；

基于训练好的深度神经网络细化模型，对所述背景匹配后的人脸图像序列进行处理，得到目标人脸图像序列，以根据所述目标人脸图像序列和所述预设音频文件，合成得到所述目标人物的说话视频；所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。

进一步地，所述对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，包括：

对短视频文件中第一帧人脸图像进行三维人脸重建，得到人脸参数化模型系数；

根据所述人脸表情系数序列、所述第一人脸姿势系数序列和所述人脸参数化模型系数，生成人脸参数化模型系数序列，以使得所述人脸参数化模型系数序列和所述预设音频文件同步；

对所述人脸参数化模型系数序列进行渲染处理，得到人脸图像序列，并根据第二人脸姿势系数序列，将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，所述第二人脸姿势系数序列是通过对所述短视频中每一帧图像进行三维人脸重建获取得到的。

进一步地，所述训练好的深度神经网络语音模型通过以下步骤获取：

获取说话视频数据集的样本视频文件和样本音频文件，并对所述样本视频文件标记人脸表情系数标签和人脸姿势系数标签，对所述样本音频文件标记音频特征，以用于构建第一训练样本集，所述说话视频数据集为唇语识别数据集，所述样本音频文件是通过对所述样本视频文件进行提取得到的；

将所述第一训练样本集输入到深度神经网络语音模型进行训练，得到预训练的深度神经网络语音模型；

获取样本短视频文件和样本短视频音频文件，并对所述样本短视频文件标记人脸表情系数标签和人脸姿势系数标签，对所述样本短视频音频文件标记音频特征，以用于构建第二训练样本集，所述样本短视频音频文件是通过对所述样本短视频文件进行提取得到的；

根据所述第二训练样本集，对预训练的深度神经网络语音模型进行训练，得到训练好的深度神经网络语音模型。

进一步地，所述训练好的深度神经网络细化模型通过以下步骤获取：

对说话视频数据集的样本视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理，得到第三训练样本集，所述说话视频数据集为唇语识别数据集；

将所述第三训练样本集输入到深度神经网络细化模型进行训练，得到预训练的深度神经网络细化模型；

对样本短视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理，构建第四训练样本集；

根据所述第四训练样本集，对预训练的深度神经网络细化模型进行训练，得到训练好的深度神经网络细化模型。

进一步地，所述深度神经网络语音模型是由长短期记忆模型构建得到的。

进一步地，所述深度神经网络细化模型是由生成对抗网络模型构建得到的。

进一步地，所述人脸参数化模型系数包括身份系数、人脸表情系数、纹理系数、光照系数和人脸姿势系数。

第二方面，本发明实施例提供了一种说话视频生成系统，包括：

语音处理模块，用于基于训练好的深度神经网络语音模型，对预设音频文件进行预测处理，得到人脸表情系数序列和第一人脸姿势系数序列；所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的；

人脸渲染及背景匹配处理模块，用于对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，所述短视频文件为目标人物的真实说话视频；

说话视频合成模块，用于基于训练好的深度神经网络细化模型，对所述背景匹配后的人脸图像序列进行处理，得到目标人脸图像序列，以根据所述目标人脸图像序列和所述预设音频文件，合成得到所述目标人物的说话视频；所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种说话视频生成方法及系统，通过在说话视频生成过程中引入三维人脸信息，对头部姿势运动进行精确建模，并结合神经网络模型生成头部姿势自然转动的说话视频，以使得生成的说话视频具有目标人物的个性化说话习惯。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的说话视频生成方法的流程示意图；

图2为本发明实施例提供的人脸参数化模型系数序列的生成示意图；

图3为本发明实施例提供的渲染图像序列和短视频背景的匹配流程示意图；

图4为本发明实施例提供的深度神经网络细化模型的结构示意图；

图5为本发明实施例提供的说话视频生成系统的结构示意图；

图6为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的说话视频生成方法的流程示意图，如图1所示，本发明实施例提供了一种说话视频生成方法，包括：

步骤101，基于训练好的深度神经网络语音模型，对预设音频文件进行预测处理，得到人脸表情系数序列和第一人脸姿势系数序列；所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的。

在本发明实施例中，首先获取预设音频文件和短视频文件，其中，预设音频文件为真实说话音频文件，即需要根据该预设音频文件，生成对应的说话视频；短视频文件中包含目标人物的人脸，其播放的内容为该目标人物的真实说话视频。在本发明实施例中，将深度神经网络语音模型命名为AudioNet模型进行说明。进一步地，将预设音频文件输入到训练好的AudioNet模型中，该模型根据预设音频文件的音频特征，按照时间序列预测得到对应的人脸表情系数和第一人脸姿势系数，从而得到人脸表情系数序列和第一人脸姿势系数序列。

步骤102，对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，所述短视频文件为目标人物的真实说话视频。

在本发明实施例中，图2为本发明实施例提供的人脸参数化模型系数序列的生成示意图，可参考图2所示，对短视频文件的人脸图像进行三维人脸重建，从而得到第一帧人脸图像的人脸参数化模型系数，具体地，在上述实施例的基础上，所述人脸参数化模型系数包括身份系数、人脸表情系数、纹理系数、光照系数和人脸姿势系数，需要说明的是，本发明实施例描述的身份系数、人脸表情系数、纹理系数、光照系数和人脸姿势系数，可通过3DMM形变模型获取得到，具体地，3DMM形变模型通过低维的参数化系数表示一个复杂的三维人脸，其中，身份系数和人脸表情系数共同表示三维人脸的几何形状，身份系数表示人脸形状中和人物身份相关的成分，人脸表情系数表示人脸形状中和表情相关的成分；纹理系数表示三维人脸的纹理颜色；光照系数表示场景中光照信息；人脸姿势系数表示三维人脸的朝向和位置。

进一步地，可参考图2所示，根据上述实施例AudioNet模型预测得到的人脸表情系数序列和第一人脸姿势系数序列，以及人脸参数化模型系数(选取身份系数、纹理系数和光照系数)，生成对应的人脸参数化模型序列，该人脸参数化模型序列和预设音频文件同步。进一步地，对该人脸参数化模型序列进行渲染处理，得到人脸图像序列，再将短视频文件中的背景(除去人脸区域后的部分)匹配到人脸图像序列，从而得到背景匹配后的人脸图像序列。

步骤103，基于训练好的深度神经网络细化模型，对所述背景匹配后的人脸图像序列进行处理，得到目标人脸图像序列，以根据所述目标人脸图像序列和所述预设音频文件，合成得到所述目标人物的说话视频；所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。

在本发明实施例中，将深度神经网络细化模型命名为RefineNet模型进行说明，将上述实施例得到的背景匹配后的人脸图像序列，输入到训练好的RefineNet模型中，优选地，在本发明实施例中，基于背景匹配后的人脸图像序列，将每连续三帧的人脸图像输入到该模型中，得到更具有真实感的人脸图像，进一步得到有这些更具真实感的人脸图像组成的目标人脸图像序列。最后，将该目标人脸图像序列和预设音频文件进行合成，从而根据预设音频，得到目标人物的说话视频。

本发明实施例提供的一种说话视频生成方法，通过在说话视频生成过程中引入三维人脸信息，对头部姿势运动进行精确建模，并结合神经网络模型生成头部姿势自然转动的说话视频，以使得生成的说话视频具有目标人物的个性化说话习惯。

在上述实施例的基础上，所述对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，包括：

在本发明实施例中，对短视频文件中第一帧人脸图像I进行三维人脸重建，得到人脸参数化模型系数χ(I)，该系数包括：身份系数a、人脸表情系数β、纹理系数δ、光照系数γ和人脸姿势系数p，即人脸参数化模型系数χ(I)＝{a,β,δ,γ,p}。

进一步地，在本发明实施例中，需要生成与预设音频文件同步的人脸参数化模型系数序列，具体地，根据上述实施例AudioNet模型输出的人脸表情系数序列

和人脸姿势系数序列

以及人脸参数化模型系数χ(I)中的身份系数a、纹理系数δ和光照系数γ，构建人脸参数化模型系数序列{υ⁽¹⁾,υ⁽²⁾,…,υ^(T)}，其中，

t＝1,…,T，T表示预设音频文件的时长。

进一步地，在本发明实施例中，对人脸参数化模型系数序列进行渲染处理，得到一组只包含有人脸面部区域的人脸图像，即人脸图像序列，并将短视频文件中的人脸区域去除，得到短视频文件的背景。然后，根据第二人脸姿势系数序列，将短视频文件的背景和人脸图像序列进行匹配，从而得到背景匹配后的人脸图像序列，其中，第二人脸姿势系数序列是通过三维人脸重建技术，从短视频每一帧图像中获取得到的。

进一步地，在本发明实施例中，根据每一个渲染得到的图像(即人脸图像序列中每一张人脸图像)的人脸姿势系数，从第二人脸姿势系数序列中获取最接近的第二人脸姿势系数对应的短视频帧的背景，作为渲染得到的图像的背景。若出现相邻帧背景不连续的情况，从渲染得到的图像序列中选出短时间内头部转动最大的帧作为关键帧，从而仅针对关键帧从短视频中匹配背景，对于相邻关键帧之间的帧(非关键帧)，则通过上一关键帧的背景在短视频中的位置和下一关键帧在短视频中的位置的线性插值，来确定当前帧的背景。

图3为本发明实施例提供的渲染图像序列和短视频背景的匹配流程示意图，可参考图3所示，在本发明实施例中，通过以下步骤对渲染图像序列进行背景匹配：

步骤301，通过三维人脸重建获取短视频中每一帧图像的人脸姿势系数；

步骤302，对每一个渲染图像，选择与其姿势系数最接近的短视频帧的背景作为其背景；

步骤303，若匹配后出现相邻帧背景不连续的情况，若是，至步骤304；若没有出现相邻帧背景不连续的情况，则至步骤307；

步骤304，从渲染图像序列中选出短时间内头部转动最大的帧作为关键帧，得到关键帧集合{k_i}；

步骤305，对于每个关键帧k_i，从短视频中根据姿势匹配背景，记匹配到的是短视频中第b_i帧的背景；

步骤306，对于每个非关键帧，以相邻关键帧k_i和k_j之间的渲染帧l为例，使用关键帧匹配的背景的在短视频中的位置b_i和b_j线性插值得到位置

使用该位置的短视频帧的背景作为渲染帧l的背景；

步骤307，输出匹配背景后的渲染图像序列。

在上述实施例的基础上，所述训练好的深度神经网络语音模型通过以下步骤获取：

获取说话视频数据集的样本视频文件和样本音频文件，并对所述样本视频文件标记人脸表情系数标签和人脸姿势系数标签，对所述样本音频文件标记音频特征，以用于构建第一训练样本集S₀，所述说话视频数据集为唇语识别数据集(Lip Reading in the WildDataset，简称LRW)，该数据集中包括不同人物的说话视频，所述样本音频文件是通过对所述样本视频文件进行提取得到的；

将所述第一训练样本集S₀输入到深度神经网络语音模型进行训练，得到预训练的深度神经网络语音模型A₀；

获取样本短视频文件和样本短视频音频文件，并对所述样本短视频文件标记人脸表情系数标签和人脸姿势系数标签，对样本短视频音频文件标记音频特征，以用于构建第二训练样本集S₁，所述样本短视频音频文件是通过对所述样本短视频文件进行提取得到的；

根据所述第二训练样本集S₁，对预训练的深度神经网络语音模型A₀进行训练，得到训练好的深度神经网络语音模型A₁。

在本发明实施例中，所述第一训练样本集S₀与所述第二训练样本集S₁通过以下方式构建得到的：分别从说话视频数据集的样本视频文件(构建第一训练样本集S₀)和样本短视频文件(构建第二训练样本集S₁)中提取样本音频文件(即从样本视频文件中提取样本音频文件，从样本短视频文件中提取样本短视频音频文件)，然后，对样本音频文件(样本短视频音频文件)进行梅尔频率倒谱系数特征(Mel Frequency Cepstrum Coefficient，简称MFCC)提取，在本发明实施例中，将每隔m毫秒位置为中心的音频片段作为一个音频特征，得到MFCC音频特征s；同时，从样本视频文件(构建第一训练样本集S₀)和样本短视频文件(构建第二训练样本集S₁)中每个m毫秒提取一张图像，对该图像进行三维人脸重建，从而提取样本人脸参数化模型系数，以根据该模型系数中的样本人脸表情系数和样本人脸姿势系数，构建表情姿势系数对；最后，根据MFCC音频特征s和表情姿势系数对{β_label,p_label}，构建训练样本集(s,{β_label,p_label})，由此，通过上述步骤分别得到了第一训练样本集S₀与第二训练样本集S₁。需要说明的是，在本发明实施例中，深度神经网络语音模型在训练好之后，输入至该模型中的是某时刻的MFCC音频特征s，模型输出的是预测的对应时刻的人脸表情系数和第一人脸姿势系数，即{β_pred,p_pred}。

在上述实施例的基础上，所述深度神经网络语音模型是由长短期记忆模型构建得到的。在本发明实施例中，长短期记忆模型(Long Short-Term Memory，简称LSTM)依次包括卷积层、池化层、激活层和全连接层等。

进一步地，通过最小化损失函数L_AudioNet，完成深度神经网络语音模型的训练，公式为：

L_AudioNet＝L_MSE+L_inter-frame；

其中，L_MSE表示均方误差(Mean squared error，简称MSE)损失项，L_inter-frame表示帧间连续损失项，n表示训练样本集中的训练样本数量，每个训练样本为样本视频文件中每隔m毫秒提取的音频特征和表情姿势系数对；β_label表示训练样本中的真实人脸表情系数，β_pred表示模型预测的人脸表情系数，p_label表示训练样本中的真实人脸姿势系数，p_pred表示模型预测的人脸姿势系数；λ_a1表示均方误差损失项的权重，λ_a2表示帧间连续损失项的权重；

表示预测的t时刻的人脸姿势系数，T_i表示第i个训练样本的时间长度。

在上述实施例的基础上，所述训练好的深度神经网络细化模型通过以下步骤获取：

对说话视频数据集的样本视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理，得到第三训练样本集S₂，所述说话视频数据集为唇语识别数据集LRW；

将所述第三训练样本集S₂输入到深度神经网络细化模型进行训练，得到预训练的深度神经网络细化模型R₀；

根据样本短视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理，构建第四训练样本集S₃；

根据所述第四训练样本集S₃，对预训练的深度神经网络细化模型R₀进行训练，得到训练好的深度神经网络细化模型R₁。

在本发明实施例中，所述第三训练样本集S₂和第四训练样本集S₃通过以下方式构建得到的：分别从说话视频数据集的样本视频文件(构建第三训练样本集S₂)和样本短视频(构建第四训练样本集S₃)中提取图像帧，然后对每一帧的图像进行三维人脸重建并提取对应的人脸参数化模型系数，以根据该人脸参数化模型系数进行图像渲染，得到样本渲染人脸图像，在本发明实施例中，渲染人脸图像只包含有人脸面部区域的图像。进一步地，分别从说话视频数据集的样本视频文件(构建第三训练样本集S₂)和样本短视频(构建第四训练样本集S₃)中提取样本真实说话图像，并将样本渲染人脸图像和样本真实说话图像构建训练样本集

由此，通过上述步骤分别得到了第三训练样本集S₂与第四训练样本集S₃。需要说明的是，在本发明实施例中，深度神经网络细化模型在训练好之后，输入至该模型中的是连续三帧的渲染人脸图像

模型输出的是预测得到的人脸图像

在上述实施例的基础上，所述深度神经网络细化模型是由生成对抗网络模型构建得到的。在本发明实施例中，生成对抗网络模型(Generative Adversarial Networks，简称GANs)依次包括卷积层、归一化层、激活层和全连接层等。

在上述实施例的基础上，图4为本发明实施例提供的深度神经网络细化模型的结构示意图，可参考图4所示，在本发明实施例中，深度神经网络细化模型包括生成子模型G，判别子模型D和记忆子模型M，其中：生成子模型G用于根据渲染图像生成更具有真实感的人脸图像，具体地，生成子模型G的输入为连续三帧的渲染图像(r^(t-2),r^(t-1),r^(t))和身份特征f^(t)，在训练阶段时，身份特征f^(t)是通过真实图像

提取得到的；在测试阶段时，身份特征f^(t)是由记忆子模型M通过渲染图像r^(t)得到的。进一步地，生成子模型G基于注意力机制，得到一个颜色掩膜C^(t)和一个注意力掩膜A^(t)，最后输出的图像

为输入渲染图像和颜色掩膜的加权求和：

其中，通过注意力掩膜A^(t)中每个像素值，确定颜色掩膜C^(t)中的各个像素对输出图像的贡献程度。

进一步地，判别子模型D用于判断渲染图像和一个待检测图像是否为伪造的图像，需要说明的是，在本发明实施例中，待检测图像可以是生成子模型G预测得到的具有真实感的人脸图像，也可能是真实人脸图像。

进一步地，记忆子模型M用于记忆训练集中具有代表性的身份特征，以使得在测试阶段能检索到最佳匹配的身份特征。具体地，在本发明实施例中，记忆子模型M中存储了成对的图像空间特征和身份特征，其中，空间特征通过渲染图像r^(t)提取，身份特征通过真实图像

提取。在训练过程中，使用训练集提取成对的特征对记忆子模型M进行更新，具体地，基于一对特征与当前记忆中已有特征对之间的最近身份特征距离，确定对该记忆进行更新或是替换；在测试过程中，使用渲染图像的空间特征作为查询(query)进行身份特征检索，从而查找记忆中最近的空间特征，并返回到对应的身份特征。

进一步地，生成子模型G和判别子模型D以对抗的方式进行训练，即生成子模型G负责产生伪造的图像，判别子模型D负责区分真正的图像和伪造的图像。生成子模型G的目标是，最小化判别子模型D将其生成的伪造图像判断为伪造的概率，而判别子模型D的目标是最大化正确区分真正图像和伪造图像的概率。

在上述实施例的基础上，通过最小化损失函数L_RefineNet，完成深度神经网络细化模型的训练，公式为：

L_RefineNet＝L_adv+L_L1+L_attention；

其中，N表示训练样本集中的训练样本数量，每个样本为一个渲染图像和真实图像组成；L_adv表示对抗损失项，L_L1表示范数损失项，L_attention表示注意力掩膜损失项；λ_r1表示范数损失项的权重；注意力掩膜损失项L_attention由注意力掩膜正则项和注意力掩膜光滑项组成，其中，λ_r2表示注意力掩膜正则项的权重，λ_r3表示注意力掩膜光滑项的权重；A_j,k表示注意力掩膜的位置为(j,k)处的像素值，H和W分别表示图像的高和宽。

图5为本发明实施例提供的说话视频生成系统的结构示意图，如图5所示，本发明实施例提供了一种说话视频生成系统，包括语音处理模块501、人脸渲染及背景匹配处理模块502和说话视频合成模块503，其中，语音处理模块501用于基于训练好的深度神经网络语音模型，对预设音频文件进行预测处理，得到人脸表情系数序列和第一人脸姿势系数序列；所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的；人脸渲染及背景匹配处理模块502用于对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，所述短视频文件为目标人物的真实说话视频；说话视频合成模块503用于基于训练好的深度神经网络细化模型，对所述背景匹配后的人脸图像序列进行处理，得到目标人脸图像序列，以根据所述目标人脸图像序列和所述预设音频文件，合成得到所述目标人物的说话视频；所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。

本发明实施例提供的一种说话视频生成系统，通过在说话视频生成过程中引入三维人脸信息，对头部姿势运动进行精确建模，并结合神经网络模型生成头部姿势自然转动的说话视频，以使得生成的说话视频具有目标人物的个性化说话习惯。

本发明实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图6为本发明实施例提供的电子设备结构示意图，参照图6，该电子设备可以包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令，以执行如下方法：基于训练好的深度神经网络语音模型，对预设音频文件进行预测处理，得到人脸表情系数序列和第一人脸姿势系数序列；所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的；对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，所述短视频文件为目标人物的真实说话视频；基于训练好的深度神经网络细化模型，对所述背景匹配后的人脸图像序列进行处理，得到目标人脸图像序列，以根据所述目标人脸图像序列和所述预设音频文件，合成得到所述目标人物的说话视频；所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的说话视频生成方法，例如包括：基于训练好的深度神经网络语音模型，对预设音频文件进行预测处理，得到人脸表情系数序列和第一人脸姿势系数序列；所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的；对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，所述短视频文件为目标人物的真实说话视频；基于训练好的深度神经网络细化模型，对所述背景匹配后的人脸图像序列进行处理，得到目标人脸图像序列，以根据所述目标人脸图像序列和所述预设音频文件，合成得到所述目标人物的说话视频；所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种说话视频生成方法，其特征在于，包括：

2.根据权利要求1所述的说话视频生成方法，其特征在于，所述对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将所述短视频文件的背景匹配到所述人脸图像序列，得到背景匹配后的人脸图像序列，包括：

3.根据权利要求1所述的说话视频生成方法，其特征在于，所述训练好的深度神经网络语音模型通过以下步骤获取：

4.根据权利要求1所述的说话视频生成方法，其特征在于，所述训练好的深度神经网络细化模型通过以下步骤获取：

5.根据权利要求3所述的说话视频生成方法，其特征在于，所述深度神经网络语音模型是由长短期记忆模型构建得到的。

6.根据权利要求4所述的说话视频生成方法，其特征在于，所述深度神经网络细化模型是由生成对抗网络模型构建得到的。

7.根据权利要求2所述的说话视频生成方法，其特征在于，所述人脸参数化模型系数包括身份系数、人脸表情系数、纹理系数、光照系数和人脸姿势系数。

8.一种说话视频生成系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述说话视频生成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述说话视频生成方法的步骤。