CN116250036A

CN116250036A - 用于合成语音的照片级真实感视频的系统和方法

Info

Publication number: CN116250036A
Application number: CN202180060657.5A
Authority: CN
Inventors: 潘超; 刘文博; 易磊
Original assignee: Jd Financial Usa; Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2020-09-12
Filing date: 2021-09-09
Publication date: 2023-06-09
Also published as: US11682153B2; US20220084273A1; WO2022052980A1

Abstract

一种用于根据文本获得照片级真实感视频的系统和方法。所述方法包括：提供文本和说话者的图像；根据文本合成语音音频；由声学特征提取器从语音音频中提取声学特征；以及通过视频生成神经网络根据声学特征和图像生成照片级真实感视频。通过以下步骤对视频生成神经网络进行预训练：提供训练视频和训练图像；由声学特征提取器从训练视频的训练音频中提取训练声学特征；通过视频生成神经网络根据训练图像和训练声学特征生成视频帧；以及使用生成对抗网络(GAN)将生成的视频帧与地面真值视频帧进行比较，地面真值视频帧对应于训练视频帧。

Description

用于合成语音的照片级真实感视频的系统和方法

交叉引用

在本公开的描述中引用和讨论了一些参考文献，其可能包括专利、专利申请和各种出版物。提供此类参考文献的引用和/或讨论仅用于阐明本公开的描述，并不承认任何此类参考文献相对于本公开是已有的。在本说明书中引用的或讨论的所有参考文献通过引用整体并入本文，并且与每篇参考文献通过引用单独并入的程度相同。

技术领域

本公开总体上涉及数字人类领域，更具体地，涉及用于根据文本生成人的语音的照片级真实感视频的系统和方法。

背景技术

本文提供的背景描述是为了概括地呈现本公开的上下文。在本背景部分描述的范围内，目前发明人的工作、以及在提交申请时可能不符合已有技术的描述方面，既不明确也不隐含地承认为相对于本公开是已有的。

已有的面部动画方法已经成功地应用于电影工业和计算机生成图像(Computer-Generated Imagery，CGI)的视觉效果(Visual Effect，VFX)。在这种情况下，该任务通常涉及雇用大量的专业动画师，他们使用红-绿-蓝深度(Red-Green-Blue Depth，RGBD)相机或运动捕捉设备进行三维(Three-Dimensional，3D)人体扫描，然后使用专业的CG软件(如工业光魔(Industrial Light&Magic，ILM)和数字域)进行后处理和渲染。这一过程既昂贵又困难。例如，3D面部动画在生成照片级真实感的面部视频方面成本高昂，尤其是在精确创建皮肤纹理细节方面，例如毛孔定义、汗水以及自然瑕疵。

另一重要的方法是计算机视觉和CGI方法的结合。该领域的大多数研究集中于将音频特征映射到视觉特征，并使用计算机图形学方法生成面部。模型的输入可以是音频或音素。输出表示可以是2D/3D面部(主要是嘴部和/或下巴)标志、面部动作单元、参数化面部/头部模型的表情系数、3D密集网格和视位曲线。例如，该方法包括角色动画的唇形同步，其中，可以将表示重新定标到现有的动画配置。为此类应用选择的表示通常以动画师为中心，可以进行后期编辑以进行细化。

最近，人们对使用端到端方法生成视频越来越感兴趣。例如，生成对抗网络(Generative Adversarial Network，GAN)由两个主要部分组成：生成网络和鉴别网络。生成器旨在生成真实的视频，鉴别器旨在区分真实的视频和生成的视频。基于递归神经网络(Recurrent Neural Network，RNN)的生成器将运动和内容的潜在空间分离，实现了最先进的性能。然而，由于他们使用的对齐方法的限制，基于GAN的视频生成要么抖动，要么太假(面部的大部分是静态的，只有嘴部运动)。此外，所有基于GAN的方法都需要大量的训练数据，这些数据的收集成本很高。

因此，本领域存在一种未解决的需要，即以有限的训练成本有效地生成语音的照片级真实感视频。

发明内容

在某些方面，本公开涉及一种用于根据文本获得说话者的照片级真实感视频的方法。在某些实施例中，该方法包括：

通过计算设备提供用于生成照片级真实感视频的文本，以及说话者的图像；

根据文本合成语音音频；

通过声学特征提取器从语音音频中提取声学特征，其中，声学特征与语音音频的讲话者无关；以及

通过视频生成神经网络根据声学特征和说话者的图像生成照片级真实感视频。

在某些实施例中，通过以下步骤对视频生成神经网络进行预训练：

提供训练说话者的训练视频和训练说话者的训练图像，其中，训练视频包括多个训练视频帧和对应的训练音频；

通过声学特征提取器从训练音频中提取训练声学特征；

通过视频生成神经网络根据训练图像和训练声学特征生成多个视频帧；以及

使用生成对抗网络(GAN)将生成的视频帧与地面真值视频帧进行比较，其中，地面真值视频帧对应于训练视频帧。

在某些实施例中，通过以下步骤提供每一个地面真值视频帧：

将对应的一个训练视频帧中的训练说话者的轮廓分离为头部和上躯干部；

旋转头部以与从训练视频帧中选择的参考帧中的头部姿态一致；

移动头部和上躯干部以与参考帧中的头部的位置和上躯干部的位置一致；以及

沿着地面真值视频帧中的头部与上躯干部之间的界面混合像素。

在某些实施例中，使用GAN将生成的视频帧与地面真值视频帧进行比较的步骤包括：将每一个生成的视频帧与对应的一个地面真值视频帧进行比较，以确定该生成的视频帧的质量；以及将所述生成的视频帧与所述地面真值视频帧进行比较，以确定所述生成的视频帧的顺序变化的质量。

在某些实施例中，视频生成神经网络包括批标准化层、leaky re1u层和去卷积层。

在某些实施例中，在对视频生成神经网络进行预训练之前，通过以下步骤对声学特征提取器进行预训练：

提供训练音频波、对应于训练音频波的训练转录本、以及训练音频波中的训练音素时间戳；

将训练音频波变换为Mel频率倒谱系数(MFCC)；

对MFCC执行卷积神经网络(CNN)和长短期记忆(LSTM)以获得训练音频波向量；

对训练音频波向量执行softmax分析以获得预测的音素时间戳；

对训练音频波向量执行连接时序分类(CTC)解码以获得预测的转录本；以及

将预测的音素时间戳和预测的转录本分别与训练音素时间戳和训练转录本进行比较。

在某些实施例中，通过对训练转录本和训练音频波执行基于隐马尔可夫模型(HMM)的强制对齐来获得训练音素时间戳。在某些实施例中，训练脚本包括汉字脚本和与汉字脚本的发音对应的拼音脚本。

在某些实施例中，由多讲话者语音合成器执行根据文本合成语音音频的步骤。

在某些实施例中，该方法还包括：在通过视频生成神经网络生成照片级真实感视频之后，

提供头部运动模式；

将照片级真实感视频的每一帧中的说话者的轮廓分离为头部和上躯干部；

旋转每一帧中的头部以与头部运动模式一致；

移动每一帧中的头部和上躯干部，以与头部运动模式中头部的位置和上躯干部的位置一致；以及

沿着每一帧中的头部和上躯干部之间的界面混合像素。

提供具有闭眼的闭眼帧；

对照片级真实感视频的目标帧中的面部标志进行检测，其中，目标帧与在目标帧之前的和之后的多个帧具有睁眼；

将闭眼帧旋转、缩放和平移到目标帧上；

调整闭眼帧和目标帧之间的颜色平衡；

混合眼睛区域特征以在目标帧的顶部形成闭眼帧；

估计目标帧和相邻帧之间的光流，其中，相邻帧在目标帧之后且在照片级真实感视频的预定数量个帧中；以及

基于光流在目标帧和相邻帧之间插值帧。

在某些实施例中，代替插值帧，该方法仅改变相邻帧的眼睛特征。在某些实施例中，该方法改变在目标帧之前的和之后的多个帧的眼睛特征。例如，该方法可以改变目标帧之前的三帧和目标帧之后的三帧的眼睛特征，使得七个帧构成完整的眨眼。

在某些方面，本公开涉及一种用于根据文本生成说话者的照片级真实感视频的系统。系统包括计算设备，计算设备具有处理器和存储有计算机可执行代码的存储设备，计算机可执行代码包括声学特征提取器和视频生成神经网络，所述计算机可执行代码，在处理器处执行时，被配置为：

提供用于生成照片级真实感视频的文本、以及说话者的图像；

根据文本合成语音音频；

通过声学特征提取器从语音音频中提取声学特征，其中，声学特性与语音音频的讲话者无关；以及

通过声学特征提取器从训练音频中提取训练声学特征；

沿着地面真值视频帧中的头部和上躯干部之间的界面混合像素。

将训练音频波变换为Mel频率倒谱系数(MFCC)；

对训练音频波向量执行softmax分析以获得预测的音素时间戳；

在某些实施例中，通过对训练转录本和训练音频波执行基于隐马尔可夫模型(HMM)的强制对齐来获得训练音素时间戳。

在某些实施例中，计算机可执行代码还被配置为：在生成照片级真实感视频之后，

提供头部运动模式；

旋转每一帧中的头部以与头部运动模式一致；

移动每一帧中的头部和上躯干部，以与头部运动模式中的头部的位置和上躯干部的位置一致；以及

沿着每一帧中的头部和上躯干部之间的界面混合像素。

在某些实施例中，计算机可执行代码还被配置为：在通过视频生成神经网络生成照片级真实感视频之后，

提供具有闭眼的闭眼帧；

将闭眼帧旋转、缩放和平移到目标帧上；

调整闭眼帧和目标帧之间的颜色平衡；

混合眼睛区域特征以在目标帧的顶部形成闭眼帧；

基于光流在目标帧和相邻帧之间插值帧。

在某些方面，本公开涉及一种存储有计算机可执行代码的非暂时性计算机可读介质。所述计算机可执行代码，在计算设备的处理器处执行时，被配置为执行上述方法。

本公开的这些和其他方面将从结合以下附图及其说明的优选实施例的以下描述中变得清楚，尽管在不脱离本公开的新颖概念的精神和范围的情况下可以影响其中的变化和修改。

附图说明

附图示出了本公开的一个或多个实施例，并与书面描述一起用于解释本公开的原理。在可能的情况下，在整个附图中使用相同的附图标记来指代实施例的相同或相似的部件，在附图中：

图1示意性地描绘了根据本公开的某些实施例的用于生成说话者的照片级真实感视频的流程图；

图2A示意性地描绘了根据本公开的某些实施例的用于声学特征提取器的训练数据的准备；

图2B示意性地描绘了根据本公开的某些实施例的声学特征提取器的训练；

图3至5示意性地描绘了根据本公开的某些实施例的视频生成神经网络的训练；

图6示意性地描绘了根据本公开的某些实施例的将头部运动添加到照片级真实感视频；

图7示意性地描绘了根据本公开的某些实施例的将眨眼添加到照片级真实感视频；

图8示意性地描绘了根据本公开的某些实施例的计算设备；

图9示意性地描绘了根据本公开的某些实施例的用于训练声学特征提取器的方法；

图10示意性地描绘了根据本公开的某些实施例的用于训练视频生成神经网络的方法；以及

图11示意性地描绘了根据本公开的某些实施例的使用经训练的声学特征提取器和经训练的视频生成神经网络来生成照片级真实感视频的方法。

具体实施方式

在以下示例中更具体地描述本公开，这些示例仅旨在作为说明，因为其中的许多修改和变体对于本领域技术人员来说将是清楚的。现在详细描述本公开的各种实施例。参考附图，在整套附图中，相同的数字指示相同的部件。除非上下文另有明确规定，否则本文的描述中和整个权利要求中使用的“一个”、“一”和“所述”的含义包括复数。此外，如在本公开的描述和权利要求书中所使用的，除非上下文另有明确规定，“在”的含义包括“在......中”和“在......上”。并且，为了方便读者，说明书中可以使用标题或副标题，这不影响本公开的范围。此外，本说明书中使用的一些术语在下文有更具体的定义。

本说明书中使用的术语在本领域中、在本公开的上下文中以及在使用每个术语的特定上下文中通常具有它们的普通含义。用于描述本公开的某些术语在下文或说明书中的其他地方讨论，以向从业者提供关于本公开的描述的额外指导。可以理解，同样的事情可以用不止一种方式表达出来。因此，替代语言和同义词可用于此处讨论的任何一个或多个术语，并且对于此处是否详细阐述或讨论术语没有任何特殊意义。本公开提供了某些术语的同义词。一个或多个同义词的使用不排除使用其他同义词。本说明书中任何地方的示例的使用，包括本文讨论的任何术语的示例，仅是说明性的，决不限制本公开内容或任何示例性术语的范围和含义。同样，本公开不限于本说明书中给出的各种实施例。

应当理解，尽管本公开使用术语第一、第二、第三等来描述各种元件、组件、区域、层和/或部分，但是这些元件、组件、区域、层和/或部分不应受这些术语的限制。这些术语仅用于将一个元件、组件、区域、层或部分与另一元件、组件、区域、层或部分区分开来。因此，在不脱离本公开的教导的情况下，以下讨论的第一元件、组件、区域、层或部分可以被称为第二元件、组件、区域、层或部分。

除非另有定义，本公开使用的所有术语(包括技术和科学术语)具有与本公开内容所属领域的普通技术人员通常理解的相同的含义。还应理解，诸如在常用词典中定义的术语应被解释为具有与其在相关技术和本公开的上下文中一致的含义，并且，除非在此明确定义，否则不会被解释为理想化的或过于形式化的意义。

如本文所述，“多个”是指两个或更多个。如本文所述，术语“包括”、“包含”、“携带”、“具有”、“含有”、“涉及”等应理解为开放式的，即意味着包括但不限于。

如本文所述，术语“模块”可以指示例如在片上系统中的属于或包括专用集成电路(Application Specific Integrated Circuit，ASIC)；电子电路；组合逻辑电路；现场可编程门阵列(Field Programmable Gate Array，FPGA)；执行代码的(共享的、专用的或组)处理器；提供所描述功能的其他合适的硬件组件；或以上部分或全部的组合。术语“模块”可以包括存储由处理器执行的代码的(共享的、专用的或组)存储器。

本文使用的术语“代码”可以包括软件、固件和/或微代码，并且可以指代程序、例程、函数、类和/或对象。上面使用的术语“共享”意味着可以使用单个(共享)处理器执行来自多个模块的一些代码或所有代码。此外，来自多个模块的一些代码或所有代码可以存储在单个(共享)存储器中。上面使用的术语“组”意味着可以使用处理器组执行来自单个模块的一些代码或所有代码。此外，可以使用存储器组来存储来自单个模块的一些代码或所有代码。

如本文所述，术语“接口”通常是指在部件之间的交互点处用于执行部件之间的数据通信的通信工具或装置。一般而言，接口可以既适用在硬件层面又适用在软件层面，且接口可以是单向接口或双向接口。物理硬件接口的示例可以包括电连接器、总线、端口、电缆、端子和其他I/O设备或部件。例如，与接口通信的部件可以是计算机系统的多个部件或外围设备。

本公开涉及计算机系统。如附图所示，计算机部件可以包括物理硬件部件，其使用实线框示出，以及虚拟软件部件，其使用虚线框示出。本领域普通技术人员将理解，除非另有说明，否则这些计算机部件可以以软件、固件或硬件部件或其组合的形式来实现，但不限于这些形式。

本文描述的装置、系统和方法可以通过由一个或多个处理器执行的一个或多个计算机程序来实现。计算机程序包括存储在非暂时性有形计算机可读介质上的可由处理器执行的指令。计算机程序还可包括存储的数据。非暂时性有形计算机可读介质的非限制性示例是非易失性存储器、磁存储和光存储。

在下文中参考附图更全面地描述本公开，其中示出了本公开的实施例。然而，本公开可以以许多不同的形式体现并且不应被解释为限于这里阐述的实施例；相反，提供这些实施例是为了使本公开彻底和完整，并将本公开的范围充分传达给本领域技术人员。

在某些方面，本公开涉及一种用于合成人的说话视频的系统。在某些实施例中，给定脚本段落、声音、以及讲话者的外观，本公开的系统能够生成一段关于讲话者使用合成语音来阅读脚本的视频。合成视频具有照片级真实感，其中嘴唇的运动与相应的语音同步。在某些实施例中，系统首先通过文本到语音技术将脚本段落合成为语音，然后使用合成的语音音频来驱动和生成讲话者的说话视频。换言之，本公开在两个步骤中将文本段转换为特定人的说话视频：脚本到音频，以及音频到视频。

在某些实施例中，该系统是与身份(ID)无关的文本驱动的照片级真实感的面部动画系统，并且该系统基于生成对抗网络(Generative Adversarial Network，GAN)、身体姿态估计、面部标志估计、光流估计和插值。例如，该系统包括如下优点。

(1)与ID无关。本公开的系统的面部运动，尤其是嘴唇运动可以由根据在训练数据中从未见过的声音合成的音频来驱动。具体而言，该系统包括声学特征提取器。当语音合成模块合成具有不同声音和语言的音频时，该声学特征提取器可以从合成的音频中提取与讲话者无关的特征。然后可以使用该与讲话者无关的特征来驱动嘴唇运动。相比之下，以前基于GAN的系统要么无法泛化到看不见的声音，要么需要大量昂贵的视听配对数据才能泛化。

(2)照片级真实感且时间连贯。以前基于GAN的系统生成的说话视频看起来很假。有时，视频中的讲话者保持静止；有时讲话者的嘴唇会动，但他的头是不动的；有时视频中的讲话者会抖动；有时视频中的讲话者不抖动，但视频看起来像动画片且看起来不真实。原因包括以前基于GAN的系统缺乏适当的对齐预处理；未能正确学习顺序特征；并使用面部标志、动作单元和参数网格作为嘴形的中间表示，这些会导致损失大量的细节。

相比之下，本公开的某些实施例适当的考虑了视频对齐预处理和强顺序特征提取。因此，讲话者头部的运动是流畅的，生成的说话视频流畅自然。此外，本公开使用编码器-解码器结构以自动学习嘴形、下巴、喉部突出等的潜在表示。由于潜在表示是直接从视频帧中学习的，所以潜在表示可以捕捉面部肌肉的最细微变化和微表情，并生成自然的说话视频。

通过上述改进，本公开的系统的某些实施例可以生成照片级真实感且时间连贯的面部视频。利用鉴别器的帧级对抗训练可以确保生成的帧是详细和逼真的，而时间鉴别器在视听对应和帧之间无缝过渡上起着重要作用。

(3)不仅仅生成面部。由于视频对齐方法，本公开的系统可以生成讲话者的整个上身。相比之下，以前基于GAN的方法，例如Vougioukas等人的具有时间GAN的端到端语音驱动面部动画，只能生成说话者的面部。

(4)自然的面部表情。借助大数据集，可以通过网络自动学习自然的面部表情(头部姿态、眼睛注视运动)。然而，由于模型将完全依赖于训练数据，对于小数据集或质量较差的数据集(尤其是当训练数据中的人几乎没有头部运动或眼球运动时)，自然的面部表情将成为真正具有挑战性的问题。作为改进，在本公开的系统中使用的头部姿态/标志估计和视频后处理，可以使用有限的训练数据生成具有自然的头部运动和面部表情的视频。

(5)成本效益。在本公开的系统中，可以使用消费级相机而不是CGI方法中昂贵的3D扫描设备来完成数据采集。一旦整个过程被流水线化，本公开的系统可以通过最小的设备和人员培训成本容易地设置。此外，系统不需要大量目标人的视频(作为训练数据)就能做到这一点。该系统可以利用少至五分钟的目标人的训练数据来生成他/她以支持的语言说出所需内容的视频。

图1示意性地描绘了根据本公开的某些实施例的用于根据给定文本来生成照片级真实感视频的整个系统。如图1所示，系统100包括两部分：从文本到音频，以及从音频到视频。对于给定脚本或新文本102以及目标讲话者的给定图像104，多讲话者文本到语音合成器106将新文本102转换为音频108，其中，音频108可以对应于多讲话者语音合成器106中定义的讲话者。然后，声学特征提取器110从音频108中提取声学特征112，其中，声学特征112是与任何讲话者无关(与ID无关)的广义特征。声学特征112与图像104一起驱动视频生成神经网络114以生成视频116。视频116包括具有上半身的目标讲话者以自然的方式通过嘴唇运动说出文本102。可以通过自然头部移动模型118和眨眼模型120进一步改进视频116，以添加讲话者头部的运动和讲话者眼睛的眨眼，从而获得说话者的照片级真实感视频122。视频122中的说话者是图像104中所示的讲话者。请注意，自然头部移动模型118和眨眼模型120的后处理是可选的，生成的视频116可以是预期的照片级真实感讲话视频。

多讲话者语音合成器106使用文本到语音(Text-to-Speech，TTS)技术根据新文本102合成音频108。在某些实施例中，多讲话者语音合成器106是基于最先进的诸如Tacotron2之类的基于注意力的文本到语音模型(其通过引用整体并入本文)来设计的。合成音频108听起来像一个真实的人，自然且具有高保真度。在某些实施例中，多讲话者语音合成器106可以根据用户的指令生成特定讲话者的语音。

声学特征提取器110被预训练并且用于从音频108中提取广义声学特征112。声学特征提取器110的训练在图2A和图2B中示出，其中，图2A示意性地描绘了根据本公开的某些实施例的声学特征提取器200的训练数据的准备。图2B示意性地描绘了使用准备的训练数据对声学特征提取器200的训练。此处声学特征提取器200是被编码的模块，图1所示的声学特征提取器110是模块200的经良好训练的版本。如图2A所示，专有的自动语音识别(Automatic Speech Recognition，ASR)数据集202被用作训练数据。ASR数据集202由多个讲话者记录以泛化音频特征，并且ASR数据集包含音频波208及其对应的转录本。在某些实施例中，每个ASR数据集可以是具有五秒到十秒长度的语句。在某些实施例中，转录本是中文转录本204，并且在训练数据准备期间，中文转录本204被转换为拼音转录本206，其中，拼音是基于汉字发音的汉字的罗马化。在某些实施例中，当转录本是英语或一些其他语言时，不需要将文本转录本转换为发音格式的转录本。拼音转录本206和音频波208通过基于隐马尔可夫模型(Hidden Markov Model，HMM)的强制对齐器210学习针对拼音的每个音素的开始和结束时间戳。基于HMM的强制对齐器210的性能是无监督的，并且学习结果是拼音转录本206中每个音素的开始和结束时间戳212。音素212的开始和结束时间戳被视为基于帧的音素分类的地面真值。例如，如果音频波208的音频帧10和音频帧20中的每一者都对应于“I”的发音，那么帧10和20中的每一者都被归类为“I”的音素。在某些实施例中，汉字的读音数量约为400个，其被用为音素的分类。可以预先训练400个音素的分类以在此处使用。在某些实施例中，基于HMM的强制对齐器210是Montreal强制对齐器。拼音转录本206、音频波208以及学习的对应于拼音转录本206的音素的开始和结束时间戳212用于声学特征提取器200的训练。

如图2B所示，声学特征提取器200是多任务神经网络模型，其被训练为根据输入的音频波208识别拼音转录本206′，并生成每个音素的开始和停止时间戳212′。在训练期间，将识别的拼音转录本206′与地面真值拼音转录本206进行比较，以及生成的音素的开始和停止时间戳212′与地面真值每个音素的开始和停止时间戳212进行比较。在某些实施例中，当一个训练数据的音频波208被输入到声学提取器200进行训练时，mel频率倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)提取器214用于从原始音频波208中提取特征向量(或MFCC特征)。MFCC提取器214是声学提取器210的预处理。MFCC是共同构成MFC的系数，并且MFC是基于对数功率谱在非线性mel频率标度上的线性余弦变换的音频波208的短期功率谱的表示。在某些实施例中，音频数据准备也可以使用除MFCC提取之外的方法。在MFCC提取之后，将音频波208的MFCC特征输入到卷积神经网络(Convolutional Neural Network，CNN)层216和长短期记忆(Long Short-Term Memory，LSTM)层218以生成声学特征220。声学特征220是在离散时间点采样的帧级特征向量，其表示音素在对应时间的概率。声学特征220由softmax层222进一步处理以获得每个音素的开始和停止时间戳212′，并且声学特征220还由连接时序分类(Connectionist Temporal Classification，CTC)解码器224处理以获得拼音转录本206′。通过将获得的每个音素的开始和停止时间戳212′和拼音转录本206′与如图2A所示的准备的该开始和停止时间戳212′和拼音转录本206′的地面真值212和206进行比较，可以使用差异作为惩罚来训练声学提取器200。在训练之后，声学特征提取器200(110)可以接收音频样本，根据音频样本来生成声学特征220，并将生成的声学特征220提供给视频生成神经网络114。因为音素的内容信息(拼音转录本206′)和音素的持续时间信息(每个音素的开始和停止时间戳212′)与人的声音、音高、音色等无关，所以声学特征220与讲话者无关。请注意，使用多任务模型，例如声学特征提取器200(110)，来执行语音识别和音素分类，然后使用来自与讲话者无关的声学特征提取器200(110)的结果来提供嘴唇同步，这是以前从未做过的。此外，softmax层222确定每个音频帧的拼音发音的准确性，CTC解码器224通过语音识别确定语句的准确性。通过结合由CTC解码器224生成的拼音转录本206′，声学特征提取器200(110)的稳定性和有效性被显著提高。

如图2B所示的过程仅用于声学特征提取器200的训练阶段，而不用于推断阶段。因为经过良好的训练，图1所示的过程只需要声学特征220(112)，该声学特征是LSTM层218输出的特征向量。

返回参考图1，经过良好训练的声学特征提取器110将生成的声学特征112提供给视频生成神经网络114。请注意，视频生成神经网络114是被预先训练的，视频生成神经网络114的训练如图3所示。图3所示的视频生成神经网络312是被编码的模块，图1所示的视频生成神经网络114是模块312的经良好训练的版本。如图3所示，视频生成神经网络312的训练需要视频对齐模块304对训练视频302进行对齐，并且需要通过良好训练的声学特征提取器308(110)提取声学特征310。如图3所示，为了对视频生成神经网络312进行训练，提供了训练视频302。在某些实施例中，训练视频302仅包括讲话者的一个视频。在某些实施例中，训练视频302可以包括2至20个视频，例如来自10个不同讲话者的10个视频。在某些实施例中，本公开的系统还可以使用大量训练视频，例如大约100至1000个训练视频，从而可以学习来自不同讲话者的共同特征。然而，本公开的系统在使用一个或少量训练视频302上表现良好，这优于需要使用大量训练视频的其他方法。在某些实施例中，每个视频可以是具有有限长度的短视频，例如1分钟到30分钟。在某些实施例中，训练视频302的长度是2分钟到15分钟。在某些实施例中，训练视频302的长度约为五分钟。

训练视频302可以包括一个讲话者的一个视频，或者几个讲话者的几个视频。每个训练视频302可以被分成短的片段，并且每个片段都可以用作训练样本。例如，如果训练视频302包括一个5分钟视频，则该视频可以被分为60个5秒视频，每个5秒视频被用作训练样本。

在训练过程中，如图3所示，训练视频302的每个训练样本由视频对齐模块304进行处理以生成对齐的视频306。图4示意性地描绘了对训练视频302进行对齐的过程。如上所述，每个训练样本是具有多个视频帧的短视频。每个视频帧都包括帧中的说话者或讲话者。对于作为目标的每个视频帧，在步骤402处，视频对齐模块304检测目标视频帧中讲话者的面部标志。例如，可以使用由Dlib定义的68点面部标志来检测每个视频帧中的面部。

在步骤404处，视频对齐模块304通过边缘检测确定颈部中心。在某些实施例中，视频对齐模块304将颈部限定为梯形，并将梯形的中心限定为颈部中心。在某些实施例中，视频对齐模块304还可以基于颈部上检测到的点的特征来限定颈部中心。

在步骤406处，视频对齐模块304然后将训练视频中的第一视频帧用作参考帧，并估计目标视频帧中头部相对于第一视频帧中头部姿态的旋转角度。可以使用检测到的面部标志来执行估计。在某些实施例中，视频对齐模块304还可以限定另一视频帧，例如将训练样本中的中心视频帧用作参考视频帧。

在步骤408处，视频对齐模块304然后绘制与中心点交叉的水平线，并使用该水平线将目标视频帧切割成上半部分和下半部分。

在步骤410处，视频对齐模块304使用仿射变换方法将上半部分旋转在步骤406处估计的角度，使得在旋转之后，目标视频帧中的头部具有与参考视频帧中的头部相同的姿态。

在旋转上半部分后，上半部分的颈部中心和下半部分的颈部中心可以与参考视频帧的颈部中心不同。因此，视频对齐模块304随后将上半部分和下半部分水平移动并且可选地竖直移动以将上半部分的颈部中心和下半部分的颈部中心与参考视频帧中的颈部中心对齐。

在上半部分被旋转且上半部分和下半部分被移动之后，在步骤412处，视频对齐模块304将沿水平切割线两侧的像素进行混合以使处理后的图像更加自然。

视频对齐模块304对训练样本中除参考视频帧之外的每个视频帧进行处理，使得训练样本中的所有视频帧都被对齐。在某些实施例中，对应于几个训练样本的一个讲话者的一个训练视频302足以训练视频生成神经网络310。在其他实施例中，需要一个讲话者的少量训练视频302。在又一实施例中，需要几个不同讲话者的少量训练视频302。

返回参考图3，经过良好训练的声学特征提取器308提取训练视频302的音频分量以获得声学特征310。训练视频302的音频分量是包含音频帧的音频波。例如，如果每个音频帧的长度是100毫秒，那么一秒的音频将包括10个音频帧。可以使用短期傅里叶变换(Short-Term Fourier Transform，STFT)将音频帧转换为频率向量，每个音频帧对应一个向量。通过声学特征提取器308的处理，将与音频帧对应的输入向量转换为声学特征310。声学特征310也可以是向量的形式，其包含音频分量的音素信息，但不包含讲话者的特定特性。

视频生成神经网络312接收对齐的视频306和声学特征310，并使用声学特征310和来自对齐的视频306的一个视频帧(或来自训练视频302的一个视频帧)来生成视频314。在某些实施例中，视频生成神经网络312还可以使用对齐的视频306中讲话者的高分辨率图像，而不是使用来自对齐的视频306的一个视频帧。通过将生成的视频314与对齐的视频306进行比较，来执行视频生成神经网络312的训练。通过使用训练样本进行多轮训练，视频生成神经网络312的参数被优化，使得基于声学特征308及对齐的视频306的一个视频帧生成的视频314与对齐的视频306相同或非常相似。

图5示意性地描绘了根据本公开的某些实施例的视频生成神经网络的结构细节和视频生成神经网络的训练。除了音频输入502、图像输入508和地面真值帧516之外，图5中的组件对应于图3所示的视频生成神经网络312。如图5所示，视频生成神经网络具有编码器-解码器结构。由图3所示的训练良好的声学特征提取器308提取的与讲话者无关的声学特征张量502(310)，被用作音频编码器504的输入。音频编码器504接收与讲话者无关的声学特征张量502，并将音频信息编码为潜在表示506。例如，音频编码器504可以是卷积层和zoneout LSTM层的组合。潜在表示506的输入是音频帧的频谱，而潜在表示506的输出是向量。每个向量对应一个音频帧，并且这些向量按时间序列排序。按时间序列排序的向量可以以矩阵的形式呈现，并且需要对矩阵进行转置以将时间维度放在矩阵的前面，使得转置后的格式满足解码器使用的TensorFlow的格式要求。然而，解码器可以使用除TensorFlow之外的方法，并且可以使用潜在表示506的对应矩阵格式。

解码器，即图像生成器512，将潜在张量的每一帧解码为红-绿-蓝(Red-Green-Blue，RGB)图像。例如，图像生成器512具有反卷积神经网络。图像生成器512还需要目标讲话者的输入的人物图像508。人物图像508可以是目标讲话者的高分辨率图像，或者是从训练视频302或对齐的视频306中选择的一个视频帧。选择的视频帧可以是：训练视频的第一帧；或者是训练视频的开始处的一个视频帧，其中，讲话者基本上是坐着不动且眼睛是睁开的。人物图像508由外观编码器510进行编码，将被编码的外观作为输入提供给图像生成器512。沿时间轴拼接生成的帧514，并且拼接的图像帧可以显示为视频。

图像生成器512更关注图像的低频部分，并且生成的视频514通常有点模糊。为了解决该问题，基于GAN的视频生成神经网络312将帧鉴别器518和序列鉴别器520配对用于图像生成器512。鉴别器可以容易地识别蓝色视频并对其进行惩罚。通过结合GAN，视频生成神经网络312可以生成明显更清晰的图像和视频。

返回参考图1，当声学特征提取器110如图2A-2B所示被良好地训练，以及视频生成神经网络114如图3-5所示被良好地训练时，被良好训练的声学特征提取器110和视频生成神经网络114用于生成高质量视频116。生成的视频116的质量足以用作人讲文本的的照片级真实感视频。

在某些实施例中，可以通过向生成的视频116应用自然头部运动和眨眼中的至少一者来进一步改进生成的视频116。图6示意性地描绘了根据本公开的某些实施例将自然头部运动结合到生成的视频116中。如图6所示，结合过程包括步骤602到步骤606。在步骤602处，系统将简短的、真实的和自然的说话视频确定为参考，该参考可以从一个训练样本中选择。参考视频中的头部运动对应于完整的自然头部运动模式。

假设短的参考视频具有N个帧，并且对于参考视频中的每一帧，在步骤604处，自然头部移动模型118检测面部标志，确定颈部中心，并确定头部姿态。N是正整数，且N个帧对应完整的自然头部运动模式。

在步骤606处，自然头部移动模型118从生成的视频116中挑选N个帧，并将生成的视频116中的N个帧与参考视频中的N个帧按顺序一一进行连接。换句话说，N个帧中第i个生成的视频帧对应于第i个参考视频帧，其中，i是1到N范围内的正整数。自然头部移动模型118在第i个生成的视频帧中检测面部标志、确定颈部中心、估计头部相对于在第i个参考视频帧中的头部姿态的旋转角度、沿着与颈部中心交叉的水平线将帧切割成上半部分和下半部分、旋转上半部分以使第i个生成的视频帧的头部姿态与第i个参考视频帧的头部姿态相同、并移动上半部分和下半部分以使第i个生成的视频帧的上半部分的颈部中心和下半部分的颈部中心与第i个参考视频帧的颈部中心重叠。通过将生成的视频的N个视频帧分别与参考视频的N个帧对齐，使得生成的视频具有自然的头部运动。

在某些实施例中，不需要将生成的视频帧与参考视频帧对齐。相反，参考视频中的自然头部运动可以由帧中头部的旋转角度来限定，并且生成的视频帧被旋转到相应的所限定的头部旋转角度。

在某些实施例中，生成的视频116可以从生成的视频116的开始被划分为尽可能多的N个帧片段，并且每个片段可以添加有如上所述的头部运动模式。通过这个过程，整个生成的视频116将包括贯穿整个视频的头部运动模式。

在某些实施例中，可能不需要参考视频，并且自然头部移动模型118根据规则限定头部运动。例如，对于多个生成的视频帧，自然头部移动模型118可以相对于中心头部姿态，在从负五度到正五度的范围内周期性地旋转这些帧的上半部分，以实现头部在生成的视频中自然移动的效果。

除了头部运动之外，诸如眨眼之类的自然的面部表情在产生真实感特性中起着至关重要的作用，并且本公开的某些实施例可以从训练数据集中自动学习自然的面部表情。然而，对于相对较小的训练数据集，所学习的生成的视频可以包含缺乏眨眼的面部表情。为了改进生成的视频，在某些实施例中，本公开从训练数据集中明确地学习眨眼模式，并寻求在生成的视频顶部自动添加眨眼。

图7示意性地描绘了根据本公开的某些实施例的将眨眼结合到具有自然头部运动的生成的视频116(或生成的视频116)。在某些实施例中，眨眼模型120将眨眼的频率限定为每秒0.4次眨眼，并将一次眨眼的长度限定为七帧。在某些实施例中，由于每秒的帧数变化，一次眨眼的长度数可能变化。

如图7所示，在步骤702处，眨眼模型120从例如一个训练视频中选择闭眼视频帧，从生成的视频116中确定七个连续视频帧以添加眨眼，将七个视频帧中的中间视频帧限定为关键帧，并从闭眼视频帧和关键帧中检测标志。在某些实施例中，关键帧的头部姿态优选地与闭眼视频帧的头部姿态相同或接近。

在步骤704处，眨眼模型120将闭眼视频帧与关键帧对齐。对齐可涉及将闭眼视频帧旋转、缩放和平移到关键帧上。

在步骤706处，眨眼模型120调整闭眼视频帧和关键帧之间的色彩平衡。

在步骤708处，眨眼模型120将来自闭眼视频帧的眼睛区域特征混合在关键帧的顶部上。

在步骤710处，眨眼模型120估计关键帧和相邻帧之间的光流。例如，相邻帧可以包括紧接在关键帧之前的三个生成的帧和紧接在关键帧之后的三个生成的帧。

在步骤712处，眨眼模型120基于估计的光流替换相邻帧中的眼睛区域。通过替换，七个帧构成眨眼。基于帧的频率或时间长度，针对眨眼的帧数可以变化。在某些实施例中，系统可以基于每秒眨眼0.4次的眨眼频率来结合眨眼次数。替换也被称为插值，其中，本公开基于到七个帧的眼睛区域的估计光流对眼睛区域进行插值。

在某些实施例中，返回参考图1，图6示出了结合自然的头部运动和结合眨眼且图6是可选的，并且执行图6和图7的顺序可以变化。在某些实施例中，生成的视频116首先经过自然头部运动处理，然后经过眨眼处理。在将自然头部运动和眨眼结合到生成的视频116中之后，可以获得说话者的照片级真实感视频122。

在某些实施例中，我们可以只需要五分钟的讲话者训练视频来训练如图3所示的视频生成神经网络。一个帧，例如来自训练视频的第一帧，可以作为图像104以用于生成那个讲话者的照片级真实感视频122。因此，本公开的系统简单，系统只需要小的训练数据集，训练和生成效率高，并且最终生成的视频是具有照片级真实感的。请注意，虽然训练视频是只有五分钟的视频，但视频可以被分成更短的视频片段，并以每个短视频片段作为一个训练样本来迭代地进行训练。

图8示意性地描绘了根据本公开的某些实施例的用于生成照片级真实感视频的计算设备。如图8所示，计算设备800包括中央处理单元(Central Processing Unit，CPU)802。CPU 802被配置为根据存储在只读存储器(Read On1y Memory，ROM)804中或从存储设备816加载到随机存取存储器(Random Access Memory，RAM)806中的程序，执行各种动作和处理。RAM 806具有计算设备800操作所需的各种程序和数据。CPU 802、ROM 804和RAM 806经由总线808相互连接。此外，I/O接口810连接到总线808。

在某些实施例中，计算设备800还包括连接到I/O接口810的诸如键盘或鼠标之类的输入设备812、诸如液晶显示器(Liquid Crystal Display，LCD)、发光二极管(LightEmitting Diode，LED)、有机发光二极管(Organic Light Emitting Diode，OLED)或扬声器之类的输出设备814、诸如硬盘驱动器(Hard Disk Drive，HDD)或固态驱动器(Solid StateDrive，SSD)之类的存储设备816、以及诸如LAN卡或调制解调器的通信接口818中的至少一者或多者。通信接口818通过诸如因特网之类的网络进行通信。在某些实施例中，驱动器820也连接到I/O接口810。可移动介质822，例如HDD、光盘、DDD或半导体存储器，可以安装在驱动器820上，以使得存储在其上存储的程序可以安装到存储设备708中。

在某些实施例中，本文描述的处理流程可以在软件中实现。这样的软件可以通过通信接口818从网络下载或从可移动介质822读取，然后将该软件安装在计算设备中。计算设备800将在运行软件时执行处理流程。在某些实施例中，该软件被命名为系统，其包括多讲话者语音合成器106、声学特征提取器110、视频生成神经网络114、自然头部移动模型118和眨眼模型120、基于HMM的强制对齐器210、以及视频对齐模块304的编码。软件或系统，当由CPU 802执行时，执行图1-7所示的功能。

图9示意性地描绘了根据本公开的某些实施例的用于训练声学特征提取器的方法。在某些实施例中，该方法由图8所示的计算设备800实现。需要特别说明的是，除非本公开另有说明，该方法的步骤可以采用不同的先后顺序，因此并不限于图9所示的顺序。在某些实施例中，参照图2A和图2B描述图9所示的方法。

如图9所示，在步骤902处，系统提供ASR训练数据集202。每个训练数据集202包括音频波208和中文转录本204。中文转录本204被转换为拼音转录本206。

在步骤904处，拼音转录本206和音频波208被输入到基于HMM的强制对齐器210，并且基于HMM的强制对齐器210将拼音转录本206与音频波208对齐以获得每个音素的开始和结束时间戳212。拼音转录本206、音频波208以及音素的开始和结束时间戳212用于训练声学特征提取器200。

在步骤906处，系统将音频波208转换成音频向量，并且对音频向量施加CNN层216和LSTM层218以学习声学特征220。声学特征220与讲话者无关。

在步骤908处，系统使用softmax层222根据声学特征220生成每个音素的开始和停止时间戳212′。

在步骤910处，系统使用CTC解码器224根据声学特征220生成拼音转录本206′。

在步骤912处，通过将生成的拼音转录本206′与拼音转录本206进行比较，并将生成的音素的开始和停止时间戳212′与音素的开始和结束时间戳212进行比较，系统可以优化声学特征提取器200的参数。在训练之后，训练良好的声学特征提取器200(110)可用于训练视频生成神经网络312。

图10示意性地描绘了根据本公开的某些实施例的用于训练视频生成神经网络的方法。在某些实施例中，该方法由图8所示的计算设备800实现。需要特别说明的是，除非本公开另有说明，该方法的步骤可以采用不同的先后顺序，因此并不限于图10所示的顺序。在某些实施例中，参照图3-5描述图10中所示的方法。

如图10所示，在步骤1002处，系统提供训练视频302。训练视频302可以包括人或讲话者的一个或多个视频。训练视频302包括音频分量和视频分量。

在步骤1004处，训练良好的声学特征提取器308从训练视频302的音频分量中提取声学特征310。声学特征310与讲话者无关。

在步骤1006处，视频对齐模块304对齐训练视频302以获得对齐的视频306。图4中示出了对齐的细节。

在步骤1008处，在接收到可以是来自训练视频302或对齐的视频306的一帧图像104，或单独的图像，并且在接收到声学特征310时，视频生成神经网络312获得生成的视频314。

在步骤1010处，基于GAN的视频生成神经网络312将生成的视频314与对齐的视频306进行比较，以优化视频生成神经网络312的参数。在某些实施例中，图5中示出了视频生成、视频比较和优化参数的细节。

在训练之后，训练良好的声学特征提取器200(308、110)和训练良好的视频生成神经网络312(114)可用于生成照片级真实感视频。

图11示意性地描绘了根据本公开的某些实施例的用于生成照片级真实感视频的方法。在某些实施例中，该方法由图8所示的计算设备800实现。需要特别说明的是，除非本公开另有说明，该方法的步骤可以采用不同的先后顺序，因此并不限于图11所示的顺序。在某些实施例中，参考图1描述图11中所示的方法。

如图11所示，在步骤1102处，系统将新文本102提供给多讲话者语音合成器106，并将讲话者的图像104提供给视频生成神经网络114。

在步骤1104处，在接收到新文本102时，多讲话者语音合成器106合成音频108，并将音频108发送到声学特征提取器110。音频108的声音可以对应于多讲话者语音合成器106中提供的一个讲话者的声音，并且讲话者已被用户在使用多讲话者语音合成器106时指定。

在步骤1106处，在接收到音频108时，声学特征提取器110提取与讲话者无关的声学特征112，并将声学特征112发送到视频生成神经网络114。

在步骤1108处，在接收到图像104和声学特征112时，视频生成神经网络114将生成的视频116生成到自然头部移动模型118。

在步骤1110处，当接收到生成的视频116时，自然头部移动模型118将头部运动添加到生成的视频116以获得具有头部运动的生成的视频，并将具有头部运动的生成的视频发送到眨眼模型120。添加头部运动的细节可以在图6及其如上对应的描述中看到。

在步骤1112处，当接收到具有头部运动的生成的视频时，眨眼模型120在具有头部运动的生成的视频中添加眨眼，并获得说话者的照片级真实感视频122。添加眨眼的细节可以在图7及其如上对应的描述中看到。

在某些方面，本公开涉及一种存储有计算机可执行代码的非暂时性计算机可读介质。在某些实施例中，计算机可执行代码可以是存储在图8所示的存储设备816中的软件，计算机可执行代码在被执行时，可以执行上述方法之一。在某些实施例中，非暂时性计算机可读介质可以包括但不限于如上所述的计算设备800的存储设备816，或计算设备800的任何其他存储介质。

本公开的某些实施例尤其具有以下有益优点。(1)声学特征提取器提取与讲话者无关的音频特征，并使用音频特征来驱动视频的生成。不需要大量的训练数据来泛化不同的讲话者，并且可以使用看不见的语音来生成视频。(2)通过训练时对齐视频来解决生成视频的抖动问题，在生成的视频中同时提供讲话者的面部和上身。(3)系统提取诸如头部运动模式之类的强序列特征，并将头部运动模式用于生成的视频，使得生成的视频流畅自然。(4)系统将眨眼以特定眨眼频率和眨眼模式合并到生成的视频中，使得生成的视频具有真实感。(5)系统采用编码器-解码器结构来捕捉面部肌肉和微表情的细微变化，使得生成的说话视频更自然。(6)利用鉴别器的帧级对抗训练确保了生成的视频的细节和真实性。(7)使用有限的训练数据可以实现自然的面部表情。(8)该系统只需要消费级相机而不需要昂贵的3D扫描设备，整个系统成本低。

本公开的示例性实施例的前述描述仅出于说明和描述的目的而呈现并且不旨在穷举或将本公开限制为所公开的精确形式。根据上述教导，许多修改和变化是可能的。

选择和描述实施例是为了解释本公开的原理及其实际应用，从而使本领域的其他技术人员能够利用本公开和各种实施例以及适合于预期的特定用途的各种修改。在不脱离本公开的精神和范围的情况下，替代实施例对于本公开所属领域的技术人员将变得清楚。因此，本公开的范围由所附权利要求而不是前述描述和其中描述的示例性实施例限定。

Claims

1.一种用于根据文本获得说话者的照片级真实感视频的方法，所述方法包括：

通过计算设备提供用于生成所述照片级真实感视频的所述文本、以及所述说话者的图像；

根据所述文本合成语音音频；

通过声学特征提取器从所述语音音频中提取声学特征，其中，所述声学特征与所述语音音频的讲话者无关；以及

通过视频生成神经网络根据所述声学特征和所述说话者的图像来生成所述照片级真实感视频，

其中，通过以下步骤对所述视频生成神经网络进行预训练：

提供训练说话者的训练视频和所述训练说话者的训练图像，其中，所述训练视频包括多个训练视频帧和对应的训练音频；

通过所述声学特征提取器从所述训练音频中提取训练声学特征；

通过所述视频生成神经网络根据所述训练图像和所述训练声学特征来生成多个视频帧；以及

使用生成对抗网络GAN将生成的视频帧与地面真值视频帧进行比较，其中，所述地面真值视频帧对应于所述训练视频帧。

2.根据权利要求1所述的方法，其中，通过以下步骤提供每一个地面真值视频帧：

将对应的一个训练视频帧中的所述训练说话者的轮廓分离为头部和上躯干部；

旋转所述头部以与从所述训练视频帧中选择的参考帧中的头部姿态一致；

移动所述头部和所述上躯干部以与所述参考帧中的头部的位置和上躯干部的位置一致；以及

沿着所述地面真值视频帧中的头部和上躯干部之间的界面混合像素。

3.根据权利要求1所述的方法，其中，使用GAN将生成的视频帧与所述地面真值视频帧进行比较的步骤包括：

将每一个生成的视频帧与对应的一个地面真值视频帧进行比较，以确定该生成的视频帧的质量；以及

将所述生成的视频帧与所述地面真值视频帧进行比较，以确定所述生成的视频帧的顺序变化的质量。

4.根据权利要求1所述的方法，其中，所述视频生成神经网络包括批标准化层、leakyrelu层和去卷积层。

5.根据权利要求1所述的方法，其中，在对所述视频生成神经网络进行预训练之前，通过以下步骤对所述声学特征提取器进行预训练：

提供训练音频波、对应于所述训练音频波的训练转录本、以及所述训练音频波中的训练音素时间戳；

将所述训练音频波变换为Mel频率倒谱系数MFCC；

对所述MFCC执行卷积神经网络CNN和长短期记忆LSTM以获得训练音频波向量；

对所述训练音频波向量执行softmax分析以获得预测的音素时间戳；

对所述训练音频波向量执行连接时序分类CTC解码以获得预测的转录本；以及

将所述预测的音素时间戳和所述预测的转录本分别与所述训练音素时间戳和所述训练转录本进行比较。

6.根据权利要求5所述的方法，其中，通过对所述训练转录本和所述训练音频波执行基于隐马尔可夫模型HMM的强制对齐来获得所述训练音素时间戳。

7.根据权利要求6所述的方法，其中，训练脚本包括汉字脚本和与所述汉字脚本的发音对应的拼音脚本。

8.根据权利要求1所述的方法，其中，由多讲话者语音合成器执行根据所述文本来合成所述语音音频的步骤。

9.根据权利要求1所述的方法，还包括：在通过所述视频生成神经网络生成所述照片级真实感视频之后，

提供头部运动模式；

将所述照片级真实感视频的每一帧中的说话者的轮廓分离为头部和上躯干部；

旋转每一帧中的所述头部以与所述头部运动模式一致；

移动每一帧中的所述头部和所述上躯干部，以与所述头部运动模式中的头部的位置和上躯干部的位置一致；以及

沿着每一帧中的所述头部和所述上躯干部之间的界面混合像素。

10.根据权利要求1所述的方法，还包括：在通过所述视频生成神经网络生成所述照片级真实感视频之后，

提供具有闭眼的闭眼帧；

对所述照片级真实感视频的目标帧中的面部标志进行检测，其中，所述目标帧与在所述目标帧之前的和之后的多个帧具有睁眼；

将所述闭眼帧旋转、缩放以及平移到所述目标帧上；

调整所述闭眼帧和所述目标帧之间的颜色平衡；

混合眼睛区域特征以在所述目标帧的顶部形成所述闭眼帧；

估计所述目标帧和相邻帧之间的光流，其中，所述相邻帧在所述目标帧之后且在所述照片级真实感视频的预定数量个帧中；以及

基于所述光流在所述目标帧和所述相邻帧之间插值帧。

11.一种用于根据文本生成说话者的照片级真实感视频的系统，其中，所述系统包括计算设备，所述计算设备包括处理器和存储有计算机可执行代码的存储设备，所述计算机可执行代码包括声学特征提取器和视频生成神经网络，所述计算机可执行代码，在所述处理器处执行时，被配置为：

提供用于生成所述照片级真实感视频的所述文本、以及所述说话者的图像；

根据所述文本合成语音音频；

通过所述声学特征提取器从所述语音音频中提取声学特征，其中，所述声学特性与所述语音音频的讲话者无关；以及

通过所述视频生成神经网络根据所述声学特征和所述说话者的图像生成所述照片级真实感视频，

其中，通过以下步骤对所述视频生成神经网络进行预训练：

通过所述视频生成神经网络根据所述训练图像和所述训练声学特征生成多个视频帧；以及

12.根据权利要求11所述的系统，其中，通过以下步骤提供每一个地面真值视频帧：

13.根据权利要求11所述的系统，其中，使用GAN将生成的视频帧与所述地面真值视频帧进行比较的步骤包括：

14.根据权利要求11所述的系统，其中，在对所述视频生成神经网络进行预训练之前，通过以下步骤对所述声学特征提取器进行预训练：

将所述训练音频波变换为Me1频率倒谱系数MFCC；

15.根据权利要求14所述的系统，其中，通过对所述训练转录本和所述训练音频波执行基于隐马尔可夫模型HMM的强制对齐来获得所述训练音素时间戳。

16.根据权利要求11所述的系统，其中，所述计算机可执行代码还被配置为：在生成所述照片级真实感视频之后，

提供头部运动模式；

旋转每一帧中的所述头部以与所述头部运动模式一致；

17.根据权利要求11所述的系统，其中，所述计算机可执行代码还被配置为：在通过所述视频生成神经网络生成所述照片级真实感视频之后，

提供具有闭眼的闭眼帧；

将所述闭眼帧旋转、缩放以及平移到所述目标帧上；

调整所述闭眼帧和所述目标帧之间的颜色平衡；

混合眼睛区域特征以在所述目标帧的顶部形成所述闭眼帧；

估计所述目标帧和相邻帧之间的光流，其中，所述相邻帧在所述目标帧之后并且在所述照片级真实感视频的预定数量个帧中；以及

基于所述光流在所述目标帧和所述相邻帧之间插值帧。

18.一种存储有计算机可执行代码的非暂时性计算机可读介质，其中，所述计算机可执行代码包括声学特征提取器和视频生成神经网络，并且所述计算机可执行代码，在计算设备的处理器处执行时，被配置为：

提供用于生成所述照片级真实感视频的文本、以及所述说话者的图像；

根据所述文本合成语音音频；

由所述声学特征提取器从所述语音音频中提取声学特征，其中，所述声学特性与所述语音音频的讲话者无关；以及

其中，通过以下步骤对所述视频生成神经网络进行预训练：

提供训练说话者的训练视频和训练说话者的训练图像，其中，所述训练视频包括多个训练视频帧和对应的训练音频；

19.根据权利要求18所述的非暂时性计算机可读介质，其中，通过以下步骤提供每一个地面真值视频帧：

20.根据权利要求18所述的非暂时性计算机可读介质，其中，在对所述视频生成神经网络进行预训练之前，通过以下步骤对所述声学特征提取器进行预训练：

将所述训练音频波变换为Mel频率倒谱系数MFCC；