CN115004236A

CN115004236A - 来自音频的照片级逼真说话面部

Info

Publication number: CN115004236A
Application number: CN202180011913.1A
Authority: CN
Inventors: V.克瓦特拉; C.弗鲁厄; A.拉希里; J.刘易斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-01-29
Filing date: 2021-01-29
Publication date: 2022-09-02
Also published as: WO2021155140A1; EP4081985A1; US20230343010A1

Abstract

提供了一种用于仅以音频输入为条件生成照片级逼真3D说话面部的框架。另外，本公开提供了用于将所生成的面部插入到现有视频或虚拟环境中的相关联的方法。我们将视频中的面部分解到去耦3D几何形状、头部姿势和纹理的归一化空间中。这允许将预测问题分成3D面部形状和对应的2D纹理图谱的回归。为了稳定时间动态，我们提出了一种自回归方法，该方法根据其先前的视觉状态来调节模型。我们也使用与音频无关的3D纹理归一化来捕获我们的模型中的面部照明。

Description

来自音频的照片级逼真说话面部

相关申请

本申请要求于2020年1月29日提交的美国临时专利申请号62/967,335的优先权和权益，其全部内容通过引用并入本文。

技术领域

本公开总体上涉及从音频信号合成说话面部的图像。更具体地，本公开涉及用于生成在一些示例中仅以音频输入为条件的照片级逼真(photorealistic)三维(3D)说话面部的框架，以及用于可选地将所生成的面部插入到现有视频或虚拟环境中的相关方法。

背景技术

由说话人的特写组成的“说话头像”视频广泛用于新闻广播、视频博客、在线课程等。具有聚焦于面部的类似帧构成的其他模态包括面对面实时聊天和3D游戏化身。

说话头部合成的重要性导致了研究文献中的各种方法。许多最近的技术使用从音频回归面部运动的方法，并使用该方法来使期望对象的单个参考图像变形。这些方法可以继承参考照片的现实性。然而，结果可能缺乏几何形状信息和个性化，并且不一定以高保真度再现3D面部接合和外观。它们通常也不包含光照改变，并且固定视点2D方法限制了可能的应用。

另一个研究主体从音频预测3D面部网格。这些方法直接适用于VR、游戏和需要动态视点的其他应用，并且动态光照也容易实现。然而，视觉真实感通常受到实时3D渲染可以获得的内容的限制，因此仅实现游戏质量的结果。

其他最近的论文已经提出了用于通过将面部特征(诸如界标或融合形状参数)从不同叙述者的视频转移到目标对象上来生成说话头部视频的技术。这些技术产生特别令人印象深刻的结果，然而它们需要代理演员的视频。此外，虽然基于文本的编辑不需要人类演员，但是它依赖于时间对准的转录本的可用性。

发明内容

本公开的实施例的方面和优点将在以下描述中部分地阐述，或者可以从描述中学习，或者可以通过实施例的实践来学习。

本公开的一个示例方面涉及一种用于从音频信号生成说话面部的计算系统。计算系统可以包括一个或多个处理器和一个或多个非暂时性计算机可读介质，其共同存储：机器学习的面部几何形状预测模型，其被配置为基于描述包括语音的音频信号的数据来预测面部几何形状；机器学习的面部纹理预测模型，所述机器学习的面部纹理预测模型被配置为基于描述包括所述语音的所述音频信号的数据来预测面部纹理；以及指令，所述指令在由所述一个或多个处理器执行时使所述计算系统执行操作。操作可以包括获得描述包括语音的音频信号的数据；使用所述机器学习的面部几何形状预测模型来至少部分地基于描述所述音频信号的所述数据来预测所述面部几何形状；使用所述机器学习的面部纹理预测模型来至少部分地基于描述所述音频信号的所述数据来预测所述面部纹理；以及将所述面部几何形状与所述面部纹理组合以生成三维面部网格模型。

参考以下描述和所附权利要求，将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例，并且与说明书一起用于解释相关原理。

附图说明

在参考附图的说明书中阐述了针对本领域普通技术人员的实施例的详细讨论，其中：

图1A示出了根据本公开的示例实施例的从音频生成动态纹理化3D面网格的示例系统的框图。

图1B示出了根据本公开的示例实施例的用于将所生成的面部网格插入到目标视频中以便从新的音频输入创建合成的讲话头部视频的示例系统的框图。

图2描绘了根据本公开的示例实施例的用于对训练数据进行归一化的示例技术的结果。

图3A示出了根据本公开的示例实施例的用于训练机器学习的面部几何预测模型的示例系统的框图。

图3B示出了根据本公开的示例实施例的用于训练机器学习的面部纹理预测模型的示例系统的框图。

图4描绘了根据本公开的示例实施例的集成到虚拟环境中的说话面部的示例。

图5A-C描绘了根据本公开的示例实施例的示例计算系统的框图。

图6描绘了根据本公开的示例实施例的从音频生成说话面部的示例方法的流程图。

图7A描绘了根据本公开的示例实施例的训练机器学习的面部几何形状预测模型的示例方法的流程图。

图7B描绘了根据本公开的示例实施例的用于训练机器学习的面部纹理预测模型的示例方法的流程图。

在多个附图中重复的附图标记旨在标识各种实施方式中的相同特征。

具体实施方式

通常，本公开涉及用于生成在一些实施方式中仅以音频输入为条件的照片级逼真的3D说话面部(例如，面部的3D纹理网格模型)的系统和方法。具体地，一些示例实施方式包括并使用机器学习面部几何形状预测模型来基于音频信号预测面部几何形状，并且包括并使用机器学习面部纹理预测模型来基于音频信号预测面部纹理。可以组合预测的几何形状和纹理以获得面部的3D网格模型。另外，本公开提供了用于将所生成的面部插入到现有视频或虚拟环境中的相关联的方法。

在一些实施方式中，可以在视频数据上训练本公开使用的机器学习模型，包括例如通过将来自视频的面部分解到解耦3D几何形状、头部姿势和纹理的归一化空间中。这允许将预测问题分成3D面部形状和对应的2D纹理图谱上的回归，如上所述。

本公开的附加方面提供了所生成的面部的改进的质量。作为一个示例，为了稳定时间动态，本公开的一些实施方式利用将模型调节在其先前的视觉状态上的自回归方法。作为另一示例，可以由模型使用与音频无关的3D纹理归一化来执行面部照明。这些技术显著地提升了所生成的序列的现实性，提供了优于现有技术的唇形同步系统的结果。

对于所生成的说话面部，存在大量不同的用途或应用。作为示例，由所提出的框架使能的应用包括：个性化和语音控制的照片级逼真的说话游戏或虚拟现实(VR)化身；将视频自动翻译成不同的语言(例如，用于以新语言翻译和配音视频的唇形同步)；一般视频编辑(例如，在教育视频中插入新的音频/语音内容)；以及多媒体通信中的压缩(通过仅发送音频信号(以及在一些实施方式中，参考图像)并且在需要时从音频重建视觉方面)。因此，在一些示例用途中，3D信息可以被用于从本质上编辑2D视频，从而产生照片级逼真的结果。或者，3D网格可以被用于3D游戏和VR。

更具体地，本公开的各方面利用机器学习技术来训练从瞬时音频输入预测面部的形状和外观的模型。这些模型提供了适用于各种场景的实际框架，并且也为现实世界应用产生足够逼真的结果。为此，各种示例实现方式展现出以下可选特性：

音频作为驱动输入：本公开的一些实施方式使用音频作为驱动输入，这给出了将所提出的技术与口头输入或合成的文本到语音(TTS)音频一起使用的灵活性。直接使用音频也简化了数据准备和模型架构，因为可以直接使用同步的音频和视频帧对作为训练数据，而无需任何附加处理。另一方面，使用文本、音素和视位需要附加的特征提取和时间对准步骤。

3D分解：3D面部检测器(在Kartynnik等人的Real-time facial surfacegeometry from monocular video on mobile gpus中描述了一个示例，2019年，加利福尼亚州，LongBeach，Third Workshop on Computer Vision for AR/VR)，以获得视频中讲话者面部的姿势和三角形网格。该信息使得能够将面部分解成归一化的3D网格和纹理图谱，从而将头部姿势与语音引起的面部变形——诸如嘴唇运动和牙齿/舌头外观——解耦。可以训练模型以从该归一化域中的音频预测面部几何形状和纹理。该方法有两个益处：(1)模型必须处理的自由度大大降低(对于语音相关特征)，这允许甚至从相对短的视频生成似乎合理的模型。(2)模型预测完整的3D说话面部而不仅仅是2D图像，这将其适用性扩展到视频之外的游戏和VR，同时也提高了视频重新合成的质量和灵活性。

个性化模型：个性化说话者特定模型可以被训练，而不是构建要跨不同人应用的单个通用模型。虽然通用模型具有其优点，例如易于重用，但是它们需要更大的训练集来完全捕获每个可能说话者的个体运动风格。另一方面，个性化模型可以通过在训练期间从特定说话者的视频中学习模型来容易地并入这样的特定于人的特质。注意，一旦被训练，这样的模型仍然可以跨相同讲话者的不同视频使用。

时间上一致的照片级逼真的合成：示例实施方式包括使用编码器-解码器框架的模型架构，该编码器-解码器框架从音频频谱图计算嵌入，并将它们解码为3D几何形状和纹理。在一个示例中，面部几何形状预测模型可以预测面几何形状，例如，其可以被表示为相对于参考网格的网格顶点变形。类似地，面部纹理预测模型可以预测唇部区域周围的面部外观，例如，其可以被表示为对于参考纹理图谱的差异图。

在一些实施方式中，为了进一步实现时间平滑，可以使用自回归框架，其调节音频以及先前生成的纹理输出两者上的纹理生成，从而产生视觉上稳定的序列。另外，当通过将预测的面部混合到目标视频中来重新合成视频时，重要的是与目标面部照明一致。在一些实施方式中，这可以通过将3D归一化的固定纹理图谱并入(一个或多个)模型中来实现，3D归一化的固定纹理图谱与音频信号不相关，并且充当瞬时光照的代理。

本公开的系统和方法提供了许多技术效果和益处。一个示例技术效果是将任意的说话头部视频片段转换成解耦姿势、几何形状和纹理的归一化空间的能力，这简化了模型架构和训练，并且即使在有限的训练数据的情况下也能够实现通用的高质量结果。

另一示例技术效果是经由与音频无关的3D纹理归一化以及用于时间平滑视频合成的自回归纹理预测模型来捕获面部照明的新颖方法。因此，本文描述的技术使得能够从音频生成明显更逼真的说话面部的图像。

另外的示例技术效果是用于训练说话者特定音频到面部模型的端到端框架，其可以从对象的单个视频中学习；以及用于在视频编辑、翻译和3D环境中采用它们的对准、混合和重新渲染技术。结果是仅由音频驱动的照片级真是视频或3D面部。

由本文描述的技术提供的另一示例技术效果和益处是在仅将说话者的视频“压缩”为音频信号的同时仍然能够重新创建视频的视觉方面的照片级逼真、表示的能力。具体地，视频可以包含音频数据和视觉数据两者。因为本公开的技术使得能够仅从音频(重新)创建说话面部的照片级逼真图像，所以可以通过仅维持视频的音频部分(潜在地连同少量(例如，1个)参考图像)来压缩视频，这将大大减少存储和/或传输视频所需的数据量。然后，当希望说话面部的视觉图像时，可以采用本文描述的技术来从音频信号创建图像。以这种方式，可以显著减少能够存储和/或传输说话面部的视频所需的数据量。例如，该压缩方案在视频会议/聊天用例中可以具有很大的益处，特别是在网络带宽有限的情况下。

并入本公开中并形成本公开的一部分的美国临时专利申请第62/967,335号描述了本文所述的系统和方法的示例性实施方式和实验用途。

现在参考附图，将更详细地讨论本公开的示例实施例。

用于生成说话面部的示例技术

本部分描述从音频输入预测动态3D面部模型的示例方法。本部分首先讨论用于从输入视频(或多个)中提取训练数据的示例方法，然后详细描述了用于预测3D几何形状和相关联的纹理的示例神经网络架构和训练方法。

在一些实施方式中，可以提取来自训练视频的音频信道并将其变换为频域频谱图。例如，可以使用具有Hann窗口函数的短时傅里叶变换(STFT)通过30ms宽和10ms间隔的滑动窗口计算这些音频频谱图。这些STFT可以与视频帧对齐并跨时间堆叠以创建以每个视频帧为中心的256×96复杂频谱图图像。然后，一个或多个机器学习模型可以基于音频频谱图预测每个帧的面部几何形状和纹理。

为了检测训练视频中的面部并获得3D面部特征，可以使用面部界标检测器。各种面部界标检测器(也称为三维面部检测器)在本领域中是已知和可用的。在2019年加利福尼亚州的长滩的第三届AR/VR计算机视觉研讨会上Kartynnik等人的Real-time facialsurface geometry from monocular video on mobile GPUs中描述了面部界标检测器的一个例子。该基于视频的面部跟踪器检测3D中的468个面部特征，其中基于深度学习幻觉出深度(Z)分量；这些可互换地被称为特征或顶点。本公开的一些实施方式定义了这些特征的固定的预定义三角测量，并且完全通过网格顶点位移而不是通过网格拓扑变化来表示面部几何形状的任何动态变化。

用于归一化训练数据的示例技术

本部分描述用于归一化输入面部数据的示例方法。一个示例目标是消除头部移动的影响，并且与归一化的面部几何形状和纹理一起工作。训练和推断二者可以在该归一化空间中进行，这大大降低了模型必须处理的自由度，并且如美国临时专利申请第62/967,335号中所示，目标人的几分钟(通常为2-5分钟)的视频镜头通常足以训练模型以实现高质量结果。

示例姿势归一化

首先，可以选择输入视频的一帧作为参考帧，并且选择其相应的3D面部特征点作为参考点。帧的选择不是关键的；面部足够正面且分辨率可接受的任何帧都是合适的。使用参考点，可以定义具有垂直轴的参考圆柱坐标系，使得大多数面部点与轴等距。然后可以对面部尺寸进行归一化，使得到轴的平均距离等于1。面部点可以被投影到该参考圆柱体上，创建参考面部的表面的2D映射，其可以用于“展开”其纹理。

接下来，对于训练视频的每个帧，可以选择面部的上部更刚性部分的3D面部点，并将其与归一化参考中的对应点对准。作为一个示例，Umeyama的算法(Shinji Umeyama，Least-squares estimation of transformation parameters between two pointpatterns，IEEETrans.Pattern Anal.Mach.Intell.,13(4):376-380，1991)可以用于估计3D中的旋转R、平移t和缩放c。将

应用于跟踪的点p提供适合于训练面部几何形状预测模型的配准的、归一化的3D面部点。

在一些实施方式中，为了训练纹理模型，现在与参考的圆柱纹理域配准的这些归一化点可以被用于创建每个面部的纹理的两个投影：(a)“移动图谱”，其通过将移动归一化点投影到参考圆柱上作为纹理坐标并在2D中渲染相关联的三角形来创建；因此，嘴部纹理类似于正面视图，其中面部特征随着语音移动；以及(b)“固定图谱”，其通过使用相应的参考三角形的纹理坐标将每个视频三角形纹理映射到相应的参考三角形来创建，因此面部特征被冻结在由参考定义的位置中。

图2显示了这种归一化的效果；如图所示，头部姿势被移除。虽然移动图谱(第三列)更适合于训练作为语音的函数的嘴唇形状和嘴内部外观，但是固定图谱(第四列)对于独立于语音提取光照信息是有用的，因为诸如嘴和眼睛的变化特征的位置是固定的并且可以容易地被遮蔽以用于光照提取。

示例光照归一化

另一示例方面涉及对正面化纹理图谱进行归一化以去除主要由头部运动或改变的照明引起的光照变化。本公开的一个示例光照归一化算法在两个阶段中工作。它首先利用面部对称性来在空间上对参考图谱R进行归一化，去除跨面部延伸的镜面反射和光照变化。然后，它跨视频帧执行时间归一化，该时间归一化变换每个帧的图谱F以匹配R的照明。所得到的图谱具有更均匀的类似反照率的外观，其在各帧之间保持一致。

首先描述时间归一化算法，因为它是也在空间归一化期间使用的核心组件。该算法可以假设两个纹理F和R在几何形状上被预先对准。然而，例如来自语音的任何非刚性面部运动可能导致不同的纹理坐标，并且因此导致R和F之间的未对准。因此，实现该算法的计算系统首先扭曲R以将其与F的纹理坐标对齐，采用用于前端化的相同的基于三角形的扭曲算法。

假定对准后的R和F，实现算法的计算系统可以估计变换F以匹配R的照明的映射。该映射可以包括亮度域中的平滑乘法逐像素增益G，随后是RGB域中的全局逐通道增益和偏置映射{a,b}。可以通过以下步骤获得所得到的归一化纹理Fⁿ：

(1)(F_y；F_u；F_v)＝RGBtoYUV(F)；

(2)

(3)

(4)Fⁿ＝aF^l+b；

增益估计：为了估计增益G，观察到F和R中相同位置k处的一对对应像素应该具有相同的底层外观，对照明的任何变化取模，因为它们是几何形状对准的。如果完全满足，则该反照率恒定性假设产生像素k处的增益为G_k＝R_k/F_k。然而，注意，(a)G是平滑变化的照明图，并且(b)可能偶尔违反反照率恒定性，例如在如嘴、眼睛和鼻孔的非皮肤像素中，或者在皮肤急剧变形的情况下，例如鼻唇褶皱。在一些实施方式中，可以通过首先在以k周围为中心的较大贴片p_k上进行估计，和/或其次采用基于像素满足反照率恒定性的程度来对像素进行加权的稳健估计器来考虑这些因素。本公开的示例实施方式可以将估计G_k公式化为最小化误差：

其中，W是每像素权重图像。示例实施方式可以使用迭代重加权最小二乘(IRLS)来解决该误差。特别地，示例实施方式可以均匀地初始化权重，然后在每次(第i次)迭代之后将它们更新为：

其中，T是温度参数。权重和增益可以在5-10次迭代中收敛；对于256×256图谱，一些实施方式使用T＝0:1和16×16像素的贴片大小。在一些实施方案中，具有大误差E_k的像素能够接收低权重，且从具有更高权重的相邻像素隐式地内插其增益值。

在一些实施方式中，为了以闭合形式估计全局颜色变换{a,b}，计算系统可以在所有像素上最小化∑_kW_k‖R_k-aF_k-b‖²，其中W_k现在被固定到上面估计的权重。

参考归一化：本部分讨论如何利用面部对称性对参考图谱进行空间归一化。一些示例实施方式首先使用上述算法来估计参考R与其镜像R′之间的增益G^m。该增益表示面部的左半部和右半部之间的照明变化。为了获得具有均匀照明的参考，计算系统可以计算对称化增益G^s＝max(G^m,G^m′)，其中，G^m′是G^m的镜像，即，对于每个对称像素对，使暗像素与亮像素匹配。然后归一化参考是G^m。注意，加权方案使得该技术对面部上的固有不对称性具有鲁棒性，因为任何不一致的像素对将在增益估计期间被向下加权，从而保留那些不对称性。

镜面反射去除：一些示例实施方式在对参考帧和视频帧进行归一化之前从面部去除镜面反射，因为它们没有被适当地建模为乘法增益，并且也由于对称化而导致参考上的重复镜面反射。一些示例实现方式将镜面图像形成建模为：

I＝α+(1-α)*I_c

其中I是观察到的图像，α是镜面阿尔法图，并且I_c是没有镜面的底层干净图像。一些示例实施方式首先计算掩模，其中α>0，作为在平滑后的I中跨RGB通道的其最小值超过I中跨所有皮肤像素的百分之九十的强度的像素。一些示例实现方式使用面部网格拓扑来识别皮肤像素并限制对皮肤像素的计算。然后，一些示例实施方式通过对来自相邻像素的掩蔽像素进行孔洞填充来估计伪干净图像

并使用它来估计

然后，最终的干净图像是I_c＝(I-α)/(1-α)。注意，软alpha计算优雅地处理镜面反射掩模的任何错误的过度估计。

用于音频到面部几何形状合成的示例技术

本公开的一些示例实施方式直接使用复数傅里叶频谱图作为输入，因此简化了整体算法。具体地，在一些示例实施方式中，时移复频谱图可以被表示为12层深度编码器网络的256×96×2(频率×时间×实/虚)输入向量，其中前6层在频率上应用1D卷积(核3×1，步幅2×1)，并且随后的6层在时间上应用1D卷积(核1×3，步幅1×2)，所有这些都具有泄漏ReLU激活，直观地分别对应于音素检测和激励。所得到的潜在空间具有256个维度。在一些实施方式中，可以添加来自眨眼检测器的附加单个维度，以便能够在训练期间检测眨眼并在推断期间按需生成眨眼。随后是解码器，并且一个示例解码器可以包括具有150和1404个单元的两个全连接层以及线性激励。这些可以被认为是语音到具有468个顶点(1404＝468×3坐标)的线性“混合形状”面部表示的映射。一些示例实施方式也包括在上面的每个层之间的退出层。在一些实施方式中，可以在顶点训练数据上使用PCA来初始化最后一层。一个示例损失函数包括L₂顶点位置损失；正则化损失；和/或速度损失。

用于音频到纹理合成的示例技术

本部分描述用于学习从音频频谱图的域S映射到移动纹理图谱图像的域T的函数G的示例框架；G:S→T。在一些实施方式中，为了纹理预测的目的，图谱可以被裁剪到嘴唇周围的区域(例如，裁剪到128×128区域)，并且在该部分中对纹理的参考意味着裁剪的图谱。图3B示出纹理模型和训练流水线的示例。

在时刻t的输入是复数频谱图，

并且输出是差分图Δ_t，其被添加到参考图谱I_r，以获得预测的纹理图谱

本公开的一些实施方式遵循用于实现G(·)的编码器-解码器架构。首先，可以通过一系列卷积层来处理频谱图以产生潜在码，

其中N_L是潜在码维度。接下来，潜在码在空间上被分布并利用卷积和插值层被渐进地上采样以生成纹理化输出。可以训练实现G的模型(或多个)以最小化组合损失，R＝R_pix+αR_mom，其由以下组成：

其中，A_t是对应于S_t的基准真值，并且d是像素级距离度量，以及

其中，μ(·)和σ(·)是均值和标准偏差，并且

和

是通过将二元掩模M应用于相应的图谱而获得的，其使嘴部区域归零，仅留下皮肤像素。

像素损失R_pix旨在维持预测纹理与基准真值纹理之间的像素级相似性。d(·)的示例不同变体可以包括l₁损失、结构相似性损失(SSIM)和梯度差损失(GDL)(Mathieu等人，Deep multi-scale video prediction beyond mean square error，ICLR，2016)。

矩损失项R_mom鼓励皮肤像素的分布的一阶矩和二阶矩匹配。这对

施加了软约束以遵守参考帧的整体照明，并且使训练对随时间的照明变化更不敏感。掩蔽嘴部区域确保由于语音引起的口腔的外观变化不影响矩计算。

另一示例方面涉及一种混合形状解码器。例如，为了使用音频来动画化CGI字符，一些示例实施方式可以可选地在网络中包括另一解码器，其除了几何形状和纹理之外还预测混合形状系数B_t。为了训练，可以通过经由优化或使用预训练的模型将顶点拟合到现有的混合形状基础来从顶点V_t导出这些混合形状。一些示例实施方式可以使用单个全连接层来从音频代码

预测系数

并且使用l₁损失

来训练它以鼓励稀疏系数。

用于自回归纹理合成的示例技术

从音频预测说话面部可能遭受由在讲话时或甚至在沉默时面部表情的变化引起的歧义。在后一种情况下，例如，模型可能将音频通道中的细微噪声映射到不同的表情，从而导致干扰抖动伪像。

虽然本公开的一些实施方式没有明确地对面部表情进行建模，但是可以通过将存储器合并到网络中来减轻该问题。网络的当前输出(在时间t)不仅可以在S_t上被调节，而且可以在于先前时间步长处生成的预测图谱

上被调节。

被编码为潜在码，

例如，使用具有2个像素的步幅的3×3卷积的级联。

和

可以被组合并传递到解码器网络以生成当前纹理

注意，在一些情况下，先前预测的图谱在训练期间不可用，除非它被建模为真实的递归网络。然而，可以通过使用被称为“教师强制”的技术来令人满意地训练网络，其中来自先前帧的基准真值图谱在训练期间被用作预测输入。这种自回归(AR)方法明显改善了合成结果的时间一致性。

用于联合纹理和频谱图重建的示例技术

到目前为止描述的框架的一些示例实施方式没有明确地强制从潜在域重建输入频谱图的能力。虽然这种约束对于唇部形状的推断是严格不需要的，但是它可以通过迫使潜在域跨越有效频谱图的流形来帮助正则化和泛化。为了实现这一点，本公开的一些实施方式包括附加音频解码器，该附加音频解码器从用于生成

的相同共享潜在码

重构输入频谱图。关于预测频谱图

的附加自动编码器损失R_ae由下式给出：

用于匹配目标照明的示例技术

为了将合成纹理混合回到目标视频中(参见部分3.5)，期望合成与目标面部的照明一致。函数映射G:S→T不包含任何这样的光照信息。矩损失R_mom施加软约束以遵守参考帧的整体照明。然而，目标面部上的瞬时光照可能与参考显著不同，并且也随时间变化。即使当使用诸如泊松混合(Perez等人，Poisson image editing，ACM Trans.Graph.，22(3):313-318，2003年7月)的高级技术时，这也可能导致不一致的结果。

这个问题可以通过使用(例如，未裁剪的)固定图谱

作为代理光照图来解决。类似于矩损失计算，可以掩蔽来自

的眼睛和嘴部区域以仅留下皮肤像素。

上的皮肤像素的强度独立于输入频谱图，并且主要由于光照或遮挡而改变。因此，

其中M是二进制掩模，对瞬时照明的度量进行编码。因此，它可以被称为光照图谱。接下来，用光照编码器网络E^light对

进行编码，从而产生光照码，

注意，在一些实施方式中，在将

光馈送到网络之前可以从光

中减去掩蔽的参考图谱，以将参考视为中性(零)照明。

在一些实施方式中，作为光照图谱的替代或补充，可以使用变换矩阵作为光照的代理。

最后，所有三个潜在码

(频谱图)、

(先前预测的图谱)和

(光照)可以被组合并传递到联合视觉解码器，如图3B所示，以生成输出纹理。可以利用组合损失俩端到端地训练整个框架：

R＝R_pix+α₁R_mom+α₂R_ae,(4)

其中，α₁和α₂分别控制矩损失和频谱图自动编码器损失的重要性。

用于根据预测的几何形状和纹理的3D网格的示例技术

先前的部分已经详细描述了如何预测纹理和几何形状两者的示例。然而，由于预测纹理是“移动图谱”，即到参考柱体上的投影，因此它通常将被反投影到实际网格上，以便将其用于3D头部模型。幸运的是，这可以通过简单地将对应的预测顶点投影到参考圆柱体上并使用它们的2D位置作为新的纹理坐标来实现，而无需任何重新采样。注意，使用移动图谱加上重新投影具有两个附加优点：(a)这可以掩蔽预测顶点和预测纹理之间的小差异；以及(b)这导致网格上更均匀的纹理分辨率，因为合成图谱中的三角形的尺寸紧密地对应于网格中的它们的表面积。结合预定义的三角形拓扑，结果是由音频输入驱动的完全纹理化的3D面部网格，如图1A的流程图所示。在一些实施方式中，可以在2D纹理预测和3D顶点预测之前使用音频编码器将输入音频源编码成编码表示。

用于将预测的面部网格插入到视频中的示例技术

从视频到参考的归一化变换是可逆的，因此可以用于将音频生成的面部插入到目标视频中，从而合成说话的头部视频，如图1B中的流程图所示。

更具体地，给定目标视频，当从新音频轨道合成面部时，可以针对每个帧提取光照和面部姿势，并且分别在纹理合成和3D渲染期间采用。在一些实施方式中，仅渲染下面部的受语音影响的区域，例如，在中鼻点下方。这是因为一些示例当前纹理模型不生成变化的眼睛注视或眨眼，并且因此将导致对上面部的呆滞眼睛。然而，一个警告是，目标帧的上面部和下巴下方的区域不一定与新生成的面部一致。特别地，如果在目标帧中，原始嘴部比合成帧打开得更宽，则简单地将新面部渲染到帧中可能导致双下巴。

因此，可以通过扭曲原始下巴下方的图像区域以匹配预期的新下巴位置来预处理每个目标帧。为了避免边界区域处的接缝，可以在原始和新的面部几何形状之间创建逐渐融合的混合，并且可以根据混合的几何形状来扭曲目标帧中的原始面部。最后，泊松混合(Perez等人，Poisson image editing，ACMTrans.Graph.，22(3):313-318，2003年7月)可以被用于消除任何剩余的色差，并将渲染的面部视图混合到扭曲的目标帧中。

示例方法

图6描绘了根据本公开的示例实施例的从音频生成说话面部的示例方法600的流程图。

在602处，计算系统可以获得描述包括语音的音频信号的数据。

在一些实施方式中，音频信号是独立于语音的视觉表示的独立音频信号。在其他实施方式中，音频信号与语音的视觉表示相关联。

在一些实施方式中，音频信号包括记录的人类音频话语。在一些实施方式中，音频信号包括从文本数据生成的合成的文本到语音音频。

在604处，计算系统可以使用机器学习面部几何形状预测模型来预测面部几何形状。

在606处，计算系统可以使用机器学习面部纹理预测模型来预测面部纹理。

在一些实施方式中，机器学习面部纹理预测模型是自回归模型，对于多次迭代中的每次迭代，该自回归模型接收机器学习面部纹理预测模型的先前迭代预测作为输入。

在一些实施方式中，预测的面部纹理是由机器学习面部纹理预测模型预测的差异图和参考纹理图谱的组合。

在一些实施方式中，机器学习面部几何形状预测模型和机器学习面部纹理预测模型是特定于在音频信号中包括的语音的说话者的个性化模型。

在一些实施方式中，至少部分地基于描述音频信号的数据预测的面部几何形状是在与三维网格相关联的归一化三维空间内预测的；并且至少部分地基于描述音频信号的数据预测的面部纹理是在与二维纹理图谱相关联的归一化二维空间内预测的。

在608处，计算系统可以组合面部几何形状和面部纹理以生成三维面部网格模型。

在610处，计算系统可以将面部网格模型插入到二维视频和/或三维虚拟环境中。

例如，可以将面部网格模型插入到二维目标视频中以生成合成视频。例如，将三维面网格模型插入到二维目标视频中可以包括：获得二维目标视频；检测二维目标视频中的目标面部；将三维面网格在目标位置处与目标面部对准；和/或在目标位置处在二维目标视频内渲染三维面网格以生成合成视频。

在一些实施方式中，将三维面网格模型插入到二维目标视频中可以包括：从二维目标视频生成固定图谱；和/或将固定图谱提供给机器学习面部纹理预测模型作为代理光照图。

在一些实施方式中，检测目标面部可以包括：使用三维面部检测器来获得视频中的目标面部的姿势和三角形网格；和/或将目标面分解成与三维网格相关联的三维归一化空间和与二维纹理图谱相关联的二维归一化空间。在一些实施方式中，至少部分地基于描述音频信号的数据预测的面部几何形状是在与三维网格相关联的归一化三维空间内预测的。在一些实施方式中，预测至少部分地基于描述音频信号的数据预测的面部纹理是在与二维纹理图谱相关联的归一化二维空间内的。

图7A描绘根据本公开的示例实施例的用于训练机器学习面部几何形状预测模型的示例方法700的流程图。

在702处，计算系统可以获得包括视觉数据和音频数据的训练视频，其中视觉数据描绘说话者，并且音频数据包括由说话者发出的语音。

在704处，计算系统可以将三维面部界标检测器应用于视觉数据以获得与说话者的面部相关联的三维面部特征。

在706处，计算系统可以使用机器学习面部几何形状预测模型至少部分地基于描述音频数据的数据来预测面部几何形状。

在708处，计算系统可以评估损失项，损失项将由机器学习面部几何形状模型预测的面部几何形状与由三维面部界标检测器生成的三维面部特征进行比较。

在710处，计算系统可以至少部分地基于损失项来修改机器学习面部几何形状预测模型的一个或多个参数的一个或多个值。

图7B描绘根据本公开的示例实施例的用于训练机器学习面部纹理预测模型的示例方法750的流程图。方法750可以与方法700分开执行，或者与方法700同时/联合执行。

在752处，计算系统可以获得包括视觉数据和音频数据的训练视频，其中视觉数据描绘说话者，并且音频数据包括由说话者发出的语音。

在754，计算系统可以将三维面部界标检测器应用于视觉数据，以获得与说话者的面部相关联的三维面部特征。

在756，计算系统可以基于三维面部特征将训练视频投影到参考形状上以获得训练面部纹理。

在758处，计算系统可以使用机器学习面部纹理预测模型至少部分地基于描述音频数据的数据来预测面部纹理。

在一些实施方式中，该方法还可以包括从训练视频生成固定图谱；和/或将固定图谱输入到机器学习面部纹理预测模型中以用作代理光照图。在一些实施方式中，生成固定图谱可以包括：使用固定参考面部坐标将训练视频投影到参考形状上；和/或掩蔽对应于眼睛和口腔区域的像素。

在760处，计算系统可以评估将由机器学习面部纹理模型预测的面部纹理与训练面部纹理进行比较的损失项。

在762处，计算系统可以至少部分地基于损失项来修改机器学习面部纹理预测模型的一个或多个参数的一个或多个值。

示例应用

到目前为止，已经描述了所提出的用于从音频输入创建3D说话面部的方法。本部分讨论该技术的一些示例应用。与纯基于图像或仅3D技术相比，生成完全纹理化3D几何形状的方法实现了更广泛的应用。

用于游戏和VR的示例照片级逼真的说话面部

在现代多玩家在线游戏和虚拟现实(VR)中对外观相似的化身的需求日益增加，以使游戏环境更加社会化和吸引人。虽然这样的化身可以由来自网络摄像头的视频馈送驱动(至少用于就座体验)，但是仅从音频生成3D说话面部的能力消除了对任何辅助相机设备的需要，并且作为副作用保护了家庭隐私。此外，它可以减少带宽，并且(结合语音翻译)甚至允许玩家交互而不管他们的语言如何。图4示出集成到演示游戏中的仅音频生成的3D面部。在这种情况下，模型是从受试者的约六分钟的离线网络摄像机镜头训练的。

图4：移动应用的屏幕截图，其中仅由音频驱动的说话面部被集成到演示游戏中。由于生成了完整的3D面部模型，因此可以在玩游戏期间从任何视点渲染面部。

视频编辑、翻译和配音

另一类重要的应用是视频内容的重新合成。利用本文描述的技术，可以修改主体的给定视频以匹配新的配乐。这可以在各种场景中使用：

视频创建和编辑：可以插入新内容以更新或增强在线课程，或者纠正错误，而无需在原始条件下重新拍摄整个视频的繁琐且有时不可能的过程。相反，受试者仅需要记录编辑部分的新音频，并应用我们的合成来修改相应的视频段。进一步推断，现有视频可以仅用作通用背景，以创建由音频或文本驱动的全新的不同内容，从而实现语音到视频或文本到视频系统。

视频翻译和配音：即使用于实验的某些示例模型主要是在英语视频上训练的，但根据经验证明，它们在推断时对两种不同语言以及TTS音频都具有令人惊讶的鲁棒性。使用可用的转录或语音识别系统来获得字幕，并且随后使用文本到语音系统来生成音频，示例实施方式可以自动地将现有视频翻译和唇形同步成不同的语言。结合适当的视频重新定时和语音克隆，所得到的视频看起来相当令人信服。值得注意的是，与叙述者驱动的技术相反，由此实现的用于视频转录的方法在循环中不需要人类演员，并且因此可以在语言上立即扩展。

附加示例用例

许多附加的用例或应用是可能的。一个附加示例是由音频驱动的2D或3D卡通说话化身。例如，附加层可以用于将预测的几何形状映射到动画角色的控制旋钮，诸如混合形状。

另一示例应用是用于面部聊天的视频压缩和/或将音频呼叫转换为说话面部。例如，计算系统(例如，接收计算系统)可以从音频和(如果需要的话)其他元数据(诸如表情、光照等)重建面部。

另一示例应用是生成虚拟助理的可视化。例如，计算系统可以操作以向助理提供面部，该面部可以被示出为诸如GoogleHome的视觉显示。还可以添加表情。

示例设备和系统

图5A描绘根据本公开的示例实施例的示例计算系统100的框图。系统100包括通过网络180通信地耦合的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102可以是任何类型的计算设备，诸如例如个人计算设备(例如，膝上型计算机或台式计算机)、移动计算设备(例如，智能电话或平板计算机)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器114可以存储由处理器112执行以使用户计算设备102执行操作的数据116和指令118。

在一些实施方式中，用户计算设备102可以存储或包括一个或多个机器学习模型120。例如，机器学习模型120可以是或可以以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型，包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如，长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。参考图1A-4讨论了示例机器学习模型120。

在一些实施方式中，一个或多个机器学习模型120可以通过网络180从服务器计算系统130接收，存储在用户计算设备存储器114中，然后由一个或多个处理器112使用或以其他方式实现。在一些实施方式中，用户计算设备102可以实现单个机器学习模型120的多个并行实例(例如，以跨多个实例并行执行)。

附加地或替代地，一个或多个机器学习模型140可以被包括在服务器计算系统130中或以其他方式由服务器计算系统130存储和实现，服务器计算系统130根据客户端-服务器关系与用户计算设备102通信。例如，机器学习模型140可以由服务器计算系统140实现为web服务(例如，面部合成服务)的一部分。因此，可以在用户计算设备102处存储和实现一个或多个模型120，和/或可以在服务器计算系统130处存储和实现一个或多个模型140。

用户计算设备102也可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入部件122可以是对用户输入对象(例如，手指或触笔)的触摸敏感的触敏部件(例如，触敏显示屏或触摸板)。触敏组件可用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户可以通过其提供用户输入的其他装置。

服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器134可以存储由处理器132执行以使服务器计算系统130执行操作的数据136和指令138。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。在服务器计算系统130包括多个服务器计算设备的情况下，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。

如上所述，服务器计算系统130可以存储或以其他方式包括一个或多个机器学习模型140。例如，模型140可以是或可以以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。参考图1A-4讨论示例模型140。

用户计算设备102和/或服务器计算系统130可以经由与通过网络180通信地耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分离，或者可以是服务器计算系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器154可以存储由处理器152执行以使训练计算系统150执行操作的数据156和指令158。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。

训练计算系统150可以包括模型训练器160，其使用各种训练或学习技术(例如，误差的后向传播)来训练存储在用户计算设备102和/或服务器计算系统130处的机器学习模型120和/或140。例如，可以通过(一个或多个)模型反向传播损失函数以更新(一个或多个)模型的一个或多个参数(例如，基于损失函数的梯度)。可以使用各种损失函数，诸如均方误差、似然损失、交叉熵损失、铰链损失和/或各种其他损失函数。梯度下降技术可用于在多次训练迭代中迭代地更新参数。

在一些实施方式中，执行误差的反向传播可以包括通过时间执行截断反向传播。模型训练器160可以执行多种泛化技术(例如，权重衰减、退出等)以改善正被训练的模型的泛化能力。

特别地，模型训练器160可以基于一组训练数据162来训练机器学习模型120和/或140。训练数据162可以包括例如描绘语音的现有视频。

在一些实施方式中，如果用户已经提供同意，则训练示例可以由用户计算设备102提供。因此，在这样的实施方式中，提供给用户计算设备102的模型120可以由训练计算系统150在从用户计算设备102接收的用户特定的数据上训练。在一些情况下，该过程可以被称为个性化模型。

模型训练器160包括用于提供期望功能的计算机逻辑。模型训练器160可以以控制通用处理器的硬件、固件和/或软件来实现。例如，在一些实施方式中，模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中，模型训练器160包括存储在有形计算机可读存储介质(诸如RAM硬盘或光学或磁性介质)中的一组或多组计算机可执行指令。

网络180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，互联网)或其某种组合，并且可以包括任何数量的有线或无线链路。通常，通过网络180的通信可以使用各种各样的通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来承载。

图5A示出可用于实现本公开的一个示例计算系统。也可以使用其他计算系统。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实施方式中，可以在用户计算设备102处本地训练和使用模型120。在一些这样的实施方式中，用户计算设备102可以实现模型训练器160以基于用户特定的数据来个性化模型120。

图5B描绘根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括多个应用(例如，应用1至N)。每个应用包含其自己的机器学习库和机器学习模型。例如，每个应用可以包括机器学习模型。示例应用包括文本消息传送应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图5B所示，每个应用可以与计算设备的多个其他组件通信，诸如例如一个或多个传感器、情境管理器、设备状态组件和/或附加组件。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，由每个应用使用的API特定于该应用。

图5C描绘根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如，应用1至N)。每个应用与中央智能层通信。示例应用包括文本消息传送应用、电子邮件应用、口述应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，跨所有应用的公共API)与中央智能层(以及存储在其中的模型)通信。

中央智能层包括多个机器学习模型。例如，如图5C所示，可以为每个应用提供相应的机器学习模型(例如，模型)并由中央智能层管理。在其他实施方式中，两个或更多个应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以为所有应用提供单个模型(例如，单个模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作系统内或以其他方式由计算设备50的操作系统实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是用于计算设备50的集中式数据存储库。如图5C所示，中央设备数据层可以与计算设备的多个其他组件通信，诸如例如一个或多个传感器、情境管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层可以使用API(例如，私有API)与每个设备组件通信。

附加公开

本文讨论的技术参考服务器、数据库、软件应用和其他基于计算机的系统，以及所采取的动作和发送到这些系统和从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和之中的任务和功能的各种可能的配置、组合和划分。例如，本文讨论的过程可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现或跨多个系统分布。分布式组件可以顺序地或并行地操作。

虽然已经关于本主题的各种具体示例实施例详细描述了本主题，但是每个示例是通过解释而不是限制本公开的方式提供的。本领域技术人员在获得对前述内容的理解后，可以容易地产生对这些实施例的改变、变化和等同物。因此，本主题公开不排除包括对本主题的这样的修改、变化和/或添加，这对于本领域普通技术人员来说是显而易见的。例如，作为一个实施例的一部分示出或描述的特征可以与另一个实施例一起使用以产生又一个实施例。因此，本公开旨在覆盖这些改变、变化和等同物。

Claims

1.一种用于从音频信号生成说话面部的计算系统，所述计算系统包括：

一个或多个处理器；以及

一个或多个非暂时性计算机可读介质，其共同存储：

机器学习面部几何形状预测模型，被配置为基于描述包括语音的音频信号的数据来预测面部几何形状；

机器学习面部纹理预测模型，被配置为基于描述包括语音的音频信号的数据来预测面部纹理；和

指令，当由所述一个或多个处理器执行时，使计算系统执行操作，所述操作包括：

获得描述包括语音的音频信号的数据；

使用所述机器学习面部几何形状预测模型来至少部分地基于描述音频信号的数据而预测面部几何形状；

使用所述机器学习面部纹理预测模型来至少部分地基于描述音频信号的数据而预测所述面部纹理；和

组合面部几何形状与面部纹理以生成三维面部网格模型。

2.根据权利要求1所述的计算系统，其中，所述音频信号包括独立于语音的视觉表示的独立音频信号。

3.根据任一前述权利要求所述的计算系统，其中，描述音频信号的数据包括所述音频信号的频谱图。

4.根据任一前述权利要求所述的计算系统，其中：

至少部分地基于描述音频信号的数据预测的面部几何形状是在与三维网格相关联的归一化三维空间内被预测的；以及

至少部分地基于描述音频信号的数据预测的面部纹理是在与二维纹理图谱相关联的归一化二维空间内被预测的。

5.根据任一前述权利要求所述的计算系统，其中，所述操作还包括：将三维面部网格模型插入到二维目标视频中以生成合成视频。

6.根据权利要求5所述的计算系统，其中，将三维面部网格模型插入到二维目标视频中包括：

获得所述二维目标视频；

检测二维目标视频中的目标面部；

将三维面部网格在目标位置处与目标面部对准；以及

在目标位置处在所述二维目标视频内渲染所述三维面部网格，以生成合成视频。

7.根据权利要求5或6所述的计算系统，其中，将三维面部网格模型插入到二维目标视频中包括：

从二维目标视频生成固定图谱；以及

将固定图谱提供给机器学习的面部纹理预测模型作为代理光照图。

8.根据权利要求6或7所述的计算系统，其中，检测目标面部包括：

使用三维面部检测器来获得视频中的目标面部的姿势和三角形网格；以及

将目标面部分解成与三维网格相关联的三维归一化空间和与二维纹理图谱相关联的二维归一化空间；

其中，至少部分地基于描述音频信号的数据预测的面部几何形状是在与三维网格相关联的所述归一化三维空间内被预测的；并且

其中，至少部分地基于描述音频信号的数据预测的面部纹理是在与二维纹理图谱相关联的所述归一化二维空间内被预测的。

9.根据任一前述权利要求所述的计算系统，其中，所述操作还包括：在三维虚拟环境中渲染三维面部网格。

10.根据任一前述权利要求所述的计算系统，其中，所述音频信号包括记录的人类音频话语或从文本数据生成的合成的文本到语音音频。

11.根据任一前述权利要求所述的计算系统，还包括：对由机器学习面部纹理预测模型预测的面部纹理执行光照归一化。

12.根据任一前述权利要求所述的计算系统，其中，机器学习面部几何形状预测模型和机器学习面部纹理预测模型包括特定于在所述音频信号中包括的语音的说话者的个性化模型。

13.根据任一前述权利要求所述的计算系统，其中，机器学习面部纹理预测模型包括自回归模型，对于多次迭代中的每次迭代，所述自回归模型接收所述机器学习面部纹理预测模型的先前迭代预测作为输入。

14.根据任一前述权利要求所述的计算系统，其中，所述预测的面部纹理包括由机器学习面部纹理预测模型预测的差异图与参考纹理图谱的组合。

15.一种用于学习从训练视频生成三维面部网格的计算机实现的方法，所述方法包括：

由包括一个或多个计算设备的计算系统获得包括视觉数据和音频数据的训练视频，其中视觉数据描绘说话者，并且音频数据包括由说话者发出的语音；

由计算系统将三维面部界标检测器应用于视觉数据，以获得与说话者的面部相关联的三维面部特征；

由计算系统并基于三维面部特征将训练视频投影到参考形状上，以获得训练面部纹理；

由计算系统并使用机器学习面部几何形状预测模型，至少部分地基于描述音频数据的数据来预测面部几何形状；

由计算系统并使用机器学习面部纹理预测模型，至少部分地基于描述音频数据的数据来预测面部纹理；

由计算系统至少部分地基于第一损失项来修改机器学习面部几何形状预测模型的一个或多个参数的一个或多个值，第一损失项将由机器学习面部几何形状预测模型预测的面部几何形状与由三维面部界标检测器生成的三维面部特征进行比较；以及

由计算系统至少部分地基于第二损失项来修改机器学习面部纹理预测模型的一个或多个参数的一个或多个值，第二损失项将由机器学习面部纹理预测模型预测的面部纹理与训练面部纹理进行比较。

16.根据权利要求15所述的计算机实现的方法，还包括：

从所述训练视频生成固定图谱；以及

将固定图谱输入到机器学习面部纹理预测模型中以用作代理光照图。

17.根据权利要求16所述的计算机实现的方法，其中，生成固定图谱包括：

使用固定参考面部坐标将所述训练视频投影到参考形状上；以及

掩蔽对应于眼睛和口腔区域的像素。

18.根据权利要求15-17中任一项所述的计算机实现的方法，其中，机器学习面部纹理预测模型包括自回归模型，对于多次迭代中的每次迭代，所述自回归模型接收机器学习面部纹理预测模型的先前迭代预测作为输入。

19.根据权利要求15-18中任一项所述的计算机实现的方法，其中，所述预测的面部纹理包括由机器学习面部纹理预测模型预测的差异图与参考纹理图谱的组合。

20.一个或多个非暂时性计算机可读介质，存储指令，所述指令在由包括一个或多个计算设备的计算系统执行时使所述计算系统执行操作，所述操作包括：

由计算系统获得包括视觉数据和音频数据的训练视频，其中，视觉数据描绘说话者，并且音频数据包括由说话者发出的语音；

由计算系统评估将由机器学习面部纹理预测模型预测的面部纹理与训练面部纹理进行比较的损失项；以及

由计算系统至少部分地基于所述损失项来修改机器学习面部纹理预测模型的一个或多个参数的一个或多个值。