CN112823380A

CN112823380A - 将数字视频中的口形和动作与替代音频匹配

Info

Publication number: CN112823380A
Application number: CN201980048994.5A
Authority: CN
Inventors: T·斯特拉顿; S·里勒
Original assignee: Warner Bros Entertainment Inc
Current assignee: Warner Bros Entertainment Inc
Priority date: 2018-05-24
Filing date: 2019-05-23
Publication date: 2021-05-18
Also published as: EP3815050B1; US20210150793A1; US11436780B2; EP3815050A1; WO2019226964A1; KR20210048441A; US20230121540A1; EP3815050A4

Abstract

一种用于将数字视频中的口形和动作与替代音频匹配的方法，其包括从源数字视频导出包括演员的口形的面部姿势序列。在面部姿势序列中的每个姿势对应于每个音频样本的中间位置。该方法进一步包括基于面部姿势序列和源数字视频生成动画面部网格、将被跟踪的表情从动画面部网格或目标视频传输到源视频以及生成包括被跟踪的表情的传输的粗略输出视频。该方法进一步包括至少部分地通过使用在动画面部网格或目标视频中的口形上训练的参数化自动编码器来细化粗略视频来生成完成的视频。一台或多台计算机可以执行该方法的操作。

Description

将数字视频中的口形和动作与替代音频匹配

技术领域

本申请涉及数字图像处理，更具体地，涉及用于将数字视频中的口形和动作与替代音频匹配的系统或方法。

背景技术

视频内容的制作者通常希望使用与电影中记录的图像不匹配的录制音频。这可能是由于几个原因造成的，包括，例如，在视频捕获后出于创作原因或法律原因改变对话时，或者在对话以演员在表演期间所说的不同的语言录制以分发给不同的观众时。然而，视频内容的消费者往往会注意到，嘴部动作或口形与口语对话在时间上不匹配。这些品质中的任何一个不匹配都会分散消费者的注意力，减少难以置信的悬念，并且降低对视频内容的享受。

录制视频的每一帧都可以在视频捕获后进行更改，以便演员的嘴部动作与音频轨迹中的伴有的语音和对话更好地对齐。然而，用于更改录制视频的方法过于耗时和昂贵，在大多数版本中都不可行，从而降低了电影和包含与演员的嘴部动作和相关的面部动作不匹配的对话的其他视频内容的吸引力、覆盖范围和盈利能力。任何先前的方法都无法以可行的成本获得足够高的质量，用于电影或其他商业视频内容的分发。由于演员和商业视频中使用的图像捕获参数的多样性，用于训练神经网络和其他机器学习算法的材料很少有足够的数量来消除对话和嘴部动作之间的明显的不匹配，而获得足够的训练视频可能是昂贵的或不可能的。

因此，希望开发新方法和其他新技术，以便在图像和声音的初始捕获之后，将数字视频中的口形和动作与替代音频匹配，从而克服现有技术的这些和其他限制。

发明内容

本发明内容和以下详细说明应解释为整体公开的补充部分，这些部分可以包括冗余主题和/或补充主题。任何章节中的省略都不表示整体应用程序中描述的任何元素的优先级或相对重要性。如从各个公开中显而易见的，各章节之间的差异可以包括替代实施例的补充公开、附加细节或使用不同术语的相同实施例的替代描述。

在本发明的一个方面中，一种用于将数字视频中的口形和动作与替代音频匹配的方法包括从演员出现的源数字视频中导出包括演员的口形在内的面部姿势序列。在形状序列中的每个形状对应于替代音频的每个样本的中间位置。该方法进一步包括基于面部姿势序列和源数字视频生成动画面部网格。可选地，该方法可以包括通过渲染动画面部网格来生成目标视频。该方法进一步包括将被跟踪的表情从动画面部网格或目标视频中的至少一个传输到源视频，并生成包括被跟踪的表情的传输的粗略输出视频。该方法进一步包括至少部分地通过使用在动画面部网格或目标视频中的口形上训练的参数化自动编码器来细化粗略视频，生成完成的视频。一台或多台计算机可以执行该方法的操作。

本文所描述的方法提供一种用于修改电影图像或其他视频的自动过程，使得出现在图像中的人的口形和嘴部动作的时间在伴有与原始视频记录的语音不匹配的音频记录时看起来更自然。这些方法的应用可以包括，例如，在后期制作中改变视频内容的对话、提供经翻译的对话、或在发布后编辑内容以避免由于经改变的文化规范或其他文化多样性因素而犯罪、以避免法律责任、以提高创作影响或出于任何其他原因。

一种用于执行该方法的装置可以包括耦合到存储器和一个或多个端口的至少一个计算机处理器，该一个或多个端口包括至少一个输入端口和至少一个输出端口(例如，台式计算机、膝上型计算机、平板计算机、智能手机、PDA等)。计算机处理器可以包括例如微处理器、微控制器、片上系统或其它处理电路。如本文所使用的，“处理器”指计算机处理器。

为了实现上述及相关目的，一个或多个示例包括下文中充分描述并在权利要求中特别指出的特征。以下描述和附图详细地阐述了某些说明性方面，并且仅指示可采用示例的原理的各种方式中的一些。当结合附图和公开的示例考虑时，从以下详细描述中，其他优点和新颖特征将变得显而易见，其中包含所有这些方面及其等效物。

附图说明

当结合附图时，根据下面阐述的详细描述，本公开的特征、性质和优点将变得更加显而易见，在整个说明书和附图中，相同的附图标记相应地标识相同的元件。

图1是图示将数字视频中的口形和动作与替代音频匹配的概述的示意图。

图2是图示可以使用本申请的新颖方法和装置的计算机网络的示例的框图。

图3是图示用于执行本方法的操作的计算机的示意图。

图4是图示在图像和声音的初始捕获之后用于将数字视频中的口形和动作与替代音频匹配的方法的简明概述的框图。

图5至图8是图示图4所图解的方法的更详细方面的流程图。

图9是图示使用替代措辞的图4的方法和操作的流程图。

图10是图示用于图9所示方法的装置或系统的组件的概念框图。

具体实施方式

现在参考附图描述各个方面。在以下描述中，为了解释的目的，阐述了许多具体细节，以便提供对一个或多个方面的透彻理解。然而，显而易见的是，可以在没有这些具体细节的情况下实践各个方面。在其它实例中，以框图形式示出众所周知的结构和设备以便于描述这些方面和元件的新颖组合。

图1示出通过一个或多个计算机处理器将数字视频中的口形和动作与数字视频中的替代音频100相匹配的概述。如本领域所知，动作通过图像序列在视频中被动画，图像序列可以是摄影的、计算机生成的、手绘的或前述的任何组合。在102处，原始或“输入”场景由数字音频-视频中的音频-视频记录系统记录。所记录的场景包括记录在音频轨道中的演员讲原始台词或即兴演讲(例如，作为对话或独白)的图像。任选地，如果源音频-视频是模拟(例如，胶片)格式，则可以在104处通过模数转换器将模拟记录转换为数字音频-视频。事实上，当前技术的一个用例包括将新译本和对话配音到数字时代之前制作的老电影中。这项技术对于更新的原始数字内容也很有用。在106处，音频记录器记录新的和不同的语音106，制作者希望用场景中所使用的语音替换原始音频。以下三个过程108、110、112将在图4至图9中更详细地描述，并且对应于使演员的嘴部的形状和动作与替换语音匹配的三个基本操作。本技术包括将嘴部动作的形状和时间与所说的单词相匹配，并且不仅限于匹配动作的时间。

在较高的层次上，第一计算机过程108创建面部姿势序列，该面部姿势序列包括当对新语音进行动画时大致同步的口形；换言之，演员的嘴部的经动画的骨骼动画(armature)与期望的替代音频轨道匹配。在一些实施例中，口形可以是稀疏的，并且限于从视频帧提取然后归一化的关键点，其中处理器确定关键点几何以匹配新音频。第二计算机过程110基于姿势序列和用于嘴部动作、面部表情和网格姿势的三组神经网络处理来创建匹配的数字渲染的音频-视频文件的粗略近似。第三计算机过程112使用另一机器学习处理基于讲替换语音的模型的数字渲染的视频或其底层动画网格来细化经修改的帧。处理序列108-110-112输出可以存储在制作数据库中的场景114的音频-视频，用于编辑和编译成视频内容以通过任何合适的信道分发。

图2示出可以使用本申请的新颖方法和装置的计算机网络200。通过局域网、广域网216或其他网络互连的一个或多个数字信号处理器212(例如，服务器场或云)可以执行本文所描述的处理和算法，制作可以从内容服务器220存储和分发的经更改的数字音频-视频。在一些实施例中，使用任何合适的转换过程(例如，数字扫描)将模拟(例如，胶片)内容224转换为数字形式。可通过WAN216和一个或多个无线网络218(例如，蜂窝电话和数据网络)以及一个或多个路由器/调制解调器/热点208将用于处理或传递给消费者的内容从内容服务器220拉出或推送到各种客户端。用于播放经更改的音频-视频内容的客户端可以包括例如智能电话206、个人计算机204、记事本设备202、投影仪210和可穿戴虚拟现实或增强现实设备(未示出)。经更改的音频-视频可以在传递之前被转码成目标设备的适合格式。

参见图3，数字信号处理器300可以包括CPU 302和随机存取存储器(RAM)314，该随机存取存储器保持由处理器300执行和处理的程序指令和数据。当装置300断电或处于非活动状态时，程序指令和数据可以被存储在长期存储器中，例如，非易失性磁、光或电子存储器存储设备316。RAM 314或存储设备316中的一个或两个可以包括保持程序指令的非暂时性计算机可读介质，该程序指令在由处理器302执行时使装置300执行如本文所描述的方法或操作。程序指令可以用任何合适的高级语言编写，例如C、C++、C或java^TM，并编译以产生供处理器执行的机器语言代码。程序指令可以被分组成功能模块，以提高编码效率和可理解性。应当理解，即使这些模块在源代码中可辨别为分区或分组，但在机器级编码中也不一定可区分为单独的代码块。可以将指向特定功能的代码束视为包括模块，而不管该束上的机器代码是否可以独立于其他机器代码执行。装置300的其他组件可以包括例如显示输出330、音频转换器320、用于连接到网络的输入/输出端口308以及用于接收指导本文所描述的过程的启动的用户输入的用户界面设备304。

图4图解一种有用的三过程自动方法400，其用于在视频和音频捕获之后将数字视频中的口形和动作与替代音频匹配。在410处，处理器为源视频中的说话者的嘴部415生成动画骨骼动画状数据结构，其也可以被称为形状序列或稀疏几何序列。严格地说，序列415不是用于动画处理中使用的骨骼动画，而是可映射到骨骼动画的等效数据结构。形状序列可以被优化以在用于生成粗略视频425的以下过程420中使用。在420处，处理器执行复杂的多步骤的自动过程，该过程跟踪从替代音频推断出的表情动画和嘴部形态和动作，并将形态和动作传输到源视频。在一些实施例中，过程420生成具有从替换音频推断出的情感表情的动画面部网格，并将动画网格渲染成参考视频。参考视频也可以被称为目标视频。在其他实施例中，可以在生成替代音频时通过视频记录讲新台词的演员来创建目标视频。然后，在430处，处理器使用由参考视频中的嘴部行动的图像训练的机器学习自动编码器来细化粗略视频425中的嘴部的外观。自动编码器处理430细化嘴部的形状和外观，以更紧密地匹配用于替代音频的参考视频。所得的最终音频-视频剪辑435将失配(误差)降低到大多数或所有观众成员可感知的水平以下，从而实现上文讨论的目标。下面结合图5至图8描述过程410、420和430的进一步细节。

图5图解过程500(410)，用于从期望的替代音频生成包括口形的面部姿势序列，以用于在下游视频处理中使用。过程500借鉴由Karras等人在“Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion”ACM Transactionson Graphics(ACM图形交易，第36卷，第4期，第94条(2017年7月))中更充分解释的图像处理技术中的某些元素。Suwajanakorn等人在“Synthesizing Obama:Learning Lip Sync from Audio”ACM Transactions on Graphics(ACM图形交易，第36卷，第4期，第95条(2017年7月))和Kumar等人在“ObamaNet:Photo-realistic lip-sync from text”31^st Conferenceon Neural Information Processing Systems(第31届神经信息处理系统会议(NIPS2017))中公开了从文本或录制的音频生成口形的替代方法。Karras等人所描述的技术对过程500可以是最有用的，但是其他技术也可以替代。Suwajanakorn等人和Kumar等人的方法不处理面部表情的修改以匹配替代音频，因此，在范围上不如Karras等人所描述的技术全面，但根据应用情况仍然可能有用。

过程500通过采样替代音频502来操作，将其分成连续的连续音频窗口序列，每个音频窗口不到1秒，例如0.5秒。在506处，处理器规范化每个音频窗口的音量，使得替代音频利用所选音频格式的全动态范围(例如，16khz单声道)。将音频输入建模为线性滤波器(声道)和激励信号(声带)的组合，在508处，处理器将谐振频率(格式)分离为线性谐振514，其携带音素信息和可通过线性预测编码(LPC)映射到情感状态的非线性特征510。其他有用的分离过程可以包括例如Mel频率倒谱系数(MFCC)和感知线性预测(PLP)。

处理器应用深度神经网络504来导出语音特征(例如，音素形态)的时变序列518。处理器通过任何有用的模型来参数化512非线性特征，以用于表示演员的情感状态。为了从音频数据中推断情感和面部姿势，Karras等人教导了一种数据驱动的机器学习过程，该过程产生表示演员的情感状态的n维情感向量516，其中“n”大到足以表示在语音期间影响面部表情的情绪状态，但不能太大以至于渲染训练过程对输入过于专业化。情绪状态的手动编码可以提供另一选择，或从其他数据(例如，在参考视频的记录期间收集的非摄影生物测定数据)生成情绪向量。如果使用，可以使用任何有用的方法来导出与在参考视频中的讲台词的演员时间相关的情感数据516。情感状态向量516和对关节映射520的输入的添加使得能够令人信服地使用传达与原始表演不同的情感的替代音频。

处理器将语音特征518和情感向量516输入到用于面部关节的深度神经网络过程520，该深度神经网络过程在每个样本的音频窗口的中心(中点)处输出面部姿势的抽象数字表示。该抽象表示被优化以用于在第三神经网络过程524中使用，该过程524生成用于三维(3D)渲染的顶点的几何网格526。在更有效的替代方案中，由于姿势序列526还不能用作最终输出，处理器可以生成优化用于在下游神经网络处理中使用的其他形状信息(例如，表示嘴部姿势的二维投影或其他映射的2D顶点集)。处理器将姿势网格524以供样本窗口选择的格式保存在计算机存储器中，该计算机存储器具有用于构建可渲染动画模型的序列信息。在530处，处理器检查持续循环的条件；如果期望的姿势序列未完成，则处理器选择下一音频样本532并重复刚才描述的循环。

一旦序列完成，处理器以连续顺序生成并输出532形状序列415，以在下游处理中使用。

参考图6，处理器在过程600(420)中使用形状序列415来跟踪演员讲替换台词的参考视频中的表情动画和嘴部形态和动作，并将形态和动作从参考视频传输到源视频。过程600可以使用Nieβner等人在“Face2Face:Real-time Face Capture and Reenactment ofRGB Videos”(从https://web.stanford.edu/～zollhoef/papers/CVPR2016_Face2Face/paper.pdf下载，斯坦福大学2016)中所描述的某种技术特征。Nieβner等人描述了一种过程，在该过程中，制作者记录或获得传递构成备选视频的台词的演员的视频，并编辑该视频以创建与要修改的原始视频606相关联的目标视频604。处理器将具有形状序列415的这两个输入视频604、606提供给生成参数化面部模型612的参数化操作610。Nieβner等人描述了一个由主成分分析(PCA)生成的具有53000个顶点和102000个面的三维模型。顶点和面的确切数目并不重要。Nieβner等人所描述的PCA过程可以依据要处理的视频的大小和分辨率进行调整。例如，更高分辨率的视频可能需要更高分辨率的模型。在过程600中，形状序列415替换或增强Nieβner等人所描述的面部跟踪。

与Nieβner等人相比，目前的技术不需要演员讲替换台词的视频。相反，参考视频604可以从使用过程500生成的面部姿势的动画序列(形状序列415)渲染602。在替代方案中，可以修改Nieβner等人的过程以使用形状序列415和相关联的元数据用于参数化610，而无需中间渲染步骤602来产生参考视频604。例如，可以从形状序列415而不是从目标视频数据捕获的RGB图像导出参数化的面部模型。无论哪种方式，生成面部姿势序列(而不是雇佣演员和录音演员)，都可以实现对包括特征长度的电影内容的传统视频内容(模拟和数字二者)的更具成本效益的处理。

一旦面部模型被参数化，处理器就执行若干操作来正则化目标视频604和原始视频606之间的任意差异。在614处，处理器调整面部模型的图像参数以匹配原始视频。在616处，处理器对齐经渲染的面部模型的帧，使得经渲染的面部与原始视频中说话的演员的面部处于最接近的可能对齐中。在618处，处理器基于正态分布总体的假设，通过设置用于合成接近总体平均值的面部的参数，统计地正则化面部模型以促进在输出粗略视频中出现的合成面部的合理性。在620处，处理器基于迭代加权最小二乘(IRLS)解算器或其它合适的优化方法使用数据并行GPU来执行面部模型的无约束非线性优化。在622处，处理器捆绑关键帧以在相邻关键帧集上求解优化算法。在624处，处理器将表情从目标视频传输到面部模型。处理器可以使用如Nieβner等人所教导的子空间变形传输技术。在626处，处理器通过找到嘴部的最佳匹配帧，基于如出现在目标视频中的嘴部来合成真实的嘴部区域。Nieβner等人提供了详细的描述。在628处，处理器渲染每个帧的面部模型，并将经渲染的面部模型缝合到其主帧中。经渲染和经缝合的帧被保存为粗略输出视频425。

在创建粗略视频425之后，自动细化过程700准备好由数字信号处理器执行，将演员讲替换台词的粗略视频425和目标视频604作为输入，替换台词具有与原始视频相似的姿势和图像参数。处理器可以使用自动特征来自动裁剪两个视频425、604，以排除除了嘴部、嘴唇以及脸颊、下巴和上唇的相邻部分之外的每个帧的部分。处理器将随机或系统误差712引入从目标视频604创建的图像的训练集716中，并使用训练集716训练机器学习(例如，神经网络)自动编码器714。一旦训练完成718，处理器就通过来自训练过程714的经训练自动编码器830(图8)处理720经裁剪的输入集706。该过程使得自动编码器更改输入集710，如同它和训练集716之间的差异是误差一样。由此，得到的经校正的输入集符合训练集716，并且通过逻辑扩展符合目标视频704。然后，处理器通过对齐经处理的输入集并将经处理的输入集插入722到粗略视频702中作为原始提取的输入集的替换，来生成完成的音频-视频剪辑724。本领域已知各种对齐方法，并且因为经处理的输入集是从其插入的图像中导出的，对齐误差将很小或为零。完成的视频724与经更改的语音非常符合，而所有的处理都是自动的和可行的，无需额外的开销。

图8图示适于生成用于在方法700中使用的经训练的自动编码器830的自动编码训练过程800(714)。自动编码包括对相同内容执行压缩功能和解压缩功能的算法，这些算法1)特定于数据、2)有损、3)从示例中自动学习而不是预定义的。如本文所使用的，“自动编码器”仅包括其中机器学习算法(例如神经网络)执行压缩功能和解压缩功能的模块。截至2018年5月，开源程序“Deepfakes”(https://github.com/deepfakes)是可适于在过程800中使用的自动编码器的示例。

数据专用性意指自动编码器只能处理与其机器学习算法已经训练过的相似的数据。相反，除了要求数据符合为其格式定义的规范外，许多信号处理算法(例如，MP3、MPEG-4、H.264、H.265等)使用与数据无关的预定义的规则集。例如，在面部图像上训练的自动编码器会对汽车图像造成混乱，因为它会通过其训练进行参数化处理，以处理特定于面部的特征。有损意指图像退化-在自动编码过程中发生的一种形式的更改。有损属性使自动编码器能够引入更改以补偿不同的输入。可以对自动编码器进行训练，以将退化降低到人类可感知的水平以下。

自动编码器包括编码功能812和解码功能816，其特征在于定义压缩后的输入数据和自动编码器的解压缩输出之间的信息损失的距离函数(未示出)。距离函数也可以称为“损失”或“误差”函数。损失函数可以包括例如输入图像的输入和输出像素之间的均方误差。编码器812和解码器816是参数函数，例如，相对于其距离函数可区分的神经网络。因此，可以并且应该使用任何合适的误差最小化方法(例如随机梯度下降)对自动编码器进行参数化以最小化处理损失。

自动编码过程800可以如下操作。在使用之前，通过基于训练集802的机器学习对自动编码器进行参数化(意指配置其参数)，训练集802可以包括针对目标视频604的每个帧或所选帧的一组图像。如上面结合图7所描述的，输入图像可以被裁剪成仅包含说话者的嘴部的图像。自动过程可以从每个目标图像804生成一个或多个经更改的图像806、808、810，从而引入随机和/或系统失真，这些失真可以在形式和比例上近似出现在粗略视频425和目标视频804中的口形和动作之间的类似差异。自动编码过程800处理每个经更改的输入图像并调整其参数以最小化目标图像和对应经更改的输入图像之间的误差。参数编码器812压缩经更改的图像(例如，依次输入1到N 806、808、810)，从而为每个输入图像创建压缩图像814。参数解码器816对压缩图像814进行解压缩，从而创建输出图像818。

误差测量和最小化过程820测量目标图像804和输出图像818之间的距离(误差或损失)。除非并且直到误差降到阈值以下，否则将以形式参数调整误差反馈提供给编码812和解码816处理，并且重新处理输入图像。在误差最小化之后，过程800可以在其训练集824中拾取下一图像并重复刚才描述的处理。发生类似的重复直到训练集中的所有图像都被处理826。然后，将自动编码器的参数保存为适当的文件格式830，并且自动编码器830准备好用于上面结合图7描述的过程700中使用。

根据前述，并且作为附加示例，图9示出根据一个实施例的一种或多种方法900的更一般方面，如可以由适于机器学习和数字信号处理(包括数字音频和视频)的计算机执行的。应当理解，方法900的更一般的操作可以包括或体现上文所描述的相应方法的更详细方面。

参考图9，用于在视频和音频捕获之后将数字视频中的口形和动作与替代音频匹配的计算机实现的方法900可以包括：在910处，由至少一个计算机处理器从源数字视频导出包括演员的口形的面部姿势序列，在源数字视频中演员出现，其中面部姿势序列中的每个姿势对应于每个样本的中间位置。如本文所使用的，“中间位置”包括中点和偏向中点的相邻点。虽然中点被认为是最佳的，但附近的位置也可能提供有用的结果。该方法可以进一步包括：在920处，由至少一个处理器基于面部姿势序列和源数字视频生成动画面部网格。在一些实施例中，该方法可以包括从动画面部网格生成目标视频，动画面部网格以粗略对齐和与源视频的照片对应的方式描绘网格的面部表情。该方法可以进一步包括：在930处，由至少一个处理器将被跟踪的表情从动画面部网格或目标视频中的至少一个传输到源视频，并生成包括被跟踪的表情的传输的粗略输出视频。结合上面的图6示出和描述操作920和930的更详细描述。该方法可以进一步包括由至少一个处理器至少部分地通过使用在目标视频中的口形上训练的参数化自动编码器来细化粗略视频，生成完成的视频。

至少一个处理器可以执行附加操作，例如在非暂时性计算机可读介质中对完成的视频和音频进行编码以用于存储和分发，或者执行附加操作，并结合图4至图8或者随后下面所描述的。在该方法的每个实施例中不一定执行这些附加操作中的每一个，并且任何一个操作的存在不一定要求也执行这些附加操作中的任何其他操作。所有操作都是由计算机处理器在计算机存储器中编码的一个或多个算法或程序的控制下自动执行的。

在一个方面中，生成面部姿势序列可以进一步包括对从语音对话记录中获取的音频样本序列进行采样。在一些实施例中，生成面部姿势序列可以包括使用文本转语音合成器将文本转换为语音。

此外，生成面部姿势序列可以进一步包括从演员的图像中提取面部姿势的关键点、规范化关键点以及对规范化的关键点应用主成分分析(PCA)来导出面部姿势。生成面部姿势序列可以进一步包括导出每个样本的mel频率倒谱系数(MFCC)，并使用递归神经网络将每个MFCC系数映射到口形中的一个。

在上面结合图5描述的其他实施例中，生成口形序列可以进一步包括：将线性特征与非线性特征分离，通过使用深度神经网络处理线性特征以进行格式分析来生成语音特征的时变序列，以及通过利用深度神经网络对面部关节的非线性特征进行处理，生成处于中间位置处的脸部姿势。在相关方面中，生成包括口形的面部姿势序列可以进一步包括：通过深度神经网络生成顶点定义的面部姿势以用于输出，并将该姿势保存在面部姿势序列中。

在其他实施例中，如图6所示和所描述的，将被跟踪的表情从目标视频传输到源视频可以进一步合成嘴部区域并渲染粗略输出视频的每一帧。

在另一方面，如结合图7所示和描述的，使用在目标视频中的口形上训练的参数化自动编码器来细化粗略视频可以进一步包括通过随机更改目标集中的帧来生成用于自动编码器的训练集。使用在目标视频中的口形上训练的参数化自动编码器来细化粗略视频可以进一步包括裁剪粗略输出视频和演员嘴部周围的目标视频的相应区域。在相关方面中，使用在目标视频中的口形上训练的参数化自动编码器来细化粗略视频可以进一步包括将来自目标视频的经处理图像对齐并插入到粗略输出视频中。

图10是图示根据一个实施例的用于在如本文所述的音频-视频捕获之后同步更改的语音和嘴部动作的装置或系统1000的组件的概念框图。如图所描绘的，装置或系统1000可以包括可表示由处理器、软件或其组合(例如固件)实现的功能的功能框。

如图10所图示的，装置或系统1000可以包括用于从演员出现的源数字视频中导出包括演员的口形的面部姿势序列的电气组件1002，其中面部姿势序列中的每个姿势对应于每个样本的中间位置。组件1002可以是或可以包括用于所述导出的器件。所述器件可以包括耦合到存储器1016和输入设备1014的处理器1010，处理器基于存储在存储器中的程序指令执行算法。例如，如上面结合图5所描述的，这种算法可以包括更详细的操作序列。

装置或系统1000可以进一步包括用于基于面部姿势序列和源数字视频生成动画面部网格的电气组件1003。组件1003可以是或可以包括用于所述网格生成的器件。所述器件可以包括耦合到存储器1016和输入设备1014的处理器1010，处理器基于存储在存储器中的程序指令执行算法。例如，如结合图6的框602所描述的，这种算法可以包括一系列更详细的操作。如图6的612处所描述的，处理器可以在参数化面部模型之前或之后渲染目标视频。

装置或系统1000可以进一步包括用于部分基于几何面部模型将被跟踪的表情从动画面部网格或目标视频中的至少一个传输到源视频，并生成包括被跟踪的表情的传输的粗略输出视频的电气组件1004。组件1004可以是或可以包括用于所述传输和生成的器件。所述器件可以包括耦合到存储器1016和输入设备1014的处理器1010，处理器基于存储在存储器中的程序指令执行算法。例如，如结合图6的框624至框628所示和描述的，这种算法可以包括更详细的操作序列。

装置或系统1000可以进一步包括用于至少部分地通过使用在动画面部网格或目标视频中的口形上训练的参数化自动编码器来细化粗略视频，生成完成的视频的电气组件1006。组件1006可以是或可以包括用于所述生成的器件。所述器件可以包括耦合到存储器1016和输入设备1014的处理器1010，处理器基于存储在存储器中的程序指令执行算法。例如，如结合图7和图8所示和描述的，这种算法可以包括更详细的操作序列，其中图7示出了自动编码器的应用，用于细化经更改的视频的嘴部部分，并且图8示出了有用的自动编码器的方面和操作。

在装置1000被配置为数字信号处理器的情况下，装置1000可以可选地包括具有至少一个处理器的处理器模块1010。在这种情况下，处理器1010可以经由总线1012或其它通信耦合(例如，网络)与模块1002-1006进行可操作通信。处理器1010可以发起和调度由电气组件1002-1006执行的功能。

在相关方面中，装置1000可以包括网络接口模块1014，其可操作用于通过计算机网络与存储设备进行通信。在进一步的相关方面中，装置1000可以任选地包括用于存储信息的模块，例如，存储器设备/模块1016。计算机可读介质或存储器模块1016可以经由总线1012等可操作地耦合到装置1000的其他组件。存储器模块1016可适于存储计算机可读指令和数据，以实现模块1002-1006及其子组件、或处理器1010、或方法400-800或结合方法900描述的一个或多个附加操作的过程和行为。存储器模块1016可以保留用于执行与模块1002-1006相关联的功能的指令。虽然模块1002-1006被示出为在存储器1016的外部，但是应当理解，模块1002-1006可以存在于存储器1016内。

本领域技术人员将进一步了解，结合本文公开的方面描述的各种说明性逻辑框、模块、电路和算法步骤可以实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，上文已经在其功能方面大体描述了各种说明性组件、框、模块、电路和步骤。这些功能是作为硬件实现还是作为软件实现取决于施加在整个系统上的应用和设计约束。本领域技术人员可以针对每个应用以不同的方式实现所描述的功能，但是这种实现决策不应被解释为导致脱离本公开的范围。

如本申请中使用的，术语“组件”、“模块”、“系统”等旨在指代计算机相关实体、硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机或协同计算机系统。举例来说，在服务器上运行的应用和服务器都可以是组件。一个或多个组件可以驻留在进程和/或执行线程中，并且组件可以位于一台计算机上和/或分布在两台或多台计算机之间。

将根据可能包括若干组件、模块等的系统来呈现各个方面。应当理解和了解，各种系统可以包括附加组件、模块等和/或可以不包括结合附图讨论的所有组件、模块等。也可以使用这些方法的组合。本文公开的各个方面可以在包括利用触摸屏显示技术和/或鼠标和键盘类型接口的设备的电气设备上执行。此类设备的示例包括计算机(台式机和移动设备)、智能电话、个人数字助理(PDA)和其他有线和无线电子设备。

另外，结合本文公开的方面描述的各种说明性逻辑框、模块和电路可以使用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、分立门或晶体管逻辑、分立硬件组件或被设计为执行本文所描述的功能的其任何组合来实现或执行。通用处理器可以是微处理器，但是在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP核心结合的一个或多个微处理器，或者任何其他这样的配置。

本文公开的操作方面可以直接体现在硬件、由处理器执行的软件模块或两者的组合中。软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域已知的任何其它形式的存储介质中。示例性存储介质耦合到处理器，使得处理器可以从存储介质读取信息和向存储介质写入信息。在替代方案中，存储介质可以集成到处理器。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替代方案中，处理器和存储介质可以作为离散组件驻留在用户终端中。

此外，可以使用标准编程和/或工程技术来产生软件、固件、硬件或其任何组合来控制计算机，从而将一个或多个版本可以实现为方法、装置或制品，以实现所公开的方面。非暂时性计算机可读介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条……)、光盘(例如，光盘(CD)、数字多功能盘(DVD)、BluRay^TM……)、智能卡、固态设备(SSD)和闪存设备(如卡、棒)。当然，本领域技术人员将认识到，在不脱离所公开方面的范围的情况下，可以对该配置进行许多修改。

提供对所公开方面的先前描述是为了使本领域技术人员能够制作或使用本公开。对这些方面的各种修改对于本领域技术人员将是显而易见的，并且在不脱离本公开的精神或范围的情况下，本文中定义的一般原理可以应用于其他实施例。因此，本公开并不旨在限于本文所示的实施例，而是被赋予与本文所公开的原理和新颖特征一致的最宽范围。

鉴于上文所述的示例性系统，已参考若干流程图描述了可根据所公开主题实施的方法。尽管为了简单解释的目的，方法被示出并描述为一系列框，但是应当理解和了解，因为一些框可以不同的顺序出现和/或与本文所描绘和描述的其他框同时出现，所要求保护的主题不受这些框的顺序的限制。此外，实现本文所描述的方法，并非需要所有图示的框。此外，应当进一步了解，本文所公开的方法能够存储在制品上以便于将这些方法传递和传输到计算机。

Claims

1.一种用于将数字视频中的口形和动作与替代音频匹配的方法，所述方法包括：

从源数字视频导出包括演员的口形的面部姿势序列，其中所述面部姿势序列中的每个姿势对应于所述替代音频的每个样本的中间位置；

基于所述面部姿势序列和所述源数字视频生成动画面部网格；

将被跟踪的表情从所述动画面部网格或从其渲染的目标视频中的至少一个传输到所述源视频并且生成包括所述被跟踪的表情的传输的粗略输出视频；以及

至少部分地通过使用在所述动画面部网格或所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频，生成完成的视频。

2.根据权利要求1所述的方法，其中生成所述面部姿势序列包括对从语音对话记录中获取的音频样本序列进行采样。

3.根据权利要求2所述的方法，其中生成所述面部姿势序列包括使用文本转语音合成器将文本转换为语音。

4.根据权利要求3所述的方法，其中生成所述面部姿势序列进一步包括从所述演员的图像中提取所述口形的关键点、对所述关键点进行归一化，并对归一化的关键点应用主成分分析即PCA来导出所述口形。

5.根据权利要求4所述的方法，其中生成所述面部姿势序列进一步包括导出每个所述样本的mel频率倒谱系数即MFCC，并使用递归神经网络将每个MFCC系数映射到所述口形中的一个。

6.根据权利要求2所述的方法，其中生成所述面部姿势序列进一步包括：将线性特征与非线性特征分离，通过使用深度神经网络处理所述线性特征以进行格式分析来生成语音特征的时变序列，以及利用深度神经网络对面部关节的所述非线性特征进行处理，生成在所述中间位置处的面部姿势。

7.根据权利要求6所述的方法，其中生成所述面部姿势序列进一步包括通过深度神经网络生成顶点定义的面部姿势以用于输出，和将所述姿势保存在所述面部姿势序列中。

8.根据权利要求1所述的方法，其中将被跟踪的表情从所述目标视频传输到所述源视频进一步包括合成所述嘴部区域并渲染所述粗略输出视频的每一帧。

9.根据权利要求1所述的方法，其中使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频进一步包括通过随机更改在所述目标集中的帧来生成用于所述自动编码器的训练集。

10.根据权利要求1所述的方法，其中使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频进一步包括在所述演员的嘴部周围裁剪所述粗略输出视频和所述目标视频的相应区域。

11.根据权利要求1所述的方法，其中使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频进一步包括将来自所述目标视频的经处理图像对齐并插入到所述粗略输出视频中。

12.根据权利要求1所述的方法，进一步包括从所述动画面部网格渲染目标视频，其中传输所述被跟踪的表情包括将所述表情从所述目标视频传输到所述源视频。

13.一种用于将数字视频中的口形和动作与替代音频匹配的装置，所述装置包括耦合到计算机存储器的处理器，所述存储器保持程序指令，当由所述处理器执行所述程序指令时，使所述装置执行：

将被跟踪的表情从动画面部网格或从其渲染的目标视频中的至少一个传输到所述源视频，并生成包括所述被跟踪的表情的传输的粗略输出视频；以及

14.根据权利要求13所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过对从语音对话记录中获取的音频样本序列进行采样来生成所述面部姿势序列。

15.根据权利要求14所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过使用文本转语音合成器将文本转换为语音来生成所述面部姿势序列。

16.根据权利要求15所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过从所述演员的图像中提取用于所述口形的关键点、归一化所述关键点以及将主成分分析即PCA应用于归一化的关键点来导出所述口形，来生成所述面部姿势序列。

17.根据权利要求16所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过导出每个所述样本的mel频率倒谱系数即MFCC并使用递归神经网络将每个MFCC系数映射到所述口形中的一个，来生成所述面部姿势序列。

18.根据权利要求13所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过将线性特征与非线性特征分离来生成所述面部姿势序列，通过使用深度神经网络处理所述线性特征以进行格式分析来生成语音特征的时变序列，以及利用深度神经网络通过对面部关节的所述非线性特征进行处理来生成在所述中间位置处的面部姿势。

19.根据权利要求18所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过深度神经网络生成顶点定义的面部姿势以用于输出和将所述姿势保存在所述面部姿势序列中，来生成所述面部姿势序列。

20.根据权利要求12所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过合成所述嘴部区域和渲染所述粗略输出视频的每帧来将被跟踪的表情从所述目标视频传输到所述源视频。

21.根据权利要求12所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过对所述目标集中的帧的随机更改来为所述自动编码器生成训练集，使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频。

22.根据权利要求12所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过裁剪所述粗略输出视频和所述演员嘴部周围的所述目标视频的相应区域，使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频。

23.根据权利要求12所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过将来自所述目标视频的经处理图像对齐并插入到所述粗略输出视频中，使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频。

24.根据权利要求12所述的装置，其中所述存储器保持用于以下操作的进一步指令：从所述动画面部网格渲染目标视频，其中传输所述被跟踪的表情包括将所述表情从所述目标视频传输到所述源视频。

25.一种非暂时性计算机可读介质，其用于将数字视频中的口形和动作与使用程序指令编码的替代音频相匹配，当所述程序指令由计算机执行时，使所述计算机执行：

从源数字视频导出包括演员的口形的面部姿势序列，其中在所述面部姿势序列中的每个姿势对应于所述替代音频的每个样本的中间位置；

将被跟踪的表情从动画面部网格或从其渲染的目标视频中的至少一个传输到所述源视频，并生成包括被跟踪的表情的传输的粗略输出视频；以及

26.一种用于将数字视频中的口形和动作与替代音频匹配的装置，其包括：

用于从源数字视频导出包括演员的口形的面部姿势序列的器件，其中所述面部姿势序列中的每个姿势对应于所述替代音频的每个样本的中间位置；

用于基于所述面部姿势序列和所述源数字视频生成动画面部网格的器件；

用于将被跟踪的表情从动画面部网格或从其渲染的目标视频中的至少一个传输到所述源视频并生成包括所述被跟踪的表情的传输的粗略输出视频的器件；以及

用于至少部分地通过使用在所述动画面部网格或所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频来生成完成的视频的器件。