CN113272870A

CN113272870A - 用于逼真的实时人像动画的系统和方法

Info

Publication number: CN113272870A
Application number: CN202080007510.5A
Authority: CN
Inventors: 尤金·克罗哈列夫; 亚历山大·马什拉博夫; 帕维尔·萨夫琴科夫
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2019-01-18
Filing date: 2020-01-18
Publication date: 2021-08-17
Anticipated expiration: 2040-01-18
Also published as: US20220284654A1; CN119963707A; US11049310B2; US12277640B2; US20200234482A1; US11995758B2; CN113272870B; US11568589B2; US20230110916A1; CN119963705A; US11393152B2; WO2020150687A1; US20240296614A1; CN119963704A; US20210327117A1; CN119963706A; KR102616010B1; KR20230173217A; KR20210120014A; KR20230173218A

Abstract

提供了用于逼真的实时人像动画的系统和方法。一种示例性方法包括接收具有至少一个输入帧的场景视频。输入帧包括第一面部。该方法进一步包括接收具有第二面部的目标图像。该方法进一步包括基于至少一个输入帧和目标图像确定二维(2D)变形，其中，2D变形在被应用于第二面部时，修改第二面部以模仿第一面部的至少面部表情和头部方向。该方法进一步包括通过计算设备将2D变形应用于目标图像以获得输出视频的至少一个输出帧。

Description

用于逼真的实时人像动画的系统和方法

技术领域

本公开总体上涉及数字图像处理。更具体地，本公开涉及用于逼真的实时人像动画的方法和系统。

背景技术

人像动画可以用于许多应用中，诸如娱乐节目、计算机游戏、视频对话、虚拟现实、增强现实等。

用于人像动画的一些当前技术利用可形变的面部模型来重新渲染具有不同面部表情的面部。尽管使用可形变的面部模型生成面部可以速度很快，但是所得到的面部通常不是逼真的的。用于人像动画的一些其他当前技术可以基于使用深度学习方法来重新渲染具有不同面部表情的面部。

深度学习方法可以允许获得逼真的结果。然而，深度学习方法较耗时，不适合于在标准移动设备上执行实时人像动画。

发明内容

提供本章节以简化的形式介绍一些概念，这些概念将在下面的具体实施方式章节中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

根据本公开的一个实施例，提供了一种用于逼真的实时人像动画的方法。该方法可以包括通过计算设备接收场景视频。场景视频可以包括至少一个输入帧。至少一个输入帧可以包括第一面部。该方法可以进一步包括通过计算设备接收目标图像。目标图像可以包括第二面部。该方法可以进一步包括：通过计算设备并且基于至少一个输入帧和目标图像确定二维(2D)变形，其中，2D变形在被应用于第二面部时，修改第二面部以模仿第一面部的至少面部表情和头部方向。该方法可以进一步包括通过计算设备将2D变形应用于目标图像以获得输出视频的至少一个输出帧。

在一些实施例中，该方法可以进一步包括：在应用2D变形之前，通过计算设备并且使用深度神经网络(DNN)来执行对目标图像的分割以获得第二面部的图像和背景。可以将2D变形应用于第二面部的图像，以获得变形的面部，同时保持背景不变。

在一些实施例中，该方法可以进一步包括：在应用2D变形后，通过计算设备将变形的面部插入背景中。该方法可以进一步包括：通过计算设备并且使用DNN来预测在变形的面部与背景之间的间隙中的背景的一部分。该方法可以进一步允许通过计算设备用所预测的部分填充间隙。

在一些实施例中，确定2D变形可以包括通过计算设备确定在第一面部上的第一控制点和在第二面部上的第二控制点。该方法可以进一步包括通过计算设备定义用于将第一控制点与第二控制点对准的2D变形或仿射变换。

在一些实施例中，确定2D变形可以包括通过计算设备建立第二控制点的三角剖分。确定2D变形可以进一步包括通过计算设备确定第一控制点在至少一个输入帧中的位移。确定2D变形可以进一步包括通过计算设备并且使用仿射变换来将该位移投影到目标图像上，以获得第二控制点的期望位移。确定2D变形可以进一步包括通过计算设备并且基于期望位移确定将被用作2D变形的翘曲场。

在一些实施例中，翘曲场包括由第二控制点的三角剖分中的三角形变化限定的一组分段线性变换。

在一些实施例中，该方法可以进一步包括通过计算设备生成嘴部区域和眼部区域。该方法可以进一步包括通过计算设备将嘴部区域和眼部区域插入到至少一个输出帧中。

在一些实施例中，生成嘴部区域和眼部区域中的一者包括通过计算设备从第一面部转移嘴部区域和眼部区域。

在一些实施例中，生成嘴部区域和眼部区域可以包括通过计算设备将三维(3D)面部模型拟合到第一控制点以获得第一组参数。第一组参数可以包括至少第一面部表情。生成嘴部区域和眼部区域中的一者可以进一步包括通过计算设备将3D面部模型拟合到第二控制点以获得第二组参数。第二组参数可以包括至少第二面部表情。来自第一组参数的第一面部表情可以被转移到第二组参数。生成嘴部区域和眼部区域可以进一步包括：通过计算设备并且使用3D面部模型来合成嘴部区域和眼部区域中的一者。

根据另一实施例，提供了一种用于逼真的实时人像动画的系统。该系统可以包括至少一个处理器和存储处理器可执行代码的存储器，其中，该至少一个处理器可以被配置为在执行处理器可执行代码时实现上述用于逼真的实时人像动画的方法的操作。

根据本公开的又一方面，提供了一种非暂时性处理器可读介质，其存储处理器可读指令。处理器可读指令当由处理器执行时，使处理器实现上述用于逼真的实时人像动画的方法。

实施例的其他目的、优点和新颖特征将在下面的描述中部分阐述，并且部分内容通过阅读以下描述和附图，对于本领域技术人员将变得显而易见，或者可以通过示例的生产或操作来学习。可以通过在所附权利要求中特别指出的方法、手段和组合来实现和获得构思的目的和优点。

附图说明

在附图的各图中，通过示例而非限制的方式示出了实施例，在附图中类似的附图标记指示相似的元件。

图1是示出其中可以实现用于人像动画的方法的示例性环境的框图。

图2是示出用于实现用于人像动画的方法的计算设备的示例性实施例的框图。

图3是示出根据示例性实施例的人像动画的示例性过程的示意图。

图4示出了根据示例性实施例的用于人像动画的系统的框图。

图5示出了根据一些示例性实施例的用于人像动画的方法的过程流程图。

图6示出了根据一些示例性实施例的用于人像动画的方法的过程流程图。

图7示出了可以用于实现用于人像动画的方法的示例性计算机系统。

图8是用于背景预测的示例性深度神经网络(DNN)的框图。

图9是DNN中的示例性压缩卷积块的框图。

图10是DNN中的示例性解压缩卷积块的框图。

图11是DNN中的示例性关注块的框图。

图12是DNN的学习方案的框图。

图13是示例性鉴别器网络的框图。

具体实施方式

实施例的以下具体实施方式包括对附图的参考，附图构成了具体实施方式的一部分。在本章节中描述的方法并非权利要求的现有技术，并且也不通过包含在本章节中而被认为是现有技术。附图示出了根据示例性实施例的图示。这些示例性实施例在本文中也称为“示例”，其被足够详细地描述以使本领域技术人员能够实践本主题。在不脱离所要求保护的范围的情况下，可以组合实施例、可以利用其他实施例，或者可以进行结构、逻辑和操作上的改变。因此，以下具体实施方式不应被理解为限制性的，并且范围由所附权利要求及其等同物限定。

可以使用各种技术来实现本公开。例如，本文描述的方法可以由在计算机系统上运行的软件和/或由利用微处理器的组合或其他专门设计的专用集成电路(ASIC)、可编程逻辑设备的硬件或其任意组合来实现。具体地，本文描述的方法可以通过驻留在诸如磁盘驱动器或计算机可读介质的非暂时性存储介质上的一系列计算机可执行指令来实现。应当注意，本文公开的方法可以通过诸如移动设备、个人计算机、服务器、网络节点等的计算设备来实现。

出于本专利文件的目的，除非另有说明或在使用其的上下文中另有明确说明，术语“或”和“和”应表示“和/或”。除非另有说明或在使用“一个或多个”明显不合适的情况下，术语“一个”应表示“一个或多个”。术语“包含(comprise)”、“包含(comprising)”、“包括(include)”和“包括(including)”是可互换的，并且不意图作为限制性的。例如，术语“包括”应解释为表示“包括但不限于”。

本公开涉及用于人像动画的方法和系统。本公开可以被设计为实时地并且在不连接到互联网或不需要使用服务器侧计算资源的情况下在诸如智能电话、平板计算机或移动电话的移动设备上工作，然而实施例也可以扩展到涉及网页服务或基于云的资源的方法。

本公开的一些实施例可以允许具有目标面部的目标图像的动画。可以通过源面部的面部表情实时操纵目标面部。一些实施例可以用于显著减少逼真的人像动画的计算时间。本公开的实施例仅需要单个目标图像来实现真实感的结果，而现有的面部动画技术通常使用目标面部的视频或一系列图像。

本公开的一些实施例可以允许使用源视频的3D模型来生成由3D面部的变化引起的2D变形场，并将2D变形直接应用于目标图像。本公开的实施例可以允许在移动设备上实现用于逼真的实时人像动画并实时执行动画的方法。相比之下，其他编辑3D面部属性的方法需要精确的分割和纹理映射，因此非常耗时。

本公开的实施例可以允许用户创建场景，从而使得用户仅需要指示用户想要在目标面部上看到的表情、动作等。例如，可以从以下列表中选择表情和动作：皱眉、微笑、向下看等。

根据本公开的一个实施例，一种用于人像动画的示例性方法可以包括通过计算设备接收场景视频。场景视频可以包括至少一个输入帧。至少一个输入帧可以包括第一面部。该方法可以进一步包括通过计算设备接收目标图像。目标图像可以包括第二面部。该方法可以进一步包括：通过计算设备并且基于至少一个输入帧和目标图像确定二维(2D)变形，其中，2D变形在被应用于第二面部时，修改第二面部以模仿第一面部的至少面部表情和头部方向。该方法可以包括通过计算设备将2D变形应用于目标图像以获得输出视频的至少一个输出帧。

现在参考附图，对示例性实施例进行描述。附图是理想化示例性实施例的示意图。因此，对于本领域技术人员显而易见的是，本文中讨论的示例性实施例不应被理解为限于本文中呈现的特定图示，而是这些示例性实施例可以包括偏差并且与本文中呈现的图示不同。

图1示出了示例性环境100，其中可以实践用于人像动画的方法。环境100可以包括计算设备110和用户130。计算设备110可以包括相机115和图形显示系统120。计算设备110可以指诸如移动电话、智能电话或平板计算机的移动设备。然而，在其他实施例中，计算设备110可以指个人计算机、膝上型计算机、上网本、机顶盒、电视设备、多媒体设备、个人数字助理、游戏控制台、娱乐系统、信息娱乐系统、车辆计算机或任何其他计算设备。

在某些实施例中，计算设备110可以被配置为经由例如相机115捕获场景视频。场景视频可以至少包括用户130的面部(也称为源面部)。在一些其他实施例中，场景视频可以被存储在计算设备110的存储器中或者存储在与计算设备110通信连接的基于云的计算资源中。场景视频可以包括的人的视频，例如用户130或其他人，其可以讲话、摇头和表达各种情绪。

在本公开的一些实施例中，计算设备110可以被配置为显示目标图像125。目标图像125可以至少包括目标面部140和背景145。目标面部140可以属于除了用户130之外的人或者场景视频中所描绘的其他人。在一些实施例中，目标图像125可以被存储在计算设备110的存储器中或与计算设备110通信连接的基于云的计算资源中。

在其他实施例中，可以将不同的场景视频和目标图像预先记录并存储在计算设备110的存储器中或基于云的计算资源中。用户130可以选择要被动画处理的目标图像以及要用来对目标图像进行动画处理的场景视频之一。

根据本公开的各种实施例，计算设备110可以被配置为分析场景视频以提取场景视频中描绘的人的面部表情和动作。计算设备110可以进一步被配置为将人的面部表情和动作转移到目标图像125中的目标面部，以使目标面部140实时地并以相片真实感的方式重复场景视频中人的面部表情和动作。在其他实施例中，计算设备可以进一步被配置为修改目标图像125以使目标面部140重复场景视频中描绘的人的讲话。

在图2所示的示例中，计算设备110可以包括硬件组件和软件组件。具体地，计算设备110可以包括照相机115或任何其他图像捕获设备或扫描仪以采集数字图像。计算设备110可以进一步包括处理器模块210和存储模块215，以用于存储软件组件和处理器可读(机器可读)指令或代码，当由处理器模块210执行时，这些指令或代码使计算设备200执行如本文所述的用于人像动画的方法的至少一些步骤。

计算设备110可以进一步包括人像动画系统220，其继而可以包括硬件组件(例如，单独的处理模块和存储器)、软件组件或它们的组合。

如图3所示，人像动画系统220可以被配置为接收目标图像125和场景视频310作为输入。目标图像125可以包括目标面部140和背景145。场景视频310可以描绘可以说话、移动头部和表达情感的人320的至少头部和面部。人像动画系统220可以被配置为分析场景视频310的帧以确定人320的面部表情(情绪)和头部动作。人像动画系统可以进一步被配置为通过将人320的面部表情和头部动作转移到目标面部140来改变目标图像125，并由此获得输出视频330的帧。可以针对场景视频310的每个帧重复对人320的面部表情和头部动作的确定以及将面部表情和头部动作转移到目标面部125。输出视频330可以包括与场景视频310相同数量的帧。由此，输出视频330可以表示目标图像125的动画。在一些实施例中，可以通过执行目标图像125的2D变形来实现动画，其中，2D变形模仿面部表情和头部动作。在一些实施例中，可以在2D变形之后生成隐藏区域和精细尺度的细节，以实现相片真实感的结果。隐藏区域可以包括目标面部140的嘴部区域。

图4是根据一个示例性实施例的人像动画系统220的框图。人像动画系统220可以包括3D面部模型405、稀疏对应模块410、场景视频预处理模块415、目标图像预处理模块420、图像分割和背景预测模块425以及图像动画和细化模块430。模块405至430可以被实现为与诸如计算设备110、服务器等的硬件设备一起使用的软件组件。

在本公开的一些实施例中，可以基于预定义数量的不同年龄、性别和种族背景的个体的图像来预先生成3D面部模型405。对于每个个体，图像可以包括具有中性面部表情的个体的图像和具有不同面部表情的个体的一个或多个图像。面部表情可以包括张开嘴部、微笑、生气、惊讶等。

3D面部模型405可以包括具有预定数量的顶点的模板网格。模板网格可以表示为定义头部形状的3D三角剖分。每个个体都可以与特定于个体的混合形状相关联。可以根据模板网络调整特定于个体的混合形状。特定于个体的混合形状可以对应于模板网格中的顶点的特定坐标。因此，个体的不同图像可以对应于具有相同结构的模板网格；然而，模板网格中顶点的坐标对于不同的图像是不同的。

在本公开的一些实施例中，3D面部模型405可以包括双线性面部模型，其取决于两个参数：面部标识和面部表情。双线性面部模型可以基于与个体的图像相对应的混合形状来建立。因此，3D面部模型包括具有预定结构的模板网格，其中顶点的坐标取决于面部标识和面部表情。面部标识可以表示头部的几何形状。

在一些实施例中，稀疏对应模块410可以被配置为确定场景视频310帧与目标图像125的帧之间的稀疏对应。稀疏对应模块410可以被配置为获得一组控制点(面部界标)，可以通过场景视频对它们进行鲁棒地跟踪。可以使用最新的跟踪方法(例如光流)来跟踪面部界标和其他控制点。稀疏对应模块410可以被配置为确定仿射变换，该仿射变换近似对准场景视频310的第一帧中和目标图像125中的面部界标。仿射变换可以进一步用于预测目标图像125中其他控制点的位置。稀疏对应模块410可以进一步被配置为建立控制点的三角剖分。

在一些实施例中，场景视频预处理模块415可以被配置为检测场景视频310的每个帧中的2D面部界标。场景视频预处理模块415可以被配置为将3D面部模型405拟合到面部界标，以为场景视频310中描绘的人找到3D面部模型405的参数。场景视频预处理模块415可以被配置为确定2D面部界标在3D面部模型的模板网格上的位置。可以假定面部标识对于场景视频310的所有帧都是相同的。模块415可以进一步被配置为针对场景视频310的每个帧来近似3D面部参数的结果变化。场景视频预处理模块415可以被配置为接收手动注释并将注释添加到帧的参数。在一些实施例中，可以使用第三方动画和建模应用程序(诸如MayaTM)进行注释。模块415可以进一步被配置为在场景视频310的每个帧中选择控制点并跟踪控制点的位置。在某些实施例中，模块415可以被配置为在场景视频310的每个帧中执行对嘴内部的分割。

在一些实施例中，目标图像预处理模块420可以被配置为检测目标图像125中的头部的2D面部界标和头部的可见部分，并将3D面部模型拟合到目标图像125的头部中的2D面部界标和头部的可见部分。目标图像可以包括目标面部。目标面部可能没有中性的面部表情、眼睛闭上或嘴部张开，并且目标图像上描绘的人的年龄可能与场景视频310中描绘的人的年龄不同。模块430可以被配置为归一化目标面部，例如将头部旋转至中立状态、闭合嘴部或张开目标面部的眼睛。可以使用迭代过程进行面部界标检测和3D面部模型拟合。在一些实施例中，可以为移动设备的中央处理单元(CPU)和图形处理单元(GPU)优化迭代过程，这可以允许显著减少目标图像125和场景视频310的预处理所需的时间。

在一些实施例中，目标图像预处理模块420可以进一步被配置为应用美容效果和/或改变在目标图像125上描绘的人的外观。例如，可以改变人的头发颜色或发型，或者可以使人看起来更年长或更年轻。

在一些实施例中，图像分割和背景分离模块可以被配置为由人的图像执行人的头部的分割。可以对目标图像执行头部的分割以获得头部和/或目标面部140的图像。可以在头部或目标面部140的图像上进一步执行动画。动画处理的头部和/或目标面部140可以进一步插入回背景145中。通过应用2D变形仅对头部和/或面部目标140的图像动画处理可以帮助避免可能由2D变形引起的背景145中不必要的变化。由于动画可能包括头部姿势的变化，因此先前不可见的背景的某些部分可能变得可见，从而导致所得到的图像出现间隙。为了填充这些间隙，可以预测出背景中由头部覆盖的部分。在一些实施例中，可以训练深度学习模型以由图像执行人的头部的分割。类似地，深度学习技术可用于对背景的预测。下面参考图8至图13描述用于图像分割和背景预测的深度学习技术的细节。

在一些实施例中，图像动画和细化模块430可以被配置为逐帧地对目标图像进行动画处理。对于场景视频310的每一帧，可以确定控制点的位置的变化。可以将控制点的位置变化投影到目标图像125上。模块430可以进一步被配置为建立翘曲场。翘曲场可以包括一组分段线性变换，这些分段线性变换是由控制点的三角剖分中每个三角形的变化引起的。模块430可以进一步被配置为将翘曲场应用于目标图像125，并由此产生输出视频330的帧。将翘曲场应用于图像可以相对较快地执行。它可以允许实时执行动画。

在一些实施例中，图像动画和细化模块可以进一步被配置为生成隐藏区域，例如，内嘴部区域。可以使用几种方法来生成隐藏区域。一种方法可以包括将场景视频310中的人的嘴内部转移到目标图像中的人的嘴内部。另一种方法可以包括使用3D嘴部模型来生成隐藏区域。3D嘴部模型可以匹配3D面部模型的几何形状。

在一些实施例中，如果场景视频310中的人闭上眼睛或眨眼，则模块430可以被配置为通过外推法在目标图像中合成逼真的眼睑。可以生成眼睑的肤色以匹配目标图像的颜色。为了匹配肤色，模块430可以被配置为将眼睛表情从为场景视频310的帧建立的3D面部模型转移到为目标图像125建立的3D面部模型，并将生成的眼部区域插入到目标图像。

在一些实施例中，模块430可以被配置为生成部分被遮挡的区域(像嘴部、虹膜或眼睑)和精细尺度的细节。生成对抗网络可用于合成逼真的纹理和逼真的眼部图像。模块430可以进一步被配置为将目标图像的隐藏区域中的眼部替换为使用生成对抗网络生成的逼真眼部图像。模块430可以被配置为基于目标图像以及3D面部模型的原始参数和当前参数来生成目标图像的相片真实感纹理和精细尺度细节。模块430可以通过用生成的相片真实感纹理替换隐藏区域并将精细尺度细节应用于整个目标图像来进一步细化目标图像。应用精细尺度细节可以包括对目标图像的每一帧应用阴影掩码。

在一些实施例中，模块430可以进一步被配置为在目标图像上应用使动画看起来逼真所需的其他效果(例如，色彩校正和光校正)。

本公开的其他实施例可以不仅允许转移场景视频中对象的面部表情和头部动作，而且还可以转移身体的姿势和方向、手势等。例如，可以使用专用的头发模型来改善头部明显旋转期间的头发表示。生成对抗网络可用于合成目标身体姿态，从而以逼真的方式模仿源身体姿态。图5是示出根据一个示例性实施例的用于人像动画的方法500的流程图。方法500可以通过计算设备110和人像动画系统220执行。

方法500可以包括在框515至525中预处理场景视频。方法500可以在框505中以通过计算设备110检测场景视频的帧中的控制点(例如，2D面部界标)开始。在框520中，方法500可以包括通过计算设备110生成在场景视频的帧中的控制点的位移。在框525中，方法500可以包括通过计算设备110将3D面部模型拟合到场景视频的帧中的控制点以获得针对场景视频的帧的3D面部模型的参数。

在框530至540中，方法500可以包括对目标图像进行预处理。目标图像可以包括目标面部。在框530中，方法500可以包括通过计算设备110检测目标图像中的控制点(例如，面部界标)。在框535中，方法500可以包括通过计算设备110将3D面部模型拟合到目标图像中的控制点以获得针对目标图像的3D面部模型的参数。在框540中，方法500可以包括在目标图像中建立控制点的三角剖分。

在框545中，方法500可以包括通过计算设备110并且基于针对图像的3D面部模型的参数和针对场景视频的帧的3D面部模型的参数，生成嘴部和眼部区域的变形。

在框550中，方法500可包括通过计算设备110并且基于场景视频的帧中的控制点的位移和目标图像中的控制点的三角剖分，生成2D面部变形(翘曲场)。2D面部变形可以包括目标图像中的面部的一些2D三角剖分的三角形的一组仿射变换和背景。三角剖分拓扑可以在场景视频的帧和目标图像之间共享。

在框555中，方法500可包括通过计算设备110将2D面部变形应用于目标图像以获得输出视频的帧。方法500可以进一步包括通过计算设备110并且基于嘴部和眼部区域变形，在目标图像中生成嘴部和眼部区域。

在框560中，方法500可以包括在输出视频的帧中执行细化。细化可以包括颜色和光校正。

因此，可以通过所生成的模拟场景视频的帧中的面部变换的一系列2D变形来对目标图像125进行动画处理。这个过程可能非常快，并且看起来就像是实时执行动画一样。可以从源视频的帧中提取一些2D变形并预先存储。另外，可以应用背景恢复方法来实现使目标图像生动的相片真实感效果。

图6是示出根据一些示例性实施例的用于人像动画的方法600的流程图。方法600可以通过计算设备110执行。方法600可以在框605中以通过计算设备接收场景视频来开始。场景视频可以包括至少一个输入帧。输入帧可以包括第一面部。在框610中，方法600可以包括通过计算设备接收目标图像。目标图像可以包括第二面部。在框615中，方法600可以包括通过计算设备并且基于至少一个输入帧和目标图像确定二维(2D)变形，其中，2D变形在被应用于第二面部时，修改第二面部以模仿第一面部的至少面部表情和头部方向。在框620中，方法600可以包括通过计算设备将2D变形应用于目标图像以获得输出视频的至少一个输出帧。

图7示出了可以用于实现本文描述的方法的示例性计算系统700。计算系统700可以在计算设备110、人像动画系统220、3D面部模型405、稀疏对应模块410、场景视频预处理模块415、目标图像预处理模块420以及图像动画和细化模块430等的背景下实现。

如图7所示，计算系统700的硬件组件可以包括一个或多个处理器710和存储器720。存储器720部分地存储指令和数据以供处理器710执行。当系统700操作时，存储器720可以存储可执行代码。系统700可以进一步包括任选的大容量存储设备730、任选的便携式存储介质驱动器740、一个或多个任选的输出设备750、一个或多个任选的输入设备760、任选的网络接口770以及一个或多个任选外围设备780。计算系统700还可以包括一个或多个软件组件795(例如，可以实现如本文所述的用于人像动画的方法的软件组件)。

图7中所示的组件被描绘为经由单个总线790连接。组件可以通过一个或多个数据传输装置或数据网络连接。处理器710和存储器720可经由本地微处理器总线连接，并且大容量存储设备730、外围设备780、便携式存储设备740和网络接口770可经由一个或多个输入/输出(I/O)总线连接。

可以用磁盘驱动器、固态磁盘驱动器或光盘驱动器实现的大容量存储设备730是一种用于存储供处理器710使用的数据和指令的非易失性存储设备。大容量存储设备730可以存储用于实现本文描述的实施例的系统软件(例如，软件组件795)。

便携式存储介质驱动器740与诸如光盘(CD)或数字视频光盘(DVD)的便携式非易失性存储介质结合操作，以向计算系统700输入和从其输出数据和代码。用于实现本文描述的实施例的系统软件(例如，软件组件795)可以存储在此类便携式介质上，并且经由便携式存储介质驱动器740输入到计算系统600。

任选的输入设备760提供用户界面的一部分。输入设备760可以包括用于输入字母数字和其他信息的字母数字小键盘(诸如键盘)，或者诸如鼠标、轨迹球、触笔或光标方向键的指向设备。输入设备760还可以包括相机或扫描仪。另外，如图7所示的系统700包括任选的输出设备750。合适的输出设备包括扬声器、打印机、网络接口和监视器。

网络接口770可以用于经由一个或多个通信网络(诸如包括例如互联网、内联网、LAN、WAN、蜂窝电话网络、蓝牙无线电和基于IEEE 802.11的射频网络以及其他网络的一个或多个有线、无线或光网络)与外部设备、外部计算设备、服务器和联网系统进行通信。网络接口770可以是网络接口卡(诸如以太网卡)、光收发器、射频收发器或可以发送和接收信息的任何其他类型的设备。任选的外围设备780可以包括任何类型的计算机支持设备，以向计算机系统添加附加功能。

计算系统700中包含的组件旨在代表广泛的计算机组件类别。因此，计算系统700可以是服务器、个人计算机、手持式计算设备、电话、移动计算设备、工作站、小型计算机、大型计算机、网络节点或任何其他计算设备。计算系统700还可以包括不同的总线配置、联网平台、多处理器平台等。可以使用各种操作系统(OS)，包括UNIX、Linux、Windows、MacintoshOS、Palm OS以及其他合适的操作系统。

一些上述功能可以由存储在存储介质(例如，计算机可读介质或处理器可读介质)上的指令组成。指令可以由处理器检索并执行。存储介质的一些示例是存储器设备、磁带、磁盘等。指令可操作为在由处理器执行时能指导处理器根据本发明进行操作。本领域技术人员熟悉指令、处理器和存储介质。

值得注意的是，适合于执行本文描述的处理的任何硬件平台均适用于本发明。本文所使用的术语“计算机可读存储介质(computer-readable storage medium)”和“计算机可读存储介质(computer-readable storage media)”是指参与向处理器提供指令以供执行的任何一种或多种介质。此类介质可以采取许多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘，诸如固定磁盘。易失性介质包括动态存储器，诸如系统随机存取存储器(RAM)。传输介质包括同轴电缆、铜线和光纤等，包括包含总线的一个实施例的线。传输介质也可以采用声波或光波的形式，诸如在射频(RF)和红外(IR)数据通信期间产生的那些。计算机可读介质的常见形式包括，例如软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD只读存储器(ROM)盘、DVD、任何其他光学介质，带有标记或孔的图案的任何其他物理介质、RAM、PROM、EPROM、EEPROM、任何其他存储芯片或盒带、载波或计算机可以从中读取的任何其他介质。

各种形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列传送给处理器以供执行。总线将数据传送到系统RAM，处理器从中检索并执行指令。由系统处理器接收的指令可以任选地在由处理器执行之前或之后存储在固定磁盘上。

图8是根据示例性实施例的用于背景预测的DNN 800的框图。DNN 800可以包括：卷积层804、828和830，压缩卷积块806、808、810、812和814，关注块816、818、820、822、824和826，以及解压缩卷积块832、834、836、838和840。

压缩卷积块806、808、810、812和814可以从图像802中提取语义特征向量。然后，解压缩卷积块832、834、836、838和840使用来自关注块816、818、820、822、824和826的信息，将语义特征向量转置回所得到的图像842。图像802可以包括目标图像125。所得到的图像842可以包括目标图像125的被目标面部140覆盖的一部分的预测背景。

图9是示例性压缩卷积块900的框图。压缩卷积块900可以用作图8的DNN 800中的压缩卷积块806、808、810、812或814。压缩卷积块900可以包括卷积层904和906以及最大池化层908。压缩卷积块900可以基于特征图902生成输出910和输出920。

图10是示例性解压缩卷积块1000的框图。解压缩卷积块1000可以用作图8的DNN800中的解压缩卷积块832、834、836、838或840。解压缩卷积块1000可以包括卷积层1004和1008、串接层1008和转置卷积层1010。解压缩卷积块1000可以基于特征图1002和特征图1012生成输出1014。

图11是示例性关注块1100的框图。关注块1100可以用作图8的DNN 800中的关注块816、818、820、822、824或826。关注块1100可以包括卷积层1104和1106、归一化层1108、聚合层1110和串接层1112。关注块1100可以基于特征图1102生成结果图1114。

图12是用于训练DNN 800的学习方案1200的框图。训练方案1200可以包括损耗计算器1208、DNN 800、鉴别器网络1212和1214以及差分块1222。鉴别器网络1212和1214可以促进DNN 800生成相片真实感的背景。

DNN 800可以基于生成的合成数据集来训练。合成数据集可以包括位于背景图像前面的人的图像。可以将背景图像用作目标图像1206。可以将背景图像前面的人的图像用作输入数据1202，并将插入掩码用作输入数据1204。

鉴别器网络1212可以基于DNN 800的输出(预测的背景)来计算生成器损耗1218(g_loss)。鉴别器网络1214可以基于目标图像1206来计算预测值。差分块1222可以基于生成器损耗1218和预测值来计算鉴别器损耗1220(d_loss)。损耗生成器1208可以基于DNN800的输出和目标图像1206来计算训练损耗1216(im_loss)。

DNN 800的学习可以包括以下步骤的组合：

1.“训练步骤”。在“训练步骤”中，鉴别器网络1212和1214的权重保持不变，并且im_loss和g_loss用于反向传播。

2.“纯训练步骤”。在“纯训练步骤”中，鉴别器网络1212和1214的权重保持不变，并且仅将im_loss用于反向传播。

3.“鉴别器训练步骤”。在“鉴别器训练步骤”中，DNN 800的权重保持不变，并且d_loss用于反向传播。

以下伪代码可以描述用于DNN 800的学习算法：

1.执行“纯训练步骤”100次；

2.重复以下步骤，直到达到所需的质量：

a.执行“鉴别器训练步骤”5次

b.执行“训练步骤”

图13是示例性鉴别器网络1300的框图。鉴别器网络1300可以用作图12的学习方案1200中的鉴别器网络1212和1214。鉴别器网络1300可以包括卷积层1304、压缩卷积块1306、全局平均池化层1308和密集层1310。鉴别器网络1300可以基于图像1302生成预测值1312。

应当注意，用于背景预测的DNN的架构可以与图8至图13中描述的示例性DNN 800的架构不同。例如，可以将3×3卷积804-814替换为3×1卷积和1×3卷积的组合。用于背景预测的DNN可以不包括图8所示块中的一些。例如，关注块816至820可以从DNN的架构中排除。与图8所示的DNN 800相比，用于背景预测的DNN还可以包含不同数量的隐藏层。

还应当注意，类似于图8至图13中描述的DNN 800的DNN可以被训练并用于预测目标图像125的其他部分。例如，DNN可以用于预测或生成目标图像125的隐藏区域和精细尺度的细节，以实现相片真实感的结果。隐藏区域可以包括目标面部140的嘴部区域和眼部区域。

因此，已经描述了用于相片真实感实时人像动画的方法和系统。尽管已经参考特定示例性实施例描述了实施例，但是显而易见的是，在不脱离本申请的更广泛的精神和范围的情况下，可以对这些示例性实施例进行各种修改和改变。因此，说明书和附图应被认为是说明性的而不是限制性的。

Claims

1.一种用于人像动画的方法，所述方法包括：

通过计算设备接收场景视频，所述场景视频包括至少一个输入帧，所述至少一个输入帧包括第一面部；

通过所述计算设备接收目标图像，所述目标图像包括第二面部；

通过所述计算设备并且基于所述至少一个输入帧和所述目标图像确定二维(2D)变形，其中，所述2D变形在被应用于所述第二面部时，修改所述第二面部以模仿所述第一面部的至少面部表情和头部方向；以及

通过所述计算设备将所述2D变形应用于所述目标图像以获得输出视频的至少一个输出帧。

2.根据权利要求1所述的方法，进一步包括在应用2D变形之前：

通过所述计算设备并且使用深度神经网络(DNN)来执行对所述目标图像的分割以获得所述第二面部的图像和背景；并且

其中，通过所述计算设备应用所述2D变形包括将所述2D变形应用于所述第二面部的图像以获得变形的面部，同时保持所述背景不变。

3.根据权利要求2所述的方法，进一步包括，在应用2D变形后：

通过所述计算设备将所述变形的面部插入所述背景中；并且

通过所述计算设备并且使用所述DNN来预测在所述变形的面部与所述背景之间的间隙中的所述背景的一部分；以及

通过所述计算设备用所预测的部分填充所述间隙。

4.根据权利要求1所述的方法，其中，确定2D变形包括：

通过所述计算设备确定所述第一面部上的第一控制点；

通过所述计算设备确定所述第二面部上的第二控制点；以及

通过所述计算设备定义用于将所述第一控制点与所述第二控制点对准的2D变形或仿射变换。

5.根据权利要求4所述的方法，其中，确定所述2D变形包括通过所述计算设备建立所述第二控制点的三角剖分。

6.根据权利要求5所述的方法，其中，确定所述2D变形进一步包括：

通过所述计算设备确定所述第一控制点在所述至少一个输入帧中的位移；

通过所述计算设备并且使用所述仿射变换来将所述位移投影到所述目标图像上，以获得所述第二控制点的期望位移；以及

通过所述计算设备并且基于所述期望位移确定将被用作所述2D变形的翘曲场。

7.根据权利要求6所述的方法，其中，所述翘曲场包括由所述第二控制点的所述三角剖分中的三角形变化限定的一组分段线性变换。

8.根据权利要求1所述的方法，进一步包括：

通过所述计算设备生成嘴部区域和眼部区域中的一者；以及

通过所述计算设备将所述嘴部区域和所述眼部区域中的一者插入到至少输出帧中。

9.根据权利要求8所述的方法，其中，生成所述嘴部区域和所述眼部区域中的一者包括通过所述计算设备从所述第一面部转移所述嘴部区域和所述眼部区域中的一者。

10.根据权利要求8所述的方法，其中，生成所述嘴部区域和所述眼部区域中的一者包括：

通过所述计算设备将3D面部模型拟合到所述第一控制点以获得第一组参数，所述第一组参数包括至少第一面部表情；

通过所述计算设备将所述3D面部模型拟合到所述第二控制点以获得第二组参数，所述第二组参数包括至少第二面部表情；

通过所述计算设备将所述第一面部表情从所述第一组参数转移到所述第二组参数；以及

通过所述计算设备并且使用所述3D面部模型来合成所述嘴部区域和所述眼部区域中的一者。

11.一种用于人像动画的系统，所述系统包括至少一个处理器、存储处理器可执行代码的存储器，其中，所述至少一个处理器被配置为在执行所述处理器可执行代码时实现以下操作：

接收场景视频，所述场景视频包括至少一个输入帧，所述至少一个输入帧包括第一面部；

接收目标图像，所述目标图像包括第二面部；

基于所述至少一个输入帧和所述目标图像确定二维(2D)变形，其中，所述2D变形在被应用于所述第二面部时，修改所述第二面部以模仿所述第一面部的至少面部表情和头部方向；以及

将所述2D变形应用于所述目标图像以获得输出视频的至少一个输出帧。

12.根据权利要求11所述的系统，进一步包括在应用2D变形之前：

使用深度神经网络(DNN)来执行对所述目标图像的分割以获得所述第二面部的图像和背景；并且其中，

应用所述2D变形包括将所述2D变形应用于所述第二面部的图像以获得变形的面部，同时保持所述背景不变。

13.根据权利要求12所述的系统，进一步包括在应用2D变形后：

通过所述计算设备将所述变形的面部插入所述背景中；并且

使用所述DNN来预测在所述变形的面部与所述背景之间的间隙中的所述背景的一部分；

用所预测的部分填充所述间隙。

14.根据权利要求11所述的系统，其中，确定2D变形包括：

确定在所述第一面部上的第一控制点；

确定在所述第二面部上的第二控制点；以及

定义用于将所述第一控制点与所述第二控制点对准的2D变形或仿射变换。

15.根据权利要求14所述的系统，其中，确定2D变形包括建立所述第二控制点的三角剖分。

16.根据权利要求15所述的方法，其中，确定所述2D变形进一步包括：

确定所述第一控制点在所述至少一个输入帧中的位移；

使用所述仿射变换将所述位移投影在所述目标图像上，以获得所述第二控制点的期望位移；以及

基于所述期望位移，确定将被用作所述2D变形的翘曲场。

17.根据权利要求16所述的系统，其中，所述翘曲场包括由所述第二控制点的所述三角剖分中的三角形变化限定的一组分段线性变换。

18.根据权利要求11所述的系统，其中，所述方法进一步包括：

生成嘴部区域和眼部区域中的一者；以及

将所述嘴部区域和所述眼部区域中的一者插入到至少输出帧中。

19.根据权利要求18所述的系统，其中，生成所述嘴部区域和所述眼部区域中的一者包括：

将3D面部模型拟合到所述第一控制点以获得第一组参数，所述第一组参数包括至少第一面部表情；

将所述3D面部模型拟合到所述第二控制点以获得第二组参数，所述第二组参数包括至少第二面部表情；

将所述第一面部表情从所述第一组参数转移到所述第二组参数；以及

使用所述3D面部模型来合成所述嘴部区域和所述眼部区域中的一者。

20.一种具有存储在其上的指令的非暂时性处理器可读介质，所述指令当由一个或多个处理器执行时，使所述一个或多个处理器实现用于人像动画的方法，所述方法包括：

接收目标图像，所述目标图像包括第二面部；

基于所述至少一个输入帧和所述目标图像确定二维(2D)变形，其中，所述2D变形在

被应用于所述第二面部时，修改所述第二面部以模仿所述第一面部的至少面部表情和头部方向；以及