CN118175324A

CN118175324A - 用于视频生成的多维生成框架

Info

Publication number: CN118175324A
Application number: CN202311687481.3A
Authority: CN
Inventors: 柏松; 许仲聪; 冯佳时; 廖俊豪; 张文庆
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2022-12-09
Filing date: 2023-12-11
Publication date: 2024-06-11
Also published as: US20240193412A1

Abstract

本公开涉及用于视频生成的多维生成框架，针对包括但不限于静态肖像动画、视频重构或运动编辑中的至少一者使用多维视频生成模型生成多维视频。该方法包括向多维视频生成模型的多维感知生成器提供数据，以及由多维感知生成器从数据生成多维视频。多维视频的生成包括将数据转换到多维感知生成器的潜在空间中，使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码，形成用于在多个时间步长处对多维感知生成器的运动分量进行编码的合成层并构造中间运动代码，将时间动态引入到中间表观代码和中间运动代码中，以及生成数据的多维感知时空表示。

Description

用于视频生成的多维生成框架

技术领域

本文描述的实施例一般涉及神经网络。更具体而言，本文描述的实施例涉及从预训练的多维感知生成模型或框架生成多维视频。

背景技术

生成对抗网络(GAN)是基于深度学习的生成模型，其可以被用于生成图像和执行图像操纵，这可以被用于大量的不同工业应用。但是，此类现有模型和GAN尚未成功用于生成三维(3D)视频，例如，用于3D肖像视频生成以及视频操纵和动画。更确切地说，此类现有模型可以产生不考虑底层3D几何形状的二维(2D)视频，而这是用于肖像重演、说话的脸部动画和虚拟现实/增强现实(VR/AR)的期望属性。虽然存在用于生成3D肖像视频的方法和模型，但此类方法和模型使用经典的图形技术，这要求多相机系统、控制良好的工作室、繁重的艺术家作品和大量的训练数据。

发明内容

在一个示例实施例中，提供了一种用于生成多维视频的方法。该方法包括向多维感知生成模型的多维感知生成器提供输入数据并且由多维感知生成器从输入数据生成多维视频。生成可以包括将输入数据转换(invert)到多维感知生成器的潜在空间中；使用多维感知生成器的表观分量(appearance component)和对应相机姿势合成多维视频的内容并构造(formulate)中间表观代码，形成(develop)用于在多个时间步长处对多维感知生成器的运动分量(motion component)进行编码并构造中间运动代码的合成层，将时间动态引入到中间表观代码和中间运动代码中，以及生成输入数据的多维感知时空表示。

根据至少一个其它示例实施例，提供了一种用于静态肖像动画的方法。该方法包括向多维感知生成模型的多维感知生成器提供静态肖像，以及由多维感知生成器生成静态肖像的动画。该生成可以包括将静态肖像转换到多维感知生成器的潜在空间中，以及使用多维感知生成器的表观分量和对应相机姿势来合成多维视频的内容并构造中间表观代码。合成可以包括在初始时间步长0处初始地固定多维感知生成器以便优化表观代码。该方法还包括形成用于在多个时间步长处对多维感知生成器的运动分量进行编码并构造中间运动代码的合成层，其中形成合成层包括固定表观分量并对运动分量进行随机采样，将时间动态引入到中间表观代码和中间运动代码中，以及生成静态肖像的多维感知时空表示。

根据至少一个其它示例实施例，提供了一种用于视频重构和/或运动编辑的方法。该方法包括向多维感知生成模型的多维感知生成器提供单目视频，以及由多维感知生成器重构视频和/或编辑单目视频中的运动。该生成可以包括将单目视频转换到多维感知生成器的潜在空间中，以及使用多维感知生成器的表观分量和对应相机姿势来合成多维视频的内容并构造中间表观代码。合成可以包括在潜在空间中初始地固定多维感知生成器以优化表观分量。该方法还包括形成用于在多个时间步长处对多维感知生成器的运动分量进行编码并构造中间运动代码的合成层，其中形成合成层包括单独地转换用于视频中的每个帧的运动分量并对多个运动分量进行采样以多维地提供运动，将时间动态引入到中间表观代码和中间运动代码中，以及生成静态肖像的多维感知时空表示。这样，可以提供多维生成模型或框架，其可以被用于生成具有高质量表观、运动和几何形状的多维感知视频(例如，三维或四维)视频的大量多样性。生成模型或框架可以基于使用多平面(例如，三平面(tri-plane)或三平面的(three-planar))表示来包括时间分量或动态以生成多维感知时空表示。生成模型或框架也可以仅根据2D单目视频进行调节和训练，而不需要任何3D或多视图注释。

因此，本文公开的多维生成模型或框架可以支持几个下游应用，包括但不限于静态图像动画、单目视频重构、多视图一致的运动编辑和/或VR/AR模拟。

附图说明

附图图示了本公开的系统、方法的各种实施例以及本公开的各个其它方面的实施例。本领域的任何普通技术人员都将认识到，图中所示的元素边界(例如，方框、方框组或其它形状)表示边界的一个示例。在一些示例中，一个元素可以被设计为多个元素，或者多个元素可以被设计为一个元素。在一些示例中，被示为一个元素的内部组件的元素可以被实现为另一个元素中的外部组件，反之亦然。参考以下附图描述非限制性和非详尽的描述。附图中的组件不一定按比例绘制，而是重点放在说明原理上。在下面的详细描述中，实施例仅被描述为说明，因为根据下面的详细描述，各种改变和修改对于本领域技术人员来说会变得显而易见。

图1图示了根据本文描述的至少一些实施例布置的用于生成可以实现多维视频多维感知图像生成器的示例框架或模型。

图2图示了根据本文描述的至少一些实施例布置的示例多维感知生成器。

图3是图示根据本文描述的至少一些实施例的用于生成多维视频的方法的示例处理流程的流程图。

图4图示了根据本文描述的至少一些实施例布置的示例框架或模型。

图5图示了根据本文描述的至少一些实施例布置的从多维感知时空表示生成多维视频所产生的肖像视频的示例表示。

图6图示了根据本文描述的至少一些实施例布置的从多维感知时空表示生成多维视频所产生的重构视频的其它示例表示。

图7是根据本文描述的至少一些实施例布置的适用于实现电子设备的示例计算机系统的示意结构图。

具体实施方式

在下面的详细描述中，将参考附图描述本公开的特定实施例，附图构成本描述的一部分。在本描述以及附图中，除非上下文另有指示，否则相似的附图标记表示可以执行相同、相似或等效功能的元件。此外，除非另有指示，否则每个相继附图的描述可以参考来自先前附图中的一个或多个的特征，以提供当前示例实施例的更清晰的上下文和更实质性的解释。还有，详细描述、附图和权利要求中描述的示例实施例并不旨在进行限制。在不脱离本文给出的主题的精神或范围的情况下，可以利用其它实施例，并且可以做出其它改变。将容易理解的是，如本文总体描述和附图中所示的本公开的各方面可以以多种不同的配置来布置、替换、组合、分离和设计，所有这些都在本文中明确地预期。

应该理解的是，所公开的实施例仅仅是本公开的示例，其可以以各种形式来实施。未详细描述众所周知的功能或构造，以避免用不必要的细节模糊本公开。因此，本文公开的具体结构和功能细节不应被解释为限制，而仅被解释为权利要求的基础以及作为教导本领域技术人员在实际上任何适当详细的结构中不同地采用本公开的代表性基础。

此外，本文可以按照功能方框组件和各种处理步骤来描述本公开。应当认识到的是，此类功能方框可以由被配置为执行指定功能的任何数量的硬件和/或软件组件来实现。

本公开的范围应当由所附权利要求及其法律等同形式确定，而不是由本文给出的示例确定。例如，任何方法权利要求中陈述的步骤可以以任何次序执行并且不限于权利要求中呈现的次序。而且，除非本文具体描述为“关键的”或“必要的”，否则没有任何要素对于本公开的实践是必要的。

如本文所引用的，“多维感知生成器”可以指基于深度机器学习的框架或模型，其可以被用于生成在时空空间中建模的多维隐式神经表示。多维感知生成器可以被配置为学习真实数据分布以生成更接近该分布的数据以欺骗鉴别器(例如，通过不经由无监督学习最小化距离)以及被配置为鉴别真实图像与生成的图像的鉴别器神经网络(例如，作为零和游戏彼此竞争)。应理解的是，在机器学习领域，训练多维感知生成模型或框架通常要求数据集。还应理解的是，“预训练”可以指示机器学习模型已经被训练并且对应的训练检查点已经被使用并且该模型已准备好部署并且被部署。

如本文所引用的，模型或框架可以指支持机器学习、自然语言理解、自然语言处理、语音识别、计算机视觉等的软件、即算法和/或程序、硬件或固件或其任何组合。

如本文所引用的，根据计算机视觉和图像处理的“潜在特征”可以指从图像(例如，2D肖像图像或单目视频)提取的特征向量。特征向量可以由生成模型的编码器提取，即，从与任何一个输入标题(caption)(例如分类)对应的输入数据集中提取或者由生成模型本身提取的特征。

如本文所引用的，“潜在空间”可以指潜在特征空间或嵌入空间，其中彼此更相似的项目被定位为彼此靠近。在非限制性示例中，潜在空间可以是W+潜在空间，其可以是18个不同的512维w向量的拼接。

如本文所引用的，“多维”或“多维地”或“多平面”或“多平面的”可以指包括多个平面的系统，诸如，在非限制性示例中，三维平面、四维平面，或更大或更高维的平面框架或视距场。此类特征可以指包括附加特征的三维平面，附加特征包括但不限于时间分量。此外，此类特征可以指在视觉上或者在虚拟或增强或替代现实体验或设置中提供给用户的系统。

图1图示了根据本文描述的至少一些实施例布置的可以被实现用于生成多维视频的示例多维视频生成模型或框架100。如所描绘的，多维视频生成模型或框架100可以包括编码器110、生成模型120和解码器130。多维视频生成模型或框架100可以通过程序、自定义电路或其组合来实现。在实施例中，多维视频生成模型或框架100可以使用图形处理单元(“GPU”)、中央处理单元(“CPU”)或其它启用处理器的设备来实现，这些设备可以是基于云的、本地设备，或下载到本地设备。虽然被示为分立组件，但是各种组件可以被划分为附加的组件、组合为更少的组件或者完全被消除，同时预期在所公开的主题的范围内。本领域技术人员将理解的是，组件的每个功能和/或操作可以通过各种硬件、软件、固件或其任何组合来单独地和/或共同地实现。

编码器110可以指被设计、编程或以其它方式配置为接收输入数据112的一个或多个组件或模块，输入数据112可以包括图像或视频，例如，单目2D肖像图像或2D视频。在非限制性示例中，编码器110可以被设计、编程或以其它方式训练为根据已知的编码技术从输入数据112将与潜在特征对应的特征向量迭代地提取到潜在空间121中，即，提取或映射到潜在空间121中。所提取的特征的非限制性示例可以包括表面、性别、肤色、照明、色彩、身份、运动、动物、物体、边缘、点、边界、曲线、形状等。非限制性示例可以包括使用行进立方体从输入数据中提取表面。

输入数据112可以指由例如数据库、云和/或经典计算设备的一个或多个实施例提供的数据，所述经典计算设备可以是或包括经典计算机、处理设备、微处理器、微控制器、数字信号处理器或其任何组合。来自输入数据112的数据可以来自各种电子设备之一或其组合，其具有一个或多个图像和/或视频捕获组件，即，相机和/或录像机、具有音频和/或视频输入/输出并且支持与媒体平台相关的内容的提供和消费的显示屏。各种电子设备可以包括但不限于智能电话、平板计算机、膝上型计算机、台式计算机、安全/监控设备、电子书阅读器、MP3(运动图像专家组音频层III)播放器、MP4播放器，和/或可以被用于将输入数据上传或发送到多维视频生成模型或框架100的任何其它合适的电子设备。

生成模型120可以包括用于生成多维视频的生成器神经网络122(本文中称为“生成器”或“多维感知生成器”)和鉴别器神经网络124(本文中称为“鉴别器”)。生成器122和/或鉴别器124可以包括函数、操作、动作、算法、应用等。生成模型120、生成器122和/或鉴别器124可以被托管、实现、执行和/或存储在设备(例如，图7的700等)中。

生成器122被配置为从潜在空间121接收输入数据112的特征向量和/或潜在特征并且生成多维感知时空表示，例如，多维感知生成器。生成器122可以以学习到的潜在代码、时间步长和相机姿势为条件，例如，使用生成器122的学习到的常数，以将时间特征或动态添加到多维隐式神经表示以对时空空间进行建模以生成多维感知时空表示。在实施例中，生成器122可以将生成多维感知时空表示表述为：

在这个实施例中，生成器122(例如，)首先生成多维感知时空表示，然后可以对其进行体积渲染/>以获得多维视频(例如，三维视频)的最终视频序列。在实施例中，代替在单个潜在代码z内联合建模表观和运动动态，多维感知时空表示被分解成表观和运动生成分量。例如，在实施例中，生成器122可以将表观潜在代码z_a～N(0，I)和运动潜在代码z_m～N(0，I)作为对神经网络的输入。然后可以对生成器122进行调节，使得z_a被用于合成变化的视频表观，例如，性别、肤色、身份等，并且z_m被用于对运动动态进行建模，例如，人张开他/她的嘴或转动他/她的头。这样，生成器122可以被配置为通过堆叠多个运动层来引入运动动态以经由经调制的卷积生成运动特征。

鉴别器124可以包括图像鉴别器和视频鉴别器以进一步指导多维视频生成过程，例如，对所生成的多维感知时空表示的空间和时间域进行正则化。鉴别器124可以被配置为通过被编码以提高视频表观质量来确保视频生成的合理性，并且通过使用相机姿势作为指导生成器122的条件来确保视频运动的合理性。这样，鉴别器124可以被配置为修改从生成器122生成的多维感知时空表示。

解码器130可以指被设计、编程或以其它方式训练为从来自鉴别器124的经修改的多维感知时空表示生成多维视频的经预训练的模型。解码器130可以被配置为组合来自视频鉴别器的结果所得的多维视频和来自图像鉴别器的表观，并且基于多维视频生成模型的经调节的分量来优化输入数据112的潜在特征。解码器130还可以被配置为体积渲染所生成的多维视频以获得多维视频的最终视频序列。虽然解码器130已被描述为单独的元件或特征，但是应理解的是，解码功能也可以被集成或提供在生成模型120或多维感知生成器中。

图2图示了根据本文描述的至少一些实施例布置的可以在用于生成多维视频的多维视频生成模型或框架(例如，100)中使用的生成器神经网络222(本文中被称为“生成器”)的示例实施例。生成器222可以包括运动层250、映射网络260和合成网络270。在实施例中，生成器222可以以潜在代码z_a和z_m、时间步长{t_i,t_j}以及相机姿势{c_i,c_j}为条件，以在多维视频中在每个时间步长处生成运动。在示例实施例中，在时间步长t_i处，K个运动层可以在生成器222的合成层中使用，其中每个运动层将运动代码z_m和时间步长t_i编码成中间运动代码。

在示例实施例中，运动层250可以包括乘法函数252、轻量级映射层254和全连接人工神经网络258以经由经调制的卷积生成运动特征。运动层250可以被配置为初始地使用乘法函数252将运动代码z_m与时间步长t_i相乘，以将时间信息编码到输入数据。

运动层250还可以被配置为例如使用轻量级映射头H_m在轻量级映射层254中执行结果所得的乘法的轻量级映射。轻量级映射层254可以包括全连接(FC)层255和激活函数256，例如，泄漏修正线性单元(ReLU)激活。FC层255可以包括权重和偏置并且被配置为连接不同层之间(例如，不同运动层之间)的神经元。激活函数256可以被配置为将来自节点的加权输入总和变换成用于该节点的输出。在实施例中，当激活函数256是ReLU时，激活函数256可以被配置为分段线性函数以便如果为正，则直接输出输入，否则输出零。

全连接人工神经网络258可以是例如至少具有输入层、隐藏层和输出层的多层感知器(MLP)，并且可以被配置为将来自轻量级映射层254的输出编码为换句话说，第k个运动层可以被计算为：

其中k∈{0，1，...，K}，表示帧索引，而/>表示一个视频中的帧数。

映射网络260可以被配置为将用于每帧的相机姿势(例如，c_i)和表观代码z_a拍摄或投影到输入数据(例如，2D肖像或2D视频)中，以生成中间表观代码在实施例中，相机姿势c_i和表观代码z_a可以被映射到潜在空间(例如，121)中的输入数据，其中表观代码z_a和相机姿势c_i可以被应用于输入数据的每个特征层以生成中间表观代码/>

生成器222还可以被配置为将中间运动代码传递到合成网络270以添加时间动态和分量。合成网络270可以包括多个合成层，这些合成层可以包括多个调制/卷积(“ModConv”)层272和加法函数274。ModConv层272可以包括调制、卷积或归一化层中的至少一个以生成风格转移的图像。这样，在实施例中，生成器222可以使用合成网络270中的中间运动代码/>来调制输入数据(例如，112)的静态表观特征以合并时间动态和分量，例如，在时间步长处。在示例实施例中，诸如AdaIN之类的自适应实例归一化可以被用于例如使用加法函数274将运动特征的均值和方差与表观特征的均值和方差对准。在另一个示例实施例中，生成器222可以包括等效算子，例如，经调制的卷积网络，以通过基于二值化卷积滤波器和调制滤波器(“M-滤波器”)的多个层来计算运动特征。

在示例实施例中，在计算出运动特征之后，生成器222可以被配置为在合成网络270的不同合成层中将受控制的运动特征与受/>控制的表观特征融合。合成网络270可以被配置为迭代地将融合的特征传递到下一层、例如下一合成层，以生成混合显式-隐式多维表示中的特征，例如，经由以下过程：

这里，和/>表示第一和第二合成层或方框，例如，第k个合成层中的ModConv层272，而f_k表示由第k层合成的特征图。即，在非限制性示例中，混合显式-隐式多维表示中的特征可以通过用由/>和时间步长控制的运动特征调制由/>控制的表观特征在时间三平面网络(例如，四维网络或表示)中生成。在实施例中，混合显式-隐式多维表示可以是三维平面、三平面的、四平面的或更多平面的框架或视距场，例如，如可以在GAN网络中进一步使用的，例如，分辨率为N×N×C的三个平面，其中三维位置被投影到平面中，并且对应的特征向量被求和并传递到解码器，并且包括时间分量。

在实施例中，为了保留所生成的视频中的身份，生成器222可以被配置为使得使用例如预定量的K个合成层，使得k≤K，用于结合运动特征。应理解的是，生成器222具有预定量的K个层，使得预定量增加时间一致性并提高生成器对不同运动进行建模的能力。而且，应理解的是，可以确定K个层的数量来减轻RGB视频帧的过度拟合，以进一步提高所生成的视频中的多维几何的质量。

在示例实施例中，由于多维视频生成模型或框架可以被用于通过将运动代码和时间步长编码为中间运动代码来基于运动代码和时间步长调制表观特征生成时间混合显式-隐式多维表示并且在非限制性示例中在时间多平面网络中计算机运动特征，K个层的数量可以通过以下方式预先确定。可以分析潜在空间以找出表观特征的操纵将如何影响合成结果。在示例实施例中，当K增加时，图像内容逐渐改变。在操纵K＝2层中的表观代码时可以在很大程度上保留内容，但是，仅调制前2层中的特征可能会损害多维感知生成器的内容多样性的能力。而且，当K≥6时，图像内容存在急剧改变。因为肖像视频的一个重要特性是时间相干性、即一致的身份，所以K在多维感知生成器中可以被选择为4以维持良好的时间一致性以及运动多样性。

生成器222还可以被配置为以预先估计的相机姿势序列为条件，该序列可以是预定义的轨迹，例如，头部移动90度、45度、向上或向下等。即，可以以每个时刻t_i的c_i为条件来调节生成器222，使得多维视频生成模型或框架可以生成旋转相机的视频而不是使多维场景变形，例如，对相机围绕静态面部的旋转进行建模而不是以多个维度在静态相机前面旋转脸部。此外，由于生成器222可以被配置在预先估计的相机姿势序列上，因此生成器222可以能够对每个帧的依赖于视图的特征进行编码，以在任意视点下充分利用诸如三维先验的多维先验，例如，视图相关的特征根据相机姿势被编码。而且，生成器222可以被配置为在推理期间合成连续的帧，其中对于每个视频，帧可以在时间步长t_i处生成，其中i∈{0,1，...,N}，并且N表示最大帧数。如上面所讨论的，生成器222可以被配置为针对每个帧采取相机姿势c_i以生成中间表观代码。虽然在训练期间每个帧具有其相机姿势，但是生成器222可以在推理阶段期间为映射网络共享相同的c_i。这样，生成器222被设计为改进多视图一致性(包括时间一致性)以生成具有不同运动和高质量多维几何形状的现实视频，这可以基于训练数据集，例如，随机相机姿势序列以使运动更自然，或预定义的轨迹。

虽然上面已经讨论了多维视频生成模型或框架和生成器222，但是应理解的是，这样的公开并不旨在进行限制。更确切地说，这种讨论提供了用于从输入数据生成用于多维视频的多维视频生成模型的相关模型或框架。例如，模型或框架可以包括用于转换输入数据的其它神经网络，使得生成器可以被配置为使用预训练的表观分量和预训练的运动分量来合成多维视频的内容以构造相关联的(一个或多个)中间表观代码和(一个或多个)中间运动代码，并将时间动态引入到(一个或多个)中间表观代码和(一个或多个)中间运动代码中，以生成输入数据的多维感知时空表示。

图3图示了根据示例实施例的用于多维视频生成的方法300的流程图。方法300可以由程序、电路系统或其组合来执行。例如，方法300可以由图形处理单元、中央处理单元或其它启用处理器的设备执行，这些设备可以是基于云的、本地设备或下载到本地设备。本领域技术人员将理解的是，组件的每个功能和/或操作可以通过各种硬件、软件、固件或其任何组合来单独地和/或共同地实现。

在310处，可以向多维视频生成模型或框架提供用于多维感知生成器的输入数据。输入数据(例如，112)可以指由例如数据库、云和/或经典计算设备的一个或多个实施例提供的数据，经典计算设备可以是或包括经典计算机、处理设备、微处理器、微控制器、数字信号处理器或其任何组合。来自输入数据(例如，112)的数据可以来自各种电子设备之一或其组合，其具有一个或多个图像和/或视频捕获组件，即，相机和/或录像机、具有音频和/或视频输入/输出并且支持与媒体平台相关的内容的提供和消费的显示屏。各种电子设备可以包括但不限于智能电话、平板计算机、膝上型计算机、台式计算机、安全/监控设备、电子书阅读器、MP3(运动图像专家组音频层III)播放器、MP4播放器，和/或可以被用于将输入数据上传或发送到多维视频生成模型或框架(例如，100)的任何其它合适的电子设备。

然后，多维视频生成模型可以如下使用多维感知生成器来生成多维视频：

在320处，多维视频生成模型或框架可以通过例如通过使用编码器将输入数据转换到潜在空间中来处理输入数据。可以通过迭代地提取与潜在空间中的潜在特征对应的特征向量来处理输入数据，例如，使用行进立方体从输入数据提取表面特征。

在330处，多维视频的内容可以使用多维度感知生成器的表观分量或代码z_a以及对应相机姿势(例如，c_i)进行合成，以构造中间表观代码中间表观代码可以通过获取或将每一帧的相机姿势(例如，c_i)以及表观代码(例如，z_a)投影到输入数据(例如，2D肖像或2D视频)中来映射，以例如针对每个特征层生成中间表观代码/>

在340处，合成层可以被用于在多个时间步长(例如，t_i)处对多维感知生成器的运动分量或代码z_m进行编码，以构造中间运动代码在示例实施例中，可以使用经调制的卷积来生成运动特征，其中运动代码z_m与时间步长t_i相乘以将时间信息编码到输入数据。然后可以例如使用轻量级映射头H_m来执行轻量级映射。轻量级映射可以包括使用全连接(FC)层和激活函数(例如，泄漏修正线性单元(ReLU)激活)来连接多层中的神经元。

在350处，可以将时间动态引入到中间表观代码(例如，)以及中间运动代码/>中以生成输入数据的多维感知时空表示。在示例实施例中，可以使用包括多个合成层的合成网络，多个合成层可以包括多个调制/卷积(“ModConv”)层以生成风格转移的图像。这样，在实施例中，中间运动代码/>可以用在合成网络中以调制输入数据(例如，112)的静态表观特征以例如在时间步长处结合时间动态和分量。在计算出运动特征之后，该步骤可以包括在合成网络的不同合成层中将由/>控制的运动特征与由/>控制的表观特征进行融合。合成网络可以将融合的特征迭代地传递到下一层(例如，合成层)以生成混合显式-隐式多维表示的特征，例如，经由以下过程：

其中/>

即，在360处，在非限制性示例中，可以通过用由控制的运动特征和时间步长调制由/>控制的表观特征在时间多平面网络中生成混合显式-隐式多维表示中的特征，以生成输入数据(例如，112)的多维感知时空表示。

在370处，可以通过包括图像鉴别器和视频鉴别器的鉴别器来修改多维感知时空表示，例如，对所生成的多维感知时空表示的空间和时间域进行正则化。可以进行区分以通过被编码为提高视频表观质量来确保视频生成的合理性，并通过使用相机姿势作为指导多维感知时空表示的生成的条件来确保视频运动的合理性。

在380处，可以对经修改的多维感知时空表示进行体积渲染以生成多维视频(例如，三维视频)的最终视频序列。体积渲染可以由解码器执行，该解码器可以是预训练的扩散模型，该扩散模型被配置为组合来自视频鉴别器的结果所得的多维视频和来自图像鉴别器的表观并且基于多维视频生成模型或框架的有条件组件优化输入数据(例如，122)的潜在特征。

还应理解的是，处理流程300可以包括如方框310、320、330、340、350、360、360、370和380中的一个或多个所示的一个或多个操作、动作或功能。这些各种操作、功能或动作可以例如与由处理器可执行的使得功能被执行的软件、程序代码或程序指令对应。虽然被示为分离的方框，但是可以进行明显的修改，例如，可以对两个或更多个方框进行重新排序；可以添加更多方框；并且各种方框可以被划分为附加的方框、组合为更少的方框或者被消除，这取决于期望的实施方式。

图4图示了根据本文描述的至少一些实施例布置的用于生成多维视频的示例多维视频生成模型或框架400。多维视频生成模型或框架400可以具有与图1中所示的多维视频生成模型或框架100相同或相似的组件。

多维视频生成模型或框架400可以包括生成模型420，生成模型420包括生成器422、鉴别器424、时间多平面网络480和用于生成多维视频的超分辨率模块490。多维视频生成模型或框架400可以在有监督或无监督或条件设置下操作。生成器422、鉴别器424、时间多平面网络480和/或超分辨率模块490可以包括函数、操作、动作、算法、应用等。生成器422和/或鉴别器424可以以训练期间的潜在代码、时间步长和相机姿势为条件，如下面所讨论的。

在示例实施中，生成器422可以被提供和/或接收来自源的训练数据集，该训练数据集可以包括具有N个视频序列的二维(2D)视频或带有相关联相机姿势的肖像图像作为输入。源可以是电子设备(例如，图7的700等)，包括智能电话、台式计算机、计算机、存储器、数据库、文件、云存储或网络、可下载的web可访问数据等。虽然数据集可以包括单目2D视频，但是这样的公开并不旨在限制，因为包括多个视角、帧等的其它数据集可以被用于训练多维视频生成模型或框架400。

生成器422可以被配置为通过使用来自相机原点o的射线基于来自数据集的多平面网络T合成(一个或多个)图像或帧例如，基于视频序列中的给定相机姿势，沿着每个像素处的方向d。合成的图像或帧可以是16帧跨度内的两帧，或者32帧跨度内的四帧等。可以在多平面网络T(例如，三维平面或多平面网络)中查询和插值沿着每条射线的样本点x_r，以获得每个样本点的特征。然后可以将这些特征传递到解码器以预测颜色c和密度σ，使得：

[σ(r(s)，c(r(s)))＝Decoder(Interp(x_r，T))]，

其中Decoder可以是具有softplus激活的多层感知器(MLP)，并且Interp表示插值。然后可以通过体积渲染将像素值计算为：

其中/>

在示例实施例中，在训练期间，生成器422可以被配置为随机采样一个视频的两个时间步长{t_i,t_j}及其对应相机姿势{c_i,c_j}。生成器422然后可以被配置为形成运动层450以将运动代码z_m和时间步长{t_i,t_j}编码为中间运动代码w_m。生成器422还可以被配置为形成映射网络460以将表观代码z_a和相机姿势c投影或编码为中间表观代码w_a以用于内容合成。

生成器422还可以被配置为基于合成网络470中的中间表观代码w_a和中间运动代码w_m来生成时间和多维特征，例如，时空特征。在实施例中，可以基于用于每个合成帧或层的中间表观代码w_a和中间运动代码w_m来训练、建模和/或编码合成网络470。

通过在{t_i,t_j}处生成的多维特征，生成器422可以被配置为使用多平面网络480(例如，通过体积渲染)来合成具有相机姿势c_i和c_j的帧，其中，由于正在使用中间运动代码w_m，因此可以将时间分量添加到多平面网络中(例如，多维平面中)的空间表示。生成器422还可以被配置为对所渲染的帧进行上采样并用超分辨率模块490对其进行细化，例如，以在不丢失内容或定义特点的情况下放大图像。生成的视频可以具有512×512的分辨率。在训练期间，可以使用64的分辨率和48的采样步长来进行神经渲染。

在实施例中，鉴别器424可以包括图像鉴别器425和视频鉴别器426以监督生成器422的训练。图像鉴别器425/>可以被配置为使用相机姿势作为条件来指导生成器422学习正确的多帧先验以产生多视图一致的视频或肖像。相机姿势可以具有25个维度，其中16个用于外在维度，9个用于内在维度。即，生成模型420可以被配置为将生成的图像和来自数据集的原始图像输入到图像鉴别器425/>生成模型420可以被配置为独立地对每个生成的帧I_i(在时间步长t_i处)应用/>其可以被构造为：

其中p_img表示真/假概率。

在实施例中，视频鉴别器426可以通过在训练期间使生成器422在两个随机时间步长{t_i,t_j}处联合生成两个图像{I_i,I_j}来训练，以将视频鉴别器426/>相机调节为双帧视频鉴别器以促进运动合理的视频生成。在实施例中，生成模型420可以被配置为按通道拼接生成的两个图像{I_i,I_j}以形成图像对。生成模型420还可以被配置为将时间步长差Δt＝t_j-t_i与图像对拼接以帮助对时间信息进行编码。生成模型420然后可以被配置为将生成的图像和/或视频以及来自数据集的原始图像和/或视频输入到视频鉴别器426这样，视频鉴别器426/>被配置为基于从这个混合输入提取出的运动特征来学习区分真实图像对与生成的图像对。而且，视频鉴别器426/>还可以被配置为以相应当的相机姿势{c_i,c_j}为条件，以减轻运动模糊性和模型视图相关效应。

在实施例中，视频鉴别器426可以被构造为：

其中p_vid指示从真实数据分布中采样每个图像对的概率。应认识到的是，虽然视频鉴别器426可以仅从生成的视频中取来自16帧、32帧、96帧等的两个帧作为输入，但是视频鉴别器426/>可以能够有效地学习时间信息并帮助产生运动合理的结果，例如，视频/图像的真实性。还令人惊讶地发现，通过以两帧作为输入，训练效率和稳定性可以比以前以长序列作为条件的设计或框架得到提高。

在示例实施例中，图像鉴别器和视频鉴别器可以被配置为基于数据集确定合理的移动，例如，头部移动、嘴部移动等。

应认识到的是，虽然上面讨论了两个时间步长，但是生成器422可以采样两个或更多个时间步长，例如4、6、10个等时间步长，以及它们的对应相机姿势以用于细化模型，这可以取决于这种训练所需的处理时间。

在实施例中，生成器422可以被进一步训练以计算生成器损失以克服图像或帧的饱和，例如通过最大化用于生成的图像的鉴别器概率的对数、例如非饱和GAN损失。在实施例中，可以将图像鉴别器和视频鉴别器的非饱和GAN损失计算为和/>并且还可以计算R1正则化损失/>例如由模型或框架产生的误差。生成器422还可以被配置为计算生成的视频帧上的密度正则化L_σ。总损失可以被构造如下：

一旦多维感知生成模型经过训练，它就可以被部署并用于生成多维视频，例如，三维视频。

图5图示了根据示例实施例的由多维视频生成模型或框架生成的肖像视频的表示。用于静态图像肖像动画(例如，视频)的方法可以包括：向多维视频生成模型的多维感知生成器提供静态肖像，并由多维感知生成器生成静态肖像的动画。该生成可以包括将静态肖像转换到多维感知生成器的潜在空间中，以及使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码。合成可以包括在初始时间步长0处初始地固定多维感知生成器优化表观分量。该方法还可以包括形成用于在多个时间步长处对多维感知生成器的运动分量进行编码并构造中间运动代码的合成层，其中形成合成层可以包括固定表观分量并对样运动分量随机采。该方法还可以包括将时间动态引入到中间表观代码和中间运动代码中并且生成静态肖像的多维感知时空表示。

用于静态图像肖像动画的方法可以包括上述任何其它实施例中的任何步骤，包括但不限于：使用鉴别器模块，该鉴别器模块包括用于评估视频表观质量的图像鉴别器和用于保证视频运动真实性的视频鉴别器；以相机姿势为条件的图像鉴别器指导根据多维先验生成多维视频中的每一帧，以产生多视图一致的肖像；其中引入时间动态包括经由自适应实例归一化来调制静态表观特征，以结合时间动态来计算多维视频中每个时间步长处的运动特征；将运动分量与中间表观分量融合并且迭代地将融合的分量传递到下一合成层，以在每个时间步长处生成多维帧；对生成的多维感知时空表示进行体积渲染，以生成具有对应相机姿势的多维视频的合成帧；以及对体积渲染的所生成的多维感知时空表示进行上采样并使用超分辨率模块细化体积渲染的所生成的多维感知时空表示。

这样，多维视频生成模型或框架可以能够在某个时间步长处生成视频帧，而不是从第一帧自回归地生成。这种灵活的体系架构可以启用静态肖像动画。即，给定输入图像和估计的相机姿势，生成器可以是固定的，并且(一个或多个)潜在代码可以在时间步长t＝0处进行优化。转换在潜在向量空间(例如，W+空间，例如，具有18x512的尺寸)中执行。如图5中所示，基于多维感知生成模型的转换可以为输入帧产生高质量的多维形状。然后可以固定潜在代码并且可以随机采样运动代码以便以自然运动驱动肖像。利用通过多维感知生成器和多维视频生成模型或框架学习到的多维先验(例如，三维先验)，合成的视频也可以用任意视点进行渲染，例如，用自然的运动为静态肖像增添动画效果并合成具有多视图一致性的肖像视频。

图6图示了根据示例实施例的由多维视频生成模型或框架生成的重构视频和/或经编辑的视频的表示。用于视频重构和/或运动编辑的方法可以包括向多维视频生成模型的多维感知生成器提供单目视频，以及由多维感知生成器重构视频和/或编辑单目视频中的运动。该生成可以包括将单目视频转换到多维感知生成器的潜在空间中，以及使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码。合成可以包括在潜在空间中初始地固定多维感知生成器以优化表观分量。该方法还可以包括形成用于在多个时间步长处对多维感知生成器的运动分量进行编码的合成层并构造中间运动代码，其中形成合成层包括单独地转换视频中的每一帧的运动分量并对多个运动分量进行采样以多维地提供运动。该方法还可以包括将时间动态引入到中间表观代码和中间运动代码中并且生成单目视频的多维感知时空表示。

用于视频重构和/或运动编辑的方法可以包括上述任何其它实施例中的任何步骤，包括但不限于：使用鉴别器模块，该鉴别器模块包括用于评估视频表观质量的图像鉴别器和用于确保视频运动合理性的视频鉴别器；以相机姿势为条件的图像鉴别器根据多维先验指导多维视频中的每一帧的生成，以产生多视图一致的肖像；其中引入时间动态包括经由自适应实例归一化来调制静态表观特征，以结合时间动态来计算多维视频中每个时间步长处的运动特征；将运动分量与中间表观分量融合并且迭代地将融合的分量传递到下一合成层，以在每个时间步长处生成多维帧；对生成的多维感知时空表示进行体积渲染，以生成具有对应相机姿势的多维视频的合成帧；以及对体积渲染的所生成的多维感知时空表示进行上采样并使用超分辨率模块细化体积渲染的所生成的多维感知时空表示。

这样，给定视频及其预先估计的相机姿势序列，可以基于多维感知生成器来重构视频。在示例实施例中，可以通过优化潜在空间(例如，W+空间)中的中间表观代码(例如，)来生成视频内容。可以通过单独地转换每个视频帧的运动分量或代码z_m空间来生成运动分量。应认识到的是，由于运动分量或代码与表观分量或代码可以被松解，因此表观代码可以是固定的并且运动代码可以被采样以操纵多维域(例如，三维域)中的输入视频的运动。在示例实施例中，视频中的原始运动可以被更改或改变。这样，即使在任意视点，结果仍然可以维持多视图一致性。

图7是根据本文描述的至少一些实施例布置的适用于实现电子设备(例如，GPU或CPU)的示例计算机系统700的示意性结构图。应该理解的是，图7中所示的计算机系统仅用于说明目的，而不是限制本文所描述的实施例的功能和应用。

如所描绘的，计算机系统700可以包括中央处理单元(CPU)705。CPU 705可以基于存储在只读存储器(ROM)710中的程序或从存储设备740加载到随机存取存储器(RAM)715的程序来执行各种操作和处理。RAM 715还可以存储系统700的操作所需的各种数据和程序。CPU 705、ROM 710和RAM 715可以经由总线720彼此连接。输入/输出(I/O)接口725也可以连接到总线720。

连接到I/O接口725的组件还可以包括输入设备730，包括键盘、鼠标、数字笔、绘图板等；输出设备735，包括诸如液晶显示器(LCD)之类的显示器、扬声器等；存储设备740，包括硬盘等；以及通信设备745，包括诸如LAN卡、调制解调器等的网络接口卡。通信设备745可以经由诸如互联网、w_aN、LAN、LIN、云等的网络来执行通信处理。在实施例中，驱动器750还可以连接到I/O接口725。诸如磁盘、光盘、磁光盘、半导体存储器等的可移动介质755可以根据期望安装在驱动器750上，使得从可移动介质755读取的计算机程序可以安装在存储设备740中。

这样，可以提供多维视频生成模型或框架，该多维视频生成模型或框架可以通过基于运动分量、代码或特征以及时间步长调制表观分量、代码或特征生成时间多平面表示来合成多视图一致的视频(例如，肖像视频)，例如，使用多维隐式神经表示对时空空间进行建模。多维视频生成模型或框架可以包括多维感知图像生成器，其在给定随机噪声z、相机视点c和时间步长t的联合条件的情况下合成具有高质量多维几何形状的多视图一致的视频，而无需依赖3D几何形状或多视图监督。具体而言，多维视频生成模型或框架被配置为将潜在代码分解成表观和运动分量，包括基于时间多平面网络的运动生成器，在模型中调节相机姿势序列，并使用相机调节的视频鉴别器来显著提高视频保真度(例如，多样化的运动)，以及用于多维视频生成的动态多维几何质量(例如，3D肖像视频生成)。而且，多维视频生成模型或框架可以能够在单目2D视频集合上进行训练。

应理解的是，本文档中描述的所公开的和其它解决方案、示例、实施例、模块和功能操作可以以数字电子电路系统、或者以计算机软件、固件或硬件(包括本文档中公开的结构)以及它们的结构等同形式，或者它们中的一个或多个的组合来实现。所公开的和其它实施例可以被实现为一种或多种计算机程序产品，即，在计算机可读介质上编码的计算机程序指令的一个或多个模块，以由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质组成或它们中的一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器，作为示例包括可编程处理器、计算机、或多个处理器或计算机。除了硬件之外，装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们的一个或多个的组合的代码。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言)编写，并且它可以以任何形式进行部署，包括作为独立程序或作为适合在计算环境中使用的模块、部件、子例程或其它单元。计算机程序不一定与文件系统中的文件对应。程序可以存储在保存其它程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、专用于所讨论的程序的单个文件中，或多个协调的文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在位于一个站点或分布在多个站点并通过通信网络互连的一个计算机或多个计算机上执行。

本文档中描述的处理和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器来执行。处理和逻辑流程也可以由专用逻辑电路系统执行，并且装置也可以被实现为专用逻辑电路系统，例如，现场可编程门阵列或专用集成电路等。

适合于执行计算机程序的处理器作为示例包括通用微处理器和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。一般而言，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件包括用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。一般而言，计算机还将包括，或可操作地耦合以从其接收数据或向其传输数据或两者的一个或多个用于存储数据的大容量存储设备，例如，磁、磁光盘或光盘。但是，计算机不必具有此类设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，作为示例包括半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动盘；以及磁光盘。处理器和存储器可以由专用逻辑电路补充或并入其中。

应该理解的是，已经以各种细节示出和描述了不同的特征、变化和多个不同的实施例。在本申请中有时根据特定实施例描述的内容仅出于说明性目的，并且无意于限制或暗示所设想的只是一个特定实施例或具体实施例。应该理解的是，本公开不限于任何单个具体实施例或列举的变化。本领域技术人员将想到许多修改、变化和其它实施例，并且这些修改、变化和其它实施例旨在并且实际上被本公开所涵盖。实际上，本公开的范围应当由本公开的适当的法律解释和理解(包括等同形式)来确定，如本领域技术人员依赖于提交时存在的完整公开所理解的。

方面：

应该认识到的是，方面的任一者可以彼此组合。

方面1.一种用于生成多维视频的方法，该方法包括：向多维视频生成模型的多维感知生成器提供输入数据；由多维感知生成器通过以下操作从输入数据生成多维视频：将输入数据转换到多维感知生成器的潜在空间中；使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码；形成用于在多个时间步长处对多维感知生成器的运动分量进行编码的合成层并构造中间运动代码；将时间动态引入到中间表观代码和中间运动代码中；以及生成输入数据的多维感知时空表示。

方面2.根据方面1的方法，还包括：通过使用鉴别器模块从多维感知时空表示生成多维视频，该鉴别器模块包括用于评估视频表观质量的图像鉴别器和用于确保视频运动合理性的视频鉴别器。

方面3.根据方面1或2中任一项的方法，其中视频鉴别器是相机调节的双帧视频鉴别器，在训练期间通过以下操作实现：由生成器在不同的时间步长处联合生成两个图像，拼接生成的两个图像以形成图像对；将两个图像之间的时间步长差拼接到两个图像；以及基于从生成的两个图像中提取的运动特征和对应相机姿势来区分真实的图像对与生成的图像对。

方面4.根据方面2的方法，其中图像鉴别器使用相机姿势作为条件来指导根据多维先验生成多维视频中的每一帧以产生多视图一致的肖像。

方面5.根据方面1-4中的任一项的方法，其中引入时间动态包括：经由自适应实例归一化来调制静态表观特征以结合时间动态，以计算多维视频中的每个时间步长处的运动特征。

方面6.根据方面1-5中的任一项的方法，其中生成多维感知时空表示还包括：将运动分量与中间表观分量融合；以及将融合的分量迭代地传递到下一合成层，以在每个时间步长处生成多维帧。

方面7.根据方面1-6中的任一项的方法，还包括：对生成的多维感知时空表示进行体积渲染，以生成具有对应相机姿势的多维视频的合成帧。

方面8.根据方面7的方法，还包括：对体积渲染的所生成的多维感知时空表示进行上采样并使用超分辨率模块细化体积渲染的所生成的多维感知时空表示。

方面9.根据方面1-8中任一项的方法，其中合成层包括多个运动层。

方面10.根据方面9的方法，其中利用运动分量和时间步长对多个运动层中的每个运动层进行编码，以在每个时间步长处构造中间运动代码。

方面11.根据方面10的方法，其中在每个时间步长处构造中间运动代码包括：将运动代码乘以时间步长，利用修正的线性函数激活来执行轻量级映射头，以及使用多层感知器对运动代码和时间步长进行编码以在时间步长处构造中间运动代码。

方面12.根据方面1-11中任一项的方法，还包括：通过以下操作训练多维视频生成模型的所述生成器：将包括至少一个视频序列的单目二维视频的数据集获得到多维视频生成模型中；在两个时间步长处和对应相机姿势下对所述至少一个视频序列进行采样；通过将表观代码和相机姿势投影到中间表观代码中来合成样本视频序列；使用运动层将运动分量和两个时间步长编码为中间运动代码；从中间表观代码和中间运动代码生成两个时间步长处的时空特征；用对应相机姿势对合成帧进行体积渲染；使用图像鉴别器和视频鉴别器来区分合成帧的图像与视频，以监督多维视频生成模型的学习，其中图像鉴别器和视频鉴别器是相机调节的。

方面13.根据方面12的方法，还包括使用超分辨率模块对体积渲染的合成帧进行上采样并细化体积渲染的合成帧。

方面14.根据方面1-13中任一项的方法，其中该方法用于静态肖像动画，其中：输入数据是静态肖像图像，多维视频是静态肖像图像的动画，合成包括在初始时间步长0处初始地固定多维感知生成器以优化表观分量，并且形成合成层包括固定表观分量并对运动分量进行随机采样。

方面15.根据方面1-14中任一项的方法，其中该方法用于视频重构和/或运动编辑，其中：输入数据是单目视频，多维视频用于单目视频重构或运动编辑中的至少一者，合成包括在潜在空间中初始地固定多维感知生成器以优化表观分量，并且形成合成层包括单独转换针对单目视频中每个帧的运动分量并对多个运动分量进行采样以多维地提供运动。

方面16.一种其上存储有计算机可执行指令的非暂态计算机可读介质，计算机可执行指令在被执行时使得一个或多个处理器执行操作，该操作包括：向多维视频生成模型的多维感知生成器提供输入数据；由多维感知生成器通过以下操作从输入数据生成多维视频：将输入数据转换到多维感知生成器的潜在空间中；使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码；形成用于在多个时间步长处对多维感知生成器的运动分量进行编码的合成层并构造中间运动代码；将时间动态引入到中间表观代码和中间运动代码中；以及生成输入数据的多维感知时空表示。

方面17.根据方面16的非暂态计算机可读介质，其中操作用于静态肖像动画，其中：输入数据是静态肖像图像，多维视频是静态肖像图像的动画，合成包括在初始时间步长0处初始地固定多维感知生成器以优化表观分量，并且形成合成层包括固定表观分量并对运动分量进行随机采样。

方面18.根据方面16的非暂态计算机可读介质，其中操作用于视频重构和/或运动编辑，其中：输入数据是单目视频，多维视频用于单目视频重构或运动编辑中的至少一者，合成包括：在潜在空间中初始地固定多维感知生成器以优化表观分量，并且形成合成层包括：单独转换针对单目视频中每个帧的运动分量并对多个运动分量进行采样以多维地提供运动。

方面19.一种用于生成多维视频的多维视频生成模型的生成器，该生成器包括：控制逻辑模块，用于获得输入数据的输入；模型，用于通过以下操作从输入数据生成多维视频：将输入数据转换到多维感知生成器的潜在空间中；使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码；形成用于在多个时间步长处对多维感知生成器的运动分量进行编码的合成层并构造中间运动代码；将时间动态引入到中间表观代码和中间运动代码中；以及生成输入数据的多维感知时空表示。

方面20.根据方面19的生成器，其中：输入数据是静态肖像图像，多维视频是静态肖像图像的动画，合成包括在初始时间步长0处初始地固定多维感知生成器以优化表观分量，并且形成合成层包括固定表观分量并对运动分量进行随机采样。

方面21.一种用于静态肖像动画的方法，该方法包括：向多维视频生成模型的多维感知生成器提供静态肖像；由多维感知生成器通过以下操作生成静态肖像的动画：将静态肖像转换到多维感知生成器的潜在空间中；使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码，其中合成包括在初始时间步长0处初始地固定多维感知生成器以优化表观分量；形成用于在多个时间步长处对多维感知生成器的运动分量进行编码的合成层并构造中间运动代码，其中形成合成层包括固定表观分量并对运动分量进行随机采样；将时间动态引入到中间表观代码和中间运动代码中；生成静态肖像的多维感知时空表示。

方面22.一种其上存储有计算机可执行指令的非暂态计算机可读介质，计算机可执行指令在被执行时使一个或多个处理器执行操作，该操作包括：向多维视频生成模型的多维感知生成器提供静态肖像；由多维感知生成器通过以下操作生成静态肖像的动画：将静态肖像转换到多维感知生成器的潜在空间中；使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码，其中合成包括在初始时间步长0处初始地固定多维感知生成器以优化表观分量；形成用于在多个时间步长处对多维感知生成器的运动分量进行编码的合成层并构造中间运动代码，其中形成合成层包括固定表观分量并对运动分量进行随机采样；将时间动态引入到中间表观代码和中间运动代码中；以及生成静态肖像的多维感知时空表示。

方面23.一种用于视频重构和/或运动编辑的方法，该方法包括：向多维视频生成模型的多维感知生成器提供单目视频；由多维感知生成器通过以下操作重构视频和/或编辑单目视频中的运动：将单目视频转换到多维感知生成器的潜在空间中；使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码，其中该合成包括在潜在空间中初始地固定多维感知生成器以优化表观分量；形成用于在多个时间步长处对多维感知生成器的运动分量进行编码的合成层并构造中间运动代码，其中形成合成层包括单独转换针对视频中每个帧的运动分量并对多个运动分量进行采样以多维地提供运动；将时间动态引入到中间表观代码和中间运动代码中；生成单目视频的多维感知时空表示。

方面24.一种其上存储有计算机可执行指令的非暂态计算机可读介质，计算机可执行指令在被执行时使一个或多个处理器执行包括以下的操作：向多维视频生成模型的多维感知生成器提供单目视频；由多维感知生成器通过以下操作重构视频和/或编辑单目视频中的运动：将单目视频转换到多维感知生成器的潜在空间中；使用多维感知生成器的表观分量和对应相机姿势合成多维视频的内容并构造中间表观代码，其中该合成包括在潜在空间中初始地固定多维感知生成器以优化表观分量；形成用于在多个时间步长处对多维感知生成器的运动分量进行编码的合成层并构造中间运动代码，其中形成合成层包括单独转换针对视频中每个帧的运动分量并对多个运动分量进行采样以多维地提供运动；将时间动态引入到中间表观代码和中间运动代码中；以及生成单目视频的多维感知时空表示。

本说明书中使用的术语旨在描述特定实施例并且不旨在进行限制。除非另有明确指示，否则术语“一”、“一个”和“该”也包括复数形式。当在本说明书中使用时，术语“包括”和/或“包含”指定所陈述的特征、整数、步骤、操作、元素和/或组件的存在，但不排除一个或多个其它特征、整数、步骤、操作、元素和/或组件的存在或添加。

关于前面的描述，应该理解的是，在不脱离本公开的范围的情况下，可以进行细节上的改变，尤其是在所采用的构造材料以及零件的形状、尺寸和布置方面。本说明书和所描述的实施例仅仅是示例性的，本公开的真实范围和精神由以下权利要求来指示。

Claims

1.一种用于生成多维视频的方法，该方法包括：

向多维视频生成模型的多维感知生成器提供输入数据；

由所述多维感知生成器通过以下操作从所述输入数据生成所述多维视频：

将所述输入数据转换到所述多维感知生成器的潜在空间中；

使用所述多维感知生成器的表观分量和对应相机姿势合成所述多维视频的内容并构造中间表观代码；

形成用于在多个时间步长处对所述多维感知生成器的运动分量进行编码的合成层并构造中间运动代码；

将时间动态引入到所述中间表观代码和所述中间运动代码中；以及

生成所述输入数据的多维感知时空表示。

2.根据权利要求1所述的方法，还包括：通过使用鉴别器模块从所述多维感知时空表示生成所述多维视频，该鉴别器模块包括用于评估视频表观质量的图像鉴别器和用于确保视频运动合理性的视频鉴别器。

3.根据权利要求1所述的方法，其中所述视频鉴别器是相机调节的双帧视频鉴别器，在训练期间通过以下操作实现：

由所述生成器在不同的时间步长处联合地生成两个图像，

拼接所述生成的两个图像以形成图像对；

将所述两个图像之间的时间步长差拼接到所述两个图像；以及

基于从所述生成的两个图像中提取的运动特征和对应相机姿势来区分真实的图像对与生成的图像对。

4.根据权利要求2所述的方法，其中所述图像鉴别器使用相机姿势作为条件来指导根据多维先验生成所述多维视频中的每一帧以产生多视图一致的肖像。

5.根据权利要求1所述的方法，其中所述引入所述时间动态包括：经由自适应实例归一化来调制静态表观特征以结合所述时间动态，以计算所述多维视频中的每个时间步长处的运动特征。

6.根据权利要求1所述的方法，其中生成所述多维感知时空表示还包括：

将所述运动分量与所述中间表观分量融合；以及

将所述融合的分量迭代地传递到下一合成层，以在每个时间步长处生成多维帧。

7.根据权利要求1所述的方法，还包括：

对所述生成的多维感知时空表示进行体积渲染，以生成具有所述对应相机姿势的所述多维视频的合成帧。

8.根据权利要求7所述的方法，还包括：对所述体积渲染的所生成的多维感知时空表示进行上采样并使用超分辨率模块细化所述体积渲染的所生成的多维感知时空表示。

9.根据权利要求1所述的方法，其中所述合成层包括多个运动层。

10.根据权利要求9所述的方法，其中利用所述运动分量和时间步长对所述多个运动层中的每个运动层进行编码，以在每个时间步长处构造中间运动代码。

11.根据权利要求10所述的方法，其中在每个时间步长处的所述中间运动代码的所述构造包括：

将所述运动代码乘以所述时间步长，

利用修正的线性函数激活来执行轻量级映射，以及

使用多层感知器对所述运动代码和所述时间步长进行编码以在所述时间步长处构造中间运动代码。

12.根据权利要求1所述的方法，还包括：

通过以下操作训练所述多维视频生成模型的所述生成器：

将包括至少一个视频序列的单目二维视频的数据集获得到所述多维视频生成模型中；

在两个时间步长处和对应相机姿势下对所述至少一个视频序列进行采样；

通过将所述表观代码和所述相机姿势投影到所述中间表观代码中来合成所述样本视频序列；

使用运动层将所述运动分量和所述两个时间步长编码为所述中间运动代码；

从所述中间表观代码和所述中间运动代码生成所述两个时间步长处的时空特征；

用所述对应相机姿势对合成帧进行体积渲染；

使用图像鉴别器和视频鉴别器来区分所述合成帧的图像与视频，以监督所述多维视频生成模型的所述学习，

其中所述图像鉴别器和所述视频鉴别器是相机调节的。

13.根据权利要求12所述的方法，还包括：使用超分辨率模块对所述体积渲染的合成帧进行上采样并细化所述体积渲染的合成帧。

14.根据权利要求1所述的方法，其中该方法用于静态肖像动画，其中：

所述输入数据是静态肖像图像，

所述多维视频是所述静态肖像图像的动画，

所述合成包括：在初始时间步长0处初始地固定所述多维感知生成器以优化所述表观分量，以及

形成所述合成层包括：固定所述表观分量并对所述运动分量进行随机采样。

15.根据权利要求1所述的方法，其中该方法用于视频重构和/或运动编辑，其中：

所述输入数据是单目视频，

所述多维视频用于单目视频重构或运动编辑中的至少一者，

所述合成包括：在所述潜在空间中初始地固定所述多维感知生成器以优化所述表观分量，以及

形成所述合成层包括：单独转换针对所述单目视频中每个帧的所述运动分量并对多个运动分量进行采样以多维地提供运动。

16.一种其上存储有计算机可执行指令的非暂态计算机可读介质，所述计算机可执行指令在被执行时使得一个或多个处理器执行操作，所述操作包括：

向多维视频生成模型的多维感知生成器提供输入数据；

将所述输入数据转换到所述多维感知生成器的潜在空间中；

生成所述输入数据的多维感知时空表示。

17.根据权利要求16所述的非暂态计算机可读介质，其中所述操作用于静态肖像动画，其中：

所述输入数据是静态肖像图像，

所述多维视频是所述静态肖像图像的动画，

18.根据权利要求16所述的非暂态计算机可读介质，其中所述操作用于视频重构和/或运动编辑，其中：

所述输入数据是单目视频，

所述多维视频用于单目视频重构或运动编辑中的至少一者，

19.一种用于生成多维视频的多维视频生成模型的生成器，该生成器包括：

控制逻辑模块，用于获得输入数据的输入；

模型，用于通过以下操作从所述输入数据生成所述多维视频：

将所述输入数据转换到所述多维感知生成器的潜在空间中；

生成所述输入数据的多维感知时空表示。

20.根据权利要求19所述的生成器，其中：

所述输入数据是静态肖像图像，

所述多维视频是所述静态肖像图像的动画，