CN114760497A

CN114760497A - 视频生成方法、非易失性存储介质及电子设备

Info

Publication number: CN114760497A
Application number: CN202110024753.6A
Authority: CN
Inventors: 杨凌波; 高占宁; 任沛然; 谢宣松
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2022-07-15

Abstract

本申请公开了一种视频生成方法、非易失性存储介质及电子设备。其中，该方法包括：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。本申请解决了现有技术中生成动作视频的质量较低，且存在较为明显的时域抖动和跳变的技术问题。

Description

视频生成方法、非易失性存储介质及电子设备

技术领域

本申请涉及视频处理领域，具体而言，涉及一种视频生成方法、非易失性存储介质及电子设备。

背景技术

人物动作视频生成，也称为“静转动”，目标是根据给定静态图像，通过姿态驱动的编辑手段生成新的运动视频，让图像中的人物动起来。这一问题在电商宣传，智能视觉创作，影视制作等方向均有应用需求。

现有技术中，受到算法复杂度的限制，通常只能处理256分辨率的人体图像，且生成视频质量较低，时域一致性较差，存在较为明显的抖动和跳变(flickering)。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视频生成方法、非易失性存储介质及电子设备，以至少解决现有技术中生成动作视频的质量较低，且存在较为明显的时域抖动和跳变的技术问题。

根据本申请实施例的一个方面，提供了一种视频生成方法，包括：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。

根据本申请实施例的另一方面，还提供了另一种视频生成方法，包括：接收当前输入的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；将上述源图像和上述驱动视频发送至服务端；接收来自于上述服务端的目标视频，其中，上述目标视频由上述服务端基于上述源图像和上述驱动视频生成；在客户端本地播放上述目标视频。

根据本申请实施例的另一方面，还提供了另一种视频生成方法，包括：接收来自于客户端的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频；向上述客户端返回上述目标视频，并在上述客户端本地播放上述目标视频。

根据本申请实施例的另一方面，还提供了又一种视频生成方法，包括：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；将上述源图像和上述驱动视频输入至第一粒度网络模型，得到目标运动流数据，其中，上述第一粒度网络模型用于基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计；将上述源图像和上述目标运动流数据输入至第二粒度网络模型，得到目标视频，其中，上述第二粒度网络模型包括：至少一个编码层和至少一个重建层，上述至少一个编码层用于获取上述源图像的多尺度图像特征，上述至少一个重建层用于利用上述目标运动流数据和上述多尺度图像特征获取多个目标视频帧。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行任意一项上述的视频生成方法。

根据本申请实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。

在本申请实施例中，通过获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。

容易注意到的是，本申请实施例基于给定的源图像和驱动视频，根据源图像中携带的目标对象的外观信息，以及驱动视频中携带的目标对象的动作信息，采用深度神经网络进行处理生成目标视频。

由此，本申请实施例达到了生成时域动作较为连贯、高分辨率且细节逼真的动作视频的目的，从而实现了提升生成动作视频的质量的技术效果，进而解决了现有技术中生成动作视频的质量较低，且存在较为明显的时域抖动和跳变的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现视频生成方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种视频生成方法的流程图；

图3是根据本申请实施例的一种视频生成方法的场景示意图；

图4是根据本申请实施例的另一种视频生成方法的流程图；

图5是根据本申请实施例的另一种视频生成方法的流程图；

图6是根据本申请实施例的又一种视频生成方法的流程图；

图7是根据本申请实施例的一种视频生成装置的结构示意图；

图8是根据本申请实施例的另一种视频生成装置的结构示意图；

图9是根据本申请实施例的又一种视频生成装置的结构示意图；

图10是根据本申请实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本申请实施例，提供了一种视频生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现视频生成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的视频生成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的一种视频生成方法。图2是根据本申请实施例的一种视频生成方法的流程图，如图2所示，上述视频生成方法，包括：

步骤S202，获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；

步骤S204，基于上述源图像和上述驱动视频生成目标视频。

可选的，在本申请实施例中，上述目标对象可以为人物、动物、机器人等，上述目标视频为动作视频；例如，以上述目标对象为人物为例，上述源图像为人物图像，上述驱动视频为人物驱动视频，上述目标视频为人物动作视频，以上述目标对象为动物为例，上述源图像为动物图像，上述驱动视频为动物驱动视频，上述目标视频为动物动作视频。

需要说明的是，本申请实施例可以但不限于应用于网上购物平台、直播平台，及其他需要生成动作视频的场景中，可以显著增强生成视频的分辨率和连贯性。

本申请实施例所提供的视频生成方法其实质包含一种新颖的动作视频生成框架，结合多尺度特征迁移和内蕴时域一致性约束，能够生成时域连续，细节丰富逼真的高分辨率人物动作视频(例如，512*512的人物动作视频，而现有技术的视频生成水平仅能达到256*256)，具有一定实用价值和经济价值。

可选的，本申请实施例所提出的高分辨率人物视频生成框架，可以支持生成512*512高质量的动作视频；并且，基于本申请实施例所提供的新颖的内蕴时域一致性约束方案，能够有效解决现有技术所生成的动作视频存在高分辨率运动估计的不准确的技术问题，在较大程度上有效减轻或避免出现生成动作视频所存在的时域抖动、闪烁等现象。

在一种可选的实施例中，基于上述源图像和上述驱动视频生成上述目标视频包括：

步骤S302，基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到目标运动流数据；

步骤S304，利用上述源图像和上述目标运动流数据逐帧确定多个目标视频帧，并将上述多个目标视频帧合成为上述目标视频。

以上述目标对象为人物，上述目标视频为人物动作视频为例，如图3所示，本申请实施例提供了一种人物动作视频生成框架，根据给定源图像S和驱动视频D，生成一段目标视频O，该目标视频O中的人物外观信息和源图像S一致，动作信息和驱动视频D一致。

需要说明的是，本申请实施例中的动作视频生成算法，采用逐帧生成的方式，基于源图像和驱动视频合成目标视频，图3中展示的是生成第t帧时的视频生成方法的流程图以及相应的模型训练策略。具体分为以下两个步骤：

在一种可选的实施例中，上述步骤S302，基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到上述目标运动流数据包括：

步骤S402，基于上述源图像和上述驱动视频的多个不同时刻中每个时刻对应的驱动帧逐帧进行多尺度运动估计，得到初始运动流数据；

步骤S404，对上述初始运动流数据进行上采样处理，得到上述目标运动流数据。

在本申请实施例中，仍如图3所示，驱动视频D(Driving Video)中包含的多个不同时刻的驱动帧(Driving Frame，即D_t、D_t-1等等)。

作为一种可选的实施例，多尺度运动估计(Motion Fieled Refiner)是指采用深度神经网络处理给定的源图像S和驱动视频D中包含的多个不同时刻的驱动帧中t时刻的驱动帧D_t(即如图3所示的Base Motion Estimator处理)，得到最粗尺度(分辨率最小)的初始运动流F_t(0),再经对该初始运动流F_t(0)进行上采样处理，得到若干层更为精细的目标运动流F_t(1),F_t(2)...等等(需要说明的是，图3中画了4层对上述若干层进行示意说明，但还可以为其他任意层数，因此层数的多寡均应纳入本申请实施例范围内)。

在一种可选的实施例中，上述步骤S304，利用上述源图像和上述目标运动流数据逐帧确定上述多个目标视频帧，并将上述多个目标视频帧合成为上述目标视频包括：

步骤S502，将上述源图像输入至少一个编码层，输出多尺度图像特征；

步骤S504，对上述目标运动流数据中与上述多尺度图像特征中每个尺度图像特征对应的数据流进行空域变换，输出变换结果；

步骤S506，将上述多尺度图像特征和上述变换结果输入至少一个重建层，输出上述多个目标视频帧，并将上述多个目标视频帧合成为上述目标视频。

在本申请实施例中，仍如图3所示，本申请实施例中基于多个目标视频帧合成目标视频的生成过程(Progressive Fusion Generator)中，通过渐进式生成目标视频帧的方式，例如，通过将给定的源图像S，经若干个编码层操作获得多尺度图像特征，再经过若干个重建层得到输出帧O_t。此外，每个尺度的图像特征还需经估计出的目标运动流数据与其相应尺度下的数据流进行空域变换(即如图3所示的w)，并将多尺度图像特征和输出的变换结果输入到相应的重建层中(即如图3所示的Inverse Warping)，输出上述多个目标视频帧，并将上述多个目标视频帧合成为上述目标视频。

需要说明的是，在本申请实施例中，上述多尺度运动估计和视频帧的生成网络均可以有任意多层，不受如图3所示的训练阶段示意图的限制。

在一种可选的实施例中，上述方法还包括：

步骤S602，基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到权重矩阵，其中，上述权重矩阵用于在深度神经网络的训练过程中进行时域一致性约束损失计算。

此外，基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，该深度神经网络模型还输出一个取值在[0,1]内的权重矩阵A，用于训练阶段进行时域一致性约束损失计算(如图3中所示的Intrinsic Attention Map)。

在一种可选的实施例中，上述方法还包括：

步骤S702，将待训练视频中相邻的第一视频帧和第二视频帧输入至预先训练完毕的光流估计模型，输出上述第二视频帧至上述第一视频帧的光流，其中，上述待训练视频与上述目标视频相同，上述第一视频帧为当前时刻的视频帧，上述第二视频帧为上一个时刻的视频帧；

步骤S704，采用上述光流对当前时刻的目标视频帧进行空域变换，得到变换后图像帧；

步骤S706，利用上述权重矩阵计算上述变换后图像帧与上述第二视频帧之间的加权距离；

步骤S708，利用上述加权距离调节上述变换后图像帧。

在本申请实施例中，在视频生成的深度神经网络模型的训练阶段，生成算法采用监督训练，假设所要生成的目标视频(Generated Video)存在，记为I.实践中，取输入的源图像S为目标视频的第一帧，即，令S＝D_0即可。

如图3所示的右侧部分是训练函数计算部分，其可以但不限于包括如下步骤(需要说明的是，待深度神经网络模型训练完成之后则不需要执行该如下步骤)：将目标视频当前帧I_t(即第一视频帧)和上一帧I_{t-1}(即第二视频帧)输入一个预训练好的光流估计模型，提取从t-1帧到t帧的光流f_t。

采用光流f_t对当前生成帧O_t进行空域变换，得到变换后图像帧W_{t-1}；采用上述多尺度运动估计处理中得到的权重矩阵A乘以变换后图像帧W_{t-1}和I_{t-1}之间的加权距离(即为图3中的Intrinsic Temporal loss)：

加权距离L_{intrinsic}＝||(W_{t-1}-I_{t-1})*A||；

在本申请实施例中，在得到加权距离之后，利用上述加权距离调节上述变换后图像帧W_{t-1}。

可选的，上述多尺度运动估计处理得到的加权距离可以扩展到多个尺度，相应地，本申请实施例所使用的权重矩阵A也可以在多个尺度上进行运动估计处理。

需要说明的是，在本申请实施例中，上述光流估计模型的类型并不局限，既可以是传统算法也可以是深度神经网络。如果是深度神经网络，可以不必提前预训练，而是可以和本申请实施例中的深度神经网络生成模型一起执行端到端训练，不影响本申请实施例的适用性。

本申请实施例所提出的多尺度运动估计处理一方面改善了当前算法在估计高分辨率光流时的问题(有问题的部分可以通过加低权重减少影响)，另一方面提供了一种直接连到前端运动估计模块，使得梯度可以直接获取而不需要通过整个生成网络反向传播，从而提升了模型训练的稳定性，进而基于本方案提出的视频生成实施例可以生成高分辨率，细节逼真的动作视频，且时域动作较为连贯。

根据本申请实施例，提供了如图4所示的另一种视频生成方法。图4是根据本申请实施例的另一种视频生成方法的流程图，如图4所示，上述视频生成方法，包括：

步骤S802，接收当前输入的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；

步骤S804，将上述源图像和上述驱动视频发送至服务端；

步骤S806，接收来自于上述服务端的目标视频，其中，上述目标视频由上述服务端基于上述源图像和上述驱动视频生成；

步骤S808，在客户端本地播放上述目标视频。

在本申请实施例中，通过接收当前输入的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；将上述源图像和上述驱动视频发送至服务端；接收来自于上述服务端的目标视频，其中，上述目标视频由上述服务端基于上述源图像和上述驱动视频生成；在客户端本地播放上述目标视频。

需要说明的是，本申请实施例的执行主体为SaaS客户端，容易注意到的是，本申请实施例客户端将将上述源图像和上述驱动视频发送至服务端，服务端基于给定的源图像和驱动视频，根据源图像中携带的目标对象的外观信息，以及驱动视频中携带的目标对象的动作信息，采用深度神经网络进行处理生成目标视频，客户端将接收到的来自于上述服务端的目标视频在客户端本地播放。

根据本申请实施例，提供了如图5所示的另一种视频生成方法。图5是根据本申请实施例的另一种视频生成方法的流程图，如图5所示，上述视频生成方法，包括：

步骤S902，接收来自于客户端的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；

步骤S902，基于上述源图像和上述驱动视频生成目标视频；

步骤S902，向上述客户端返回上述目标视频，并在上述客户端本地播放上述目标视频。

在本申请实施例中，通过接收来自于客户端的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频；向上述客户端返回上述目标视频，并在上述客户端本地播放上述目标视频。

需要说明的是，本申请实施例的执行主体为SaaS服务端，容易注意到的是，本申请实施例客户端将将上述源图像和上述驱动视频发送至服务端，服务端基于给定的源图像和驱动视频，根据源图像中携带的目标对象的外观信息，以及驱动视频中携带的目标对象的动作信息，采用深度神经网络进行处理生成目标视频，客户端将接收到的来自于上述服务端的目标视频在客户端本地播放。

根据本申请实施例，提供了如图6所示的另一种视频生成方法。图6是根据本申请实施例的又一种视频生成方法的流程图，如图6所示，上述视频生成方法，包括：

步骤S1002，获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；

步骤S1004，将上述源图像和上述驱动视频输入至第一粒度网络模型，得到目标运动流数据，其中，上述第一粒度网络模型用于基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计；

步骤S1006，将上述源图像和上述目标运动流数据输入至第二粒度网络模型，得到目标视频，其中，上述第二粒度网络模型包括：至少一个编码层和至少一个重建层，上述至少一个编码层用于获取上述源图像的多尺度图像特征，上述至少一个重建层用于利用上述目标运动流数据和上述多尺度图像特征获取多个目标视频帧。

在本申请实施例中，通过获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；将上述源图像和上述驱动视频输入至第一粒度网络模型，得到目标运动流数据，其中，上述第一粒度网络模型用于基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计；将上述源图像和上述目标运动流数据输入至第二粒度网络模型，得到目标视频，其中，上述第二粒度网络模型包括：至少一个编码层和至少一个重建层，上述至少一个编码层用于获取上述源图像的多尺度图像特征，上述至少一个重建层用于利用上述目标运动流数据和上述多尺度图像特征获取多个目标视频帧。

容易注意到的是，本申请实施例基于给定的源图像和驱动视频，根据源图像中携带的目标对象的外观信息，以及驱动视频中携带的目标对象的动作信息，将上述源图像和上述驱动视频输入至第一粒度网络模型，得到目标运动流数据，以及将上述源图像和上述目标运动流数据输入至第二粒度网络模型，得到目标视频。

可选的，上述第一粒度网络模型用于基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计；上述第二粒度网络模型包括：至少一个编码层和至少一个重建层，上述至少一个编码层用于获取上述源图像的多尺度图像特征，上述至少一个重建层用于利用上述目标运动流数据和上述多尺度图像特征获取多个目标视频帧。

作为一种可选的实施例，本申请实施例所提出的高分辨率人物视频生成框架，可以支持生成512*512高质量的动作视频；并且，基于本申请实施例所提供的新颖的内蕴时域一致性约束方案，能够有效解决现有技术所生成的动作视频存在高分辨率运动估计的不准确的技术问题，在较大程度上有效减轻或避免出现生成动作视频所存在的时域抖动、闪烁等现象。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例上述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述视频生成方法的装置实施例，图7是根据本申请实施例的一种视频生成装置的结构示意图，如图7所示，该装置包括：获取模块600和第一生成模块602，其中：

获取模块600，用于获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；第一生成模块602，用于基于上述源图像和上述驱动视频生成目标视频。

此处需要说明的是，上述获取模块600和第一生成模块602对应于实施例1中的步骤S202至步骤S204，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本申请实施例，还提供了另一种用于实施上述视频生成方法的装置实施例，图8是根据本申请实施例的另一种视频生成装置的结构示意图，如图8所示，该装置包括：第一接收模块700、发送模块702、第二接收模块704和播放模块706，其中：

第一接收模块700，用于接收当前输入的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；发送模块702，用于将上述源图像和上述驱动视频发送至服务端；第二接收模块704，用于接收来自于上述服务端的目标视频，其中，上述目标视频由上述服务端基于上述源图像和上述驱动视频生成；播放模块706，用于在客户端本地播放上述目标视频。

此处需要说明的是，上述第一接收模块700、发送模块702、第二接收模块704和播放模块706对应于实施例1中的步骤S802至步骤S908，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本申请实施例，还提供了另一种用于实施上述视频生成方法的装置实施例，图9是根据本申请实施例的另一种视频生成装置的结构示意图，如图9所示，该装置包括：第三接收模块800、第二生成模块802和处理模块804，其中：

第三接收模块800，用于接收来自于客户端的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；第二生成模块802，用于基于上述源图像和上述驱动视频生成目标视频；处理模块804，用于向上述客户端返回上述目标视频，并在上述客户端本地播放上述目标视频。

此处需要说明的是，上述第三接收模块800、第二生成模块802和处理模块804对应于实施例1中的步骤S902至步骤S904，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本申请实施例，还提供了一种电子设备的实施例，该电子设备可以是计算设备群中的任意一个计算设备。该电子设备包括：处理器和存储器，其中：

处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。

实施例4

根据本申请的实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的视频生成方法中以下步骤的程序代码：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。

可选地，图10是根据本申请实施例的另一种计算机终端的结构框图，如图10所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器902、存储器904、以及外设接口906。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的视频生成方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频生成方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。

可选的，上述处理器还可以执行如下步骤的程序代码：基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到目标运动流数据；利用上述源图像和上述目标运动流数据逐帧确定多个目标视频帧，并将上述多个目标视频帧合成为上述目标视频。

可选的，上述处理器还可以执行如下步骤的程序代码：基于上述源图像和上述驱动视频的多个不同时刻中每个时刻对应的驱动帧逐帧进行多尺度运动估计，得到初始运动流数据；对上述初始运动流数据进行上采样处理，得到上述目标运动流数据。

可选的，上述处理器还可以执行如下步骤的程序代码：将上述源图像输入至少一个编码层，输出多尺度图像特征；对上述目标运动流数据中与上述多尺度图像特征中每个尺度图像特征对应的数据流进行空域变换，输出变换结果；将上述多尺度图像特征和上述变换结果输入至少一个重建层，输出上述多个目标视频帧，并将上述多个目标视频帧合成为上述目标视频。

可选的，上述处理器还可以执行如下步骤的程序代码：基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到权重矩阵，其中，上述权重矩阵用于在深度神经网络的训练过程中进行时域一致性约束损失计算。

可选的，上述处理器还可以执行如下步骤的程序代码：将待训练视频中相邻的第一视频帧和第二视频帧输入至预先训练完毕的光流估计模型，输出上述第二视频帧至上述第一视频帧的光流，其中，上述待训练视频与上述目标视频相同，上述第一视频帧为当前时刻的视频帧，上述第二视频帧为上一个时刻的视频帧；采用上述光流对当前时刻的目标视频帧进行空域变换，得到变换后图像帧；利用上述权重矩阵计算上述变换后图像帧与上述第二视频帧之间的加权距离；利用上述加权距离调节上述变换后图像帧。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收当前输入的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；将上述源图像和上述驱动视频发送至服务端；接收来自于上述服务端的目标视频，其中，上述目标视频由上述服务端基于上述源图像和上述驱动视频生成；在客户端本地播放上述目标视频。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收来自于客户端的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频；向上述客户端返回上述目标视频，并在上述客户端本地播放上述目标视频。

采用本申请实施例，提供了一种视频生成方案。通过获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-OnlyMemory，ROM)、随机存取器(RandomAccessMemory，RAM)、磁盘或光盘等。

实施例5

根据本申请的实施例，还提供了一种非易失性存储介质的实施例。可选地，在本实施例中，上述非易失性存储介质可以用于保存上述实施例1所提供的视频生成方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到目标运动流数据；利用上述源图像和上述目标运动流数据逐帧确定多个目标视频帧，并将上述多个目标视频帧合成为上述目标视频。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述源图像和上述驱动视频的多个不同时刻中每个时刻对应的驱动帧逐帧进行多尺度运动估计，得到初始运动流数据；对上述初始运动流数据进行上采样处理，得到上述目标运动流数据。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将上述源图像输入至少一个编码层，输出多尺度图像特征；对上述目标运动流数据中与上述多尺度图像特征中每个尺度图像特征对应的数据流进行空域变换，输出变换结果；将上述多尺度图像特征和上述变换结果输入至少一个重建层，输出上述多个目标视频帧，并将上述多个目标视频帧合成为上述目标视频。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述源图像和上述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到权重矩阵，其中，上述权重矩阵用于在深度神经网络的训练过程中进行时域一致性约束损失计算。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将待训练视频中相邻的第一视频帧和第二视频帧输入至预先训练完毕的光流估计模型，输出上述第二视频帧至上述第一视频帧的光流，其中，上述待训练视频与上述目标视频相同，上述第一视频帧为当前时刻的视频帧，上述第二视频帧为上一个时刻的视频帧；采用上述光流对当前时刻的目标视频帧进行空域变换，得到变换后图像帧；利用上述权重矩阵计算上述变换后图像帧与上述第二视频帧之间的加权距离；利用上述加权距离调节上述变换后图像帧。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收当前输入的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；将上述源图像和上述驱动视频发送至服务端；接收来自于上述服务端的目标视频，其中，上述目标视频由上述服务端基于上述源图像和上述驱动视频生成；在客户端本地播放上述目标视频。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收来自于客户端的源图像和驱动视频，其中，上述源图像用于描述目标对象的外观信息，上述驱动视频用于描述上述目标对象的动作信息；基于上述源图像和上述驱动视频生成目标视频；向上述客户端返回上述目标视频，并在上述客户端本地播放上述目标视频。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频生成方法，其特征在于，包括：

获取源图像和驱动视频，其中，所述源图像用于描述目标对象的外观信息，所述驱动视频用于描述所述目标对象的动作信息；

基于所述源图像和所述驱动视频生成目标视频。

2.根据权利要求1所述的视频生成方法，其特征在于，基于所述源图像和所述驱动视频生成所述目标视频包括：

基于所述源图像和所述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到目标运动流数据；

利用所述源图像和所述目标运动流数据逐帧确定多个目标视频帧，并将所述多个目标视频帧合成为所述目标视频。

3.根据权利要求2所述的视频生成方法，其特征在于，基于所述源图像和所述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到所述目标运动流数据包括：

基于所述源图像和所述驱动视频的多个不同时刻中每个时刻对应的驱动帧逐帧进行多尺度运动估计，得到初始运动流数据；

对所述初始运动流数据进行上采样处理，得到所述目标运动流数据。

4.根据权利要求2所述的视频生成方法，其特征在于，利用所述源图像和所述目标运动流数据逐帧确定所述多个目标视频帧，并将所述多个目标视频帧合成为所述目标视频包括：

将所述源图像输入至少一个编码层，输出多尺度图像特征；

对所述目标运动流数据中与所述多尺度图像特征中每个尺度图像特征对应的数据流进行空域变换，输出变换结果；

将所述多尺度图像特征和所述变换结果输入至少一个重建层，输出所述多个目标视频帧，并将所述多个目标视频帧合成为所述目标视频。

5.根据权利要求4所述的视频生成方法，其特征在于，所述方法还包括：

基于所述源图像和所述驱动视频中包含的驱动帧逐帧进行多尺度运动估计，得到权重矩阵，其中，所述权重矩阵用于在深度神经网络的训练过程中进行时域一致性约束损失计算。

6.根据权利要求5所述的视频生成方法，其特征在于，所述方法还包括：

将待训练视频中相邻的第一视频帧和第二视频帧输入至预先训练完毕的光流估计模型，输出所述第二视频帧至所述第一视频帧的光流，其中，所述待训练视频与所述目标视频相同，所述第一视频帧为当前时刻的视频帧，所述第二视频帧为上一个时刻的视频帧；

采用所述光流对当前时刻的目标视频帧进行空域变换，得到变换后图像帧；

利用所述权重矩阵计算所述变换后图像帧与所述第二视频帧之间的加权距离；

利用所述加权距离调节所述变换后图像帧。

7.一种视频生成方法，其特征在于，包括：

接收当前输入的源图像和驱动视频，其中，所述源图像用于描述目标对象的外观信息，所述驱动视频用于描述所述目标对象的动作信息；

将所述源图像和所述驱动视频发送至服务端；

接收来自于所述服务端的目标视频，其中，所述目标视频由所述服务端基于所述源图像和所述驱动视频生成；

在客户端本地播放所述目标视频。

8.一种视频生成方法，其特征在于，包括：

接收来自于客户端的源图像和驱动视频，其中，所述源图像用于描述目标对象的外观信息，所述驱动视频用于描述所述目标对象的动作信息；

基于所述源图像和所述驱动视频生成目标视频；

向所述客户端返回所述目标视频，并在所述客户端本地播放所述目标视频。

9.一种视频生成方法，其特征在于，包括：

将所述源图像和所述驱动视频输入至第一粒度网络模型，得到目标运动流数据，其中，所述第一粒度网络模型用于基于所述源图像和所述驱动视频中包含的驱动帧逐帧进行多尺度运动估计；

将所述源图像和所述目标运动流数据输入至第二粒度网络模型，得到目标视频，其中，所述第二粒度网络模型包括：至少一个编码层和至少一个重建层，所述至少一个编码层用于获取所述源图像的多尺度图像特征，所述至少一个重建层用于利用所述目标运动流数据和所述多尺度图像特征获取多个目标视频帧。

10.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至9中任意一项所述的视频生成方法。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

基于所述源图像和所述驱动视频生成目标视频。