CN115633216A

CN115633216A - 时域运动一致性视频生成模型的训练方法和视频生成方法

Info

Publication number: CN115633216A
Application number: CN202211094961.4A
Authority: CN
Inventors: 史业民; 黄文灏; 舒彧; 董思维
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-01-20
Anticipated expiration: 2042-09-05
Also published as: CN115633216B

Abstract

本发明公开了时域运动一致性视频生成模型的训练方法和视频生成方法，属于视频生成技术领域。训练方法包括：获取当前训练样本对应的全局运动向量；基于各个原始帧图像、全局运动向量以及各个原始帧图像上一帧分别对应的反向传递的预测帧图像特征，训练预设的视频生成网络，输出当前训练样本对应的预测帧图像；应用预测帧图像及各个参考帧图像求解目标损失函数，以将视频生成网络训练为对应的时域运动一致性视频生成模型。通过引入多个原始帧图像，在训练阶段强制模型学习时域关联；通过设置多个参考帧图像，强制模型更加关注运动信息；通过使用时域一致性损失函数，驱动模型学习时间关联特征；通过采用特征反向前递，有效保证连续帧的变化一致性。

Description

时域运动一致性视频生成模型的训练方法和视频生成方法

技术领域

本发明涉及视频生成技术领域，尤其涉及一种时域运动一致性视频生成模型的训练方法和视频生成方法。

背景技术

目前，视频生成技术主要采用单个原始帧图像配合单个参考帧图像作为输入，显式或隐式提取两帧的关键点特征，通过计算两帧关键点的运动变换驱动模型训练，从而学习从原始帧到参考帧的映射。这种方法的主要问题在于：1.输入仅包含单帧图像，从而将视频生成任务简化为图片生成任务，而推理阶段则需要生成视频，导致训练与推理过程不一致；2.损失函数主要考虑单个视频帧的重构，而不关心时域多个视频帧的变化，从而无法提取时域特征，忽略了视频的时域连续性和依赖关系；3.视频帧生成过程仅依赖参考帧和当前帧信息，忽略了时间维的信息传递和依赖。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明第一方面提供了一种时域运动一致性视频生成模型的训练方法，包括：

获取当前训练样本对应的全局运动向量，其中，所述训练样本包括：多个参考帧图像和连续的多个原始帧图像；

基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征，训练预设的视频生成网络，以使该视频生成网络输出当前训练样本对应的预测帧图像；

应用所述预测帧图像及各个所述参考帧图像，求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数，以将该视频生成网络训练为对应的时域运动一致性视频生成模型。

优选地，所述视频生成网络包括：编码器、解码器和反向传递单元；

所述编码器用于对输入其中的当前帧的原始帧图像和所述反向传递单元回传的上一帧对应的预测帧图像特征进行特征提取及融合，并输出当前帧对应的融合特征和分辨率特征；

所述解码器用于根据输入其中的当前帧的所述融合特征、分辨率特征以及所述全局运动向量进行特征重组，并输出当前帧对应的预测帧图像特征及对应的预测帧图像；

所述反向传递单元用于将所述解码器输出的当前帧的所述预测帧图像特征回传至所述编码器，以使该编码器在对下一帧的原始帧图像进行特征提取及融合时应用该预测帧图像特征。

优选地，所述目标损失函数包括：帧重构损失函数和时域运动一致性损失函数之和；

其中，所述帧重构损失函数和所述时域运动一致性损失函数分别预先基于当前帧的预测帧图像特征和所述参考帧构建而得。

优选地，在所述获取当前训练样本对应的全局运动向量之前，还包括：

获取包括各个训练样本的训练数据，每个所述训练样本均包括多个原始帧图像和多个参考帧图像；

其中，所述原始帧图像包含有目标体的外观信息；所述参考帧图像包含有目标体在视频中的待执行动作信息。

优选地，所述获取当前训练样本对应的全局运动向量，包括：

分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点；

将各个所述原始帧图像对应的关键点分别与所有参考帧图像对应的关键点进行比较，分别得到各个所述原始帧图像上每个关键点的运动向量，并基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量；

根据所述局部运动向量和所述原始帧图像，获取当前训练样本对应的全局运动向量。

优选地，所述分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点，包括：

基于姿态估计网络对各个所述原始帧图像和各个所述参考帧图像进行关键点检测，分别得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点。

优选地，所述基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量包括：

基于各个所述原始帧图像上每个关键点及各个所述关键点的运动向量，构建局部高斯分布，以获取各个所述原始帧图像上每个关键点的局部运动向量。

优选地，所述根据所述局部运动向量和所述原始帧图像，获取当前训练样本对应的全局运动向量，包括：

将所述局部运动向量和所述原始帧图像输入运动估计网络中，预测得到当前训练样本对应的全局运动向量。

本发明第二方面提供了一种时域运动一致性视频生成方法，包括：

获取目标样本对应的全局运动向量，其中，所述目标样本包括：参考帧图像和原始帧图像；

将所述参考帧图像、原始帧图像和所述原始帧图像上一帧对应的反向传递的预测帧图像特征，输入时域运动一致性视频生成模型，使得该时域运动一致性视频生成模型输出对应的预测帧图像，以基于所述原始帧图像和所述预测帧图像生成具有时域运动一致性特性的视频；

其中，所述时域运动一致性视频生成模型预先基于第一方面所述的时域运动一致性视频生成模型的训练方法训练得到。

本发明第三方面提供了一种时域运动一致性视频生成模型的训练装置，包括：

全局运动向量获取模块，用于获取当前训练样本对应的全局运动向量，其中，所述训练样本包括：多个参考帧图像和连续的多个原始帧图像；

第一模型训练模块，用于基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征，训练预设的视频生成网络，以使该视频生成网络输出当前训练样本对应的预测帧图像；

第二模型训练模块，用于应用所述预测帧图像及各个所述参考帧图像，求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数，以将该视频生成网络训练为对应的时域运动一致性视频生成模型。

本发明第四方面提供了一种存储器，存储有多条指令，所述指令用于实现如第一方面所述的时域运动一致性视频生成模型的训练方法，或，实现如第二方面所述的时域运动一致性视频生成方法。

本发明第五方面提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如第一方面所述的时域运动一致性视频生成模型的训练方法，或，实现如第二方面所述的时域运动一致性视频生成方法。

本发明的有益效果是：本发明提供的时域运动一致性视频生成模型的训练方法和视频生成方法，通过引入多个原始帧图像输入，可以在训练阶段强制模型学习时域关联；通过设置多个参考帧图像，使得每个原始帧图像都可以对应多张目标图像，从而强制模型更加关注运动信息；通过使用时域一致性损失函数，驱动模型学习时间关联的特征；通过采用特征反向前递，有效保证连续帧的变化一致性。

附图说明

图1为本发明所述时域运动一致性视频生成模型的训练方法流程示意图；

图2为本发明所述时域运动一致性视频生成方法流程示意图；

图3为本发明所述时域运动一致性视频生成模型的训练装置的功能结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本发明实施例提供了一种时域运动一致性视频生成模型的训练方法，包括：

S101，获取当前训练样本对应的全局运动向量，其中，所述训练样本包括：多个参考帧图像和连续的多个原始帧图像；

S102，基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征，训练预设的视频生成网络，以使该视频生成网络输出当前训练样本对应的预测帧图像；

S103，应用所述预测帧图像及各个所述参考帧图像，求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数，以将该视频生成网络训练为对应的时域运动一致性视频生成模型。

可以理解的是，所述时域运动一致性视频生成模型是指：用于生成与输入其中的原始帧图像之间具备时域运动一致性的预测帧图像的视频生成模型。

在本申请的一个或多个实施例中，原始帧图像、参考帧图像及预测帧图像等均是指视频帧图像的不同状态或用途，其中，参考帧图像可以从原始帧图像中选取，预测帧图像用于作为预测得到的原始帧图像的后续视频帧图像，与原始帧图像构成对应的视频。

本发明以生成高质量连续视频帧为主要目的，其主要改进点在于引入多个原始帧图像输入，设置多个参考帧图像，并通过损失函数引入时域信息，同时采用时间维特征前递来实现时间维平滑。相对于现有技术方案，本发明主要优势在于能够预测复杂的时空运动特征，从而避免仅通过关键点运动控制带来的运动难以精细的问题。同时，由于引入了训练阶段的多帧图像的关联，可以使训练阶段与应用阶段流程一致，提高预测效果。通过引入多帧参考帧，本方法还可以充分利用每组随机数据的信息，提高数据利用率。通过引入时间维特征前递，提高连续帧的连续变化一致性，降低波动。

在本发明的一个优选实施例中，在所述获取当前训练样本对应的全局运动向量之前，还包括：

可以理解的是，所述目标体是指期望在后续应用时域运动一致性视频生成模型预测生成的视频中动作的物体或生命体。在一种优选方式中，该目标体可以为人体，相对应的，该目标体的外观信息包含有用于生成视频的人像，其主要为目标视频提供纹理、任务、穿着等外观信息。所述参考帧图像包含有希望目标体在视频中进行的动作信息，即在生成的视频中，目标人物应以参考帧中的动作呈现。

因此，基于包含有目标体的外观信息的原始帧图像以及包含有目标体在视频中的待执行动作信息的所述参考帧图像，能够使得所述时域运动一致性视频生成模型输出的视频可以为：所述目标体以所述外观信息及所述目标动作呈现的视频。

在步骤S101中，所述获取当前训练样本对应的全局运动向量，包括：

其中，所述分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点，可以采用如下方式进行实施：

在一个具体实施例中，姿态估计网络可以是已完成训练的网络，将其主干部分保留，并通过寻找最大值位置作为各关键点的位置。姿态估计网络需要应用在原始帧图像和参考帧图像，得到与之对应的两组关键点分别为p^s和p^r，每个关键点可表示为(x,y)。

获得关键点后，可以通过比较各个原始帧图像与所有参考帧图像的对应关键点位移，获得各个原始帧图像上每个关键点的运动向量，其计算过程可以表示为：

v^s＝p^s-p^r

其中，v^s为原始帧图像上每个关键点的运动向量；p^s为原始帧图像上的关键点；p^r为参考帧图像上的关键点。

进一步地，所述基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量包括：

基于各个所述原始帧图像上每个关键点及各个所述关键点的运动向量，构建局部高斯分布，以获取各个所述原始帧图像上每个关键点的局部运动向量。采用该方法，可以降低关键点检测误差及运动向量误差。具体的，可以以原始帧图像上的关键点p^s为中心，以原始帧图像上每个关键点的运动向量v^s为参数，构建局部高斯分布，以获取各个所述原始帧图像上每个关键点的局部运动向量。其计算过程可以为：

d_i＝‖p_i-p^s‖₂

其中，i为距离原始帧图像上每个关键点距离小于阈值的所有点的索引，v^s为原始帧图像上每个关键点的运动向量；p^s为原始帧图像上的关键点；p_i为距离p^s小于阈值的第i个点，d_i为p_i至p^s的欧氏距离，v_i为p_i对应位置的局部高斯值。

在本发明的一个优选实施例中，所述根据所述局部运动向量和所述原始帧图像，获取当前训练样本对应的全局运动向量可以包括：

由于局部运动向量仅能表示单个点附近的运动，无法反应其他部分的运动，本发明实施例进一步引入基于运动估计网络的全局运动向量预测技术。其关键结构采用自动编码器架构，使用预训练光流网络作为初始化参数，以局部运动向量和原始帧图像作为输入，输出为光流矩阵，即全局运动向量。

在步骤S102中，所述视频生成网络包括：编码器、解码器和反向传递单元；

其中，编码器可以由3层以上卷积层构成，通过下采样或卷积补偿实现降分辨率。为了降低训练难度，可采用其他预训练的主干网络，如ResNet、VGG等，保留其卷积部分，最后一层分辨率一般可以采用7x7或13x13。

解码器可以由多层反卷积层构成，并通过反池化实现分辨率提升。为了实现下一帧的预测，解码器在每次升分辨率后，同时以当前帧的所述融合特征、分辨率特征以及所述全局运动向量作为输入，从而通过多分辨率特征实现更精确的图像生成。

反向传递单元主要功能是实现特征图在时间维的传递。具体来说，在每一帧生成过程中，都以前一帧的最后一层解码器特征作为额外输入，与原始帧进行通道维拼接，输入编码器进行特征提取。在第一帧生成时，由于没有前一帧，则使用相同分辨率的全零矩阵作为传递的特征。

在步骤S103中，所述目标损失函数包括：帧重构损失函数和时域运动一致性损失函数之和；

帧重构损失函数可表示为：

时域运动一致性损失函数可表示为：

目标损失函数可表示为：

L＝L_r+L_t

其中，

为当前帧的预测帧，f_r为参考帧，j表示当前为第j帧，L_r为帧重构损失函数，L_t为时域运动一致性损失函数，L为目标损失函数，K表示第j帧对应的所有预测结果的总数，p表示第j帧的第p个预测。

实施例二

如图2所示，本发明实施例提供了一种时域运动一致性视频生成方法，包括：

S201，获取目标样本对应的全局运动向量，其中，所述目标样本包括：参考帧图像和原始帧图像；

S202，将所述参考帧图像、原始帧图像和所述原始帧图像上一帧对应的反向传递的预测帧图像特征，输入时域运动一致性视频生成模型，使得该时域运动一致性视频生成模型输出对应的预测帧图像，以基于所述原始帧图像和所述预测帧图像生成具有时域运动一致性特性的视频；

其中，所述时域运动一致性视频生成模型预先基于实施例一所述的时域运动一致性视频生成模型的训练方法训练得到。

实施例三

如图3所示，本发明实施例提供了一种时域运动一致性视频生成模型的训练装置，包括：

全局运动向量获取模块301，用于获取当前训练样本对应的全局运动向量，其中，所述训练样本包括：多个参考帧图像和连续的多个原始帧图像；

第一模型训练模块302，用于基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征，训练预设的视频生成网络，以使该视频生成网络输出当前训练样本对应的预测帧图像；

第二模型训练模块303，用于应用所述预测帧图像及各个所述参考帧图像，求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数，以将该视频生成网络训练为对应的时域运动一致性视频生成模型。

其中，所述视频生成网络包括：编码器、解码器和反向传递单元；

所述目标损失函数包括：帧重构损失函数和时域运动一致性损失函数之和；

进一步地，在所述获取当前训练样本对应的全局运动向量之前，还包括：

具体地，所述获取当前训练样本对应的全局运动向量，包括：

进一步地，所述分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点，包括：

进一步地，所述根据所述局部运动向量和所述原始帧图像，获取当前训练样本对应的全局运动向量，包括：

该装置可通过上述实施例一提供的时域运动一致性视频生成模型的训练方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的时域运动一致性视频生成模型的训练方法，或，实现如实施例二所述的时域运动一致性视频生成方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的时域运动一致性视频生成模型的训练方法，或，实现如实施例二所述的时域运动一致性视频生成方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种时域运动一致性视频生成模型的训练方法，其特征在于，包括：

2.如权利要求1所述的时域运动一致性视频生成模型的训练方法，其特征在于，所述视频生成网络包括：编码器、解码器和反向传递单元；

3.如权利要2所述的时域运动一致性视频生成模型的训练方法，其特征在于，所述目标损失函数包括：帧重构损失函数和时域运动一致性损失函数之和；

4.如权利要求1所述的时域运动一致性视频生成模型的训练方法，其特征在于，在所述获取当前训练样本对应的全局运动向量之前，还包括：

5.如权利要求1所述的时域运动一致性视频生成模型的训练方法，其特征在于，所述获取当前训练样本对应的全局运动向量，包括：

6.如权利要求5所述的时域运动一致性视频生成模型的训练方法，其特征在于，所述分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点，包括：

7.如权利要求5所述的时域运动一致性视频生成模型的训练方法，其特征在于，所述基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量包括：

8.如权利要求5所述的时域运动一致性视频生成模型的训练方法，其特征在于，所述根据所述局部运动向量和所述原始帧图像，获取当前训练样本对应的全局运动向量，包括：

9.一种时域运动一致性视频生成方法，其特征在于，包括：

其中，所述时域运动一致性视频生成模型预先基于权利要求1至8任一项所述的时域运动一致性视频生成模型的训练方法训练得到。

10.一种时域运动一致性视频生成模型的训练装置，其特征在于，包括：

11.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求1-8任一项所述的时域运动一致性视频生成模型的训练方法，或，实现如权利要求9所述的时域运动一致性视频生成方法。

12.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求1-8任一项所述的时域运动一致性视频生成模型的训练方法，或，实现如权利要求9所述的时域运动一致性视频生成方法。