CN117315054A

CN117315054A - 一种双向增强的对抗视频预测方法

Info

Publication number: CN117315054A
Application number: CN202311124502.0A
Authority: CN
Inventors: 赵生捷; 朱培源; 邓浩
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-12-29

Abstract

本发明涉及一种双向增强的对抗视频预测方法，该方法包括以下步骤：构建双向增强随机对抗视频预测框架，包括两组变分自编码器‑生成对抗网络，分别用于顺序预测和逆序预测；其中，输入的视频帧序列依次经过顺序预测的编码器、逆序预测的解码器和编码器、顺序预测的解码器进行循环重建；采用训练好的双向增强随机对抗视频预测框架进行视频预测。与现有技术相比，本发明可预测生成更高质量的视频帧序列。

Description

一种双向增强的对抗视频预测方法

技术领域

本发明涉及视频预测技术领域，尤其是涉及一种双向增强的对抗视频预测方法。

背景技术

视频预测在人类行为、交通流量、台风降雨等预测任务上具有较高的应用价值。视频预测根据已有的视频帧序列，生成包含原始像素的未来视频帧序列，可呈现运动体的未来动作信息。

视频中运动体的动作可能是复杂多样且随时间不断变化的，在短时间内，预测未来的几帧可以得到比较精准的帧预测，但是仅仅几帧之后，伴随着空间信息，概率空间急剧变化，这使得视频预测的未来本质上变成了多模态。如何发掘这种长时间预测的不确定性，仍是一个难题。

确定性视频预测：循环神经网络被广泛用于确定性视频预测来建模视频当中的时间依赖。ConvLSTM将FC-LSTM扩展，使得在输入到状态的转换和状态到状态的转换中都具有卷积结构，从而更好地捕获时空关联。PredRNN能够使记忆状态沿着堆叠RNN层的竖直方向和所有RNN状态的水平方向更新；更新通过一种ST-LSTM单元进行，该单元能够同时捕获和记忆时空表示特征。视频预测的一大挑战就是运动体的运动是高动态性和随机性的。基于RNN的确定性视频预测方法在精度方面能够取得较为理想的结果。然而，确定的预测视频输出会将所有可能的未来平均起来，它们的预测结果为确定的，并且与数据集高度拟合。使用确定性模型和损失函数的方法无法处理物体运动这种固有的不确定性，例如均方误差(MSE)，将对可能的未来进行平均，从而产生模糊的预测。

随机视频预测：对运动体未来运动的不确定性建模，这些方法主要基于VAE或者GAN。VAE通过训练一个隐变量模型完成预测。VoxelFlow是传统光流预测和自编码器相结合的架构，该架构将现有的视频帧中有关像素的移动编码为精确的3D像素特征表示。SV2P能够根据潜在变量的每个样本生成不同可能的未来。基于VAE的方法虽然能对不同可能的未来建模分布，但预测分布仍然完全因素分解到像素上，这往往会产生模糊的预测。

GAN在生成器与判别器互相对抗的过程中可以做到逼真的生成，近来常被用于视频预测。Vondrick et al.使用一个时空卷积架构从背景出提取前景，并使用GANs做无条件的视频生成。MocoGAN使用一个随机变量序列来生成预测的视频帧，其中每个随机变量都包含了实体与动作信息。然而，GANs很容易在基于条件时面临模式坍塌，随机隐变量容易被模型忽略，从而难以根据观测视频帧生成真实的未来帧。此外，现有方法在基于视频序列的公用潜在空间建模空间上少有行之有效的尝试。

因此，亟需设计一种可预测生成更高质量视频帧序列的视频预测方法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种双向增强的对抗视频预测方法，可预测生成更高质量的视频帧序列。

本发明的目的可以通过以下技术方案来实现：

本发明提供了一种双向增强的对抗视频预测方法，该方法包括以下步骤：

构建双向增强随机对抗视频预测框架，包括两组变分自编码器-生成对抗网络，分别用于顺序预测和逆序预测；其中，输入的视频帧序列依次经过顺序预测的编码器、逆序预测的解码器和编码器、顺序预测的解码器进行循环重建；

采用训练好的双向增强随机对抗视频预测框架进行视频预测。

优选地，每组变分自编码器-生成对抗网络包括一编码器E用来进行变分推断，一个生成器G用来生成顺序/逆序的视频预测，和一个判别器D用来分辨重建和方向转换后的帧序列是否真实；其中，k＝1表示顺序预测，k＝2表示逆序预测，即顺序预测使用E₁，G₁和D₁，逆序预测使用E₂，G₂和D₂。

优选地，两组变分自编码器-生成对抗网络间存在双向数据共享潜在空间，具体为：

对于顺序视频帧序列x⁽¹⁾和逆序视频帧序列x⁽²⁾，定义存在共享的隐变量序列z，可覆盖两种方向的分布且能由任何一种方向的分布生成z；

将编码器E₁和E₂最后c₁层权重共享，生成器G₁和G₂开始c₂层的权重共享，构建双向数据共享潜在空间，其中，c₁、c₂为设定值。

优选地，对于双向数据共享潜在空间，使用表示与潜在空间关联的先验高斯分布，其得到的隐变量用作常规预测、自我重建和循环重建。

优选地，所述顺序预测情况下的自我重建和循环重建过程，具体为：

自我重建：真实的邻接帧与上一时刻的/>构成帧组，经编码器E₁编码为隐变量/>生成器以隐变量/>为条件生成下一时刻帧/>实现自我重建；

循环重建：顺序预测的依次经过E₁,G₂,E₂,G₁进行循环重建。

优选地，所述循环重建具体为：当前时刻真值的与上一时刻真值的/>经编码器E₁编码为隐变量/>将隐变量/>与/>输入至生成器G₂，生成的/>经编码器E₂编码后得到隐变量/>将隐变量/>与/>一起输入至生成器G₁，生成当前时刻的重建帧其中，/>通过循环重建损失/>进行训练；

将与/>输入至判别器D₁进行分辨，将/>与/>输入至判别器D₂进行分辨。

优选地，对于生成器，包括在对抗生成网络中使用先验分布进行隐变量采样，以及在变分自编码器中使用编码器编码邻接帧近似估计后验分布进行隐变量采样；两种分布通过最小化KL散度损失连接对抗生成网络和变分自编码器。

优选地，所述双向增强随机对抗视频预测框架优化的目标函数表达式为：

式中，为变分自编码器的目标函数；/>为生成对抗网络GAN的目标函数；/>为循环一致性约束对应的目标函数；

使用交替式训练法进行训练，训练过程具体为：首先，固定E₁、E₂、G₁和G₂，更新D₁和D₂；然后，固定D₁和D₂，并更新E₁,E₂,G₁和G₂。

优选地，所述变分自编码器的目标函数中包括有KL散度来规范近似后验对于先验分布p(z_t-1)的近似项；

所述循环一致性约束对应的目标函数包括用于对偏离先验分布的潜码做出惩罚的KL项、以及用于确保顺序预测经2次方向转换后还原原始输入的项。

优选地，所述生成对抗网络GAN的目标函数包括作为常规对抗损失项、用于自我重建的损失项、以及用于循环重建的损失项；

其中，用于循环重建的损失项使用分布的潜码采样，表征方向为k的预测所对应的反方向的近似后验分布。

与现有技术相比，本发明具有以下有益效果：

(1)本发明构建的双向增强随机对抗视频预测框架，通过两组变分自编码器-生成对抗网络，分别用于顺序预测和逆序预测，充分利用相邻帧之间2种不同方向的转换关系，充分挖掘像素运动趋势变化与长时间预测的不确定性，使得逆向预测能为正向预测提供额外有用信息，提高了视频预测结果的准确性，可适应时空变化的各种预测场景，生成真实且多样的轨迹。

(2)根据双向数据共享潜在空间的假设和循环一致性在图像转换的优势，使用循环一致性进一步促进双向帧序列潜在空间的统一和共享，从而增强顺序预测，为顺序预测提供捕捉长期时间依赖的更多信息；通过权重共享和循环一致性建立两种视频方向域的联合分布，确保潜在联合分布的公用与一致，使得逆向预测对顺序预测起到增强作用；通过循环一致性损失保证公用潜在空间的统一性，通过逆序预测的辅助，使得顺序预测能够更精准地把握动作的时空变化。

附图说明

图1为本发明的双向增强随机对抗视频预测框架示意图；

图2为本发明的用于双向预测的VAE-GANs结构示意图；

图3为方向转换过程示意图；

图4为KTH数据集上4种模型随时间逐帧的指标变化量化结果；

图5为实施例中Moving-MNIST数据集的定性结果；

图6为实施例中KTH数据集的定性结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

本实施例提供了一种双向增强的对抗视频预测方法，该方法通过构建双向增强随机对抗视频预测框架BEAVP，包括两组变分自编码器-生成对抗网络(VAE-GAN)，分别用于随机的顺序预测和逆序预测；其中，输入的视频帧序列依次经过顺序预测的编码器、逆序预测的解码器和编码器、顺序预测的解码器进行循环重建。

接下来，对本实施例的方法进行详细介绍。

双向增强随机对抗视频预测框架，充分利用相邻帧之间2种不同方向的转换关系，使得逆向预测能为正向预测提供额外有用信息。两种不同方向的视频帧序列看作2个不同的视频域，其中顺序预测使用原始的视频数据集训练，而逆向视频序列使用原始数据集逆序处理后进行训练。

双向增强随机对抗视频预测框架基于VAE-GANs，如图1所示，包括6个子网络，分别为2个视频序列编码器E₁和E₂，针对2个domain的帧生成器G₁和G₂，和2个对抗网络的判别器D₁和D₂。其中顺序预测使用E₁、G₁和D₁，逆序预测使用E₂、G₂和D₂。

分解后更详细的结构参见图2和3。下文用上标(k)表示两种方向预测的输入输出与中间变量，其中，k＝1表示顺序预测，k＝2表示逆序预测。

为了在推导的时候记录方便，将初始的视频帧序列(2张视频帧)记为使用最初始的1帧。

训练时，以顺序预测为例，生成器被期望学习到一个确定性映射，将最初的视频帧和一个隐变量序列/>映射到一个预测的未来帧序列/>隐变量序列囊括了各种影响未来预测的因素和两种预测的互相作用；其中，T为序列长度。

假设双向数据共享潜在空间，使用表示与潜在空间关联的先验高斯分布，其得到的潜在变量用作常规预测、自我重建和循环重建的条件。

在测试的时候，从先验高斯分布p(z_t)获得隐变量序列，并输入到生成器中指挥生成器的生成。

该框架由一对VAE-GAN组成。每个VAE-GAN包含一编码器来进行变分推断，一个生成器用来生成某一种顺序上的视频预测，和一个判别器用来分辨重建和方向转换后的帧序列是否真实的。和/>表示重建后的视频帧，/>表示方向转换后的视频帧。

将编码器E₁和E₂最后c₁层权重共享(使用虚线表示)，生成器G₁和G₂开始c₂层的权重共享，构建双向数据共享潜在空间，其中，c₁、c₂为设定值。

权重共享和循环一致性的方向转换促进两个方向增强预测的公用潜在空间的共享与统一。

生成器接受一张先前时刻的帧以及一个隐变量来生成当前时刻的帧。其中该先前时刻的帧记作表示该帧可能是初始阶段的ground truth/>或者是上一个预测结果/>在单独的GANs模块，使用先验分布采样隐变量；而在VAE模块，使用编码器编码邻接帧近似估计后验分布采样隐变量。两种分布通过最小化KL散度损失建立单独GANs模块和VAE模块的桥梁。

VAE-GANs：使用一对VAE-GANs分别用于顺序预测和逆序预测。对于某单一方向的预测，这部分结构和SAVP是类似的。VAE-GANs由E_k,G_k和D_k组成，k＝1表示顺序预测，k＝2表示逆序预测。

对顺序预测来说，生成器G₁既需要在单独的GANs部分，从先验分布采样；也需要在单独的VAE的部分对条件概率分布/>建模，其中该分布使用固定方差的拉普拉斯分布，均值由/>给定。

数据似然通过隐变量的后验概率密度函数/>难以直接最大化，需要通过变分推断来近似估计；因此使用一个/>参数化的分布来对其进行近似。/>通过编码器/>建模。由深度神经网络组成的编码器接受相邻的顺序帧，包含来自帧顺序转换的各种模糊信息。近似的分布将会/>采样得到用于生成的隐变量/>

训练时，真实的邻接帧与上一时刻的/>构成帧组经编码器E₁编码为隐变量生成器以该隐变量为条件生成下一时刻帧/>即为连接了VAE与GANs的自我重建过程。

判别器D₁用于分辨是真实的帧样本还是生成器G₁生成的帧样本，并分别输出true和false。在实做上，使用三个二分类的分类器来分别针对常规生成器生成、自我重建、循环重建三种生成样本判别。逆序预测则基于另一组VAE-GANs，与顺序预测过程近乎一样。

权重共享：作出了双向数据共享潜在空间的假设，也就是针对顺序和逆序的视频帧序列x⁽¹⁾和x⁽²⁾，存在一个共享的隐变量序列z，使得能够覆盖两种方向的分布，并且能够由任何一种方向的分布生成z。先前工作已经展示了权重共享在促进这个潜在空间统一且共享的作用。通过共享编码器最后几层和生成器最初几层的权重，可以促进双向帧序列潜在空间的统一和共享。

循环一致性：逆向预测与顺序预测可以抓住同一物体邻近帧间的不同转换关系，这使得双向数据共享潜在空间具有天然的适应性。根据双向数据共享潜在空间的假设和循环一致性在图像翻译的优势，使用循环一致性可以进一步促进双向帧序列潜在空间的统一和共享，从而增强顺序预测，为顺序预测提供捕捉长期时间依赖的更多信息。

定义转换函数F_1→2可以将顺序的视频帧序列映射到逆序：

类似地，有：

建立了单个方向转换的循环一致性约束：

图4说明了方向转换的过程。

顺序预测的依次经过E₁,G₂,E₂,G₁得到重建。

使用表示循环重建损失。

学习：从VAE、GAN和循环一致性三个损失部分进行框架优化。

对于单帧的优化目标为最大化对数似然，这可以通过转化为对最大化对数似然下界ELBO的优化：

根据VAE中的假设服从参数为/>(位置参数),β(尺度参数)的拉普拉斯分布。其中/>是生成网络的输出，因此可以得到上式第1项的简化形式如下：

其中C为常量。根据上述推导，将对数似然下界ELBO扩展到时间序列上，取得VAE部分的目标函数：

第一项中，为编码器即推断网络的分布，本文中由/>对其建模；第二项为KL散度损失/>其中/>表示KL散度，用来规范近似后验对于先验分布p(z_t-1)的近似；λ₁,λ₂对上面的2项的权重进行控制。

用于循环重建的GAN部分的目标函数如下：

其中，潜码为从分布采样，该分布为方向为k的预测所对应的反方向的近似后验分布。

循环重建的判别器通过学习使得全部2种方向转换后的帧序列与对应的目标真实序列尽可能地接近。对于GAN目标函数，引入了与相似的/>和/>项，但分别使用从分布/>和公用潜在分布/>采样潜码并分别作为常规对抗损失和用于自我重建。这三项损失的影响分别由λ₃,λ₄,λ₅控制。

损失函数

式中，分别使用从分布/> 采样潜码，分别作为常规对抗损失、用于自我重建、用于循环重建；

循环一致性约束：

式中，两个KL项用于对偏离先验分布的潜码做出惩罚；最后一项用于确保顺序预测经2次方向转换后尽可能还原原始输入；λ₆和λ₇用于控制两种不同类别的目标项的权重。

框架目标函数：

使用交替式训练法构建共享潜在空间：

首先，固定E₁、E₂、G₁和G₂，更新D₁和D₂；

然后，固定D₁和D₂，并更新E₁,E₂,G₁和G₂。

实验设置

数据集：在两个广泛用于视频预测的数据集上检验的方法。手写数字移动数据集MovingMNIST包含了所有手写的阿拉伯数字的多种变化，包括旋转、位移、放大、缩小。人体动作数据集KTH囊括了4种不同场景、不同人物所做的6个常见人类动作：走路、慢跑、快跑、拳击、拍手和挥手。设置帧序列的长度为20，并以前10帧为条件，来预测后面的10帧。顺序预测使用原始的数据集，而逆序预测对原始数据集逆序处理，得到在反方向的视频帧序列。两种方向预测的序列都会按照设置的序列长度在训练时和测试时随机采样。

评估指标：

对于量化评估，使用了3种常用的逐帧的评估指标：PSNR、SSIM和LPIPS。其中LPIPS和其他两种不同，它是一种与人类的判断更加相关的感知指标。对于前两种指标，越高的数值对应约好的结果，而LPIPS相反。

实现细节：

使用Adam优化器训练模型，初始的学习率为0.0002，指数衰减率0.25。根据验证集上的指标计算结果，超参数λ₁到λ₇分别被设置为1000,0.1,100,10,10,0.1,1000。每个mini-batch都包含了一个在顺序和逆序的帧序列。

与现有方法比较：

将本发明的方法与几种基于图像生成的state-of-the-art的视频预测方法进行了比较。包括：SV2P的时间变化变体、SVG-LP、SAVP及基于VAE的变体、和SLAMP。本发明的方法在KTH数据集的四种指标上取得了优秀成绩，如表1所示。

本发明的方法在SSIM、PSNR和LPIPS指标上，相比其他state-of-the-art方法取得了最优结果。相比较同样基于VAE-GANs的SAVP，本发明的方法在LPIPS上提升了超过20％的性能。根据图4，BEAVP在随时间步的逐帧预测中性能下降较其他方法更为迟缓，在长时间的预测中仍然保持一定程度更优的预测能力。在图5和图6分别展示了Moving-MNIST和KTH数据集的量化结果，其中SV2P使用的是time-variant的变体。在图6中，3种方法均能在预测前10帧图像上均能完成直观的语义建模，可以根据图像清晰判断人物动作。在t＝26及以后的帧中，本发明的方法依然能保持清晰建模的能力，可以捕捉到人物运动的时序长期依赖。

表1 KTH数据集上不同指标的平均评估结果

方法	SSIM↑	PSNR↑	LPIPS↓
				SV2P time-variant	0.79	26.11	0.21
SVG-LP	0.77	24.03	0.14
				SAVP-VAE	0.77	25.98	0.13
SAVP	0.68	23.90	0.12
				SLAMP	0.80	24.85	0.10
BEAVP(本发明)	0.82	26.87	0.09

图4为KTH数据集上4种模型随时间逐帧的指标变化量化结果。所有的模型以初始的10帧为条件，然后预测未来的30帧。在20帧加粗的竖线表示模型本身是为了预测未来10帧而训练的。对所有测试视频的平均PSNR、SSIM和LPIPS均以95％置信区间阴影绘制。更高的PSNR和SSIM表示更好的结果，而更低的LPIPS表示更好的结果。

图6KTH数据集的定性结果，共展示了三种样例，分别为预测人类的击掌、慢跑和快跑。由于哪怕在单一方向的视频预测中，像素的移动也并不是同步的，总的来说，人体动作呈现反向同步性，例如一个人往前走，双臂总有一个运动趋势向前，另一个向后。而KTH数据集含有丰富的人体这种反复的反向同步的视频数据，的模型能够充分利用逆向预测的有规律的人体动作信息来增强顺序预测，实现更好的预测性能。

消融实验

在KTH数据集上通过移除架构中的关键组件的消融实验来验证各组件的有效性，如表2所示。由于逆序预测使用了相反方向的行人运动数据，使用双向预测的架构，认为这本身是进行一种数据增强，但是仅仅使用这一组件使得逆序预测的额外信息仍然没有充分挖掘。但是在此基础上使用权重共享，则激励LPIPS从0.20降到0.15。类似地，拥有循环一致性的结构，使得逆序预测轨迹参与方向翻译，LPIPS从0.20降到0.13.最终，同时利用权重共享和循环一致性，就会结合两者的优点，使得所有指标上的性能都得到提升。

表2消融实验

双向架构	权重共享	循环一致性损失	PSNR↑	SSIM↑	LPIPS↓
									24.50	0.75	0.21
√			24.79	0.75	0.20
						√	√		26.05	0.77	0.15
√		√	25.70	0.78	0.13
						√	√	√	26.56	0.82	0.10

综上，本发明提出的双向增强的随机视频预测框架，假设潜在空间的双向共享，并通过权重共享和循环一致性建立了正向预测和逆向预测之间的桥梁，在定量和定性评估方面的有说服力的结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种双向增强的对抗视频预测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种双向增强的对抗视频预测方法，其特征在于，每组变分自编码器-生成对抗网络包括一编码器E用来进行变分推断，一个生成器G用来生成顺序/逆序的视频预测，和一个判别器D用来分辨重建和方向转换后的帧序列是否真实；其中，k＝1表示顺序预测，k＝2表示逆序预测，即顺序预测使用E₁，G₁和D₁，逆序预测使用E₂，G₂和D₂。

3.根据权利要求2所述的一种双向增强的对抗视频预测方法，其特征在于，两组变分自编码器-生成对抗网络间存在双向数据共享潜在空间，具体为：

4.根据权利要求3所述的一种双向增强的对抗视频预测方法，其特征在于，对于双向数据共享潜在空间，使用表示与潜在空间关联的先验高斯分布，其得到的隐变量用作常规预测、自我重建和循环重建。

5.根据权利要求4所述的一种双向增强的对抗视频预测方法，其特征在于，所述顺序预测情况下的自我重建和循环重建过程，具体为：

自我重建：真实的邻接帧与上一时刻的/>构成帧组，经编码器E₁编码为隐变量生成器以隐变量/>为条件生成下一时刻帧/>实现自我重建；

6.根据权利要求5所述的一种双向增强的对抗视频预测方法，其特征在于，所述循环重建具体为：当前时刻真值的与上一时刻真值的/>经编码器E₁编码为隐变量/>将隐变量/>与/>输入至生成器G₂，生成的/>经编码器E₂编码后得到隐变量/>将隐变量与/>一起输入至生成器G₁，生成当前时刻的重建帧/>其中，/>通过循环重建损失/>进行训练；

7.根据权利要求3所述的一种双向增强的对抗视频预测方法，其特征在于，对于生成器，包括在对抗生成网络中使用先验分布进行隐变量采样，以及在变分自编码器中使用编码器编码邻接帧近似估计后验分布进行隐变量采样；两种分布通过最小化KL散度损失连接对抗生成网络和变分自编码器。

8.根据权利要求7所述的一种双向增强的对抗视频预测方法，其特征在于，所述双向增强随机对抗视频预测框架优化的目标函数表达式为：

9.根据权利要求8所述的一种双向增强的对抗视频预测方法，其特征在于，所述变分自编码器的目标函数中包括有KL散度来规范近似后验/>对于先验分布p(z_t-1)的近似项；

10.根据权利要求8所述的一种双向增强的对抗视频预测方法，其特征在于，所述生成对抗网络GAN的目标函数包括作为常规对抗损失项、用于自我重建的损失项、以及用于循环重建的损失项；