CN113422952B

CN113422952B - 基于时空传播层次编解码器的视频预测方法

Info

Publication number: CN113422952B
Application number: CN202110534056.5A
Authority: CN
Inventors: 李平; 张陈翰; 王然; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-05-31
Anticipated expiration: 2041-05-17
Also published as: CN113422952A

Abstract

本发明公开了基于时空传播层次编解码器的视频预测方法。本发明方法首先对给定的原始视频进行采样获得帧序列并输入至低层视觉记忆编码器，得到低层视觉编码特征和低层记忆状态特征；然后分别利用时空传播模块从低层视觉编码表示中提取时空编码特征，以及通过高层语义编码器提取高层语义特征；再将得到的低层视觉编码特征、低层记忆状态特征和高层语义编码特征通过层次特征解码器进行信息融合，输出预测视频帧。本发明方法不仅能够将低层视觉记忆特征和高层语义特征相融合，并通过时空传播模块使得低层视觉信息沿时序方向传播，还能利用视频首帧的先验知识一定程度上解决视频帧模糊问题，从整体上提高预测视频帧的清晰度和视觉质量。

Description

基于时空传播层次编解码器的视频预测方法

技术领域

本发明属于计算机视觉领域，尤其是视频感知中的视频预测技术领域，涉及一种基于时空传播层次编解码器的视频预测方法。

背景技术

在互联网+时代，每天都有成千上万的视频在各类终端设备上产生，视频感知受到了学界和业界的广泛关注，而视频预测则是其中一个充满挑战而又具有较高应用价值的视觉任务。该任务其旨在给定部分视频段的情况下，生成后续时刻的视频段。视频预测在雷达气象图预测、交通流预测、机器人物体交互预测、无人驾驶等实际场景有着广泛的应用。例如，在无人驾驶环境中，传统的雷达测距只能对近距离车辆交互情况进行判断，而视频预测能够利用视觉信息对道路上的行人与车辆进行预测，辅助自动驾驶系统的驾驶操作，规避行人车辆，从而保障驾驶员和乘客的安全。视频预测主要遇到的困难包括视频中物体的外观随着时间和拍摄光照发生变化，长期预测造成的图像模糊等等。

传统视频预测方法都是基于神经元模型，研究者们通过改变神经元间的连接方式和权重变化规则获取更好的性能。但这类方法只能应用于简单符号组成的画面，无法对真实视频进行预测。近年来，以神经网络为主要研究对象的深度学习被广泛应用于计算机视觉的各个领域，促使许多研究者开始使用深度学习技术来解决视频预测问题。比如研究者提出采用堆叠多个卷积长短期神经网络(ConvLSTM：Convolutional Long-Short TimeMemory)的方法，以此增强对时间和空间信息的学习能力，从而得到更清晰的预测结果，也有研究者通过往ConvLSTM中增加更多的模块来提高视频预测性能。另外，基于双流的网络架构被广泛地运用到视频预测领域，其主要思想是将视频分为内容和动作两个部分分别进行预测，再将两部分融合得到最终预测视频。同时，为了预测多个未来视频帧，自递归方法被广泛运用到视频预测领域，将网络生成的视频帧作为输入再次送入网络当中，得到下一时刻的视频帧，反复进行如上操作，以此实现多视频帧预测。

上述方法的不足点主要表现在以下几个方面：第一，堆叠多个ConvLSTM的方法没有将学习到的低层视觉特征和高层语义特征很好地融合，没有充分利用学习到的特征，导致预测结果仍然存在模糊的情况；第二，基于双流架构的视频预测方法没有将视频的低层视觉特征在时序上进行有效的传播，导致预测视频中对象轮廓的位置不够准确；第三，自递归方法通过将网络生成的视频帧再次送入网络来实现多视频帧的视频预测，但网络生成的视频帧中存在误差，它们会由于这种形式不断累积，导致在多视频帧预测后期出现模糊的情况。因此，为了缓解不同层次特征融合不够充分、视频对象轮廓位置不够准确以及预测后期出现模糊等问题，迫切需要一种能融合不同层次特征，并提供更准确轮廓位置信息同时能缓解误差累积的方法，从而提高视频预测的准确性。

发明内容

本发明的目的就是针对现有技术的不足，提供基于时空传播层次编解码器的视频预测方法，不仅将低层视觉编码特征与高层语义特征相融合，还能通过时空传播机制对低层视觉信息的时空特性进行刻画，同时利用视频首帧为后续帧的预测提供先验知识，从而获得视觉内容更加清晰的视频预测帧。

本发明方法首先获取原始视频数据集合，然后依次进行如下操作：

步骤(1)对每个视频进行采样，获得视频帧序列，并将其输入至低层视觉记忆编码器中，输出对应的低层视觉编码特征和低层记忆状态特征；

步骤(2)将低层视觉编码特征输入至时空传播模块，输出时空编码特征；

步骤(3)构建高层语义编码器，输入为时空编码特征，输出高层语义编码特征；

步骤(4)构建层次特征解码器，输入为低层视觉编码特征、低层记忆状态特征和高层语义编码特征，输出预测视频帧；

步骤(5)建立由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型，先迭代训练该模型直至收敛，然后将新视频采样后的视频帧序列输入至该模型，得到最终的预测帧序列。

进一步，步骤(1)具体是：

(1-1)对原始视频数据集合每隔d帧进行采样，得到数量为N的视频帧序列

d＝5～10；其中，

表示实数域，X_k表示第k个视频帧，H表示视频帧高度，W表示视频帧宽度，3表示RGB通道数量；

(1-2)构建由一个二维卷积层和一个卷积长短期记忆模块组成的低层视觉记忆编码器，所谓的卷积长短期记忆模块，是指将长短期记忆单元LSTM(Long-Short TimeMemory)的全连接操作替换成卷积操作后的模块；

(1-3)将视频帧序列的前M帧

输入二维卷积层，M＜N-2,1≤t≤M,获得低层初始特征表示

H₁表示低层初始特征高度，W₁表示低层初始特征宽度，C₁表示通道维度；

(1-4)将低层初始特征表示f_t输入卷积长短期记忆模块，输出第t帧的低层视觉编码特征

和低层记忆状态特征

其中，H₂＝H₁＜H，表示对应特征高度，W₂＝W₁＜W，表示对应特征宽度，C₂表示通道维度。

更进一步，步骤(2)具体是：

(2-1)构建由三个结构相同但参数不共享的二维卷积层，以及逐元素相乘操作和逐元素相加操作组成的时空传播模块；

(2-2)时空传播模块的输入为第t帧的低层视觉编码特征h_t和第t-1帧的时空编码特征

拼接得到的拼接时空编码特征

[·,·]表示拼接操作，其中z₀由随机初始化得到；

(2-3)对拼接时序编码特征

进行三次卷积操作，得到时空编码特征

即

其中，符号

表示逐元素相乘，

表示逐元素相加，σ(·)表示sigmoid激活函数，Conv_i(·),i＝1,2,3表示结构相同但参数不共享的卷积操作；输出时空编码特征

又进一步，步骤(3)具体是：

(3-1)构建由一个卷积层和一个卷积长短期记忆模块组成的高层语义编码器；

(3-2)将时空编码特征z_t输入卷积层，得到高层初始特征表示

H₄表示特征高度，W₄表示特征宽度，其中C₄表示通道维度；

(3-3)将高层初始特征表示f′_t输入卷积长短期记忆模块，得到高层语义编码特征

并输出。

又进一步，步骤(4)具体是：

(4-1)构建由一个卷积长短期记忆模块和两个逆卷积层组成的层次特征解码器，逆卷积层对输入特征图用0填充，再对其进行卷积操作，从而扩大特征图的尺寸，可以将因卷积操作缩小的特征图还原至原视频帧尺寸大小；

(4-2)将高层语义编码特征h′_t输入第一个逆卷积层，得到扩张特征表示

(4-3)将扩张特征表示q_t，以及(1-4)中的低层视觉编码特征h_t和低层记忆状态特征c_t(4-2)输入卷积长短期记忆模块进行特征混合，输出层次解码特征

(4-4)将层次解码特征h″_t输入第二个逆卷积层，得到t+1时刻预测视频帧

并输出。

再进一步，步骤(5)具体是：

(5-1)构建由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型；

(5-2)将视频帧序列的前M+t′帧输入视频预测模型，t′＝0,…,(N-M-2)，得到预测视频帧q′_M+t′+1；将预测视频帧q′_M+t′+1与首帧X₁融合，获得初始输入张量

其中，融合操作表示为

Conv(·)表示卷积操作；再次输入视频预测模型，得到M+t′+2时刻的预测视频帧q′_M+t′+2；

(5-3)将真实视频帧

和预测视频帧

之间的损失函数定义为

其中||·||₁表示L1范数，t″表示视频帧时刻，其取值范围为2≤t″≤N；

(5-4)利用随机梯度下降法优化上述视频预测模型，迭代训练该模型直至收敛，获得优化的预测模型；

(5-5)对于新的视频通过采样得到M个视频帧，并输入上述优化的预测模型，依照(5-2)依次输出指定数量的预测视频帧作为视频预测结果。

本发明方法利用低层视觉特征与高层语义特征融合机制、低层视觉信息时序传播和首帧复用策略对视频的后续帧进行预测，具有以下几个特点：1)不同于已有方法通过高层语义编码特征得到视频帧，所设计的网络架构将低层视觉编码特征和高层语义编码特征两个不同层次的特征进行融合，使网络能学习到更有效的特征表示；2)通过构建时空传播模块，将低层视觉编码特征在时序上进行传播，而传统方法忽略了低层视觉编码特征在时序上对最终预测视频帧的作用；3)现有的方法一般依赖自回归而导致误差累积，本发明方法通过在预测后期将视频首帧作为先验信息加入网络，从真实视频帧获得准确的先验知识。

本发明方法适用于预测多个未来视频帧的情况，有益效果包括：1)利用时空传播层次编解码器，将多种不同层次的特征融合起来，从而获得更高的预测质量；2)通过构建时空传播模块，将低层视觉编码特征沿时序进行传播，使预测视频中的对象具有更准确的轮廓位置；3)通过对视频首帧的再次利用，充分捕捉真实视频帧的先验知识，指导模型生成物体外观更加清晰的预测视频帧。本发明所具有的多层次特征融合能力和低层视觉特征时序传播机制，大大提高了视频预测模型的性能，可应用于雷达天气气象图预测、交通流预测等实际领域。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

基于时空传播层次编解码器的视频预测方法，首先对给定的视频进行采样并输入低层视觉记忆编码器得到低层视觉编码特征和低层记忆状态特征；然后利用时空传播模块从低层视觉编码特征中提取时空编码特征；再利用由一个二维卷积层和一个卷积长短期记忆模块构成的高层语义编码器提取高层语义编码特征；最后，将得到的低层视觉编码特征、低层记忆状态特征和高层语义编码特征通过层次特征解码器进行信息融合，得到预测视频帧。该方法利用层次编解码器将低层视觉和高层语义的特征相融合，并利用时空传播模块将低层视觉编码信息沿时序方向进行传播，同时通过首帧复用缓解视频预测后期视频帧模糊的现象，从而得到更加清晰的视频预测结果。

如图1，该方法首先获取原始视频数据集合，然后进行如下操作：

步骤(1)对每个视频进行采样，获得视频帧序列，并将其输入至低层视觉记忆编码器中，输出对应的低层视觉编码特征和低层记忆状态特征；具体是：

d＝5～10；其中，

(1-3)将视频帧序列的前M帧

输入二维卷积层，M＜N-2,1≤t≤M,获得低层初始特征表示

和低层记忆状态特征

步骤(2)将低层视觉编码特征输入至时空传播模块，输出时空编码特征；具体是：

拼接得到的拼接时空编码特征

[·,·]表示拼接操作，其中z₀由随机初始化得到；

(2-3)对拼接时序编码特征

进行三次卷积操作，得到时空编码特征

即

其中，符号

表示逐元素相乘，

步骤(3)构建高层语义编码器，输入为时空编码特征，输出高层语义编码特征；具体是：

(3-2)将时空编码特征z_t输入卷积层，得到高层初始特征表示

并输出。

步骤(4)构建层次特征解码器，输入为低层视觉编码特征、低层记忆状态特征和高层语义编码特征，输出预测视频帧；具体是：

并输出。

步骤(5)建立由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型，先迭代训练该模型直至收敛，然后将新视频采样后的视频帧序列输入至该模型，得到最终的预测帧序列；具体是：

其中，融合操作表示为

(5-3)将真实视频帧

和预测视频帧

之间的损失函数定义为

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。