CN114758282B

CN114758282B - 基于时序校正卷积的视频预测方法

Info

Publication number: CN114758282B
Application number: CN202210463423.1A
Authority: CN
Inventors: 李平; 张陈翰; 王涛
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-12-06
Anticipated expiration: 2042-04-28
Also published as: CN114758282A

Abstract

本发明公开了基于时序校正卷积的视频预测方法。本发明方法对给定的原始视频进行采样预处理获得视频帧序列，并将该序列输入时序上下文融合模块，得到融合外观特征图和融合时空编码特征图，同时将该序列输入时序卷积校正模块得到卷积校正张量；然后，将得到的融合外观特征图、融合时空编码特征图和卷积校正张量通过自适应卷积时空编码器生成预测时空编码特征图；最后将预测时空编码特征图通过时空记忆解码器进行解码，输出预测视频帧序列。本发明方法不仅能够依据不同时刻的视频帧对卷积核参数进行校正，还能通过时序上下文融合策略对当前视频帧和历史帧时空编码特征的内在关系进行建模，从而生成更高视觉质量的预测视频帧序列。

Description

基于时序校正卷积的视频预测方法

技术领域

本发明属于计算机视觉技术领域，尤其是视频理解中的视频预测领域，涉及一种基于时序校正卷积的视频预测方法。

背景技术

近几年，随着移动互联网的飞速发展和视频感知设备的广泛普及，海量的视频数据源源不断从各类终端产生。如何通过历史视频数据预测未来成为研究者们关心的问题，即视频预测(Video Prediction)任务。该任务旨在给定过去时刻视频帧的情况下，生成未来时刻的视频帧，可以广泛应用于气象预测、城市交通状况预测、机器人动作规划以及无人驾驶等领域。例如，雷达回波图像能反映当地的降雨情况，视频预测方法通过刻画雷达回波历史图像的潜在变化规律，生成能准确反映短期气象变化趋势的视频，提升灾害天气的短期预报精度。此外，根据城市交通GPS数据，视频预测能够对城市的高峰期交通状况进行预判，从而帮助用户规划更合理的驾驶路线。

传统视频预测方法主要有基于浅层模型的手工提取特征方法、高斯过程模型、状态空间模型等，但这些方法难以表示真实复杂场景视频的潜在结构。近几年来，深度学习在计算机视觉领域获得巨大的成功，特别是在视频理解领域较大地提升了任务性能，其已被应用于视频预测模型的研发。例如，为了对视频中的时空特征进行建模，研究人员利用卷积神经网络与循环神经网络分别刻画空间特征与时间特征的特点，提出基于长短时记忆单元的卷积长短时记忆网络(ConvLSTM：Convolutional Long Short-Term Memory)，以增强视频数据的表征与预测能力。进一步，为了刻画预测视频帧的底层细节特征(如纹理、边缘)，现有工作在ConvLSTM的基础上增加时空记忆单元，实现更有效的时空特征建模。但是，这些方法容易出现梯度消失问题，难以捕捉距离较远的历史视频帧与当前视频帧之间的长时外观特征依赖关系。为此，后续工作重用历史时空特征，即利用当前帧的外观特征和历史帧的时空特征对当前时空特征进行更新，以缓解梯度消失现象，从而增强模型对长时依赖关系捕捉的能力。

上述方法存在的不足点主要表现在三个方面：1)均使用相同的卷积核作用于对不同时刻视频帧的每个区域，然而视频序列中的空间特征随时间而变化，不同时刻采用相同参数的卷积核将妨碍模型对空间特征的刻画；2)为应对不同的视频帧采用的自适应调整卷积核参数方法(称为动态卷积)，需要较大的计算开销以校正高维特征表示使之适应当前视频帧；3)若当前视频帧包含上下文无关的目标(如新物体)时，使得该帧的外观特征和历史帧的时空特征不相似，导致难以有效利用历史时空特征。因此，为了缓解现有方法对空间特征刻画不充分、难以有效利用历史时空特征和计算开销大的问题，迫切需要一种能够根据不同时刻的输入视频帧自适应地学习卷积核参数并能更有效利用历史时空特征的方法，从而提高预测视频的清晰度。

发明内容

本发明针对现有技术的不足，提供一种基于时序校正卷积的视频预测方法，一方面能根据不同时刻输入的视频帧自适应地学习卷积核参数，另一方面能利用时序上下文融合机制加强对历史时空特征的利用，并使当前视频帧和历史时空特征进行充分交互，以挖掘上下文无关帧图像和历史时空特征之间的潜在关系，从而生成画面更清晰的预测视频帧。

本发明方法首先获取原始视频数据集合，依次进行如下操作：

步骤(1)对原始视频进行采样，获得视频帧序列，将视频帧序列输入至时序上下文融合模块，输出对应的融合外观特征图和融合时空编码特征图；

步骤(2)构建时序卷积校正模块，输入为同一视频帧序列内两个长短不同的片段，输出卷积校正张量；

步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器，输入为融合外观特征图、融合时空编码特征图、卷积校正张量，输出为预测时空编码特征图；

步骤(4)构建时空记忆解码器，输入为融合时空编码特征图和预测时空编码特征图，输出为预测视频帧；

步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型，对新的视频序列依次通过步骤(1)～(4)得到后续预测视频序列。

进一步，步骤(1)具体是：

(1-1)对原始视频以采样率为每秒5～10帧进行采样，得到数量为N的视频帧序列

其中，

表示实数域，X_t表示第t帧，t＝1,2,…,N，H表示视频帧高度，W表示视频帧宽度，3表示RGB通道数量；

(1-2)构建由两个二维卷积层组成的时序上下文融合模块，卷积核尺寸为5×5，填充为2，步长为1，两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征；

(1-3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列

C表示通道维度，当不足3帧时，该序列的元素均由全0初始化补全；将X_t和第t-3个时空编码特征图H_t-3经过卷积和逐元素相乘操作融合，得到强化外观特征图

X′_t＝2σ(Conv₁(H_t-3))⊙X_t，符号⊙表示逐元素乘积，σ(·)表示Sigmoid激活函数；再将第t-1个时空编码特征图H_t-1和强化外观特征图X′_t经过卷积和逐元素相乘操作融合，得到强化时空编码特征图

H′_t-1＝2σ(Conv₂(X′_t))⊙H_t-1，Conv₁(·)、Conv₂(·)表示卷积核大小为5×5的二维卷积层；

(1-4)将强化外观特征图X′_t和第t-2个时空编码特征图H_t-2经过卷积和逐元素相乘操作融合，得到融合外观特征图

X″_t＝2σ(Conv₁(H_t-2))⊙X′_t；再将融合外观特征图X″_t与强化时空编码特征图H′_t-1经过卷积和逐元素相乘操作融合，得到融合时空编码特征图

H″_t-1＝2σ(Conv₂(X″_t))⊙H′_t-1。

更进一步，步骤(2)所述时序卷积校正模块由两个三维卷积层构成，分别用于提取短期和长期历史视频帧序列中的时空特征，根据短期历史视频帧序列

和长期历史视频帧序列

生成卷积校正张量，具体是：

(2-1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列

和长期历史视频帧序列

当不足5帧时，长短期视频帧序列元素由全0初始化补全；

(2-2)将短期历史视频帧序列

在空间维度上进行全局平均池化后，通过三维卷积得到短期上下文时空特征

Pooling(·)为空间维度上的全局平均池化，Conv3D₁(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层；

(2-3)将长期历史视频帧序列

在时序、空间维度上进行全局平均池化后，通过三维卷积得到长期上下文时空特征

GAP(·)为在时序、空间维度上的全局平均池化操作，Conv3D₂(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层；

(2-4)将短期上下文时空特征A_t和长期上下文时空特征B_t通过R_t＝δ(A_t+B_t)得到卷积校正张量

其中δ(·)为ReLU激活函数，R_t的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。

再进一步，步骤(3)具体是：

(3-1)利用卷积长短时记忆模块构建自适应卷积时空编码器，所述的卷积长短时记忆模块(ConvLSTM)是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块；

(3-2)将融合外观特征图X″_t、融合时空编码特征图H″_t-1和卷积校正张量R_t输入自适应卷积时空编码器，获得卷积长短时记忆模块的第t个输入门

I_t＝σ((Broadcast(R_t)⊙W₁)*X″_t+(Broadcast(R_t)⊙W₂)*H″_t-1)；其中，

和

为二维卷积对应的卷积核，上标表示四个维度，分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数，Broadcast(·)用于对R_t的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等，*表示卷积操作；

(3-3)将融合外观特征图X″_t、融合时空编码特征图H″_t-1和卷积校正张量R_t作为输入，获得卷积长短时记忆模块的第t个遗忘门

和第t个输入调制门

F_t＝σ((Broadcast(R_t)⊙W₃)*X″_t+(Broadcast(R_t)⊙W₄)*H″_t-1)；其中，

和

为二维卷积对应的卷积核；

G_t＝tanh((Broadcast(R_t)⊙W₅)*X″_t+(Broadcast(R_t)⊙W₆)*H″_t-1)；其中，tanh(·)为双曲正切函数，

和

为二维卷积对应的卷积核；

(3-4)计算得到时空记忆状态

M_t＝I_t⊙G_t+F_t⊙M_t-1；当t＝1时，M₀由全0初始化得到；

(3-5)将融合外观特征图X″_t、融合时空编码特征图H″_t-1和卷积校正张量R_t作为输入，获得卷积长短时记忆模块的第t个输出门

O_t＝σ((Brodcast(R_t)⊙W₇)*X″_t+(Brodcast(R_t)⊙W₈)*H″_t-1)；其中，

和

为二维卷积对应的卷积核；

(3-6)获得预测时空编码特征图

H_t＝O_t⊙tanh(M_t)。

又进一步，步骤(4)具体是：利用一个二维卷积层构建时空记忆解码器，将融合时空编码特征图H″_t-1和预测时空编码特征图H_t输入时空记忆解码器，由卷积操作得到预测视频帧

其中Conv₃(·)表示卷积核尺寸为1×1二维卷积层，[·，·]表示在通道维度上的拼接操作。

还进一步，步骤(5)具体是：

(5-1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型；

(5-2)将视频帧序列的前t′帧依次输入视频预测模型，t′＝1,2,…,M，M＜N，其中M作为上下文视频帧数量，获得预测视频帧

再将

依次输入视频预测模型，t″＝M,…,(N-1)，得到预测视频帧

(5-3)将均方损失作为视频帧

和预测视频帧

之间的损失函数，均方误差损失

t″′为取值范围为2≤t″′≤N的视频帧时刻；

(5-4)利用随机梯度下降算法优化上述视频预测模型，迭代训练该模型直至收敛，获得优化的视频预测模型；

(5-5)对于新的视频通过采样得到M个视频帧，输入上述优化的视频预测模型，依照(5-2)依次输出指定数量的预测视频帧序列作为最终结果。

本发明提出了基于时序校正卷积的视频预测方法，该方法具有以下几个特点：1)利用时序卷积校正模块对不同时刻的卷积核进行校正，针对不同的输入视频帧模型采用不同的卷积参数提取特征，以适应视频帧序列中空间特征不断变化的特点；2)相比现有的动态卷积方法校正高维特征，本发明直接对卷积核进行校正，降低了模型的计算开销；3)通过时序上下文融合模块将历史视频编码特征分别与当前视频帧及其时空编码特征进行融合，使得输入自适应卷积时空编码器中的视频帧包含更多的历史时空特征，增强模型对长时依赖关系捕捉的能力。

本发明适用于预测多个未来视频帧的情况，有益效果包括：1)自适应卷积时空编码器根据校正后的卷积核对视频帧进行特征提取，增强模型对空间特征的刻画能力，以提高预测视频帧的清晰度；2)时序卷积校正模块直接对卷积核本身进行校正而非对高维特征进行校正，极大地减少动态卷积带来的计算开销；3)时序上下文融合模块通过将历史时空编码特征分别与当前视频帧及对应时空编码特征进行融合，增强模型挖掘上下文无关图像和历史时空编码特征之间关系的能力，有助于加强模型对长时依赖捕捉的能力，从而指导模型生成更加清晰的预测结果。本发明所具有的自适应校正卷积机制和时序上下文融合机制，可显著提高视频预测模型的性能，有期望被应用于雷达回波预测、城市交通情况预测等实际任务中。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1，基于时序校正卷积的视频预测方法，首先获取原始视频数据集合，然后依次进行如下操作：首先对原始视频进行均匀采样得到视频帧序列；构建时序上下文融合模块得到融合外观特征和融合时空编码特征图；再构建时序卷积校正模块，输出卷积校正张量；然后将融合外观特征、融合时空编码特征图和卷积校正张量输入自适应卷积时空编码器，得到预测时空编码特征图；最后，使用时空记忆解码器将预测时空编码特征图解码为预测视频帧；该方法利用时序卷积校正模块提取不同时刻的不同空间特征，并通过融合时序上下文时空编码特征加强对长时间的时空依赖关系捕捉的能力，从而生成更加清晰的预测视频。具体如下：

步骤(1)对原始视频进行采样，获得视频帧序列，将视频帧序列输入至时序上下文融合模块，输出对应的融合外观特征图和融合时空编码特征图；具体是：

其中，

H″_t-1＝2σ(Conv₂(X″_t))⊙H′_t-1。

步骤(2)构建时序卷积校正模块，输入为同一视频帧序列内两个长短不同的片段，输出卷积校正张量；所述时序卷积校正模块由两个三维卷积层构成，分别用于提取短期和长期历史视频帧序列中的时空特征，根据短期历史视频帧序列

和长期历史视频帧序列

生成卷积校正张量，具体是：

和长期历史视频帧序列

当不足5帧时，长短期视频帧序列元素由全0初始化补全；

(2-2)将短期历史视频帧序列

(2-3)将长期历史视频帧序列

步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器，输入为融合外观特征图、融合时空编码特征图、卷积校正张量，输出为预测时空编码特征图；具体是：

和

为二维卷积对应的卷积核，上标表示四个维度，分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数(卷积核W₁和W₂的长和宽相同，卷积核W₂的输入通道数和输出通道数相同)，Broadcast(·)用于对R_t的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等，*表示卷积操作；

和第t个输入调制门

和

为二维卷积对应的卷积核；

和

为二维卷积对应的卷积核；

(3-4)计算得到时空记忆状态

M_t＝I_t⊙G_t+F_t⊙M_t-1；当t＝1时，M₀由全0初始化得到；

和

为二维卷积对应的卷积核；

(3-6)获得预测时空编码特征图

H_t＝O_t⊙tanh(M_t)。

步骤(4)构建时空记忆解码器，输入为融合时空编码特征图和预测时空编码特征图，输出为预测视频帧；具体是：利用一个二维卷积层构建时空记忆解码器，将融合时空编码特征图H″_t-1和预测时空编码特征图H_t输入时空记忆解码器，由卷积操作得到预测视频帧

步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型，对新的视频序列依次通过步骤(1)～(4)得到后续预测视频序列；具体是：

(5-2)将视频帧序列的前t′帧依次输入视频预测模型，t′＝1,2,…,M，M＜N，其中M作为上下文视频帧(用于为后续视频预测提供参考)数量，获得预测视频帧

再将

依次输入视频预测模型，t″＝M,…,(N-1)，得到预测视频帧

(5-3)将均方损失作为视频帧

和预测视频帧

之间的损失函数，均方误差损失

t″′为取值范围为2≤t″′≤N的视频帧时刻；

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。