CN109064507B

CN109064507B - 一种用于视频预测的多运动流深度卷积网络模型方法

Info

Publication number: CN109064507B
Application number: CN201810955354.XA
Authority: CN
Inventors: 王文敏; 吴倩; 陈雄涛; 王荣刚; 李革; 高文
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2021-06-22
Anticipated expiration: 2038-08-21
Also published as: WO2020037965A1; CN109064507A

Abstract

本发明公布了一种用于视频预测的多运动流深度卷积网络模型方法，包括：构建融合长短期记忆网络模块的新的卷积自动编码网络框架；提出运动流作为输入帧到输出帧的运动转换；采用同时生成多个运动流以分别学习更加细腻的运动信息的方法，有效提升预测效果；提出基图像作为运动流方法的像素级别的补充，进而提升模型的鲁棒性和预测的整体效果。通过双线性插值法将多个运动流分别作用在输入帧上来得到多个运动预测图，再根据权重矩阵将各个运动预测图与基图像线性组合得到最终的预测结果。采用本发明技术方案，能够更加充分地提取和传递视频序列中的时间信息，从而实现更长期、更清晰准确的视频预测。

Description

一种用于视频预测的多运动流深度卷积网络模型方法

技术领域

本发明属于人工智能技术和视频分析技术领域，具体涉及一种用于视频预测的运动流，以及一种通过生成多个运动流来进行视频预测的深度卷积网络模型方法。

背景技术

视频预测是计算机视觉中一个重要且具有挑战性的任务。相比于深度学习在2012年的崛起，视频预测任务其实由来已久，传统视频编解码中的运动估计就已经有了视频预测的雏形。但是，当深度学习的浪潮席卷全球的时候，人工智能的发展赋予了视频预测新的含义和新的要求。人工智能领域中的视频预测通常指利用深度学习方法，根据若干帧视频中的运动信息进行预测并生成若干预测帧。一般来说，视频预测任务分为帧间预测(Interpolation)与未来帧预测(Extrapolation)，分别指预测两帧之间的若干帧以及预测未来的若干帧。随着各种基于人工神经网络的深度学习方法与技术的发展，实现视频预测的深度学习方法也不断涌现。虽然视频预测在目前仍是计算机视觉中一个非常困难的任务，但是总体上，预测结果正在逐步向着清晰度更高、预测帧数更多的方向提升。

传统编解码中的光流法，主要步骤多为首先生成对像素运动的估计，即光流，再根据光流修改最后一个输入帧中的各个像素值，从而得到预测图像。但是，一方面，在复杂场景下的光流估计非常困难，往往由于光流估计的错误而导致视频预测最终失败；另一方面，根据光流得到的预测图像数量通常限制在一帧或少数帧，难以实现长期的预测，这已经不满足当前视频预测领域的要求。

除了传统编解码中采用的光流法之外，现有的基于深度学习技术的视频预测方法，大多采用了卷积自动编码网络模型的基本框架。卷积自动编码网络模型包括一对结构对称的编码器和解码器，编码器通过卷积层提取输入的视频序列特征，解码器对提取到的特征图进行反卷积得到预测图像。其中，视频序列的特征既包括静态信息，也包括对预测具有重要影响的运动信息，而为了提升对视频序列中运动信息的提取和理解，长短期记忆网络(LSTM)有时也被运用于视频预测中。但是，由于此类方法直接根据卷积神经网络提取到的特征来生成所有像素值，预测效果受到特征提取效果的直接影响，因此预测图像非常容易产生模糊。此外，这种方法虽然理论上可以实现较为长期的预测，但由于误差积累的问题，实现清晰且准确的长期预测并不容易。

可见，现有的视频预测方法存在预测结果模糊，清晰度不足的问题，且难以实现较长期的预测。

发明内容

为了克服上述现有技术的不足，本发明提供一种用于视频预测的多运动流深度卷积网络模型方法(Multi-Motion-Flow Deep Convolutional Network for VideoPrediction，简称MMF)，主要针对未来帧视频预测技术中的运动信息提取与理解过程，设计一种能够学习细腻动作的多运动流视频预测深度卷积网络模型，以实现更加精准的运动信息描述，从而提升视频预测结果的清晰度与准确度。同时，通过将长短期记忆网络模块与自动编码网络相融合，实现了可迭代预测任意数量未来帧的目标。

本发明的原理是：改进视频预测方法，以特征提取，尤其是对运动信息的提取和理解，以及如何生成运动趋势准确且清晰的预测结果，为主要切入点。本发明将光流法的思想方法与深度学习技术相结合，对基于卷积自动编码网络的视频预测方法进行改进，提出一种类似于光流的“运动流(Motion Flow)”的概念，用来表示从最后一个输入帧到未来帧的转换；并提出同时采用多个“运动流”来对视频序列中的运动信息进行更加细致地描述，每个运动流仅用于描述一种或少数几种运动信息，从而达到更加细腻、精准地学习视频序列中动作信息的目的；同时提出以“基图像”作为运动流方法的补充，进一步减少像素级空白等问题；此外，将LSTM模块融入卷积自动编码网络中，更充分地提取视频序列中的运动信息，以实现清晰且准确的长期预测。一个运动流的具体表现形式为一个三维张量，前二维形状与输入视频帧图像的尺寸相同，第三维的两个元素分别表示x方向与y方向的像素运动转换；基图像是与运动流同时生成的一张粗糙的预测图像，直接作为预测结果质量不佳，但作为运动流方法的补充却能够很好地解决个别像素预测不准确的问题。由人工神经网络生成若干个运动流和一个基图像及其相应的权重矩阵后，通过双线性插值法将这些运动流分别作用到最后一个输入帧上以得到多个初步的运动预测，最后将这些运动预测与基图像根据与运动流和基图像同时生成的对应的权重矩阵，线性组合成最终的预测帧。

本发明的思想源于现实场景中的运动特点，考虑一个简单的场景，当一个人向前行走时，其身体向前运动，但一条腿却在同时向后运动，即一个场景中可能同时存在多种不同的动作，包括方向、速度、发生部位的不同。在现有的基于人工神经网络的视频预测方法中，还未有对一个视频中的多种细微动作分别进行分析的先例，本发明通过训练一个可生成多个运动流的卷积自动编码网络，分别优化每个运动流，使其仅关注一个或少数几个不同的细微运动，从而实现对不同细微动作分别的精准分析，能够有效减少因为对运动预测不够精准而带来的运动部分扭曲、变形、消失等现象，有效减少预测结果中的模糊。在实际运用中，光照不均、场景过于复杂等情况下，运动流方法中可能出现个别像素级别的预测不准确的问题，例如运动对象正确位移后，原位置的像素出现空白，此类现象主要出现在光影的移动中。而本发明所提出的方法在训练网络的过程中，能够针对上述区域在基图像上进行重点优化，从而起到补充运动流方法的作用。

本发明提供的技术方案是：

一种用于视频预测的多运动流深度卷积网络模型方法(简称MMF，多运动流视频预测深度卷积网络模型)，通过建立卷积自动编码网络，并融合长短期记忆网络(LSTM)模块，同时生成多个运动流和一幅基图像，及其对应的权重矩阵，再通过双线性插值法将各个运动流分别作用到最后一帧输入上，根据权重矩阵与基图像一起线性组合后得到最终的预测帧，从而实现对视频序列中多种细微动作的精准描述和预测，减少预测结果中的模糊，延长可清晰且准确预测的帧数；

上述过程包括如下步骤：

1)结合LSTM单元的卷积自动编码网络结构，构建多运动流视频预测深度卷积网络模型，包括编码器、解码器、LSTM单元以及一层瓶颈层；将图像的多个输入帧依次输入编码器进行编码，提取特征图，并将上一帧提取得到的特征图输入LSTM单元，得到隐藏状态，再输入下一帧对应的LSTM单元，以提取时间信息；

2)将最后一个输入帧经过编码器和LSTM单元之后得到的含有动态信息的特征图，输入解码器，得到多个运动流及其对应的多个权重矩阵，同时得到一幅基图像及其对应的权重矩阵；

本发明中，运动流表示为一个三维张量，用于表示从最后一个输入帧到未来帧的转换，其中，前二维分别对应视频帧图像的尺寸，第三维元素数为2，分别表示在x方向与y方向上的像素运动转换；每个运动流仅用于描述一种或少数几种运动信息；采用多个运动流对视频序列中的运动信息进行细致描述，能够达到更加细腻、精准地学习视频序列中动作信息的目的。

基图像是与运动流同时生成的一幅预测图像，用来作为运动流视频预测的补充，进一步减少像素级空白、个别像素预测不准确等问题。

根据运动流数量设置瓶颈层的通道数；

3)通过双线性插值法将各个运动流分别作用到最后一个输入帧的原图像上，得到多个运动预测图，作为初步的运动预测帧；

4)根据各个运动流与基图像对应的权重矩阵，将多个预测图与基图像通过线性组合，生成一帧图像，即预测帧图像；

5)将预测帧图像作为输入序列中的最后一帧输入帧，并剔除输入序列中的第一帧，构成新的输入序列，重复上述步骤1)至4)，即可实现多期预测(即实现对多个未来帧的预测)。

针对上述多运动流视频预测深度卷积网络模型，进一步地，步骤1)和2)所述结合了LSTM单元的卷积自动编码网络结构主要由编码器、解码器、LSTM单元以及一层瓶颈层构成。其中卷积自动编码网络的主体为一对结构对称的编码器和解码器，此外网络最后一层为瓶颈层，其通道数根据运动流数量相应设置，即当运动流设置为L，视频序列色彩通道数为D时，瓶颈层通道数为(3L+D+1)(每个运动流占2个通道，分别描述x方向与y方向的运动，每个权重矩阵占1个通道，一幅基图像占D个通道及其对应的权重矩阵另占1个通道)。

针对上述多运动流视频预测深度卷积网络模型，进一步地，形式化定义模型如下：假设输入K帧，预测未来T帧，则定义输入视频序列为X＝{x₁,x₂,...,x_K}，目标视频序列为Y＝{y₁,y₂,...,y_T}，预测视频序列为

当输入帧x_t经过步骤1)所述编码器得到特征图h_t，将特征图输入LSTM单元得到隐藏状态s_t。继续将输入帧x_t+1输入编码器，得到h_t+1，此时，s_t与h_t+1同时作为LSTM单元的输入，进一步得到x_t+1的隐藏状态s_t+1。依次类推，直到得到最后一帧输入x_K对应的隐藏状态s_K，以及h_K与s_K-1经过LSTM单元后输出的包含运动信息的动态特征图d_K。将d_K输入解码器及瓶颈层，最终生成L个运动流

和相应的权重矩阵

以及基图像I与其相应的权重矩阵

通过双线性插值法，将L个运动流分别作用于最后一帧输入x_K，得到运动预测图

最后，以

及

作为权重，线性组合所有的运动预测图

和基图像I来获得最终的预测输出

针对上述多运动流视频预测深度卷积网络模型，进一步地，对该网络模型的训练，采用对抗式的训练方法通常可以得到更好的生成结果，但若训练时损失函数值波动剧烈导致难以收敛，则也可采用普通的BP(Back Propagation，即反向传播)算法。

与现有技术相比，本发明的有益效果是：

本发明针对计算机视觉中的视频预测领域，提出了一种新的多运动流视频预测深度卷积网络模型，可有效减少预测结果中的模糊现象，延长可清晰且准确预测的帧数。主要技术优势包括：

(一)结合了光流法与深度学习方法两者的优势，采用人工神经网络生成运动流而不是直接生成预测图像，既能够更加容易地生成一种类似光流的转换，同时又采取了光流法中在已有像素上作修改的策略，使得预测结果更清晰；

(二)运用人工神经网络一次生成多个运动流，且通过优化训练人工神经网络，引导多个运动流能够分别描述一个视频序列中的多个不同的动作，从而提高模型对视频序列中多种不同的细微动作的学习能力，进一步提高预测的准确度，消除运动部位的“溶解”现象；

(三)引入了“基图像”的方法，作为运动流方法的补充。有效弥补预测结果中细节处的像素空白、光影扭曲等问题，从而提高模型在复杂情况下的鲁棒性。

(四)构建了一种LSTM与卷积自动编码网络相结合的长期迭代视频预测网络，实现了理论上可生成任意多帧预测，且通过这种网络结构充分提取和传递运动信息，在实际预测中确实可得到更多帧清晰准确的预测。

在公开实验数据集上进行视频预测结果表明，相比其他方法，本发明的技术方案在预测结果的准确度、清晰度、方法的鲁棒性均具有更好的效果。

附图说明

图1为本发明提供的多运动流视频预测深度卷积网络模型的网络结构示意图。

图2为本发明提供的多运动流视频预测深度卷积网络模型方法的流程框图。

图3为本发明实施例中采用本发明的多运动流视频预测深度卷积网络模型与现有方法的量化比较；

其中，左图为五种模型多期预测结果的峰值信噪比(Peak Signal to NoiseRatio)比较图；横坐标为预测期数，纵坐标为峰值信噪比；右图为五种模型多期预测结果的结构相似性指数(Structural Similarity Index)比较图；横坐标为预测期数，纵坐标为结构相似性指数。

图4为本发明实施例中采用本发明的多运动流视频预测深度卷积网络模型与现有方法进行预测的主观图像质量比较；

其中，(a)图中第一行为一个慢跑动作的真实视频序列，第二行至第四行分别为由本发明的MMF模型、现有方法卷积长短期记忆网络模型(ConvLSTM模型)和深度体素流模型(DVF模型)生成的10帧预测图像；(b)图中第一行为一个行走动作的真实视频序列，第二行至第四行分别为由本发明的MMF模型、现有方法ConvLSTM模型和DVF模型生成的10帧预测图像。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提出了一种用于视频预测的多运动流深度卷积网络模型方法(简称MMF)，该方法主要用于实现由若干帧视频序列预测未来若干帧视频；图1和图2分别为本发明提供的多运动流视频预测深度卷积网络模型的网络结构图和多运动流机制与基图像方法的处理流程示意图。主要包括如下步骤：

1)采用卷积自动编码网络，将若干个输入帧依次输入编码器进行编码，提取特征图，并将上一帧的特征图输入LSTM单元，得到隐藏状态输入下一帧对应的LSTM单元，以提取时间信息；

2)将最后一个输入帧经过编码器和LSTM之后得到的含有动态信息的特征图，输入解码器，得到若干个运动流与一幅基图像，及其对应的多个权重矩阵；

3)通过双线性插值法将各个运动流分别作用到最后一个输入帧的原图像上，得到若干个预测图；

4)根据各个运动流与基图像对应的权重矩阵，将若干个预测图和一幅基图像线性组合成一帧图像，即得到最终的预测帧；

5)将预测帧作为最后一帧输入，剔除输入序列中的第一帧，构成新的输入序列，重复上述步骤1)至4)，即可实现多期预测。

针对上述多运动流视频预测深度卷积网络模型，进一步地，步骤1)和2)所述结合了LSTM单元的卷积自动编码器网络结构主要由编码器、解码器、LSTM单元以及一个瓶颈层构成。其中编码器包括3个卷积层(卷积核大小分别为5×5，5×5，3×3，通道数分别为64，128，256)，且每个卷积层之后均有一层池化层(采用最大池化法)。解码器相应地包括3个反卷积层(卷积核大小分别为3×3，3×3，5×5，通道数分别为256，128，64)，每个反卷积层之前均有一个上采样层。此外，在本实施例中设置运动流数量为3，若数据集为灰度视频序列，色彩通道数为1，则在网络最后的瓶颈层(卷积核大小为5×5)中，设置通道数为3×3+1+1＝11；若数据集为RGB视频序列，色彩通道数为3，则设置通道数为3×3+3+1＝13。

训练人工神经元网络可采用BP(Back Propagation，即反向传播)算法。针对上述多运动流视频预测深度卷积网络模型，进一步地，步骤1)和2)所述人工神经网络的具体训练细节定义如下：

在训练中，我们采用了损失函数

来描述预测视频序列

与目标视频序列Y之间的差别，采用L₁范数作为损失函数的正则化项来避免过拟合，正则化项系数为0.0001。最小化损失函数的目标函数表示为式2-1：

式2-1中，X为输入视频序列；Y为目标视频序列；

为损失函数；

为衡量预测视频序列与目标视频序列之间的差异的回归损失函数，能够促使网络逼近真实值的平均值，p的常用取值为1或2，不同取值相应的

分别为平均绝对值误差和均方误差；

为图像梯度差异损失函数(Image Gradient Difference Loss)，用于衡量模型在图像梯度上的预测准确度，能够引导网络去逼近目标图像中像素值的真实梯度值，从而增加预测结果的清晰度。

具体地，

其中，

为衡量预测视频序列与目标视频序列之间的差异的回归损失函数，T表示预测视频序列与真实视频序列的帧数；

其中，

为衡量预测视频序列与目标视频序列之间的图像梯度差异的梯度差异损失函数；λ表示损失函数所采用的距离的类别，取值为1或2；i,j分别表示像素的横坐标与纵坐标。

在此实施例中，分别设置p＝1，λ＝1作为

和

的超参数。

为表明上述多运动流视频预测深度卷积网络模型能够有效提升长期预测的效果，将模型在KTH数据集上以上述方式训练和测试。KTH数据集包括25个人的6种动作(行走、慢跑、快跑、挥手、拍手、拳击)，这里使用第1至第16个人的动作视频作为训练集，用第17至第25个人的动作视频作为测试集。并与现有的两种方法DVF和ConvLSTM进行对比。DVF方法也首先采用人工神经网络生成一种“转换”称为“体素流”再将其作用于最后一帧来得到预测；ConvLSTM则直接运用人工神经网络生成预测图像。用于对比的方法分别是以下参考文献记载的方法，包括：

DVF[1]:Z.Liu,R.A.Yeh,X.Tang,Y.Liu,and A.Agarwala,“Video framesynthesis using deep voxel flow,”in IEEE International Conference on ComputerVision,2017,pp.4473–4481.

ConvLSTM[2]:X.Shi,Z.Chen,H.Wang,D.Y.Yeung,W.Wong,and W.Woo,“Convolutional lstm network:A machine learning approach for precipitationnowcasting,”vol.9199,pp.802–810,2015.

对本发明方法中多运动流方法和基图像方法的作用，通过三个含有不同部分的模型来进行对比说明，即模型一FlowLSTM为仅用卷积自动编码网络生成一个运动流的模型，模型二FlowLSTM+MMF为生成多个运动流但不生成基图像的模型，模型三FlowLSTM+MMF+Hallucination为既生成多个运动流又生成基图像的模型。

本发明实施例中使用峰值信噪比(PSNR)和结构相似性(SSIM)作为预测结果的评价指标，PSNR与SSIM的值越大表明预测效果越好，并从量化指标和主观图像质量两方面同时进行评价。为了保证可比性，我们在训练和测试中均设置三种方法的所有模型都以10个连续帧为输入，输出未来的10帧预测视频序列，且所有的输入帧和输出帧图像的尺寸均为64×64(像素)。

针对本实施例，进一步地，可将模型形式化定义如下：输入10帧，预测未来10帧，输入视频序列为X＝{x₁,x₂,...,x₁₀}，目标视频序列为Y＝{y₁,y₂,...,y₁₀}，预测视频序列为

当输入帧x_t经过步骤1)所述编码器得到特征图h_t，将特征图输入LSTM单元得到隐藏状态s_t。继续将输入帧x_t+1输入编码器，得到h_t+1，此时，s_t与h_t+1同时作为LSTM单元的输入，进一步得到x_t+1的隐藏状态s_t+1。依次类推，直到得到最后一帧输入x₁₀对应的隐藏状态s₁₀，以及h₁₀经过LSTM单元后包含运动信息的动态特征图d₁₀。将d₁₀输入解码器及瓶颈层，最终生成3个运动流

和相应的权重矩阵

以及基图像I与其相应的权重矩阵

通过双线性插值法，将3个运动流分别作用于最后一帧输入x₁₀，得到运动预测图

最后，以

及

作为权重，线性组合所有的运动预测和基图像来获得最终的预测输出

将

作为最后一帧，得到新的输入序列X＝{x₂,x₃,...,x₁₁}，重复上述预测步骤，得到第二帧预测

如此迭代得到10帧预测序列

实验结果表明，MMF比其他两种方法具有更好的预测效果，能够有效减少预测结果中的模糊，并增加可清晰预测的帧数。三种方法的对比结果如表1所示：

表1不同视频预测模型实验结果统计表

由表1可见本发明的三种模型的效果相比基线DVF均有显著提升。相比于ConvLSTM直接生成预测帧图像的方法，本发明模型一FlowLSTM，只是用人工神经网络生成运动流，在PSNR和SSIM两个指标上也均有较大提升。而模型二FlowLSTM+MMF中，MMF通过多运动流机制来描述更多、更细腻的动作，相比模型一FlowLSTM又获得了更大提升。虽然包含了基图像的模型三在两个量化指标上的表现不尽如人意，但其生成的预测帧的主观图像质量却是最好的(详见附图4)，后续将进一步阐述基图像在模型三中的作用。

附图3显示了在KTH数据集上进行长期预测时，本发明方法与DVF和ConvLSTM的量化指标随着时间增长的下降趋势的对比。本发明方法的三个模型与ConvLSTM都使用了LSTM结构，在PSNR和SSIM上的下降趋势与DVF相比均较缓慢，说明LSTM对提升长期的视频预测效果具有重要的作用。此外，包含了MMF的模型二在最初的预测中具有最好的效果，且在长期预测中一直保持着这样的优势。包含了基图像的模型三虽然在最初几期的预测中表现并不理想，但它在长期的预测中体现出了更好的鲁棒性，说明基图像确实能够让模型在长期预测中更加稳定。

附图4中展示了包含多个运动流和基图像的模型三(MMF)，DVF与ConvLSTM生成的关于两个不同动作视频序列的例子。从(a)图中“慢跑”动作的后三行图像中可以看到，MMF在全部10期的预测中都生成了比其他两种方法更加清晰准确的结果。从t＝5开始，DVF和ConvLSTM的预测中，图像中人的一条腿随着时间逐渐“溶解”消失，因为模型无法同时准确地预测不同的动作。而从第二行图像中可以看到，在本发明的MMF模型中通过采用多个不同的运动流来分别描述不同运动的方法，消除了这种运动部分溶解的现象。此外，ConvLSTM的预测图像中，人往前运动时会在身后留下一块空白区域。这是物体移动，或光照不均时阴影的移动等造成的像素空白，而ConvLSTM无法处理这样的像素级别的运动，但是从第二行的图像中可以明显看到，MMF没有出现这样的空白，这说明基图像能够很好地弥补这种像素移动造成的空白，使模型在复杂情况下保持更好的鲁棒性。(b)图中同样可见上述区别。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种用于视频预测的多运动流深度卷积网络模型方法，其特征是，针对输入的视频序列，通过建立卷积自动编码网络，并融合长短期记忆模块LSTM，同时生成多个用于学习视频序列中细微运动的运动流和一幅基图像及对应的权重矩阵，再通过双线性插值法将各个运动流分别作用到最后一帧输入上，根据权重矩阵与基图像进行线性组合后得到最终的预测帧，从而实现对视频序列中多种细微动作的精准描述和预测，减少预测结果中的模糊，延长可清晰且准确预测的帧数；包括如下步骤：

1)构建结合LSTM单元的卷积自动编码网络结构，包括编码器、解码器、LSTM单元及一层瓶颈层；将图像的多个输入帧依次输入编码器进行编码，提取特征图，并将上一帧提取得到的特征图输入LSTM单元，得到的隐藏状态，再输入下一帧对应的LSTM单元，以提取时间信息；

所述运动流用来表示从一帧像素值到另一帧像素值的转换，具体表示为一个三维张量，前二维形状与输入视频帧图像的尺寸相同，第三维的两个元素分别表示x方向与y方向的像素运动转换；运动流的数量可根据视频序列中运动的复杂程度进行增删；每个运动流仅学习和描述一种或少数几种运动信息；同时采用多个运动流对视频序列中的细微运动信息进行更加细致的学习；所述基图像是与运动流同时生成的一幅粗糙的预测图像，作为运动流预测的补充；

所述权重矩阵是指由该网络模型生成的运动流对应的二维矩阵，矩阵的尺寸与视频帧尺寸一致，矩阵中每个元素的值为运动预测图和基图像上对应位置的像素值在线性组合时的权重；

4)根据各个运动流与基图像对应的权重矩阵，将多个运动预测图与基图像通过线性组合，生成一帧图像，即预测帧图像；

5)将预测帧图像作为输入序列中的最后一帧输入帧，并剔除输入序列中的第一帧，构成新的输入序列；重复上述步骤1)至4)，即可实现多期预测。

2.如权利要求1所述用于视频预测的多运动流深度卷积网络模型方法，其特征是，输入的视频序列的尺寸根据实际数据调节；输入帧数与预测帧数均可根据需要进行修改。

3.如权利要求1所述用于视频预测的多运动流深度卷积网络模型方法，其特征是，步骤1)所述卷积自动编码网络结构的瓶颈层的通道数根据运动流数量设置；当运动流数量设置为L、视频序列色彩通道数为D时，瓶颈层通道数为：3L+D+1；其中，每个运动流占2L个通道，分别描述x方向与y方向的运动；每个运动流对应的权重矩阵占1L个通道；一幅基图像占D个通道；基图像对应的权重矩阵占1个通道。

4.如权利要求1所述用于视频预测的多运动流深度卷积网络模型方法，其特征是，所述用于视频预测的多运动流深度卷积网络模型的定义如下：

假设输入K帧，预测未来T帧，则定义输入视频序列为X＝{x₁,x₂,...,x_K}，目标视频序列为Y＝{y₁,y₂,...,y_T}，预测视频序列为