CN111464810A

CN111464810A - 视频预测方法、装置、计算机设备和计算机可读存储介质

Info

Publication number: CN111464810A
Application number: CN202010274046.8A
Authority: CN
Inventors: 周康明; 王栋
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-07-28

Abstract

本申请涉及一种视频预测方法、装置、计算机设备和计算机可读存储介质。所述视频预测方法包括：获取待预测的视频数据；所述视频数据包括目标视频帧和多个历史视频帧，所述目标视频帧在时序上处于所述多个历史视频帧之后；根据所述目标视频帧和所述多个历史视频帧，获取所述目标视频帧的静态特征信息和动态特征信息；根据所述目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧。采用本方法能够提升多媒体数据的预测准确率。

Description

视频预测方法、装置、计算机设备和计算机可读存储介质

技术领域

本发明涉及视频预测技术领域，特别是涉及一种视频预测方法、装置、计算机设备和计算机可读存储介质。

背景技术

随着人工智能技术和信息技术的快速发展，多媒体数据已经成为各领域信息传播的主要载体之一，如气象领域、智能交通领域、智能机器人领域，等等。

以气象领域为例，相关技术普遍是通过机器学习模型对当前的图像数据进行智能预测，以获取未来时刻的图像数据，该未来时刻的图像数据用于开展气象临近预报、降水预报等业务。

但是，上述多媒体数据的预测方法，其预测准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升多媒体数据的预测准确率的视频预测方法、装置、计算机设备和计算机可读存储介质。

第一方面，本申请实施例提供了一种视频预测方法，视频预测方法包括：

获取待预测的视频数据；所述视频数据包括目标视频帧和多个历史视频帧，所述目标视频帧在时序上处于所述多个历史视频帧之后；

根据所述目标视频帧和所述多个历史视频帧，获取所述目标视频帧的静态特征信息和动态特征信息；

根据所述目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧。

在其中一个实施例中，所述根据所述目标视频帧和所述多个历史视频帧，获取所述目标视频帧的静态特征信息和动态特征信息，包括：

根据所述目标视频帧，获取所述目标视频帧的静态特征信息；

根据所述多个历史视频帧，获取所述目标视频帧的动态特征信息。

在其中一个实施例中，所述根据所述多个历史视频帧，获取所述目标视频帧的动态特征信息，包括：

获取与所述目标视频帧相邻的历史视频帧的静态特征信息；

根据所述多个历史视频帧和龙贝格观测器网络，获取与所述目标视频帧相邻的历史视频帧的动态特征信息；

将与所述目标视频帧相邻的历史视频帧的静态特征信息和动态特征信息输入至所述龙贝格观测器网络中，得到所述目标视频帧的动态特征信息。

在其中一个实施例中，所述根据所述目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧，包括：

将所述目标视频帧的静态特征信息和所述目标视频帧的动态特征信息输入至所述龙贝格观测器网络中，得到第一预测时刻的动态特征信息；

根据所述第一预测时刻的动态特征信息，获取所述第一预测时刻的预测视频帧。

在其中一个实施例中，所述将所述目标视频帧的静态特征信息和所述目标视频帧的动态特征信息输入至所述龙贝格观测器网络中，得到第一预测时刻的动态特征信息之后，所述方法还包括：

将所述第一预测时刻的动态特征信息输入至预测网络中，得到第二预测时刻的动态特征信息；所述第二预测时刻是所述第一预测时刻之后的时刻；

根据所述第二预测时刻的动态特征信息，获取所述第二预测时刻的预测视频帧。

在其中一个实施例中，所述根据所述第二预测时刻的动态特征信息，获取所述第二预测时刻的预测视频帧，包括：

采用所述第二预测时刻的动态特征信息对预设测量函数赋值，赋值后得到所述第二预测时刻的静态特征信息；

根据所述第二预测时刻的静态特征信息，获取所述第二预测时刻的预测视频帧。

在其中一个实施例中，所述根据所述第二预测时刻的静态特征信息，获取所述第二预测时刻的预测视频帧，包括：

采用解码器网络，对所述第二预测时刻的静态特征信息解码，得到所述第二预测时刻的预测视频帧；

对应地，所述根据所述目标视频帧，获取所述目标视频帧的静态特征信息，包括：

采用编码器网络，对所述目标视频帧进行编码，得到所述目标视频帧的静态特征信息。

第二方面，本申请实施例提供一种视频预测装置，装置包括：

第一获取模块，用于获取待预测的视频数据；所述视频数据包括目标视频帧和多个历史视频帧，所述目标视频帧在时序上处于所述多个历史视频帧之后；

第二获取模块，用于根据所述目标视频帧和所述多个历史视频帧，获取所述目标视频帧的静态特征信息和动态特征信息；

预测模块，用于根据所述目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上述第一方面的方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取待预测的视频数据；所述视频数据包括目标视频帧和多个历史视频帧，所述目标视频帧在时序上处于所述多个历史视频帧之后；根据所述目标视频帧和所述多个历史视频帧，获取所述目标视频帧的静态特征信息和动态特征信息；根据所述目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧；由此，计算机设备根据视频数据，预测得到至少一个预测视频帧，由于视频数据比图像数据包括更丰富的信息，计算机设备通过获取目标视频帧的静态特征信息和动态特征信息，再基于该目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧，避免了传统技术中，基于当前的图像数据预测未来时刻的图像数据，由于当前的图像数据包括的信息较少导致的预测准确率低的问题。本申请可以提升多媒体数据的预测准确率。

附图说明

图1为一个实施例提供的视频预测方法的流程示意图；

图2为另一个实施例提供的视频预测方法的流程示意图；

图3为另一个实施例提供的视频预测方法中步骤S220的细化步骤示意图；

图4为另一个实施例提供的视频预测方法的流程示意图；

图5为另一个实施例提供的视频预测方法的流程示意图；

图6为另一个实施例提供的视频预测方法中步骤S420的细化步骤示意图；

图7为另一个实施例提供的视频预测方法的流程示意图；

图8为另一个实施例提供的视频预测模型的整体结构示意图；

图9为另一个实施例提供的视频预测方法的过程示意图；

图10为另一个实施例提供的视频预测方法的效果示意图；

图11为一个实施例提供的视频预测装置的结构框图；

图12为一个实施例提供的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的视频预测方法、装置、计算机设备和计算机可读存储介质，旨在解决传统技术中，基于当前的图像数据预测未来时刻的图像数据，由于当前的图像数据包括的信息较少导致的预测准确率低的技术问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体地实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是，本申请实施例提供的视频预测方法，其执行主体可以是视频预测装置，该视频预测装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例中，均以执行主体是计算机设备为例来进行说明，计算机设备可以是服务器；可以理解的是，下述方法实施例提供的视频预测方法，也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

请参考图1，其示出了本申请实施例提供的一种视频预测方法的流程示意图。本实施例涉及的是根据待预测的视频数据预测得到至少一个预测视频帧的具体实现过程。如图1所示，本实施例视频预测方法可以包括以下步骤：

步骤S100，获取待预测的视频数据。

其中，视频数据包括目标视频帧和多个历史视频帧，目标视频帧在时序上处于多个历史视频帧之后。

本实施例中，计算机设备获取待预测的视频数据，作为一种实施方式，该视频数据可以是气象视频数据，气象视频数据可以是气象站的视频采集设备对当前区域进行采集得到的，也可以是基于气象雷达采集得到的，等等。

可以理解的是，计算机设备获取的待预测的视频数据，并不局限于上述举例，视频数据还可以是交通视频数据、人体运动视频数据等，在此不做具体限制。

本实施例中，视频数据包括目标视频帧和多个历史视频帧，目标视频帧在时序上处于多个历史视频帧之后。例如，视频数据由10帧连续的视频帧组成，则该10帧视频帧中，前9帧视频帧均为历史视频帧，第10帧即最后一帧视频帧为目标视频帧。例如，视频数据由30帧连续的视频帧组成，则该30帧视频帧中，前29帧视频帧均为历史视频帧，第30帧即最后一帧视频帧为目标视频帧。

步骤S200，根据目标视频帧和多个历史视频帧，获取目标视频帧的静态特征信息和动态特征信息。

计算机设备根据目标视频帧和多个历史视频帧，获取目标视频帧的静态特征信息和动态特征信息。本实施例中，静态特征信息用于表示目标视频帧本身的特征，动态特征信息用于表示多个历史视频帧到目标视频帧的过程的动态特征。

本实施例中，作为一种实施方式，计算机设备可以采用卷积神经网络提取目标视频帧的特征，得到目标视频帧的静态特征信息。计算机设备可以采用循环神经网络(Recurrent Neural Networks，RNN)获取目标视频帧的动态特征信息，具体地，计算机设备采用卷积神经网络提取各历史视频帧分别对应的静态特征信息，然后对视频数据中第一帧历史视频帧的动态特征信息赋初值，并根据第一帧历史视频帧的动态特征信息和静态特征信息，通过循环神经网络得到第二帧历史视频帧的动态特征信息；进一步地，计算机设备再根据第二帧历史视频帧的动态特征信息和静态特征信息，通过循环神经网络得到第三帧历史视频帧的动态特征信息，依次循环，得到视频数据中最后一帧视频帧、即目标视频帧的动态特征信息。目标视频帧的动态特征信息包括多个历史视频帧到目标视频帧过程的动态特征，目标视频帧的动态特征信息融合了目标视频帧之前所有历史视频帧的动态特征信息和静态特征信息，提升了特征的丰富性，因此，结合目标视频帧的静态特征信息和动态特征信息进行预测，可以提高预测准确率。

作为一种实施方式，循环神经网络可以是门控循环单元GRU或长短期记忆网络LSTM，等等，在此不做具体限制。

步骤S300，根据目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧。

计算机设备根据目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧。假设，目标视频帧是第k帧视频帧，对应k时刻，k大于0，计算机设备根据目标视频帧的静态特征信息和动态特征信息，采用循环神经网络得到k+1时刻的动态特征信息，然后通过预测阶段预置的动态特征信息和静态特征信息之间的函数关系，得到k+1时刻的静态特征信息，从而得到k+1时刻的视频帧。

进一步地，计算机设备还可以根据k+1时刻的动态特征信息，采用循环神经网络得到k+2时刻的动态特征信息，进而得到k+2时刻的视频帧；根据k+2时刻的动态特征信息，采用循环神经网络得到k+3时刻的动态特征信息，进而得到k+3时刻的视频帧，等等。由此，计算机设备得到由多个预测视频帧组成的预测视频数据。

继续以视频数据是气象视频数据为例，计算机设备根据视频数据得到预测气象视频帧或得到由多个预测气象视频帧组成的预测气象视频数据，用于气象临近预报、降水预报，等等。本实施例基于视频数据的预测方法可以提升预测气象视频帧及预测气象视频数据的预测准确性，进而提升了气象临近预报、降水预报等气象预报的准确性及可靠性。

本实施例通过获取待预测的视频数据；视频数据包括目标视频帧和多个历史视频帧，目标视频帧在时序上处于多个历史视频帧之后；根据目标视频帧和多个历史视频帧，获取目标视频帧的静态特征信息和动态特征信息；根据目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧；由此，计算机设备根据视频数据，预测得到至少一个预测视频帧，由于视频数据比图像数据包括更丰富的信息，计算机设备通过获取目标视频帧的静态特征信息和动态特征信息，再基于该目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧，避免了传统技术中，基于当前的图像数据预测未来时刻的图像数据，由于当前的图像数据包括的信息较少导致的预测准确率低的问题。本实施例可以提升多媒体数据的预测准确率。

图2为另一个实施例提供的视频预测方法的流程示意图。在上述图1所示实施例的基础上，如图2所示，本实施例中，步骤S200包括步骤S210和步骤S220，具体地：

步骤S210，根据目标视频帧，获取目标视频帧的静态特征信息。

本实施例中，具体地，计算机设备采用Encoder编码器网络，对目标视频帧进行编码，得到目标视频帧的静态特征信息。

计算机设备通过编码器网络将目标视频帧图像转换为特征向量，即目标视频帧的静态特征信息。本实施例中，编码器网络可以由下采样层、卷积层及全局平均池层组成；目标视频帧首先被4层下采样层缩小，每个下采样层由步长为2的卷积层、批处理规范化层和ReLU激活层组成；本实施例中，特征图的大小逐层减半，通道数逐层翻倍，由此可以通过更多的感受野获取目标视频帧更丰富的特征；在4层下采样层处理之后，由1×1卷积层进行降维和信道融合，卷积层的信道维数为128，最后，连接全局平均池层，得到与目标视频帧对应的静态特征信息，即静态特征向量。

可以理解的是，编码器网络的具体结构并不局限于上述举例，可以包括比上述举例更多或者更少的网络层，可以包括不同的网络参数，在此不做具体限制。

步骤S220，根据多个历史视频帧，获取目标视频帧的动态特征信息。

本实施例中，计算机设备根据多个历史视频帧，获取目标视频帧的动态特征信息。具体地，计算机设备获取各历史视频帧的静态特征信息和各历史视频帧的动态特征信息，然后根据各历史视频帧的静态特征信息和各历史视频帧的动态特征信息，获取目标视频帧的动态特征信息。

作为一种实施方式，参见图3，图3为一个实施例提供的视频预测方法中，步骤S220的细化步骤示意图。如图3所示，步骤S220包括步骤S221、步骤S222和步骤S223，具体地：

步骤S221，获取与目标视频帧相邻的历史视频帧的静态特征信息。

本实施例中，计算机设备获取与目标视频帧相邻的历史视频帧的静态特征信息。例如，视频数据由10帧连续的视频帧组成，则该视频数据中，前9帧视频帧均为历史视频帧，第10帧视频帧为目标视频帧，与目标视频帧相邻的历史视频帧则为第9帧视频帧。

假设，视频数据由k帧连续的视频帧组成,则第1帧、第2帧......第k-1帧均为历史视频帧，第k帧为目标视频帧，与目标视频帧相邻的历史视频帧为第k-1帧视频帧。

作为一种实施方式，计算机设备采用编码器网络，对与目标视频帧相邻的历史视频帧进行编码，得到与目标视频帧相邻的历史视频帧的静态特征信息。

步骤S222，根据多个历史视频帧和龙贝格观测器网络，获取与目标视频帧相邻的历史视频帧的动态特征信息。

计算机设备根据多个历史视频帧和龙贝格(Luenberger)观测器网络，获取与目标视频帧相邻的历史视频帧的动态特征信息。

龙贝格观测器网络如公式1所示：

z_k＝Az_k-1+f_θ(z_k-1)+L_p(y_k-1-Cz_k-1) 公式1

其中，z_k表示第k帧视频帧的动态特征信息，z_k-1表示第k-1帧视频帧的动态特征信息，y_k-1表示第k-1帧视频帧的静态特征信息，f_θ表示选取的循环神经网络，如门控循环单元GRU或长短期记忆网络LSTM等，A和C均为已知的矩阵，矩阵L_p为龙贝格观测器网络通过学习得到的网络参数。

由此，计算机设备获取视频数据中所有历史视频帧的静态特征信息后，采用如公式1所示的龙贝格观测器网络，根据前一帧视频帧的动态特征信息和静态特征信息，即可获取后一帧视频帧的动态特征信息。

需要说明的是，计算机设备需要对视频数据中第一帧视频帧的动态特征信息赋初始假设值，该初始假设值可以是人工基于经验设置的，也可以是计算机保存的历史初始假设值，等等。对视频数据中第一帧视频帧的动态特征信息赋初始假设值后，计算机设备将第一帧视频帧的动态特征信息和静态特征信息输入至上述龙贝格观测器网络中，得到第二帧视频帧的动态特征信息；然后将第二帧视频帧的动态特征信息和静态特征信息输入至上述龙贝格观测器网络中，得到第三帧视频帧的动态特征信息，以此类推，得到与目标视频帧相邻的历史视频帧的动态特征信息。

步骤S223，将与目标视频帧相邻的历史视频帧的静态特征信息和动态特征信息输入至龙贝格观测器网络中，得到目标视频帧的动态特征信息。

计算机设备将与目标视频帧相邻的历史视频帧的静态特征信息和动态特征信息输入至龙贝格观测器网络中，得到目标视频帧的动态特征信息。

同样地，计算机设备将与目标视频帧(如第k帧)相邻的历史视频帧(如第k-1帧)的静态特征信息和动态特征信息输入至龙贝格观测器网络中，得到目标视频帧的动态特征信息。

本实施例中，通过龙贝格观测器网络，捕捉特征的动态演化，得到目标视频帧的动态特征信息，目标视频帧的动态特征信息是对之前所有历史视频帧的动态特征信息和静态特征信息进行计算得到的，由此，提升了目标视频帧的动态特征信息的特征丰富性，提升了预测准确率。

传统的观测器模型都依赖于初始参数，即初始假设值的选取，初始参数选取的优劣对观测结果影响很大。本实施例中，引入如公式1所示的非线性龙贝格观测器网络，非线性龙贝格观测器网络对初始假设值不敏感，即对视频数据中第一帧视频帧假设的动态特征信息不敏感，提升了观测器网络对初始参数的鲁棒性，降低了观测器网络对初始参数的依赖程度，提升了观测器网络的健壮性，基于上述龙贝格观测器网络的视频预测方法可以提升预测精度。

图4为另一个实施例提供的视频预测方法的流程示意图。在上述图3所示实施例的基础上，如图4所示，本实施例中，步骤S300包括步骤S310和步骤S320，具体地：

步骤S310，将目标视频帧的静态特征信息和目标视频帧的动态特征信息输入至龙贝格观测器网络中，得到第一预测时刻的动态特征信息。

本实施例中，计算机设备根据目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧，具体是将目标视频帧的静态特征信息和目标视频帧的动态特征信息输入至上述公式1所示的龙贝格观测器网络中，得到第一预测时刻的动态特征信息。

例如，目标视频帧为第k帧视频帧，对应k时刻，计算机设备将目标视频帧的静态特征信息和目标视频帧的动态特征信息输入至上述公式1所示的龙贝格观测器网络中，得到第一预测时刻的动态特征信息，第一预测时刻即k+1时刻，也即是计算机设备预测到的目标视频帧之后第一个时刻的动态特征信息。

步骤S320，根据第一预测时刻的动态特征信息，获取第一预测时刻的预测视频帧。

计算机设备根据第一预测时刻的动态特征信息，获取第一预测时刻的预测视频帧，具体地，计算机设备采用预测到的第一预测时刻的动态特征信息对预设测量函数赋值，赋值后得到第一预测时刻的静态特征信息。

作为一种实施方式，Emission测量函数可以如公式2所示：

C为已知的矩阵，由公式2可知，计算机设备将第一预测时刻的动态特征信息作为z_k代入公式2，即可得到对应的静态特征信息

计算机设备根据第一预测时刻的静态特征信息，获取第一预测时刻的预测视频帧，作为一种实施方式，计算机设备可以采用解码器网络，对第一预测时刻的静态特征信息解码，得到第一预测时刻的预测视频帧。

基于计算机设备已经获取到的目标视频帧的静态特征信息和动态特征信息，本实施例通过龙贝格观测器网络，得到目标视频帧之后第一预测时刻的动态特征信息，并基于测量函数获取第一预测时刻的静态特征信息，对该第一预测时刻的静态特征信息进行解码，得到第一预测时刻的预测视频帧，提升了基于视频数据的预测准确率，有利于本实施例视频预测方法在各个领域的实际应用及推广。

图5为另一个实施例提供的视频预测方法的流程示意图。在上述图4所示实施例的基础上，如图5所示，本实施例中，步骤S310之后还包括步骤S410和步骤S420，具体地：

步骤S410，将第一预测时刻的动态特征信息输入至预测网络中，得到第二预测时刻的动态特征信息。

第二预测时刻是第一预测时刻之后的时刻。

本实施例中，对于第一预测时刻之后的所有预测时刻，计算机设备均采用预测网络获取第一预测时刻之后各预测时刻的动态特征信息。

本实施例中，Transition预测网络如公式3所示：

z_k+1＝Az_k+f_θ(z_k) 公式3

其中，z_k+1表示预测的k+1帧的动态特征信息，z_k表示需要预测的k+1帧的前一帧的动态特征信息，A为已知的矩阵，f_θ表示选取的循环神经网络。

本实施例中，动态特征信息为动态特征向量，作为一种实施方式，将动态特征向量的维数设置为静态特征向量的维数的2倍，以此避免特征丢失。例如，目标视频帧的静态特征信息为128维的特征向量，则通过龙贝格观测器网络后得到的第一预测时刻的动态特征信息为256维的特征向量。可以理解的是，动态特征向量的维数不局限于上述举例。

本实施例中，作为一种实施方式，f_θ可以选用单层的GRU单元实现，继续上述举例，输入z_k为256维，由于GRU单元的输出维数为512维，因此，在GRU单元之后再接一个全连接层，从而得到与z_k相同维数的z_k+1，得到第二预测时刻的动态特征信息。

步骤S420，根据第二预测时刻的动态特征信息，获取第二预测时刻的预测视频帧。

计算机设备根据第二预测时刻的动态特征信息，获取第二预测时刻的预测视频帧。

作为一种实施方式，参见图6，图6为一个实施例中步骤S420的细化步骤示意图。如图6所示，步骤S420包括步骤S421和步骤S422，具体地：

步骤S421，采用第二预测时刻的动态特征信息对预设测量函数赋值，赋值后得到第二预测时刻的静态特征信息。

本实施例中，测量函数如上述公式2所示。由公式2可知，计算机设备将第二预测时刻的动态特征信息作为z_k代入公式2，即可得到对应的静态特征信息

步骤S422，根据第二预测时刻的静态特征信息，获取第二预测时刻的预测视频帧。

计算机设备根据第二预测时刻的静态特征信息，获取第二预测时刻的预测视频帧，作为一种实施方式，计算机设备可以采用解码器网络，对第二预测时刻的静态特征信息解码，得到第二预测时刻的预测视频帧。

可以理解的是，按照同样的方式，计算机设备可以依次获取到第三预测时刻的预测视频帧、第四预测时刻的预测视频帧......第k+n时刻的预测视频帧，等等。由此，计算机设备获取到由多个连续的预测视频帧组成的预测视频数据。本实施例通过上述实施方式，提升了预测视频数据的结果准确性。

参见图7，图7为另一个实施例提供的视频预测方法的流程示意图。在上述图6所示实施例的基础上，本实施例中，步骤S422包括步骤S422a：

步骤S422a，采用解码器网络，对第二预测时刻的静态特征信息解码，得到第二预测时刻的预测视频帧。

本实施例中，作为一种实施方式，Decoder解码器网络可以将预测的静态特征信息解码成相应的预测视频帧。解码器网络可以由五层上采样层组成，每层上采样层结构一致，参数不同。上采样层由反褶积、BN层和ReLU层组成。每个层的信道号对应于下述编码器网络。

对应地，本实施例中，步骤S210包括步骤S211：

步骤S211，采用编码器网络，对目标视频帧进行编码，得到目标视频帧的静态特征信息。

为了更清楚地说明本实施例的实施方式，参见图8和图9，其中，图8为本实施例中，视频预测模型的整体结构示意图，图9为本实施例视频预测方法的过程示意图。

计算机设备将视频数据的多个历史视频帧(x₁、x₂...x_k-1)和目标视频帧(x_k)输入至Encoder编码器网络中，通过Encoder获取多个历史视频帧和目标视频帧分别对应的静态特征信息(y₁、y₂...y_k-1、y_k)；进一步地，计算机设备采用如上述公式1所示的Observer龙贝格观测器网络,根据第一帧历史视频帧x₁对应的静态特征信息y₁和动态特征信息z₁，获取第二帧历史视频帧x₂对应的动态特征信息z₂，以此类推，根据目标视频帧x_k对应的静态特征信息y_k和动态特征信息z_k，获取第一预测时刻k+1的动态特征信息z_K+1。

需要说明的是，为了提高龙贝格观测器网络对初始假设值的鲁棒性，计算机设备可以首先设置一个动态特征向量z₀，将z₀输入至龙贝格观测器网络中得到第一帧历史视频帧x₁对应的动态特征信息z₁，再根据上述步骤，获取第一预测时刻k+1的动态特征信息z_K+1。

计算机设备获取到第一预测时刻k+1的动态特征信息z_K+1后，采用上述公式3所示的Transition预测网络，依次得到第二预测时刻k+2的动态特征信息z_K+2...第n预测时刻k+n的动态特征信息z_K+n,n为大于0的整数。

计算机设备采用上述公式2所示的Emission测量函数，根据各预测时刻k+1、k+2...k+n的动态特征信息z_K+1、z_K+2...z_K+n，得到各预测时刻k+1、k+2...k+n对应的静态特征信息

需要说明的是，计算机设备根据z_K+1获取z_K+2，以及根据z_K+1获取

可以并行进行，由此加快预测效率。

计算机设备采用Decoder解码器网络，对

进行解码，得到各预测时刻k+1、k+2...k+n分别对应的预测视频帧

本实施例将龙贝格观测器网络部署于视频预测模型中，实现了基于给定的视频数据对未来时刻的视频帧的预测，降低了视频预测模型对初始参数的依赖程度，提升了视频预测模型对初始参数的鲁棒性，提升了视频预测的准确率。

为了进一步说明本实施例视频预测方法带来的有益效果，参见图10，图10为一个实施例中，采用本视频预测方法的效果示意图。

本实施例中，所有视频帧图像的大小均设置为64×64，数据集由来自简单模拟摆的长度为20的序列组成，计算机设备根据输入Input的10帧视频帧，预测得到输出Ours的10帧预测视频帧。其中，钟摆在视频序列中左右摆动，本实施例采用3600个训练数据序列，400个验证序列和1000个测试序列构建视频预测模型。

如图10所示，第一行Input为10帧钟摆序列，即视频数据的10个视频帧，第二行GT为预测时刻对应的真实钟摆序列，第六行Ours为采用本预测模型的视频预测方法后得到的预测时刻对应的预测钟摆序列，即10帧预测视频帧，其中，本视频预测方法选取循环神经网络为门控循环单元GRU；如图10中，第三至第五行为采用其它方法预测得到的预测钟摆序列，由此可知，本视频预测方法可以显著提升视频预测的准确率。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种视频预测装置，包括：

第一获取模块10，用于获取待预测的视频数据；所述视频数据包括目标视频帧和多个历史视频帧，所述目标视频帧在时序上处于所述多个历史视频帧之后；

第二获取模块20，用于根据所述目标视频帧和所述多个历史视频帧，获取所述目标视频帧的静态特征信息和动态特征信息；

预测模块30，用于根据所述目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧。

可选地，第二获取模块20包括：

第一获取子模块，用于根据所述目标视频帧，获取所述目标视频帧的静态特征信息；

第二获取子模块，用于根据所述多个历史视频帧，获取所述目标视频帧的动态特征信息。

可选地，所述第二获取子模块包括：

第一获取单元，用于获取与所述目标视频帧相邻的历史视频帧的静态特征信息；

第二获取单元，用于根据所述多个历史视频帧和龙贝格观测器网络，获取与所述目标视频帧相邻的历史视频帧的动态特征信息；

第三获取单元，用于将与所述目标视频帧相邻的历史视频帧的静态特征信息和动态特征信息输入至所述龙贝格观测器网络中，得到所述目标视频帧的动态特征信息。

可选地，所述预测模块30包括：

第一动态特征信息预测子模块，用于将所述目标视频帧的静态特征信息和所述目标视频帧的动态特征信息输入至所述龙贝格观测器网络中，得到第一预测时刻的动态特征信息；

第一视频帧预测子模块，用于根据所述第一预测时刻的动态特征信息，获取所述第一预测时刻的预测视频帧。

可选地，所述预测模块30还包括：

第二动态特征信息预测子模块，用于将所述第一预测时刻的动态特征信息输入至预测网络中，得到第二预测时刻的动态特征信息；所述第二预测时刻是所述第一预测时刻之后的时刻；

第二视频帧预测子模块，用于根据所述第二预测时刻的动态特征信息，获取所述第二预测时刻的预测视频帧。

可选地，所述第二视频帧预测子模块包括：

赋值单元，用于采用所述第二预测时刻的动态特征信息对预设测量函数赋值，赋值后得到所述第二预测时刻的静态特征信息；

预测单元，用于根据所述第二预测时刻的静态特征信息，获取所述第二预测时刻的预测视频帧。

可选地，所述预测单元包括：

解码预测子单元，用于采用解码器网络，对所述第二预测时刻的静态特征信息解码，得到所述第二预测时刻的预测视频帧；

所述第一获取子模块，还用于采用编码器网络，对所述目标视频帧进行编码，得到所述目标视频帧的静态特征信息。

本实施例提供的视频预测装置，可以执行上述视频预测方法实施例，其实现原理和技术效果类似，在此不再赘述。关于视频预测装置的具体限定可以参见上文中对于视频预测方法的限定，在此不再赘述。上述视频预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，还提供了一种如图12所示的计算机设备，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频预测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频预测方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取与所述目标视频帧相邻的历史视频帧的静态特征信息；

在一个实施例中，所述车窗图像包括前车窗图像、后车窗图像及侧车窗图像，处理器执行计算机程序时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Ramb微秒)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取与所述目标视频帧相邻的历史视频帧的静态特征信息；

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频帧和所述多个历史视频帧，获取所述目标视频帧的静态特征信息和动态特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个历史视频帧，获取所述目标视频帧的动态特征信息，包括：

获取与所述目标视频帧相邻的历史视频帧的静态特征信息；

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标视频帧的静态特征信息和动态特征信息，预测得到至少一个预测视频帧，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述目标视频帧的静态特征信息和所述目标视频帧的动态特征信息输入至所述龙贝格观测器网络中，得到第一预测时刻的动态特征信息之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二预测时刻的动态特征信息，获取所述第二预测时刻的预测视频帧，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二预测时刻的静态特征信息，获取所述第二预测时刻的预测视频帧，包括：

8.一种视频预测装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。