CN110334654A

CN110334654A - 视频预测方法和装置、视频预测模型的训练方法及车辆

Info

Publication number: CN110334654A
Application number: CN201910610206.9A
Authority: CN
Inventors: 范坤
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-10-15

Abstract

本申请公开了一种视频预测方法和装置、视频预测模型的训练方法及车辆，该视频预测方法包括：确定先前N帧图像的第N特征图，其中，第N特征图包含先前N帧图像的空间特征和时间特征；根据第N特征图生成未来M帧图像，其中，未来M帧图像与先前N帧图像之间间隔P帧图像，N为大于1的整数，M、P为大于或等于1的整数。本申请的技术方案通过确定与先前N帧图像在时间上不连续的未来M帧图像，实现对未来时间段内的视频帧的预测，从而能够缩短计算时间、减小资源占用以及运算负担，提高预测效率。

Description

视频预测方法和装置、视频预测模型的训练方法及车辆

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种视频预测方法和装置、视频预测模型的训练方法及车辆。

背景技术

视频预测可以根据给定的视频，预测后续的视频，从而使得用户可以根据预测的视频提前做出判断或决策。现有的视频预测方法一般是基于前一帧预测后一帧，并通过不断重复该操作实现长时间的视频预测。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种视频预测方法和装置、视频预测模型的训练方法及车辆。

根据本申请的一个方面，提供了一种视频预测方法，包括：确定先前N帧图像的第N特征图，其中，第N特征图包含先前N帧图像的空间特征和时间特征；根据第N特征图生成未来M帧图像，其中，未来M帧图像与先前N帧图像之间间隔P帧图像，N为大于1的整数，M、P为大于或等于1的整数。

根据本申请的另一个方面，提供了一种视频预测装置，包括：确定模块，用于确定先前N帧图像的第N特征图，其中，第N特征图包含先前N帧图像的空间特征和时间特征；生成模块，用于根据第N特征图生成未来M帧图像，其中，未来M帧图像与先前N帧图像之间间隔P帧图像，N为大于1的整数，M、P为大于或等于1的整数。

根据本申请的又一个方面，提供了一种视频预测模型的训练方法，包括：通过利用多个样本视频训练机器学习模型得到视频预测模型，多个样本视频中的每个样本视频包括先前N帧样本图像和未来M帧样本图像，未来M帧样本图像和先前N帧样本图像之间间隔P帧图像，其中，N为大于1的整数，M、P为大于或等于1的整数。

根据本申请的又一个方面，提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述的视频预测方法。

根据本申请的又一个方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器，其中，处理器用于执行上述的视频预测方法。

根据本申请的又一个方面，提供了一种车辆，包括上述的电子设备。

本申请实施例提供了一种视频预测方法和装置、视频预测模型的训练方法及车辆，通过利用已知视频中的先前N帧图像的第N特征图，确定与先前N帧图像在时间上不连续的未来M帧图像，实现对未来时间段内的视频帧的预测，由于省略了对位于先前N帧图像和未来M帧图像中间的视频帧的预测，从而能够缩短计算时间、减小资源占用以及运算负担，提高预测效率。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的视频预测系统的系统架构示意图。

图2是本申请一示例性实施例提供的视频预测方法的流程示意图。

图3是本申请一示例性实施例提供的视频预测方法的场景示意图。

图4是本申请另一示例性实施例提供的确定先前N帧图像的第N特征图的流程示意图。

图5是本申请另一示例性实施例提供的根据第N特征图生成未来M帧图像的流程示意图。

图6是本申请一示例性实施例提供的视频预测模型的结构示意图。

图7是本申请一示例性实施例提供的视频预测装置的结构示意图。

图8是本申请一示例性实施例提供的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

视频预测可以对视频图像中各个实体的位置变化做出预测，或者对视频图像中的各个实体与周围环境的位置关系做出预测，从而可以便于用户提前做出判断。因此，视频预测在机器人决策、自动驾驶和视频理解等领域具有广泛的应用前景。

例如，在自动驾驶领域，通过根据摄像头采集的先前视频预测未来视频，可以判断位于当前车辆周围的车辆的运动状态，从而可以及时调整当前车辆的运动状态，提高驾驶的安全性。

现有的视频预测方法，是基于前一帧图像预测后一帧图像，通过不断重复这个操作进行长时间的视频预测。例如，用户需要的是未来时间区间为95s-100s的视频帧，现有的视频预测方法会基于已有的视频预测未来时间区间为0s-100s的视频帧，以获得未来时间区间为95s-100s的视频帧。然而，在0s-100s的视频帧中，0s-95s的视频帧并不是用户需要的，而且在预测过程中，针对已有的视频连续预测未来0s-100s的视频帧会比较耗时且会占用较多的计算资源、增加运算负担。

所以，现有的视频预测方法难以根据用户需求直接获得用户所需的时间段内的视频帧，存在耗时久、运算负担重的问题。

示例性系统

图1是本申请一示例性实施例提供的视频预测系统1的系统架构示意图，其示出了一种根据图像采集设备(例如，摄像头)采集的视频对未来某时间段内的视频进行预测的应用场景。如图1所示，该视频预测系统1包括电子设备10，图像采集设备20。电子设备10通过根据图像采集设备所采集的视频预测未来某时间段内的视频，进而根据该预测的视频对终端执行相应的操作。这里的终端可以是无人驾驶车辆，图像采集设备20可以是车载摄像头，也可以是安装在其他设备(例如，无人机)上的摄像头。

需要说明的是，本申请实施例中的图像采集设备20可以集成在电子设备10上。

需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施例并不限于此。相反，本申请的实施例可以应用于可能适用的任何场景。

示例性方法

图2是本申请一示例性实施例提供的视频预测方法的流程示意图。本实施例的执行主体例如可以是图1中的电子设备，如图2所示，该方法包括如下步骤：

步骤210：确定先前N帧图像的第N特征图，其中，第N特征图包含先前N帧图像的空间特征和时间特征。

本申请实施例提供的视频预测方法可用于自动驾驶领域，视频中的实体可以是当前车辆和/或当前车辆周围的车辆，电子设备可以是当前车辆上的车载系统的控制器，或是独立于该当前车辆之外的其他控制器。控制器可以根据视频预测获得的预测的视频直接控制当前车辆的速度、转向等状态，或者该控制器可以将预测的视频通过车辆上的显示屏幕播放，以便驾驶员根据预测的视频中的内容对当前车辆的速度、转向等状态做出调整。

具体地，先前N帧图像可以是摄像头在距离当前时间点之前的预设时间段内采集的视频所包含的多个图像，这里，N可以是2或者大于2的整数。

在一实施例中，可以利用神经网络模型从先前N帧图像中的第1帧图像提取第一特征图，该第一特征图包括第1帧图像的空间特征和时间特征。即，第一特征图可以反映图像中的实体的运动状态与时间的关系。继续利用神经网络模型从先前N帧图像中的第2帧图像提取第2帧图像的空间特征，并结合第一特征图和第2帧图像的空间特征，从中提取第二特征图，该第二特征图包括第1帧图像和第2帧图像的空间特征和时间特征。即，第二特征图可以反映图像中的实体的运动状态随时间(第1帧图像到第2帧图像所经历的时间)的变化关系。以此类推，可以获得第N特征图。

步骤220：根据第N特征图生成未来M帧图像，其中，未来M帧图像与先前N帧图像之间间隔P帧图像，N为大于1的整数，M、P为大于或等于1的整数。

第N特征图(Feature Map)包含先前N帧图像的空间特征和时间特征，空间特征可以表征每张图像中实体的位置和姿态，时间特征可以反映每张图像对应的时刻，空间特征和时间特征两者结合可以反映位置和姿态的变化与时间的关系。

在一实施例中，空间特征除了包括图像中实体的位置和姿态信息外，还可以进一步包括图像中各个位置的颜色信息或其他实际所需的信息，本申请实施例对此不作具体的限定。

通过第N特征图预测未来M帧图像，该M帧图像可以构成预测的视频帧。先前N帧图像与未来M帧图像在时间上并不是连续的。

例如，先前N帧图像对应的时间段为九点十分十秒至九点十分二十秒(10s)，未来M帧图像对应的时间段为九点十分五十秒至九点十分五十五秒(5s)，即先前N帧图像与未来M帧图像之间间隔了30s。先前N帧图像与未来M帧图像之间间隔的30s可以对应一定数量的图像(即，P帧图像)。

图3是本申请一示例性实施例提供的视频预测方法的场景示意图，如图3所示，在时间轴上，已有视频帧(先前N帧图像)对应的时间段是时间点t＝T0至时间点t＝0(t＝0是当前时刻)。待预测视频帧(未来M帧图像)对应的时间段是时间点t＝T1至时间点t＝T2，而中间的时间段(t＝0至t＝T1)对应的视频帧是不需要预测的。

在本实施例中，先前N帧图像中相邻的两帧图像之间的时间间隔，与未来M帧图像中相邻的两帧图像之间的时间间隔，可以相同，也可以不同，这可以根据实际需要进行设定。

当M为1时，即未来M帧图像的个数为1，可以根据第N特征图直接生成该图像。

当M大于1时，即未来M帧图像的个数大于1，可以根据第N特征图直接生成该未来M帧图像中的第1帧图像，然后根据该第1帧图像依次生成剩下的M-1帧图像，该M帧图像构成预测的视频。

本申请实施例提供了一种视频预测方法，通过利用已知视频中的先前N帧图像的第N特征图，确定与先前N帧图像在时间上不连续的未来M帧图像，实现对未来时间段内的视频帧的预测，由于省略了对位于先前N帧图像和未来M帧图像中间的视频帧的预测，从而能够缩短计算时间、减小资源占用以及运算负担，提高预测效率。

图4是本申请另一示例性实施例提供的确定先前N帧图像的第N特征图的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图4所示实施例，下面着重叙述图4所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图4所示，在本申请实施例提供的视频预测方法中，确定先前N帧图像的第N特征图(即步骤210)，包括：

步骤211：确定先前N帧图像中的每帧图像的第一空间特征图，其中第一空间特征图包含每帧图像的空间特征。

以先前N帧图像中的任一帧图像为例，空间特征包括图像中的实体的位置和姿态信息，该空间特征可以用第一空间特征图表示，该第一空间特征图可以用向量、矩阵或其他合适的形式来表示。每桢图像对应一个第一空间特征图。

在一实施例中，该视频预测方法的执行主体控制器可以通过执行视频预测模型得到未来M帧图像，该视频预测模型可以是机器学习模型通过训练、学习得到的。该视频预测模型可以是基于卷积神经网络、循环神经网络、全连接神经网络或其他神经网络中的一种或多种而构成的。

在一实施例中，步骤211中的第一空间特征图可以通过控制器执行神经网络的设定卷积层的卷积运算来得到。

具体地，参见图6，输入帧图像中第1帧图像、第2帧图像、第3帧图像为先前N帧图像，三帧图像分别经过卷积层的卷积运算获得各自的第一空间特征图。

步骤212：基于先前N帧图像中与第n-1帧图像对应的第n-1特征图以及第n帧图像的第一空间特征图，确定第n特征图，其中，n为大于1且小于或等于N-1的整数。

按照时间的先后顺序，在先N帧图像包括第1帧图像，第2帧图像……第N帧图像。第二特征图是基于第1帧图像对应的第一特征图以及第2帧图像的第一空间特征图获得的。即，第二特征图既可以反映了图像的空间特征随时间的变化关系(图像中实体的位置和姿态与时间的变化关系)，又可以反映当前图像的空间特征(即，第2帧图像中实体的位置和姿态状态)。

在一实施例中，第一特征图中反映图像的空间特征随时间的变化关系的参数可以通过初始化赋予。

第三特征图是基于第2帧图像对应的第二特征图以及第3帧图像的第一空间特征图获得的。即，第三特征图反映了图像的空间特征随时间的变化关系(该变化关系包括从第1帧至第2帧的变化关系，以及从第2帧至第3帧的变化关系)、以及当前图像的空间特征(即，第3帧图像中实体的位置和姿态状态)。

重复步骤212，直到确定与第N-1帧图像对应的第N-1特征图。

步骤213：基于先前N帧图像中与第N-1帧图像对应的第N-1特征图以及第N帧图像的第一空间特征图，确定第N特征图。

特征图与空间特征图类似，也可以用向量、矩阵或其他合适的形式来表示。

在一实施例中，步骤212和步骤213中的特征图可以通过控制器执行神经网络的设定卷积-长短期记忆层的卷积运算来得到。

第N特征图可以通过对第N-1特征图以及第N帧图像的第一空间特征图进行卷积运算来确定。

具体地，参见图6，第1帧图像的第一空间特征图经过卷积-长短期记忆层的卷积运算获得第一特征图；进一步地，第一特征图以及第2帧图像的第一空间特征图经过卷积-长短期记忆层的卷积运算获得第二特征图；第二特征图以及第3帧图像的第一空间特征图经过卷积-长短期记忆层的卷积运算获得第三特征图。在本实施例中，第一特征图的获取过程可以是，第零特征图以及第1帧图像的第一空间特征图经过卷积-长短期记忆层的卷积运算而获得的，这里，第零特征图可以是初始化赋予的，或预先设置的。

本申请实施例提供的视频预测方法，通过基于包含先前N帧图像的空间特征随时间的变化关系以及第N帧图像的空间特征的第N特征图，确定与先前N帧图像在时间上不连续的未来M帧图像，可以提高预测结果的准确性。

图5是本申请另一示例性实施例提供的根据第N特征图生成未来M帧图像的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图5所示实施例，下面着重叙述图5所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图5所示，在本申请实施例提供的视频预测方法中，根据第N特征图生成未来M帧图像(即步骤220)，包括：

221：根据空白帧图像确定空白帧图像的第一空间特征图。

空白帧图像的第一空间特征图可以包括空白帧图像的空间特征。空白帧图像可以是预先设定的图像，该图像中可以不包括先前N帧图像中的实体。

在一实施例中，步骤221中的第一空间特征图可以通过控制器执行神经网络的设定卷积层的卷积运算来得到。

具体地，参见图6，预测帧图像中第6帧图像、第7帧图像、第8帧图像为未来M帧图像，输入帧图像和预测帧图像之间间隔3帧图像，这3帧图像是不需要预测的。第6帧图像是基于空白帧图像获得的。空白帧图像经过卷积层的卷积运算获得空白帧的第一空间特征图。

222：根据第N特征图和空白帧图像的第一空间特征图确定未来M帧图像中的第1帧图像的第二空间特征图。

空白帧图像对应的第一空间特征图可以看做是张白纸，第N特征图可以看做是实体形状和色彩，两者结合可以获得一幅画。即，第N特征图和空白帧图像的第一空间特征图结合可以获得未来M帧图像中的第1帧图像的第二空间特征图。

在一实施例中，步骤222中的第二空间特征图可以通过控制器执行神经网络的设定卷积-长短期记忆层的卷积运算来得到。

具体地，参见图6，空白帧图像的第一空间特征图以及输入帧图像的第三特征图经过卷积-长短期记忆层的卷积运算获得预测的第6帧图像的第二空间特征图。

223：根据第二空间特征图生成未来M帧图像中的第1帧图像。

根据第二空间特征图可以还原出图像，即，生成未来M帧图像中的第1帧图像。未来M帧图像中的任一图像可以称为预测帧图像，例如，未来M帧图像中的第1帧图像可以称为第1预测帧图像。

在一实施例中，步骤223中的第1帧图像可以通过控制器执行神经网络的设定反卷积层的反卷积运算来得到。

具体地，参见图6，第6帧图像的第二空间特征图经过反卷积层的反卷积运算获得第6帧图像。

224：根据未来M帧图像中的第m-1帧图像生成第m帧图像，其中，m为大于1且小于或等于M的整数。

具体地，可以在神经网络的卷积层中确定第1预测帧图像的第一空间特征图。在神经网络的卷积-长短期记忆层中，根据第0预测帧图像对应的特征图(包含先前N帧图像与空白帧图像的空间特征和时间特征)以及第1预测帧图像的第一空间特征图，确定与第2预测帧图像对应的第二空间特征图。在神经网络的反卷积层中，根据与第2预测帧图像对应的第二空间特征图生成第2预测帧图像。

在这里，第一空间特征图包含第1预测帧图像的空间特征，空间特征包括图像中的实体的位置和姿态信息，还可以进一步包括第1预测帧图像中各个位置的颜色信息或其他实际所需的信息。特征图包含先前N帧图像和第0预测帧图像(空白帧图像)的空间特征和时间特征，时间特征可以反映每张图像对应的时刻，空间特征和时间特征两者结合可以反映位置和姿态的变化与时间的关系。

第3预测帧图像的生成过程，可以包括：在神经网络的卷积层中，确定第2预测帧图像的第一空间特征图；在神经网络的卷积-长短期记忆层中，根据第2预测帧图像的第一空间特征图以及第1预测帧图像对应的特征图确定与第3预测帧图像对应的第二空间特征图；以及，在神经网络的反卷积层中，根据与第3预测帧图像对应的第二空间特征图生成第3预测帧图像。

重复步骤224，直到生成第M预测帧图像。未来M帧图像即构成预测的视频。

具体地，参见图6，第6帧图像经过卷积层的卷积运算获得第6帧图像的第一空间特征图，空白帧图像的第一空间特征图以及输入帧图像的第三特征图经过卷积-长短期记忆层的卷积运算还可以获得第五特征图(包含先前3帧图像与空白帧图像的空间特征和时间特征)。第6帧图像的第一空间特征图以及第五特征图经过卷积-长短期记忆层的卷积运算获得预测的第7帧图像的第二空间特征图以及第六特征图(可以包含先前3帧图像、空白帧图像以及第6帧图像的空间特征和时间特征)。第7帧图像的第二空间特征图经过反卷积层的反卷积运算获得第7帧图像。第7帧图像经过卷积层的卷积运算获得第7帧图像的第一空间特征图，第7帧图像的第一空间特征图以及第六特征图经过卷积-长短期记忆层的卷积运算获得预测的第8帧图像的第二空间特征图，第8帧图像的第二空间特征图经过反卷积层的反卷积运算获得第8帧图像。

本申请实施例提供了一种视频预测方法，通过利用已知视频中的先前N帧图像的第N特征图以及空白帧的第一空间特征图，确定与先前N帧图像在时间上不连续的未来M帧图像，实现从图像序列到图像序列的视频预测过程，从而能够避免非必要的预测造成的计算资源的浪费，提高长时间视频预测的预测效率。

图2、图4和图5所示出的实施例之间可以相互补充、相互结合，以实现高效率的视频预测过程。

本申请实施例提供了一种视频预测模型的训练方法，该训练方法包括：通过利用多个样本视频训练机器学习模型得到视频预测模型，多个样本视频中的每个样本视频包括先前N帧样本图像和未来M帧样本图像，未来M帧样本图像和先前N帧样本图像之间间隔P帧图像，其中，N为大于1的整数，M、P为大于或等于1的整数。

具体地，机器学习模型可以是基于卷积神经网络、循环神经网络、全连接神经网络或其他神经网络中的一种或多种而构成的。用于训练机器学习模型的样本视频所包括的图像帧数可以是大于N+M，即，在样本视频中，先前N帧样本图像与未来M帧样本图像是不连续的、中间间隔若干个样本图像。

在训练过程中，通过机器学习模型的损失函数反向更新机器学习模型的网络参数，直到收敛，最终获得视频预测模型。损失函数用未来M帧样本图像和预测的未来M帧样本图像之间的差异来表征。

具体地，在训练机器学习模型时，机器学习模型根据先前N帧样本图像预测未来M帧样本图像，得到预测的未来M帧样本图像。未来M帧样本图像和预测的未来M帧样本图像之间存在差异，机器学习模型根据该差异得到损失函数，进而利用损失函数反向更新机器学习模型的网络参数。通过利用多个样本视频不断地训练机器学习模型，直至获得视频预测模型。获得的视频预测模型可用于实现图2至图4所示的视频预测方法。

在利用多个样本视频训练机器学习模型的过程中，根据先前N帧样本图像预测未来M帧样本图像的具体过程可以参见图2至图4中的描述，为避免重复，在此不再赘述。

本申请实施例提供了一种视频预测模型的训练方法，通过利用已知视频中的先前N帧样本图像的第N特征图，预测与先前N帧样本图像在时间上不连续的未来M帧样本图像，进而根据损失函数调整机器学习模型的参数以获得视频预测模型，从而使得该视频预测模型在对未来时间段内的视频进行预测时，能够缩短计算时间、减小资源占用以及运算负担，提高预测效率。

示例性装置

图7是本申请一示例性实施例提供的视频预测装置700的结构示意图。如图7所示，该装置700包括：确定模块710和生成模块720。

确定模块710用于确定先前N帧图像的第N特征图，其中，第N特征图包含先前N帧图像的空间特征和时间特征；生成模块720用于根据第N特征图生成未来M帧图像，其中，未来M帧图像与先前N帧图像之间间隔P帧图像，N为大于1的整数，M、P为大于或等于1的整数。

具体地，确定模块710和生成模块720的具体工作过程以及功能，可以参见上述图2中的描述，在此不再赘述。

本申请实施例提供了一种视频预测装置，通过利用已知视频中的先前N帧图像的第N特征图，确定与先前N帧图像在时间上不连续的未来M帧图像，实现对未来时间段内的视频帧的预测，由于省略了对位于先前N帧图像和未来M帧图像中间的视频帧的预测，从而能够缩短计算时间、减小资源占用以及运算负担，提高预测效率。

根据本申请一实施例，确定模块710用于：确定先前N帧图像中的每帧图像的第一空间特征图，其中第一空间特征图包含每帧图像的空间特征；基于先前N帧图像中与第n-1帧图像对应的第n-1特征图以及第n帧图像的第一空间特征图，确定第n特征图，其中，n为大于1且小于或等于N-1的整数；基于先前N帧图像中与第N-1帧图像对应的第N-1特征图以及第N帧图像的第一空间特征图，确定所述第N特征图。

根据本申请一实施例，确定模块710确定先前N帧图像中的每帧图像的第一空间特征图的步骤通过执行神经网络的卷积层的卷积运算来执行，确定模块710确定第n特征图以及确定第N特征图的步骤通过执行神经网络的卷积-长短期记忆层的卷积运算来执行。

根据本申请一实施例，生成模块720用于：根据空白帧图像确定空白帧图像的第一空间特征图；根据第N特征图和空白帧图像的第一空间特征图确定未来M帧图像中的第1帧图像的第二空间特征图；根据第二空间特征图生成未来M帧图像中的第1帧图像；根据未来M帧图像中的第m-1帧图像生成第m帧图像，其中，m为大于1且小于或等于M的整数。

根据本申请一实施例，生成模块720根据空白帧图像确定空白帧图像的第一空间特征图的步骤通过执行神经网络的卷积层的卷积运算来执行，生成模块720根据第N特征图和空白帧图像的第一空间特征图确定未来M帧图像中的第1帧图像的第二空间特征图的步骤通过执行神经网络的卷积-长短期记忆层的卷积运算来执行，生成模块720根据第二空间特征图生成未来M帧图像中的第1帧图像的步骤通过执行神经网络的反卷积层的反卷积运算来执行。

各个模块的具体工作过程以及功能，可以参见上述图2至图6中的描述，在此不再赘述。

示例性电子设备

下面，参考图8来描述根据本申请实施例的电子设备。该电子设备80可以执行上述的视频预测过程。

图8图示了根据本申请实施例的电子设备80的框图。

如图8所示，电子设备80包括一个或多个处理器81和存储器82。

处理器81可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备80中的其他组件以执行期望的功能。

存储器82可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器81可以运行所述程序指令，以实现上文所述的本申请的各个实施例的视频预测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量、视频图像信号等各种内容。

在一个示例中，电子设备80还可以包括：输入装置83和输出装置84，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置83可以是上述的摄像机，用于捕捉视频图像的输入信号。在该电子设备是单机设备时，该输入装置83可以是通信网络连接器，用于从摄像机接收所采集的输入信号。

此外，该输入设备83还可以包括例如键盘、鼠标等等。

该输出装置84可以向外部输出各种信息，包括确定出的视频图像等。该输出设备84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备80中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备80还可以包括任何其他适当的组件。

本申请实施例提供了一种车辆，包括上述的电子设备80。电子设备80可以是车载系统中的设备，用于执行上述的视频预测方法，从而可以及时对车辆的行驶状态做出调整，保证行车安全。

在一实施例中，车辆可以是自动驾驶车辆或无人驾驶车辆。

电子设备80可以根据视频预测获得的预测的视频直接控制当前车辆的速度、转向等状态，或者将预测的视频通过车辆上的显示屏幕播放，以便驾驶员根据预测的视频中的内容对当前车辆的速度、转向等状态做出调整。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的视频预测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的视频预测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频预测方法，包括：

确定先前N帧图像的第N特征图，其中，所述第N特征图包含所述先前N帧图像的空间特征和时间特征；

根据所述第N特征图生成未来M帧图像，其中，所述未来M帧图像与所述先前N帧图像之间间隔P帧图像，N为大于1的整数，M、P为大于或等于1的整数。

2.根据权利要求1所述的方法，其中，所述确定先前N帧图像的第N特征图，包括：

确定所述先前N帧图像中的每帧图像的第一空间特征图，其中所述第一空间特征图包含所述每帧图像的空间特征；

基于所述先前N帧图像中与第n-1帧图像对应的第n-1特征图以及第n帧图像的第一空间特征图，确定所述第n特征图，其中，n为大于1且小于或等于N-1的整数；

基于所述先前N帧图像中与第N-1帧图像对应的第N-1特征图以及第N帧图像的第一空间特征图，确定所述第N特征图。

3.根据权利要求2所述的方法，其中，所述确定先前N帧图像中的每帧图像的第一空间特征图的步骤通过执行神经网络的卷积层的卷积运算来执行，所述确定所述第n特征图以及所述确定所述第N特征图的步骤通过执行所述神经网络的卷积-长短期记忆层的卷积运算来执行。

4.根据权利要求1所述的方法，其中，所述根据所述第N特征图生成未来M帧图像，包括：

根据空白帧图像确定所述空白帧图像的第一空间特征图；

根据所述第N特征图和所述空白帧图像的第一空间特征图确定所述未来M帧图像中的第1帧图像的第二空间特征图；

根据所述第二空间特征图生成所述未来M帧图像中的第1帧图像；

根据所述未来M帧图像中的第m-1帧图像生成第m帧图像，其中，m为大于1且小于或等于M的整数。

5.根据权利要求4所述的方法，其中，所述根据空白帧图像确定所述空白帧图像的第一空间特征图的步骤通过执行神经网络的卷积层的卷积运算来执行，所述根据所述第N特征图和所述空白帧图像的第一空间特征图确定所述未来M帧图像中的第1帧图像的第二空间特征图的步骤通过执行所述神经网络的卷积-长短期记忆层的卷积运算来执行，所述根据所述第二空间特征图生成所述未来M帧图像中的第1帧图像的步骤通过执行所述神经网络的反卷积层的反卷积运算来执行。

6.一种视频预测模型的训练方法，包括：

通过利用多个样本视频训练机器学习模型得到所述视频预测模型，所述多个样本视频中的每个样本视频包括先前N帧样本图像和未来M帧样本图像，所述未来M帧样本图像和所述先前N帧样本图像之间间隔P帧图像，其中，N为大于1的整数，M、P为大于或等于1的整数。

7.一种视频预测装置，包括：

确定模块，用于确定先前N帧图像的第N特征图，其中，所述第N特征图包含所述先前N帧图像的空间特征和时间特征；

生成模块，用于根据所述第N特征图生成未来M帧图像，其中，所述未来M帧图像与所述先前N帧图像之间间隔P帧图像，N为大于1的整数，M、P为大于或等于1的整数。

8.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1至5中任一项所述的视频预测方法。

9.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器，

其中，所述处理器用于执行上述权利要求1至5中任一项所述的视频预测方法。

10.一种车辆，包括权利要求9所述的电子设备。