CN114495037A

CN114495037A - 一种基于关键点和卡尔曼滤波的视频预测方法及系统

Info

Publication number: CN114495037A
Application number: CN202111677490.5A
Authority: CN
Inventors: 王强; 张化祥; 赵平; 候红鸽; 王祝华; 杨恒
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-13

Abstract

本发明属于自动驾驶中视频数据帧的预测领域，提供了一种基于关键点和卡尔曼滤波的视频预测方法及系统，首先，通过训练一个神经网络对搜集到的数据进行特征提取，将提取到的特征转化为关键点；其次，将关键点进行特征重构，并将重构出来的特征与初始图像帧的特征一起通过另一个神经网络进行图像重构，通过优化损失函数，获得特征提取网络与图像重构网络。最后，利用过程一种提取的图像关键点，结合RNN模型获得的图像先验信息，利用卡尔曼滤波对未来数据帧进行预测，并将预测图像与真实图像进行比较，优化相应损失函数训练RNN模型。

Description

一种基于关键点和卡尔曼滤波的视频预测方法及系统

技术领域

本发明属于自动驾驶中视频数据帧的预测领域，尤其涉及一种基于关键点和卡尔曼滤波的视频预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近几年，自动驾驶作为一个新的应用领域，频获工业界关注。自动驾驶通过相机、视频等数据采集设备对周边路况、环境、行人等进行观测，并根据采集到的数据进行路况的分析判断，从而进行决策。视频预测技术是一项比较前沿的研究技术，由于视频采集设备采集到的数据图像维度较高，数据量较大，给问题分析带来不小挑战，该项技术目前发展并不太成熟，现有视频预测技术包括基于前一帧图像来预测下一帧图像和基于多帧图像信息预测下一帧图像，但是基于前一帧图像来预测下一帧图像的方法未能充分有效利用历史信息；基于多帧图像信息预测下一帧图像的处理数据过于庞大，致使计算效率低下，且预测效果过拟合较为严重。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种基于关键点和卡尔曼滤波的视频预测方法及系统，其包括图像特征的提取与图像重构，利用关键点和卡尔曼滤波进行数据帧的预测两个阶段，不仅要标识出对象的行为，还要对其可能接下来的行为进行预测，以更好的提高安全性能。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于关键点和卡尔曼滤波的视频预测方法,包括如下步骤：

获取原始自动驾驶过程中的多维数据；

根据多维数据和训练后的图像特征提取模型进行图像的特征提取，根据提取到的特征获取图像的多维度关键点信息；

根据多维度关键点信息，结合预测模型估计获得的图像先验信息，利用卡尔曼滤波对当前数据帧预测，得到下一个数据帧预测图像，根据预测图像预测标识对象接下来的行为。

本发明的第二个方面提供一种基于关键点和卡尔曼滤波的视频预测系统,包括：数据获取模块，被配置为：获取原始自动驾驶过程中的多维数据；

关键点信息提取模块，被配置为：根据多维数据和训练后的图像特征提取模型进行图像的特征提取，根据提取到的特征获取图像的多维度关键点信息；

视频图像预测模块，被配置为：根据多维度关键点信息，结合预测模型估计获得的图像先验信息，利用卡尔曼滤波对当前数据帧预测，得到下一数据帧预测图像，根据预测图像预测标识对象接下来的行为。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于关键点和卡尔曼滤波的视频预测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于关键点和卡尔曼滤波的视频预测方法中的步骤。

与现有技术相比，本发明的有益效果是：

首先，将关键点提取模型与预测模型分开训练，降低了模型整体的复杂度，提高了预测效率；其次，通过关键点的特征提取技术，降低了动态预测过程中数据的维度，降低了计算复杂度，有效缓解了过拟合现象；最后，通过卡尔曼滤波方法，充分使用了历史先验信息，使得图像预测效果更加平滑，以更好的提高安全性能。采用利用关键点和滤波方法进行数据帧的预测两个阶段，将得到的图像关键点以及图像的先验信息，基于先验信息，不仅可以标识出对象的行为，还可以对其可能接下来的行为进行预测，以更好的提高安全性能。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一特征提取与图像重构过程整体示意图；

图2是本发明实施例一特征提取过程示意图；

图3是本发明实施例一卷积神经网络模块；

图4是本发明实施例一图像重构模型示意图；

图5是本发明实施例一基于卡尔曼滤波的数据帧的预测流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供一种基于关键点和卡尔曼滤波的视频预测方法，包括如下步骤：

S1:获取原始自动驾驶过程中采集的图像和视频数据；

S2:根据采集的图像和视频数据和训练后的图像的特征提取模型进行图像的特征提取，根据提取到的特征获取图像的多维度关键点信息；

S3:将图像的多维度关键点渲染为低维数据，并结合原始数据对得到的低维数据通过图像重构模型进行图像重构；

S4:提取图像的多维度关键点信息，结合RNN模型获得的图像先验信息，利用卡尔曼滤波预测下一个数据帧得到预测图像，根据预测图像预测标识对象接下来的行为；

S5:将预测图像和真实图像进行比较，优化相应的损失函数；

其中，S1中，所述原始自动驾驶过程中采集的图像和视频数据通过相机、视频等数据采集设备对周边路况、环境、行人等进行采集。

如图2所示，在获取原始数据后进行数据的预处理，对数据帧进行随机打乱操作，以保持数据的独立同分布性；

所述特征提取模型包括多个卷积神经网络模块，每个卷积神经网络模块包括：批标准化、卷积层、池化层、非线性激活层等。

如图3所示，S2中，所述将提取到的特征转化为图像关键点包括：

假设通过特征提取φ^det后，得到k个特征，记为S_u(v,k)；

然后将得到的k个特征关键点为：

如图4所示，S3中，所述图像重构模型φ^rec采用神经网络模型，例如ResNet网络、DenseNet网络等。

如图1所示，在所述关键点提取阶段中，采用的损失函数为：

λ为超参。

S4中，提取图像关键点，结合RNN模型获得的图像先验信息，利用卡尔曼滤波方法预测数据帧得到预测图像；

提取多维度关键点信息后进行恢复图像关键点，恢复图像关键点的方法为:通过高斯映射，将关键点

渲染为:

其中，S_u(v,k)表示图像v使用第k个卷积核提取出的特征，

表示图像v使用第k个卷积核得到的关键点重构出来的特征，k表示特征的数量，u表示一高斯分布随机变量。v表示对应的图像，

表示图像v使用第k个卷积核得出的关键点。

其中

与S_u(v,k)维度大小相同。

如图5所示，先验信息对于估计具有非常重要的意义，在该模型中，先验信息估计如下：

首先，在观测到当前帧图像之前，将历史信息融入到RNN模型φ^prior中来，获取当前帧的先验信息φ^prior(h_t-1)＝p(z_t|x<t,z<t)；

其次，结合当前帧图像信息x_t与先验信息

利用贝叶斯估计

求得预测模型的后验估计

再次，由后验估计

及当前帧关键点信息x_t，利用卡尔曼滤波

预测下一帧的关键点信息

最后，通过RNN更新隐状态

如图5所示，未来图像预测阶段损失函数为：

其中λ₁,λ₂,λ₃为超参，v_t+1为t+1帧图像，

为t+1帧预测图像，Loss_kl为相对熵损失，L_sep为分离损失，L_sparse为稀疏损失；其中，

L_sparse＝∑_k|μ_k|，

<x>表示关键点x的均值。

实施例二

本实施例提供一种基于关键点和卡尔曼滤波的视频预测系统，包括：

数据获取模块，被配置为：获取原始自动驾驶过程中的多维数据；

视频图像预测模块，被配置为：根据多维度关键点信息，结合预测模型估计获得的图像先验信息，利用卡尔曼滤波对当前数据帧预测，得到下一数据帧预测图像。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于关键点和卡尔曼滤波的视频预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于关键点和卡尔曼滤波的视频预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关键点和卡尔曼滤波的视频预测方法，其特征在于，包括如下步骤：

获取原始自动驾驶过程中的多维数据；

2.如权利要求1所述的一种基于关键点和卡尔曼滤波的视频预测方法，其特征在于，在提取到的特征获取图像的多维度关键点信息后，将多维度关键点信息渲染为低维数据，并结合原始数据对得到的低维数据通过图像重构模型进行图像重构。

3.如权利要求1所述的一种基于关键点和卡尔曼滤波的视频预测方法，其特征在于，所述特征提取模型包括多个卷积神经网络模块，每个卷积神经网络模块包括：批标准化、卷积层、池化层以及非线性激活层。

4.如权利要求1所述的一种基于关键点和卡尔曼滤波的视频预测方法，其特征在于，提取多维度关键点信息进行恢复图像关键点，所述恢复图像关键点的方法为:通过高斯映射，将关键点进行渲染。

5.如权利要求1所述的一种基于关键点和卡尔曼滤波的视频预测方法，其特征在于，图像先验信息的获取过程包括：

在观测到当前帧图像之前，将历史信息融入到RNN模型中，获取当前帧的先验信息；

结合当前帧图像信息与先验信息，利用贝叶斯估计，求得预测模型的后验估计；

由后验估计及当前帧关键点信息，利用卡尔曼滤波预测下一帧的关键点信息。

6.如权利要求1所述的一种基于关键点和卡尔曼滤波的视频预测方法，其特征在于，所述预测模型的损失函数为：

其中λ₁,λ₂,λ₃为超参，Loss_kl为相对熵损失，L_sep为分离损失，L_sparse为稀疏损失。

7.如权利要求1所述的一种基于关键点和卡尔曼滤波的视频预测方法，其特征在于，在获取原始数据后进行数据的预处理，对数据进行随机打乱操作。

8.一种基于关键点和卡尔曼滤波的视频预测系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于关键点和卡尔曼滤波的视频预测方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于关键点和卡尔曼滤波的视频预测方法中的步骤。