CN112836568B

CN112836568B - 位置预测方法、装置、电子设备及可读存储介质

Info

Publication number: CN112836568B
Application number: CN202011461849.0A
Authority: CN
Inventors: 邹佳辰
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2024-08-23
Anticipated expiration: 2040-12-08
Also published as: CN112836568A

Abstract

本申请提供一种位置预测方法、装置、电子设备及可读存储介质，涉及图像处理技术领域。该方法包括：针对多帧图像中的第一目标帧图像，通过神经网络模型预测所述第一目标帧图像中目标物体的预测位置；针对所述多帧图像中的第二目标帧图像，基于其之前的第一历史帧图像中所述目标物体的最新预测位置预测所述第二目标帧图像中所述目标物体的预测位置；其中，相邻两张第一目标帧图像之间包括至少一张第二目标帧图像。本方案可使得神经网络模型无需对所有图像中的物体进行位置预测，只需对其中一部分的图像进行位置预测即可，一方面减少了神经网络模型的运算量，降低了神经网络模型的功耗，另一方面又减少了对每帧图像的位置检测的时延。

Description

位置预测方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种位置预测方法、装置、电子设备及可读存储介质。

背景技术

随着计算机网络、通信和半导体技术的迅速发展，人们越来越青睐于利用神经网络模型对视频图像进行分析，获取图像中的有用信息。

一般在监控领域，为了实现对目标对象的追踪，可以通过神经网络模型对图像中的目标对象进行位置检测。而现有技术中一般是通过神经网络模型来对视频流中的所有帧图像依次进行检测，由于神经网络模型运算过程复杂，使得神经网络模型需要等待一定时间后才能输出检测结果，所以，在神经网络模型对所有帧图像依次进行检测时，一方面会造成检测结果的延迟较大，另一方面，由于每帧图像均要进行检测，所以，使得神经网络模型的计算量较大，导致其功耗较高。

发明内容

本申请实施例的目的在于提供一种位置预测方法、装置、电子设备及可读存储介质，用以改善现有技术中由于神经网络模型需要对所有视频帧图像均进行检测而导致检测结果延迟较大，且功耗较高的问题。

第一方面，本申请实施例提供了一种位置预测方法，所述方法包括：

针对多帧图像中的第一目标帧图像，通过神经网络模型预测所述第一目标帧图像中目标物体的预测位置；

针对所述多帧图像中的第二目标帧图像，基于其之前的第一历史帧图像中所述目标物体的最新预测位置预测所述第二目标帧图像中所述目标物体的预测位置；

其中，相邻两张第一目标帧图像之间包括至少一张第二目标帧图像。

在上述实现过程中，通过神经网络模型对多帧图像中的第一目标帧图像中目标物体的位置进行预测，针对第二目标帧图像中目标物体的预测位置通过基于其之前的第一历史帧图像中目标物体的预设位置来进行预测，从而可使得神经网络模型无需对所有图像中的目标物体进行位置预测，只需对其中一部分的图像进行位置预测即可，一方面减少了神经网络模型的运算量，降低了神经网络模型的功耗，另一方面又减少了对每帧图像的位置检测的时延。

可选地，所述通过神经网络模型预测所述第一目标帧图像中目标物体的预测位置，包括：

基于所述第一目标帧图像之前的第二历史帧图像中所述目标物体的最新预测位置获得所述目标物体在所述第一目标帧图像中的第一预测位置；

通过神经网络模型预测所述第一目标帧图像中所述目标物体的第二预测位置；

根据所述第一预测位置对所述第二预测位置进行修正，获得通过所述神经网络模型预测的所述第一目标帧图像中所述目标物体的预测位置。

在上述实现过程中，由于神经网络模型在进行位置预测时存在噪声，影响其位置预测结果的准确性，所以，通过第一预测位置对第二预测位置进行修正可提高目标物体位置预测的准确性。

可选地，所述根据所述第一预测位置对所述第二预测位置进行修正，获得通过所述神经网络模型预测的所述第一目标帧图像中所述目标物体的预测位置，包括：

确定所述第二预测位置与所述第一预测位置之间的位置误差；

基于所述位置误差确定卡尔曼系数；

基于所述卡尔曼系数、所述第一预测位置以及所述第二预测位置，获得通过所述神经网络模型预测的所述第一目标帧图像中所述目标物体的预测位置。

在上述实现过程中，通过位置误差确定卡尔曼系数，从而可获得较为准确的位置。

可选地，所述基于所述位置误差确定卡尔曼系数，包括：

基于所述位置误差确定对应的位置方差；

根据所述位置方差确定卡尔曼系数。

可选地，采用如下公式确定所述位置方差：

其中，P_pred为所述位置方差，Q为所述神经网络模型的初始方差，C为预设系数，S为所述位置误差，P为所述神经网络模型的方差。

可选地，所述方法还包括：

在每次通过所述神经网络模型预测获得所述目标物体的预测位置后，对所述神经网络模型的方差进行更新，从而可在每次进行位置预测时，也对位置方差进行更新，以便于能获得更准确的预测位置。

可选地，对所述神经网络模型的方法进行更新的方式如下：

P＝(1-K)P_pred+K×Q；

其中，K为所述卡尔曼系数。

可选地，采用如下公式计算所述卡尔曼系数：

其中，K为所述卡尔曼系数，P_pred为所述位置方差，Q为所述神经网络模型的初始方差。

在上述实现过程中，通过利用神经网络模型的初始方差以及位置方差来确定卡尔曼系数，从而可利用神经网络模型本身的先验误差大小，完成对第一预测位置的误差估计，以达到对神经网络模型进行降噪的目的，提高了位置预测的准确性。

可选地，采用如下公式计算获得所述第一目标帧图像中所述目标物体的预测位置：

X'＝(1-K)×X_pred+K×X_detector；

其中，X'为目标物体在所述第一目标帧图像中最终的预测位置，K为所述卡尔曼系数，X_detector为所述第一预测位置，X_pred为所述第二预测位置。

可选地，所述第二目标帧图像的帧数或所述第一目标帧图像与下一第一目标帧图像之间的时间间隔为基于所述卡尔曼系数确定的，这样可在进行位置修正时更好地平衡第一预测位置与第二预测位置之间的位置误差。

第二方面，本申请实施例提供了一种位置预测装置，所述装置包括：

第一预测模块，用于针对多帧图像中的第一目标帧图像，通过神经网络模型预测所述第一目标帧图像中目标物体的预测位置；

第二预测模块，用于针对所述多帧图像中的第二目标帧图像，基于其之前的第一历史帧图像中所述目标物体的预测位置预测所述第二目标帧图像中所述目标物体的预测位置；

可选地，所述第一预测模块，用于：

可选地，所述第一预测模块，具体用于：

基于所述位置误差确定卡尔曼系数；

可选地，所述第一预测模块，用于基于所述位置误差确定对应的位置方差；根据所述位置方差确定卡尔曼系数。

可选地，采用如下公式确定所述位置方差：

可选地，所述第一预测模块，还用于在每次通过所述神经网络模型预测获得所述目标物体的预测位置后，对所述神经网络模型的方差进行更新。

可选地，对所述神经网络模型的方法进行更新的方式如下：

P＝(1-K)P_pred+K×Q；

其中，K为所述卡尔曼系数。

可选地，采用如下公式计算所述卡尔曼系数：

X'＝(1-K)×X_pred+K×X_detector；

可选地，所述第二目标帧图像的帧数或所述第一目标帧图像与下一第一目标帧图像之间的时间间隔为基于所述卡尔曼系数确定的。

第三方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种用于执行位置预测方法的电子设备的结构示意图；

图2为本申请实施例提供的一种位置预测方法的流程图；

图3为本申请实施例提供的一种位置预测装置的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供一种位置预测方法，通过神经网络模型对多帧图像中的第一目标帧图像中目标物体的位置进行预测，针对第二目标帧图像中目标物体的预测位置通过基于其之前的第一历史帧图像中目标物体的预设位置来进行预测，从而可使得神经网络模型无需对所有图像中的目标物体进行位置预测，只需对其中一部分的图像进行位置预测即可，一方面减少了神经网络模型的运算量，降低了神经网络模型的功耗，另一方面又减少了对每帧图像的位置检测的时延。

请参照图1，图1为本申请实施例提供的一种用于执行位置预测方法的电子设备的结构示意图，所述电子设备可以包括：至少一个处理器110，例如CPU，至少一个通信接口120，至少一个存储器130和至少一个通信总线140。其中，通信总线140用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器，也可以是非易失性的存储器 (non-volatile memory)，例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器110执行时，电子设备执行下述图2所示方法过程，例如，存储器130可用于存储多帧图像，处理器110可利用神经网络模型对其中的第一目标帧图像中的物体进行位置预测，以及对其他的第二目标帧图像中的物体进行位置预测。

可以理解，图1所示的结构仅为示意，所述电子设备还可包括比图1 中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为本申请实施例提供的一种位置预测方法的流程图，其包括如下步骤：

步骤S110：针对多帧图像中的第一目标帧图像，通过神经网络模型预测所述第一目标帧图像中目标物体的预测位置。

其中，为了实现对视频流中的单个或多个物体进行跟踪，可以对视频流中的物体进行位置检测。一般视频流包括多帧图像，即本申请实施例中的多帧图像可以是指接收到的视频流中的多帧图像，也可以是指视频流中连续的一部分帧图像，多帧图像的数量在本申请实施例中不做具体限定。

由于神经网络模型对图像中的物体进行位置预测时需要消耗一定的时间才能获得预测结果，所以使得对所有帧图像均进行位置预测时，会造成时延累积，从而使得对后续帧图像的预测结果的时延较大。所以，为了减少检测结果的延迟以及减少神经网络模型的计算量，可以从多帧图像中选取一些帧图像，通过神经网络模型对这部分帧图像中的每帧图像中的物体进行位置预测，而对于其他帧图像中物体的位置可以基于物体在前一些帧图像中的历史位置来预测，这样可有效减少神经网络模型的计算量且减少神经网络模型进行预测带来的时延累积。

在一些实施方式中，电子设备可以随机从多帧图像中选取N帧图像用于神经网络模型进行位置预测，即N帧图像中的每一帧图像可称为第一目标帧图像，通过神经网络模型预测第一目标帧图像中目标物体的预测位置。当然，也可以预先指定相应的N帧图像用于神经网络模型进行位置预测，如用户可预先对多帧图像中的N帧图像进行标记，以使得电子设备在进行目标跟踪时，可以从多帧图像中识别出N帧图像，然后将这N帧图像输入神经网络模型中进行位置预测，也就是说，针对多帧图像中携带有相应标识的帧图像通过神经网络模型对其中的目标物体进行位置预测，针对多帧图像中未携带有相应标识的帧图像中的目标物体的位置基于其之前的历史预测位置进行预测。

在一些实施方式中，神经网络模型可以为卷积神经网络模型、长短期记忆网络模型、快速卷积神经网络模型等，只要神经网络模型能够对图像中的物体进行位置预测即可，在此不一一列举。

可以理解地，在通过神经网络模型对图像中的物体进行位置预测之前，还可以预先对神经网络模型进行训练。在训练过程中，可以获取大量的训练图像，然后对训练图像中的待跟踪物体进行标记，将待跟踪物体的位置作为标签数据，输入神经网络模型中进行训练，其具体的训练过程可参照现有技术中对神经网络模型的训练过程，在此不详细说明。

其中，目标物体可以用户指定的待跟踪物体，其可以是图像中的一个或多个物体，其一般指移动物体，如人或动物等。对于对多个物体进行跟踪时，也可以按照本申请实施例提供的位置预测方法对每个物体进行位置预测，以实现对每个物体的跟踪。

当然，神经网络模型在进行位置预测之前，还可以先识别出每帧图像中待跟踪的目标物体，然后在对目标物体的位置进行预测，其中，对目标物体进行识别的过程在此也不再详细描述。可以理解地，对于目标物体的识别还可以通过其他方式，而不仅仅是通过神经网络模型来识别，如还可以采用相关的图像处理方法来识别图像中的目标物体，在此也不详细描述其识别过程，本领域技术人员可参照现有的相关识别方法。在下述描述的实施例中对第二目标帧图像中的目标物体进行位置预测时，也可以先对图像中的目标物体进行识别，即确定其预测的是同一物体的位置，然后再对目标物体进行位置预测。

步骤S120：针对所述多帧图像中的第二目标帧图像，基于其之前的第一历史帧图像中所述目标物体的最新预测位置预测所述第二目标帧图像中所述目标物体的预测位置。

由于神经网络模型只需对多帧图像中的N帧图像进行位置预测，所以，对于剩余的帧图像，可以采用其他方式进行位置预测。其中，剩余的帧图像称为第二目标帧图像，本申请实施例中基于第二帧图像之前的第一历史帧图像中目标物体的预测位置来预测第二帧图像中目标物体的预测位置。

其中，第一历史帧图像可以是指第二目标帧图像的上一帧图像，即在本申请实施例中，可以基于目标物体在上一帧图像中的状态，预测目标物体在当前帧图像中的位置。

另外，针对步骤S120的预测方式本申请下述实施例中为了便于描述称为预测算法，也就是说，在对多帧图像中目标物体的位置预测时，是通过神经网络模型和预测算法进行间隔预测的。

相邻两张第一目标帧图像之间包括至少一张第二目标帧图像。例如，在上述选取的N帧图像中，这N帧图像中的至少两帧第一目标帧图像可以是连续的，以第一目标帧图像为1，第二目标帧图像为2表示，则其位置预测时图像的顺序可以表示为“11211122”，也可以每相邻两帧第一目标帧图像之间都间隔一帧第二目标帧图像(图像顺序可表示为“12121212”)，或者每相邻两帧第一目标帧图像之间都间隔至少两帧第二目标帧图像(图像顺序可表示为“122122122”)，也可以是每相邻两帧第一目标帧图像之间间隔数量不相同的第二目标帧图像(图像顺序可表示为“2212122212”)，也可以是连续至少两帧第一目标帧图像后接着连续至少两帧第二目标帧图像(图像顺序可表示为“11221122或者112211122111222”等)。

另外，需要说明的是，对于多帧第一目标帧图像和多帧第二目标帧图像，也可以是先随机选取多帧第二目标帧图像，利用预测算法对这第二目标帧图像中的目标物体进行位置预测，然后获取剩余的帧图像作为多帧第一目标帧图像，利用神经网络模型对这第一目标帧图像中的目标物体进行位置预测。或者，用户也可以预先设定多帧第二目标帧图像，即用户可以从多帧图像中选取多帧第二目标帧图像，然后对这多帧第二目标帧图像进行相应标记，以标识这多帧第二目标帧图像通过预测算法进行位置预测，然后也可以对剩余的多帧第一目标帧图像进行相应标记，以标识这多帧第一目标帧图像通过神经网络模型进行位置预测。

作为一种实施方式，为了降低神经网络模型的预测时延累积和功耗，一般可以减小神经网络模型的尺寸或对神经网络模型进行量化，但是这种情况会引入一定的噪声，使得神经网络模型的预测结果会受噪声的影响，进而在通过神经网络模型进行位置预测时，其位置预测的准确性可能较低。所以，为了避免通过神经网络模型进行位置预测过程中的位置误差累积而导致预测准确性较低的问题，在一些实施方式中，可以基于第一目标帧图像之前的第二历史帧图像中目标物体的最新预测位置获得目标物体在第一目标帧图像中的第一预测位置，通过神经网络模型预测第一目标帧图像中目标物体的第二预测位置，然后根据第一预测位置对第二预测位置进行修正，获得通过神经网络模型预测的第一目标帧图像中目标物体的预测位置。

也就是说，可以通过神经网络模型预测获得第一目标帧图像中目标物体的一个初始位置，即第二预测位置，然后通过预测算法预测获得的第一预测位置对初始位置进行修正，从而获得一个最终位置，作为通过神经网络模型进行预测获得的最终预测位置。

其中，第二历史帧图像是指第一目标帧图像的上一帧图像，其获得第一预测位置可以是基于目标物体在第二历史帧图像中的最新预测位置和目标物体在两帧图像中的相对运动量来确定的。

举例来说，若多帧图像包括序号为1,2,3,4,5,6的帧图像，其中，第一目标帧图像为1,3,5，第二目标帧图像为2,4,6，在进行目标追踪过程中，一般可以按照时间顺序对每帧图像中的目标物体的位置进行预测。即电子设备可先获得图像1，然后通过神经网络模型对图像1中的目标物体进行位置预测，然后获得图像2，通过上述的预测算法对图像2中的目标物体进行位置预测，此时对图像2中目标物体的位置进行预测时，可以基于对图像1中的目标物体的最新预测位置(此时图像1即为第一历史帧图像)以及相对运动量确定图像2中目标物体的位置。例如，图像1中目标物体的最新预测位置为X，相对运动量是指目标物体在图像1与图像2中的位移，其位移可通过速度与时间来确定，X与位移之和即为目标物体在图像2中的预测位置。对于图像4和图像6采用预测算法预测位置的方式也如此，即均可以是基于前一帧图像的预测位置和相对运动量(即位移)来确定。

对于上述步骤S120中对第二目标帧图像中目标物体的位置预测时，如对图像3中目标物体的位置预测时，其可以基于目标物体在图像2中的最新预测位置和相对运动量来确定，此时图像2即为第二历史帧图像。

可以理解地，对于第一历史帧图像或第二历史帧图像中目标物体的预测位置可以是通过神经网络模型进行预测获得的，也可以是通过预测算法预测获得的，在其为通过神经网络模型进行预测获得的情况中时，还可以是指对通过神经网络模型进行预测获得的初始位置进行修正而获得的最终的预测位置。例如，对于图像3来说，其目标物体的最终预测位置为通过预测算法预测获得图像3中目标物体的第一预测位置后以及通过神经网络模型预测获得图像3中目标物体的第二预测位置，然后根据第一预测位置对第二预测位置进行修正后获得的位置。其中，获得第一预测位置的方式如图像2中目标物体的位置为X，此时在预测图像3中的目标物体的第一预测位置时，其第一预测位置为X与位移之和。

其中，在每次对第二预测位置进行修正之后，还可以对目标物体的速度进行更新，其速度的计算公式如下：

其中，V'为速度，X'为当前帧图像中目标物体的预测位置，X为当前帧图像的上一帧图像中目标物体的最新预测位置，dT为两帧图像之间的时间间隔。其中，相对运动量即为V'×dT，即位移。

另外，在通过预测算法对第二目标帧图像中的目标物体进行位置预测时，其也是基于第一历史帧图像中的最新预测位置来预测的，而若第一历史帧图像中的最新预测位置也是采用同样的预测算法预测时，其速度并没有更新。例如，图像1为第一目标帧图像，图像2、图像3均为第二目标帧图像，图像4为第一目标帧图像，对于图像1，其可以直接通过神经网络模型进行预测获得的预测位置X1作为最新预测位置，其速度为设定的初始速度V0，则在通过预测算法预测图像2中目标物体的预测位置为： X2＝X1+V0*dT，此时速度还是为V0，在通过预测算法预测图像3中目标物体的预测位置为：X3＝X2+V0*dT，此时速度还是为V0，在通过神经网络模型预测图像4中的目标位置时，首先获得第一预测位置X41＝X3+V0*dT，若第二预测位置为X42，则目标物体在图像4中的最终的预测位置X4为基于第一预测位置对第二预测位置进行修正获得的，此时对速度进行更新，即速度V1＝(X4-X3)/dT。若对于图像5为第二目标帧图像时，此时通过预测算法对图像5中的目标物体进行位置预测获得的预测位置为 X5＝X4+V1*dT。

也就是说，在对第二预测位置进行修正之后才会对目标物体的速度进行更新，所以，为了避免由于通过预测算法进行预测而产生的误差积累较多使得预测位置不准确的问题，在进行速度更新时，其上一帧图像可以是指上一帧通过神经网络模型进行位置预测的图像，如上述速度V1＝(X4-X1) /dT，此时dT为图像1与图像4之间的时间间隔。

所以，可以通过上述方式及时更新目标物体的状态，即目标物体的位置和速度，避免预测结果与实际位置偏差过大，而当物体的运动速度较为固定时，会自动偏向于预测结果，从而可以降低神经网络模型的噪声，以提高神经网络模型的预测准确性。

在一些实施方式，上述根据第一预测位置对第二预测位置进行修正的过程可以为：确定第二预测位置与第一预测位置之间的位置误差，基于该位置误差确定卡尔曼系数，基于卡尔曼系数、第一预测位置以及第二预测位置，获得通过神经网络模型预测的第一目标帧图像中目标物体的预测位置。

例如，对于每帧第一目标帧图像，均可以通过神经网络模型进行位置预测获得第二预测位置，再通过上述的预测算法进行位置预测获得第一位置，相当于此时在每帧第一目标帧图像中，针对目标物体获得两个预测位置。然后再获取第一预测位置与第二预测位置之间的位置误差，位置误差可以是指第一预测位置与第二预测位置之间的差值。基于位置误差可计算出卡尔曼系数，卡尔曼系数用于对两个预测位置进行修正，从而可获得每帧第一目标帧图像中目标物体的预测位置。

可以理解地，通过预测算法获得的第二预测位置有噪声影响，通过神经网络模型预测获得的第一预测位置也有噪声影响，这两个噪声相互独立，单独的利用任何一个预测位置都不能很好的得到真实值，所以，在这两者之间有个信赖度的问题，即应该相信哪者更多一些，这个信赖度就是卡尔曼系数，卡尔曼系数是通过两个预测位置之间的位置误差确定，如此则可对第一预测位置与第二预测位置进行很好的融合，最终可获得目标物体的最佳预测位置。

在上述实现过程中，由于神经网络模型在进行位置预测时存在噪声，影响其位置预测结果的准确性，所以，通过对位置进行修正可提高目标物体位置预测的准确性。

在一些实施方式中，上述基于位置误差确定卡尔曼系数的方式可以为：基于位置误差确定对应的位置方差，然后根据该位置方差确定卡尔曼系数。

其中，通过计算位置方差即可知晓通过预测算法获得的预测位置与真实位置之间的差异，从而基于位置方差获得卡尔曼系数，使得卡尔曼系数能更加准确反映出通过预测算法获得的预测位置与真实位置之间存在的偏差。

其中，可以采用如下公式确定位置方差：

其中，P_pred为位置方差，Q为神经网络模型的初始方差，C为预设系数， S为位置误差，P为神经网络模型的方差。

其中，预设系数C可以根据人为经验设置。

神经网络模型的方差可以随着对图像的预测而更新。即在每次通过神经网络模型预测获得目标物体的预测位置后，对神经网络模型的方差进行更新，从而可在每次进行位置预测时，也对位置方差进行更新，以便于能获得更准确的预测位置。其中，可以基于卡尔曼系数以及获得的位置方差对神经网络模型的方差进行更新，其更新的公式为：

P＝(1-K)P_pred+K×Q；

其中，P的初始值为Q，K为所述卡尔曼系数，如此可实现对神经网络模型的方差的更新，进而可降低神经网络模型的噪声，提高神经网络模型预测位置的准确性。

其中，可以采用如下公式计算卡尔曼系数：

其中，K为所述卡尔曼系数，P_pred为所述位置方差，Q为所述神经网络模型的初始方差，即神经网络模型的初始噪声，其可以通过对一个神经网络模型进行实验求得的，也可以人工调节神经网络模型的网络参数获得的效果最好的值。

在上述实现过程中，通过利用神经网络模型的初始方差以及位置方差来确定卡尔曼系数，从而可利用神经网络模型本身的先验误差大小，完成对预测算法预测结果的误差估计，以达到对神经网络模型进行降噪的目的，提高了位置预测的准确性。

例如，在具体实现过程中，如先对图像1通过神经网络模型进行位置预测，获得神经网络模型预测得到的第二预测位置，在利用预测算法进行预测获得的第一预测对该第二预测位置进行修正，获得目标物体最终的预测位置，此时可基于最终的预测位置更新目标物体的速度、神经网络模型的方差、卡尔曼系数、位置方差等信息。

在一些实施方式中，可以通过如下公式计算获得第一目标帧图像中目标物体的预测位置：

X'＝(1-K)×X_pred+K×X_detector；

其中，X'为目标物体在所述第一目标帧图像中最终的预测位置，K为卡尔曼系数，X_pred为上述的第二预测位置，X_detector为上述的第一预测位置。

所以，在上述确定目标物体最终的预测位置的过程中，对于获得每帧第一目标帧图像中目标物体的预测位置均可以采用上述方式获得。

另外，在一些实施例中，对于修正的方式还可以为：在获得第一预测位置后，还可以将其与通过神经网络模型获得的第二预测位置进行融合，然后获得目标物体最终的预测位置。例如，在某一第一目标帧图像中，通过神经网络模型预测获得目标物体的第二预测位置，通过预测算法预测获得目标物体的第一预测位置，在确定目标物体最终的预测位置时，可以将第一预测位置与第二预测位置的平均值作为目标物体最终的预测位置。

当然，对于修正的方式还可以有其他方式，如将第一预测位置与第二预测位置进行加权求和等，对于其他修正方式在此不一一举例说明，应理解的是其他修正方式也应涵盖在本发明的保护范围之内。

作为一种实施方式，若是对每帧第一目标帧图像中通过神经网络模型间预测获得的目标物体的第二预测位置均进行修正，可能会使得计算量较大，而目标物体在短时间内其状态可能变化不大。所以，还可以对其中的部分的第一目标帧图像进行修正，即对部分的第二预测位置进行修正，即可以对部分第一目标帧图像中通过神经网络模型预测获得的目标物体的第二预测位置进行修正。

其中，部分第一目标帧图像可以是随机选取的至少一帧第一目标帧图像，也可以是指定的第一目标帧图像。例如，第一目标帧图像包括1,2,3,4,5 这些图像，可以随机从中选取2、4帧图像作为部分第一目标帧，然后对2、 4帧图像中通过神经网络模型获得的第二预测位置进行修正；当然，用户可以预先设定需要修正的图像，对这些图像进行标记，如需要修正的图像为1 和5，则在进行位置修正时，电子设备可识别出需要修正的图像，即电子设备可以将1和5中通过神经网络模型获得的第二预测位置进行修正，将修正后获得的位置作为目标物体最终的预测位置。而对于其它不需要进行位置修正的图像，目标物体最终的预测位置即为神经网络模型预测获得的第二预测位置。

可以理解地，若是需要对每帧第一目标帧图像中通过神经网络模型预测获得的目标物体的第二预测位置均进行修正时，则对于多帧图像中的每帧图像，即不管是第一目标帧图像和第二目标帧图像，均需要通过上述的预测算法预测获得一个预测位置，而若是针对一些第一目标帧图像不需要进行修正时，则对于这些不需要修正的第一目标帧图像，则无需通过预设算法进行预测获得对应的第一预测位置，而是直接通过神经网络模型进行预测获得对应的第二预测位置作为目标物体最终的预测位置。

由于预测算法预测的帧率并不受神经网络模型预测的帧率的影响，所以在神经网络模型进行预测时，可以跳过部分帧进行预测，从而可减少神经网络模型的计算量，降低神经网络模型的功耗。

需要说明的是，对于获得的多帧图像中的第一帧图像，对于第一帧图像无法采用预测算法预测获得目标物体的预测位置。所以，对于第一帧图像中目标物体的预测位置可以通过神经网络模型进行预测获得，而若第一帧图像并不是视频流最开始的一帧图像，此时，用户可以自行在电子设备中输入第一帧图像的上一帧图像中目标物体的最新预测位置，这样对于第一帧图像也可以采用预测算法预测获得目标物体的预测位置。

在一些实施方式中，上述确定多帧图像中哪些帧图像通过预测算法进行预，哪些帧图像通过神经网络模型进行预测，其可以通过卡尔曼系数来确定，即第二目标帧图像的帧数或第一目标帧图像与下一第一目标帧图像之间的时间间隔为基于卡尔曼系数确定的，这样可在进行位置修正时更好地平衡第一预测位置与第二预测之间的位置误差。

例如，可以设定通过神经网络模型进行预测的最大时间间隔和最小时间间隔，如最大时间间隔为900ms，最小时间间隔为100ms，则根据卡尔曼系数确定的时间间隔为900*(1-K)+100*K。这种情况下，其实现对图像中的目标物体进行位置预测的过程为：对于第一帧图像采用神经网络模型进行预测，此时时间即为0ms，若按照上述公式计算获得的时间间隔为 200ms，则在第200ms或200ms之后获得的下一帧图像则继续采用神经网络模型进行预测，而对于这期间获得的帧图像则采用预测算法进行预测，如若两帧图像之间的时间间隔为50ms，则对于第二帧图像、第三帧图像和第四帧图像均采用预测算法进行预测，对于第五帧图像则采用神经网络模型进行预测，后续图像的预测也按照该方式进行间隔预测。

对于第二目标帧图像的帧数也可以根据卡尔曼系数来确定，如在卡尔曼系数处于某一数值范围时，设定对应的帧数，例如对于0-0.5，其对应的帧数为1，对于0.51-1，其对应的帧数为2，所以可以根据卡尔曼系数处于的数值范围来获得对应的帧数。

可以理解地，上述根据卡尔曼系数确定帧数或时间间隔时，其卡尔曼系数可以是预先设置的固定值，也可以先是一个固定值，在上述基于位置误差来计算出卡尔曼系数时，可以对固定值进行更新，这样其获得帧数或时间间隔可以是变化的，在卡尔曼系数为固定值时，其帧数或时间间隔是固定不变的。

下面通过一个具体实施例对上述中实现间隔预测的过程进行说明。

假设获得的多帧图像为10帧，相邻两帧图像之间的时间间隔为100ms，如果每隔1帧图像进行一次神经网络模型的位置预测，假如神经网络模型进行位置预测所需的时间为50ms，则对这10帧的图像中目标物体的预测过程如下：

T＝0ms时，获取到第一帧图像，开始通过神经网络模型对第一帧图像中的目标物体进行位置预测。

T＝50ms时，获得对第一帧图像(T＝0ms)中目标物体的位置预测结果，初始对目标物体的状态进行初始化，如目标物体的位置坐标为X＝(x,y)，初始速度为V＝(v_x,v_y)，神经网络模型的初始方差P＝Q，T＝0ms。

T＝100ms时，获取到第二帧图像，通过预测算法预测目标物体的位置，用预测获得的位置结果对第二帧图像中的目标物体进行标注。

T＝200ms时，获取到第三帧图像(T'＝200ms)，通过预测算法预测目标物体的第一预测位置，用预测获得的位置结果对第三帧图像中的目标物体进行标注，同时开始通过神经网络模型对第三帧图像中的目标物体进行位置预测。这里T’＝200ms，这次检测的图像与上一次检测的图像的时间间隔dT＝200ms-0ms，此时，上一次检测的图像为第一帧图像，通过预测算法进行预测时可以基于第一帧图像中目标物体的位置以及初始速度、时间来获得目标物体在第三帧图像中的位置。当然，其还可基于第二帧图像中目标物体的位置以及第二帧图像与第三帧图像之间的时间间隔、速度来获得目标物体在第三帧图像中的位置，此时，其速度均为第一帧图像中设定的初始速度。

T＝250ms时，获得了通过神经网络模型对第三帧图像的位置预测结果，即获得第二预测位置，然后根据第一预测位置对第二预测位置进行修正，获得目标物体最终的预测位置，并更新相关的参数以及目标物体的速度。

T＝300ms时，获得了第四帧图像，通过预测算法预测目标物体的位置，用预测获得的位置结果对第四帧图像中的目标物体进行标注。

T＝400ms时，获得了第五帧图像(T’＝400ms)，通过预测算法预测目标物体的第一预测位置，用预测获得的位置结果对第五帧图像中的目标物体进行标注，同时开始通过神经网络模型对第五帧图像中的目标物体进行位置预测。

T＝450ms时，得到了通过神经网络模型对第五帧图像的检测结果，即第二预测位置，然后根据T＝400ms获得的第一预测位置对第二预测位置进行修正，获得目标物体最终的预测位置，并更新相关的参数以及目标物体的速度。这里T’＝400ms，这次检测的画面与上一次检测的画面的时间间隔 dT＝400ms-200ms，此时，上一次检测的图像为第三帧图像，通过预测算法进行预测时可以基于第三帧图像中目标物体的位置以及更新后的速度、时间来获得目标物体在第五帧图像中的位置。

对于后续其他帧图像中的目标物体的位置预测方式与上述过程类似，需要注意的是，视频流的帧率与神经网络模型的预测帧率不一定是固定的，其可以根据具体硬件的负载情况进行调整。

另外，在实际应用中，实际视频流的帧数往往很高(例如60fps的帧间隔只有17ms)，而神经网络模型位置预测的速度在低端硬件上也会变得更慢，因此两次神经网络模型的预测之间往往要间隔更多的帧数为好，从而可消除由于神经网络模型运行速度慢而导致的预测结果延迟的问题。

所以，通过本申请实施例提供的位置预测方法，对于每帧图像中目标物体的位置可以快速获得预测结果，减少了神经网络模型的预测时延累积。

请参照图3，图3为本申请实施例提供的一种位置预测装置200的结构框图，该装置200可以是电子设备上的模块、程序段或代码。应理解，该装置200与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置200具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置200包括：

第一预测模块210，用于针对多帧图像中的第一目标帧图像，通过神经网络模型预测所述第一目标帧图像中目标物体的预测位置；

第二预测模块220，用于针对所述多帧图像中的第二目标帧图像，基于其之前的第一历史帧图像中所述目标物体的预测位置预测所述第二目标帧图像中所述目标物体的预测位置；

可选地，所述第一预测模块210，用于：

可选地，所述第一预测模块210，具体用于：

基于所述位置误差确定卡尔曼系数；

可选地，所述第一预测模块210，用于基于所述位置误差确定对应的位置方差；根据所述位置方差确定卡尔曼系数。

可选地，采用如下公式确定所述位置方差：

可选地，所述第一预测模块210，还用于在每次通过所述神经网络模型预测获得所述目标物体的预测位置后，对所述神经网络模型的方差进行更新。

可选地，对所述神经网络模型的方法进行更新的方式如下：

P＝(1-K)P_pred+K×Q；

其中，K为所述卡尔曼系数。

可选地，采用如下公式计算所述卡尔曼系数：

X'＝(1-K)×X_pred+K×X_detector；

本申请实施例提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图2所示方法实施例中电子设备所执行的方法过程。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，包括：针对多帧图像中的第一目标帧图像，通过神经网络模型预测所述第一目标帧图像中目标物体的预测位置；针对所述多帧图像中的第二目标帧图像，基于其之前的第一历史帧图像中所述目标物体的最新预测位置预测所述第二目标帧图像中所述目标物体的预测位置；其中，相邻两张第一目标帧图像之间包括至少一张第二目标帧图像。

综上所述，本申请实施例提供一种位置预测方法、装置、电子设备及可读存储介质，通过神经网络模型对多帧图像中的第一目标帧图像中目标物体的位置进行预测，针对第二目标帧图像中目标物体的预测位置通过基于其之前的第一历史帧图像中目标物体的预设位置来进行预测，从而可使得神经网络模型无需对所有图像中的目标物体进行位置预测，只需对其中一部分的图像进行位置预测即可，一方面减少了神经网络模型的运算量，降低了神经网络模型的功耗，另一方面又减少了对每帧图像的位置检测的时延。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种位置预测方法，其特征在于，所述方法包括：

针对所述多帧图像中的第二目标帧图像，基于其之前的第一历史帧图像中所述目标物体的预测位置预测所述第二目标帧图像中所述目标物体的预测位置；

其中，相邻两张第一目标帧图像之间包括至少一张第二目标帧图像；

其中，所述通过神经网络模型预测所述第一目标帧图像中目标物体的预测位置，包括：

根据所述第一预测位置对所述第二预测位置进行修正，获得通过所述神经网络模型预测的所述第一目标帧图像中所述目标物体的预测位置；

其中，所述根据所述第一预测位置对所述第二预测位置进行修正，获得通过所述神经网络模型预测的所述第一目标帧图像中所述目标物体的预测位置，包括：

基于所述位置误差确定卡尔曼系数；

2.根据权利要求1所述的方法，其特征在于，所述基于所述位置误差确定卡尔曼系数，包括：

基于所述位置误差确定对应的位置方差；

根据所述位置方差确定卡尔曼系数；

其中，采用如下公式确定所述位置方差：

；

其中，为所述位置方差，为所述神经网络模型的初始方差，为预设系数，为所述位置误差，为所述神经网络模型的方差；

其中，采用如下公式计算所述卡尔曼系数：

；

其中，为所述卡尔曼系数，为所述位置方差，为所述神经网络模型的初始方差，其中，所述神经网络模型的初始方差是指所述神经网络模型的初始噪声，所述神经网络模型的方差是对所述神经网络模型的初始方差更新获得的。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在每次通过所述神经网络模型预测获得所述目标物体的预测位置后，对所述神经网络模型的方差进行更新。

4.根据权利要求3所述的方法，其特征在于，对所述神经网络模型的方差进行更新的方式如下：

；

其中，为所述卡尔曼系数。

5.根据权利要求1所述的方法，其特征在于，采用如下公式计算获得所述第一目标帧图像中所述目标物体的预测位置：

；

其中，为目标物体在所述第一目标帧图像中最终的预测位置，为所述卡尔曼系数，为所述第一预测位置，为所述第二预测位置。

6.根据权利要求1所述的方法，其特征在于，所述第二目标帧图像的帧数或所述第一目标帧图像与下一第一目标帧图像之间的时间间隔为基于所述卡尔曼系数确定的。

7.一种位置预测装置，其特征在于，所述装置包括：

其中，所述第一预测模块，具体用于基于所述第一目标帧图像之前的第二历史帧图像中所述目标物体的最新预测位置获得所述目标物体在所述第一目标帧图像中的第一预测位置；通过神经网络模型预测所述第一目标帧图像中所述目标物体的第二预测位置；根据所述第一预测位置对所述第二预测位置进行修正，获得通过所述神经网络模型预测的所述第一目标帧图像中所述目标物体的预测位置；

其中，所述所述第一预测模块，具体用于确定所述第二预测位置与所述第一预测位置之间的位置误差；基于所述位置误差确定卡尔曼系数；基于所述卡尔曼系数、所述第一预测位置以及所述第二预测位置，获得通过所述神经网络模型预测的所述第一目标帧图像中所述目标物体的预测位置。

8.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-6任一所述方法中的步骤。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-6任一所述的方法。