CN111127510B

CN111127510B - 一种目标对象位置的预测方法及装置

Info

Publication number: CN111127510B
Application number: CN201811294046.3A
Authority: CN
Inventors: 王辉
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2023-10-27
Anticipated expiration: 2038-11-01
Also published as: CN111127510A

Abstract

本申请提供一种目标对象位置的预测方法及装置，包括：确定待预测的至少一个目标对象在当前帧图像以及当前帧图像之前的至少一帧历史帧图像中的位置，生成与各目标对象对应的各位置序列；每一位置序列中相邻图像上的位置在相邻时序上相关联；将所述各位置序列输入到已训练的CNN网络，以由该CNN网络基于各位置序列预测用于表征各目标对象在未来帧图像中位置的位置参数；基于所述CNN网络预测出的所述位置参数，确定所述各目标对象在所述未来帧图像中的位置。使用本申请提供的方法，可以实现基于CNN网络预测目标对象在未来帧图像中的位置。

Description

一种目标对象位置的预测方法及装置

技术领域

本申请涉及计算机通信领域，尤其涉及一种目标对象位置的预测方法及装置。

背景技术

目标对象位置预测是指基于目标对象的历史位置，预测出目标对象未来出现的位置。预测目标对象未来出现的位置目标对象的追踪都有十分重要的意义，并且在各个领域得到广泛的应用。比如在交通领域，可以对通过对目标车辆位置进行预测，实现目标车辆追踪；在指定工作领域，对未来位置进行预测，实现指定人物的追踪等等。

现有的目标对象位置预测，通常是人工通过经验进行预测，这种方式预测出的目标对象的位置极为不准确。因此，如何提高目标对象位置预测的准确性称为亟待解决的问题。

发明内容

有鉴于此，本申请提供一种目标对象位置的预测方法及装置，用于基于CNN网络预测目标对象在未来帧图像中的位置。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提供一种目标对象位置的预测方法，所述方法包括：

确定待预测的至少一个目标对象在当前帧图像以及当前帧图像之前的至少一帧历史帧图像中的位置，生成与各目标对象对应的各位置序列；每一位置序列中相邻图像上的位置在相邻时序上相关联；

将所述各位置序列输入到已训练的CNN网络，以由该CNN网络基于各位置序列预测用于表征各目标对象在未来帧图像中位置的位置参数；

基于所述CNN网络预测出的所述位置参数，确定所述各目标对象在所述未来帧图像中的位置。

可选的，所述CNN网络基于各位置序列预测用于表征各目标对象在未来帧图像中位置的位置参数，包括：

所述CNN网络的输入层按照预设格式，将各位置序列组织成具有多个维度的数据集，并输出到所述CNN网络的卷积层；

所述CNN网络的卷积层对输入的所述数据集进行卷积处理，并将卷积处理后的数据集输出到所述CNN网络的池化层；

所述CNN网络的池化层对输入的所述数据集进行池化处理，输出用于表征该目标对象在未来帧图像中位置的位置参数。

可选的，所述多个维度为四个维度；所述四个维度中的第一维度表征各目标对象；第二维度为预设值；第三个维度表征所述当前帧图像和各历史帧图像；第四个维度表征所述各目标对象在所述当前帧图像或者所述历史帧图像中的位置。

可选的，所述确定待预测的目标对象在当前帧图像以及当前帧图像之前的至少一帧历史帧图像中的位置，包括：

将包含有所述待预测的至少一个目标对象的当前帧图像和该当前帧图像之前的至少一帧历史帧图像输入至已训练的对象识别网络，以由对象识别网络对该当前帧图像和至少一帧历史帧图像中的各目标对象进行识别，得到所述各目标对象在所述当前帧图像中的位置以及在所述至少一帧历史帧图像中的位置；

获取所述目标对象在当前帧图像以及所述至少一帧历史帧图像中的位置。

可选的，所述位置参数为各目标对象在未来帧图像中相对于参考位置的相对位置；所述参考位置为各目标对象在所述当前帧图像中的位置；

所述基于所述CNN网络预测出的所述位置参数，确定所述各目标对象在所述未来帧图像中的位置，包括：

基于所述CNN网络预测出的各目标对象在未来帧图像中的相对位置、以及各目标对象的参考位置，确定各目标对象在所述未来帧图像中的位置。

可选的，所述参考位置由所述当前帧图像中该目标对象中心点横坐标、纵坐标以及该目标对象的宽w^t、高h^t表征；

所述相对位置由相对于的偏移量Δx、相对于/>的偏移量Δy，以及相对于w^t的变化量Δw、相对于h^t的变化量Δh表征；

所述基于所述CNN网络预测出的各目标对象在未来帧图像中的相对位置、以及各目标对象的参考位置，确定各目标对象在所述未来帧图像中的位置，包括：

基于Δx、w^t和确定所述目标对象在所述未来帧图像中的中心点横坐标/>

基于Δy、h^t和确定所述目标对象在所述未来帧图像中的中心点纵坐标/>

基于w^t和Δw确定所述目标对象在所述未来帧图像中的宽w^t+τ；

基于h^t和Δh确定所述目标对象在所述未来帧图像中的高h^t+τ。

根据本申请的第二方面，提供一种目标对象位置的预测装置，所述装置包括：

确定单元，用于确定待预测的至少一个目标对象在当前帧图像以及当前帧图像之前的至少一帧历史帧图像中的位置，生成与各目标对象对应的各位置序列；每一位置序列中相邻图像上的位置在相邻时序上相关联；

输入单元，用于将所述各位置序列输入到已训练的CNN网络，以由该CNN网络基于各位置序列预测用于表征各目标对象在未来帧图像中位置的位置参数；

预测单元，用于基于所述CNN网络预测出的所述位置参数，确定所述各目标对象在所述未来帧图像中的位置。

可选的，所述输入单元，具体用于所述CNN网络的输入层按照预设格式，将各位置序列组织成具有多个维度的数据集，并输出到所述CNN网络的卷积层；所述CNN网络的卷积层对输入的所述数据集进行卷积处理，并将卷积处理后的数据集输出到所述CNN网络的池化层；所述CNN网络的池化层对输入的所述数据集进行池化处理，输出用于表征该目标对象在未来帧图像中位置的位置参数。

可选的，所述确定单元，具体用于将包含有所述待预测的至少一个目标对象的当前帧图像和该当前帧图像之前的至少一帧历史帧图像输入至已训练的对象识别网络，以由对象识别网络对该当前帧图像和至少一帧历史帧图像中的各目标对象进行识别，得到所述各目标对象在所述当前帧图像中的位置以及在所述至少一帧历史帧图像中的位置；获取所述目标对象在当前帧图像以及所述至少一帧历史帧图像中的位置。

所述预测单元，用于基于所述CNN网络预测出的各目标对象在未来帧图像中的相对位置、以及各目标对象的参考位置，确定各目标对象在所述未来帧图像中的位置。

可选的，所述参考位置由所述当前帧图像中该目标对象中心点横坐标纵坐标以及该目标对象的宽w^t、高h^t表征；所述相对位置由相对于/>的偏移量Δx、相对于/>的偏移量Δy，以及相对于w^t的变化量Δw、相对于h^t的变化量Δh表征；

所述预测单元，在基于所述CNN网络预测出的各目标对象在未来帧图像中的相对位置、以及各目标对象的参考位置，确定各目标对象在所述未来帧图像中的位置时，具体用于基于Δx、w^t和确定所述目标对象在所述未来帧图像中的中心点横坐标/>基于Δy、h^t和/>确定所述目标对象在所述未来帧图像中的中心点纵坐标/>基于w^t和Δw确定所述目标对象在所述未来帧图像中的宽w^t+τ；基于h^t和Δh确定所述目标对象在所述未来帧图像中的高h^t+τ。

根据本申请的第三方面，提供一种电子设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使执行如第一方面所述方法。

根据本申请的第四方面，提供一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，在被处理器调用和执行时，所述机器可执行指令促使所述处理器执行第一方面所述方法。

本申请是采用CNN网络做运动预测，本申请将目标对象在当前帧以及历史帧中的位置，按照时间先后顺序，生成位置序列。然后将具有时间顺序的位置序列输入到CNN网络中。本申请还更改了CNN网络对位置序列的数据组织形式，使得CNN网络将对应于不同目标对象的位置序列组织成可以反应目标对象运动信息等多个维度信息的数据集，使得CNN网络可以对该数据集进行卷积和池化，学习到该目标对象历史的运动速度、运动轨迹等信息，最终预测出目标对象在未来帧图像中的位置。

附图说明

图1是本申请一示例性实施例示出的一种目标对象位置的预测方法的流程图；

图2是本申请一示例性实施例示出的一种电子设备的硬件结构图；

图3是本申请一示例性实施例示出的一种目标对象位置的预测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

RNN网络或者RNN网络的变形的本质特征是：网络中的处理单元之间既有内部的反馈连接又有前馈连接，使得网络在确定当前时刻的输出时，可以考虑到上一个时刻的输出。由于RNN网络或者RNN网络的变形具有该特性，所以一般采用RNN网络及其变形进行目标对象的位置预测。其中，RNN网络的变形可以是LSTM网络等其他基于RNN变形的网络。

但是，一方面，由于RNN网络的处理单元之间既有内部的反馈连接又有前馈连接，使得RNN网络的网络结构复杂，网络参数较多，所以在训练RNN网络时网络收敛慢，需要调整的参数多，所以RNN网络在实际应用中很难训练。

另一方面，由于RNN网络的当前的输出需要参考上一个时刻的输出，所以使用RNN网络在进行预测时，通常只能预测出目标对象的下一个时刻的位置，而很难预测出目标对象的下几个时刻的位置。

有鉴于此，本申请旨在提出一种目标对象位置的预测方法，采用CNN网络对一个或者多个目标对象在当前帧以及历史帧图像的中的位置所组成的位置序列进行计算，预测出一个或者多个目标对象在未来若干帧图像中的位置，从而实现了对目标对象位置的预测。

一方面，相比于采用RNN网络进行预测，由于CNN网络结构简单，网络训练收敛速度快，调整参数少，所以在实际应用中更容易训练CNN网络。

另一方面，在现有技术中，一般采用CNN网络做图像特征提取，比如将图像输入到CNN网络，CNN网络对图像进行特征提取，输出该图像的特征图。

而在本申请中，本申请是采用CNN网络做运动预测，本申请将目标对象在当前帧以及历史帧中的位置，按照时间先后顺序，生成位置序列。然后将具有时间顺序的位置序列输入到CNN网络中。本申请还更改了CNN网络对位置序列的数据组织形式，使得CNN网络将对应于不同目标对象的位置序列组织成可以反应目标对象运动信息等多个维度信息的数据集，使得CNN网络可以对该数据集进行卷积和池化，学习到该目标对象历史的运动速度、运动轨迹等信息，最终预测出目标对象在未来帧图像中的位置。

参见图1，图1是本申请一示例性实施例示出的一种目标对象位置的预测方法的流程图，该方法可应用于电子设备，可包括如下所示步骤。

需要说明的是，该电子设备可以是图像采集设备，也可以是后台服务器上，这里只是对电子设备进行示例性地说明，不进行具体地限定。

步骤101：确定待预测的至少一个目标对象在当前帧图像以及当前帧图像之前的至少一帧历史帧图像中的位置，生成与各目标对象对应的各位置序列；每一位置序列中相邻图像上的位置在时序上相关联。

其中，上述目标对象在不同的场景中，可具有不同的含义，比如，该目标对象可以是人、可以是交通工具等一切可进行移动的对象，这里只是示例性地说明，不进行具体地限定。

上述目标对象的位置，可以由图像中目标对象所在的目标框的坐标表示。比如，在本申请中，本申请采用目标框两个对角顶点的横坐标与宽的比值、纵坐标与高的比值这四个值来表示目标框。

例如假设目标对象是人，则目标对象所在目标框可以是人头所在的目标框。

目标对象1对应的目标框的左上角顶点的坐标为(x₁,y₁)，右下角顶点的坐标为(x₂,y₂)，则该目标对象的位置可以表示为其中，W为图像的宽，H为图像的高。

采用两个对角点横、纵坐标分别与图像宽、高比值的方式来表征目标对象的位置的好处在于：

一方面，采用两个对角点来表示目标对象的位置，不仅可以表示出目标对象的位置，还可以表示出目标对象的大小。

另一方面，由于同一视频中，每一帧图像的宽高是不变的，而目标对象在各图像帧中的宽高是会发生变化的，即相同的目标对象在不同帧图像中呈现出的大小是不同的，本申请采用了两个对角点的横、纵坐标分别与宽、高的比值来进行表示。一方面，采用比值方式可以以不会变化的图像宽高为参照，从而避免了目标对象在不同图像中宽高不同而产生的干扰因素，使得预测出的目标对象在未来帧图像中的绝对位置更为准确；另一方面采用比值表示还是一种对角点坐标的归一化处理过程。用归一化处理的坐标来训练CNN网络或者使用CNN网络都会减少CNN网络的运算量，提高CNN网络的运算性能。

当然，本申请还可采用右上角顶点和左下角顶点来表示目标对象的位置，当然还可采用目标对象所在目标框的中心点坐标和目标框的长、宽来表示目标对象的位置，这里只是示例性地说明目标对象位置的表示方法，不对其进行具体地限定。

在本申请实施例中，可以将当前帧图像以及当前帧图像之前的至少一帧历史帧图像输入到对象识别网络中，然后由对象识别网络在当前帧图像和至少一帧历史帧图像中识别出每个目标对象，并识别出每个目标对象在当前帧图像以及至少一帧历史帧图像中的位置，生成与各目标对象对应的各位置序列。

其中，针对每一个位置序列，该位置序列中的相邻帧图像上的位置在相邻时序上相关联。换句话来说，从当前帧图像中识别出的目标对象的位置、以及从历史帧图像中识别出的目标对象的位置可以按照时间先后顺序排列，组成位置序列。

例如，假设当前帧图像为第3帧图像，则历史帧图像为第一帧图像、第二帧图像。这三帧图像按照时间先后顺序的排序是：第一帧图像、第二帧图像和第三帧图像。

假设目标对象在第一帧图像中的位置是位置1，在第二帧图像中的位置是位置2，在第三帧图像中的位置是位置3，则对应该目标对象的位置序列是：位置1、位置2和位置3。

下面通过具体地例子，对步骤101进行详细地说明。

例如，假设，目标对象有两个，分别为对象1和对象2。

历史帧图像有2帧，假设2帧历史帧图像与当前帧图像按照时间先后顺序的排序是：历史帧图像1、历史帧图像2和当前帧图像。

假设，目标对象的位置的表示方式为目标对象所在目标框对角顶点的横、纵坐标分别与目标框宽、高比值来表示。

本申请可将该历史帧图像1、历史帧图像2和当前帧图像输入到对象识别网络中，对象识别网络可以分别在历史帧图像1、历史帧图像2和当前帧图像中识别出对象1和对象2，并识别出对象1在历史帧图像1中的位置对象1在历史帧图像2中的位置/>对象1在当前帧图像中的位置/>以及对象2在历史帧图像1中位置/>对象2在历史帧图像2中的位置对象2在当前帧图像中的位置/>并生成与对象1对应的位置序列1、以及与对象2对应的位置序列2。

其中，位置序列1：

位置序列2：

还需要说明的是，上述对象识别网络可以是FRCNN(Fast Region-basedConvolutional Neural Networks，基于区域的快速卷积神经网络)网络，或者YOLO((YouOnly Look Once))网络，这里只是对对象识别网络进行示例性地说明，不进行具体地限定。

当然，电子设备还可接收用户输入的各目标对象在当前帧图像以及历史帧图像中的位置，将接收到的位置确定为各目标对象在当前帧图像以及历史帧图像中的位置，生成与各目标对象对应的位置序列。这里只是对确定各目标对象在当前帧图像以及历史帧图像的位置进行示例性地说明，不进行具体地限定。

步骤102：将所述各位置序列输入到已训练的CNN网络，以由该CNN网络基于各位置序列预测用于表征各目标对象在未来帧图像中位置的位置参数。

本申请的CNN网络至少包括三种网络层，第一种网络层为输入层，第二种网络层为卷积层，第三种网络层为池化层。

电子设备可将与各目标对象对应的各位置序列输入到已训练的CNN网络中，以由该CNN网络基于各位置序列预测用于表征各目标对象在未来帧图像中位置的位置参数。CNN网络预测各目标对象在未来帧图像中的位置，可通过如下步骤实现。

步骤1：CNN网络的输入层可以按照预设格式，将各位置序列组织成具有多个维度的数据集，并输出到CNN网络的卷积层。

其中，该多个维度可以是四个维度，也可以其他数量的维度，这里以多个维度为四个维度来进行说明。

其中，预设格式为【N,C,H,W】，其中N,H,W的取值可以自行设置，N的取值为待检测目标对象的个数，H取值为当前帧图像和历史帧图像的总帧数，W取值为用以表示目标对象在图像中位置的位置坐标的个数。C的取值为预设值。

例如，假设C取值为1，待检测的目标对象为5，当前帧图像与历史帧图像的总帧数为9，目标对象的位置的表示方式为其中，(x₁,y₁)为目标对象对应的目标框的左上角顶点的横、纵坐标，(x₂,y₂)为右下角顶点的横、纵坐标，则表示目标对象位置的坐标有4个，则W的取值为4。此时，预设格式【N,C,H,W】可以被设置为【5,1,9,4】。

在本申请实施例中，CNN网络的输入层可依据该预设格式，将各位置序列组织成具有多个维度的数据集。

例如，当该预设格式【N,C,H,W】的取值被确定后，CNN网络的输入层可以基于N的取值为目标对象分别进行编号，用以标识每一个目标对象(比如，N取值为5时，可将目标对象分别编号为1至5)。CNN网络的输入层可依据H的取值对当前帧和历史帧图像也依次进行编号(比如，H的取值为9，则将历史帧图像和当前帧图像依次编号为1至9)，用以标识每一帧图像。CNN网络可基于对每一个对象的编号、每一帧图像的编号，以及预设值(即C的取值)，对各目标对象对应的位置序列进行组织，组织成具有四个维度的数据集，并将该数据及输出到该CNN网络的卷积层。

其中，该数据集四个维度中的第一维度与预设格式中的N对应，用以表征各目标对象，换句话来说，第一维度记录了目标对象的标识，表明是哪个目标对象。第二维度与预设格式中的C对应，记录了预设值。第三维度与预设格式中的H对应，用以表征所述当前帧图像和各历史帧图像，换句话来说第三维度记录了当前帧图像和历史帧图像的标识。

第四维度与预设格式中的W对应，用以表征各目标对象的在当前帧图像或者所述历史帧图像中的位置。

步骤2：CNN网络的卷积层对输入的所述数据集进行卷积处理，并将卷积处理后的数据集输出到所述CNN网络的池化层。

步骤3：CNN网络的池化层对输入的所述数据集进行池化处理，输出用于表征该目标对象在未来帧图像中位置的位置参数。

其中，CNN网络的池化层输出的目标对象在未来帧图像中的位置参数可以是绝对位置，也可以是相对于目标对象在当前帧图像中位置的相对位置。这里只是对该位置参数进行示例性地说明，不对该位置参数进行具体地限定。

还需要说明的是，由于CNN网络的卷积层和池化层是对具有4个维度的数据集进行卷积处理，使得CNN网络可以基于4个不同的维度学习到各目标对象的运动轨迹、速度等信息，以及各目标对象在各帧图像中的大小变化(即目标对象所在目标框的宽高变化)。

例如，针对一个目标对象，CNN网络可以基于数据集的第三个维度和第四个维度，即CNN网络基于各帧图像以及目标对象在各帧图像中的位置学习到目标对象的历史运动轨迹和运动速度等信息。由于目标对象在各帧图像的位置是由目标框对角顶点坐标表示的，所以CNN网络还可以学习到目标对象在各帧图像中的大小变化。

CNN网络可以基于学习到目标对象运动轨迹、速度等信息以及目标对象在各帧图像中的大小变化，预测出用以表征目标对象在未来帧图像中位置的位置参数。

步骤103：基于所述CNN网络预测出的所述位置参数，确定所述各目标对象在所述未来帧图像中的位置。

以确定一个目标对象在未来帧图像中的位置为例进行说明，确定其他任一目标对象在未来帧图像中的位置的方法与之相同。

方式一：该位置参数为该目标对象在未来帧图像中相对于参考位置的相对位置，该参考位置为该目标对象在当前帧图像中的位置。

在实现时，电子设备基于CNN网络输出的该目标对象在未来帧图像中的相对位置、以及该目标对象在当前帧图像中的参考位置、确定该目标对象在未来帧图像中的位置。

具体地，目标对象在当前帧图像中的位置(即参考位置)由所述当前帧图像中该目标对象中心点横坐标纵坐标/>以及该目标对象的宽w^t、高h^t表征；

上述位置参数(即目标对象在未来帧图像中的相对位置)由相对于的偏移量Δx、相对于/>的偏移量Δy，以及相对于w^t的变化量Δw、相对于h^t的变化量Δh表征。

在确定时，电子设备可基于Δx、w^t和确定所述目标对象在所述未来帧图像中的中心点横坐标/>基于Δy、h^t和/>确定所述目标对象在所述未来帧图像中的中心点纵坐标/>基于w^t和Δw确定所述目标对象在所述未来帧图像中的宽w^t+τ；基于h^t和Δh确定所述目标对象在所述未来帧图像中的高h^t+τ。

比如，电子设备可基于如下公式，分别确定出w^t+τ和h^t+τ。

w^t+τ＝e^Δw*w^t；

h^t+τ＝e^Δh*h^t

电子设备可以输出w^t+τ和h^t+τ，其中/>为未来帧图像中该目标对象的中心点坐标，w^t+τ为未来帧图像中该目标对象的宽，h^t+τ为未来帧图像中该目标对象的高。

当需要以目标对象对角顶点来表示目标对象的位置时，还可以参照如下公式，对w^t+τ和h^t+τ进行转换。

其中为未来帧图像中该目标对象左上角顶点的坐标，/>为未来帧图像中该目标对象右下角顶点的坐标。

需要说明的是，这里所指的目标对象中心点横坐标、纵坐标目标对象的宽、高都是指目标对象所在目标框中心点横、纵坐标、目标框的宽、高，下文与之相同，不再赘述。

方式二：上述位置参数为所述目标对象在未来帧图像中的绝对位置。

在确定时，电子设备可将所述CNN网络预测出的绝对位置确定为所述目标对象在所述未来帧图像中的位置。

例如，CNN网络直接输出w^t+τ和h^t+τ，其中/>为未来帧图像中该目标对象的中心点坐标，w^t+τ为未来帧图像中该目标对象的宽，h^t+τ为未来帧图像中该目标对象的高。

或者CNN网络直接输出其中/>为未来帧图像中该目标对象左上角顶点的坐标，/>为未来帧图像中该目标对象右下角顶点的坐标。

上述只是对基于位置参数确定目标对象在未来帧图像中位置的方法进行示例性地说明，不对该方法进行具体地限定。

需要说明的是，CNN网络可以输出各目标对象在未来一帧图像中的位置，还可以输出各目标对象在未来多帧图像中的位置。这里不对未来帧图像的帧数进行限定。

下面再介绍下CNN网络的训练。

在选择样本时，本申请在选择目标对象时既可以选择运动的目标对象，也可以选择静止的目标对象。同样的，本申请训练好的CNN网络不仅能预测运动目标对象的位置还能预测静止目标对象的位置。本申请还不对样本的选择场景进行限定，可以在各种场景下选择样本，丰富样本数量。

具体地，本申请可以将目标对象在的前N帧图像中的位置组成位置序列，将该位置序列作为样本，在后M帧图像中的位置作为标签输入的CNN网络。

CNN网络将该位置序列转化为具有多个维度的数据集，并对数据集进行卷积和池化处理后得到该目标对象在未来M帧图像中位置的预测值。CNN网络可利用欧式距离，或者其他损失函数，计算该预测值与标签之间的误差，然后反向传播该误差，以使得CNN网络各层进行参数调节，直至CNN网络计算出的预测值与标签误差收敛，该CNN网络训练完成。

其中，N和M均为大于0的整数。

由上述描述可知，一方面，本申请使用CNN网络进行预测，可以替代经典的卡尔曼滤波运动估算算法，来实现目标对象位置的预测。此外，相比于采用RNN网络进行预测，由于CNN网络结构简单，网络训练收敛速度快，调整参数少，所以使用CNN网络进行预测，对于用户训练CNN网络的难度更低。

另一方面，CNN网络采用预设格式将对应于各目标对象的位置序列转化为具有多个维度的数据集，并对该数据集进行卷积和池化处理，使得CNN网络可以基于多个维度的信息得到各目标对象的运动速度、运动轨迹，目标对象在各图像帧中的大小，最终预测出目标对象在未来帧图像中的位置。

第三方面，本申请对目标对象在各图像帧中的位置进行了归一化处理，既避免了目标对象的大小在不同图像帧中不同这一因素的影响，还能减少CNN网络对于数据处理的运算量。

第四方面，本申请可同时对多个目标对象在多个未来帧图像的位置进行预测，相比于现有的只能预测出目标对象在下一帧图像中的位置，本申请的预测范围更广。

下面通过具体地例子对本申请提出的目标对象位置的预测方法进行详细地说明。

假设，目标对象有两个，分别为对象1和对象2。当前帧图像表示为图像t，假设历史帧图像有两个，为当前帧图像的前两帧图像，分别为图像t-1和图像t-2。假设使用CNN网络预测未来对象1和对象2在未来两帧图像位置，未来两帧图像分别表示为图像t+1，图像t+2。

步骤1：电子设备将图像t-2、图像t-1和图像t输入到对象识别网络，对象识别网络可分别识别这三幅图像中的对象1和对象2，并识别得到对象1和对象2分别在这三幅图像中的位置。

具体地，假设，

对象识别网络输出的对象1在图像t-2、图像t-1和图像t的位置如下：

对象1在图像t-2的位置为其中，/>是图像t-2中对象1所在目标框11的左上角顶点坐标，/>是目标框11右下角顶点，W₁ ^t-2是图像t-2的宽，/>是图像t-2的高。

对象1在图像t-1的位置为其中，/>是图像t-1中对象1所在目标框12的左上角顶点坐标，/>是目标框12右下角顶点，W₁ ^t-1是图像t-1的宽，/>是图像t-1的高。

对象1在图像t的位置为其中，/>是图像t中对象1所在目标框13的左上角顶点坐标，/>是目标框13右下角顶点，W^t是图像t的宽，/>是图像t的高。

对象识别网络输出的对象2在图像t-2、图像t-1和图像t的位置如下：

对象2在图像t-2的位置为其中，/>是图像t-2中对象1所在目标框21的左上角顶点坐标，/>是目标框21右下角顶点，/>是图像t-2的宽，/>是图像t-2的高。

对象2在图像t-1的位置为其中，/>是图像t-1中对象1所在目标框22的左上角顶点坐标，/>是目标框22右下角顶点，/>是图像t-1宽，是图像t-1的高。

对象2在图像t的位置为其中，/>是图像t中对象1所在目标框23的左上角顶点坐标，/>是目标框23右下角顶点，/>是图像t的宽，/>是图像t的高。

步骤2：电子设备基于对象识别网络输出的对象1和对象2分别在这三幅图像中的位置，生成对应于对象1的位置序列1和对应于对象2的位置序列2。

具体地，

位置序列1为：

位置序列2为：

步骤3：电子对象将位置序列1和位置序列2输入到CNN网络。

步骤4：CNN网络的输入层基于预设格式，将位置序列1和位置序列2组织成具有4个维度的数据集，并将该数据集输出到CNN网络的卷积层。

其中，预设格式为【N,C,H,W】，在本例中，待预测的目标对象为2个，N的取值为2，C为预设值为1，在本例中有当前帧和历史帧的总帧数为3，则H取值为3；在本例中采用4个坐标表示目标对象位置，则W取值为4。则预设格式为【2,1,3,4】

CNN的输入层基于该N的取值2，为对象1和对象2进行编号，比如对象1编号为1，对象2编号为2。CNN的输入层基于H的取值为3，对3帧图像分别进行编号，比如将图像t-2编号为1，图像t-1编号为2，图像t编号为3。然后基于目标对象的编号、图像的编号、以及C的取值、将位置序列1和位置序列2组织成具有4个维度的数据集。

其中，4个维度中的第一个维度与N对应，表示目标对象，即记录了对象1和对象2的编号。第二维度与C对应，记录了预设值。第三个维度与H对应，表示图像帧，记录了图像t-2、图像t-1和图像t的编号。第四个维度与W对应，表示对象1、对象2在图像t-2、图像t-1和图像t中的位置，记录了对象1、对象2在图像t-2、图像t-1和图像t中的位置的位置坐标。

步骤5：CNN网络的卷积层对输入的数据集进行卷积处理，并将卷积处理后的数据集输出到CNN网络的池化层。

步骤6：CNN网络的池化层对输入的数据集进行池化处理，输出用于表征该目标对象在未来2帧图像(即图像t+1，图像t+2)中位置的位置参数。

具体地，假设该位置参数为对象1和对象2在未来两帧中相对于参考位置的相对位置。该参考位置为对象1、对象2在图像t(即当前帧图像)中的位置。

假设，对象1的参考位置(即对象1在图像t中的位置)可以表示为：和其中，/>为对象1在图像t中的目标框13的中心点坐标，/>和/>分别为目标框13的宽和高。

对象2的参考位置(即对象2在图像t中的位置)可以表示为：和/>其中，/>为对象2在图像t中的目标框23的中心点坐标，/>和/>分别为目标框23的宽和高

对象1在图像t+1中的位置参数由构成，其中，/>为图像t+1中对象1中心点位置的横坐标相对于/>的偏移量，/>为图像t+1中对象1中心点位置的纵坐标相对于/>的偏移量，/>为图像t+1中对象1的宽相对于/>的变化量，/>为图像t+1中对象1的高相对于/>的变化量。

对象1在图像t+2中的位置参数由构成，其中，/>

为图像t+2中对象1中心点位置的横坐标相对于/>的偏移量，/>为图像t+2中对象1中心点位置的纵坐标相对于/>的偏移量，/>为图像t+2中对象1的宽相对于/>的变化量，/>为图像t+2中对象1的高相对于/>的变化量。

对象2在图像t+1中的位置参数由构成，其中，/>为图像t+1中对象2中心点位置的横坐标相对于/>的偏移量，/>为图像t+1中对象2中心点位置的纵坐标相对于/>的偏移量，/>为图像t+1中对象2的宽相对于/>的变化量，/>图像t+1中对象2的高相对于/>的变化量。

对象2在图像t+2中的位置参数由构成，其中，/>为图像t+2中对象2中心点位置的横坐标相对于/>的偏移量，/>为图像t+2中对象2中心点位置的纵坐标相对于/>的偏移量，/>为图像t+2中对象2的宽相对于/>的变化量，图像t+2中对象2的高相对于/>的变化量。

步骤7：电子设备可以获取该CNN网络输出的位置参数，并基于该位置参数确定目标对象

电子设备可以基于该位置参数以及参考位置，确定出对象1在图像t+1和图像t+2中的位置，以及对象2在图像t+1和图像t+2中的位置。

具体地，电子设备可以根据如下公式确定：

w^t+τ＝e^Δw*w^t；

h^t+τ＝e^Δh*h^t

电子设备可将对象1的参考位置，以及对象在图像t+1中的位置参数代入上述公式中，得到对象1在图像t+1中的中心点坐标以及对象1在图像t+1中的宽/>高

将对象1的参考位置，以及对象在图像t+2中的位置参数代入上述公式中，得到对象1在图像t+2中的中心点坐标以及对象1在图像t+2中的宽/>高/>

将对象2的参考位置，以及对象在图像t+1中的位置参数代入上述公式中，得到对象2在图像t+1中的中心点坐标以及对象2在图像t+1中的宽/>高/>

将对象2的参考位置，以及对象在图像t+2中的位置参数代入上述公式中，得到对象2在图像t+2中的中心点坐标以及对象2在图像t+2中的宽/>高/>

参见图2，图2是本申请一示例性实施例示出的一种电子设备的硬件结构图。

该电子设备包括：通信接口201、处理器202、机器可读存储介质203和总线204；其中，通信接口201、处理器202和机器可读存储介质203通过总线204完成相互间的通信。处理器202通过读取并执行机器可读存储介质203中与目标对象位置预测的控制逻辑对应的机器可执行指令，可执行上文描述的目标对象位置预测方法。

本文中提到的机器可读存储介质203可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，机器可读存储介质203可以是RAM(Radom Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

参见图3，图3是本申请一示例性实施例示出的一种目标对象位置的预测装置的框图。该装置可应用在电子设备上，可包括如下所示单元。

确定单元301，用于确定待预测的至少一个目标对象在当前帧图像以及当前帧图像之前的至少一帧历史帧图像中的位置，生成与各目标对象对应的各位置序列；每一位置序列中相邻图像上的位置在相邻时序上相关联；

输入单元302，用于将所述各位置序列输入到已训练的CNN网络，以由该CNN网络基于各位置序列预测用于表征各目标对象在未来帧图像中位置的位置参数；

预测单元303，用于基于所述CNN网络预测出的所述位置参数，确定所述各目标对象在所述未来帧图像中的位置。

可选的，所述输入单元302，具体用于所述CNN网络的输入层按照预设格式，将各位置序列组织成具有多个维度的数据集，并输出到所述CNN网络的卷积层；所述CNN网络的卷积层对输入的所述数据集进行卷积处理，并将卷积处理后的数据集输出到所述CNN网络的池化层；所述CNN网络的池化层对输入的所述数据集进行池化处理，输出用于表征该目标对象在未来帧图像中位置的位置参数。

可选的，所述确定单元301，具体用于将包含有所述待预测的至少一个目标对象的当前帧图像和该当前帧图像之前的至少一帧历史帧图像输入至已训练的对象识别网络，以由对象识别网络对该当前帧图像和至少一帧历史帧图像中的各目标对象进行识别，得到所述各目标对象在所述当前帧图像中的位置以及在所述至少一帧历史帧图像中的位置；获取所述目标对象在当前帧图像以及所述至少一帧历史帧图像中的位置。

所述预测单元303，用于基于所述CNN网络预测出的各目标对象在未来帧图像中的相对位置、以及各目标对象的参考位置，确定各目标对象在所述未来帧图像中的位置。

所述预测单元303，在基于所述CNN网络预测出的各目标对象在未来帧图像中的相对位置、以及各目标对象的参考位置，确定各目标对象在所述未来帧图像中的位置时，具体用于基于Δx、w^t和确定所述目标对象在所述未来帧图像中的中心点横坐标/>基于Δy、h^t和/>确定所述目标对象在所述未来帧图像中的中心点纵坐标/>基于w^t和Δw确定所述目标对象在所述未来帧图像中的宽w^t+τ；基于h^t和Δh确定所述目标对象在所述未来帧图像中的高h^t+τ。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种目标对象位置的预测方法，其特征在于，所述方法包括：

基于所述CNN网络预测出的所述位置参数，确定所述各目标对象在所述未来帧图像中的位置；

所述CNN网络基于各位置序列预测用于表征各目标对象在未来帧图像中位置的位置参数，包括：

所述CNN网络的池化层对输入的所述数据集进行池化处理，输出用于表征该目标对象在未来帧图像中位置的位置参数；

所述多个维度为四个维度；所述四个维度中的第一维度表征各目标对象；第二维度为预设值；第三个维度表征所述当前帧图像和各历史帧图像；第四个维度表征所述各目标对象在所述当前帧图像或者所述历史帧图像中的位置。

2.根据权利要求1所述的方法，其特征在于，所述确定待预测的目标对象在当前帧图像以及当前帧图像之前的至少一帧历史帧图像中的位置，包括：

3.根据权利要求1所述的方法，其特征在于，所述位置参数为各目标对象在未来帧图像中相对于参考位置的相对位置；所述参考位置为各目标对象在所述当前帧图像中的位置；

4.根据权利要求3所述的方法，其特征在于，所述参考位置由所述当前帧图像中该目标对象中心点横坐标纵坐标/>以及该目标对象的宽w^t、高h^t表征；

5.一种目标对象位置的预测装置，其特征在于，所述装置包括：

预测单元，用于基于所述CNN网络预测出的所述位置参数，确定所述各目标对象在所述未来帧图像中的位置；

所述输入单元，具体用于所述CNN网络的输入层按照预设格式，将各位置序列组织成具有多个维度的数据集，并输出到所述CNN网络的卷积层；所述CNN网络的卷积层对输入的所述数据集进行卷积处理，并将卷积处理后的数据集输出到所述CNN网络的池化层；所述CNN网络的池化层对输入的所述数据集进行池化处理，输出用于表征该目标对象在未来帧图像中位置的位置参数；

6.根据权利要求5所述的装置，其特征在于，所述确定单元，具体用于将包含有所述待预测的至少一个目标对象的当前帧图像和该当前帧图像之前的至少一帧历史帧图像输入至已训练的对象识别网络，以由对象识别网络对该当前帧图像和至少一帧历史帧图像中的各目标对象进行识别，得到所述各目标对象在所述当前帧图像中的位置以及在所述至少一帧历史帧图像中的位置；获取所述目标对象在当前帧图像以及所述至少一帧历史帧图像中的位置。

7.根据权利要求5所述的装置，其特征在于，所述位置参数为各目标对象在未来帧图像中相对于参考位置的相对位置；所述参考位置为各目标对象在所述当前帧图像中的位置；