CN106326837A

CN106326837A - 对象追踪方法和装置

Info

Publication number: CN106326837A
Application number: CN201610648861.XA
Authority: CN
Inventors: 张弛; 吴家楠; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2016-08-09
Filing date: 2016-08-09
Publication date: 2017-01-11
Anticipated expiration: 2036-08-09
Also published as: CN106326837B

Abstract

本发明的实施例提供了一种对象追踪方法和装置。对象追踪方法包括：获取视频；针对视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的预测位置信息；以及根据视频中包含的对象的检测位置信息和预测位置信息追踪对象。根据本发明实施例的对象追踪方法和装置，通过基于当前图像预测对象在其他图像中的位置信息及位置信息的比较来实现对象追踪，这种对象追踪方式非常简单，计算量小，并且可以降低对象追踪误差。

Description

对象追踪方法和装置

技术领域

本发明涉及图像处理领域，更具体地涉及一种对象追踪方法和装置。

背景技术

对行人、车辆等物体的检测追踪是诸多安防应用中不可或缺的一环。在现有方法中，往往把物体检测和物体追踪分成两个独立的环节来解决这一问题。首先，在采集到的视频的每一帧图像中，检测感兴趣的物体，然后根据空间位置、外观相似程度等因素将在各帧图像中检测到的物体关联在一起，从而进行追踪。在以上两个环节中，都有可能引入额外的误差。例如，在检测过程中，可能存在一些物体被漏检(False Negative)，而一些被检测出的物体又并非是感兴趣的物体(False Positive)。上述检测误差会在之后的追踪过程中进一步带来新的误差。另外，在追踪过程中，需要比较在不同图像中检测出的物体的外观相似程度，这将带来额外的计算开销，从而影响物体追踪的效率。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种对象追踪方法和装置。

根据本发明一方面，提供了一种对象追踪方法。对象追踪方法包括：

获取视频；

针对所述视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息；以及

根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象。

示例性地，所述针对所述视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息包括：

将所述至少部分帧的图像中的每帧图像输入卷积神经网络，以获得所述至少部分帧的图像中的每帧图像的第一特征；

将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络，以获得所述至少部分帧的图像中的每帧图像的第二特征，其中，当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关，并且其中所述第二特征包括横向坐标向量、纵向坐标向量和频道向量；以及

基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息。

示例性地，所述基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息包括：

针对所述至少部分帧的图像中的任一图像，

对于每个由该图像的第二特征中的横向坐标和纵向坐标所代表的图像点，提取与该图像点相关的一个或多个初始区域；

利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性；

从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域，其中，所述一个或多个选定区域中的每一个的特征由该图像的第二特征中的与该选定区域相对应的元素而定；以及

对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入回归器，以获得该选定区域中包含的对象在该图像中的检测位置信息、在该图像之前的特定数目的先前图像中的预测位置信息、以及在该图像之后的特定数目的随后图像中的预测位置信息。

示例性地，在所述针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域之后，所述对象追踪方法进一步包括：

针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入第二分类器，以确定该选定区域中包含的对象是否是目标对象。

示例性地，所述针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性包括：

针对所述至少部分帧的图像中的任一图像，将所述针对该图像提取的所有初始区域中的每一个的特征中的频道向量输入所述第一分类器，以确定该初始区域中包含对象的可能性，

其中，所述针对该图像提取的所有初始区域中的每一个的特征由该图像的第二特征中的与该初始区域相对应的元素而定。

示例性地，所述对于所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域包括：

针对所述至少部分帧的图像中的任一图像，

当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为一个时，将该选择的初始区域确定为选定区域；

当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为多个时，针对该图像合并所述可能性最高的多个初始区域中的重叠部分超过预定标准的两个或多于两个初始区域，以获得所述一个或多个选定区域。

示例性地，所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络，

所述正向反馈式神经网络用以下公式表示：

Y_t = W_{1} &CircleTimes; X_t + V_{1} &CircleTimes; Y_{t - 1} + b_{1},

其中，W₁、V₁和b₁为所述正向反馈式神经网络的参数，X_t为所述视频中的第t帧图像的第一特征，Y_t为所述第t帧图像的正向特征，Y_{t-1}为所述视频中的第t-1帧图像的正向特征；

所述反向反馈式神经网络用以下公式表示：

Z_t = W_{2} &CircleTimes; X_t + V_{2} &CircleTimes; Z_{t + 1} + b_{2},

其中，W₂、V₂和b₂为所述反向反馈式神经网络的参数，X_t为所述第t帧图像的第一特征，Z_t为所述第t帧图像的反向特征，Z_{t+1}为所述视频中的第t+1帧图像的反向特征；

所述第t帧图像的第二特征H_t通过以下公式计算：

其中，x表示横向坐标向量，y表示纵向坐标向量，c表示频道向量，C为所述第t帧图像的正向特征或反向特征的总频道数。

示例性地，所述对象追踪方法进一步包括：

利用多个样本图像对所述卷积神经网络、所述反馈式神经网络、所述第一分类器和所述回归器进行训练，其中，所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。

示例性地，所述根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象包括：

如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的预测位置信息之间的关系满足第一预设条件，则将所述特定对象和所述一个或多个参照对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的预测位置信息满足第二预设条件，并且在所述特定图像中，在根据所述一个或多个参照对象在所述特定图像中的预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象，则基于所述一个或多个参照对象在所述特定图像中的预测位置信息确定与所述特定图像相关的预测对象，并且将所述一个或多个参照对象与所述预测对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

根据本发明另一方面，提供了一种对象追踪装置。对象追踪装置包括：

视频获取模块，用于获取视频；

检测预测模块，用于针对所述视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息；以及

追踪模块，用于根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象。

示例性地，所述检测预测模块包括：

第一特征获得子模块，用于将所述至少部分帧的图像中的每帧图像输入卷积神经网络，以获得所述至少部分帧的图像中的每帧图像的第一特征；

第二特征获得子模块，用于将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络，以获得所述至少部分帧的图像中的每帧图像的第二特征，其中，当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关，并且其中所述第二特征包括横向坐标向量、纵向坐标向量和频道向量；以及

检测预测子模块，用于基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息。

示例性地，所述检测预测子模块包括：

初始区域提取单元，用于针对所述至少部分帧的图像中的任一图像，对于每个由该图像的第二特征中的横向坐标和纵向坐标所代表的图像点，提取与该图像点相关的一个或多个初始区域；

可能性确定单元，用于针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性；

选定区域获得单元，用于针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域，其中，所述一个或多个选定区域中的每一个的特征由该图像的第二特征中的与该选定区域相对应的元素而定；以及

位置信息获得单元，用于针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入回归器，以获得该选定区域中包含的对象在该图像中的检测位置信息、在该图像之前的特定数目的先前图像中的预测位置信息、以及在该图像之后的特定数目的随后图像中的预测位置信息。

示例性地，所述对象追踪装置进一步包括目标对象确定模块，用于针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入第二分类器，以确定该选定区域中包含的对象是否是目标对象。

示例性地，所述可能性确定单元包括输入子单元，用于针对所述至少部分帧的图像中的任一图像，将所述针对该图像提取的所有初始区域中的每一个的特征中的频道向量输入所述第一分类器，以确定该初始区域中包含对象的可能性，

示例性地，所述选定区域获得单元包括区域获得子单元，用于针对所述至少部分帧的图像中的任一图像，当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为一个时，将该选择的初始区域确定为选定区域；当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为多个时，针对该图像合并所述可能性最高的多个初始区域中的重叠部分超过预定标准的两个或多于两个初始区域，以获得所述一个或多个选定区域。

所述正向反馈式神经网络用以下公式表示：

Y_t = W_{1} &CircleTimes; X_t + V_{1} &CircleTimes; Y_{t - 1} + b_{1},

所述反向反馈式神经网络用以下公式表示：

Z_t = W_{2} &CircleTimes; X_t + V_{2} &CircleTimes; Z_{t + 1} + b_{2},

所述第t帧图像的第二特征H_t通过以下公式计算：

示例性地，所述对象追踪装置进一步包括训练模块，用于利用多个样本图像对所述卷积神经网络、所述反馈式神经网络、所述第一分类器和所述回归器进行训练，其中，所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。

示例性地，所述追踪模块包括第一关联子模块，用于如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的预测位置信息之间的关系满足第一预设条件，则将所述特定对象和所述一个或多个参照对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

示例性地，所述追踪模块包括第二关联子模块，用于如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的预测位置信息满足第二预设条件，并且在所述特定图像中，在根据所述一个或多个参照对象在所述特定图像中的预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象，则基于所述一个或多个参照对象在所述特定图像中的预测位置信息确定与所述特定图像相关的预测对象，并且将所述一个或多个参照对象与所述预测对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

示例性地，所述追踪模块包括不可信确定子模块，用于如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的预测位置信息之间的关系满足第三预设条件，则确定所述特定对象是不可信对象，

其中，所述参照图像与所述特定图像相对应。

根据本发明实施例的对象追踪方法和装置，通过基于当前图像预测对象在其他图像中的位置信息及位置信息的比较来实现对象追踪，这种对象追踪方式非常简单，计算量小，并且可以降低对象追踪误差。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的对象追踪方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的对象追踪方法的示意性流程图；

图3示出根据本发明一个实施例的针对视频中的每帧图像至少利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息并预测该图像中包含的对象在视频的其他图像中的预测位置信息的步骤的示意性流程图；

图4示出根据本发明一个实施例的基于至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的预测位置信息的步骤的示意性流程图；

图5示出根据本发明一个实施例的利用视频中的图像进行对象追踪的示意性流程图；

图6示出根据本发明一个实施例的对象追踪装置的示意性框图；以及

图7示出根据本发明一个实施例的对象追踪系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现根据本发明实施例的对象追踪方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和视频采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述视频采集装置110可以采集期望的视频(例如用于对象追踪的视频)，并且将所采集的视频存储在所述存储装置104中以供其它组件使用。视频采集装置110可以采用任何合适的设备实现，例如独立的照相机或移动终端的摄像头等。视频采集装置110仅是示例，电子设备100可以不包括视频采集装置110。

示例性地，用于实现根据本发明实施例的对象追踪方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的对象追踪方法。图2示出根据本发明一个实施例的对象追踪方法200的示意性流程图。如图2所示，对象追踪方法200包括以下步骤。

在步骤S210，获取视频。

视频可以包括若干帧图像，图像中可以包含对象。本文所述的对象可以是任何期望追踪或能够追踪的物体，例如行人、车辆等。视频可以来自外部设备，由外部设备传送到电子设备100进行对象追踪。此外，视频也可以由电子设备100的视频采集装置110采集获得。视频采集装置110可以将采集到的视频传送到处理器102，由处理器102进行对象追踪。视频可以是原始视频，也可以是对原始视频进行预处理后得到的视频。

在步骤S220，针对视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的预测位置信息。

在本发明各个实施例中，视频的至少部分帧的图像可以为视频中的部分视频帧，也可以为视频中的全部视频帧。

示例性地，本文所述的位置信息可以包括对象在图像中的具体坐标。示例性地，位置信息可以进一步包括对象的大小。

由于对象的运动过程通常是连续的，在针对对象采集的多帧图像中，对象所处的位置通常存在一定的相关性。因此，基于该相关性，对于视频中的某一图像来说，不仅可以直接检测对象在当前图像中的位置，还可以预测同一对象在采集时间早于当前图像的一帧或多帧先前图像中的位置，同理，也可以预测该对象在采集时间晚于当前图像的一帧或多帧随后图像中的位置。这样的检测和预测过程可以至少利用反馈式神经网络来实现。反馈式神经网络可以是事先训练好的。反馈式神经网络能够综合视频中的不同图像的信息，使得基于当前图像的信息预测其他图像(先前图像和/或随后图像)的信息成为可能，如下文所述。

反馈式神经网络的神经元间连接构成有向图，通过将状态在自身网络中循环传递，反馈式神经网络可以接收广泛的时间序列输入。也就是说，对于存在时序关系的多帧图像来说，将图像按照时间顺序输入到反馈式神经网络中，反馈式神经网络可以将与每帧图像相对应的输出结果重新返回到输入处，这样，可以建立当前图像与采集时间不同的先前图像和/或随后图像之间的关联。由此可以使得通过当前图像预测先前图像和/或随后图像的某些信息(例如当前图像中包含的对象在先前图像和/或随后图像中的位置信息)成为可能。

对于某一帧图像来说，利用其图像信息检测出的对象在该图像中的位置信息可以称为检测位置信息，利用其图像信息预测出的对象在其他图像中的位置信息可以称为预测位置信息。对于视频中的每帧图像，均进行这样的检测和预测。

在步骤S230，根据视频中包含的对象的检测位置信息和预测位置信息追踪对象。

根据视频中包含的对象的检测位置信息和预测位置信息追踪对象可以包括根据视频中包含的对象的检测位置信息和预测位置信息将视频中的不同图像中的相同对象关联在一起。

下面举例描述。假设基于视频中的第t帧图像检测到第t帧图像中包含对象A，其位于第t帧图像的坐标(x₁,y₁)处，并且预测到对象A在第t+1帧图像中可能位于坐标(x₂,y₂)处。然后，基于第t+1帧图像检测到第t+1帧图像中包含对象B，其位于第t+1帧图像的坐标(x₃,y₃)处。如果经比较，发现坐标(x₂,y₂)与坐标(x₃,y₃)之间的距离非常近，例如小于某个阈值，则可以认为第t帧图像中的对象A与第t+1帧图像中的对象B是相同对象。在确认第t帧图像中的对象A与第t+1帧图像中的对象B是相同对象的情况下，将这两个对象关联在一起，合并成一个对象，例如合并为对象1。示例性地，将相同对象关联在一起的过程可以包括将该对象在不同图像中的位置信息关联在一起，以获得对象的运动轨迹。例如，对于对象1来说，其在第t帧图像中位于坐标(x₂,y₂)处，在第t+1帧图像中位于坐标(x₃,y₃)处，也就是说，可以认为对象1在一段时间内从坐标(x₂,y₂)处运动到坐标(x₃,y₃)处。根据上述原理，可以针对每帧图像中的对象进行检测位置信息和预测位置信息的比较，将检测位置信息和预测位置信息满足要求的对象视为相同对象并进行关联，最终可以将包含在不同图像中的相同对象关联在一起，即可以实现对象的追踪。

与现有的对象追踪方法相比，上述对象追踪方法具有以下优点：

(1).追踪过程极为简单，计算量较小。本方法只需要将所预测的对象位置与检测出的对象位置进行比较即可，无需额外比较外观相似程度。

(2).能够有效处理被遮挡问题。在现有方法中，如果在视频的一帧或多帧图像中，某对象被遮挡，则该对象是无法检测出的，而在本方法中，由于对象可能在之前和/或之后的多帧图像中出现，则根据其在未被遮挡的图像中的信息估计其在被遮挡的图像中的位置是可能的。

(3).能够在一定程度上降低对象追踪误差。例如，如果某对象在某帧图像中被漏检，那么根据前后多帧图像的信息，能够预测出其在该帧图像中的位置。另外，如果在某帧图像中，一个对象是被误检的，那么根据前后多帧图像的信息，可以判断出该被检测出的对象不可信。

根据本发明实施例的对象追踪方法，通过基于当前图像预测对象在其他图像中的位置信息及位置信息的比较来实现对象追踪，这种对象追踪方式非常简单，计算量小，并且可以降低对象追踪误差。

示例性地，根据本发明实施例的对象追踪方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的对象追踪方法可以部署在视频采集端，例如，可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。替代地，根据本发明实施例的对象追踪方法还可以部署在服务器端(或云端)处。例如，可以在客户端采集包含对象的视频，客户端将采集到的视频传送给服务器端(或云端)，由服务器端(或云端)进行对象追踪。

图3示出根据本发明一个实施例的针对视频的至少部分帧的图像中的每帧图像利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的预测位置信息的步骤(步骤S220)的示意性流程图。根据本实施例，上述步骤S220可以包括以下步骤。

在步骤S310，将至少部分帧的图像中的每帧图像输入卷积神经网络，以获得至少部分帧的图像中的每帧图像的第一特征。

卷积神经网络是一种前馈神经网络，其由若干卷积单元组成，每个卷积单元可以响应一部分覆盖范围内的周围单元。每个卷积单元的参数可以通过反向传播算法优化得到。卷积运算的目的是提取图像的不同特征。例如，第一层卷积层可以提取一些低级的特征，如边缘、线条和角等层级，更多层的网络可以从低级特征中迭代提取更复杂的特征，最终获得本文所述的第一特征。卷积神经网络的数目以及每个卷积神经网络的层数可以根据需要而定，本发明不对此进行限制。卷积神经网络的参数可以进行随机初始化，也可以利用已经训练好的网络的参数进行初始化，例如利用视觉几何组(VGG)，GoogleLeNet等网络的参数进行初始化。对于这类已有的网络，可以选取其中的某些部分作为本文所述的卷积神经网络的一部分参与训练，也可以固定一部分参数不参与该卷积神经网络的训练。

第一特征可以理解为类似热力图的特征图。对于一个图像(视频中的一帧)来说，经过卷积神经网络提取的第一特征可以是一个三维张量X，该三维张量X的三个维度可以分别代表特征图的横向坐标、纵向坐标和频道。也就是说，第一特征可以包括横向坐标向量、纵向坐标向量和频道向量。应该理解的是，经过卷积神经网络的处理之后，获得的特征图的大小并不一定与输入的图像一致，其可能缩小，每个由第一特征中的横向坐标和纵向坐标代表的图像点可能对应于视频中的原始图像中的一个区域。对于视频中的原始图像来说，其可以包括三个颜色分量，即红色(R)、绿色(G)和蓝色(B)，则其频道数是3。在利用卷积神经网络对原始图像进行处理之后，所获得的特征图的频道数可能会大大增加，也就是说第二特征的频道向量可能不再简单是3维的向量，而变成例如512维、1024维等更多维度的向量。

在步骤S320，将至少部分帧的图像中的每帧图像的第一特征输入反馈式神经网络，以获得至少部分帧的图像中的每帧图像的第二特征，其中，当前图像的第二特征与在当前图像之前的先前图像和在当前图像之后的随后图像相关，并且其中所述第二特征包括横向坐标向量、纵向坐标向量和频道向量。

在计算当前图像的第二特征时，可以将当前图像的第一特征和先前图像的某些特征信息和/或随后图像的某些特征信息作为反馈式神经网络的输入，输出的将是当前图像的第二特征。

与第一特征类似地，第二特征也是一个三维张量，其可以用H表示。该三维张量H的三个维度可以分别代表特征图的横向坐标、纵向坐标和频道。也就是说，第二特征可以包括横向坐标向量、纵向坐标向量和频道向量。同样地，每个由第二特征中的横向坐标和纵向坐标代表的图像点可能对应于视频中的原始图像中的一个区域。当前图像的第二特征综合了在当前图像之前和之后的图像的信息。

在步骤S330，基于至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的预测位置信息。

如上文所述，当前图像的第二特征综合了在当前图像之前和之后的图像的信息，因此，根据当前图像的第二特征不仅可以获知当前图像中包含的对象在当前图像中的位置，而且可以预测当前图像中包含的对象在当前图像之前和/或之后的图像中的位置。例如，在步骤S330中，可以采用事先训练好的分类器、回归器等计算当前图像中包含的对象在当前图像中的位置及在当前图像之前和/或之后的图像中的位置。

图4示出根据本发明一个实施例的基于至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的预测位置信息的步骤(步骤S330)的示意性流程图。根据本实施例，上述步骤S330可以包括以下步骤。

在步骤S410，针对至少部分帧的图像中的任一图像，对于每个由该图像的第二特征中的横向坐标和纵向坐标所代表的图像点，提取与该图像点相关的一个或多个初始区域。

如上所述，第二特征是三维张量H，其三个维度可以分别代表特征图的横向坐标、纵向坐标和频道。对于至少部分帧的图像中的每帧图像来说，其第二特征中的横向坐标和纵向坐标可以代表若干个图像点。可以针对每帧图像的每个图像点均提取一个或多个初始区域。初始区域可以以对应的图像点为中心，并具有一定的大小和形状。与同一图像点相关的不同初始区域的大小和/或形状可以不同。

例如，假设至少部分帧的图像中的每帧图像的第二特征可以视为具有48(6×8)个图像点的图像，针对每个图像点可以提取10个初始区域。这10个初始区域可以具有不同的大小和/或形状，例如有的是正方形，有的是圆形等。这样，对于一帧图像来说，一共可以提取480个初始区域。对于视频中的每帧图像，均可以采用这种方式提取初始区域。

为了描述方便，可以将视频中的第t帧图像的第二特征表示为H_t(x,y,c)，其中x表示横向坐标向量，y表示纵向坐标向量，c表示频道向量。对于某个图像点(x,y)来说，所提取的相关的初始区域可以表示为(x,y,h,w)，h和w分别表示初始区域的高度和宽度。初始区域也具有特征，其特征可以由该初始区域所属的图像的第二特征中的与该初始区域相对应的元素而定，表示为三维张量H_t[x:x+w,y:y+h,:]。示例性地，可以采用加速区域卷积神经网络(Faster RCNN)或类似算法提取初始区域。

在步骤S420，针对至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性。

如上所述，针对至少部分帧的图像中的每帧图像，对于每个由该图像的第二特征中的横向坐标和纵向坐标代表的图像点，都获得固定数量的初始区域。初始区域可以代表一个可能出现对象的区域。可以利用第一分类器确定每个初始区域包含对象的可能性。第一分类器可以是事先训练好的。示例性而非限制性地，第一分类器可以是全连接神经网络。

初始区域包括第二特征所对应的特征图上的若干图像点，并且如上文所述，每个图像点可能对应于视频中的原始图像中的一个区域，因此，可以理解的是，每个初始区域可能对应于视频中的原始图像中的一个更大的区域。因此，通过分析初始区域中包含对象的可能性可以获知视频中的原始图像中的一个大区域中包含对象的可能性。

在一个示例中，步骤S420可以包括：针对至少部分帧的图像中的任一图像，将针对该图像提取的所有初始区域中的每一个的特征中的频道向量输入第一分类器，以确定该初始区域中包含对象的可能性，其中，所述针对该图像提取的所有初始区域中的每一个的特征由该图像的第二特征中的与该初始区域相对应的元素而定。

如上文所述，初始区域也具有特征，其特征可以由其所属的图像的第二特征的一部分构成。也就是说，初始区域的特征中也包括横向坐标向量、纵向坐标向量和频道向量。频道向量代表图像(或特征图)的颜色信息，而经由颜色信息可以判断对象在图像(或特征图)中的位置。因此，通过初始区域的特征中的频道向量可以简单地分析出初始区域中是否包含对象。

在步骤S430，针对至少部分帧的图像中的任一图像，从针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域，其中，所述一个或多个选定区域中的每一个的特征由该图像的第二特征中的与该选定区域相对应的元素而定。

对于至少部分帧的图像中的每帧图像来说，可以根据包含对象的可能性对初始区域进行排序，然后选择可能性最高的一个或多个初始区域。当然，可以理解的是，还可以设置可能性阈值，仅选择包含对象的可能性超过可能性阈值的初始区域。可以将所选择的初始区域直接作为选定区域，也可以对所选择的初始区域进行某些处理之后生成选定区域。例如，可以对初始区域进行一定程度的合并以获得选定区域。与初始区域类似地，选定区域也具有特征，其由该选定区域所属的图像的第二特征中的与该选定区域相对应的元素而定。根据上文对初始区域的特征的描述，本领域技术人员可以理解选定区域的特征的结构和表达形式，在此不再赘述。

在一个示例中，步骤S430可以包括：针对所述至少部分帧的图像中的任一图像，当从针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为一个时，将该选择的初始区域确定为选定区域；当从针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为多个时，针对该图像合并可能性最高的多个初始区域中的重叠部分超过预定标准的两个或多于两个初始区域，以获得一个或多个选定区域。

如上文所述，在选择可能性最高的一个或多个初始区域之后，可以对所选择的初始区域进行某些处理(例如合并)之后生成选定区域。在针对每帧图像所选择的初始区域的数目为一个时，可以直接将所选择的初始区域视作选定区域。在针对每帧图像所选择的初始区域的数目不止一个时，在两个初始区域之间可能存在重叠。可以设置预定标准，对于重叠部分超过预定标准的初始区域，进行合并，以减少不必要的数据运算。例如，在两个或多于两个初始区域的重叠面积或重叠比例大于预设的重叠阈值时，可以认为这些初始区域之间的重叠部分超过预定标准，因此可以合并。

在步骤S440，针对至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入回归器，以获得该选定区域中包含的对象在该图像中的检测位置信息、在该图像之前的特定数目的先前图像中的预测位置信息、以及在该图像之后的特定数目的随后图像中的预测位置信息。

假设选定区域的特征同样用H_t[x:x+w,y:y+h,:]表示，可以将其输入(1+2N)个回归器，每个回归器可以输出对象在当前图像(选定区域所属的图像)、或在当前图像之前的第n帧先前图像(n≤N)或在当前图像之后的第n帧随后图像中的位置信息。回归器可以是事先训练好的。示例性而非限制性地，回归器可以是全连接神经网络。

针对视频的至少部分帧的图像中的每帧图像，可以获得一个或多个选定区域。当然，可以理解的是，在图像中不存在任何对象的情况下，也可能无法获得选定区域。对于每帧图像来说，可以将针对该图像所获得的所有选定区域输入上述回归器以获得对象在该图像以及其他图像中的位置信息。

基于训练好的卷积神经网络、反馈式神经网络、第一分类器、回归器等模型可以快速准确地实现对对象的位置信息的检测和预测，有助于获得高精度的对象追踪结果。

根据本发明实施例，在上述步骤S430之后，对象追踪方法200可以进一步包括：针对至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入第二分类器，以确定该选定区域中包含的对象是否是目标对象。

可以将选定区域的特征H_t[x:x+w,y:y+h,:]输入第二分类器。第二分类器可以确定选定区域中包含的对象是否是目标对象(即感兴趣的对象)，例如行人、车辆等。例如，在利用第二分类器判断选定区域包含的对象是否是行人的情况下，第二分类器可以输出两种结果，其中0表示选定区域包含的对象不是行人，1表示选定区域包含的对象是行人。当然，第二分类器还可以输出更多种结果，用于表示更多的对象类型，例如其可以输出十种结果，其中0表示选定区域包含的对象不属于任何期望对象，1表示选定区域包含的对象是行人，2表示选定区域包含的对象是车辆，等等。

第二分类器可以是事先训练好的。示例性而非限制性地，第二分类器可以是全连接神经网络。

通过第二分类器可以判断图像中的对象的类别，判断对象是否是感兴趣的对象，从而可以提供更多关于对象的信息，帮助实现对象追踪。

根据本发明实施例，上述反馈式神经网络可以是双向卷积反馈式神经网络，其可以包括正向反馈式神经网络和反向反馈式神经网络。下面详细描述。

如上文所述，反馈式神经网络的神经元间连接构成有向图，通过将状态在自身网络中循环传递，反馈式神经网络可以接收更广泛的时间序列输入。在本发明中，该时间序列为一段视频中的每帧图像通过卷积神经网络提取的第一特征。对于一般的反馈式神经网络，具有以下的表达公式：

Y_t＝W*X_t+V*Y_{t-1}+b (1)

其中，w、v和b为反馈式神经网络的参数，X_t为视频中的第t帧图像的第一特征，Y_t为第t帧图像对应的输出结果，Y_{t-1}为视频中的第t-1帧图像对应的输出结果。

根据本发明实施例，可以采用卷积代替一般的反馈式神经网络中的乘法以获得正向反馈式神经网络的表达公式，如下所述：

Y_t = W_{1} &CircleTimes; X_t + V_{1} &CircleTimes; Y_{t - 1} + b_{1} - - - (2)

其中，W₁、V₁和b₁为所述正向反馈式神经网络的参数，X_t为视频中的第t帧图像的第一特征，Y_t为第t帧图像的正向特征，Y_{t-1}为视频中的第t-1帧图像的正向特征。

由于采用这种以卷积代替乘法的方式，在综合各帧图像中的信息的时候，可以仅响应一部分覆盖范围内的周围单元，从而可以使反馈式神经网络中的参数大大减小。在正向反馈式神经网络中，第t帧图像对应的输出结果Y_t是一个三维张量。示例性地，可以使用双向反馈式神经网络，以使视频中的每帧图像不仅能够综合在其之前的图像的信息，还能够综合在其之后的图像的信息。

所述反向反馈式神经网络用以下公式表示：

Z_t = W_{2} &CircleTimes; X_t + V_{2} &CircleTimes; Z_{t + 1} + b_{2} - - - (3)

其中，W₂、V₂和b₂为所述反向反馈式神经网络的参数，X_t为第t帧图像的第一特征，Z_t为第t帧图像的反向特征，Z_{t+1}为视频中的第t+1帧图像的反向特征。

然后，可以将正向反馈式神经网络的结果和反向反馈式神经网络的结果合并在一起，获得图像的第二特征。合并方式如下。

所述第t帧图像的第二特征H_t通过以下公式计算：

通过以上公式(2)和(3)可知正向特征和反向特征的总频道是相同的，其是一个常数。例如，如果正向特征或反向特征中的频道向量是一个512维的向量，则总频道数是512。

通过公式(4)可以看出，第t帧图像的第二特征H_t综合了第t帧图像的正向特征和反向特征，第二特征H_t分别包括正向特征的一部分和反向特征的一部分。由于第t帧图像的正向特征与第t-1帧图像相关，第t帧图像的反向特征与第t+1帧图像相关，因此利用公式(4)，第t帧图像的第二特征H_t可以与第t-1帧图像和第t帧图像相关，也就是说，其综合了第t-1帧图像和第t帧图像的图像信息。

应当注意，本文所述的反馈式神经网络并不局限于以上实现方式，其还可以包括其他形式的反馈式神经网络，包括但不限于长短期记忆网络(LSTM)、门限循环单元(GRU)和注意力模型(Attention-based Model)等。例如，如果将双向反馈式神经网络输出的H_t序列作为输入，再次输入到与该双向反馈式神经网络类似的反馈式神经网络中，就可以得到多层双向反馈式神经网络。也就是说，步骤S320中采用的反馈式神经网络既可以包括单层的双向反馈式神经网络，也可以包括多层的双向反馈式神经网络。

下面参考图5进一步描述利用反馈式神经网络等对视频中的图像进行处理的过程。图5示出根据本发明一个实施例的利用视频中的图像进行对象追踪的示意性流程图。在图5所示的实施例中，每帧图像分别经过了两个卷积神经网络(CNN)的处理，第二个卷积神经网络输出的是本文所述的第一特征。应当理解，用于处理不同图像的卷积神经网络是一样的。同样地，用于处理不同图像的反馈式神经网络(RNN)、分类器、回归器等都是一样的。

在经过两个卷积神经网络的处理之后，输出的第一特征经过了两个反馈式神经网络的处理，获得本文所述的第二特征。上面一层的反馈式神经网络是上文所述的正向反馈式神经网络，其中，针对每帧图像的RNN输出结果用作针对后一帧图像的RNN输入。下面一层的反馈式神经网络是上文所述的反向反馈式神经网络，其中，针对每帧图像的RNN输出结果用作针对前一帧图像的RNN输入。

反馈式神经网络下方的分类器指的是上文所述的第二分类器。实际上，在反馈式神经网络与下方的分类器或回归器之间还存在初始区域的提取以及选定区域的获得过程，图5中并未示出。也就是说，反馈式神经网络输出的第二特征并未直接输入到下方的分类器或回归器中，而是经过一些中间过程之后获得选定区域，并将选定区域的特征输入下方的分类器或回归器中。

根据本发明实施例，对象追踪方法200可以进一步包括：利用多个样本图像对卷积神经网络、反馈式神经网络、第一分类器和回归器进行训练，其中，多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。

可以通过大量的样本数据，对上述卷积神经网络、反馈式神经网络、第一分类器和回归器进行训练。当然，在采用第二分类器判断对象是否是目标对象的实施例中，可以进一步利用样本数据对第二分类器进行训练。

利用卷积神经网络、反馈式神经网络、第一分类器和回归器处理样本图像的过程与参考图3和4所描述的视频中的图像的处理步骤类似，本领域技术人员根据以上描述可以理解卷积神经网络、反馈式神经网络、第一分类器和回归器的训练过程，不再赘述。

在经过训练之后，可以得到卷积神经网络、反馈式神经网络、第一分类器和回归器的各种参数。当在实际应用中进行对象追踪时，这些参数是已知的，可以直接将训练好的网络模型用于图像的处理。

根据本发明实施例，上述步骤S230可以包括：如果视频中的特定图像中包含的特定对象的检测位置信息与视频中的一个或多个参照图像中包含的一个或多个参照对象在特定图像中的预测位置信息之间的关系满足第一预设条件，则将特定对象和一个或多个参照对象关联在一起，其中，参照图像与特定图像相对应。

特定图像是视频中的某一帧图像，其与一个或多个参照图像相对应。例如，假设针对视频中的每帧图像，可以预测出对象在该图像之前的两帧先前图像和在该图像之后的两帧随后图像中的位置信息，则对于第t帧图像来说，其对应的参照图像是第t-2帧、第t-1帧、第t+1帧和第t+2帧这四个图像，而对于第t+1帧图像来说，其对应的参照图像是第t-1帧、第t帧、第t+2帧和第t+3帧这四个图像，以此类推。

第一预设条件可以根据需要而设定，本发明不对此进行限制。例如，如果第t帧图像中包含的对象A在第t帧图像中的实际检测坐标、第t-2帧图像中包含的对象B在第t帧图像中的预测坐标、第t-1帧图像中包含的对象C在第t帧图像中的预测坐标、第t+1帧图像中包含的对象D在第t帧图像中的预测坐标以及第t-2帧图像中包含的对象E在第t帧图像中的预测坐标都比较相近，这些坐标都落入一个比较小的图像区域内，则可以认为对象A、B、C、D和E是相同对象，并且可以将它们关联在一起。

当然，以上根据坐标之间的距离判断对象是否是相同对象的方式仅是示例而非限制，还可以采用其他方式基于对象的位置信息判断对象是否是相同对象。例如，可以测定一些特征函数，将对象的检测坐标和预测坐标代入特征函数来确定对象是否是相同对象。此外，在获知对象在连续多帧图像中的位置的情况下，可以计算对象的运动速度，并且在判断坐标之间的距离是否满足预设条件时考虑对象的运动速度。

根据本发明实施例，上述步骤S230可以包括：如果视频中的一个或多个参照图像中包含的一个或多个参照对象在视频中的特定图像中的预测位置信息满足第二预设条件，并且在特定图像中，在根据一个或多个参照对象在特定图像中的预测位置信息所确定的预测位置处未检测到与一个或多个参照对象相对应的期望对象，则基于一个或多个参照对象在特定图像中的预测位置信息确定与特定图像相关的预测对象，并且将一个或多个参照对象与预测对象关联在一起，其中，参照图像与特定图像相对应。

第二预设条件可以根据需要而设定，本发明不对此进行限制。

在某些图像中，对象可能会被其他对象或某些不属于追踪对象的物体遮挡，导致从这些图像中无法检测到该对象。在这种情况下，可以利用在被遮挡的图像之前或之后的图像的信息来预测对象原本应当在被遮挡的图像中出现的位置。例如，假设行人甲在第t帧图像中被建筑物遮挡，但是在第t-1帧、第t+1帧和第t+2帧图像中出现，行人甲在这三帧图像中分别被识别为对象O、对象P、对象Q。通过计算，发现对象O在第t帧图像中的预测坐标、对象P在第t帧图像中的预测坐标和对象Q在第t帧图像中的预测坐标都比较相近，这些坐标都落入一个比较小的图像区域内，因此可以假定对象O、P和Q是相同对象。通过对象O、P和Q在第t帧图像中的预测坐标可以确定一个大致的范围，即本文所述的预测位置，视为行人甲原本应当出现的位置。然而，由于行人甲在第t帧图像中被建筑物遮挡，导致预测位置处未检测到任何对象。在这种情况下，可以假设在预测位置处存在一个预测对象，例如对象M。然后，可以将对象O、P、Q和M关联在一起。这样，可以根据第t-1帧、第t+1帧和第t+2帧图像的信息推测出行人甲在第t帧图像中的位置。

上面描述的示例中行人甲是被建筑物遮挡，因此在第t帧图像的预测位置处未检测到任何对象。在另外的示例中，行人甲可能被其他对象(例如行人乙)遮挡。这样，在预测位置处可以检测到对象，然而检测到的对象并非与对象O、P和Q相对应的期望对象行人甲。在这种情况下，仍然可以利用对象O、P和Q在第t帧图像中的预测位置信息来预测行人甲在第t帧图像中的位置。当然，确定第t帧图像的预测位置处的对象是否为期望对象的方式可以根据需要设定，例如可以基于对象的轮廓等来判断。

对于对象被漏检的情况，同样可以采用本实施例的方式处理。也就是说，基于在当前图像之前和/或之后的图像的信息可以预测被漏检的对象在当前图像中的位置。因此，通过以上方式可以有效处理对象被遮挡或被漏检的问题，从而可以提高对象追踪精度。

根据本发明实施例，上述步骤S230可以包括：如果视频中的特定图像中包含的特定对象的检测位置信息与视频中的所有参照图像中包含的所有参照对象在特定图像中的预测位置信息之间的关系满足第三预设条件，则确定特定对象是不可信对象，其中，参照图像与特定图像相对应。

第三预设条件可以根据需要而设定，本发明不对此进行限制。

例如，如果从第t帧图像中检测出对象K，然而根据在第t帧图像之前和/或之后的若干帧参照图像的信息，发现这些参照图像中包含的参照对象在第t帧图像中的预测坐标均与对象K的坐标不相符，相距较远，也就是说，对象K所在的位置处原本不应当出现对象。在这种情况下，可以认为对象K是不可信对象。通过这种方式，可以减少由于误检而导致的对象追踪误差。

总的来说，在本发明实施例中，使用基于反馈式神经网络的对象追踪方法，结合多帧图像的信息，可以在检测对象的同时给出追踪信息，从而能够同时减少检测和追踪所带来的误差。

根据本发明另一方面，提供一种对象追踪装置。图6示出了根据本发明一个实施例的对象追踪装置600的示意性框图。

如图6所示，根据本发明实施例的对象追踪装置600包括视频获取模块610、检测预测模块620和追踪模块630。

视频获取模块610用于获取视频。视频获取模块610可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

检测预测模块620用于针对视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息。检测预测模块620可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

追踪模块630用于根据视频中包含的对象的检测位置信息和预测位置信息追踪对象。追踪模块630可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例，检测预测模块620可以包括第一特征获得子模块、第二特征获得子模块和检测预测子模块。

第一特征获得子模块用于将所述至少部分帧的图像中的每帧图像输入卷积神经网络，以获得所述至少部分帧的图像中的每帧图像的第一特征。第二特征获得子模块用于将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络，以获得所述至少部分帧的图像中的每帧图像的第二特征，其中，当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关，并且其中所述第二特征包括横向坐标向量、纵向坐标向量和频道向量。检测预测子模块用于基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息。

根据本发明实施例，检测预测子模块可以包括初始区域提取单元、可能性确定单元、选定区域获得单元和位置信息获得单元。初始区域提取单元用于针对所述至少部分帧的图像中的任一图像，对于每个由该图像的第二特征中的横向坐标和纵向坐标所代表的图像点，提取与该图像点相关的一个或多个初始区域。可能性确定单元用于针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性。选定区域获得单元用于针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域，其中，所述一个或多个选定区域中的每一个的特征由该图像的第二特征中的与该选定区域相对应的元素而定。位置信息获得单元用于针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入回归器，以获得该选定区域中包含的对象在该图像中的检测位置信息、在该图像之前的特定数目的先前图像中的预测位置信息、以及在该图像之后的特定数目的随后图像中的预测位置信息。

根据本发明实施例，所述对象追踪装置600可以进一步包括目标对象确定模块(未示出)，用于针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入第二分类器，以确定该选定区域中包含的对象是否是目标对象。

根据本发明实施例，所述可能性确定单元可以包括输入子单元，用于针对所述至少部分帧的图像中的任一图像，将所述针对该图像提取的所有初始区域中的每一个的特征中的频道向量输入所述第一分类器，以确定该初始区域中包含对象的可能性，其中，所述针对该图像提取的所有初始区域中的每一个的特征由该图像的第二特征中的与该初始区域相对应的元素而定。

根据本发明实施例，所述选定区域获得单元可以包括区域获得子单元，用于针对所述至少部分帧的图像中的任一图像，当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为一个时，将该选择的初始区域确定为选定区域；当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为多个时，针对该图像合并所述可能性最高的多个初始区域中的重叠部分超过预定标准的两个或多于两个初始区域，以获得所述一个或多个选定区域。

根据本发明实施例，所述反馈式神经网络可以包括正向反馈式神经网络和反向反馈式神经网络，

所述正向反馈式神经网络用以下公式表示：

Y_t = W_{1} &CircleTimes; X_t + V_{1} &CircleTimes; Y_{t - 1} + b_{1},

所述反向反馈式神经网络用以下公式表示：

Z_t = W_{2} &CircleTimes; X_t + V_{2} &CircleTimes; Z_{t + 1} + b_{2},

所述第t帧图像的第二特征H_t通过以下公式计算：

根据本发明实施例，所述对象追踪装置600可以进一步包括训练模块(未示出)，用于利用多个样本图像对所述卷积神经网络、所述反馈式神经网络、所述第一分类器和所述回归器进行训练，其中，所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。

根据本发明实施例，所述追踪模块630可以包括第一关联子模块，用于如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的预测位置信息之间的关系满足第一预设条件，则将所述特定对象和所述一个或多个参照对象关联在一起，其中，所述参照图像与所述特定图像相对应。

根据本发明实施例，所述追踪模块630可以包括第二关联子模块，用于如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的预测位置信息满足第二预设条件，并且在所述特定图像中，在根据所述一个或多个参照对象在所述特定图像中的预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象，则基于所述一个或多个参照对象在所述特定图像中的预测位置信息确定与所述特定图像相关的预测对象，并且将所述一个或多个参照对象与所述预测对象关联在一起，其中，所述参照图像与所述特定图像相对应。

根据本发明实施例，所述追踪模块630可以包括不可信确定子模块，用于如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的预测位置信息之间的关系满足第三预设条件，则确定所述特定对象是不可信对象，其中，所述参照图像与所述特定图像相对应。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图7示出了根据本发明一个实施例的对象追踪系统700的示意性框图。对象追踪系统700包括视频采集装置710、存储装置720、以及处理器730。

视频采集装置710用于采集包含对象的视频。视频采集装置710是可选的，对象追踪系统700可以不包括视频采集装置710。

所述存储装置720存储用于实现根据本发明实施例的对象追踪方法中的相应步骤的程序代码。

所述处理器730用于运行所述存储装置720中存储的程序代码，以执行根据本发明实施例的对象追踪方法的相应步骤，并且用于实现根据本发明实施例的对象追踪装置中的视频获取模块610、检测预测模块620和追踪模块630。

在一个实施例中，所述程序代码被所述处理器730运行时使所述对象追踪系统700执行以下步骤：获取视频；针对所述视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息；以及根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象。

在一个实施例中，所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的针对所述视频的至少部分帧的图像中的每帧图像利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息的步骤包括：将所述至少部分帧的图像中的每帧图像输入卷积神经网络，以获得所述至少部分帧的图像中的每帧图像的第一特征；将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络，以获得所述至少部分帧的图像中的每帧图像的第二特征，其中，当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关，并且其中所述第二特征包括横向坐标向量、纵向坐标向量和频道向量；以及基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息。

在一个实施例中，所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息的步骤包括：针对所述至少部分帧的图像中的任一图像，对于每个由该图像的第二特征中的横向坐标和纵向坐标所代表的图像点，提取与该图像点相关的一个或多个初始区域；针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性；针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域，其中，所述一个或多个选定区域中的每一个的特征由该图像的第二特征中的与该选定区域相对应的元素而定；以及针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入回归器，以获得该选定区域中包含的对象在该图像中的检测位置信息、在该图像之前的特定数目的先前图像中的预测位置信息、以及在该图像之后的特定数目的随后图像中的预测位置信息。

在一个实施例中，在所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域的步骤之后，所述程序代码被所述处理器730运行时使所述对象追踪系统700进一步执行：针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入第二分类器，以确定该选定区域中包含的对象是否是目标对象。

在一个实施例中，所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性的步骤包括：针对所述至少部分帧的图像中的任一图像，将所述针对该图像提取的所有初始区域中的每一个的特征中的频道向量输入所述第一分类器，以确定该初始区域中包含对象的可能性，其中，所述针对该图像提取的所有初始区域中的每一个的特征由该图像的第二特征中的与该初始区域相对应的元素而定。

在一个实施例中，所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域的步骤包括：针对所述至少部分帧的图像中的任一图像，当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为一个时，将该选择的初始区域确定为选定区域；当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为多个时，针对该图像合并所述可能性最高的多个初始区域中的重叠部分超过预定标准的两个或多于两个初始区域，以获得所述一个或多个选定区域。

在一个实施例中，所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络，

所述正向反馈式神经网络用以下公式表示：

Y_t = W_{1} &CircleTimes; X_t + V_{1} &CircleTimes; Y_{t - 1} + b_{1},

所述反向反馈式神经网络用以下公式表示：

Z_t = W_{2} &CircleTimes; X_t + V_{2} &CircleTimes; Z_{t + 1} + b_{2},

所述第t帧图像的第二特征H_t通过以下公式计算：

在一个实施例中，所述程序代码被所述处理器730运行时使所述对象追踪系统700进一步执行：利用多个样本图像对所述卷积神经网络、所述反馈式神经网络、所述第一分类器和所述回归器进行训练，其中，所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。

在一个实施例中，所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象的步骤包括：如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的预测位置信息之间的关系满足第一预设条件，则将所述特定对象和所述一个或多个参照对象关联在一起，其中，所述参照图像与所述特定图像相对应。

在一个实施例中，所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象的步骤包括：如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的预测位置信息满足第二预设条件，并且在所述特定图像中，在根据所述一个或多个参照对象在所述特定图像中的预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象，则基于所述一个或多个参照对象在所述特定图像中的预测位置信息确定与所述特定图像相关的预测对象，并且将所述一个或多个参照对象与所述预测对象关联在一起，其中，所述参照图像与所述特定图像相对应。

在一个实施例中，所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象的步骤包括：如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的预测位置信息之间的关系满足第三预设条件，则确定所述特定对象是不可信对象，其中，所述参照图像与所述特定图像相对应。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的对象追踪方法的相应步骤，并且用于实现根据本发明实施例的对象追踪装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的对象追踪装置的各个功能模块，并且/或者可以执行根据本发明实施例的对象追踪方法。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤：获取视频；针对所述视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息；以及根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的针对所述视频的至少部分帧的图像中的每帧图像利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息的步骤包括：将所述至少部分帧的图像中的每帧图像输入卷积神经网络，以获得所述至少部分帧的图像中的每帧图像的第一特征；将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络，以获得所述至少部分帧的图像中的每帧图像的第二特征，其中，当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关，并且其中所述第二特征包括横向坐标向量、纵向坐标向量和频道向量；以及基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息的步骤包括：针对所述至少部分帧的图像中的任一图像，对于每个由该图像的第二特征中的横向坐标和纵向坐标所代表的图像点，提取与该图像点相关的一个或多个初始区域；针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性；针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域，其中，所述一个或多个选定区域中的每一个的特征由该图像的第二特征中的与该选定区域相对应的元素而定；以及针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入回归器，以获得该选定区域中包含的对象在该图像中的检测位置信息、在该图像之前的特定数目的先前图像中的预测位置信息、以及在该图像之后的特定数目的随后图像中的预测位置信息。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域的步骤之后，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入第二分类器，以确定该选定区域中包含的对象是否是目标对象。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性的步骤包括：针对所述至少部分帧的图像中的任一图像，将所述针对该图像提取的所有初始区域中的每一个的特征中的频道向量输入所述第一分类器，以确定该初始区域中包含对象的可能性，其中，所述针对该图像提取的所有初始区域中的每一个的特征由该图像的第二特征中的与该初始区域相对应的元素而定。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域的步骤包括：针对所述至少部分帧的图像中的任一图像，当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为一个时，将该选择的初始区域确定为选定区域；当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为多个时，针对该图像合并所述可能性最高的多个初始区域中的重叠部分超过预定标准的两个或多于两个初始区域，以获得所述一个或多个选定区域。

所述正向反馈式神经网络用以下公式表示：

Y_t = W_{1} &CircleTimes; X_t + V_{1} &CircleTimes; Y_{t - 1} + b_{1},

所述反向反馈式神经网络用以下公式表示：

Z_t = W_{2} &CircleTimes; X_t + V_{2} &CircleTimes; Z_{t + 1} + b_{2},

所述第t帧图像的第二特征H_t通过以下公式计算：

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：利用多个样本图像对所述卷积神经网络、所述反馈式神经网络、所述第一分类器和所述回归器进行训练，其中，所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象的步骤包括：如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的预测位置信息之间的关系满足第一预设条件，则将所述特定对象和所述一个或多个参照对象关联在一起，其中，所述参照图像与所述特定图像相对应。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象的步骤包括：如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的预测位置信息满足第二预设条件，并且在所述特定图像中，在根据所述一个或多个参照对象在所述特定图像中的预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象，则基于所述一个或多个参照对象在所述特定图像中的预测位置信息确定与所述特定图像相关的预测对象，并且将所述一个或多个参照对象与所述预测对象关联在一起，其中，所述参照图像与所述特定图像相对应。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象的步骤包括：如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的预测位置信息之间的关系满足第三预设条件，则确定所述特定对象是不可信对象，其中，所述参照图像与所述特定图像相对应。

根据本发明实施例的对象追踪系统中的各模块可以通过根据本发明实施例的实施对象追踪的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的对象追踪方法及装置，通过基于当前图像预测对象在其他图像中的位置信息及位置信息的比较来实现对象追踪，这种对象追踪方式非常简单，计算量小，并且可以降低对象追踪误差。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的对象追踪装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种对象追踪方法，包括：

获取视频；

2.如权利要求1所述的对象追踪方法，其中，所述针对所述视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息包括：

3.根据权利要求2所述的对象追踪方法，其中，所述基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息包括：

针对所述至少部分帧的图像中的任一图像，

4.如权利要求3所述的对象追踪方法，其中，在所述针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域之后，所述对象追踪方法进一步包括：

5.如权利要求3所述的对象追踪方法，其中，所述针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性包括：

6.如权利要求3所述的对象追踪方法，其中，所述针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域包括：

针对所述至少部分帧的图像中的任一图像，

7.如权利要求2所述的对象追踪方法，其中，所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络，

所述正向反馈式神经网络用以下公式表示：

Y_t = W_{1} &CircleTimes; X_t + V_{1} &CircleTimes; Y_{t - 1} + b_{1},

所述反向反馈式神经网络用以下公式表示：

Z_t = W_{2} &CircleTimes; X_t + V_{2} &CircleTimes; Z_{t + 1} + b_{2},

所述第t帧图像的第二特征H_t通过以下公式计算：

8.如权利要求3所述的对象追踪方法，其中，所述对象追踪方法进一步包括：

9.如权利要求1所述的对象追踪方法，其中，所述根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象包括：

其中，所述参照图像与所述特定图像相对应。

10.如权利要求1所述的对象追踪方法，其中，所述根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象包括：

其中，所述参照图像与所述特定图像相对应。

11.如权利要求1所述的对象追踪方法，其中，所述根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象包括：

如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的预测位置信息之间的关系满足第三预设条件，则确定所述特定对象是不可信对象，

其中，所述参照图像与所述特定图像相对应。

12.一种对象追踪装置，包括：

视频获取模块，用于获取视频；

13.如权利要求12所述的对象追踪装置，其中，所述检测预测模块包括：

14.如权利要求13所述的对象追踪装置，其中，所述检测预测子模块包括：

15.如权利要求14所述的对象追踪装置，其中，所述对象追踪装置进一步包括目标对象确定模块，用于针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入第二分类器，以确定该选定区域中包含的对象是否是目标对象。

16.如权利要求14所述的对象追踪装置，其中，所述可能性确定单元包括输入子单元，用于针对所述至少部分帧的图像中的任一图像，将所述针对该图像提取的所有初始区域中的每一个的特征中的频道向量输入所述第一分类器，以确定该初始区域中包含对象的可能性，

17.如权利要求14所述的对象追踪装置，其中，所述选定区域获得单元包括区域获得子单元，用于针对所述至少部分帧的图像中的任一图像，当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为一个时，将该选择的初始区域确定为选定区域；当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为多个时，针对该图像合并所述可能性最高的多个初始区域中的重叠部分超过预定标准的两个或多于两个初始区域，以获得所述一个或多个选定区域。

18.如权利要求13所述的对象追踪装置，其中，所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络，

所述正向反馈式神经网络用以下公式表示：

Y_t = W_{1} &CircleTimes; X_t + V_{1} &CircleTimes; Y_{t - 1} + b_{1},

所述反向反馈式神经网络用以下公式表示：

Z_t = W_{2} &CircleTimes; X_t + V_{2} &CircleTimes; Z_{t + 1} + b_{2},

所述第t帧图像的第二特征H_t通过以下公式计算：

19.如权利要求14所述的对象追踪装置，其中，所述对象追踪装置进一步包括训练模块，用于利用多个样本图像对所述卷积神经网络、所述反馈式神经网络、所述第一分类器和所述回归器进行训练，其中，所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。

20.如权利要求12所述的对象追踪装置，其中，所述追踪模块包括第一关联子模块，用于如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的预测位置信息之间的关系满足第一预设条件，则将所述特定对象和所述一个或多个参照对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

21.如权利要求12所述的对象追踪装置，其中，所述追踪模块包括第二关联子模块，用于如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的预测位置信息满足第二预设条件，并且在所述特定图像中，在根据所述一个或多个参照对象在所述特定图像中的预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象，则基于所述一个或多个参照对象在所述特定图像中的预测位置信息确定与所述特定图像相关的预测对象，并且将所述一个或多个参照对象与所述预测对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

22.如权利要求12所述的对象追踪装置，其中，所述追踪模块包括不可信确定子模块，用于如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的预测位置信息之间的关系满足第三预设条件，则确定所述特定对象是不可信对象，

其中，所述参照图像与所述特定图像相对应。