CN109074473B

CN109074473B - 用于对象跟踪的方法和系统

Info

Publication number: CN109074473B
Application number: CN201680084445.XA
Authority: CN
Inventors: 王晓刚; 邵婧; 吕健勤; 康恺
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2020-04-24
Anticipated expiration: 2036-04-11
Also published as: CN109074473A; US10825187B2; WO2017177367A1; US20190043205A1

Abstract

本公开涉及一种用于跟踪视频中的目标对象的方法和系统。所述方法包括：从所述视频提取含有所述目标对象的3维(3D)特征块；将所提取的3D特征块分解成含有所述目标对象的空间信息的2维(2D)空间特征图和含有所述目标对象的空间‑时间信息的2D空间‑时间特征图；在所述2D空间特征图中估计所述目标对象的位置；在所述2D空间‑时间特征图中确定所述目标对象的速度和加速度；根据所确定的速度和加速度校准所述目标对象的估计位置；以及根据校准后的位置跟踪所述视频中的所述目标对象。

Description

用于对象跟踪的方法和系统

技术领域

本公开涉及一种用于跟踪视频中的目标对象的方法和系统。

背景技术

跟踪视频中的目标对象是一项至关重要的任务。一般来说，应首先从视频的每一帧识别目标对象(例如，一群目标对象或个别目标对象)。接着，执行跟踪以分别采集对象的移动。因此，目标对象的位置与其动态特征(例如，速度和加速度)是在不同的任务中进行检测，这限制了对象跟踪的准确度。

开发了大量基于学习的方法用于对象跟踪。作为一种成功应用于对象跟踪的深度学习模型，卷积神经网络(CNN)已展现出在速度和准确度方面的优良表现。期望开发CNN来增强对象跟踪的准确度。

发明内容

下文呈现对本公开的简化概述，以便提供对本公开的一些方面的基本理解。此概述并非本公开的详尽综述。此概述既不标识本公开的重要或关键要素，也不划定本公开的特定实施方式的任何范围或权利要求书的任何范围。其唯一目的是以简化形式呈现本公开的一些概念，以作为稍后呈现的更详细描述的序言。

为了至少部分地解决以上问题中的一个问题，提供一种用于跟踪视频中的目标对象的方法和系统。所述方法包括：从所述视频提取含有所述目标对象的3维(3D)特征块；将所提取的3D特征块分解成含有所述目标对象的空间信息的2维(2D)空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图；在所述2D空间特征图中估计所述目标对象的位置；在所述2D空间-时间特征图中确定所述目标对象的速度和加速度；根据所确定的速度和加速度校准所述目标对象的估计位置；以及根据校准后的位置跟踪所述视频中的所述目标对象。

在本申请的一个实施方式中，所述2D空间特征图可在第一空间方向和与所述第一空间方向相交的第二空间方向上延伸。

在本申请的一个实施方式中，所述2D空间-时间特征图可包括：第一2D空间-时间特征图，其在所述第一空间方向和时间方向上延伸且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量；以及第二2D空间-时间特征图，其在所述第二空间方向和所述时间方向上延伸且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。

在本申请的一个实施方式中，所述方法可包括提供包括特征提取层的CNN，其中，所述提取可包括：在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图；评估所述第一特征图与含有所述目标对象的关注特征(FOI)的预设图像之间的重叠度和类似度；以及根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图，其中，所述第二特征图仅含有所述目标对象的所述FOI；以及将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3D特征块。在替代实施例中，所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。

在本申请的一个实施方式中，所述CNN还可包括联接到所述特征提取层的交换层，以及其中，所述分解可包括：从所述特征提取层接收所述3D特征块；禁用所接收特征块在所述时间方向上的数据以获得所述2D空间特征图；以及禁用所述所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2D空间-时间特征图。

在本申请的一个实施方式中，所述CNN还可包括联接到所述交换层的2D空间特征提取层，以及其中，所述估计可包括：从所述交换层接收所述2D空间特征图；增强所述FOI在所述2D空间特征图中的差异；根据增强后的FOI识别所述目标对象；以及估计所识别目标对象的所述位置。

在本申请的一个实施方式中，所述CNN还可包括联接到所述交换层且平行于所述2D空间特征提取层的2D空间-时间特征提取层，以及其中，所述确定可包括：从所述交换层接收所述2D空间-时间特征图；增强所述FOI在所述2D空间-时间特征图中的差异；根据增强后的FOI识别所述目标对象；以及在所述时间方向上对所识别目标对象执行求导操作，以确定所述目标对象的所述速度和所述加速度。

在本申请的一个实施方式中，所述方法可包括：独立地训练所述特征提取层；以及基于训练后的特征提取层单独地训练所述2D空间特征提取层和所述2D空间-时间特征提取层。

在另一方面中提供一种用于跟踪视频中的目标对象的系统。所述系统可包括：存储器，其存储可执行组件；以及处理器，其电联接到所述存储器以执行所述可执行组件。所述可执行组件用于：从所述视频提取含有所述目标对象的3D特征块；将所提取的3D特征块分解成含有所述目标对象的空间信息的2D空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图；在所述2D空间特征图中估计所述目标对象的位置；在所述2D空间-时间特征图中确定所述目标对象的速度和加速度；根据所确定的速度和加速度校准所述目标对象的估计位置；以及根据校准后的位置跟踪所述视频中的所述目标对象。

在又一方面中提供一种用于跟踪视频中的目标对象的系统。所述系统可包括：特征提取器，其用于从所述视频提取含有所述目标对象的3D特征块；分解器，其用于将所提取的3D特征块分解成含有所述目标对象的空间信息的2D空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图；定位器，其用于在所述2D空间特征图中估计所述目标对象的位置；运动检测器，其用于在所述2D空间-时间特征图中确定所述目标对象的速度和加速度；校准器，其用于根据所确定的速度和加速度校准所述目标对象的估计位置；以及跟踪器，其用于根据校准后的位置跟踪所述视频中的所述目标对象。

在再一方面中提供一种计算机可读存储介质。所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令。所述操作包括：从所述视频提取含有所述目标对象的3维特征块；将所提取的3维特征块分解成含有所述目标对象的空间信息的2维空间特征图和含有所述目标对象的空间-时间信息的2维空间-时间特征图；在所述2维空间特征图中估计所述目标对象的位置；在所述2维空间-时间特征图中确定所述目标对象的速度和加速度；根据所确定的速度和加速度校准所述目标对象的估计位置；以及根据校准后的位置跟踪所述视频中的所述目标对象。

附图说明

在下文参照附图描述本申请的示例性非限制性实施方式。附图是说明性的，且一般未按确切比例绘制。不同图上的相同或相似元件用相同附图标号标记。

图1示出根据本申请的一个实施方式的用于跟踪视频中的目标对象的示例性系统；

图2是示出根据本申请的一个实施方式的用于跟踪视频中的目标对象的过程的流程图；以及

图3示出根据本申请的一个实施方式的用于提供视频的属性信息的示例性系统。

具体实施方式

现将详细参考发明人为实施本申请而提出的本申请的一些特定实施方式。附图中示出这些特定实施方式的示例。尽管结合这些特定实施方式描述了本申请，但本领域技术人员应了解，这并不意欲将本申请限于所描述的实施方式。在以下描述中，阐述众多具体细节以便提供对本申请的透彻理解。本申请可以在没有这些具体细节中的一些细节或全部细节的情况下实践。在其它情况下，并未详细描述众所周知的过程操作，以免不必要地混淆本申请。

本文中使用的术语仅用于描述具体实施方式的目的，而并不意欲限制本申请。如本文所使用，除非上下文另外清楚地指示，否则单数形式“一”和“所述”旨在还包含复数形式。还应理解，术语“包括(comprise/comprising)”在本说明书中使用时指代所陈述的特征、整体、步骤、操作、元件和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。

图1中示出用于跟踪对象的示例性系统1000。在下文中，将出于说明的目的而在CNN的框架下描述用于对象跟踪的系统和过程。含有目标对象的视频1100输入到特征提取层1200。特征提取层1200可在各种CNN模型中实施，例如AlexNet、Clarifai、Overfeat、GoogleNet和视觉几何群组(VGG)。如本领域技术人员应该理解的那样，特征提取层1200可在多个层中实施。相应地，较低层中的特征采集低级信息，而较高层中的特征可表示更抽象的概念。多个过滤操作可应用于视频1100以提取3D特征块1210。3D特征块1210可例如但不限于在水平方向(表示为X)、竖直方向(表示为Y)和时间方向(表示为T)上延伸。

应该承认，在单个卷积操作中处理3D特征块的成本将很高。因此，3D特征块1210可在交换层1300中分解成一个或多个(例如，三个)2D片层。3D特征块1210的XY片层(即，2D空间特征图1320)可表示传统上经由上述过滤操作从视频1100的帧提取的特征图。因此，3D特征块1210的XY片层含有目标对象的空间信息。因此，XT片层(即，第一2D空间-时间特征图1340)和YT片层(即，第二2D空间-时间特征图1360)含有目标对象的空间-时间信息，因为这两者同时在空间方向和时间方向上延伸。可通过启用在三个方向中的两个方向上的数据且禁用在其余方向上的数据而实施分解操作。

如上文已论述的那样，2D空间特征图1320可被看作是从视频1100的帧提取的特征图。2D空间特征图1320可包括各种对象和背景的各种类型的语义意义表示。在替代实施例中，可进一步过滤2D空间特征图1320以增强其表示能力(差异)。在差异增强的情况下，可从其它对象和背景中识别包含于视频的每一帧中的目标对象。因此，可基于所识别对象估计第一组位置1420。

2D空间-时间特征图1340和1360表示视频沿着空间方向的轮廓。2D空间-时间特征图1340和1360也可包括各种对象和背景的各种类型的语义意义表示。在替代实施例中，还可进一步过滤2D空间-时间特征图1340和1360以增强其表示能力(差异)。在差异增强的情况下，可从其它对象和背景中识别含于视频的每一帧中的目标对象。虽然2D空间-时间特征图1340和1360具有的空间表示少于2D空间特征图1320的空间表示，但2D空间-时间特征图1340和1360具有关于时间的额外信息。因此，可通过例如但不限于求导操作从2D空间-时间特征图1340和1360导出动态信息(例如，速度与加速度1440和1460)。

在对象跟踪领域，获得所识别目标的动态信息是至关重要的。例如，可利用动态信息来预测目标对象在视频的后续帧中的运动。在应用中，可从XT片层(即，第一2D空间-时间特征图1340)导出在X方向上的速度和加速度(分别表示为V_X和A_X)，且可从YT片层(即，第一2D空间-时间特征图1340)导出在Y方向上的速度和加速度(分别表示为V_Y和A_Y)。可利用动态信息V_X、A_X、V_Y和A_Y中的至少一个来校准先前在2D空间特征图中估计的第一组位置1420。利用校准后的位置1500，有可能以更高准确度跟踪对象。

图2示出上述用于跟踪视频中的目标对象的过程2000。在步骤S2010，从输入视频提取3D特征块。在步骤S2020，可将所提取的3D特征块分解成2D空间特征图和2D空间-时间特征图。在替代实施例中，2D空间特征图在第一空间方向和与所述第一空间方向相交的第二空间方向上延伸。在此情况下，2D空间-时间特征图可包括在第一空间方向和时间方向上延伸的第一2D空间-时间特征图以及在第二空间方向和时间方向上延伸的第二2D空间-时间特征图。在步骤S2030，可估计所识别对象在2D空间特征图中的位置。在步骤S2040，可确定在2D空间-时间特征图中的速度和加速度。在步骤S2050，可利用所确定的速度和加速度校准先前估计的位置。在步骤S2060，可使用校准后的位置来执行视频中的对象跟踪任务。

如上文已描述的那样，将多个过滤操作应用于视频以提取3D特征块，其中，3D特征块中的每一个3D特征块表示视频中的特定特征，例如人头部、树叶、人群场景等。在实际应用中，并非全部3D特征块都对识别目标对象至关重要。例如，在目标对象为年轻女子的情况下，可在后续操作中忽略表示不相关特征(例如，房顶拐角、水波)的3D特征块以减轻计算负荷。相反，可保留表示称为关注特征(FOI)的相关特征(例如，头发、鞋子)的3D特征块。此过程称为裁剪操作。裁剪操作的关键点在于如何评定候选特征与FOI之间的相关性。在替代实施方式中，首先，将帧转发到特征提取层以利用第一组过滤器进行卷积，从而得出第一组特征图。接着，通过察看第一组特征图在含有目标对象的FOI的二元掩模上的空间分布来评定相关性，其中，如本领域技术人员将理解的那样，二元掩模是根据一组预设验证图像来准备的。

在所述评定中，采用两个基准标记，其称为亲和性得分(affinity score)和突出得分(conspicuous score)。亲和性得分测量第一组特征图与二元掩模之间的重叠度。对于第一组特征图

中的第i个二元掩模S_i和第n个特征图，亲和性得分

由以下规则表达：

其中，1_[·]为在其输入为真时返回1的指示函数，且·表示逐元素乘法运算。突出得分测量第一组特征图与二元掩模之间的类似度。对于第一组特征图

中的第i个二元掩模S_i和第n个特征图，突出得分

由以下规则表达：

接着，相对于第n个特征图建构直方图H，以评定第n个特征图与含于二元掩模中的FOI之间的相关性。根据以下逻辑对二元掩模下标i∈[1,m]中的每一个上的直方图H进行求和：

方程式(3)表达，如果亲和性得分

大于预定阈值τ_α或突出得分

大于预定阈值τ_k，则将直方图H加上1。直方图Hn将在每个二元掩模上的求和运算之后返回特定值。以相同方式计算且以降序排序针对第一组特征图中的每一特征图(即，针对第一组过滤器中的每一过滤器)的直方图Hn。可手动地设定FOI的数目。如果FOI的数目被设定为10，则从第一组特征图中选择具有最大的10个Hn的特征图，以构成第二组特征图。在此情况下，通过将视频的每一帧上的所选第二组特征图组合在一起来建构10个3D特征块。

图3示出根据本申请的另一实施方式的用于提供视频的属性信息的示例性系统3000。可将含有目标对象的视频3100输入到特征提取层3200中。包括目标对象的FOI的3D特征块3210可从特征提取层3200提取，且在交换层3300中经历分解操作以分解成2D空间特征图3320、第一2D空间-时间特征图3340和第二2D空间-时间特征图3360。2D空间特征图3320可含有目标对象的空间信息，例如目标对象在视频的帧中的位置。第一2D空间-时间特征图3340和第二2D空间-时间特征图3360可含有目标对象的空间-时间信息，例如目标对象的速度和加速度。2D空间特征图3320、第一2D空间-时间特征图3340和第二2D空间-时间特征图3360可分别转发到2D空间特征分支3420、第一2D空间-时间特征分支3440和第二2D空间-时间特征分支3460，以进一步增强其语义表示(差异)。语义表示被增强的2D特征图可在串接层3500中组合以建构具有目标对象的空间和时间信息的3D特征图。例如SVM的分类器3600可应用于所建构的3D特征图以提供目标对象的属性信息(位置、速度、加速度等)。

在替代实施例中，可预先训练特征提取层3200以给出经过良好学习的3D特征块。接着，可基于经过良好学习的3D特征块单独地训练2D空间特征分支3420、第一2D空间-时间特征分支3440与第二2D空间-时间特征分支3460。接着，可基于经过良好学习的特征提取层3200、2D空间特征分支3420、第一2D空间-时间特征分支3440和第二2D空间-时间特征分支3460来单独地训练例如SVM的分类器3600。此训练过程实现整个系统3000的高学习效率。

在本申请的一个方面中，提出一种用于跟踪视频中的目标对象的方法。所述方法包括：从所述视频提取含有所述目标对象的3维(3D)特征块；将所提取的3D特征块分解成含有所述目标对象的空间信息的2维(2D)空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图；在所述2D空间特征图中估计所述目标对象的位置；在所述2D空间-时间特征图中确定所述目标对象的速度和加速度；根据所确定的速度和加速度校准所述目标对象的估计位置；以及根据校准后的位置跟踪所述视频中的所述目标对象。

在又一方面中提供一种计算机可读存储介质。所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令。所述操作包括：从所述视频提取含有所述目标对象的3维特征块；将所提取的3维特征块分解成含有所述目标对象的空间信息的2维空间特征图和含有所述目标对象的空间-时间信息的2维空间-时间特征图；在所述2维空间特征图中估计所述目标对象的位置；在所述2维空间-时间特征图中确定所述目标对象的速度和加速度；根据所确定的速度和加速度校准所述目标对象的估计位置；以及根据校准后的位置跟踪所述视频中的所述目标对象。

如本领域技术人员所能够理解的那样，本申请可实现为系统、方法或计算机程序产品。因此，本申请可采取完全为硬件的实施方式和方面，而在本文中，硬件通常被称为“单元”、“电路”、“模块”或“系统”。许多功能和许多原理在实施时最好由集成电路(IC)支持，例如数字信号处理器和其软件或者专用IC。可以预期的是，本领域普通技术人员根据本文公开的概念和原理的教导能够通过最少的实验而容易地生成IC，而不必考虑例如由可用时间、当前技术和经济考量等驱使的可能繁重的工作量和许多其它设计选项。因此，为了简化和最小化混淆根据本申请的原理和概念的任何风险，对此类软件和IC(如果存在的话)的进一步论述将受限于对于优选实施方式所使用的原理和概念而言必要的部分。另外，本申请可采取完全为软件的实施方式(包含固件、驻存软件、微码等)或可采取组合了软件的实施方式。例如，系统可包括存储可执行组件的存储器以及处理器，所述处理器电联接到存储器以执行可执行组件来执行系统的、如参照图1到3所论述的操作。另外，本申请可采用体现在任何有形表达介质中的计算机程序产品的形式，所述有形表达介质具有体现于介质中的计算机可用程序代码。

Claims

1.一种用于跟踪视频中的目标对象的方法，包括：

从所述视频提取含有所述目标对象的3维特征块；

将所提取的3维特征块分解成：

含有所述目标对象的空间信息的2维空间特征图；和

含有所述目标对象的空间-时间信息的2维空间-时间特征图；

在所述2维空间特征图中估计所述目标对象的位置；

在所述2维空间-时间特征图中确定所述目标对象的速度和加速度；

根据所确定的速度和加速度校准所述目标对象的估计位置；以及

根据校准后的位置跟踪所述视频中的所述目标对象。

2.根据权利要求1所述的方法，

其中，所述2维空间特征图在以下方向上延伸：

第一空间方向；以及

与所述第一空间方向相交的第二空间方向；以及

其中，所述2维空间-时间特征图包括：

第一2维空间-时间特征图，所述第一2维空间-时间特征图在所述第一空间方向和时间方向上延伸，并且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量；以及

第二2维空间-时间特征图，所述第二2维空间-时间特征图在所述第二空间方向和所述时间方向上延伸，并且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。

3.根据权利要求2所述的方法，还包括提供包括特征提取层的卷积神经网络，其中，所述提取包括：

在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图；

评估所述第一特征图与含有所述目标对象的关注特征的预设图像之间的重叠度和类似度；以及

根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图，其中，所述第二特征图仅含有所述目标对象的所述关注特征；以及

将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3维特征块。

4.根据权利要求3所述的方法，其中，所述卷积神经网络还包括联接到所述特征提取层的交换层，以及其中，所述分解包括：

从所述特征提取层接收所述3维特征块；

禁用所接收特征块在所述时间方向上的数据以获得所述2维空间特征图；以及

禁用所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2维空间-时间特征图。

5.根据权利要求4所述的方法，其中，所述卷积神经网络还包括联接到所述交换层的2维空间特征提取层，以及其中，所述估计包括：

从所述交换层接收所述2维空间特征图；

增强所述关注特征在所述2维空间特征图中的差异；

根据增强后的关注特征识别所述目标对象；以及

估计所识别目标对象的所述位置。

6.根据权利要求5所述的方法，其中，所述卷积神经网络还包括联接到所述交换层且平行于所述2维空间特征提取层的2维空间-时间特征提取层，以及其中，所述确定包括：

从所述交换层接收所述2维空间-时间特征图；

增强所述关注特征在所述2维空间-时间特征图中的差异；

根据增强后的关注特征识别所述目标对象；以及

在所述时间方向上对所识别目标对象执行求导操作，以确定所述目标对象的所述速度和所述加速度。

7.根据权利要求6所述的方法，还包括：

独立地训练所述特征提取层；以及

基于训练后的特征提取层单独地训练所述2维空间特征提取层和所述2维空间-时间特征提取层。

8.根据权利要求3所述的方法，其中，所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。

9.一种用于跟踪视频中的目标对象的系统，包括：

存储器，所述存储器存储可执行组件；以及

处理器，所述处理器电联接到所述存储器以执行所述可执行组件，从而进行以下操作：

从所述视频提取含有所述目标对象的3维特征块；

将所提取的3维特征块分解成：

含有所述目标对象的空间信息的2维空间特征图；和

含有所述目标对象的空间-时间信息的2维空间-时间特征图；

在所述2维空间特征图中估计所述目标对象的位置；

根据校准后的位置跟踪所述视频中的所述目标对象。

10.根据权利要求9所述的系统，

其中，所述2维空间特征图在以下方向上延伸：

第一空间方向；以及

与所述第一空间方向相交的第二空间方向；以及

其中，所述2维空间-时间特征图包括：

11.根据权利要求10所述的系统，还包括包含特征提取层的卷积神经网络，其中，所述提取包括：

12.根据权利要求11所述的系统，其中，所述卷积神经网络还包括联接到所述特征提取层的交换层，以及其中，所述分解包括：

从所述特征提取层接收所述3维特征块；

13.根据权利要求12所述的系统，其中，所述卷积神经网络还包括联接到所述交换层的2维空间特征提取层，以及其中，所述估计包括：

从所述交换层接收所述2维空间特征图；

增强所述关注特征在所述2维空间特征图中的差异；

根据增强后的关注特征识别所述目标对象；以及

估计所识别目标对象的所述位置。

14.根据权利要求13所述的系统，其中，所述卷积神经网络还包括联接到所述交换层且平行于所述2维空间特征提取层的2维空间-时间特征提取层，以及其中，所述确定包括：

从所述交换层接收所述2维空间-时间特征图；

增强所述关注特征在所述2维空间-时间特征图中的差异；

根据增强后的关注特征识别所述目标对象；以及

15.根据权利要求14所述的系统，其中，所述特征提取层被独立地训练；以及所述2维空间特征提取层和所述2维空间-时间特征提取层基于训练后的特征提取层而单独地被训练。

16.根据权利要求11所述的系统，其中，所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。

17.一种用于跟踪视频中的目标对象的系统，包括：

特征提取器，所述特征提取器用于从所述视频提取含有所述目标对象的3维特征块；

分解器，所述分解器用于将所提取的3维特征块分解成：

含有所述目标对象的空间信息的2维空间特征图；和

含有所述目标对象的空间-时间信息的2维空间-时间特征图；

定位器，所述定位器用于在所述2维空间特征图中估计所述目标对象的位置；

运动检测器，所述运动检测器用于在所述2维空间-时间特征图中确定所述目标对象的速度和加速度；

校准器，所述校准器用于根据所确定的速度和加速度校准所述目标对象的估计位置；以及

跟踪器，所述跟踪器用于根据校准后的位置跟踪所述视频中的所述目标对象。

18.根据权利要求17所述的系统，

其中，所述2维空间特征图在以下方向上延伸：

第一空间方向；以及

与所述第一空间方向相交的第二空间方向；以及

其中，所述2维空间-时间特征图包括：

19.根据权利要求18所述的系统，还包括包含特征提取层的卷积神经网络，其中，所述特征提取器在所述特征提取层中实施且用于：

20.根据权利要求19所述的系统，其中，所述卷积神经网络还包括联接到所述特征提取层的交换层，以及其中，所述分解器在所述交换层中实施且用于：

从所述特征提取层接收所述3维特征块；

21.根据权利要求20所述的系统，其中，所述卷积神经网络还包括联接到所述交换层的2维空间特征提取层，以及其中，所述定位器在所述2维空间特征提取层中实施且用于：

从所述交换层接收所述2维空间特征图；

增强所述关注特征在所述2维空间特征图中的差异；

根据增强后的关注特征识别所述目标对象；以及

估计所识别目标对象的所述位置。

22.根据权利要求21所述的系统，其中，所述卷积神经网络还包括联接到所述交换层且平行于所述2维空间特征提取层的2维空间-时间特征提取层，以及其中，所述运动检测器在所述2维空间-时间特征提取层中实施且用于：

从所述交换层接收所述2维空间-时间特征图；

增强所述关注特征在所述2维空间-时间特征图中的差异；

根据增强后的关注特征识别所述目标对象；以及

23.根据权利要求22所述的系统，其中，所述特征提取层被独立地训练；以及所述2维空间特征提取层和所述2维空间-时间特征提取层基于训练后的特征提取层而单独地被训练。

24.根据权利要求19所述的系统，其中，所述评估在比较器中实施以将所述第一特征图与从所述预设图像生成的二元掩模进行比较。

25.一种计算机可读存储介质，所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令，所述操作包括：

从视频中提取含有目标对象的3维特征块；

将所提取的3维特征块分解成：

含有所述目标对象的空间信息的2维空间特征图；和

含有所述目标对象的空间-时间信息的2维空间-时间特征图；

在所述2维空间特征图中估计所述目标对象的位置；

根据校准后的位置跟踪所述视频中的所述目标对象。

26.根据权利要求25所述的计算机可读存储介质，

其中，所述2维空间特征图在以下方向上延伸：

第一空间方向；以及

与所述第一空间方向相交的第二空间方向；以及

其中，所述2维空间-时间特征图包括：

27.根据权利要求26所述的计算机可读存储介质，其中，所述提取包括：

在卷积神经网络的特征提取层中对所述视频的每一帧进行过滤以获得第一特征图；

28.根据权利要求27所述的计算机可读存储介质，其中，所述卷积神经网络还包括联接到所述特征提取层的交换层，以及其中，所述分解包括：

从所述特征提取层接收所述3维特征块；

29.根据权利要求28所述的计算机可读存储介质，其中，所述卷积神经网络还包括联接到所述交换层的2维空间特征提取层，以及其中，所述估计包括：

从所述交换层接收所述2维空间特征图；

增强所述关注特征在所述2维空间特征图中的差异；

根据增强后的关注特征识别所述目标对象；以及

估计所识别目标对象的所述位置。

30.根据权利要求29所述的计算机可读存储介质，其中，所述卷积神经网络还包括联接到所述交换层且平行于所述2维空间特征提取层的2维空间-时间特征提取层，以及其中，所述确定包括：

从所述交换层接收所述2维空间-时间特征图；

增强所述关注特征在所述2维空间-时间特征图中的差异；

根据增强后的关注特征识别所述目标对象；以及

31.根据权利要求30所述的计算机可读存储介质，其中，

所述特征提取层被独立地训练；以及所述2维空间特征提取层和所述2维空间-时间特征提取层基于训练后的特征提取层被单独地训练。

32.根据权利要求27所述的计算机可读存储介质，其中，所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。