CN108027972A

CN108027972A - 用于对象跟踪的系统和方法

Info

Publication number: CN108027972A
Application number: CN201580082259.8A
Authority: CN
Inventors: 王晓刚; 王立君; 欧阳万里; 卢湖川
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-07-30
Filing date: 2015-07-30
Publication date: 2018-05-11
Anticipated expiration: 2035-07-30
Also published as: US20180165548A1; US10558891B2; CN108027972B; WO2017015947A1

Abstract

公开了一种用于对象跟踪的方法，其包括：确定视频序列的第一帧中的关注区域(ROI)，其中ROI居中于待跟踪对象的真值目标位置；将确定的ROI在第一CNN(卷积网络)前向馈送，以在第一CNN的较高层获得多个第一特征图和在第一CNN的较低层获得多个第二特征图，其中在图像分类任务上预先对第一CNN进行训练，使得第一特征图包括较多的用于确定视频序列中待跟踪对象的类别的语义特征，而第二特征图携载较多的用于将待跟踪对象与具有类似外观的干扰项分开的鉴别信息；通过分别利用第一特征图和第二特征图训练而得的第二CNN和第三CNN(sel‑CNN)，分别从第一特征图和第二特征图中选择多个特征图；基于选择的第一特征图和第二特征图，分别预测用于指示当前帧中的对象的目标位置的两个目标热图；以及基于两个预测的目标热图，估计当前帧中的对象的最终目标位置。

Description

用于对象跟踪的系统和方法

技术领域

本公开涉及一种用于对象跟踪的系统及其方法。

背景技术

作为计算机视觉中的根本问题之一，视觉跟踪已经得到广泛应用。尽管在过去的十年中已经取得很大进展，但在设计可以很好地处理重大外观变化、姿势变化、严重遮挡和背景混乱的稳健跟踪器方面仍存在巨大的挑战。

为了解决这些问题，现有的基于外观的跟踪方法采用生成模型(generativemodel)或鉴别模型(discriminative model)来将前景与背景分开，并将同时出现的对象区分出来。这些方法的一个主要缺点在于，它们依赖于低级手工制作的特征，而这些低级手工制作的特征不能捕获目标的语义信息、对显著的外观变化不稳健并且只具有有限的鉴别力。

在大规模视觉数据集的出现和计算能力的快速发展的驱动下，深度神经网络(DNN)，尤其是卷积神经网络(CNN)由于对特征表示(representations)具有强大的学习能力，已经在图像分类和对象检测方面呈现出不同凡响的性能。不同于手工制作的特征，CNN从大量有注释的视觉数据和大量的对象类别(诸如，图像网络(Image Net))中学习的特征携载有丰富的高级语义信息，并且在区别不同类别的对象方面很强。这些特征在数据集上具有良好的泛化能力(generation capability)。最近的研究也已表明，此类特征对数据损坏比较稳健。它们的神经元响应在对象身份上有很强的选择性，即，对于特定对象，只有神经元的子集作出响应并且不同的对象具有不同的响应神经元。

发明内容

基于下面的原理提出了本申请的技术方案。

第一，不同级别/深度的CNN特征具有配合跟踪问题的不同性质。顶部卷积层捕获比较抽象的高级语义特征。它们在区别不同类别的对象方面很强，并且对图像变形和遮挡比较稳健。然而，它们不太能鉴别相同类别的对象，如示例所示。较低层提供更详细的局部特征，有助于将目标与具有类似外观的干扰项(例如，相同类别的其他对象)分开。但是它们对外观的巨大变化不太稳健。基于这些原理，提出本申请以在跟踪期间根据干扰项(distracter)是否出现而自动地切换这两个层的使用。

第二，在图像网络(Image Net)上预先训练的CNN特征用于区分通用对象(genericobject)。然而，对于特定目标，并非所有的特征都可用于稳健跟踪。一些特征响应可能会充当噪声。因此，如果使用所有的特征图，则难以将目标对象与背景区分开。相反，通过适当的特征选择，可以清除与目标的表示不相关的噪声特征图，而剩余的特征图可以更准确地突出目标并抑制来自背景的响应。本申请提议的有原则的(principled)方法选择鉴别性特征图并且丢弃有噪声或不相关的特征图，从而进行目标跟踪。

本申请的一方面公开了一种用于对象跟踪的方法，其包括：

确定视频序列的第一帧中的关注区域(ROI)，其中所述ROI居中于待跟踪对象的真值目标位置；

将确定的ROI在第一CNN(卷积网络)前向馈送，以在所述第一CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图，其中在图像分类任务上对所述第一CNN预先进行训练，使得所述第一特征图包括较多的用于确定所述视频序列中待跟踪对象的类别的语义特征，而所述第二特征图携载较多的用于将所述待跟踪对象与具有类似外观的干扰项分开的鉴别信息；

通过分别利用所述第一特征图和所述第二特征图来训练第二CNN和第三CNN(sel-CNN)，分别从所述第一特征图和所述第二特征图中选择多个特征图；

基于选择的第一特征图和第二特征图，分别预测用于指示当前帧中的对象的目标位置的两个目标热图；以及

基于两个预测的目标热图，估计所述当前帧中的对象的最终目标位置。

本申请的一方面还公开了一种用于对象跟踪的系统，其包括：

特征图选择单元，用于确定视频序列的第一帧中的关注区域(ROI)，其中所述ROI居中于待跟踪对象的真值目标位置，以及将所述确定的ROI在第一CNN(卷积网络)前向馈送，以在所述CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图；

热图预测单元，其与所述特征图选择单元电通信并且用于基于所述第一特征图和所述第二特征图来分别预测用于指示当前帧中的目标位置的两个目标热图；以及

目标定位单元，其用于基于两个预测的目标热图来估计当前帧中的ROI的最终目标位置，

其中，在图像分类任务上对所述第一CNN预先进行训练，使得所述第一特征图包括较多的用于确定所述视频序列中待跟踪对象的类别的语义特征，而所述第二特征图携载较多的用于将所述对象与具有类似外观的干扰项分开的鉴别信息。

本申请的另一方面还公开了一种用于对象跟踪的系统，其包括：

存储器，其存储可执行部件；以及

处理器，其执行所述可执行部件以便执行所述系统的操作，所述可执行部件包括：

特征图选择部件，其用于确定视频序列的第一帧中的关注区域(ROI)，其中所述ROI居中于待跟踪对象的真值目标位置，以及将所述确定的ROI在第一CNN(卷积网络)前向馈送，以在所述CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图；

热图预测部件，其用于基于所述第一特征图和所述第二特征图来分别预测指示当前帧中的目标位置的两个目标热图；以及

目标定位部件，其用于基于两个预测的热图来估计所述当前帧中的所述ROI的最终目标位置。

与现有的视觉跟踪方法相比，所提议或要求的解决方案具有显著有益于跟踪性能的两个优点中的至少一个：

1)为了更准确的视觉跟踪，使用有原则的特征选择方法来自动地选择卷积网络的鉴别性特征图并且丢弃有噪声或不相关的特征图。

2)共同地考虑不同级别的两个卷积层，以便它们彼此互补。具体而言，顶层对较多语义特征进行编码并且充当类别检测器，而较低层携载较多鉴别性信息并且可以更好地将目标与具有类似外观的干扰项分开。

附图说明

下文参考附图描述本发明的示例性非限制实施方案。附图是说明性的，并且一般不按确切的比例绘制。不同图上的相同或类似元件次用相同的附图标号。

图1是示出根据本申请的一个实施方案的图1所示的系统的操作的示意场景。

图2是示出根据本申请的实施方案的、适用于图1的示意场景的用于对象跟踪的系统的示意图。

图3是示出根据本申请的一个实施方案的、用于对象跟踪的方法的流程图的示意图。

图4是示出根据本申请的一个实施方案的、训练步骤S32的流程图的示意图。

图5是示出根据本申请的一个实施方案的、预测步骤S33的流程图的示意图。

图6是示出根据本申请的一个实施方案的、预测步骤S34的流程图的示意图。

图7示出符合本申请的实施方案的用于对象跟踪的系统。

具体实施方式

下面将详细地参考本发明的一些具体实施方案，包括发明人预期的用于实施本发明的最佳模式。附图中示出这些具体实施方案的示例。尽管结合这些具体实施方案描述本发明，但应理解，这并非用于将本发明限于所述实施方案。相反，这些描述旨在涵盖可以包括在如所附权利要求书限定的本发明的精神和范围内的替代方案、修改和等效物。以下描述中列出了许多具体细节，以便彻底理解本发明。在实践中，可以在没有这些具体细节中的一些或全部的情况下实施本发明。在其他情况下，没有详细地描述众所周知的过程操作，以免不必要地使本发明变得模糊。

本文中使用的术语仅仅是出于描述特定实施方案的目的，而并非用于限制本发明。除非上下文另有明确说明，否则本文中使用的单数形式“一”、“一个”和“所述”也可表示包括复数形式。还应理解，本说明书中使用的术语“包括”和/或“包括”用于说明存在所述特征、整数、步骤、操作、元件和/或部件，但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或它们的组合。

图1是示出根据本申请的实施方案的、用于对象跟踪的系统的操作的示意场景。对于给定目标，在VGG网络的较低层和较高层(例如，conv4-3和conv5-3层，如图所示)执行特征图选择方法，以选择最相关的特征图并且避免过度拟合噪声特征图。捕获目标的类别信息的广义神经网络(GNet)以在全卷积网络的较高层(conv5-3层)中选择的靠前的(top)特征图为基础搭建。将目标与具有类似外观的背景区别开的特定神经网络(SNet)以从全卷积网络的较低(conv4-3)层中选择的靠前的特征图为基础搭建。GNet和SNet都在第一帧中初始化，以对目标执行前景热图回归并且采用不同的在线更新策略。对于新的帧，将含有目标和背景上下文的、居中于最后目标位置的关注区域(ROI)进行修剪并且传播通过全卷积网络，使得通过GNet和SNet分别基于从全卷积网络的较高层中所选第一特征图和从全卷积网络的较低层所选第二特征图中生成两个前景热图。

SNet和GNet共享由两个额外的卷积层组成的相同网络架构。第一额外卷积层具有(例如，9×9)尺寸的卷积核，并且输出多个(例如，36个)特征图作为下一层的输入。第二额外卷积层具有尺寸相对小(例如，5×5)的核，并且输出输入图像的前景热图。将ReLU选作这两层的非线性函数。基于两个热图独立地执行目标定位。通过用于决定使用哪个热图的干扰项检测方案来确定最终目标。

图2是示出根据本申请的实施方案的、适用于图1的示意场景的用于对象跟踪的系统的示意图。如图所示，用于对象跟踪的系统1000可包括特征图选择单元10、热图预测单元20和目标定位单元30。下文将分别进一步论述特征图选择单元10、热图预测单元20和目标定位单元30。

特征图选择单元10

特征图选择单元10进行操作以：确定视频序列的第一帧中的关注区域(ROI)，其中，ROI居中于待跟踪对象的真值目标位置，预定的真值目标位置包括待跟踪对象的目标区域和背景上下文；以及将每个确定的ROI在第一CNN(卷积网络)前向馈送，并且在CNN的较高层获得多个第一特征图和在第一CNN的较低层获得多个第二特征图；其中在图像分类任务上对第一CNN预先进行训练，使得第一特征图包括较多的用于确定视频序列中待跟踪对象的类别的语义特征，而第二特征图携载较多的用于将对象与具有类似外观的干扰项分开的鉴别信息。

特征图选择单元10用于分别利用第一特征图和第二特征图通过下列方式来将两个卷积神经网络初始化：将两个特征图分别输入到两个CNN中，以在每个CNN中输出对象的预测位置；将预测位置与对象的真值目标位置进行比较以获得预测误差；将误差反向传播通过CNN，直至获得的误差小于阈值；并且从每个CNN中输出多个特征图。随后，特征图选择单元10进行操作以：确定每个特征图对目标函数的显著性(significance)；根据显著性值按降序排列所有的特征图；从较高层和较低层中选择排在最前面的K个特征图，其中在后续帧的在线跟踪阶段，提取特征图并且从所提取的图中选择对应的K个特征图，如下文将论述。

如可以看出，所提议的特征图选择是基于通过第一CNN(也被称为sel-CNN)的目标热图回归模型，并且在例如VGG的conv4-3和conv5-3层上独立地进行。sel-CNN(第一CNN)由随机失活层(dropout layer)紧接着卷积层组成，而没有任何非线性变换。将特征图(conv4-3或con5-3)选作输入以预测目标热图M，该目标热图是居中于真值目标位置的二维高斯，其中方差与目标尺寸成比例。通过最小化预测的前景热图与目标热图M之间的平方损失来训练sel-CNN：

在使用反向传播的参数学习收敛之后，sel-CNN参数是固定的，并且根据它们对损失函数的影响来选择特征图。将输入的特征图F矢量化成由vec(F)表示的矢量。将f_i表示为vec(F)的第i个元素。由特征图的扰动δF造成的损失函数的变化可由二阶泰勒展开式计算，如下：

其中和分别是关于输入的特征图的目标函数的一阶和二阶导数。特征图中的元素的数量非常大，例如，在一些情况下，将超过270,000个。计算所有二阶导数h_ij的复杂度就是O(270,000²)，这太耗费时间。因此，在本实施方案中，逼近具有对角矩阵的海塞矩阵，其中略公式(2)的右手侧的第三项。经由反向传播可以有效地计算一阶导数g_i和二阶导数h_ii。

元素f_i的显著性(significance)被定义为在将f_i设置为零(即，δf_i＝0-f_i)之后目标函数的变化。根据公式(2)可以将f_i的显著性计算为：

第k个特征图的显著性进一步被定义为它的所有元素的显著性的总和：

其中s(x,y,k)是由第k个特征图上的位置(x,y)索引的元素的显著性。所有的特征图都根据它们的显著性按降序分类，并且为当前的跟踪任务选择前K个特征图。这些选择的特征图对目标函数产生显著影响，并且因此与跟踪任务最相关。特征图选择方法可以以在线方式进行。在实验中，只在第一帧处进行特征选择并且实现了良好的性能。这应该部分地归因于CNN特征的稳健性。

使用成本函数(cost function)的二次逼近来移除神经网络中的一些连接的想法可以追溯到1989年。目标是减少参数的数量并且提高速度，而本申请的目标是移除有噪声特征图并且提高跟踪准确性。

热图预测单元20

热图预测单元20接收第一特征图和第二特征图，以基于所接收的特征图来分别预测用于指示当前帧中的目标位置的两个目标热图。根据本申请的一个实施方案，热图预测单元20具有广义网络和特定网络，其中广义网络(GNet)基于从第一特征图中选择的最前面的特征图来捕获目标对象的类别信息；并且特定网络(SNet)基于从conv4-3层选择的最前面的第二特征图来将目标对象与具有类似外观的背景区别开。如上文论述，SNet和GNet共享由两个额外的卷积层组成的相同网络架构。第一额外卷积层具有(例如，9×9)尺寸的卷积核，并且输出多个(例如，36个)特征图作为下一层的输入。第二额外卷积层具有尺寸相对小(例如，5×5)的核，并且输出输入图像的前景热图。将ReLU选作这两层的非线性函数。

GNet和SNet都在第一帧中初始化，以对目标执行前景热图回归。通过将下列平方损失函数最小化，在第一帧中对SNet和GNet进行初始化：

其中下标U∈{S,G}分别表示SNet和GNet；表示由网络预测的前景热图；M是目标热图；W_U是卷积层的权重参数；β是权重衰减的折衷参数(tradeoff parameter)。

应注意，用于选择特征的sel-CNN以及用于定位的SNet和GNet具有不同的CNN结构。sel-CNN架构非常简单以避免使用噪声特征图来过度拟合目标函数，而SNet和GNet更复杂。由于通过特征图选择已经丢弃了噪声特征图，因此越复杂的模型有助于越准确的跟踪。

对于新的帧，将含有目标和背景上下文的、居中于最后目标位置的关注区域(ROI)进行修剪并且传播通过全卷积网络，使得分别由GNet和SNet生成两个前景热图，并且使得由GNet和SNet分别根据从第一CNN的较高层选择的第一特征图和从第一CNN的较低层选择的第二特征图中生成两个前景热图，并且基于两个热图独立地执行目标定位，这将在下文进一步论述。

在本申请的一个实施方案中，首先在由GNet产生的热图上执行目标定位。将目标位置表示为其中x、y和σ分别表示目标边界框的中心坐标和尺度(scale)。给定上一帧中的目标位置假设当前帧中的目标候选的位置符合高斯分布：

其中Σ是指示位置参数的方差的对角协方差矩阵。将第i个候选的置信度计算为候选区域内的所有热图值的总和：

其中表示由GNet生成的热图；R_i是根据位置参数的第i个目标候选的区域；j表示坐标索引。由GNet将具有最高置信的候选预测为目标。

目标定位单元30

目标定位单元30基于两个预测的热图通过干扰项检测机制来估计当前帧中的目标位置。

如上论述，GNet基于较高层(例如，conv5-3层)捕获语义特征并且对类别内变化高度地保持不变。因此，由GNet生成的前景热图突出目标和具有类似外观的背景干扰项。

为了防止跟踪器转向背景，本申请还提议一种用来确定最终目标位置的干扰项检测。将由GNet预测的目标位置表示为热图中的对应目标区域为R_G。背景干扰项的概率由目标区域内部与外部的置信值之间的比例评估。

其中表示所预测的热图上的背景区域。当比例P_d小于预定义阈值(在所有实验中都是0.2)时，假设没有出现背景干扰项并且将GNet预测的目标位置用作最终结果。否则，在SNet预测的热图上执行上述相同的目标定位程序，并且将具有最高置信的候选标记为目标。

返回到根据本申请的一个实施方案的目标定位单元30，该目标定位单元30用于：根据居中于视频序列最后帧中的预测目标位置的高斯分布对一组目标候选区域进行取样；基于GNet估计的目标热图来预测当前帧中的最佳目标候选，其中通过计算每个候选区域内的热图值的总和而获得每个候选的目标置信，并且将具有最高置信的候选选作最佳目标候选；以及通过将背景区域内的热图值与最佳候选区域中的那些热图值进行比较来检测干扰项。如果没有检测到干扰项，则将通过使用GNet的热图预测出的最佳目标位置确定当前帧中的最终目标位置，否则，将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。

更新单元40

更新单元40使用先前的跟踪结果以在线方式更新热图预测单元，以适应目标外观变化。

为了避免由在线更新引入的背景噪声，提出本申请以在第一帧中的初始化之后固定GNet并且只更新SNet。使用两个不同的规则来更新SNet：适应规则(adaptation rule)和鉴别规则(discrimination rule)，它们分别旨在使SNet适应目标外观变化和提高对前景和背景的鉴别力。根据适应规则，使用这些预定数量的帧内的最可信(例如，10)的跟踪结果，每预定数量的(例如，20个)帧便微调SNet。基于鉴别规则，当检测到干扰项时，进一步使用第一帧和当前帧中的跟踪结果并通过将下列目标函数最小化来更新SNet：

其中W_S表示SNet的卷积权重；(x,y)是空间坐标；和M^t分别表示由SNet预测的第t个帧的热图和根据预测的目标位置(居中于目标位置的二维高斯)生成的热图。前景任务Φ^t指示预测的目标边界框，即，如果位置(x,y)属于目标区域，则Φ^t(x,y)＝1，否则Φ^t(x,y)＝0。

公式(9)中的第二项对应于用于定位第一帧中的目标对象的损失。当出现干扰项或目标受到严重遮挡时，估计的目标区域对于学习外观而言并不可靠。因此，在添加第一帧以用于监督学习时选择保守方案，从而使得所学习的模型仍具有在第一帧中考虑过的外观。估计的目标区域不用于更新模型，因为它不可靠。因此，公式(9)中的第三项消除目标区域的损失，并且只考虑第t个帧中的背景区域的损失。其加强了该模型以更注重将背景干扰项分配为背景。公式(9)中的第二项和第三项的组合可以帮助SNet更好地将目标与背景分开，并且减轻由遮挡或干扰项造成的模型退化。

下文将参考图3论述根据本申请的一个实施方案的用于对象跟踪的方法3000。如图所示，在步骤S31处，将视频序列的第一帧在第一CNN(卷积网络)前向馈送，以在CNN的较高层获得待跟踪对象的多个第一特征图和在第一CNN的较低层获得对象的多个第二特征图。具体而言，将确定视频序列的第一帧中的关注区域(ROI)(居中于目标位置的ROI包括目标区域和背景上下文)，随后将确定的ROI在第一CNN前向馈送，以在CNN的较高层获得待跟踪对象的多个第一特征图和在第一CNN的较低层获得对象的多个第二特征图。

在步骤S32处，该方法分别利用第一特征图和第二特征图来训练第二CNN和第三CNN(sel-CNN)，以分别从第一特征图和第二特征图中选择多个特征图。具体而言，在图像分类任务上对第一CNN预先进行训练，使得第一特征图包括较多的用于确定视频序列中待跟踪对象的类别的语义特征，而第二特征图携载较多的用于将对象与具有类似外观的干扰项分开的鉴别信息。

图4是示出根据本申请的一个实施方案的、用于训练S32的流程图的示意图。如图所示，训练还包括步骤S321：分别利用第一特征图和第二特征图初始化两个sel-CNN，其中两个特征图分别用于在每个sel-CNN中输出对象的预测位置。在步骤S322处，将预测位置与对象的真值目标位置进行比较以获得预测误差，并且在步骤S323处，将误差反向传播通过sel-CNN，直至所获得的误差小于阈值。

在步骤S324处，确定从两个sel-CNN中的每个输出的每个特征图的显著性，并且根据显著性值按降序排列所有的特征图，其中将选择来自较高层和较低层中的排在最前面的K个特征图，其中K是大于或等于1的整数。

在步骤S325处，在用于后续帧的在线跟踪阶段，提取特征图并且从所提取的特征图中选择它们对应的K个特征图作为第一特征图和第二特征图。

返回到图3，方法3000还包括步骤S33：由训练的第二CNN和第三CNN分别基于第一特征图和第二特征图来预测指示当前帧中的目标位置的两个目标热图。图5是示出根据本申请的一个实施方案的预测的步骤S33的流程图的示意图。如图所示，在步骤S501中，通过下列方式初始化GNet和SNet：将两个特征图分别输入到两个CNN中，以在每个sel-CNN中输出对象的热图；将热图与对象的真值热图进行比较，以获得预测误差；以及将误差反向传播通过sel-CNN，直至获得的误差小于阈值，并且将获得第一帧的目标热图。随后，在步骤S502处，初始化的GNet和SNet为后续的每个帧独立地估计目标热图，其中居中于最后目标位置的关注区域(ROI)含有目标和背景上下文，并且被修剪和传播通过CNN，使得分别由GNet和SNet根据从CNN的较高层选择的第一特征图和从第一CNN的较低层选择的第二特征图生成两个前景热图，并且基于两个热图独立地执行目标定位。在本申请的一个实施方案中，GNet和SNet中的每个由第一卷积层和非线性地连接到第一层的第二卷积层组成，其中第一卷积层具有尺寸较大的卷积核，并且第二卷积层具有相对小尺寸的核。

再次返回到图3，方法3000还包括步骤S34，在该步骤中将基于当前帧中的两个预测热图来估计对象的目标位置。在本申请的一个实施方案中，步骤S34可以包括如图6所示的处理：

步骤S341：根据居中于在视频序列最后帧中预测的目标位置的高斯分布对一组目标候选区域进行取样；

步骤S342：基于GNet估计的目标热图来预测当前帧中的最佳目标候选，其中通过计算每个候选区域内的热图值的总和而获得每个候选的目标置信，并且将具有最高置信的候选选作最佳目标候选；

步骤S343：将背景区域内的热图值与最佳候选区域中的那些热图值进行比较，以检测干扰项；

步骤S344：确定是否检测到干扰项。如果没有检测到干扰项，则在步骤S345处，将通过使用GNet的热图预测出的最佳目标位置确定为步骤S345处的当前帧中的最终目标位置，否则，在步骤S346处，将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。

图7示出符合本申请的实施方案的用于对象跟踪的系统700。在此实施方案中，如图3所示的过程可以由系统700中的软件实施。参考图7，系统700包括存储可执行部件的存储器71，以及处理器72，所述处理器电耦合到存储器71以执行可执行部件，以执行系统700的操作。可执行部件可以包括：特征图选择部件73，用于确定视频序列的第一帧中的、包括待跟踪对象的像素的关注区域(ROI)，并且将确定的ROI向前馈通过第一CNN(卷积网络)，而且在第一CNN的较高层获得多个第一特征图和在第一CNN的较低层获得多个第二特征图；热图预测部件74，用于分别基于第一特征图和第二特征图来预测指示当前帧中的目标位置的两个目标热图；以及目标定位部件75，用于基于两个预测的热图来估计当前帧中的ROI的最终目标位置。

如上文论述，可以在图像分类任务上对第一CNN预先进行训练，使得第一特征图包括较多的用于确定视频序列中待跟踪对象的类别的语义特征，而第二特征图携载较多的用于将对象与具有类似外观的干扰项分开的鉴别信息。

与上文论述的特征图选择单元相同，特征图选择部件具有两个卷积神经网络(即，sel-CNN)，并且其中特征图选择单元用于：分别利用第一特征图和第二特征图通过下列方式来初始化两个sel-CNN：将两个特征图分别输入到两个CNN中，以在每个sel-CNN输出对象的热图；将热图与对象的真值热图进行比较，以获得预测误差；以及将误差反向传播通过sel-CNN，直至获得的误差小于阈值；根据两个训练的sel-CNN来确定第一特征图和第二特征图中的每个的显著性；根据显著性值按降序独立地排列第一特征图和第二特征图中的那些特征图；并且从较高层和较低层中选择排在最前面的K个特征图，其中K是大于或等于1的整数；其中在后续帧的在线跟踪阶段，分别从第一CNN的较高层和较低层中提取第一特征图和第二特征图，并且选择它们对应的K个特征图并充当所述选择的第一特征图和第二特征图。

在一个实施方案中，热图预测部件具有广义网络和特定网络，其中广义神经网络(GNet)基于从第一特征图选择出的、最前面的特征图来捕获目标对象的类别信息；特定神经网络(SNet)基于从较低层选择出的、最前面的第二特征图来将目标对象与具有类似外观的背景区别开。GNet和SNet在第一帧中初始化以对目标对象执行前景热图回归；对于新的帧，将含有目标和背景上下文的、居中于最后目标位置的关注区域(ROI)进行修剪并且传播通过全卷积网络；以及分别由GNet和SNet生成两个前景热图。

GNet和SNet都按照以下步骤进行初始化：分别从第一帧选择出的第一特征图和第二特征图在GNet和SNet馈送，以预测两个目标热图；将预测的热图与真值热图进行比较以获得预测误差；将误差反向传播通过GNet和SNet，直至获得误差小于阈值；并且其中真值热图根据居中于真值目标位置的二维高斯分布进行分布，其中方差与对象的目标尺寸成比例。

如参考目标定位单元所论述，目标定位部件用于：根据居中于视频序列最后帧中的预测目标位置的高斯分布对一组目标候选区域进行取样；基于GNet估计的目标热图来预测当前帧中的最佳目标候选，其中通过对每个候选区域内的热图值求和而获得个候选的目标置信，并且将具有最高置信的候选选作最佳目标候选；以及将背景区域内的热图值与最佳候选区域中的那些热图值进行比较，以检测干扰项；如果没有检测到干扰项，则将通过使用GNet的热图预测出的最佳目标位置确定当前帧中的最终目标位置，否则，将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。

第一CNN由随机失活层(dropout layer)紧接着卷积层组成，而没有任何非线性变换。GNet和SNet中的每个由第一卷积层和非线性地连接到第一层的第二卷积层组成，其中第一卷积层具有尺寸较大的卷积核，并且第二卷积层具有相对小尺寸的核。

如图所示，系统700还可以包括更新部件76，该部件用于使用先前的跟踪位置以在线方式更新热图预测单元，以适应目标外观变化。

如本领域的技术人员将了解，本发明可以体现为系统、方法或计算机程序产品。因此，本发明可以采用在本文中一般全都可以称为“单元”、“电路”、“模块”或“系统”的全硬件实施方案和硬件方面的形式。本发明功能中的很多功能和本发明原理中的很多原理可由集成电路(IC)很好地实施，诸如，数字信号处理器和软件或者专用IC。尽管可能会存在大量的努力和很多设计选择(这些选择例如由可用时间、当前技术和经济考虑等因素驱使)，但可以预期，本领域的技术人员在由本文中公开的概念和原理的引导下，能够利用最少的实验生成IC。因此，为了简洁起见并且最小化那些可能会模糊本发明原理和概念的任何风险，此类软件和IC的进一步论述(若有的话)将限于优选实施方案所使用的必要原理和概念。

尽管已描述了本发明的优选示例，但在了解本发明基本概念后，本领域的技术人员可以对这些示例作出变化或更改。所附权利要求书意图包括落入本发明的范围内的优选示例和所有变化或更改。

显然，在不脱离本发明的精神和范围的情况下，本领域的技术人员可以对本发明作出变化或更改。因此，如果这些变化或更改属于权利要求书和等效技术的范围，则它们也可以落入本发明的范围内。

Claims

1.一种用于对象跟踪的方法，包括：

将确定的ROI在第一CNN(卷积网络)前向馈送，以在所述第一CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图，其中，在图像分类任务上对所述第一CNN预先进行训练，使得所述第一特征图包括较多的用于确定所述视频序列中待跟踪对象的类别的语义特征，而所述第二特征图携载较多的用于将所述待跟踪对象与具有类似外观的干扰项分开的鉴别信息；

通过分别利用所述第一特征图和所述第二特征图训练而得的第二CNN和第三CNN(sel-CNN)，分别从所述第一特征图和所述第二特征图中选择多个特征图；

2.根据权利要求1所述的方法，其中所述训练还包括：

分别利用所述第一特征图和所述第二特征图初始化两个sel-CNN，其中所述第一特征图和所述第二特征图分别用于在每个所述sel-CNN中输出对象的热图；

将所述热图与所述对象的真值热图进行比较，以获得用于每个所述sel-CNN的预测误差；以及

将所述误差反向传播通过每个所述sel-CNN，直至获得的误差小于阈值。

3.根据权利要求2所述的方法，其中所述训练还包括：

根据经过训练的两个sel-CNN来确定所述第一特征图和所述第二特征图中的每个特征图的显著性；

根据显著性值按降序独立地排列所述第一特征图和所述第二特征图中的特征图；以及

从较高层和较低层中选择排在靠前的K个特征图，其中K是大于或等于1的整数；

其中，在后续帧的在线跟踪阶段，分别从所述第一CNN的较高层和较低层中提取所述第一特征图和所述第二特征图，并且选择它们对应的K个特征图并充当所述选择的第一特征图和第二特征图。

4.根据权利要求1所述的方法，其中所述预测包括：

初始化GNet和SNet并且获得用于所述第一帧的目标热图；

对于每个后续帧，由初始化的GNet和SNet独立地估计所述目标热图，

其中，居中于最后目标位置的ROI含有目标和背景上下文，并被修剪和传播通过所述第一CNN以获得所述第一特征图和所述第二特征图，选择出的第一特征图和第二特征图分别传播通过所述GNet和所述SNet；以及

其中分别由所述GNet和所述SNet生成两个前景热图，并且基于所述两个前景热图独立地执行目标定位预测。

5.根据权利要求4所述的方法，其中通过下列方式初始化GNet和SNet：

将为所述第一帧选择的第一特征图和第二特征图分别在所述GNet和所述SNet馈送，以预测两个目标热图；

将预测的热图与真值热图进行比较，以获得预测误差；以及

将所述误差反向传播通过所述GNet和所述SNet，直至所述获得的误差小于阈值；

其中所述真值热图根据居中于所述真值目标位置的二维高斯分布进行分布，其中方差与所述对象的目标尺寸成比例。

6.根据权利要求5所述的方法，其中所述估计还包括：

根据居中于所述视频序列的最后帧中的预测目标位置的高斯分布对一组目标候选区域进行取样；

基于所述GNet估计的目标热图来预测所述当前帧中的最佳目标候选，其中每个候选的目标置信通过对每个候选区域中的热图值进行求和而获得，并且将具有最高目标置信的候选选作所述最佳目标候选；

将背景区域内的所述热图值与最佳候选区域中的热图值进行比较，以检测干扰项；

如果没有检测到干扰项，则将通过使用GNet的热图预测出的最佳目标位置确定当前帧中的最终目标位置，否则，将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。

7.根据权利要求1所述的方法，其中所述GNet和所述SNet均包括第一卷积层和第二卷积层，所述第二卷积层非线性地连接到所述第一卷积层，

其中所述第一卷积层具有尺寸较大的卷积核并且所述第二卷积层具有尺寸相对小的卷积核。

8.根据权利要求4至7中任一项所述的方法，还包括：

利用所述对象的先前跟踪位置以在线方式更新所述SNet，以适应目标外观变化。

9.一种用于对象跟踪的系统，包括：

10.根据权利要求9所述的系统，其中所述特征图选择单元具有两个卷积神经网络(sel-CNN)，并且

其中所述特征图选择单元用于：

分别利用所述第一特征图和所述第二特征图通过下列方式初始化两个所述sel-CNN：将所述第一特征图和所述第二特征图分别输入到所述两个sel-CNN中，以在每个所述sel-CNN中输出所述对象的热图；将所述热图与所述对象的真值热图进行比较，以获得用于每个所述sel-CNN的预测误差；以及将所述误差反向传播通过所述sel-CNN，直至所述获得的误差小于阈值；

根据经过训练的两个sel-CNN来确定所述第一特征图和所述第二特征图中每个特征图的显著性；

根据显著性值按降序独立地排列所述第一特征图和所述第二特征图中的那些特征图；以及

其中，在后续帧的在线跟踪阶段，分别从所述第一CNN的所述较高层和所述较低层中提取所述第一特征图和所述第二特征图，并且选择它们对应的K个特征图并充当所选择的第一特征图和第二特征图。

11.根据权利要求10所述的系统，其中所述热图预测单元具有广义网络(GNet)和特定网络(SNet)，

其中所述广义网络基于从所述第一特征图选择的最前面特征图来捕获所述目标对象的类别信息；以及

所述特定网络基于从所述较低层选择的最前面的第二特征图来将所述目标对象与具有类似外观的背景区别开。

12.根据权利要求11所述的系统，其中所述GNet和所述SNet在所述第一帧中初始化，以对所述目标对象来执行前景热图回归；

对于新的帧，所述ROI在含有目标和背景上下文的最后目标位置居中，并且进行修剪和传播通过所述第一CNN，使得由所述GNet和所述SNet分别根据从所述第一CNN的较高层选择的第一特征图和从所述第一CNN的较低层选择的第二特征图中生成两个前景热图。

13.根据权利要求11所述的系统，其中通过下列方式将GNet和SNet初始化：

将预测的热图与真值热图进行比较，以获得预测误差；

将所述误差反向传播通过所述GNet和所述SNet，直至所获得的误差小于阈值；以及

其中所述真值热图是在所述真值目标位置居中的二维高斯分布，其中方差与所述对象的目标尺寸成比例。

14.根据权利要求12所述的系统，其中所述目标定位单元用于：

根据在所述视频序列的最后帧中的预测目标位置居中的高斯分布对一组目标候选区域进行取样；

基于所述GNet估计的目标热图来预测当前帧中的最佳目标候选，其中每个候选的目标置信通过对每个候选区域中的热图值进行求和而获得，并且将具有最高目标置信的候选选作所述最佳目标候选；以及

将背景区域内的热图值与所述最佳候选区域中的热图值进行比较，以检测干扰项；

如果没有检测到干扰项，将通过使用GNet的热图预测出的最佳目标位置确定当前帧中的最终目标位置，否则，将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。

15.根据权利要求9所述的系统，其中所述sel-CNN由随机失活层紧接着卷积层组成，而没有任何非线性变换。

16.根据权利要求11所述的系统，其中所述GNet和所述SNet均包括第一卷积层和第二卷积层，所述第二卷积层非线性地连接到所述第一卷积层，

17.根据权利要求9至16中任一项所述的系统，其还包括：

更新单元，其用于使用先前的跟踪位置以在线方式更新所述热图预测单元，以适应目标外观变化。

18.一种用于对象跟踪的系统，其包括：

存储器，其存储可执行部件；以及

19.根据权利要求18所述的系统，其中在图像分类任务上对所述第一CNN预先进行训练，使得所述第一特征图包括较多的用于确定所述视频序列中待跟踪对象的类别的语义特征，而所述第二特征图携载较多的用于将所述对象与具有类似外观的干扰项分开的鉴别信息。

20.根据权利要求19所述的系统，其中所述特征图选择部件具有两个卷积神经网络(即，sel-CNN)，并且

其中所述特征图选择单元用于：

分别利用所述第一特征图和所述第二特征图通过下列方式初始化所述两个sel-CNN：将所述两个特征图分别输入到所述两个sel-CNN中，以在每个所述sel-CNN输出所述对象的热图；将所述热图与所述对象的真值热图进行比较，以获得用于每个所述sel-CNN的预测误差；以及将所述误差反向传播通过所述sel-CNN，直至所述获得的误差小于阈值；

从较高层和较低层中选择排在最前面的K个特征图，其中K是大于或等于1的整数；

21.根据权利要求18所述的系统，其中所述热图预测部件具有广义网络(GNet)和特定网络(SNet)，

其中，所述GNet基于从所述第一特征图选择出的、最前面的特征图来捕获所述目标对象的类别信息；以及

所述SNet基于从所述较低层选择出的、最前面的第二特征图来将所述目标对象与具有相似外观的背景区别开。

22.根据权利要求21所述的系统，其中所述GNet和所述SNet在所述第一帧中初始化，以对于所述目标对象来执行前景热图回归；

对于新的帧，在最后目标位置居中的所述ROI含有目标和背景上下文，并且进行修剪和传播通过所述第一CNN，使得由所述GNet和所述SNet分别根据从所述第一CNN的较高层选择的第一特征图和从所述第一CNN的较低层选择的第二特征图中生成两个前景热图。

23.根据权利要求22所述的系统，其中通过下列方式初始化GNet和所述SNet：

将预测的热图与真值热图进行比较，以获得预测误差；

将所述误差反向传播通过所述GNet和所述SNet，直至所述获得的误差小于阈值；以及

其中所述真值热图根据在所述真值目标位置居中的二维高斯进行分布，其中方差与所述对象的目标尺寸成比例。

24.根据权利要求22所述的系统，其中所述目标定位部件用于：

基于所述GNet估计的所述目标热图来预测所述当前帧中的最佳目标候选，其中通过对每个候选区域内的热图值求和而获得个候选的目标置信，并且将具有最高置信的所述候选选作所述最佳目标候选；以及

将背景区域内的所述热图值与所述最佳候选区域中的那些热图值进行比较，以检测干扰项；

25.根据权利要求18所述的系统，其中所述sel-CNN由随机失活层紧接着卷积层组成，而没有任何非线性变换。

26.根据权利要求18所述的系统，其中所述GNet和SNet中的每个包括第一卷积层和第二卷积层，所述第二卷积层非线性地连接到所述第一卷积层，

其中所述第一卷积层具有尺寸较大的卷积核并且所述第二卷积层具有尺寸相对小的核。

27.根据权利要求18到26中任一项所述的系统，其还包括：

更新部件，其用于使用先前的跟踪位置以在线方式更新所述热图预测单元，以适应目标外观变化。