CN104424634A

CN104424634A - 对象跟踪方法和装置

Info

Publication number: CN104424634A
Application number: CN201310373327.9A
Authority: CN
Inventors: 梁玲燕
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2013-08-23
Filing date: 2013-08-23
Publication date: 2015-03-18
Anticipated expiration: 2033-08-23
Also published as: JP2015041383A; CN104424634B; US9311534B2; US20150055829A1; JP6458394B2

Abstract

提供了对象跟踪方法和装置。对象跟踪方法包括：顺序输入图像；利用第一跟踪模板确定对象在输入图像中的第一位置，以及利用第二跟踪模板确定对象在输入图像中的第二位置，其中第一跟踪模板基于第一特征集合形成，第二跟踪模板基于第二特征集合形成，第一特征集合不同于第二特征集合，第一特征集合和第二特征集合的每个包括一个或多个特征；以及基于该第一位置和第二位置，确定对象在输入图像中的最终位置，其中，每预定帧数进行第一跟踪模板更新，以及根据预设规则对第二跟踪模板进行更新，第二跟踪模板与第一跟踪模板独立进行更新，且第二跟踪模板的更新频率低于第一跟踪模板。该对象跟踪方法和装置很好地平衡了对象跟踪技术的稳定性和自适应性。

Description

对象跟踪方法和装置

技术领域

本发明涉及图像处理，更具体地涉及计算机视觉技术中的对象跟踪方法和装置。

背景技术

目前，人机交互控制系统受到了人们广泛的关心，因为它的操作模式对于用户来说，非常容易且便利。特别是手势控制系统对用户来说，尤其方便。一个有效的手势识别系统将能提供自然且有效的交互方式。而在手势识别系统中，非常重要且关键的一部分就是手的跟踪。

为了方便用户操作，手跟踪系统不应该要求用户穿戴任何特殊的设备，如特殊手套，彩色标志物等。同时，手是非刚性物体，具有运动快、易变形、自遮挡等特点，因此手跟踪技术是一项非常具有挑战性的工作。。

美国专利公开US20100310127A1中公开了一种物体跟踪方法。在该专利中，采用两种不同的模板进行跟踪：初始模板和动态模板。跟踪结果由初始模板跟踪结果和动态模板跟踪结果中的一个或两个决定。同时决策标记单元用来判断是否需要对动态模板进行更新。动态模板通过初始模板和当前目标图像进行更新。在该专利中，初始模板从不更新，而动态模板根据初始模板和目标图像进行更新。因此，当跟踪环境变化太快时，初始模板可能不再适用于当前环境，因此该跟踪方法不太鲁棒。

2008年2月发表于Image Processing,IEEE Transactionson(Volume:17,Issue:2)的、作者为Junqiu Wang等的标题为“Integrating Color and Shape-Texture Features for Adaptive Real-TimeObject Tracking”的文章中提出了一种基于在线特征选择的新目标模板更新方法。该跟踪方法通过联合直方图将最好的两种特征组合到一起。在该文章中，每8到12帧进行一次特征选择。通过计算当前模板和初始模板之间的相似度，对目标模板进行更新。该文章提出了一种二选一的更新方法，通过考虑初始模板，先前模板和当前候选图像之间的关系。在该文章中，初始模板是一种固定模板，由跟踪启动前人工标定或者检测得到的对象形成，在整个过程中都不被更新。

发明内容

现有技术中，许多研究者认为在整个跟踪过程中，初始跟踪模板是可信且不被污染的，因此初始跟踪模板一般在整个跟踪过程中都进行使用且保持不变。但是，发明人发现，当跟踪环境改变较多时，初始跟踪模板可能变为噪声，从而降低系统的鲁棒性。

另一方面，为了增强跟踪方法的鲁棒性，跟踪模板更新非常必要。目前有两类常用的模板更新方法。第一类为通过当前跟踪结果图像进行模板更新，该方法具有较强的环境适应性，但容易引入噪声，导致跟踪漂移。第二类方法则根据当前候选图像和先前模板进行模板更新，该方法在更新过程中，由于目标和背景不完整分类，将缓慢引入噪声，从而导致模板漂移。

因此，希望提供一种既保证稳定性也能保证自适应性的对象跟踪方法。

根据本发明的一个方面，提供了一种对象跟踪方法，包括：顺序输入图像；利用第一跟踪模板确定对象在输入图像中的第一位置，以及利用第二跟踪模板确定对象在输入图像中的第二位置，其中第一跟踪模板基于第一特征集合形成，第二跟踪模板基于第二特征集合形成，第一特征集合不同于第二特征集合，第一特征集合和第二特征集合的每个包括一个或多个特征；以及基于该第一位置和第二位置，确定对象在输入图像中的最终位置，其中，每预定帧数进行第一跟踪模板更新，以及根据预设规则对第二跟踪模板进行更新，第二跟踪模板与第一跟踪模板独立进行更新，且第二跟踪模板的更新频率低于第一跟踪模板。

一种对象跟踪装置，包括：图像输入部件，用于顺序输入图像；第一跟踪模板位置确定部件，利用第一跟踪模板确定对象在输入图像中的第一位置，其中第一跟踪模板基于第一特征集合形成；第二跟踪模板位置确定部件，利用第二跟踪模板确定对象在输入图像中的第二位置，第二跟踪模板基于第二特征集合形成，第一特征集合不同于第二特征集合，第一特征集合和第二特征集合的每个包括一个或多个特征；对象最终位置确定部件，基于该第一位置和第二位置，确定对象在输入图像中的最终位置；以及第一跟踪模板更新部件和第二跟踪模板更新部件，其中，第一跟踪模板更新部件每预定帧数更新第一跟踪模板，以及第二跟踪模板更新部件根据预设规则对第二跟踪模板进行更新，第二跟踪模板与第一跟踪模板独立进行更新，且第二跟踪模板的更新频率低于第一跟踪模板。

本发明上述对象跟踪方法和装置综合了两种跟踪模板：第一跟踪模板和第二跟踪模板。第一跟踪模板和第二跟踪模板采用不同的特征建立得到。同时，本发明中的两种跟踪模板更新的频率不同，两者独立进行更新，第二跟踪模板更新的频率低于第一跟踪模板，这样第一跟踪模板更多地体现了自适应性，第二跟踪模板更多地考虑了稳定性同时也根据情况在必要时进行更新。因此最终形成的跟踪模板能更好的适应不同的环境且保证足够鲁棒，彼此互补，从而增强了跟踪方法的鲁棒性。

进一步地，发明人认识到：实际上，跟踪成功或者失败，主要依赖于如何将物体从它的周围背景中分离出来，而能否有效的分离物体和背景与所使用的特征直接相关。因此为了在不同的时刻，不同的背景下都能得到最优的特征，实时进行特征的选择非常必要，同时为了应对跟踪漂移问题，对跟踪模板进行更新也非常必要。

为此，进一步地，在一个实施例中，该对象跟踪方法和装置还包括：根据所确定的对象在输入图像中的最终位置，分割对象和背景区域；通过分析对象和背景区域，评估各个候选特征集合区分对象和背景区域的能力；确定区分能力最强的第一候选特征集合和第二候选特征集合；判断是否要用第一候选特征集合来更新第一特征集合，以及判断是否要用第二候选特征集合来更新第二特征集合；以及如果确定要用第一候选特征集合来更新第一特征集合，则更新第一特征集合，以及基于该更新的第一特征集合和先前预定帧数的跟踪结果来重构第一跟踪模板，否则每预定帧数的图像更新第一跟踪模板且第一特征集合保持不变；以及如果确定要用第二候选特征集合来更新第二特征集合，则更新第二特征集合，以及基于该更新的第二特征集合和先前预定帧数的跟踪结果来重构第二跟踪模板。

由此，上述对象跟踪方法和装置一方面实时进行特征的选择，从而能够适应于不同的时刻和不同的环境采用最佳的特征；另一方面对跟踪的模板进行更新，因此能够使跟踪系统更加鲁棒。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1示意性地示出了根据本发明一个实施例的手跟踪技术用于人机交互的情景的示意图。

图2示出了根据本发明实施例的对象跟踪装置100的配置框图。

图3示出了根据本发明一个实施例的对象跟踪方法200的总体流程图。

图4(a)-(c)示出了一种给定手的位置信息，将深度信息用于分割过程中的手部区域和背景区域的分割方法示意图

图5(a)-(d)示出了示例性特征评估过程的一个示意图。

图6示出了根据本发明实施例的基于输入图像进行对象定位的示例性过程。

图7(a)-(c)图形地示意性示出了根据本发明实施例的基于第一跟踪模板和第二跟踪模板对输入图像进行对象定位的过程。

图8示出了根据本发明第二实施例的示例性对象跟踪方法300的总体流程图。

图9从另一角度示意性地图示了第三实施例的对象跟踪方法的过程。

图10示出了适于用来实现本发明实施方式的示例性计算系统600的框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

将以下述顺序进行描述

1、应用情景示例

2、对象跟踪装置

3、对象跟踪方法的第一实施例

4、对象跟踪方法的第二实施例

5、用于进行对象跟踪的计算系统

在下面的描述中，以跟踪对象为手进行说明，不过这仅为示例，实际上，本发明所跟踪的对象没有限制。

1、应用情景示例

图1示意性地示出了根据本发明一个实施例的手跟踪技术用于人机交互的情景的示意图。如图1所示，一部摄像机放置于计算机上方，用户站立于摄像机范围内。当用户在摄像机范围内移动他/她的手时，计算机能计算出手的真实位置信息，以达到对手实时跟踪的目的，手在不同时刻的位置点如图1中的圆点所示。

优选地，该摄像机能进行彩色图和深度图的采集，例如为双目相机。如本领域人员公知的，深度图像(Depth image)是图像中的像素点的值为深度的图像。相比于灰度图像，深度图像具有物体的深度（距离）信息，因此特别适合于需要立体信息的各种应用。另外，如公知的，一个像素点的深度值和视差值之间具有简单的换算关系，因此本发明的深度信息的含义是广义的，包括视差信息。

需要说明的是，图1只是一个示意性示例，用于跟踪手的设备不限于计算机，可以是例如游戏机，投影仪，电视机等等。

2、对象跟踪装置

下面参考图2描述根据本发明实施例的对象跟踪装置的配置示例。

图2示出了根据本发明实施例的对象跟踪装置100的配置框图。

如图2所示，对象跟踪装置100可以包括：图像输入部件110，用于顺序输入图像，例如从双目相机来输入彩色图像和深度图像；第一跟踪模板位置确定部件120，用于利用第一跟踪模板180确定对象在输入图像中的第一位置，其中第一跟踪模板基于第一特征集合；第二跟踪模板位置确定部件130，用于利用第二跟踪模板190确定对象在输入图像中的第二位置，第二跟踪模板基于第二特征集合，第一特征集合不同于第二特征集合，第一特征集合和第二特征集合的每个包括一个或多个特征；对象最终位置确定部件140，用于基于该第一位置和第二位置，确定对象在输入图像中的最终位置；第一跟踪模板更新部件150和第二跟踪模板更新部件160，第一跟踪模板更新部件每预定帧数的图像更新第一跟踪模板180，以及第二跟踪模板更新部件根据预设规则对第二跟踪模板190进行更新，第二跟踪模板190与第一跟踪模板180独立进行更新，且第二跟踪模板190的更新频率低于第一跟踪模板180。

可选地而非必需地，对象跟踪装置100可以包括在线特征更新部件170，如图2中的虚线方框和虚线箭头所指示的，该在线特征更新部件170可以根据对象最终位置确定部件140所确定的对象在输入图像中的最终位置，分割对象和背景区域；通过分析对象和背景区域，评估各个候选特征集合区分对象和背景区域的能力；确定区分能力最强的第一候选特征集合和第二候选特征集合；判断是否要用第一候选特征集合来更新第一特征集合，以及判断是否要用第二候选特征集合来更新第二特征集合；以及如果确定要用第一候选特征集合来更新第一特征集合，则更新第一特征集合，以及第一跟踪模板更新部件150基于该更新的第一特征集合来重构第一跟踪模板；以及如果确定要用第二候选特征集合来更新第二特征集合，则更新第二特征集合，以及第二跟踪模板更新部件160基于该更新的第二特征集合来重构第二跟踪模板。

需要说明的是，上述对象跟踪装置100的部件可以用软件程序来实现，例如通过通用计算机中的CPU结合RAM和ROM等以及其中运行的软件代码来实现。软件程序可以存储在诸如闪存、软盘、硬盘、光盘等存储介质上，在运行时加载到诸如随机访问存储器RAM上来由CPU执行。另外，除了通用计算机上，还可以通过专用集成电路和软件之间的合作来实现。所述集成电路包括通过例如MPU（微处理单元）、DSP（数字信号处理器）、FPGA（现场可编程门阵列）、ASIC（专用集成电路）等中的至少一个来实现。这样的通用计算机或者专用集成电路等例如可以与成像设备例如照相机来通信，以便对照相机拍摄获得的彩色图像和/或立体图像进行处理来得到对象跟踪结果，以及可选地还可以根据对象跟踪结果对所运行的应用进行控制。另外，对象跟踪装置100的各个部件可以用专门的硬件来实现，例如特定的现场可编程门阵列、专用集成电路等。另外，对象跟踪装置100的各个部件也可以利用软件和硬件的结合来实现。

需要说明的是，图2中所示的箭头只表示两个部件的功能之间存在逻辑关系，两个部件之间可以直接或者间接地操作性地连接。另外，即便图2中的某两个部件之间未示出某方向的箭头连接，但是这并不表明两者之间必然不存在该方向的逻辑关系，相反，两者之间可以存在操作性的连接关系，例如第一跟踪模板更新部件150和第二跟踪模板更新部件160和图像输入部件110之间可以存在逻辑关联，其中第一跟踪模板更新部件150和第二跟踪模板更新部件160在操作过程中可能需要利用图像输入部件110所输入的一帧或多帧图像。

上述对象跟踪装置100中的各个单元的结构和数量不对本发明的范围构成限制。根据本发明的一个实施例，上述图像输入部件110、第一跟踪模板位置确定部件120、第二跟踪模板位置确定部件130、对象最终位置确定部件140、第一跟踪模板更新部件150和第二跟踪模板更新部件160可以合并为一个独立的部件来执行和实现相应的功能和操作，或者可以将图像输入部件110、第一跟踪模板位置确定部件120、第二跟踪模板位置确定部件130、对象最终位置确定部件140、第一跟踪模板更新部件150和第二跟踪模板更新部件160进一步拆分为更小的单元来实现他们各自的功能和操作。

另外，需要说明的是，图2中所示的结构并不是排他式的，相反道对象跟踪装置100可以包括其他部件，例如显示部件，用于例如显示对象最终位置确定部件140处理后的结果，以及例如通信部件，用于将有关信息和/或中间处理结果传递到外部等。

3、对象跟踪方法的第一实施例

下面详细描述对象跟踪装置100的各部件的功能和操作的示例。如前所述，将以手为跟踪对象进行说明。

如图3所示，在步骤S210中，图像输入部件110顺序输入图像。

例如可以通过普通相机、双目相机、多目相机、立体相机拍摄图像，然后输入到图像输入部件110。输入到图像输入部件110的图像可以仅包括RGB彩色图像，也可以既包括RGB彩色图像也包括深度图像。

可选地，替代在本地直接从相机输入图像，也可以通过有线网络或者无线网络从远程接收图像。

在步骤S220中，第一跟踪模板位置确定部件120利用第一跟踪模板确定对象在输入图像中的第一位置，以及第二跟踪模板位置确定部件130利用第二跟踪模板确定对象在输入图像中的第二位置，其中第一跟踪模板基于第一特征集合形成，第二跟踪模板基于第二特征集合形成，第一特征集合不同于第二特征集合，第一特征集合和第二特征集合的每个包括一个或多个特征。

3.1特征集合的评估和跟踪模板的确定

对于跟踪启动前的初始第一和第二跟踪模板的确定，首先需要确定对应的第一特征集合和第二特征集合。

为此，可以针对一幅或多幅图像通过自动的手检测结果或人工标定得到手及其周围背景图像，即实现对象区域和背景区域的划分，由此得到一个或多个已经标识或者分类了的手部区域图像和背景区域图像的样本。然后可以基于这些样本来评估有关候选特征集合的区分对象和背景的能力。

下面参考图4(a)-(c)描述一种给定手的位置信息，将深度信息用于分割过程中的手部区域和背景区域的分割方法示例。

首先初步定位手和背景区域，例如可以使用现有的“中心环绕法”来初步划分手区域及手所对应的背景区域，如图4中的(a)图所示，标号1指示的矩形框（下文简称为矩形框1）内初步划分为手区域，矩形框1和标号2指示的矩形框（下文简称为矩形框2）之间的区域划分为背景区域。在图4的(a)中，可以观察到，在矩形框1内，除了真正属于手的图像像素外，还包括部分背景区域像素，如果将整个矩形框1内像素作为手前景像素，则会引入部分噪声。为了有效移除背景噪声，本实施例加入了深度信息，根据深度信息，可得到真实的手区域像素，如图4中的(b)所示。因此，如图4中的(c)所示，在矩形框2内，除了真实的手像素外，其余像素都定义为背景像素。基于图4中的(c)中所定义的手区域像素和背景像素，可以选择最能区分手及其背景像素的图像特征。

根据手的有效特征，可以确定一个种子特征库，每个种子特征都有可能在一定情况下将手从背景中区分开来，如颜色特征，形状特征，轮廓特征、面积特征等。各个种子特征之间的可能组合形成各个候选特征集合。在各个候选特征集合的形成中，可以事先添加一些限制以缩小搜索的范围从而提高计算效率，例如可以限定特征集合中的元素数目为1个或2个，特征集合的元素限于从颜色特征和形状特征中选择等等。在一个示例中，可以预先形成感兴趣的各个候选特征集合，例如以颜色特征形成一个候选特征集合、以形状特征形成另一个候选特征集合、以轮廓特征形状再一个候选特征集合、或者以某种特征组合形成其他候选特征集合，诸如此类。后续的第一特征集合和第二特征集合将从这样的预先形成的感兴趣的各个候选特征集合中进行选择，由此可以提高搜索效率。

这样，具有了手部区域和背景区域图像的样本，以及具有了候选特征集合，可以进行初始第一特征集合和第二特征集合的选择。需要说明的是，关于最初的第一特征集合和第二特征集合的确定，可以人工凭经验确定，也可以通过自动评估特征集合区分对象和背景区域的能力（下文中，适当地可简称为特征或特征集合的区分能力）、确定区分能力最强的第一候选特征集合和第二候选特征集合来分别作为第一特征集合和第二特征集合。

在一个实施例中，在后续跟踪过程中，可以不断重新评估各个候选特征集合的区分对象和背景区域的能力，并根据预定规则来进行第一特征集合和第二特征集合的更新。

关于评估特征集合的区分对象和背景区域的能力的方法，可以利用例如开放检验（CHI）、信息增益(information gain,IG)、互信息(mutual information,MI)、主成分分析（Principle Component Analysis,PCA）等方法。

在通过评估区分能力选定了第一特征集合和第二特征集合之后，则可以通过基于这些特征，对训练样本进行学习，来得到对应的第一跟踪模板和第二跟踪模板。例如，可以基于训练样本，计算所有特征的均值和方差来形成跟踪模板。

下面介绍一种采用对数相似度函数的方差比值作为最优特征评价依据来确定第一特征集合和第二特征集合的方法示例，以及再之后将介绍一种通过对象和背景的直方图分布的对数似然度比值(log likelihood ratio)来构造跟踪模板的方法示例。有关采用对数相似度函数的方差比值作为最优评价依据的详细介绍可以参考作者为Robert T.Collins等的发表于IEEE transactions onpattern analysis and machine intelligence,vol.27,no.10,2005年10月的标题为“Online Selection of Discriminative Tracking Features”的文章。

下文中，假定种子特征库有R、G、B三种颜色特征，最后选择的特征集合中只含有一种颜色特征，将参考图5描述特征选择过程（可以在后续跟踪过程中在线使用）的一个方法示例。

图5(a)-(d)示出了示例性特征评估过程的一个示意图。

(1)首先，分割对象像素区域和背景像素区域，如图5(a)所示，细节过程例如如图4中所示。

(2)从种子特征库中抽取一种特征f，分别计算该特征f在对象像素和背景像素上的直方图分布。下文中，分别使用H_obj和H_bg代表被跟踪对象和背景区域像素在各个特征值所对应的直方图分布。以图5(a)中所对应的对象和背景像素为例，假定采用R，G，B三种颜色特征作为示例，计算其直方图分布，如图5(b)所示，其中标号1指示的曲线表示对象像素在不同特征值上对应的直方图分布，而标号2指示的曲线表示其背景像素在不同特征值上所对应的直方图分布。

(3)通过特征评估函数计算打分并排序找到最具有区分能力的特征。在本实施例中，使用方差比值(variance ratio)评估方法，首先计算每个特征的各个特征值i的所对应的对数相似度比例值L(i)，计算公式如式(1)所示；然后通过公式(2)计算方差比值(variance ratio)，最后基于方差比值，找到区分能力排名靠前的特征，其中方差比值越大，表明该特征区分能力越强。

L (i) = \log \frac{\max (H_{obj} (i), δ)}{\max (H_{bg} (i), δ)} - - - (1)

VR (L; H_{obj}, H_{bg}) = \frac{var (L; (H_{obj} + H_{bg}) / 2)}{var (L; H_{obj}) + var (L; H_{bg})} - - - (2)

var (L; H) = Σ_{i} H (i) L^{2} (i) - {[Σ_{i} H (i) L (i)]}^{2} - - - (3)

在公式(1)中，H_obj(i)和H_bg(i)分别表示所对应特征在对象和背景上的特征值为i的直方图统计值。例如，假设特征值i=100，而在对应跟踪对象上特征值为100的像素个数有200个，那么H_obj(100)=200。通常情况下，需要对直方图统计值进行归一化，归一化范围为[0,1]之间。例如假设H_obj(100)=200，而对象像素总数为1000，那么归一化后H_obj(100)=0.2。δ为非常小的数，主要用于防止除数为0，δ可设置为0.0001或者更小值。

公式(2)用于计算方差比值(variance ratio)。公式(3)用于计算公式(2)中所表示的var(L,H)。

上述方差比值公式（2）背后的直观物理意义是，我们希望对象和背景上的像素的对数似然值都紧密地聚类（换句话说，同一类间的方差低），同时，我们希望两个聚类（即，对象和背景）之间理想地尽可能地分离（不同类间的方差高）。

根据方差比值，对种子特征库中的所有种子特征在当前图像中的区分能力进行评价，以找到对当前图像最具有区分性能的特征。如图5(d)中，以R，G，B三种简单的颜色特征为例，根据方差比值计算结果，对当前图像中物体和背景具有最好区分能力的特征为B，其次为R，最后为G。

在一个示例中，可以采用置信度图(confidence map)来表示不同特征在同一图像上所表现的区分能力，如图5(c)和图5(d)所示。置信度图越清晰，表示该特征区分性能越好。通过最终生成的置信度图的清晰度，验证了采用方差比值对特征区分能力进行评估的有效性，最终排序结果如图5(d)所示。

这样，在第一特征集合和第二特征集合内元素个数仅为1的情况下，换句话说，在第一跟踪模板和第二跟踪模板分别是基于一个特征构建的情况下，可以选择区分能力最强的前两个特征，作为第一最优特征和第二最优特征，来分别构建第一跟踪模板和第二跟踪模板。

在样本数为S1(S1帧图像)的情况下，即存在S1个对象和背景的直方图分布对(H_obj1,H_bg1),(H_obj2,H_bg2),…,(H_objS1,H_bgS1)，换种方式说，（H_obj1,H_obj2,…H_objS1）为S1帧中对象像素在不同特征值上所对应的直方图分布，（H_bg1,H_bg2,…H_bgS1）为S1帧中背景像素在不同特征值上所对应的直方图分布。需要说明的是，帧数S1可以为1帧。优选地，在该S1个样本中，对每个样本特征评估的结果，都是第一最优特征是区分能力最强的特征。不过这并非必需的，可以根据需要不要求第一最优特征在所有S1个样本中都表现为区分能力最强的特征。

在确定了第一跟踪模板基于的第一最优特征、以及第一样本集合(H_obj1,H_bg1),(H_obj2,H_bg2),…,(H_objS1,H_bgS1)的情况下，可以通过训练学习来建立初始第一跟踪模板T1，如公式(4)所示。有关训练学习方法例如有支持向量机、随机森林等。

T1=Learning((H_obj1,H_bg1),(H_obj2,H_bg2),…,(H_objS1,H_bgS1))^F1 (4)

公式(4)中的F1表示该第一跟踪模板T1的构建是基于第一最优特征F1的。

在本发明一个实施例中，通过类似于公式(1)的下式(5)来构建第一跟踪模板T1。

T 1 = \log (\frac{γ_{1} H_{obj 1} + γ_{2} H_{obj 2} + . . . + γ_{S 1} H_{objS 1}}{ρ_{1} H_{bg 1} + ρ_{2} H_{bg 2} + . . . + ρ_{S 1} H_{bgS 1}}) - - - (5)

(γ₁,γ₂,…γ_S1)表示不同物体直方图统计（H_obj1,H_obj2,…H_objS1）所对应的权重系数，(ρ₁,ρ₂,…ρ_S1)表示不同背景直方图（H_bg1,H_bg2,…H_bgS1）所对应的权重系数值。在一个示例中，假设S1个样本中的每个样本对初始跟踪模板的形成具有同等作用，因此(γ₁,γ₂,…γ_S1)和(ρ₁,ρ₂,…ρ_S1)的权重系数值相等且设置为1/S1。

类似地，假设存在S2个用于构建第二跟踪模板的样本(即S2帧图像)，即存在S2个对象和背景的直方图分布对(H_obj1,H_bg1),(H_obj2,H_bg2),…,(H_objS2,H_bgS2)，换种方式说，（H_obj1,H_obj2,…H_objS2）为S2帧中对象像素对应的直方图分布，（H_bg1,H_bg2,…H_bgS2）为S2帧中背景像素对应的直方图分布。需要说明的是，S2可以为1。优选地，在该S2个样本中，对每个样本特征评估的结果，都是第二最优特征是区分能力第二强的特征。不过这并非必需的，可以根据实际需求和限制等而不必需要求第二最优特征在所有S2个样本中都表现为区分能力第二强的特征。

类似于公式(4)，基于第二最优特征F2和第二样本集合S2，可以根据下述公式(6)来通过训练学习构造第二跟踪模板T2，

T2=Learning((H_obj1,H_bg1),(H_obj2,H_bg2),…,(H_objS1,H_bgS2))^F2 (6)

公式(6)中的F2表示该跟踪模板构建是基于第二最优特征F2的。

特别地，类似于公式(5)，在一个示例中，可以基于下式(7)来构建第二跟踪模板T2。

T 2 = \log (\frac{α_{1} H_{obj 1} + α_{2} H_{obj 2} + . . . + α_{S 2} H_{objS 2}}{β_{1} H_{bg 1} + β_{2} H_{bg 2} + . . . + β_{S 2} H_{bgS 2}}) - - - (7)

(α₁,α₂,…α_S2)为不同物体直方图统计（H_obj1,H_obj2,…H_objS2）所对应的权重系数，(β₁,β₂,…β_S2)则为不同背景直方图（H_bg1,H_bg2,…H_bgS2）所对应的权重系数值。在一个示例中，假设S2个样本中的每个样本对初始跟踪模板的形成具有同等作用，因此(α₁,α₂,…α_S2)和(β₁,β₂,…β_S2)的权重系数值相等且设置为1/S2。

另外，需要说明的是，第一跟踪模板和第二跟踪模板的构建可以基于相同的或不同的（或独立的）样本集合。不过，第一跟踪模板所基于的特征或特征集合一定不同于第二跟踪模板所基于的特征或特征集合。

另外，需要说明的是，前述描述中，第一跟踪模板被描述为基于第一最优特征（区分能力最强的特征），第二跟踪模板被描述为基于第二最优特征（区分能力第二强的特征）。不过这仅是示例，实际上，两者可以互换，即第一跟踪模板被描述为基于第二最优特征（区分能力第二强的特征），第二跟踪模板被描述为基于第一最优特征（区分能力最强的特征）。再或者，第一跟踪模板和第二跟踪模板并非必需基于区分能力为前两名的特征，而是可以出于某些考虑而基于区分能力再次的其它特征。一般地，每次选择的特征优选是区分能力较强的特征,不过判断特征是否具有较强的区分能力,可以有不同的评价标准,因此评价标准不同，得出的特征区分能力排序也不同。例如,假设颜色特征在一定情况下具有较强的区分能力而有些情况下则非常弱,而形状特征区分能力不强,但一直都具有一定的区分能力,所以在重视稳定性的情况下,形状特征可以视为区分能力强于颜色特征。。

另外，需要说明的是，根据直方图的具体形式，例如像素可能取值的数目，从数学上H_obj实际上是个多维向量，例如在选取的是R颜色特征的情况下，其特征值取值为256个，为0到255，则H_obj实际上表现为R取值为0的像素个数，R取值为1的像素个数，…，R取值为255的像素个数这样的256维向量的形式。当然，根据需要，可以设定取值区间，并进行统计，例如R取值划分为[0,7],[8,15],…[248,255]的区间，则此时H_obj表现为32维向量。注意，公式(1)、(5)、(7)的运算是对每一维都独立进行的。

另外，需要说明的是，前述示例以每个特征集合内的元素仅为一个特征为例进行了说明，不过这仅为示例，实际上每个特征集合内的元素可以多于一个。仍以前述的R、G、B颜色特征为例，此时选择两个颜色特征构成特征集合。在仍以前述的直方图分布来计算特征区分对象和背景的能力和选择特征的情况下，可以由两个特征的直方图组成联合直方图(joint histogram)或二维直方图，然后进行前述类似的处理。类似地，也可以选择三个或更多个特征来构成特征集合，例如有三个或以上特征的直方图组成联合直方图或对应维数的直方图，然后进行前述类似的处理。

上面描述了选择第一特征集合和第二特征集合，以及构建初始第一跟踪模板和第二跟踪模板的方法示例。如前所述，这仅为示例，其它特征选择方法和模板构建方法也可以用于本发明。

3.2手的定位

在给定第一跟踪模板和第二跟踪模板后，对于输入图像，可以分别利用第一跟踪模板和第二跟踪模板确定或搜索对象在输入图像中的位置，得到第一位置和第二位置。

在一个示例中，利用第一跟踪模板和第二跟踪模板确定或搜索对象在输入图像中的位置可以包括进行对象出现区域的预测操作，然后后续在该预测得到的对象出现区域内来搜索对象。

例如，可以根据对象的先前运动信息例如速度、加速度等，预测对象在输入图像中的候选出现区域。

具体地，例如，在局部范围内，手运动近似于匀速运动，如果以运动速度作为预测依据，那么在当前图像中，手可能出现的位置可以基于公式(8)和(9)来计算。目前，较常用的运动预测方法有kalman滤波、粒子滤波等，本实施例可以使用任何一种预测方法。

\{\begin{matrix} S_{x, t} = S_{x, t - 1} + V_{x, t - 1} * Δt \\ S_{y, t} = S_{y, t - 1} + V_{y, t - 1} * Δt \end{matrix} - - - (8)

\{\begin{matrix} V_{x, t - 1} = \frac{(S_{x, t - 1} - S_{x, t - 2})}{Δt} \\ V_{y, t - 1} = \frac{(S_{y, t - 1} - S_{y, t - 2})}{Δt} \end{matrix} - - - (9)

在公式(8)中，(S_x,t-1,S_y,t-1)为在上一帧中（t-1时刻）手的位置点的横坐标和纵坐标，(S_x,t,S_y,t)为在当前图像（t时刻）中，手可能出现的位置点的横坐标和纵坐标。Δt为连续两帧之间的时间间隔。公式(9)示出了运动速度计算公式。

在另一个示例中，位置区域的预测还包括深度（或距离）的预测。在这种情况下，上述公式(8)和(9)分别变为下面的公式（10）和（11）。

\{\begin{matrix} S_{x, t} = S_{x, t - 1} + V_{x, t - 1} * Δt \\ S_{y, t} = S_{y, t - 1} + V_{y, t - 1} * Δt \\ S_{z, t} = S_{z, t - 1} + V_{z, t - 1} * Δt \end{matrix} - - - (10)

\{\begin{matrix} V_{x, t - 1} = \frac{(S_{x, t - 1} - S_{x, t - 2})}{Δt} \\ V_{y, t - 1} = \frac{(S_{y, t - 1} - S_{y, t - 2})}{Δt} \\ V_{z, t - 1} = \frac{(S_{z, t - 1} - S_{z, t - 2})}{Δt} \end{matrix} - - - (11)

通过候选区域的预测，不仅可以降低处理时间，同时可以增强系统的鲁棒性，在本发明一个实施例中采用了常用的kalman预测方法，预测得到的候选区域见图6所示的图像中的矩形框。图6示出了根据本发明实施例的基于输入图像进行对象定位的示例性过程。

然后，在对象候选区域内，根据两种不同的跟踪模板，分别定位对象的位置。

根据跟踪模板的不同，对象定位方法也可以不同。例如，常见的对象定位方法或搜索方法为：以预定大小的滑动窗口来遍历对象候选区域，计算跟踪模板和滑动窗口所在区域之间的匹配度（或相似度），以匹配度（相似度）最高的窗口区域作为搜索到的对象区域，并进而确定对象位置。

在一个示例中，可以分别基于第一跟踪模板和第二跟踪模板采用后向投影法计算候选区域所对应的第一置信度图和第二置信度图，参见图6中的阶段2。然后根据不同的置信度图，采用均值漂移法（mean shift）计算置信度图的质心点，即手可能的跟踪位置点，参见图6中的阶段3。后向投影法计算得到的置信度图反映了当前图像区域所对应的像素满足目标图像的直方图分布程度，越符合目标直方图分布，表明该像素属于目标像素的可能性越大。图7(a)示意性地示出了在一个示例中由第一跟踪模板和第二跟踪模板对当前候选区域（如左图的方框所指示）计算所分别得到的第一置信度图和第二置信度图。置信度图中所对应的像素值越大（越亮），表示该像素属于目标物体的可能性越大，像素值越小（越暗），则表明该像素属于背景的可能性越大。图7(b)示意性地示出了在该示例中由均值漂移法计算得到的第一置信度图的质心点（对应于手的第一位置）和第二置信度图的置信度图（对应于手的第二位置）。

关于基于对数似然度比值来评价特征区分对象和背景的能力和均值漂移(mean shift)跟踪算法的详细介绍，可以参考2008年2月发表于ImageProcessing,IEEE Transactions on(Volume:17,Issue:2)的、作者为Junqiu Wang等的标题为“Integrating Color and Shape-Texture Featuresfor Adaptive Real-Time Object Tracking”的文章。

返回图3，在步骤S220中分别利用第一跟踪模板和第二跟踪模板确定了对象在输入图像中的位置，从而得到第一位置和第二位置之后，图3所示的过程前进到步骤S230。

在步骤S230中，基于该第一位置和第二位置，确定对象在输入图像中的最终位置。

此步骤对于第一位置和第二位置进行组合，以得到最后的位置点，参见图6中的阶段4。

在一个示例中，采用公式(12)来对于第一位置location_first和第二位置location_second进行组合，得到最后的位置点new location.

new location=α×location_first+β×location_second (12)

在公式(12)中，α和β分别表示第一位置location_first和第二位置location_second所对应的权重系数，其中α,β∈[0,1]且α+β=1。当第一位置location_first和第二位置location_second都被判断为同等可信时，可以设置α=β=0.5，否则可以实时调整权重系数。图7(c)给出了通过组合第一位置和第二位置得到的最终位置点的示意图。关于第一位置location_first和第二位置location_second的可信程度，可以主要根据跟踪结果的可信度判断，例如可以主要采用先验知识法对跟踪结果进行判断，如形状信息（手的长宽比例值），面积信息，深度信息，整个手区域的平均深度值等。

在步骤S230之后，前进到步骤S240。

在步骤S240中，每预定帧数进行第一跟踪模板更新，以及根据预设规则对第二跟踪模板进行更新，第二跟踪模板与第一跟踪模板独立进行更新，且第二跟踪模板的更新频率低于第一跟踪模板。

为了保证第一跟踪模板的自适应性，可以每预定帧数进行第一跟踪模板更新，例如每帧都进行第一跟踪模板更新，或者考虑到计算资源和实时需求等因素，可以例如每两帧或每更多帧来进行第一跟踪模板的更新。

具体地，在一个示例中，可以根据公式（13）进行第一跟踪模板更新。

T1_i=α×T1_candidate+（1-α）×T1_i-1其中i≥2 (13)

在公式(13)中，T1_i为更新后的第一跟踪模板，T1_candidate为当前候选目标，T1_i-1为上一帧所使用的跟踪模板，α为相似度权重值，其取值可以根据T1_candidate和T1_i-1之间的相似度来确定。

初始第一跟踪模板T1₁可以例如利用上述公式(4)来学习得到。

另外，为了保证第二跟踪模板的鲁棒性并且同时防止因为始终使用固定不变的第二跟踪模板而导致已经不适合环境等变化，可以根据预设规则对第二跟踪模板进行更新，第二跟踪模板与第一跟踪模板独立进行更新，且第二跟踪模板的更新频率低于第一跟踪模板。

例如，在一个示例中，可以每隔n2帧更新第二跟踪模板，而且假设每隔n1帧更新第一跟踪模板，则应该保证n2>n1。

在另一个示例中，可以评估第二跟踪模板所跟踪到的跟踪结果的可信度，如果该可信度低于预定阈值，则决定更新第二跟踪模板。

在另一个示例中，如下文所描述的，可以评估是否要更新第二跟踪模板所基于的第二特征集合，并且只有在判定要更新第二特征集合且已经更新了第二特征集合的情况下，才基于更新了的第二特征集合来更新（或重建）第二跟踪模板。

不管是根据何种预设规则来更新第二跟踪模板，第二跟踪模板与第一跟踪模板之间的更新都是独立的，而且第二跟踪模板的更新频率低于第一跟踪模板。

在步骤S240中判定了是否更新第一和第二跟踪模板以及如需要更新了第一和第二跟踪模板之后，可以结束处理，或者如果需要继续进行跟踪，则可以返回到步骤S210中，然后重复上述处理。

本发明上述实施例的对象跟踪方法综合了两种跟踪模板：第一跟踪模板和第二跟踪模板。第一跟踪模板和第二跟踪模板采用不同的特征集合建立得到。同时，本发明实施例中的两种跟踪模板更新的频率不同，两者独立进行更新，第二跟踪模板更新的频率低于第一跟踪模板。这样，第一跟踪模板更多地保证了自适应性，能够适应环境的变化，如光照条件变化、形状变化、背景变化等；而第二跟踪模板能在一定程度上保持跟踪模板的稳定性且不被噪声污染，同时也根据情况在必要时进行更新。因此最终形成的跟踪模板能更好的适应不同的环境且保证足够稳定，彼此互补，从而增强了跟踪方法的鲁棒性。

4、对象跟踪方法的第二实施例

上述第一实施例中仅描述了进行模板更新。下面即将描述的第二实施例的对象跟踪方法既进行在线模板更新也进行在线特征更新。

下面参考图8描述根据本发明第二实施例的对象跟踪方法300的总体流程。

图8示出了根据本发明第二实施例的示例性对象跟踪方法300的总体流程图。图8中所示的第二实施例的对象跟踪方法300与图3所示的对象跟踪方法200的不同在于步骤S340到S390，下面重点描述步骤S340到S390，其余步骤S310、S320和S330与结合图3描述的步骤S210、S220和S230基本相同，这里不再赘述。

如图所示，在步骤S340中，判定是否要更新第一特征集合。

在一个实施例中，判定是否要更新第一特征集合包括基于目前跟踪结果（由步骤S330得到的对象位置），重新评估各个候选特征集合区分对象和背景区域的能力，并且如果发现评估得到的最强的特征集合不同于先前使用的第一特征集合，则可以考虑进行特征更新。在另一个实施例，可以考虑是否连续多帧的特征集合的重新评估所得到的最强的特征集合都相同，而且不同于先前使用的特征集合，并且只有在同时满足的情况下，才考虑更新特征集合。

具体地，在一个示例中，可以如下判定是否要更新第一特征集合：

（1）根据所确定的对象在输入图像中的最终位置，分割对象和背景区域；

（2）通过分析对象和背景区域，评估各个候选特征集合区分对象和背景区域的能力；

（3）确定区分能力最强的第一候选特征集合；

（4）如果当前确定的区分能力最强的第一候选特征集合不同于当前所使用的第一特征集合，则保存该区分能力最强的第一候选特征集合，并保存当前图像作为候选样本。如果该第一候选特征集合在后续的连续m1帧中都被评估为区分能力最强的候选特征集合，则可以认为当前所使用的第一特征集合已经不适合当前跟踪环境，确定要更新第一特征集合；否则认为不要更新第一特征集合。m1为正整数，其大小可以人工设定或通过学习确定。

如果在步骤S340中判定要更新第一特征集合，则前进到步骤S350。

在步骤S350中，用第一候选特征集合替换当前的第一特征集合，并且相应地重建第一跟踪模板。在本文中，更新可以做广义的解释，因此重建也被视为更新的一种。

关于重建第一跟踪模板的方法，因为具有了第一特征集合和样本集合（由前述各个候选样本组成），所以在一个示例中，可以基于前述的构建初始第一跟踪模板的方法重建第一跟踪模板（例如，参见前面公式(4)和(5)）。

在步骤S350完成后，前进到步骤S370。

另一方面，如果在步骤S340中确定不需要更新第一特征集合，则前进到步骤S360。

在步骤S360中，类似于结合图3的步骤S240中的部分所描述的，每预定帧数更新第一跟踪模板。需要说明的是，如果经历了第一特征集合更新和第一跟踪模板更新，则此时帧数计数可以清零重新统计。

接下来，在步骤S370中，判定是否要更新第二特征集合。与前述步骤S340类似，在一个示例中，可以如下判定是否要更新第二特征集合：

（3）确定区分能力第二强的第二候选特征集合；

（4）如果当前确定的区分能力第二强的第一候选特征集合不同于当前所使用的第二特征集合，则保存该区分能力最强的第二候选特征集合，并保存当前图像作为候选样本。如果该第二候选特征集合在后续的连续m2帧中都被评估为区分能力第二强的候选特征集合，则可以认为当前所使用的第二特征集合已经不适合当前跟踪环境，确定要更新第二特征集合；否则认为不要更新第二特征集合。m2为正整数，其大小可以人工设定或通过学习确定。

需要说明的是，在本步骤S370和前述步骤S340，分别以区分能力第一强的特征集合作为第一特征集合的替代候选，和以区分能力第二强的特征集合作为第二特征集合的替代候选。不过这仅为示例，实际上可以根据初始选取第一特征集合和第二特征集合的规则不同，而后续确定作为替代候选的规则也不同。

如果在步骤S370中，确定要更新第二特征集合，则前进到步骤S380。

在步骤S380中，用第二候选特征集合替换当前的第一特征集合，并且相应地重建第二跟踪模板。请注意，在本文中，更新可以做广义的解释，因此重建也被视为更新的一种。

关于重建第二跟踪模板的方法，因为具有了第二特征集合和样本集合（由前述各个候选样本组成），所以在一个示例中，可以基于前述的构建初始第二跟踪模板的方法重建第二跟踪模板（例如，参见前面公式(6)和(7)）。

如果在步骤S370中，确定不要更新第二特征集合，则前进到步骤S390。

在步骤S390中，类似于结合图3的步骤S240中和第二跟踪模板更新相关的部分所描述的，按预设规则对第二跟踪模板进行更新。例如，如前所述在一个示例中，可以每隔n2帧更新第二跟踪模板，而且假设每隔n1帧更新第一跟踪模板，则应该保证n2>n1。在另一个示例中，可以评估第二跟踪模板所跟踪到的跟踪结果的可信度，如果该可信度低于预定阈值，则决定更新第二跟踪模板。

另外，如果如前所述，预设规则为只有在判定要更新第二特征集合且已经更新了第二特征集合的情况下，才基于更新了的第二特征集合来更新（或重建）第二跟踪模板，则因为在步骤S380中已经重建（或更新）第二跟踪模板，则此时步骤S380和S390可以合并为一个步骤，或者说可以在步骤S390不进行任何更新操作。

在步骤S380或S390后，可以结束处理，或者如果需要继续进行对象跟踪，则可以返回到步骤S310中，然后重复上述处理。

为帮助理解，图9从另一角度示意性地图示了第三实施例的对象跟踪方法的过程。由图9所示，在当前位置，得到了如图像中矩形框所示意的对象和背景的分割结果，然后通过评估各个候选特征集合区分对象和背景的能力，得到了第一候选特征集合和第二候选特征集合；判断是否满足用第一候选特征集合更新第一特征集合的条件，如果满足，则更新第一特征集合并重构第一跟踪模板，否则每预定帧数更新第一跟踪模板；类似地判断是否满足用第二候选特征集合更新第二特征集合的条件，如果满足，则更新第二特征集合并重构第二跟踪模板，否则按预定规则更新第二跟踪模板（包括不更新第二跟踪模板）。

由此，上述对象跟踪方法实时进行特征的选择，从而能够适应于不同的时刻和不同的环境采用最佳的特征；同时，对跟踪的模板进行更新，能够进一步提供更平衡的自适应性和稳定性。

5、用于进行对象跟踪的计算系统

本发明还可以通过一种用于进行对象跟踪的计算系统来实施。图10示出了适于用来实现本发明实施方式的示例性计算系统600的框图。如图10所示，计算系统600可以包括：CPU（中央处理单元）601、RAM（随机存取存储器）602、ROM（只读存储器）603、系统总线604、硬盘控制器605、键盘控制器606、串行接口控制器607、并行接口控制器608、显示控制器69、硬盘610、键盘611、串行外部设备612、并行外部设备613和显示器614。在这些设备中，与系统总线604耦合的有CPU601、RAM602、ROM603、硬盘控制器605、键盘控制器606、串行控制器607、并行控制器608和显示控制器609。硬盘610与硬盘控制器605耦合，键盘611与键盘控制器606耦合，串行外部设备612与串行接口控制器607耦合，并行外部设备613与并行接口控制器608耦合，以及显示器614与显示控制器609耦合。应当理解，图16所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

所属技术领域的技术人员知道，本发明可以实现为系统、装置、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”、“装置”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

上面参照本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品（manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

前述描述仅为说明性的，可以进行很多修改和/或替换。

例如，前面描述中，跟踪对象示例为手，不过这仅为示例，跟踪对象可以为人脸、整个人体、其它能动的物体等等。

再例如，前面描述中，以颜色特征为例说明了特征评估、特征选择和模板构建，不过这仅为示例。实际上，所采用的特征没有限制，可以为形状特征、轮廓特征、面积特征等等。

再前面的描述中，利用方差比率来评估特征区分对象和背景的能力，实际上可以利用其它方法来评估特征，例如开放检验（CHI）、信息增益(informationgain,IG)、互信息(mutual information,MI)、主成分分析（Principle ComponentAnalysis,PCA）等方法。

再例如，前面的描述中，对象定位方法描述为采用后向投影、获得置信度、然后采用均值漂移方法来确定对象的位置。实际上可以采用其它对象定位方法，例如欧式距离计算、其它相似度计算方法等等。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种对象跟踪方法，包括：

顺序输入图像；

利用第一跟踪模板确定对象在输入图像中的第一位置，以及利用第二跟踪模板确定对象在输入图像中的第二位置，其中第一跟踪模板基于第一特征集合形成，第二跟踪模板基于第二特征集合形成，第一特征集合不同于第二特征集合，第一特征集合和第二特征集合的每个包括一个或多个特征；以及

基于该第一位置和第二位置，确定对象在输入图像中的最终位置，

其中，每预定帧数进行第一跟踪模板更新，以及根据预设规则对第二跟踪模板进行更新，第二跟踪模板与第一跟踪模板独立进行更新，且第二跟踪模板的更新频率低于第一跟踪模板。

2.根据权利要求1的对象跟踪方法，还包括：

根据所确定的对象在输入图像中的最终位置，分割对象和背景区域；

通过分析对象和背景区域，评估各个候选特征集合区分对象和背景区域的能力；

确定区分能力最强的第一候选特征集合和第二候选特征集合；

判断是否要用第一候选特征集合来更新第一特征集合，以及判断是否要用第二候选特征集合来更新第二特征集合；以及

如果确定要用第一候选特征集合来更新第一特征集合，则更新第一特征集合，以及基于该更新的第一特征集合和先前预定帧数的跟踪结果来重构第一跟踪模板，否则每预定帧数的图像更新第一跟踪模板且第一特征集合保持不变；以及如果确定要用第二候选特征集合来更新第二特征集合，则更新第二特征集合，以及基于该更新的第二特征集合和先前预定帧数的跟踪结果来重构第二跟踪模板。

3.根据权利要求1的对象跟踪方法，利用第一跟踪模板确定对象在输入图像中的第一位置和利用第二跟踪模板确定对象在输入图像中的第二位置包括：

根据对象的运动信息，预测对象在输入图像中的候选出现区域；

在候选出现区域内，利用第一跟踪模板确定对象在输入图像中的第一位置和利用第二跟踪模板确定对象在输入图像中的第二位置。

4.根据权利要求1的对象跟踪方法，其中每预定帧数的图像更新第一跟踪模板包括：每帧输入图像都更新第一跟踪模板。

5.根据权利要求1的对象跟踪方法，所述利用第一跟踪模板确定对象在输入图像中的第一位置，和利用第二跟踪模板确定对象在输入图像中的第二位置包括：

分别根据第一跟踪模板和第二跟踪模板，计算对象在输入图像中所对应的候选区域的第一置信度图和第二置信度图；以及

分别根据第一置信度图和第二置信度图，利用均值漂移得到对象在第一置信度图上的第一位置和对象在第二置信度图上的第二位置，作为所述对象在输入图像中的第一位置和所述对象在输入图像中的第二位置。

6.根据权利要求1的对象跟踪方法，所述基于该第一位置和第二位置，确定对象在输入图像中的最终位置包括：

分别确定第一位置的可信度和第二位置的可信度；

根据第一位置的可信度和第二位置的可信度来确定第一位置所占的权重比例值和第二位置所占的权重值；以及

根据第一位置的权重和第二位置的权重，计算第一位置和第二位置的加权和，作为所述对象在输入图像中的最终位置。

7.根据权利要求1的对象跟踪方法，其中所述每预定帧数的图像更新第一跟踪模板包括：

基于当前跟踪模板和当前跟踪到的对象的加权和来得到更新后的第一跟踪模板。

8.根据权利要求2的对象跟踪方法，其中每个特征集合可由一个单独特征组成也可以为多个特征的组合组成，以及所述通过分析对象和背景区域，评估各个候选特征区分对象和背景区域的能力包括：

分别计算各个特征集合在对象和背景区域像素上的直方图分布；以及

通过特征评估函数来评估各个特征集合区分对象和背景区域的能力。

9.根据权利要求2的对象跟踪方法，其中所输入的图像包括深度信息，以及所述根据所确定的对象在输入图像中的最终位置，分割对象和背景区域包括结合深度信息来分割对象和背景区域。

10.一种对象跟踪装置，包括：

图像输入部件，用于顺序输入图像；

第一跟踪模板位置确定部件，利用第一跟踪模板确定对象在输入图像中的第一位置，其中第一跟踪模板基于第一特征集合形成；

第二跟踪模板位置确定部件，利用第二跟踪模板确定对象在输入图像中的第二位置，第二跟踪模板基于第二特征集合形成，第一特征集合不同于第二特征集合，第一特征集合和第二特征集合的每个包括一个或多个特征；

对象最终位置确定部件，基于该第一位置和第二位置，确定对象在输入图像中的最终位置；以及

第一跟踪模板更新部件和第二跟踪模板更新部件，其中，第一跟踪模板更新部件每预定帧数更新第一跟踪模板，以及第二跟踪模板更新部件根据预设规则对第二跟踪模板进行更新，第二跟踪模板与第一跟踪模板独立进行更新，且第二跟踪模板的更新频率低于第一跟踪模板。