CN104574433A

CN104574433A - 对象跟踪方法和设备、跟踪特征选择方法

Info

Publication number: CN104574433A
Application number: CN201310479162.3A
Authority: CN
Inventors: 刘丽艳
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2013-10-14
Filing date: 2013-10-14
Publication date: 2015-04-29
Also published as: JP2015079502A; US20150104067A1

Abstract

提供了一种对象跟踪方法和设备，以及跟踪特征选择方法。所述对象跟踪方法包括：利用预先选择的第一跟踪特征在包含所述对象的视频帧序列中进行对象跟踪；在视频帧的场景发生改变时，选择对于改变后的场景具有最佳跟踪性能的第二跟踪特征；利用选择的该第二跟踪特征继续进行对象跟踪。通过该对象跟踪方法，能够在手的跟踪过程中根据场景的改变动态选择在相应场景具有最佳跟踪性能的特征，从而实现精确的跟踪。

Description

对象跟踪方法和设备、跟踪特征选择方法

技术领域

本发明总体涉及人机交互领域，更具体地涉及人机交互中的对象跟踪方法和设备。

背景技术

对象跟踪是人机交互领域中非常重要且关键的一部分。目前，对于作为对象跟踪的代表的手的跟踪，研究者已经进行了大量的研究，并提出了一些手的跟踪方法，例如采用手的颜色特征进行跟踪的方法、采用手的深度特征进行跟踪的方法等。

然而，手是非刚性物体，其在运动过程中会产生形变以及形状不统一等现象；另外，手的运动有很多独特的特性，例如手的运动速度时刻会发生变化，而手的快速运动会导致图像中手的信息发生模糊等等。因此，很难找到某种单一的手的特征，其在手的整个运动过程中的各种场景下均能获得最好的跟踪效果。

美国专利US8213679B2公开了一种用于移动目标跟踪和计数的方法。在该方法中，基于在线特征选择，在相邻的每两个视频帧上，利用预先建立的特征池中的所有特征计算当前帧的目标区域与上一帧的目标区域之间的匹配度，然后利用具有最高匹配度的特征进一步计算综合匹配度。按照该方法，在进行跟踪时，在目标移动过程中拍摄的不同的视频帧上可能采用不同的特征进行跟踪。然而，该方法在每两个视频帧上都进行复杂的匹配计算，计算量较大，处理速度慢。

发明内容

根据本发明的实施例，提供了一种对象跟踪方法，包括：利用预先选择的第一跟踪特征在包含所述对象的视频帧序列中进行对象跟踪；在视频帧的场景发生改变时，选择对于改变后的场景具有最佳跟踪性能的第二跟踪特征；利用该第二跟踪特征继续进行对象跟踪。

根据本发明的另一实施例，提供了一种对象跟踪设备，包括：特征选择部件，在视频帧的场景发生改变时，选择对于改变后的场景具有最佳跟踪性能的跟踪特征，并通知跟踪部件该跟踪特征；以及跟踪部件，利用选定的跟踪特征在包含所述对象的视频帧序列中进行对象跟踪。

根据本发明的另一实施例，提供了一种用于对象跟踪的跟踪特征选择方法，包括：响应于包含所述对象的视频帧的场景发生改变，选择对于改变后的场景具有最佳跟踪性能的跟踪特征。

根据本发明实施例的对象跟踪和跟踪特征选择技术能够在跟踪过程中，根据场景的改变动态选择在相应场景具有最佳跟踪性能的特征，从而实现精确的跟踪。

附图说明

图1示意性地示出了根据本发明实施例的对象跟踪技术的可能的应用场景。

图2示出了根据本发明实施例的对象跟踪方法的流程图。

图3示出了根据本发明实施例的利用预先选择的跟踪特征在包含手的视频帧序列中进行手的跟踪的流程图。

图4例示了两种不同的跟踪特征在整个训练数据集上的特征分布的示意图。

图5例示了采用跟踪误差来表示跟踪性能时两个不同的特征在训练数据集上的跟踪性能的对比。

图6例示了根据本发明实施例的在视频帧的场景发生改变时选择对于改变后的场景具有最佳跟踪性能的跟踪特征的流程图。

图7例示了应用根据本发明实施例的跟踪方法的示意图。

图8示出了根据本发明实施例的对象跟踪设备的功能配置框图。

图9示出了根据本发明实施例的对象跟踪系统的总体硬件框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

图1示意性地示出了根据本发明实施例的对象跟踪技术的可能的应用场景。如图1所示，用户站在摄像机101的摄像范围内，该摄像机101对用户进行拍摄。摄相机101可以是仅提供彩色图像的相机，也可以是既提供彩色图像也提供深度图像的相机，例如Primesense,Kinect等等。当用户在摄像机范围内移动他/她的例如手时，诸如计算机的处理设备102能够基于摄像机101拍摄的视频帧，选择适当的特征进行手的跟踪，最终输出手在视频帧中的位置。需要说明的是，图1仅仅图示了本发明的一种可能的应用场景，根据实际情况，应用场景中的装置可以相应地增加或减少，并具有不同的配置。

为了便于描述，下文中将以手的跟踪为例，对根据本发明的对象跟踪技术进行描述。

首先对本发明的手跟踪技术的基本思想进行简要的描述。如前所述，手是非刚性物体，具有运动快、易变形等特点。因此，很难找到某种单一的手的特征，其在手的整个运动过程中的各种场景下均能获得最好的跟踪效果。针对这一情况，本发明提出了一种在手的跟踪过程中根据具体场景的变化、动态选择适合于当前场景的特征来进行跟踪的跟踪技术。例如，当手进行快速运动时，手的模糊边缘信息不清晰甚至会丢失，对于这一场景，颜色特征具有很好的区分效果。因此当在跟踪过程中出现这一场景时，可以考虑动态选择颜色特征来进行跟踪。再比如，当手运动到脸部附近时，由于二者颜色相近，颜色特征区分度下降，而深度特征却显示了很好的区分效果。因此当在跟踪过程中出现这一场景时，可以考虑动态选择深度特征来代替颜色特征进行跟踪。另外，对于某一场景，不仅可以选择单一特征用于手的跟踪，也可以选择多种特征的组合进行跟踪。这样，通过在手的跟踪过程中根据具体场景的变化、动态选择适合于当前场景的特征来进行跟踪，能够实现精确的跟踪。

图2示出了根据本发明实施例的对象跟踪方法的流程图。

如图2所示，在步骤S210，利用预先选择的第一跟踪特征在包含手的视频帧序列中进行手的跟踪。

跟踪特征是作为手的表征特征的、能够在手的跟踪中产生好的跟踪性能的特性。例如前面提到的颜色特征、深度特征，还可以是例如边缘特征、灰度特征等等。

在该步骤中，用来进行跟踪的第一跟踪特征可以是预先选择的适合于当前场景的跟踪特征，或根据任何其他适当的方式预先选择的跟踪特征。以下将参考图3对该步骤S210的处理进行描述。

如图3所示，在步骤S310，逐帧顺序计算利用所述第一跟踪特征进行跟踪所获得的跟踪结果的置信度，直至跟踪结果的置信度小于预定的置信度阈值的起始视频帧T，其中该起始视频帧T的前一视频帧T-1的跟踪结果的置信度大于等于该置信度阈值。

利用第一跟踪特征进行的具体跟踪处理可以按照任何公知方法来进行，例如卡尔曼滤波方法，或粒子滤波方法等等，此处不进行详细描述。

根据本发明实施例的手的跟踪是一个实时的在线过程。在该步骤中，对于获取到的每一个包含手的视频帧，实时地利用第一跟踪特征进行手的跟踪，并计算跟踪所获得的跟踪结果的置信度，直至出现了跟踪性能下降的起始视频帧T，即利用第一跟踪特征在视频帧T中的跟踪结果的置信度小于预定置信度阈值，而在视频帧T-1中的置信度大于等于该置信度阈值。置信度反映跟踪结果的可信程度，能够理解，置信度降低表明当前选择的跟踪特征的跟踪性能降低，也就是说当前选择的跟踪特征不再适合目前的视频帧下的场景，即发生了场景的改变。因此，举例来说，假设在包含手的视频帧序列的前100帧中，手一直在做快速运动，由于在该100帧中一直采用颜色作为跟踪特征进行跟踪，因此各帧的跟踪性能均较高，而在第101帧，手移动到了脸部附近，由于手和脸的颜色相近，颜色特征区分度下降，导致在第101帧采用颜色进行跟踪的跟踪结果的置信度降低，跟踪性能下降，该第101帧即上述跟踪性能下降的起始视频帧T。

置信度可以通过任何适当的方式来计算。考虑到手在同一场景的相邻两帧上的例如颜色距离和位置距离应该变化不大，一种计算置信度的示例方式如下所示：

Confidence_i=¹/(D(Color_i,Color_i-1)+D(Pos_i,Pos_i-1)) …(1)

其中，Confidence_i表示第i帧的跟踪结果的置信度，D(color_i，color_i-1)表示第i帧与第i-1帧的颜色距离，D(Pos_i，Pos_i-1)表示第i帧与第i-1帧的位置距离。可以采用任何适当的方法来计算颜色距离和位置距离。例如，一种计算颜色距离的方法是计算相邻两帧中跟踪到的手的跟踪区域的颜色直方图的距离，例如Bhattacharyya距离；一种计算位置距离的方法是计算相邻两帧中跟踪到的手的位置的欧式距离。如果Confidence_i小于预先设定的置信度阈值，则认为当前选择的跟踪特征在第i帧中的跟踪性能下降，其中置信度阈值可以根据具体应用环境按照经验来设定。

回到图3，在步骤S320，在起始视频帧T之后的k个视频帧中继续利用所述第一跟踪特征进行手的跟踪，并逐帧计算所获得的跟踪结果的置信度，其中k>0。

在前面的步骤S310中提到由于跟踪场景发生改变，导致出现了跟踪性能下降的起始视频帧T。然而，事实上，在视频帧T中跟踪性能下降有可能是是由于获取的视频帧中存在噪声等其他干扰因素造成的。为此，在步骤S320中，在出现了性能下降的起始视频帧T后，并不立即改变用于进行跟踪的跟踪特征，而是设定一个“容忍期”，在该“容忍期”中继续利用所述第一跟踪特征进行手的跟踪，并观察在此期间跟踪性能是否发生了好转。“容忍期”的长度可以根据具体的跟踪环境按照经验来设定，例如“容忍期”可以是性能下降的起始视频帧T之后的k个视频帧，其中k>0。在步骤S330，如果确定从所述k个视频帧中的某一视频帧开始丢失被跟踪的手，或者如果视频帧T+k的跟踪结果的置信度仍小于所述置信度阈值，则确定视频帧的场景发生了改变；否则，利用所述第一跟踪特征继续进行跟踪。

在该步骤中，根据利用第一跟踪特征在所述k个视频中进行跟踪的跟踪结果进行相应的处理。具体的，如果从k个视频帧中的某一视频帧开始丢失被跟踪的手（即跟踪失败），或者如果在视频帧T+k中的跟踪结果的置信度仍小于所述置信度阈值，即“容忍期”结束后，跟踪性能仍未好转，则说明场景已经发生了改变，并且在当前的场景下，第一跟踪特征不能获得好的跟踪性能。相反，如果跟踪性能发生了好转，例如从“容忍期”内的某一视频帧开始置信度恢复为大于等于置信度阈值，并且在后续帧内置信度保持大于等于置信度阈值，则说明第一跟踪特征在当前的场景下能够获得好的跟踪性能，因此可以利用所述第一跟踪特征继续进行跟踪。

回到图2，在步骤S220，在视频帧的场景发生改变时，选择对于改变后的场景具有最佳跟踪性能的第二跟踪特征。

如果视频帧的场景发生了变化，第一跟踪特征在改变后的场景下不能获得好的跟踪性能，则在该步骤S220中，可以采用任何适当的方式选择对于改变后的场景具有最佳跟踪性能的跟踪特征。在一种示例方式中，可以基于预先计算的每种跟踪特征在训练数据集中的每种场景下的跟踪性能，来选择具有最佳跟踪性能的第二跟踪特征，其中训练数据集是由各种场景下的、包含手的训练视频帧组成的。在该示例方式中，预先计算每种可能的跟踪特征在每种可能的场景下的跟踪性能，由此在确定了改变后的场景是哪种场景后，可以容易地选择在该场景具有最佳跟踪性能的跟踪特征。可以使用本领域中任何公知的方法来预先计算每种可能的跟踪特征在每种可能的场景下的跟踪性能，为了说明的完整，下面将对其中的一种示例性方法进行简单的介绍。

首先，构建特征池，其中包括根据经验可能在手的跟踪中产生好的跟踪性能的特性，例如上文中提到颜色特征、深度特征、边缘特征、灰度特征等单一特征，以及多种单一特征的组合特征，等等。此外，收集训练数据集。能够理解，训练数据集应当尽可能涵盖手的运动所涉及到的各种不同场景，尤其是人机交互领域中手的运动可能涉及的各种不同场景。随后，将训练数据（即包含手的视频帧）按照手的运动所涉及的场景进行分组。所述手的运动所涉及的场景例如前文中提到的手进行快速运动的场景、手运动到脸部附近的场景，等等。可以理解，这两种场景仅仅是一个示例，场景的数量以及具体的场景种类均可以根据实际应用来设定。

在训练数据被分组为不同场景后，对于每个场景下的每一个视频帧，可以通过利用矩形框描绘手的区域或者利用点描绘手的中心点位置等等，来人工标注手在其中的位置，作为真实基准（ground truth）。此外，对于每一个场景，计算特征池中的每个特征在该场景上的特征分布。特征分布反映了跟踪特征在该场景中的每一帧上的具体值。例如，如果采用深度值作为跟踪特征，则每一帧上的具体值即在每一帧上检测出的手的深度值。例如，参见图4，其例示了两种不同的跟踪特征在整个训练数据集上的特征分布的示意图。

另外，在训练数据被分组为不同场景后，利用特征池中的每种特征在所有场景下进行离线的手的跟踪。例如，如果特征池中包含有r种特征（单一特征或组合特征），则针对这r种特征中的每一种特征进行一轮手的跟踪，并在每一轮跟踪中，利用该轮跟踪所针对的特征在所有场景下进行手的跟踪。随后，针对每种跟踪特征，计算其在每种场景下的平均跟踪性能。跟踪性能可以通过例如跟踪精度、跟踪误差、跟踪失败的次数（丢失跟踪对象）等各种参数或其组合来表示。例如，下面的表达式（2）示出了利用跟踪失误和跟踪失败的次数的组合来表示平均跟踪性能的示例方式：

Avg . {PR}_{m} = \frac{Σ_{i = 1}^{n} {error}_{i}}{n} \times \frac{1 + {losstimes}_{m}}{n} . . . (2)

其中，Avg.PR_m表示某一特征在场景m下的平均跟踪性能，error_i表示该特征在场景m中的第i帧上的跟踪误差，该跟踪误差可以通过人工标注的手在该帧上的位置的真实基准与进行所述离线跟踪得到的手在该帧上的位置之间的距离来表示，n是训练数据集中的场景m下的视频帧的数量，losstimes_m表示该特征在场景m下跟踪失败的次数。通过上述表达式（2）计算出的Avg.PR值越小，则表示特征的跟踪性能越好。

由此，通过例如上述表达式（2），可以预先计算出每种可能的跟踪特征在每种可能的场景下的跟踪性能。容易理解，上述表达式（2）可以扩展至针对整个训练数据集，即计算出每个特征在整个训练数据集上的平均跟踪性能。

图5例示了采用跟踪误差来表示跟踪性能时两个不同的特征在训练数据集上的跟踪性能的对比。在图5中，横轴表示视频帧序列号，纵轴表示某特征的跟踪误差。左图表示特征q在训练数据集上的跟踪性能，从该图可以看出，随着场景的不同，该特征q的跟踪性能也相应发生变化。右图表示特征p在训练数据集上的跟踪性能，从该图可以看出，在大约第100帧时，特征p的跟踪误差急剧增大，跟踪性能急剧下降，很快丢失了跟踪对象，跟踪失败。

回到步骤S220，根据上文的描述可知，在该步骤中只需确定场景发生改变后具体变化到哪种场景，就可以根据预先计算出的每种可能的跟踪特征在每种可能的场景下的跟踪性能，选择对于具体变化到的场景具有最佳跟踪性能的特征。下面将参考图6进行描述。

如图6所示，在步骤S610，计算所述第一跟踪特征在从视频帧T到视频帧T+k的k+1个视频帧上的特征分布。

在步骤S620，计算该特征分布与预先计算的所述第一跟踪特征在训练数据集中的每种场景下的特征分布之间的距离。

如前所述，在从视频帧T到视频帧T+k的k+1个视频帧上，使用第一跟踪特征不能获得好的跟踪性能，由此确定从视频帧T开始发生了场景的改变。此处，为了便于说明，将改变到的当前场景表示为Situation_current。另外，如前所述，预先对于每一种可能的场景计算了特征池中的每个可能的特征在该场景上的特征分布。

因此，在该步骤S620中，可以计算第一跟踪特征在所述k+1个视频帧上的特征分布与第一跟踪特征在训练数据集中的每种场景下的特征分布之间的各个对应距离。

在步骤S630，确定与所述距离中的最小距离相对应的训练数据集中的场景。

在该步骤中，确定在步骤S620计算得到的各个对应距离中的最小距离，并确定与该最小距离相对应的训练数据集中的场景Situation_minD。该场景可以通过如下的表达式来表示：

{Situation}_{\min D} = {(D ({feature}_{1 {Situation}_{current}}, {feature}_{1 {Situation}_{i}}))}_{i &Element; (1, M)}^{Min} . . . (3)

其中，M是训练集中的场景的数量，是第一特征在场景Situation_current中的特征分布与第一特征在训练数据集中的第i个场景Situation_i中的特征分布之间的距离。可以利用本领域中任何公知的方法来计算特征分布之间的距离，此处不再赘述。能够理解，Situation_minD是训练数据集中的各场景中与改变后的当前场景Situation_current相同或最为近似的场景。

在步骤S640，基于预先计算的每种跟踪特征在训练数据集中的每种场景下的跟踪性能，确定对于所述与最小距离相对应的训练数据集中的场景具有最佳跟踪性能的跟踪特征，作为所述第二跟踪特征。

如前所述，已经通过例如表达式（2）预先计算了每种可能的跟踪特征在每种可能的场景下的平均跟踪性能Avg.PR，因此可以容易地确定对于场景Situation_minD具有最佳跟踪性能的跟踪特征，作为对于改变后的当前场景Situation_current具有最佳跟踪性能的第二跟踪特征。

需要说明的是，虽然在上述步骤S610中计算第一跟踪特征在从置信度开始低于置信度阈值的视频帧T开始的k+1个视频帧上的特征分布，但是这仅仅是一种示例。具体的，可以计算在从视频帧T之前若干帧或视频帧T之后若干帧开始到视频帧T+k为止的多个视频帧上的特征分布，也可以在数量多于或少于k+1个视频的视频帧序列上计算特征分布。

另外，虽然在以上参考图6的描述中，利用跟踪特征在视频帧上的特征分布来确定改变后的当前场景Situation_current具体是哪种场景，但是这也只是一种示例，本领域技术人员可以采用任何其他适当的参数来确定改变后的当前场景Situation_current具体是哪种场景，例如采用光流特征。

回到图2，在步骤S230，利用该第二跟踪特征继续进行手的跟踪。

如前所述，根据本发明实施例的手的跟踪是一个实时的在线跟踪过程。因此，在如上选择了第二跟踪特征后，在该步骤中，对于发生场景改变之后获取到的每一个包含手的视频帧，继续实时地利用第二跟踪特征进行手的跟踪。利用第二跟踪特征进行的具体跟踪处理可以按照任何公知方法来进行，此处不再进行详细描述。

以上描述了根据本发明实施例的手的跟踪方法。按照该方法，在手的跟踪过程中，随着场景的改变，动态选择对于改变后的场景具有最佳跟踪性能的特征进行跟踪，从而实现了精确的跟踪。

图7例示了应用根据本实施例的跟踪方法的示意图。如图7所示，跟踪特征p从大约第100帧开始，跟踪性能急剧下降，并且很快丢失了跟踪对象，从而跟踪失败。在这种情况下，需要采用适合于改变后的场景的特征进行跟踪。通过计算和比较，确定训练数据集中的场景situation_minD与从大约100帧开始的转变后场景最为类似，并且特征q在场景situation_minD下具有最优的跟踪性能。因此，采用该特征q作为跟踪特征继续进行跟踪。

值得一提的是，在应用根据本发明实施例的上述跟踪方法的整个跟踪过程中，每当场景发生改变时，都动态选择最适合改变后的场景的特征进行跟踪，然而对于启动跟踪时的第一视频帧，由于无法预知其属于哪种场景，因此无法预先选择最适合的特征。因此，针对启动跟踪时的第一视频帧，可以选择在整个训练数据集上具有最佳平均跟踪性能的跟踪特征来进行对象跟踪，其中每个特征在整个训练数据集上的平均跟踪性能可以如上所述通过扩展表达式（2）计算得出。

另外，虽然在上文中以手的跟踪为例进行了描述，但是能够理解，根据本发明的对象跟踪方法并非仅限于手的跟踪，而是可以应用其他各种对象的跟踪。

另一方面，本发明事实上还提供了一种在进行实时的对象跟踪时的跟踪特征选择方法，在该方法中，响应于包含所述对象的视频帧的场景发生改变时，选择对于改变后的场景具有最佳跟踪性能的跟踪特征。该选择步骤的具体处理可以参考上述图1到图7的相关描述，此处不再重复描述。通过该跟踪特征选择方法，使得在实时的对象跟踪中用于跟踪的特征总是最适合场景的特征，从而能够获得较好的跟踪性能。

下面参考图8描述根据本发明实施例的对象跟踪设备。

图8示出了根据本发明实施例的对象跟踪设备800的功能配置框图。

如图8所示，对象跟踪设备800可以包括：特征选择部件810，在视频帧的场景发生改变时，选择对于改变后的场景具有最佳跟踪性能的跟踪特征，并通知跟踪部件该跟踪特征；跟踪部件820，利用选定的跟踪特征在包含所述对象的视频帧序列中进行对象跟踪。

上述特征选择部件810以及跟踪部件820的具体功能和操作可以参考上述图1到图7的相关描述，此处不再重复描述。

下面参考图9描述根据本发明实施例的对象跟踪系统900的总体硬件框图。如图9所示，定向跟踪系统900可以包括：输入设备910，用于从外部输入有关图像或信息，例如摄像机拍摄的视频帧等，该输入设备例如可以是键盘、鼠标、摄像机等等；处理设备920，用于实施上述的按照本发明实施例的对象跟踪方法，或者实施为上述的对象跟踪设备，该处理设备例如可以是计算机的中央处理器或其它的具有处理能力的芯片等等；输出设备930，用于向外部输出实施上述对象跟踪过程所得到的结果，例如确定的对象的位置坐标、对象的运动轨迹等等，该输出设备例如可以是显示器、打印机等等；以及存储设备940，用于以易失或非易失的方式存储上述对象跟踪过程所涉及的诸如视频帧、置信度阈值、训练数据、跟踪特征、跟踪特征在训练数据集中的每种场景下的跟踪性能和特征分布，等等，该存储设备例如可以是随机存取存储器（RAM）、只读存储器（ROM）、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种对象跟踪方法，包括：

利用预先选择的第一跟踪特征在包含所述对象的视频帧序列中进行对象跟踪；

在视频帧的场景发生改变时，选择对于改变后的场景具有最佳跟踪性能的第二跟踪特征；

利用选择的该第二跟踪特征继续进行对象跟踪。

2.如权利要求1所述的对象跟踪方法，其中所述选择对于改变后的场景具有最佳跟踪性能的第二跟踪特征包括：

基于预先计算的每种跟踪特征在训练数据集中的每种场景下的跟踪性能，选择对于所述改变后的场景具有最佳跟踪性能的第二跟踪特征，其中所述训练数据集由各种场景下的、包含所述对象的训练视频帧组成。

3.如权利要求2所述的对象跟踪方法，其中所述利用预先选择的第一跟踪特征在包含所述对象的视频帧序列中进行对象跟踪包括：

逐帧顺序计算利用所述第一跟踪特征进行跟踪所获得的跟踪结果的置信度，直至跟踪结果的置信度小于预定的置信度阈值的起始视频帧T，其中该起始视频帧T的前一视频帧T-1的跟踪结果的置信度大于等于该置信度阈值；

在起始视频帧T之后的k个视频帧中继续利用所述第一跟踪特征进行对象跟踪，并逐帧计算所获得的跟踪结果的置信度，其中k>0。

4.如权利要求3所述的对象跟踪方法，其中所述利用预先选择的第一跟踪特征在包含所述对象的视频帧序列中进行对象跟踪还包括：

如果从所述k个视频帧中的某一视频帧开始丢失跟踪对象，或者如果视频帧T+k的跟踪结果的置信度仍小于所述置信度阈值，则确定视频帧的场景发生了改变；否则，利用所述第一跟踪特征继续进行跟踪。

5.如权利要求4所述的对象跟踪方法，基于预先计算的每种跟踪特征在训练数据集中的每种场景下的跟踪性能、选择对于所述改变后的场景具有最佳跟踪性能的第二个跟踪特征包括：

计算所述第一跟踪特征在从视频帧T到视频帧T+k的k+1个视频帧上的特征分布；

计算该特征分布与预先计算的所述第一跟踪特征在训练数据集中的每种场景下的特征分布之间的距离；

确定与所述距离中的最小距离相对应的训练数据集中的场景；

基于预先计算的每种跟踪特征在训练数据集中的每种场景下的跟踪性能，确定对于所述与最小距离相对应的训练数据集中的场景具有最佳跟踪性能的跟踪特征，作为所述第二跟踪特征。

6.如权利要求2所述的对象跟踪方法，还包括：对于开始进行跟踪时的第一视频帧，选择在整个训练数据集上具有最佳平均跟踪性能的跟踪特征来进行对象跟踪。

7.如权利要求1-6中任一项所述的对象跟踪方法，其中所述跟踪性能利用跟踪精度、跟踪误差、跟踪失败次数中的至少一种来表示。

8.一种用于对象跟踪的跟踪特征选择方法，包括：

响应于包含所述对象的视频帧的场景发生改变，选择对于改变后的场景具有最佳跟踪性能的跟踪特征。

9.一种对象跟踪设备，包括：

特征选择部件，在视频帧的场景发生改变时，选择对于改变后的场景具有最佳跟踪性能的跟踪特征，并通知跟踪部件该跟踪特征；

跟踪部件，利用选定的跟踪特征在包含所述对象的视频帧序列中进行对象跟踪。

10.如权利要求9所述的对象跟踪设备，其中所述特征选择部件基于预先计算的每种跟踪特征在训练数据集中的每种场景下的跟踪性能，选择对于所述改变后的场景具有最佳跟踪性能的跟踪特征，其中所述训练数据集由各种场景下的、包含所述对象的训练视频帧组成。