CN109791615A

CN109791615A - 用于检测并跟踪目标对象的方法、目标对象跟踪设备和计算机程序产品

Info

Publication number: CN109791615A
Application number: CN201780000295.4A
Authority: CN
Inventors: 谷玉
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2019-05-21
Anticipated expiration: 2037-05-05
Also published as: WO2018201444A1; CN109791615B; US20200250803A1; US10896495B2

Abstract

本申请公开了一种通过用于检测和跟踪目标对象的电子设备执行的方法。所述方法包括：获得第一场景帧；对分别在第一场景帧的至少两个边界框中的目标对象的至少两部分执行对象检测和辨识；获得第二场景帧，第二场景帧在时间上比第一场景帧更晚；以及对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

Description

用于检测并跟踪目标对象的方法、目标对象跟踪设备和计算机程序产品

技术领域

本发明涉及图像处理技术，更具体地说，涉及用于检测和跟踪目标对象的方法、目标对象跟踪设备和计算机程序产品。

背景技术

对象跟踪是一种例如可利用相机随时间跟踪运动目标对象的处理。对象跟踪技术结合了包括图像处理、模式识别、机器学习和人工智能的许多技术。对象跟踪技术近年来发现了宽范围的应用，包括安全和监视、游戏、增强现实、交通控制、人机交互等。已针对自动目标对象跟踪开发了各种算法。

发明内容

在一个方面，本发明提供了一种通过电子设备执行以检测和跟踪目标对象的方法，包括以下步骤：获得第一场景帧；对分别在第一场景帧的至少两个边界框中的目标对象的至少两部分执行对象检测和辨识；获得第二场景帧，第二场景帧在时间上比第一场景帧更晚；以及对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

可选地，所述方法还包括以下步骤：确定在第二场景帧中目标对象的所述至少两部分是否全部被跟踪；更新所述至少两个边界框以获得至少两个更新后的边界框；以及基于确定在第二场景帧中目标对象的所述至少两部分全部被跟踪，来基于所述至少两个更新后的边界框之间的几何约束确定所述至少两个更新后的边界框是否有效。

可选地，所述方法还包括：如果在第二场景帧中目标对象的所述至少两部分不是全部被跟踪，获得第三场景帧，并且确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。

可选地，所述方法还包括：如果基于几何约束确定所述至少两个更新后的边界框中的一个或多个无效，则获得第三场景帧，并且确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。

可选地，目标对象的所述至少两部分包括目标对象的分别在一个或多个富含特征的边界框中的一个或多个富含特征的部分；所述方法还包括以下步骤：从第一场景帧中的目标对象的所述至少两部分中提取多个特征点，所述一个或多个富含特征的边界框的特征点的分布密度高于其它边界框的特征点的分布密度；以及基于第一场景帧中的所述多个特征点对分别在所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

可选地，所述方法还包括以下步骤：从第二场景帧中的目标对象的所述至少两部分中提取多个特征点；从第二场景帧中的所述多个特征点中选择跟踪置信度满足阈值的所述多个特征点的子集；以及基于所述多个特征点的子集更新所述至少两个边界框。

可选地，跟踪置信度至少部分地基于针对第二场景帧中的所述多个特征点中的一个或多个中的每一个估计的跟踪误差；并且选择所述多个特征点的子集的步骤包括：针对第二场景帧中的所述多个特征点中的所述一个或多个计算跟踪误差；以及选择跟踪误差低于第一阈值的所述多个特征点的第一子集。

可选地，跟踪置信度还至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，并且第二跟踪窗口包括第二场景帧中的所述多个特征点之一；并且选择所述多个特征点的子集的步骤还包括：针对第二场景帧中的所述多个特征点的第一子集中的一个或多个所述多个特征点计算归一化互相关系数；以及从所述多个特征点的第一子集中选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

可选地，跟踪置信度至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，第二跟踪窗口包括第二场景帧中的所述多个特征点之一；并且选择所述多个特征点的子集的步骤包括：针对第二场景帧中的所述多个特征点中的一个或多个计算归一化互相关系数；以及选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

可选地，对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象检测和辨识的步骤包括：基于多个参考对象模型选择目标对象的所述至少两部分；以及确定分别包含目标对象的所述至少两部分的所述至少两个边界框。

可选地，所述多个参考对象模型是对应于目标对象的多个部分的预训练的参考对象模型；并且所述方法还包括训练所述多个参考对象模型。

可选地，目标对象是人。

在另一方面，本发明提供了一种目标对象跟踪设备，包括：对象检测器，其被构造为对分别在第一场景帧的至少两个边界框中的目标对象的至少两部分执行对象检测和辨识；以及至少两个对象跟踪器，其被构造为对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

可选地，所述目标对象跟踪设备还包括被构造为获得第一场景帧和第二场景帧的一个或多个图像传感器，第二场景帧在时间上比第一场景帧更晚。

可选地，所述目标对象跟踪设备还包括：确定器，其被构造为确定在第二场景帧中目标对象的所述至少两部分是否全部被跟踪；更新器，其被构造为更新所述至少两个边界框以获得至少两个更新后的边界框；并且基于确定在第二场景帧中目标对象的所述至少两部分全部被跟踪，确定器被进一步构造为基于所述至少两个更新后的边界框之间的几何约束确定所述至少两个更新后的边界框是否有效。

可选地，所述一个或多个图像传感器被进一步构造为获得第三场景帧；并且确定器被进一步构造为：如果在第二场景帧中目标对象的所述至少两部分不是全部被跟踪，确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。

可选地，对象检测器被进一步构造为获得第三场景帧；并且确定器被进一步构造为：如果基于几何约束确定所述至少两个边界框中的一个或多个无效，确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。

可选地，目标对象的所述至少两部分包括目标对象的分别在一个或多个富含特征的边界框中的一个或多个富含特征的部分；目标对象跟踪设备还包括提取器，其被构造为从第一场景帧中的目标对象的所述至少两部分中提取多个特征点，所述一个或多个富含特征的边界框的特征点的分布密度高于其它边界框的特征点的分布密度；并且所述至少两个对象跟踪器被构造为基于第一场景帧中的所述多个特征点对分别在所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

可选地，提取器被进一步构造为从第二场景帧中的目标对象的所述至少两部分中提取多个特征点；目标对象跟踪设备还包括选择器，其被构造为从第二场景帧中的所述多个特征点中选择跟踪置信度满足阈值的所述多个特征点的子集；并且更新器被构造为基于所述多个特征点的子集更新所述至少两个边界框。

可选地，跟踪置信度至少部分地基于针对第二场景帧中的所述多个特征点中的一个或多个中的每一个估计的跟踪误差；选择器包括跟踪置信度评价器；跟踪置信度评价器包括跟踪误差估计器，其被构造为针对第二场景帧中的所述多个特征点中的一个或多个中的每一个计算跟踪误差；并且选择器被进一步构造为选择跟踪误差低于第一阈值的所述多个特征点的第一子集。

可选地，跟踪置信度还至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，第二跟踪窗口包括第二场景帧中的所述多个特征点之一；跟踪置信度评价器还包括归一化互相关系数计算器，其被构造为针对第二场景帧中的所述多个特征点的第一子集中的一个或多个所述多个特征点计算归一化互相关系数；并且选择器被构造为从所述多个特征点的第一子集中选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

可选地，跟踪置信度至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，并且第二跟踪窗口包括第二场景帧中的所述多个特征点之一；跟踪置信度评价器包括归一化互相关系数计算器，其被构造为针对第二场景帧中的所述多个特征点中的一个或多个计算归一化互相关系数；并且选择器被构造为选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

可选地，目标对象跟踪设备还包括：选择器，其被构造为基于多个参考对象模型选择目标对象的所述至少两部分；以及确定器，其被构造为确定分别包含目标对象的所述至少两部分的所述至少两个边界框；其中，对象检测器被构造为对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象检测和辨识。

在另一方面，本发明提供了一种计算机程序产品，包括其上具有指令的非暂时性有形计算机可读介质，所述指令包括：用于使得目标对象跟踪设备获得第一场景帧的代码；用于使得目标对象跟踪设备对分别在第一场景帧的至少两个边界框中的目标对象的至少两部分执行对象检测和辨识的代码；用于使得目标对象跟踪设备获得第二场景帧的代码，第二场景帧在时间上比第一场景帧更晚；以及用于使得目标对象跟踪设备对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪的代码。

附图说明

以下附图仅是根据各个公开的实施例的用于示出性目的的示例，并且不旨在限制本发明的范围。

图1是示出根据本公开的一些实施例中的目标对象跟踪设备的结构的示意图。

图2是示出多个边界框中的人类对象的多个部分的示意图。

图3是示出根据本公开的一些实施例中的多个边界框中的特征点的分布密度的示意图。

图4是示出根据本公开的一些实施例中的目标对象跟踪设备的结构的示意图。

图5是示出在根据本公开的一些实施例中检测和跟踪目标对象的方法的流程图。

图6是示出在根据本公开的一些实施例中跟踪多个特征点的方法的流程图。

图7是示出在根据本公开的一些实施例中自动地检测和辨识目标对象的多个部分的方法的流程图。

具体实施方式

现在，将参照以下实施例更具体地描述本公开。应该注意，本文仅针对示出和描述的目的在下面提供了对一些实施例的描述。这不旨在是详尽的或限于公开的具体形式。

本公开特别提供了一种用于检测和跟踪目标对象的方法、一种目标对象跟踪设备和一种计算机程序产品。在一个方面，本公开提供了一种具有存储器和一个或多个处理器的目标对象跟踪设备，存储器和所述一个或多个处理器彼此耦接。在一些实施例中，存储器存储用于控制所述一个或多个处理器进行以下操作的计算机可执行指令：获得第一场景帧；对分别在第一场景帧的至少两个边界框中的目标对象的至少两部分执行对象检测和辨识；获得第二场景帧，第二场景帧在时间上比第一场景帧更晚；以及对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。所述设备和方法可用于宽范围的应用中。可选地，所述设备和方法可用于跟踪视频中的目标对象。可选地，所述设备和方法可用于跟踪相机视场中的目标对象。

如本文所用，术语“对象跟踪”是指其中可从一场景帧至另一场景帧跟踪目标对象的运动的处理。如本文所用，术语“对象检测和辨识”是指其中在场景帧中识别目标对象的处理。例如，可将场景帧的一部分与参考图像进行比较，以识别出目标对象。如本文所用，术语“场景”是指一个或多个对象与背景的组合。如本文所用，术语“边界框”是指包含场景帧的一部分的关注区。可选地，边界框是包含场景帧中的目标对象的一部分的关注区。

图1是示出根据本公开的一些实施例中的目标对象跟踪设备的结构的示意图。参照图1，一些实施例中的目标对象跟踪设备包括一个或多个图像传感器10、对象检测器20、至少两个对象跟踪器30、确定器40和用于输出跟踪结果的用户界面50。与常规目标对象跟踪设备相比，所述目标对象跟踪设备包括至少两个对象跟踪器30，所述至少两个对象跟踪器30在同时分别地跟踪目标对象的至少两部分的，而不是将目标对象的所述至少两部分作为单个对象。利用所述目标对象跟踪设备，在对象跟踪中，极大地降低了背景干涉，而没有牺牲可提取特征的数量。所述目标对象跟踪设备提供了一种跟踪运动中的目标对象(例如，人类)的具有高度鲁棒性且有效的方式。可利用所述目标对象跟踪设备实现优秀的实时目标对象跟踪结果。

在一些实施例中，所述一个或多个图像传感器10被构造为获取第一场景帧和第二场景帧。第二场景帧在时间上比第一场景帧更晚。图像传感器的示例包括但不限于视频相机。可选地，第一场景帧和第二场景帧是视频帧。

在一些实施例中，对象检测器20被构造为在第一场景帧的至少两个边界框中分别对目标对象的至少两部分执行对象检测和辨识。对象检测器20可使用多个参考对象模型，通过将第一场景帧的至少一部分与多个参考对象模型进行比较来检测目标对象的一部分(例如，人的头部、人的上身部分和人的富含特征的部分)。对象检测器20可扫描一帧或多帧场景，以检测目标对象或其一部分。

图2是示出多个边界框中的人类对象的多个部分的示意图。参照图2，示出了包括穿着具有金鱼图案的T恤的人类对象和具有黑板的背景的场景。将人类对象分为三部分，即，人类对象的头部、人类对象的上身部分和人类对象的富含特征的部分。选择人类对象上的金鱼图案作为富含特征的部分。富含特征的部分中的特征点的分布密度高于头部和上身部分中的特征点的分布密度。可选地，不选择富含特征的部分。可选地，目标对象的所述至少两部分包括不止两个富含特征的部分。如图2所示，所述部分中的每一个位于用于对象跟踪的边界框中。头部在第一边界框B1中，上身部分在第二边界框B2中，而富含特征的部分在第三边界框B3中。与常规设备和方法进行比较，所述目标对象跟踪设备和方法分别地跟踪单个人类对象的至少两部分。因此，用于每个部分的边界框可较小，以在不牺牲各个边界框中的人类对象的特征数量的情况下尽可能地消除边界框中的背景。可选地，将图1中的对象1跟踪器30a用于跟踪图2中的第一边界框B1中的人类对象的头部，将图1中的对象2跟踪器30b用于跟踪图2中的第二边界框B2中的人类对象的上身部分，并且将图1中的对象3跟踪器30c用于跟踪图2中的第三边界框B3中的人类对象的富含特征的部分。

在一些实施例中，所述至少两个对象跟踪器30被构造为对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。可使用各种跟踪方法来跟踪分别在所述至少两个边界框中的目标对象的所述至少两部分。合适的跟踪方法的示例包括(但不限于)Camshift算法、卡尔曼滤波、粒子滤波、基于压缩感知的压缩跟踪、中值流算法等。在一个示例中，利用中值流方法执行对象跟踪。例如，对象跟踪器获取两个场景帧并接收对应于第一场景帧的边界框的输入，并且将其构造为输出对应于第二场景帧的边界框。可初始化边界框中的矩形栅格上的一组特征点，并且可跟踪特征点，以产生从第一场景帧至第二场景帧的稀疏运动流。可估计特征预测的质量，并且为各个点分配跟踪误差。可将具有最坏预测的部分过滤掉并且将其它预测用于估计整个边界框的位移。

在一些实施例中，确定器40被构造为确定在第二场景帧中是否跟踪了目标对象的全部所述至少两部分。在一个示例中，确定器40被构造为：针对目标对象的所述至少两部分中的每一个，基于跟踪方法的计算精度或估计精度确定跟踪置信度。跟踪置信度指示目标对象的所述至少两部分中的任一个落入第二场景帧中的可能性。可选地，跟踪置信度满足(例如，等于或大于)阈值，在第二场景帧中发现目标对象的所述至少两部分之一的可能性较高。可选地，跟踪置信度不满足(例如，小于)阈值，在第二场景帧中找到目标对象的所述至少两部分之一的可能性较低。可使用各种合适的算法来确定跟踪置信度。在一个示例中，跟踪置信度可基于第一场景帧中的跟踪窗口与第二场景帧中的跟踪窗口之间的归一化互相关系数。

在一些实施例中，目标对象跟踪设备还包括更新器，其被构造为更新所述至少两个边界框，以获得至少两个更新后的边界框。在一些实施例中，基于确定在第二场景帧中跟踪了目标对象的全部所述至少两部分，确定器40被构造为确定所述至少两个边界框是否有效。可使用各种合适的算法来评价边界框有效性。在一个示例中，基于参考对象模型(例如，参考头部模型)来确定边界框有效性。可选地，在参考对象模型与边界框的图像内容匹配的概率大于阈值的情况下，认为边界框有效。可选地，在边界框不包括对象或对象部分的情况下，认为边界框无效。可选地，在边界框包括足够多的对象或对象部分的情况下，认为边界框有效。可选地，在边界框过大从而不能紧密地包围对象或对象部分的情况下，认为边界框无效。可选地，在边界框包括最小量的对象或对象部分并且紧密地包围所述对象或对象部分的情况下，认为边界框有效。有效的边界框可符合一个或多个有效性标准。有效性标准的一个示例可为对象检测器20是否通过参考对象模型辨识出边界框中的所述对象或对象部分。在另一示例中，当对所检测的边界框执行对象辨识时可从多个参考对象模型中选择参考对象模型。如果基于选择的参考对象模型在跟踪的边界框中辨识出相同的对象，则边界框可为有效的。

在一些实施例中，基于所述至少两个更新后的边界框之间的几何约束确定边界框有效性。在所述目标对象跟踪设备中，分别地跟踪目标对象的至少两部分，因此，在目标对象的所述至少两部分之间存在固有几何约束。例如，对应于头部的图2中的人类对象的第一边界框B1与对应于上身部分的图2中的人类对象的第二边界框B2的距离应该在特定距离以内，并且对应于人类对象的富含特征的部分的图2中的人类对象的第三边界框B3应该总是在边界框B2以内，等。如果违反了一个或多个几何约束，则可认为一个或多个边界框无效。

在一些实施例中，所述目标对象跟踪设备使跟踪置信度(例如，在第二场景帧中是否跟踪了目标对象的全部所述至少两部分)和边界框有效性(例如，基于所述至少两个更新后的边界框之间的几何约束，所述至少两个更新后的边界框是否有效)变得有效。如果所述条件之一未变得有效，则目标对象跟踪设备获得第三场景帧并且继续进行目标跟踪处理，第三场景帧在时间上比第二场景帧更晚。在一个示例中，如果在第二场景帧中目标对象的所述至少两部分不是全部被跟踪，则目标对象跟踪设备获得第三场景帧并且确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。在另一示例中，如果基于几何约束确定所述至少两个边界框中的一个或多个无效，则目标对象跟踪设备获得第三场景帧，并且确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。

在一些实施例中，在第二场景帧中目标对象的所述至少两部分不是全部被跟踪，对象检测器20可选地可在第二场景帧或者后面的场景帧中执行对象检测和辨识，例如，在第二场景帧的至少两个边界框(例如，由用户或者目标对象跟踪设备限定的边界框)中执行对象检测和辨识。

在一些实施例中，如果(例如，基于几何约束)确定所述至少两个边界框中的一个或多个为无效，则目标对象跟踪设备可选地改进(refine)所述至少两个边界框中的所述一个或多个。可选地，在边界框会过大从而不能紧密地包围所述对象或对象部分的情况下，可改进边界框以使得其紧密地包围所述对象或对象部分。可选地，目标对象跟踪设备被构造为调整边界框的大小，例如，排除掉一个或多个非对象像素(例如，背景像素)。

参照图2，在一些实施例中，可基于第一边界框B1、第二边界框B2与第三边界框B3之间的几何约束使边界框的有效性变得有效。在一个示例中，所述几何约束包括：

B1.center.y＜B2.center.y(1)；

其中B1.center.y代表边界框B1的中心沿着竖直方向的坐标，并且B2.center.y代表边界框B2的中心沿着竖直方向的坐标；

|B1.center.x–B2.center.x|＜thr1(2)；

其中B1.center.x代表边界框B1的中心沿着水平方向的坐标，B2.center.x代表边界框B2的中心沿着水平方向的坐标，并且thr1代表第一阈值。第一阈值thr1可凭经验确定并且被存储在目标对象跟踪设备的存储器中；

其中B2.center.x代表边界框B2的中心沿着水平方向的坐标，B3.center.x代表边界框B3的中心沿着水平方向的坐标，B20.center.x代表在前一场景帧中边界框B2的中心沿着水平方向的坐标，B30.center.x代表在前一场景帧中边界框B3的中心沿着水平方向的坐标，并且thr2代表第二阈值。第二阈值thr2可凭经验确定并且被存储在目标对象跟踪设备的存储器中；

其中B2.center.y代表边界框B2沿着竖直方向的中心的坐标，B3.center.y代表边界框B3沿着竖直方向的中心的坐标，B20.center.y代表在前一场景帧中边界框B2沿着竖直方向的中心的坐标，B30.center.y代表在前一场景帧中边界框B3沿着竖直方向的中心的坐标，并且thr3代表第三阈值。第三阈值thr3可凭经验确定并且被存储在目标对象跟踪设备的存储器中；

其中B1.area代表边界框B1的面积，B2.area代表边界框B2的面积，B10.area代表边界框B1的面积，B2.area代表在前一场景帧中边界框B2的面积，B20.area代表在前一场景帧中边界框B2的面积，并且thr4代表第四阈值。第四阈值thr4可凭经验确定并且被存储在目标对象跟踪设备的存储器中；

其中B2.area代表边界框B2的面积，B3.area代表边界框B3的面积，B20.area代表在前一场景帧中边界框B2的面积，B30.area代表在前一场景帧中边界框B3的面积，并且thr5代表第五阈值。第五阈值thr5可凭经验确定并且被存储在目标对象跟踪设备的存储器中；并且

其中B1.area代表边界框B1的面积，B3.area代表边界框B3的面积，B10.area代表在前一场景帧中边界框B1的面积，B30.area代表在前一场景帧中边界框B3的面积，并且thr6代表第六阈值。第六阈值thr6可凭经验确定并且被存储在目标对象跟踪设备的存储器中。

当全部三个边界框满足上面提到的几何约束时，总跟踪区域等同于如图2所示的边界框B。在一些实施例中，边界框B的水平尺寸与第一边界框B1基本相同，通过第一边界框B1确定沿着竖直方向的最大坐标，通过第二边界框B2确定沿着竖直方向的最小坐标，边界框B的宽度与第二边界框B2的宽度基本相同，并且边界框B的高度等于第一边界框B1沿着竖直方向的最大坐标与第二边界框B2沿着竖直方向的最小坐标之间的距离。

在一些实施例中，目标对象的所述至少两部分包括目标对象的分别在一个或多个富含特征的边界框中的一个或多个富含特征的部分。可选地，目标对象跟踪设备被构造为：从第一场景帧中的目标对象的所述至少两部分中提取多个特征点，所述一个或多个富含特征的边界框的特征点的分布密度高于其它边界框的特征点的分布密度；以及基于第一场景帧中的所述多个特征点对分别在所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。图3是示出根据本公开的一些实施例中的多个边界框中的特征点的分布密度的示意图。参照图3，边界框B2的分布密度比第三边界框B3的分布密度更低。第三边界框B3是对应于富含特征的对象部分的富含特征的边界框，例如，包含图2中的人类对象的T恤中的金鱼图案的区域。在图3中，每个点表示边界框中的特征。每个边界框包括点的栅格。可选地，栅格上的点可在整个边界框上均匀地间隔。可在两个场景帧之间跟踪栅格上的点。

参照图2，从目标对象的所述至少两部分(例如，人类对象的头部、上身部分和富含特征的部分)中提取总数为N个的特征点。可选地，第一边界框B1和第二边界框B2各自的特征点的分布密度为ρ，并且第三边界框B3的特征点的分布密度为K*ρ。可根据下面的方程确定分布密度ρ：

ρ*B1.area+ρ*(B2.area-B3.area)+K*ρ*B3.area＝N (8)；

其中B1.area是第一边界框B1的面积，B2.area是第二边界框B2的面积，B3.area是第三边界框B3的面积，N是提取的特征点的总数，K是常数。

在一些实施例中，目标对象跟踪设备还包括提取器，其被构造为从第二场景帧中的目标对象的所述至少两部分中提取多个特征点。可选地，确定器40包括跟踪置信度评价器。跟踪置信度评价器被构造为评价所述多个特征点中的每一个的跟踪置信度。一些实施例中的目标对象跟踪设备还包括选择器，其被构造为从所述多个特征点中选择跟踪置信度高于阈值的所述多个特征点的子集。基于跟踪置信度高于阈值的所述多个特征点的子集，目标对象跟踪设备被构造为更新所述至少两个边界框和进行对象跟踪，例如，以获得第二场景帧中的至少两个更新后的边界框。

在一些实施例中，跟踪置信度评价器包括跟踪误差估计器，并且跟踪置信度至少部分地基于针对第二场景帧中的所述多个特征点中的一个或多个中的每一个估计的跟踪误差。可选地，跟踪误差估计器针对第二场景帧中的所述多个特征点的所述一个或多个计算跟踪误差。可选地，单独地基于跟踪误差评价跟踪置信度，或者，跟踪误差估计是用于选择跟踪置信度高于阈值的所述多个特征点的子集的多步骤筛选处理中的第一步。可选地，跟踪误差估计器针对第二场景帧中的全部所述多个特征点计算跟踪误差。基于跟踪误差计算，选择了跟踪误差低于第一阈值的所述多个特征点的第一子集。可使用各种合适的方法来计算跟踪误差。

在一个示例中，跟踪误差是前向轨迹与后向轨迹之间的向前-向后误差。可选地，向前-向后误差是前向轨迹与后向轨迹之间的多个距离。可使用各种合适的距离来确定向前-向后误差。在一个示例中，验证轨迹的初始点与结束点之间的欧氏距离被用作用于确定向前-向后误差的距离。

在一些实施例中，目标对象跟踪设备被构造为在第一场景帧与第二场景帧之间执行前向跟踪，以确定前向轨迹。前向跟踪可包括对图像向前跟踪k步。所得前向轨迹可等于(x_t、x_t+1、……、x_t+k)，其中x_t是时间上的点位，并且k指示图像序列的长度。相似地，目标对象跟踪设备被构造为在第二场景帧与第一场景帧之间执行后向跟踪，以确定后向轨迹。所得后向轨迹可等于({circumflex over(x)}_t、{circumflex over(x)}_t+1、……、{circumflexover(x)}_t+k)，其中{circumflex over(x)}_t+k＝x_t+k。

在一些实施例中，跟踪置信度评价器包括归一化互相关系数计算器，并且跟踪置信度至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数。第一跟踪窗口包括第一场景帧中的所述多个特征点之一，并且第二跟踪窗口包括第二场景帧中的所述多个特征点之一。可选地，归一化互相关系数计算器计算跟踪窗口之间的归一化互相关系数系数，并且选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

在一些实施例中，跟踪置信度评价器包括跟踪误差估计器和归一化互相关系数计算器二者，并且跟踪置信度至少部分地基于针对第二场景帧中的所述多个特征点中的一个或多个中的每一个估计的跟踪误差和第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数二者。可选地，跟踪置信度评价器首先针对第二场景帧中的所述多个特征点中的所述一个或多个计算跟踪误差，并且选择跟踪误差低于第一阈值的所述多个特征点的第一子集。接着，跟踪置信度评价器针对所述多个特征点的第一子集中的特征点计算归一化互相关系数，并且选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。可选地，所述多个特征点的第二子集是用于更新所述至少两个边界框和用于对象跟踪的特征点子集。

可选地，跟踪误差估计器被构造为利用其它算法估计跟踪误差。可选地，利用平方和差算法估计跟踪误差。

在一个示例中，将所述多个特征点连续地筛选至少两次，以获得用于更新所述至少两个包围框和用于对象跟踪的所述多个特征点的子集。在第一筛选处理中，基于跟踪误差估计来筛选所述多个特征点。例如，针对第二场景帧中的所述多个特征点中的每一个，估计前向轨迹与后向轨迹之间的诸如向前-向后误差的跟踪误差。选择跟踪误差低于第一阈值的特征点作为所述多个特征点的第一子集。在一个示例中，将所述多个特征点的跟踪误差等于或大于中位数的值(median value)的一部分过滤掉，并且选择所述多个特征点的跟踪误差小于中位数的值的其余部分作为所述多个特征点的第一子集。接着，目标对象跟踪设备还针对所述多个特征点的第一子集中的各个特征计算归一化互相关系数。例如，在第一跟踪窗口与第二跟踪窗口之间计算归一化互相关系数，所述第一跟踪窗口包括在第一场景帧的网格的中心的具有特征的像素网格B(例如，7×7像素网格)，所述第二跟踪窗口包括在第二场景帧中的网格的中心的具有特征的像素网格A(例如，7×7像素网格)。在一个示例中，根据下面的等式计算归一化互相关系数：

其中，A(x+i，y+j)代表像素网格A中的像素的灰度级；并且B(x+i，y+j)代表像素网格B中的像素的灰度级。

可选地，n＝3。

在一个示例中，将所述多个特征点的的第一子集中归一化互相关系数小于中位数的值的一部分过滤掉，并且选择所述多个特征点的第一子集中归一化互相关系数等于或大于中位数的值的其余部分作为所述多个特征点的用于更新所述至少两个边界框和用于对象跟踪的子集。

在一些实施例中，在选择跟踪置信度高于阈值的所述多个特征点的子集之后，目标对象跟踪设备被构造为对所述至少两个边界框中的每一个中剩余的特征点的数量计数。可选地，当边界框包括在边界框中剩余的不止一个特征点时，认为边界框中的对象部分被成功地跟踪。参照图2，边界框3被边界框2包围。可选地，当在边界框2中未剩余特征点，但是在边界框3中剩余超过所述多个特征点的50％时，认为边界框2和边界框3二者均被成功地跟踪。可选地，当不认为边界框之一被成功地跟踪时，可将其看作在所述场景帧中的视场之外。

可使用各种合适的方法来选择所述至少两个边界框。在一些实施例中，例如利用用户界面和输入装置手动地选择所述至少两个边界框。在一些实施例中，目标对象跟踪设备自动地选择所述至少两个边界框。可选地，目标对象跟踪设备被构造为基于多个参考对象模型选择目标对象的所述至少两部分，并且确定分别包含目标对象的所述至少两部分的至少两个边界框。

图4是示出根据本公开的一些实施例中的目标对象跟踪设备的结构的示意图。如图4所示，在一些实施例中，可通过处理器100可选地实施目标对象跟踪设备的一个或多个组件。在一些实施例中，目标对象跟踪设备还包括存储器200。存储器200可存储一个或多个捕获的帧和与(例如，通过所述一个或多个图像传感器10)捕获的视频帧关联的数据，并且将所述一个或多个捕获的帧和与捕获的视频帧关联的数据提供至对象检测器20和所述至少两个对象跟踪器30。可选地，存储器200存储一个或多个先前捕获的视频帧。对象检测器20和所述至少两个对象跟踪器30在执行对象检测和辨识和对象跟踪时可使用从存储器200提供的数据。在一个示例中，存储器200将所述一个或多个先前捕获的视频帧提供至对象检测器20和所述至少两个对象跟踪器30。可选地，存储器200可存储先前视频帧的跟踪结果。可选地，存储器20可存储多个参考对象模型。可选地，存储器200可存储关于跟踪置信度、跟踪误差和归一化互相关系数的信息。

在一些实施例中，存储器200耦接至处理器100，并且存储器200存储用于控制处理器100的计算机可执行指令。在一些实施例中，存储器200存储用于控制处理器100进行以下操作的计算机可执行指令：获得第一场景帧；分别在第一场景帧的至少两个边界框中对目标对象的至少两部分执行对象检测和辨识；获得第二场景帧，第二场景帧在时间上比第一场景帧更晚；以及分别在第一场景帧的所述至少两个边界框中对目标对象的所述至少两部分执行对象跟踪。可选地，存储器200存储用于控制处理器100进行以下操作的计算机可执行指令：确定是否在第二场景帧中跟踪了目标对象的全部所述至少两部分；更新所述至少两个边界框，以获得至少两个更新后的边界框；以及基于确定在第二场景帧中跟踪了目标对象的全部所述至少两部分，基于所述至少两个更新后的边界框之间的几何约束确定所述至少两个更新后的边界框是否有效。可选地，存储器200存储用于控制处理器100进行以下操作的计算机可执行指令：获得第三场景帧；以及在目标对象的所述至少两部分不是全部都在第二场景帧中被跟踪的情况下确定在第三场景帧中是否跟踪了目标对象的全部所述至少两部分。可选地，存储器200存储用于控制处理器100进行以下操作的计算机可执行指令：获得第三场景帧；以及在基于几何约束确定所述至少两个边界框中的一个或多个无效的情况下确定在第三场景帧中是否跟踪了目标对象的全部所述至少两部分。

在一些实施例中，目标对象的所述至少两部分包括目标对象的分别在一个或多个富含特征的边界框中的一个或多个富含特征的部分。可选地，存储器200存储用于控制处理器100进行以下操作的计算机可执行指令：从第一场景帧中的目标对象的所述至少两部分中提取多个特征点，所述一个或多个富含特征的边界框的特征点的分布密度高于其它边界框的特征点的分布密度；以及基于第一场景帧中的所述多个特征点对分别在所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。可选地，存储器200存储用于控制处理器100进行以下操作的计算机可执行指令：从第二场景帧中的目标对象的所述至少两部分中提取多个特征点；从第二场景帧中的所述多个特征点中选择跟踪置信度高于阈值的所述多个特征点的子集；以及基于所述多个特征点的子集更新所述至少两个边界框和进行对象跟踪。

在一些实施例中，跟踪置信度至少部分地基于针对第二场景帧中的所述多个特征点中的一个或多个中的每一个估计的跟踪误差。可选地，存储器200存储用于控制处理器100进行以下操作的计算机可执行指令：针对第二场景帧中的所述多个特征点中的所述一个或多个计算跟踪误差；以及选择跟踪误差低于第一阈值的所述多个特征点的第一子集。

在一些实施例中，跟踪置信度至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，第二跟踪窗口包括第二场景帧中的所述多个特征点之一。可选地，存储器200存储用于控制处理器100进行以下操作的计算机可执行指令：针对第二场景帧中的所述多个特征点中的一个或多个计算归一化互相关系数；以及选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

可选地，存储器200存储用于控制处理器100进行以下操作的计算机可执行指令：基于多个参考对象模型选择目标对象的所述至少两部分；以及确定分别包含目标对象的所述至少两部分的所述至少两个边界框，从而对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象检测和辨识。

可将各种合适形状分配给边界框。用于边界框的合适形状的示例包括(但不限于)规则形状、不规则形状、矩形、方形、多边形、梯形、椭圆形、封闭曲线。

可在所述目标对象跟踪设备中使用各种合适的处理器。合适的存储器的示例包括但不限于通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等。

可在所述目标对象跟踪设备中使用各种合适的存储器。合适的存储器的示例包括但不限于各种处理器可读介质，诸如随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、闪速存储器、磁数据储存器或光数据储存器、寄存器、磁盘或磁带、诸如压缩盘(CD)或DVD(数字通用盘)的光存储介质，和其它非暂时性介质。可选地，存储器是非暂时性存储器。

目标对象跟踪设备可为独立的设备。可选地，目标对象跟踪设备可集成到各种电子设备中。具有目标对象跟踪设备的合适的电子设备的示例包括智能电话、台式计算机、笔记本计算机、平板装置、摄像机、相机、数码相机、电视机、监视相机、游戏控制台、汽车、闭路电视系统、无人机、飞行器和无人驾驶飞行器。目标对象跟踪设备的一个或多个组件可按照硬件或者硬件和软件的组合来实施。

在一些实施例中，目标对象跟踪设备还包括通信接口。目标对象跟踪设备与一个或多个电子设备通信。通信接口可提供用于有线通信或无线通信的接口。

在另一方面，本公开提供了一种通过用于检测和跟踪目标对象的电子设备执行的方法。在一些实施例中，所述方法包括以下步骤：获得第一场景帧；分别在第一场景帧的至少两个边界框中对目标对象的至少两部分执行对象检测和辨识；获得第二场景帧，第二场景帧在时间上比第一场景帧更晚；以及分别在第一场景帧的所述至少两个边界框中对目标对象的所述至少两部分执行对象跟踪。与常规目标对象跟踪方法相比，所述目标对象跟踪方法在同时分别地跟踪目标对象的至少两部分，而不是将目标对象的所述至少两部分作为单个对象。通过利用所述目标对象跟踪方法，极大地降低了背景干涉，而没有牺牲在跟踪目标对象时使用的可提取特征的数量。所述目标对象跟踪方法提供了跟踪运动中的目标对象(例如，人)的具有高度鲁棒性且有效的方式。可利用所述目标对象跟踪方法实现优秀的目标对象跟踪结果。

图5是示出根据本公开的一些实施例中的检测和跟踪目标对象的方法的流程图。可选地，可通过目标对象跟踪设备(例如，本文所述的目标对象跟踪设备)来实现所述方法。参照图5，一些实施例中的方法包括以下步骤：在第一场景帧中手动地选择各自包围目标对象的至少一部分的M个边界框。例如，可手动地选择M个边界框，以使得M个边界框中的每一个包含目标对象的一部分。在一个示例中，目标对象是人类对象，选择了三个边界框来包围人类对象的头部、上身部分和富含特征的部分(例如，见图2)。

在一些实施例中，所述方法还包括：分别在第一场景帧的M个边界框中对目标对象的多个部分执行对象检测和辨识。可选地，所述方法包括将M个边界框中的每一个的图像内容与多个参考对象模型进行比较，以检测目标对象的一部分(例如，人的头部、人的上身部分和人的富含特征的部分)。

在一些实施例中，参照图5，所述方法还包括获得下一场景帧。所述下一场景帧在时间上比第一场景帧更晚。可利用图像传感器(例如，视频相机)获取第一场景帧和下一场景帧。可选地，第一场景帧和下一场景帧是视频帧。

接着，参照图5，所述方法还包括：跟踪分别在M个边界框中的目标对象的所述多个部分。可使用各种跟踪方法来跟踪分别在所述至少两个边界框中的目标对象的所述至少两部分。合适的跟踪方法的示例包括(但不限于)Camshift算法、卡尔曼滤波、粒子滤波、基于压缩感知的压缩跟踪、中值流算法等。可选地，所述方法包括：利用中值流方法跟踪目标对象的所述多个部分。例如，所述方法可包括：初始化边界框中的矩形栅格上的一组特征点；以及跟踪该组特征点，以产生从第一场景帧至下一场景帧的稀疏运动流。可选地，所述方法还包括：估计特征预测的质量；以及为各个特征分配跟踪误差。可选地，所述方法还包括：筛选所述一组特征点以过滤掉具有最坏预测的一部分。可选地，所述方法还包括：基于其它预测更新M个边界框。

接着，参照图5，所述方法还包括：确定在下一场景帧中是否跟踪了目标对象的全部所述多个部分。在一些实施例中，所述方法包括：针对目标对象的所述多个部分中的每一个，基于跟踪方法的计算精度或估计精度确定跟踪置信度。可选地，当目标对象的全部所述多个部分的跟踪置信度等于或大于阈值时，可以确定在下一场景帧中跟踪了目标对象的全部所述多个部分。可选地，当目标对象的所述多个部分中的至少一个的跟踪置信度小于阈值时，可以确定目标对象的所述多个部分不是全部在下一场景帧中被跟踪。可选地，当确定目标对象的所述多个部分不是全部在下一场景帧中被跟踪时，可以确定目标对象不在视场中。

如果确定目标对象的全部所述多个部分在下一场景帧中被跟踪，参照图5，则所述方法还包括：确定下一场景帧中的M个更新后的边界框是否满足M个更新后的边界框之间的几何约束。可选地，在确定下一场景帧中的M个更新后的边界框是否满足几何约束之前，所述方法还包括：更新M个边界框以获得M个更新后的边界框。几何约束可预定义或者凭经验确定。所述方法分别地跟踪目标对象的所述多个部分，因此在目标对象的所述多个部分之间存在固有几何约束。如果违反了一个或多个几何约束，则可认为一个或多个边界框无效。如图5所示，如果下一场景帧中的M个更新后的边界框不满足M个更新后的边界框之间的几何约束，则可确定目标对象不在视野中。

参照图5，如果确定目标对象的所述多个部分不是全部在下一场景帧中被跟踪时，或者下一场景帧中的M个更新后的边界框不满足M个更新后的边界框之间的几何约束，则所述方法还包括获得下一场景帧，例如，第三场景帧。所述方法重复上述步骤，例如，跟踪分别在第三场景帧中的M个边界框中的目标对象的所述多个部分；确定目标对象的所述多个部分是否在第三场景帧中全部被跟踪；以及确定第三场景帧中的M个更新后的边界框是否满足几何约束。参照图5，如果认为目标对象跟踪是成功的，则所述方法包括显示对象跟踪结果。

在一些实施例中，目标对象的所述至少两部分包括分别在一个或多个富含特征的边界框中的目标对象的一个或多个富含特征的部分。可选地，所述方法还包括：从第一场景帧中的目标对象的所述至少两部分中提取多个特征点，所述一个或多个富含特征的边界框的特征点的分布密度高于其它边界框的特征点的分布密度；以及基于第一场景帧中的所述多个特征点对分别在所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

在一些实施例中，所述方法还包括：从第二场景帧中的目标对象的所述至少两部分中提取多个特征点；从第二场景帧中的所述多个特征点中选择跟踪置信度高于阈值的所述多个特征点的子集；以及基于所述多个特征点的子集更新所述至少两个边界框和进行对象跟踪，例如，获得第二场景帧中的至少两个更新后的边界框。

在一些实施例中，跟踪置信度至少部分地基于针对第二场景帧中的所述多个特征点中的一个或多个中的每一个估计的跟踪误差。可选地，所述方法包括：针对第二场景帧中的所述多个特征点中的所述一个或多个计算跟踪误差；以及选择跟踪误差低于第一阈值的所述多个特征点的第一子集。

在一些实施例中，跟踪置信度至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，第二跟踪窗口包括第二场景帧中的所述多个特征点之一。可选地，所述方法包括：针对第二场景帧中的所述多个特征点中的一个或多个计算归一化互相关系数；以及选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

图6是示出根据本公开的一些实施例中的跟踪多个特征点的方法的流程图。参照图6，一些实施例中的所述方法包括：在第一场景帧与第二场景帧之间执行前向跟踪，以例如利用光流方法确定多个特征点的前向轨迹；以及在第二场景帧与第一场景帧之间执行后向跟踪，以确定所述多个特征点的后向轨迹。跟踪置信度部分地基于跟踪误差，例如，向前-向后误差。可选地，所述方法还包括：计算前向轨迹与后向轨迹之间的向前-向后误差。可选地，将向前-向后误差表达为验证轨迹的初始点与结束点之间的多个欧氏距离。所述方法还包括：选择向前-向后误差小于第一阈值的所述多个特征点的第一子集。可选地，第一阈值是对应于所述多个特征点的向前-向后误差中的中位数的值。接着，进一步筛选所述多个特征点的第一子集中的特征点，并且一些实施例中的方法还包括：针对所述多个特征点的第一子集的各个特征，在第一跟踪窗口与第二跟踪窗口之间计算归一化互相关系数，所述第一跟踪窗口包括在第一场景帧中的网格的中心的具有特征的像素网格B，所述第二跟踪窗口包括在第二场景帧中的网格的中心的具有对应特征的像素网格A。选择所述多个特征点的第一子集中归一化互相关系数等于或大于第二阈值的特征点作为用于更新所述至少两个边界框和进行对象跟踪的所述多个特征点的子集。可选地，第二阈值是所述多个特征点的第一子集的所有特征点的归一化互相关系数中的中位数的值。可选地，所述方法还包括：为在所述至少两个边界框中的每一个中剩余的特征点的数量计数。可选地，当边界框包括边界框中剩余的不止一个特征点时，认为边界框中的对象部分被成功地跟踪。可选地，第一边界框由第二边界框包围，当在第一边界框中无特征点剩余，但是在第二边界框中剩余所述多个特征点的超过50％时，认为第一边界框和第二边界框二者均被成功地跟踪。可选地，当认为边界框之一未被成功地跟踪时，可认为其在所述场景帧中的视场以外。

可使用各种合适的方法来选择所述至少两个边界框。在一些实施例中，手动地选择所述至少两个边界框(例如，见图5)。在一些实施例中，自动地选择所述至少两个边界框。

在一些实施例中，对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象检测和辨识的步骤包括：基于多个参考对象模型选择目标对象的所述至少两部分；以及确定分别包含所述目标对象的至少两部分的所述至少两个边界框。可预先训练(例如，线下训练)所述多个参考对象模型。所述多个参考对象模型可为对应于目标对象的多个部分的对象模型。例如，所述多个参考对象模型可包括头部模型、上身部分模型、下身部分模型、臂部模型、腿部模型、手部模型、面部模型和富含特征的部分的模型。富含特征的部分的模型可包括用于动物、植物、文本字符、建筑物和各种其它对象的对象模型。可选地，所述多个对象模型中的每一个可包括基于针对对象辨识的深度学习的一个或多个分类器。可选地，可利用深度学习模型对所述多个对象模型进行线下训练。所述多个参考对象模型中的每一个可表示可被对象检测器辨识的对象部分。

图7是示出根据本公开的一些实施例的自动地检测和辨识目标对象的多个部分的方法的流程图。参照图7，一些实施例中的方法包括：收集人类对象跟踪的大量正面示例和负面示例；提取所述正面示例和负面示例的梯度方向直方图(HOG)特征，并且为HOG特征分配标签；利用机器学习算法执行分类器训练以获得多个对象模型；将第一场景帧的图像内容与所述多个对象模型进行比较；确定第一场景帧的对应于人类对象的区域；提取对应于人类对象的区域的轮廓特征；并且基于提取的轮廓特征将对应于人类对象的区域分割为目标对象的多个部分。

在另一方面，本公开提供了一种计算机程序产品，其包括其上具有指令的非暂时性有形计算机可读介质。在一些实施例中，所述指令包括：用于使得目标对象跟踪设备获得第一场景帧的代码；用于使得目标对象跟踪设备对分别在第一场景帧中的至少两个边界框中的目标对象的至少两部分执行对象检测和辨识的代码；用于使得目标对象跟踪设备获得第二场景帧的代码，第二场景帧在时间上比第一场景帧更晚；以及用于使得目标对象跟踪设备对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪的代码。

可选地，所述指令还包括：用于使得目标对象跟踪设备确定在第二场景帧中目标对象的所述至少两部分是否全部被跟踪的代码；用于使得目标对象跟踪设备更新所述至少两个边界框以获得至少两个更新后的边界框的代码；以及用于基于确定在第二场景帧中目标对象的所述至少两部分全部被跟踪而使得目标对象跟踪设备基于所述至少两个更新后的边界框之间的几何约束确定所述至少两个更新后的边界框是否有效的代码。可选地，所述指令还包括：用于使得目标对象跟踪设备在第二场景帧中目标对象的所述至少两部分不是全部被跟踪的情况下获得第三场景帧并且确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪的代码。可选地，所述指令还包括：用于使得目标对象跟踪设备在基于几何约束确定所述至少两个边界框中的一个或多个无效的情况下获得第三场景帧并且确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪的代码。

在一些实施例中，目标对象的所述至少两部分包括目标对象的分别在一个或多个富含特征的边界框中的一个或多个富含特征的部分。可选地，所述指令还包括：用于使得目标对象跟踪设备从第一场景帧中的目标对象的所述至少两部分中提取多个特征点的代码，所述一个或多个富含特征的边界框的特征点的分布密度高于其它边界框的特征点的分布密度；以及用于使得目标对象跟踪设备基于第一场景帧中的所述多个特征点对目标对象的分别在所述至少两个边界框中的所述至少两部分执行对象跟踪的代码。可选地，所述指令还包括用于使得目标对象跟踪设备执行以下操作的代码：从第二场景帧中的目标对象的所述至少两部分中提取多个特征点；从第二场景帧中的所述多个特征点中选择跟踪置信度高于阈值的所述多个特征点的子集；以及基于所述多个特征点的子集更新所述至少两个边界框和进行对象跟踪。可选地，跟踪置信度至少部分地基于针对第二场景帧中的所述多个特征点中的一个或多个中的每一个估计的跟踪误差；并且所述指令还包括用于使得目标对象跟踪设备执行以下操作的代码：针对第二场景帧中的所述多个特征点的所述一个或多个计算跟踪误差；以及选择跟踪误差低于第一阈值的所述多个特征点的第一子集。可选地，跟踪置信度至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，第二跟踪窗口包括第二场景帧中的所述多个特征点之一；并且所述指令还包括用于使得目标对象跟踪设备进行以下操作的代码：针对第二场景帧中的所述多个特征点的一个或多个计算归一化互相关系数；以及选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

可选地，所述指令还包括用于使得目标对象跟踪设备进行以下操作的代码：基于多个参考对象模型选择目标对象的所述至少两部分；以及确定分别包含目标对象的所述至少两部分的所述至少两个边界框。

已经以示意和说明为目的而呈现了本发明实施例的以上描述。其并非旨在穷举性的，也并非旨在将本发明限于所公开的精确形式或示例性实施例。因此，以上描述应当视为示意性的而非限制性的。显然，许多修改和变化对于本领域技术实践人员而言将是显而易见的。选择和描述这些实施例是为了解释本发明的原理及其最佳模式的实际应用，以使得本领域技术人员能够通过各种实施例以及适于特定应用或所构思的实施方式的各种修改例来理解本发明。除非另外指明，否则本发明的范围旨在由所附权利要求及其等价形式限定，在其中所有术语应当被理解为其最宽泛的合理含义。因此，术语“所述发明”、“本发明”等并不一定将权利要求的范围限定在特定的实施例，并且参照本发明示例性实施例并不意味着对本发明的限制，也不应推断出任何这样的限制。本发明仅由所附权利要求的精神和范围所限定。此外，这些权利要求可适于在名词或元件之前使用“第一”、“第二”等。这些术语应当理解为一种命名法，而不应被理解为对这些命名法所修饰的元件的数量进行限制，除非已经给出了具体的数量。所描述的任何优点和益处可不适用于本发明的所有实施例。应当理解的是，在不脱离由所附权利要求限定的本发明的范围的情况下，本领域技术人员可以对所描述的实施例进行各种变化。此外，本公开的任何元件和组件均不旨在贡献给公众，无论所述元件或组件是否在所附权利要求中明确记载。

Claims

1.一种通过电子设备执行以检测和跟踪目标对象的方法，包括以下步骤：

获得第一场景帧；

对分别在第一场景帧的至少两个边界框中的目标对象的至少两部分执行对象检测和辨识；

获得第二场景帧，第二场景帧在时间上比第一场景帧更晚；以及

对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

2.根据权利要求1所述的方法，还包括以下步骤：

确定在第二场景帧中目标对象的所述至少两部分是否全部被跟踪；

更新所述至少两个边界框以获得至少两个更新后的边界框；以及

基于确定在第二场景帧中目标对象的所述至少两部分全部被跟踪，来基于所述至少两个更新后的边界框之间的几何约束确定所述至少两个更新后的边界框是否有效。

3.根据权利要求2所述的方法，还包括：如果在第二场景帧中目标对象的所述至少两部分不是全部被跟踪，获得第三场景帧，并且确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。

4.根据权利要求2所述的方法，还包括：如果基于几何约束确定所述至少两个更新后的边界框中的一个或多个无效，则获得第三场景帧，并且确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。

5.根据权利要求1所述的方法，其中，目标对象的所述至少两部分包括目标对象的分别在一个或多个富含特征的边界框中的一个或多个富含特征的部分；

所述方法还包括以下步骤：

从第一场景帧中的目标对象的所述至少两部分中提取多个特征点，所述一个或多个富含特征的边界框的特征点的分布密度高于其它边界框的特征点的分布密度；以及

基于第一场景帧中的所述多个特征点对分别在所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

6.根据权利要求5所述的方法，还包括以下步骤：

从第二场景帧中的目标对象的所述至少两部分中提取多个特征点；

从第二场景帧中的所述多个特征点中选择跟踪置信度满足阈值的所述多个特征点的子集；以及

基于所述多个特征点的子集更新所述至少两个边界框。

7.根据权利要求6所述的方法，其中，跟踪置信度至少部分地基于针对第二场景帧中的所述多个特征点中的一个或多个中的每一个估计的跟踪误差；并且

选择所述多个特征点的子集的步骤包括：

针对第二场景帧中的所述多个特征点中的所述一个或多个计算跟踪误差；以及

选择跟踪误差低于第一阈值的所述多个特征点的第一子集。

8.根据权利要求7所述的方法，其中，跟踪置信度还至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，并且第二跟踪窗口包括第二场景帧中的所述多个特征点之一；并且

选择所述多个特征点的子集的步骤还包括：

针对第二场景帧中的所述多个特征点的第一子集中的一个或多个所述多个特征点计算归一化互相关系数；以及

从所述多个特征点的第一子集中选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

9.根据权利要求6所述的方法，其中，跟踪置信度至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，第二跟踪窗口包括第二场景帧中的所述多个特征点之一；并且

选择所述多个特征点的子集的步骤包括：

针对第二场景帧中的所述多个特征点中的一个或多个计算归一化互相关系数；以及

选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

10.根据权利要求1所述的方法，其中

对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象检测和辨识的步骤包括：

基于多个参考对象模型选择目标对象的所述至少两部分；以及

确定分别包含目标对象的所述至少两部分的所述至少两个边界框。

11.根据权利要求10所述的方法，其中，所述多个参考对象模型是对应于目标对象的多个部分的预训练的参考对象模型；并且

所述方法还包括训练所述多个参考对象模型。

12.根据权利要求1所述的方法，其中，目标对象是人。

13.一种目标对象跟踪设备，包括：

对象检测器，其被构造为对分别在第一场景帧的至少两个边界框中的目标对象的至少两部分执行对象检测和辨识；以及

至少两个对象跟踪器，其被构造为对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

14.根据权利要求13所述的目标对象跟踪设备，还包括一个或多个图像传感器，其被构造为获得第一场景帧和第二场景帧，第二场景帧在时间上比第一场景帧更晚。

15.根据权利要求14所述的目标对象跟踪设备，还包括：

确定器，其被构造为确定在第二场景帧中目标对象的所述至少两部分是否全部被跟踪；

更新器，其被构造为更新所述至少两个边界框以获得至少两个更新后的边界框；并且

基于确定在第二场景帧中目标对象的所述至少两部分全部被跟踪，确定器被进一步构造为基于所述至少两个更新后的边界框之间的几何约束确定所述至少两个更新后的边界框是否有效。

16.根据权利要求15所述的目标对象跟踪设备，其中，

所述一个或多个图像传感器被进一步构造为获得第三场景帧；并且

确定器被进一步构造为：如果在第二场景帧中目标对象的所述至少两部分不是全部被跟踪，确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。

17.根据权利要求15所述的目标对象跟踪设备，其中，

对象检测器被进一步构造为获得第三场景帧；并且

确定器被进一步构造为：如果基于几何约束确定所述至少两个边界框中的一个或多个无效，确定在第三场景帧中目标对象的所述至少两部分是否全部被跟踪。

18.根据权利要求14所述的目标对象跟踪设备，其中，目标对象的所述至少两部分包括目标对象的分别在一个或多个富含特征的边界框中的一个或多个富含特征的部分；

目标对象跟踪设备还包括提取器，其被构造为从第一场景帧中的目标对象的所述至少两部分中提取多个特征点，所述一个或多个富含特征的边界框的特征点的分布密度高于其它边界框的特征点的分布密度；并且

所述至少两个对象跟踪器被构造为基于第一场景帧中的所述多个特征点对分别在所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪。

19.根据权利要求18所述的目标对象跟踪设备，其中，

提取器被进一步构造为从第二场景帧中的目标对象的所述至少两部分中提取多个特征点；

目标对象跟踪设备还包括选择器，其被构造为从第二场景帧中的所述多个特征点中选择跟踪置信度满足阈值的所述多个特征点的子集；并且

更新器被构造为基于所述多个特征点的子集更新所述至少两个边界框。

20.根据权利要求19所述的目标对象跟踪设备，其中，跟踪置信度至少部分地基于针对第二场景帧中的所述多个特征点中的一个或多个中的每一个估计的跟踪误差；

选择器包括跟踪置信度评价器；

跟踪置信度评价器包括跟踪误差估计器，其被构造为针对第二场景帧中的所述多个特征点中的一个或多个中的每一个计算跟踪误差；并且

选择器被进一步构造为选择跟踪误差低于第一阈值的所述多个特征点的第一子集。

21.根据权利要求20所述的目标对象跟踪设备，其中，跟踪置信度还至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，第二跟踪窗口包括第二场景帧中的所述多个特征点之一；

跟踪置信度评价器还包括归一化互相关系数计算器，其被构造为针对第二场景帧中的所述多个特征点的第一子集中的一个或多个所述多个特征点计算归一化互相关系数；并且

选择器被构造为从所述多个特征点的第一子集中选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

22.根据权利要求19所述的目标对象跟踪设备，其中，跟踪置信度至少部分地基于第一场景帧中的第一跟踪窗口与第二场景帧中的第二跟踪窗口之间的归一化互相关系数，第一跟踪窗口包括第一场景帧中的所述多个特征点之一，并且第二跟踪窗口包括第二场景帧中的所述多个特征点之一；

跟踪置信度评价器包括归一化互相关系数计算器，其被构造为针对第二场景帧中的所述多个特征点中的一个或多个计算归一化互相关系数；并且

选择器被构造为选择归一化互相关系数高于第二阈值的所述多个特征点的第二子集。

23.根据权利要求14所述的目标对象跟踪设备，还包括：

选择器，其被构造为基于多个参考对象模型选择目标对象的所述至少两部分；以及

确定器，其被构造为确定分别包含目标对象的所述至少两部分的所述至少两个边界框；

其中，对象检测器被构造为对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象检测和辨识。

24.一种计算机程序产品，包括其上具有指令的非暂时性有形计算机可读介质，所述指令包括：

用于使得目标对象跟踪设备获得第一场景帧的代码；

用于使得目标对象跟踪设备对分别在第一场景帧的至少两个边界框中的目标对象的至少两部分执行对象检测和辨识的代码；

用于使得目标对象跟踪设备获得第二场景帧的代码，第二场景帧在时间上比第一场景帧更晚；以及

用于使得目标对象跟踪设备对分别在第一场景帧的所述至少两个边界框中的目标对象的所述至少两部分执行对象跟踪的代码。