CN109272533B

CN109272533B - 一种基于紧致表达的物体鲁棒跟踪装置及跟踪方法

Info

Publication number: CN109272533B
Application number: CN201811187764.0A
Authority: CN
Inventors: 秦学英; 王同翰
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2021-08-17
Anticipated expiration: 2038-10-12
Also published as: CN109272533A

Abstract

本发明涉及一种基于紧致表达的物体鲁棒跟踪装置及其跟踪方法，属于物体跟踪技术领域。本发明用于在虚拟现实环境下实现鲁棒跟踪的物体紧致表达(字典)的方法，方法主要为捕获目标的子图像、构建实例池、学习紧凑模板、扩充实例池得到最优模板、计算物体二维位置、三维物体轨迹和模拟虚拟物体等，其基本思想是利用稀疏表达基于有关目标的图像数据学习描述物体的紧致表达；实现方法包括三个步骤，首先收集包含目标的图像，其次利用稀疏表达的残差初始化一个字典，最后利用支持向量机寻找目标流形上的稀疏区域，通过再采样和第二步中的方法构造一个完备字典。该方法可以学习到一个目标的紧致且完备的表达，可用来在虚拟现实应用中实现鲁棒跟踪。

Description

一种基于紧致表达的物体鲁棒跟踪装置及跟踪方法

技术领域

本发明涉及一种基于紧致表达的物体鲁棒跟踪装置及跟踪方法，属于物体跟踪技术领域。

背景技术

增强现实(Augmented Reality，简称AR)应用需要实现对真实世界动态物体的认知，从而获得对于运动物体的适当响应。物体跟踪提供了兴趣对象在画面中的空间信息，但鲁棒而准确的追踪往往是一个困难的任务。一旦跟踪失败，增强现实应用就失去了对物体的感知，从而无法进行正确的反馈，导致系统失败。其中，由于观察角度变化、物体自身的动态性、遮挡造成目标的外观变化、光照环境的变化，是追踪失败的一个主要原因。为此，要实现准确鲁棒的追踪，我们需要一个物体外观的全面表达，同时，考虑到实时性要求，这个全面的表达必须是紧致的。

物体的视觉跟踪是计算机视觉的经典问题，主要分为生成式的跟踪和判别式的跟踪。视觉跟踪存在两个基本问题，即如何有效地表示目标，即通常所说的外观表示模型，以及如何有效地找到目标，也即通常所说的目标搜索策略。这两个问题是相辅相成的：精确的外观表示模型使得物体与背景具有良好的区分度，从而能够准确地定位目标；但是精确的目标常常导致其表述的复杂性，从而导致搜索计算的效率降低。如果要保持其实时性，往往需要外观表示具有精炼性。由于一般的目标跟踪跟踪问题仅有第一帧的目标定义，其外观的定义往往是不完整的，导致在其发生动态变化时，外观与初始定义的模板差异过大，导致跟踪的失败。因此，下面分别阐述这两方面的进展情况。

外观表示模型是指如何有效地表示被跟踪物体。常见的外观表示模型有基于概率密度表示的、基于协方差矩阵表示的、基于模板表示的、基于稀疏表示的、基于判别学习的，等等。但是，这些目标的表示方法都是对于一个目标初始帧的表示方法，并允许在跟踪过程中逐渐丰富其表达。然而，无论采用何种方式，都无法保障完全准确的跟踪结果。一旦发生跟踪错误，这种错误又被集成到物体的表达之中时，物体的外观表示就形成了错误的表达，很容易导致后续跟踪的失败。

目标的搜索策略主要用来确定目标在视频帧画面中的位置，在跟踪过程中也起着关键作用。其主要涉及到跟踪的效率问题。常用的有基于迭代搜索的策略、基于滑动窗口的策略、以及基于随机采样的策略。由于目标在画面上的运动往往具有很大的随机性，尽管随机采样相比于滑动窗口策略可以大大减少采样数量，但往往也需要很大样本进行计算。比如在目标跟踪过程中，通常需要600个采样点才能获得比较好的性能。因此，在实际跟踪过程中，即使采用随机采样的策略，对一些比较耗时的外观表示模型，尤其是具有复杂表示物体模型来说，要想实现实时的目标跟踪还是异常困难。

为了提高目标跟踪的精确性和鲁棒性，已经提出了很多策略，采用多跟踪器策略，从中选用最佳结果，可以明显提高准确性；采用多示例学习的方法，也能提高跟踪器从偶然错误中恢复的性能。基于检测的跟踪方法，则采取检测的方法进行跟踪。尤其是深度卷积神经网络出现后，也出现了很多深度网络的跟踪方法，提高了跟踪器的性能。但是，深度学习一般针对通用目标，仍未解决特定目标的鲁棒跟踪问题。

发明内容

针对现有技术的不足，本发明提供一种基于紧致表达的物体鲁棒跟踪装置及跟踪方法，通过稀疏表示模型，快速获取与紧凑模板表示最为相似的目标，从而实现实时、鲁棒、稳定的跟踪效果。

术语解释：SVM，支持向量机(Support Vector Machine，简称SVM)。

本发明采用以下技术方案：

一方面，本发明提供一种基于紧致表达的物体鲁棒性跟踪装置，包括计算机和与其连接的摄像头，可通过数据连接一台计算机和一台摄像机实现。

另一方面，本发明还提供一种上述基于紧致表达的物体鲁棒跟踪装置的跟踪方法，包括以下步骤：

1)建立完备紧致的目标字典；为了在无标记AR环境中实现稳健跟踪，我们首先需要创建对象的表示，我们将这个问题视作构建目标对象的所有可能外观的标准化子图像的高维流形的一种表示。

1.1)从多个视角、多个背景下和在变化的光照条件下通过摄像头捕获关于目标的子图像；需要注意这些子图像不应有任何遮挡，为了方便大量、快速地获取这样的图像，可以利用拍摄的视频序列和计算机合成的图像，这些子图像应该构成关于目标的完备描述，即他们应该包含了目标在各种角度、各种光照条件、各种背景下的图像。

1.2)由步骤1.1)得到的子图像组成实例池，从实例池中，通过稀疏字典学习的迭代方法，采取顺序倒序相间的方法构建紧凑的模板集；可以通过学习表示物体的所有图像构成的流形空间中的一组紧凑模板，该组模板也是一组图像，存贮于指定目录中；这组模板就是实例池中图像的紧凑表达，因为这组紧凑模板中的图像，在预先定义的误差范围内，使得实例池中的任何一幅图像，都可以在误差范围内，由紧凑模板来表示；

1.3)通过使用基于SVM的稀疏度检测方法确保步骤1.2)模板集是真正完备且紧致的；步骤1.2)能保证当前模板集对于当前的实例池是完备集凑的，但却无法保证对于目标满足这个条件，这是因为实例池中的实例可能不完备。使用支持向量机SVM来检测实例池中实例的完备性；若实例在流形上某个区域是稀疏的，那么用SVM(由所有实例作为正样例训练而来)确定的分界线在该区域将是模糊的，其后果是若用该SVM来分类，在这个区域将会有很多分类错误；利用这一观察，用这样的SVM来对整个实例池中的实例进行分类，如果在某些相类似的实例上SVM的错误率超过了某个阈值，那么认为在这些实例附近需要进行再采样；实验证明这样的稀疏检测算法确实检测出了流形上的样例稀疏区域；

1.4)再采样扩充原实例池，产生新的实例池，不断重复步骤1.2)和步骤1.3)，直至新的实例池相对于前一实例池不再增大，得到最优的模板集；

1.5)将步骤1.4)得到的最优的模板集被用于视频和增强现实系统中在线跟踪目标，通过稀疏表示判断最终目标的位置；

2)将步骤1)得到的目标字典用于增强现实应用中，将图像的对象区域转换为三维空间区域。

优选的，步骤1.2)中，稀疏字典学习的迭代方法实现的优化方程如下：

其中，T为当前模板集，T^*则是最终求解到的最优的模板集，x^j为实例池中的一个实例，j＝1,2,...,m，m为实例个数，||·||₂表示l₂范数，μ、λ为设定常数，cols(T)为模板集含有的模板的数量，α为稀疏系数向量，

为式(2)中稀疏表达x^j的最佳系数向量，其求解方法与已有方法相同，这个系数向量

进一步用于式(1)中，用来求解紧凑模板集，本质上是决定是否加入x^j到紧凑模板集中。

优选的，稀疏字典学习的迭代方法的渐进式的模板构建方法，采取顺序倒序相间的方法构建模板集，具体过程为：

初始化模板集由实例池中最初的若干个随机选择的实例构成(例如10个实例、8个实例或者9个实例均可，只要保证2个及以上即可)，设当前模板集为T^(k)，则x^j通过模板集T^(k)的稀疏表示，通过优化如下方程获得：

其中，x^j为实例池中的一个实例，j＝1,2,...,m，m为实例个数，||·||₂表示l₂范数，λ为设定常数，α为稀疏系数向量，

为稀疏表达x^j的最佳系数向量；

定义误差函数：

则error表示了实例x^j由模板集为T^(k)重构时的误差；设定一个阈值τ₂，如果error>τ₂，则认为T^(k)不能良好地表达x^j，因此将xj加入T^(k)，得到T^(k+1)，这个过程对实例池中所有的实例x^j都顺序进行一遍，完成一次顺序执行的模板选择；

在完成一次顺序选择之后，可以保证实例池中所有的实例都可以被模板集中的某些模板准确地稀疏表示，但是，并不能保证这个模板集是紧凑的，其中很可能存在一些冗余的模板，即使它们不存在于模板集中，实例池中的实例也能被很好的表达；通过倒序排序排查模板集中的每一个模板，如果该模板x^j能够被T^(k)中除x^j以外的其它模板准确地稀疏表达，即error≤τ₂，那么该模板将被从模板集中删除，得到模板集T^(k-1)；

将顺序添加和倒叙排除将交替进行，直至模板集不发生变化或者表达的总参差不再明显下降为止。

优选的，步骤2)中包括通过约束和先验将图像中的对象区域转换为物理世界中的三维空间区域，具体过程为：约束条件是场景中的几何形状，由三维模型表示，通过目标跟踪获得在图像上的区域，根据约束条件建立该区域与约束条件的交点，由搭载摄像头的相机位置与该位置连接构成一条射线，该射线与约束条件定义的几何形状求交，获得一个三维空间点；再由对象的先验信息，如：大致的圆柱体、球体等，根据图像区域的大小，推算其在三维空间所占据的体积，完成二维区域到三维区域的转换，虚拟人将根据检测出的真实物体的空间区域进行路径规划，输出虚实融合场景；在完成该二维区域到三维空间区域的转换过程中，我们先后用到了相机定标和场景定标，该标定过程将确定转换所需的变换矩阵，依据该三维空间区域，在AR环境中可以避免虚拟物体和行人之间发生空间碰撞，在此期间跟踪中的三维形状变形被忽略。

本发明的方法，用于在虚拟现实环境下实现鲁棒跟踪的物体紧致表达(字典)的方法，其基本思想是利用稀疏表达基于有关目标的图像数据学习描述物体的紧致表达；实现方法包括三个步骤，首先收集包含目标的图像，其次利用稀疏表达的残差初始化一个字典，最后利用支持向量机寻找目标流形上的稀疏区域，通过再采样和第二步中的方法构造一个完备字典；该方法可以学习到一个目标的紧致且完备的表达，可用来在虚拟现实应用中实现鲁棒跟踪，未详尽说明之处，均可采用本领域的常规技术实施。

本发明的有益效果为：

1.本发明预先构建了跟踪目标对象的紧凑模板表示，该表示采用最为紧致的表达，表示对象在各种环境和光照条件下以及各种动态间的外观图像所形成的流形空间。

2.本发明采用该紧凑模板表示进行目标跟踪，通过稀疏表示模型，快速获取与紧凑模板表示最为相似的目标，从而实现实时、鲁棒、稳定的跟踪效果。

3.本发明用于增强现实环境中，基于环境中的约束条件，提供目标的空间位置，从而实现目标三维空间的定位，以及与虚拟物体间的交互。

4.本发明提出了一种全新的基于线性编码的搜索策略，该策略通过吸收迭代搜索策略和随机采样搜索策略的优点，在随机采样的基础上，在物体的外观空间构建一个连续的空间，从而可以迭代搜索的得到目标解，而不需要像粒子滤波一样，需要分别计算每个采样点的权重值，从而可以大大减少时间，同时也取得了比粒子滤波更加准确的解。

附图说明

图1为本发明的基于紧致表达的物体鲁棒跟踪装置的结构示意图；

图2为本发明的基于紧致表达的物体鲁棒跟踪装置的跟踪方法的流程示意图；

图3为本发明的一个实施例的过程示意图；

图4(a)、4(b)、4(c)、4(d)、4(e)、4(f)、4(g)、4(h)分别为对比例1-13和本发明在不同条件下标准数据集上的不同方法的运行结果对比；

图5(a)、5(b)、5(c)、5(d)、5(e)、5(f)、5(g)、5(h)、5(i)、5(j)、5(k)、5(l)分别为对比例1-13和本发明一个视频序列上不同方法的运行的结果图。

具体实施方式：

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述，但不仅限于此，本发明未详尽说明的，均按本领域常规技术。

实施例1：

如图1所示，一种基于紧致表达的物理鲁棒跟踪装置，包括计算机和与其连接的摄像头。

实施例2：

一种基于紧致表达的物理鲁棒跟踪方法，如图2所示，包括以下步骤：

1)构建完备紧致的目标字典。为了在无标记AR环境中实现稳健跟踪，我们首先需要创建对象的表示，我们将这个问题视作构建目标对象的所有可能外观的标准化子图像的高维流形的一种表示。具体分为以下五个步骤：

1.1)从多个视角、多个背景下和在变化的光照条件下通过摄像头捕获关于目标的子图像，组成实例池，需要注意这些子图像不应有任何遮挡。为了方便大量、快速地获取这样的图像，可以利用拍摄的视频序列和计算机合成的图像。这些子图像应该构成关于目标的完备描述，即他们应该包含了目标在各种角度、各种光照条件、各种背景下的图像。

1.2)由这些子图像组成的实例池，采用文件列表的方式存储于指定目录。从实例池中，通过稀疏字典学习的迭代方法，学习表示物体的所有图像构成的流形空间中的一组紧凑模板，该组模板也是一组图像，存贮于指定目录中。这组模板就是实例池中图像的紧凑表达，因为这组紧凑模板中的图像，在预先定义的误差范围内，使得实例池中的任何一幅图像，都可以在误差范围内，由紧凑模板来表示。稀疏字典学习迭代方法的详细步骤如下：

实现的优化总的优化方程如下：

其中：T为当前模板集，T*则是最终求解到的最优的模板集，是由多个紧凑模板构成的，x^j为实例池中的一个实例，j＝1,2,...,m，m为实例个数，||·||₂表示l₂范数，μ、λ为设定常数，cols(T)为模板集含有的模板的数量，α为稀疏系数向量，

为式(2)中，稀疏表达x^j的最佳系数向量，其求解方法与已有方法相同。这个系数向量

针对式(1)、(2)提出一个渐进式的模板构建方法，该方法采取顺序倒序相间的方法来构建模板集。具体来说，初始化模板集由实例池中最初10个随机选择的实例构成；设当前模板集为T^(k)，则x^j通过模板集T^(k)的稀疏表示，通过优化如下方程获得:

其中的参数与式(1)、(2)相同；

定义表示误差函数:

则error表示了实例x^j由模板集为T^(k)重构时的误差；设定一个阈值τ₂，如果error>τ₂，则认为T^(k)不能良好地表达x^j，因此将x^j加入T^(k)，得到T^(k+1)；这个过程对实例池中所有的实例x^j都顺序进行一遍，完成一次顺序执行的模板选择；

在完成一次顺序选择之后，可以保证实例池中所有的实例都可以被模板集中的某些模板准确地稀疏表示，但是，我们现在并不能保证这个模板集是紧凑的，因为其中很可能存在一些冗余的模板，即使它们不存在于模板集中，实例池中的实例也能被很好的表达，于是需要一个倒序的排除过程，排查模板集中的每一个模板，如果该模板x^j能够被T^(k)中除x^j以外的其它模板准确地稀疏表达(即error≤τ₂)，那么该模板将被从模板集中删除，得到模板集T^(k-1)；

顺序添加和倒叙排出将交替进行，直至模板集不发生变化或者表达的总参差不再明显下降为止；

1.3)通过使用基于SVM的稀疏度检测方法确保模板集是真正完备且紧致的，步骤1.2)能保证当前模板集对于当前的实例池是完备集凑的，但却无法保证对于目标满足这个条件，这是因为实例池中的实例可能不完备。我们使用支持向量机SVM来检测实例池中实例的完备性；若实例在流形上某个区域是稀疏的，那么用SVM(由所有实例作为正样例训练而来)确定的分界线在该区域将是模糊的，其后果是若用该SVM来分类，在这个区域将会有很多分类错误。我们利用了这一观察，用这样的SVM来对整个实例池中的实例进行分类，如果在某些相类似的实例上SVM的错误率超过了某个阈值，那么我们认为在这些实例附近需要进行再采样，实验证明这样的稀疏检测算法确实检测出了流形上的样例稀疏区域。

1.4)再采样扩充原实例池，产生了新的实例池，在该实例池上，1.2)和1.3)将被重复，直至实例池不再增大。关于目标的完备紧致描述将从该实例池中学习出来。

1.5)该紧凑、完整的模板集将用于在视频和增强现实(AR)系统中在线跟踪目标。实验表明，即使目标被部分遮挡，我们的方法也能够实时且准确地实时跟踪，而其他现有的跟踪方法无法满足AR应用的运行时要求。

2)将目标字典用于增强现实(AR)应用之中。通过一些简单，明确定义的约束和先验将图像中的对象区域转换为物理世界中的三维空间区域，具体来说，约束条件是场景中的几何形状，由三维模型表示；通过目标跟踪获得在图像上的区域，根据约束条件建立该区域与约束条件的交点，由相机位置与该位置连接构成一条射线，该射线与约束条件定义的几何形状求交，就获得了一个三维空间点；再由对象的一些先验信息(如：大致的圆柱体、球体等)，根据图像区域的大小，推算其再三维空间所占据的体积，完成二维区域到三维区域的转换；在完成该二维区域到三维空间区域的转换过程中，先后用到了相机定标和场景定标，该标定过程将确定转换所需的变换矩阵。依据该三维空间区域，在AR环境中可以避免虚拟物体和行人之间发生空间碰撞，在此期间跟踪中的三维形状变形被忽略。虚拟人将根据检测出的真实物体的空间区域进行路径规划，输出虚实融合场景。

实施例3：

一种基于紧致表达的物体鲁棒跟踪方法，如图3所示，在训练阶段，如图3的上一行从右至左，采集一个人物的各种视频画面，对该人物进行一般意义的目标跟踪，在跟踪失败时，通过人工干预去除或者纠正错误；将准确跟踪到的目标对应的子图像取出，从而获得数千至数十万不等的实例{x^j,j＝1,2,...,m}，构成实例池；进一步通过迭代的稀疏学习方法，挑选出紧凑模板集T^*；在在线阶段(如图3的下一行从左至右)，这个模板集T^*被用来跟踪目标，从而获得稳定的二维区域，并通过约束条件，即人物行走在地面上，可知二维区域的最下端与平面接触，从而获得脚步位置的三维坐标，进一步根据人物的大体形状，推算出人物的三维空间区域，这样，虚拟的机器人就可以跟随或者与真实人物实现交互，避免相互碰撞。

对比例1-对比例13：

对比例1-对比例13分别为多域卷积神经网络(MDnet)、卷积神经网络-支持向量机(CNN-SVM)、条件级联跟踪(CCT)、视觉跟踪分解(VTD)、结构输出跟踪(Struck)、核循环结构法(CSK)、采样跟踪法(VTS)、局部敏感直方图跟踪法(LSHT)、内容跟踪法(CXT)、正负样本跟踪法(TLD)、递归尺度近似法(RS-V)、局部稀疏表示与K选择法(LSK)、在线强化学习法(OAB)。

其中，MDnet方法的详细过程参见文献H.Nam and B.Han,“Learning multi-domain convolutional neuralnetworks for visual tracking,”in 2016IEEEConference on ComputerVision and Pattern Recognition,2016,pp.4293–4302；

CNN-SVM方法的详细过程参见文献S.Hong,T.You,S.Kwak,and B.Han,“Onlinetracking by learningdiscriminative saliency map with convolutional neuralnetwork,”inProceedings of the 32nd International Conference on MachineLearning,2015,pp.597–606.；

其他方法请参见文献Y.Wu,J.Lim,and M.Yang,“Object tracking benchmark,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.37,no.9,pp.1834–1848,2015；

对比例1-13的各种方法均为现有较为流行的跟踪方法，其详细跟踪原理此处不再赘述。

实验例1：

目标跟踪的方法一般在标注数据集上进行对比，本发明所采用的方法与对比例1-13对比，结果如图4(a)-4(h)。其中，图4是不同算法在不同条件的标准数据集上的运行结果对比，数据集分别为背景杂乱、目标形变、光照变化、平面旋转、低解像度、遮挡、非平面旋转、尺度变化等8种情况，由图4(a)-4(h)8幅图表示，图例中MDnet[0.664]中系数0.664代表准确率，是由标准数据测试平台给出的评分，满分为1.0，这些图的横坐标均表示跟踪到目标区域与真实目标区域的重合度，纵坐标均表示了以相应的重合度作为目标跟踪成功的标准，所获得的各种算法的成功率，因此曲线的取值越高，说明算法越好。

在图4(a)-4(h)中，本发明所产生的曲线如图中箭头所示，可见其取值几乎是最高的，尤其是当以更高的重合度为标准时，有更好的性能，体现了算法的优越性。

实验例2：

图5(a)-5(l)为对比例1-对比例13在一个视频序列上运行的结果图，以人的头部作为跟踪目标，其中，虚线框为本发明的运行结果，其他实线框为各种对比例的跟踪结果图，从图中可知，对比例1-13和本发明相比，不管在何种情况下，本发明均能获得跟踪结果，而对比例1-13中在某些情况下是不能获得跟踪目标的，即是对比例1-13中有些情况下能够获得跟踪目标，但是，显而易见，本发明获得的跟踪结果均较为接近真实结果，本发明的跟踪方法能够非常鲁棒地跟踪目标，尽管目标外观和光照都有很大变化。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于紧致表达的物体鲁棒跟踪装置的跟踪方法，其特征在于，物体鲁棒跟踪装置包括计算机和与其连接的摄像头；

跟踪方法包括以下步骤：

1)建立完备紧致的目标字典；

1.1)从多个视角、多个背景下和在变化的光照条件下通过摄像头捕获关于目标的子图像；

1.2)由步骤1.1)得到的子图像组成实例池，从实例池中，通过稀疏字典学习的迭代方法，采取顺序倒序相间的方法构建紧凑的模板集；

1.3)通过使用基于SVM的稀疏度检测方法确保步骤1.2)模板集是真正完备且紧致的；

2.根据权利要求1所述的基于紧致表达的物体鲁棒跟踪装置的跟踪方法，其特征在于，所述步骤1.2)中，稀疏字典学习的迭代方法实现的优化方程如下：

为式(2)中稀疏表达x^j的最佳系数向量。

3.根据权利要求2所述的基于紧致表达的物体鲁棒跟踪装置的跟踪方法，其特征在于，稀疏字典学习的迭代方法的渐进式的模板构建方法，采取顺序倒序相间的方法构建模板集，具体过程为：

初始化模板集由实例池中最初的若干个随机选择的实例构成，设当前模板集为T^(k)，则x^j通过模板集T^(k)的稀疏表示，通过优化如下方程获得：

为稀疏表达x^j的最佳系数向量；

定义误差函数：

则error表示了实例x^j由模板集为T^(k)重构时的误差；设定一个阈值τ₂，如果error＞τ₂，则认为T^(k)不能良好地表达x^j，因此将x^j加入T^(k)，得到T^(k+1)，这个过程对实例池中所有的实例x^j都顺序进行一遍，完成一次顺序执行的模板选择；

在完成一次顺序选择之后，保证实例池中所有的实例都被模板集中的某些模板准确地稀疏表示，但是，并不能保证这个模板集是紧凑的，其中很可能存在一些冗余的模板，通过倒序排序排查模板集中的每一个模板，如果该模板x^j能够被T^(k)中除x^j以外的其它模板准确地稀疏表达，即error≤τ₂，那么该模板将被从模板集中删除，得到模板集T^(k-1)；

将顺序添加和倒序排除交替进行，直至模板集不发生变化或者表达的总参差不再明显下降为止。

4.根据权利要求3所述的基于紧致表达的物体鲁棒跟踪装置的跟踪方法，其特征在于，步骤2)中包括通过约束和先验将图像中的对象区域转换为物理世界中的三维空间区域，具体过程为：约束条件是场景中的几何形状，由三维模型表示，通过目标跟踪获得在图像上的区域，根据约束条件建立该区域与约束条件的交点，由搭载摄像头的相机位置与该位置连接构成一条射线，该射线与约束条件定义的几何形状求交，获得一个三维空间点；再由对象的先验信息，根据图像区域的大小，推算其在三维空间所占据的体积，完成二维区域到三维区域的转换，虚拟人将根据检测出的真实物体的空间区域进行路径规划，输出虚实融合场景。