CN117314976A

CN117314976A - 一种目标物跟踪方法及数据处理设备

Info

Publication number: CN117314976A
Application number: CN202311290846.9A
Authority: CN
Inventors: 冯辉
Original assignee: Play Out Dreams Shanghai Technology Co ltd
Current assignee: Play Out Dreams Shanghai Technology Co ltd
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2023-12-29
Anticipated expiration: 2043-10-08
Also published as: CN117314976B

Abstract

本发明提供了一种目标物跟踪方法，目标物跟踪方法包括图像获取步骤、骨骼点获取步骤、位姿计算步骤、滤波步骤以及跟踪框计算步骤。在滤波步骤中使用自适应滤波算法调整目标物的位姿，相比于现有技术中的1€滤波算法，自适应滤波算法能够根据跟踪系统的状态，具体为骨骼点置信度的大小，动态调整滤波参数，能够避免针对实时系统的不同情况的大量变换调参。

Description

一种目标物跟踪方法及数据处理设备

技术领域

本发明涉及计算机视觉领域，特别涉及一种目标物跟踪方法。

背景技术

随着虚拟现实(Virtual Reality简称VR)技术的迅速发展，虚拟现实一体机(即VR眼镜)使用计算机视觉算法实现虚拟现实技术。对目标的实时跟踪是虚拟现实技术中的重要部分，跟踪过程即给同一个视频中不同帧的跟踪目标分配相一致的标签。跟踪过程的稳定性和实时性依赖于滤波算法对目标姿势的调整。

滤波方法常用于过滤信号噪声，提升系统稳定性以及各种分析数据处理中，应用广泛且有效，随着计算机视觉的逐步发展，各种跟踪系统初步成形且越来越稳定其中滤波算法发挥了非常重要的作用，其涉及广泛包括人体、人脸、人手、物体角点以及信号等对实时性要求较高的系统对滤波算法的要求越来越高。

现有技术中1€滤波算法通过截止频率f_cmin和beta来控制滤波数据的抖动性和时延，但是在复杂的跟踪系统中优化参数会因为骨骼点预测的准确度变化而产生变化。传统的1€滤波算法会将同一套参数应用于多种不同的情况，或者针对不同情况设置多组滤波算法，而不同的参数需要大量的统计分析获取，不能做到自适应的改变滤波参数，影响3D姿势的滤波效果，从而影响到跟踪方法的稳定性以及实时性。

发明内容

本发明提供了一种目标物跟踪方法，解决现有的计算机视觉技术中目标物跟踪方法存在的稳定性较差以及延迟明显的技术问题。

进一步地，所述目标物跟踪方法具体包括如下步骤：图像获取步骤，通过多目相机实时采集环境图像，所述环境图像能够包括目标物图像；骨骼点获取步骤，采用第一跟踪框标注所述环境图像，获得所述第一跟踪框内的目标物图像，将多个目标物图像录入至基于深度学习的骨骼点预测模型，获取所述目标物的骨骼点信息，并计算所述目标物每一个骨骼点对应的置信度；位姿计算步骤，使用基于反向运动学的优化算法计算所述目标物的位姿pose_3d，使用所述目标物的骨骼点信息参与所述目标物的位姿的优化；位姿预测步骤，使用t-1时刻下所述目标物的位姿以及t-2时刻下所述目标物的位姿预测t时刻下所述目标物的位姿，t为大于2的自然数；滤波步骤，使用自适应滤波算法对所述t时刻下目标物的位姿进行滤波处理，得到滤波后的目标物位姿；跟踪框计算步骤，将t时刻附近多帧被滤波处理后的目标物位姿的插值结果投影至所述多目相机，生成所述目标物在t时刻的第二跟踪框。

进一步地，在所述位姿计算步骤中，优化误差E的计算公式如下：

其中，Ins_i记为第i目相机的内参，T_i记为第i目相机的外参，h andske_i表示第i目相机获取的包含所述目标物图像坐标系下的多个骨骼点的坐标。

进一步地，在所述滤波步骤中，所述自适应滤波算法的截止频率f_c，f_c的计算公式如下：

f_c＝f_cmin+w*beta*|param_i,t ^-|

其中，f_cmin为最小截止频率，w为自适应权重，beta为速度系数，param_i,t ^-为t时刻参数i的变化率；

param_i构成表述了所述目标物的位姿。

进一步地，当所述相机的数量为一个时，骨骼点置信度越大，自适应权重w的数值越接近于1，滤波衰减率越小，因为相机数量为一个时，跟踪的目标不存在其其余相机的跟踪干扰，因此可采用类高斯函数平滑衰减；当所述相机的数量为多个时，目标物体在不同的相机中存在骨骼点置信度的差异，差异越大反向运动学优化的误差越大，导致跟踪的抖动性和稳定性都会变差，因此需计算多个骨骼点中置信度最大的值与最小的值的差值，当差值越大时滤波越大，反之越小，使得w的分布曲线更加陡峭，长尾值更小。

进一步地，所述自适应权重w的计算公式如下：

其中x＝score_i；i＝1,2,3,4；

score_i为骨骼点置信度；

view为所述相机的数量。

进一步地，在t时刻，当相机的数量由多个切换为一个时，或者，

当相机的数量由一个切换为多个时，所述自适应权重w计算公式如下：

w^- _t＝aw_t+b*w_t-1

其中，w^- _t为t时刻最终的自适应权重w的值，w_t为t时刻自适应权重公式计算的w的值，w_t-1为t-1时刻自适应权重w的值。

进一步地，当所述对象的一个骨骼点在多个相机之间的置信度具有差异时，所述目标物跟踪方法还包括如下步骤：算法调整步骤，调整所述滤波算法的参数，降低所述滤波算法的变化率，增大所述滤波算法的时延。

进一步地，在所述跟踪框计算步骤中，在将t时刻附近多帧被滤波处理后的目标物位姿的插值结果投影至所述多目相机后，能够得到各目相机的2D重投影骨骼点handpro_j,i，将handpro_j,i输入至计算框体函数cal获取所述第二跟踪框，所述第二跟踪框的计算公式如下：

TrackBox_j＝cal(handpro_j,i)，i＝1,2,3,..21；j＝1,2,3,4

进一步地，在所述跟踪框计算步骤中，在获取所述目标物t时刻的第二跟踪框后，还包括筛选步骤，采用跟踪框筛选函数对所述第二跟踪框做出筛选；所述跟踪框筛选函数为Select函数，其公式如下：

TrackBox_res＝select(TrackBox_j)i＝1,2,3,4；res＝1,2,3,4；

第一原则，排除存在部分骨骼点不在图像范围内的跟踪框；第二原则，排除出现离群的骨骼点的跟踪框；第三原则，排除骨骼点的中心距离图像中心远的跟踪框。

本发明还提供一种数据处理设备，所述数据处理设备包括存储器以及处理器。所述存储器用以存储可执行程序代码；所述处理器用以读取所述可执行程序代码，以运行与所述可执行程序代码对应的计算机程序，以执行上文所述的目标物跟踪方法中的至少一步骤。

本发明还提供一种头戴设备，所述头戴设备包括如上文所述的数据处理设备以及多目相机，所述多目相机电连接至所述数据处理设备。

本发明的优点在于，提供一种目标物跟踪方法，目标物跟踪方法包括滤波步骤，在滤波步骤中使用自适应滤波算法调整目标物的位姿，相比于现有技术中的1€滤波算法，自适应滤波算法能够根据跟踪系统的状态，具体为骨骼点置信度的大小，动态调整滤波参数，能够避免针对实时系统的不同情况的大量变换调参。

附图说明

图1为本发明实施例中目标物跟踪方法的流程图；

图2为常规1€滤波的滤波图像；

图3为本发明实施例中滤波算法的滤波图像；

图4为常规1€滤波在处理边界条件时的滤波图像；

图5为本发明实施例中滤波算法在处理边界条件时的滤波图像。

具体实施例

以下参考说明书附图介绍本发明的优选实施例，用以举例证明本发明可以实施，这些实施例可以向本领域中的技术人员完整介绍本发明的技术内容，使得本发明的技术内容更加清楚和便于理解。然而本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

如图1所示，本实施例提供了一种目标物跟踪方法，目标物跟踪方法具体包括步骤S1～步骤S6。

步骤S1：图像获取步骤，使用多目相机获取实时采集环境图像，所述环境图像能够包括目标物图像。多目相机具体为多目鱼眼相机，多目鱼眼相机可以安装在VR设备的表面从不同角度捕捉目标物的图像。在本实施例中，目标物具体为人体手部，本实施例的目的之一就是完成对运动中的手部进行跟踪。

步骤S2：骨骼点获取步骤，采用第一跟踪框标注所述环境图像，获得所述第一跟踪框内的目标物图像，将多个目标物图像录入至基于深度学习的骨骼点预测模型，获取所述目标物的骨骼点信息，并计算所述目标物每一个骨骼点对应的置信度。第一跟踪框为通过全局检测推理得到的跟踪框，骨骼点数据是一种landmark类型的数据，通过使用关键点去描述整个人体手部的动作，通过对人体手部的动作描述进行手部的姿态估计。

在本实施例中，用户手部的骨骼点具体包括21个点位，骨骼点的置信度计算如下所示：

h andskei_,j，score_i＝Ske(image_i)i＝1,2,3,4；j＝1,2,3....21。

h andskei_,j为表示第i目相机获取的包含手部图像坐标系下的第j个骨骼点的坐标，score_i为表示第i目相机骨骼点对应的置信度，Ske()用于2D手部骨骼点预测，image_i为手部区域图像。

步骤S3：位姿计算步骤，使用基于反向运动学的优化算法计算目标物的位姿pose_3d，使用所述目标物的骨骼点信息参与所述目标物的位姿的优化。反向运动学利用子骨骼的位置和变换反推父骨骼的位置和变换。获取人体手部的位姿时，推导出的位姿结果可能与人体真实的位姿存在误差，误差公式为：

E＝∑∨Ins_i*T_i*pose_3d-h andske_i∨² i＝1,2,3,4；

Ins_i记为第i目相机的内参，T_i记为第i目相机的外参。

在计算手部的位姿的同时，需要去除置信度较低的骨骼点，所以本实施例设计了一个阈值threshold，只有置信度大于阈值的骨骼点才会参与优化，阈值threshold的数值不能够设计过高，否则会大大减少参与优化的骨骼点数量，从而使得优化效果减弱。阈值threshold的数值也不能够设计过低，过低则起不到筛除置信度过低的骨骼点的作用，置信度过低的骨骼结合置信度较好的骨骼点会使优化的结果更差。

步骤S4：位姿预测步骤，使用t-1时刻目标物的位姿以及t-2时刻目标物的位姿预测t时刻目标物的位姿，t为大于2的自然数。

在t时刻，人体手部的位姿计算过程如下：

pose_3d,t＝2*pose_3d,t-2-pose_3d,t-1

pose_3d,t-1与pose_3d,t-2分别为t-1,t-2时刻的人体手部位姿。

当t小于或等于2时，多目相机能够通过直接采集目标物图像来获取目标物的位姿信息。

步骤S5：滤波步骤，使用自适应滤波算法调整t时刻目标物的位姿，pose_3d,t由26个表征自由度的参数表示，26个表征自由度的参数记为param_i，i＝1,2,3..26,param_i,filter指滤波后的26个自由度。

高阶滤波算法实现复杂且对外部信号的输入依赖严重，且高阶滤波算法计算复杂耗时较多，不适用于实时跟踪系统。低阶滤波算法实现简单但严重依赖相关滤波参数需要大量的调参工作，且实时系统不同的跟踪状态可能需要不同的滤波参数，导致调参难度加大且滤波效果暴力，无法解决复杂情况下的滤波的抖动和时延。通用滤波算法通过调整滤波数值的变化速率或者加速度来自动调整滤波强度，但在高速变化和低速变化的突变边界不够平滑导致滤波后的效果比较差，且无法根据实时系统的各种跟踪状态动态调整滤波的强度。

传统的1€滤波算法通过截止频率f_cmin和beta来控制滤波数据的抖动性和时延,param_i,filter为滤波后的多个表征自由度的参数。

param∧_i,filter,t＝a*param_i,t+(1-a)*param∧_i,filter,t-1 i＝1,2,3..21；

t表示t时刻,param_i,t ^-表示t时刻参数i的变化率，可以理解为参数的一阶导数,param∧_i,t表示t时刻，第i个滤波后的参数。平滑因子α不是一个常数，而是自适应的，即使用有关信号变化率的信息动态计算。自适应平滑因子旨在平衡抖动与滞后的权衡，因为人们对低速时的抖动敏感，而对高速时的滞后更敏感。平滑因子定义为：

a＝1/(1+τ/1+T_e)

其中T_e是根据样本之间的时间差计算得出的采样周期，

T_e＝T_t-T_t-1

τ是使用截止频率计算的时间常数，

τ＝1/(2*π*f_c)

截止频率f_c随着变化率的增加而线性增加，

f_c＝f_cmin+beta*|param_i,t ^-|

当a变大时表示param∧_i,filter,t更接近于当前t时刻的参数值，此时抖动性会增加，但时延会降低，a变化时对应的param_i,t ^-变大，表示此时的数值变化率较低，对应当前的实时系统跟踪物体的运动速度增大，在快速运动时人对抖动性的敏感度会降低，但是会对时延的敏感性增大，因此传统的1€滤波算法通过此种方法来调整时延和稳定性。

但在复杂的跟踪系统中优化参数会因为骨骼点预测的准确度变化而产生变化，反向运动学并不会将所有的预测骨骼点都纳入参与优化，因此参与优化的骨骼点数据会存在一目，两目，甚至更多目的情况，基于多目优化的方法参与的目越多，优化的参数越准确，因此传统的1€滤波算法会将同一套参数应用于多种不同的情况，不能做到自适应的改变滤波参数，影响到对3D姿势的滤波效果。所以本实施例在现有的滤波算法中添加了一个自适应权重w，从而影响滤波算法的变化率。

本实施例中的滤波算法的截止频率f_c的计算公式如下：

f_c＝f_cmin+w*beta*|param_i,t ^-|

其中，f_cmin为最小截止频率，w为自适应权重，beta为速度系数，param_i,t ^-为t时刻参数i的变化率。

自适应权重w的计算公式如下：

其中x＝score_i；i＝1,2,3,4；score_i为骨骼点整体的置信度；view为多目鱼眼相机的数量。

View标识四目鱼眼相机，当鱼眼相机只录入一目骨骼点数据时，反向运动学优化的参数准确度不高，此时需要降低滤波变化率，增大时延，降低由于参数不准确或者突变带来的抖动性，结合骨骼点置信度来调整滤波变化率更加直观。此时，自适应权重w的计算公式为：

类似为类高斯函数，骨骼点置信度越大，自适应权重w的数值越接近于1，对滤波的衰减就越小。

当鱼眼相机录入多目骨骼点数据时，自适应权重w的计算公式为：

计算多个骨骼点中置信度最大的值与最小的值的差值，当差值越大时滤波越大，反之越小，因此当相机数目为多个时采用了类拉普拉斯函数使得w的分布曲线更加陡峭，长尾值更小。

本实施例的自适应滤波算法可根据当前的跟踪状态动态调整抖动和时延，现有的1€滤波算法通过大量的测试获取两组参数来调整滤波目标的抖动和时延，但滤波参数一旦设定，后续的滤波效果严重依赖该参数和相关滤波数值的变化速率，一旦出现突发或者边界情况滤波算法难以自适应平滑。本实施例的自适应滤波算法不仅可以达到原有1€滤波算法的效果，而且可依据当前跟踪的状态动态调整滤波参数。

如图2以及图3所示，图2为常规1€滤波算法，1€滤波算法有较多毛刺。图3为本实施例提供的滤波算法，参数在一定范围内的变化的频率要大于常规1€滤波算法，说明在自适应过程中，算法会不断根据当前的跟踪状态动态调整参数，跟踪的表现上会更加调整。

本实施例为了避免在鱼眼相机在录入单目骨骼点数据以及多目骨骼点数据中切换时自适应权重w发生阶跃变化，从而使导致在边界处滤波后的值发生较大变化。本实施例在边界处将前一帧的自适应权重w考虑到当前边界切换处，防止自适应权重w在边界处的过大变化。

在t时刻，鱼眼相机从录入单目骨骼点数据切换至录入多目骨骼点数据时，t时刻的自适应权重w^- _t的计算公式如下：

w^- _t＝0.5*w_t+0.5*w_t-1

w_t对应当前录入的单目骨骼点数据所获取的自适应权重，w_t-1为t-1时刻录入的多目骨骼点数据所获取的自适应权重。

在t时刻，鱼眼相机从录入多目骨骼点数据切换至录入单目骨骼点数据时，t时刻的自适应权重w^- _t的计算公式如下：

w^- _t＝w_t+0.5*w_t-1

w_t对应当前录入的多目骨骼点数据所获取的自适应权重，w_t-1为t-1时刻录入的单目骨骼点数据所获取的自适应权重。

如图4以及图5所示，图4为常规1€滤波算法，当处理鱼眼相机在录入单目骨骼点数据以及多目骨骼点数据中切换时的边界条件时，1€滤波算法会出现较多参数阶跃，参数变化幅度较大导致滤波的抖动性较大。图5为本实施例提供的滤波算法，具有较好的平滑边界条件，将前一帧的自适应权重w考虑到当前边界切换处，防止自适应权重w在边界处的过大变化，从而降低滤波的抖动性。

当有鱼眼相机从录入多目骨骼点数据时，需要考虑多目骨骼点彼此置信度之间的差异。多目骨骼点差异大的原因多为运动速度快，或者某目摄像头不能捕获完整的手部区域。由于置信度过低的骨骼结合置信度较好的骨骼点会使优化的结果更差，若多目骨骼点之间差异较大时，需要降低滤波变化率，从而增大滤波的时延，降低滤波抖动性。

score_i＝min(score_i,j)i＝1,2,3,4；j＝1,2,3..21

如上述公式所示，骨骼点整体置信度置为21个骨骼点最低的置信度，此时为了保证骨骼点的置信度对滤波的影响，需要将降低滤波抖动性作为第一考虑事项。多目骨骼点置信度差异越大，响应的权重w越小，滤波抖动性越低。增大滤波的延迟并降低滤波的抖动性带来的优化效果远大于不做任何调整时的优化效果。

步骤S6：跟踪框计算步骤，将t时刻附近多帧的目标物位姿的插值结果投影至多目相机，得到各目相机的2D重投影骨骼点handpro_j,i，依据handpro_j,i计算当前图像手部的第二跟踪框。handpro_j,i的具体计算公式如下：

handpro_j,i＝Ins_i*T_i*pose_3d，i＝1,2,3..21；j＝1,2,3,4

Ins_i记为第i目相机的内参，T_i记为第i目相机的外参。

cal为计算框体函数，函数获取骨骼点模型推理得到的21个骨骼点图像坐标，选取坐标最大最小值作为矩形框体对角线的两个顶点，i表示重投影获取的21个骨骼点的数量，j标识跟踪框的数量。

TrackBox_j＝cal(handpro_j,i)，i＝1,2,3,..21；j＝1,2,3,4。

在获取所述目标物t时刻的第二跟踪框后，还包括筛选步骤，采用跟踪框筛选函数对所述第二跟踪框做出筛选然后再对第二跟踪框做筛选，剔除掉低质量的第二跟踪框，从而增加所述目标物跟踪方法的稳定性,使用Select函数表示跟踪框筛选函数。函数执行基于三个原则做出筛选。

TrackBox_res＝select(TrackBox_j)i＝1,2,3,4；res＝1,2,3,4。

在筛选出优质的第二跟踪框后，使用获得的第二跟踪框重复步骤S1至步骤S6对后续图像中的骨骼点进行预测，完成针对手部的实时跟踪。

本实施例还提供一种数据处理设备，所述数据处理设备包括存储器以及处理器。存储器用以存储可执行程序代码；处理器用以读取所述可执行程序代码，以运行与所述可执行程序代码对应的计算机程序，以执行上述步骤S1至步骤S6。

本实施例的优点在于，提供一种目标物跟踪方法，目标物跟踪方法包括滤波步骤，在滤波步骤中使用自适应滤波算法调整目标物的位姿，相比于现有技术中的1€滤波算法，自适应滤波算法能够根据跟踪系统的状态，具体为骨骼点置信度的大小，动态调整滤波参数，能够避免针对实时系统的不同情况的大量变换调参。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种目标物跟踪方法，其特征在于，包括：

图像获取步骤，通过多目相机实时采集环境图像，所述环境图像能够包括目标物图像；

骨骼点获取步骤，采用第一跟踪框标注所述环境图像，获得所述第一跟踪框内的目标物图像，将多个目标物图像录入至基于深度学习的骨骼点预测模型，获取所述目标物的骨骼点信息，并计算所述目标物每一个骨骼点对应的置信度；

位姿计算步骤，使用基于反向运动学的优化算法计算所述目标物的位姿pose_3d，使用所述目标物的骨骼点信息参与所述目标物的位姿的优化；

位姿预测步骤，使用t-1时刻下所述目标物的位姿以及t-2时刻下所述目标物的位姿预测t时刻下所述目标物的位姿，t为大于2的自然数；

滤波步骤，使用自适应滤波算法对所述t时刻下目标物的位姿进行滤波处理，得到滤波后的目标物位姿；以及

跟踪框计算步骤，将t时刻附近多帧被滤波处理后的目标物位姿的插值结果投影至所述多目相机，生成所述目标物在t时刻的第二跟踪框。

2.如权利要求1所述的目标物跟踪方法，其特征在于，

在所述位姿计算步骤中，优化误差E的计算公式如下：

E＝∑∨Ins_i*T_i*pose_3d-h andske_i∨²

3.如权利要求1所述的目标物跟踪方法，其特征在于，

在所述滤波步骤中，所述自适应滤波算法的截止频率f_c，f_c的计算公式如下：

f_c＝f_cmin+w*beta*|param_i,t ^-|

param_i构成表述了所述目标物的位姿。

4.如权利要求3所述的目标物跟踪方法，其特征在于，

当所述相机的数量为一个时，骨骼点置信度越大，自适应权重w的数值越接近于1，滤波衰减率越小,反之滤波衰减率越大；

当所述相机的数量为多个时，计算多个骨骼点中置信度最大的值与最小的值的差值，当差值越大时滤波衰减率越大，当差值越小时滤波衰减率越小，使得w的分布曲线更加陡峭，长尾值更小。

5.如权利要求3所述的目标物跟踪方法，其特征在于，

所述自适应权重w的计算公式如下：

其中x＝score_i；i＝1,2,3,4；

score_i为骨骼点置信度；

view为所述相机的数量。

6.如权利要求3所述的目标物跟踪方法，其特征在于，

在t时刻，当相机的数量由多个切换为一个时，或者，

当相机的数量由一个切换为多个时，

所述自适应权重w计算公式如下：

w^- _t＝aw_t+b*w_t-1

7.如权利要求3所述的目标物跟踪方法，其特征在于，

当所述对象的一个骨骼点在多个相机之间的置信度具有差异时，

所述目标物跟踪方法还包括如下步骤：

算法调整步骤，调整所述滤波算法的参数，降低所述滤波算法的变化率，增大所述滤波算法的时延。

8.如权利要求1所述的目标物跟踪方法，其特征在于，

在所述跟踪框计算步骤中，在将t时刻附近多帧被滤波处理后的目标物位姿的插值结果投影至所述多目相机后，能够得到各目相机的2D重投影骨骼点handpro_j,i，将handpro_j,i输入至计算框体函数cal获取所述第二跟踪框，所述第二跟踪框的计算公式如下：

TrackBox_j＝cal(handpro_j,i)，i＝1,2,3,..21；j＝1,2,3,4。

9.如权利要求1所述的目标物跟踪方法，其特征在于，

在所述跟踪框计算步骤中，

在获取所述目标物t时刻的第二跟踪框后，还包括

筛选步骤，采用跟踪框筛选函数对所述第二跟踪框做出筛选；

所述跟踪框筛选函数为Select函数，其公式如下：

TrackBox_res＝select(TrackBox_j)i＝1,2,3,4；res＝1,2,3,4；

第一原则，排除存在部分骨骼点不在图像范围内的跟踪框；

第二原则，排除出现离群的骨骼点的跟踪框；

第三原则，排除骨骼点的中心距离图像中心远的跟踪框。

10.一种数据处理设备，其特征在于，包括：

存储器，用以存储可执行程序代码；以及

处理器，用以读取所述可执行程序代码，以运行与所述可执行程序代码对应的计算机程序，以执行权利要求1-9中任一项所述的目标物跟踪方法中的至少一步骤。

11.一种头戴设备，其特征在于，包括：

如权利要求10所述的数据处理设备；以及

多目相机，电连接至所述数据处理设备。