CN110637323B

CN110637323B - 基于部分的跟踪的方法、设备和系统

Info

Publication number: CN110637323B
Application number: CN201780090056.2A
Authority: CN
Inventors: 张庆
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-07-18
Filing date: 2017-08-23
Publication date: 2023-04-11
Anticipated expiration: 2037-08-23
Also published as: KR102197553B1; EP3602494B1; KR20190129985A; US20190026942A1; US10431000B2; JP6898602B2; EP3602494A1; JP2020518080A; WO2019017985A1; CN110637323A

Abstract

用于自由视点视频内容的网格跟踪实现方式采用基于部分的关键帧，这使得能够更高效且更准确地实现对自由视点视频的处理。

Description

基于部分的跟踪的方法、设备和系统

技术领域

本发明涉及三维图形。更具体地，本发明涉及稀疏视图多视图三维图形。

背景技术

捕获包含真实人类行为的完整3D视频已成为计算机视觉和图形领域的热门话题之一。利用重构的几何形状序列，最近开发了应用程序(例如自由视点视频(FVV))以允许远程用户在任何视点观察物理逼真的运动和外形，并且在佩戴虚拟/增强现实(VR/AR)硬件时为他们带来身临其境的体验。这背后的核心技术是利用多视图彩色摄像机、单个或多个深度传感器或其混合组合来捕获行为。

在过去的十年中，行为捕获已从以模板模型或完全预扫描的3D角色开始并且随着时间的推移将其拟合到所捕获的序列，逐步发展成在捕获的同时重构实时地演进的4D(空间和时间)几何形状。前者将捕获限制到仅具有相同模板或角色的特定场景，而后者指的是时间融合，其在没有任何先验模板的情况下适用于一般场景，已引起了学术界和行业两者的更多关注。

尽管已经为动态场景融合(例如动态融合(DynamicFusion)、体积变形(VolumeDeform)、贝叶斯融合(BayesianFusion)、融合4D(Fusion4D))做出了巨大努力，但是主要关注点是提高重构的完整性和模型质量。由于大场景的时间配准依赖于在非常大的空间中搜索的解决方案，因此通常假设捕获的行为是慢动作和无异常值(例如，多个深度传感器和摄像机)。另一方面，配准误差仍将会逐帧地累积，以防止长时间跟踪。在数十个帧上成功地跟踪网格后，一些三角形变得过度变形或发生拓扑变化，并且需要重置参考模型。因此，先前的融合方法倾向于为每个时间帧存储独立重构的网格的灵活方式，该网格随时间推移被简单地布置或高速缓存，从而导致花费大量带宽或存储器的非结构化序列。

FVV是允许用户随时改变视频的视点的视频。例如，观看体育视频的用户可以从自本垒板后面的视角改变为从外场的视角观看体育视频。这使得用户/查看者能够从独特的视角查看内容。

发明内容

在一个方面，一种方法包括将自由视点视频内容中的对象分割成各个部分，跟踪所述对象的各个部分，缝合所述对象的各个部分以及整合所述对象的各个部分以重新生成所述对象。该方法包括识别对部分的跟踪的失败。该方法包括实现基于部分的关键帧细化、整个网格跟踪以及基于所述对象的各个部分的重新网格化。将所述对象分割成各个部分包括：将所述对象分割成各个身体部分。跟踪所述对象的各个部分包括：存储各个部分的定位和位置信息。缝合所述对象的各个部分包括：缝合来自第一时间的第一部分和来自第二时间的第二部分，其中第一时间和第二时间能够是不同的时间。整合所述对象的各个部分确保所述对象的各个部分被交融(blend)在一起以呈现单个对象的外形。该方法还包括使用最多10个摄像机来获取所述自由视点视频内容。该方法还包括使用在每个轴上与其他摄像机具有至少30度的分离度的摄像机来获取所述自由视点视频内容。

在另一方面，一种设备包括：用于存储应用程序的非暂态存储器，所述应用程序用于：将自由视点视频内容中的对象分割成各个部分，跟踪所述对象的各个部分，缝合所述对象的各个部分以及整合所述对象的各个部分以重新生成所述对象；以及耦合到所述存储器的处理器，所述处理器被配置用于处理所述应用程序。所述应用程序还用于识别对部分的跟踪的失败。所述应用程序还用于实现基于部分的关键帧细化、整个网格跟踪以及基于所述对象的各个部分的重新网格化。将所述对象分割成各个部分包括：将所述对象分割成各个身体部分。跟踪所述对象的各个部分包括：存储各个部分的定位和位置信息。缝合所述对象的各个部分包括：缝合来自第一时间的第一部分和来自第二时间的第二部分，其中第一时间和第二时间能够是不同的时间。整合所述对象的各个部分确保所述对象的各个部分被交融在一起以呈现单个对象的外形。所述设备还用于使用最多10个摄像机来获取所述自由视点视频内容。所述设备还用于使用在每个轴上与其他摄像机具有至少30度的分离度的摄像机来获取所述自由视点视频内容。

在另一方面，一种系统包括：多个摄像机装置，每个摄像机装置被配置为捕获自由视点视频内容；第一计算装置，第一计算装置被配置为：将自由视点视频内容中的对象分割成各个部分，跟踪所述对象的各个部分，缝合所述对象的各个部分以及整合所述对象的各个部分以重新生成所述对象；以及第二计算装置，第二计算装置被配置为：在第二计算装置上渲染所述自由视点视频内容。第一计算装置被配置为识别对部分的跟踪的失败。第一计算装置被配置为实现基于部分的关键帧细化、整个网格跟踪以及基于所述对象的各个部分的重新网格化。将所述对象分割成各个部分包括：将所述对象分割成各个身体部分。跟踪所述对象的各个部分包括：存储各个部分的定位和位置信息。缝合所述对象的各个部分包括：缝合来自第一时间的第一部分和来自第二时间的第二部分，其中第一时间和第二时间能够是不同的时间。整合所述对象的各个部分确保所述对象的各个部分被交融在一起以呈现单个对象的外形。所述多个摄像机装置包括最多10个摄像机。所述多个摄像机装置包括在每个轴上与其他摄像机具有至少30度的分离度的摄像机。

附图说明

图1示出根据一些实施例的网格时间跟踪的图。

图2示出根据一些实施例的关键帧跟踪和基于部分的关键帧跟踪。

图3示出根据一些实施例的整个身体整合的图。

图4示出根据一些实施例的被配置为实现网格跟踪的示例性计算装置的框图。

图5示出根据一些实施例的装置的网络的图。

图6示出根据一些实施例的网格跟踪、融合和关键帧重置的框架的流水线。

图7示出根据一些实施例的网格集合上的Score3D_b(x)的示例。

图8示出根据一些实施例的对于单个关键帧和整个网格的情况以及多个关键帧和部分局部重新网格化的情况的两遍建模流水线的示例。

图9示出根据一些实施例的无缝网格桥。

图10和图11示出根据一些实施例的采用网格跟踪方法的结果。

具体实施方式

密集视图3D视频捕获采用许多摄像机(例如40-100+)从许多不同的角度捕获内容。更具体地，摄像机之间的间隔在每个摄像机之间可能非常小(例如，小于5度)。在密集视图3D视频捕获中，与稀疏视图3D视频捕获相比，处理相对简单，因为在稀疏视图中会出现在密集视图3D视频捕获期间不会出现的问题。例如，在使用稀疏视图3D视频捕获时，遮挡更加令人关注。

稀疏视图3D视频捕获使用更少的摄像机从许多不同的角度捕获内容。例如，对于与密集视图3D视频捕获使用100个摄像机相同的空间，稀疏视图3D视频捕获可以使用10个或更少的摄像机。换句话说，摄像机之间的间隔(在至少一个轴或每个轴上)可能为45度或甚至90度。

本文中描述的网格跟踪方法(也被称为基于部分的网格跟踪方法)提高了跟踪鲁棒性，从而一个参考网格能够配准到具有数据噪声和异常值的更长序列；以及当发生重置时，降低了影响整体数据流传输和编码的刷新成本。

为了提高跟踪鲁棒性，采用了基于部分的网格跟踪算法。网格跟踪方法假设人体运动很大程度上遵循关节结构，并且整个身体运动能够分解成局部部分的平移和旋转。分割减少了优化空间并且扩展了姿势拟合的范围。网格跟踪方法不是先验地假设关节运动，而只是将整个场景划分成各个部分以减小求解空间的维数，因此比关节运动具有更多的非刚性。此外，由于单纯基于几何形状的非刚性ICP配准易于出现切线漂移和误差累积，因此将鲁棒的图像特征用作锚点，以提高对噪声和异常值的跟踪鲁棒性。

接下来，为了减少在改变关键帧时的数据编码的成本，采用了基于部分的局部重新网格化算法。帧间网格编码在顶点变形时对连续帧使用相同面部连接性。如果更新了参考/关键帧的网格连接性，则必须重置整体编码，从而导致增加存储器和带宽的成本。基于部分的重新网格化方法还允许局部修改关键帧，从而仍然能够高效地编码共享的顶点和连接性。

网格跟踪方法包括：基于部分的跟踪算法，以鲁棒地跟踪具有噪声、拓扑变化和数据丢失的长序列中的网格；两遍融合框架，以既提高形状质量，又保持网格连接性；以及基于部分的局部重新网格化算法，以减少关键帧重置的成本。

大多数网格变形技术基于嵌入式变形(ED)来计算网格扭曲场。通过在预定义或采样的图节点上关联近似刚性的变换，该方法提供了表示非刚性网格变形的高效方式。稍后设计网格跟踪的变体，以例如使用L0正则化和拓扑演进来处理自然的过度平滑失真。

流式FVV从密集摄像机和高质量数据捕获开始，并且基于拓扑和表面的统计信息来定义要跟踪的关键帧。通过跟踪数十个帧，该方法允许帧间网格编码，并且大大降低了带宽成本。该方法可以在具有拓扑变化的更长序列中优化关键帧的重新网格化和纹理图集的参数化。

行为捕获基于对场景进行控制并且没有异常值的ED或蒙皮(skinning)系统(LBS)，将预构建的模型动画化为捕获的序列。鲁棒的基于LBS的方法通过姿势分析来使用关键帧，以更好地在数据丢失和异常值中约束人体跟踪。

另一实现方式关注于人体参数模型(例如SMPL)，以根据深度和图像序列，甚至在复杂的衣服形状下估计人体姿势和形状。在将全身人体模型应用于拟合姿势变化较大的场景时，解决方案通常是模棱两可和不正确的。为了更高效地探索姿势空间，缝合木偶(Stitched Puppet，SP)方法使用分布式表示，其中每个部分能够经受3D的刚性变换，以方便推断。

本文中所述的基于部分的跟踪方法对经受非刚性变形的每个部分进行建模，以提高鲁棒性。为了区别于其他基于面片(patch)的方法，所述其他基于面片的方法通过几何采样来划分整个网格并且将每个面片与刚性变换相关联，本文中描述的跟踪中的每个部分在序列中具有有意义的独立运动。

时间融合是基于网格跟踪技术的，但是更多地关注于在不保持网格连接性的情况下细化形状质量和时间平滑度。大多数融合方法按顺序使用一系列帧，或者是单个视图或者是多个视图，从而通过配准到共同的坐标帧并且将它们融合到所谓的规范网格中来对每个输入“去姿势(de-posing)”。

来自单个视图RGBD传感器的网格补全(mesh completion)提供了获得详细扫描的低成本方式，并且吸引了许多研究兴趣。已经开发出非刚性和动态融合方法，以实时地将每帧的部分深度增量地融合到完整的3D模型中。目标模型的运动尽管是非刚性的，但是被假设为近似静态或缓慢。最近的方法采用图像特征对应或阴影来增强在更快的运动和拓扑变化(例如碰撞)情况下的融合鲁棒性。

利用结合了深度传感器和摄像机的多视图设置，引入了4D重构技术(例如自由视点视频和全息传送)，并且在VR/AR中实现了逼真的用户体验。最新版本融合4D(Fusion4D)允许按帧进行网格跟踪和体积融合，以提高几何形状质量，但是不像FVV那样保持连接性。除了最广泛使用的截断符号距离函数(TSDF)的体积融合以外，还开发了其他体积方法(例如占用网格上的贝叶斯融合和概率体积模型)，以增强细微的细节。为了简单起见，在一些实施例中，网格跟踪方法使用标准TSDF作为体积融合技术。

在网格跟踪方法中，采用了基于图像的深度卷积神经网络(CNN)方法，特别是从2D图像中检测语义部分。对于基于图像的特征对应，融合4D(Fusion4D)使用基于随机森林的稀疏图像特征，即全局面片碰撞体(collider)；然而，在一些实施例中，在网格跟踪方法中使用基于最新的CNN的光流FlowNet2.0(流网络2.0)，其能够提供更准确和更密集的对应。

在一些实施例中，网格时间跟踪方法将来自稀疏视图设置的3D模型序列作为输入，并且生成时间一致的网格序列，该网格序列具有相同的拓扑和相同的面部连接性，并具有提高的模型质量，包括更少的噪声和被抑制的异常值。

输入模型序列包含人体模型和其他对象。网格时间跟踪方法使用先前训练过的人体先验模型来估算人体模型的形状和姿态，并且对于每个帧将场景分割成人体部分和其他对象(每个对象被视为独立的部分)。网格时间跟踪方法基于关键帧跟踪方法建立对于每个部分的关键帧池，并且跟踪从每个关键帧池选择的每个关键帧。在跟踪之后，网格时间跟踪方法基于体积融合来细化每个部分，并且通过将所有部分整合在一起来重构整个场景，以及在所有部分关键帧相同的情况下保持面部连接性。

本文中描述的网格跟踪方法有多种实现方式。这些实现方式的各方面能够独立运行和/或能够例如通过在每个实现方式之间互换一个或多个方面而被一起采用。

图1示出根据一些实施例的网格时间跟踪的图。FVV内容包括诸如关键帧和非关键帧之类的帧。关键帧100是3D视频中的对象清晰的帧，而非关键帧102是对象杂乱的帧。例如，人的手臂和腿向外或向上/向下伸展的帧(例如，视频中的特定时间)是关键帧100。当人的手臂或腿靠近他们的身体时，这是非关键帧102。换句话说，与可能具有某种遮挡的非关键帧102相比，关键帧100具有最小的遮挡。关键帧100能够用作用于分析的模板。由于伸展的手臂/腿比收缩的身体提供了更清晰的图片以用于分析，因此关键帧100更好地用于分析以提取信息和操纵信息。有时从关键帧100到非关键帧102会有大的变形，这意味着难以确定关键帧100与非关键帧102之间的对应。

能够以任何方式来确定关键帧100，例如自动使用图像匹配(例如，将形状与模板进行比较以确定哪些帧是关键帧)、手动选择关键帧和/或确定关键帧100的任何其他方式。此外，关键帧100仅是用于优化的选择帧，从而处理较少的信息。尽管可以分别处理视频的每个帧，但是通过采用关键帧100，采用了较少的计算。在一些实施例中，视频是预捕获的视频(例如，经由下载而获取的)，并且在一些实施例中，使用摄像机装置捕获视频。无论如何捕获视频，关键帧100都位于视频内，而不需要用户摆出指定的姿势。例如，在人跳跃的情况下使用稀疏视图3D摄像机设置来捕获视频，并且基于该视频定位/检测和使用关键帧100。

由于确定从关键帧到非关键帧的对应或变形可能是困难的，因此采用先验信息(例如，姿势和/或分段)来辅助该处理。先验信息能够包括基于部分的关键帧池104。

根据关键帧100和非关键帧102，能够使用或确定/生成参数模型。例如，通过将关键帧100或非关键帧102与存储在数据结构(例如，数据库)中的参数模型进行匹配来确定参数模型，并且最接近的匹配被用作参数模型，从而存在关键帧参数模型104和非关键帧参数模型106。

通过将参数模型104、106划分成各个部分，能够生成/使用基于部分的关键帧池108。可以以任何方式来划分/提取各个部分，例如通过确定特定部分是什么，并且排除模型的其余部分或仅提取该特定部分。能够以任何方式(例如通过将部分与数据库部分进行比较)来识别/确定特定部分(例如，姿势分割)，并且将该部分识别为数据库中最接近的匹配。例如，将头部与存储在数据库中的头部、手臂、腿和躯干形状进行比较，并且使用任何匹配算法(例如，比较像素数量、形状、轮廓)，头部被确定为与头部形状相匹配，并且被相应地识别。在一些实施例中，基于部分的关键帧池108具有分层/连接结构(例如，由于手臂附连到人体上的躯干，因此该结构包括躯干与手臂之间的连接，但是在该结构中手臂不连接到腿，因为它们在人体上不连接)。层次/连接结构能够在融合和/或整合处理中使用，以重新组装对象。

使用诸如概率网格跟踪之类的任何跟踪实现方式来跟踪基于部分的关键帧池108中的各个部分。因此，正被跟踪的各个部分是所跟踪的各个部分110。跟踪各个部分能够包括记录部分的类型、关于各个部分的位置信息、各个部分的时间信息和/或任何其他信息。

将被跟踪的各个部分110与适当的关键帧和/或非关键帧信息整合112在一起，以生成FVV内容中的组装形状114。

图2示出根据一些实施例的关键帧跟踪和基于部分的关键帧跟踪。关键帧跟踪200使用整个身体的池(例如，没有被划分成单独的各个部分)，并且变形量在身体各处不均匀。具体地，如图2中所示，当将关键帧1用于目标非关键帧时，存在伪像，其中存在大的姿势变化。类似地，当将关键帧3用于目标非关键帧时，存在大的伪像。

基于部分的关键帧跟踪202使用较小的局部(语义)变形以获得更好的质量。如图所示，来自特定时间点的手臂与来自不同时间点的腿整合在一起，以生成FVV内容中的组装形状。例如，如图所示，存在许多不同的时间段和与每个时间段相对应的部分(例如，手臂和腿)。选择来自第一时间点的手臂，并且选择来自第二时间点的腿，以及将所选择的这些部分融合和/或整合以在第三时间点显示形状。能够以任何方式来实现确定选择部分的时间点，例如定位与目标非关键帧(姿势)最接近地匹配的部分和/或定位具有最少伪像或没有伪像的部分。能够以任何方式来实现查找具有最少伪像或没有伪像的部分，例如使用图像处理机制来定位伪像并且避免具有这些伪像的帧。

图3示出根据一些实施例的整个身体整合的图。在步骤300中，实现部分分割。如本文中所述，能够以任何方式来实现身体部分分割，例如通过使用图像处理技术来确定边缘和不同的组件/部分，或者通过将身体部分与所存储的身体部分模板进行比较并且基于匹配对身体部分进行分类。

在步骤302中，跟踪各个部分。能够以任何方式来跟踪各个身体部分，例如通过图像处理来定位特定身体部分和/或匹配并存储关于每个特定身体部分的定位/位置信息。

在步骤304中，缝合或融合各个部分。例如，将来自不同时间点的部分缝合或融合在一起，以构造可能在不同时间点的目标形状。进一步举例说明，如果手臂被部分遮挡或将会导致其他伪像，则采用不同时间的手臂。在一些实施例中，采用融合4D(Fusion4D)将各个部分缝合或融合在一起。

在步骤306中，将各个部分整合在一起以形成单个形状。步骤304的融合将各个部分拼接在一起，并且整合形成单个形状(例如，没有各个部分的分离或接缝)。

在一些实施例中，实现更少或附加的步骤。例如，实现获取(例如，利用摄像机捕获)FVV内容、纹理处理、FVV内容的渲染/显示和/或任何其他FVV内容处理步骤的附加步骤。在一些实施例中，步骤的顺序被修改。

图4示出根据一些实施例的被配置为实现网格跟踪的示例性计算装置的框图。计算装置400能够用于获取、存储、计算、处理、传送和/或显示诸如图像和视频之类的信息。通常，适合于实现计算装置400的硬件结构包括网络接口402、存储器404、处理器406、I/O装置408、总线410和存储装置412。处理器的选择不是至关重要的，只要选择具有足够速度的合适处理器即可。存储器404能够是本领域中已知的任何常规计算机存储器。存储装置412能够包括硬盘驱动器、CDROM、CDRW、DVD、DVDRW、高清盘/驱动器、超HD驱动器、闪速存储器卡或任何其他存储装置。计算装置400能够包括一个或多个网络接口402。网络接口的示例包括连接到以太网或其他类型的LAN的网卡。I/O装置408能够包括以下各项中的一个或多个：键盘、鼠标、监视器、屏幕、打印机、调制解调器、触摸屏、按钮接口和其他装置。用于实现网格跟踪的网格跟踪应用程序430可能会存储在存储装置412和存储器404中，并且在通常地处理应用程序时被处理。图4中所示的更多或更少组件能够被包括在计算装置400中。在一些实施例中，包括网格跟踪硬件420。尽管图4中的计算装置400包括用于网格跟踪的应用程序430和硬件420，但是网格跟踪能够以硬件、固件、软件或其任何组合在计算装置上实现。例如，在一些实施例中，网格跟踪应用430被编程在存储器中并且使用处理器来执行。在另一个示例中，在一些实施例中，网格跟踪硬件420是经编程的硬件逻辑，包括被专门设计以实现网格跟踪的门。

在一些实施例中，网格跟踪应用程序430包括若干个应用程序和/或模块。在一些实施例中，模块还包括一个或多个子模块。在一些实施例中，能够包括更少或附加的模块。

在一些实施例中，网格跟踪硬件420包括诸如透镜、图像传感器和/或任何其他摄像机组件之类的摄像机组件。

合适的计算装置的示例包括个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持计算机、个人数字助理、蜂窝/移动电话、智能设备、游戏机、数码相机、数码摄录机、拍照电话、智能电话、便携式音乐播放器、平板计算机、移动装置、视频播放器、视频光盘刻录机/播放机(例如DVD刻录机/播放机、高清光盘刻录机/播放机、超高清光盘刻录机/播放机)、电视机、家庭娱乐系统、增强现实装置、虚拟现实装置、智能饰品(例如，智能手表)或任何其他合适的计算装置。

图5示出根据一些实施例的装置的网络的图。多个摄像机500用来获取3D/FVV视频内容。视频内容由实现如本文中所述的网格跟踪的一个或多个处理器装置502处理。通过网络504(例如，因特网、蜂窝网络或任何其他网络)将处理后的内容发送到一个或多个渲染/显示装置506。在一些实施例中，直接将内容发送到一个或多个渲染/显示装置506，而不需要网络。一个或多个装置网络的装置被配置为执行本文中所述的网格跟踪。一个或多个处理器装置502和一个或多个渲染/显示装置506能够是任何装置，例如服务器、个人计算机、智能电话、电视机、游戏系统、虚拟现实装置或本文中所述的任何装置或本文中所述的设备的任何组合。在一些实施例中，摄像机500实现网格跟踪的附加方面。

在一些实施例中，网格跟踪方法以逐帧的方式运行以处理网格序列，并且输出细化和跟踪的网格序列。

图6示出根据一些实施例的网格跟踪、融合和关键帧重置的框架的流水线。关键帧在序列中被自动识别。在两个关键帧之间，该方法运行两遍：在第一遍中，使用基于部分的算法来实现跟踪，然后使用堆积的网格来局部地细化关键帧的形状，并且在第二遍中再次跟踪它作为最终结果。

该框架包括接收/获取/使用诸如RGB图像和非结构化网格信息之类的输入600。第一遍610包括基于部分的跟踪和融合，并且第二遍640包括基于部分的重新网格化，这导致跟踪的、细化的网格和/或其他信息的输出660。

在第一遍的开始，在步骤612中，该方法自动将整个输入/关键帧网格分割成语义部分。然后在步骤614中，利用嵌入式变形中所定义的自适应正则化权重来独立地跟踪每个部分。在步骤616中，在跟踪每个帧之后，高效的算法将所有部分缝合成整个网格。如果在步骤618中在识别部分时失败或在步骤620中在融合部分时失败，则重复包括以下各项的处理：步骤622中的部分分割，基于部分的跟踪624，部分缝合626，识别部分失败628，以及识别失败的融合630。重复的处理采用来自输入的成功跟踪的部分和失败的部分作为新的关键帧，并且继续跟踪序列。一旦完成了第一遍，就识别了关键帧。

在一些实施例中，在第一遍之后，该处理移至第二遍，第二遍涉及整个网格体积融合642、整个网格跟踪644和局部重新网格化646，其可以重复一次或多次以作为整个网格体积融合648、整个网格跟踪650和局部重新网格化652。

在一些实施例中，一旦跟踪处理到达序列的末尾，或者例如在帧T处识别到任何部分的跟踪失败，则系统运行关键帧更新。首先，在前一个关键帧处使用TSDF交融来提取新的局部重新网格化的关键帧，然后使用每个跟踪的网格的对应而在第二遍中再次进行跟踪，并且提供输出序列t＝1；2，...，T-1。其次，将在帧t＝T处的输入网格局部地缝合为成功跟踪的部分，以构造新的关键帧并且进行时间平滑过渡。此外，新的关键帧仅在失败区域中具有局部地更新的顶点集合和三角形连接性，但是与其他成功跟踪的集合共享。整个流水线对于使用新的关键帧开始的新的传入序列进行重复。

在一些实施例中，实现更少或附加的步骤。在一些实施例中，实现步骤的顺序。本文中进一步描述了关于网格跟踪方法的附加细节。

该方法是用于保持网格连接性的网格跟踪框架，因此它与时间融合方法(例如融合4D(Fusion4D))不同，在时间融合方法中，每个输入帧仅被跟踪一帧，并且输出网格连接性按帧变化。另外，该方法与现有的网格跟踪方法不同，因为将利用时间融合来细化输出序列的质量，并且基于部分的跟踪的目标提高了具有噪声、拓扑变化和数据丢失的长序列的鲁棒性。

考虑到以下事实，本文中描述了基于部分的网格跟踪算法(也被称为网格跟踪方法)：当跟踪整个网格时，如果小的非刚性区域未对准(例如，肘部)，然后运动很大程度上由其确定的另一个跟踪良好的相邻部分(例如，前臂)被破坏并且开始失去跟踪，便会发生常见的失败情况。在该方法中，首先将整个网格分割成各个部分，分别跟踪各个部分，然后在跟踪一个帧之后再次进行缝合。具体而言，使用预先训练的人体分割，同时通过扩展分割来保持其对任何自由形式的网格变形的通用性。如本文中描述的，该方法跟踪从帧t-1到帧t的关键帧。

以输入网格及其2D的rgb图像为关键帧，在网格上初始化语义分割。使用多人姿势估计方法来检测每个可用视图的rgb图像上的人和身体部分。预先训练的基于CNN的检测在骨架树中的正向和负向两者上为每个人的骨骼提供了被称为部分亲和字段(PartAffinity Field，PAF)的置信度图。取正图和负图的绝对值的平均值，以对于每个人的每个骨骼b并且对于视图i处的每个图像生成置信度图Score2D_b，i。基于CNN的方法因其鲁棒性而被用来估计图像中的甚至被遮挡的骨骼，而且整个网格被划分成各个部分，而不是直接使用关节骨骼。

为了推断骨骼b的任意3D点x的置信度Score3D_b(x)，将网格投影到视图i的2D图像，以汇总投影轮廓内的所有2D置信度，被表示为TotalScore_b，i。x在视图i处的置信度可以直接从其2D投影位置处的置信度图Score2D_b，i(x)访问。多视图分数使用加权平均值进行组合，

图7中示出根据一些实施例的网格集合上的Score3D_b(x)的示例。对于每个人，网格被分割成包含p个部分的图，例如，p＝1，...，10。对于每个身体部分(例如躯干)的置信度，汇总所有属于它的骨骼的分数。通过对Score3D_b(x)进行归一化以使它们相加为1，获得每个顶点的蒙皮权重S，其随后将被用来定义正则化以解决跟踪问题。

在图7中，左上方示出对于两个人检测到的Score2D(分数2D)以及在多个视图的一个轮廓中计算出的TotalScore(总分数)。如果身体部分(例如右前臂)被遮挡，TotalScore(总分数)仍然贡献较小的权重来计算Score3D(分数3D)。左下方示出对于场景中的所有人的分割。右上方示出由节点距离和蒙皮权重两者共同定义的ED图和正则化权重。右下方示出在一个视图中检测到的锚点特征点对应，其中仅绘制了5％的随机下采样点。

此外，基于能够在缝合中进一步使用的3D置信度分数来执行硬分割。首先，如果部分的Score3D(分数3D)大于该部分的百分比阈值，则标记该部分的顶点。然后将标记在网格上传播，以构建如图7中所示的分割。各个部分的顶点索引集合被表示为Γ(p)。此外，继续部分传播以将每个部分扩大成Γ’(p)，使得每对相邻部分具有5cm宽度(或其他值)的重叠区域。该距离被测量为整个网格上的测地距离。除了在场景中检测到的人以外，其他非人类对象也通过其网格连接的组件来划分。

每个身体部分的跟踪基于嵌入式变形(ED)来制定，并且通过考虑每个部分的权重来扩展。将来自关键帧的顶点集合的均匀采样的种子(平均采样距离σ)定义为整个网格的ED图节点g，并且将它们划分为本文中所述的每个硬分割部分。要求解的ED独立地关联在每个部分的节点上。

ED模型定义了顶点vm的变形，该变形经受对其最接近的ED节点g_k的变换进行的“蒙皮”插值：

其中，仿射变换A_k、平移t_k和全局刚性[R，T]的列表构造了要求解的ED参数。蒙皮权重只计算一次并且在关键帧处被固定为

其中Z将蒙皮权重归一化以相加为1，而σ为平均种子采样距离。

从帧t-1到t的身体部分的总跟踪目标函数为：

E_ed＝E_reg+λ_dE_data+λ_cE_corr+λ_vhE_vh. (3)

嵌入式图正则化包含：

E_reg＝λ_rE_rot+λ_sE_s, (4)

其中，

将变形限制为刚性但又不至于太硬而导致数值上不稳定，并且平滑度项被定义为：

为了自然地对两个身体部分之间的变形进行建模，相邻节点(g_i，g_j)之间的正则化权重被定义为：

其中S是在网格分割步骤中定义的逐顶点放置(park)蒙皮权重，以及σ_g，σ_S分别表示节点的平均距离和Mean(2||S_i-S_j||)。

数据项沿着从输入网格上的源顶点

到目标相交点

的每个视图方向v，搜索对应的集合C^v _data＝{c₁，c₂}：

其中

指示法线

以及并集运算∪_v堆叠所有视图的对应。实际上，由于

涉及矩阵的逆运算，从而导致不可行的显式计算，因此将其固定到先前迭代的结果以简化导数的计算。错误修剪函数Prune(修剪)被用来排除不正确的对应：

其中，在图10和图11中的示例情况下设置了距离阈值d＝10cm和β＝60°。

纯粹基于ICP或基于高斯的几何配准易于出现切线漂移和误差累积，并且该问题在存在噪声和异常值的情况下变得更加严重。为了跟踪具有大的运动的长序列，需要锚点来约束误差累积。基于CNN的光流FlowNet2.0(流网络2.0)被用作特征线索。在跟踪开始时，通过将在t-1处对准的网格

投影到视图v、访问从t-1到t的光流、然后反向投影到t处的输入网格来计算特征对应集合C^v _corr＝{c₁，c₂}一次，并且该项是：

其中使用阈值为0.01的胡伯(Huber)函数ρ(□)作为增强器(robustifier)。

可视外壳(visual hull)项及其导数在距离函数H中定义，该距离函数H取TSDF的绝对值。

梯度

大约在3³窗口中。

优化开始于通过固定所有其他参数来求解全局刚性[R，T]变换，然后遵循LM解算器。在求解正规方程时，J^TJ和J^Tf的块直接在GPU上每次迭代地构造，并且内核合并的PCG作为线性求解器运行。当误差函数收敛或达到最大迭代次数10时，LM解算器停止。

缝合将独立跟踪的身体部分组装成整个网格，这与缝合木偶人体建模技术有关。通过在先前的分割步骤中定义两个部分之间的重叠区域，每个顶点能够被建模为线性弹簧，该线性弹簧连接每个部分中的两个相应端点，并且该线性弹簧的静止长度为0。弹簧的拉伸力将两个部分拖拽在一起，并且也消除了他们的相互渗透。

上面求解的部分p的独立ED被表示为具有节点参数G_p的ED_p，整个网格ED被表示为具有参数G的ED_all，使得

在整个网格参数G上定义了缝合目标函数：

E_stitch＝E_ed+λ_fE_fit+λ_sE_spring, (12)

其中，ED正则化项E_ed与公式4相同，并且数据拟合项描述变形的整个网格应与每个独立的跟踪部分匹配：

其中Γ(p)是部分p的顶点索引子集，而α_p(x_i)是与到部分的边界的几何距离成反比的自适应权重。

缝合能量E_spring被用来最小化由弹簧产生的势能(potential)：

其中Γ’(p)∩Γ’(q)是两个相邻扩展部分p、q之间的重叠区域的顶点索引集合，并且在ED节点的相应子集上计算ED_p(x_i，G)、ED_q(x_i，G)。

最小化目标函数公式12与跟踪的处理相似，并且最终求解出了参数G。随后，通过优化利用G初始化的公式3来进行另一整个网格跟踪，并且在帧t处输出跟踪的整个网格。

网格4D整合涉及在一般序列中优化关键帧和跟踪的网格结构。当关键帧无法再表示要跟踪的对象时，关键帧被更新。现有的FVV方法全局地或局部地更新关键帧，以使输出与任何输入相一致。如果序列包含异常值和数据丢失，则这些方法频繁地更新关键帧并且导致闪烁的输出。目标是从有噪声的输入构建和细化关键帧。因此，使用不同的策略来识别跟踪失败并且以基于部分的方式来优化关键帧。

一旦基于部分的网格跟踪失败，就识别关键帧。在缝合跟踪的各个部分之后，使用相同的误差修剪准则对于所有视图来重新评估公式8中的所提取的ICP对应集合C^v _data。如果未对准条件

保持，则识别跟踪失败。没有测量目标网格上的总体RMS误差和测地误差，这是因为在目标网格和关键帧网格具有明显的拓扑差异的情况下，这些误差可能很大。未对准条件与以下观察结果相匹配：如果发生数据丢失或拓扑变化，则关键帧将保持跟踪，直到遇到具有大的配准误差的另一个帧。

假设输入序列包含异常值和丢失数据，则在识别出失败后，除了失败的部分以外，不会重置整个跟踪，而是继续处理成功跟踪的部分。首先，该方法维持规范TSDF并且基于一阶体积插值来定义TSDF的扭曲。基于部分的TSDF融合操作被定义如下：

使用ED图EDr来表示将部分集合P附近的所有输入TSDF I交融到规范帧r，并且将融合的规范TSDF扭曲到使用期限

中的帧。例如，如果能够使用第一帧来跟踪作为一个部分的整个序列(图8中最简单的情况)，则作为结果的TSDF序列将是F({I¹，...，I^T _E}，ED¹，{1，...，T_E}，1)。

如果在给定ε下识别出未对准，则通过检查条件

来检测失败部分，并且使用基于部分的策略来更新该关键帧的TSDF和网格。例如，在图8中的多关键帧的情况下，如果跟踪部分2在帧T₁处失败而部分1和3成功，则帧1，...，T₁-1的TSDF序列是F({I₁，...，I^T ₁ ^-1}，ED₁，{1，...T₁-1}，{p₁，p₂，p₃})，并且TSDF在帧T₁处被更新为：

其中

是部分2附近的帧T₁的输入TSDF，并且运算

是标准一阶TSDF插值，如图9中所示。一旦构建了F^T ₁，就提取与ED图ED^T ₁相关联的新关键帧，并且重复进行部分跟踪处理，直到在帧T₂处的另一失败为止。然后，在帧T₂处的更新是：

继续总体跟踪，直到作为第一遍跟踪的序列结束为止，例如，在上述情况下，中间结果是所有部分的跟踪网格、TSDF和关键帧索引集合。

第二遍用来实现两个目标：1)整个网格细化和2)帧间网格对应。在上述情况下，网格连接性将在第一遍中识别的每两个关键帧之间保持，例如{{T_E}，{T₁，T_E}，{T₂，T_E}}。

对于所有部分搜索共同的使用期限，并且帧1处的最终TSDF通过以下公式来交融：

从帧1处的交融TSDF中，利用新的ED图来提取并且构建最终输出网格M¹ _out。接下来，通过建立第一遍中的结果的对应，将M¹ _out作为对于输入序列的整个网格进行跟踪。通过射出(shoot)从新顶点集合到先前关键帧的线并且记录相交点的重心坐标来构建顶点对应集合C_ref。对于t＝2，...，T₁-1，利用相同的优化公式3进行整个网格跟踪。在每个帧中，通过利用先前跟踪网格上的重心坐标进行插值来更新C_ref中的目标点。替代地，在项中使用修剪的对应集合Prune(C_ref∪(∪_vC^v _corr))。来自帧t＝1，...，T₁-1的输出网格序列能够被表示为：

由于已经在关键帧处执行了部分分割，因此网格操作被定义为通过划分标签M(P)从整个网格中选择子网格。在帧T₁处，在下面构建局部重新网格化：从如下的交融TSDF F^T1中提取细化的网格M^T1 _tmp：

并且T₁处的关键帧通过以下公式来构建：

其中，操作“Bridge(桥)”假设存在来自两个相邻面片(patch)的两个边缘环，并且缝制了环之间的间隙。图9示出“Bridge(桥)”操作的示例。该操作通过锁定原始顶点来保留网格连接性，并且仅在间隙区域中添加新的三角形。

与帧1相似，新的ED图被构建为ED_T1，然后利用相同的网格连接性M^T1 _out表示来自帧t＝T₁，...，T₂-1的输出网格序列：

利用在帧T₂处执行的另一“Bridge(桥)”处理，最终输出序列包括三个子序列：

和

其中对于失败部分在关键帧处对网格连接性进行局部更新。

如上所述，图9的顶部示出TSDF融合操作，其中，输入被融合到规范TSDF中，并且能够将扭曲的规范TSDF与输入部分的TSDF融合。图9的底部示出网格桥操作，两个边缘环之间的间隙被连接，同时保持原始部分上的三角形。

图10和图11示出根据一些实施例的采用网格跟踪方法的结果。图10示出来自单个视图RGBD的MPI拳击(Boxing)数据的结果。为了模拟快速运动，每10帧对输入视频进行时间下采样。示出了图像特征对应。图10还分别示出第一遍和第二遍的结果。对相应的顶点进行颜色编码。也将规范网格与体积变形(VolumeDeform)进行了比较。

图10利用MPI拳击单个视图RGBD序列来验证网格跟踪方法。为了模拟较快的运动，原始输入将被加速10倍，并且定性地演示了跟踪和细化的网格序列。网格跟踪方法通过使用单个关键帧成功地跟踪了整个序列。第一遍提供准确的一对一网格顶点对应，以及第二遍通过恢复身体的某些被遮挡部分和较大的手臂来细化关键帧，并且还提供一对一网格对应。

图11演示了在包括比现有FVV方法更少的视图的混合设置(具有4个视图的来自清华JumpX(跳跃X)数据集的模拟RGBD)中进行跟踪。基于部分的跟踪结果与FVV跟踪方法相当。图11示出最终的细化的跟踪结果。对相应的顶点进行颜色编码。绘制了与地面真实值相比较的RMS误差。

为了采用本文中描述的网格跟踪，使用诸如数码相机/摄录机之类的装置来获取3D/FVV内容。网格跟踪能够在用户辅助下实现、或者自动实现而无需用户参与，以高效地处理3D/FVV内容。然后，在回放所获取的内容时，显示更准确的内容(例如，具有更少伪像或没有伪像)。

在操作时，网格时间跟踪方法将人体先验模型集成到具有稀疏视图和低分辨率设置的网格跟踪中，从而使得能够在具有大量异常值的有噪声网格序列中进行自动语义人体模型分割和鲁棒网格跟踪。网格时间跟踪方法通过将整个网格跟踪分解成并行的局部部分跟踪集合来减少跟踪失败的可能性，并且以较少数量的参考帧实现更高的时间一致性。网格时间跟踪方法开发了并行化且更高效的解决方案，以将在给定噪声数据和异常值的情况下的高维数的关键帧池和搜索降低为低维数问题集合。

网格跟踪方法能够从不完整或有噪声的输入视频重构3D模型序列，并且能够构建帧间网格对应。鉴于现有融合4D(Fusion4D)和整个网格非刚性跟踪方法的局限性，基于部分的网格跟踪方法提高了鲁棒性。为了跟踪帧，经由预先训练的先验将整个网格划分成语义部分，每个部分被并行地跟踪并且被无缝地缝合。在跟踪所有帧之后，识别关键帧并且执行体积融合以细化这些参考形状。利用各个部分的定义，通过在关键帧处局部地进行重新网格化，从序列的开始到结束建立第二遍跟踪。最终的跟踪的输出构造了高效的帧间编码。结果证明了对于快速运动和有噪声的输入场景的鲁棒跟踪、以及网格压缩的潜在益处。

本文中描述的网格跟踪方法提高了输入网格序列的构建网格对应性和质量。另外，采用基于部分的网格跟踪算法和基于部分的局部重新网格化流水线的网格跟踪方法提高了跟踪鲁棒性和网格编码效率。

尽管本文中描述的网格跟踪方法关注于人的形状，但是该方法能够与任何对象/物质(例如，动物、植物、建筑物、车辆、玩具)一起使用。

通过使用基于部分的关键帧和先验模型进行鲁棒网格跟踪和融合的一些实施例：

1、一种方法，包括：

将自由视点视频内容中的对象分割成各个部分；

跟踪所述对象的各个部分；

缝合所述对象的各个部分；以及

整合所述对象的各个部分以重新生成所述对象。

2、根据条款1所述的方法，还包括：识别对部分的跟踪的失败。

3、根据条款2所述的方法，还包括：实现基于部分的关键帧细化、整个网格跟踪以及基于所述对象的各个部分的重新网格化。

4、根据条款1所述的方法，其中将所述对象分割成各个部分包括：将所述对象分割成各个身体部分。

5、根据条款1所述的方法，其中跟踪所述对象的各个部分包括：存储各个部分的定位和位置信息。

6、根据条款1所述的方法，其中缝合所述对象的各个部分包括：缝合来自第一时间的第一部分和来自第二时间的第二部分，其中第一时间和第二时间能够是不同的时间。

7、根据条款1所述的方法，其中整合所述对象的各个部分确保所述对象的各个部分被交融在一起以呈现单个对象的外形。

8、根据条款1所述的方法，还包括：使用最多10个摄像机来获取所述自由视点视频内容。

9、根据条款1所述的方法，还包括：使用在每个轴上与其他摄像机具有至少30度的分离度的摄像机来获取所述自由视点视频内容。

10、一种设备，包括：

用于存储应用程序的非暂态存储器，所述应用程序用于：

将自由视点视频内容中的对象分割成各个部分；

跟踪所述对象的各个部分；

缝合所述对象的各个部分；以及

整合所述对象的各个部分以重新生成所述对象；以及

耦合到所述存储器的处理器，所述处理器被配置用于处理所述应用程序。

11、根据条款10所述的设备，其中所述应用程序还用于识别对部分的跟踪的失败。

12、根据条款11所述的设备，其中所述应用程序还用于实现基于部分的关键帧细化、整个网格跟踪以及基于所述对象的各个部分的重新网格化。

13、根据条款10所述的设备，其中将所述对象分割成各个部分包括：将所述对象分割成各个身体部分。

14、根据条款10所述的设备，其中跟踪所述对象的各个部分包括：存储各个部分的定位和位置信息。

15、根据条款10所述的设备，其中缝合所述对象的各个部分包括：缝合来自第一时间的第一部分和来自第二时间的第二部分，其中第一时间和第二时间能够是不同的时间。

16、根据条款10所述的设备，其中整合所述对象的各个部分确保所述对象的各个部分被交融在一起以呈现单个对象的外形。

17、根据条款10所述的设备，其中所述设备还用于使用最多10个摄像机来获取所述自由视点视频内容。

18、根据条款10所述的设备，其中所述设备还用于使用在每个轴上与其他摄像机具有至少30度的分离度的摄像机来获取所述自由视点视频内容。

19、一种系统，包括：

多个摄像机装置，每个摄像机装置被配置为捕获自由视点视频内容；

第一计算装置，第一计算装置被配置为：

将自由视点视频内容中的对象分割成各个部分；

跟踪所述对象的各个部分；

缝合所述对象的各个部分；以及

整合所述对象的各个部分以重新生成所述对象；以及

第二计算装置，第二计算装置被配置为：

在第二计算装置上渲染所述自由视点视频内容。

20、根据条款19所述的系统，其中第一计算装置被配置为识别对部分的跟踪的失败。

21、根据条款20所述的系统，其中第一计算装置被配置为实现基于部分的关键帧细化、整个网格跟踪以及基于所述对象的各个部分的重新网格化。

22、根据条款19所述的系统，其中将所述对象分割成各个部分包括：将所述对象分割成各个身体部分。

23、根据条款19所述的系统，其中跟踪所述对象的各个部分包括：存储各个部分的定位和位置信息。

24、根据条款19所述的系统，其中缝合所述对象的各个部分包括：缝合来自第一时间的第一部分和来自第二时间的第二部分，其中第一时间和第二时间能够是不同的时间。

25、根据条款19所述的系统，其中整合所述对象的各个部分确保所述对象的各个部分被交融在一起以呈现单个对象的外形。

26、根据条款19所述的系统，其中所述多个摄像机装置包括最多10个摄像机。

27、根据条款19所述的系统，其中所述多个摄像机装置包括在每个轴上与其他摄像机具有至少30度的分离度的摄像机。

已经根据结合了细节的具体实施例描述了本发明，以促进对本发明的构造和操作的原理的理解。本文中对具体实施例及其细节的这种引用不是旨在限制所附权利要求的范围。对于本领域技术人员而言明显的是，可以在不偏离由权利要求书限定的本发明的精神和范围的情况下，在被选择以用于说明的实施例中进行其他各种修改。

Claims

1.一种基于部分的跟踪的方法，包括：

将自由视点视频内容中的对象分割成各个部分；

跟踪所述对象的各个部分；

缝合所述对象的各个部分；以及

整合所述对象的各个部分以重新生成所述对象，

其中缝合所述对象的各个部分包括：缝合来自第一时间的第一部分和来自第二时间的第二部分，其中第一时间和第二时间能够是不同的时间。

2.根据权利要求1所述的方法，还包括：识别对部分的跟踪的失败。

3.根据权利要求2所述的方法，还包括：实现基于部分的关键帧细化、整个网格跟踪以及基于所述对象的各个部分的重新网格化。

4.根据权利要求1所述的方法，其中将所述对象分割成各个部分包括：将所述对象分割成各个身体部分。

5.根据权利要求1所述的方法，其中跟踪所述对象的各个部分包括：存储各个部分的定位和位置信息。

6.根据权利要求1所述的方法，其中整合所述对象的各个部分确保所述对象的各个部分被交融在一起以呈现单个对象的外形。

7.根据权利要求1所述的方法，还包括：使用最多10个摄像机来获取所述自由视点视频内容。

8.根据权利要求1所述的方法，还包括：使用在每个轴上与其他摄像机具有至少30度的分离度的摄像机来获取所述自由视点视频内容。

9.一种基于部分的跟踪的设备，包括：

用于存储应用程序的非暂态存储器，所述应用程序用于：

将自由视点视频内容中的对象分割成各个部分；

跟踪所述对象的各个部分；

缝合所述对象的各个部分；以及

整合所述对象的各个部分以重新生成所述对象，

其中缝合所述对象的各个部分包括：缝合来自第一时间的第一部分和来自第二时间的第二部分，其中第一时间和第二时间能够是不同的时间；以及

10.根据权利要求9所述的设备，其中所述应用程序还用于识别对部分的跟踪的失败。

11.根据权利要求10所述的设备，其中所述应用程序还用于实现基于部分的关键帧细化、整个网格跟踪以及基于所述对象的各个部分的重新网格化。

12.根据权利要求9所述的设备，其中将所述对象分割成各个部分包括：将所述对象分割成各个身体部分。

13.根据权利要求9所述的设备，其中跟踪所述对象的各个部分包括：存储各个部分的定位和位置信息。

14.根据权利要求9所述的设备，其中整合所述对象的各个部分确保所述对象的各个部分被交融在一起以呈现单个对象的外形。

15.根据权利要求9所述的设备，其中所述设备还用于使用最多10个摄像机来获取所述自由视点视频内容。

16.根据权利要求9所述的设备，其中所述设备还用于使用在每个轴上与其他摄像机具有至少30度的分离度的摄像机来获取所述自由视点视频内容。

17.一种基于部分的跟踪的系统，包括：

第一计算装置，第一计算装置被配置为：

将所述自由视点视频内容中的对象分割成各个部分；

跟踪所述对象的各个部分；

缝合所述对象的各个部分；以及

整合所述对象的各个部分以重新生成所述对象，

第二计算装置，第二计算装置被配置为：

在第二计算装置上渲染所述自由视点视频内容。

18.根据权利要求17所述的系统，其中第一计算装置被配置为识别对部分的跟踪的失败。

19.根据权利要求18所述的系统，其中第一计算装置被配置为实现基于部分的关键帧细化、整个网格跟踪以及基于所述对象的各个部分的重新网格化。

20.根据权利要求17所述的系统，其中将所述对象分割成各个部分包括：将所述对象分割成各个身体部分。

21.根据权利要求17所述的系统，其中跟踪所述对象的各个部分包括：存储各个部分的定位和位置信息。

22.根据权利要求17所述的系统，其中整合所述对象的各个部分确保所述对象的各个部分被交融在一起以呈现单个对象的外形。

23.根据权利要求17所述的系统，其中所述多个摄像机装置包括最多10个摄像机。

24.根据权利要求17所述的系统，其中所述多个摄像机装置包括在每个轴上与其他摄像机具有至少30度的分离度的摄像机。