CN107851332B

CN107851332B - 经由拓扑知晓表面跟踪的一致细分

Info

Publication number: CN107851332B
Application number: CN201680042919.4A
Authority: CN
Inventors: M·庄; A·科列特罗梅亚; P·斯威尼; S·沙利文; D·吉勒特
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-07-20
Filing date: 2016-06-27
Publication date: 2021-07-13
Anticipated expiration: 2036-06-27
Also published as: US9665978B2; CN107851332A; EP3326156B1; US20170024930A1; WO2017014915A1; EP3326156A1

Abstract

提供了经由拓扑知晓表面跟踪的一致细分，在该一致细分中，网格系列是通过以下方式来逼近的：从该系列中取一个或多个网格，并计算变换场以将关键帧网格变换为该系列中的每一网格，并用经变换的关键帧网格来替代原始网格。关键帧网格可基于评分度量被有意地选择。关于经变换的关键帧的超过容限或阈值的误差测量可暗示为该系列中的一个或多个帧选择另一关键帧。该帧序列可被分割成多个子序列以准许并行处理，包括两个或更多个递归的关键帧替代等级。经变换的关键帧网格实现跨这些系列对对象的更一致的细分。

Description

经由拓扑知晓表面跟踪的一致细分

背景

传统上，网格化由网格序列表示的移动/动画三维(3D)对象通过在每一帧独立地运行表面重构算法来执行。这导致一组具有完全不同的三角形连接的网格(即，不一致细分)。在跨多个帧没有表面对应性的情况下，许多普遍执行的任务(数据压缩、色彩分级、视觉效果、几何形状编辑等)可变得困难。

概述

提供了经由拓扑知晓表面跟踪的一致细分，在该一致细分中，网格系列是通过以下方式来逼近的：从该系列中取一个或多个网格，并计算变换场以将此关键帧网格变换为该系列的每一网格，并用经变换的关键帧网格来替代原始网格。关键帧网格可基于评分度量被有意地选择。超过容限或阈值的对经变换的关键帧的误差测量可暗示为该系列中的一个或多个帧选择另一关键帧。该帧序列可被分割成多个子序列以准许并行处理，包括两个或更多个递归的关键帧替代等级。经变换的关键帧网格实现跨该系列对对象的更一致的细分。一致细分可被实现为启用计算机的系统，该系统用于执行针对关键帧选择、评分、变换和替代的计算。

在各说明性示例中，关键帧网格可基于其适配系列中的其他网格的合适性被有意地选择。影响网格用作关键帧的合适性的因素可包括例如该网格的种类和该网络的表面积。误差测量可对照原始网格对经变换的关键帧执行以测定其视觉相似性，包括例如两个经渲染的网格的豪斯多夫距离、均方根(RMS)误差或比较视觉相似性。如果某误差超过容限或阈值，则另一关键帧可被选择。

为了改善处理速度，经由拓扑知晓表面跟踪的一致细分可提供其中帧序列可被分割成多个子序列的并行度。每一子序列可被并行处理以确定一个或多个相应的关键帧。关键帧序列可随后被处理以精简为最小数目的超关键帧。超关键帧随后被传播回到子序列上，并且最终被传播到原始帧序列上。

上述方法可被有利地实现为启用计算机的系统。该系统可用于执行针对关键帧选择、评分、变换和替代的必要计算。此外，该系统的某些实现可进一步包括一种视频捕捉系统，以捕捉实景三维对象的图像数据，该图像数据随后根据目前公开的经由知晓拓扑的表面跟踪的一致细分的原理被修改。附图描述

图1示出了用于计算地描述三维对象的说明性点云和线网。

图2示出用于应用于图1的线网以表示该线网所表示的三维对象的表面外观的说明性纹理图；

图3示出描述与目前公开的原理的特定实现一致的用于经由知晓拓扑的表面跟踪的一致细分的说明性过程的流程图；

图4示出与目前公开的原理的特定实现一致的说明性关键帧预测步骤；

图5示出描述用于经由拓扑知晓表面跟踪的一致细分的过程的说明性实现的流程图；

图6示出可用于实现本经由拓扑知晓表面跟踪的一致细分的说明性计算机系统的简要框图；

图7示出能够执行此处所描述的用于提供本经由拓扑知晓表面跟踪的一致细分的各个组件的设备的说明性架构；以及

图8示出用于捕捉输入图像数据以用作目前公开的用于经由拓扑知晓表面跟踪的一致细分的系统和方法的帧源的图像处理系统的功能组件。

各附图中相同的附图标记指示相同的元素。除非另外指明否则各元素不是按比例绘制的。

详细描述

当实景视频被捕捉以生成用于计算地定义和再现三维对象的点云时，在从一个视频帧到下一视频帧定义同一3D对象的点云和/或网格中可能缺少对应性。在单个场景内该3D对象的细分的不一致性可使再现的视觉保真度降级。包括数据压缩、色彩和视频编辑在内的可期望要对经重构的场景执行的其他操作可通过在整个场景中对象的一致细分模型来促成。

用于网格化由点云序列表示的移动/动画3D对象的传统方法可通过在每一帧独立地运行例如由Kazhdan,M.、Bolitho,M.和Hoppe,H.的Poisson Surface Reconstruction,In Proc.of Symposium of Geometry Process,Computer Graphics Forum,EurographicsAssociation,pp.61-70(2006)(hereinafter,“Kazhdan,et al.(2006)”)(泊松表面重构，在几何过程研讨会论文集中，计算机图形学论坛，欧洲图形协会，第61-70页(2006))(此后被称为“Kazhdan等人(2006)”)公开的表面重构算法来执行。不幸地是，这导致一组具有完全不同的三角形连接的网格。在跨多个帧没有表面对应性的情况下，许多普遍执行的任务(诸如数据压缩、色彩分级、视觉效果、几何形状编辑等)可变得困难。

还使用了例如由Li,H.、Adams,B.、Guibas,L.和Pauly,M.的Robust Single-View Geometry and Motion Reconstruction,ACM Transaction on Graphics,Proc.ofSIGGRAPH Asia 2009,Vol.28,No.5(稳健的单视角几何结构和运动重构，ACM图形学学报，2009年亚洲计算机图形学专业组论文集，第28卷，第5号)(此后被称为“Li等人(2009)”)公开的非刚性表面配准方法。根据该公开，固定拓扑的模板网格被创建并被变形以适合于每一帧。不幸地是，这个以及其他相似的现有方法无法处理动画过程中出现的拓扑改变，这在一些场景中可限制其适用性。

现转至附图，可通过定位对象表面上的点的集合来计算地建模该对象。参考图1，点102的该集合被称为点云100。为了进一步描述该对象的表面，点云100中各毗邻的点102被通过线104(也被称为边)连接。点102和边104的组合被称为线网110，也被称为线框。边104所包围的平面可被称为表面106。表面106可被上色、被加阴影和/或向其施加表示该对象的表面外观的图像纹理(例如标记52a、52b)。

参考图2，对于线网110的结合在一起并呈现在一二维域中的每一个表面106的表面处理的集合被称为纹理图202。类似于像素或数字图片的图片元素，纹理图202的每一单元可被称为纹理元素或纹素204。为了渲染3D对象，线网110在某规格的虚拟空间中被定位和定向，并且纹理图202被应用于线网110的各表面106。许多渲染被确定为是通过若干时间上连续的帧描绘运动中的3d对象的运动渲染。此外，被渲染的对象可能不是刚性的，而可随着其运动而变形。由此，不仅线网110可在各连续帧上在3D空间内转换或旋转，而且点云100也可从该渲染的一个帧到另一个帧改变。

计算地描绘3D对象的一种技术是捕捉该对象的运动图像。例如，人类或拟人化对象的视频可被拍摄以创建那个角色的化身以供在游戏环境中使用。此视频技术在尝试捕捉可能难以计算地描述的复杂运动系列时可尤其有用。运动图像被解构为各其构成帧。每一帧可随后被用于构造3D对象的线框模型和纹理图。每一帧的线框模型和纹理图被组合以创建3D渲染。应当注意，点云和/或线框网格表示仅仅是一个可能的输入。对象表面的可被精简为点云的任何计算描述均适合于根据目前公开的原理来使用。

不一致细分的问题是由视频捕捉的电子性质造成的一个问题。可由电子视频捕捉引起的至少一个缺点是视频的每一帧均用作用于创建点云的独立的基础。因此，每一帧中的连续点云以及其得到的线网彼此不具有特定的关系。在整个视频中不具有3D对象的相干的线网的情况下，难以(如果不是不可能的话)压缩该渲染所必要的数据。例如，相干的点云可准许该点云被一次传送，随后连续的帧将由不同的信息来描述。这可减少数据带宽负载。替换地，对3D对象的后期制作编辑可通过在所有视频帧上具有要对其操作的一致的点云来促成。

本原理支持用于一致地网格化例如仅仅而不限于由点云序列表示的移动/动画3D对象的过程。代表性帧(被称为关键帧)的稀疏集合遍布该视频的整个时间线。这些关键帧被网格化并被变形，以使得其几何结构匹配该序列中的其他帧的几何结构。这在共享给定关键帧的各帧之中实现一致的细分。这样的一致细分可有利地增加3D对象的计算渲染的性能，而无需硬件性能方面的改善。作为比较，现有的方法跨连续的帧计算不相关的细分。

现在参考图3，解说了描述用于经由拓扑知晓表面跟踪的一致细分的过程的流程图300。在输入表面信息由点云序列组成的情况下，将执行网格化点云的预处理步骤314。该过程随后始于在步骤302计算每一帧的分数。更具体地，计算得到的评分预测每一帧的点云被修改或配准为完全符合同一对象的由序列中的邻近帧的点云描述的表面将有多可行。该过程也可被称为“关键帧预测评分”。每一帧由此已被分配了关键帧预测分数。

从具有最高关键帧预测分数的帧开始，该关键帧可在步骤304被选择。所选的关键帧的点云可例如通过预处理步骤314被网格化。出于该目的，可使用任何数目的本领域技术人员已知的网格化技术(例如而不限于，泊松表面重构)。关键帧线网可随后在步骤306被一帧接一帧地非线性变形，以使得其几何结构适应于帧序列中的其他帧。该过程也可被称为“网格配准”。在某些实施例中，在该场景内，网格配准306可按在时间上从该关键帧向前和/或向后的顺序对各帧执行。关键帧网格的变形幅度可由此得到限制。附加地，一般来说，变形本质上是增量式的。

在网格配准306之后，可在步骤308评估针对序列中的每一帧的重构保真度，以判定经变形的网格是否以可接受的准确性逼近原始帧几何结构。该过程也可被称为“误差测量”。具有超过预定阈值或容差的误差测量的任何帧都可被看作异常帧。这也可被称为“异常处理”。异常处理在流程图300中被描绘为判定310，即是否存在任何异常帧？如果存在异常帧，则可如在步骤304选择新帧。在一些实现中，第二关键帧是具有第二高关键帧预测分数的帧。在一变体实现中，在步骤302重新计算与不是先前选择的关键帧或者尚未被配准到先前选择的关键帧的所有帧有关的预测分数。在该情况下，来自第二迭代的具有最高预测分数的关键帧可被选择为第二帧。该第二关键帧可能是或者可能不是来自第一迭代的具有第二高预测分数的帧。第二关键帧线网可随后如在步骤306被变形到异常帧的几何结构。异常帧的误差测量可如在步骤308被实施。在步骤310，异常处理过程重复，直到所有帧都被一个或多个关键帧的某种变形描述。

存在上述原理的若干可能变体。例如，关键帧预测评分可被任选地考虑。在以上并结合图3描述的过程300在省略步骤302中的关键帧预测评分的情况下仍可起作用，但是结果在一些情况下可能是次优的。由此，关键帧可被盲选择，并且步骤304到310被重复迭代，直到每一帧都被关键帧的某种变形覆盖。或者，关键帧可被随机地或者以有规律的细分时间间隔被选择，并且迭代被执行，直到全局误差测量不再下降(和/或在时间上向前/向后地调整那些初始帧以观察误差测量是否下降)。

替换地，每一帧或任意选定数目的帧(诸如，每n个帧)可被看作关键帧，并且通过过程300(即，蛮力计算法)来独立地跟踪。这里注意，每一所选的关键帧可随后被并行处理。对并行处理的附加讨论可参见以下。在针对所选关键帧中的每一关键帧运行了过程300后，选择覆盖整个序列的最小关键帧集合等效于通过动态编程优化来求解典型的集合覆盖问题(SCP)。最后，在步骤302中的关键帧预测、在步骤306中的网格配准和在步骤308中的误差测量可各自按不同的方式来实现，如以下所描述的。

参考图4，关键帧预测步骤302被更详细地描述。关键帧预测步骤302输出该序列中的每一帧的分数。关键帧预测分数预测任何给定帧或更具体地定义在该帧中的点云被选为关键帧的可行性。关键帧预测分数可基于两种观察被计算。第一种观察是变形较大尺寸的三角形网格以匹配较小面积的表面可能更容易。这是因为当表面补片被扩展/收缩时，细分分辨率被丢失/获得。第二种观察是将较低亏格的表面变形为较高亏格的表面可能更容易。例如，将球体变形为圆环比将圆环变形为球体可能更容易。第三，我们观察到将具有较多相连接的部分的表面变形为具有较少相连接的部分的表面更容易，因为网格化算法可能会不正确地合并处于接触的各独立物体。

由此，在给定N帧的点云的情况下，基于以下过程400来计算预测分数。序列中的所有帧的点云将已经如在预处理步骤314被网格化。例如，Kazhdan等人(2006)所描述的技术可被使用。这产生针对每一点云的三角形网格，被称为{T₁…T_N}。通过其他技术导出的非三角形网格也可被使用。接着，每一网格{T₁…T_N}的表面积可在步骤404被计算。这些表面积被称为{A₁…A_N}。

此外，每一网格{T₁…T_N}的表面亏格可在步骤406被计算。每一网格的表面亏格可使用欧拉公式V-E+F＝2-2g来计算，其中V表示定点或点102的数目，E表示边104的数目，F表示表面106的数目，并且g是描述该网格的表面亏格的整数。表面亏格或每一网格可被称为{g₁…g_N}。作为关键帧预测分数的第三元素，相连接的部分的数目在步骤408被计算。

最后，每一网格{T₁…T_N}的关键帧预测分数可在步骤410被计算。关键帧预测分数可被称为{S₁…S_N}。第i个网格的关键帧预测分数(S_i)可将第i个帧的表面亏格(g_i)与该序列中的最大表面亏格(g_max)进行比较。关键帧预测分数还可将第i个帧的表面积(A_i)与该序列中的最大表面积(A_max)进行比较。某些实施例可将关键帧预测分数看作帧中的每一相连接的部分的分数之和。表达式C(i)是第i个帧的连接分量的数目。因此，在一个实施例中，关键帧预测分数可通过以下公式给出：

因此在以上表达式中，(g_c)表示相连接的部分的表面亏格，并且(A_c)表示相连接的部分的表面积。在一些实施例中，如上所述，可根据这些帧的关键帧预测分数来在选为关键帧的偏好方面这些帧进行排序。

现在更详细的描述在步骤306中的网格配准。具体地，可从源帧s中取线网110(例如如在该情况下的三角形网格)。源网格(T_s)可被变形，以使得其几何结构逼近帧d处的目的地点云。实质上，这可以是非线性配准问题。例如，Li等人(2009)中描述了针对该问题的现有方法。简言之，该方法通过根据以下表达式最小化合成能量来寻找空间变化的仿射变形场

其中，E_fit是在经变形的表面很好地适应该点云时最小化的能量，E_rigid是在该变换维持刚性时最小化的能量，并且最后E_reg是在该变换平滑地变化时最小化的能量。

根据目前公开的原理的一个应用，附加的能量项可被合并到该表达式中。附加的能量项E_user接受充当用户定义的对该变换的约束的外部变形线索。在某些实现和应用中，外部线索可来自以下源中的一者或多者的任意组合：

●用户可通过其输入网格顶点和点之间的对应关系的稀疏集合的用户界面(UI)；

●以非常粗略的比例定义期望变形的骨架和/或保持架；

●附连在该表面上的自动化跟踪器的稀疏集合；以及

●基于图像信息、问题信息、点云信息或其他源自动计算得到的对应特征或权重的稀疏集合。

能量E_user由此在这些线索被满足时被最小化。总而言之，

通过以下求解

现在更详细的描述在步骤308中的误差测量。源关键帧网格(M_s)可根据步骤306中的网格配准来变形，以逼近目的地点云(P_d)。步骤308中的误差测量的一个目的是确定经变形的网格有多么紧密地逼近点云的底层表面。如果误差超过预定的容差或阈值，则另一关键帧可被寻找。此外，在以上描述的其中步骤306中的网格配准可按在时间上从关键帧向前和/或向后的顺序执行的实施例中，还可假定关键帧网格可能不再适于用于跟踪在时间上比第一帧(在该第一帧中，误差超过容差或阈值)更远离关键帧的附加帧。

步骤308中的误差测量可考虑集合结构保真度和重构的渲染保真度两者。例如，对于步骤308中的误差测量，可根据以下等式计算误差(e)：

其中，d_Haus和d_RMS分别计算豪斯多夫距离和将点P_d投影到网格M_s上的RMS误差。第一和第二项一起测量投影中的几何误差。相反，第三项测量通过从若干合成相机视图{V}中取得快照来测量网格M_s的渲染质量。在其中色彩信息可用的那些实施例中，该信息可被用于渲染各色彩。否则，在每一色彩通道中抽取诸如正常场、曲率场和视觉可达性之类的表面属性中的一些表面属性。

存在用于实现步骤308中的误差测量的若干可能的变体。例如，符号距离函数可针对两个表面被计算，并集成其差异。替换地，例如，立方体/球体映射可被计算得到以用于这两个表面的渲染，并且随后其差异被计算得到。步骤308中的误差测量的根本效果是采用可量化的测量以得到这两个表面之间的视觉相似性。

图3中上述用于经由拓扑知晓表面跟踪的一致细分的过程在单次通过中使用尽可能少的关键帧来网格化给定点云集合。所需的关键帧的数目越少，则逐帧实现的细分一致性越高。某些实现按顺序来完成这个，但在任何情况下，每一帧都必须被寻址。然而，当给定序列很长时，该处理可花费可观的时间。基本原理因此对通过增加并行性的速度增加有阻力。

现在参考图5，解说了过程500的流程图，过程500描述了根据用于经由拓扑知晓表面跟踪的一致细分的过程的另一实施例的变体。该变体过程500导致具有较少一致性和/或准确性的结果，但提供提升的处理速度。该过程可被概括如下：

变体过程500始于在步骤502获得帧序列。该序列中的每一帧具有描述运动中的要被渲染的对象的点云。术语“获得”在该场景中可被用于意指获得如上所述的活动对象的视频。它也可意指提供帧(然而这些帧已被构造)的这种序列。

在步骤504中，可将点云的输入序列{P}拆分成n个子序列{{P¹},{P²},…{Pⁿ}}。在步骤506中，可使用过程300或如上所述的其变体之一并行处理每一第i个子序列{Pⁱ}。步骤506的结果可以是含n个关键网格{{K¹},{K²},…{Kⁿ}}的序列以及用于将相应的{Kⁱ}变形为其他帧的对应的变换场分组{{T¹},{T²},…{Tⁿ}}。在步骤508，可将含n个关键网格{{K¹},{K²},…{Kⁿ}}的序列串接成关键网格序列{K}。

在步骤510，可对关键帧序列{K}运行过程300或者如上所述的其变体之一。步骤510的结果可以是一个或多个超关键网格{M′}的集合。在步骤512，通过将相应的第i个超关键网格{M′ⁱ}映射到其对应的子序列{Pⁱ}来将超关键网格{M′}拆分成n个超关键网格子集{{M′¹},{M′²},…{M′ⁿ}}。

在步骤514，可将变换场集合{{T¹},{T²},…{Tⁿ}}应用于相应的超关键网格子集{{M′¹},{M′²},…{M′ⁿ}}。在过程500的某些实现中，步骤514也可被并行地实施。步骤514的结果可以是经重构的网格的子系列{{M¹},{M²},…{Mⁿ}}。在步骤516，可将经重构的网格的子系列{{M¹},{M²},…{Mⁿ}}串接成最终网格系列{M}。最终网格系列{M}使用最小数目的超网格{M′}来逼近点云序列{P}。

在过程500的另一实现中，上述并行网格化可被递归地应用以获得可比两个级别更深的关键网格分层结构。为了递归地应用并行网格化，该过程在涉及应用以上过程300的步骤510可被再次调用并行网格化过程500替换。

在另一说明性示例中，并行过程500可被用于改善基本过程300的结果。原始过程300的优化取决于其在步骤302中的关键帧预测部分和在步骤306中的网格配准部分的稳健性。然而，可存在可能通过合并各毗邻关键帧来实现进一步优化的空间。过程500描述了用于执行这样的合并的多层框架。例如，n的值可在步骤504被设为1。得到的并行过程500可高效地试验各替代路线以找出抵达更多帧的关键帧。由此，过程500的该变体潜在地检测冗余的关键帧，如果这些关键帧覆盖的帧还可被其他关键帧以还要宽的范围抵达的话。

还可按时间方式分割序列{P}。替换地，根据又一修改例，该序列内的各帧可被按空间方式分割，例如依据场景内的位置(一半、四分之一等)来分割。此外，该序列内的帧可根据出现在其中的3D对象的一个或多个子集来分割。即，无论该场景中的特定离散3D对象在哪里出现，都在这些帧内跟踪这些3D对象，并且通过应用描述这些3D对象的关键帧网格来简化这些3D对象。

在根据过程500描述的并行处理的又一实现中，认为序列{P}到子序列{{P¹},{P²},…{Pⁿ}}的某种分割对于各帧内容可以是任意的。在各子序列边界附近的帧将依据或根据其相应序列内的关键帧来配准。然而，这些相似的边界帧可能已依据单个公共关键帧被充分配准。因此，为了避免分组边界附近的冗余关键帧，被最接近于该边界的两个关键帧覆盖的那些帧被联接成新分组。基本关键帧配准算法300在尝试合并这两个关键帧时被应用于该新边界分组。

现在转至图6，解说了可用来实现本经由拓扑知晓表面跟踪的一致细分的诸如PC、客户端设备或服务器之类的示例性计算机系统2000的简化框图。计算机系统2000包括处理单元2005、系统存储器2011以及将包括系统存储器2011的各种系统组件耦合至处理单元2005的系统总线2014。系统总线2014可以是若干类型的总线结构中的任一种，包括存储器总线或存储器控制器、外围总线和使用各种总线架构中的任一种的局部总线。系统存储器2011包括只读存储器(ROM)2017和随机存取存储器(RAM)2021。基本输入/输出系统(BIOS)2025被存储在ROM 2017中，该基本输入/输出系统2025包含了诸如在启动期间帮助在计算机系统2000内的元件之间传输信息的基本例程。计算机系统2000还可包括对内置硬盘(未示出)读写的硬盘驱动器2028、对可移动磁盘2033(例如，软盘)读写的磁盘驱动器2030、以及对诸如CD(压缩盘)、DVD(数字多功能盘)或其他光学介质之类的可移动光盘2043读写的光盘驱动器2038。硬盘驱动器2028、磁盘驱动器2030，以及光盘驱动器2038分别通过硬盘驱动器接口2046、磁盘驱动器接口2049，以及光盘驱动器接口2052连接到系统总线2014。驱动器及其相关联的计算机可读存储介质为计算机系统2000提供了对计算机可读指令、数据结构、程序模块，以及其他数据的非易失性存储。虽然这个说明性的示例示出硬盘、可移动磁盘2033以及可移动光盘2043，但是其它类型的可存储可被诸如磁带盒、闪存卡、数字视频卡、数据磁带、随机存取存储器(“RAM”)、只读存储器(“ROM”)等访问的数据的计算机可读存储介质也可在本经由拓扑知晓表面跟踪的一致细分的一些应用中使用。此外，如本文所使用的，术语计算机可读存储介质包括介质类型的一个或多个实例(例如，一个或多个磁盘、一个或多个CD等)。出于本说明书和权利要求书的目的，短语“计算机可读存储介质”及其变型不包括波、信号和/或其他瞬态和/或无形通信介质。

若干个程序模块可被储存在硬盘、磁盘2033、光盘2043、ROM 2017，或者RAM 2021上，包括操作系统2055、一个或多个应用程序2057、其他程序模块2060，以及程序数据2063。用户可通过诸如键盘2066和定点设备2068(诸如鼠标)之类的输入设备向计算机系统2000中输入命令和信息。其他输入设备(未示出)可包括麦克风、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪、跟踪球、触摸垫、触摸屏、触敏模块或设备、手势识别模块或设备、语音识别模块或设备、语音命令模块或设备等。这些和其他输入设备通常由被耦合至系统总线2014的串行端口接口2071被连接到处理单元2005，但也可通过其他接口，诸如并行端口、游戏端口或USB连接。监视器2073或其他类型的显示设备也可经由诸如视频适配器2075之类的接口被连接到系统总线2014。除监视器2073以外，个人计算机通常包括诸如扬声器和打印机之类的其他外围输出设备(未示出)。图6中示出的说明性示例还包括主机适配器2078、小型计算机系统接口(SCSI)总线2083以及被连接到SCSI总线2083的外部存储设备2076。

计算机系统2000在使用到诸如远程计算机2088之类的一个或多个远程计算机的逻辑连接的联网环境中可操作。远程计算机2088可被选择为另一台个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，并且通常包括以上关于计算机系统2000所描述的许多或所有元件，尽管在图6中仅示出单个代表性远程存储器/存储设备2090。图6中所描绘的逻辑连接包括局域网(LAN)2093和广域网(WAN)2095。此类联网环境通常被部署在例如办公室、企业范围的计算机网络、内联网和互联网中。

当在LAN联网环境中使用时，计算机系统2000通过网络接口或适配器2096被连接到局域网2093。当在WAN联网环境中使用时，计算机系统2000通常包括宽带调制解调器2098、网络网关或用于通过诸如互联网之类的广域网2095建立通信的其他装置。内置或者外置的宽带调制解调器2098经由串行端口接口2071被连接到系统总线2014。在联网环境中，与计算机系统2000相关的程序模块或其部分可被储存在远程存储器存储设备2090中。注意，图6中示出的网络连接是说明性的，并且取决于本经由拓扑知晓表面跟踪的一致细分的应用的具体要求，用于建立计算机之间的通信链路的其它手段可被使用。允许除计算机系统2000以外的其他类型的计算平台来在一些应用中实现本经由拓扑知晓表面跟踪的一致细分可能是合乎需要和/或有利的。

图7示出了能够执行本文所描述的用于提供本经由拓扑知晓表面跟踪的一致细分的各种组件的设备的说明性架构2100。因此，由图7例示出的架构2100示出如下架构：该架构可被适配成用于服务器计算机、移动电话、PDA、智能电话、台式计算机、上网本计算机、平板计算机、GPS设备、多媒体游戏控制台和/或膝上型计算机。架构2100可被用来执行本文所呈现的组件的任何方面。

图7中所示的架构2100包括CPU(中央处理单元)2102、包括RAM 2106和ROM 2108的系统存储器2104，以及将存储器2101耦合至CPU 2102的系统总线2110。基本输入/输出系统被储存在ROM 2100中，该系统包含帮助诸如在启动期间在架构2108中的元件之间传递信息的基本例程。架构2100还包括用于储存被用来实现应用、文件系统和操作系统的软件代码或其他被计算机执行的代码的大容量存储设备2112。

大容量存储设备2112通过连接至总线2110的大容量存储控制器(未示出)连接至CPU 2102。大容量存储设备2112及其相关联的计算机可读存储介质为架构2100提供非易失性存储。虽然本文所包含的对计算机可读存储介质的描述是指诸如硬盘或CD-ROM驱动之类的大容量存储设备，但本领域的技术人员可以理解，计算机可读存储介质可以是可由架构2100访问的任何可用的存储介质。

作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，RAM、ROM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、闪存或其他固态存储器技术，CD-ROM、DVD、HD-DVD(高清晰度DVD)、蓝光或其他光学存储，磁带盒、磁带、磁盘存储或其他磁存储设备，或可以用来存储所需信息并可由架构2100访问的任何其他介质。

根据各实施例，架构2100可以使用通过网络至远程计算机的逻辑连接在联网环境中操作。架构2100可以通过连接至总线2110的网络接口单元2116来连接到网络。可领会，网络接口单元2116也可用于连接至其它类型的网络和远程计算系统。架构2100还可以包括用于接收和处理来自数个其他设备的输入的输入/输出控制器2118，这些设备包括键盘、鼠标或者电子指示笔(未在图7中示出)。类似地，输入/输出控制器2118可向显示屏、打印机，或者其他类型的输出设备(在图7中也未示出)提供输出。

可以理解，本文所描述的软件组件在被加载到CPU 2102中并被执行时可以将CPU2102和总体架构2100从通用计算系统变换成为方便本文所提出的功能而定制的专用计算系统。CPU 2102可以用任意数量的晶体管或其他分立的电路元件(它们可以分别地或共同地呈现任意数量的状态)来构建。更具体而言，CPU 2102可响应于被包含在本文所公开的软件模块中的可执行指令而作为有限状态机来操作。这些计算机可执行指令可以通过指定CPU 2102如何在各状态之间转换来变换CPU2102，由此变换了构成CPU 2102的晶体管或其他分立硬件元件。

对本文所提出的软件模块的编码也可变换本文所提出的计算机可读存储介质的物理结构。在本说明书的不同实现中，物理结构的具体变换可取决于各种因素。这样的因素的示例可以包括，但不限于：被用来实现计算机可读存储介质的技术、计算机可读存储介质被表征为主存储器还是辅存储器等等。例如，如果计算机可读存储介质被实现为基于半导体的存储器，则本文所公开的软件可以通过变换半导体存储器的物理状态而在计算机可读存储介质上编码。例如，软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。软件还可变换这些组件的物理状态以在其上存储数据。

作为另一示例，本文所公开的计算机可读存储介质可以使用磁或光技术来实现。在这些实现中，本文所提出的软件可以在磁或光介质中编码了软件时变换所述磁或光介质的物理状态。这些变换可以包括改变给定磁性介质内的特定位置的磁性。这些变换还可以包括改变给定光学介质内的特定位置的物理特征或性质来改变这些位置的光学性质。在没有偏离本说明书的范围和精神的情况下，物理介质的其他变换也是可以的，前面提供的示例只是为了便于此讨论。

鉴于以上内容，可以理解，在架构2100中发生许多类型的物理变换以便储存并执行本文所提出的软件组件。还应理解，架构2100可包括其它类型的计算设备，包括手持计算机、嵌入式计算机系统、智能电话、PDA、以及本领域技术人员已知的其它类型的计算设备。还构想了架构2100可不包括图7中示出的全部组件，可包括图7中没明确示出的其它组件、或者可包括与图7中所示的完全不同的体系结构。

图8示出可用于捕捉输入图像数据以用作目前公开的用于经由拓扑知晓表面跟踪的一致细分的系统和方法的帧源的图像处理系统2202和多媒体内容生成器2204的功能组件。图像处理系统2202可被配置成经由任何合适的技术(包括例如飞行时间、结构化光、立体图像等)来捕捉具有深度信息的视频，包括可包括深度值的深度图像。在一些实施例中，图像处理系统2202可将所计算的深度信息组织为“Z层”，即可垂直于从深度相机沿其视线延伸的Z轴的层。

如图8所示，图像处理系统2202包括图像捕捉组件2205。图像捕捉组件2205可被配置成作为可捕捉场景的深度图像的深度相机来操作。深度图像可包括所捕捉的场景的二维(2D)像素区域，其中2D像素区域中的每个像素都可以表示深度值，诸如所捕捉的场景中的对象与相机相距的距离，例如以厘米、毫米等为单位。在此例中，图像捕捉组件2205包括可被配置在阵列中(如显示的)或被配置在替换几何形状中的IR光组件2210、IR相机2215和可见光RGB相机2220。

各种技术可被利用来捕捉深度视频帧。例如，在飞行时间分析中，图像处理系统2202的IR光组件2210可以将红外光发射到捕捉区域上，然后用例如IR相机2215和/或RGB相机2220来检测从捕捉区域中的一个或多个目标和对象的表面反向散射的光。在某些实施例中，可以使用脉冲式红外光从而可以测量出射光脉冲和相应的入射光脉冲之间的时间并将其用于确定从图像处理系统2202到捕捉区域中的目标或对象上的特定位置的物理距离。附加地，可将出射光波的相位与入射光波的相位进行比较来确定相移。然后可以使用该相移来确定从相机系统到目标或物体上的特定位置的物理距离。可使用飞行时间分析，通过经由包括例如快门式光脉冲成像的各种技术来分析反射光束随时间的强度以间接地确定从图像处理系统2202到目标或对象上的特定位置的物理距离。

在其他实现中，图像处理系统2202可使用结构化光来捕捉深度信息。在这样的分析中，图案化光(即，被显示为诸如网格图案或条纹图案等已知图案的光)可经由例如IR光组件2210被投射到捕捉区域上。在撞击到捕捉区域中的一个或多个目标或对象的表面时，作为响应，图案可变形。图案的这种变形可由例如IR相机2215和/或RGB相机2220来捕捉，然后可被分析来确定从相机系统到目标或对象上的特定位置的物理距离。

图像处理系统2202可利用两个或更多物理上分开的相机，这些相机可从不同角度查看捕捉区域以获得视觉立体数据，该视觉立体数据可被解析以生成深度信息。使用单个或多个相机的其他类型的深度图像布置也可用来创建深度图像。图像处理系统2202还可包括话筒2225。话筒2225可包括可接收声音并将其转换成电信号的换能器或传感器。话筒2225可以被用来减少目标识别、分析及跟踪系统2200中的图像处理系统2202和多媒体内容生成器2204之间的反馈。附加地，话筒2225可用来接收也可由观看者提供的音频信号，以控制可由多媒体内容生成器2204执行的诸如游戏应用、非游戏应用等应用。

图像处理系统2202还可包括可以通过总线2240与图像捕捉组件2205可操作地通信的处理器2230。处理器2230可包括可执行指令的标准处理器、专用处理器、微处理器等，这些指令可包括用于储存简档的指令、用于接收深度图像的指令、用于确定合适的目标是否被包括在深度图像中的指令、用于将合适的目标转换成该目标的骨架表示或模型的指令，或任何其他合适的指令。图像处理系统2202还可以包括存储器组件2245，该存储器组件2245可储存可以由处理器2230执行的指令、由相机捕获的图像或图像的帧、用户简档或任何其他合适的信息、图像等。根据一个示例，存储器组件2245可包括RAM、ROM、高速缓存、闪存、硬盘或任何其他合适的存储组件。如图8所示，存储器组件2245可以是与图像捕捉组件2205和处理器2230进行通信的单独组件。替代地，存储器组件2245可被集成到处理器2230和/或图像捕捉组件2205中。在一个实施例中，图像处理系统2202的一些或全部组件位于单个外壳中。

以上描述的图像处理系统2202以及更具体地图像捕捉组件2205是参考捕获从物理环境中摄取的图像。根据另一实施例，图像捕捉组件2205和/或图像处理系统2202被配置成接收要被呈现的三维场景的计算描述和/或描述该三维场景的图像的图像数据。在这种情况下，计算描述可包括先验深度信息，和/或推导出的图像数据可被使得包括先验深度信息。对于三维场景的每一个图像，底层的深度信息可被方便地组织为深度图像以供如本文描述的进一步处理。

图像处理系统2202通过通信链路2250可操作地与多媒体内容生成器2204进行通信。通信链路2250可以是包括例如USB(通用串行总线)连接、火线连接(Firewireconnection)、以太网电缆连接等的有线连接和/或诸如无线IEEE 802.11连接之类的无线连接。多媒体内容生成器2204可以经由通信链路2250向图像处理系统2202提供时钟，该时钟可被用来确定何时捕捉例如场景。图像处理系统2202可经由通信链路2250来向多媒体内容生成器2204提供由例如IR相机2215和/或RGB相机2220捕获的深度信息和图像，包括可由图像处理系统2202生成的骨架模型和/或面部跟踪模型。多媒体内容生成器2204然后可使用骨架和/或面部跟踪模型、深度信息和所捕捉的图像来例如创建虚拟屏幕、适配用户界面、以及控制应用/游戏2255。根据进一步的实施例，计算描述、图像数据、和/或深度图像的提供可被直接由多媒体内容生成器2204完成，从而消除了对于图像处理系统2202或至少其一些元件的需求。

运动跟踪引擎2260使用骨架和/或面部跟踪模型以及深度信息来向在图像处理系统2202所耦合至的多媒体内容生成器2204上运行的一个或多个应用/游戏2255提供控制输出。姿势识别引擎2265、深度图像处理引擎2270和/或操作系统2275也可使用该信息。

深度图像处理引擎2270使用深度图像来跟踪诸如用户和其他对象等对象的运动。深度图像处理引擎2270可通常将检测到的每个对象的标识以及每帧的对象的位置报告给操作系统2275。操作系统2275可使用该信息来更新例如化身或在例如显示器2280之类的显示器上示出的其他图像的位置或移动，或者对用户界面执行动作。

姿势识别引擎2265可利用可包括姿势过滤器集合的姿势库(未示出)，每个姿势过滤器都包含关于例如可由骨架模型(在用户移动时)执行的姿势的信息。

姿势识别引擎2265可将由图像处理系统2202所捕捉的帧(其形式为骨架模型以及与其相关联的移动)与姿势库中的姿势过滤器进行比较来标识用户(其由骨架模型来表示)何时执行了一个或多个姿势。这些姿势可与应用的各个控制相关联并引导系统打开如以上描述的经个性化的主屏幕。这样，多媒体内容生成器2204可采用姿势库来解释骨架模型的移动并基于该移动来控制在多媒体控制台上运行的操作系统或应用。

在一些实现中，由应用/游戏2255、运动跟踪引擎2260、姿势识别引擎2265、深度图像处理引擎2270和/或操作系统2275所提供的功能的各种方面可直接在图像处理系统2202本身上实现。在另一实施例中，以上结合多媒体内容生成器2204描述的功能和/或特征可由多媒体游戏控制台2300执行和/或合并入其中，如以上和以下描述的。例如，图像处理系统2202可提供图像信息给多媒体游戏控制台2300以实现自然用户界面及其它特征和功能。

基于上述内容，可领会，本文已经公开了用于实现经由拓扑知晓表面跟踪的一致细分的技术。虽然用计算机结构特征、方法和变换动作、特定计算机器、以及计算机可读存储介质专用的语言描述了本文中所描述的主题，但是应当理解，所附权利要求书中所定义的本发明不必限于本文中所描述的具体特征、动作、或介质。相反，这些具体特征、动作和介质是作为实现权利要求的示例形式来公开的。

以上所述的主题仅作为说明提供，并且不应被解释为限制。在不背离所附权利要求中阐述的本公开的真实精神和范围的情况下，可以对本文所描述的主题作出各种修改和改变，而不必遵循所例示和描述的示例实施例及应用。

Claims

1.一种用于在渲染视频中的一个或多个三维对象时一致细分的方法，包括：

提供第一帧序列，所述第一帧序列中的每一帧具有描绘在每一帧中的一个或多个三维对象的第一多个计算表示中的一个计算表示；

提供对应于不包括线框网格的每一计算表示的线框网格；

选择所述第一帧序列中的一个帧作为第一关键帧，所述第一关键帧具有对应于来自所述第一多个的相应计算表示的第一关键网格；

对于所述第一帧序列中没有被选为所述第一关键帧的每一帧，计算描述所述第一关键网格的用于逼近描绘在该相应帧中的所述一个或多个三维对象的表面的计算表示的变换的第一变换场；以及

对于所述第一帧序列中没有被选为所述第一关键帧的每一帧，用根据那个帧的相应变换场变换的所述第一关键网格来替代所述第一多个计算表示中的相应一个计算表示。

2.如权利要求1所述的方法，其特征在于，进一步包括：

对于所述第一帧序列中的每一帧，计算关键帧预测分数，所述关键帧预测分数测量所述第一多个计算表示中的每一相应计算表示将被修改为符合由所述序列中的其他帧的计算表示所描述的第一三维对象的表示的可行性；以及

选择所述第一帧序列中具有最大关键帧预测分数的帧作为第一关键帧。

3.如权利要求2所述的方法，其特征在于，进一步包括通过比较以下中的至少一者来计算所述第一帧序列的每一帧的关键帧预测分数：

i)描述所述第一多个计算表示中的每一计算表示的三角形网格的表面亏格，与所述第一帧序列中的所述第一多个计算表示的所有三角形网格之中的最大表面亏格；以及

ii）所述第一多个计算表示中的每一计算表示的三角形网格的表面积，与所述第一帧序列中的所述第一多个计算表示的所有三角形网格之中的最大表面积。

4.如权利要求1所述的方法，其特征在于，进一步包括：

对于所述第一帧序列中没有被选为所述第一关键帧的每一帧，计算变换场，该变换场使在所述第一关键网格和在该相应帧中的第一三维对象的表面的表示之间的变换的复合能量最小化。

5.如权利要求4所述的方法，其特征在于，进一步包括：

计算变换场，该变换场使在所述第一关键网格和在相应帧中的所述第一三维对象的表面的表示之间的变换的复合能量最小化，包括满足用户定义的对所述变换的约束。

6.如权利要求1所述的方法，其特征在于，进一步包括：

对于所述第一帧序列中没有被选为所述第一关键帧的每一帧，计算误差测量，所述误差测量对应于所述第一多个计算表示的相应点云和所述第一关键网格的用于逼近在该相应帧中的所述一个或多个三维对象的表面的表示的变换之间的视觉相似性；

响应于所述第一帧序列中的任何帧具有超过预定阈值的误差测量，选择第二关键帧，所述第二关键帧具有来自所述第一多个计算表示的第二关键网络；以及

对于所述第一帧序列中具有超过所述预定阈值的误差测量的任何帧，计算描述所述第二关键网格的用于逼近在该相应帧中的所述一个或多个三维对象的表面的变换的第二变换场，并用根据那个帧的相应第二变换场变换的所述第二关键网格来替代所述第一多个计算表示中的相应一个计算表示。

7.如权利要求6所述的方法，其特征在于，进一步包括：

对于所述第一帧序列中没有被选为所述第一关键帧的每一帧，计算与以下的至少一者有关的误差测量：

i) 在相应计算表示和所述第一关键网格的用于逼近该相应帧中的所述一个或多个三维对象的表示的变换之间的豪斯多夫距离；

ii) 将相应计算表示投影到所述第一关键网格的用于逼近该相应帧中的所述一个或多个三维对象的表示的变换上的均方根误差；以及

iii）所述第一多个计算表示中的相应一个计算表示的一个或多个图像和所述第一关键网格的用于逼近该相应帧中的所述一个或多个三维对象的表示的变换的比较渲染质量。

8.如权利要求1所述的方法，其特征在于，进一步包括：

按在时间上沿着所述第一帧序列从所述第一关键帧向前或向后的顺序，对于所述第一帧序列中没有被选为所述第一关键帧的每一帧，计算描述所述第一关键网格的用于逼近在该相应帧中的所述一个或多个三维对象的表示的变换的第一变换场。

9.如权利要求8所述的方法，其特征在于，进一步包括：

沿着所述第一帧序列，对于所述第一帧序列中没有被选为所述第一关键帧的每一帧，计算描述所述第一关键网格的用于逼近在该相应帧中的所述一个或多个三维对象的表示的变换的第一变换场以及毗邻变换场的增量变换。

10.如权利要求1所述的方法，其特征在于，所述计算描述包括点云、相框网格中的至少一者。

11.一种用于在渲染视频中的一个或多个三维对象时一致细分的方法，包括：

提供对应于不包括线框网格的每一计算表示的线框网格；

将所述第一帧序列分割成第一多个子序列；

选择每一子序列中的一个帧作为关键序列中的第一关键帧集合中的一个关键帧，所述关键帧中的每一关键帧具有来自第一多个点云的第一多个关键网格中的一个关键网格；

对于没有被选为关键帧的每一帧，计算描述对应于从那个子序列中选出的相应关键帧的关键网格的用于逼近该相应帧中的所述一个或多个三维对象的表示的变换的第一变换场；

选择所述关键序列中的一个帧作为第一超关键帧，所述第一超关键帧具有第一超关键网格；

对于没有被选为关键帧的每一帧，用根据针对那个帧的相应变换场变换的第一超关键网格来替代所述第一多个计算表示中的相应一个计算表示。

12.如权利要求11所述的方法，其特征在于，进一步包括：

将所述关键序列中的多个帧选为第一超关键帧，所述第一超关键帧具有多个超关键网格中的一个超关键网格；

将所述超关键网格中的一个超关键网格映射到最近的子序列中；以及

用根据针对那个帧的相应变换场变换的经相应映射的所述超关键网格中的一个超关键网格来替代所述第一多个计算表示中的相应计算表示。

13.如权利要求11所述的方法，其特征在于，进一步包括：

递归地应用所述分割、选择第一关键帧集合、计算、选择第一超关键帧和替代每一子序列以获得关键网格的分层结构。

14.如权利要求11所述的方法，其特征在于，进一步包括：

实施选择第一关键帧集合并并行地计算与每一子序列有关的第一变换场。

15.如权利要求11所述的方法，其特征在于，进一步包括：

将所述第一帧序列分割成第一多个子序列，其中这些子序列包括所述第一帧序列中的所有帧；以及

选择每一子序列中的一个帧作为关键序列中第一关键帧集合中的一个关键帧，其中这些关键帧不是所述第一帧序列中的相同帧。

16.如权利要求11所述的方法，其特征在于，进一步包括：

将所述第一帧序列分割成第一多个子序列，其中所述子序列被：

i) 按时间方式组织，

Ii）根据所述第一帧序列的上下文按空间方式组织，或

iii）根据在每一子序列中表示的所述一个或多个三维对象的共性来组织。

17.一种用于在渲染视频中的一个或多个三维对象时一致细分的系统，包括：

一个或多个处理器；以及

存储计算机可读指令的一个或多个机器可读存储器，所述计算机可读指令在由所述一个或多个处理器执行时使得所述一个或多个处理器执行一种方法，所述方法包括以下步骤：

提供对应于不包括线框网格的每一计算表示的线框网格；

对于所述第一帧序列中没有被选为所述第一关键帧的每一帧，计算描述所述第一关键网格的用于逼近在所述相应帧中的所述一个或多个三维对象的计算表示的变换的第一变换场；以及

对于所述第一帧序列中没有被选为所述第一关键帧的每一帧，用根据针对那个帧的相应变换场变换的所述第一关键网格来替代所述第一多个计算表示中的相应计算表示。

18.如权利要求17所述的系统，其特征在于，进一步包括图像处理系统，所述图像处理系统具有图像捕捉组件和图像处理器，所述图像捕捉组件用于捕捉包括深度信息在内的图像数据，所述图像处理器用于将所述图像数据和深度信息处理成三维对象的计算表示。

19.如权利要求18所述的系统，其特征在于，所述图像捕捉组件使用立体成像、结构化光分析或飞行时间分析之一来捕捉深度信息。

20.如权利要求18所述的系统，其特征在于，进一步包括包含多个相机的图像捕捉组件，所述图像处理器用于解析来自多个物理上隔开的相机的视觉立体数据以生成深度信息。