CN110785790A

CN110785790A - 体积性能捕获的非刚性对齐

Info

Publication number: CN110785790A
Application number: CN201880036096.3A
Authority: CN
Inventors: 窦明松; 肖恩·瑞安·法内洛; 阿达尔什·普拉卡什·穆尔蒂·寇德莱; 克里斯多佛·雷曼; 萨姆赫·卡米斯; 菲利普·L·戴维森; 沙赫拉姆·伊扎迪; 弗拉迪米尔·坦科维奇
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-05-31
Filing date: 2018-07-25
Publication date: 2020-02-11

Abstract

电子设备(100)基于数据体积(120)和参考体积(125)之间的对应关系来估计环境中一个或多个物体的姿态，所述数据体积(120)包含由深度相机(102)捕获的当前帧(105)的数据网格(117)，所述参考体积(125)包含多个融合先前数据帧，所述多个融合先前数据帧基于频谱嵌入并在参考体积和当前数据帧之间执行双向非刚性匹配以细化对应关系，从而支持基于位置的功能。电子设备基于频谱嵌入来预测数据体积和参考体积之间的对应关系。对应关系提供了约束条件，其加速了数据体积和参考体积之间的收敛。

Description

体积性能捕获的非刚性对齐

背景技术

用于模拟人的姿态、形状、外观和动作的实时性能捕获被用作计算机视觉任务(诸如手、身体或物体跟踪、3D重建以及即时定位与地图构建(SLAM))的输入。对于此类任务，深度和图像数据的每个新的帧将被用于随时间推移进行的非刚性场景重建。然而，非刚性场景重建在计算上很费力，遭受高频细节(诸如人脸)的过度平滑的困扰，并且在面对拓扑变化时易于跟踪故障。

附图说明

通过参考附图，可以更好地理解本公开，并且其众多特征和优点对于本领域技术人员而言显而易见。在不同附图中使用相同的附图标记表示相似或相同的项目。

图1是示出根据一些实施例的运动跟踪系统的框图，该运动跟踪系统使用频谱嵌入以及向后和向前匹配来关联数据体积和演进的参考体积以估计环境中物体的姿态。

图2是示出根据一些实施例的使用频谱嵌入以及向后和向前匹配来关联数据体积和演进的参考体积以估计环境中的物体的姿态的方法的流程图。

图3是示出根据一些实施例的基于所学习的提取点的频谱嵌入的逼近值来计算数据体积与参考体积之间的稀疏对应关系字段的方法的流程图。

图4是示出根据一些实施例的参考体积与数据体积的向后和向前匹配的方法的流程图。

具体实施方式

以下描述旨在通过提供许多具体实施例和细节来传达对本公开的透彻理解，这些细节包括基于频谱嵌入来估计当前数据帧与包含多个融合的先前数据帧的参考体积之间的对应关系，并执行参考体积与当前数据帧之间的双向非刚性匹配以细化对应关系。然而，应理解，本公开不限于仅作为示例的这些具体实施方式和细节，并且本公开的范围因此旨在仅由所附权利要求书及其等同物限制。还应理解，根据已知的系统和方法，本领域的普通技术人员将根据特定的设计和其它需要，将本公开用于其预期目的和益处的任何数量的替代实施例中。

图1-4示出了基于频谱嵌入基于估计当前数据帧与包含多个融合的先前数据帧的参考体积之间的对应关系，通过运动跟踪系统来估计环境中的一个或多个物体(例如人)的姿态和执行在参考体积和当前数据帧之间双向非刚性匹配以精炼对应关系以便支持基于位置的功能(诸如增强现实(AR)功能、虚拟现实(VR)功能、视觉本地化/测距法或其它即时定位与地图构建(SLAM)功能等)的技术。运动跟踪系统是一种电子设备，其基于提取的体积的零交叉点计算数据网格。该体积是三维(3D)截断的带符号距离函数，它是一个隐含表面(3D模型)，它表示基于由一个或多个深度相机捕获的深度数据的电子设备的环境。电子设备既维持数据体积又维持演进的参考体积。该数据体积包含基于由一个或多个深度相机捕获的当前帧的数据网格(称为当前数据网格帧)，并且该参考体积填充有初始数据网格帧和随后的数据网格帧，所述数据网格帧被融合到初始数据网格帧。电子设备基于频谱嵌入来预测数据体积和参考体积之间的对应关系。对应关系提供了约束条件，该约束条件加速数据体积和参考体积之间的收敛。在一些实施例中，电子设备基于彩色项来优化数据体积与参考体积之间的收敛，该彩色项校正具有更精细几何形状的区域(例如面部)中的漂移。通过跟踪当前数据网格帧和参考体积之间的变化，电子设备避免了仅依靠先前数据网格帧时可能发生的跟踪失败。

在一些实施例中，电子设备执行参考体积和数据体积之间的双向匹配(“向前匹配”)以及数据体积和参考体积之间的双向匹配(“向后匹配”)，以解决表面拓扑变化。电子设备使用从双向匹配中识别出的对应关系作为最终非刚性匹配阶段中的残差，以将参考体积与数据体积对齐。在将参考体积与数据体积对齐之后，电子设备将数据体积融合到参考体积中，并将参考体积扭曲到数据，以估计在电子设备的环境中的物体的姿态。在一些实施例中，电子设备结合了高频细节和纹理映射，以在相对较高的速度下对移动物体(诸如使诸如衣服的物体变形的人)进行高保真重建。

图1示出了根据本公开的至少一个实施例的电子设备100，该电子设备100被配置为使用深度映像数据来支持在虚拟现实(VR)和/或增强现实(AR)应用中使用的任意非刚性场景的实时重建。电子设备100能够包括用户便携式移动设备，诸如平板电脑、支持计算的蜂窝电话(例如“智能电话”)、笔记本计算机、个人数字助理(PDA)、远程游戏系统、电视遥控器等。在其它实施例中，电子设备100能够包括另一种类型的移动设备，诸如头戴式显示器、单个相机、多传感器相机等。为了便于说明，通常在诸如平板计算机或智能电话的移动设备的示例上下文中描述电子设备100；然而，电子设备100不限于这些示例实施方式。电子设备100包括：多个传感器(诸如，深度相机102和彩色相机104)，所述多个传感器用于获取有关电子设备100的局部环境(未示出)的信息；以及处理器110，所述处理器110用于分析通过传感器102、104获取的信息并且估计物体在电子设备100的环境中的姿态。

电子设备100经由深度相机102以深度数据105的形式以及经由彩色(RGB)成像相机104以彩色数据107的形式获取本地环境的视觉信息(图像)。在一个实施例中，成像相机104作为具有鱼眼镜头或其它广角镜头以提供局部环境的广角视图的广角成像相机实现。

在一个实施例中，深度相机102使用调制光照明器(未示出)将调制光图案投射到局部环境中，并且使用一个或多个成像传感器(未示出)来在调制光图案从本地环境中的物体反射回来时捕获调制光图案的反射。在一些实施例中，照明器发射红外(IR)光。在一些实施例中，照明器是竖直腔表面发射激光器(VCSEL)。VCSEL从比激光更大的表面发出光，并且因此在仍然对眼睛安全的同时发出更多的光。在一些实施例中，照明器与合适的掩模(未示出)耦合以发射结构光(即，调制的光图案)。在一些实施例中，这些调制的光图案是时间调制的光图案。所捕获的调制光图案的反射在本文中被称为“深度映像”。在一些实施例中，深度相机102以大约每秒200帧的速率捕获深度映像，其中每个帧包括特定时间段的深度数据。

处理器110包括存储器115、数据体积120、参考体积125、稀疏对应关系模块130、密集对应关系模块135、最终匹配模块140和蒙皮模块145。存储器115通常是存储设备，其被配置为存储深度数据105和彩色数据107，并且因此可以是随机存取存储器(RAM)存储模块、非易失性存储设备(例如，闪存)等。存储器115可以形成电子设备100的存储器层次结构的一部分，并且可以包括其它存储器模块，诸如在图1中未示出的附加缓存。存储器115被配置为接收并存储来自深度相机102的深度数据105和来自彩色相机104的彩色数据107。

处理器110基于深度数据105和彩色数据107生成纹理化网格(也称为三维(3D)点云)，并将纹理化网格被维持在数据体积120处。数据体积120包括与当前帧相对应的纹理化网格，称为当前数据网格帧117。处理器110还维持参考体积125，也称为关键体积。最初，处理器110将第一数据网格帧117设定为参考帧或关键帧，并在关键帧和新数据网格帧之间执行非刚性对齐，使得能够将新的数据网格帧的数据融合到关键帧中。在一些实施例中，处理器110在参考体积125处使用截短的有符号距离函数(TSDF)，以将新的数据网格以体积加权的方式融合到关键帧。如果处理器110确定新的数据网格帧和关键帧之间的对齐误差在阈值以上，则处理器110将新的数据网格帧设定为当前关键帧。

稀疏对应关系模块130被配置为找到新的数据网格帧117的3D网格与参考体积125之间的对应关系。在一些实施例中，对于网格(图形)中的每个节点(3D点)，稀疏对应关系模块130建立亲和矩阵

亲和矩阵基于每个节点的距离D编码图形中的相似度，其逼近于核函数，以对数据网格中的非线性进行编码。稀疏对应关系模块130然后使用A＝USV^T中的SVD分解来分解亲和矩阵A，并且前k-1个特征向量u₂，…，u_k被用作新空间以促进寻找对应关系。稀疏对应关系模块130丢弃与特征值0相关联并且是常数向量的第一特征向量。

在一些实施例中，稀疏对应关系模块130从代表当前数据网格帧117的一组3D点X∈R^n×3中学习逼近嵌入点，该过程在本文中称为“频谱嵌入”。稀疏对应关系模块130将亲和矩阵A与输入空间的非线性映射相关联，类似于逼近核函数。因此，稀疏对应关系模块130将嵌入空间视为待学习的目标输出。在一些实施例中，稀疏对应关系模块130学习函数f(X)＝Y∈R^k×n，其中Y是亲和矩阵A的前k个特征向量。通过学习函数f(X)，稀疏对应关系模块130避免建立亲和矩阵A并执行其SVD分解。

稀疏对应关系模块130学习点云的非线性映射(X)和使损失最小化的回归函数W：

其中Y∈R^k×n是嵌入空间，而Γ(W)是避免过度拟合的正则化项，稀疏对应关系模块130将其设定为W的l₂-范数。稀疏对应关系模块130通过经由随机特征对核矩阵进行逼近并设定

避免了计算数据的内核矩阵A，其中F∈R^3×F是从高斯分布中随机生成的。

在一些实施例中，稀疏对应关系模块130使用空间池来总结数据网格帧117的点云并捕获全局和局部结构。稀疏对应关系模块130执行附加的非线性映射

并在所有点n上计算其最大池，以获得单个紧凑描述符Ψ＝max_iΨ_i∈R^F，其中稀疏对应关系模块130设定了相同数量的随机特征F。为了捕获点云X中每个点x的全局信息和局部信息，稀疏对应关系模块130聚合描述符(x)和ψ与简单减法Φ＝(x)-ψ。

在一些实施例中，处理器110通过收集点云X₁，…，X_N来训练稀疏对应关系模块130，并从每个点云中随机地对多个点(例如256个点)进行子采样。每个点云代表执行特定姿态的特定物体(诸如，以特定姿态保持其身体的人)。处理器110使用离线过程计算嵌入空间Y₁，…Y_N。然后，处理器110将输入点云重新映射到Φ₁，…Φ_N，并使以下损失函数最小化：

在一些实施例中，在运行时，给定两个网格M₁和M₂，处理器110将网格随机子采样到例如256个3D坐标X₁和X₂，计算它们的非线性映射Φ₁和Φ₂，并生成嵌入空间Y₁＝Φ₁W，Y₂＝Φ₂W。在嵌入空间中，稀疏对应关系模块130检索最近点对应关系，并将该对应关系用于初始化当前数据网格帧117与参考体积125之间的对应关系字段。

密集对应关系模块135被配置为识别将参考体积125处的网格扭曲到当前数据网格帧117的非刚性对齐参数。密集对应关系模块135运行向前匹配(参考体积125到数据体积120)和向后匹配(数据体积120到参考体积125)二者，以找到参考体积125和数据体积120之间的密集对应关系。密集对应关系模块135使用由稀疏对应关系模块130识别的稀疏对应关系作为优化向前匹配问题中的数据项。数据项惩罚了扭曲的参考点与其相应数据点之间的距离。密集对应关系模块135在最终的非刚性匹配阶段中使用密集对应关系作为残差，在此之后，将当前数据网格帧117与参考体积125融合，以生成编码在电子设备100的环境中物体的形状的模型。

在一些实施例中，密集对应关系模块135将基于嵌入变形(ED)图形的方法用于非刚性匹配。密集对应关系模块135从参考网格的顶点均匀地采样ED节点，将第i个节点位置表示为g_i。密集对应关系模块135将每个ED节点与代表ED节点在其本地邻域中施加的变形的一组参数相关联。密集对应关系模块135将相邻的ED节点连接在一起以形成ED图形，并且使用G来共同表示ED图形上的变形参数和ED节点位置。密集对应关系模块135将每个网格顶点“蒙皮”到K个相邻的ED节点，使得网格将根据ED图形的参数变形。

密集对应关系模块135识别使参考体积125变形以适合当前数据网格117的ED图形参数。密集对应关系模块135将每个ED节点处的变形参数化为仿射变换。在一些实施例中，仿射变换具有12个参数(3×3矩阵A和3D矢量t)。使用线性混合蒙皮，密集对应关系模块135应用变换以将参考体积125处的顶点v扭曲到当前数据网格帧117处的对应顶点

其中该变换被表示为在一些实施例中，密集对应关系模块135在A上添加正则化作为软约束以强制A尽可能接近旋转矩阵。

在一些实施例中，密集对应关系模块135将A表示为四元数q，而没有明确地强制q是单一的，而是将||q||＝1视为软约束。为了使顶点v变形，密集对应关系模块135执行

其中R(·)将四元数转换为旋转矩阵。在一些实施例中，因为密集对应关系模块135没有明确地迫使q是单一的，所以R(q)变为旋转矩阵乘以标量。在一些实施例中，密集对应关系模块135使用线性混合而不是四元数混合来节省计算资源，同时维持高帧率。

密集对应关系模块135被配置为在参考体积125和数据体积120之间执行双向非刚性匹配。密集对应关系模块135将参考体积125与数据体积120对齐(向前匹配)，并且然后将数据体积120与参考体积125对齐(向后匹配)，基于此密集对应关系模块135识别参考体积125与数据体积120之间的优化点对点对应关系。

对于向前匹配，密集对应关系模块135通过使用投影点到平面距离测量参考网格和数据体积120的输入深度映像形之间的未对齐，将参考体积125匹配到数据体积120：

其中

是等式(3)中定义的弯曲顶点，m和n分别是顶点和深度映像的索引，而Γ_n(v)表示从第n个深度映像起v的对应投影3D点，δ_mn表示

的可见性测试，其中如果在第n个深度映像中可见，则δ_mn＝1，否则δ_mn＝0。在一些实施例中，密集对应关系模块135另外整合视觉外壳项和从等式(1)学习的对应关系项。在一些实施例中，密集对应关系模块135添加正则化项，以强制非刚性运动场的平滑度。在一些实施例中，密集对应关系模块135添加彩色项以使漂移最小化。

在建立向前对齐之后，密集对应关系模块135将参考表面上的每个顶点v_m与其在当前数据网格帧117上的对应点

配对(从输入深度映像105体积融合)。密集对应关系模块135让

表示

的最接近的表面点，并且如果它们的距离大于阈值(例如2mm)，则丢弃对应的对以生成对应集

为了向后匹配，密集对应关系模块135使用等式(3)来将参考的ED节点扭曲到数据姿态(g→g+t)。密集对应关系模块135然后基于深度数据105处的网格拓扑来更新节点-节点连通性。然后，密集对应关系模块135将更新的ED图形用于后向匹配，其中密集对应关系模块135找到与参考体积120的每个顶点的当前数据网格帧117的对应关系：

密集对应关系模块135重新使用ED图形，而不是从当前数据网格帧117重新采样新的ED图形，从而在表示开放拓扑的参考体积125对齐表示闭合拓扑的当前数据网格帧117期间保留正确的ED节点连通性，在这种情况下，虽然来自参考体积125的ED图形将具有正确的连通性，但是在当前数据网格帧117处的重新采样的ED图形将具有不正确的连通性。

密集对应关系模块135使用以下数据项将数据网格对齐到参考TSDF体积

以测量未对齐：

其中定义固定规则晶格点处的有符号距离函数，而(·)是通过的在任意给定点处的三线性插值采样的连续体积场。密集对应关系模块135将每个ED节点处的用于后向匹配的参数初始化为在该节点处的向前变换的逆：q^bwd＝q^-1和t^bwd＝-t。

最终匹配模块140被配置为在参考体积处识别每个顶点的最佳对应关系：{(v_m，p_m)}。如果最终匹配模块140将向前对应关系识别为与对参考顶点v的当前数据网格帧117具有最佳对应关系，则处理器110将顶点v视为与在参考体积125处给定参考网格拓扑的当前数据网格帧117具有可靠的对应关系。如果最终匹配模块140将后向对应关系识别为与参考顶点v的当前数据网格帧117具有最佳对应关系，则最终匹配模块140更新参考顶点v的蒙皮结果(两个ED节点集和权重)，以与当前数据网格帧117处的拓扑匹配。最终匹配模块140使用提取的对应关系作为残差执行最终匹配，以利用更新的图形连接性和顶点蒙皮将参考体积125与数据体积120对齐：

在一些实施例中，最终匹配模块140添加能量项以测量参考体积125处的参考网格上的每个顶点彩色与从彩色数据107观察到的网格顶点的彩色之间的光一致性：

通过添加能量项，最终匹配模块140解决了在向前匹配中使用的点对面数据项不限制顶点沿切线平面移动时可能发生的漂移。最终的匹配模块140将能量项制定为：

其中

投影被投影到第n个彩色图像空间(2D图像坐标)的扭曲参考顶点，如式(4)中所示，δ_mn是可见性项，并且c_m表示参考网格上的第m个顶点的3D彩色矢量。在一些实施例中，最终匹配模块140将3D彩色折叠到单个强度(灰度)值中，这减少了J^TJ评估的计算要求。在一些实施例中，为了进一步减少计算，最终匹配模块140将同一顶点上的多个残差折叠到一个残差中，用合并替代所述多个残差：

其中I是输入强度图像，并且c是每个顶点强度值，并且w_mn是每个输入视图上的权重，其中∑_nw_mn＝1。权重w_mn考虑了可见性和视角。

参考体积125中的体素位于规则晶格网格点上，但是在向前扭曲之后，在某些实施例中，最终匹配模块140在数据体积120的非均匀网格上重新采样TSDF值和权重。在一些情况下，能够将与不同表面部位相对应的体素扭曲到同一位置。代替单独地处理每个体素，最终匹配模块140将扭曲函数应用到晶格网格上的每个体积立方体(在其角部处具有八个体素)。在变形之后，八个体素也能够变为非立方体。最终匹配模块140丢弃那些变形严重的立方体，并假设其余的立方体大致具有立方体的形状。然后，最终匹配模块140对每个变形的立方体执行光栅化处理，以检测位于其内部的数据体积120的所有晶格点。最终匹配模块140对每个格点的TSDF值和权重进行三线性插值。

当发生碰撞时，数据体积素能够从多个立方体获得TSDF值。在一些实施例中，最终匹配模块140使用自定义原子操作来处理碰撞。当最终匹配模块140将新的TSDF值d^new写入具有旧TSDF值d^old的体素时，如果d^old无效或|d^new|<|d^old|，则最终匹配模块140设定d＝d^new；否则设定d＝d^old。

蒙皮模块145被配置为对测地线蒙皮执行相对快速的逼近。蒙皮模块145首先使用欧几里得距离找到与每个顶点最近的ED节点。对于每个ED节点，蒙皮模块145求解表面上的热平衡，其中热量从ED节点传递到仅该节点被选择为其k-最近ED节点中的一个节点的顶点。然后，蒙皮模块145求解ED节点i的线性系统：

(D-tΔ)w_i＝δ_i， (9)

其中，D是对角矩阵，其中D_ii是顶点I的面积(入射在顶点i上的所有三角形的面积的三分之一)，Δ是使用余切公式并使用中间表示的半边沿数据结构计算的离散表面拉普拉斯算子，t是温度超参数，而δ_i是一热向量，该热向量指示表示ED节点的顶点。在一些实施例中，蒙皮模块145通过选择ED节点作为顶点集合的质心而不是中心来采样网格歧管上的ED节点。在一些实施例中，蒙皮模块145与高斯-塞德尔实施方式并行地求解得到线性系统。当针对顶点j的回收溶液w_ij为零时，蒙皮模块145确定回收溶液在歧管上距离太远，并且随后将回收溶液从ED节点I分离，从而避免了失真伪影。在一些实施例中，蒙皮模块145在体积扭曲期间采用欧几里得距离以节省计算资源。

因此，蒙皮模块145将体积中的每个顶点(或体素)关联到其相邻的ED节点，并给出关联的权重。非刚性变形(即运动场或姿态)被表示为在所述ED节点的每一个ED节点处的一组局部半刚性变形。因此，最初仅在ED节点的位置处定义变形。因为网格的顶点(或体积的体素)通常不与ED节点位于同一位置，所以蒙皮模块145为那些网格顶点(或体积的体素)内插变形参数。为了执行插值，蒙皮模块145为每个网格顶点(或体素)确定相邻的ED节点，并且然后对参数进行插值(例如，通过获取相邻ED参数的加权平均值)。

图2是根据一些实施例示出使用频谱嵌入以及向前和向后匹配来关联数据体积和演进的参考体积以估计物体在环境中的姿态的图1的运动跟踪系统100所采用的方法200的流程图。在框202处，图1的运动跟踪系统100的处理器110从深度相机102和彩色相机104接收捕获的深度和彩色数据。所述深度和彩色数据可以是一个或多个深度映像和彩色图像的形式。在框204处，处理器110生成当前数据网格帧117，处理器110将其维持在数据体积120处。在框206处，稀疏对应关系模块130基于频谱嵌入的学习逼近来估计数据体积120与参考体积125之间的对应关系字段。在一些实施例中，稀疏对应关系模块130使用等式(1)来估计对应关系字段。

在框208处，密集对应关系模块135在参考体积125和数据体积120之间进行向前和向后的匹配，以找到网格之间的密集对应关系。在框210处，最终匹配模块140基于来自密集对应关系模块135的向前和向后匹配的残差执行非刚性优化。在框212处，处理器110将数据网格融合到参考体积125中并将参考数据体积125扭曲到数据体积120，在此之后，方法流继续回到框202。

图3是根据一些实施例示出基于提取点的频谱嵌入的所学习的逼近来计算数据体积与参考体积之间的稀疏对应关系字段的图1的运动跟踪系统100所采用的方法300的流程图。在框302处，稀疏对应关系模块130接收当前数据网格帧117的3D点云。在框304处，稀疏对应关系模块130从当前数据网格帧117的3D点云的3D点的子集中逼近嵌入点。在框306处，稀疏对应关系模块130将亲和矩阵与当前数据网格帧117的非线性映射相关。在框308处，稀疏对应关系模块130基于非线性映射和嵌入空间检索当前数据网格帧117和参考体积120之间的最近点对应关系。

图4是根据一些实施例示出参考体积与数据体积的向后和向前匹配的图1的运动跟踪系统100所采用的方法400的流程图。在框402处，密集对应关系模块135执行参考体积125与数据体积120的向前匹配。在框404处，密集对应关系模块135将参考体积125的嵌入变形节点扭曲至数据体积120的姿态。在框406处，密集对应关系模块135基于数据体积120处的网格拓扑来更新参考体积125与数据体积120的网格之间的节点到节点的连接，以生成更新的嵌入变形图形。在框508处，密集对应关系模块135基于更新的嵌入变形图形来执行数据体积120与参考体积125的后向匹配。

在框410处，密集对应关系模块针对每个顶点确定向前匹配对应关系是否比后向匹配对应关系更好。对于每个顶点，如果密集对应关系135模块确定向前匹配对应关系比后向匹配对应关系更好，则在框412处，最终匹配模块140根据网格在参考体积125处的拓扑确定顶点具有与当前数据网格帧117的可靠对应关系。在框410处，如果对于给定的顶点来说，密集对应关系模块135确定向前匹配对应关系并不比后向匹配对应更好，则在框414处，最终匹配模块140更新顶点的顶点蒙皮结果以匹配数据体积120处的当前数据网格帧117的拓扑。在框416处，最终匹配模块140将参考帧125与数据帧120对齐。

在一些实施例中，可以由处理系统执行软件的一个或多个处理器来实现上述技术的某些方面。该软件包括在非暂时性计算机可读存储介质上存储或以其它方式有形地体现的一组或多组可执行指令。该软件能够包括指令和某些数据，当由一个或多个处理器执行这些指令和某些数据时，操纵一个或多个处理器以执行上述技术的一个或多个方面。非易失性计算机可读存储介质能够包括例如磁盘或光盘存储设备，诸如闪存的固态存储设备、高速缓存、随机存取存储器(RAM)或其它一个或多个非易失性存储设备等。存储在非暂时性计算机可读存储介质上的可执行指令可以是源代码、汇编语言代码、目标代码或由一个或多个处理器解释或能够以其它方式执行的其它指令格式。

计算机可读存储介质可以包括在使用期间能够由计算机系统访问的任何存储介质或存储介质的组合，以向计算机系统提供指令和/或数据。这样的存储介质能够包括但不限于光学介质(例如，光盘(CD)、数字通用光盘(DVD)、蓝光光盘)、磁介质(例如，软盘、磁带或硬磁驱动器)、易失性存储器(例如，随机存取存储器(RAM)或高速缓存)、非易失性存储器(例如，只读存储器(ROM)或闪存)或基于微机电系统(MEMS)的存储介质。计算机可读存储介质可以被嵌入在计算系统(例如，系统RAM或ROM)中，以固定的方式附接到计算系统(例如，磁硬盘驱动器)，以可移除的方式附接到计算系统(例如，光盘或基于通用串行总线(USB)的闪存)，或经由有线或无线网络(例如，网络可访问存储(NAS))耦合到计算机系统。

注意，一般描述中的上述所有活动或元素并非都是必需的，特定活动或设备的一部分可能不是必需的，并且除了上述内容之外，还可以执行一个或多个其它活动或所包括的元素。更进一步，列出活动的顺序不一定是执行这些活动的顺序。而且，已经参考特定实施例描述了概念。

然而，本领域的普通技术人员将理解，在不脱离如下文所附权利要求书中阐述的本公开的范围的情况下能够进行各种修改和改变。因此，说明书和附图应被认为是说明性的而不是限制性的，并且所有这样的修改旨在被包括在本公开的范围内。上面已经关于特定实施例描述了益处，其它优点和问题的解决方案。然而，益处、优点、问题的解决方案以及可能导致任何益处、优点或解决方案出现或变得更加明显的任何一个或多个特征都不应解释为权利要求书的任何一项或全部的关键，必需或必要特征。此外，上面公开的特定实施例仅是说明性的，这是因为所公开的主题可以以不同但等同的方式进行修改和实践，这些方式对本领域技术人员来说是显而易见的，并且具有本文所述教导的优点。除了在下面的权利要求书中描述的以外，没有意图限制本文所示的构造或设计的细节。因此，显而易见的是，以上公开的特定实施例可以被改变或修改，并且所有这样的变化都被认为在所公开的主题的范围内。因此，本文所寻求的保护如以下权利要求书所述。

Claims

1.一种方法，包括：

基于在电子设备(100)的一个或多个深度相机(102)处捕获的至少一个深度数据帧(105)和在一个或多个彩色相机(104)处捕获的至少一个彩色数据帧(107)，计算当前数据网格帧(117)，其中所述当前数据网格帧包括表示所述电子设备的环境的三维(3D)点云；

维持包括所述当前数据网格帧的数据体积(120)；

基于先前捕获的深度数据帧和彩色数据帧，维持包括多个融合数据网格帧的参考体积(125)；

基于频谱嵌入计算所述数据体积与所述参考体积之间的初始对应关系(206)；以及

基于所述初始对应关系，估计环境中至少一个物体的当前姿态。

2.根据权利要求1所述的方法，其中，计算所述初始对应关系包括：

基于空间池汇总所述数据体积和所述参考体积的3D点云；以及

基于非线性映射从所汇总的3D点云计算嵌入点，以生成所述数据体积和所述参考体积之间的对应关系字段。

3.根据权利要求2所述的方法，还包括：

将所述参考体积与所述数据体积对齐；

基于所述非线性映射计算所述数据体积与所述参考体积之间的对齐误差；以及

响应于识别出所述数据体积和所述参考体积之间的对齐误差超过阈值，将所述参考体积重置为包括所述当前数据网格帧。

4.根据权利要求1所述的方法，还包括：

识别非刚性对齐参数，以将所述参考体积扭曲到所述当前数据网格帧的姿态。

5.根据权利要求1所述的方法，还包括：计算所述数据体积与所述参考体积之间的密集对应关系，包括：

使所述数据体积对齐到所述参考体积，以生成包括多个顶点的嵌入变形图；以及

基于所述嵌入变形图将所述参考体积对齐到数据体积，以识别所述参考体积与所述数据体积的所述顶点之间的对应关系。

6.根据权利要求5所述的方法，其中，将所述数据体积对齐到所述参考体积包括：将所述数据体积的每个顶点的彩色值与所述参考体积的每个对应顶点的彩色值进行匹配。

7.根据权利要求6所述的方法，其中，还包括将所述数据体积的每个顶点的所述彩色值和所述参考体积的每个对应顶点的所述彩色值表示为单个强度值。

8.根据权利要求1所述的方法，其中，计算所述初始对应关系包括：计算对所述数据体积的所述点云的每个3D点之间的相似度进行编码的亲和矩阵。

9.一种方法，包括：

在电子设备(100)的一个或多个深度相机(102)处捕获环境的深度数据(105)；

在所述电子设备的一个或多个彩色相机(104)处捕获所述环境的彩色数据(107)；

基于所述深度数据和所述彩色数据，计算包括3D点云的对应三维(3D)点的当前数据网格帧(117)；

维持包括所述当前数据网格帧的数据体积(120)；

将所述当前数据网格帧融合到多个先前计算的数据网格帧，以生成参考体积(125)；

基于频谱嵌入计算所述数据体积与所述参考体积之间的稀疏对应关系；

基于非刚性对齐计算所述数据体积与所述参考体积之间的密集对应关系；以及

基于所述稀疏对应关系估计所述环境中的至少一个物体的当前姿态。

10.根据权利要求9所述的方法，其中，计算所述稀疏对应关系包括：

11.根据权利要求10所述的方法，还包括：

响应于识别所述数据体积和所述参考体积之间的所述对齐误差超过阈值，将所述参考体积重置为包括所述当前数据网格帧。

12.根据权利要求9所述的方法，还包括：

求解非刚性对齐参数，以将所述参考体积扭曲到所述当前数据网格帧的姿态。

13.根据权利要求9所述的方法，其中，计算所述数据体积和所述参考体积之间的所述密集对应关系包括：

基于所述嵌入变形图将所述参考体积与所述数据体积对齐，以识别所述参考体积与所述数据体积之间的对应关系。

14.根据权利要求13所述的方法，还包括：将所述数据体积的每个顶点的彩色值和所述参考体积的每个对应顶点的彩色值表示为单个强度值。

15.根据权利要求9所述的方法，其中，计算所述稀疏对应关系包括：计算对所述数据体积与所述参考体积的3D点云的每个3D点之间的相似度进行编码的亲和矩阵。

16.一种电子设备(100)，包括：

至少一个深度相机(102)，所述至少一个深度相机(102)用于捕获所述电子设备的环境的深度数据(105)；以及

处理器(110)，所述处理器(110)用于：

基于在所述至少一个深度相机处捕获的至少一个深度数据帧，计算包括所述电子设备的环境的三维(3D)点云的当前数据网格帧(1117)；

维持包括所述当前数据网格帧的数据体积(120)；

基于频谱嵌入，计算所述数据体积与所述参考体积之间的稀疏对应关系；以及

17.根据权利要求16所述的电子设备，其中，所述处理器将基于以下操作来计算所述稀疏对应关系：

18.根据权利要求17所述的电子设备，其中，所述处理器还用于：

响应于识别所述数据体积和所述参考体积之间的对齐误差超过阈值，将所述参考体积重置为包括所述当前数据网格帧。

19.根据权利要求16所述的电子设备，其中，所述处理器还用于：

20.根据权利要求16所述的电子设备，其中，所述处理器还基于以下操作来计算所述数据体积与所述参考体积之间的密集对应关系：

将所述数据体积与所述参考体积对齐，以生成包括多个顶点的嵌入变形图；以及

基于所述嵌入变形图将所述参考体积与数据体积对齐，以识别所述参考体积与所述数据体积之间的对应关系。