CN114402364A

CN114402364A - 使用随机森林的3d对象检测

Info

Publication number: CN114402364A
Application number: CN201980100368.6A
Authority: CN
Inventors: D.J.谭; F.通巴里
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-09-13
Filing date: 2019-09-13
Publication date: 2022-04-26
Also published as: EP4028993A1; WO2021050077A1; US20220292717A1

Abstract

示例实施例允许基于点云、深度图像/图或关于可能包含对象的场景的其他深度信息对对象进行快速、有效的检测和姿态估计。实施例包括平移和旋转深度图像以将深度图像的各个点带到标准的定向和位置，从而提高当对象在视野的外围附近时的性能。一些公开的实施例包括应用随机森林来执行姿态估计。通过使用决策树或其他快速方法，在识别特定对象是否实际存在于场景中之前多次执行姿态估计可能是有利的。预期的姿态估计可以与对象的模型进行组合，以便评估对象是否存在于场景中。

Description

使用随机森林的3D对象检测

背景技术

在各种环境中检测环境中对象的存在、位置和定向是有益的。例如，该信息可以用于控制机器人或其他设备与对象交互(例如，以拾取对象、对对象执行处理、包装对象、重新定向对象)。在另一示例中，该信息可以用于提供对象的覆盖图像，例如，作为增强现实系统的一部分，以指示对象的位置并指导用户关于用户应该如何重新定向对象或以其他方式与对象交互。在另一示例中，对象检测能够有助于库存控制、识别环境的内容、导航环境或其他任务。

可以基于环境的深度图像来执行关于环境中对象的存在、位置和/或定向的信息。这种深度图像可以由飞行时间相机、扫描激光测距仪、被布置成提供立体图像信息的两个或更多个相机、或被配置为提供深度相关信息的一些其他传感器来生成。

发明内容

在许多应用中，希望能够基于关于环境的深度信息(例如，点云、深度图像)来检测关于环境内的对象的存在、位置、定向、姿态或其他信息。这可能有助于导航环境、清点环境的内容、提供环境图像的教育或娱乐相关覆盖、使用机器人与对象交互、执行质量控制或其他应用。例如，可以使用这种信息以便控制机器人抓取对象或以其他方式与对象交互。在另一示例中，这种信息可以用于向用户提供图形覆盖或其他增强现实显示信息(例如，以指导用户以特定方式与检测到的对象交互)。

然而，先前用于检测对象存在的方法可能具有不想要的缺点。模板匹配或其他现有方法在计算上可能非常昂贵。此外，当对象位于检测到的区域的边附近(例如，在深度图像的边附近，距离传感器在传感器的最大深度附近的深度处)或以其他方式远离优选的空间区域(例如，相对于深度传感器)时，模板匹配和其他现有方法的性能可能会更差。

本文描述的实施例提供了用于基于环境的深度图像或其他深度信息来检测环境中对象的存在、位置和定向的改进方法。例如，在深度图像中存在噪声的情况下，这些实施例以在确定的速度、确定的计算成本、确定的准确性方面得到改进的方式来生成这种确定。

本文描述的实施例可以包括平移和/或旋转深度图像或其一部分(例如，围绕深度图像的选定图像点的图块(patch))以将深度图像内的选定点带到指定的中性位置和/或定向。这可以减少对象远离空间中的优选位置定位(例如，相对于深度图像所描述的空间范围)的潜在负面影响。这也可以促进将决策树或其他姿态估计算法应用于深度图像的经平移和/或旋转的点。

本文描述的实施例可以包括在确定对象是否存在之前执行对象的姿态估计(即，确定位置和定向)。例如，姿态估计算法(例如，回归树的随机森林)可以被应用于深度图像的图块(例如，其已经被旋转和/或平移以相对于指定位置/定向居中)并用于生成对象的估计姿态。然后可以评估该估计姿态以确定对象是否存在。在这个姿态估计和评估过程快速和/或计算成本低廉的实施例中(例如，该过程涉及应用回归树的随机森林)，多次应用估计和评估过程直到发现满意的姿态可能比执行初始对象检测过程(例如，使用模板匹配)然后执行姿态估计更优选。

本文描述的实施例还提供了用于评估估计姿态的改进方法。即使深度图像中存在噪声(例如，由于使用了低成本的、小的、低功率的或其他的有噪声的深度传感器)，这些方法也提供了改进的真阳性检测和假阴性拒绝。这些评估方法包括应用具有相对低的“通过”阈值的多个评估测试。例如，评估测试可以将深度图像的点与根据估计姿态而定位的对象的模型的对应点之间的距离同阈值距离进行比较。如果超过50％的深度图像点到模型上对应点的距离小于阈值距离，则这种评估测试对于该估计姿态可以返回“通过”。可以应用多个不同的评估测试，并且只有当所有不同的评估测试对于该估计姿态都返回“通过”时，该估计姿态才验证有效。使用各自具有相对低的“通过”阈值的多个评估测试甚至允许有噪声的深度数据通过。然而，多个不同的评估测试都返回“通过”的要求允许这种整体评估方法拒绝假阳性。

注意，针对图块旋转/平移、使用随机森林的姿态估计、用于估计姿态评估的方法、以及通过对深度图像中的多个点进行重复的姿态估计和评估来进行对象检测和姿态估计的实施例可以进行组合，或者单独地与用于姿态估计或对象检测和姿态估计的其他方面的替代算法一起使用。例如，深度图像的点的图块可以被平移和旋转，并且被应用于模板匹配算法，以为环境中的对象生成估计姿态。这种过程可以在确定对象存在于环境中之后执行。替代地，可以多次执行这种旋转和平移以及随后的模板匹配，并且可以评估每个估计姿态，以便确定对象是否存在于环境中，并且进一步选择和/或确定对象的姿态。本文描述的实施例的其他组合是可能的。

本公开的一方面涉及一种方法，包括：(i)获得场景的深度图像，其中，深度图像包括三维空间内的多个图像点；(ii)基于多个图像点中的多个选定点，生成在三维空间内的对象的多个估计姿态；(iii)执行对对象的多个估计姿态的评估；以及(iv)基于对象的估计姿态中的至少一个估计姿态和为该至少一个估计姿态确定的至少一个相似性度量来为三维空间内的对象确定姿态。生成对象的多个估计姿态包括，对于每个选定点：(a)旋转和平移多个图像点以使得选定点在三维空间内居中；以及(b)将随机森林应用于经旋转和平移的多个图像点以生成对象的估计姿态。对对象的多个估计姿态的评估包括，对于每个估计姿态：(a)根据估计姿态平移和旋转对象的模型；以及(b)将对象的经平移和旋转的模型与深度图像的图像点进行比较以为估计姿态确定至少一个相似性度量。

该方法还可以包括通过以下各项中的至少一个来应用为对象确定的姿态：(i)生成对象的图像，其中，对象的图像包括基于为对象确定的姿态的覆盖，(ii)基于为对象确定的姿态向机器人提供命令以与对象交互，或者(iii)向用户提供命令以操纵对象，使得对象呈现指定姿态。随机森林可以包括多个回归树。多个回归树中的至少一个回归树可以生成对象的六维估计姿态作为输出。多个回归树中的第一回归树的第一输入特征集可以不同于多个回归树中的第二回归树的第二输入特征集。旋转和平移所述多个图像点以使得选定点居中可以包括将第一旋转和平移应用于多个图像点，并且其中，将随机森林应用于经旋转和平移的多个图像点以生成对象的估计姿态包括：将随机森林应用于经旋转和平移的多个图像点以生成第一姿态估计；以及将第一旋转和平移的逆应用于第一姿态估计。将对象的经平移和旋转的模型与深度图像进行比较以为估计姿态确定至少一个相似性度量可以包括：生成对象的经平移和旋转的模型与深度图像之间的三个相似性度量；将三个相似性度量与相应阈值进行比较；以及通过确定所有三个相似性度量是否超过它们的相应阈值来确定对象的经平移和旋转的模型是否对应于深度图像。生成对象的经平移和旋转的模型与深度图像之间的三个相似性度量可以包括：通过确定在经平移和旋转的模型上距离深度图像的相应图像点在点阈值距离内的点的比例来生成第一相似性度量；通过以下步骤生成第二相似性度量：(i)从经平移和旋转的模型上的点集生成多个法向矢量，(ii)从深度图像的图像点集生成多个法向矢量，(iii)生成从经平移和旋转的模型上的点集生成的法向矢量与从深度图像的图像点集生成的对应法向矢量之间的多个角度，以及(iv)确定小于阈值角度的角度的比例；以及通过确定经平移和旋转的模型的距离深度图像的相应边在边阈值距离内的边的比例来生成第三相似性度量。将对象的经平移和旋转的模型与深度图像进行比较以为估计姿态确定至少一个相似性度量可以包括确定对象的经平移和旋转的模型与深度图像是否比阈值相似性程度更相似，并且其中，基于对象的至少一个估计姿态和为至少一个估计姿态确定的至少一个相似性度量来为三维空间内的对象确定姿态包括确定对象的估计姿态中的特定一个估计姿态对应于大于阈值相似性程度的所确定的相似性度量。

本公开的另一方面涉及一种方法，包括：(i)获得场景的深度图像，其中，深度图像包括三维空间内的多个图像点；(ii)基于多个图像点中的多个选定点，生成三维空间内的对象的多个估计姿态；(iii)执行对对象的多个估计姿态的评估；以及(iv)基于对象的估计姿态中的至少一个估计姿态和为至少一个估计姿态确定的至少一个相似性度量来为三维空间内的对象确定姿态。生成对象的多个估计姿态包括，对于每个选定点：(a)旋转和平移多个图像点以使得选定点在三维空间内居中；以及(b)基于经旋转和平移的多个图像点生成对象的估计姿态。对对象的多个估计姿态的评估包括，对于每个估计姿态：(a)根据估计姿态平移和旋转对象的模型；以及(b)将对象的经平移和旋转的模型与深度图像的图像点进行比较，以为估计姿态确定至少一个相似性度量。

基于经旋转和平移的多个图像点生成对象的估计姿态可以包括对经旋转和平移的多个图像点执行模板匹配。旋转和平移所述多个图像点以使得选定点居中可以包括将第一旋转和平移应用于多个图像点，并且其中，基于经旋转和平移的多个图像点生成对象的估计姿态包括：使用经旋转和平移的多个图像点生成第一姿态估计；以及将第一旋转和平移的逆应用于第一姿态估计。将对象的经平移和旋转的模型与深度图像进行比较以为估计姿态确定至少一个相似性度量可以包括：生成对象的经平移和旋转的模型与深度图像之间的三个相似性度量；将三个相似性度量与相应阈值进行比较；以及通过确定所有三个相似性度量是否超过它们的相应阈值来确定对象的经平移和旋转的模型是否对应于深度图像。生成对象的经平移和旋转的模型与深度图像之间的三个相似性度量可以包括：通过确定在经平移和旋转的模型上距离深度图像的相应图像点在点阈值距离内的点的比例来生成第一相似性度量；通过以下步骤生成第二相似性度量：(i)从经平移和旋转的模型上的点集生成多个法向矢量，(ii)从深度图像的图像点集生成多个法向矢量，(iii)生成从经平移和旋转的模型上的点集生成的法向矢量与从深度图像的图像点集生成的对应法向矢量之间的多个角度，以及(iv)确定小于阈值角度的角度的比例；以及通过确定经平移和旋转的模型的距离深度图像的相应边在边阈值距离内的边的比例来生成第三相似性度量。将对象的经平移和旋转的模型与深度图像进行比较以为估计姿态确定至少一个相似性度量可以包括确定对象的经平移和旋转的模型与深度图像是否比阈值相似性程度更相似，并且其中，基于对象的估计姿态中的至少一个估计姿态和为至少一个估计姿态确定的至少一个相似性度量来为场景内的对象确定姿态包括确定对象的估计姿态中的特定一个估计姿态对应于大于阈值相似性程度的所确定的相似性度量。该方法还可以包括：通过以下各项中的至少一个来应用为对象确定的姿态：(i)生成对象的图像，其中，对象的图像包括基于为对象确定的姿态的覆盖，(ii)基于为对象确定的姿态向机器人提供命令以与对象交互，或者(iii)向用户提供命令以操纵对象，使得对象呈现指定姿态。

本公开的又一方面涉及一种方法，包括：(i)获得场景的深度图像，其中，深度图像包括三维空间内的多个图像点；(ii)基于多个图像点中的多个选定点，生成三维空间内的对象的多个估计姿态；(iii)执行对对象的多个估计姿态的评估；以及(iv)基于对象的估计姿态中的至少一个估计姿态和为至少一个估计姿态确定的至少一个相似性度量，为三维空间内的对象确定姿态。对象的多个估计姿态的评估包括，对于每个估计姿态：(a)根据估计姿态平移和旋转对象的模型；以及(b)将对象的经平移和旋转的模型与深度图像的图像点进行比较，以为估计姿态确定至少一个相似性度量。

该方法还可以包括通过以下各项中的至少一个来应用为对象确定的姿态：(i)生成对象的图像，其中，对象的图像包括基于为对象确定的姿态的覆盖，(ii)基于为对象确定的姿态向机器人提供命令以与对象交互，或者(iii)向用户提供命令以操纵对象，使得对象呈现指定姿态。将对象的经平移和旋转的模型与深度图像进行比较以为估计姿态确定至少一个相似性度量可以包括：生成对象的经平移和旋转的模型与深度图像之间的三个相似性度量；将三个相似性度量与相应阈值进行比较；以及通过确定所有三个相似性度量是否超过它们的相应阈值来确定对象的经平移和旋转的模型是否对应于深度图像。生成对象的经平移和旋转的模型与深度图像之间的三个相似性度量可以包括：通过确定在经平移和旋转的模型上距离深度图像的相应图像点在点阈值距离内的点的比例来生成第一相似性度量；通过以下步骤生成第二相似性度量：(i)从经平移和旋转的模型上的点集生成多个法向矢量，(ii)从深度图像的图像点集生成多个法向矢量，(iii)生成从经平移和旋转的模型上的点集生成的法向矢量与从深度图像的图像点集生成的对应法向矢量之间的多个角度，以及(iv)确定小于阈值角度的角度的比例；以及通过确定经平移和旋转的模型的距离深度图像的相应边在边阈值距离内的边的比例来生成第三相似性度量。将对象的经平移和旋转的模型与深度图像进行比较以为估计姿态确定至少一个相似性度量可以包括确定对象的经平移和旋转的模型与深度图像是否比阈值相似性程度更相似，并且其中，基于对象的估计姿态中的至少一个估计姿态和为至少一个估计姿态确定的至少一个相似性度量来为场景内的对象确定姿态包括确定估计姿态中的特定一个估计姿态对应于大于阈值相似性程度的所确定的相似性度量。

本公开的又一方面涉及一种方法，包括：(i)获得场景的深度图像，其中，深度图像包括三维空间内的多个图像点；(ii)将随机森林应用于多个图像点，以生成三维空间中的对象的估计姿态；以及(iii)通过以下步骤确定对象存在于三维空间中：(a)根据估计姿态平移和旋转对象的模型；以及(b)确定对象的经平移和旋转的模型与深度图像的图像点比阈值相似性程度更相似。

该方法还可以包括：通过以下各项中的至少一个来应用为对象确定的姿态：(i)生成对象的图像，其中，对象的图像包括基于为对象确定的姿态的覆盖，(ii)基于为对象确定的姿态向机器人提供命令以与对象交互，或者(iii)向用户提供命令以操纵对象，使得对象呈现指定姿态。随机森林可以包括多个回归树。多个回归树中的至少一个回归树可以生成对象的六维估计姿态作为输出。多个回归树中的第一回归树的第一输入特征集可以不同于多个回归树中的第二回归树的第二输入特征集。确定对象的经平移和旋转的模型与深度图像比阈值相似性程度更相似可以包括：生成对象的经平移和旋转的模型与深度图像之间的三个相似性度量；将三个相似性度量与相应阈值进行比较；并且确定所有三个相似性度量都超过了它们的相应阈值。生成对象的经平移和旋转的模型与深度图像之间的三个相似性度量可以包括：通过确定在经平移和旋转的模型上距离深度图像的相应图像点在点阈值距离内的点的比例来生成第一相似性度量；通过以下步骤生成第二相似性度量：(i)从经平移和旋转的模型上的点集生成多个法向矢量，(ii)从深度图像的图像点集生成多个法向矢量，(iii)生成从经平移和旋转的模型上的点集生成的法向矢量与从深度图像的图像点集生成的对应法向矢量之间的多个角度，以及(iv)确定小于阈值角度的角度的比例；以及通过确定经平移和旋转的模型的距离深度图像的相应边在边阈值距离内的边的比例来生成第三相似性度量。

本公开的又一方面涉及一种方法，包括：获得场景的深度图像，其中，深度图像包括三维空间内的多个图像点；生成三维空间中的对象的估计姿态；根据估计姿态平移和旋转对象的模型；以及将对象的经平移和旋转的模型与深度图像的图像点进行比较，以为估计姿态确定至少一个相似性度量；以及基于估计姿态的至少一个相似性度量来为三维空间中的对象确定估计姿态。

为三维空间中的对象确定估计姿态可以包括确定对象存在于三维空间中。在三维空间中生成对象的估计姿态可以包括将随机森林应用于多个图像点。基于估计姿态的至少一个相似性度量来确定估计姿态对应于三维空间中的对象可以包括确定对象的经平移和旋转的模型与深度图像的图像点比阈值相似性程度更相似。生成三维空间中的对象的估计姿态可以包括基于多个图像点中的多个选定点生成三维空间内的对象的多个估计姿态；其中，基于估计姿态的至少一个相似性度量来为三维空间中的对象确定估计姿态包括：执行对对象的多个估计姿态的评估，其中，评估包括，对于每个估计姿态：根据估计姿态平移和旋转对象的模型；以及将对象的经平移和旋转的模型与深度图像的图像点进行比较，以为估计姿态确定至少一个相似性度量；以及基于对象的估计姿态中的至少一个估计姿态和为至少一个估计姿态确定的至少一个相似性度量来为三维空间内的对象确定姿态。生成对象的多个估计姿态可以包括，对于每个选定点：旋转和平移多个图像点以使得选定点在三维空间内居中；以及基于经旋转和平移的多个图像点生成对象的估计姿态。基于经旋转和平移的多个图像点生成对象的估计姿态可以包括将随机森林应用于经旋转和平移的多个图像点。

为避免疑问，术语“姿态”用于表示对象的估计或已知的位置和定向。可以绝对地(例如，相对于绝对坐标系)或相对地(例如，相对于生成从中估计姿态的深度信息的深度传感器)确定姿态。

应当理解，这些方面可以以任何方便的形式来实施。例如，各方面可以由可承载在适当载体介质上的适当计算机程序来实施，适当载体介质可以是有形的载体介质(例如，磁盘)或无形的载体介质(例如，通信信号)。还可以使用合适的装置来实施各方面，合适的装置可以采取运行被布置成实施本发明的计算机程序的可编程计算机的形式。可以组合各方面，使得在一个方面的上下文中描述的特征可以在另一方面中实施。

通过适当参考附图阅读下面的详细描述，这些以及其他的方面、优点和替代方案对于本领域普通技术人员来说将变得显而易见。此外，应当理解，在本发明内容部分和本文档的其他地方提供的描述旨在通过示例而非限制的方式来说明所要求保护的主题。

附图说明

图1描绘了示例场景的内容。

图2描绘了示例深度图像。

图3A描绘了图2的示例深度图像的图像点。

图3B描绘了已经被旋转和平移的图2的示例深度图像的图像点。

图3C描绘了已经被旋转和平移的图2的示例深度图像的图像点。

图3D描绘了已经被旋转和平移的图2的示例深度图像的图像点。

图4是示出示例计算系统的一些组件的简化框图。

图5是方法的流程图。

图6是方法的流程图

图7是方法的流程图。

图8是方法的流程图。

具体实施方式

本文描述了方法和系统的示例。应当理解，本文使用的词语“示例性的”、“示例”和“说明性的”意味着“用作示例、实例或说明”。本文描述为“示例性的”、“示例”或“说明性的”的任何实施例或特征不一定被解释为比其他实施例或特征更优选或更有利。此外，本文描述的示例性实施例并不意味着是限制性的。容易理解的是，所公开的系统和方法的某些方面可以以各种各样不同的配置来布置和组合。

I.概述

对于基于点云、深度图像或关于可能包括感兴趣对象的环境的其他深度信息的对象检测和姿态估计(即，对象的位置和定向的估计)，有各种方法可用。对象的检测和/或姿态估计可以促进机器人、虚拟现实、增强现实、库存管理、教育或其他应用中的各种应用。

可以执行对象检测和/或姿态估计，以便控制机器人的操作。这可以包括提供命令来控制机器人在环境中导航，同时避开对象，进入对象的指定距离内，采取相对于对象的特定位置、定向和/或配置，或者另外以相对于对象的位置和/或定向的指定方式在环境中进行移动。控制机器人可以包括向机器人提供命令以收集对象、修理对象、重新定向对象、使用对象执行修理或其他动作、操纵对象或以其他方式与对象交互、或执行与对象相关的一些其他活动。

可以执行对象检测和/或姿态估计，以便确定关于环境中的对象的数量、类型或其他信息。例如，可以确定在板条箱中、在装配线输出料斗中或在传送带上、在顾客服务台的柜台上或在一些其他环境中的对象的存在和/或姿态，以便确定存在多少对象、存在多少不同类型的对象、或关于环境中的对象的数量和身份的其他信息。

可以执行对象检测和/或姿态估计，以便为虚拟现实和/或增强现实环境提供信息。这可以包括生成检测到的对象的图像以及基于检测到的对象的姿态的覆盖。例如，这种覆盖可以包括对象的轮廓，对象的模型的线框，对象的身份、位置和/或定向和/或对象的特征的图形指示，对象的身份、位置和/或定向的文本指示，或者与检测到的环境中的对象的存在和/或姿态相关的一些其他覆盖信息。这种图形覆盖和/或图像可以经由显示器来提供，该显示器允许用户通过该显示器看到环境。例如，显示器可以安装在头戴式设备上，使得佩戴者可以通过显示器看到对象，并且还可以经由显示器观看到覆盖，该覆盖在佩戴者看来出现在对象上面或在佩戴者视野中相对于对象的某一其他位置。

在一些示例中，对象的估计姿态可以用于向用户提供以指定方式操纵对象的命令。这可以包括提供操纵对象的命令，使得对象的定向和/或位置匹配指定的定向。可以提供这样的命令，以便指导用户如何修理装置(例如，通过将对象添加到装置和/或从装置中移除对象、通过校正对象在装置内的位置和/或定向)、配置装置(例如，通过调整对象在装置内的定向和/或相对于装置的定向)，或者指导用户采取相对于一个或多个识别出的对象的一些其他动作。例如，对象可以是车辆的替换组件(例如，滤油器)，并且命令可以是改变替换组件的位置和定向以将替换组件安装在车辆中的命令(例如，将滤油器与车辆发动机上的对应端口对准)。

图1示出了包含目标对象110(咖啡杯)和能够为环境100生成深度信息的设备120的示例环境100。这种设备可以是相机、智能电话、增强现实系统的元件(例如，包括深度传感器的头戴式显示器)、机器人、无人机或能够为设备的环境生成深度信息的一些其他系统。环境100还包括桌子150、时钟130和一盆花140。

设备120可以包括被配置为提供环境100的深度信息的各种组件。这种组件可以包括被配置为提供立体图像信息的多个相机(例如，红外相机、可见光相机)。这种立体图像信息然后可以用于通过经由一些其他过程确定立体图像信息内的多个不同图像的特征之间的对应关系来为环境100生成深度信息。深度敏感组件可以包括飞行时间相机，该飞行时间相机被配置为针对飞行时间相机的每个像素确定照明从设备120的发射器传播到环境100的各个部分并返回到设备120所花费的时间量。深度敏感组件可以包括超声波测距仪或被配置为提供深度信息的其他声学组件。

深度敏感组件可以包括一个或多个光发射器，光发射器被配置为以指定的方式照射环境100，以便促进为环境100生成深度信息。这种组件可以包括栅格、线条或其他可见或不可见(例如，红外)的照明结构图案的一个或多个发射器。然后，相机可以对被照射的环境成像，并且图像被用于为环境100生成深度信息，例如，通过使用三角测量方法、通过确定照明图案的明显变形、和/或通过使用一些其他方法。附加地或替代地，从设备120发射的照明的方向可以随着时间的推移扫描环境100，以便生成深度信息。例如，设备120可以包括被配置为发射照明点的一个或多个激光器，并且设备120的检流计或其他组件可以进行操作以随着时间的推移用照明点扫描环境100。从环境100反射的照明然后可以被检测到并被用于为环境100生成深度信息。这可以包括将三角测量方法应用于环境100的所拍摄的图像，操作激光测距仪以基于检测到的照明照射环境100并被反射回设备120所花费的时间来确定深度信息，或者使用一些其他方法。

由设备120生成的深度信息可以包括或被用于生成环境100的深度图像。这种深度图像包括三维空间内跨越环境100的多个图像点。三维空间可以相对于设备120来定义。多个点可以遍布三维空间规则地间隔开。例如，多个点可以在水平角度和垂直角度的范围内针对相对于设备120的角度规则地间隔开。多个点可以对应于用于生成多个点的深度传感器的相应元件，例如，可以基于飞行时间相机的相应像素的输出来确定多个点中的每个点。附加地或替代地，多个点可以从为环境100生成的一些其他深度信息中推导出。例如，可以通过用激光测距仪扫描环境来为环境生成点云。深度图像的图像点可以从点云的点中确定，例如，通过将点云的点内插到相对于设备120的一组规则间隔的角度上来确定。

图200示出了为图1的环境100生成的这种深度图像200的示例。如图2所示，较暗的阴影对应于深度图像中更靠近设备120的部分。相应地，深度图像200的与桌子150的顶部和腿部相对应的、最靠近设备120的部分(例如，图像点)最暗，而与时钟130相对应的、较远离设备120的部分较亮。所示部分210对应于图1中的对象110。

基于环境的深度图像或其他深度信息来检测对象(例如，对象110)的存在、位置和/或定向可能是困难的并且可能在计算上是昂贵的。一些方法(例如，模板匹配)可能在计算上是昂贵的，并且当对象被其他对象遮挡、远离深度图像的中心区域而定位、具有与默认定向实质不同的定向或者在其他情况下，可能性能更差。

本文提供了各种实施例来解决这些缺点并减少与检测深度图像内的对象和/或估计这些对象的姿态相关联的计算成本和等待时间。例如，在深度图像中存在噪声的情况下，这些实施例以在确定的速度、确定的计算成本、确定的准确性方面相对于先前存在的方法可以得到改进的方式来生成这种确定。

本文描述的实施例可以包括平移和/或旋转深度图像或其一部分(例如，深度图像200的与对象110相对应的一部分210)以将深度图像内的选定图像点带到指定的中性位置和/或定向。这可以减少远离空间中的优选位置(例如，相对于深度图像所描述的空间范围)而定位的对象的潜在负面影响。这也可以促进将决策树或其他姿态估计算法应用于深度图像的经平移和/或旋转的点。

本文描述的实施例可以包括在确定对象是否存在之前执行对象的姿态估计(即，位置和定向的确定)。例如，姿态估计算法(例如，回归树的随机森林)可以被应用于深度图像的图块(例如，已经被旋转和/或平移以相对于指定的位置/定向居中)并被用于为对象生成估计姿态。然后可以评估这个估计姿态，以确定对象是否存在。在这个姿态估计和评估过程快速和/或计算成本低廉的实施例中(例如，在该过程涉及应用回归树的随机森林的情况下)，多次应用估计和评估过程直到发现满意的姿态可能比执行初始对象检测过程(例如，使用模板匹配)然后执行姿态估计更可取。

本文描述的实施例还提供了用于评估估计姿态和/或基于估计姿态确定对象由深度图像表示的改进的方法。尽管深度图像中存在噪声(例如，由于使用了低成本的、小的、低功耗的或其他有噪声深度传感器)，这些方法仍提高了对象检测和姿态估计的性能。这些评估方法包括应用具有相对低的“通过”阈值的多个评估测试。例如，特定的评估测试可以将深度图像的点与根据估计姿态而定位的对象的模型的对应点之间的距离与阈值距离进行比较。如果超过50％的深度图像点到模型上对应点的距离小于阈值距离，则这种评估测试对于该估计姿态可以返回“通过”。可以应用多个不同的评估测试，并且只有当所有不同的评估测试对于该估计姿态都返回“通过”时，该估计姿态才验证有效。使用各自具有相对低的“通过”阈值的多个评估测试甚至允许有噪声的深度数据通过一个或多个单独的评估测试。然而，多个不同的评估测试都返回“通过”的要求使得这种整体评估方法能够拒绝假阳性。

注意，本文公开的针对图块旋转/平移、使用随机森林的姿态估计、用于估计姿态评估的方法、以及通过对深度图像中的多个点进行重复的姿态估计和评估来进行对象检测和姿态估计的实施例可以进行组合，或者单独地与用于姿态估计或对象检测和姿态估计的其他方面的替代算法一起使用。例如，深度图像的点的图块可以被平移和旋转，并且被应用于模板匹配算法，以为环境中的对象生成估计姿态。这种过程可以在确定对象存在于环境中之后执行。替代地，可以多次执行这种旋转和平移、以及随后的模板匹配，并且可以评估每个估计姿态，以便确定对象是否存在于环境中，并且进一步选择和/或确定对象的姿态。本文描述的实施例的其他组合是可能的。

II.通过平移和旋转深度图像的点进行姿态估计的示例

如上所述，在对象不在“默认”位置/定向附近(例如，深度图像的中心附近)定位和/或定向的情况下，当被提供有深度信息时，某些姿态估计和/或对象检测方法(例如，模板匹配)可能表现出困难。本文公开的实施例通过选择深度图像内的图像点并平移和旋转深度图像以使得选定图像点居中来提供解决方案。这可以包括平移和/或旋转深度图像的一些或所有图像点以使得选定图像点位于三维空间内的指定位置，和/或使得选定图像点的定向(例如，相对于深度图像的附近图像点)对应于指定定向。然后，经平移和旋转的图像点可以被应用于模板匹配算法、一个或多个回归树(例如，回归树的随机森林)、或一些其他姿态估计和/或对象检测算法。

该方法作为姿态估计算法的预处理步骤可能是有利的，所述姿态估计算法被配置为接受具有某些指定特性(例如，在零点处或在零点附近的平均位置)的深度信息和/或已经在位于三维空间中的中心位置处的训练示例上被训练。

对于特定的选定图像点，深度图像的所有图像点都可以被平移和旋转，并且被应用于姿态估计算法。替代地，图像点的子集(例如，距离选定图像点在指定最大距离内的图像点集)可以被平移和旋转，并且被应用于姿态估计算法。

图3A示出了图2的深度图像200的图像点的示例图块310a(在图3A中示为黑点)。图块310a包括与环境中的对象110相对应的图像点。为了便于观察图块310a的图像点的三维位置与对象110的形状之间的关系，在图3A中提供了对象110的轮廓和连接图块的图像点的线条的网格。

可以通过识别深度图像中具有距离选定图像点(例如，图3A中所示的选定图像点315a、317a、319a之一)在指定距离内的三维位置的那些图像点，通过识别深度图像中具有选定图像点的指定索引范围内的索引的图像点(例如，在深度图像内、距离选定图像点在指定水平距离和/或垂直距离内)，通过识别距离选定图像点在指定图形距离内的图像点(在图像点经由网格、网状物或其他图形彼此连接的实施例中)，或者通过经由一些其他方法识别图像点集，来从深度图像200的图像点中识别这种图块310a。

图3B、图3C和图3D示出了图像点的图块310a的示例平移和旋转，使得选定图像点315a、317a、319a分别居中。图3B示出了包括第一居中图像点315b的图像点的第一平移和旋转图块310b，该第一居中图像点315b在深度图像的三维空间内居中并且对应于第一选定图像点315a。图3C示出了包括第二居中图像点317c的图像点的第二平移和旋转图块310c，该第二居中图像点317c在深度图像的三维空间内居中并且对应于第二选定图像点317a。图3D示出了包括第三居中图像点319d的图像点的第三平移和旋转图块310d，该第三居中图像点319d在深度图像的三维空间内居中并且对应于第三选定图像点319a。

平移和旋转深度图像的一些图像点(例如，图块)或所有图像点以使得选定图像点居中可以包括应用深度图像的图像点的平移和旋转来将选定图像点移动到三维空间中的指定位置(例如，零点)。替代地，平移和旋转可以被应用于深度图像的图像点，使得图像点的图块(例如，接近选定图像点的图块)的平均位置对应于三维空间中的指定位置(例如，零点)。

平移和旋转深度图像的一些图像点(例如，图块)或所有图像点以使得选定图像点居中可以包括应用深度图像的图像点的平移和旋转以使得选定图像点在三维空间中具有指定的定向。这可以包括从选定图像点和两个或更多个附加图像点确定法向矢量，以及旋转深度图像的图像点以使得该法向矢量在三维空间中具有指定的定向(例如，零矢量、与三维空间的轴之一平行的矢量)。这两个或更多个附加图像点可以是最靠近选定图像点的图像点集、以某种方式与选定图像点相邻的图像点集(例如，在深度图像中在垂直和水平方向上与选定图像点紧邻的图像点，经由网格、网状物或图像点之间的其他连接图形而连接到选定图像点的图像点)。替代地，法向矢量可以是深度图像的图像点的图块的平均法线。

然后，经平移和旋转的图像点集(例如，深度图像的所有图像点、深度图像的图像点的图块或其他子集)可以被应用于模板匹配算法、人工神经网络、一个或多个决策树或回归树(例如，回归树的随机森林)、或某一其他姿态估计算法。应用于该图像点集的平移和旋转的逆然后可以被应用于由这种过程生成的姿态估计，以便生成由深度图像表示的环境内的对象的姿态估计。

III.通过应用决策树进行姿态估计的示例

一个或多个决策树和/或回归树可以被有利地应用于基于表示对象的深度图像的一部分来为该对象估计姿态。当深度图像的一部分已经被平移和旋转以使深度图像的该部分在三维空间中居中时，情况尤其如此。决策树和/或回归树(例如，随机森林)的集合还具有执行起来计算成本非常低廉的好处，允许降低计算预算、降低功率预算、提高用于对象检测和/或姿态估计的有效“帧速率”的好处，或者其他好处。这种计算效率和/或速度可以实现对对象检测和/或姿态估计的新的应用。例如，随机森林可以被应用来对深度图像的不同部分执行重复的姿态估计，随后执行估计姿态的评估以确定深度图像的任何部分是否表示感兴趣对象。这种方法不同于传统的对象检测，传统的对象检测从对象检测开始、随后是姿态估计。

决策树接收多个输入特征，并且基于输入特征输出从列举的一组可能类中选择的分类。例如，每个输出类可以是对象的六维姿态估计，或者与对象的姿态相关的一些其他信息。回归树接收多个输入特征，并且基于输入特征输出连续值输出。回归树的每个输出可以是矢量值或另外是多维的，例如，对象的六维姿态估计，或与对象的姿态相关的一些其他信息。输入特征可以是连续值数字、分类值或其他类型的输入。决策树或回归树通过遍历决策的分支树来生成输出，每个决策将输入值与阈值进行比较(例如，第一特定输入图像点距离原点位置是否小于第一阈值距离)。特定决策的结果可能导致另一决策(例如，第二特定输入图像点沿着指定轴距离垂直于指定轴的原点平面是否小于第二阈值距离)，或者导致输出(例如，特定的估计姿态，或者估计的位置、定向，或者估计姿态的其他分量)。

(多个)回归和/或决策树的输入特征可以是深度图像的各个图像点(例如，已经如上所述被平移和/或旋转以使深度图像的特定图像点居中的图像点)的方面。例如，输入特征可以是输入点在三维空间中的单独坐标、图像点沿着指定轴和/或投影到指定平面上的位置、图像点与三维空间中的指定位置之间(例如，距离原点)的距离、或者从一个或多个图像点中确定的一些其他方面。附加地或替代地，输入特征可以是从深度图像的图像点推导出的图像点的方面，例如，从深度图像的图像点生成的内插图像点。

在随机森林中组织的多个回归树可以用于从输入图像点估计姿态。每个回归树可以为对象输出完整的六维估计姿态，或者可以为对象输出维度子集的估计姿态(例如，三维定向、三维平移)。这种随机森林的输出可以基于随机森林的回归树的已确定输出的均值或某一其他平均值来确定。在特定回归树的所有输入特征都不可用的情况下(例如，由于输入图像点表示深度图像内的边或遮挡)，可以省略该特定回归树的输出。

随机森林的每个回归树可以在训练数据集的相应不同子集(例如，从对应的模拟对象姿态确定的相应输入特征集)上被训练。为了进一步增加由随机森林预测的姿态的鲁棒性，随机森林的回归树可以相对于它们的输入特征(例如，相对于作为输入提供给不同回归树的图像点集)而变化。随机森林的这种配置可以允许在回归树的子集中选择较不确定的特征，使得在这些较不确定的特征包含关于对象姿态的有用信息的情况下，这些较不确定的特征可以有助于更准确的姿态估计。

用于决策树和/或回归树的训练数据可以来自各种来源。在一些示例中，当感兴趣对象根据各种不同的位置和定向被定向时，该对象的模型可以用于模拟深度图像的图像点。这些模拟的图像点连同对应的地面真实姿态信息(位置和定向)可以形成用于决策树、回归树和/或随机森林的训练数据。

IV.示例姿态评估

为了确定以深度图像表示的对象的姿态，可以应用对象检测算法(例如，模板匹配)来确定对象存在，随后进行姿态估计。然而，传统的姿态对象检测算法在计算上可能是昂贵的。如果高效、快速的姿态估计和估计姿态评估算法可用，则基于深度图像的不同部分多次执行姿态估计和评估可能是优选的，以便高效地确定深度图像中对象的存在和姿态。例如，对象的姿态可以基于一个或多个估计姿态来确定，所述一个或多个估计姿态经由评估过程导致了深度图像与对象的适当姿态模型之间的超阈值相似性。如上所述，这种快速、高效的姿态估计算法包括将随机森林应用于深度图像的经旋转和平移的部分。

可以用各种方式对照深度图像来评估对象的特定估计姿态。这种评估可以包括确定深度图像的一部分(例如，接近深度图像内对象的估计位置的深度图的图像点的位置和形状)与根据深度图像的三维空间内的估计姿态定位和定向的对象的模型之间的至少一个相似性度量。这种相似性度量可以是二元值(“相似”与“不相似”)或连续值。

一个或多个这种相似性度量可以用于确定对象的经平移和旋转的模型和深度图像是否比阈值相似性程度更相似。深度图像中的对象的姿态和/或对该对象在深度图像中被表示的确定然后可以基于其对应的相似性度量大于阈值相似性程度的一个或多个估计姿态来确定。这可以包括基于深度图像生成估计姿态和对应的相似性度量，直到估计姿态之一导致大于阈值相似性程度的相似性。在另一示例中，可以生成基于深度图像的估计姿态和对应的相似性度量，直到生成阈值数量的这种足够相似的估计姿态，并且深度图像中的对象的姿态可以被确定为足够相似的估计姿态的均值或其他平均值。在又一示例中，可以生成基于深度图像的设定量(例如，数量、密度)的估计姿态和对应的相似性度量，并且深度图像中的对象的姿态可以被确定为足够相似的估计姿态的均值或其他平均值。

深度图像的图像点与已经根据估计姿态被平移和旋转的对象的模型之间的相似性度量可以用各种方式来确定。相似性度量可以基于深度图上的图像点与对象的模型上的点之间的接近度、深度图像的图像点对模型的点的遮挡、模型的表面法线与深度图像的表面法线之间的角度、模型的边与深度图像的边之间的接近度、或对象的经平移和旋转的模型与深度图像的图像点的一些其他属性或方面之间的比较来确定。

相似性度量可以通过确定深度图像的图像点与对象的经平移和旋转的模型上的关联点之间的距离来确定。图像点与模型上的点之间的关联可以通过例如相对于用于生成深度图像的深度传感器的位置反向投影深度图像的图像点来确定。相似性度量可以基于小于阈值距离的距离的比例来确定。在另一示例中，相似性度量可以基于小于阈值距离且对应于不遮挡它们的相应模型点(即，不是设置在它们的相应模型点与在深度图像的三维空间中对应于生成了以深度图像表示的深度信息的深度传感器的位置的位置之间)的深度图像点的距离的比例。

相似性度量可以通过确定深度图像的表面上的法向矢量与对象的经平移和旋转的模型上的对应法向矢量之间的角度来确定。可以通过选择深度图像上的图像点的三元组(例如，彼此接近的图像点，沿着网状物、图形、像素索引方案或深度图像内的其他连接而彼此相邻的图像点)并确定穿过图像点的三元组的平面的法向矢量来为深度图像确定法向矢量。通过将图像点的选定三元组投影到模型上并确定穿过模型上的投影点的三元组的平面的法向矢量，可以为经旋转和平移的模型确定对应的法向矢量。相似性度量可以基于彼此相差小于阈值角度的成对法向矢量的比例来确定。在另一示例中，相似性度量可以基于彼此相差小于阈值角度并且对应于不遮挡它们的相应模型点(即，不是设置在它们的相应模型点与在深度图像的三维空间中对应于生成了以深度图像表示的深度信息的深度传感器的位置的位置之间)的深度图像点的成对法向矢量的比例。

相似性度量可以通过确定深度图像的边(例如，连接深度图像的成对图像点的边)与对象的经平移和旋转的模型上的相关联的点和/或边之间的距离来确定。深度图像的边与模型上的点/边之间的关联可以通过将深度图像的每个边的图像点(例如，相对于用于生成深度图像的深度传感器的位置)反投影到该模型上来确定。相似性度量可以基于距离模型上的一个或两个对应投影点小于阈值距离的边的比例来确定。在另一示例中，相似性度量可以基于距离模型上的一个或两个对应投影点的距离小于阈值距离并且对应于不遮挡它们的相应模型点(即，不是设置在它们的相应模型点与在深度图像的三维空间中对应于生成了以深度图像表示的深度信息的深度传感器的位置的位置之间)的深度图像点的边的比例。

深度图像可能包含噪声。在这种场景中，很难用能够检测出正确地近似对象的真实姿态的姿态估计同时拒绝不正确的姿态估计的这样一种方式来应用上述相似性度量。为了补偿噪声，可以为特定的姿态估计生成多个不同的相似性度量。这些单独的相似性度量可以与相对宽松的相似性阈值进行比较，以便降低拒绝足够正确的姿态估计的可能性。为了降低接受不正确姿态估计的可能性，可能需要姿态估计导致多个超阈值相似性度量。例如，可以仅在特定姿态估计导致大于相应阈值的至少三个相似性度量的情况下才保留该特定姿态估计(例如，用作对象的预测姿态估计，或者被平均或以其他方式与几个其他保留的姿态估计进行组合)。这可以包括仅确定三个相似性度量，在这种情况下，所有三个度量都需要超过它们的相应阈值。替代地，可以确定三个以上的相似性度量。可以确定更多或更少的相似性度量，并且可以要求多于或少于三个所确定的相似性度量超阈值，以便在确定对象的姿态时保留姿态估计。

在一个示例中，可以在对象的经平移和旋转模型与深度图像之间确定三个相似性度量。生成第一相似性度量包括确定在经平移和旋转的模型上的距离深度图像的相应图像点在点阈值距离内的点的比例。确定第一相似性度量可以另外包括从所确定的比例中拒绝那些遮挡它们在经平移和旋转的模型上的相应点(例如，针对生成以深度图像表示的深度信息的深度传感器的视角遮挡它们在模型上的相应点)的图像点。然后，可以将第一相似性度量与图像点的阈值比例进行比较，例如，如果超过50％的深度图像点距离在经平移和旋转的模型上的它们的相应点在阈值距离内，则估计姿态针对第一相似性度量可以通过。在另一实施例中，如果超过50％的深度图像点距离在经平移和旋转的模型上的它们的相应点在阈值距离内并且没有遮挡它们的相应点，则估计姿态针对第一相似性度量可以通过。

生成第二相似性度量包括：从经平移和旋转的模型上的点集(例如，模型上随机采样的点集、模型上彼此接近的点)生成多个法向矢量，从深度图像的图像点集(例如，随机采样的图像点集、彼此接近的图像点)生成多个法向矢量，生成从经平移和旋转的模型上的点集生成的法向矢量与从深度图像的图像点集生成的对应法向矢量之间的多个角度，以及确定小于阈值角度的角度的比例。确定第二相似性度量可以另外包括从所确定的比例中拒绝那些对应于遮挡它们在经平移和旋转的模型上的相应点的图像点的角度。然后，可以将第二相似性度量与角度的阈值比例进行比较，例如，如果超过50％的所确定的角度小于阈值角度(例如，小于0.1弧度)，则估计姿态针对第二相似性度量可以通过。

生成第三相似性度量包括确定距离经平移和旋转的模型的相应边和/或反投影点在边阈值距离内的深度图像的边(例如，深度图像的相邻图像点或以其他方式连接的图像点之间的边)的比例。确定第三相似性度量可以另外包括从所确定的比例中拒绝深度图像中遮挡经平移和旋转的模型上的(多个)对应点(例如，针对生成以深度图像表示的深度信息的深度传感器的视角遮挡模型上对应于所述边的端点的点)的那些边。然后，可以将第三相似性度量与边的阈值比例进行比较，例如，如果超过50％的边距离在经平移和旋转的模型上的它们相应的一个或两个点在边阈值距离内，则估计姿态针对第三相似性度量可以通过。在另一实施例中，如果超过50％的边点距离在经平移和旋转的模型上的它们相应的一个或两个点在阈值距离内并且没有遮挡在所述经平移和旋转的模型上的它们相应的一个或两个点，则估计姿态针对第三相似性度量可以通过。

V.示例系统

本文描述的计算功能(例如，估计对象的姿态、评估估计姿态、平移和旋转深度图像的点、应用决策树、随机森林或其他姿态估计算法的功能)可以由一个或多个计算系统来执行。这种计算系统可以被集成到计算设备中或者采取计算设备的形式，诸如移动电话、平板计算机、膝上型计算机、服务器、家庭自动化元件、单机视频捕获和处理设备、云计算网络、机器人、无人机、自动驾驶车辆、相机、可佩戴显示器和/或可编程逻辑控制器。出于示例的目的，图4是示出可以包括深度传感器组件424的示例计算设备400的一些组件的简化框图。深度传感器组件424可以包括一个或多个相机，诸如可见光相机、红外相机、光场相机、全光相机、飞行时间相机或其他类型的相机、光发射器(例如，一个或多个激光器、检流计或用于控制激光方向的其他组件)、声音发射器或被配置为提供足以获得环境的深度图像的信息的其他组件。

计算设备400可以是可佩戴设备，或者可以包括一个或多个可佩戴组件。例如，计算设备400可以包括增强现实头戴式设备，该头戴式设备包括增强现实显示器、(多个)深度传感器(例如，被配置为提供立体图像信息的两个或更多个相机)或其他组件。

作为示例而非限制，计算设备400可以是蜂窝移动电话(例如，智能电话)、静态照相机、摄像机、婴儿监视器、家庭安全摄像头、机器人、无人机、自动驾驶车辆、计算机(诸如台式、笔记本、平板或手持计算机)、个人数字助理(PDA)、家庭自动化组件、数字录像机(DVR)、数字电视、可佩戴计算设备、可佩戴显示器、增强现实或虚拟现实头戴式设备，或者可以配备有一些信息处理能力的一些其他类型的设备。应当理解，计算设备400可以表示物理传感器设备，诸如LIDAR模块、对象姿态估计应用在其上以软件形式进行操作的特定物理硬件平台、或者被配置为执行姿态估计和/或对象检测功能的硬件和软件的其他组合。

如图4所示，计算设备400可以包括通信接口402、用户接口404、处理器406、数据存储装置408和深度传感器组件424，所有这些可以通过系统总线、网络或其他连接机制410通信地链接在一起。

通信接口402可以用于允许计算设备400使用电、磁、电磁、光或其他信号的模拟或数字调制与其他设备、接入网络和/或传输网络进行通信。因此，通信接口402可以促进电路交换通信和/或分组交换通信，诸如普通老式电话服务(POTS)通信和/或互联网协议(IP)或其他分组化通信。例如，通信接口402可以包括芯片组和天线，被布置用于与无线电接入网络或接入点进行无线通信。此外，通信接口402可以采取有线接口的形式或包括有线接口，诸如以太网、通用串行总线(USB)或高清多媒体接口(HDMI)端口。通信接口402也可以采取无线接口的形式或包括无线接口，诸如Wifi、

全球定位系统(GPS)或广域无线接口(例如，WiMAX或3GPP长期演进(LTE))。然而，可以在通信接口402上使用其他形式的物理层接口和其他类型的标准或专有通信协议。此外，通信接口402可以包括多个物理通信接口(例如，Wifi接口、

接口和广域无线接口)。

在一些实施例中，通信接口42可以用于允许计算设备400与其他设备、远程服务器、接入网络和/或传输网络进行通信。例如，通信接口402可以用于发送从深度图像或关于环境的其他深度信息中确定的关于环境中存在的对象的存在、位置、定向或其他信息的指示，和/或接收一个或多个深度图像的指示。

用户接口404可以用于允许计算设备400与用户交互，例如，以从用户接收输入和/或向用户提供输出。因此，用户接口404可以包括输入组件，诸如小键盘、键盘、触敏或压敏面板、计算机鼠标、轨迹球、操纵杆、麦克风、仪表手套、力反馈设备等。用户接口404还可以包括一个或多个输出组件，诸如触觉输出、力反馈输出或显示屏，该显示屏例如可以是允许用户也通过显示屏查看用户环境的增强现实屏幕。显示屏可以基于CRT、LCD和/或LED技术，或者现在已知或以后开发的其他技术。用户接口404还可以被配置为经由扬声器、扬声器插孔、音频输出端口、音频输出设备、耳机和/或其他类似设备来生成(多个)听觉输出。

处理器406可以包括一个或多个通用处理器(例如，微处理器)和/或一个或多个专用处理器(例如，数字信号处理器(DSP)、图形处理单元(GPU)、浮点单元(FPU)、网络处理器或专用集成电路(ASIC))。在一些情况下，除了其他应用或功能之外，专用处理器可能能够进行图像处理、决策树计算、三维空间中的位置信息的旋转和/或平移、模板匹配和点投影。数据存储装置408可以包括一个或多个易失性和/或非易失性存储组件，诸如磁、光、闪速或有机的存储装置，并且可以整体或部分地与处理器406集成。数据存储装置408可以包括可移除和/或不可移除的组件。

处理器406可能够执行存储在数据存储装置408中的程序指令418(例如，编译或非编译的程序逻辑和/或机器代码)，以执行本文描述的各种功能。因此，数据存储装置408可以包括其上存储有程序指令的非暂时性计算机可读介质，该程序指令在由计算设备400执行时使得计算设备400执行本说明书和/或附图中公开的任何方法、过程或功能。

作为示例，程序指令418可以包括安装在计算设备400上的操作系统422(例如，操作系统内核、(多个)设备驱动程序和/或其他模块)和一个或多个应用程序420(例如，深度传感器功能、姿态估计功能、姿态评估功能)。

应用程序420可以采取可通过一个或多个在线应用商店或应用市场(经由例如通信接口402)下载到计算设备400的“小应用”的形式。然而，应用程序也可以以其他方式安装在计算设备400上，诸如经由网络浏览器或通过计算设备400的物理接口(例如，USB端口)。

深度传感器组件424可以包括但不限于一个或多个相机(例如，被布置为例如提供立体图像信息的视觉、红外或紫外相机)、飞行时间传感器(例如，视觉或听觉测距仪、光学飞行时间相机)、光发射器(例如，一个或多个激光器)和/或用于控制发射光的方向(例如，一个或多个检流计)和/或发射光的图案(例如，提供线条、网格或一些其他图案化照明)的部件，或者用于生成环境的深度信息的其他组件。深度传感器组件424可以至少部分地由处理器406执行的软件(例如，由应用程序420)来控制。此外，深度传感器组件424可以包括多个深度传感器系统，例如，立体相机、扫描激光测距仪和/或飞行时间相机。深度传感器组件424可以生成点云、二维像素阵列形式的深度图像信息(每个像素表示到环境中的相应距离/深度)、或者可以被处理以为环境提供深度图像的某一其他深度相关信息。

VI.示例方法

图5是用于基于深度图像来估计对象的姿态的方法500的流程图。方法500包括获得场景的深度图像(510)。深度图像包括三维空间内的多个图像点。方法500另外包括基于多个图像点中的多个选定点生成在三维空间内的对象的多个估计姿态(520)。这包括，对于每个选定点：(i)旋转和平移多个图像点以使得选定点在三维空间内居中；以及(ii)将随机森林应用于经旋转和平移的多个图像点以生成对象的估计姿态。

方法500另外包括执行对对象的多个估计姿态的评估(530)。评估包括，对于每个估计姿态：(i)根据估计姿态平移和旋转对象的模型；以及(ii)将对象的经平移和旋转的模型与深度图像的图像点进行比较，以为估计姿态确定至少一个相似性度量。方法500另外包括基于对象的估计姿态中的至少一个和为至少一个估计姿态确定的至少一个相似性度量来为三维空间内的对象确定姿态(540)。方法500可以包括附加的元素或特征。

图6是用于基于深度图像来估计对象的姿态的方法600的流程图。方法600包括获得场景的深度图像(610)。深度图像包括三维空间内的多个图像点。方法600还包括基于多个图像点中的多个选定点生成在三维空间内的对象的多个估计姿态，其中，生成对象的多个估计姿态包括，对于每个选定点：(i)旋转和平移多个图像点以使得选定点在三维空间内居中；以及(ii)基于经旋转和平移的多个图像点生成对象的估计姿态(620)。

方法600另外包括执行对对象的多个估计姿态的评估，其中，评估包括，对于每个估计姿态：(i)根据估计姿态平移和旋转对象的模型；以及(ii)将对象的经平移和旋转的模型与深度图像的图像点进行比较，以为估计姿态确定至少一个相似性度量(630)。方法600另外包括基于对象的估计姿态中的至少一个和为至少一个估计姿态确定的至少一个相似性度量来为三维空间内的对象确定姿态。方法600可以包括附加的元素或特征。

图7是用于基于深度图像来估计对象的姿态的方法700的流程图。方法700包括获得场景的深度图像(710)。深度图像包括三维空间内的多个图像点。方法700另外包括基于多个图像点中的多个选定点生成在三维空间内的对象的多个估计姿态(720)。方法700还包括执行对对象的多个估计姿态的评估，其中，评估包括，对于每个估计姿态：(i)根据估计姿态平移和旋转对象的模型；以及(ii)将对象的经平移和旋转的模型与深度图像的图像点进行比较，以为估计姿态确定至少一个相似性度量(730)。方法700另外包括基于对象的估计姿态中的至少一个和为至少一个估计姿态确定的至少一个相似性度量来为三维空间内的对象确定姿态(740)。方法700可以包括附加的元素或特征。

图8是用于基于深度图像确定对象是否存在的方法800的流程图。方法800包括获得场景的深度图像(810)。深度图像包括三维空间内的多个图像点。方法800另外包括将随机森林应用于多个图像点，以生成三维空间中的对象的估计姿态(820)。方法800还包括确定对象存在于三维空间中，其中，确定包括：(i)根据估计姿态平移和旋转对象的模型；以及(ii)确定对象的经平移和旋转的模型与深度图像的图像点比阈值相似性程度更相似(830)。方法800可以包括附加的元素或特征。

VII.结论

以上详细描述参考附图描述了所公开的系统、设备和方法的各种特征和功能。在附图中，相似的符号通常标识相似的组件，除非上下文另有说明。在详细描述、附图和权利要求中描述的说明性实施例并不意味着是限制性的。在不脱离本文呈现的主题的范围的情况下，可以利用其他实施例，并且可以进行其他改变。将容易理解的是，如本文总体描述的和在附图中示出的，本公开的方面可以以各种各样不同的配置来布置、替换、组合、分离和设计，所有这些在本文中都是明确预期的。

关于附图中的任何或所有消息流程图、场景和流程图，并且如本文所讨论的，每个步骤、框和/或通信可以表示根据示例实施例的信息处理和/或信息传输。替代实施例被包括在这些示例实施例的范围内。在这些替代实施例中，例如，被描述为步骤、框、传输、通信、请求、响应和/或消息的功能可以不按所示或所讨论的次序来执行，包括基本上同时执行或按相反次序执行，这取决于所涉及的功能。此外，更多或更少的步骤、框和/或功能可以与本文讨论的任何消息流程图、场景和流程图一起使用，并且这些消息流程图、场景和流程图可以部分地或整体地彼此组合。

表示信息处理的步骤或框可以对应于可以被配置为执行本文描述的方法或技术的特定逻辑功能的电路。替代地或附加地，表示信息处理的步骤或框可以对应于模块、片段或程序代码的一部分(包括相关数据)。程序代码可以包括可由处理器执行的用于实施方法或技术中的特定逻辑功能或动作的一个或多个指令。程序代码和/或相关数据可以被存储在任何类型的计算机可读介质上，诸如存储设备，包括磁盘驱动器、硬盘驱动器或其他存储介质。

计算机可读介质还可以包括非暂时性计算机可读介质，诸如短期存储数据的计算机可读介质，如寄存器存储器、处理器高速缓存和/或随机存取存储器(RAM)。计算机可读介质还可以包括更长期存储程序代码和/或数据的非暂时性计算机可读介质，诸如辅助性或永久性长期存储装置，例如，如只读存储器(ROM)、光盘或磁盘和/或压缩盘只读存储器(CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储系统。例如，计算机可读介质可以被认为是计算机可读存储介质，或者有形存储设备。

此外，表示一个或多个信息传输的步骤或框可以对应于同一物理设备中的软件和/或硬件模块之间的信息传输。然而，其他信息传输可以在不同物理设备中的软件模块和/或硬件模块之间进行。

虽然本文已经公开了各种方面和实施例，但是其他方面和实施例对于本领域技术人员来说将是显而易见的。本文公开的各种方面和实施例是为了说明的目的，而不是为了限制，真正的范围由所附权利要求指示。

Claims

1.一种方法，包括：

获得场景的深度图像，其中，所述深度图像包括三维空间内的多个图像点；

生成所述三维空间中的对象的估计姿态；

根据所述估计姿态平移和旋转所述对象的模型；以及

将所述对象的经平移和旋转的模型与所述深度图像的图像点进行比较，以为所述估计姿态确定至少一个相似性度量；以及

基于所述估计姿态的至少一个相似性度量来为所述三维空间中的所述对象确定估计姿态。

2.根据权利要求1所述的方法，其中，生成所述三维空间中的对象的估计姿态包括将随机森林应用于所述多个图像点。

3.根据权利要求1或2所述的方法，其中，所述随机森林包括多个回归树。

4.根据权利要求3所述的方法，其中，所述多个回归树中的至少一个回归树生成所述对象的六维估计姿态作为输出。

5.根据权利要求3所述的方法，其中，所述多个回归树中的第一回归树的第一输入特征集不同于所述多个回归树中的第二回归树的第二输入特征集。

6.根据任一前述权利要求所述的方法，其中，为所述三维空间中的所述对象确定估计姿态包括确定所述对象存在于所述三维空间中。

7.根据任一前述权利要求所述的方法，其中，基于所述估计姿态的至少一个相似性度量来确定所述估计姿态对应于所述三维空间中的所述对象包括：确定所述对象的经平移和旋转的模型与所述深度图像的图像点比阈值相似性程度更相似。

8.根据任一前述权利要求所述的方法，其中，旋转和平移所述多个图像点以使得选定点居中包括：将第一旋转和平移应用于所述多个图像点，并且其中，将所述随机森林应用于经旋转和平移的多个图像点以生成所述对象的估计姿态包括：

将所述随机森林应用于所述经旋转和平移的多个图像点以生成第一姿态估计；以及

将所述第一旋转和平移的逆应用于所述第一姿态估计。

9.根据任一前述权利要求所述的方法，其中，生成所述三维空间中的对象的估计姿态包括：基于所述多个图像点中的多个选定点生成所述三维空间内的所述对象的多个估计姿态；

其中，基于所述估计姿态的至少一个相似性度量来为所述三维空间中的所述对象确定估计姿态包括：

执行对所述对象的多个估计姿态的评估，其中，所述评估包括，对于每个估计姿态：

根据所述估计姿态平移和旋转所述对象的模型；以及

基于所述对象的估计姿态中的至少一个估计姿态和为所述至少一个估计姿态确定的至少一个相似性度量来为所述三维空间内的所述对象确定姿态。

10.根据权利要求9所述的方法，其中，生成所述对象的多个估计姿态包括，对于每个选定点：

旋转和平移所述多个图像点，使得所述选定点在所述三维空间内居中；以及

基于经旋转和平移的多个图像点生成所述对象的估计姿态。

11.根据权利要求10所述的方法，其中，基于经旋转和平移的多个图像点生成所述对象的估计姿态包括将随机森林应用于所述经旋转和平移的多个图像点。

12.一种方法，包括：

基于所述多个图像点中的多个选定点，生成所述三维空间内的对象的多个估计姿态，其中，生成所述对象的多个估计姿态包括，对于每个选定点：

旋转和平移所述多个图像点以使得所述选定点在所述三维空间内居中；以及

将随机森林应用于经旋转和平移的多个图像点以生成所述对象的估计姿态；

根据所述估计姿态平移和旋转所述对象的模型；以及

13.根据权利要求12所述的方法，还包括：

通过以下各项中的至少一个来应用为所述对象确定的姿态：(i)生成所述对象的图像，其中，所述对象的图像包括基于为所述对象确定的姿态的覆盖，(ii)基于为所述对象确定的姿态向机器人提供命令以与所述对象交互，或者(iii)向用户提供命令以操纵所述对象，使得所述对象呈现指定姿态。

14.根据权利要求12或13所述的方法，其中，所述随机森林包括多个回归树。

15.根据权利要求14所述的方法，其中，所述多个回归树中的至少一个回归树生成所述对象的六维估计姿态作为输出。

16.根据权利要求14所述的方法，其中，所述多个回归树中的第一回归树的第一输入特征集不同于所述多个回归树中的第二回归树的第二输入特征集。

17.根据权利要求12-16中任一项所述的方法，其中，旋转和平移所述多个图像点以使得所述选定点居中包括将第一旋转和平移应用于所述多个图像点，并且其中，将所述随机森林应用于经旋转和平移的多个图像点以生成所述对象的估计姿态包括：

将所述随机森林应用于所述经旋转和平移的多个图像点，以生成第一姿态估计；以及

将所述第一旋转和平移的逆应用于所述第一姿态估计。

18.根据权利要求12-17中任一项所述的方法，其中，将所述对象的经平移和旋转的模型与所述深度图像进行比较以为所述估计姿态确定至少一个相似性度量包括：

生成所述对象的经平移和旋转的模型与所述深度图像之间的三个相似性度量；

将所述三个相似性度量与相应阈值进行比较；以及

通过确定所有三个相似性度量是否超过它们的相应阈值来确定所述对象的经平移和旋转的模型是否对应于所述深度图像。

19.根据权利要求18所述的方法，其中，生成所述对象的经平移和旋转的模型与所述深度图像之间的三个相似性度量包括：

通过确定在经平移和旋转的模型上的距离所述深度图像的相应图像点在点阈值距离内的点的比例来生成第一相似性度量；

通过以下步骤生成第二相似性度量：(i)从经平移和旋转的模型上的点集生成多个法向矢量，(ii)从所述深度图像的图像点集生成多个法向矢量，(iii)生成从经平移和旋转的模型上的点集生成的法向矢量与从所述深度图像的图像点集生成的对应法向矢量之间的多个角度，以及(iv)确定小于阈值角度的角度的比例；以及

通过确定经平移和旋转的模型的距离所述深度图像的相应边在边阈值距离内的边的比例来生成第三相似性度量。

20.根据权利要求12-19中任一项所述的方法，其中，将所述对象的经平移和旋转的模型与所述深度图像进行比较以为所述估计姿态确定至少一个相似性度量包括确定所述对象的经平移和旋转的模型与所述深度图像是否比阈值相似性程度更相似，并且其中，基于所述对象的估计姿态中的至少一个估计姿态和为所述至少一个估计姿态确定的至少一个相似性度量来为所述三维空间内的所述对象确定姿态包括确定所述对象的估计姿态中的特定一个估计姿态对应于大于所述阈值相似性程度的所确定的相似性度量。

21.一种方法，包括：

基于经旋转和平移的多个图像点生成所述对象的估计姿态；

根据所述估计姿态平移和旋转所述对象的模型；以及

22.根据权利要求21所述的方法，其中，基于经旋转和平移的多个图像点生成所述对象的估计姿态包括对所述经旋转和平移的多个图像点执行模板匹配。

23.根据权利要求21-22中任一项所述的方法，其中，旋转和平移所述多个图像点以使得所述选定点居中包括将第一旋转和平移应用于所述多个图像点，并且其中，基于经旋转和平移的多个图像点生成所述对象的估计姿态包括：

使用所述经旋转和平移的多个图像点来生成第一姿态估计；以及

将所述第一旋转和平移的逆应用于所述第一姿态估计。

24.根据权利要求21-23中任一项所述的方法，其中，将所述对象的经平移和旋转的模型与所述深度图像进行比较以为所述估计姿态确定至少一个相似性度量包括：

将所述三个相似性度量与相应阈值进行比较；以及

25.根据权利要求24所述的方法，其中，生成所述对象的经平移和旋转的模型与所述深度图像之间的三个相似性度量包括：

26.根据权利要求21-25中任一项所述的方法，其中，将所述对象的经平移和旋转的模型与所述深度图像进行比较以为所述估计姿态确定至少一个相似性度量包括确定所述对象的经平移和旋转的模型与所述深度图像是否比阈值相似性程度更相似，并且其中，基于所述对象的估计姿态中的至少一个估计姿态和为所述至少一个估计姿态确定的至少一个相似性度量来为所述场景内的所述对象确定姿态包括确定所述对象的估计姿态中的特定一个估计姿态对应于大于所述阈值相似性程度的所确定的相似性度量。

27.根据权利要求21-26中任一项所述的方法，还包括：

28.一种方法，包括：

基于所述多个图像点中的多个选定点，生成所述三维空间内的对象的多个估计姿态；

根据所述估计姿态平移和旋转所述对象的模型；以及

29.根据权利要求28所述的方法，还包括：

30.根据权利要求28-29中任一项所述的方法，其中，将所述对象的经平移和旋转的模型与所述深度图像进行比较以为所述估计姿态确定至少一个相似性度量包括：

将所述三个相似性度量与相应阈值进行比较；以及

31.根据权利要求30所述的方法，其中，生成所述对象的经平移和旋转的模型与所述深度图像之间的三个相似性度量包括：

32.根据权利要求28-31中任一项所述的方法，其中，将所述对象的经平移和旋转的模型与所述深度图像进行比较以为所述估计姿态确定至少一个相似性度量包括确定所述对象的经平移和旋转的模型与所述深度图像是否比阈值相似性程度更相似，并且其中，基于所述对象的估计姿态中的至少一个估计姿态和为所述至少一个估计姿态确定的至少一个相似性度量来为所述场景内的所述对象确定姿态包括确定所述估计姿态中的特定一个估计姿态对应于大于所述阈值相似性程度的所确定的相似性度量。

33.一种方法，包括：

将随机森林应用于所述多个图像点，以生成所述三维空间中的对象的估计姿态；以及

通过以下步骤确定所述对象存在于所述三维空间中：

根据所述估计姿态平移和旋转所述对象的模型；以及

确定所述对象的经平移和旋转的模型与所述深度图像的图像点比阈值相似性程度更相似。

34.根据权利要求33所述的方法，还包括：

35.根据权利要求33-34中任一项所述的方法，其中，所述随机森林包括多个回归树。

36.根据权利要求25所述的方法，其中，所述多个回归树中的至少一个回归树生成所述对象的六维估计姿态作为输出。

37.根据权利要求35所述的方法，其中，所述多个回归树中的第一回归树的第一输入特征集不同于所述多个回归树中的第二回归树的第二输入特征集。

38.根据权利要求33-37中任一项所述的方法，其中，确定所述对象的经平移和旋转的模型与所述深度图像比阈值相似性程度更相似包括：

将所述三个相似性度量与相应阈值进行比较；以及

确定所有三个相似性度量超过了它们的相应阈值。

39.根据权利要求38所述的方法，其中，生成所述对象的经平移和旋转的模型与所述深度图像之间的三个相似性度量包括：

40.一种制品，包括其上存储有程序指令的非暂时性计算机可读介质，所述程序指令在由计算设备执行时使得所述计算设备执行根据权利要求1-39中任一项所述的方法。

41.一种系统，包括：

控制器；以及

非暂时性计算机可读介质，其上存储有程序指令，所述程序指令在由所述控制器执行时使得所述控制器执行根据权利要求1-39中任一项所述的方法。