CN111480136A

CN111480136A - 移动平台的基于深度信息的姿势确定以及相关系统和方法

Info

Publication number: CN111480136A
Application number: CN201780097682.4A
Authority: CN
Inventors: 周游; 刘洁; 朱振宇
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2020-07-31
Also published as: DK3610358T3; EP3610358A4; EP3905008A1; US11714482B2; WO2019113825A1; EP3610358A1; US20230376106A1; EP3610358B1; US20200304775A1

Abstract

本文公开了一种在邻近移动平台的环境中确定一个或多个对象的姿势或手势以及相关系统和方法。代表性方法包括：基于深度连通性准则从表示环境的深度数据中识别候选区域，将断开连接的区域相关联以用于识别对象的多个姿势分量，确定所识别的姿势分量之间的空间关系，以及基于空间关系生成控制命令。

Description

移动平台的基于深度信息的姿势确定以及相关系统和方法

技术领域

本技术总体上涉及在邻近移动平台的三维(3D)环境中确定一个或多个对象(例如一个或多个人类用户)的姿势或手势。

背景技术

通常可以使用一个或多个传感器来扫描或以其他方式检测移动平台周围的环境。例如，移动平台可以配备有立体视觉系统(例如，“立体相机”)，以感测其周围环境。立体相机通常是一种具有两个或多个镜头的一类相机，每个镜头具有单独的图像传感器或胶片帧。当同时利用两个或多个镜头从不同角度拍摄照片/视频时，对应的照片/视频之间的差异为计算深度信息(例如，从场景中的物体到立体相机的距离)提供了基础。作为另一示例，移动平台可以配备有一个或多个LiDAR传感器，这些传感器通常向外发送脉冲信号(例如激光信号)，检测脉冲信号反射并确定关于环境的深度信息，以便于物体检测和/或辨识。然而，不同的深度感测技术存在不准确性，这可能会影响各种较高级别的应用，例如姿势和/或手势确定。

发明内容

以下概述为了读者的方便而提供，并且指出所公开的技术的若干代表性实施例。

在一些实施例中，一种用于确定环境内的对象的姿势的计算机实现方法包括：至少部分地基于至少一个深度连通性准则，从表示环境的基础深度数据中识别多个候选区域；从候选区域的子集中确定对应于对象的第一姿势分量的第一区域；以及至少部分地基于第一区域与一个或多个第二区域的相对位置来从候选区域的子集中选择所述一个或多个第二区域以与第一区域相关联。该方法还包括：从包括第一区域和一个或多个相关联的第二区域的集合区域中识别对象的第一姿势分量和至少一个第二姿势分量，确定所识别的第一姿势分量与所识别的至少一个第二姿势分量之间的空间关系，以及至少部分地基于所确定的空间关系，生成供移动平台执行的控制命令。

在一些实施例中，至少部分地基于由至少一个立体相机捕捉的图像来生成基础深度数据。在一些实施例中，基础深度数据包括至少部分地基于至少一个立体相机的视差图和固有参数计算的深度图。在一些实施例中，方法还包括确定对象在基础深度数据中可能出现的深度范围。在一些实施例中，在深度范围内识别多个候选区域。在一些实施例中，基础深度数据包括未知的、无效的或不准确的深度信息中的至少一个。

在一些实施例中，至少一个深度连通性准则包括深度阈值或深度变化阈值中的至少一个。在一些实施例中，候选区域中的两个或更多个候选区域至少部分地由于基础深度数据中的未知的、无效的或不准确的深度信息而彼此断开连接。在一些实施例中，方法还包括至少部分地基于关于对象的至少一个姿势分量的第一基线信息来选择候选区域的子集。在一些实施例中，第一基线信息指示至少一个姿势分量的估计大小。在一些实施例中，第一基线信息至少部分地基于先前深度数据。

在一些实施例中，至少部分地基于关于对象的第一姿势分量的第二基线信息来确定第一区域。在一些实施例中，第二基线信息指示第一姿势分量的估计位置。在一些实施例中，第二基线信息至少部分地基于先前深度数据。在一些实施例中，从候选区域的子集中选择一个或多个第二区域以与第一区域相关联是至少部分地基于关于环境的非深度信息。在一些实施例中，非深度信息包括对应于基础深度数据的二维图像数据。

在一些实施例中，选择一个或多个第二区域以与第一区域相关联包括：区分可能对应于对象的候选区域与可能对应于至少一个其他对象的候选区域。在一些实施例中，从候选区域的子集中选择一个或多个第二区域以与第一区域相关联至少部分地基于对象的多个关节的估计位置。在一些实施例中，从候选区域的子集中选择一个或多个第二区域以与第一区域相关联至少部分地减小基础深度数据中的未知的、无效的或不准确的深度信息的影响。

在一些实施例中，对象是人类。在一些实施例中，第一姿势分量和至少一个第二姿势分量是对象的身体部位。在一些实施例中，第一姿势分量是对象的躯干，至少一个第二姿势分量是对象的手。在一些实施例中，识别对象的第一姿势分量和至少一个第二姿势分量包括至少部分地基于深度测量来检测集合区域的一部分。在一些实施例中，检测集合区域的一部分包括检测在深度上最接近移动平台的部分。在一些实施例中，至少部分地基于检测到的部分相对于网格系统的位置来识别至少一个第二姿势分量。

在一些实施例中，识别至少一个第二姿势分量包括识别至少两个第二姿势分量。在一些实施例中，识别第一姿势分量包括从集合区域中去除所识别的至少一个第二姿势分量。在一些实施例中，识别第一姿势分量至少部分地基于宽度的阈值。

在一些实施例中，确定所识别的第一姿势分量和所识别的至少一个第二姿势分量之间的空间关系包括确定第一姿势分量和/或第二姿势分量的一个或多个几何属性。在一些实施例中，一个或多个几何属性包括形心的位置。在一些实施例中，确定所识别的第一姿势分量和所识别的至少一个第二姿势分量之间的空间关系包括确定指向第一姿势分量的部分和至少一个第二姿势分量的部分之间的一个或多个矢量。

在一些实施例中，移动平台包括以下各项中的至少一种：无人驾驶飞行器(UAV)、载人飞行器、自主载运工具、自平衡载运工具、机器人、智能可穿戴设备、虚拟现实(VR)头戴式显示器或增强现实(A R)头戴式显示器。在一些实施例中，方法还包括至少部分地基于控制命令来控制移动平台的移动功能。

前述方法中的任何一种方法可以通过存储计算机可执行指令的非暂时性计算机可读介质来实现，当被执行时，该计算机可执行指令使与移动平台相关联的一个或多个处理器执行对应的动作；或者通过包括经编程控制器的载运工具来实现，该经编程控制器至少部分地控制载运工具的一个或多个运动，该经编程控制器包括被配置为执行对应的动作的一个或多个处理器。

附图说明

图1A是根据当前所公开的技术的一些实施例的移动平台前面的环境的说明性2D图像，图1B是与图1A的2D图像相对应的说明性深度图。

图2A是根据当前所公开的技术的一些实施例的对象(例如，人类用户)的说明性2D图像，图2B是具有瑕疵的对应的深度图。

图3是示出根据当前所公开的技术的一些实施例的用于确定对象的姿势或手势的方法的流程图。

图4A示出了根据当前所公开的技术的一些实施例的多个对象(例如，两个人类舞者)的2D图像，图4B示出了根据该2D图像确定的对象特征(例如，关节)以及对象特征的分组和对象特征与各个对象的映射。

图5A至图5D示出了根据当前所公开的技术的一些实施例的用于识别对象的辅助姿势分量(例如，手)的过程。

图6A和图6B示出了根据当前所公开的技术的一些实施例的用于识别对象的主要姿势分量(例如，躯干)的过程。

图7示出了根据当前所公开的技术的各种实施例配置的移动平台的示例。

图8是示出可以用于实现所公开的技术的各个部分的计算机系统或其他控制设备的架构的示例的框图。

具体实施方式

1.概述

姿势或手势是人类用户的自然交流方式，其为适用于各种移动平台的人机界面提供了一个有前途的方向。然而，基于二维(2D)图像信息来确定对象的姿势或手势在技术上是困难的且计算量巨大，并且任何所得的距离信息都可能是不准确的。深度信息(例如，由立体相机、测距(LiDAR)和/或其他传感器提供)提供了另一维度的测量，其可以用于改善姿势确定的效率和/或有效性。然而，由于各种原因，可能会出现深度信息的不准确或其他缺陷。例如，立体相机可能无法为没有纹理的对象提供深度信息，环境的一些部分可能曝光过度或曝光不足，并且物体的某些形状、取向或协同定位可能会导致深度检测有缺陷。

当前所公开的技术使用基于区域的方法来减小或消除深度信息有缺陷的负面影响，识别一个或多个对象的姿势分量，并确定姿势分量之间的空间关系以基于姿势分量之间的空间关系生成各种控制命令。一种说明性方法可以包括分析深度信息(例如，包括识别深度误差或其他缺陷)以及确定可能包括至少一部分姿势分量(例如，躯干、手等)的候选区域。可以基于深度不连续性的各种标准来确定候选区域，其中一些候选区域可能是由深度误差或其他缺陷导致的。该说明性方法可以包括通过基于候选区域的空间或逻辑关系将候选区域的子集分组在一起来生成集合区域，从而“重新连接”由于深度误差或缺陷而分离的某些候选区域。可以进一步分析集合区域以识别其中的一个或多个姿势分量。

为了清楚起见，在以下描述中没有阐述公知的且通常与移动平台(例如无人驾驶飞行器或其他类型的可移动平台)以及对应的系统和子系统相关联，但可能不必要地使当前所公开的技术的一些重要方面变得模糊的结构和/或过程的若干细节。此外，尽管以下公开内容阐述了当前所公开的技术的不同方面的若干实施例，但是一些其它实施例可以具有与本文所描述的配置或部件不同的配置或不同的部件。因此，当前所公开的技术可以具有其他实施例，所述其他实施例具有附加元件和/或不具有以下参考图1A至图8描述的若干元件。

提供图1A至图8以示出当前所公开的技术的代表性实施例。除非另有规定，否则附图不意在限制本申请中权利要求的范围。

以下描述的本技术的许多实施例可以采用计算机或控制器可执行指令的形式，包括由可编程计算机或控制器执行的例程。可编程计算机或控制器可以驻留或可以不驻留在对应的扫描平台上。例如，可编程计算机或控制器可以是移动平台的机载计算机，或者是分离的但与移动平台相关联的专用计算机，或者是基于网络或云的计算服务的一部分。相关领域的技术人员将认识到，本技术可以在以下所示和所述之外的计算机或控制器系统上实施。本技术可以体现在被专门编程、配置或构造为执行下面描述的一个或多个计算机可执行指令的专用计算机或数据处理器中。因此，本文中通常使用的术语“计算机”和“控制器”是指任何数据处理器，并且可以包括互联网设备和手持装置(包括掌上计算机、可穿戴计算机、蜂窝或移动电话、多处理器系统、基于处理器的或可编程的消费电子产品、网络计算机、微型计算机等)。由这些计算机和控制器处理的信息可以在包括LCD(液晶显示器)在内的任何合适的显示介质上呈现。用于执行计算机或控制器可执行任务的指令可以存储在任何合适的计算机可读介质中或其上，包括硬件、固件、或硬件和固件的组合。指令可以被包含在任何合适的存储设备中，包括例如闪存驱动器、通用串行总线(USB)设备和/或其他合适的介质。在特定实施例中，指令因此是非暂时性的。

2.代表性实施例

如上所述，立体相机或其他传感器可以提供数据，用于获得移动平台周围的或以其他方式与移动平台相邻但不一定邻接的环境的深度信息(例如，对场景的不同部分与传感器之间的距离的测量)。例如，图1A是根据当前所公开的技术的一些实施例的移动平台前面的环境的说明性2D图像，图1B是与图1A的2D图像相对应的说明性深度图。如图1A所示，环境包括对象(例如，人类用户)、各种其他物体、地板和墙壁。图1B的深度图说明性地使用灰度来表示环境的不同部分的深度(例如，到移动平台或观察传感器的距离)。例如，在图1B的深度图中的像素越暗，与该像素相对应的环境部分所处的位置越深(即，更远)。在各种实施例中，深度图可以表示为颜色图、点云或其他形式。

关于环境的深度信息中可能存在各种缺陷，例如不准确、瑕疵和/或未知值或无效值。例如，图2A是根据当前所公开的技术的一些实施例的对象(例如，人类用户)的说明性2D图像，图2B是具有瑕疵的对应的深度图。可以看出，图2A中的对象正在伸展手臂以表达一种姿势/手势。伸展的手臂的一部分202缺乏纹理(例如，大部分呈现为白色，没有变化)。在这种情况下，图2B的立体相机生成的深度图无法准确地反映手臂部分202的深度。作为说明，在图2B中，对应于手臂部分202的区域204包括未知或无效的深度数据，从而不正确地将躯干部分206与手部分208分离，这两者实际上都属于相同的对象。本领域技术人员可以理解，在传感器生成的关于环境的深度信息中可能存在各种其他形式的缺陷。

图3是示出根据当前所公开的技术的一些实施例的用于确定即使是有缺陷的对象的姿势或手势的方法300的流程图。该方法可以由控制器(例如，移动平台的机载计算机、关联的计算设备和/或关联的计算服务)执行。方法300可以使用不同阶段的深度数据、非深度数据和/或基线信息的各种组合来实现姿势/手势确定。如以上在段落[0023]中所讨论的，方法300方法可以包括分析深度信息、确定候选区域以及生成集合区域，用于识别其中的一个或多个姿势分量。

在框305处，方法包括获得包括一个或多个对象(例如，人类用户)的环境(例如，与移动平台相邻)的深度数据。可以基于由一个或多个立体相机捕捉的图像、由一个或多个测距(LiDAR)传感器提供的点云和/或由移动平台携带的其他传感器产生的数据来生成深度数据。在使用立体相机的实施例中，深度数据可以表示为一系列时间顺序的深度图，这些深度图是基于立体相机的对应视差图和固有参数而计算的。在一些实施例中，在将源数据(例如，视差图)用作生成深度数据的基础之前，可以将中值滤波器或其他预处理操作应用于源数据，以降低噪声或提高数据质量。

在一些实施例中，方法包括确定一个或多个对象可能出现在与特定时间(例如，最近生成的深度图的帧)相对应的深度数据中的深度范围。作为说明，可以基于从先前深度数据(例如，紧接在最近的帧之前生成的深度图的一个或多个帧)导出的基线信息来确定深度范围。基线信息可以包括基于先前深度数据(例如，在先前迭代中使用方法300)确定的对象的深度位置(例如，在移动平台前方2米)。可以设置深度范围(例如，在1.5米和2.5米之间的范围)以用某些界限(marg in)覆盖所确定的深度位置。在一些实施例中，可以独立于存在的先前深度数据来定义基线信息。例如，方法300的初始迭代可以使用预定义的深度范围(例如，在移动平台前方的1米至3.5米之间的范围)。控制器可以仅使用深度范围内的深度信息来生成参考深度图(例如，图2B)。在一些实施例中，不执行深度范围确定，并且参考深度图可以包括与特定时间相对应的深度信息的全部或子集。

在框310处，方法包括识别可以对应于姿势分量(例如，用户或其他对象的躯干、手等)的候选区域。作为说明，控制器分析参考深度图以基于一个或多个深度连通性准则(例如，深度阈值或深度改变阈值)来识别可以彼此分离的所有区域。例如，每个识别的候选区域包括在深度图上彼此连接的像素。每个区域中的像素在深度上的变化不超过某个阈值。每个候选区域在深度上与任何其他候选区域断开连接，并且在一些实施例中，在一个或两个其他维度上也断开连接。如先前所讨论的，在某些情况下，断开连接是由未知的、无效的或不准确的深度信息所导致的。

控制器可以基于关于对象的至少一个姿势分量的基线信息来选择候选区域的子集。基线信息可以基于先前的深度数据来指示姿势分量的估计大小(例如，手的大小)。作为说明，控制器可以使用(1)框305处估计的对象的可能深度位置(例如，移动平台前方2米)和(2)在已知深度位置处(例如，移动平台前方1米)的像素数量(例如，100个像素)与平均手大小之间的先前确定的关系来估计参考深度图上与手的平均大小相对应的像素数量n_有效。在该示例中，基于几何变换操作，估计的像素数量n_有效可以为25个像素。在一些实施例中，可以应用界限(例如20％)或其他加权因子来降低虚假否定的风险，因此可以将估计的像素数量n_有效进一步减小到例如20个像素。因此，可以选择潜在地更多候选区域并将其包括在子集中。

姿势分量的估计大小可以用于过滤候选区域，以生成更相关的子集，以便以更有效的方式识别姿势分量。作为说明，控制器将每个候选区域的大小(例如，像素数量)与基于估计大小定义的有效大小范围(例如，n_有效和n_有效的倍数之间)进行比较，并滤除大小落在有效大小范围外的候选区域。在一些实施例中，可以基于两个或更多个姿势分量的估计大小来确定有效大小范围。

在框315处，该方法包括从候选区域的子集中选择可能对应于对象的主要姿势分量(例如，躯干)的主要区域。在一些实施例中，控制器基于关于对象的主要姿势分量的基线信息(例如，位置和/或大小)来确定主要区域。类似地，这里所使用的基线信息可以从先前的深度数据(例如，先前参考深度图，其中主要姿势分量是在先前的迭代中使用方法300确定的)导出。例如，如果从深度信息的先前帧中检测到了对象的躯干，则控制器可以确定先前确定的躯干部分的形心点，并将形心点映射到当前参考深度图。如果形心点落在候选区域内，则控制器可以将候选区域标记为主要区域。可选地，控制器可以基于区域大小来选择主要区域(例如，选择子集中最大的候选区域以对应于对象的躯干)。应当注意的是，主要区域可以包括对象的主要姿势分量、多个姿势分量、非姿势分量(例如，在某些情况下为人类用户的头部)的一部分和/或除对象之外的其他物体。

在框320处，方法包括通过基于子集的主要区域与一个或多个辅助区域的相对位置来将主要区域与一个或多个辅助区域相关联来生成集合区域。在一些实施例中，这可以基于对关于环境的非深度信息的分析来实现。如先前所讨论的，由于未知的、无效的或不准确的深度信息，候选区域可能彼此断开连接。非深度信息(例如，环境的对应2D图像)可以用于重新连接或以其他方式关联断开连接的区域。作为说明，可以从2D图像中确定关节或其他适用的对象特征。基于所确定的对象特征之间的空间和/或逻辑关系，可以将它们以有序的方式分组和/或映射到对应的对象。分组和/或映射可以基于关于对象特征的基线信息(例如，腕关节和肩关节必须经由肘关节连接)。在一些实施例中，控制器可以实现基于部分亲和字段(Part Affinity Fields，PA F)的方法来实现特征分组和/或映射。例如，图4A示出了根据当前所公开的技术的一些实施例的多个对象(例如，两个人类舞者)的2D图像，图4B示出了根据该2D图像确定的对象特征(例如，关节)以及对象特征的分组和对象特征与各个对象的映射。如图4B所示，对象特征的分组和映射可以将两个对象彼此区分开，从而避免将第一对象的特征不正确地映射到第二对象。然后，控制器可以将对象特征投影到参考深度图，并根据对象特征分组和/或映射，将主要区域(例如，包括对象的一个或多个特征)与一个或多个辅助区域(例如，每个都包括相同对象的一个或多个特征)相关联。

因为分析非深度信息可能消耗大量的计算资源，所以在一些实施例中，控制器基于主要区域和其他候选区域之间的距离和/或相对大小来生成集合区域。例如，控制器可以选择辅助区域的阈值数量，该辅助区域(1)具有在有效大小范围内的大小，并且(2)定位足够靠近主要区域以与主要区域相关联。一旦构造了包括主要区域和辅助区域的集合区域，就可以滤除其他候选区域，或者以其他方式将其从进一步处理中排除。

在框325处，方法包括从集合区域中识别相同对象的至少主要姿势分量(例如，躯干)和辅助姿势分量(例如，手)。作为说明，控制器使用关于姿势分量的基线信息来分析深度测量的分布。

例如，图5A至图5D示出了根据当前所公开的技术的一些实施例的用于识别对象(例如，人类用户)的辅助姿势分量(例如，手)的过程。出于说明的目的，图5A至图5D未示出深度信息(例如，灰度)。关于姿势分量的基线信息可以指示对象的手可能是到移动平台的距离最短的姿势分量。因此，如图5A所示，控制器可以在集合区域510内搜索并识别最接近点502。参考图5B，使用最接近点作为种子点，控制器可以例如通过应用在最接近点502开始的泛洪填充(flood-fill)方法来识别集合区域的一部分504。可以采用各种其他适用的方法以基于最接近点502来识别部分504，并且可以在其中使用各种深度阈值或深度改变阈值。所识别的部分504可以包括对象的手以及潜在其他身体部位(例如，手臂)。

在一些实施例中，控制器可以划分或分割参考深度图，以便以更有效和/或更准确的方式确定辅助姿势分量。例如，可以使用网格系统以进一步确定所识别的部分504内的对象的手。如图5C所示，示例网格系统520可以将参考深度图划分为9个网格块531-539。网格系统520的网格线可以基于关于对象的主要姿势分量(例如，躯干)或其他姿势分量的基线信息来定义，并且它们本身可以是不均匀的。例如，上部水平网格线522可以位于根据深度数据的一个或多个先前帧而估计的躯干形心的高度处；下部水平网格线524可以位于距上部水平网格线522的界限距离处；以及左右垂直网格线526、528可以是基于从深度数据的一个或多个先前帧而估计的躯干宽度(具有某个界限值)来定义的。

网格线形成了各种网格块，这些网格块可以基于网格块的位置、大小或其他属性进行单独(顺序或并行)处理。作为说明，控制器可以基于部分504所落入的网格块的位置以一定方向或方式扫描所识别的部分504。例如，如果所识别的部分504落入到网格块531-536或538中的任何一个中，则对象的手更有可能指向上。因此，至少出于计算效率的目的，控制器可以在上下方向上逐像素行地扫描所识别的部分504。作为另一示例，如果所识别的部分落入到网格块537或539中，则对象的手更有可能指向左或指向右。因此，控制器可以分别在从左到右或从右到左的方向上逐像素列地扫描所识别的部分。如图5D所示，手的估计边界542可以位于两个或更多个相邻像素行(或列)之间的深度增加超过阈值的位置。可以将估计的手边界542内的一组扫描像素540识别为对应于对象的手。

在一些实施例中，基于对应于参考深度图的2D图像数据来进一步证实或修改手的识别。例如，可以基于2D图像数据的纹理和/或对比分析来修改手边界。在一些实施例中，控制器从集合区域中去除所识别的第一只手并重复图5A至图5D的过程以识别对象的第二只手。

图6A和图6B示出了根据当前所公开的技术的一些实施例的用于识别对象的主要姿势分量(例如，躯干)的过程。集合区域可以包括对象的多个姿势分量、对象的非姿势分量(例如，在某些情况下的头或腿)和/或除对象以外的物体。因此，控制器进一步处理集合区域以特别地识别主要姿势分量。作为说明，控制器可以去除所识别的辅助姿势分量(例如，手)并且分析集合区域620的其余部分。例如，控制器可以基于其余的集合区域620的各种高度处的宽度来有效地识别对象的躯干。如图6A所示，可以在不同的高度处逐行地检查其余的集合区域620。控制器可以将集合区域在不同高度处的宽度与躯干宽度范围(例如，手宽度的2倍到6倍之间)进行比较，并据此识别对象的躯干。参考图6A，示例性线602指示在躯干宽度范围之外(例如，小于手宽度的两倍)的宽度604，而另一示例性线606指示落入躯干宽度范围内的宽度608。因此，如图6B所示，控制器将较大的矩形区域610识别为对象的躯干。区域610排除了对象头部的上半部分(线602所在的位置)。

在框330处，方法包括确定至少所识别的主要姿势分量和辅助姿势分量之间的空间关系。控制器可以确定主要姿势分量和/或辅助姿势分量的一个或多个几何属性(例如，形心、轮廓、形状等)。控制器可以确定指向主要姿势分量的部分和辅助姿势分量的部分之间的一个或多个矢量。在方框335处，方法包括基于所确定的空间关系来生成一个或多个命令。作为说明，所确定的几何属性和/或矢量可以用于定义方向、速度、加速度和/或旋转，其用作生成用于控制移动平台的下一次移动的命令的基础。例如，控制器可以生成命令，使得当用户举手时，移动平台停止移动。作为另一示例，控制器可以生成命令，使得移动平台朝向空间中的位于以下位置的点移动：该空间中的点位于由所识别的对象的躯干和手的形心定义的线上。在各种实施例中，可以响应于获得深度数据的每一帧，响应于某些事件(例如，移动平台检测到存在一个或多个对象)和/或基于用户命令来实现方法300。

图7示出了根据当前所公开的技术的各种实施例配置的移动平台的示例。如图所示，本文所公开的代表性移动平台可以包括以下各项中的至少一种：无人驾驶飞行器(UAV)702、载人飞行器704、自主载运工具706、自平衡载运工具708、地面机器人710、智能可穿戴设备712、虚拟现实(VR)头戴式显示器714或增强现实(AR)头戴式显示器716。

图8是示出可以用于实现所公开的技术的各个部分的计算机系统或其他控制设备的架构800的示例的框图。在图8中，计算机系统800包括经由互连设备825连接的一个或多个处理器805和存储器810。互连设备825可以表示通过适当的桥、适配器或控制器连接的任何一个或多个分离的物理总线、点到点连接或两者。因此，互连设备825可以包括例如系统总线、外围组件互连(PCI)总线、超传输(HyperTranspor t)或工业标准结构(ISA)总线、小型计算机系统接口(SCSI)总线、通用串行总线(USB)、IIC(I2C)，或电气电子工程师协会(IEEE)标准674总线(有时称为“火线”)。

处理器805可以包括中央处理单元(CPU)，以控制例如主计算机的整体操作。在某些实施例中，处理器805通过执行存储在存储器810中的软件或固件来实现这一点。处理器805可以是或可以包括一个或多个可编程通用或专用微处理器、数字信号处理器(DSP)、可编程控制器、专用集成电路(ASIC)、可编程逻辑器件(PLD)等，或此类设备的组合。

存储器810可以是或包括计算机系统的主存储器。存储器810代表随机存取存储器(RAM)、只读存储器(ROM)、闪存等的任何合适形式，或此类设备的组合。除此之外，在使用中，存储器810可以包含一组机器指令，该机器指令在由处理器805执行时使处理器805执行操作以实现当前所公开的技术的实施例。

网络适配器815也通过互连设备825连接到处理器805。网络适配器815使计算机系统800具有与诸如存储客户端和/或其他存储服务器之类的远程设备进行通信的能力，并且可以是例如以太网适配器或光纤通道适配器。

本文描述的技术可以由例如用软件和/或固件编程的可编程电路(例如，一个或多个微处理器)来实现，或者完全以专用的硬连线电路或以这些形式的组合来实现。专用的硬连线电路可以采用例如一个或多个专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)等形式。

用于实现这里所介绍的技术的软件或固件可以存储在机器可读存储介质上，并且可以由一个或多个通用或专用可编程微处理器执行。本文所使用的术语“机器可读存储介质”包括可以以机器可访问的形式存储信息的任何机制(机器可以是例如计算机、网络设备、蜂窝电话、个人数字助手(PDA)、制造工具、带有一个或多个处理器的任何设备等)。例如，机器可访问的存储介质包括可记录/不可记录介质(例如，只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光学存储介质；闪存设备；等)等。

本文所使用的术语“逻辑”可以包括例如用特定软件和/或固件编程的可编程电路、专用硬连线电路或其组合。

本公开的一些实施例具有除了上述内容之外或代替上述内容的其他方面、元件、特征和/或步骤。贯穿说明书的其余部分描述了这些潜在的附加内容和替换内容。在本说明书中对“各种实施例”、“某些实施例”或“一些实施例”的引用是指结合该实施例描述的特定特征、结构或特性包括在本公开的至少一个实施例中。这些实施例，甚至替代实施例(例如，称为“其他实施例”)不相互排斥其他实施例。此外，描述了可能由一些实施例而不是其他实施例展现的各种特征。类似地，描述了可能是一些实施例但不是其他实施例的要求的各种要求。例如，一些实施例使用从立体相机生成的深度信息，而其他实施例可以使用从LiDAR、3D-ToF或RGB-D生成的深度信息。另一些实施例可以使用从传感器的组合生成的深度信息。

就本文通过引用并入的任何材料与本公开相冲突的方面而言，以本公开为准。

Claims

1.一种用于至少部分地基于深度信息来确定三维环境内的用户的手势的计算机实现的方法，所述方法包括：

至少部分地基于一个或多个先前深度图来确定所述用户可能出现在所述环境的当前深度图中的深度范围；

至少部分地基于使用所述深度范围对所述当前深度图进行过滤来生成参考深度图；

从所述参考深度图中识别多个候选区域，其中所述多个候选区域中的每个候选区域内的深度变化不超过阈值，并且其中所述多个候选区域彼此断开连接；

从所述多个候选区域中选择子集，其中每个选择的候选区域具有在阈值范围内的大小，并且其中所述阈值范围基于所述用户的手相对于目标深度图的估计大小；

至少部分地基于与所述用户的躯干相对应的位置和/或大小来从所述子集中确定主要区域；

至少部分地基于所述主要区域与所述子集的可能与所述用户的身体部位相对应的一个或多个目标区域的相对位置来将所述主要区域与所述一个或多个目标区域相关联；

从包括所述主要区域和所述一个或多个目标区域的集合区域中识别所述用户的手；

在从所述集合区域中滤除所识别的手之后识别所述用户的躯干；

确定表示所述用户的至少所识别的躯干和所识别的手之间的空间关系的一个或多个矢量；以及

至少部分地基于所确定的一个或多个矢量来控制移动平台的移动。

2.一种用于至少部分地基于深度信息来确定环境内的对象的姿势的计算机实现的方法，所述方法包括：

至少部分地基于至少一个深度连通性准则来从表示所述环境的基础深度数据中识别多个候选区域；

至少部分地基于关于所述对象的第一姿势分量的估计来从所述候选区域的子集中确定第一区域；

至少部分地基于所述第一区域和一个或多个第二区域的相对位置来从所述候选区域的子集中选择所述一个或多个第二区域，以与所述第一区域相关联；

从包括所述第一区域和一个或多个关联的第二区域的集合区域中识别所述对象的第一姿势分量和至少一个第二姿势分量；

确定所识别的第一姿势分量和所识别的至少一个第二姿势分量之间的空间关系；以及

至少部分地基于所确定的空间关系来引起生成由移动平台执行的控制命令。

3.根据权利要求2所述的方法，其中，所述基础深度数据是至少部分地基于由至少一个立体相机捕捉的图像来生成的。

4.根据权利要求3所述的方法，其中，所述基础深度数据包括至少部分地基于所述至少一个立体相机的视差图和固有参数计算的深度图。

5.根据权利要求2至4中任一项所述的方法，还包括确定所述对象在所述基础深度数据中可能出现的深度范围。

6.根据权利要求5所述的方法，其中，在所述深度范围内识别所述多个候选区域。

7.根据权利要求2至6中任一项所述的方法，其中，所述基础深度数据包括未知的、无效的或不准确的深度信息中的至少一种。

8.根据权利要求2所述的方法，其中，所述至少一个深度连通性准则包括深度阈值或深度变化阈值中的至少一个。

9.根据权利要求2或8中任一项所述的方法，其中，候选区域中的两个或更多个候选区域至少部分地由于所述基础深度数据中的未知的、无效的或不准确的深度信息而彼此断开连接。

10.根据权利要求2、8或9中任一项所述的方法，还包括：至少部分地基于关于所述对象的至少一个姿势分量的第一基线信息来选择所述候选区域的子集。

11.根据权利要求10所述的方法，其中，所述第一基线信息指示所述至少一个姿势分量的估计大小。

12.根据权利要求10所述的方法，其中，所述第一基线信息至少部分地基于先前深度数据。

13.根据权利要求2所述的方法，其中，至少部分地基于关于所述对象的所述第一姿势分量的第二基线信息来确定所述第一区域。

14.根据权利要求13所述的方法，其中，所述第二基线信息指示所述第一姿势分量的估计位置。

15.根据权利要求13所述的方法，其中，所述第二基线信息至少部分地基于先前深度数据。

16.根据权利要求2所述的方法，其中，从所述候选区域的子集中选择所述一个或多个第二区域以与所述第一区域相关联至少部分地基于关于所述环境的非深度信息。

17.根据权利要求16所述的方法，其中，所述非深度信息包括与所述基础深度数据相对应的二维图像数据。

18.根据权利要求2、16或17中任一项所述的方法，其中，选择所述一个或多个第二区域以与所述第一区域相关联包括：区分可能对应于所述对象的候选区域与可能对应于至少一个其他对象的候选区域。

19.根据权利要求2或16至18中任一项所述的方法，其中，从所述候选区域的子集中选择所述一个或多个第二区域以与所述第一区域相关联至少部分地基于所述对象的多个关节的估计位置。

20.根据权利要求2或16至19中任一项所述的方法，其中，从所述候选区域的子集中选择所述一个或多个第二区域以与所述第一区域相关联至少部分地减小所述基础深度数据中的未知的、无效的或不准确的深度信息的影响。

21.根据权利要求2所述的方法，其中，所述对象是人。

22.根据权利要求2或21中任一项所述的方法，其中，所述第一姿势分量和所述至少一个第二姿势分量是所述对象的身体部位。

23.根据权利要求2、21或22中任一项所述的方法，其中，所述第一姿势分量是所述对象的躯干，且所述至少一个第二姿势分量是所述对象的手。

24.根据权利要求2、21至23中任一项所述的方法，其中，识别所述对象的第一姿势分量和至少一个第二姿势分量包括至少部分地基于深度测量来检测所述集合区域的一部分。

25.根据权利要求24所述的方法，其中，检测所述集合区域的一部分包括检测在深度上最接近所述移动平台的部分。

26.根据权利要求24或25中任一项所述的方法，其中，至少部分地基于检测到的部分相对于网格系统的位置来识别所述至少一个第二姿势分量。

27.根据权利要求2、21至26中任一项所述的方法，其中，识别所述至少一个第二姿势分量包括识别两个第二姿势分量。

28.根据权利要求2、21至27中任一项所述的方法，其中，识别所述第一姿势分量包括从所述集合区域中去除所识别的至少一个第二姿势分量。

29.根据权利要求2或21至28中任一项所述的方法，其中，至少部分地基于关于宽度的阈值来识别所述第一姿势分量。

30.根据权利要求2所述的方法，其中，确定所识别的第一姿势分量和所识别的至少一个第二姿势分量之间的空间关系包括确定所述第一姿势分量和/或所述第二姿势分量的一个或多个几何属性。

31.根据权利要求30所述的方法，其中，所述一个或多个几何属性包括形心的位置。

32.根据权利要求2、30或31中任一项所述的方法，其中，确定所识别的第一姿势分量和所识别的至少一个第二姿势分量之间的空间关系包括确定指向所述第一姿势分量的部分和所述至少一个第二姿势分量的部分之间的一个或多个矢量。

33.根据权利要求2至32中任一项所述的方法，其中，所述移动平台包括以下项中的至少一个：无人驾驶飞行器、载人飞行器、自主载运工具、自平衡载运工具、机器人、智能可穿戴设备、虚拟现实头戴式显示器或增强现实头戴式显示器。

34.根据权利要求2至33中任一项所述的方法，还包括至少部分地基于所述控制命令来控制所述移动平台的移动功能。

35.一种存储计算机可执行指令的非暂时性计算机可读介质，当被执行时，所述计算机可执行指令使与移动平台相关联的一个或多个处理器执行动作，所述动作包括：

至少部分地基于至少一个深度连通性准则来从表示环境的基础深度数据中识别多个候选区域；

至少部分地基于关于对象的第一姿势分量的估计来从所述候选区域的子集中确定第一区域；

至少部分地基于所确定的空间关系来引起生成由所述移动平台执行的控制命令。

36.根据权利要求35所述的计算机可读介质，其中，所述基础深度数据是至少部分地基于由至少一个立体相机捕捉的图像来生成的。

37.根据权利要求36所述的计算机可读介质，其中，所述基础深度数据包括至少部分地基于所述至少一个立体相机的视差图和固有参数计算的深度图。

38.根据权利要求35至37中任一项所述的计算机可读介质，其中所述动作还包括确定所述对象在所述基础深度数据中可能出现的深度范围。

39.根据权利要求38所述的计算机可读介质，其中，在所述深度范围内识别所述多个候选区域。

40.根据权利要求35至39中任一项所述的计算机可读介质，其中，所述基础深度数据包括未知的、无效的或不准确的深度信息中的至少一种。

41.根据权利要求35所述的计算机可读介质，其中，所述至少一个深度连通性准则包括深度阈值或深度变化阈值中的至少一个。

42.根据权利要求35或41中任一项所述的计算机可读介质，其中，候选区域中的两个或更多个候选区域至少部分地由于所述基础深度数据中的未知的、无效的或不准确的深度信息而彼此断开连接。

43.根据权利要求35、41或42中任一项所述的计算机可读介质，其中所述动作还包括：至少部分地基于关于所述对象的至少一个姿势分量的第一基线信息来选择所述候选区域的子集。

44.根据权利要求43所述的计算机可读介质，其中，所述第一基线信息指示所述至少一个姿势分量的估计大小。

45.根据权利要求43所述的计算机可读介质，其中，所述第一基线信息至少部分地基于先前深度数据。

46.根据权利要求35所述的计算机可读介质，其中，至少部分地基于关于所述对象的所述第一姿势分量的第二基线信息来确定所述第一区域。

47.根据权利要求46所述的计算机可读介质，其中，所述第二基线信息指示所述第一姿势分量的估计位置。

48.根据权利要求46所述的计算机可读介质，其中，所述第二基线信息至少部分地基于先前深度数据。

49.根据权利要求35所述的计算机可读介质，其中，从所述候选区域的子集中选择所述一个或多个第二区域以与所述第一区域相关联至少部分地基于关于所述环境的非深度信息。

50.根据权利要求49所述的计算机可读介质，其中，所述非深度信息包括与所述基础深度数据相对应的二维图像数据。

51.根据权利要求35、49或50中任一项所述的计算机可读介质，其中，选择所述一个或多个第二区域以与所述第一区域相关联包括：区分可能对应于所述对象的候选区域与可能对应于至少一个其他对象的候选区域。

52.根据权利要求35或49至51中任一项所述的计算机可读介质，其中，从所述候选区域的子集中选择所述一个或多个第二区域以与所述第一区域相关联至少部分地基于所述对象的多个关节的估计位置。

53.根据权利要求35或49至52中任一项所述的计算机可读介质，其中，从所述候选区域的子集中选择所述一个或多个第二区域以与所述第一区域相关联至少部分地减小所述基础深度数据中的未知的、无效的或不准确的深度信息的影响。

54.根据权利要求35所述的计算机可读介质，其中，所述对象是人。

55.根据权利要求35或54中任一项所述的计算机可读介质，其中，所述第一姿势分量和所述至少一个第二姿势分量是所述对象的身体部位。

56.根据权利要求35、54或55中任一项所述的计算机可读介质，其中，所述第一姿势分量是所述对象的躯干，且所述至少一个第二姿势分量是所述对象的手。

57.根据权利要求35、54至56中任一项所述的计算机可读介质，其中，识别所述对象的第一姿势分量和至少一个第二姿势分量包括至少部分地基于深度测量来检测所述集合区域的一部分。

58.根据权利要求57所述的计算机可读介质，其中，检测所述集合区域的一部分包括检测在深度上最接近所述移动平台的部分。

59.根据权利要求57或58中任一项所述的计算机可读介质，其中，至少部分地基于检测到的部分相对于网格系统的位置来识别所述至少一个第二姿势分量。

60.根据权利要求35、54至59中任一项所述的计算机可读介质，其中，识别所述至少一个第二姿势分量包括识别至少两个第二姿势分量。

61.根据权利要求35、54至60中任一项所述的计算机可读介质，其中，识别所述第一姿势分量包括从所述集合区域中去除所识别的至少一个第二姿势分量。

62.根据权利要求35或54至61中任一项所述的计算机可读介质，其中，至少部分地基于关于宽度的阈值来识别所述第一姿势分量。

63.根据权利要求35所述的计算机可读介质，其中，确定所识别的第一姿势分量和所识别的至少一个第二姿势分量之间的空间关系包括确定所述第一姿势分量和/或所述第二姿势分量的一个或多个几何属性。

64.根据权利要求63所述的计算机可读介质，其中，所述一个或多个几何属性包括形心的位置。

65.根据权利要求35、63或64中任一项所述的计算机可读介质，其中，确定所识别的第一姿势分量和所识别的至少一个第二姿势分量之间的空间关系包括确定指向所述第一姿势分量的部分和所述至少一个第二姿势分量的部分之间的一个或多个矢量。

66.根据权利要求35至65中任一项所述的计算机可读介质，其中，所述移动平台包括以下项中的至少一个：无人驾驶飞行器、载人飞行器、自主载运工具、自平衡载运工具、机器人、智能可穿戴设备、虚拟现实头戴式显示器或增强现实头戴式显示器。

67.根据权利要求35至66中任一项所述的计算机可读介质，其中所述动作还包括至少部分地基于所述控制命令来控制所述移动平台的移动功能。

68.一种包括控制器的载运工具，所述控制器被编程为至少部分地控制所述载运工具的一个或多个运动，其中，经编程的控制器包括一个或多个处理器，所述一个或多个处理器被配置为：

至少部分地基于所确定的空间关系来引起生成由所述载运工具执行的控制命令。

69.根据权利要求68所述的载运工具，其中，所述基础深度数据是至少部分地基于由至少一个立体相机捕捉的图像来生成的。

70.根据权利要求69所述的载运工具，其中，所述基础深度数据包括至少部分地基于所述至少一个立体相机的视差图和固有参数计算的深度图。

71.根据权利要求68至70中任一项所述的载运工具，其中所述一个或多个处理器还被配置为确定所述对象在所述基础深度数据中可能出现的深度范围。

72.根据权利要求71所述的载运工具，其中，在所述深度范围内识别所述多个候选区域。

73.根据权利要求68至72中任一项所述的载运工具，其中，所述基础深度数据包括未知的、无效的或不准确的深度信息中的至少一种。

74.根据权利要求68所述的载运工具，其中，所述至少一个深度连通性准则包括深度阈值或深度变化阈值中的至少一个。

75.根据权利要求68或74中任一项所述的载运工具，其中，候选区域中的两个或更多个候选区域至少部分地由于所述基础深度数据中的未知的、无效的或不准确的深度信息而彼此断开连接。

76.根据权利要求68、74或75中任一项所述的载运工具，其中所述一个或多个处理器还被配置为：至少部分地基于关于所述对象的至少一个姿势分量的第一基线信息来选择所述候选区域的子集。

77.根据权利要求76所述的载运工具，其中，所述第一基线信息指示所述至少一个姿势分量的估计大小。

78.根据权利要求76所述的载运工具，其中，所述第一基线信息至少部分地基于先前深度数据。

79.根据权利要求68所述的载运工具，其中，至少部分地基于关于所述对象的所述第一姿势分量的第二基线信息来确定所述第一区域。

80.根据权利要求79所述的载运工具，其中，所述第二基线信息指示所述第一姿势分量的估计位置。

81.根据权利要求79所述的载运工具，其中，所述第二基线信息至少部分地基于先前深度数据。

82.根据权利要求68所述的载运工具，其中，从所述候选区域的子集中选择所述一个或多个第二区域以与所述第一区域相关联至少部分地基于关于所述环境的非深度信息。

83.根据权利要求82所述的载运工具，其中，所述非深度信息包括与所述基础深度数据相对应的二维图像数据。

84.根据权利要求68、82或83中任一项所述的载运工具，其中，选择所述一个或多个第二区域以与所述第一区域相关联包括：区分可能对应于所述对象的候选区域与可能对应于至少一个其他对象的候选区域。

85.根据权利要求68或82至84中任一项所述的载运工具，其中，从所述候选区域的子集中选择所述一个或多个第二区域以与所述第一区域相关联至少部分地基于所述对象的多个关节的估计位置。

86.根据权利要求68或82至85中任一项所述的载运工具，其中，从所述候选区域的子集中选择所述一个或多个第二区域以与所述第一区域相关联至少部分地减小所述基础深度数据中的未知的、无效的或不准确的深度信息的影响。

87.根据权利要求68所述的载运工具，其中，所述对象是人。

88.根据权利要求68或87中任一项所述的载运工具，其中，所述第一姿势分量和所述至少一个第二姿势分量是所述对象的身体部位。

89.根据权利要求68、87或88中任一项所述的载运工具，其中，所述第一姿势分量是所述对象的躯干，且所述至少一个第二姿势分量是所述对象的手。

90.根据权利要求68、87至89中任一项所述的载运工具，其中，识别所述对象的第一姿势分量和至少一个第二姿势分量包括至少部分地基于深度测量来检测所述集合区域的一部分。

91.根据权利要求90所述的载运工具，其中，检测所述集合区域的一部分包括检测在深度上最接近所述载运工具的部分。

92.根据权利要求90或91中任一项所述的载运工具，其中，至少部分地基于检测到的部分相对于网格系统的位置来识别所述至少一个第二姿势分量。

93.根据权利要求68、87至92中任一项所述的载运工具，其中，识别所述至少一个第二姿势分量包括识别至少两个第二姿势分量。

94.根据权利要求68、87至93中任一项所述的载运工具，其中，识别所述第一姿势分量包括从所述集合区域中去除所识别的至少一个第二姿势分量。

95.根据权利要求68或87至94中任一项所述的载运工具，其中，至少部分地基于关于宽度的阈值来识别所述第一姿势分量。

96.根据权利要求68所述的载运工具，其中，确定所识别的第一姿势分量和所识别的至少一个第二姿势分量之间的空间关系包括确定所述第一姿势分量和/或所述第二姿势分量的一个或多个几何属性。

97.根据权利要求96所述的载运工具，其中，所述一个或多个几何属性包括形心的位置。

98.根据权利要求68、96或97中任一项所述的载运工具，其中，确定所识别的第一姿势分量和所识别的至少一个第二姿势分量之间的空间关系包括确定指向所述第一姿势分量的部分和所述至少一个第二姿势分量的部分之间的一个或多个矢量。

99.根据权利要求68至98中任一项所述的载运工具，其中，所述载运工具包括以下项中的至少一个：无人驾驶飞行器、载人飞行器、自主载运工具、自平衡载运工具、机器人、智能可穿戴设备、虚拟现实头戴式显示器或增强现实头戴式显示器。

100.根据权利要求68至99中任一项所述的载运工具，其中，所述一个或多个处理器还被配置为至少部分地基于所述控制命令来控制所述载运工具的移动功能。