CN109564432B

CN109564432B - 通过姿势与可移动设备通信/控制可移动设备的方法和相关系统

Info

Publication number: CN109564432B
Application number: CN201680088017.4A
Authority: CN
Inventors: 唐克坦; 周谷越; 郭灼
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2022-02-15
Anticipated expiration: 2036-08-05
Also published as: JP2019522853A; EP3494449A1; JP6786762B2; US20190155313A1; US11691729B2; WO2018023727A1; CN109564432A; US20210303005A1; EP3494449A4; US11042167B2

Abstract

本文公开了一种用于控制可移动设备的方法和相关系统以及装置。可移动设备包括图像采集组件和距离测量组件。代表性方法包括生成与操作者相对应的图像并生成与操作者相对应的第一组距离信息。所述方法识别所生成的图像中的图像的一部分，然后基于所识别的与操作者相对应的图像部分从第一组距离信息中检索第二组距离信息。所述方法然后基于所述第二组距离信息来识别与操作者相关联的姿势。所述方法然后还基于所述姿势生成用于控制可移动设备的指令。

Description

通过姿势与可移动设备通信/控制可移动设备的方法和相关系统

技术领域

本技术大体上涉及用于至少部分地基于源自人类姿势的一组指令来与诸如无人驾驶飞行器(Unmanned Aerial Vehicle，UAV)的可移动设备通信或控制可移动设备的方法和相关系统。

背景技术

传统上，可移动设备(诸如，UAV)可以由安装有某些软件应用的远程设备(诸如遥控器、控制手柄或移动设备)来控制。所有这些控制方法都需要额外的控制设备。携带这种控制设备对用户而言可能是不方便的。例如，某些控制设备的尺寸可能相对较大。而且，在用户可以实际控制可移动设备之前，他/她经常需要花费一些时间来学习如何控制可移动设备。换句话说，使用额外的控制设备来控制可移动设备有时是反直觉的，有时甚至难以让一些用户学习或掌握。因此，仍然需要用于通过直观且直接的用户命令或指令来控制可移动设备的改进方法和系统。

发明内容

以下概述为了读者的方便而提供，并且指出所公开的技术的一些代表性实施例。大体上来说，本技术提供了一种改进方法和相关系统，其使操作者能够以直接、易于学习、直观的方式与可移动设备通信并控制可移动设备。更具体地，本技术使操作者能够通过姿势或身体移动来控制可移动设备并与可移动设备通信。不需要额外的控制设备。相关系统可以首先采集与操作者相关联的信息，基于所采集的信息识别姿势，然后生成对应的指令以控制可移动设备。

本技术的代表性实施例包括一种用于控制具有图像采集组件和距离测量组件的可移动设备的方法。所述方法包括：响应于来自操作者的请求，通过图像采集组件生成与操作者相对应的图像，以及通过距离测量组件生成与操作者相对应的第一组距离信息(例如，深度图像)。所述方法还识别与操作者相对应的图像的一部分(例如，操作者的身体部位的图像、操作者的图像、操作者或操作者的身体部位的轮廓、操作者或操作者的身体部位的边界线或框架等)，以及至少部分地基于与操作者相对应的图像的所识别的部分来从第一组距离信息中检索第二组距离信息(例如，与操作者的身体部位相关联的深度图像的一部分)。所述方法然后至少部分地基于所述第二组距离信息来识别与所述操作者相关联的姿势，以及至少部分地基于所述姿势来生成用于所述设备的指令。

在具体实施例中，可移动设备可以是UAV。在一些实施例中，图像采集组件可以是能够用于采集彩色图像(例如，具有红色、绿色和蓝色(RGB)像素的图像)的彩色感测相机。在其他实施例中，图像采集组件可以是采集各种类型图像的相机(例如，热/红外相机、夜视相机等)。在一些实施例中，距离测量组件可以是能够用于基于距离传感器(例如，飞行时间(Time of Flight，ToF)传感器)来测量距离的距离感测或深度感测相机。在具体实施例中，所采集的图像可以是二维彩色图像。在一些实施例中，第一组距离信息可以是二维深度图像。例如，深度图像可以具有各种类型的阴影，其指示所测量的对象(诸如操作者)和距离传感器之间的不同距离。由于与彩色相机和距离相机的分辨率相关联的限制，有时仅通过使用它们中的一个来识别姿势是困难的。在具体实施例中，相关系统可以分析或比较二维彩色图像和深度图像，并有效地识别操作者的姿势。

在具体实施例中，所识别的姿势可以包括肢体姿势、手臂姿势、手部姿势、手指姿势等。相关系统可以分析这些识别的姿势，并将它们与能够用于控制可移动设备的对应指令相关联。例如，操作者可以通过沿某个方向定位他或她的手臂来指示可移动设备沿相同方向移动。通过这样做，控制可移动设备以及与可移动设备通信可以是方便的且直观的，并且不需要额外的控制设备。

本技术的一些实施例可以被实现为用于配置UAV控制器的方法。所述方法可以包括利用指令对计算机可读介质进行编程，当指令被执行时，可以生成与操作者相对应的图像和与操作者相对应的第一组距离信息。所述指令可以识别与操作者相对应的图像的一部分，并至少部分地基于与操作者相对应的图像的所识别的部分来从第一组距离信息检索第二组距离信息。所述指令可以基于所述第二组距离信息来识别与所述操作者相关联的姿势，并基于所述姿势来生成用于控制UAV的指令。这种方法可以包括以上所述的前述元件中的任何一个或其中的任何元件的组合。

附图说明

图1是根据本技术的代表性实施例的具有控制系统的UAV的部分示意性等轴图示，该控制系统能够使操作者通过姿势来控制该UAV。

图2是示出了根据本技术的代表性实施例的系统的部分示意性框图。

图3A是示出根据本技术的代表性实施例的图像相机和距离相机的视角的部分示意图。

图3B和图3C是示出根据本技术的代表性实施例的基于托架角的深度图像调整的部分示意图。

图3D和图3E是示出具有和不具有基于托架角的深度图像调整的深度图像之间的差异的屏幕截图。

图4A是示出根据本技术的代表性实施例的通过图像采集组件采集的图像的部分示意图。

图4B是示出根据本技术的代表性实施例的通过距离测量组件创建的图像的部分示意图。

图5是示出根据本技术的代表性实施例的与操作者相关联的姿势的部分示意图。

图6是示出根据本技术的代表性实施例的用于控制可移动设备的方法的实施例的流程图。

图7是示出根据本技术的代表性实施例的用于控制可移动设备的另一方法的实施例的流程。

具体实施方式

1、综述

本技术大体上涉及用于基于源自人类姿势的一组预先确定的指令来与诸如无人驾驶飞行器(UAV)的可移动设备通信或控制可移动设备(或二者)的方法和相关系统。在具体实施例中，UAV包括被配置为采集与操作者相对应的彩色图像的图像采集组件以及被配置为测量UAV和操作者之间的距离的距离测量组件。在所采集的彩色图像中，可以识别指示操作者的姿势的身体部位。然后本技术还可以基于所测量的距离信息来识别并确认姿势。本技术然后可以得到用于控制UAV的指令。在具体实施例中，指令可以是通过机器学习过程或训练分类器来形成的。

在一些实施例中，可以通过使用边界框来识别身体部位。例如，边界框可以是矩形形状的图像框。通过将边界框定位在与操作者相关联的图像部分附近，本技术可以容易并快速地识别指示用于控制UAV的操作者的姿势的可能的身体部位。

所采集的彩色图像和所测量的距离信息可以以某些方式相关联或链接。例如，所采集的彩色图像可以是通过水平轴X和垂直轴Y来定义的二维图像。二维图像中的每个点(例如，像素)可以通过两个轴来识别并且与一组彩色信息相关联(例如，以RGB格式)。类似地，所测量的距离信息可以是通过相同的水平轴X和垂直轴Y来定义的二维深度图(例如，当初始化图像采集组件和距离测量组件时可以执行某种对准)。二维深度图中的每个点(例如，像素)可以是通过两个轴来识别的并且与一组距离信息相关联(例如，使用不同的阴影或彩色来指示UAV和操作者之间的距离)。然后本技术可以识别与所识别的身体部位相关联的一组对应的距离信息。通过分析身体部位的彩色图像和深度信息，本技术可以识别操作者的姿势。

在一些实施例中，在识别出姿势之后，本技术可以分析然后确定操作者的姿势的类型。例如，相关系统可以分析与姿势相关联的所采集的图像和所测量的距离，然后确定所识别的姿势的类型。例如，相关系统可以将所采集的图像和所测量的距离信息与存储在预先存在的数据库(例如，可以是远程数据库或系统中的数据存储器)中的参考信息或预先确定的数据集进行比较。参考信息可以包括与不同类型的姿势(例如，肢体姿势、手臂姿势、手部姿势、手指姿势等)相对应的各种特征。例如，手臂姿势可以包括与手部姿势的特征不同的特征(例如，手臂姿势可以具有更宽范围的距离变化)。

在一些实施例中，相关系统可以被配置为将特定类型的姿势识别作为优选姿势。在确定优选姿势的类型时要考虑的一个因素是可移动设备和操作者之间的距离。例如，当可移动设备和操作者之间的距离在预先确定的范围(例如，0.5-1米)内或小于阈值(例如，2米)时，系统可以选择“手部姿势”作为优选姿势(即在短距离模式下)。这是因为相比于采集操作者的整个手臂的图像而言，系统更有可能采集操作者的整只手的图像。例如，在短距离内，图像采集组件可能只能够捕捉手臂姿势的一部分。类似地，当可移动设备和操作者之间的距离大于预先确定的范围时，系统可以选择“手臂姿势”作为优选姿势(即，在长距离模式下)。这是因为系统可能无法采集与操作者的手部相对应的高质量(例如，高分辨率)图像。通过这样做，本技术使操作者能够在各种距离范围内基于所识别的姿势来有效地控制可移动设备并与可移动设备通信。

在具体实施例中，在操作者开始实际控制可移动设备或与可移动设备通信之前，操作者可以基于他/她的姿势发送对相关系统的请求。例如，操作者可以向上布置并挥动他/她的手臂以形成对相关系统的请求。在识别出操作者的姿势请求(例如，通过分析与操作者相对应的所采集的图像和所测量的距离信息)之后，相关系统可以开始使操作者能够控制可移动设备。在一些实施例中，相关系统可以通过识别某个姿势来验证操作者的身份。例如，操作者可能需要形成预先确定的姿势(或姿势的组合)以“解锁”相关系统。这个特征可以给相关系统和可移动设备提供额外的安全性。在其他实施例中，相关系统可以基于与系统相关联的安全设备(例如，脸部识别设备、指纹读取器、音频识别设备等)来验证用户的身份。

在一些实施例中，本技术的相关系统可以与额外的控制器(诸如具有为控制可移动设备而设计的特定app的智能手机、用于可移动设备的遥控手柄等)一起工作。在一些实施例中，可以经由额外的控制器(例如，经由安装在智能手机中的app提供的用户界面)来选择或识别操作者。在一些实施例中，可以通过额外的控制器(例如，与额外的控制器相关联的安全设备)来验证操作者的身份。

本技术还使相关系统能够通过机器学习过程(或训练分类器)生成与操作者的姿势以及对应的指令或命令相关联的一组参考信息。机器学习过程的示例包括与卷积神经网络(Convolutional Neural Network，CNN)模拟、随机森林(Random Forest，RF)计算、有限状态机(Finite State Machine，FSM)自动机等相关联的方法/算法。可以通过特定的训练组件来执行学习过程，特定训练组件包括但不限于具有一组指令的编程芯片、计算机应用、智能手机app、软件、固件等。

在具体实施例中，本技术可以在生成用于可移动设备的指令之前验证所识别的姿势。例如，系统可以某段时间持续跟踪并存储与所识别的姿势相关联的图像(例如，可以是彩色图像或距离图像)。在一些实施例中，这些图像可以存储在相关系统的数据存储器(例如，存储器、磁盘驱动器、闪速驱动器、逻辑分区、缓冲器等)中。本技术可以分析这些存储的图像并检查源自这些图像的姿势的一致性。例如，操作者可能不经意间形成了姿势，但他/她并无意图做出该姿势以控制可移动设备。这种一致性分析可以增强相关系统的控制的准确性，并相应地提供更好的用户体验。

与传统的系统不同，本技术的各方面涉及使操作者能够在不需要额外的控制设备的情况下控制可移动设备并与可移动设备交互和通信(然而，如上所述，相关系统能够与额外的控制器一起工作)。因此，这种方法可以提高操作可移动设备的方便性，并由此提供比传统方式更好的用户体验。更具体地，本技术使操作者能够通过他的或她的姿势来控制可移动设备。可以基于采集的与操作者相关联的图像和距离信息来识别和分析姿势。通过交叉参考所采集的图像和距离信息，本技术可以有效地生成用于控制可移动设备的指令。

为了清楚起见，在下面的描述中没有阐述若干细节，这些细节用于描述众所周知并经常与UAV以及相应的系统和子系统相关联的但可能不必要地与所公开的技术的一些重要方面相混淆的结构或过程。此外，尽管以下公开内容阐述了本技术的不同方面的若干实施例，但是一些其它实施例可以具有与本部分中所描述的不同的配置或不同的部件。因此，该技术可以具有其他实施例，所述其他实施例具有额外的元件或不具有以下参考图1至图7所描述的元件中的若干元件。

提供图1至图7以示出所公开的技术的代表性实施例。除非另有规定，否则附图不意在限制本申请中权利要求的范围。

以下描述的本技术的许多实施例可以采取计算机或控制器可执行指令的形式，包括由可编程计算机或控制器执行的例程。相关领域的技术人员将认识到，本技术可以在除以下所示和所述的之外的计算机或控制器系统上实施。本技术可以体现在被专门编程、配置或构造为执行下面描述的一个或多个计算机可执行指令的专用计算机或数据处理器中。因此，本文通常使用的术语“计算机”和“控制器”是指任何数据处理器，并且可以包括互联网设备和手持设备(包括掌上计算机、可穿戴计算机、蜂窝或移动电话、多处理器系统、基于处理器的或可编程的消费电子产品、网络计算机、迷你计算机、编程计算机芯片等)。由这些计算机和控制器处理的信息可以呈现在包括CRT显示器或LCD在内的任何合适的显示介质上。用于执行计算机或控制器可执行任务的指令可以存储在任何合适的计算机可读介质中或其上，包括硬件、固件、或硬件和固件的组合。指令可以被包含在任何合适的存储设备中，包括例如闪存驱动器、USB设备或其它合适的介质。在具体实施例中，术语“组件”可以是硬件、固件或一组存储在计算机可读介质中的指令。

2、代表性实施例

图1是根据本技术的实施例配置的代表性UAV 100的部分示意性等轴图示。UAV100可以包括机身110，机身110可以相应地包括中央部分和一个或多个外部部分。在具体实施例中，机身110可以包括四个外部部分(例如，臂)，该四个外部部分随着它们远离中央部分延伸而彼此间隔开。在其他实施例中，机身110可以包括其他数量的外部部分。在这些实施例中的任何一个中，单独的外部部分可以支撑驱动UAV 100的推进系统的组件。例如，单独的臂可以支撑驱动对应螺旋桨106的对应单独电机。

机身110可以携带有效载荷104，例如成像设备。在具体实施例中，成像设备可以包括图像相机(例如，被配置为捕捉视频数据、静止数据或两者的相机)和距离相机(例如，具有距离传感器的相机，诸如可以测量两个对象之间的距离的飞行时间(ToF)传感器)。图像相机可以对各种合适的波段中的任何一个波段中的波长敏感，包括可见、紫外、红外或其组合。在另一实施例中，负载104可以包括其他类型的传感器、其他类型的货物(例如包裹或其他可配送物)或二者。在这些实施例的大部分中，利用云台102来相对于机身110支撑有效载荷104，云台102允许有效载荷相对于机身110独立地定位。因此，例如当有效载荷104包括成像设备131时，成像设备可以相对于机身110移动以跟踪目标。更具体地，例如，成像设备可以相对于机身110(或相对于诸如水平面之类的其他参考平面)旋转一角度(被称作“托架角”)。在一些实施例中，可以基于托架角来调整由图像设备采集的图像。以下将参考图3B和图3C更加详细地讨论相关图像调整。当UAV 100未处于飞行中时，起落架可以在保护有效载荷104的位置处支撑UAV 100。

在代表性实施例中，UAV 100包括由UAV 100携带的控制器108。控制器108可以包括机载计算机可读介质103，该机载计算机可读介质103执行命令UAV 100的动作的指令，所述动作包括但不限于推进系统和成像设备的操作。在具体实施例中，操作者可以通过由图像设备识别的他/她的姿势来远程控制UAV 100。以下将详细讨论与姿势识别相关联的实施例。机载计算机可读介质103可以从UAV 100移除。

图2是示出根据本技术的代表性实施例配置的系统200的部分示意性框图。在一些实施例中，系统200可以是具有计算机可读介质以存储与系统200的组件相关联的信息/指令的装置。在具体实施例中，系统200被配置为从操作者20采集图像和距离信息。所采集的图像和距离信息用于控制与系统相关联的可移动设备(诸如UAV)。在一些实施例中，系统200可以被安装在可移动设备中或由可移动设备携带。在其他实施例中，系统200(或系统200的部分)可以与可移动设备分开布置，例如，被布置在远程处理器位置处。如图2所示，系统200包括处理器201、存储组件202、图像组件203、距离测量组件205、分析组件207、验证组件209和指令生成组件211。如图所示，处理器201被耦合且配置为对系统200的其他组件进行控制。存储组件202被配置为永久地或暂时地存储由系统200采集或生成的信息。在具体实施例中，存储组件202可以包括磁盘驱动器、硬盘、闪速驱动器、存储器等。

图像组件203被配置为采集系统200外部的图像。在具体实施例中，图像组件203被配置为采集与操作者20相对应的图像。在一些实施例中，图像组件203可以是能够采集具有红色、绿色和蓝色(RGB)像素的二维图像(以下将参考图4A进一步描述二维图像的示例)的相机。所采集的图像可以被存储在存储组件202中以供进一步处理/分析。在其他实施例中，图像组件203可以是热图像相机、夜视相机或能够采集与操作者相对应的图像的任何其他合适的设备。

在具体实施例中，距离测量组件205被配置为测量操作者20和系统200之间的距离。在一些实施例中，距离测量组件205可以包括通过发射/接收合适的信号(光、激光等)来测量对象之间的距离的飞行时间(ToF)传感器。在一些实施例中，距离测量组件205可以是距离相机或包括距离相机。在其他实施例中，距离测量组件205可以是能够生成与操作者20相关联的二维距离/深度图像的任何合适的设备或包括所述任何合适的设备。以下将参考图4B进一步描述二维距离/深度图像的示例。所采集的距离信息可以被存储在存储组件202中以供进一步处理/分析。

所采集的图像和所测量的距离信息可以是有关系的或相关联的，使得系统200可以利用两者来识别(并且可选地，验证)操作者的姿势。例如，在一些实施例中，所采集的二维图像的坐标轴可以与二维距离/深度图像的坐标轴有关。通过这样做，系统200可以获得位于所采集的图像中的给定像素的距离信息，反之亦然(即，系统可以获得距离/深度图像中的给定像素的颜色信息)。以下将参考图4A和图4B详细讨论有关实施例。

在具体实施例中，分析组件207被配置为分析与操作者20相对应的所采集的图像和所测量的距离信息。系统200首先识别所采集的图像中的操作者。在一些实施例中，可以通过像素分析(例如，区分与操作者相对应的像素和与图像背景相对应的像素)来识别所采集的图像中的操作者。在一些实施例中，可以基于身体轮廓(例如，与热图像中的用户相对应的身体轮廓)来识别所采集的图像中的操作者。在一些实施例中，可以通过在所采集的图像上定位(或重叠)边界框(例如，图4A和图4B中所示的边界框，以下将更加详细地讨论)来识别所采集的图像中的操作者。在这类实施例中，系统200可以使用边界框来进一步识别所采集的图像中的操作者的姿势。例如，分析组件207可以基于所识别的操作者图像部分的边界线和边界框之间的交点(例如，图4A中的交点409)来识别姿势(以下将参考图4A和图4B讨论细节)。

在一些实施例中，一旦识别出所采集的图像中的操作者，分析组件207然后就可以分析与操作者相对应的所测量的距离信息(例如，整个二维深度图像的一部分)，以识别操作者的姿势。例如，分析组件207可以首先识别二维深度图像中的操作者的若干身体部位(例如，头部、肩部、手臂、关节、腿部、手部、脚部、手指等)。分析组件207然后可以识别姿势。在一些实施例中，分析组件207可以查找特定类型的姿势。例如，当系统200处于长距离模式下时，分析组件207可以专注于识别手臂姿势。作为另一实施例，当系统200处于短距离模式下时，分析组件207可以专注于识别手部姿势。在一些实施例中，分析组件207可以基于涉及CNN模拟、RF计算、FSM自动机等的机器学习过程来识别操作者的姿势。

一旦姿势被识别，指令生成组件211就将对与所识别的姿势相关联的距离/深度信息做进一步处理。在一些实施例中，指令生成组件211可以基于涉及CNN模拟、RF计算、FSM自动机等的机器学习过程或基于训练分类器来生成指令。

在具体实施例中，验证组件209被配置为验证所识别的姿势的一致性。验证组件209可以首先跟踪与所识别姿势相关联的图像(例如，包括彩色图像和深度图像两者)一段时间(例如，1至5秒)，并存储这些图像(例如，存储多个相关的图像帧和距离图像帧)。验证组件209可以分析所存储的图像以查看这些图像中的所识别的姿势是否在帧之间是一致的。如果是，则系统200可以向前移动，其中指令生成组件211基于所识别的姿势形成对应的指令。如果否，则系统200可以通知操作者(例如，利用指示“姿势未能被识别”的视觉或音频信号)或继续识别另一姿势。在一些实施例中，验证组件209可以通过比较所识别的姿势与位于(远程或本地)数据库中的参考信息(例如，来自多个操作者的手部姿势深度信息的参考集合)来验证所识别的姿势。验证组件209执行看门任务以保证姿势识别过程的准确性，且相应地确保由系统200执行的指令生成过程的准确性。

图3A是示出根据本技术的代表性实施例的图像相机301和距离相机303的视角的示意图。在具体实施例中，图像相机301被配置为采集操作者30的图像302或与操作者30相对应的图像302(例如，具有RGB像素的彩色图像)。所采集的图像302是由图像相机301以第一视角生成的，该第一视角可以是基于水平角度(例如，图3A中的角度A_h)、垂直角度(例如，图3A中的角度A_v)或对角线角度(图3A中的角度A_d)测量的。更具体地，用于采集图像302的图像相机301的第一视角决定了图像302的外观如何以及操作者30在图像302中位于何处(例如，操作者30可以位于图像的中央并占据图像302的全部图像区域的一半或四分之一)。

距离相机303(例如，具有距离传感器的设备，诸如ToF传感器)被配置为测量距离相机303和操作者30之间的距离。所测量的距离信息可以作为深度图304来呈现(例如，使用阴影或颜色来指示距离相机303和所测量的对象之间的距离)。深度图304是由距离相机301以第二视角生成的，该第二视角可以是基于水平角度(例如，图3A中的角度B_h)、垂直角度(例如，图3A中的角度B_v)或对角线角度(例如，图3A中的角度B_d)测量的。更具体地，用于测量距离的距离相机303的第二视角决定了深度图304的大小(例如，像素的数量，取决于深度图的分辨率)以及操作者30在深度图304中位于何处。

在图3A中所示的具体实施例中，图像相机301和距离相机303大体上定位在相同的位置处(例如，彼此相邻或一起位于相同的设备中，诸如以上参考图1描述的图像相机131)，并且第一视角和第二视角至少大致是相同的。因此，所采集的图像302和深度图304可以具有大体上相同的坐标轴(例如，图3A中所示的X轴和Y轴)，其用于识别所采集的图像302和深度图304的像素。例如，基于所采集的图像302中的给定位置(例如，与姿势相对应的像素)，可以快速地检索对应的深度信息(例如，与姿势相对应的深度信息)。类似地，基于深度图304中的给定位置，可以方便地获得所采集的图像302中的对应的图像部分。

在一些实施例中，第一视角和第二视角不需要大体上相同。在这类实施例中，所采集的图像302和深度图304的坐标可以是有关系的或相关联的(例如，经由变换)，使得它们可以交叉参考。在一些实施例中，所采集的图像302和深度图304的坐标可以是基于下式有关系的或相关联的。

在上面的等式(1)中，(u₁，v₁)是所采集的图像302的坐标，(u₂，v₂)是深度图像304的坐标。参数K₁和K₂是内部参考矩阵。参数R和T是表示距离相机303相对于图像相机301的旋转和平移的系数。参数α是比例参数。在上面的等式中，参数K₁、K₂和T是固定的，并且可以是基于实证研究(例如，通过基于等式中的已知的坐标集合来计算未知的参数)来计算的。当托架角(指示相对水平面的旋转的角度；例如，图3C中的角度θ)为零时，则参数R是单位矩阵。基于以上等式(1)，所采集的图像302和深度图像304的坐标可以是有关系的或相关联的。

在具体实施例中，本技术可以通过分析所采集的图像302和深度图304的分辨率(被称作“分辨率分析”)来确定如何分析所采集的图像302和深度图304。例如，在所采集的图像302具有相对较高的分辨率的实施例中，其中该相对较高的分辨率使系统能够初始识别操作者30的姿势，系统可以首先仅基于所采集的图像302识别该姿势，然后使用深度图304来验证所识别的姿势。类似地，在所采集的深度图304具有相对较高的分辨率的实施例中，其中该相对较高的分辨率使系统能够初始识别操作者30的姿势，系统可以首先仅基于所采集的深度图304识别该姿势，然后使用所采集的图像302来验证所识别的姿势。通过这种安排，本技术可以通过具有不同分辨率的各种类型(图像或距离)的相机来实现。

图3B和图3C是示出根据本技术的代表性实施例的基于托架角θ的深度图像调整的部分示意图。在图3B中，托架角θ是零，意味着距离相机305的光轴平行于水平面。在这类实施例中，操作者30的基本深度图像在操作者的整个图像上大体上是相同的，因此可以容易地识别由操作者30的姿势引起的深度变化。因此，对于这类实施例，无需基于托架角θ执行深度图像调整。然而，在图3C中所示的实施例中，距离相机305的光轴与水平面形成了一角度(即，托架角θ)。因此，当拍摄操作者30的深度图像时，操作者30的基本深度图像在操作者的整个图像上不相同(例如，深度图像从操作者的头部到脚趾增加)，因此不能容易地识别由操作者30的姿势引起的深度变化。

深度图像可以通过以下等式(2)进行调整。原始深度图像中的点可以被描述为P＝(u，v，z)。参数u表示深度图像的X坐标(例如，图3A中所示的X轴)的值，且参数v表示深度图像的Y坐标(例如，图3A中所示的Y轴)的值。参数z表示深度图中的深度值。参数S表示Sinθ，参数C表示Cosθ，参数f是旋转矩阵的系数。调整后的点P可以被描述为(u，v，z’)。换句话说，在深度图像调整之后，深度值z可以由z’取代。在不被理论约束的情况下，相信深度图像调整为识别深度图像中的姿势提供了比没有深度图像调整更好的结果。

图3D和图3E示出了执行深度图像调整之前和已经执行了深度图像调整之后的图像。图3D是没有深度图像调整的原始深度图，图3E是具有调整后的深度值(例如，z’)的调整后的深度图。图3D/3E是基于阈值深度值在深度图中确定的。例如，图3D/3E由从较低深度阈值(D_min)到较高深度阈值(D_max)的像素构成。如图所示，图3E中的操作者的手臂姿势比图3D中的操作者的手臂姿势更加清楚。

图4A和图4B是示出根据本技术的代表性实施例的通过图像采集组件和距离测量组件采集的图像的部分示意图。图4A示出了具有与操作者(例如，以上所示的操作者20或30)相对应的图像部分403和背景图像部分405的彩色图像402。图4B示出了具有与操作者相对应的深度图像部分406和背景图像部分408的深度图404。注意，深度图404中的不同阴影反映了距离相机和所测量的对象(例如，操作者、背景结构等)之间的不同距离。彩色图像402和深度图404的坐标是有关系的或相关联的(如以上所讨论的)，使得它们可以容易地交叉参考。

如图4A和图4B所示，可以通过边界框407来在彩色图像402中识别图像部分403。在一些实施例中，相关系统(例如，系统200)可以在彩色图像402上布置(或重叠)边界框407，使得与操作者相对应的图像部分403的至少一部分可以被边界框407围绕。系统然后可以通过识别图像部分403和边界框407之间的交点409来识别彩色图像402中的操作者的身体部位(例如，肩部关节或手臂)。系统可以基于交点409来识别姿势。

在具体实施例中，边界框407为矩形。在一些实施例中，边界框407可以为椭圆形。在其他实施例中，边界框407可以具有诸如正方形、圆形等不同的形状。在一些实施例中，边界框407可以是基于用户输入来生成的(例如，用户通过用户界面从多个候选者中识别操作者)。在一些实施例中，边界框407可以由系统基于对彩色图像402的分析而生成(例如，以自动地识别与穿着有特定类型的衣服的人类操作者相关联的图像部分)。在一些实施例中，系统可以执行对象分析(例如，以具有哪种形状对于要分析的对象是优选的大致概念)，然后确定边界框407的类型(例如，为站立的人类操作者选择垂直的矩形的边界框)。

一旦交点409被识别，系统就可以前往深度图404，并获得与操作者相对应的深度信息(例如，手臂深度图像部分410)。系统可以基于这些身体部位的相对位置和对应的深度分析来进一步识别操作者的其他身体部位(例如，头部、肩部、手部、关节等)。因此，通过交叉参考彩色图像402和深度图404，系统可以有效地识别操作者的各种类型的身体姿势。在其他实施例中，系统可以初始地在深度图404上布置边界框407，然后以与以上讨论的方式相类似的方式获得彩色图像402中的姿势的图像。

在一些实施例中，例如，系统可以首先使用彩色图像202来识别边界框407(例如，不识别彩色图像202中的交点409)。系统可以将所识别的边界框407“映射”到深度图404，然后识别深度图像部分406和边界框407之间的交点409d。系统然后可以基于交点409d来识别姿势。在具体实施例中，交点409可以表示操作者的肩部关节。一旦系统定位了操作者的肩部关节，系统就可以至少部分地基于分析深度图像部分406来进一步定位其他身体部位。在具体实施例中，系统可以基于与深度图像部分406或边界框407相对应的深度信息来确定操作者的中心点。例如，系统可以通过计算与边界框407的上三分之二部分中的深度图像部分406相对应的深度像素的坐标的平均值来确定操作者的中心点。在确定了操作者的中心点之后，系统然后可以基于操作者的其他身体部位相对中心点的相对位置来确定操作者的其他身体部位(例如，头部、手臂、手部等)。一旦定位了这些身体部位，该系统然后就可以基于相关图像和距离信息来识别对应的姿势。

在一些实施例中，系统可以基于深度阈值来确定与深度图404中的操作者相对应的深度图像部分406。例如，系统可以将从较低的深度阈值(D_min)到较高的深度阈值(D_max)的像素视为与操作者相对应的深度图像部分406。在一些实施例中，较低和较高的深度阈值可以基于诸如ToF传感器的特征、背景深度信息、测量环境等各种因素来确定。

在一些实施例中，D_min和D_max可以基于以下等式(3)和等式(4)来确定。D_body表示操作者的代表性深度。在一些实施例中，D_body可以是基于所确定的深度图中的操作者的中心点来获得的(例如，系统可以查找与所确定的中心点相对应的深度图中的深度信息以获得D_body)。在一些实施例中，D_body可以是通过计算与深度图像部分406或边界框407(或其部分)相对应的深度信息的平均值来获得的。等式(3)和(4)中所使用的长度单位是米。参数“0.4”是基于关于人类身体的平均深度的实证研究来确定的。参数“0.5”可以根据系统中的距离传感器的类型而变化。

D_min＝max(0，D_body-0.4)【公式3】

D_max＝min(5，D_body+0.4)【公式4】

图5是示出根据本技术的代表性实施例的与操作者50相关联的姿势的部分示意图。如图5所示，与操作者相关联的姿势可以包括手臂姿势501、头部姿势503、肩部姿势505、关节姿势507、手部姿势509、手指姿势510、腿部姿势511、脚部姿势513或上述姿势中的任何两种或更多种姿势的组合。例如，操作者50可以通过使用他的右臂和左腿两者来形成组合的姿势。

图6是示出根据本技术的代表性实施例的用于控制可移动设备的方法600的流程图。方法600可以是通过来自操作者的请求而发起的。在块601处，所述方法生成与操作者相对应(例如，描绘)的图像。块603包括生成与操作者相对应的第一组距离信息。在一些实施例中，第一组距离信息可以是深度图图像。在块605处，方法600通过识别与操作者相对应的图像的一部分而继续。在一些实施例中，识别与操作者相对应的图像的一部分可以是操作者的身体部位的图像、操作者的图像、操作者或操作者的身体部位的轮廓、操作者或操作者的身体部位的边界线或框架等。

所述方法600然后至少部分地基于与操作者相对应的图像的所识别的部分来从第一组距离信息检索第二组距离信息。在一些实施例中，第二组距离信息可以是与操作者相关联的深度图图像的一部分。例如，第二组距离信息可以是身体骨架距离图像部分(body-frame distance-image portion)、手臂距离图像部分、手臂关节距离图像部分(arm-jointdistance-image portion)、肩部距离图像部分、手部距离图像部分、其他合适的身体部位距离图像部分或其组合。

在块609处，所述方法600至少部分地基于所述第二组距离信息来识别与所述操作者相关联的姿势。在一些实施例中，姿势可以是肢体、手臂姿势、手部姿势、手指姿势或其组合。在块611处，方法600基于姿势生成用于设备的指令。方法600然后返回。

图7是示出根据本技术的代表性实施例的用于控制可移动设备的另一方法700的实施例的流程。在块701处，响应于来自操作者的请求，相关系统(例如，系统200)生成与操作者相对应的图像。在块703处，系统响应于该请求，还生成与操作者相对应(例如，描绘)的第一组距离信息。在块705处，方法700通过识别与操作者相对应的图像的部分而继续。在块707处，系统至少部分地基于与操作者相对应的图像的所识别的部分来从第一组距离信息中检索第二组距离信息。

在块709处，系统至少部分地基于所述第二组距离信息来确定与所述操作者相关联的姿势的类型。在一些实施例中，姿势的类型可以是至少部分地基于与预先存在的数据集的比较来确定的。此外，在块711处，系统基于姿势生成用于设备的指令。在一些实施例中，指令可以是基于机器学习过程来生成的。方法700然后返回。

从上文中可以理解，为了说明的目的，本文已经描述了本技术的具体实施例，但是可以在不偏离本技术的情况下做出各种修改。例如，以上在可移动设备的上下文中描述了具体实施例。在其他实施例中，可移动设备可以是包括UAV的不同的合适的设备。

此外，尽管已经在这些实施例的上下文中描述了与本技术的某些实施例相关联的优点，但是其他实施例也可以表现出这样的优点，并且并非所有实施例都需要显示出落入本技术范围内的优点。相应地，本公开和相关技术可以涵盖未在本文中明确示出或描述的其他实施例。

Claims

1.一种用于控制具有图像采集组件和距离测量组件的设备的方法，包括：

通过所述图像采集组件生成与操作者相对应的图像；

确定所生成的所述操作者的图像的视角；

通过所述距离测量组件并至少部分地基于所述视角生成与所述操作者相对应的第一组距离信息；

识别与所述操作者相对应的图像的一部分；

至少部分地基于与所述操作者相对应的图像的所识别的部分来从所述第一组距离信息检索第二组距离信息；

至少部分地基于所述第二组距离信息来识别与所述操作者相关联的姿势；以及

至少部分地基于所述姿势来生成用于所述设备的指令。

2.根据权利要求1所述的方法，还包括：至少部分地基于所述第一组距离信息来确定所述操作者和所述设备之间的距离。

3.根据权利要求2所述的方法，还包括：响应于所述距离大于预先确定的阈值，分析所述第二组距离信息以识别与所述操作者相关联的手臂姿势。

4.根据权利要求3所述的方法，还包括：至少部分地基于与所述操作者相关联的身体骨架距离图像部分来识别所述手臂姿势，其中，所述身体骨架距离图像部分是至少部分地基于所述第二组距离信息来确定的。

5.根据权利要求3所述的方法，还包括：至少部分地基于与所述操作者相关联的手臂关节距离图像部分来识别所述手臂姿势，其中，所述手臂关节距离图像部分是至少部分地基于所述第二组距离信息来确定的。

6.根据权利要求3所述的方法，还包括：至少部分地基于与所述操作者相关联的肩部距离图像部分来识别所述手臂姿势，其中，所述肩部距离图像部分是至少部分地基于所述第二组距离信息来确定的。

7.根据权利要求3所述的方法，还包括：至少部分地基于与所述操作者相关联的手部距离图像部分来识别所述手臂姿势，其中，所述手部距离图像部分是至少部分地基于所述第二组距离信息来确定的。

8.根据权利要求2所述的方法，还包括：响应于所述距离小于预先确定的阈值，分析所述第二组距离信息以识别与所述操作者相关联的手部姿势。

9.根据权利要求8所述的方法，还包括：至少部分地基于与所述操作者相关联的手指距离图像部分来识别所述手部姿势，其中，所述手指距离图像部分是至少部分地基于所述第二组距离信息来确定的。

10.根据权利要求1至9中任一项所述的方法，其中，与所述操作者相对应的图像的所述部分是至少部分地基于相对于所述操作者的图像定位的边界框来识别的。

11.根据权利要求10所述的方法，其中，所述边界框为矩形。

12.根据权利要求10所述的方法，其中，所述边界框为圆形。

13.根据权利要求10所述的方法，其中，与所述操作者相关联的姿势是肢体姿势，并且其中所述方法还包括至少部分地基于所述边界框来识别所述肢体姿势。

14.根据权利要求13所述的方法，还包括：至少部分地基于与所述操作者相对应的图像的所述部分的边界线和所述边界框之间的交点来识别所述肢体姿势。

15.根据权利要求14所述的方法，其中，与所述操作者相对应的图像的所述部分的边界线包括与所述操作者相关联身体轮廓。

16.据权利要求14所述的方法，其中肢体姿势包括手臂姿势。

17.根据权利要求1至9中任一项所述的方法，还包括：

确定所生成的所述操作者的第一组距离信息的视角；以及

至少部分地基于所述视角来生成所述操作者的图像。

18.根据权利要求1至9中任一项所述的方法，还包括：

确定所述图像采集组件的第一分辨率；

确定所述距离测量组件的第二分辨率；以及

至少部分地基于所述第一分辨率和所述第二分辨率来生成分辨率分析结果。

19.根据权利要求18所述的方法，还包括：

至少部分地基于所述分辨率分析结果来生成所述操作者的图像和所述第一组距离信息之间的关系。

20.根据权利要求19所述的方法，其中，所述操作者的图像包括二维彩色图像，且其中所述第一组距离信息包括二维深度图像，并且所述方法还包括：

至少部分地基于所述分辨率分析结果来确定所述二维彩色图像的彩色像素和所述二维深度图像的深度像素之间的关系。

21.根据权利要求1至9中任一项所述的方法，其中，所述设备包括无人驾驶飞行器。

22.根据权利要求1至9中任一项所述的方法，其中，所述图像采集组件包括彩色感测相机。

23.根据权利要求1至9中任一项所述的方法，其中，所述距离测量组件包括飞行时间ToF传感器。

24.根据权利要求1至9中任一项所述的方法，其中，所述距离测量组件包括深度感测相机。

25.根据权利要求1至9中任一项所述的方法，其中，分析所述第二组距离信息以便识别与所述操作者相关联的姿势包括将所述第二组距离信息与预先确定的数据集进行比较。

26.根据权利要求1至9中任一项所述的方法，还包括：至少部分地基于与所述图像采集组件相关联的托架角来调整所述操作者的所述第一组距离信息。

27.根据权利要求1至9中任一项所述的方法，还包括：在生成用于所述设备的所述指令之前验证所识别的姿势。

28.根据权利要求27所述的方法，其中，在生成用于所述设备的所述指令之前验证所识别的姿势包括：

存储与所述图像的所识别的部分相关联的多个图像帧；以及

针对彼此的一致性分析每个图像帧。

29.根据权利要求27所述的方法，其中，在生成用于所述设备的所述指令之前验证所识别的姿势包括：

存储与所述第二组距离信息相关联的多个距离图像帧；以及

针对彼此的一致性分析每个距离图像帧。

30.一种装置，包括：

处理器；

图像采集组件，与所述处理器相耦接；

距离测量组件，与所述处理器相耦接；以及

计算机可读介质，与所述处理器相耦接且编程有指令，其中当所述指令被执行时执行以下操作：

响应于来自操作者的请求，通过所述图像采集组件生成与所述操作者相对应的图像；

确定所生成的所述操作者的图像的视角；

响应于所述请求，通过所述距离测量组件并至少部分地基于所述视角生成与所述操作者相对应的第一组距离信息；

识别与所述操作者相对应的图像的一部分；

至少部分地基于所述第二组距离信息来确定与所述操作者相关联的姿势的类型；以及

至少部分地基于所述姿势来生成用于所述装置的指令。

31.根据权利要求30所述的装置，其中，所述姿势的类型包括以下项之一：手部姿势、肢体姿势或身体姿势。

32.根据权利要求30和31中任一项所述的装置，其中，当所述指令被执行时执行以下操作：

通过训练分类器分析所述第二组距离信息以生成分析结果。

33.根据权利要求30和31中任一项所述的装置，其中，当所述指令被执行时执行以下操作：

通过有限状态机分析所述第二组距离信息以生成分析结果。

34.根据权利要求30和31中任一项所述的装置，其中，当所述指令被执行时执行以下操作：

通过随机森林训练组件分析所述第二组距离信息以生成分析结果。

35.根据权利要求30和31中任一项所述的装置，其中，当所述指令被执行时执行以下操作：

至少部分地基于所述第一组距离信息来确定所述操作者和所述装置之间的距离；以及

至少部分地基于所述距离来识别与所述操作者相关联的姿势。

36.根据权利要求30和31中任一项所述的装置，其中，与所述操作者相对应的图像的所述部分是至少部分地基于相对于所述操作者的图像定位的边界框来识别的。

37.根据权利要求36所述的装置，其中，所述边界框的形状是至少部分地基于用户输入来确定的。

38.根据权利要求36所述的装置，其中，所述边界框的形状是至少部分地基于所述操作者的图像的对象分析来确定的。

39.根据权利要求38所述的装置，其中，所述对象分析包括确定所述操作者的图像中所述操作者的轮廓。

40.根据权利要求30和31中任一项所述的装置，其中，当所述指令被执行时执行以下操作：

在存储组件中存储所述姿势的类型；以及

向远程设备发送所述姿势的类型。

41.一种用于配置无人驾驶飞行器UAV控制器的方法，包括：

利用指令对计算机可读介质进行编程，当所述指令被执行时执行以下操作：

响应于来自操作者的请求，生成与所述操作者相对应的图像；

确定所生成的所述操作者的图像的视角；

响应于所述请求，至少部分地基于所述视角生成与所述操作者相对应的第一组距离信息；

识别与所述操作者相对应的图像的一部分；

至少部分地基于所述姿势来生成用于控制所述UAV的指令。

42.根据权利要求41所述的方法，其中，当所述指令被执行时执行以下操作：

至少部分地基于所述第一组距离信息来确定所述操作者和所述UAV之间的距离，其中，所述姿势是至少部分地基于所述距离来识别的；以及

至少部分地基于边界框来识别与所述操作者相对应的图像的所述部分。

43.根据权利要求41和42中的任一项所述的方法，其中，所述UAV携带相机和深度传感器，并且其中，当所述指令被执行时执行以下操作：

通过所述相机生成与所述操作者相对应的图像；以及

通过所述深度传感器生成与所述操作者相对应的第一组距离信息。

44.根据权利要求41和42中的任一项所述的方法，其中，所述UAV携带指令生成组件，并且其中，当所述指令被执行时执行以下操作：

通过所述指令生成组件将所述姿势与和所述姿势相关联的一组预先确定的参考数据进行比较。

45.一种用于控制无人驾驶飞行器UAV的装置，包括：

处理器；以及

计算机可读介质，耦接到所述处理器且编程有指令，当所述指令被执行时执行以下操作：

确定所生成的所述操作者的图像的视角；

识别与所述操作者相对应的图像的一部分；

至少部分地基于所述姿势来生成用于控制所述UAV的指令。

46.根据权利要求45所述的装置，其中，当所述指令被执行时执行以下操作：

至少部分地基于所述第一组距离信息来确定所述操作者和所述UAV之间的距离。

47.根据权利要求46所述的装置，其中，所述姿势是至少部分地基于所述距离来识别的。

48.根据权利要求45至47中任一项所述的装置，其中，与所述操作者相对应的图像的所述部分是至少部分地基于相对于与所述操作者相对应的图像定位的边界框来识别的。

49.根据权利要求48所述的装置，还包括：至少部分地基于与所述操作者相对应的图像的所述部分的边界线和所述边界框之间的交点来识别所述姿势。