CN112740226A

CN112740226A - 基于人体指示的可移动物体的操作系统和方法

Info

Publication number: CN112740226A
Application number: CN202080005165.1A
Authority: CN
Inventors: 钱杰; 任创杰
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-04-30
Also published as: EP3931744A4; US20220137647A1; JP2021175175A; WO2021217430A1; EP3931744A1

Abstract

可移动物体的操作方法、设备(200)和非暂时性计算机可读介质，所述方法包括基于由可移动物体上的成像传感器(107)捕获的一个或多个图像，获取图像数据。所述一个或多个图像中的每个图像均包括第一人体的至少一部分。所述方法还包括基于图像数据，在成像传感器(107)的视场中识别第一人体的第一指示；以及响应于在成像传感器(107)的视场中识别到的第一人体的第一指示，使可移动物体进行操作。

Description

基于人体指示的可移动物体的操作系统和方法

技术领域

本公开总体上涉及可移动装置的操作，更具体地，涉及基于人体指示的可移动装置的操作装置和方法。

背景技术

无人机(UAV，有时称为“无人飞行器”)包括各种大小和配置的无人驾驶飞行器，可以由用户远程操作和/或被编程为自动飞行。无人机可以配备有相机以捕获图像和视频，从而实现各种目的，包括但不限于娱乐、监视、体育运动和航拍。

一般来说，用户被要求使用与无人机通信的二级装置(例如，控制器或移动电话)来操作无人机和无人机上的相机。但是，用户可能需要花费额外的精力和时间来学习、练习和掌握控制过程。另外，为了与无人机通信，用户需要将他或她的注意力转移到控制器或移动电话的操作上，因此用户经常对其正在进行的活动(例如，远足、会议、锻炼、庆祝活动等)分心。这样，当无人机变得越来越智能和强大以执行各种自主功能时，用户可能会因繁琐的体验而感到沮丧，甚至不愿使用无人机。因此，用户无法有效地充分利用无人机的智能和强大功能，并错过了用无人机上的相机及时记录感兴趣的对象的机会。

因此，需要一种改进的界面来操作无人机及其机载相机，以改善用户体验。

发明内容

根据本公开的实施例，提供了一种可移动物体的操作方法。所述方法包括基于由可移动物体上的成像传感器捕获的一个或多个图像，获取图像数据。所述一个或多个图像中的每个图像均包括第一人体的至少一部分。所述方法还包括基于图像数据，在成像传感器的视场中识别第一人体的第一指示。所述方法还包括响应于在成像传感器的视场中识别到的第一人体的第一指示，使可移动物体进行操作。

还提供了一种可移动物体的操作设备。所述设备包括一个或多个处理器和存储器。存储器与一个或多个处理器耦接，所述存储器上存储有指令，所述指令由一个或多个处理器执行时，使所述设备执行操作包括：基于由可移动物体上的成像传感器捕获的一个或多个图像，获取图像数据。所述一个或多个图像中的每个图像均包括第一人体的至少一部分。所述指令还使设备基于图像数据，在成像传感器的视场中识别第一人体的第一指示；以及响应于在成像传感器的视场中识别到的第一人体的第一指示，使可移动物体进行操作。

还提供了一种非暂时性计算机可读介质，其上存储有指令，所述指令在由处理器执行时使处理器执行操作包括：基于由可移动物体上的成像传感器捕获的一个或多个图像，获取图像数据。所述一个或多个图像中的每个图像均包括第一人体的至少一部分；基于图像数据，在成像传感器的视场中识别第一人体的第一指示；以及响应于在成像传感器的视场中识别到的第一人体的第一指示，使可移动物体进行操作。

应当理解，上文概括描述和下文的详细描述都只是示例性和说明性的，并不限制本公开所要求保护的。通过阅读说明书、权利要求书和附图，本发明的其他目的和特征将变得显而易见。

附图说明

图1示出了根据本公开的实施例的可移动物体的示例操作环境。

图2示出了根据本公开的实施例配置的设备的示例框图。

图3示出了根据本公开的实施例的操作无人机的示例过程的流程图。

图4A示出了根据本公开的实施例的人体上的关键物理点的分布的示例图。

图4B示出了根据本公开的实施例的关键物理点的可能位置的示例置信图。

图5示出了根据本公开的实施例的由可移动物体上的成像传感器捕获的一个或多个图像估计的身体指示来操作无人机的示例。

图6示出了根据本公开的实施例的由可移动物体上的成像装置捕获的一个或多个图像估计的身体指示来操作无人机的示例。

图7示出了根据本公开的实施例的由可移动物体上的成像装置捕获的一个或多个图像估计的身体指示来操作无人机的示例。

图8A-图8D示出了根据本公开实施例的使用一个或多个图像估计的身体指示来操作无人机的示例。

具体实施方式

以下详细描述参考附图。相同的附图标记尽可能表示相同或相似的部分。尽管本文描述了一些说明性实施例，但是可以对其修改、改变并且可以具有其他实施方式。例如，可以对附图中示出的部件进行替换、添加或修改。因此，以下详细描述不限于所公开的实施例和示例。相反，适当的范围由所附权利要求书限定。

根据本公开的实施例，提供了一种根据人体指示来操作无人机的方法和设备。人体指示可以包括静态身体姿势和身体移动。可以基于由无人机上的成像装置捕获的图像来识别人体指示。通过使用身体指示来操作无人机，用户可以在享受无人机功能的同时，更多地从事自己的活动。

图1示出了根据本公开的实施例的可移动物体的示例操作环境100，其中，可移动物体被设置为无人机(“UAV”)102。在一些实施例中，环境100包括无人机102。无人机102能够经由网络120通信地连接至一个或多个电子装置，包括遥控器130(在本文中也称为终端130)、移动装置140和服务器110(例如，基于云的服务器)，以便与一个或多个电子装置和/或与其他另外的装置和系统相互交换信息。在一些实施例中，网络120可以是有线和无线局域网(LAN)和/或广域网(WAN)的任何组合，例如，内联网、外联网和互联网。在一些实施例中，如本公开中所讨论的，网络120能够在一个或多个电子装置之间提供通信。例如，在无人机102移动期间，无人机102能够将一个或多个机载传感器(例如，成像传感器107和/或惯性测量单元(IMU)传感器)检测到的数据(例如，图像数据和/或运动数据)实时发送到处理数据的遥控器130、移动装置140和/或服务器110。另外，经处理的数据和/或操作指令可以在遥控器130、移动装置140和/或基于云的服务器110之间经由网络120彼此实时通信。此外，操作指令可以从遥控器130、移动装置140和/或基于云的服务器110实时发送到可移动物体102，以经由任何合适的通信技术来控制无人机102及无人机102的部件的飞行，通信技术可以包括诸如局域网(LAN)、广域网(WAN)(例如，因特网)、云环境、电信网络(例如，3G、4G)、WiFi、蓝牙、射频(RF)、红外(IR)或任何其他通信技术。

尽管环境100用于操作作为无人机102的可移动物体，但是可替代地，可以将可移动物体设置为在合适的介质(例如，表面、空气、水、铁轨、空间、地下等)上或介质内行进的任何其他合适的物体、装置、机构、系统或机器。可移动物体还可以是其他类型的可移动物体(例如，带轮物体、航海物体、机车物体、其他空中物体等)。如本公开中讨论的，无人机102指基于由无人机102上的一个或多个传感器(例如，成像传感器107、音频传感器、超声传感器和/或运动传感器等)检测到的命令，或经由电子控制系统(例如，带有控制无人机102的预编程指令)自动地或自主地操作和/或控制的空中装置。可选地或另外地，可以将无人机102配置为由机外操控者手动操作和/或控制(例如，如图1所示，经由遥控器130或移动装置140进行操作和/或控制)。

无人机102包括一个或多个推进装置104，并且无人机102可以携带有效载荷108(例如，成像传感器)。有效载荷108可以通过载体106连接至或附接至无人机102，载体106可以允许有效载荷108与无人机102之间相对移动一个或多个度。有效载荷108也可以直接安装到无人机102，而无需载体106。在一些实施例中，无人机102还可以包括与其他部件通信的感测系统、通信系统和机载控制器。

无人机102可以包括一个或多个(例如，1、2、3、3、4、5、10、15、20等)推进装置104。推进装置104位于各个位置(例如，无人机102的顶部、侧部、前部、后部、和/或底部)，用于无人机102的推进和转向。推进装置104是可操作的装置或系统，用于生成力以维持受控飞行。推进装置104可以共享动力源、或者可以分别单独包括动力源、或者可操作地连接至动力源，所述动力源为诸如马达(例如，电动马达、液压马达、气动马达等)、发动机(例如，内燃发动机、涡轮发动机等)、电池组之类，或者为这些动力源的组合。每个推进装置104还可以包括一个或多个旋转部件，该一个或多个旋转部件可驱动地连接至动力源(未示出)，用于参与力的生成，以维持受控飞行。例如，这些旋转部件可以包括转子、螺旋桨、叶片、喷嘴等，并且这些旋转部件可以在轴体、轮轴、轮子、液压系统、气动系统或其他传递来自动力源的动力的部件或系统上驱动或由轴体、轮轴、轮子、液压系统、气动系统或其他传递来自动力源的动力的部件或系统驱动。推进装置104和/或旋转部件可以相对彼此和/或关于无人机102是可调的(例如，可倾斜的)。可选地，推进装置104和旋转部件可以相对彼此和/或关于无人机102具有固定的取向。在一些实施例中，每个推进装置104可以是相同类型的。在其他实施例中，推进装置104可以是多种不同的类型。在一些实施例中，所有推进装置104可以被一致地控制(例如，全部具有相同的速度和/或角度)。在其他实施例中，一个或多个推进装置可以例如在速度和/或角度方面被独立地控制。

推进装置104可以被配置为沿一个或多个垂直和水平方向推进无人机102，并允许无人机102绕一个或多个轴旋转。即，推进装置104可以用于提供升力和/或推力，以产生和维持无人机102的平移和旋转移动。例如，推进装置104可以用于使无人机102能够达到并维持期望的高度、为在所有方向上的移动提供推力以及为无人机102提供转向。在一些实施例中，推进装置104可以使无人机102能够执行垂直起飞和降落(即，没有水平推力的起飞和降落)。推进装置104可以用于使得无人机102能够沿着多个轴移动和/或围绕多个轴移动。

在一些实施例中，有效载荷108包括传感装置。传感装置可以包括用于收集或生成数据或信息的装置，例如，勘测、跟踪和捕获目标(例如，物体、风景、照片或视频拍摄的对象等)的图像或视频的装置。传感装置可以包括成像传感器107，该成像传感器107用于收集可以生成图像的数据。如本文所公开的，可以对成像传感器107获取的图像数据进行处理和分析，以获取来自一个或多个用户的命令和指令，来操作无人机102和/或成像传感器107。在一些实施例中，成像传感器107可以包括照相机、摄像机、红外成像装置、紫外线成像装置、X射线装置、超声成像装置、雷达装置等。传感装置还可以包括或者可选地包括用于捕获音频数据的装置，例如，麦克风或超声探测器。传感装置还可以包括或可选地包括用于捕获视觉信号、音频信号和/或电磁信号的其他合适的传感器。

载体106可以包括一个或多个装置，以支撑有效载荷108和/或允许有效载荷108关于无人机102进行调整(例如，旋转)。例如，载体106可以是云台。如下文所述，载体106可以被配置为允许有效载荷108绕一个或多个轴旋转。在一些实施例中，载体106可以被配置为允许有效载荷108绕每个轴线旋转360°，以允许更好地控制有效载荷108的视角。在其他实施例中，载体106可以将有效载荷108绕其一个或多个轴的旋转范围限制为小于360°(例如，≤270°、≤210°、≤180°、≤120°、≤90°、≤45°、≤30°、≤15°等)。

载体106可以包括框架组件、一个或多个致动器构件以及一个或多个载体传感器。框架组件可以用于将有效载荷108耦接至无人机102，并且在一些实施例中，以允许有效载荷108关于无人机102移动。在一些实施例中，框架组件可以包括可彼此相对移动的一个或多个子框架或部件。致动器构件(未示出)用于相对于彼此驱动框架组件的部件，以提供有效载荷108关于无人机102的平移和/或旋转运动。在其他实施例中，致动器构件可以被配置为直接作用在有效载荷108上，以引起有效载荷108关于框架组件和无人机102的运动。致动器构件可以是或可以包括合适的致动器和/或力传递部件。例如，致动器构件可以包括电机，该电机用于与轮轴、轴体、轨道、传送带、链条、齿轮和/或其他部件一起向框架组件的部件和/或有效载荷108提供线性和/或旋转运动。

载体传感器(未示出)可以包括用于测量、感测、检测或确定载体106和/或有效载荷108的状态信息的装置。状态信息可以包括位置信息(例如，相对位置、取向、姿态、线位移、角位移等)、速度信息(例如，线速度、角速度等)、加速度信息(例如，线加速度、角速度等)和/或与载体106或有效载荷108的移动控制相关的其他信息。状态信息可以是独立的状态信息或关于无人机102的状态信息。载体传感器可以包括一个或多个类型的合适的传感器，例如，电位计、光学传感器、视觉传感器、磁传感器、运动或旋转传感器(例如，陀螺仪、加速度计、惯性传感器等)。载体传感器可以与载体106的各种部件(例如，框架组件的部件或致动器构件)相关联或附接至载体106的各种部件，或者载体传感器可以附接至无人机102。载体传感器可以用于经由有线或无线连接(例如，RFID、蓝牙、Wi-Fi、无线电、蜂窝等)与无人机102的机载控制器进行数据和信息的通信。由载体传感器生成并传送到机载控制器的数据和信息可以被机载控制器用于进一步处理，例如，用来确定无人机102和/或目标的状态信息。

载体106可以经由一个或多个阻尼元件(未示出)耦接至无人机102，该一个或多个阻尼元件用于减少或消除从无人机102传递到有效载荷108的不期望的冲击或其他力。阻尼元件可以是有源的、无源的或混合的(即，具有有源和无源的特性)。阻尼元件可以由任何合适的材料或材料的组合形成，这些材料包括固体、液体和气体。可压缩或可变形的材料，诸如橡胶、弹簧、凝胶、泡沫和/或其他材料可以用作阻尼元件。阻尼元件可以起到使有效载荷108与无人机102隔离和/或消散从无人机102传播到有效载荷108的力的作用。阻尼元件还可以包括用于提供阻尼效果的机构或装置，例如，活塞、弹簧、液压装置、气动装置、缓冲器、减震器和/或其他装置，或以上装置的组合。

无人机102的感测系统可以包括与一个或多个部件或与其他系统相关联的一个或多个机载传感器(未示出)。例如，感测系统可以包括传感器，该传感器确定与无人机102和/或目标相关的位置信息、速度信息和加速度信息。在一些实施例中，感测系统还可以包括上述载体传感器。感测系统的部件可以用于生成数据和信息，以(例如，由机载控制器或另一装置处理)确定关于无人机102、无人机102的部件和/或无人机102的目标的另外的信息。感测系统可以包括一个或多个传感器，用于感测无人机102的移动的一个或多个方面。例如，感测系统可以包括与如上所述的有效载荷108相关联的传感装置和/或另外的传感装置，例如，用于定位系统的定位传感器(例如，GPS、GLONASS、伽利略、北斗、GAGAN、RTK等)、运动传感器、惯性传感器(例如，IMU传感器、MIMU传感器等)、接近式传感器、成像装置107等。感测系统还可以包括提供与周围环境相关的数据或信息的传感器，例如，提供天气信息(例如，温度、压力、湿度等)、照明条件(例如，光源频率)、空气成分或附近的障碍物(例如，物体、建筑物、人、其他载运工具等)的传感器。

无人机102的通信系统可以用于使机载控制器能够与机外实体或其他合适的实体之间进行数据、信息、命令和/或其他类型的信号的通信，其中，所述机外实体为诸如遥控器130、移动装置140(例如，移动电话)、服务器110(例如，基于云的服务器)之类。通信系统可以包括发送和/或接收信号的一个或多个机载部件，例如，接收器、发送器或收发器，以用于单向或双向通信。通信系统的机载部件可以经由一个或多个通信网络与机外实体进行通信，所述通信网络为诸如无线电、蜂窝、蓝牙、Wi-Fi、RFID和/或其他类型的可用于发送指示数据、信息、命令的信号和/或其他信号的通信网络。例如，通信系统可以被配置为能够与机外装置(例如，遥控器130和/或移动装置140)之间进行通信，以提供在飞行期间用于控制无人机102的输入。

无人机102的机载控制器可以用于与无人机102上的各种装置(例如，通信系统和感测系统)进行通信。控制器还可与定位系统(例如，全球导航卫星系统或GNSS)通信以接收指示无人机102的位置的数据。机载控制器可以与各种其他类型的装置进行通信，包括气压计、惯性测量单元(IMU)、应答器等，以获取无人机102的定位信息和速度信息。机载控制器还可向一个或多个电子速度控制器(ESC)提供控制信号(例如，以脉冲或脉冲宽度调制信号的形式)，电子速度控制器可以用于控制一个或多个推进装置104。因此，机载控制器可以通过控制一个或多个电子速度控制器来控制无人机102的移动。

诸如遥控器130和/或移动装置140之类的机外装置可以用于接收输入，例如，来自用户的输入(例如，用户手动输入、用户语音输入、由无人机102上的成像传感器107捕获的用户体态)，并将指示输入的信号传送至控制器。基于来自用户的输入，机外装置可以生成对应的信号，该对应的信号指示一种或多种类型的信息，例如，用于(例如，通过推进装置104)移动或操纵无人机102、有效载荷108和/或载体106的控制数据(例如，信号)。机外装置还可以用于从无人机102接收数据和信息，例如，由有效载荷108收集的数据或与有效载荷108相关联的数据；操作数据，例如位置数据、速度数据、加速度数据、传感数据；以及其他与无人机102、无人机102的部件和/或无人机102的周围环境相关的数据和信息。如本公开中所讨论的，机外装置可以是遥控器130，该遥控器130具有物理杆、扳手、开关、可穿戴设备、可触摸显示器和/或按钮以用于控制飞行参数，以及具有显示装置以用于显示由成像传感器107捕获的图像信息。机外装置还可以包括移动装置140。该移动装置140包括具有相同目的的虚拟控件的显示屏或触摸屏(例如，智能手机或平板电脑)，并且可以在智能手机、平板电脑或它们的组合上使用应用程序。此外，机外装置可以包括服务器系统110。服务器系统110通信地耦接至网络120，以与遥控器130、移动装置140和/或无人机102进行信息通信。除遥控器130和/或移动装置140之外，服务器系统110也可以用于执行一个或多个功能或子功能。或者，服务器系统110可以结合遥控器130和/或移动装置140执行一个或多个功能或子功能。机外装置可以包括一个或多个通信装置，例如，天线或其他用于发送和/或接收信号的装置。机外装置还可以包括一个或多个输入装置，以用于接收来自用户的输入，并生成可与无人机102的机载控制器通信的输入信号，以便由控制器进行处理来操作无人机102。除飞行控制输入外，机外装置还可以接收用户输入的其他信息，例如，手动控制设置、自动控制设置、控制辅助设置和/或航拍设置。应当理解，机外装置的输入装置可以具有不同组合或布局，这些组合或布局均在本公开的范围内。

机外装置还可以包括用于显示信息的显示装置，例如，显示指示与无人机102的移动相关的信息或数据的信号和/或由无人机102(例如，结合有效载荷106)捕获的数据(例如，成像数据)。在一些实施例中，显示装置可以是用于显示信息以及接收用户输入的多功能显示装置。在一些实施例中，机外装置可以包括交互式图形界面(GUI)，以用于接收一个或多个用户输入。在一些实施例中，机外装置(例如，移动装置140)可以用于结合计算机应用程序(例如，“app”)工作，以在显示装置或任何合适电子装置(例如，蜂窝电话、平板电脑等)的多功能屏幕上提供交互式界面，以显示从无人机102接收的信息以及接收用户输入。

在一些实施例中，遥控器130或移动装置140的显示装置可以显示从无人机102接收的一个或多个图像(例如，由无人机102上的成像传感器107捕获)。在一些实施例中，无人机102还可以包括用于显示成像传感器107捕获的图像的显示装置。遥控器130、移动装置140和/或无人机102上的显示装置还可以包括交互器(例如，触摸屏)，以供用户识别或选择用户感兴趣的图像的部分。在一些实施例中，显示装置例如可以是附接至或固定于对应装置的整体部件。在其他实施例中，显示装置可以(例如，经由连接端口或无线通信链路)电连接至对应装置(以及可与对应装置断开连接)和/或通过安装装置(例如，通过夹持、夹扣、搭扣、钩挂、粘附或其他类型的安装装置)连接至对应装置。在一些实施例中，显示装置可以是诸如遥控器130、移动装置140(例如，蜂窝电话、平板电脑或个人数字助理)、服务器系统110、膝上型计算机或其他装置的电子装置的显示部件。

在一些实施例中，参考图1所讨论的一个或多个电子装置(例如，无人机102、服务器110、遥控器130或移动装置140)可以具有存储器和至少一个处理器，该一个或多个电子装置可以处理从无人机102上的成像传感器107捕获的一个或多个图像中获取的图像数据，以识别操控者的身体指示，该身体指示包括在一个图像中识别到的一个或多个固定不动的身体姿势、姿态或位置，或基于多个图像确定的身体移动。在一些实施例中，电子装置的存储器和处理器还用于确定与识别到的操控者的体态相对应的操作指令，以控制无人机102和/或成像传感器107。电子装置还用于将确定的操作指令(例如，基本与无人机102的飞行实时地)发送到无人机102和/或成像传感器107的相关控制和推进部件，以进行对应的控制和操作。

图2示出了根据本公开的实施例配置的设备200的示例框图。在一些实施例中，设备200可以是如图1中讨论的电子装置中的任何一者，例如，无人机102、遥控器130、移动装置140或服务器110。设备200包括：一个或多个处理器202、一个或多个网络或其他通信接口208、存储器212以及一个或多个通信总线210。一个或多个处理器202用于运行存储在存储器212中的模块、程序和/或指令，从而执行预定义的操作。一个或多个通信总线210用于互连以上部件。设备200还可以包括用户接口203，该用户接口203包括一个或多个输入装置204(例如，键盘、鼠标、触摸屏)以及一个或多个输出装置206(例如，显示器或扬声器)。

处理器202可以是任何合适的硬件处理器，例如，图像处理器、图像处理引擎、图像处理芯片、图形处理器(GPU)、微处理器、微控制器、中央处理器(CPU)、网络处理器(NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑装置、分立门或晶体管逻辑装置、分立硬件部件。

存储器212可以包括高速随机存取存储器，例如，DRAM、SRAM或其他随机存取固态存储器装置。在一些实施方式中，存储器212包括非易失性存储器，例如，一个或多个磁盘存储装置、光盘存储装置、闪存装置或其他非易失性固态存储装置。在一些实施方式中，存储器212包括远离处理器202定位的一个或多个存储装置。存储器212或存储器212内的一个或多个存储装置(例如，一个或多个非易失性存储装置)包括非暂时性计算机可读存储介质。在一些实施方式中，存储器212或存储器212的计算机可读存储介质存储一个或多个计算机程序指令(例如，模块)220以及数据库240或其子集，以用于执行如下文参考图3所讨论的过程300中的一个或多个步骤。存储器212还可以存储由成像传感器107捕获的供处理器202处理的图像、用于控制无人机102和成像传感器107的操作指令等。

在一些实施例中，设备200的存储器212可以包括操作系统214。操作系统214包括用于操控各种基本系统服务以及用于执行与硬件相关的任务的程序。设备200还可以包括网络通信模块216，该网络通信模块216用于经由通信网络接口208和一个或多个(有线或无线)通信网络120(例如，参考图1所讨论的因特网、其他广域网、局域网、城域网等)，将设备200连接至其他电子装置。

图3示出了根据本公开的实施例的操作无人机102的示例过程300的流程图。为了说明而非限制，过程300可以由图2中所示的设备200的一个或多个模块220和数据库240执行。例如，过程300的一个或多个步骤可以由无人机102、遥控器130、移动装置140、服务器110或其组合中运行的软件来执行。

在步骤302中，由图2所示的设备200的图像获取和处理模块222获取并处理图像数据。在一些实施例中，图像数据可以与如图1所示的无人机102上的成像传感器107捕获的一个或多个图像或视频镜头(例如，包括一系列图像帧)相关联。成像传感器107可以用于捕获周围环境的图像。如图1所示，周围环境可以包括一个或多个人150，或者人的一部分(例如，脸、手等)和/或物体(例如，树、地标等)。在一些实施例中，可以将所捕获的图像发送到无人机102上的图像获取和处理模块222，以处理图像数据。在一些实施例中，可以经由网络120或本公开中讨论的其他合适的通信技术，将所捕获的图像从无人机102发送到遥控器130、可移动装置140或服务器110中的图像获取和处理模块222。

在一些实施例中，成像传感器107捕获的图像或视频镜头可以是需要进一步处理的数据格式。例如，从成像传感器107获取的数据可能需要在生成其视觉表示之前转换为可显示的格式。在另一示例中，从成像传感器107获取的数据可能需要转换为包括数值信息的格式，数值信息可以应用于机器学习模型，以确定捕获的图像中包含的人的诸如体态、移动或身体姿势之类的身体指示。在一些实施例中，图像获取和处理模块222可以将所捕获的图像或视频镜头处理为适合于视觉表示(例如，如图1中的遥控器130或移动装置140的显示装置所示)的格式和/或适合于使用机器学习模型进行数据分析的格式。例如，图像获取和处理模块222可以根据图1所示的无人机102的视场160生成视觉表示，并且该视觉表示可以被发送到与遥控器130、移动装置140、无人机102或服务器110相关联的显示装置以进行显示。

过程300进行到子过程310，在所捕获的图像中执行人的检测。在一些实施例中，还可以使用一个或多个图像识别或计算机视觉过程对图像获取和处理模块222处理的视觉表示进行处理，以检测人体或人体的部分。在子过程310的步骤312中，可以由设备200的人检测模块224识别所捕获的图像中的一个或多个人体(例如，对应于图1中的人150)或人体的一部分。人检测模块224可以利用各种类型的仪器和/或技术来检测所捕获的图像中的人体或人体的一部分。例如，人检测模块224可以包括使用一个或多个人检测方法(例如，基于Haar特征的方法、基于方向梯度直方图(HOG)的方法、基于尺度不变特征变换(SIFT)的方法以及适用于人检测的深度卷积神经网络模型)的软件程序。

在子过程310的步骤314中，设备200的ROI确定模块226可以根据步骤312中识别到的人体，识别一个或多个感兴趣区域(ROI)。在一些实施例中，将与检测到的人体相关联的ROI预定义为围绕(例如，包围)该检测到的人体并且进一步放大(例如，扩展)在所捕获的图像中该检测到的人体的面积的矩形区域，因此，ROI能够包含并跟踪由对应人体执行的各种人的姿势和体态，例如，伸出或握住手臂、跳跃等。例如，可以将ROI预定义为在所捕获的图像中该检测到的人体的面积的2、3、4或5倍(例如，ROI＝h(图像中人的高度)×w(图像中人的宽度)×3)。可以将步骤314中与围绕识别到的ROI的矩形边界相关联的信息从ROI确定模块226发送到显示装置，由显示装置显示如步骤302所述的成像传感器107的视图。例如，如图1所示，围绕ROI的矩形边界142(例如，也称为“边界框142”)被可视地呈现在显示装置上。在一些其他示例中，可以可视地呈现多个边界框以围绕在成像传感器107的视图中(例如，实时地或非实时地)检测到的多个人体(例如，视图中的所有人体或者在预定范围内的一些人体)。在一些实施例中，最初可以为视图中所有检测到的人体显示边界框，接着在识别和指定一个或多个操控者(例如，通过检测预定义的身体指示)后，仅被指定的操控者在显示装置上被边界框围绕。在一些实施例中，可以将与步骤314中识别到的ROI相关联的数据从ROI确定模块226发送到对应模块，该对应模块在子过程320中执行身体指示估计。

过程300进行到子过程320，以在所捕获的图像中执行身体指示估计(例如，姿势估计和体态估计)。如本公开中所讨论的，身体指示可以包括基于多个图像识别的身体移动(例如，体态)。例如，身体移动可以包括以下至少之一：手部移动、手指移动、手掌移动、面部表情、头部移动、手臂移动、腿部移动以及躯干移动。身体指示还可以包括身体姿势，所述身体姿势与基于一个图像识别的人体的至少一部分固定不动的身体姿态或位置相关联。

在子过程320的步骤322中，通过设备200的关键物理点确定模块228，将步骤314中识别的ROI数据输入到机器学习模型(例如，存储在图2的数据库240中)。图4A为示出人体上关键物理点的分布的示例图。身体指示估计可以包括预测多个预选的人的关键物理点(例如，关节和体表标志)的位置，如图4A所示，例如，鼻子、左眼和右眼、左耳和右耳、左肩和右肩、左肘和右肘、左腕和右腕、左臀和右臀、左膝和右膝以及左踝和右踝等的位置。可以使用任何合适的深度卷积神经网络模型来预测关键物理点的位置。所预测的关键物理点的位置可以包括关键物理点的2D位置(例如，(x，y)坐标)或3D位置(例如，(x，y，z)坐标)。例如，如图3的步骤322所示，机器学习模型(例如，深度学习模型)的输入可以包括步骤314中识别到的ROI的图像数据，机器学习模型的输出可以包括表示关键物理点的位置的坐标，并且在输入层和输出层之间存在多个隐藏层。在应用深度学习模型确定用于操作无人机102的人体指示之前，可以使用训练数据对深度学习模型进行训练和测试。训练数据包括各种人体姿势和体态的图像数据以及对应的身体姿势和体态的标签数据。训练好的深度学习模型244可以存储在设备200的数据库240中。

在步骤324中，(例如，由关键物理点确定模块228)生成用于所预测的关键物理点的置信图。在步骤322中，可以使用深度学习模型来预测每个关键物理点的一个或多个可能位置，并为这些可能位置分配各自的置信度得分。图4B示出了被成像人的关键身体点的可能位置的示例置信图。参考图4B，例如可以为每个关键物理点生成置信图，例如，图4B所示的针对右肩的置信图402、针对左肩的置信图404以及针对右肘的置信图406。从被成像人的角度来看，置信图402显示左肩，置信图404显示右肩，以及置信图406显示左肘。还可以为多个关键物理点生成置信图。每个图上突出显示的部分(例如，圆圈)对应于一区域，该区域中很可能存在对应的关键物理点。可以将突出显示的部分(例如，圆圈)的面积预定义为图像中显示的人体的一定百分比(例如，置信区域＝h’×w’×k，其中h’为0.25×h，w’为0.25×w，k为当前人体指示估计过程中使用的物理关键点的数量)。例如，k可以为8，对应于左肩和右肩、左臀和右臀、左膝和右膝以及左踝和右踝。

例如，如图4B所示，置信图示出了当被成像人(例如，本公开中所讨论的操控者)处于某种体态或姿势(例如，如上文所讨论的，从被成像人的角度看的左肩、右肩和左肘)时，右肩、左肩和右肘各自很可能位于的突出显示区域。可以将置信图数据发送到与遥控器130、移动装置140、无人机102或服务器110相关联的显示装置以进行显示。

在步骤326中，进一步细化和验证步骤324中生成的置信图数据上的关键物理点的位置。可以通过使用深度学习模型细化关键物理点的位置。可以验证步骤324中确定的各个关键物理点的可能位置，以确定各个关键物理点在某个位置的存在是否是可行的。例如，如果使用深度学习模型确定的右肘的可能位置在左臂上，则确定这些位置对于右肘来说是不可能的，因此在接下来的确定身体指示的步骤中将不考虑这些位置。在一些实施例中，在步骤326中，所有物理关键点的置信图被一起考虑，以提高预测准确度，并基于两个或更多个关键物理点之间不可能的关联(例如，逻辑关联和物理关联)来排除不可能的位置。例如，左臀和右臀之间的距离会在普通人的正常范围内。另外，走路时左脚和右脚无法都向前伸展。

在步骤328中，由身体指示估计模块230根据关键物理点的经细化和验证的位置来确定身体指示(例如，身体姿势或身体移动)。例如，可以将一个图像中的关键物理点连接起来，以生成图像中一个或多个人体的身体姿势。在另一示例中，可以连接多个图像中的每个图像中的关键物理点，以确定每个图像的身体姿势，接着通过依次考虑多个图像中针对同一人体的身体姿势，确定身体移动。

在步骤330中，由操作指令生成模块232基于步骤328中确定的身体指示，来确定操作指令。可以根据与识别到的指示相关联的预定义准则来生成操作指令。在一些实施例中，可以预设人体指示和对应的操作指令之间的预定义关系(例如，身体指示-存储在存储器212中的操作指令规则242)，并将该预定义关系用于操作无人机102和/或无人机102上的成像传感器107。在一些实施例中，身体指示可以作为操作无人机102的触发指令。触发指令可以包括：响应于检测到身体指示被预定义为与动作相关联来执行该动作。在一个示例中，在肩上挥动手臂可以与将该人指定为操控者相关联。在另一示例中，举起双臂可以与将无人机102降落在地面上相关联。在又一示例中，检测朝向成像传感器107的某些动作(例如，跳跃、说“茄子”等)可以与为执行动作的人拍快照或视频相关联。在又一示例中，检测某些手势(例如，打响指、挥手等)可以与自动且自主地调整成像传感器107的一个或多个参数，以在不同的航拍模式(例如，存储在无人机控制数据246和航拍控制数据248中)之间切换相关联。航拍模式可以包括但不限于快照模式、短视频模式、慢动作视频模式、“QuickShots”模式(还包括子模式，例如，使无人机向后和向上飞行的同时使相机朝向识别到的操控者、使无人机围绕操控者盘旋、自动调整无人机和相机以拍摄包含操控者周围环境的全景图等)。在一些实施例中，关于触发指令，仅使用身体指示-操作指令规则242，但是没有具体跟踪人体指示的特性(例如，方向、幅度或速度)以分别生成具有对应参数的操作指令(例如，无人机命令的方向、幅度或速度)。

在一些实施例中，身体指示可以作为控制指令，以控制无人机102的操作。控制指令可以包括用于根据检测到的身体指示的一个或多个特性(例如，身体移动方向、速度、距离等)，控制无人机102和/或成像传感器107的一个或多个参数(例如，飞行方向、速度、距离、相机焦距、快门速度等)的指令。在一些实施例中，确定与身体指示相关联的一个或多个特性，并且可以根据所确定的一个或多个特性，生成操作指令，以操作无人机102和/或成像传感器107。例如，在确定操控者的手指所指的方向(例如，向上或向下等)的情况下，控制无人机102朝该方向飞行(例如，向上或向下飞行)。还可以控制无人机102根据操控者的手指的移动速度飞行。在另一示例中，在确定用户的指势(例如，捏、手指滑动)的幅度(例如，距离、长度等)和/或方向(例如，向内或向外)的情况下，控制成像装置107推近或拉远，推近或拉远与检测到的手势的方向和幅度成正比。与触发指令不同，人体指示的控制指令的特性(例如，方向、幅度或速度)被跟踪以生成具有对应参数(例如，无人机命令的方向、幅度或速度)的各个操作指令。

在一些实施例中，从多个用户检测到的身体指示可以在组活动期间操作无人机102和成像传感器107。例如，多个用户对成像传感器107执行某些动作(例如，通过他们的面部表情朝向成像传感器107说“茄子”、一起向上跳、在地面上滚动、朝向成像传感器107做出诸如“V”或框架手势的某些手势等)可以与控制成像传感器107拍摄多个用户的快照、开始录制多个用户的视频或开始录制多个用户的慢动作视频相关联。

如本公开中所讨论的，在步骤332中，可以经由任何适当的通信网络，将在步骤330中确定的操作指令发送到无人机102的机载控制器。设备200的对应模块(例如，身体指示估计模块230和/或操作指令生成模块232)可以向无人机102的机载控制器报告识别到的身体指示和/或所确定的操作指令。机载控制器可以控制无人机102的各种动作(例如，起飞或降落、上升或下降等)，调整无人机102的飞行路径(例如，在用户上方盘旋)，并控制成像传感器107(例如，改变航拍模式、推近或拉远、拍快照、拍摄视频等)。操作指令可以用于生成控制命令，以单独地或组合地调整推进装置104、载体106和成像传感器107的参数，从而根据操控者的身体指示来执行操作。在一些实施例中，可以首先由无人机102的机载控制器检查基于操控者的身体指示确定的操作指令，以确定执行对应的操作是否安全(例如，不具有与周围环境中的物体碰撞的风险等)。

图5示出了根据本公开的实施例的由无人机102的成像传感器107捕获的一个或多个图像估计的身体指示来操作无人机102的示例。如图5所示，在成像传感器107的视场内的多个人和物体552中的一个人550将一只手臂抬起到他的肩膀上方，并在成像传感器107处挥动。可以由成像传感器107捕获包含多个人和物体552的一个或多个图像，并且可以将图像数据提供给设备200(例如，图1的移动装置140、遥控器130、无人机102或服务器110)。如本文所讨论的，可以在所捕获的图像中检测一个或多个人体，并且可以获取与检测到的人体对应的ROI。可以通过显示装置502(例如，与图1的移动装置140、遥控器130、无人机102或服务器110相关联)上的边界框突出显示检测到的人体。可以使用深度学习模型(例如，图2的深度学习模型244)来处理ROI的图像数据，以确定关键物理点在各个人体上的位置。可以确定各个人体的对应身体指示(例如，身体姿势或体态)。当确定人的身体指示与操控者指定相关联时(例如，基于预定的身体指示-操作指令规则242进行确定)，将该人指定为操控者。

例如，如图5所示，可以确定在多个人和物体552中，人550在肩膀上方挥动他的手臂。根据存储在身体指示-操作指令规则242中的预定关系，可以确定操作指令，该操作指令将人550指定为控制无人机102的操控者。响应于将人550指定为操控者，操控者550将保持被选中状态(例如，操控者被放置在相机视野的中心、保持被聚焦并且在显示的图像中被边界框540围绕以可视地指示操控者身份)，或由无人机102和成像传感器107通过适当的跟踪算法自动跟踪。在指定操控者之后，将在成像传感器107的视野中跟踪人550的后续身体姿势或身体运动，以控制无人机102。即使视野中的其他人正在执行所有类型的身体姿势或移动(例如，抬起上臂指示狗站立，或握住狗的手掌与狗一起玩耍)，他们的身体指示也不会被跟踪或识别为控制无人机102的操作命令。可选地或另外地，可以将成像装置107在视场中捕获的人识别为(例如，通过对所捕获的图像执行面部识别)注册用户并将该捕获的人指定为无人机102的操控者。

在一些实施例中，在使无人机102进行操作之前，还确认人550是否意图使用身体姿势或体态来操作无人机102。例如，成像传感器107可能捕获不意图操作无人机102的人550，这些人550做无意识的姿势或体态(例如，抓挠头部、手臂、面部等)或有意识的姿势或体态(例如，给朋友展示指向的物体)。为了验证检测到和识别到的身体指示确实意图指示无人机102执行对应的操作，需要结合用于确定身体指示的关键物理点，进一步检查一些其他关键物理点。例如，除了确定人550在他的肩膀上方挥动手臂之外，还跟踪他的眼部和/或面部，以确定他是否面向成像传感器107。如果人550在他的肩膀上方挥动手臂的同时，正面面向和/或凝视成像传感器107，则确认其意图使用身体指示来操作无人机102。在另一示例中，在指示无人机102执行对应的操作之前，机载控制器可以等待预定义的短时间段(例如，1秒或2秒)，以查看人550是否仍然参与检测到的身体姿势或体态(例如，在肩膀上方挥动手臂)。如果检测到的身体姿势或体态的持续时间大于预定阈值时间段，则无人机102开始执行对应的操作。

图6示出了根据本公开的实施例的由无人机102的成像传感器107捕获的一个或多个图像估计的身体指示来操作无人机102的示例。如图6所示，人650可以被预先指定为无人机102的操控者，如显示装置602上显示的视觉表示上的周围边界框640所指示的。可以检测并确定人650将双臂抬起到他的肩膀上方。根据存储在身体指示-操作指令规则242中的预定准则，可以生成自动和自主地降落无人机102的操作指令并将该操作指令发送到无人机102。在一些实施例中，还可以确认操控者650是否确实意图使用他的肢体语言来控制无人机102。如图6所示，在确定操控者650意图使用他的身体指示来控制无人机102时，无人机102调整其控制参数以自动降落在地面上。

图7示出了根据本公开的实施例的由无人机102的成像传感器107捕获的一个或多个图像估计的身体指示来操作无人机102的示例。如图7所示，人750可以被预先指定为无人机102的操控者，如显示装置702上显示的视觉表示上的周围边界框740所指示的。在检测并确定人750跳到成像传感器107前方时，可以确定人750意图拍摄跳跃的照片。作为响应，可以生成拍摄空中跳跃的人750的快照或短视频的操作指令，并发送该操作指令以控制成像装置107。可以自动调整成像传感器107对应的参数(例如，焦距、快门速度、ISO等)，以使成像传感器107拍摄快照或视频。

图8A-图8D示出了根据本公开的实施例的由无人机102的成像传感器107捕获的一个或多个图像估计的身体指示来操作无人机102的示例。如图8A所示，在成像传感器107的视野中的人850可以被预先指定为操控者。当成像传感器107面向操控者850时，可以跟踪操控者850，以检测可用于操作无人机102的身体姿势或移动。如图8B所示，当检测到并确定操控者850向上指并将他的手指向上移动时，无人机102的上升速度和距离可以与操控者850的指势的移动速度和距离成正比。同时，成像传感器107自动地调整以保持面向操控者850。类似地，如图8C所示，当检测到并确定操控者850向下指并将他的手指向下移动时，无人机102的下降速度和距离可以与操控者850的指势的移动速度和距离成正比。成像传感器107可以自动地调整以保持面向操控者850。操控者850可以指向任何其他方向以指示无人机102朝对应方向飞行，同时保持成像传感器107面向操控者850。例如，如图8D所示，操控者850可以将他的手指在头上方盘旋的同时将他的手指向上指。作为响应，无人机102可以在操控者850上方的空中盘旋。无人机102的盘旋直径可以与操控者的手指盘旋运动的幅度成正比。在无人机102盘旋期间，成像传感器107可以自动调整为面向操控者850。例如，无人机102可以通过定位无人机102、载体106和有效载荷108以在成像传感器107的视野中将操控者850放置在相对固定的位置(例如，大约中心)，来自动跟踪操控者850。基于从所捕获的图像确定的操控者850的状态信息(例如，位置和/或运动信息)以及载体传感器和IMU传感器获取的无人机102、载体106和有效载荷108的状态信息(例如，位置、速度、方向、角度信息等)，可以(例如，由无人机102、遥控器130、移动装置140或服务器110的机载控制器)确定调整无人机102、载体106和有效载荷108所需的控制信息，以自动跟踪操控者850。该系统可以使用任何合适的对象跟踪算法和方法来生成控制信息，例如，基于内核的跟踪、轮廓跟踪、卡尔曼滤波器、粒子滤波器和/或合适的机器学习模型。可以将控制信息发送到机载控制器，以在操控者850移动时向跟踪操控者850的载体和有效载荷发送控制信号。例如，机载控制器可以响应于操控者850的移动而引导载体106和/或有效载荷108绕不同的轴旋转。

根据本公开的实施例，可以将手动操作和身体指示操作结合来控制无人机102。例如，用户可以握住无人机102并在无人机102的用户界面上手动选择智能自动跟随模式。接着，用户可以将无人机102放置在地面上。在进行自我检查并确定周围环境安全后，无人机102将自动起飞。接着，可以通过检测执行预定身体指示的人来识别操控者(例如，如图5所讨论的)，或者通过识别预先注册的用户(例如，通过面部表情)来识别操控者，或者通过选择出现在成像传感器107的预定范围内的第一个检测到的人来识别操控者。成像传感器107还可以跟踪操控者的身体姿势和移动，以用于进一步的操作指令。例如，成像传感器107可以在检测到操控者的手指向内或向外挤压的情况下，自动推进或拉远其相机视野。成像传感器107可以在检测到操控者进行某种活动(例如，在滑板时跳跃)时，调整其光学和电学参数来拍摄慢动作视频。如本公开中所讨论的，操控者还可以使用体态来改变无人机102的飞行参数(例如，飞行方向、角度、速度、高度)，或自动停止跟随并返回。例如，为了使无人机102返回，无人机102可以缓慢地接近操控者或预定位置以返回，并在地面上找到要降落的基本平坦的地域。

在另一示例中，身体指示可以用于指示成像传感器107执行各种自动航拍。例如，操控者可以握住无人机102，并在无人机102的用户界面上手动选择拍摄快捷视频和短视频的模式。接着，操控者可以将无人机102放置在地面上。在进行自我检查并确定周围环境安全后，无人机102将自动起飞。接着，可以使用如本公开中所讨论的任何合适的方法，识别经由身体指示操作无人机102的操控者。在一些实施例中，可以在成像装置107的视野中检测到一组人，并且在检测并确定该视野中该组人的预定义的身体姿势或体态(例如，“V”手势、“茄子”面部表情等)时，可以通过成像传感器107捕获该组人的图像或视频。无人机102可以参与各种预编程的航拍模式，操控者的体态或手势可以用于在不同的航拍模式之间进行切换。在一些实施例中，在成像传感器107捕获视频或一系列图像之前或期间，当无人机102检测到障碍物干扰成像传感器107的视野或对无人机102的安全构成风险时，成像传感器107可以停止操作。在完成视频或图像的捕获之后，无人机102可以自动返回并降落到起点。

在一些实施例中，过程300的步骤可以由如图1所示的多个电子装置执行。例如，可以由无人机102上的一个或多个模块处理图像数据，并执行人体检测310。可以由可能具有更大计算能力的其他实体(例如，移动装置140、服务器110或遥控器130)执行身体指示估计320，包括使用深度学习模型估计关键物理点位置和估计身体指示。本公开中讨论的各种网络通信信道能够处理无人机102飞行期间的实时数据传递。

应当理解，所公开的实施例在其应用中不必限于在以上描述中阐述和/或在附图和/或示例中示出的构建和安排的细节。所公开的实施例能够具有变体，或者能够以各种方式实践或实行。如本公开中所讨论的用户控制的类型可以等同地应用于其他类型的可移动物体或任何在诸如表面、空气、水、铁轨、空间、地下等合适介质之上或之内行进的合适的物体、装置、机构、系统或机器上。

对于本领域技术人员显而易见的是，可以对所公开的装置和系统进行各种修改和变型。通过考虑所公开的装置和系统的说明书和实践，其他实施例对于本领域技术人员将是显而易见的。说明书和示例仅被认为是示例性的，真正的范围由所附权利要求及其等同物指示。

Claims

1.一种可移动物体的操作方法，包括：

基于由所述可移动物体上的成像传感器捕获的一个或多个图像，获取图像数据，其中，所述一个或多个图像中的每个图像均包括第一人体的至少一部分；

基于所述图像数据，在所述成像传感器的视场中识别所述第一人体的第一指示；以及

响应于在所述成像传感器的视场中识别到的所述第一人体的第一指示，使所述可移动物体进行操作。

2.根据权利要求1所述的方法，还包括：

在所述一个或多个图像的每个图像中，检测包括所述第一人体的一个或多个人体；以及

基于所述一个或多个图像，确定与所述一个或多个人体各自相关联的指示。

3.根据权利要求2所述的方法，还包括：

确定所述第一指示满足预定义准则；以及

在确定所述第一人体的第一指示满足所述预定义准则的情况下，确定所述第一人体与操作所述可移动物体的操控者相关联。

4.根据权利要求2所述的方法，还包括：

通过对所述一个或多个图像执行面部识别，来确定所述第一人体与注册用户相关联；以及

在确定所述第一人体与所述注册用户相关联的情况下，确定所述注册用户为操作所述可移动物体的操控者。

5.根据权利要求2所述的方法，其中，通过对从所述一个或多个图像中获取的所述图像数据应用机器学习模型，来确定与所述一个或多个人体相关联的指示。

6.根据权利要求2所述的方法，其中，确定与所述一个或多个人体相关联的指示还包括：

确定所述一个或多个人体中的每个人体上的多个关键物理点各自的位置。

7.根据权利要求6所述的方法，还包括：

在显示装置上显示针对所述一个或多个人体中的至少一个人体的所述多个关键物理点的置信图。

8.根据权利要求2所述的方法，还包括：

在显示装置上显示一个或多个边界框，其中，所述一个或多个边界框各自围绕检测到的一个或多个人体。

9.根据权利要求2所述的方法，还包括：

确定与多个人体相关联的多个指示满足预定义准则；以及

响应于所述多个指示，使所述可移动物体进行操作。

10.根据权利要求1所述的方法，其中，使所述可移动物体进行操作还包括：

生成操作指令，以根据与识别到的所述第一指示相关联的预定义准则来操作所述可移动物体。

11.根据权利要求1所述的方法，还包括：

响应于识别到所述第一人体的第一指示，使所述可移动物体和所述成像传感器跟踪在所述成像传感器的视场中的所述第一人体。

12.根据权利要求1所述的方法，还包括：

确定所述第一人体的第一指示满足预定义准则；以及

在显示装置上显示围绕所述第一人体的第一边界框。

13.根据权利要求1所述的方法，还包括：

确定所述第一人体的第一指示满足预定义准则；以及

使所述可移动物体自主地降落。

14.根据权利要求1所述的方法，还包括：

确定所述第一人体的第一指示满足预定义准则；以及

使所述成像传感器自主地捕获所述第一人体的一个或多个图像。

15.根据权利要求1所述的方法，还包括：

确定所述第一人体的第一指示满足预定义准则；以及

使得自主调整所述成像传感器的一个或多个参数，以从第一拍摄模式改变为第二拍摄模式。

16.根据权利要求1所述的方法，还包括：

确定与所述第一人体的第一指示相关联的一个或多个特性；以及

根据所确定的所述一个或多个特性，使所述可移动物体进行操作。

17.根据权利要求1所述的方法，其中，所述第一人体的第一指示包括基于多个图像识别的身体移动，所述身体移动包括以下至少之一：手部移动、手指移动、手掌移动、面部表情、头部移动、手臂移动、腿部移动或躯干移动。

18.根据权利要求1所述的方法，其中，所述第一人体的第一指示包括身体姿势，所述身体姿势与基于一个图像识别的固定不动的身体姿态或位置相关联。

19.根据权利要求1所述的方法，还包括：

在使所述可移动物体进行操作之前，确认所述第一人体的第一指示意图操作所述可移动物体。

20.根据权利要求1所述的方法，其中，所述可移动物体是无人机UAV。

21.一种可移动物体的操作设备，包括：

一个或多个处理器；以及

存储器，耦接至所述一个或多个处理器，所述存储器上存储有指令，所述指令在由所述一个或多个处理器执行时，使所述设备执行操作包括：

22.根据权利要求21所述的设备，其中，所述存储器还存储有指令，以：

23.根据权利要求22所述的设备，其中，所述存储器还存储有指令，以：

确定所述第一指示满足预定义准则；以及

24.根据权利要求22所述的设备，其中，所述存储器还存储有指令，以：

25.根据权利要求22所述的设备，其中，通过对从所述一个或多个图像中获取的所述图像数据应用机器学习模型，来确定与所述一个或多个人体相关联的指示。

26.根据权利要求22所述的设备，其中，确定与所述一个或多个人体相关联的指示还包括：

27.根据权利要求26所述的设备，其中，所述存储器还存储有指令，以：

28.根据权利要求22所述的设备，其中，所述存储器还存储有指令，以：

在显示装置上显示一个或多个边界框，其中，所述一个或多个边界框各自围绕所检测到的一个或多个人体。

29.根据权利要求22所述的设备，其中，所述存储器还存储有指令，以：

确定与多个人体相关联的多个指示满足预定义准则；以及

响应于所述多个指示，使所述可移动物体进行操作。

30.根据权利要求21所述的设备，其中，使所述可移动物体进行操作还包括：

31.根据权利要求21所述的设备，其中，所述存储器还存储有指令，以：

32.根据权利要求21所述的设备，其中，所述存储器还存储有指令，以：

确定所述第一人体的第一指示满足预定义准则；以及

在显示装置上显示围绕所述第一人体的第一边界框。

33.根据权利要求21所述的设备，其中，所述存储器还存储有指令，以：

确定所述第一人体的第一指示满足预定义准则；以及

使所述可移动物体自主地降落。

34.根据权利要求21所述的设备，其中，所述存储器还存储有指令，以：

确定所述第一人体的第一指示满足预定义准则；以及

35.根据权利要求21所述的设备，其中，所述存储器还存储有指令，以：

确定所述第一人体的第一指示满足预定义准则；以及

36.根据权利要求21所述的设备，其中，所述存储器还存储有指令，以：

37.根据权利要求21所述的设备，其中，所述第一人体的第一指示包括基于多个图像识别的身体移动，所述身体移动包括以下至少之一：手部移动、手指移动、手掌移动、面部表情、头部移动、手臂移动、腿部移动或躯干移动。

38.根据权利要求21所述的设备，其中，所述第一人体的第一指示包括身体姿势，所述身体姿势与基于一个图像识别的固定不动的身体姿态或位置相关联。

39.根据权利要求21所述的设备，其中，所述存储器还存储有指令，以：

40.根据权利要求21所述的设备，其中，所述可移动物体是无人机UAV。

41.一种非暂时性计算机可读介质，其上存储有指令，所述指令在由处理器执行时使所述处理器执行操作包括：

基于由可移动物体上的成像传感器捕获的一个或多个图像，获取图像数据，其中，所述一个或多个图像中的每个图像均包括第一人体的至少一部分；

42.根据权利要求41所述的非暂时性计算机可读介质，还存储有指令，以：

43.根据权利要求42所述的非暂时性计算机可读介质，还存储有指令，以：

确定所述第一指示满足预定义准则；以及

44.根据权利要求42所述的非暂时性计算机可读介质，还存储有指令，以：

45.根据权利要求42所述的非暂时性计算机可读介质，其中，通过对从所述一个或多个图像中获取的所述图像数据应用机器学习模型，来确定所述一个或多个人体相关联的指示。

46.根据权利要求42所述的非暂时性计算机可读介质，其中，确定与所述一个或多个人体相关联的指示还包括：

47.根据权利要求46所述的非暂时性计算机可读介质，还存储有指令，以：

48.根据权利要求42所述的非暂时性计算机可读介质，还存储有指令，以：

在显示装置上显示一个或多个边界框，所述一个或多个边界框各自围绕所检测到的一个或多个人体。

49.根据权利要求42所述的非暂时性计算机可读介质，还存储有指令，用于：

确定与多个人体相关联的多个指示满足预定义准则；以及

响应于所述多个指示，使所述可移动物体进行操作。

50.根据权利要求41所述的非暂时性计算机可读介质，其中，使所述可移动物体进行操作还包括：

51.根据权利要求41所述的非暂时性计算机可读介质，还存储有指令，以：

52.根据权利要求41所述的非暂时性计算机可读介质，还存储有指令，以：

确定所述第一人体的第一指示满足预定义准则；以及

在显示装置上显示围绕所述第一人体的第一边界框。

53.根据权利要求41所述的非暂时性计算机可读介质，还存储有指令，以：

确定所述第一人体的第一指示满足预定义准则；以及

使所述可移动物体自主地降落。

54.根据权利要求41所述的非暂时性计算机可读介质，还存储有指令，以：

确定所述第一人体的第一指示满足预定义准则；以及

55.根据权利要求41所述的非暂时性计算机可读介质，还存储有指令，以：

确定所述第一人体的第一指示满足预定义准则；以及

56.根据权利要求41所述的非暂时性计算机可读介质，还存储有指令，以：

57.根据权利要求41所述的非暂时性计算机可读介质，其中，所述第一人体的第一指示包括基于多个图像识别的身体移动，所述身体移动包括以下至少之一：手部移动、手指移动、手掌移动、面部表情、头部移动、手臂移动、腿部移动或躯干移动。

58.根据权利要求41所述的非暂时性计算机可读介质，其中，所述第一人体的第一指示包括身体姿势，所述身体姿势与基于一个图像识别的固定不动的身体姿态或位置相关联。

59.根据权利要求41所述的非暂时性计算机可读介质，还存储有指令，以：

60.根据权利要求41所述的非暂时性计算机可读介质，其中，所述可移动物体是无人机UAV。