CN108885469B

CN108885469B - 用于在跟踪系统中初始化目标物体的系统和方法

Info

Publication number: CN108885469B
Application number: CN201680083306.5A
Authority: CN
Inventors: 封旭阳; 赵丛; 杨喆
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2022-04-26
Anticipated expiration: 2036-09-27
Also published as: US20180365839A1; CN108885469A; WO2018058307A1

Abstract

所公开的实施例包括被配置为跟踪系统的交互式和自动初始化的方法、设备、系统和UAV。所公开的实施例观察可移动物体的周围环境中的感兴趣物体并检测该感兴趣物体的特征，其充当用于自动初始化跟踪系统的触发。结果，所公开的实施例可以针对初始化机器人系统提供效率和可靠性。

Description

用于在跟踪系统中初始化目标物体的系统和方法

技术领域

本公开大体上涉及跟踪移动物体，更具体地，涉及自动初始化跟踪系统的系统和方法。

背景技术

无人飞行器(“UAV”)一般称为无人机，包括可以由用户远程驾驶或由机载系统编程用于自主飞行的无人驾驶飞行器。通常，UAV可以配备有诸如相机、摄像机等的成像设备，其允许用户捕获图像或视频片段。成像设备还允许UAV通过使用跟踪系统智能地跟踪，即监控目标物体的位置。

发明内容

所公开的实施例包括被配置为提供可移动物体的自动初始化和目标物体的识别的方法和系统。所公开的实施例可以接收图像，提取图像的前景，识别前景中的目标物体以及跟踪目标物体。

在一些实施例中，例如，所公开的实施例可以结合GPS位置接收图像。所公开的实施例可以在可移动物体在平移飞行或悬停飞行之一中时，接收图像。所公开的实施例可以在可移动物体在平移飞行中时，计算可移动物体的相对速度或方向中的至少一个。

所公开的实施例可以选择用于跟踪的目标物体。例如，可以基于脸部识别、用户资料、运动检测或用户选择中的至少一个进行选择。在一些实施例中，如果目标物体与用户资料匹配，则可以在没有用户介入的情况下选择用于跟踪的所述目标物体。

在一些实施例中，可移动物体可以观察可移动物体的周围环境中的物体并检测物体的特征，作为用于初始化跟踪功能的触发。例如，观察可以包括通过一个或多个传感器实时地扫描周围环境并感测物体。一个或多个传感器可以包括视觉、超声波或声纳传感器中的至少一个。在一些实施例中，可以结合全球定位系统(GPS)定位来完成感测，其中GPS位置可以是可穿戴装置的位置。

在一些实施例中，跟踪功能可包括接收图像，提取图像的前景，识别前景中的物体以及跟踪物体。在这种实施例中，跟踪功能可以包括跟踪提供用于触发的特征的物体。可替代地，跟踪功能可以包括跟踪在跟踪功能中识别的第二物体。

在一些实施例中，检测包括检测与物体有关的运动学特征。运动学特征可以是手势。运动学特征还可以从可穿戴装置接收。在一些实施例中，检测可以包括识别物体的特征。例如，检测可以基于识别脸部特征来确定物体是否是已知用户。所公开的实施例还可以通过视觉通知来确认外部触发。在一些实施例中，所公开的实施例可以基于检测到的特征确定控制信号。

与所公开的实施例一致，所公开的实施例还可以通过接收图像，检测图像的属性，选择包含检测到的属性的图像的一部分以及通过神经网络处理图像的所选部分来识别目标物体。例如，神经网络可以是深度学习神经网络。在一些公开的实施例中，检测图像的属性可以包括检测图像中感知到的运动。在一些公开的实施例中，处理还可以确定与检测到的属性相对应的一组控制信号。

在所公开的实施例中描述的技术可以由任何设备、系统或制品执行，包括诸如UAV的可移动物体，或被配置为跟踪移动物体的任何其他系统。不同于现有的电子速度控制系统，所公开的实施例提供额外的可靠性和鲁棒性。应理解的是，前面的一般性描述和后面的详细描述都仅仅是示例性的和解释性的，而不限制权利要求中所限定的公开的实施例。

附图说明

附图被纳入并构成本说明书的一部分，其示出了若干个实施例，并且连同说明书一起用于解释所公开的原理。在附图中：

图1是可以用于提供与所公开的实施例一致的自动初始化系统的示例性系统的示意图。

图2是可以用于提供与所公开的实施例一致的自动初始化系统的示例性控制器的示意性框图。

图3是可以用于提供与所公开的实施例一致的自动初始化系统的示例性系统的示意性框图。

图4是示出与所公开的实施例的一致的可以执行的用于识别目标物体的示例性步骤序列的流程图。

图5a至图5d是示出与所公开的实施例一致的用于识别目标物体的图像处理的各阶段的示例性视图。

图6是示出与所公开的实施例一致的可以执行的用于自动地初始化跟踪系统的示例性步骤序列的流程图。

现将详细参考示例性公开的实施例，其示例在附图中示出并在本文中公开。方便的是，贯穿附图，相同的附图标记将用于表示相同或类似的部件。

具体实施方式

所公开的实施例提供了使用自动跟踪系统的UAV的智能控制，更具体地，提供了使用UAV自动地初始化跟踪系统的系统和方法。不同于现有技术，发明的系统和方法最小化了对用户干预的需要并允许增强的可用性和功能。

图1是用于执行与所公开的实施例一致的一个或多个操作的示例性系统100的示意图。系统100可以包括各种尺寸和配置的一个或多个可移动物体102。可移动物体102可以是例如可使用一个或多个机动螺旋桨104移动的UAV。尽管出于描述的示例性目的，可移动物体102在本文中被示出并描述为UAV，但是应理解的是，也可以将其他类型的可移动物体用于与本公开一致的实施例中，只要可移动物体可以被配置为经由如本文中所述的智能感测系统来操作和控制。由此，可移动物体可以是轮式物体(例如，汽车、自行车等)、航海物体(例如，船只)、空中物体(例如，飞行器、飞机、直升机、四轴飞行器、多旋翼飞行器等)等。如本文中使用的，术语UAV可以指被配置为自主地(即经由电子控制系统)操作和控制和/或由机外人员手动操作和控制的空中装置。

UAV 102可以包括至少一个飞行控制器106和一个或多个传感器108。飞行控制器106可以包括一个或多个处理器、存储器和用于与UAV 102中的其他组件或与系统100中的组件通信的I/O装置。例如，飞行控制器106可以被配置为与UAV 102的各种组件通信，包括但不限于加速度计、陀螺仪、惯性测量单元(IMU)、高度计、距离传感器、超声波传感器、声纳传感器、视觉传感器、全球定位系统(GPS)等。这些机载传感器108使UAV 102能够感测其周围环境并向UAV 102提供检测周围环境中的移动物体的能力。移动物体可以是由UAV 102感测的任何物体。例如，移动物体可以是用户。在许多应用中，UAV 102可以自主地跟踪用户，例如，拍摄自拍照片或动作视频。

飞行控制器106也可以被配置为使用无线通信装置110与系统100中的其他UAV102和/或用户装置112通信。飞行控制器106可以处理各种用户输入和/或机器数据，并提供UAV 102的自主控制。

UAV 102可以例如通过无线链接来与用户装置112通信。UAV 102可以包括用于经由任何适合的无线协议来与用户装置112通信的接口。用户装置112可以包括但不限于，通用计算机、计算机集群、终端、大型机、移动计算装置或能够接收用户输入的其他计算机装置。在这种背景下，移动计算装置可以包括但不限于，移动电话、智能电话、个人数字助理、平板电脑、笔记本电脑等。移动计算装置还可以包括可穿戴装置，诸如智能手表、健身跟踪器、戒指、手镯等。用户装置112还可以包括独立的遥控器。与所公开的实施例一致，用户装置112可以配备有各种传感器，包括但不限于，加速度计、陀螺仪、IMU、GPS等。

图2是可以使用的与所公开的实施例一致的示例性系统200的示意性框图。系统200或其变体可以用于实现包括例如UAV 102的系统100中的部件。系统200可以包括一个或多个处理器220、一个或多个I/O装置222和一个或多个存储器224，在一些实施例中，其可以在一个或多个控制器210中实现。在一些实施例中，系统200可以在飞行控制器106中实现。例如，系统200可以被实现为嵌入式系统，使得系统200可以是独立的嵌入式系统，或者其可以被实现为更大系统中的子系统，其中，使用较大系统的部分来执行系统200中的一个或多个操作。

处理器220可以包括一个或多个已知的处理装置。例如，处理器220可以是来自于由

制造的处理器系列、来自于由Advanced Micro Devices制造的处理器系列等。可替代地，处理器220可以基于

架构。在一些实施例中，处理器220可以是移动处理器。所公开的实施例不限于配置在控制器210中的任何类型的处理器。

I/O装置222可以是被配置为允许控制器210接收和/或发送数据的一个或多个装置。I/O装置222可以包括一个或多个通信装置和接口，以及任何必要的模数和数模转换器，以与其他机器和装置通信，如包括UAV 102和/或用户控制器104的系统100中的其他组件。在一些实施例中，I/O装置222可以使控制器210能够与UAV 102中各种机载传感器108通信和相接口。

存储器224可以包括一个或多个存储装置，该一个或多个存储装置被配置为存储由处理器220使用以执行与所公开的实施例有关的功能的软件指令。例如，存储器224可以被配置为存储诸如程序226之类的软件指令，当其由处理器220执行时，执行一个或多个操作以识别图像中的目标物体。所公开的实施例不限于被配置为执行专用任务的软件程序或装置。例如，存储器224可以包括执行所公开的实施例的功能的单个程序226，诸如用户级应用，或可以包括多个软件程序。另外，处理器220可以执行位于远离控制器210的一个或多个程序(或其部分)。例如，UAV 102可以经由用户装置112访问一个或多个远程软件应用，使得当被执行时，远程应用执行与所公开的实施例有关的功能中的至少一些，以自动地初始化跟踪系统。此外，存储器224可以包括被配置为存储由程序226使用的数据的一个或多个存储装置。

应理解的是，为了便于描述，在本文中任意地定义了为示例性系统100和200示出的功能构建块的配置和边界。可以定义备选的实施方式，只要规定的功能及其关系被适当地执行并落入本发明的范围和精神内。

图3是与所公开的实施例一致的用于自动地初始化跟踪系统的示例性系统300的简图。在现有跟踪系统中，初始化过程通常需要手动选择目标物体以便初始化跟踪系统以跟踪特定物体。然而这耗费时间且需要用户携带某种类型的遥控器。这是不方便的，特别是在某些动作运动中。其他现有跟踪系统可以使用GPS坐标来跟踪用户。这要求用户携带某种类型的具有GPS能力的遥控器，以便UAV识别并跟踪GPS坐标。此外，这种现有跟踪系统可能仅知道目标物体的大致位置，但不能实际识别目标物体。

与所公开的实施例一致，系统300中的UAV 102可以配备有各种传感器，其使UAV102能够实时观察目标物体，诸如UAV 102环境中的鸟302a或人302b。UAV 102可以检测与目标物体有关的特征，该特征充当外部触发，提示UAV 102自动地初始化其跟踪功能。

在一些实施例中，如图3所示，UAV 102可以配备有相机装置，其可以使UAV 102能够在视觉上感测其周围环境并自动地初始化跟踪系统。在这种实施例中，UAV 102可以接收由相机装置捕获的图像或视频数据流。UAV 102可以在视觉上观察其周围环境中可能的目标物体(例如，图3中的人和鸟)。在另一实施例中，UAV 102可以使用GPS位置来确定用于感测其周围的大致附近区域。例如，可以从人302b上的用户装置112(未示出)获得GPS位置。

UAV 102可以使用各种图像处理算法检测与目标物体有关的“触发”特征。例如，触发特征可以是目标物体的脸部特征、身体特征等。在这种示例中，UAV 102可以访问用户资料的数据库，用户资料的数据库包括与UAV 102的所有者或注册用户有关的信息。如果UAV102检测到触发特征之一与用户资料匹配，则该匹配可以自动地触发UAV 102以自动地初始化其跟踪系统。

可替代地，触发特征可以是运动学特征。“运动学特征”广泛地意指描述运动的任何特征；例如，位移、时间、速度、加速度等。运动学特征可以通过可见光来检测，或者，通过各种传感器来检测，所述传感器包括但不限于红外传感器、超声波传感器、惯性测量单元、加速度计、陀螺仪等。此外，可以结合用户装置112来检测运动学特征，用户装置112可以包括各种传感器，如惯性测量单元、加速度计、陀螺仪等。例如，人302b可以佩戴有诸如智能手表之类的可穿戴装置。在这种示例中，UAV 102可以通过使用智能手表中的惯性测量单元来检测例如手的位移。所公开的实施例不限于简化的示例。尽管如此，触发特征的检测可以充当触发，以自动地初始化跟踪功能。

在一些实施例中，UAV 102可以使用它的视觉跟踪系统来检测其周围的目标物体的触发特征。例如，UAV 102可以使用计算成像处理来处理其观察到的周围环境的图像。在这种示例中，UAV 102可以自动地确定背景区域和前景区域，其中前景区域一般包括运动学特征(例如，图3中的鸟302a和人302b的运动)。在一些实施例中，UAV 102可以通过检测图像中的运动自动地确定前景区域。例如，当UAV 102悬停在空中时，背景和任何静态的物体基本上不变化。因此，可以方便地提取图像中的任何运动。图4和图5a至图5d中示出了与运动前景提取有关的额外的细节。

在一些实施例中，UAV 102可以使用“深度学习”，即，高级神经网络应用。深度学习可以通过多层神经网络来实现。此外，深度学习可以允许UAV 102识别运动，或者物体本身。在这种实施例中，UAV 102可以在具有运动的图像中的大致区域的周围确定大致的边界框304a。如图3所示，该大致的边界框304a可以包括一个或多个移动物体(例如，飞翔的鸟302a或挥手的人302b)。尽管该示例性实施例使用了单个大致的边界框，但本领域普通技术人员将意识到所公开的实施例不限于此，并且可以使用多个大致的边界框，只要指定的功能被适当地执行。

在确定了移动物体周围的大致的边界框304a之后(例如，具有运动学特征的区域)，UAV 102可以使用深度学习算法来分析该大致的边界框304a。深度学习的一个普遍的用途是计算机视觉处理。例如，深度学习可以允许UAV 102准确地识别大致的边界框中的移动物体。例如，使用深度学习，UAV 102可以识别每个移动物体是人还是其他物体，诸如动物、移动的车辆等。如图3所示，UAV 102可以识别出框304b中的移动物体是人302b，框304c中的移动物体是鸟302a。

在一些实施例中，深度学习可以允许UAV 102识别其他特征。例如，深度学习可以允许脸部识别。在这种实施例中，UAV 102可以确定这个人是UAV 102的所有者还是注册用户。这可以允许UAV 102避免跟踪陌生人或诸如鸟之类的其他物体。深度学习还可以允许UAV 102确定特定的运动，给予UAV 102区分一般运动学特征(例如，飞翔的鸟，可能不需要其作为触发特征)与特定特征(例如，挥手的人，可能需要其作为触发特征)的能力。图6中示出了与使用深度学习来自动地初始化视觉跟踪系统有关的额外的细节。这为视觉跟踪系统提供了增强的跟踪能力，并且增加了跟踪控制的稳定性。

在一些实施例中，UAV 102可以确定可能需要被跟踪的物体周围的精细化的边界框304b、304c。在一些实施例中，UAV 102可以跟踪呈现触发特征的目标物体。可替代地，可以引导UAV 102跟踪可以在初始化期间被识别或由用户选择的另一目标物体。

本领域普通技术人员将意识到，使用深度学习的物体识别通常需要较高的计算能力和较大的存储器资源。由此，难以在嵌入式平台中实现深度学习。所公开的实施例利用运动前景提取来减少图像数据。由此，仅使用图像数据的一小部分来训练神经网络，有效地减少了不必要的计算并确保了在嵌入式平台中的实时的深度学习。因此，所公开的实施例可以实时地提供视觉跟踪系统的自动初始化。

图4示出了示出根据所公开的实施例的执行用于自动地确定大致的边界框的示例性过程400的步骤序列的流程图。图4的过程可以以软件、硬件或其任何组合来实现。出于解释而不是限制的目的，将在系统100的架构中描述过程400，使得所公开的过程可以由在UAV102中执行的软件来执行。

与所公开的实施例一致，在步骤402处，UAV 102可以捕获图像。图像可以是视频图像、静止图像等。在一些实施例中，UAV 102可以连续地扫描其周围环境，直到它检测到移动物体。可替代地，UAV 102可以使用GPS坐标来帮助它确定在何处捕获图像。例如，UAV 102可以从用户装置112接收指示用户装置112的位置的一组GPS坐标。在这种示例中，GPS坐标可以允许UAV 102知道用户装置112的大致位置。在一些实施例中，用户装置112可以是可穿戴装置，其可以向UAV 102提供一组GPS坐标。在这样的实施例中，UAV 102可以知道佩戴有可穿戴装置的用户的大致位置。

在步骤404处，UAV 102可以使用各种滤波器来降低来自所捕获的图像的噪声。例如，UAV 102可以使用高斯滤波器来去除噪声。可替代地，UAV 102可以使用任何其他合适的滤波器，包括线性滤波器、均值滤波器、中值滤波器等，用于降低噪声。

在步骤406处，UAV 102可以确定合适的背景模型，用于提取运动前景。背景模型充当运动前景提取的参考。例如，当UAV 102处于悬停飞行中时，背景和任何静态的物体可以在所捕获的图像中保持基本不变化。由此，通过使用静态的背景模型，可以分离运动前景和静态背景。例如，图5a示出了可以由UAV 102捕获的示例性图像。在图像中，用户是唯一的移动物体，如由图5b所示。因此，当可以将运动中的区域视为运动前景时，可以将静态的一切视为背景的一部分。

然而，在平移飞行期间，由于背景中的物体可以相对于UAV 102移动，因此图像包括活动的背景。因此，不同的背景模型可以更加适合平移飞行的情况。例如，可以使用已知的UAV 102的速度和方向来对图像进行分析以检测背景模型。UAV 102可以估计其运动的方向和速度，并使用这些估计来建立参考。因为UAV 102处于平移飞行中，所以图像中任何静止的物体应该以相同的对应的速度沿UAV 102的相反方向移动。由此，背景模型充当前景提取的参考。本领域普通技术人员将意识到，在与本公开一致的实施例中，也可以或可替代地使用其他的对背景进行建模的方法。

现在返回到图4，在步骤408处，UAV 102可以确定运动前景。在一些实施例中，UAV102可以使用背景减法来提取运动前景。在该过程期间，UAV 102可以将图像与所确定的背景模型相比较。通过减法，可以去除背景部分，留下运动前景。对于以上针对图5所讨论的示例，UAV 102可以使用静态的背景模型减去图像。图5c示出了由背景减法创建的结果图像。在与本公开一致的实施例中，也可以或可替代地使用其他合适的运动前景提取方法。

在步骤410处(图4)，UAV 102可以将各种已知的图像形态滤波器应用于提取的前景图像。形态学是一组图像处理操作，通过将每个像素与其相邻像素相比较，基于形状处理图像。在一些实施例中，将“腐蚀”操作应用于前景图像。腐蚀是去除图像中物体的边界上的像素的过程。例如，UAV 102可以为物体边界上的每个像素分配其所有相邻像素的最小值。由此，如果相邻像素中的任何像素被设置为0，则像素的值也被设置为0。因此，腐蚀操作可以用于移除前景中的任何伪像，该伪像可以是因噪声、相机抖动、背景模型的不准确等所导致的。腐蚀过程的结果是前景图像可以没有任何伪像和噪声。

在一些实施例中，可以应用“膨胀”操作。膨胀的效果是逐渐放大前景像素。与腐蚀相反，膨胀向图像中物体的边界添加像素。例如，UAV 102可以为物体边界上的每个像素分配其所有相邻像素的最大值。膨胀可以确保结果前景包含整个移动物体。图5d示出了在应用了腐蚀和膨胀操作之后创建的结果图像。在与本公开一致的实施例中，也可以或可替代地使用其他合适的执行图像形态学处理的方法。

在步骤412处(图4)，UAV 102可以对在步骤410处创建的结果图像执行“连通区域”分析。例如，UAV 102可以将某些标识符分配给在步骤410处创建的图像中的像素。可以将相同的标识符分配给连接到另一像素(例如，共享边界并具有相同的值)的任何像素。使用这个过程，UAV 102可以为每个连通区域(例如，具有相同的二进制值的相邻像素的区域)分配唯一的标识符。在与本公开一致的实施例中，也可以或可替代地使用其他合适的执行连通区域分析的方法。

一旦UAV 102通过将唯一的标识符分配给不同的像素区域而识别出连通区域，UAV102就可以检测目标物体。在步骤414处，UAV 102可以确定围绕所检测的目标物体的大致的边界框。

如以上所讨论的，UAV 102可以通过执行上述过程来减少图像数据，但所公开的实施例不限于这些示例。虽然为了方便起见以特别的顺序描述了所公开的实施例的步骤，但所公开的实施例的实践不限于此，并且可以以多种方式以及以不同的顺序来实现。

图6是示出与所公开的实施例一致的用于自动地初始化视觉跟踪系统的示例性过程600的步骤序列的流程图。图6的过程可以以软件、硬件或其任何组合来实现。出于解释而不是限制的目的，将在系统100的架构中描述过程600，使得所公开的过程可以由在UAV 102中执行的软件来执行。

在一些实施例中，UAV 102可以在启动期间直接进入初始化过程。在这种实施例中，从启动到跟踪目标物体的过程可以是完全自动的。在其他实施例中，用户可以选择在步骤602处开始初始化过程的自动初始化功能。

与所公开的实施例一致，UAV 102可以从其相机装置接收图像或视频数据的实况流。这允许UAV 102不仅感测其周围环境，而且为UAV 102提供在视觉上识别其目标物体的能力。在步骤604处，UAV 102可以执行各种计算图像分析以分离前景和背景。UAV 102可以执行各种图像预处理，例如确定背景模型。例如，当UAV 102处于悬停飞行中时，背景和任何静态的物体将保持基本不变化。在这种示例中，图像具有静态的背景。相反，在平移飞行期间，图像可以具有活动的背景。例如，背景应该沿与UAV 102的运动方向相反的方向远离，并且具有相同的对应的速度。通过确定其运动的方向和其估计的速度，UAV 102可以将背景模型确定为用于进一步图像处理的参考。其他背景模型也可以是可能的。在步骤606处，UAV102可以执行降噪以从图像中移除噪声。

在步骤608处，UAV 102可以提取运动前景。一种可能的方法是背景减法，其允许UAV 102检测其视场内的移动物体。例如，当UAV 102处于悬停飞行中时，背景和任何静态的物体将保持基本上不变化。通过找到先前图像和当前图像之间的差异，可以从图像中消除背景和静态物体。因此，在图像中可以仅保留运动。由此，背景减法可以提取运动前景并消除静态背景。然而，如以上所讨论的，该过程不限于悬停飞行。类似地，可以在平移飞行期间提取运动前景。例如，UAV 102可以基于其运动和其估计的速度确定背景模型。因此，可以将以未预想的方向或速度移动的任何物体提取为运动前景。在步骤608处，在检测到移动物体之后，UAV 102可以使用大致的边界框(例如，图3中的大致的边界框304a)来定义运动前景。

通过提取运动前景显著地减少了图像数据，在步骤610处，UAV 102可以使用深度学习来执行物体识别。深度学习允许UAV 102准确地识别大致的边界框中的移动物体。例如，使用深度学习，UAV 102可以识别出大致的边界框中的移动物体，并将移动物体识别为人、车辆、动物、无生命物体等。本领域普通技术人员将意识到，深度学习可以根据训练数据集的质量将移动物体进一步区分为更细化的类别。

如图3所示，大致的边界框304a可以包含一个或多个移动物体。深度学习允许UAV102识别每个物体，并在每个识别出的物体周围定义精细化的边界框(例如，图3的细化的边界框304b、304c)。在一些实施例中，UAV 102可以使用深度学习来执行脸部识别，其可以允许UAV 102确定边界框中的人是所有者、注册用户还是陌生人。可替代地，深度学习可以识别出移动物体是车辆、动物。

在步骤612处(图6)，UAV 102可以识别移动物体并自动地初始化视觉跟踪系统。例如，如果在运动前景中存在唯一一个移动物体，则UAV 102将在其周围确定唯一一个精细化的边界框作为可能的目标物体。在这种情况下，UAV 102可以将该特定的可能的目标物体识别为用于跟踪的目标物体。当在运动前景中存在多于一个可能的目标物体时，如图3所示，UAV 102将在每个可能的目标物体周围确定精细化的边界框。在这种情况下，UAV 102可以识别每个可能的目标物体并使用多个可能的目标物体初始化视觉跟踪系统。

在一些实施例中，UAV 102可以提供视觉反馈以指示自动初始化过程完成。例如，UAV 102可以进行偏航旋转以面向用户或在用户的观看视角中定位自身。可替代地，视觉反馈可以包括闪烁的信号灯等。在其他实施例中，反馈可以是听得到的。

在一些实施例中，在自动初始化之后，UAV 102可以自动地进入跟踪模式，以跟踪所识别的可能的目标物体302。例如，用户可以在UAV 102中存储用户资料，该用户资料可以包含与用户或其他注册用户有关的信息。在这种示例中，用户资料可以包含用户的性别、尺寸、体形、脸部特征等。UAV 102可以将所识别的可能的目标物体302与存储的用户资料进行匹配，如果该匹配在某个置信范围内，则UAV 102可以自动地跟踪所识别的可能的目标物体302，作为目标物体。可替代地，如果UAV 102确定所识别的可能的目标物体302是陌生人(例如，匹配不在预定的置信范围内)，则UAV 102可以在进入跟踪模式之前等待来自于用户的确认。在这种实施例中，用户可以通过执行外部触发来确认跟踪，外部触发可以包括但不限于，诸如跳、移动、挥手、做手势等的物理运动，或在用户遥控器中选择目标物体。

在一些实施例中，UAV 102可以在进入跟踪模式之前等待确认。例如，UAV 102可以在进入跟踪模式之前等待外部触发。可替代地，UAV 102可以在自动初始化过程期间就已经识别出多个可能的目标物体。由此，可以存在一个或多个精细化的边界框，各自包含可能的目标物体。在这种实施例中，用户可以通过选择特定的边界框并向UAV 102发送该选择来经由遥控器确认目标物体。所公开的系统和方法不限于这些简化的示例，并且可以考虑其他的特征和特性，只要适当地执行了指定的功能即可。

虽然为了讨论的目的，已经针对UAV讨论了某些公开的实施例，但本领域技术人员将认识到所公开的用于识别目标物体的方法和系统的有用的应用。此外，尽管所公开的实施例的各方面被描述为与存储在存储器和其他有形的计算机可读存储介质中的数据相关联，但本领域技术人员将认识到，这些方面可以被存储在许多类型的有形的计算机可读介质上并且可以从其执行。此外，所公开的实施例的某些过程和步骤以特定的顺序描述，本领域技术人员将认识到所公开的实施例的实践不限于此，并且可以以许多方式来实现。因此，所公开的实施例不限于上述示例，而是由所附权利要求根据其全部等同物的范围来限定。

Claims

1.一种通过可移动物体跟踪目标物体的方法，应用于使用一个或多个机动螺旋桨移动的UAV，所述方法包括：

通过所述UAV上的相机装置观察所述可移动物体的周围环境中的物体；

检测所述物体的特征作为初始化跟踪功能的触发；所述触发初始化跟踪功能的特征包括运动学特征；其中，通过深度学习识别所述物体的运动，且通过深度学习能够使得所述UAV能够在具有运动的图像中的大致区域的周围确定大致的边界框；所述边界框包括一个或多个移动物体；

所述跟踪功能包括：

接收图像；

提取所述图像的运动前景，其中，使用所述边界框定义运动前景；

识别所述前景中的目标物体；以及

跟踪所述目标物体。

2.根据权利要求1所述的方法，包括：结合GPS位置接收所述图像。

3.根据权利要求1所述的方法，包括：当所述可移动物体在平移飞行或悬停飞行之一中时，接收所述图像。

4.根据权利要求3所述的方法，包括：当所述可移动物体在平移飞行中时，计算所述可移动物体的相对速度或方向中的至少一个。

5.根据权利要求1所述的方法，还包括：选择用于跟踪的所述目标物体。

6.根据权利要求5所述的方法，其中，所述选择基于以下中的至少一个：脸部识别、用户资料、运动检测或用户选择。

7.根据权利要求1所述的方法，还包括：如果所述目标物体与用户资料匹配，则在没有用户介入的情况下选择用于跟踪的所述目标物体。

8.根据权利要求1所述的方法，其中，所述提取包括检测所述图像的属性。

9.根据权利要求8所述的方法，其中，所述识别包括通过神经网络处理所述图像的前景以识别所述目标物体。

10.根据权利要求9所述的方法，其中，所述神经网络是深度学习神经网络。

11.根据权利要求8所述的方法，其中，检测所述图像的属性包括检测所述图像中的移动。

12.根据权利要求9所述的方法，其中，所述处理还包括确定与检测到的属性相对应的一组控制信号。

13.一种用于控制可移动物体的系统，应用于使用一个或多个机动螺旋桨移动的UAV，所述系统包括：

存储器，用于存储指令；以及

处理器，被配置为执行所述指令，以：

所述跟踪功能包括：

接收图像；提取所述图像的运动前景，其中，使用所述边界框定义运动前景；

识别所述前景中的目标物体；以及

跟踪所述目标物体。

14.根据权利要求13所述的系统，其中，接收所述图像与GPS位置相结合。

15.根据权利要求13所述的系统，其中，接收所述图像是在所述可移动物体在平移飞行或悬停飞行之一中时进行的。

16.根据权利要求15所述的系统，其中，所述处理器被配置为：当所述可移动物体在平移飞行中时，计算所述可移动物体的相对速度或方向中的至少一个。

17.根据权利要求13所述的系统，其中，所述处理器还被配置为：选择用于跟踪的所述目标物体。

18.根据权利要求17所述的系统，其中，所述选择基于以下中的至少一个：脸部识别、用户资料、运动检测或用户选择。

19.根据权利要求13所述的系统，其中，所述处理器还被配置为：如果所述目标物体与用户资料匹配，则在没有用户介入的情况下选择用于跟踪的所述目标物体。

20.根据权利要求13所述的系统，其中，所述提取包括检测所述图像的属性。

21.根据权利要求20所述的系统，其中，所述识别包括：通过神经网络处理所述图像的前景以识别所述目标物体。

22.根据权利要求21所述的系统，其中，所述神经网络是深度学习神经网络。

23.根据权利要求20所述的系统，其中，检测所述图像的属性包括检测所述图像中的移动。

24.根据权利要求23所述的系统，其中，所述处理器还被配置为：确定与所检测到的属性相对应的一组控制信号。

25.一种无人机(UAV)，包括：

一个或多个推进装置；以及

飞行控制器，与所述一个或多个推进装置通信并且被配置为控制所述UAV跟踪目标物体，所述飞行控制器具有存储器和处理器，所述存储器用于存储指令，所述处理器被配置为执行所述指令，以：

通过所述UAV上的相机装置观察可移动物体的周围环境中的物体；

所述跟踪功能包括：

接收图像；

识别所述前景中的目标物体；以及

跟踪所述目标物体。

26.根据权利要求25所述的UAV，其中，所述提取包括检测所述图像的属性。

27.根据权利要求25所述的UAV，其中，所述识别包括：通过神经网络处理所述图像的前景以识别所述目标物体。

28.一种用于存储指令的非暂时性计算机可读介质，应用于使用一个或多个机动螺旋桨移动的UAV，所述指令在由至少一个处理器执行时，使所述至少一个处理器执行控制目标物体的方法，所述方法包括：

通过所述UAV上的相机装置观察所述UAV的周围环境中的物体；

所述跟踪功能包括：

接收图像；

识别所述前景中的目标物体；以及

跟踪所述目标物体。

29.根据权利要求28所述的介质，其中，所述提取包括检测所述图像的属性。

30.根据权利要求28所述的介质，其中，所述识别包括：通过神经网络处理所述图像的前景以识别所述目标物体。

31.一种可移动物体的方法，应用于使用一个或多个机动螺旋桨移动的UAV，所述方法包括：

通过所述UAV上的相机装置观察所述可移动物体的周围环境中的物体；以及

检测所述物体的特征作为初始化跟踪功能的触发；所述触发初始化跟踪功能的特征包括运动学特征；其中，通过深度学习识别所述物体的运动，且通过深度学习能够使得所述UAV能够在具有运动的图像中的大致区域的周围确定大致的边界框；所述边界框包括一个或多个移动物体，使用所述边界框定义所述图像的运动前景。

32.根据权利要求31所述的方法，其中，所述观察包括：通过一个或多个传感器实时地扫描所述周围环境并感测所述物体。

33.根据权利要求32所述的方法，其中，所述一个或多个传感器包括视觉、超声波或声纳传感器中的至少一个。

34.根据权利要求32所述的方法，其中，所述感测结合全球定位系统(GPS)位置来完成。

35.根据权利要求34所述的方法，其中，所述GPS位置是可穿戴装置的位置。

36.根据权利要求31所述的方法，其中，所述跟踪功能包括：接收图像；提取所述图像的前景；识别所述前景中的所述物体；以及跟踪所述物体。

37.根据权利要求31所述的方法，其中，所述跟踪功能包括：跟踪提供用于触发的特征的所述物体。

38.根据权利要求31所述的方法，其中，所述跟踪功能包括：跟踪在所述跟踪功能中识别的第二物体。

39.根据权利要求31所述的方法，其中，所述检测包括：检测与所述物体有关的运动学特征。

40.根据权利要求39所述的方法，其中，所述运动学特征是手势。

41.根据权利要求39所述的方法，其中，所述运动学特征从可穿戴装置接收。

42.根据权利要求31所述的方法，其中，所述检测包括识别所述物体的特征。

43.根据权利要求31所述的方法，其中，所述检测包括：基于识别脸部特征来确定所述物体是否是已知用户。

44.根据权利要求31所述的方法，还包括：通过视觉通知来确认外部触发。

45.根据权利要求31所述的方法，其中，所述可移动物体在平移飞行或悬停飞行之一中。

46.根据权利要求45所述的方法，包括：当所述可移动物体在平移飞行中时，计算所述可移动物体的相对速度或方向中的至少一个。

47.根据权利要求31所述的方法，还包括：基于检测到的特征确定控制信号。

48.一种用于控制可移动物体的系统，应用于使用一个或多个机动螺旋桨移动的UAV，所述系统包括：

一个或多个传感器，被配置为观察所述可移动物体的周围环境；以及

飞行控制器，具有存储器和处理器，所述存储器用于存储指令，所述处理器被配置为执行所述指令，以：

49.根据权利要求48所述的系统，其中，所述观察包括：通过一个或多个传感器实时地扫描所述周围环境并感测所述物体。

50.根据权利要求48所述的系统，其中，所述一个或多个传感器包括视觉、超声波或声纳传感器中的至少一个。

51.根据权利要求49所述的系统，其中，所述感测结合全球定位系统(GPS)位置来完成。

52.根据权利要求51所述的系统，其中，所述GPS位置是可穿戴装置的位置。

53.根据权利要求48所述的系统，其中，所述跟踪功能包括：接收图像；提取所述图像的前景；识别所述前景中的所述物体；以及跟踪所述物体。

54.根据权利要求48所述的系统，其中，所述跟踪功能包括：跟踪提供用于触发的特征的所述物体。

55.根据权利要求48所述的系统，其中，所述跟踪功能包括：跟踪在所述跟踪功能中识别的第二物体。

56.根据权利要求48所述的系统，其中，所述检测包括：检测与所述物体有关的运动学特征。

57.根据权利要求56所述的系统，其中，所述运动学特征是手势。

58.根据权利要求56所述的系统，其中，所述运动学特征从可穿戴装置接收。

59.根据权利要求48所述的系统，其中，所述检测包括识别所述物体的特征。

60.根据权利要求48所述的系统，其中，所述检测包括：基于识别脸部特征来确定所述物体是否是已知用户。

61.根据权利要求48所述的系统，其中，所述处理器还被配置为：通过视觉通知来确认外部触发。

62.根据权利要求48所述的系统，其中，所述可移动物体是平移飞行或悬停飞行之一。

63.根据权利要求62所述的系统，包括：当所述可移动物体在平移飞行中时，计算所述可移动物体的相对速度或方向中的至少一个。

64.根据权利要求48所述的系统，其中，所述可移动物体还被配置为：基于检测到的特征确定控制信号。

65.一种无人机(UAV)，包括：

一个或多个传感器，被配置为观察可移动物体的周围环境；以及

检测物体的特征作为初始化跟踪功能的触发；所述触发初始化跟踪功能的特征包括运动学特征；其中，通过深度学习识别所述物体的运动，且通过深度学习能够使得所述UAV能够在具有运动的图像中的大致区域的周围确定大致的边界框；所述边界框包括一个或多个移动物体，使用所述边界框定义所述图像的运动前景。

66.一种用于存储指令的非暂时性计算机可读介质，应用于使用一个或多个机动螺旋桨移动的UAV，所述指令在由至少一个处理器执行时，使所述至少一个处理器执行控制可移动物体的方法，所述方法包括：