CN112119427A

CN112119427A - 目标跟随的方法、系统、可读存储介质和可移动平台

Info

Publication number: CN112119427A
Application number: CN201980031829.9A
Authority: CN
Inventors: 熊风; 薛立君; 苏铁
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-22
Also published as: US11748968B2; EP3989118A4; US20220124240A1; WO2020258258A1; EP3989118A1

Abstract

提供了一种目标跟随的方法、系统、可读存储介质和可移动平台，包括：获取用户对操作键的触发操作，并根据触发操作生成触发指令，以生成至少一个候选目标框(S201)，其中，触发指令用于运行预定的选框模式，预定的选框模式用于在预定的识别区域内生成候选目标框，候选目标框用于对应预定目标的特征部分；根据触发操作，在显示界面上显示的当前帧图片中显示候选目标框，以对应预定目标的特征部分(S202)；根据显示的候选目标框，获取用户对操作键进行的选框操作，并根据选框操作生成选框指令，以生成跟随目标框(S203)，其中，选框指令用于确定候选目标框中的至少一个为跟随目标框；根据跟随目标框，对目标进行跟随(S204)。

Description

目标跟随的方法、系统、可读存储介质和可移动平台

技术领域

本发明总地涉及目标跟随技术领域，更具体地涉及一种目标跟随的方法、系统、可读存储介质和可移动平台。

背景技术

手持云台在启动智能跟随功能的时候，需要提供一个初始的目标框。目前的大部分云台产品采取的方案，都是用手在屏幕上画框，作为智能跟随的初始目标。但用手画框的时候需要一只手握着云台，另外一只手画框。这种采用手动画框的方式来确定智能跟随的初始目标框的方法不方便用户操作，也会造成跟随效果不理想。

因此，鉴于上述问题的存在，本发明提出一种目标跟随的方法、系统、计算机可读存储介质和可移动平台。

发明内容

为了解决上述问题中的至少一个而提出了本发明。具体地，本发明实施例一方面提供一种目标跟随的方法，所述方法包括：

获取用户对操作键的触发操作，并根据所述触发操作生成触发指令，以生成至少一个候选目标框，所述候选目标框用于对应预定目标在显示界面中显示的当前帧图片中的特征部分；其中，所述触发指令用于运行预定的选框模式，所述预定的选框模式用于在预定的识别区域内生成所述候选目标框；

根据所述触发操作，在所述显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分；

根据所述候选目标框，获取用户对所述操作键进行的选框操作，并根据所述选框操作生成选框指令，以生成跟随目标框，其中，所述选框指令用于确定所述候选目标框中的至少一个为跟随目标框；

根据所述跟随目标框，对所述目标进行跟随。

本发明实施例再一方面提供一种目标跟随系统，所述目标跟随系统包括：

存储装置，用于存储可执行指令；

处理器，用于执行所述存储装置中存储的所述指令，使得所述处理器执行目标跟随的方法，包括：

根据所述跟随目标框，对所述目标进行跟随。

本发明实施例又一方面提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现以下方法：

根据所述跟随目标框，对所述目标进行跟随。

本发明实施例另一方面提供一种可移动平台，所述可移动平台包括：

平台本体；

至少一个操作键，设置在所述平台本体上；

一个或多个处理器，所述处理器用于实现以下方法：

根据所述跟随目标框，对所述目标进行跟随。

本发明实施例的方法获取用户对操作键的触发操作，并根据所述触发操作生成触发指令，以生成至少一个候选目标框，所述候选目标框用于对应预定目标在显示界面中显示的当前帧图片中的特征部分；其中，所述触发指令用于运行预定的选框模式，所述预定的选框模式用于在预定的识别区域内生成所述候选目标框；根据所述触发操作，在所述显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分；根据所述候选目标框，获取用户对所述操作键进行的选框操作，并根据所述选框操作生成选框指令，以生成跟随目标框，其中，所述选框指令用于确定所述候选目标框中的至少一个为跟随目标框；根据所述跟随目标框，对所述目标进行跟随。通过本发明实施例的方法用户不需要用手在例如屏幕的显示界面上画框，只需要在生成的候选目标框中选择至少一个为跟随目标框即可。对用户来说，这样不仅方便省力，还可以给目标跟随提供一个高质量的候选目标框，从而提高目标跟随的效果，并且，在用户选择其中至少一个候选目标框作为跟随目标框时，不需要手离开例如云台的可移动平台在显示界面上操作，只需要控制操作键进行选框操作，这样依旧可以保持双手握住例如云台的可移动平台，因此更省力更方便。

由于本发明实施例的目标跟随系统、计算机可读存储介质和可移动平台均能实现前述实施例中描述的目标跟随的方法，因此其同样具有该方法的优点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一实施例中的手持云台的示意图；

图2示出了本发明一实施例中的目标跟随的方法的示意性流程图；

图3示出了本发明一实施例中的生成的候选目标框的示意图；

图4示出了本发明一个实施例中的第一选框模式的示意性流程图；

图5示出了本发明一个实施例中的目标跟随系统的示意性框图；

图6示出了本发明一个实施例中的可移动平台的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本发明能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本发明的范围完全地传递给本领域技术人员。

在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本发明，将在下列的描述中提出详细的结构，以便阐释本发明提出的技术方案。本发明的可选实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

本发明实施例中所描述的技术可以应用在可移动平台上，本发明实施例的所述可移动平台包括平台本体，用于安装拍摄装置。具有拍摄装置的移动平台可对外部环境、物体、场景进行拍摄，以采集图片或者视频信息等。在某些实施方式中，可移动平台包括云台、无人机、车辆、机器人、船中的至少一种。在本实施例中，可移动平台主要包括云台，特别是手持云台，当拍摄装置安装于云台时，平台本体为云台本体，当拍摄装置应用于无人飞行器时，平台本体为无人飞行器的机身。当拍摄装置应用于汽车时，平台本体为汽车的车身。该汽车可以是自动驾驶汽车或者半自动驾驶汽车，在此不做限制。当拍摄装置应用于遥控车时，平台本体为遥控车的车身。当拍摄装置应用于机器人时，平台本体为机器人。可移动平台可以对拍摄装置拍摄的目标进行跟随，跟随(Tracking)通常是指在拍摄过程中拍摄装置对准跟随对象(例如跟随目标框所对应的预定目标)，使得跟随对象移动时仍然在拍摄装置的镜头视野下。

主要以本发明实施例的方法应用于云台，特别是手持云台的应用场景为例，云台可以是安装、固定拍摄装置的支撑设备。本申请实施例的云台可以是手持云台，云台也可以设置在可移动平台上，例如，无人机或汽车等。

在本申请实施例中，云台包括至少一个转轴机构(未示出)，转轴机构可以包括电机(例如，无刷电机，或有刷电机)和轴臂。例如，如图1所示的云台中，该转轴机构可以包括俯仰轴(pitch)机构、横滚轴(roll)机构和偏航轴(yaw)机构。该多个转轴机构可以串联连接。如图1所示，俯仰轴机构可以包括俯仰轴电机18和俯仰轴轴臂15，横滚轴机构可以包括横滚轴电机13和横滚轴轴臂14，以及偏航轴机构可以包括偏航轴电机19和偏航轴轴臂12。

可选地，如图1所示，云台的平台本体还可以包括基座11，其中，在云台是手持云台时，基座可以随着用户手上的运动而运动，在云台连接于其他可移动平台时，基座可以刚性连接于可移动平台，并随着可移动平台的运动而运动。

可选地，如图1所示，云台还可以包括惯性测量单元(Inertial MeasurementUnit，IMU)16，该IMU16与拍摄装置无相对运动，可以用于测量相机的姿态。例如，该IMU可以刚性固定在相机的固定机构上。可选地，云台上的基座上也可以设置IMU(未示出)，该IMU与基座无相对运动。例如，该IMU可以刚性固定在基座上。

拍摄装置17安装在云台上进行拍摄的时候，有时需要拍摄缓慢移动目标，但有时候又需要突然加速拍摄快速移动目标。

在云台是手持云台时，在对运动目标进行拍摄时，用户可以转动云台，也即转动云台的基座，控制器可以控制云台的转轴机构，可以使得拍摄装置的目标姿态与基座的姿态相匹配。其中，在云台是手持云台时，手持棍或手持环可以与基座连接，用户可以通过手持棍或手持环控制云台的运动。

尽管以下实施例以云台特别是手持云台作为可移动平台的应用场景来进行详细描述，然而本发明不限于此。事实上，可移动平台可以是以上所述的任意形式。

基于前述应用场景，鉴于目前采用手动画框的方式来确定智能跟随的初始目标框的方法不方便用户操作，也会造成跟随效果不理想的存在，本发明实施例中提供一种目标跟随的方法，如图2所示，所述方法包括以下步骤：步骤S201，获取用户对操作键的触发操作，并根据所述触发操作生成触发指令，以生成至少一个候选目标框，其中，所述触发指令用于运行预定的选框模式，所述预定的选框模式用于在预定的识别区域内生成所述候选目标框，所述候选目标框用于对应预定目标的特征部分；步骤S202，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分；步骤S203，根据显示的所述候选目标框，获取用户对所述操作键进行的选框操作，并根据所述选框操作生成选框指令，以生成跟随目标框，其中，所述选框指令用于确定所述候选目标框中的至少一个为跟随目标框；步骤S204，根据所述跟随目标框，对所述目标进行跟随。通过本发明实施例的方法用户不需要用手在例如屏幕的显示界面上画框，只需要在生成的候选目标框中选择至少一个为跟随目标框即可。对用户来说，这样不仅方便省力，还可以给目标跟随提供一个高质量的候选目标框，从而提高目标跟随的效果，并且，在用户选择其中至少一个候选目标框作为跟随目标框时，不需要手离开例如云台的可移动平台在显示界面上操作，只需要控制操作键进行选框操作，例如操作键安装在手持云台的握持部，这样依旧可以保持双手握住例如云台的可移动平台，因此更省力更方便。

下面结合附图，对本申请的目标跟随的方法、目标跟随系统、计算机可读存储介质和可移动平台进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

首先，参考图2至图4对本发明实施例的目标跟随的方法进行描述。

在一个实施例中，如图2所示，在步骤S201中，获取用户对操作键的触发操作，并根据所述触发操作生成触发指令，以生成至少一个候选目标框，其中，所述触发指令用于运行预定的选框模式，所述预定的选框模式用于在预定的识别区域内生成所述候选目标框，所述候选目标框用于对应预定目标的特征部分。

在一个示例中，目标跟随的方法应用于设置有拍摄装置的可移动平台，拍摄装置可以是可移动平台本身设有的，也可以是安装在可移动平台上的。在一个示例中，操作键设于可移动平台，便于用户操作。

该可移动平台可以包括如下至少一种：云台、无人机、车辆、机器人、船。或者，目标跟随的方法应用于设置有云台的可移动平台，而云台上可以设置有拍摄装置，在本实施例中主要以所述可移动平台为云台，特别是手持云台的情况为例，对本发明实施例的方法进行解释和说明，但是应该理解的是这并不意欲对本发明构成限制。

手持云台通常可以是一种运动拍摄装置稳定器，在手持云台上可以安装拍摄装置，例如摄像机、照相机、智能手机等，其能在移动中进行拍摄时迅速稳定地控制拍摄装置保持在确定的姿态上，还可以在运动过程中对拍摄装置取景角度的自适应调整。

在本文中的目标可以是指能够被识别出的任意的物体或者可动物体，目标可以是具有肢体和头部的动物、移动机器人、动物仿真机器人(包括但不限于机器狗)或者人等。

操作键包括摇杆和按键中的至少一种，或者其他用户能够通过该操作键进行操作的操作键，该操作键更具体地例如为设置在手持云台上的摇杆和/或设置在手持云台上的按键等，摇杆可以具有控制拍摄装置执行相应的功能的能力，而本实施例中摇杆具有生成触发指令而执行预定选框模式的能力，而按键可以包括拍摄装置功能控制按键，例如触发按键(trigger键)。

可以通过用户对同一操作键执行不同的触发操作，从而生成不同的触发指令，或者，可以通过用户对不同操作键执行触发操作，从而生成不同的触发指令，例如，可以所述触发操作包括第一触发操作和/或第二触发操作，其中，所述第一触发操作用于生成第一触发指令，所述第一触发指令用于运行所述第一选框模式；所述第二触发操作用于生成第二触发指令，所述第二触发指令用于运行所述第二选框模式。通过不同的触发操作运行不同的选框模式，可以使用户根据自己的需要获得更丰富的操作体验，并且无论是哪种选框模式，均能获得质量较好的候选目标框。

触发操作可以包括如下至少一种：用户按下摇杆、用户双击按键、用户单击按键、用户长按按键、用户短按按键等，用户操作的选择灵活。触发操作可以由用户预先自定义设定，增强用户体验；也可以是默认的，方便用户快速适应触发操作。其中，在本实施例中，触发操作包括第一触发操作，第一触发操作可以包括用户按下摇杆，所述第一触发指令用于运行所述第一选框模式；触发操作还可以包括第二触发操作，第二触发操作可以包括用户双击按键，从而生成第二触发指令，所述第二触发指令用于运行所述第二选框模式。

在一个示例中，所述预定的选框模式用于在预定的识别区域内生成所述候选目标框，所述预定的选框模式包括第一选框模式和/或第二选框模式，其中，第一选框模式和第二选框模式具有不同的识别区域，例如，所述第一选框模式的预定的识别区域为显示界面，该显示界面可以包括设置在云台上的拍摄装置的显示屏等；而第二选框模式的预定的识别区域为由第一默认目标框所对应的显示界面内的部分区域，所述第一默认目标框用于在生成跟随目标框之前默认跟随所述第一默认目标框中的目标，第二选框模式的预定的识别区域可以小于第一选框模式对应的识别区域，通过设置不同的识别区域范围，可以便于用户根据实际场景中预定目标的数量或者可以根据用户的需求合理的选择使用哪种选框模式。

可选地，所述第一默认目标框位于拍摄所述当前帧图片的拍摄装置的镜头中央区域，其中，第一默认目标框可以包括矩形框，或者其他适合的形状，在本实施例中，主要第一默认目标框为矩形框。在运行所述第二选框模式时，当在第二选框模式对应的识别区域内(也即在第一默认目标框内)未检测到目标的特征部分时，则所述第一默认目标框保持不变，该不变也即其大小尺寸和位置始终不变，使得在生成跟随目标框之前默认跟随所述第一默认目标框中的目标。

在一个示例中，根据运行的预定的选框模式，在预定的识别区域内，生成所述候选目标框，具体包括：根据运行的所述预定的选框模式，在与所述预定的选框模式相对应的预定的识别区域内，生成所述候选目标框。例如，在运行第一选框模式时，与第一选框模式相对应的预定的识别区域为显示界面，该显示界面可以包括设置在云台上的拍摄装置的显示屏等，在该显示界面内生成候选目标框，而在运行第二选框模式时，与第二选框模式相对应的预定的识别区域为显示界面，预定的识别区域为由第一默认目标框所对应的显示界面内的部分区域，在该第一默认目标框所对应的显示界面内的部分区域内生成候选目标框。

所述候选目标框用于对应预定目标的特征部分，例如，候选目标框用于包围预定目标的特征部分，候选目标框的形状可以是任意适合的形状，从而有利于用户根据需要选择候选目标框中包围的预定目标例如，如图2所示，候选目标框包括矩形框，或者还可以为圆形框、椭圆形或者多边形框等。候选目标框的形状可以由用户预先自定义，从而满足用户对不同的审美观要求，提高用户体验，还可以根据预定目标的形状生成与预定目标的形状对应的候选目标框，从而使候选目标框能够更贴合的包围预定目标，而不会包围预定目标之外的其他目标，有利于用户根据需要选择锁定需要跟随的预定目标。

在一个示例中，预定目标为至少一个，则候选目标框用于对应相应的所述预定目标的特征部分，可选地，每个所述候选目标框用于分别对应每个所述预定目标的特征部分，也即每个预定目标仅和一个候选目标框对应，而该候选目标框对应该预定目标的一个特征部分，例如，如图2所示，基于已训练过的深度学习模型检测识别所述显示界面上显示的当前帧图片在识别区域内目标的例如头肩的特征部分，则检测识别到的每个头肩的特征部分表明一个预定目标，生成的每个候选目标框用于分别对应每个预定目标的头肩的特征部分。或者，每个所述候选目标框用于对应至少一个所述预定目标的特征部分，例如每个候选框可以用于对应一个预定目标，还可以用于对应多个预定目标，例如候选目标框对应两个或多于两个预定目标的例如头部的特征部分，从而使得一个候选目标框可以框选多个预定目标，以便实现对多个预定目标的同时进行跟随。

继续参考图2，在步骤S202中，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分，由于用户只需通过对操作键进行触发操作，即可生成并显示候选目标框，以对应所述预定目标的特征部分，因此，克服了当一只手画框的时候，就只剩下另一只手握住云台，而云台往往是比较重的，单手握会相当费力的缺陷，用户不需要用手在例如屏幕的显示界面上画框，对用户来说，这样不仅方便省力，而且还可以克服一手握住云台，另一只手在手机镜头上画框，非常容易产生抖动，影响正常的画框的缺陷，给目标跟随提供一个高质量的候选目标框，从而提高目标跟随的效果。

在一个示例中，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分可以具体包括：首先得，根据所述触发指令运行预定的选框模式，例如，根据例如用户按下摇杆的第一触发操作生成第一触发指令，根据该第一触发指令运行所述第一选框模式，或者，根据例如用户双击按键的第二触发操作生成第二触发指令，根据第二触发指令运行所述第二选框模式。随后，根据运行的所述预定的选框模式(例如第一选框模式或第二选框模式)，在预定的识别区域内，生成所述候选目标框，其中，所述候选目标框对应预定目标的特征部分，更具体地，根据运行的所述预定的选框模式，在与所述预定的选框模式相对应的预定的识别区域内，生成所述候选目标框，例如，所述第一选框模式对应的预定的识别区域为显示界面，该显示界面可以包括设置在云台上的拍摄装置的显示屏等；而第二选框模式对应的预定的识别区域为由第一默认目标框所对应的显示界面内的部分区域，所述第一默认目标框用于在生成跟随目标框之前默认跟随所述第一默认目标框中的目标。

在一个示例中，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，包括以下步骤A1和步骤A2：

在步骤A1中，获取所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分，所述特征部分包括目标的身体部位的至少一部分，所述身体部位的至少一部分包括如下至少一种：面部、头部、肩部、躯干。或者所述特征部分还可以包括目标的身体部位的姿势，例如摇头、抖肩、伸腿、张嘴、眨眼等姿势。

可以基于任意适合的目标检测方法对所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分进行识别，从而基于识别出的特征部分而生成候选目标框。因此，克服了手动画的框质量较差，画的框往往不是过小(只框中了部分)就是过大(框进了很多不必要的背景部分)，大大影响智能跟随的效果的缺陷。可选地，可以基于已训练过的深度学习模型检测识别所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分。已训练过的深度学习模型支持当前常见的图像目标识别模型来训练得到，例如基于深度深度学习的单次多盒检测器(single shot multiple box detector,SSD)，R-CNN等神经网络模型等，用标注的数据训练这个模型，训练完成时，这个模型就可以读入图片例如当前帧图片，自动输出当前帧图片中所有候选目标框的位置信息(x,y,w,h)其中(x,y)为候选目标框的中心点坐标，w和h分别为候选目标框的宽度与高度。

可以基于拍摄装置与目标之间的距离合理的选择预定识别的目标的特征部分，例如，在目标和拍摄装置之间相距比较远时，此时通过拍摄装置捕捉的目标的图像中例如面部、头部等的特征部分的尺寸较小，不利于识别，因此，此种场景下可以选择例如躯干等尺寸较大的特征部分作为待识别的特征部分，同理，在目标和拍摄装置之间相距为中间距离时可以选择例如头肩或者等中等尺寸的特征部分作为待识别的特征部分，而在目标和拍摄装置之间相距较近时可以选择例如面部、头部等的特征部分的尺寸较小的特征部分作为待识别的特征部分。

在步骤A2中，根据所述特征部分，在预定的识别区域内生成所述候选目标框，例如，根据检测识别到的特征部分，在预定的识别区域内生成候选目标框，该候选目标框对应相应的所述预定目标的特征部分，例如，检测识别到一个预定目标的头肩部分，则生成一个候选目标框对应该预定目标的头肩部分，例如，候选目标框包围对应的预定目标的头肩部分，而对于检测到多个预定目标的头肩部分，则可以生成多个候选目标框，每个候选目标框对应一个预定目标的头肩部分。

在一个具体示例中，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，包括：获取所述候选目标框的位置信息，所述位置信息包括所述候选目标框的中心点坐标和所述候选目标框的尺寸信息中的至少一种，其中，所述候选目标框可以包括矩形框，所述尺寸信息包括所述候选目标框的宽度和高度，或者，所述候选目标框可以包括圆形框，所述尺寸信息包括所述候选目标框的半径。其中，在每个候选目标框仅对应一个预定目标时，则候选目标框的尺寸信息要保证仅包围其对应的预定目标的特征部分即可，而不能包围更多个其他预定目标的特征，以避免由于候选目标框对应更多预定目标而无法仅对用户想要跟随的预定目标进行跟随。随后，根据所述位置信息在显示界面上显示的当前帧图片中显示所述候选目标框，由于通过前述步骤已经确定每个候选目标框的位置信息，在此步骤中仅需根据该位置信息显示候选目标框即可，从而使得用户能够直观的观察到每个预定目标所对应的候选目标框，便于用户根据自身需求选择想跟随的目标。

继续参考图2，在步骤S203中，根据显示的所述候选目标框，获取用户对所述操作键进行的选框操作，并根据所述选框操作生成选框指令，以生成跟随目标框，其中，所述选框指令用于确定所述候选目标框中的至少一个为跟随目标框。

具体地，用户会根据显示界面上显示的候选目标框，执行选框操作，以以生成跟随目标框，该选框操作可以是用户对操作键执行的选框操作，例如，在运行第一选框模式时，可以通过例如用户再次按下摇杆的操作作为选框操作，或者，可以通过其他的对操作键的操作作为选框操作，或者，在运行第二选框模式时，可以通过例如用于单击按键的操作作为选框操作。

在一个示例中，在运行所述第一选框模式时，所述方法还包括：设定所述显示界面上显示的当前帧图片中与所述当前帧图片的中心距离最近的所述候选目标框为第二默认目标框，所述第二默认目标框用于在生成所述跟随目标框之前默认跟随所述第二默认目标框中的目标。例如，假设当前帧图片的宽和长为W和H，则第二默认目标框则是

其中，(x,y)是第二默认目标框的中心点坐标，由于通常较重要的目标通常会大体位于当前帧图片的中心，因此，设置所述显示界面上显示的当前帧图片中与所述当前帧图片的中心距离最近的所述候选目标框为第二默认目标框，在未对候选目标框进行选择时，则默认跟随第二默认目标框中的目标，如果该第二默认目标框中的目标是用户预定跟随的目标，则无需再在多个候选目标中进行切换，只需用户对所述操作键进行的选框操作，将第二默认目标框确定为跟随目标框即可，因此，第二默认目标框的设置可以更加方便用户对操作键进行操作即可启动目标跟随。

在一个示例中，在运行所述第一选框模式时，本发明实施例的方法包括：首先，根据所述候选目标框的中心位置对所有所述候选目标框进行排序；随后，获取用户对所述操作键进行的选取操作而生成指示方向，其中，该选取操作可以是用户对摇杆进行的例如向上、向下、向左或向右等的操作，而所述指示方向包括如下至少一种：上、下、左、右。接着，根据所述指示方向切换当前选中的候选目标框至预定选择的候选目标框，例如指示方向指示当前摇杆的方向向右，则切换到右边的下一个候选目标框，如果指示方向指示当前摇杆的方向向左，则切换到左边的下一个候选目标框，从而直到预定选择的候选目标框，可选地，为了便于用户观察哪个候选目标框为当前选中的候选目标框，可以将当前选中的候选目标框的颜色或者形状等设置为不同于其他候选目标框的颜色或形象等，例如，将当前选中的候选目标框设置为红色，而其余候选目标框设置为绿色。最后，根据用户对所述操作键进行的选框操作选择所述候选目标框中的至少一个为跟随目标框。例如，在切换到预定选择的候选目标框后，用户按下例如摇杆的操作键确定该候选目标框为跟随目标框。通过该方法可以在显示界面显示多个候选目标框时，根据用户对例如摇杆的操作键的选取操作在多个候选目标框中进行切换，再通过用户对操作键的选框操作确定其中的至少一个候选目标框为跟随目标框，用户只需通过操作键进行上述操作即可，操作时手也无需离开例如云台的可移动平台，从而操作更加简便，也更加省力，更便于后续的跟随的启动。

在另一个示例中，在运行所述第二选框模式时，例如该根据用户双击按键的触发操作而运行第二选框模式，所述方法包括：获取所述显示界面上显示的当前帧图片在所述第一默认目标框内(也即在第二选框模式对应的识别区域内)目标的特征部分；该获取方法可以基于前述实施例中的描述，在此不做赘述，根据所述特征部分，调整所述第一默认目标框为所述候选目标框，具体地，在根据前述的方法在第一默认目标框中检测到预定目标的特征部分，例如头部、面部、头肩、躯干等时，调整所述第一默认目标框为所述候选目标框，由于第一默认目标框所包围的区域面积是比较大的，在检测到预定目标的特征部分时，该特征部分往往位于第一默认目标框内的较小的区域，因此，需要调整第一默认目标框为候选目标框，例如将第一默认目标框的尺寸调小以获得候选目标框能够适当的包围检测识别到的预定目标的特征部分。由于第二选框模式运行时，通过操作键的选框操作锁定候选目标框为跟随目标框，而由于候选目标框由位于镜头中央区域的第一默认目标框调整而来，因此，该选框操作也就锁定了镜头中央区域的候选目标框为跟随目标，无需再进行手动画框，更无需再对按键进行额外的其他操作即可生成对应预定目标的候选目标框，节省了用户的操作，更加省时省力，提高了用户的使用体验，并且该方法生成的候选目标框质量更高。

在其他示例中，在运行所述第二选框模式时，当在识别区域内(也即第一默认目标框内)未检测到目标的特征部分时，则所述第一默认目标框保持不变，该不变也即其大小尺寸和位置始终不变，使得在生成跟随目标框之前第一默认目标框的位置会随着拍摄装置镜头的位置的变化而变化，使其始终处于镜头中央固定区域。

继续参考图2，在步骤S204中，根据所述跟随目标框，对所述目标进行跟随。例如，根据所述跟随目标框，对与所述跟随目标框相对应的所述预定目标进行跟随。通过进行跟随(特别是智能跟随)，可以对预定目标进行全方位多角度的跟踪拍摄，提高拍摄的效果。

在一个示例中，根据所述跟随目标框，对所述目标进行跟随，包括：根据所述跟随目标框，可移动平台对准与所述跟随目标框相对应的目标，与所述目标保持同步运动，以对所述目标进行跟随。其中，跟随(Tracking)通常是指在拍摄过程中拍摄装置对准跟随对象(例如跟随目标框所对应的预定目标)，使得跟随对象移动时仍然在拍摄装置的镜头视野下。

下面，参考图3和图4对本发明实施例中的一个具体应用场景中的目标跟随的方法做描述，其中，在如图3所示的应用场景中通过手持云台上的拍摄装置对正在跳舞的舞者进行拍摄。

如图4所示的目标跟随的方法包括：首先，根据用户按下摇杆的触发操作运行第一选框模式，接着，根据运行的第一选框模式，生成候选目标框，该生成候选目标框的方法可以参考前述实施例的描述，其中，在该应用场景中，可以对当前帧图片中的预定目标的头肩进行检测识别，生成对应每个预定目标的头肩的候选目标框，例如图3中示出的3个候选目标框，其中，位于中心位置的候选目标框可以为第二默认目标框，还可以将当前选中的候选目标框设置为和其他的候选目标框具有不同的颜色，例如当前选中的候选目标框为红色，其余的候选目标框为绿色。随后，用户根据可以需要判断当前选中的候选目标框中的预定目标是否为跟随目标，如果是，则按下摇杆，启动目标跟随，如果不是，则控制摇杆方向，切换候选目标框直到预定选择的候选目标框，随后再按下摇杆，启动目标跟随。通过该方法可以使用户的手无需离开手持云台即可实现画框的操作，从而对目标进行跟随。

综上所述，通过本发明实施例的方法用户不需要用手在例如屏幕的显示界面上画框，只需要在生成的候选目标框中选择至少一个为跟随目标框即可。对用户来说，这样不仅方便省力，还可以给目标跟随提供一个高质量的候选目标框，从而提高目标跟随的效果，并且，在用户选择其中至少一个候选目标框作为跟随目标框时，不需要手离开例如云台的可移动平台在显示界面上操作，只需要控制操作键进行选框操作，这样依旧可以保持双手握住例如云台的可移动平台，因此更省力更方便。

下面，参考图5对本发明实施例的目标跟随系统进行描述。

如图5所示，所述目标跟随系统400包括一个或多个存储装置402，存储装置402用于存储可执行指令，还包括一个或多个处理器401，单独地或共同的工作，所述处理器用于执行前述实施例中的目标跟随的方法200中的相关步骤。

所述处理器401可以是中央处理单元(CPU)、图像处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，所述处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述目标跟随系统400中的其它组件以执行期望的功能。例如，处理器401能够包括一个或多个嵌入式处理器、处理器核心、微型处理器、逻辑电路、硬件有限状态机(FSM)、数字信号处理器(DSP)或它们的组合。

所述存储装置402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的目标跟随的方法以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

在一个实施例中，所述处理器用于执行前述实施例中的目标跟随的方法200中的相关步骤，包括：获取用户对操作键的触发操作，并根据所述触发操作生成触发指令，以生成至少一个候选目标框，其中，所述触发指令用于运行预定的选框模式，所述预定的选框模式用于在预定的识别区域内生成所述候选目标框，所述候选目标框用于对应预定目标的特征部分；根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分，所述特征部分包括目标的身体部位的至少一部分；或者所述特征部分包括目标的身体部位的姿势。所述身体部位的至少一部分包括如下至少一种：面部、头部、肩部、躯干。随后，根据显示的所述候选目标框，获取用户对所述操作键进行的选框操作，并根据所述选框操作生成选框指令，以生成跟随目标框，其中，所述选框指令用于确定所述候选目标框中的至少一个为跟随目标框；根据所述跟随目标框，对所述目标进行跟随。

在一个实施例中，所述预定的选框模式包括第一选框模式和/或第二选框模式，其中，所述第一选框模式的预定的识别区域为显示界面；所述第二选框模式的所述预定的识别区域为由第一默认目标框所对应的显示界面内的部分区域，所述第一默认目标框用于在生成所述跟随目标框之前默认跟随所述第一默认目标框中的目标。

在一个实施例中，所述触发操作包括第一触发操作和/或第二触发操作，其中，所述第一触发操作用于生成第一触发指令，所述第一触发指令用于运行所述第一选框模式；所述第二触发操作用于生成第二触发指令，所述第二触发指令用于运行所述第二选框模式。

在一个实施例中，所述操作键包括摇杆和按键中的至少一种。所述触发操作包括如下至少一种：用户按下所述摇杆、用户双击所述按键。

在一个实施例中，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，具体包括：根据所述触发指令运行预定的选框模式；根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，其中，所述候选目标框对应预定目标的特征部分。

在一个实施例中，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，具体包括：根据运行的所述预定的选框模式，在与所述预定的选框模式相对应的预定的识别区域内，生成所述候选目标框。

在一个实施例中，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，包括：获取所述候选目标框的位置信息；根据所述位置信息在显示界面上显示的当前帧图片中显示所述候选目标框。可选地，所述位置信息包括所述候选目标框的中心点坐标和所述候选目标框的尺寸信息中的至少一种。所述候选目标框包括矩形框，所述尺寸信息包括所述候选目标框的宽度和高度。

在一个实施例中，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，包括：获取所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分；所述获取所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分，具体包括：基于已训练过的深度学习模型检测识别所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分；根据所述特征部分，在预定的识别区域内生成所述候选目标框。

在一个实施例中，在运行所述第一选框模式时，所述目标跟随系统的处理器用于执行以下步骤，包括：根据所述候选目标框的中心位置对所有所述候选目标框进行排序；获取用户对所述操作键进行的选取操作而生成指示方向，所述指示方向包括如下至少一种：上、下、左、右；根据所述指示方向切换当前选中的候选目标框至预定选择的候选目标框；根据用户对所述操作键进行的选框操作选择所述候选目标框中的至少一个为跟随目标框。

在一个实施例中，在运行所述第一选框模式时，所述目标跟随系统的处理器用于执行以下步骤包括：设定所述显示界面上显示的当前帧图片中与所述当前帧图片的中心距离最近的所述候选目标框为第二默认目标框，所述第二默认目标框用于在生成所述跟随目标框之前默认跟随所述第二默认目标框中的目标。

在一个实施例中，在运行所述第二选框模式时，所述目标跟随系统的处理器用于执行以下步骤包括：包括：获取所述显示界面上显示的当前帧图片在所述第一默认目标框内目标的特征部分；所述第一默认目标框位于拍摄所述当前帧图片的拍摄装置的镜头中央区域。根据所述特征部分，调整所述第一默认目标框为所述候选目标框。

在一个实施例中，在运行所述第二选框模式时，当在所述识别区域内未检测到目标的特征部分时，则所述第一默认目标框保持不变。

在一个实施例中，所述目标跟随系统应用于设置有拍摄装置的可移动平台，拍摄装置可以是可移动平台本身设有的。在一个实施例中，所述操作键设于所述可移动平台，以方便用户操作。所述可移动平台包括如下至少一种：云台、无人机、车辆、机器人、船。

在一个实施例中，根据所述跟随目标框，对所述目标进行跟随，包括：

根据所述跟随目标框，可移动平台对准与所述跟随目标框相对应的目标，与所述目标保持同步运动，以对所述目标进行跟随。

在本文中，所述预定目标为至少一个，所述候选目标框用于对应相应的所述预定目标的特征部分。所述预定目标为至少一个，每个所述候选目标框用于分别对应每个所述预定目标的特征部分；或者，每个所述候选目标框用于对应至少一个所述预定目标的特征部分。

在一个实施例中，所述目标跟随系统的处理器用于执行以下步骤包括：根据显示的所述候选目标框，获取用户对所述操作键进行的选框操作，并根据所述选框操作生成选框指令，以生成跟随目标框，其中，所述选框指令用于确定所述候选目标框中的至少一个为跟随目标框；根据所述跟随目标框，对与所述跟随目标框相对应的所述预定目标进行跟随。

在一个实施例中，所述目标跟随系统的处理器用于执行以下步骤包括：所述根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分，包括：所述根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，所述候选目标框包围所述预定目标的特征部分。

在一种实施方式中，目标跟随系统还包括输入装置(未示出)，所述输入装置可以是用户用来输入指令的装置，并且可以包括操作键、键盘、鼠标、麦克风和触摸屏等中的一个或多个。此外，所述输入装置也可以是任何接收信息的接口。

在一种实施方式中，目标跟随系统还包括输出装置，所述输出装置可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器(例如向用户显示点云等)、扬声器等中的一个或多个。此外，所述输出装置也可以是任何其他具备输出功能的设备。

在一种实施方式中，目标跟随系统还包括通信接口，通信接口用于目标跟随系统400和其他设备之间进行通信，包括有线或者无线方式的通信。目标跟随系统400可以接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G或它们的组合。在一个示例性实施例中，通信接口还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

示例性地，本发明实施例的目标跟随系统400还可以被实现为诸如桌面型计算机、平板电脑、笔记本电脑等终端，或者包括这些终端的可移动平台等。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行存储装置存储的所述程序指令，以实现本文所述的本发明实施例中(由处理器实现)的功能以及/或者其它期望的功能，例如以执行根据本发明实施例的目标跟随的方法200的相应步骤，该些相应步骤的描述参考前文的描述，在此不再进行赘述。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

例如，所述计算机存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

下面，参考图6对本发明的可移动平台500进行描述。

如图6所示，本发明实施例的所述可移动平台500包括平台本体501，用于安装拍摄装置502。

具有拍摄装置的移动平台可对外部环境、物体、场景进行拍摄，以采集图片或者视频信息等。在某些实施方式中，可移动平台包括云台、无人机、车辆、机器人、船中的至少一种。在本实施例中，可移动平台主要包括云台，特别是手持云台，当拍摄装置安装于云台时，平台本体为云台本体，当拍摄装置应用于无人飞行器时，平台本体为无人飞行器的机身。当拍摄装置应用于汽车时，平台本体为汽车的车身。该汽车可以是自动驾驶汽车或者半自动驾驶汽车，在此不做限制。当拍摄装置应用于遥控车时，平台本体为遥控车的车身。当拍摄装置应用于机器人时，平台本体为机器人。

云台可以是安装、固定拍摄装置的支撑设备。本申请实施例的云台可以是手持云台，云台也可以设置在可移动平台上，例如，无人机或汽车等。

在本申请实施例中，云台包括至少一个转轴机构(未示出)，转轴机构可以包括电机(例如，无刷电机，或有刷电机)和轴臂。例如，该转轴机构可以包括俯仰轴(pitch)机构、横滚轴(roll)机构和偏航轴(yaw)机构。该多个转轴机构可以串联连接。俯仰轴机构可以包括俯仰轴电机和俯仰轴轴臂，横滚轴机构可以包括横滚轴电机和横滚轴轴臂，以及偏航轴机构可以包括偏航轴电机和偏航轴轴臂。

可选地，云台的平台本体还可以包括基座，其中，在云台是手持云台时，基座可以随着用户手上的运动而运动，在云台连接于其他可移动平台时，基座可以刚性连接于可移动平台，并随着可移动平台的运动而运动。

可选地，云台还可以包括惯性测量单元(Inertial Measurement Unit，IMU)，该IMU与拍摄装置无相对运动，可以用于测量相机的姿态。例如，该IMU可以刚性固定在相机的固定机构上。可选地，云台上的基座上也可以设置IMU(未示出)，该IMU与基座无相对运动。例如，该IMU可以刚性固定在基座上。

所述平台本体501设有拍摄装置502，拍摄装置502安装在云台上进行拍摄的时候，有时需要拍摄缓慢移动目标，但有时候又需要突然加速拍摄快速移动目标。

在云台是手持云台时，在对运动目标进行拍摄时，用户可以转动云台，也即转动云台的基座，控制器可以控制云台的转轴机构，可以使得拍摄装置502的目标姿态与基座的姿态相匹配。其中，在云台是手持云台时，手持棍或手持环可以与基座连接，用户可以通过手持棍或手持环控制云台的运动。

进一步，可移动平台500还包括至少一个操作键504，设置在所述平台本体501上，在一个实施例中，所述操作键504包括摇杆和按键中的至少一种。所述触发操作包括如下至少一种：用户按下所述摇杆、用户双击所述按键。

可选地，摇杆还可以控制转轴机构的运动，例如，通过拨动摇杆，实现手持云台的转轴机构在对应方向的转动。

可移动平台500还包括一个或多个处理器503，处理器503可以是中央处理单元(CPU)、图像处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，所述处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述可移动平台500中的其它组件以执行期望的功能。例如，处理器503能够包括一个或多个嵌入式处理器、处理器核心、微型处理器、逻辑电路、硬件有限状态机(FSM)、数字信号处理器(DSP)或它们的组合。

在一个实施例中，所述处理器503用于执行前述实施例中的目标跟随的方法200中的相关步骤，包括：获取用户对操作键的触发操作，并根据所述触发操作生成触发指令，以生成至少一个候选目标框，其中，所述触发指令用于运行预定的选框模式，所述预定的选框模式用于在预定的识别区域内生成所述候选目标框，所述候选目标框用于对应预定目标的特征部分；根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分，所述特征部分包括目标的身体部位的至少一部分；或者所述特征部分包括目标的身体部位的姿势。所述身体部位的至少一部分包括如下至少一种：面部、头部、肩部、躯干。随后，根据显示的所述候选目标框，获取用户对所述操作键进行的选框操作，并根据所述选框操作生成选框指令，以生成跟随目标框，其中，所述选框指令用于确定所述候选目标框中的至少一个为跟随目标框；根据所述跟随目标框，对所述目标进行跟随。

在一个实施例中，在运行所述第一选框模式时，所述可移动平台的处理器用于执行以下步骤，包括：根据所述候选目标框的中心位置对所有所述候选目标框进行排序；获取用户对所述操作键进行的选取操作而生成指示方向，所述指示方向包括如下至少一种：上、下、左、右；根据所述指示方向切换当前选中的候选目标框至预定选择的候选目标框；根据用户对所述操作键进行的选框操作选择所述候选目标框中的至少一个为跟随目标框。

在一个实施例中，在运行所述第一选框模式时，所述可移动平台的处理器用于执行以下步骤，包括：设定所述显示界面上显示的当前帧图片中与所述当前帧图片的中心距离最近的所述候选目标框为第二默认目标框，所述第二默认目标框用于在生成所述跟随目标框之前默认跟随所述第二默认目标框中的目标。

在一个实施例中，在运行所述第二选框模式时，所述可移动平台的处理器用于执行以下步骤包括：包括：获取所述显示界面上显示的当前帧图片在所述第一默认目标框内目标的特征部分；所述第一默认目标框位于拍摄所述当前帧图片的拍摄装置的镜头中央区域。根据所述特征部分，调整所述第一默认目标框为所述候选目标框。

在一个实施例中，所述可移动平台应用于设置有拍摄装置的可移动平台，拍摄装置可以是可移动平台本身设有的。所述操作键设于所述可移动平台，以方便用户操作。所述可移动平台包括如下至少一种：云台、无人机、车辆、机器人、船。

在一个实施例中，根据所述跟随目标框，对所述目标进行跟随，包括：根据所述跟随目标框，可移动平台对准与所述跟随目标框相对应的目标，与所述目标保持同步运动，以对所述目标进行跟随。

在一个实施例中，所述可移动平台的处理器用于执行以下步骤包括：根据显示的所述候选目标框，获取用户对所述操作键进行的选框操作，并根据所述选框操作生成选框指令，以生成跟随目标框，其中，所述选框指令用于确定所述候选目标框中的至少一个为跟随目标框；根据所述跟随目标框，对与所述跟随目标框相对应的所述预定目标进行跟随。

在一个实施例中，所述可移动平台的处理器用于执行以下步骤包括：所述根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分，包括：所述根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，所述候选目标框包围所述预定目标的特征部分。

综上所述，由于本发明实施例的目标跟随系统、计算机可读存储介质和可移动平台均能实现前述实施例中描述的目标跟随的方法，因此其同样具有该方法的优点，包括：用户不需要用手在例如屏幕的显示界面上画框，只需要在生成的候选目标框中选择至少一个为跟随目标框即可。对用户来说，这样不仅方便省力，还可以给目标跟随提供一个高质量的候选目标框，从而提高目标跟随的效果，并且，在用户选择其中至少一个候选目标框作为跟随目标框时，不需要手离开例如云台的可移动平台在显示界面上操作，只需要控制操作键进行选框操作，这样依旧可以保持双手握住例如云台的可移动平台，因此更省力更方便。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种目标跟随的方法，其特征在于，所述方法包括：

根据所述跟随目标框，对所述目标进行跟随。

2.如权利要求1所述的方法，其特征在于，所述预定的选框模式包括第一选框模式和/或第二选框模式，

其中，所述第一选框模式的预定的识别区域为显示界面；

所述第二选框模式的所述预定的识别区域为由第一默认目标框所对应的显示界面内的部分区域，所述第一默认目标框用于在生成所述跟随目标框之前默认跟随所述第一默认目标框中的目标。

3.如权利要求2所述的方法，其特征在于，

所述触发操作包括第一触发操作和/或第二触发操作，

其中，所述第一触发操作用于生成第一触发指令，所述第一触发指令用于运行所述第一选框模式；

所述第二触发操作用于生成第二触发指令，所述第二触发指令用于运行所述第二选框模式。

4.如权利要求1所述的方法，其特征在于，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，具体包括：

根据所述触发指令运行预定的选框模式；

根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，其中，所述候选目标框对应预定目标的特征部分。

5.如权利要求4所述的方法，其特征在于，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，具体包括：

根据运行的所述预定的选框模式，在与所述预定的选框模式相对应的预定的识别区域内，生成所述候选目标框。

6.如权利要求1所述的方法，其特征在于，根据所述触发操作，在所述显示界面上显示的当前帧图片中显示所述候选目标框，包括：

获取所述候选目标框的位置信息；

根据所述位置信息在所述显示界面上显示的当前帧图片中显示所述候选目标框。

7.如权利要求4所述的方法，其特征在于，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，包括：

获取所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分；

根据所述特征部分，在预定的识别区域内生成所述候选目标框。

8.如权利要求7所述的方法，其特征在于，所述获取所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分，具体包括：基于已训练过的深度学习模型检测识别所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分。

9.如权利要求2所述的方法，其特征在于，在运行所述第一选框模式时，所述方法包括：

根据所述候选目标框的中心位置对所有所述候选目标框进行排序；

获取用户对所述操作键进行的选取操作而生成指示方向；

根据所述指示方向切换当前选中的候选目标框至预定选择的候选目标框；

根据用户对所述操作键进行的选框操作选择所述候选目标框中的至少一个为跟随目标框。

10.如权利要求9所述的方法，其特征在于，所述指示方向包括如下至少一种：上、下、左、右。

11.如权利要求2所述的方法，其特征在于，在运行所述第一选框模式时，所述方法还包括：

设定所述显示界面上显示的当前帧图片中与所述当前帧图片的中心距离最近的所述候选目标框为第二默认目标框，所述第二默认目标框用于在生成所述跟随目标框之前默认跟随所述第二默认目标框中的目标。

12.如权利要求2所述的方法，其特征在于，所述第一默认目标框位于拍摄所述当前帧图片的拍摄装置的镜头中央区域。

13.如权利要求2所述的方法，其特征在于，在运行所述第二选框模式时，所述方法包括：

获取所述显示界面上显示的当前帧图片在所述第一默认目标框内目标的特征部分；

根据所述特征部分，调整所述第一默认目标框为所述候选目标框。

14.如权利要求2所述的方法，其特征在于，在运行所述第二选框模式时，当在所述识别区域内未检测到目标的特征部分时，则所述第一默认目标框保持不变。

15.如权利要求1所述的方法，其特征在于，所述操作键包括摇杆和按键中的至少一种。

16.如权利要求15所述的方法，其特征在于，所述触发操作包括如下至少一种：用户按下所述摇杆、用户双击所述按键。

17.如权利要求6所述的方法，其特征在于，所述位置信息包括所述候选目标框的中心点坐标和所述候选目标框的尺寸信息中的至少一种。

18.如权利要求17所述的方法，其特征在于，所述候选目标框包括矩形框，所述尺寸信息包括所述候选目标框的宽度和高度。

19.如权利要求1至18任一项所述的方法，其特征在于，所述特征部分包括目标的身体部位的至少一部分；

或者所述特征部分包括目标的身体部位的姿势。

20.如权利要求19所述的方法，其特征在于，所述身体部位的至少一部分包括如下至少一种：面部、头部、肩部、躯干。

21.如权利要求1至20任一项所述的方法，其特征在于，所述目标跟随的方法应用于设置有拍摄装置的可移动平台，所述操作键设于所述可移动平台。

22.如权利要求21所述的方法，其特征在于，所述可移动平台包括如下至少一种：手持云台、无人机、车辆、机器人、船。

23.如权利要求1至22任一项所述的方法，其特征在于，根据所述跟随目标框，对所述目标进行跟随，包括：

24.如权利要求1所述的方法，其特征在于，所述预定目标为至少一个，所述候选目标框用于对应相应的所述预定目标的特征部分。

25.如权利要求24所述的方法，其特征在于，所述预定目标为至少一个，

每个所述候选目标框用于分别对应每个所述预定目标的特征部分；或者，每个所述候选目标框用于对应至少一个所述预定目标的特征部分。

26.如权利要求24所述的方法，其特征在于，所述方法包括：

根据显示的所述候选目标框，获取用户对所述操作键进行的选框操作，并根据所述选框操作生成选框指令，以生成跟随目标框，其中，所述选框指令用于确定所述候选目标框中的至少一个为跟随目标框；

根据所述跟随目标框，对与所述跟随目标框相对应的所述预定目标进行跟随。

27.如权利要求1所述的方法，其特征在于，

所述根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，以对应所述预定目标的特征部分，包括：

所述根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，所述候选目标框包围所述预定目标的特征部分。

28.一种目标跟随系统，其特征在于，所述目标跟随系统包括：

存储装置，用于存储可执行指令；

根据所述跟随目标框，对所述目标进行跟随。

29.如权利要求28所述的目标跟随系统，其特征在于，所述预定的选框模式包括第一选框模式和/或第二选框模式，

其中，所述第一选框模式的预定的识别区域为显示界面；

30.如权利要求29所述的目标跟随系统，其特征在于，

所述触发操作包括第一触发操作和/或第二触发操作，

31.如权利要求28所述的目标跟随系统，其特征在于，根据所述触发操作，在所述显示界面上显示的当前帧图片中显示所述候选目标框，具体包括：

根据所述触发指令运行预定的选框模式；

32.如权利要求31所述的目标跟随系统，其特征在于，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，具体包括：

33.如权利要求28所述的目标跟随系统，其特征在于，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，包括：

获取所述候选目标框的位置信息；

根据所述位置信息在显示界面上显示的当前帧图片中显示所述候选目标框。

34.如权利要求31所述的目标跟随系统，其特征在于，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，包括：

35.如权利要求34所述的目标跟随系统，其特征在于，所述获取所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分，具体包括：基于已训练过的深度学习模型检测识别所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分。

36.如权利要求29所述的目标跟随系统，其特征在于，在运行所述第一选框模式时，所述处理器用于：

获取用户对所述操作键进行的选取操作而生成指示方向；

37.如权利要求36所述的目标跟随系统，其特征在于，所述指示方向包括如下至少一种：上、下、左、右。

38.如权利要求29所述的目标跟随系统，其特征在于，在运行所述第一选框模式时，所述处理器还用于：

39.如权利要求29所述的目标跟随系统，其特征在于，所述第一默认目标框位于拍摄所述当前帧图片的拍摄装置的镜头中央区域。

40.如权利要求29所述的目标跟随系统，其特征在于，在运行所述第二选框模式时，所述处理器用于：

41.如权利要求29所述的目标跟随系统，其特征在于，在运行所述第二选框模式时，当在所述识别区域内未检测到目标的特征部分时，则所述第一默认目标框保持不变。

42.如权利要求28所述的目标跟随系统，其特征在于，所述操作键包括摇杆和按键中的至少一种。

43.如权利要求42所述的目标跟随系统，其特征在于，所述触发操作包括如下至少一种：用户按下所述摇杆、用户双击所述按键。

44.如权利要求33所述的目标跟随系统，其特征在于，所述位置信息包括所述候选目标框的中心点坐标和所述候选目标框的尺寸信息中的至少一种。

45.如权利要求44所述的目标跟随系统，其特征在于，所述候选目标框包括矩形框，所述尺寸信息包括所述候选目标框的宽度和高度。

46.如权利要求28至45任一项所述的目标跟随系统，其特征在于，所述特征部分包括目标的身体部位的至少一部分；

或者所述特征部分包括目标的身体部位的姿势。

47.如权利要求46所述的目标跟随系统，其特征在于，所述身体部位的至少一部分包括如下至少一种：面部、头部、肩部、躯干。

48.如权利要求28至47任一项所述的目标跟随系统，其特征在于，所述目标跟随系统应用于设置有拍摄装置的可移动平台，所述操作键设于所述可移动平台。

49.如权利要求48所述的目标跟随系统，其特征在于，所述可移动平台包括如下至少一种：手持云台、无人机、车辆、机器人、船。

50.如权利要求28至49任一项所述的目标跟随系统，其特征在于，根据所述跟随目标框，对所述目标进行跟随，包括：

51.如权利要求28所述的目标跟随系统，其特征在于，所述预定目标为至少一个，所述候选目标框用于对应相应的所述预定目标的特征部分。

52.如权利要求51所述的目标跟随系统，其特征在于，所述预定目标为至少一个，

53.如权利要求51所述的目标跟随系统，其特征在于，所述处理器用于：

54.如权利要求28所述的目标跟随系统，其特征在于，

55.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现以下方法：

根据所述跟随目标框，对所述目标进行跟随。

56.如权利要求55所述的计算机可读存储介质，其特征在于，所述预定的选框模式包括第一选框模式和/或第二选框模式，

其中，所述第一选框模式的预定的识别区域为显示界面；

57.如权利要求56所述的计算机可读存储介质，其特征在于，

所述触发操作包括第一触发操作和/或第二触发操作，

58.如权利要求55所述的计算机可读存储介质，其特征在于，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，具体包括：

根据所述触发指令运行预定的选框模式；

59.如权利要求58所述的计算机可读存储介质，其特征在于，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，具体包括：

60.如权利要求55所述的计算机可读存储介质，其特征在于，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，包括：

获取所述候选目标框的位置信息；

61.如权利要求58所述的计算机可读存储介质，其特征在于，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，包括：

62.如权利要求61所述的计算机可读存储介质，其特征在于，所述获取所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分，具体包括：基于已训练过的深度学习模型检测识别所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分。

63.如权利要求56所述的计算机可读存储介质，其特征在于，在运行所述第一选框模式时，所述程序被处理器执行时实现以下方法：

获取用户对所述操作键进行的选取操作而生成指示方向；

64.如权利要求63所述的计算机可读存储介质，其特征在于，所述指示方向包括如下至少一种：上、下、左、右。

65.如权利要求56所述的计算机可读存储介质，其特征在于，在运行所述第一选框模式时，所述程序被处理器执行时实现以下方法：

66.如权利要求55所述的计算机可读存储介质，其特征在于，所述第一默认目标框位于拍摄所述当前帧图片的拍摄装置的镜头中央区域。

67.如权利要求56所述的计算机可读存储介质，其特征在于，在运行所述第二选框模式时，所述程序被处理器执行时实现以下方法：

68.如权利要求56所述的计算机可读存储介质，其特征在于，在运行所述第二选框模式时，当在所述识别区域内未检测到目标的特征部分时，则所述第一默认目标框保持不变。

69.如权利要求55所述的计算机可读存储介质，其特征在于，所述操作键包括摇杆和按键中的至少一种。

70.如权利要求59所述的计算机可读存储介质，其特征在于，所述触发操作包括如下至少一种：用户按下所述摇杆、用户双击所述按键。

71.如权利要求60所述的计算机可读存储介质，其特征在于，所述位置信息包括所述候选目标框的中心点坐标和所述候选目标框的尺寸信息中的至少一种。

72.如权利要求71所述的计算机可读存储介质，其特征在于，所述候选目标框包括矩形框，所述尺寸信息包括所述候选目标框的宽度和高度。

73.如权利要求55至72任一项所述的计算机可读存储介质，其特征在于，所述特征部分包括目标的身体部位的至少一部分；

或者所述特征部分包括目标的身体部位的姿势。

74.如权利要求73所述的计算机可读存储介质，其特征在于，

所述身体部位的至少一部分包括如下至少一种：面部、头部、肩部、躯干。

75.如权利要求55至74任一项所述的计算机可读存储介质，其特征在于，所述计算机可读存储介质应用于设置有拍摄装置的可移动平台，所述操作键设于所述可移动平台。

76.如权利要求75所述的计算机可读存储介质，其特征在于，所述可移动平台包括如下至少一种：手持云台、无人机、车辆、机器人、船。

77.如权利要求55至76任一项所述的计算机可读存储介质，其特征在于，根据所述跟随目标框，对所述目标进行跟随，包括：

78.如权利要求55所述的计算机可读存储介质，其特征在于，所述预定目标为至少一个，所述候选目标框用于对应相应的所述预定目标的特征部分。

79.如权利要求78所述的计算机可读存储介质，其特征在于，所述预定目标为至少一个，

80.如权利要求78所述的计算机可读存储介质，其特征在于，

81.如权利要求55所述的计算机可读存储介质，其特征在于，

82.一种可移动平台，其特征在于，所述可移动平台包括：

平台本体；

至少一个操作键，设置在所述平台本体上；

一个或多个处理器，所述处理器用于实现以下方法：

根据所述跟随目标框，对所述目标进行跟随。

83.如权利要求82所述的可移动平台，其特征在于，所述预定的选框模式包括第一选框模式和/或第二选框模式，

其中，所述第一选框模式的预定的识别区域为显示界面；

84.如权利要求83所述的可移动平台，其特征在于，

所述触发操作包括第一触发操作和/或第二触发操作，

85.如权利要求82所述的可移动平台，其特征在于，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，具体包括：

根据所述触发指令运行预定的选框模式；

86.如权利要求85所述的可移动平台，其特征在于，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，具体包括：

87.如权利要求82所述的可移动平台，其特征在于，根据所述触发操作，在显示界面上显示的当前帧图片中显示所述候选目标框，包括：

获取所述候选目标框的位置信息；

88.如权利要求85所述的可移动平台，其特征在于，根据运行的所述预定的选框模式，在预定的识别区域内，生成所述候选目标框，包括：

89.如权利要求88所述的可移动平台，其特征在于，所述获取所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分，具体包括：基于已训练过的深度学习模型检测识别所述显示界面上显示的当前帧图片在所述识别区域内目标的特征部分。

90.如权利要求83所述的可移动平台，其特征在于，在运行所述第一选框模式时，所述处理器用于实现以下方法：

获取用户对所述操作键进行的选取操作而生成指示方向；

91.如权利要求90所述的可移动平台，其特征在于，所述指示方向包括如下至少一种：上、下、左、右。

92.如权利要求83所述的可移动平台，其特征在于，在运行所述第一选框模式时，所述处理器用于实现以下方法：

93.如权利要求82所述的可移动平台，其特征在于，所述第一默认目标框位于拍摄所述当前帧图片的拍摄装置的镜头中央区域。

94.如权利要求83所述的可移动平台，其特征在于，在运行所述第二选框模式时，所述处理器用于实现以下方法：

95.如权利要求83所述的可移动平台，其特征在于，在运行所述第二选框模式时，当在所述识别区域内未检测到目标的特征部分时，则所述第一默认目标框保持不变。

96.如权利要求82所述的可移动平台，其特征在于，所述操作键包括摇杆和按键中的至少一种。

97.如权利要求96所述的可移动平台，其特征在于，所述触发操作如下至少一种：包括用户按下所述摇杆、用户双击所述按键。

98.如权利要求87所述的可移动平台，其特征在于，所述位置信息包括所述候选目标框的中心点坐标和所述候选目标框的尺寸信息中的至少一种。

99.如权利要求98所述的可移动平台，其特征在于，所述候选目标框包括矩形框，所述尺寸信息包括所述候选目标框的宽度和高度。

100.如权利要求82至99任一项所述的可移动平台，其特征在于，所述特征部分包括目标的身体部位的至少一部分；

或者所述特征部分包括目标的身体部位的姿势。

101.如权利要求100所述的可移动平台，其特征在于，所述身体部位的至少一部分包括如下至少一种：面部、头部、肩部、躯干。

102.如权利要求82至101任一项所述的可移动平台，其特征在于，所述可移动平台还包括拍摄装置，用于拍摄目标场景的图片。

103.如权利要求至102所述的可移动平台，其特征在于，所述可移动平台包括如下至少一种：手持云台、无人机、车辆、机器人、船。

104.如权利要求82至103任一项所述的可移动平台，其特征在于，根据所述跟随目标框，对所述目标进行跟随，包括：

根据所述跟随目标框，所述可移动平台对准与所述跟随目标框相对应的目标，与所述目标保持同步运动，以对所述目标进行跟随。

105.如权利要求82所述的可移动平台，其特征在于，所述预定目标为至少一个，所述候选目标框用于对应相应的所述预定目标的特征部分。

106.如权利要求105所述的可移动平台，其特征在于，所述预定目标为至少一个，

107.如权利要求105所述的可移动平台，其特征在于，

108.如权利要求82所述的可移动平台，其特征在于，

109.如权利要求82所述的可移动平台，其特征在于，

所述平台本体设有拍摄装置；或者，所述平台本体用于安装拍摄装置。