CN112639874A

CN112639874A - 目标跟随方法、目标跟随装置、可移动设备和存储介质

Info

Publication number: CN112639874A
Application number: CN202080004952.4A
Authority: CN
Inventors: 任创杰; 张李亮; 朱高
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2021-04-09
Also published as: WO2021184359A1

Abstract

一种目标跟随方法、目标跟随装置、可移动设备和存储介质，其中方法包括：获取拍摄的图像(101)，根据所述图像确定目标的姿态信息以及目标所在的边界框的尺寸信息(102)，根据目标的姿态信息以及边界框的尺寸信息，对目标进行跟随(103)。本发明可以减少或避免因为目标姿态变化导致的可移动设备冲人、前后摇晃等问题，有效提高跟随的稳定性和安全性。

Description

目标跟随方法、目标跟随装置、可移动设备和存储介质

技术领域

本发明实施例涉及智能控制技术领域，尤其涉及一种目标跟随方法、目标跟随装置、可移动设备和存储介质。

背景技术

随着科技的不断发展，可移动设备如无人机等的应用也越来越广泛。无人机可以在飞行的过程中，对目标进行智能跟随。现有技术的不足之处在于，无人机对目标的跟随过程的稳定性较差，常常出现无人机冲人、前后摇晃等问题，严重时还会危及用户人身安全。

发明内容

本发明实施例提供了一种目标跟随方法、目标跟随装置、可移动设备和存储介质，用以解决现有技术中可移动设备的跟随过程的稳定性较差的技术问题。

本发明实施例第一方面提供一种目标跟随方法，包括：

获取拍摄的图像；

根据所述图像确定目标的姿态信息以及所述目标所在的边界框的尺寸信息；

根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随。

本发明实施例第二方面提供一种目标跟随装置，包括：

存储器，用于存储计算机程序；

处理器，用于运行所述存储器中存储的计算机程序以实现：

获取拍摄的图像；

本发明实施例第三方面提供一种可移动设备，包括第二方面所述的目标跟随装置。

本发明实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令用于实现第一方面所述的方法。

本发明实施例提供的目标跟随方法、目标跟随装置、可移动设备和存储介质，通过获取拍摄的图像，根据所述图像确定目标的姿态信息以及所述目标所在的边界框的尺寸信息，根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随，可以减少或避免因为目标姿态变化导致的可移动设备冲人、前后摇晃等问题，有效提高跟随的稳定性和安全性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一提供的一种目标跟随方法的流程示意图；

图2为本发明实施例二提供的一种目标跟随方法的流程示意图；

图3为本发明实施例二提供的一种目标跟随方法中确定关键点信息的原理示意图；

图4为本发明实施例二提供的一种目标跟随方法中置信度特征图的高斯分布区域和零响应背景的位置示意图；

图5为本发明实施例三提供的一种目标跟随方法的流程示意图；

图6为本发明实施例三提供的一种目标跟随方法中下蹲状态的关键点的位置示意图；

图7为本发明实施例三提供的一种目标跟随方法中直立行走状态的关键点的位置示意图；

图8为本发明实施例四提供的一种目标跟随装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

本发明实施例一提供一种目标跟随方法。图1为本发明实施例一提供的一种目标跟随方法的流程示意图。如图1所示，本实施例中的目标跟随方法，可以包括：

步骤101、获取拍摄的图像。

可选的，本实施例中的方法，可以应用于可移动设备，所述可移动设备可以为无人机或无人车等任意能够移动的设备，所述可移动设备上可以设置有拍摄装置，所述拍摄装置可以用于对目标进行拍摄。

相应的，本步骤中的获取拍摄的图像，可以具体包括：获取可移动设备中的拍摄装置拍摄的图像。通过对目标进行拍摄，可以实现根据拍摄的图像对目标进行跟随。所述目标可以为人或者车等可以移动的物体。

步骤102、根据所述图像确定目标的姿态信息以及所述目标所在的边界框的尺寸信息。

可选的，可以通过样本对神经网络进行训练，利用训练后的神经网络对图像进行处理，得到对应的姿态信息。或者，可以先通过目标检测算法等方法检测图像中的目标，然后再根据神经网络确定所述目标的姿态信息。

若所述目标为人，则所述姿态信息可以包括但不限于：站立、行走、下蹲、卧倒等。若所述目标为车，则所述姿态信息可以包括但不限于：直行、左转、右转等。

所述目标所在的边界框(bounding box)可以为所述目标在所述图像中所占的矩形框。可选的，可以通过单目标跟踪(Single Object Tracking，SOT)算法或者其它算法，对所述图像进行处理，得到目标所在的边界框。

所述边界框的尺寸信息可以包括所述边界框的高度和/或宽度。可选的，所述高度可以为所述边界框在第一方向上的长度，所述宽度可以为所述边界框在第二方向上的长度。所述第一方向和所述第二方向可以分别为竖直方向和水平方向。

步骤103、根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随。

其中，对所述目标进行跟随，可以是指控制所述可移动设备跟随所述目标，具体地，可以通过将可移动设备与目标之间的距离始终控制在预设范围内来实现。例如，目标向前走，则可移动设备也随之向前走，目标停止，则可移动设备也停止。

在跟随过程中，可以参考所述目标的姿态信息以及边界框的尺寸信息，根据姿态信息及尺寸信息实现对目标的跟随策略。

在一个可选的实施方式中，根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随，可以包括：根据所述目标的姿态信息，确定对所述目标进行跟随的策略；根据所确定的策略以及所述边界框的尺寸信息，对所述目标进行跟随。

其中，所述策略可以包括通过边界框的尺寸信息计算所述目标的距离的算法。具体地，在对目标进行跟随时，可以通过单目测距等方法计算目标的距离，并根据距离来控制跟随过程。为了提高跟随的稳定性，可以根据姿态信息调整确定距离的具体算法。

例如，若所述目标处于第一姿态，则通过第一算法根据所述边界框的尺寸信息计算距离；若所述目标处于第二状态，则通过第二算法根据所述边界框的尺寸信息计算距离。

所述第一算法和所述第二算法可以根据实际需要来设置。一个简单的示例是，可以将所述边界框的高度乘以比例系数，得到所述目标的距离。不同的算法对应的比例系数可以不同。

在目标的姿态信息不变的情况下，目标的距离越远，在图像中所述目标的边界框的高度越小，距离越近，所述目标的边界框的高度越大，因此直接将边界框的高度乘以一个比例系数，就可以估算目标的距离。

在目标的距离不变的情况下，所述目标的姿态发生变化时对应的边界框尺寸也会发生变化。例如，所述目标处于下蹲状态时，边界框的高度约等于直立状态下边界框高度的三分之一。因此，可以为不同的姿态信息设置不同的比例系数。

可选的，所述第一姿态可以为直立行走状态，所述第一算法为将目标的边界框的高度乘以第一系数，得到所述目标的距离；所述第二姿态为下蹲姿态，所述第二算法为将目标的边界框的高度乘以第二系数，得到所述目标的距离，所述第二系数可以小于第一系数。例如，所述第一系数可以为100，所述第二系数可以为33。

在所述策略包括用于确定目标距离的算法的情况下，根据所确定的策略以及所述边界框的尺寸信息，对所述目标进行跟随，可以包括：根据所确定的算法以及所述目标所在的边界框的尺寸信息，计算所述目标的距离；根据所述目标的距离，确定跟随的加速度。

当然，所确定的策略也可以是边界框的尺寸信息与跟随的加速度的对应关系，例如，边界框的高度乘以一定的参数后直接得到对应的加速度，省略中间计算距离的步骤。

在确定跟随加速度后，可以控制可移动设备以所述跟随加速度对所述目标进行跟随。可以理解的是，距离越远，加速度可以越大，距离越近，加速度可以越小，甚至为负。

可选的，对于同样尺寸的边界框，非直立行走状态下对应的跟随的加速度小于直立行走状态下的跟随的加速度。其中，直立行走状态可以表示目标处于直立状态或行走状态，非直立行走状态可以表示目标处于直立和行走以外的状态，如蹲下、趴下等。

具体地，在跟随过程中，在目标处于直立行走状态时，当所述目标的距离为D1时，所述图像中所述目标的边界框的高度为H1；在所述目标处于非直立行走状态如下蹲状态时，当所述目标的距离为D2时，所述图像中所述目标的边界框的高度为H2。由于下蹲时用户身体会弯曲，因此，在H1等于H2的情况下，D1是大于D2的，因此，在直立行走状态下的跟随加速度应该大于非直立行走状态下同样边界框高度对应的跟随加速度。

通过上述方案，对于同样尺寸的边界框，非直立行走状态下对应的跟随加速度可以小于直立行走状态下的跟随加速度，能够在一定程度上避免用户下蹲后可移动设备冲人的问题。

在另一个可选的实施方式中，根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随，可以包括：若所述目标处于直立行走状态，则根据所述边界框的尺寸信息对所述目标进行跟随；若所述目标处于非直立行走状态，则暂停跟随。

在所述目标处于非直立行走状态时暂停跟随，能够简单、有效地实现下蹲或其它非直立行走状态下对可移动设备的控制，避免可移动设备冲人。

利用姿态估计来作为辅助感知，不同的姿态采用不同的跟随策略，有助于可移动设备更好地规划跟随路径，为用户提供更完善的人机交互功能和更友好的人机交互体验，提高用户体验度。

在实际应用中，用户可以通过语音指示、挥手操作等方式，指示可移动设备进入跟随模式，在进入跟随模式后，可以采用上述步骤101至步骤103中的方法，对目标进行跟随。

在跟随过程中，检测目标的姿态信息，并根据姿态信息结合所述目标的边界框的尺寸信息进行跟随，相比于仅通过边界框的尺寸信息来进行跟随的方法，具有更高的稳定性。例如，在仅通过尺寸来进行跟随的方法中，当目标蹲下时，目标在图像中的尺寸就会减小，可移动设备会误判目标已经走远，因此会做出向前加速的动作，但是实际上目标并没有走远，这种误判会导致冲人、前后摇晃等实际问题。而本实施例中的方法，需要基于目标的姿态信息来实现跟随，避免目标改变姿态导致对目标距离的误判。

以上给出了目标为人时的跟随策略示例。当目标为其它物体时，也可以针对不同的姿态信息采用不同的跟随策略，例如，当目标为车时，从直行状态变为转弯状态，可能也会导致图像中目标所在边界框的尺寸信息发生变化，结合目标的姿态信息，可以更好地实现对目标的跟随。

本实施例提供的目标跟随方法，通过获取拍摄的图像，根据所述图像确定目标的姿态信息以及所述目标所在的边界框的尺寸信息，并根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随，能够减少或避免因为目标姿态变化导致的可移动设备冲人、前后摇晃等问题，有效提高跟随的稳定性和安全性。

实施例二

本发明实施例二提供一种目标跟随方法。本实施例是在上述实施例提供的技术方案的基础上，通过图像确定目标的关键点，再根据关键点确定目标的姿态信息。

图2为本发明实施例二提供的一种目标跟随方法的流程示意图。如图2所示，本实施例中的目标跟随方法，可以包括：

步骤201、获取拍摄的图像。

步骤202、根据所述图像确定目标所在的边界框以及所述目标的关键点信息。

其中，根据图像确定目标所在的边界框，可以通过单目标跟踪算法或其它算法实现。根据图像确定目标的关键点信息，可以通过神经网络等深度学习算法实现。具体地，可以通过神经网络直接确定图像中的关键点信息，也可以先裁剪出图像中的感兴趣区域(Region Of Interest，ROI)，再进一步确定关键点信息，相应的，步骤202中的根据所述图像确定所述目标的关键点信息，可以包括：确定所述图像中的目标所在的ROI图像；根据神经网络确定所述ROI图像中的关键点信息。

图3为本发明实施例二提供的一种目标跟随方法中确定关键点信息的原理示意图。如图3所示，可移动平台拍摄的图像可以为RGB图像，通过单目标跟踪算法或者其它算法，可以确定RGB图像中目标所在的边界框(bounding box)，该bounding box的类别为人。使用RGB图像以及SOT算法提供的单个bounding box作为输入，可以得到相应的ROI图像。

例如，RGB图像的大小为1000*800*3，利用SOT的算法，可以从RGB图像中确定目标所在的bounding box，bounding box的表现形式可以为边界框四个角的坐标信息。根据bounding box，可以从GRB图像裁剪出ROI图像，例如，ROI图像的大小可以为100*100*3，目标位于该ROI图像中。

获取到ROI图像后，可以将ROI图像输入到神经网络模型中，利用模型确定关键点信息。本实施例中，所采用的模型可以为卷积神经网络(Convolutional Neural Networks,CNN)，具体可以为全卷积神经网络(Fully Convolutional Networks，FCN)。

所述目标的关键点信息可以包括所述目标的多个关键点的位置信息，所述位置信息可以具体为关键点所在的坐标。其中，所述多个关键点可以包括但不限于：鼻子、肩中部、右肩关节、右肘关节、右手、左肩关节、左肘关节、左手、右髋关节、右膝盖、右脚踝、左髋关节、左膝盖、左脚踝中的至少两项。

神经网络的输出可以为图像中关键点的位置信息，或者，所述神经网络的输出可以为置信度特征图，根据置信度特征图可以确定图像中的关键点的位置信息。下面以神经网络的输出为置信度特征图为例进行说明。

本实施例中，针对神经网络的处理可以包括训练和检测两个阶段。训练阶段可以在检测阶段之前实现，或者，可以在任意两次检测之间对神经网络进行训练。在训练阶段，可以利用样本来训练神经网络，调整神经网络中的参数，使得输出结果与目标结果相近。检测阶段可以用于跟随过程，利用已经经过充分训练的神经网络参数，来对图像进行检测，输出置信度特征图。

下面先介绍神经网络模型的训练阶段。可选的，训练的过程可以包括：获取训练样本，所述训练样本包括样本图像及所述样本图像对应的置信度特征图；根据训练样本，对所述神经网络进行训练。通过将置信度特征图作为目标结果对神经网络进行训练，使得神经网络的输出结果接近目标结果，能够有效提高神经网络的抗干扰性，避免神经网络过拟合。

可选的，训练样本的获取过程可以包括：获取样本图像及所述样本图像中的关键点的位置信息；根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图。其中，所述样本图像对应的置信度特征图中，距离所述关键点越近的像素点对应的概率越高。

所述样本图像可以为从数据库获取的任意图像中裁剪出的ROI图像，针对每个样本图像，利用人工标注的方法来确定该图像中的关键点的位置信息，根据关键点的位置信息，生成置信度特征图。

假设通过人工标注，确定图像中的肩关节所在的位置坐标为(50，50)，那么根据该位置信息可以生成肩关节对应的置信度特征图。生成置信度特征图的原理是，像素点越接近肩关节所在的真实位置，该像素点属于肩关节的概率越大，例如，坐标为(50，50)的像素点对应的概率最大，假设可以为0.8，坐标为(55，55)的像素点对应的概率应该大于坐标为(60，60)的像素点对应的概率，例如两者对应的概率可以分别为0.1和0.01，图像边缘的远离(50，50)的像素点属于肩关节的概率非常小，接近于0。

可选的，可以根据关键点的位置信息，通过二维高斯分布生成所述样本图像对应的置信度特征图。具体地，置信度特征图中，像素点的位置坐标，可以服从期望为关键点坐标、方差为D1的二维高斯分布；或者，像素点与标注的关键点之间的距离，可以服从期望为0、方差为D2的高斯分布。其中，方差D1、D2可以根据实际需要来设置。通过二维高斯分布确定样本图像对应的置信度特征图，能够有效模拟各个像素点属于关键点的概率，提高检测准确性。

可选的，置信度特征图也可以由高斯分布和零响应的背景组成。具体地，在关键点周围预设范围内，可以根据高斯分布确定各个像素点对应的概率，在预设范围之外，可以设置零响应的背景，简单来说，就是将预设范围之外的各个像素点对应的概率设置为0。

以所述关键点为肩关节为例，在肩关节所在位置的预设范围内，采用高斯分布生成各个像素点对应的概率，例如，所述预设范围可以为以肩关节为中心、半径为5的圆，当某一像素点与图像中肩关节所在的坐标点之间间隔5个像素点以上时，该像素点几乎不可能属于肩关节，对应的概率为0。

图4为本发明实施例二提供的一种目标跟随方法中置信度特征图的高斯分布区域和零响应背景的位置示意图。如图4所示，置信度特征图中，中间的黑点表示人工标注的关键点，阴影部分表示高斯分布区域，该区域内每个像素点对应的概率通过高斯分布确定，阴影以外的区域为零响应背景区域，零响应背景区域内各个像素点对应的概率均为0。通过高斯分布和零响应背景组成置信度特征图，能够有效简化置信度特征图的生成过程，提高置信度特征图的生成效率和准确性。

除了高斯分布以外，也可以采用其它方法来根据标注的关键点的位置生成置信度特征图，只要满足像素点与关键点之间的距离越远，像素点属于该关键点的概率越低即可。

若所述样本图像中标注出了多个关键点，则可以针对每一个关键点生成一个置信度特征图。获取多个样本图像及对应的置信度特征图，对神经网络进行训练，神经网络被训练为根据图像确定其中的关键点对应的置信度特征图。

在训练完成后，可以根据训练得到的神经网络对跟随过程中拍摄的图像进行处理。如图3所示，根据神经网络确定所述ROI图像中的关键点信息，可以包括：将所述ROI图像输入至神经网络，得到多个关键点对应的置信度特征图，其中，任一关键点对应的置信度特征图包括各个像素点属于该关键点的概率；根据所述多个关键点对应的置信度特征图确定所述目标的关键点信息。

例如，在确定目标的姿态信息时需要用到左右肩关节、左右髋关节、左右膝盖和左右脚踝共8个关键点，则将拍摄的图像输入神经网络，通过神经网络可以获取8个关键点对应的置信度特征图，根据8个置信度特征图可以分别确定8个关键点所在的位置。

可选的，根据所述多个关键点对应的置信度特征图确定所述目标的关键点信息，可以包括：在任一关键点对应的置信度特征图中，确定属于该关键点的概率最高的像素点；若所述概率最高的像素点对应的概率大于预设阈值，则所述目标的该关键点的位置信息为所述概率最高的像素点的位置信息。

例如，在肩关节对应的置信度特征图中，若概率最高的像素点的坐标位于(10，10)，其对应的概率为0.7，大于预设阈值，则该像素点属于肩关节的可信度足够高，那么可以认为肩关节的坐标为(10，10)。若概率最高的像素点对应的概率小于预设阈值，则说明全部像素点属于肩关节的概率都不够高，那么可以认为图中缺少肩关节。所述预设阈值可以根据实际需要来设置，例如可以为0.5。

步骤203、根据所述目标的关键点信息确定所述目标的姿态信息。

在根据神经网络确定目标的关键点信息后，可以根据关键点信息确定对应的姿态信息。具体地，在获得关键点后，可以根据各个关键点之间形成的连接关系形成肢体，所形成的肢体可以作为目标姿态的判断依据。

可选的，可以根据所述目标的多个关键点之间形成的连线中的至少部分连线，确定所述目标的姿态信息，从而快速、准确地实现姿态检测。

例如，通过图像获取了8个关键点，8个关键点中两两相连，可以得到28条连线，根据28条连线中的至少部分连线，可以确定目标的姿态信息。

在一个可选的实施方式中，可以根据连线的长度确定对应的姿态信息。例如，若肩关节与膝盖之间的连线长度，小于肩关节与髋关节之间的连线长度，那么可以认为目标处于蹲下的状态；若肩关节与膝盖之间的连线长度，约等于肩关节与髋关节之间的长度加上髋关节与膝盖之间的连线长度，那么可以认为目标处于直立状态。

在另一个可选的实施方式中，可以计算所述目标的多个关键点之间形成的连线中的至少部分连线对应的角度信息；根据所述至少部分连线对应的角度信息，确定所述目标的姿态信息。

其中，每条连线对应的角度信息可以包括：所述连线与基准线之间的夹角，和/或，所述连线与其它任意一个或多个连线之间的夹角；所述基准线为水平线或竖直线。

例如，若肩关节与髋关节之间的连线，与竖直线之间的角度小于一定值，则认为目标处于身体倾斜状态；若肩关节与髋关节之间的连线，和髋关节与膝盖之间的连线呈90°，那么可以认为目标处于坐下的状态。

当然，也可以根据连线的长度和角度综合确定目标的姿态信息，提高姿态识别的准确性。

步骤204、根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随。

本实施例中的步骤204的具体实现方法和原理可以参见上述实施例，此处不再赘述。

本实施例提供的目标跟随方法，可以根据神经网络确定拍摄图像中目标的关键点信息，根据关键点信息能够更全面地解析人体姿态，相比于根据神经网络直接输出姿态信息的方案来说，识别的准确性更高，更加灵活，并且，当需要更换需识别的动作类别时，无需对所有样本进行重新标注，节约了人工成本，减少需求变更时的开发量；通过置信度特征图确定关键点的位置，相比于直接以关键点坐标作为训练目标的方案来说，不容易发生过拟合，识别准确度较高，具有更强的抗干扰性，无需采集大量样本和标注相应数据，进一步减少了人工标注的工作量；通过二维高斯分布，能够迅速、准确地确定所述样本图像对应的置信度特征图，使得训练过程更稳定，避免人工标注误差，具有抗干扰性，提高了关键点识别准确率。

在上述实施例提供的技术方案的基础上，可选的，所述神经网络输出的置信度特征图的像素点个数可以小于输入的ROI图像的像素点个数。

例如，ROI图像为h*w*3的RGB图像，h和w分别为输入的长和宽，神经网络输出h’*w’*k的置信度特征图，h’和w’为输出的长和宽，其中，h’＝0.25*h，w’＝0.25*w，k为关键点的类别数量，本实施例中，k＝8，分别为左右肩关节，左右髋关节，左右膝盖，左右脚踝。

假设输入的ROI图像有100*100个像素点，那么输出8个置信度特征图，每个置信度特征图包括25*25个像素点。在训练时，可以设置目标结果的尺寸为输入图像的1/4，就可以实现通过神经网络缩小图像的功能。

将输出的置信度特征图包含的像素点个数设置为小于输入的ROI图像的像素点个数，可以提高拍摄图像的处理效率，减少输出结果的占用空间，并且，由于人工标注关键点是存在一定误差的，通过减少输出图像的尺寸，可以在一定程度上避免误差，提高识别准确性。

实施例三

本发明实施例三提供提供一种目标跟随方法。本实施例是在上述实施例提供的技术方案的基础上，具体通过身体倾斜角度和/或腿部弯曲角度来确定用户的姿态信息。

图5为本发明实施例三提供的一种目标跟随方法的流程示意图。如图5所示，本实施例中的目标跟随方法，可以包括：

步骤501、获取拍摄的图像。

步骤502、根据所述图像确定目标所在的边界框以及所述目标的关键点信息。

本实施例中，步骤501至步骤502的具体实现方案可以参照前述实施例，此处不再赘述。

步骤503、根据所述目标的关键点信息确定所述目标的身体倾斜角度和/或腿部弯曲角度。

其中，所述目标的身体倾斜角度可以包括左侧身体倾斜角度和/或右侧身体倾斜角度，任意一侧的身体倾斜角度为该侧第一连线和第二连线之间的夹角，所述第一连线为所述目标的该侧肩关节与同侧髋关节之间的连线，所述第二连线为所述髋关节与同侧膝盖之间的连线。

具体地，左侧的身体倾斜角度为左侧肩关节与左侧髋关节之间的连线，相对于左侧髋关节与左侧膝盖之间的连线的角度；右侧的身体倾斜角度为右侧肩关节与右侧髋关节之间的连线，相比于右侧髋关节与右侧膝盖之间的连线的角度。一般情况下，左侧的身体倾斜角度和右侧的身体倾斜角度往往比较接近，在实际应用中，可以仅计算一侧的身体倾斜角度。

所述目标的腿部弯曲角度可以包括左侧腿部弯曲角度和/或右侧腿部弯曲角度，任意一侧的腿部弯曲角度为该侧第三连线和第四连线之间的夹角，所述第三连线为所述目标的该侧脚踝与同侧膝盖之间的连线，所述第四连线为所述膝盖与同侧髋关节之间的连线。当根据身体倾斜角度和腿部弯曲角度共同确定姿态信息时，同侧的第二连线可以与第四连线重合。

具体地，左侧的腿部弯曲角度可以为左侧的脚踝与左侧膝盖之间的连线，相对于左侧膝盖与左侧髋关节之间的连线的角度；右侧的腿部弯曲角度可以为右侧的脚踝与右侧膝盖之间的连线，相对于右侧膝盖与右侧髋关节之间的连线的角度。

步骤504、根据所述目标的身体倾斜角度和/或腿部弯曲角度，确定所述目标的姿态信息。

可选的，若任意一侧的身体倾斜角度小于第一角度，或者，若两侧腿部弯曲角度均小于第二角度，则确定所述目标处于非直立行走状态。反之，则可以确定目标处于直立行走状态。

所述第一角度与所述第二角度可以相同，也可以不同。例如，所述第一角度和所述第二角度可以均为150°。

在进行姿态判断时，具体的判断逻辑可以为：若任意一侧的身体倾斜角度小于150°，则认为目标处于非直立行走状态；若两侧的腿部弯曲角度均小于150°，则认为目标处于非直立行走状态；若两侧的身体倾斜角度均大于150°，并且，至少一侧的腿部弯曲角度大于150°，则认为目标处于直立行走状态。

图6为本发明实施例三提供的一种目标跟随方法中下蹲状态的关键点的位置示意图。如图6所示，黑色的圆点表示目标的关键点，四个圆点从上至下分别代表：肩关节、膝盖、髋关节和脚踝，身体倾斜角度∠a为肩关节与髋关节之间连线相对于髋关节与膝盖之间连线的夹角，腿部弯曲角度∠b为脚踝与膝盖之间连线相对于膝盖与髋关节之间连线的夹角，目标的一侧身体倾斜角度∠a和腿部弯曲角度∠b均小于150°，因此判定目标处于非直立行走状态。

图7为本发明实施例三提供的一种目标跟随方法中直立行走状态的关键点的位置示意图。如图7所示，四个圆点从上至下分别代表：肩关节、髋关节、膝盖和脚踝，目标的一侧身体倾斜角度∠c和腿部弯曲角度∠d均大于150°，因此判定目标处于直立行走状态。

步骤504、根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随。

本实施例中，步骤504的具体实现方案可以参照前述实施例，此处不再赘述。

本实施例提供的目标跟随方法，通过身体倾斜角度和腿部弯曲角度来确定目标是否处于直立行走状态，若任意一侧的身体倾斜角度小于第一角度，或者，若两侧腿部弯曲角度均小于第二角度，则确定所述目标处于非直立行走状态，能够快速准确地识别目标的姿态信息，当只有一侧腿部弯曲角度较小时，仍然判定属于直立行走状态，避免单腿弯曲时被误判为非直立行走状态，提高姿态判断的准确性。

实施例四

图8为本发明实施例四提供的一种目标跟随装置的结构示意图。所述目标跟随装置可以执行上述图1所对应的目标跟随方法，参考附图8所示，所述目标跟随装置可以包括：

存储器11，用于存储计算机程序；

处理器12，用于运行所述存储器中存储的计算机程序以实现：

获取拍摄的图像；

可选的，该目标跟随装置的结构中还可以包括通信接口13，用于与其他设备或通信网络通信。

在一个可实施的方式中，在根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随时，所述处理器12具体用于：

根据所述目标的姿态信息，确定对所述目标进行跟随的策略；

根据所确定的策略以及所述边界框的尺寸信息，对所述目标进行跟随。

在一个可实施的方式中，所述策略包括通过边界框的尺寸信息计算所述目标的距离的算法。

在一个可实施的方式中，在根据所确定的策略以及所述边界框的尺寸信息，对所述目标进行跟随时，所述处理器12具体用于：

根据所确定的算法以及所述目标所在的边界框的尺寸信息，计算所述目标的距离；

根据所述目标的距离，确定跟随的加速度。

在一个可实施的方式中，对于同样尺寸的边界框，直立行走状态下对应的跟随的加速度大于直立行走状态下的跟随的加速度。

在一个可实施的方式中，在获取拍摄的图像时，所述处理器12具体用于：

获取可移动设备中的拍摄装置拍摄的图像；

相应的，在根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随时，所述处理器12具体用于：

根据所述姿态信息以及所述边界框的尺寸信息，控制所述可移动设备跟随所述目标。

在一个可实施的方式中，在根据所述图像确定目标的姿态信息时，所述处理器12具体用于：

根据所述图像确定目标的关键点信息；

根据所述目标的关键点信息确定所述目标的姿态信息。

在一个可实施的方式中，所述目标的关键点信息包括所述目标的多个关键点的位置信息。

在一个可实施的方式中，在根据所述图像确定目标的关键点信息时，所述处理器12具体用于：

确定所述图像中的目标所在的感兴趣区域ROI图像；

根据神经网络确定所述ROI图像中的关键点信息。

在一个可实施的方式中，在根据神经网络确定所述ROI图像中的关键点信息时，所述处理器12具体用于：

将所述ROI图像输入至神经网络，得到多个关键点对应的置信度特征图，其中，任一关键点对应的置信度特征图包括各个像素点属于该关键点的概率；

根据所述多个关键点对应的置信度特征图确定所述目标的关键点信息。

在一个可实施的方式中，在根据所述多个关键点对应的置信度特征图确定所述目标的关键点信息时，所述处理器12具体用于：

在任一关键点对应的置信度特征图中，确定属于该关键点的概率最高的像素点；

若所述概率最高的像素点对应的概率大于预设阈值，则所述目标的该关键点的位置信息为所述概率最高的像素点的位置信息。

在一个可实施的方式中，在根据神经网络确定所述ROI图像中的关键点信息之前，所述处理器12还用于：

获取训练样本，所述训练样本包括样本图像及所述样本图像对应的置信度特征图；

根据训练样本，对所述神经网络进行训练。

在一个可实施的方式中，在获取训练样本时，所述处理器12具体用于：

获取样本图像及所述样本图像中的关键点的位置信息；

根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图；

其中，所述样本图像对应的置信度特征图中，距离所述关键点越近的像素点对应的概率越高。

在一个可实施的方式中，在根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图时，所述处理器12具体用于：

根据所述关键点的位置信息，通过二维高斯分布确定所述样本图像对应的置信度特征图。

在一个可实施的方式中，所述神经网络输出的置信度特征图的像素点个数小于所述ROI图像的像素点个数。

在一个可实施的方式中，在根据所述目标的关键点信息确定所述目标的姿态信息时，所述处理器12具体用于：

根据所述目标的多个关键点之间形成的连线中的至少部分连线，确定所述目标的姿态信息。

在一个可实施的方式中，在根据所述目标的多个关键点之间形成的连线中的至少部分连线，确定所述目标的姿态信息时，所述处理器12具体用于：

计算所述目标的多个关键点之间形成的连线中的至少部分连线对应的角度信息；

根据所述至少部分连线对应的角度信息，确定所述目标的姿态信息。

在一个可实施的方式中，每条连线对应的角度信息包括：所述连线与基准线之间的夹角，和/或，所述连线与其它任意一个或多个连线之间的夹角；所述基准线为水平线或竖直线。

根据所述目标的关键点信息确定所述目标的身体倾斜角度和/或腿部弯曲角度；

根据所述目标的身体倾斜角度和/或腿部弯曲角度，确定所述目标的姿态信息。

在一个可实施的方式中，所述目标的身体倾斜角度包括左侧身体倾斜角度和/或右侧身体倾斜角度，其中，任意一侧的身体倾斜角度为该侧第一连线和第二连线之间的夹角，所述第一连线为所述目标的该侧肩关节与同侧髋关节之间的连线，所述第二连线为所述髋关节与同侧膝盖之间的连线；

所述目标的腿部弯曲角度包括左侧腿部弯曲角度和/或右侧腿部弯曲角度，其中，任意一侧的腿部弯曲角度为该侧第三连线和第四连线之间的夹角，所述第三连线为所述目标的该侧脚踝与同侧膝盖之间的连线，所述第四连线为所述膝盖与同侧髋关节之间的连线。

在一个可实施的方式中，在根据所述目标的身体倾斜角度和/或腿部弯曲角度，确定所述目标的姿态信息时，所述处理器12具体用于：

若任意一侧的身体倾斜角度小于第一角度，或者，若两侧腿部弯曲角度均小于第二角度，则确定所述目标处于非直立行走状态。

图8所示目标跟随装置可以执行图1-图7所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图7所示实施例中的描述，在此不再赘述。

本发明实施例还提供一种可移动设备，包括上述任一实施例所述的目标跟随装置。

可选的，所述可移动设备还可以包括：

拍摄装置，与所述处理器连接，用于拍摄图像并发送给所述处理器；

驱动装置，与所述处理器连接，用于在所述处理器的控制下驱动所述可移动设备对所述目标进行跟随。

所述驱动装置可以为电机等，通过驱动装置可以实现可移动设备的移动，从而实现对目标的跟随。

可选的，所述可移动设备为无人机或无人车。

本发明实施例提供的可移动设备中各部件的结构、功能可以参见前述实施例，此处不再赘述。

另外，本发明实施例提供了一种存储介质，该存储介质为计算机可读存储介质，该计算机可读存储介质中存储有程序指令，程序指令用于实现上述图1-图7所示实施例中的目标跟随方法。

以上各个实施例中的技术方案、技术特征在与本相冲突的情况下均可以单独，或者进行组合，只要未超出本领域技术人员的认知范围，均属于本发明保护范围内的等同实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的相关遥控装置和方法，可以通过其它的方式实现。例如，以上所描述的遥控装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，遥控装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得计算机处理器(Processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read_Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种目标跟随方法，其特征在于，包括：

获取拍摄的图像；

2.根据权利要求1所述的方法，其特征在于，根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随，包括：

3.根据权利要求2所述的方法，其特征在于，所述策略包括通过边界框的尺寸信息计算所述目标的距离的算法。

4.根据权利要求3所述的方法，其特征在于，根据所确定的策略以及所述边界框的尺寸信息，对所述目标进行跟随，包括：

根据所述目标的距离，确定跟随的加速度。

5.根据权利要求4所述的方法，其特征在于，对于同样尺寸的边界框，直立行走状态下对应的跟随的加速度大于直立行走状态下的跟随的加速度。

6.根据权利要求1所述的方法，其特征在于，获取拍摄的图像，包括：

获取可移动设备中的拍摄装置拍摄的图像；

相应的，根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随，包括：

7.根据权利要求1所述的方法，其特征在于，根据所述图像确定目标的姿态信息，包括：

根据所述图像确定目标的关键点信息；

根据所述目标的关键点信息确定所述目标的姿态信息。

8.根据权利要求7所述的方法，其特征在于，所述目标的关键点信息包括所述目标的多个关键点的位置信息。

9.根据权利要求7所述的方法，其特征在于，根据所述图像确定目标的关键点信息，包括：

确定所述图像中的目标所在的感兴趣区域ROI图像；

根据神经网络确定所述ROI图像中的关键点信息。

10.根据权利要求9所述的方法，其特征在于，根据神经网络确定所述ROI图像中的关键点信息，包括：

11.根据权利要求10所述的方法，其特征在于，根据所述多个关键点对应的置信度特征图确定所述目标的关键点信息，包括：

12.根据权利要求9所述的方法，其特征在于，在根据神经网络确定所述ROI图像中的关键点信息之前，还包括：

根据训练样本，对所述神经网络进行训练。

13.根据权利要求12所述的方法，其特征在于，获取训练样本，包括：

获取样本图像及所述样本图像中的关键点的位置信息；

14.根据权利要求13所述的方法，其特征在于，根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图，包括：

15.根据权利要求10所述的方法，其特征在于，所述神经网络输出的置信度特征图的像素点个数小于所述ROI图像的像素点个数。

16.根据权利要求7所述的方法，其特征在于，根据所述目标的关键点信息确定所述目标的姿态信息，包括：

17.根据权利要求16所述的方法，其特征在于，根据所述目标的多个关键点之间形成的连线中的至少部分连线，确定所述目标的姿态信息，包括：

18.根据权利要求17所述的方法，其特征在于，每条连线对应的角度信息包括：所述连线与基准线之间的夹角，和/或，所述连线与其它任意一个或多个连线之间的夹角；所述基准线为水平线或竖直线。

19.根据权利要求7所述的方法，其特征在于，根据所述目标的关键点信息确定所述目标的姿态信息，包括：

20.根据权利要求19所述的方法，其特征在于，所述目标的身体倾斜角度包括左侧身体倾斜角度和/或右侧身体倾斜角度，其中，任意一侧的身体倾斜角度为该侧第一连线和第二连线之间的夹角，所述第一连线为所述目标的该侧肩关节与同侧髋关节之间的连线，所述第二连线为所述髋关节与同侧膝盖之间的连线；

21.根据权利要求20所述的方法，其特征在于，根据所述目标的身体倾斜角度和/或腿部弯曲角度，确定所述目标的姿态信息，包括：

22.一种目标跟随装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于运行所述存储器中存储的计算机程序以实现：

获取拍摄的图像；

23.根据权利要求22所述的装置，其特征在于，在根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随时，所述处理器具体用于：

24.根据权利要求23所述的装置，其特征在于，所述策略包括通过边界框的尺寸信息计算所述目标的距离的算法。

25.根据权利要求24所述的装置，其特征在于，在根据所确定的策略以及所述边界框的尺寸信息，对所述目标进行跟随时，所述处理器具体用于：

根据所述目标的距离，确定跟随的加速度。

26.根据权利要求25所述的装置，其特征在于，对于同样尺寸的边界框，直立行走状态下对应的跟随的加速度大于直立行走状态下的跟随的加速度。

27.根据权利要求22所述的装置，其特征在于，在获取拍摄的图像时，所述处理器具体用于：

获取可移动设备中的拍摄装置拍摄的图像；

相应的，在根据所述目标的姿态信息以及所述边界框的尺寸信息，对所述目标进行跟随时，所述处理器具体用于：

28.根据权利要求22所述的装置，其特征在于，在根据所述图像确定目标的姿态信息时，所述处理器具体用于：

根据所述图像确定目标的关键点信息；

根据所述目标的关键点信息确定所述目标的姿态信息。

29.根据权利要求28所述的装置，其特征在于，所述目标的关键点信息包括所述目标的多个关键点的位置信息。

30.根据权利要求28所述的装置，其特征在于，在根据所述图像确定目标的关键点信息时，所述处理器具体用于：

确定所述图像中的目标所在的感兴趣区域ROI图像；

根据神经网络确定所述ROI图像中的关键点信息。

31.根据权利要求30所述的装置，其特征在于，在根据神经网络确定所述ROI图像中的关键点信息时，所述处理器具体用于：

32.根据权利要求31所述的装置，其特征在于，在根据所述多个关键点对应的置信度特征图确定所述目标的关键点信息时，所述处理器具体用于：

33.根据权利要求30所述的装置，其特征在于，在根据神经网络确定所述ROI图像中的关键点信息之前，所述处理器还用于：

根据训练样本，对所述神经网络进行训练。

34.根据权利要求33所述的装置，其特征在于，在获取训练样本时，所述处理器具体用于：

获取样本图像及所述样本图像中的关键点的位置信息；

35.根据权利要求34所述的装置，其特征在于，在根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图时，所述处理器具体用于：

36.根据权利要求30所述的装置，其特征在于，所述神经网络输出的置信度特征图的像素点个数小于所述ROI图像的像素点个数。

37.根据权利要求28所述的装置，其特征在于，在根据所述目标的关键点信息确定所述目标的姿态信息时，所述处理器具体用于：

38.根据权利要求37所述的装置，其特征在于，在根据所述目标的多个关键点之间形成的连线中的至少部分连线，确定所述目标的姿态信息时，所述处理器具体用于：

39.根据权利要求38所述的装置，其特征在于，每条连线对应的角度信息包括：所述连线与基准线之间的夹角，和/或，所述连线与其它任意一个或多个连线之间的夹角；所述基准线为水平线或竖直线。

40.根据权利要求28所述的装置，其特征在于，在根据所述目标的关键点信息确定所述目标的姿态信息时，所述处理器具体用于：

41.根据权利要求40所述的装置，其特征在于，所述目标的身体倾斜角度包括左侧身体倾斜角度和/或右侧身体倾斜角度，其中，任意一侧的身体倾斜角度为该侧第一连线和第二连线之间的夹角，所述第一连线为所述目标的该侧肩关节与同侧髋关节之间的连线，所述第二连线为所述髋关节与同侧膝盖之间的连线；

42.根据权利要求41所述的装置，其特征在于，在根据所述目标的身体倾斜角度和/或腿部弯曲角度，确定所述目标的姿态信息时，所述处理器具体用于：

43.一种可移动设备，其特征在于，包括权利要求22-42任一项所述的目标跟随装置。

44.根据权利要求43所述的设备，其特征在于，所述可移动设备还包括：

拍摄装置，用于拍摄图像并发送给所述处理器；

驱动装置，用于在所述处理器的控制下驱动所述可移动设备对所述目标进行跟随。

45.根据权利要求43所述的设备，其特征在于，所述可移动设备为无人机或无人车。

46.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，所述程序指令用于实现权利要求1-21中任意一项所述的目标跟随方法。