CN107239728B

CN107239728B - 基于深度学习姿态估计的无人机交互装置与方法

Info

Publication number: CN107239728B
Application number: CN201710005799.7A
Authority: CN
Inventors: 田露; 单羿; 姚颂
Original assignee: Xilinx Technology Beijing Ltd
Current assignee: Xilinx Technology Beijing Ltd
Priority date: 2017-01-04
Filing date: 2017-01-04
Publication date: 2021-02-02
Anticipated expiration: 2037-01-04
Also published as: CN107239728A; US20180186452A1

Abstract

提供一种基于深度学习姿态估计的无人机交互装置与方法。根据本发明的装置，包括：拍摄单元，用于拍摄对象视频；关键帧提取单元，用于从拍摄的对象视频中提取关于对象的关键帧图像；姿态估计单元，用于基于深度卷积神经网络的图像识别算法，针对所述关键帧图像，识别出对象姿态；以及无人机操作控制单元，用于将识别出的对象姿态转化为控制指令，从而控制无人机的操作。本发明利用人体姿态估计来控制无人机，可以更方便地操纵无人机。而且，在关键帧提取和姿态估计中，通过使用深度卷积神经网络算法，可以获得更快速、更准确的结果。

Description

基于深度学习姿态估计的无人机交互装置与方法

技术领域

本发明涉及无人机交互领域，更具体地，涉及基于深度学习姿态估计的无人机交互装置与方法。

背景技术

无人机具有成本低廉、小巧便携等优点，在各领域具有广阔的应用前景，尤其是航拍拍摄领域。研究人和无人机之间的交互具有良好的应用价值。

传统的无人机交互方法，大多是人通过手机或者遥控装置控制无人机的飞行姿态与操作，以使得无人机上升、下降、移动以及拍摄。这类控制方式大多操作复杂，需要人时刻控制无人机的飞行姿态，在完成自拍等简单任务时需要兼顾无人机的飞行状态，非常不便。

人体姿态估计是新一代人机交互的一项关键技术。相对于传统的鼠标、键盘、遥控器等传统接触式的操作方式，人体姿态估计的交互方式使操作者摆脱遥控设备的束缚，具有直观、容易理解、操作简单等优点，更加符合人类日常习惯，已经成为人机交互领域的研究热点。随着无人机控制技术的发展，人机之间的交互越来越普遍，利用人体姿态来控制无人机可以更方便地操纵无人机。

人工神经网络最初由W.S.McCulloch和W.Pitts于1943年提出，历经70多年的发展，目前已成为人工智能领域的研究热点。人工神经网络由大量的节点相互联结组成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点之间的连接代表一个通过该连接信号的加权值，称为权重。网络的输出则按照网络的连接方式、激励函数、权重值的不同而不同。

深度学习的概念由Hinton等人于2006年提出，它将多个浅层的人工神经网络叠加在一起，将每一层学习得到的结果作为下一层的输入，并用自顶向下的监督算法调整所有层的权重。

卷积神经网络是第一个真正多层结构的有监督的深度学习算法。深度卷积神经网络具有准确率高、所需训练样本集较大的特点，目前已被广泛应用于包括人脸识别、手势识别、行人检测等各个计算机视觉方法，相比于传统方法能够取得较优的结果。

因此，需要一种无人机交互装置与方法，其利用卷积神经网络的深度学习算法来进行人体姿态估计，并使用人体姿态估计来进行人机交互，从而达到控制无人机的操作的目的。

发明内容

根据以上的讨论，本发明的目的在于提供一种无人机交互装置与方法，其能够利用卷积神经网络的深度学习算法来进行人体姿态估计，并使用人体姿态估计来进行人机交互，从而控制无人机的操作。

为实现上述目的，根据本发明的第一方面，提供一种基于深度学习姿态估计的无人机交互装置，包括：拍摄单元，用于拍摄对象视频；关键帧提取单元，用于从拍摄的对象视频中提取关于对象的关键帧图像；姿态估计单元，用于基于深度卷积神经网络的图像识别算法，针对所述关键帧图像，识别出对象姿态；以及无人机操作控制单元，用于将识别出的对象姿态转化为控制指令，从而控制无人机的操作。

优选地，本发明的无人机交互装置可以进一步包括：预处理单元，用于对所述关键帧提取单元提取的关键帧图像进行图像变换和滤波预处理，将预处理后的关键帧图像输入到所述姿态估计单元以识别出对象姿态。

优选地，所述的关键帧提取单元可以进一步被配置用于：使用基于深度卷积神经网络算法的对象检测器，从拍摄的对象视频中提取包括对象的关键帧图像。

优选地，以上所述的对象是人体。

优选地，所述的姿态估计单元可以进一步包括：人体关键点定位单元，用于使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息；以及姿态判断单元，用于将获取的人体关键点位置信息对应为人体姿态。

根据本发明的第二方面，提供一种基于深度学习姿态估计的无人机交互方法，包括如下步骤：拍摄对象视频；从拍摄的对象视频中提取关于对象的关键帧图像；基于深度卷积神经网络的图像识别算法，针对提取的关键帧图像，识别出对象姿态；以及将识别出的对象姿态转化为控制指令，从而控制无人机的操作。

优选地，本发明的无人机交互方法可以进一步包括：在从拍摄的对象视频中提取关于对象的关键帧图像之后，对提取的关键帧图像进行图像变换和滤波预处理，然后针对预处理后的关键帧图像，识别出对象姿态。

优选地，所述的从拍摄的对象视频中提取关于对象的关键帧图像可以进一步包括：使用基于深度卷积神经网络的对象检测算法，从拍摄的对象视频中提取包括对象的关键帧图像。

优选地，以上所述的对象是人体。

优选地，所述的基于深度卷积神经网络的图像识别算法，针对提取的关键帧图像，识别出对象姿态的步骤可以进一步包括：使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息；以及将获取的人体关键点位置信息对应为人体姿态。

本发明利用人体姿态估计来控制无人机，可以更方便地操纵无人机。而且，在关键帧提取和姿态估计中，通过使用深度卷积神经网络算法，可以获得更快速、更准确的结果。

附图说明

下面参考附图结合实施例说明本发明。在附图中：

图1是根据本发明的无人机交互装置的结构框图。

图2是根据本发明的无人机交互方法的流程图。

具体实施方式

附图仅用于示例说明，不能理解为对本专利的限制；下面结合附图和实施例对本发明的技术方案做进一步的说明。

图1是根据本发明的无人机交互装置的结构示意图。

如图1中所示，根据本发明的一种基于深度学习姿态估计的无人机交互装置10包括：拍摄单元11，用于拍摄对象视频；关键帧提取单元12，用于从拍摄的对象视频中提取关于对象的关键帧图像；姿态估计单元13，用于基于深度卷积神经网络的图像识别算法，针对所述关键帧图像，识别出对象姿态；以及无人机操作控制单元14，用于将识别出的对象姿态转化为控制指令，从而控制无人机的操作。

在根据本发明的实施例中，拍摄单元11是无人机的摄像头。无人机摄像头11负责提供连续、稳定、实时的视频信号。无人机摄像头11捕捉影像。影像通过镜头生成的光学图像投射到图像传感器表面上，转化为电信号，经过模数转换后转换成数字信号，再经过数字信号处理芯片处理，最终输出。

在根据本发明的实施例中，关键帧提取单元12负责首先检测输入视频中的对象信息，用矩形框选出视频中的对象，提取出其中的一张图像作为关键帧输出。关键帧提取单元12的核心是对象检测算法。使用基于深度卷积神经网络的对象检测算法可以快速有效地从输入视频中检测出对象。也就是说，关键帧提取单元12使用基于深度卷积神经网络算法的对象检测器，从无人机的摄像头11拍摄的对象视频中提取包括对象的关键帧图像。

尽管未示出，根据本发明的无人机交互装置还可以包括预处理单元，用于对所述关键帧提取单元12提取的关键帧图像进行图像变换和滤波预处理，将预处理后的关键帧图像输入到所述姿态估计单元13以识别出对象姿态。

在本发明的优选实施例中，预处理单元可以是关键帧提取单元12的一部分(即子模块或子单元)；在其他的实施例中，预处理单元也可以是姿态估计单元13的一部分。本领域技术人员应该理解，预处理单元也可以独立于关键帧提取单元12和姿态估计单元13。

预处理单元负责对包含对象的图像(关键帧图像)做变换和滤波处理。由于无人机摄像头11拍摄到的图像可能出现噪声大、变形、模糊等情况，因此造成系统的不稳定。对无人机拍摄图像做预处理，可以有效地达到降噪、矫正形变、去除模糊等目的。

上文中提到的对象可以是人体、假体(例如人造的假人、稻草人或可以模仿人体的其他任何物体)、动物体或者能够利用姿态与无人机交互从而控制无人机操作的其他任何对象。

在根据本发明的优选实施例中，所述对象是人体。也就是说，关键帧提取单元12负责检测输入视频中的人体信息，用矩形框选出视频中的人，提取出其中的一张图像作为关键帧输出。关键帧提取单元12使用基于深度卷积神经网络的人体检测算法可以快速有效地从输入视频中检测出人。可选地，预处理单元负责对包含人的图像(关键帧图像，即行人图像)做变换和滤波处理。

在根据本发明的实施例中，姿态估计单元12进一步包括：人体关键点定位单元，其使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息；以及姿态判断单元，其将获取的人体关键点位置信息对应为人体姿态。

人体关键点定位单元使用深度神经网络算法负责首先从输入的行人图像中提取出人体骨骼关键点，人体骨骼关键点包括但不限于：人体头顶、颈部、左肩、右肩、左肘、右肘、左手腕、右手腕、左胯、右胯、左膝、右膝、左脚踝、右脚踝等。人体关键点定位单元的输出为上述人体骨骼关键点在输入图像中的二维坐标。

姿态判断单元负责对上述人体骨骼关键点在输入图像中的二维坐标做判断，与预设的人体姿态做比较，对应至其中一种预设的人体姿态中。预设的人体姿态包括但不限于：右手向右挥动、左手向左挥动、双手向前平推、双手向后收回、无人机起飞指令人体姿态、无人机降落指令人体姿态、开始交互指令人体姿态、结束交互指令姿态、无人机拍摄指令人体姿态等。

本领域技术人员应该理解，人体姿态的具体数量和具体样式可以取决于无人机控制的需求。例如，当无人机控制较为复杂时，需要较多的人体姿态，进行不同的控制。另外，当人体姿态较为接近时，可能会引起判断失误，从而导致不同的控制结果，因此，人体姿态的具体样式应保证有一定区别，不至于混淆。

根据本发明的实施例，无人机操作控制单元14也可以被称为无人机飞行控制模块，负责将人体姿态估计单元13估计得到的人体姿态对应为无人机飞行控制指令，包括但不限于：向右飞行指令，向左飞行指令、前进指令、后退指令、起飞指令、降落指令、开始交互指令、结束交互指令、拍摄指令等。并且，为了控制过程中的安全性、实用性考虑，设置一对无人机开始交互和结束交互指令。

在图1中，尽管将无人机操作控制单元14示出为无人机的图形，但本领域技术人员应该理解，这里的无人机操作控制单元14可以是无人机的一个组成部件，也可以独立于无人机之外，通过无线信号对无人机进行控制。进一步，图1中的其他单元中，除了拍摄单元11一般应在无人机上携带，随着无人机的飞行而拍摄视频以外，关键帧提取单元12和姿态估计单元13既可以是无人机上的组件，也可以是独立于无人机之外，通过无线信号从无人机接收拍摄的视频，从而完成关键帧提取与姿态估计的功能。

图2是根据本发明的无人机交互方法的流程图。

如图2中所示，一种基于深度学习姿态估计的无人机交互方法20开始于步骤S1，即拍摄对象视频。具体地说，通过无人机摄像头拍摄人体视频(包含人体的视频)。

在步骤S2，从拍摄的对象视频中提取关于对象的关键帧图像。具体地说，每隔一定时间间隔，从人体视频中提取一张关键帧，并进行预处理。

在根据本发明的优选实施例中，步骤S2进一步包括：使用基于深度卷积神经网络的人体检测算法，从摄像头视频中检测提取出包含人体的图像关键帧。

在步骤S3，基于深度卷积神经网络的图像识别算法，针对提取的关键帧图像，识别出对象姿态。具体地说，将关键帧输入至人体姿态估计单元，使用基于深度卷积神经网络的图像识别算法识别出对应的人体姿态。

根据本发明的优选实施例，在步骤S2和步骤S3之间，可以进一步包括预处理的步骤。具体地说，在从拍摄的对象视频中提取关于对象的关键帧图像之后，对提取的关键帧图像进行图像变换和滤波预处理，然后针对预处理后的关键帧图像，识别出对象姿态。

这里所述的对象可以是人体。如上所述，对象也可以是假体或动物体等等。

预处理包括对提取出的人体图像进行降噪、矫正、去除运动模糊等处理。如上所述，对无人机拍摄的图像做预处理，可以有效地达到降噪、矫正形变、去除模糊等目的。

本领域技术人员应理解，尽管在以上的描述中，预处理步骤被描述为在步骤S2和步骤S3之间，但是，预处理步骤也可以被视为步骤S2或步骤S3的一个组成成分，即子步骤。例如，可以认为提取关键帧的步骤，即步骤S2，分为提取关键帧和对关键帧进行预处理的两个子步骤。

在本发明的优选实施例中，步骤S3中，将关键帧输入至人体姿态估计单元，使用基于深度卷积神经网络的图像识别算法识别出对应的人体姿态，具体方法为：使用深度卷积神经网络算法定位输入图像中的人体关键点位置信息，人体关键点包括但不限于：人体头顶、颈部、左肩、右肩、左肘、右肘、左手腕、右手腕、左胯、右胯、左膝、右膝、左脚踝、右脚踝。然后，将得到的人体关键点位置信息对应为人体姿态，人体姿态包括但不限于：右手向右挥动、左手向左挥动、双手向前平推、双手向后收回等。

在步骤S4，将识别出的对象姿态转化为控制指令，从而控制无人机的操作。

在根据本发明的优选实施例中，在步骤S4中，右手向右挥动、左手向左挥动、双手向前平推、双手向后收回等人体姿态，分别对应无人机向右飞行，向左飞行，前进、后退。无人机控制指令包括但不限于：向右飞行指令，向左飞行指令、前进指令、后退指令、起飞指令、降落指令、开始交互指令、结束交互指令、拍摄指令等。

在根据本发明的优选实施例中，在步骤S4中，设置一对开始交互和结束交互的动作指令，开始交互指令表示开始动作，结束交互指令表示动作结束。

步骤S4结束之后，方法20可以结束。

特别地，对于本发明的优选实施例中的步骤S2中所使用的深度卷积神经网络算法，网络输入为视频帧，经网络自底向上依次计算各层输出，最终层输出为预测的视频帧中行人所在矩形框的坐标，其网络权重需要预先训练得到，训练方法T1包括：

T11、预先收集无人机摄像头拍摄的视频，作为候选的训练集；

T12、人工标注出训练集视频中人体所在矩形框坐标，作为训练的标注数据；

T13、网络前向传播，自底向上依次计算深度卷积神经网络各层的输出值，将最后一层的输出值同标注数据做比较，计算得到损失值；

T14、网络反向传播，基于各层权重和损失值自顶向下依次计算各层损失及梯度方向，根据梯度下降法更新网络权重；

T15、循环执行T13、T14直至网络收敛，最终所得网络权重即为S2中用于人体检测的深度卷积神经网络。

特别地，对于步骤S3中所使用的深度卷积神经网络算法，网络输入为包含人体的图像，经网络自底向上依次计算各层输出，最终层输出各个关键点的坐标预测值，其网络权重需要预先训练得到，训练方法T2包括：

T21、预先收集无人机拍摄的人体图片集，作为候选的训练集；

T22、人工标注出训练集图像中人体关键点所在的坐标，作为训练的标注数据；

T23、网络前向传播，自底向上依次计算深度卷积神经网络各层的输出值，将最后一层的输出值同标注数据做比较，计算得到损失值；

T24、网络反向传播，基于各层权重和损失值自顶向下依次计算各层损失及梯度方向，根据梯度下降法更新网络权重；

T25、循环执行T23、T24直至网络收敛，最终所得网络权重即为S3中用于人体关键点定位的深度卷积神经网络。

在以上的描述中，本发明提供了一种新颖的无人机交互装置与方法，其创新性的特征不仅包括权利要求中所述的技术特征，还包括以下这些内容：

1、基于深度学习。根据以上的描述，在本发明的技术方案中，在进行姿态估计时，利用了卷积神经网络进行深度学习，从而能够快速、准确地从大量数据中准确识别出人体姿态，从而与无人机进行交互。此外，在关键帧提取时，也可以利用卷及神经网络算法，从而快速提取、识别出含有人体的关键帧图像。

2、基于人体姿态估计。根据以上的描述，在本发明的技术方案中，通过判断出视频中行人的人体姿态，从而对应于不同的无人机操作指令。更具体地说，本发明所利用的人体姿态，是根据包括人体各关节在内的人体关键点的定位而定义的。也就是说，本发明中所述的人体姿态，既不是简单的手势，也不是简单的运动轨迹或运动方向，而是利用人体关键点的位置所呈现出的信号表达。

在实践中，对手势进行识别以及通过手势进行人机交互的问题在于，手势在无人机所拍摄的画幅中占比较小，既难以在视频中进行画面提取，也难以在提取的画面中进行精细识别，因此只能在特定场合应用；而且，手势的数量较少，具体样式易于混淆。而本发明的无人机交互技术中，人体画面易于在视频中提取，人体姿态也易于识别。特别是，由于人体姿态取决于人体关键点的位置，可以使得人体姿态的具体数目和具体样式能够根据实际需要而进行定义，应用范围更加广泛。

此外，对运动趋势和运动方向进行识别从而进行人机交互的问题在于，这样的人机交互所提供的信息太过于简单，仅仅是个运动趋势和方向，由此只能让无人机进行与运动方向有关的操作，例如跟踪。而本发明的无人机交互技术中，由于人体姿态取决于人体关键点的位置，可以使得人体姿态的具体数目和具体样式能够根据实际需要而进行定义，从而使得对无人机的控制更加全面与精细。

3、拍摄单元无需特殊摄像头。根据以上的描述，拍摄单元即摄像头的作用仅在于拍摄二维视频，后续的操作都基于这个二维视频即可。

有些体感游戏使用特殊图像采集设备，例如采用RGB-Depth的功能，从而不仅采集二维图像，而且感应图像的深度，从而在二维图像的基础上提供对象的深度信息，由此进行人体姿态识别与动作控制。还有些应用中需要用到双目摄像头，从而在二维图像的基础上，利用双目视差的原理，增加了视觉立体感的效果，也类似于增加了深度信息。然而，在本发明中，只需要识别人体的关键点位置信息，即这些关键点的二维坐标，而不需要深度信息或立体信息。因此，本发明可以使用常规的摄像头，无需对无人机的摄像头进行改造，直接利用无人机所拍摄的视频即可达到交互的目的。

4、无人机控制内容。根据以上的描述，基于人体姿态进行无人机交互控制，不仅能控制无人机的飞行，而且还能控制无人机进行飞行以外的其他操作。这些飞行以外的其他操作包括但不限于：拍摄、射击、抛投等等无人机能够完成的动作。而且，这样的操作可以与飞行操作相结合，都基于对人体姿态或人体姿态的组合的识别来进行操控。

因此，除了权利要求书中的独立权利要求和从属权利要求之外，本领域技术人员还应理解，本发明的优选实施方式可能包含下述的技术特征：

对象姿态取决于对象关键点的位置信息。更具体地，人体姿态取决于人体关键点的位置信息。优选地，人体关键点包括人身体上的多个关节。

拍摄单元是二维图像拍摄单元。即，其所拍摄的对象视频是二维视频。

无人机的操作包括无人机的飞行操作和/或非飞行操作。非飞行操作包括以下至少一种：拍摄、射击、抛投。

无人机操作控制单元可以将识别出的对象姿态的组合转化为控制指令，从而控制无人机的操作。例如，行人可以连续做出两个或两个以上的姿态，姿态估计单元识别出两个或两个以上的姿态，无人机操作控制单元将识别出两个或两个以上的姿态作为对象姿态组合而转化为相应的控制指令，从而控制无人机的操作。

上面已经描述了本发明的各种实施例和实施情形。但是，本发明的精神和范围不限于此。本领域技术人员将能够根据本发明的教导而做出更多的应用，而这些应用都在本发明的范围之内。

也就是说，本发明的上述实施例仅仅是为清楚说明本发明所做的举例，而非对本发明实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、替换或改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习姿态估计的无人机交互装置，包括：

拍摄单元，用于拍摄对象视频；

关键帧提取单元，用于从拍摄的对象视频中提取关于对象的关键帧图像；

姿态估计单元，用于基于深度卷积神经网络的图像识别算法，针对所述关键帧图像，识别出对象姿态；以及

无人机操作控制单元，用于将识别出的对象姿态转化为控制指令，从而控制无人机的操作，

其中，所述对象是人体；

其中，所述的姿态估计单元进一步包括：

人体关键点定位单元，用于使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息；以及

姿态判断单元，用于将获取的人体关键点位置信息对应为人体姿态，

其中，所述姿态估计单元识别出两个或两个以上的对象姿态，所述无人机操作控制单元将识别出两个或两个以上的对象姿态作为对象姿态组合而转化为相应的控制指令，从而控制无人机的操作，以及

其中，所述无人机的操作包括无人机的飞行操作和非飞行操作。

2.根据权利要求1所述的无人机交互装置，进一步包括：

预处理单元，用于对所述关键帧提取单元提取的关键帧图像进行图像变换和滤波预处理，将预处理后的关键帧图像输入到所述姿态估计单元以识别出对象姿态。

3.根据权利要求1所述的无人机交互装置，其中，所述的关键帧提取单元进一步被配置用于：

使用基于深度卷积神经网络算法的对象检测器，从拍摄的对象视频中提取包括对象的关键帧图像。

4.一种基于深度学习姿态估计的无人机交互方法，包括如下步骤：

拍摄对象视频；

从拍摄的对象视频中提取关于对象的关键帧图像；

基于深度卷积神经网络的图像识别算法，针对提取的关键帧图像，识别出对象姿态；以及

将识别出的对象姿态转化为控制指令，从而控制无人机的操作，

其中，所述对象是人体；

其中，所述的基于深度卷积神经网络的图像识别算法，针对提取的关键帧图像，识别出对象姿态进一步包括：

使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息；以及

将获取的人体关键点位置信息对应为人体姿态，

其中，识别出两个或两个以上的对象姿态，将识别出两个或两个以上的对象姿态作为对象姿态组合而转化为相应的控制指令，从而控制无人机的操作，以及

5.根据权利要求4所述的无人机交互方法，进一步包括：

在从拍摄的对象视频中提取关于对象的关键帧图像之后，对提取的关键帧图像进行图像变换和滤波预处理，然后针对预处理后的关键帧图像，识别出对象姿态。

6.根据权利要求4所述的无人机交互方法，其中，所述的从拍摄的对象视频中提取关于对象的关键帧图像进一步包括：

使用基于深度卷积神经网络的对象检测算法，从拍摄的对象视频中提取包括对象的关键帧图像。