CN107643826A

CN107643826A - 一种基于计算机视觉及深度学习的无人机人机交互方法

Info

Publication number: CN107643826A
Application number: CN201710752293.2A
Authority: CN
Inventors: 侯永宏; 吕晓冬; 侯春萍; 陈艳芳; 刘春源
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2018-01-30

Abstract

本发明涉及一种基于计算机视觉及深度学习的无人机人机交互方法，包括：人为指定无人机领航员，方法为利用鼠标或者触摸屏幕，将领航员的上身所在区域圈出来；根据设定区域，利用跟踪算法在视频序列中提取出领航员所在区域并且对领航员进行跟踪，并且根据设定区域的所在位置，将整个人体所在区域的图像分割出来；在分割后的区域相邻的视频帧之间利用光流计算动作的空间特征，并且利用不同颜色代表不同时刻的光流特征进行编码，叠加成彩色纹理图；用彩色纹理图对神经网络进行训练，训练完毕后，将训练的结果上传至嵌入式图像处理平台。

Description

一种基于计算机视觉及深度学习的无人机人机交互方法

技术领域

本发明属于多媒体信息处理领域，具体涉及一种无人机人机交互方法。

背景技术

人机交互是随着计算机的诞生而产生并且不断发展的技术，在多媒体等信息处理领域内是永恒的主题。随着近年来人工智能技术的发展，相关软硬件技术的不断进步和创新，如何实现便利自然的人机交互也成为研究热点。与此同时，低成本无人机(UAV)等相关行业的兴起，使得适用于无人机的交互方法受到了人们的更多关注。

无人机的人机交互，传统方法是利用遥控器、摇杆等专用设备进行控制。近年来出现了佩戴特殊辅助设备的方法，利用身体部位运动的测量值或是脑电信号作为控制信号，来简化无人机的控制方式。然而依赖特殊辅助设备的控制方式仍然面临花费高、使用麻烦的问题。对于大多数搭载了摄像头的无人机，利用计算机视觉，通过图像识别手势进行的无人机交互方法更具有普适性。现有的基于动作识别的人机交互方法，由于算法上的不足，往往不能够在足够远的范围内进行交互，并且容易受到环境干扰，无法在室外场景中应用。

发明内容

本发明提供一种适用于无人机的人机交互方法。技术方案如下：

一种基于计算机视觉及深度学习的无人机人机交互方法，包括下列步骤：

1)人为指定无人机领航员，方法为利用鼠标或者触摸屏幕，将领航员的上身所在区域圈出来；

2)根据设定区域，利用跟踪算法在视频序列中提取出领航员所在区域并且对领航员进行跟踪，并且根据设定区域的所在位置，将整个人体所在区域的图像分割出来；

3)在分割后的区域相邻的视频帧之间利用光流计算动作的空间特征，并且利用不同颜色代表不同时刻的光流特征进行编码，叠加成彩色纹理图；

4)用彩色纹理图对神经网络进行训练，训练完毕后，将训练的结果上传至嵌入式图像处理平台。

5)在嵌入式图像处理平台上，利用训练好的参数进行分类。

6)在嵌入式图像处理平台上，跟踪，分割，求取光流，求取彩色纹理图，分类分别在不同的线程同时进行，满足实时性的要求。

为了提高室外环境无人机的手势识别算法的识别精度，本发明利用深度学习的方法进行手势识别，用手势控制无人机的运动，简化了无人机操控难度。传统的动作识别算法有计算复杂度高、识别速度慢、准确率低等缺点，本发明将卷积神经网络移植到配置了具有并行处理GPU的嵌入式平台上，利用目标跟踪算法从视频序列中提取出操作者所在区域，有效解决了无人机飞行中相机漂移以及复杂背景干扰等问题。该方法具有工作范围广、准确率高，速度快的特点。

具体实施方式

1.硬件系统构成

基于RGB摄像头，通过在无人机上搭载嵌入式平台，构建了一个基于计算机视觉及深度学习的无人机系统，系统提供了手势控制的。整个系统由搭载地理位置获取模块的无人机平台、嵌入式图像处理平台、摄像头、地面站4个部分构成。

无人机平台为多旋翼无人机，无人机通过地理位置获取模块进行定位，飞行控制器可以控制无人机在室外自主悬停。无人机上搭载嵌入式图像处理平台和摄像头，本系统中的摄像头捕捉用来后续处理的高分辨率图像。

嵌入式平台为带有图形处理器(GPU)，能够为图像处理提供足够运算能力的平台。此平台负责图像的采集处理和动作识别，同时作为飞行控制器和地面站数据传输的中继。平台搭载操作系统运行处理程序。

地面站负责监测四轴飞行器的状态，用于指定领航员并且查看实时运算的结果。

动作识别方法如下所述：

1)系统启动时，根据摄像机显示内容，通过地面站鼠标点击指定领航员，利用快速跟踪算法对领航员进行跟踪，根据跟踪结果在较高分辨率的视频中提取出以领航员为中心的低分辨率视频序列。

2)利用光流来描述人物动作信息：动作由n帧视频序列构成：f₁,f₂,…,f_n，其中f_i是序列的第i帧。相邻两帧f_i-1,f_i计算的光流中，像素位置(x,y)处的光流矢量用＜u_x,y,i,v_x,y,i＞来表示，则可得出该处光流的幅值M_x,y,i。该幅值为动作的空间特征描述。

3)为了在图中表示出动作的时间特征，本发明利用颜色来编码光流，通过在HSV彩色空间更改色度H，用不同的颜色表示光流的不同时刻。假设h_max和h_min表示实验中在HSV彩色空间中色度的取值范围。则第i个光流图中，所有计算出光流的像素位置均用色度H_i来进行编码：

4)在整个动作序列中计算得出的多张光流图中可以得出每一个像素位置处光流幅度的极值。为了获得更多动作信息，每个像素位置应取光流幅值对应的色度作为经过叠加后的色度值。由此，视频序列被压缩成一张彩色纹理图，彩色位置表达动作的空间特征，而色度表达动作的时间特征。

5)得到彩色纹理图后，通过卷积神经网络(CNN)对图片进行学习和分类来完成动作的识别。为了避免过拟合情况，利用旋转图片和分辨率变换的方法对训练数据集进行扩展。

6)为了达到实时性的要求，本发明利用了摄像机捕捉视频时的时间间隔，以及嵌入式系统的并行处理能力，在捕捉视频的同时对图像进行并行计算。在利用卷积神经网络分类过程中，借助GPU加速卷积等过程。本发明中采用的跟踪算法为了提高运行速度，跟踪范围只限于操作者人脸部分，后续处理中，再根据跟踪区域截取更大区域。而光流计算方面，采用了速度较快、且较为稠密光流算法。

7)无人机捕捉的画面相比于静态相机捕捉的画面而言，往往伴随相机漂移和晃动。本发明在应用到实际环境中，无法采用当下某一数据集。本发明根据使用环境，在不同的环境下采集并且生成的相应数据集。生成的训练数据集，伴有相机漂移、晃动和人物走动，包含5个动作的视频若干。

8)下面为本发明在数据集上的实验结果及说明：利用动作手势作为操作指令。在数据集中抽取5个动作类别并指定为无人机操作手势，在生成数据集后，对这6类手势的彩色纹理图(5个控制指令与一个非控制指令)进行旋转和分辨率转换的数据扩展。在室外环境下，操作者在距离无人机5-90米范围内每隔5米对每一控制指令分别做20次，共100个操作指令，期间伴随左右走动及干扰动作。对系统的测试表明，在50m范围内，系统识别的准确率可以达到百分之九十以上，识别效果可靠有效。

Claims

1.一种基于计算机视觉及深度学习的无人机人机交互方法，包括下列步骤：

4)用彩色纹理图对神经网络进行训练，训练完毕后，将训练的结果上传至嵌入式图像处理平台；

5)在嵌入式图像处理平台上，利用训练好的参数进行分类；