CN111627064A

CN111627064A - 一种行人交互友好型的单目避障方法

Info

Publication number: CN111627064A
Application number: CN202010335557.6A
Authority: CN
Inventors: 杨柳; 薛喜地; 李湛; 李东洁
Original assignee: Harbin Institute of Technology; Harbin University of Science and Technology
Current assignee: Beijing Skorui Technology Co ltd
Priority date: 2020-04-25
Filing date: 2020-04-25
Publication date: 2020-09-04
Anticipated expiration: 2040-04-25
Also published as: CN111627064B

Abstract

一种行人交互友好型的单目避障方法，属于无人机导航领域，本发明为解决搭载单目摄像头的室内无人机避障性能不佳的问题。本发明方法为无人机利用单目摄像头采集图片，所述图片输入至端到端策略的并行深度神经网络结构中，该网格结构输出最佳航向角作为无人机避障的飞行指令；所述端到端策略的并行深度神经网络结构由单目摄像头结合单线激光雷达协同完成，训练过程为：步骤一、利用单线激光雷达采集的深度值搜索最佳航向，并为单目摄像头采集的图片打标签，建立数据集；步骤二、所述数据集分别输入至Resnet18网络和预训练好的YOLO v3网络中；步骤三、利用步骤一的数据集训练步骤二所述并行深度神经网络直至收敛。

Description

一种行人交互友好型的单目避障方法

技术领域

本发明涉及Resnet18深度神经网络结合YOLOv3深度神经网络组成并行网络结构，来解决有行人情景下的单目视觉避障技术，属于无人机导航领域。

Resnet(Residual Neural Network，残差神经网络)，YOLO(You Only Look Once:Unified,Real-Time Object Detection只看一次：统一的实时对象检测)。

背景技术

随着无人机行业的发展，无人机的自主导航是许多无人机应用的核心，例如在多无人机协调，无人机建图和无人机室内任务等。然而，由于室内空间较小，人员动态性较高等原因，所用的无人机尺寸有限，因此小型无人机上面所能搭载的传感器也非常有限(往往只搭载单目摄像头)，因此依靠有限的传感器使得无人机在室内自主导航避障仍然是一项有挑战性的工作。

目前根据无人机路径规划是否是基于轨迹法，将无人机导航算法分为两大类，分别是基于轨迹规划和基于动作响应的(端到端决策)方法。对于基于轨迹规划的方法，其优点在于通过动态规划，可以求解出一条全局最优路径，其结果更加可控，更加稳定，但是该类方法带来的弊端是算法耗时长，比较依赖计算机的算力，而且往往基于轨迹规划的算法的泛化能力会相对比较弱一些。对于基于动作响应的方法，此类方法的优点在于其为端到端决策类型的算法，通常算法决策耗时比较短，同时目前基于端到端的算法的泛化能力普遍要优于基于轨迹的方法，但是基于端到端的方法的短板也非常明显，那就是其决策并不一定是全局最优解。

对于基于响应类的避障算法分为自主学习类和非自主学习类，非自主学习类的算法诸如人工势场法等算法，但由于当无人机距离障碍物过近或者离目标位置太远将会导致局部震荡等一系列问题，虽然后续有改进版本的人工势场法，但也使得其参数变得很难整定，实际应用起来很难。对于自主学习类的无人机避障算法，目前主要是基于深度强化学习和深度学习的方法。目前应用深度强化学习进行无人机室内避障较为成功的案例有诸如基于状态值估计的Generalization through Simulation Integrating Simulated andReal Data into Deep Reinforcement Learning for Vision Based Autonomous Flight(GTS，通过仿真将模拟和实际数据集成到基于视觉的自主飞行的深度强化学习中进行泛化)，该方法为端到端决策方法。

然而对于该深度强化学习GTS避障算法而言具有以下缺陷，首先，其利用仿真环境训练出来的状态值估计网络，其对动作空间里所有的动作采取的是利用状态值估计网络逐个评估的方法，这意味着在决策时会加大响应延迟；其次，其采用离散动作空间，这意味着无人机的决策动作也将变得离散，动作不是那么平滑；最后，该GTS避障算法将仿真环境训练好的网络移植到实物无人机上，由于网络模型过于简单，在实物效果上表现为避障裕度不够、路径不稳定。

室内有限空间下的小型无人机只能搭载单目摄像头，因单目摄像头难以求取深度信息而无法感知到全局信息，目前没人将响应延迟高、避障路径不稳定、裕度不足的端到端避障算法应用在无人的环境下进行飞行试验，在室内环境中行人运动的特点是随机性比较强，同时人们喜欢聚焦、围观，这使得端到端避障算法的实用性大大下降，甚至无法使用。

发明内容

本发明目的是为了解决搭载单目摄像头的室内无人机避障性能不佳的问题，提供了一种行人交互友好型的单目避障方法。

本发明所述一种行人交互友好型的单目避障方法，该方法为无人机利用单目摄像头采集图片，所述图片输入至端到端策略的并行深度神经网络结构中，该网格结构输出最佳航向角作为无人机避障的飞行指令；

所述端到端策略的并行深度神经网络结构由单目摄像头结合单线激光雷达协同完成，端到端策略的并行深度神经网络结构的具体训练过程为：

步骤一、利用单线激光雷达采集的深度值搜索最佳航向，并为单目摄像头采集的图片打标签，以此标准采集多个样本建立数据集；

步骤二、所述数据集分别输入至Resnet18网络和预训练好的YOLO v3网络中，利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息；并与Resnet18网络输出数据合并，合并后的数据依次经过隐藏层1～4和输出层，Resnet18网络、训练好的YOLO v3网络、隐藏层1～4和输出层组成并行深度网络结构；

步骤三、利用步骤一的数据集训练步骤二所述并行深度神经网络直至收敛。

优选地，步骤一建立数据集的过程为：

步骤一一、单线激光雷达与单目摄像头同步采集图像(image,lidarData)，其中image和lidarData分别是同一时刻单目摄像头采集的视觉图像和单线激光雷达采集的深度值；

步骤一二、利用单线激光雷达采集的深度值搜索无人机每个时刻最佳航向，并为同时刻视觉图像打标签形成样本图像(image,direction)，其中direction为最佳航向角；

步骤一三、将经过步骤一二处理过的所有样本图像建立数据集。

优选地，步骤一二中利用单线激光雷达采集的深度值搜索无人机每个时刻最佳航向的具体过程为：

direction_n＝mid(max(lidarData_blank)_n) (1)

式中，max(lidarData_blank)_n代表求取t_n时刻单线激光雷达覆盖范围内连续空白区域面积最大的区域，n＝1,2,L

mid(max(lidarData_blank)_n)代表求取区域max(lidarData_blank)_n的中心航向角，将求取出的mid(max(lidarData_blank)_n)作为t_n时刻无人机的最佳航向角direction_n。

优选地，步骤二中利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息，其具体为：

person_n＝(x_t1,y_t1,x_b1,y_b1,x_t2,y_t2,x_b2,y_b2...x_ti,y_ti,x_bi,y_bi...x_tI,y_tI,x_bI,y_bI) (2)

式中，(x_ti,y_ti,x_bi,y_bi)代表t_n时刻图像中第i个行人预测框在图像中的左上角顶点坐标和右下角顶点坐标，i＝1,2,L,I，I代表t_n时刻图像中的行人总个数，person_n代表t_n时刻图像中全部行人预测框在图像中的左上角顶点坐标和右下角顶点坐标组成的集合。

优选地，并行深度神经网络结构包括Resnet18网络、训练好的YOLO v3网络、隐藏层1～4和输出层，其中Resnet18网络的神经元个数为7168，训练好的YOLO v3网络输出的行人信息个数为40，隐藏层1、隐藏层2、隐藏层3、隐藏层4和输出层的神经元个数分别为7208、256、128、16和1。

优选地，并行深度神经网络的隐藏层1～4均采用ReLU激活函数，输出层采用Linear激活函数。

优选地，并行深度神经网络的代价函数采用均方误差，代价函数的表达式如公式(3)所示：

式中，Loss代表代价函数，y_j代表第j张样本图像对应的并行深度神经网络的输出结果，

代表第j张样本图像对应的最佳航向角，m代表一个批次的样本图像数量。

优选地，无人机利用单目摄像头采集图片，所述图片输入至端到端策略的并行深度神经网络结构中，该网格结构输出最佳航向角作为无人机避障的飞行指令的具体过程为：

步骤1、无人机在室内环境飞行过程中任意时刻均利用单目摄像头采集图像image；

步骤2、利用预训练好的YOLO v3网络输出对图像image中40位行人位置的预测信息person_n＝(x_t1,y_t1,x_b1,y_b1,x_t2,y_t2,x_b2,y_b2...x_ti,y_ti,x_bi,y_bi...x_tI,y_tI,x_bI,y_bI)；

步骤3、图像image同时输入至Resnet18网络并输出7168位神经元数据，与步骤2的40位行人位置的预测信息合并；

步骤4、步骤3合并数据依次经过隐藏层1～4，最后由输出层输出最佳航向角作为无人机避障的飞行指令。

本发明的优点：

1)本发明解决了现有的端到端无人机室内避障在算法上存在的避障路径不稳定、泛化能力不足的问题。

2)本发明通过结合YOLO v3深度神经网络结构，解决了现有端到端单目无人机室内避障算法在室内有行人场景下避障性能不佳、甚至不能使用的问题。

3)本发明通过设计采用并行神经网络结构，利用双线程运行该网络的两个分支，解决了现有端到端单目无人机室内避障算法的决策网络耗时过多的问题。

4)在训练并行深度神经网络时利用单目摄像头与单线激光雷达结合设备，训练后的并行深度神经网络植入无人机，无人机在执行任务时无需搭载激光雷达，只需搭载单目摄像头即可完成避障飞行任务。

附图说明

图1是本发明方法涉及的训练并行深度神经网络所使用设备的结构示意图；

图2是单线激光雷达搜索策略示意图；

图3是并行深度神经网络结构示意图；

图4是代价函数下降曲线图。

具体实施方式

具体实施方式一：下面结合图1至图4说明本实施方式，本实施方式所述一种行人交互友好型的单目避障方法，该方法为无人机利用单目摄像头采集图片，所述图片输入至端到端策略的并行深度神经网络结构中，该网格结构输出最佳航向角作为无人机避障的飞行指令；

建立数据集的过程为：

利用图1所示设备，将单目摄像头1与单线激光雷达2固定在一起，该设备可以方便手持，因此采集数据的时候可以人为手持该设备在室内进行数据采集工作。单目摄像头1与单线激光雷达2同步采集回来的数据图像格式为(image,lidarData)，其中image和lidarData分别是同一时刻摄像头采集的图像和激光雷达采集的深度值数据，两种类型的数据进行同帧结合可同时获得任一时刻单目摄像头采集图像信息及对应的深度值信息，图片image大小为640*480，RGB格式。

步骤一二、利用单线激光雷达采集的深度值搜索无人机每个时刻最佳航向，并为同时刻视觉图像打标签形成样本图像(image,direction)，其中direction为最佳航向角(作为标签)；

每一时刻图像image均配套对应的深度值数据，利用单线激光雷达采集的深度值搜索无人机在该时刻最佳航向，具体过程为：

direction_n＝mid(max(lidarData_blank)_n) (1)

式中，max(lidarData_blank)_n代表求取t_n时刻单线激光雷达覆盖范围内连续空白区域面积最大的区域，n＝1,2,L，单线激光雷达覆盖范围为0～180°范围。

参见图2所示，单线激光雷达采集正前方180°范围下的每个角度所对应的深度值。激光雷达所发射的射线如图2中实线所示。其中虚线是公式(1)处理后提取出来的当前的最佳航向。

比如利用图1设备采集10万份图像，处理后生成10万份样本图像建立(image,direction)格式数据集，该打有标签的数据集用于训练并行深度网络结构。

本步骤中利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息，YOLO v3网络为已训练好的网络结构，网络中参数为已知量，本步骤利用该网络结构离线处理数据，不与训练并行深度网络结构争内存，有效的提高了整体的运行速度，其具体为：

一张同样的样本图像分别输入给resnet18网络和YOLO v3网络，其中YOLO v3网络输出行人预测的向量信息，格式如式子(2)所示。其中(x_ti,y_ti,x_bi,y_bi)表示视野中第i个行人预测框在图片中的左上角坐标跟右下角坐标，这里取行人个数上限为I＝10个人，因为对于一般情况室内同一视野内同时近距离出现超过10个人的可能性非常小。若当前视野内人数不足10个，则该向量末端用0补齐。最后，再将YOLO v3网络输出的person向量与resnet18卷积层的输出向量(一维)拼接成一个新的一维向量(7168+40＝7208)。

并行深度神经网络结构包括Resnet18网络、训练好的YOLO v3网络、隐藏层1～4和输出层，其中Resnet18网络的神经元个数为7168，训练好的YOLO v3网络输出的行人信息个数为40，隐藏层1、隐藏层2、隐藏层3、隐藏层4和输出层的神经元个数分别为7208、256、128、16和1的全连接层。并行深度神经网络中只有YOLO v3网络是训练好的，其参数为已知，其余均需要进行训练才能获取其参数。

在并行深度神经网络结构中，Resnet18网络主体结构为卷积层，其缺乏全连接层，缺少全连接层会使得网络对数据集的拟合能力不足。因此本发明添加了4个隐藏层(7208、256、128、16)来提高网络对数据集的拟合能力。

并行深度神经网络的隐藏层1～4均采用ReLU激活函数，输出层采用Linear激活函数。

并行深度神经网络的代价函数采用均方误差，代价函数的表达式如公式(3)所示：

将10万个样本图像输入至并行深度神经网络进行训练，选择一个批次的数据为m＝64，即batch_size＝64。训练200个epoch大约需要花费20h的时间(计算机配置为GPU1080Ti；CPU i7 8700K)。batch_size表示1次迭代所使用的样本量，将整个数据(10万)遍历一遍，叫做一个epoch，其中，训练过程中的代价函数下降曲线如图4所示。可以看出，该网络最终可以收敛。

无人机利用单目摄像头采集图片，所述图片输入至端到端策略的并行深度神经网络结构中，该网格结构输出最佳航向角作为无人机避障的飞行指令的具体过程为：

Claims

1.一种行人交互友好型的单目避障方法，其特征在于，该方法为无人机利用单目摄像头采集图片，所述图片输入至端到端策略的并行深度神经网络结构中，该网格结构输出最佳航向角作为无人机避障的飞行指令；

2.根据权利要求1所述一种行人交互友好型的单目避障方法，其特征在于，步骤一建立数据集的过程为：

3.根据权利要求2所述一种行人交互友好型的单目避障方法，其特征在于，步骤一二中利用单线激光雷达采集的深度值搜索无人机每个时刻最佳航向的具体过程为：

direction_n＝mid(max(lidarData_blank)_n) (1)

式中，max(lidarData_blank)_n代表求取t_n时刻单线激光雷达覆盖范围内连续空白区域面积最大的区域，n＝1,2,…

4.根据权利要求3所述一种行人交互友好型的单目避障方法，其特征在于，步骤二中利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息，其具体为：

式中，(x_ti,y_ti,x_bi,y_bi)代表t_n时刻图像中第i个行人预测框在图像中的左上角顶点坐标和右下角顶点坐标，i＝1,2,…,I，I代表t_n时刻图像中的行人总个数，person_n代表t_n时刻图像中全部行人预测框在图像中的左上角顶点坐标和右下角顶点坐标组成的集合。

5.根据权利要求4所述一种行人交互友好型的单目避障方法，其特征在于，并行深度神经网络结构包括Resnet18网络、训练好的YOLO v3网络、隐藏层1～4和输出层，其中Resnet18网络的神经元个数为7168，训练好的YOLO v3网络输出的行人信息个数为40，隐藏层1、隐藏层2、隐藏层3、隐藏层4和输出层的神经元个数分别为7208、256、128、16和1。

6.根据权利要求5所述一种行人交互友好型的单目避障方法，其特征在于，并行深度神经网络的隐藏层1～4均采用ReLU激活函数，输出层采用Linear激活函数。

7.根据权利要求6所述一种行人交互友好型的单目避障方法，其特征在于，并行深度神经网络的代价函数采用均方误差，代价函数的表达式如公式(3)所示：

8.根据权利要求7所述一种行人交互友好型的单目避障方法，其特征在于，无人机利用单目摄像头采集图片，所述图片输入至端到端策略的并行深度神经网络结构中，该网格结构输出最佳航向角作为无人机避障的飞行指令的具体过程为：