CN110471444B

CN110471444B - 基于自主学习的无人机智能避障方法

Info

Publication number: CN110471444B
Application number: CN201910765862.6A
Authority: CN
Inventors: 王月娇; 马钟; 杨一岱; 唐雪寒; 王竹平
Original assignee: Xian Microelectronics Technology Institute
Current assignee: Xian Microelectronics Technology Institute
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2022-07-12
Anticipated expiration: 2039-08-19
Also published as: CN110471444A

Abstract

本发明公开了基于自主学习的无人机智能避障方法，使无人机在三维可视化仿真环境中可利用摄像头获取的视觉信息，根据地形高度与障碍物高度，智能自主学习，以训练好的网络模型作为智能体对无人机进行定高飞行控制，实时调整飞行高度，实现自动地形跟随应用，完成自主避障任务。这一发明创建了三维可视化仿真环境，为智能自主避障算法提供了良好的训练环境，实现了人机实时操作的互动接口，并为智能体从仿真环境到真实环境的迁移训练提供了可能性。这一发明为其它深度增强学习算法提供了仿真试验平台，便于智能体进行多种场景、不同任务及多种算法的深度增强训练和测试。

Description

基于自主学习的无人机智能避障方法

【技术领域】

本发明属于无人机自主避障技术的智能控制与引导系统和方法技术领域，具体涉及一种基于自主学习的无人机智能避障方法。

【背景技术】

避障能力是实现无人机自动化乃至智能化的关键环节，完善的无人机自主避障系统能够及时地避开飞行路径中的障碍物，极大地减少因操作失误造成的无人机损坏和伤及人身和建筑物的事故发生率。

自主避障飞行对于无人机具有非常重要的意义，这可以保证无人机完成复杂的、多功能的高难度动作。无人机避障技术的发展可分为三个阶段，一是感知障碍物并悬停；二是自主绕开障碍物；三是进行场景建模和路径搜索。目前国内外关于无人机避障方面的研究还处于很初级的阶段，一般依赖于三维高程地图、多传感器或者其他高精度设备等技术来实现，如广泛应用的视觉SLAM算法主要以机器人为载体，利用视觉传感器生成障碍物的深度图，据此执行避障动作。但这一算法在图像处理方面需要人为指定需要提取的特征值，且易受光照、障碍物位置等因素影响，鲁棒性较差。一般深度学习方法通过训练大量感知图像，使无人机自己学习障碍物的特征，但由于难以明确障碍物的边界，缺乏正确避障的决策能力。

【发明内容】

本发明的目的在于克服上述现有技术的缺点，提供一种基于自主学习的无人机智能避障方法；本发明使用基于DQN的深度增强学习算法进行控制决策训练，构造分段加权奖励函数获得最优决策，提升了原有方法的鲁棒性，具备高度智能化与自主可控性。

为达到上述目的，本发明采用以下技术方案予以实现：

基于自主学习的无人机智能避障方法，包括以下步骤：

(1)通过三维环境搭建系统搭建无人机处于的虚拟三维可视化仿真环境；三维可视化仿真环境的输入为控制无人机运行动作的决策，输出为下一时刻无人机摄像头拍摄的图像信息；

(2)通过DQN算法在虚拟三维可视化仿真环境中对无人机进行自主避障训练，输出训练好的卷积神经网络；

自主避障训练过程中以无人机摄像头拍摄的图像信息为输入，通过DQN算法中的卷积神经网络模型输出控制无人机运行动作的决策；通过卷积神经网络模型和虚拟三维可视化仿真环境的不断交互，不断更新卷积神经网络模型的权重参数θ，最终输出训练好的卷积神经网络；

(3)通过训练好的卷积神经网络对无人机进行控制，完成无人机飞行过程中的自主避障任务。

本发明的进一步改进在于：

优选的，步骤(1)中，所述三维环境搭建系统为AirSim系统。

优选的，步骤(2)中，无人机进行自主避障训练前首先设定任务训练次数为M，无人机循环遍历epoch＝0,1,…,M-1次，每一次循环遍历的具体过程为：

(2-1)在卷积神经网络模型中计算控制无人机运行方向的决策：以概率选择一个随机的动作a_step或者卷积神经网络模型输出的最大Q值对应的动作a_step，所述Q值为卷积神经网络模型输出的价值评估值，所述a_step为卷积神经网络模型输出的无人机运行方向的决策，a_step包括四种情况：原地不动、前进、上升和下降；

(2-2)将卷积神经网络模型输出的决策a_step输入到三维可视化仿真环境中，三维可视化仿真环境根据a_step实时模拟无人机的飞行状态，由加权奖励函数计算得到奖励值r_step和下一次网络的输入状态x_step+1；

(2-3)将样本(x_step,a_step,r_step,x_step+1)存入经验池E中；

(2-4)在三维可视化仿真环境中判断无人机当前状态x_step+1下是否处于终止状态，如果当前的状态x_step+1使任务终止，命令无人机返回初始位置，epoch加1，开始进行下一个epoch的任务训练；如果当前的状态x_step+1使任务未终止，step加1，重复执行上述步骤(2-1)-步骤(2-3)步直至任务终止；当任务终止时，一个循环遍历epoch结束；

对于epoch＝0,1,…,M-1，均单独重复上述步骤(2-1)-(2-4)，直到卷积神经网络收敛，则无人机自主避障训练结束；

所述epoch为无人机从初始状态到终止状态的一个完整过程；step为无人机经卷积神经网络模型输出的控制运行动作的决策的变化次数。

优选的，步骤(2-1)中，所述卷积神经网络模型包括3个卷积层和2个全连接层；其中输入层为卷积层，卷积层的输入为无人机摄像头拍摄的图像信息；输出层为全连接层，全连接层的输出有4个节点，对应于卷积神经网络模型输出的控制无人机运行方向的4类决策：原地不动，前进，上升，下降。

优选的，步骤(2-2)中，所述加权奖励函数分为以下三种情况：

(4)当无人机在当前时间步内与障碍物或地面由于距离太近而发生碰撞时，奖励值为-100；

(5)当无人机在当前时间步内的飞行高度相对于定高的垂直距离大于1m或者小于-2.5m时，奖励值设为-10；

(6)当无人机不满足情况(1)和情况(2)且未到达最远距离位置时，奖励值为以下四种奖励类型奖励值的函数，设置无人机在当前时间步内的飞行距离为D，在当前时间步内的飞行高度与设置的定高的垂直距离H，四种奖励类型为：

(3-1)无人机完成当前时间步内的飞行距离D的奖励值，奖励值为D²；

(3-2)当无人机在当前时间步内与定高的垂直距离H大于0，奖励值为exp(-H/2)；当H小于0，奖励值为exp(2*H)；

(3-3)无人机当前的时间步数的奖励值为

(3-4)以及无人机在上一时间步的奖励值；

该步骤最终的奖励值为：上一时间步的

或上一时间步的

优选的，步骤(2-4)中，所述任务终止包括三种情况：无人机与障碍物或地面发生碰撞；无人机的高度与设定高度的差值大于设定值；无人机飞行超过设定的最远距离位置；满足上述任一条件，任务终止。

优选的，步骤(2-3)中，当经验池E积累到训练前观测的时间步后，每隔4步进行一次网络训练，随机从E中取出K个样本(x_j,a_j,r_j,x_j+1),j＝1,2,…K；计算每一个样本(x_j,a_j,r_j,x_j+1)的目标值

对损失函数(y_j-Q(x_j,a_j；θ))²使用梯度下降法进行更新，得到更新的卷积神经网络模型的权重参数θ。

优选的，其特征在于，K优选为32。

与现有技术相比，本发明具有以下有益效果：

本发明提出了一种基于自主学习的无人机智能避障方法，使无人机在三维可视化仿真环境中可利用摄像头获取的视觉信息，根据地形高度与障碍物高度，智能自主学习，以训练好的网络模型作为智能体对无人机进行定高飞行控制，实时调整飞行高度，实现自动地形跟随应用，完成自主避障任务。这一发明创建了三维可视化仿真环境，为智能自主避障算法提供了良好的训练环境，实现了人机实时操作的互动接口，并为智能体从仿真环境到真实环境的迁移训练提供了可能性。这一发明为其它深度增强学习算法提供了仿真试验平台，便于智能体进行多种场景、不同任务及多种算法的深度增强训练和测试。

【附图说明】

图1为本发明的三维可视化环境和策略网络模型的交互过程图；

图2为本发明的基于深度增强学习的无人机自主避障训练流程图；

图3为无人机无障碍物时定高飞行的三维可视化环境示意图；

图4为无人机靠近障碍物时上升的三维可视化环境示意图；

图5为无人机上升至障碍物顶部后继续直线前进的三维可视化环境示意图；

图6为无人机飞跃障碍物后下降的三维可视化环境示意图；

图7为无人机与障碍物或者地面碰撞的三维可视化环境示意图；

图8为无人机飞行高度与设定高度的差值大于定值的三维可视化环境示意图；

图9为无人机飞行超过设定的最远距离的三维可视化环境示意图；

图10为初始化无人机位置的三维可视化环境示意图；

图11为无人机进行避障测试的三维可视化示意图及相关结果输出图片(其中epoch为无人机从初始状态到终止状态的训练次数，step为无人机在一次训练中经神经网络控制的运行决策变化次数，Action为控制无人机的决策种类，Reward为用于鼓励或压制控制无人机决策的奖励函数，Done为无人机在执行当前动作后是否达到终止状态)；

图12为无人机面对障碍物为红色轿车时的自主避障过程；

其中，(a)图为无人机无障碍物时定高飞行的三维可视化环境示意图；(b)图为无人机靠近障碍物时上升的三维可视化环境示意图；(c)图为无人机上升至障碍物顶部后继续直线前进的三维可视化环境示意图；(d)图为无人机飞跃障碍物后下降的三维可视化环境示意图；

图13为无人机面对障碍物为灰色轿车时的自主避障过程；

图14为无人机面对障碍物为围栏时的自主避障过程；

其中，(a)图为无人机无障碍物时定高飞行的三维可视化环境示意图；(b)图为无人机靠近障碍物时上升的三维可视化环境示意图；(c)图为无人机上升至障碍物顶部后继续直线前进的三维可视化环境示意图；(d)图为无人机飞跃障碍物后下降的三维可视化环境示意图。

【具体实施方式】

下面结合附图和具体实施例对本发明做进一步详细描述；本发明采用深度增强学习技术进行无人机智能自主避障；分为四个阶段进行，一是搭建三维可视化环境，根据控制决策(包含4类—原地不动，前进，上升，下降)实时模拟无人机的飞行状态并输出状态图像；二是构造分段加权奖励函数，建立卷积神经网络模型，所述卷积神经网络模型以无人机加载的摄像头获取的状态图像为输入，以控制无人机运行方向的决策为输出；三是利用DQN算法在三维可视化环境中对无人机进行自主避障训练，利用网络模型输出控制决策并将其送入环境中，环境输出的无人机状态图像又继续被输入到网络模型中，通过三维可视化环境和卷积神经网络模型的不断交互，通过神经网络持续的自我学习，不断更新卷积神经网络模型的权重参数；四是利用训练好的卷积神经网络对无人机进行控制，完成自主避障任务。

步骤1，搭建虚拟三维可视化仿真环境，状态图像输出至卷积神经网络模型(在后面)；

采用Microsoft开源的AirSim系统搭建模拟无人机处于的虚拟三维可视化仿真环境，利用Python、C/C++编写无人机运行控制软件界面；所述虚拟三维可视化仿真环境用于模拟无人机处于的三维环境，该仿真环境为智能自主避障算法提供了良好的训练环境，实现了人机实时操作的互动接口。

三维可视化仿真环境的输入为控制无人机运行动作的决策，输出为下一时刻无人机摄像头拍摄的图像信息，可在软件界面上实时观察并记录这些图像数据；参见图3-图10，分别为无人机在不同状态下的三维可视化环境示意图，每一个图中小图为无人机上加载的摄像头拍摄的三类图像信息—从左至右依次为深度图，语义分割图和可见光图。

步骤2，构造分段加权奖励函数并建立卷积神经网络模型；

步骤2.1，无人机在正常飞行过程中，设置有正常飞行高度，即定高，基于该值，建立用于鼓励或压制决策的奖励函数(reward)，所述奖励函数被设计为分段加权函数，分为以下的情况：

(1)当无人机在当前时间步内与障碍物或地面由于距离太近而发生碰撞(collision)时，奖励值设为-100；

(2)当无人机在当前时间步内的飞行高度相对于定高垂直距离大于1m或者小于-2.5m时，奖励值设为-10；

(3)当无人机不满足上述情况且未到达最远距离位置时，奖励的设计分为以下四种情况：

首先设置无人机的当前时间步为step，在当前时间步(step)内的飞行距离D，在当前时间步内的飞行高度与设置的定高的垂直距离H；四种情况为：

(3-1)无人机完成当前时间步内的飞行距离D的奖励值reward_dist，reward_dist＝D²；

(3-2)无人机在当前时间步内与定高的垂直距离H的奖励值reward_height，如果H大于零，reward_height＝exp(-H/2)，如果H小于零，reward_height＝exp(2×H)；

(3-3)无人机当前的时间步数step的奖励值reward_step，

(3-4)以及无人机在上一时间步的奖励值last_reward。

无人机在当前时间步内的奖励值为reward＝last_reward+reward_dist×reward_height+reward_step，奖励的设计以定高飞行并成功避过障碍物为原则，遵循奖励值随着飞行距离D的增大而增大、随着垂直距离H的增大而减小、随着时间步step的增大而减小的性质，且在无障碍物时距离的变化大于高度，在面对障碍物时距离的变化小于高度。

该步骤利用分段加权函数的思想构建奖励函数，根据无人机与障碍物的相对位置高度定义函数变量，根据面对避开障碍物的期望策略设置函数形式，这一奖励函数组成了智能体执行任务的评判标准，使得导致无人机好的输出的行动决策得到鼓励，导致坏结果的行动决策得到压制，从而不断更新控制无人机的智能体的权重参数，以得到尽可能多的奖励。

步骤2.2建立卷积神经网络模型，以无人机加载的摄像头获取的状态图像为输入，输出控制无人机运行方向的决策；

所述卷积神经网络模型共有5层，3个卷积层和2个全连接层，输入层为卷积层，卷积层的输入为无人机加载的摄像头获取的状态图像，即连续四帧三维状态图像的4*84*84维表示。输出层为全连接层，全连接层的输出，共有4个节点，分别对应于控制无人机运行方向的4类决策：原地不动，前进，上升，下降。

该步骤中的两个分步骤均为下面的步骤3做准备。

步骤3，参见图1和图2，通过DQN算法在虚拟三维可视化仿真环境中对无人机进行自主避障训练，输出训练好的卷积神经网络。

深度增强学习是直接从高维原始数据学习控制策略的一项技术，而DQN(Deep QNetwork)是深度增强学习的典型算法之一，它将神经网络和Q-Learning结合起来，输入是原始图像数据，输出则是每个决策对应的价值评估(Q值)；本发明中无人机的控制决策训练过程即卷积神经网络的参数更新过程，该过程由DQN算法完成，DQN对三维可视化仿真环境与卷积神经网络模型之间的交互过程进行深度增强训练；在本发明中输入为无人机摄像头拍摄的状态图像，输出为无人机运行动作的控制决策。

本发明通过卷积神经网络模型输出控制决策，并将其送入至步骤1建立的虚拟三维可视化仿真环境中，无人机摄像头传回的状态图像又继续被输入到卷积神经网络模型中，通过三维可视化环境和卷积神经网络模型的不断交互，通过卷积神经网络持续的自我学习，不断更新卷积神经网络模型的权重参数θ。

首先定义无人机从初始状态到终止状态的一个完整过程认为是一次训练，定义为epoch，设定M次训练次数，每次epoch中三维可视化环境与卷积神经网络之间的交互步数，即无人机经神经网络控制的运行决策变化次数定义为step，该step即为上述训练过程中的时间步step，step的次数根据无人机每一次从初始状态到终止状态的具体变化情况决定。模型计算过程的算法在Anaconda3软件包和TensorFlow深度学习软件框架的基础上实现。

详细使得模拟训练过程如下所示：

3.1初始化三维仿真环境中无人机的位置，该位置能够为任意位置；

3.2初始化经验池E的容量为N，用于存储训练的样本；

3.3初始化卷积神经网络模型，随机生成卷积神经网络的权重参数θ；

3.4设定任务训练次数为M，循环遍历epoch＝0,1,…,M-1；根据无人机上加载的摄像头传回给网络的状态图像，获得网络输入初始化状态x₀，每一次任务训练(epoch)开始都会获得一个网络输入初始化状态x₀；每一次任务训练(epoch)包括以下步骤：

3.4.1循环遍历step＝0,1,2,…：

1)设定初始概率e＝1(0≤e≤1)，随机生成一个[0,1]之间的值，若此值小于e，从4种动作中随机选择一个动作a_step，若大于e，则选择卷积神经网络模型输出的Q值Q(x_step,a；θ)中(其中每一个Q值对应一个动作a)的最大值

对应的动作a_step。概率e随step的增加而逐步减小，上述a_step为卷积神经网络模型输出的无人机运行方向的决策；a_step为四种动作之一：原地不动、前进、上升和下降；x_step为本次的网络输入状态；

2)将网络输出的决策a_step输入到三维可视化仿真环境中，三维可视化仿真环境根据a_step实时模拟无人机的飞行状态，在软件界面上实时记录无人机摄像头拍摄的图像数据，由加权奖励函数计算得到奖励r_step和下一次网络的输入状态x_step+1；

3)将样本(x_step,a_step,r_step,x_step+1)存入E中；

4)当E中积累到训练前观测的时间步(如1000步)后，每隔4次进行一次网络权重参数θ更新，即1004/1008/1012…步均进行一次网络权重参数θ的更新；具体过程为，随机从E中取出K(通常设置为32)个样本(x_j,a_j,r_j,x_j+1),j＝1,2,…32；计算每一个样本(x_j,a_j,r_j,x_j+1)的目标值

其中，γ为奖励衰减程度；对损失函数(y_j-Q(x_j,a_j；θ))²关于使用梯度下降法进行更新，得到更新的网络权重参数θ。

5)在仿真环境中计算无人机当前状态x_step+1下是否处于三种终止状态，如果当前的状态x_step+1使任务终止，命令无人机返回初始位置，epoch加1，重复执行3.4，开始下一次任务训练；如果当前的状态x_step+1使任务未终止，step加1，重复执行上述步骤1)-步骤4)步直至任务终止。

无人机的三种终止状态为：(1)无人机与障碍物或地面发生碰撞；(2)无人机的高度与设定高度的差值大于设定值；(3)无人机飞行超过设定的最远距离位置。当满足任一条件时，当前训练任务终止，反之当前训练任务继续进行直至终止。

3.4.2无人机达到终止状态，则一次任务训练循环结束。

3.5直到卷积神经网络收敛，训练结束；按照本发明设定的参数及具体实施过程，训练到大致M＝2000次时，卷积神经网络收敛。

在每个时间步骤，控制决策被发送回环境，并从环境中继续输出无人机的状态图像供给卷积神经网络以进行连续的深度增强训练，最终达到不断更新卷积神经网络的模型参数，正确输出避障结果的目的。

步骤4，利用训练好的卷积神经网络对无人机进行控制，完成自主避障任务。

上述步骤中，在训练阶段，随机给定无人机的初始位置信息，根据摄像头传回的图片对整个无人机的避障过程进行观察。当无人机飞行超过设定的最远距离位置时，认为当前训练任务成功，当无人机与障碍物或者地面碰撞，或无人机的高度与设定高度的差值大于定值时，认为当前训练任务失败。无论当前训练任务成功或是失败，均计算此次训练任务的累积奖励函数值，且对无人机执行返回起点操作，然后结束当前训练任务，开始下一次训练任务。当奖励函数值随着任务训练次数的增加而不再变化时，认为整个无人机自主避障训练过程结束，保存训练好的神经网络模型。在测试阶段，以训练好的神经网络模型作为智能体，在仿真环境中根据无人机状态实时给出控制无人机运行方向的决策，对无人机进行定高飞行控制，完成自主避障演示任务。

前述DQN算法中提到了训练中需要设置当前训练的终止条件，要为每一步交互输出的控制决策进行是否完成当前训练的判断，即此决策能否控制无人机避过障碍，本发明根据演示场景的设定及障碍物的高度，定义无人机与障碍物或地面发生碰撞、无人机的高度与设定高度的差值大于一个定值、飞行超过设定的最远距离位置为当前训练任务终止的三个条件，当满足任一条件时，当前训练任务终止，反之当前训练任务继续进行直至终止。

前述DQN算法中提到了控制无人机的决策Action共有4类，4类Action由0～3定义。其中，“Action＝0”表示神经网络输出的控制决策为“原地不动”，即无人机的三个轴上的速度均为零，保持上次运动结束状态不变；“Action＝1”表示神经网络输出的控制决策为“前进”，即无人机的x轴上被施加2*factor的速度，使得无人机在x轴方向上前进一定的距离，其它轴仍为零；“Action＝2”表示神经网络输出的控制决策为“上升”，即无人机的z轴上被施加-factor的速度，其它轴仍为零；“Action＝3”表示神经网络输出的控制决策为“下降”，即无人机的z轴上被施加factor的速度，其它轴仍为零，其中factor为尺度伸缩因子，一般大小为0.5。

实施例

在某一村落区域的仿真环境中，放置有高约1米6，宽约两米的障碍物—两辆汽车，无人机起飞后飞至离地1米2左右高度悬停，稳定后开始匀速向前飞行，在接近障碍物时开始升高至最大2米避障，飞跃障碍物后降至1米2左右继续向前飞行直至飞至终点。

每次训练随机初始化三维仿真环境中无人机的位置，并给予智能体控制的无人机足够的时间步来越过障碍物并到达飞行最远距离位置。由于无人机的z轴以垂直地面向下为正，根据仿真环境的场景，设置无人机的飞行定高为-0.65，飞行距离D的最大值为100，无人机能够按照上述演示任务要求成功避过障碍物到达最远距离位置，且与障碍物或地面未发生碰撞，与定高的垂直距离始终保持在范围(-∞,-2.5)∪(1,+∞)内时，本次训练终止。

表1无人机避障训练参数设置

根据上表参数在仿真环境中完成无人机的自主避障训练以后，保存训练好的神经网络模型进行避障测试，结果如下图11所示，首先连接避障算法与加载在无人机前方的摄像头，根据摄像头上拍摄的可见光图信息，在当前的epoch＝0中，随着step的增加，可以看到无人机在没有障碍物时基本保持定高飞行如step 0-step 2，靠近障碍物时开始上升如step 3，上升至障碍物顶部后继续直线前进飞行如step 4-step 7，飞跃障碍物后执行下降操作如step 8-step 10，然后继续直线飞行如step 11-step 13，并未出现无人机与障碍物或者地面碰撞、无人机的高度与设定高度的差值大于定值等需要返回起点的情况。图11中，DQN算法需要根据终止状态设置训练任务的终止条件，并且对每个动作执行是否完成任务作出判断(Done)，即DQN从神经网络中得到的控制决策是否可以在每次训练中完成自主避障。这里设置当reward≤-10时，当前训练任务终止，Done＝1，否则当前训练任务继续进行，Done＝0。

本发明提出的自主避障方法在测试阶段，以训练好的神经网络模型作为智能体，在不同复杂场景中重复多次测试，通过智能体实时控制无人机的运行方向，对无人机进行定高飞行控制。通过无人机运行控制软件界面，图12-图14演示了不同场景下无人机面对不同类型、不同颜色障碍物的自主避障过程。

以训练好的神经网络模型作为智能体，设定障碍物分别为红色轿车、灰色轿车以及围栏，图12-图14分别用四幅图演示了无人机在这三种场景中的自主避障测试过程，由图可见，无人机经历了没有障碍物时保持定高飞行、靠近障碍物时上升、上升至障碍物顶部后继续直线前进飞行以及飞跃障碍物后下降这四个过程，在整个过程中，无人机并未与障碍物或地面发生碰撞且并未超过定高的最大差值，直到飞行超过设定的最远距离后返回起点，说明通过该方法训练无人机的避障效果好。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于自主学习的无人机智能避障方法，其特征在于，包括以下步骤：

步骤(2)中，无人机进行自主避障训练前首先设定任务训练次数为M，无人机循环遍历epoch＝0,1,…,M-1次，每一次循环遍历的具体步骤为：

(2-1)在卷积神经网络模型中计算控制无人机运行方向的决策a_step：以概率选择一个随机的动作或者卷积神经网络模型输出的最大Q值对应的动作作为决策a_step，所述Q值为卷积神经网络模型输出的价值评估值，a_step包括四种情况：原地不动、前进、上升和下降；

所述加权奖励函数分为以下三种情况：

(1)当无人机在当前时间步内与障碍物或地面由于距离太近而发生碰撞时，奖励值为-100；

(2)当无人机在当前时间步内的飞行高度相对于定高的垂直距离大于1m或者小于-2.5m时，奖励值设为-10；

(3)当无人机不满足情况(1)和情况(2)且未到达最远距离位置时，奖励值为以下四种奖励类型奖励值的函数，设置无人机在当前时间步内的飞行距离为D，在当前时间步内的飞行高度与设置的定高的垂直距离H，四种奖励类型为：

(3-3)无人机当前的时间步数的奖励值为

(3-4)以及无人机在上一时间步的奖励值；

该步骤最终的奖励值为：

或

(2-3)将样本(x_step,a_step,r_step,x_step+1)存入经验池E中；x_step为本次的网络输入状态；

对于epoch＝0,1,…,M-1，均单独重复步骤(2-1)-(2-4)，直到卷积神经网络收敛，则无人机自主避障训练结束；

所述epoch为无人机从初始状态到终止状态的一个完整过程；step为无人机经卷积神经网络模型输出的控制运行动作的决策的变化次数；

2.根据权利要求1所述的基于自主学习的无人机智能避障方法，其特征在于，步骤(1)中，所述三维环境搭建系统为AirSim系统。

3.根据权利要求1所述的基于自主学习的无人机智能避障方法，其特征在于，步骤(2-1)中，所述卷积神经网络模型包括3个卷积层和2个全连接层；其中输入层为卷积层，卷积层的输入为无人机摄像头拍摄的图像信息；输出层为全连接层，全连接层的输出有4个节点，对应于卷积神经网络模型输出的控制无人机运行方向的4类决策：原地不动，前进，上升，下降。

4.根据权利要求1所述的基于自主学习的无人机智能避障方法，其特征在于，步骤(2-4)中，所述任务终止包括三种情况：无人机与障碍物或地面发生碰撞；无人机的高度与设定高度的差值大于设定值；无人机飞行超过设定的最远距离位置；满足上述任一情况，任务终止。

5.根据权利要求1所述的基于自主学习的无人机智能避障方法，其特征在于，步骤(2-3)中，当经验池E积累到训练前观测的时间步后，每隔4步进行一次网络训练，随机从E中取出K个样本(x_j,a_j,r_j,x_j+1),j＝1,2,…K；计算每一个样本(x_j,a_j,r_j,x_j+1)的目标值

6.根据权利要求5所述的基于自主学习的无人机智能避障方法，其特征在于，K为32。