CN110471444B - 基于自主学习的无人机智能避障方法 - Google Patents

基于自主学习的无人机智能避障方法 Download PDF

Info

Publication number
CN110471444B
CN110471444B CN201910765862.6A CN201910765862A CN110471444B CN 110471444 B CN110471444 B CN 110471444B CN 201910765862 A CN201910765862 A CN 201910765862A CN 110471444 B CN110471444 B CN 110471444B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
neural network
convolutional neural
obstacle avoidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910765862.6A
Other languages
English (en)
Other versions
CN110471444A (zh
Inventor
王月娇
马钟
杨一岱
唐雪寒
王竹平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Microelectronics Technology Institute
Original Assignee
Xian Microelectronics Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Microelectronics Technology Institute filed Critical Xian Microelectronics Technology Institute
Priority to CN201910765862.6A priority Critical patent/CN110471444B/zh
Publication of CN110471444A publication Critical patent/CN110471444A/zh
Application granted granted Critical
Publication of CN110471444B publication Critical patent/CN110471444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了基于自主学习的无人机智能避障方法,使无人机在三维可视化仿真环境中可利用摄像头获取的视觉信息,根据地形高度与障碍物高度,智能自主学习,以训练好的网络模型作为智能体对无人机进行定高飞行控制,实时调整飞行高度,实现自动地形跟随应用,完成自主避障任务。这一发明创建了三维可视化仿真环境,为智能自主避障算法提供了良好的训练环境,实现了人机实时操作的互动接口,并为智能体从仿真环境到真实环境的迁移训练提供了可能性。这一发明为其它深度增强学习算法提供了仿真试验平台,便于智能体进行多种场景、不同任务及多种算法的深度增强训练和测试。

Description

基于自主学习的无人机智能避障方法
【技术领域】
本发明属于无人机自主避障技术的智能控制与引导系统和方法技术领域,具体涉及一种基于自主学习的无人机智能避障方法。
【背景技术】
避障能力是实现无人机自动化乃至智能化的关键环节,完善的无人机自主避障系统能够及时地避开飞行路径中的障碍物,极大地减少因操作失误造成的无人机损坏和伤及人身和建筑物的事故发生率。
自主避障飞行对于无人机具有非常重要的意义,这可以保证无人机完成复杂的、多功能的高难度动作。无人机避障技术的发展可分为三个阶段,一是感知障碍物并悬停;二是自主绕开障碍物;三是进行场景建模和路径搜索。目前国内外关于无人机避障方面的研究还处于很初级的阶段,一般依赖于三维高程地图、多传感器或者其他高精度设备等技术来实现,如广泛应用的视觉SLAM算法主要以机器人为载体,利用视觉传感器生成障碍物的深度图,据此执行避障动作。但这一算法在图像处理方面需要人为指定需要提取的特征值,且易受光照、障碍物位置等因素影响,鲁棒性较差。一般深度学习方法通过训练大量感知图像,使无人机自己学习障碍物的特征,但由于难以明确障碍物的边界,缺乏正确避障的决策能力。
【发明内容】
本发明的目的在于克服上述现有技术的缺点,提供一种基于自主学习的无人机智能避障方法;本发明使用基于DQN的深度增强学习算法进行控制决策训练,构造分段加权奖励函数获得最优决策,提升了原有方法的鲁棒性,具备高度智能化与自主可控性。
为达到上述目的,本发明采用以下技术方案予以实现:
基于自主学习的无人机智能避障方法,包括以下步骤:
(1)通过三维环境搭建系统搭建无人机处于的虚拟三维可视化仿真环境;三维可视化仿真环境的输入为控制无人机运行动作的决策,输出为下一时刻无人机摄像头拍摄的图像信息;
(2)通过DQN算法在虚拟三维可视化仿真环境中对无人机进行自主避障训练,输出训练好的卷积神经网络;
自主避障训练过程中以无人机摄像头拍摄的图像信息为输入,通过DQN算法中的卷积神经网络模型输出控制无人机运行动作的决策;通过卷积神经网络模型和虚拟三维可视化仿真环境的不断交互,不断更新卷积神经网络模型的权重参数θ,最终输出训练好的卷积神经网络;
(3)通过训练好的卷积神经网络对无人机进行控制,完成无人机飞行过程中的自主避障任务。
本发明的进一步改进在于:
优选的,步骤(1)中,所述三维环境搭建系统为AirSim系统。
优选的,步骤(2)中,无人机进行自主避障训练前首先设定任务训练次数为M,无人机循环遍历epoch=0,1,…,M-1次,每一次循环遍历的具体过程为:
(2-1)在卷积神经网络模型中计算控制无人机运行方向的决策:以概率选择一个随机的动作astep或者卷积神经网络模型输出的最大Q值对应的动作astep,所述Q值为卷积神经网络模型输出的价值评估值,所述astep为卷积神经网络模型输出的无人机运行方向的决策,astep包括四种情况:原地不动、前进、上升和下降;
(2-2)将卷积神经网络模型输出的决策astep输入到三维可视化仿真环境中,三维可视化仿真环境根据astep实时模拟无人机的飞行状态,由加权奖励函数计算得到奖励值rstep和下一次网络的输入状态xstep+1
(2-3)将样本(xstep,astep,rstep,xstep+1)存入经验池E中;
(2-4)在三维可视化仿真环境中判断无人机当前状态xstep+1下是否处于终止状态,如果当前的状态xstep+1使任务终止,命令无人机返回初始位置,epoch加1,开始进行下一个epoch的任务训练;如果当前的状态xstep+1使任务未终止,step加1,重复执行上述步骤(2-1)-步骤(2-3)步直至任务终止;当任务终止时,一个循环遍历epoch结束;
对于epoch=0,1,…,M-1,均单独重复上述步骤(2-1)-(2-4),直到卷积神经网络收敛,则无人机自主避障训练结束;
所述epoch为无人机从初始状态到终止状态的一个完整过程;step为无人机经卷积神经网络模型输出的控制运行动作的决策的变化次数。
优选的,步骤(2-1)中,所述卷积神经网络模型包括3个卷积层和2个全连接层;其中输入层为卷积层,卷积层的输入为无人机摄像头拍摄的图像信息;输出层为全连接层,全连接层的输出有4个节点,对应于卷积神经网络模型输出的控制无人机运行方向的4类决策:原地不动,前进,上升,下降。
优选的,步骤(2-2)中,所述加权奖励函数分为以下三种情况:
(4)当无人机在当前时间步内与障碍物或地面由于距离太近而发生碰撞时,奖励值为-100;
(5)当无人机在当前时间步内的飞行高度相对于定高的垂直距离大于1m或者小于-2.5m时,奖励值设为-10;
(6)当无人机不满足情况(1)和情况(2)且未到达最远距离位置时,奖励值为以下四种奖励类型奖励值的函数,设置无人机在当前时间步内的飞行距离为D,在当前时间步内的飞行高度与设置的定高的垂直距离H,四种奖励类型为:
(3-1)无人机完成当前时间步内的飞行距离D的奖励值,奖励值为D2
(3-2)当无人机在当前时间步内与定高的垂直距离H大于0,奖励值为exp(-H/2);当H小于0,奖励值为exp(2*H);
(3-3)无人机当前的时间步数的奖励值为
Figure BDA0002171913990000041
(3-4)以及无人机在上一时间步的奖励值;
该步骤最终的奖励值为:上一时间步的
Figure BDA0002171913990000042
或上一时间步的
Figure BDA0002171913990000043
优选的,步骤(2-4)中,所述任务终止包括三种情况:无人机与障碍物或地面发生碰撞;无人机的高度与设定高度的差值大于设定值;无人机飞行超过设定的最远距离位置;满足上述任一条件,任务终止。
优选的,步骤(2-3)中,当经验池E积累到训练前观测的时间步后,每隔4步进行一次网络训练,随机从E中取出K个样本(xj,aj,rj,xj+1),j=1,2,…K;计算每一个样本(xj,aj,rj,xj+1)的目标值
Figure BDA0002171913990000044
对损失函数(yj-Q(xj,aj;θ))2使用梯度下降法进行更新,得到更新的卷积神经网络模型的权重参数θ。
优选的,其特征在于,K优选为32。
与现有技术相比,本发明具有以下有益效果:
本发明提出了一种基于自主学习的无人机智能避障方法,使无人机在三维可视化仿真环境中可利用摄像头获取的视觉信息,根据地形高度与障碍物高度,智能自主学习,以训练好的网络模型作为智能体对无人机进行定高飞行控制,实时调整飞行高度,实现自动地形跟随应用,完成自主避障任务。这一发明创建了三维可视化仿真环境,为智能自主避障算法提供了良好的训练环境,实现了人机实时操作的互动接口,并为智能体从仿真环境到真实环境的迁移训练提供了可能性。这一发明为其它深度增强学习算法提供了仿真试验平台,便于智能体进行多种场景、不同任务及多种算法的深度增强训练和测试。
【附图说明】
图1为本发明的三维可视化环境和策略网络模型的交互过程图;
图2为本发明的基于深度增强学习的无人机自主避障训练流程图;
图3为无人机无障碍物时定高飞行的三维可视化环境示意图;
图4为无人机靠近障碍物时上升的三维可视化环境示意图;
图5为无人机上升至障碍物顶部后继续直线前进的三维可视化环境示意图;
图6为无人机飞跃障碍物后下降的三维可视化环境示意图;
图7为无人机与障碍物或者地面碰撞的三维可视化环境示意图;
图8为无人机飞行高度与设定高度的差值大于定值的三维可视化环境示意图;
图9为无人机飞行超过设定的最远距离的三维可视化环境示意图;
图10为初始化无人机位置的三维可视化环境示意图;
图11为无人机进行避障测试的三维可视化示意图及相关结果输出图片(其中epoch为无人机从初始状态到终止状态的训练次数,step为无人机在一次训练中经神经网络控制的运行决策变化次数,Action为控制无人机的决策种类,Reward为用于鼓励或压制控制无人机决策的奖励函数,Done为无人机在执行当前动作后是否达到终止状态);
图12为无人机面对障碍物为红色轿车时的自主避障过程;
其中,(a)图为无人机无障碍物时定高飞行的三维可视化环境示意图;(b)图为无人机靠近障碍物时上升的三维可视化环境示意图;(c)图为无人机上升至障碍物顶部后继续直线前进的三维可视化环境示意图;(d)图为无人机飞跃障碍物后下降的三维可视化环境示意图;
图13为无人机面对障碍物为灰色轿车时的自主避障过程;
其中,(a)图为无人机无障碍物时定高飞行的三维可视化环境示意图;(b)图为无人机靠近障碍物时上升的三维可视化环境示意图;(c)图为无人机上升至障碍物顶部后继续直线前进的三维可视化环境示意图;(d)图为无人机飞跃障碍物后下降的三维可视化环境示意图;
图14为无人机面对障碍物为围栏时的自主避障过程;
其中,(a)图为无人机无障碍物时定高飞行的三维可视化环境示意图;(b)图为无人机靠近障碍物时上升的三维可视化环境示意图;(c)图为无人机上升至障碍物顶部后继续直线前进的三维可视化环境示意图;(d)图为无人机飞跃障碍物后下降的三维可视化环境示意图。
【具体实施方式】
下面结合附图和具体实施例对本发明做进一步详细描述;本发明采用深度增强学习技术进行无人机智能自主避障;分为四个阶段进行,一是搭建三维可视化环境,根据控制决策(包含4类—原地不动,前进,上升,下降)实时模拟无人机的飞行状态并输出状态图像;二是构造分段加权奖励函数,建立卷积神经网络模型,所述卷积神经网络模型以无人机加载的摄像头获取的状态图像为输入,以控制无人机运行方向的决策为输出;三是利用DQN算法在三维可视化环境中对无人机进行自主避障训练,利用网络模型输出控制决策并将其送入环境中,环境输出的无人机状态图像又继续被输入到网络模型中,通过三维可视化环境和卷积神经网络模型的不断交互,通过神经网络持续的自我学习,不断更新卷积神经网络模型的权重参数;四是利用训练好的卷积神经网络对无人机进行控制,完成自主避障任务。
步骤1,搭建虚拟三维可视化仿真环境,状态图像输出至卷积神经网络模型(在后面);
采用Microsoft开源的AirSim系统搭建模拟无人机处于的虚拟三维可视化仿真环境,利用Python、C/C++编写无人机运行控制软件界面;所述虚拟三维可视化仿真环境用于模拟无人机处于的三维环境,该仿真环境为智能自主避障算法提供了良好的训练环境,实现了人机实时操作的互动接口。
三维可视化仿真环境的输入为控制无人机运行动作的决策,输出为下一时刻无人机摄像头拍摄的图像信息,可在软件界面上实时观察并记录这些图像数据;参见图3-图10,分别为无人机在不同状态下的三维可视化环境示意图,每一个图中小图为无人机上加载的摄像头拍摄的三类图像信息—从左至右依次为深度图,语义分割图和可见光图。
步骤2,构造分段加权奖励函数并建立卷积神经网络模型;
步骤2.1,无人机在正常飞行过程中,设置有正常飞行高度,即定高,基于该值,建立用于鼓励或压制决策的奖励函数(reward),所述奖励函数被设计为分段加权函数,分为以下的情况:
(1)当无人机在当前时间步内与障碍物或地面由于距离太近而发生碰撞(collision)时,奖励值设为-100;
(2)当无人机在当前时间步内的飞行高度相对于定高垂直距离大于1m或者小于-2.5m时,奖励值设为-10;
(3)当无人机不满足上述情况且未到达最远距离位置时,奖励的设计分为以下四种情况:
首先设置无人机的当前时间步为step,在当前时间步(step)内的飞行距离D,在当前时间步内的飞行高度与设置的定高的垂直距离H;四种情况为:
(3-1)无人机完成当前时间步内的飞行距离D的奖励值reward_dist,reward_dist=D2
(3-2)无人机在当前时间步内与定高的垂直距离H的奖励值reward_height,如果H大于零,reward_height=exp(-H/2),如果H小于零,reward_height=exp(2×H);
(3-3)无人机当前的时间步数step的奖励值reward_step,
Figure BDA0002171913990000081
(3-4)以及无人机在上一时间步的奖励值last_reward。
无人机在当前时间步内的奖励值为reward=last_reward+reward_dist×reward_height+reward_step,奖励的设计以定高飞行并成功避过障碍物为原则,遵循奖励值随着飞行距离D的增大而增大、随着垂直距离H的增大而减小、随着时间步step的增大而减小的性质,且在无障碍物时距离的变化大于高度,在面对障碍物时距离的变化小于高度。
该步骤利用分段加权函数的思想构建奖励函数,根据无人机与障碍物的相对位置高度定义函数变量,根据面对避开障碍物的期望策略设置函数形式,这一奖励函数组成了智能体执行任务的评判标准,使得导致无人机好的输出的行动决策得到鼓励,导致坏结果的行动决策得到压制,从而不断更新控制无人机的智能体的权重参数,以得到尽可能多的奖励。
步骤2.2建立卷积神经网络模型,以无人机加载的摄像头获取的状态图像为输入,输出控制无人机运行方向的决策;
所述卷积神经网络模型共有5层,3个卷积层和2个全连接层,输入层为卷积层,卷积层的输入为无人机加载的摄像头获取的状态图像,即连续四帧三维状态图像的4*84*84维表示。输出层为全连接层,全连接层的输出,共有4个节点,分别对应于控制无人机运行方向的4类决策:原地不动,前进,上升,下降。
该步骤中的两个分步骤均为下面的步骤3做准备。
步骤3,参见图1和图2,通过DQN算法在虚拟三维可视化仿真环境中对无人机进行自主避障训练,输出训练好的卷积神经网络。
深度增强学习是直接从高维原始数据学习控制策略的一项技术,而DQN(Deep QNetwork)是深度增强学习的典型算法之一,它将神经网络和Q-Learning结合起来,输入是原始图像数据,输出则是每个决策对应的价值评估(Q值);本发明中无人机的控制决策训练过程即卷积神经网络的参数更新过程,该过程由DQN算法完成,DQN对三维可视化仿真环境与卷积神经网络模型之间的交互过程进行深度增强训练;在本发明中输入为无人机摄像头拍摄的状态图像,输出为无人机运行动作的控制决策。
本发明通过卷积神经网络模型输出控制决策,并将其送入至步骤1建立的虚拟三维可视化仿真环境中,无人机摄像头传回的状态图像又继续被输入到卷积神经网络模型中,通过三维可视化环境和卷积神经网络模型的不断交互,通过卷积神经网络持续的自我学习,不断更新卷积神经网络模型的权重参数θ。
首先定义无人机从初始状态到终止状态的一个完整过程认为是一次训练,定义为epoch,设定M次训练次数,每次epoch中三维可视化环境与卷积神经网络之间的交互步数,即无人机经神经网络控制的运行决策变化次数定义为step,该step即为上述训练过程中的时间步step,step的次数根据无人机每一次从初始状态到终止状态的具体变化情况决定。模型计算过程的算法在Anaconda3软件包和TensorFlow深度学习软件框架的基础上实现。
详细使得模拟训练过程如下所示:
3.1初始化三维仿真环境中无人机的位置,该位置能够为任意位置;
3.2初始化经验池E的容量为N,用于存储训练的样本;
3.3初始化卷积神经网络模型,随机生成卷积神经网络的权重参数θ;
3.4设定任务训练次数为M,循环遍历epoch=0,1,…,M-1;根据无人机上加载的摄像头传回给网络的状态图像,获得网络输入初始化状态x0,每一次任务训练(epoch)开始都会获得一个网络输入初始化状态x0;每一次任务训练(epoch)包括以下步骤:
3.4.1循环遍历step=0,1,2,…:
1)设定初始概率e=1(0≤e≤1),随机生成一个[0,1]之间的值,若此值小于e,从4种动作中随机选择一个动作astep,若大于e,则选择卷积神经网络模型输出的Q值Q(xstep,a;θ)中(其中每一个Q值对应一个动作a)的最大值
Figure BDA0002171913990000102
对应的动作astep。概率e随step的增加而逐步减小,上述astep为卷积神经网络模型输出的无人机运行方向的决策;astep为四种动作之一:原地不动、前进、上升和下降;xstep为本次的网络输入状态;
2)将网络输出的决策astep输入到三维可视化仿真环境中,三维可视化仿真环境根据astep实时模拟无人机的飞行状态,在软件界面上实时记录无人机摄像头拍摄的图像数据,由加权奖励函数计算得到奖励rstep和下一次网络的输入状态xstep+1
3)将样本(xstep,astep,rstep,xstep+1)存入E中;
4)当E中积累到训练前观测的时间步(如1000步)后,每隔4次进行一次网络权重参数θ更新,即1004/1008/1012…步均进行一次网络权重参数θ的更新;具体过程为,随机从E中取出K(通常设置为32)个样本(xj,aj,rj,xj+1),j=1,2,…32;计算每一个样本(xj,aj,rj,xj+1)的目标值
Figure BDA0002171913990000101
其中,γ为奖励衰减程度;对损失函数(yj-Q(xj,aj;θ))2关于使用梯度下降法进行更新,得到更新的网络权重参数θ。
5)在仿真环境中计算无人机当前状态xstep+1下是否处于三种终止状态,如果当前的状态xstep+1使任务终止,命令无人机返回初始位置,epoch加1,重复执行3.4,开始下一次任务训练;如果当前的状态xstep+1使任务未终止,step加1,重复执行上述步骤1)-步骤4)步直至任务终止。
无人机的三种终止状态为:(1)无人机与障碍物或地面发生碰撞;(2)无人机的高度与设定高度的差值大于设定值;(3)无人机飞行超过设定的最远距离位置。当满足任一条件时,当前训练任务终止,反之当前训练任务继续进行直至终止。
3.4.2无人机达到终止状态,则一次任务训练循环结束。
3.5直到卷积神经网络收敛,训练结束;按照本发明设定的参数及具体实施过程,训练到大致M=2000次时,卷积神经网络收敛。
在每个时间步骤,控制决策被发送回环境,并从环境中继续输出无人机的状态图像供给卷积神经网络以进行连续的深度增强训练,最终达到不断更新卷积神经网络的模型参数,正确输出避障结果的目的。
步骤4,利用训练好的卷积神经网络对无人机进行控制,完成自主避障任务。
上述步骤中,在训练阶段,随机给定无人机的初始位置信息,根据摄像头传回的图片对整个无人机的避障过程进行观察。当无人机飞行超过设定的最远距离位置时,认为当前训练任务成功,当无人机与障碍物或者地面碰撞,或无人机的高度与设定高度的差值大于定值时,认为当前训练任务失败。无论当前训练任务成功或是失败,均计算此次训练任务的累积奖励函数值,且对无人机执行返回起点操作,然后结束当前训练任务,开始下一次训练任务。当奖励函数值随着任务训练次数的增加而不再变化时,认为整个无人机自主避障训练过程结束,保存训练好的神经网络模型。在测试阶段,以训练好的神经网络模型作为智能体,在仿真环境中根据无人机状态实时给出控制无人机运行方向的决策,对无人机进行定高飞行控制,完成自主避障演示任务。
前述DQN算法中提到了训练中需要设置当前训练的终止条件,要为每一步交互输出的控制决策进行是否完成当前训练的判断,即此决策能否控制无人机避过障碍,本发明根据演示场景的设定及障碍物的高度,定义无人机与障碍物或地面发生碰撞、无人机的高度与设定高度的差值大于一个定值、飞行超过设定的最远距离位置为当前训练任务终止的三个条件,当满足任一条件时,当前训练任务终止,反之当前训练任务继续进行直至终止。
前述DQN算法中提到了控制无人机的决策Action共有4类,4类Action由0~3定义。其中,“Action=0”表示神经网络输出的控制决策为“原地不动”,即无人机的三个轴上的速度均为零,保持上次运动结束状态不变;“Action=1”表示神经网络输出的控制决策为“前进”,即无人机的x轴上被施加2*factor的速度,使得无人机在x轴方向上前进一定的距离,其它轴仍为零;“Action=2”表示神经网络输出的控制决策为“上升”,即无人机的z轴上被施加-factor的速度,其它轴仍为零;“Action=3”表示神经网络输出的控制决策为“下降”,即无人机的z轴上被施加factor的速度,其它轴仍为零,其中factor为尺度伸缩因子,一般大小为0.5。
实施例
在某一村落区域的仿真环境中,放置有高约1米6,宽约两米的障碍物—两辆汽车,无人机起飞后飞至离地1米2左右高度悬停,稳定后开始匀速向前飞行,在接近障碍物时开始升高至最大2米避障,飞跃障碍物后降至1米2左右继续向前飞行直至飞至终点。
每次训练随机初始化三维仿真环境中无人机的位置,并给予智能体控制的无人机足够的时间步来越过障碍物并到达飞行最远距离位置。由于无人机的z轴以垂直地面向下为正,根据仿真环境的场景,设置无人机的飞行定高为-0.65,飞行距离D的最大值为100,无人机能够按照上述演示任务要求成功避过障碍物到达最远距离位置,且与障碍物或地面未发生碰撞,与定高的垂直距离始终保持在范围(-∞,-2.5)∪(1,+∞)内时,本次训练终止。
表1无人机避障训练参数设置
Figure BDA0002171913990000121
根据上表参数在仿真环境中完成无人机的自主避障训练以后,保存训练好的神经网络模型进行避障测试,结果如下图11所示,首先连接避障算法与加载在无人机前方的摄像头,根据摄像头上拍摄的可见光图信息,在当前的epoch=0中,随着step的增加,可以看到无人机在没有障碍物时基本保持定高飞行如step 0-step 2,靠近障碍物时开始上升如step 3,上升至障碍物顶部后继续直线前进飞行如step 4-step 7,飞跃障碍物后执行下降操作如step 8-step 10,然后继续直线飞行如step 11-step 13,并未出现无人机与障碍物或者地面碰撞、无人机的高度与设定高度的差值大于定值等需要返回起点的情况。图11中,DQN算法需要根据终止状态设置训练任务的终止条件,并且对每个动作执行是否完成任务作出判断(Done),即DQN从神经网络中得到的控制决策是否可以在每次训练中完成自主避障。这里设置当reward≤-10时,当前训练任务终止,Done=1,否则当前训练任务继续进行,Done=0。
本发明提出的自主避障方法在测试阶段,以训练好的神经网络模型作为智能体,在不同复杂场景中重复多次测试,通过智能体实时控制无人机的运行方向,对无人机进行定高飞行控制。通过无人机运行控制软件界面,图12-图14演示了不同场景下无人机面对不同类型、不同颜色障碍物的自主避障过程。
以训练好的神经网络模型作为智能体,设定障碍物分别为红色轿车、灰色轿车以及围栏,图12-图14分别用四幅图演示了无人机在这三种场景中的自主避障测试过程,由图可见,无人机经历了没有障碍物时保持定高飞行、靠近障碍物时上升、上升至障碍物顶部后继续直线前进飞行以及飞跃障碍物后下降这四个过程,在整个过程中,无人机并未与障碍物或地面发生碰撞且并未超过定高的最大差值,直到飞行超过设定的最远距离后返回起点,说明通过该方法训练无人机的避障效果好。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于自主学习的无人机智能避障方法,其特征在于,包括以下步骤:
(1)通过三维环境搭建系统搭建无人机处于的虚拟三维可视化仿真环境;三维可视化仿真环境的输入为控制无人机运行动作的决策,输出为下一时刻无人机摄像头拍摄的图像信息;
(2)通过DQN算法在虚拟三维可视化仿真环境中对无人机进行自主避障训练,输出训练好的卷积神经网络;
自主避障训练过程中以无人机摄像头拍摄的图像信息为输入,通过DQN算法中的卷积神经网络模型输出控制无人机运行动作的决策;通过卷积神经网络模型和虚拟三维可视化仿真环境的不断交互,不断更新卷积神经网络模型的权重参数θ,最终输出训练好的卷积神经网络;
步骤(2)中,无人机进行自主避障训练前首先设定任务训练次数为M,无人机循环遍历epoch=0,1,…,M-1次,每一次循环遍历的具体步骤为:
(2-1)在卷积神经网络模型中计算控制无人机运行方向的决策astep:以概率选择一个随机的动作或者卷积神经网络模型输出的最大Q值对应的动作作为决策astep,所述Q值为卷积神经网络模型输出的价值评估值,astep包括四种情况:原地不动、前进、上升和下降;
(2-2)将卷积神经网络模型输出的决策astep输入到三维可视化仿真环境中,三维可视化仿真环境根据astep实时模拟无人机的飞行状态,由加权奖励函数计算得到奖励值rstep和下一次网络的输入状态xstep+1
所述加权奖励函数分为以下三种情况:
(1)当无人机在当前时间步内与障碍物或地面由于距离太近而发生碰撞时,奖励值为-100;
(2)当无人机在当前时间步内的飞行高度相对于定高的垂直距离大于1m或者小于-2.5m时,奖励值设为-10;
(3)当无人机不满足情况(1)和情况(2)且未到达最远距离位置时,奖励值为以下四种奖励类型奖励值的函数,设置无人机在当前时间步内的飞行距离为D,在当前时间步内的飞行高度与设置的定高的垂直距离H,四种奖励类型为:
(3-1)无人机完成当前时间步内的飞行距离D的奖励值,奖励值为D2
(3-2)当无人机在当前时间步内与定高的垂直距离H大于0,奖励值为exp(-H/2);当H小于0,奖励值为exp(2*H);
(3-3)无人机当前的时间步数的奖励值为
Figure FDA0003679850260000021
(3-4)以及无人机在上一时间步的奖励值;
该步骤最终的奖励值为:
Figure FDA0003679850260000022
Figure FDA0003679850260000023
Figure FDA0003679850260000024
(2-3)将样本(xstep,astep,rstep,xstep+1)存入经验池E中;xstep为本次的网络输入状态;
(2-4)在三维可视化仿真环境中判断无人机当前状态xstep+1下是否处于终止状态,如果当前的状态xstep+1使任务终止,命令无人机返回初始位置,epoch加1,开始进行下一个epoch的任务训练;如果当前的状态xstep+1使任务未终止,step加1,重复执行上述步骤(2-1)-步骤(2-3)步直至任务终止;当任务终止时,一个循环遍历epoch结束;
对于epoch=0,1,…,M-1,均单独重复步骤(2-1)-(2-4),直到卷积神经网络收敛,则无人机自主避障训练结束;
所述epoch为无人机从初始状态到终止状态的一个完整过程;step为无人机经卷积神经网络模型输出的控制运行动作的决策的变化次数;
(3)通过训练好的卷积神经网络对无人机进行控制,完成无人机飞行过程中的自主避障任务。
2.根据权利要求1所述的基于自主学习的无人机智能避障方法,其特征在于,步骤(1)中,所述三维环境搭建系统为AirSim系统。
3.根据权利要求1所述的基于自主学习的无人机智能避障方法,其特征在于,步骤(2-1)中,所述卷积神经网络模型包括3个卷积层和2个全连接层;其中输入层为卷积层,卷积层的输入为无人机摄像头拍摄的图像信息;输出层为全连接层,全连接层的输出有4个节点,对应于卷积神经网络模型输出的控制无人机运行方向的4类决策:原地不动,前进,上升,下降。
4.根据权利要求1所述的基于自主学习的无人机智能避障方法,其特征在于,步骤(2-4)中,所述任务终止包括三种情况:无人机与障碍物或地面发生碰撞;无人机的高度与设定高度的差值大于设定值;无人机飞行超过设定的最远距离位置;满足上述任一情况,任务终止。
5.根据权利要求1所述的基于自主学习的无人机智能避障方法,其特征在于,步骤(2-3)中,当经验池E积累到训练前观测的时间步后,每隔4步进行一次网络训练,随机从E中取出K个样本(xj,aj,rj,xj+1),j=1,2,…K;计算每一个样本(xj,aj,rj,xj+1)的目标值
Figure FDA0003679850260000031
对损失函数(yj-Q(xj,aj;θ))2使用梯度下降法进行更新,得到更新的卷积神经网络模型的权重参数θ。
6.根据权利要求5所述的基于自主学习的无人机智能避障方法,其特征在于,K为32。
CN201910765862.6A 2019-08-19 2019-08-19 基于自主学习的无人机智能避障方法 Active CN110471444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910765862.6A CN110471444B (zh) 2019-08-19 2019-08-19 基于自主学习的无人机智能避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910765862.6A CN110471444B (zh) 2019-08-19 2019-08-19 基于自主学习的无人机智能避障方法

Publications (2)

Publication Number Publication Date
CN110471444A CN110471444A (zh) 2019-11-19
CN110471444B true CN110471444B (zh) 2022-07-12

Family

ID=68511141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910765862.6A Active CN110471444B (zh) 2019-08-19 2019-08-19 基于自主学习的无人机智能避障方法

Country Status (1)

Country Link
CN (1) CN110471444B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110985346B (zh) * 2019-12-10 2022-10-28 江西莱利电气有限公司 一种空气压缩机的后冷控制方法
CN111047917B (zh) * 2019-12-18 2021-01-15 四川大学 一种基于改进dqn算法的航班着陆调度方法
CN111026157B (zh) * 2019-12-18 2020-07-28 四川大学 一种基于奖励重塑强化学习的飞行器智能引导方法
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111142522B (zh) * 2019-12-25 2023-06-09 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN110968102B (zh) * 2019-12-27 2022-08-26 东南大学 一种基于深度强化学习的多agent避碰方法
CN111309035B (zh) * 2020-05-14 2022-03-04 浙江远传信息技术股份有限公司 多机器人协同移动与动态避障方法、装置、设备及介质
CN112198870B (zh) * 2020-06-01 2022-09-02 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN112466161B (zh) * 2020-11-27 2021-09-21 北航(四川)西部国际创新港科技有限公司 一种基于多样环境因素的低空飞行器避撞能力评估方法
CN112507622B (zh) * 2020-12-16 2022-06-21 中国人民解放军国防科技大学 一种基于强化学习的反无人机任务分配方法
CN113534678B (zh) * 2021-06-03 2023-05-30 清华大学 一种操作问答任务的仿真到物理系统的迁移方法
CN113382060B (zh) * 2021-06-07 2022-03-22 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及系统
CN113589810B (zh) * 2021-07-26 2024-04-30 南方科技大学 智能体动态自主避障运动方法、装置、服务器及存储介质
CN113741461B (zh) * 2021-09-06 2023-10-03 中国人民解放军国防科技大学 一种面向受限通信的复杂场景下多机器人避障方法
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及系统
CN114859971A (zh) * 2022-05-07 2022-08-05 北京卓翼智能科技有限公司 用于风力涡轮机监测的智能无人机
CN116449874B (zh) * 2023-06-13 2023-08-18 北京瀚科智翔科技发展有限公司 有人驾驶飞机的模块化无人控制改装套件及构建方法
CN117406706B (zh) * 2023-08-11 2024-04-09 汕头大学 结合因果模型和深度强化学习的多智能体避障方法及系统
CN118051063B (zh) * 2024-04-16 2024-06-14 中国民用航空飞行学院 一种低空无人机避障飞行的训练方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168808A (zh) * 2016-08-25 2016-11-30 南京邮电大学 一种基于深度学习的旋翼无人机自动巡航方法及其系统
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法
CN109085766A (zh) * 2018-08-24 2018-12-25 赵小川 一种多模态无人机人机交互操控半实物仿真系统及方法
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109625333A (zh) * 2019-01-03 2019-04-16 西安微电子技术研究所 一种基于深度增强学习的空间非合作目标捕获方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN109933081A (zh) * 2017-12-15 2019-06-25 北京京东尚科信息技术有限公司 无人机避障方法、避障无人机以及无人机避障装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2689650B1 (en) * 2012-07-27 2014-09-10 Honda Research Institute Europe GmbH Trainable autonomous lawn mower

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168808A (zh) * 2016-08-25 2016-11-30 南京邮电大学 一种基于深度学习的旋翼无人机自动巡航方法及其系统
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法
CN109933081A (zh) * 2017-12-15 2019-06-25 北京京东尚科信息技术有限公司 无人机避障方法、避障无人机以及无人机避障装置
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
CN109085766A (zh) * 2018-08-24 2018-12-25 赵小川 一种多模态无人机人机交互操控半实物仿真系统及方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109625333A (zh) * 2019-01-03 2019-04-16 西安微电子技术研究所 一种基于深度增强学习的空间非合作目标捕获方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法

Also Published As

Publication number Publication date
CN110471444A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110471444B (zh) 基于自主学习的无人机智能避障方法
CN111123963B (zh) 基于强化学习的未知环境自主导航系统及方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN111618847B (zh) 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN110000785B (zh) 农业场景无标定机器人运动视觉协同伺服控制方法与设备
CN110488859B (zh) 一种基于改进Q-learning算法的无人机航路规划方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN112034888B (zh) 一种固定翼无人机自主控制协作策略训练方法
CN112937564A (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN113031437B (zh) 一种基于动态模型强化学习的倒水服务机器人控制方法
CN112232490A (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN112114592B (zh) 一种实现无人机自主穿越可移动框形障碍物的方法
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
CN113759901A (zh) 一种基于深度强化学习的移动机器人自主避障方法
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN116385909A (zh) 一种基于深度强化学习的无人机目标跟踪方法
Wang et al. Autonomous obstacle avoidance algorithm of UAVs for automatic terrain following application
CN116817909A (zh) 一种基于深度强化学习的无人机中继式导航方法
CN116205272A (zh) 基于好奇心机制和优先经验回放机制的自适应控制方法
Duc et al. An approach for UAV indoor obstacle avoidance based on AI technique with ensemble of ResNet8 and Res-DQN
CN113220037B (zh) 一种无人机混合路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant