CN114910072A - 基于深度强化学习的无人机导航方法、装置、设备及介质 - Google Patents

基于深度强化学习的无人机导航方法、装置、设备及介质 Download PDF

Info

Publication number
CN114910072A
CN114910072A CN202210422011.3A CN202210422011A CN114910072A CN 114910072 A CN114910072 A CN 114910072A CN 202210422011 A CN202210422011 A CN 202210422011A CN 114910072 A CN114910072 A CN 114910072A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210422011.3A
Other languages
English (en)
Inventor
吴迪
施之羿
黄梦醒
冯子凯
毋媛媛
冯思玲
周家昊
帅文轩
张宏瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN202210422011.3A priority Critical patent/CN114910072A/zh
Publication of CN114910072A publication Critical patent/CN114910072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开基于深度强化学习的无人机导航方法、装置、设备及介质。该方法包括如下步骤:实时获取无人机与环境的交互信息;将所述交互信息输入深度强化学习模型中,输出无人机最优动作,生成动作对应的操作指令;基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息;基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数,采用更新了网络参数的深度强化学习模型,继续获得最优动作。本发明可在高速动态环境下,自主规划路径,沿着无碰撞、高效的路径到达理想的目的地,同时实现空中无人机的无处不在的三维通信覆盖,保证无人机与地面站的通信质量,实现实时的数据传输。

Description

基于深度强化学习的无人机导航方法、装置、设备及介质
技术领域
本发明涉及无人机导航技术领域,尤其涉及基于深度强化学习的无人机导航方法、装置、设备及介质。
背景技术
近年来,无人驾驶飞行器(UAV)已经在许多领域展示出其广阔的应用前景,越来越多地被运用于环境监测和探索例如灾难救援、野生动物保护和远程监视的任务中,特别是在无线通信,智能物流,现代战争等领域,无人机因其广阔的视野,高度的灵活性发挥着不可替代的作用而备受关注。
在对于无人机研究中,其自主路径规划的实现一直是一大难题。因其对于多状态动作对高维诅咒的有效处理,采用基于深度强化学习的方法对于该问题的解决早已不鲜见。然而许多研究聚焦于无人机在已知静态场景中或是室内环境的导航,这样的研究开发的算法在实际环境中的迁移应用表现大多不佳,因为实际环境中不可避免地存在着如飞鸟,其他飞行器等障碍物,所以我们研究的一大目标就是解决动态环境的无人机路径规划。另一大问题在于,由于基础设施和运营成本等原因当前对于如何实现无人机的无处不在的三维(3D)通信覆盖的技术很不成熟,但是这对于数据传输又至关重要,另一方面,未来无人机的应用场景中,复杂多变的干扰总是充斥其间。因而,对于无人机的覆盖感知导航的研究就显得迫在眉睫。
发明内容
为了解决上述技术问题,本发明提出基于深度强化学习的无人机导航方法、装置、设备及介质,确保无人机可在高速动态环境下,自主规划路径,沿着无碰撞、高效的路径到达理想的目的地,同时实现空中无人机的无处不在的三维通信覆盖,保证无人机与地面站的通信质量,实现实时的数据传输。
为了达到上述目的,本发明的技术方案如下:
基于深度强化学习的无人机导航方法,其特征在于,包括如下步骤:
步骤S1,实时获取无人机与环境的交互信息,所述交互信息包括与障碍物的距离、与目的地的方向距离和通信质量信息;
步骤S2,将所述交互信息输入深度强化学习模型中,输出无人机最优动作来引导无人机避免碰撞、获取目标、来到覆盖通信质量良好的区域;
步骤S3,生成最优动作对应的操作指令,并基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息,所述反馈信息包括状态、动作、奖励以及下一个状态的序列;
步骤S4,基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数,采用更新了网络参数的深度强化学习模型,重复步骤S1至S3,直至到达目的地。
优选地,所述深度学习模型包括用于指示无人机在导航任务中避开障碍物的避障网络,用于指示无人机在导航任务中使用最短航路点获取目标的目的地获取网络,以及将所述避障网络和目的地获取网络连接的综合网络,所述综合网络用于从避免网络或目的地获取网络中选择一个动作并保证飞行时的实时通信。
优选地,所述避障网络、目的地获取网络和综合网络均采用长短期记忆网络。
优选地,所述避障网络和目的地获取网络均由结构相同的评估网络与目标网络组成的。
优选地,所述避障网络的奖励ravoid为:
Figure BDA0003606896890000021
其中α,β是常数,dmin为最短距离。
优选地,所述目的地获取网络的奖励racquire获取方式,如下所示:
当从正确的方向接近目标时,无人机离目标越远,奖励越小,接近目标的奖励rapproach如下所示:
Figure BDA0003606896890000022
其中ρ,σ是常数,dtarget为目标距离,
为了激励无人机使用最短航路点获取目标,设置负常数奖励ζ以限制其在原地徘徊:
rstep=ζ (9)
其中rstep为单步惩罚,ζ是负常数,
所述目的地获取网络的奖励racquire为:
racquire=rapproach+rstep (10)。
优选地,所述综合网络的奖励
Figure BDA0003606896890000023
获取方式,如下所示:
Figure BDA0003606896890000024
Figure BDA0003606896890000031
Figure BDA0003606896890000032
其中μ、τ是常数,
Figure BDA0003606896890000033
是通信经验中断概率,st为无人机的状态向量,
Figure BDA0003606896890000034
不同方向的测距仪读数,
Figure BDA0003606896890000035
为无人机基于其周围环境的空旷程度获得的奖励,
Figure BDA0003606896890000036
为无人机基于其测定通信质量的好坏获得的奖励,
Figure BDA0003606896890000037
为综合网络的奖励,鼓励无人机避开障碍物并在空域中导航接近目标同时保证飞行时的通信质量,
Figure BDA0003606896890000038
为无人机与障碍物碰撞受到的惩罚。
一种基于深度强化学习的无人机导航装置,包括获取单元、学习单元、驱动单元和更新单元,其中,
所述获取单元,用于实时获取无人机与环境的交互信息,所述交互信息包括与障碍物的距离、与目的地的方向距离和通信质量信息;
所述学习单元,用于动作将所述交互信息输入深度强化学习模型中,输出无人机最优动作来引导无人机避免碰撞、获取目标、来到覆盖通信质量良好的区域;
所述驱动单元,用于生成最优动作对应的操作指令,并基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息,所述反馈信息包括状态、动作、奖励以及下一个状态的序列;
所述更新单元,用于基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数。
一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任一所述的方法。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述的方法。
基于上述技术方案,本发明的有益效果是:本发明提出了一个分布式的DRL框架,将无人机覆盖感知导航任务分解为两个更简单的子任务,每个子任务都通过设计的基于长短期记忆人工神经网络(LSTM)的DRL网络来解决,只使用部分交互数据。在此基础上,针对无人机覆盖感知导航问题,提出了一种截断DRL损失函数,将两个子解紧密叠加为一个整体,最终选取到符合当前最优策略的动作,完成对于无人机路径的实时规划与对通信质量良好区域的覆盖。大量的仿真结果证实了该方法能够完成高速动态环境下的无人机覆盖感知导航任务,且与现有DRL方法相比在收敛性和有效性方面性能更加优越。
附图说明
图1是一个实施例中基无人机通信覆盖环境示意图;
图2是一个实施例中无人机通信覆盖环境的基站俯视图;
图3是一个实施例中人机高速动态障碍环境示意图;
图4是一个实施例中分层RQN的示意图;
图5是一个实施例中Layered-RQN相较于基准算法的避障与目的地获取性能对比图;
图6是一个实施例中Layered-RQN相较于基准算法的通信覆盖感知性能对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本实施例公开一种基于深度强化学习的无人机导航方法,能够引导无人机从任意初始位置开始飞行,经过充满高速动态障碍物且通信覆盖质量分布不均的仿真环境,到达固定目的地,实现了无人机在构造的仿真环境中的实时路径规划,同时有效覆盖了通信质量较佳的区域,完成无人机的导航任务。具体包括如下步骤:
1.搭建无人机仿真环境
如图1,2所示,基于前人经验搭建无人机无线电通信环境,即由宏基站构成的蜂窝网络对每个位置的通信覆盖(非中断)概率数值地图,图1是基于3D建筑和信道实现通过计算机模拟在数值上获得的,其中颜色越深代表通信质量越差,中断概率越大。从图2中可以看出,覆盖范围由于3D BS天线辐射方向图和建筑物遮挡的共同影响,通信覆盖地图分布相当不规则。观察到,在区域中心附近,存在多个弱覆盖区域,覆盖概率小于30%。显然,有效的覆盖感知无人机导航应该引导无人机尽最大努力避免进入这样的弱覆盖区域。
无人机对于环境通信质量的测量可以通过利用具有频繁RSRP和RSRQ报告的现有软切换机制来实现。我们假设在每个时刻t内,UAV对M个蜂窝连接的宏基站中的每一个执行J次SIR测量。我们将具有蜂窝连接的bt∈{1,…,M}的时刻t的第J个SIR测量表示为
Figure BDA0003606896890000041
其中
Figure BDA0003606896890000042
表示该情况下的小规模衰落。对应的中断指标值,表示为
Figure BDA0003606896890000043
可以基于通信背景知识获得。然后可以得到经验中断概率
Figure BDA0003606896890000044
为:
Figure BDA0003606896890000051
其中J为通信质量测量次数,
Figure BDA0003606896890000052
为通信质量对应的中断指标值,
Figure BDA00036068968900000514
表示无人机的绝对位置,bt∈{1,…,M}表示连接的基站,
Figure BDA0003606896890000053
表示该情况下的小规模衰落。将经验中断概率与单位时间步长相乘便能得到引导无人机覆盖感知导航所需要的奖励值。
而如图3所示,在隐藏的通信环境之上,是显式的无人机高速动态障碍环境,其中最高、中等和最低速度的动态障碍物分别代表实际环境中的不同实体,如鸟类、人类和其他无人机。动态障碍物以规定的速度在空域中随机漂移,无人机导航问题的目标是通过杂乱的障碍物找到从原点到目标的可行路径,该路径应无碰撞且尽可能短。
仿真环境中,无人机传感器对于环境信息的采集我们设置如下,考虑到视觉摄像头和雷达的诸多限制(如照明、费用等),我们使用超声波测距仪通过测量无人机与其周围环境的距离来帮助无人机感知环境。如图4所示,时刻t的观测向量由来自16个不同方向的无人机测距仪读数组成,即
Figure BDA0003606896890000054
其中
Figure BDA0003606896890000055
如果
Figure BDA0003606896890000056
更短,则当前无人机更接近该方向的障碍物。相反,如果大多数
Figure BDA0003606896890000057
较大则更安全。地球固定坐标可用于描述无人机的相对和绝对位置。考虑到无人机在固定高度导航,无人机的绝对位置
Figure BDA00036068968900000515
可以由第一视角与x轴的夹角确定。通过机载GPS设备计算无人机与目标之间的角度,可以轻松获取相对位置
Figure BDA0003606896890000058
我们使用观察向量ot
Figure BDA00036068968900000516
一起形成状态向量
Figure BDA00036068968900000510
Figure BDA00036068968900000511
其中
Figure BDA00036068968900000512
所有st构成MDP中的状态空间。
2.设置奖惩规则与网络的迭代更新策略
在导航任务中,DRL框架基于所收集的传感器数据(即到障碍物的距离、到目的地的方向距离、通信质量)来引导无人机避免碰撞、获取目标、覆盖通信质量良好的区域。无人机导航任务是一个较为复杂的任务,其可以被分为三个更简单的行为:避开障碍物、向目的地前进、选择特定动作。上述的第一个行为防止无人机发生碰撞,第二个行为驱使无人机到达目的地,第三个行为在躲避或向目的地前进两个行为中选择并保证实时通信。对此,解决无人机导航问题,可以转化为解决躲避、向目的地前进、选择三个问题之后再对解决方案进行梳理。每个问题都可以通过DRL网络来解决。
实际上,状态空间是非常高维的,这导致了通常被称为“维度诅咒”的问题。我们使用LSTM估计Qt(st,at),LSTM是一种具有记忆性的循环神经网络:
Figure BDA00036068968900000513
其中θ表示LSTM中的参数。注意,LSTM的输入是包含时间信息的张量。显然,逐步更新DRL的策略可以立即利用最新的经验,帮助无人机更快地学习。因此我们不是构建一个完整episode的历史轨迹hi,而是制定一个随时间变化的实时ht
Figure BDA0003606896890000061
其中ht表示实时历史轨迹,at为无人机执行的动作,
网络的监督数据来自自举估计:
Figure BDA0003606896890000062
其中
Figure BDA0003606896890000063
为目标网络的价值函数,rt+1为获得的奖励,γ为常数,
Figure BDA0003606896890000064
为评估网络的价值函数,a′为下一时刻的动作。
训练目标是获得参数θ,这可以通过最小化
Figure BDA0003606896890000065
Figure BDA0003606896890000066
的差距来实现。然而,显然,由于参数需要更新,这会导致训练过程中出现很大的差异。为了解决这种差异,这项发明中使用了两种训练方法:(A)不是按顺序采样,而是使用经验回放池来随机获取样本;(B)另一个LSTM结构相同,但参数更新滞后于
Figure BDA0003606896890000067
(目标网络),它被表述为为
Figure BDA0003606896890000068
(评估网络)。代价函数J[π(a|h);θ]被表述为:
Figure BDA0003606896890000069
其中π(a|h)为状态概率,θ为超参数,
Figure BDA00036068968900000610
L代表样本总数。J[π(a|h);θ]可以通过实施随机梯度下降(SGD)轻松优化。策略π(a|h)的梯度可以通过下式计算:
Figure BDA00036068968900000611
θ←θ+δΔθ (6)
其中δ是学习率,θ-是θ的延迟副本。θ-在某些训练时期被软更新取代。迭代过程重复几个周期,直到
Figure BDA00036068968900000612
稳定收敛。显然,更复杂的任务(navigation)是由几个更简单的行为(avoid、acquire、choose)演化而来的,也就是说无人机逐层学习导航,其被命名为分层循环Q网络(Layered-RQN)。
本发明使用裁剪的DRL损失函数将三个DRL网络堆叠成一个模型,以引导无人机高效安全地探索环境并保证实时通信。此外,需要构造避障网络和获取网络的奖励。避障网络用于指示无人机在导航任务中避开障碍物。奖励应该是信息丰富的,以防止无人机相撞。无人机越靠近障碍物,奖励越小:
Figure BDA0003606896890000071
其中α,β是常数,而dmin为最短距离,可以通过比较各个方向的测距仪读数来获得。
获取网络的建立是为了指示无人机在导航任务中获取目标。当从正确的方向接近目标时,无人机离目标越远,奖励越小,接近目标的奖励rapproach如下所示:
Figure BDA0003606896890000072
其中ρ,σ是常数,而dtarget为目标距离,可以使用类似GPS的设备计算。为了进一步激励无人机使用最短航路点获取目标,设置负常数奖励ζ以限制其在原地徘徊:
rstep=ζ (9)
其中rstep为单步惩罚,ζ是负常数,
获取网络的奖励racquire是:
racquire=rapproach+rstep (10)
综合网络是制定从避免网络或获取网络中选择一个动作供无人机采取。在障碍物密布的环境中专注于避免碰撞而不是接近目标将降低失败的可能性。因此,无人机希望在障碍物密集时避开障碍物,并在开阔空域中快速接近目标。通过这种方式,我们通过在选择特定动作(获取或避障)后观察其状态来证明无人机的“选择行为”是正确的。如果发生碰撞,选择动作将受到惩罚。同时,为保证通信质量,每次无人机执行选取的动作后,利用具有频繁RSRP和RSRQ报告的现有软切换机制实现对环境通信中断概率的计算,根据大数定律,用经验值代替期望值作为通信中断的惩罚,构造的综合网络的奖惩
Figure BDA0003606896890000073
如下:
Figure BDA0003606896890000074
Figure BDA0003606896890000075
Figure BDA0003606896890000081
其中μ、τ是常数,
Figure BDA0003606896890000082
是通信经验中断概率,st为无人机的状态向量,
Figure BDA0003606896890000083
不同方向的测距仪读数,
Figure BDA0003606896890000084
为无人机基于其周围环境的空旷程度获得的奖励,
Figure BDA0003606896890000085
为无人机基于其测定通信质量的好坏获得的奖励,
Figure BDA0003606896890000086
为综合网络的奖励,鼓励无人机避开障碍物并在空域中导航接近目标同时保证飞行时的通信质量,
Figure BDA0003606896890000087
为无人机与障碍物碰撞受到的惩罚。
3.初始化
初始化。首先随机初始化无人机位置为[0-2000,0-2000]中的某个坐标,初始化终点为[1400,1600],飞行高度为固定高度100m。初始化无人机初始化无人机的各个目标网络和评估网络的参数,样本采样批次的大小,经验回放池的大小,学习率,一个循环内智能体的最大步数以及迭代次数等参数,如表1所示。
表1
参数 数值
避障网络学习率 0.001
目的地获取网络学习率 0.001
综合网络学习率 0.0001
ε 0.3
ε-decay e<sup>-3ε</sup>
γ 0.99
经验回放池的大小 5000
样本采样批次的大小 200
一个循环内智能体的最大步数 100
迭代次数 2000
历史轨迹序列最长长度 40
α 4
β 2
ρ 2
σ 2
ζ 0.5
τ 3
μ 4
4.算法流程
具体的算法流程如下所示:
1.通过初始化目标参数θ与评估目标参数θ-初始化避障、目的地获取的动作-价值LSTM函数近似Q值。
2.通过初始化目标参数ψ与评估目标参数ψ-初始化综合动作-价值全连接函数近似Q值。
3.初始化经验回放池R。
4.For 1to M,进行迭代
5.接收到初始观测s0,h0=s0
6.初始化空历史h0
7.Fort=1toT,进行迭代
8.以概率ε选择随机动作at
9.否则依照贪心策略根据评估网络获取避障或向目的地前进的动作。
10.采用下式获取选择的动作
Figure BDA0003606896890000091
其中
Figure BDA0003606896890000092
为无人机选择的动作,
Figure BDA0003606896890000093
为综合网络的价值函数,
11.最后通过下式执行动作
Figure BDA0003606896890000094
其中
Figure BDA0003606896890000095
为无人机选择的避障动作,
Figure BDA0003606896890000096
无人机选择的向目的地进发的动作,
12.通过机载传感器测量信号,并获取经验通信中断概率
Figure BDA0003606896890000097
则通信评估奖励
Figure BDA0003606896890000098
13.更新历史轨迹并将历史轨迹ht存储入R。
14.从R中随机选择minibatch即L个历史轨迹。
15.如果si+1不是终止状态,用式(3)设置yi
16.否则设置yi=ri
17.用式(4)-(6)更新避障,目的地获取网络
18.利用下式通过Adam优化器更新综合评估网络
Figure BDA0003606896890000101
19.软更新所有目标网络
20.end for
21.end for
实验结果分析
本发明采用上文所描述的参数搭建的环境对算法的性能进行测试,并与当下流行的DRQN、Double DQN和Prioritized DQN方法进行了比较。结果如图5、6所示,可以看到我们所提出的Layered-RQN成功到达终点,且覆盖了最多的通信质量良好的区域,在所有测试环境中都优于DRQN、Double DQN和Prioritized DQN。因此,该算法具有最佳的综合性能。
以上所述仅为本发明所公开的基于深度强化学习的无人机导航方法的优选实施方式,并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。

Claims (10)

1.基于深度强化学习的无人机导航方法,其特征在于,包括如下步骤:
步骤S1,实时获取无人机与环境的交互信息,所述交互信息包括与障碍物的距离、与目的地的方向距离和通信质量信息;
步骤S2,将所述交互信息输入深度强化学习模型中,输出无人机最优动作来引导无人机避免碰撞、获取目标、来到覆盖通信质量良好的区域;
步骤S3,生成最优动作对应的操作指令,并基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息,所述反馈信息包括状态、动作、奖励以及下一个状态的序列;
步骤S4,基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数,采用更新了网络参数的深度强化学习模型,重复步骤S1至S3,直至到达目的地。
2.根据权利要求1所述的基于深度强化学习的无人机导航方法,其特征在于,所述深度学习模型包括用于指示无人机在导航任务中避开障碍物的避障网络,用于指示无人机在导航任务中使用最短航路点获取目标的目的地获取网络,以及将所述避障网络和目的地获取网络连接的综合网络,所述综合网络用于从避免网络或目的地获取网络中选择一个动作并保证飞行时的实时通信。
3.根据权利要求2所述的基于深度强化学习的无人机导航方法,其特征在于,所述避障网络、目的地获取网络和综合网络均采用长短期记忆网络。
4.根据权利要求3所述的基于深度强化学习的无人机导航方法,其特征在于,所述避障网络和目的地获取网络均由结构相同的评估网络与目标网络组成的。
5.根据权利要求2所述的基于深度强化学习的无人机导航方法,其特征在于,所述避障网络的奖励ravoid为:
Figure FDA0003606896880000011
其中α,β是常数,dmin为最短距离。
6.根据权利要求2所述的基于深度强化学习的无人机导航方法,其特征在于,所述目的地获取网络的奖励racquire获取方式,如下所示:
当从正确的方向接近目标时,无人机离目标越远,奖励越小,接近目标的奖励rapproach如下所示:
Figure FDA0003606896880000012
其中ρ,σ是常数,dtarget为目标距离,
为了激励无人机使用最短航路点获取目标,设置负常数奖励ζ以限制其在原地徘徊:
rstep=ζ (9)
其中rstep为单步惩罚,ζ是负常数,
所述目的地获取网络的奖励racquire为:
racquire=rapproach+rstep (10)。
7.根据权利要求2所述的基于深度强化学习的无人机导航方法,其特征在于,所述综合网络的奖励
Figure FDA0003606896880000021
获取方式,如下所示:
Figure FDA0003606896880000022
Figure FDA0003606896880000023
Figure FDA0003606896880000024
其中μ、τ是常数,
Figure FDA0003606896880000025
是通信经验中断概率,st为无人机的状态向量,
Figure FDA0003606896880000026
不同方向的测距仪读数,
Figure FDA0003606896880000027
为无人机基于其周围环境的空旷程度获得的奖励,
Figure FDA0003606896880000028
为无人机基于其测定通信质量的好坏获得的奖励,
Figure FDA0003606896880000029
为综合网络的奖励,鼓励无人机避开障碍物并在空域中导航接近目标同时保证飞行时的通信质量,
Figure FDA00036068968800000210
为无人机与障碍物碰撞受到的惩罚。
8.一种基于深度强化学习的无人机导航装置,其特征在于,包括获取单元、学习单元、驱动单元和更新单元,其中,
所述获取单元,用于实时获取无人机与环境的交互信息,所述交互信息包括与障碍物的距离、与目的地的方向距离和通信质量信息;
所述学习单元,用于动作将所述交互信息输入深度强化学习模型中,输出无人机最优动作来引导无人机避免碰撞、获取目标、来到覆盖通信质量良好的区域;
所述驱动单元,用于生成最优动作对应的操作指令,并基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息,所述反馈信息包括状态、动作、奖励以及下一个状态的序列;
所述更新单元,用于基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数。
9.一种计算机设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202210422011.3A 2022-04-21 2022-04-21 基于深度强化学习的无人机导航方法、装置、设备及介质 Pending CN114910072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210422011.3A CN114910072A (zh) 2022-04-21 2022-04-21 基于深度强化学习的无人机导航方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210422011.3A CN114910072A (zh) 2022-04-21 2022-04-21 基于深度强化学习的无人机导航方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114910072A true CN114910072A (zh) 2022-08-16

Family

ID=82764458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210422011.3A Pending CN114910072A (zh) 2022-04-21 2022-04-21 基于深度强化学习的无人机导航方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114910072A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115494879A (zh) * 2022-10-31 2022-12-20 中山大学 基于强化学习sac的旋翼无人机避障方法、装置及设备
CN115933634A (zh) * 2022-10-12 2023-04-07 海南大学 未知环境探索方法、系统、移动机器人及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO XIE等: "Connectivity-Aware 3D UAV Path Design With Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》, vol. 70, no. 12, pages 13022 - 13034, XP011894168, DOI: 10.1109/TVT.2021.3121747 *
TONG GUO等: "UAV navigation in high dynamic environments: A deep reinforcement learning approach", 《CHINESE JOURNAL OF AERONAUTICS》, vol. 34, no. 2, pages 479 - 489 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115933634A (zh) * 2022-10-12 2023-04-07 海南大学 未知环境探索方法、系统、移动机器人及存储介质
CN115494879A (zh) * 2022-10-31 2022-12-20 中山大学 基于强化学习sac的旋翼无人机避障方法、装置及设备
CN115494879B (zh) * 2022-10-31 2023-09-15 中山大学 基于强化学习sac的旋翼无人机避障方法、装置及设备

Similar Documents

Publication Publication Date Title
CN110673637B (zh) 一种基于深度强化学习的无人机伪路径规划的方法
Liu et al. Path planning techniques for mobile robots: Review and prospect
Khan et al. Cooperative robots to observe moving targets
Robin et al. Multi-robot target detection and tracking: taxonomy and survey
CN107450593B (zh) 一种无人机自主导航方法和系统
Rezwan et al. Artificial intelligence approaches for UAV navigation: Recent advances and future challenges
CN114910072A (zh) 基于深度强化学习的无人机导航方法、装置、设备及介质
Levine et al. Information-rich path planning with general constraints using rapidly-exploring random trees
Visser et al. Including communication success in the estimation of information gain for multi-robot exploration
CN112033410A (zh) 移动机器人环境地图构建方法、系统及存储介质
US20210325891A1 (en) Graph construction and execution ml techniques
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
Levine et al. Information-theoretic motion planning for constrained sensor networks
CN114679729B (zh) 一种雷达通信一体化的无人机协同多目标探测方法
Sung Multi-robot coordination for hazardous environmental monitoring
Ji et al. Fair-energy trajectory planning for cooperative UAVs to locate multiple targets
Falomir et al. A 3D mobility model for autonomous swarms of collaborative UAVs
Ching et al. Ultra-wideband localization and deep-learning-based plant monitoring using micro air vehicles
CN113554680A (zh) 目标跟踪方法、装置、无人机和存储介质
Gul et al. Efficient environment exploration for multi agents: A novel framework
Chronis et al. Dynamic Navigation in Unconstrained Environments Using Reinforcement Learning Algorithms
Rhazzaf et al. Smart Autonomous Vehicles in High Dimensional Warehouses Using Deep Reinforcement Learning Approach.
CN115097861A (zh) 一种基于cel-maddpg的多无人机围捕策略方法
Khan et al. Aerial camera network for observing moving targets
Zema et al. Formation control of a mono-operated uav fleet through ad-hoc communications: a q-learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination