CN110134140B - 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 - Google Patents
一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 Download PDFInfo
- Publication number
- CN110134140B CN110134140B CN201910437021.2A CN201910437021A CN110134140B CN 110134140 B CN110134140 B CN 110134140B CN 201910437021 A CN201910437021 A CN 201910437021A CN 110134140 B CN110134140 B CN 110134140B
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- potential function
- reward
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007613 environmental effect Effects 0.000 title claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000004888 barrier function Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 61
- 238000009499 grossing Methods 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公布了一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,所述方法首先建立无人机在环境中的状态空间,该状态空间为连续状态空间,包含无人机的无穷多个状态;其次将360度n等分成若干个角度作为无人机的航向角,建立无人机的动作空间;接着计算目标对无人机的势函数奖赏和障碍物对无人机的势函数奖赏,并对两者进行叠加作为无人机总的势函数奖赏;然后利用无人机总的势函数奖赏对Q估计网络进行路径规划训练;最后利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划。该方法主要解决了无人机在无环境模型下的路径规划问题,满足了无人机在执行任务中对于所处环境状态连续的要求,势函数奖赏加快了无人机路径规划的速度,具有很好的适用性。
Description
技术领域
本发明属于无人机路径规划技术领域,特别是一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法。
技术背景
无人机路径规划是无人机领域长久不衰的热点问题,是指无人机在一定的约束条件下,从起始点到目标点规划出一条最优或次优的无碰撞路径。随着无人机面临的实际环境日益复杂,规划出一条实用有效的飞行路径则是无人机顺利完成各项任务的前提。所谓环境信息未知的路径规划是指无人机在规划路径之前无法预知环境的信息,环境信息的来源需要靠机载的感知系统获取。由于无人机只能得到感知系统侦测范围内的环境信息,可以尽可能地规划出最优、次优路径或满足约束条件的路径。常用的路径规划方法有人工势场法、D*算法、导航向量场等,这些方法虽然能够动态地规划出无人机的飞行路径,是一种局部路径规划方法,由于需要对具体环境建立模型,缺乏通用性。
近年来随着人工智能技术的飞速发展,深度学习和机器学习在无人机领域展现出巨大潜力。强化学习、DQN(Deep Q-Learning Network)等方法无需对无人机所处的环境进行物理建模,只需通过无人机对所处环境不断地进行离线训练,就可以找出最优、次优或满足限定条件的路径。但目前这些方法中都假设无人机所处的环境为离散的栅格地图,由于这种栅格地图所能容纳的状态有限,要求环境为已知,且网络收敛速度减慢,不能很好地满足当今无人机执行任务过程中所处的环境未知且状态连续的情况。
发明内容
本发明的目的在于提供一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,该方法能够使无人机在环境信息未知连续状态下进行无环境模型路径规划,并且势函数奖赏加快了无人机路径规划的速度,具有很好的适用性。
为实现上述目的,本发明采用以下技术方案:
一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,包括:
步骤一,建立无人机在环境中的状态空间S,该状态空间为连续状态空间,包含无人机的无穷个状态。
步骤三,计算目标对无人机的势函数奖赏Φa(sk)和障碍物对无人机的势函数奖赏Φo(sk),并对两者进行叠加作为无人机总的势函数奖赏Φ(sk)。
步骤四,利用无人机总的势函数奖赏Φ(sk)对Q估计网络进行路径规划训练。
步骤五,利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划。
进一步的优选方案,所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤一中建立无人机在环境中的状态空间S,具体为:
S=(da,φa,do,φo) (7)
式中,da为无人机到目标的距离,φa为无人机到目标的连线与x轴正半轴的夹角,do为无人机到最近障碍物的距离,φo为无人机到最近障碍物的连线与x轴正半轴的夹角。
进一步的优选方案,所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤三中计算目标对无人机的势函数奖赏Φa(sk)和障碍物对无人机的势函数奖赏Φo(sk),并对两者进行叠加作为无人机总的势函数奖赏Φ(sk),具体为:
(3.1)目标对无人机的势函数奖赏Φa(sk),具体如下式所示:
(3.2)障碍物对无人机的势函数奖赏Φo(sk),具体如下式所示:
(3.3)无人机总的势函数奖赏Φ(sk),具体如下式所示:
Φ(sk)=Φa(sk)+Φo(sk) (10)
式中,Φa(sk)为目标对无人机的势函数奖赏,Φo(sk)为障碍物对无人机的势函数奖赏。
进一步的优选方案,所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤四中利用无人机总的势函数奖赏Φ(sk)对Q估计网络进行路径规划训练,具体步骤为:
(4.1)初始化经验池D,设置经验池容量及经验最小块Dmin大小。
(4.2)建立Q估计网络,设置Q估计网络隐含层个数、每个隐含层含有的神经元个数、输出层神经元的个数,选择激活函数;随机初始化Q估计网络权重θ,设置神经网络学习率、累积回报折扣因子γ、无人机飞行步长η、路径平滑系数、ε-greedy策略选择概率ε。
(4.3)建立Q目标网络,令初始化目标网络权重θ-=θ。
(4.4)对每一个情节,初始化无人机状态序列s1=(da 1,φa 1,do 1,φo 1)。
(4.5)对该情节中的每一步,在概率ε内选择一个随机动作ak,否则选择动作令k时刻无人机处于状态sk时执行动作ak所获得的回报rk为无人机总的势函数奖赏,即rk=Φ(sk);计算无人机在k+1时刻的状态sk+1=(da k+1,φa k+1,do k+1,φo k+1)。
(4.6)将每一步的样本(sk,ak,rk,sk+1)存储在经验池D中,并从中随机抽取最小经验块Dmin。
(4.7)计算k时刻所对应的目标值yk,具体为:
对(yk-Q(sk,ak;θ))2执行梯度下降法更新Q估计网络权值θ,每隔C步设置目标网络权值θ-=θ。
(4.8)若所有情节未训练结束完,则跳转到步骤(4.4);若所有情节全部训练完成,则网络训练结束。
进一步的优选方案,所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤五中利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划,具体步骤为:
(5.1)初始化无人机飞行步长η、路径平滑系数λ。
(5.2)无人机获取当前i时刻目标的位置(xa i,ya i),障碍物的位置(xo i,yo i)和大小,得到无人机当前i时刻的状态si=(da i,φa i,do i,φo i)。
(5.3)将无人机当前i时刻的状态si=(da i,φa i,do i,φo i)输入到训练后的Q估计网络,获取无人机的最优动作值a*∈{0,1,...,n-1},则无人机在i+1时刻的位置(xu i+1,yu i+1)由下式得到,具体为:
(5.4)若无人机未到达目标的位置(xa i,ya i),则跳转到步骤(5.2);若到达目标位置,则路径规划结束。
本发明具有以下优点:
1.本发明建立的状态空间能够表达出无人机在环境中的任意状态,而且该状态空间是连续的,克服了传统DQN路径规划方法中存在的无人机所处环境为离散的栅格地图,容纳的状态有限,且要求环境为已知的问题,满足了无人机在执行任务中对于所处环境未知且状态连续的要求。
2.本发明提出的基于势函数奖赏DQN的无人机路径规划,在DQN训练过程中,目标和障碍物的势函数奖赏根据无人机与目标和障碍物的距离动态调整奖赏值使得无人机趋向目标位置及避开障碍物,势函数奖赏加快了无人机路径规划的速度和收敛效果,实现了无人机在无环境模型下的路径规划,具有较好的适用性。
附图表说明
图1为本发明方法的流程图。
图2为无人机状态空间示意图。
图3为无人机动作空间示意图。
图4为DQN训练过程中无人机探索路径的情况。
图5为基于势函数奖赏DQN的路径规划效果。
图6为简单奖赏和势函数奖赏下DQN平均回报。
图7为简单奖赏和势函数奖赏下DQN训练误差曲线。
具体实施方式
结合所附图表,对本发明的技术方案作具体说明。
如图1所示,本发明的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,具体包括以下步骤:
步骤1建立无人机在环境中的状态空间S,具体过程为:
对无人机所处环境建立笛卡尔坐标系,设无人机在环境中的位置为(xu,yu),目标的位置为(xa,ya),离无人机最近的障碍物的位置为(xo,yo),如图2所示。由图中可以很容易地计算出无人机到目标的距离da、无人机到最近障碍物的距离do、无人机到目标的连线与x轴正半轴的夹角φa、无人机到最近障碍物的连线与x轴正半轴的夹角φo。选取S=(da,φa,do,φo)作为无人机在环境中的状态空间,该状态空间不仅可以表达出无人机在环境中的任意状态,而且为连续的状态空间。
步骤3计算目标对无人机的势函数奖赏Φa(sk)和障碍物对无人机的势函数奖赏Φo(sk),并对两者进行叠加作为无人机总的势函数奖赏Φ(sk),具体为:
(3.1)目标对无人机的势函数奖赏Φa(sk),具体如下式所示:
(3.2)障碍物对无人机的势函数奖赏Φo(sk),具体如下式所示:
(3.3)无人机总的势函数奖赏Φ(sk),具体如下式所示:
Φ(sk)=Φa(sk)+Φo(sk) (15)
式中,Φa(sk)为目标对无人机的势函数奖赏,Φo(sk)为障碍物对无人机的势函数奖赏。
步骤4利用无人机总的势函数奖赏Φ(sk)对Q估计网络进行路径规划训练,具体步骤为:
(4.1)初始化经验池D,设置经验池容量大小为20000、经验最小块Dmin大小为500。
(4.2)建立Q估计网络,包含3个隐含层,每个隐含层含有100个神经元,输出层神经元个数为100个,采用ReLu激活函数;随机初始化网络权重θ,设置神经网络学习率为0.01、累积回报折扣因子γ为0.9、无人机飞行步长η为1、路径平滑系数为0.75、ε-greedy策略选择概率ε为0.1。
(4.3)建立Q目标网络,令初始化网络权重θ-=θ。
(4.4)对每一个情节,初始化无人机状态序列s1=(da 1,φa 1,do 1,φo 1)。
(4.5)对该情节中的每一步,在概率ε内选择一个随机动作ak,否则选择动作令k时刻无人机处于状态sk时执行动作ak所获得的回报rk为无人机总的势函数奖赏,即rk=Φ(sk);计算无人机k+1时刻的状态sk+1=(da k+1,φa k+1,do k+1,φo k+1)。
(4.6)将每一步的样本(sk,ak,rk,sk+1)存储在经验池D中,并从中随机抽取500个样本作为最小经验块Dmin。
(4.7)计算k时刻所对应的目标值yk,具体为:
对(yk-Q(sk,ak;θ))2执行梯度下降法更新Q估计网络权值θ,每隔C为300步设置目标网络权值θ-=θ。
(4.8)若所有情节未训练结束完,则跳转到步骤(4.4);若所有情节全部训练完成,则网络训练结束。
步骤5利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划,具体步骤为:
(5.1)初始化无人机飞行步长η为1、路径平滑系数λ为0.6,当前时刻i为1。
(5.2)无人机获取当前i时刻目标的位置(xa i,ya i),障碍物的位置(xo i,yo i)和大小,得到无人机状态si=(da i,φa i,do i,φo i)。
(5.3)将无人机当前i时刻的状态si=(da i,φa i,do i,φo i)输入到训练后的Q估计网络,获取无人机的最优动作值a*∈{0,1,...,n-1},则无人机在i+1时刻的位置(xu i+1,yu i+1)由下式得到,具体为:
(5.4)若无人机未到达目标的位置(xa i,ya i),则i+1,跳转到步骤(5.2);若到达目标的位置,则路径规划结束。
为了验证方法的可行性和有效性,下面结合实例对本发明做进一步详细的描述。
在Ubuntu操作系统上,使用python语言在pycharm上搭建仿真环境,DQN框架采用基于数据流编程的网络框架TensorFlow进行仿真实验。仿真环境采用一个1000m×1000m的连续区域,在该区域无人机的起始位置和目标位置随机产生,其中随机产生10个障碍物,无人机感知系统对障碍物的感知距离设为100m。
在进行DQN训练过程中,当每个情节训练结束后随机更换障碍物和目标的位置,无人机起始位置每个情节都随机生成,通过大量的训练,以使DQN拟合出几乎所有状态下的动作优劣。
图4展示的是DQN训练过程中无人机探索路径的四种情况,图中实心圆点表示无人机的起始位置,六角星表示目标位置,圆圈表示无人机对障碍物的探测范围,即无人机一旦进入圆圈内就可感知到障碍物的位置。情节1、情节2、情节1000和情节2071中障碍物位置相同,但无人机的起点位置不同,目标的位置只有情节1和情节2相同。在图4情节1中,由于对DQN网络训练刚开始,按照ε-greedy策略,无人机以ε=0.1的概率进行探索,随机选择动作,所选择的动作值最大的动作不是最优的,所以无人机的路径看起来相当漫长且复杂,但经过不停地“摸索”,最终还是找到了目标的位置。在图4情节2中,障碍物和目标位置不变,无人机的起始位置随机产生,由于情节1无人机在遍历很多状态空间后并最终找到目标,Q估计网络已经存储很多正样本,所以情节2中无人机能够较快地找到目标并在一定程度上避开障碍物。图4情节1000情况为更换目标位置后DQN网络训练的初期,和图4情节1相似也需要遍历大量状态才能找到目标。图4情节2071为对当前目标位置进行大量训练后的情况,由图中可明显看出,无人机能很快地避开障碍物并找到目标,但由于在这个过程中无人机仍有ε=0.1的概率对环境进行探索,所以路径还会存在一定概率的“曲折”。
对DQN网络经过大量训练后,我们随机生成10个障碍物,此后障碍物位置固定不动,测试在目标和无人机起始位置随机产生的情况下路径规划效果。图5为基于势函数奖赏DQN的路径规划效果,由图中可以明显看出,DQN通过一定的训练后,能够有效避开障碍到达目标位置。
图6(a)和图6(b)分别为简单奖赏和势函数奖赏规则下,DQN训练过程中前200个情节平均回报曲线。这里简单奖赏规则定义为:当无人机执行下一动作产生的结果是接近目标时,目标对无人机的奖赏给出固定的正奖励值,反之,给出固定的负奖励值。这里固定奖励值设置为无人机的飞行步长η;同理,障碍物对无人机的奖赏也按此规则定义。由图6(a)简单奖赏规则下DQN平均回报曲线可以看出,无人机获得的回报整体趋势波动较大,且平均回报收敛较慢;由图6(b)势函数奖赏规则下DQN平均回报曲线可以看出,无人机能够更快地获得平均回报,且收敛速度明显变快。
图7(a)和7(b)分别为简单奖赏下DQN与势函数奖赏下DQN在7000步训练过程中动作估计值和目标值的误差曲线。由图中可以看出,由于无人机在路径探索过程中,存在ε=0.1的概率随机选择动作,所以误差曲线会出现尖峰的现象,但总体上呈现下降的趋势,直到估计值达到目标值。但图7(a)简单奖赏下DQN网络在训练5000步后才达到收敛状态,而图7(b)势函数奖赏下DQN在训练到3500步时已接近收敛,所以势函数奖赏下DQN比简单奖赏下DQN在路径规划训练过程中网络收敛速度更快。
Claims (4)
1.一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,包括以下步骤:
步骤一,建立无人机在环境中的状态空间S,该状态空间为连续状态空间,包含无人机的无穷个状态;
步骤三,计算目标对无人机的势函数奖赏Φa(sk)和障碍物对无人机的势函数奖赏Φo(sk),并对两者进行叠加作为无人机总的势函数奖赏Φ(sk),具体为:
(3.1)目标对无人机的势函数奖赏Φa(sk),具体如下式所示:
(3.2)障碍物对无人机的势函数奖赏Φo(sk),具体如下式所示:
(3.3)无人机总的势函数奖赏Φ(sk),具体如下式所示:
Φ(sk)=Φa(sk)+Φo(sk) (4)
式中,Φa(sk)为目标对无人机的势函数奖赏,Φo(sk)为障碍物对无人机的势函数奖赏;
步骤四,利用无人机总的势函数奖赏Φ(sk)对Q估计网络进行路径规划训练;
步骤五,利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划。
2.如权利要求1所述的一种环境信息未知连续状态下基于势函数奖赏DQN 的无人机路径规划方法,其特征在于,所述步骤一中建立无人机在环境中的状态空间S,具体为:
S=(da,φa,do,φo) (1)
式中,da为无人机到目标的距离,φa为无人机到目标的连线与x轴正半轴的夹角,do为无人机到最近障碍物的距离,φo为无人机到最近障碍物的连线与x轴正半轴的夹角。
3.如权利要求1所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤四中利用无人机总的势函数奖赏Φ(sk)对Q目标网络进行路径规划训练,具体步骤为:
(4.1)初始化经验池D,设置经验池容量及经验最小块Dmin大小;
(4.2)建立Q估计网络,设置Q估计网络隐含层个数、每个隐含层含有的神经元个数、输出层神经元的个数,选择激活函数;随机初始化Q估计网络权重θ,设置神经网络学习率、累积回报折扣因子γ、无人机飞行步长η、路径平滑系数、ε-greedy策略选择概率ε;
(4.3)建立Q目标网络,令初始化目标网络权重θ-=θ;
(4.4)对每一个情节,初始化无人机状态序列s1=(dt 1,φt 1,do 1,φo 1);
(4.5)对该情节中的每一步,在概率ε内选择一个随机动作ak,否则选择动作令k时刻无人机处于状态sk时执行动作ak所获得的回报rk为无人机总的势函数奖赏,即rk=Φ(sk);计算无人机在k+1时刻的状态sk+1=(dt k+1,φt k+1,do k+1,φo k+1);
(4.6)将每一步的样本(sk,ak,rk,sk+1)存储在经验池D中,并从中随机抽取最小经验块Dmin;
(4.7)计算k时刻所对应的目标值yk,具体为:
对(yk-Q(sk,ak;θ))2执行梯度下降法更新Q估计网络权值θ,每隔C步设置目标网络权值θ-=θ;
(4.8)若所有情节未训练结束完,则跳转到步骤(4.4);若所有情节全部训练完成,则网络训练结束。
4.如权利要求1所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤五中利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划,具体步骤为:
(5.1)初始化无人机飞行步长η、路径平滑系数λ;
(5.2)无人机获取当前i时刻目标的位置(xa i,ya i)、障碍物的位置(xo i,yo i)和大小,得到无人机当前i时刻的状态si=(da i,φa i,do i,φo i);
(5.3)将无人机当前i时刻的状态si=(da i,φa i,do i,φo i)输入到训练后的Q估计网络,获取无人机当前时刻的最优动作值a*∈{0,1,...,n-1},则无人机在i+1时刻的位置(xu i+1,yu i+1)由下式得到,具体为:
(5.4)若无人机未到达目标的位置(xa i,ya i),则i+1,跳转到步骤(5.2);若到达目标的位置,则路径规划结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437021.2A CN110134140B (zh) | 2019-05-23 | 2019-05-23 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437021.2A CN110134140B (zh) | 2019-05-23 | 2019-05-23 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134140A CN110134140A (zh) | 2019-08-16 |
CN110134140B true CN110134140B (zh) | 2022-01-11 |
Family
ID=67572828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910437021.2A Active CN110134140B (zh) | 2019-05-23 | 2019-05-23 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134140B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110488872B (zh) * | 2019-09-04 | 2023-03-07 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的无人机实时路径规划方法 |
CN110531786B (zh) * | 2019-09-10 | 2022-07-22 | 西北工业大学 | 基于dqn的无人机机动策略自主生成方法 |
CN110673488A (zh) * | 2019-10-21 | 2020-01-10 | 南京航空航天大学 | 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 |
CN110703766B (zh) * | 2019-11-07 | 2022-01-11 | 南京航空航天大学 | 一种基于迁移学习策略深度q网络的无人机路径规划方法 |
CN110883776B (zh) * | 2019-11-29 | 2021-04-23 | 河南大学 | 一种快速搜索机制下改进dqn的机器人路径规划算法 |
CN111123963B (zh) * | 2019-12-19 | 2021-06-08 | 南京航空航天大学 | 基于强化学习的未知环境自主导航系统及方法 |
CN111352419B (zh) * | 2020-02-25 | 2021-06-04 | 山东大学 | 基于时序差分更新经验回放缓存的路径规划方法及系统 |
CN113034744A (zh) * | 2021-03-05 | 2021-06-25 | 五邑大学 | 无人机安全运输方法、系统及存储介质 |
CN113342029B (zh) * | 2021-04-16 | 2022-06-21 | 山东师范大学 | 基于无人机群的最大传感器数据采集路径规划方法及系统 |
CN113359820A (zh) * | 2021-05-28 | 2021-09-07 | 中国地质大学(武汉) | 一种基于dqn的无人机路径规划方法 |
CN114161416B (zh) * | 2021-12-06 | 2023-04-28 | 贵州大学 | 基于势函数的机器人路径规划方法 |
CN114924587B (zh) * | 2022-05-27 | 2024-03-19 | 江苏科技大学 | 一种无人机路径规划方法 |
CN116501079B (zh) * | 2023-03-09 | 2023-12-01 | 浙江大学 | 一种基于强化学习的无人机高空球载投放控制方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106595671A (zh) * | 2017-02-22 | 2017-04-26 | 南方科技大学 | 一种基于强化学习的无人机路径规划方法和装置 |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
CN109059931A (zh) * | 2018-09-05 | 2018-12-21 | 北京航空航天大学 | 一种基于多智能体强化学习的路径规划方法 |
CN109443366A (zh) * | 2018-12-20 | 2019-03-08 | 北京航空航天大学 | 一种基于改进q学习算法的无人机群路径规划方法 |
CN109597425A (zh) * | 2018-10-18 | 2019-04-09 | 中国航空无线电电子研究所 | 基于强化学习的无人机导航和避障方法 |
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
CN109784201A (zh) * | 2018-12-24 | 2019-05-21 | 中国海洋大学 | 基于四维风险评估的auv动态避障方法 |
-
2019
- 2019-05-23 CN CN201910437021.2A patent/CN110134140B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106595671A (zh) * | 2017-02-22 | 2017-04-26 | 南方科技大学 | 一种基于强化学习的无人机路径规划方法和装置 |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
CN109059931A (zh) * | 2018-09-05 | 2018-12-21 | 北京航空航天大学 | 一种基于多智能体强化学习的路径规划方法 |
CN109597425A (zh) * | 2018-10-18 | 2019-04-09 | 中国航空无线电电子研究所 | 基于强化学习的无人机导航和避障方法 |
CN109443366A (zh) * | 2018-12-20 | 2019-03-08 | 北京航空航天大学 | 一种基于改进q学习算法的无人机群路径规划方法 |
CN109784201A (zh) * | 2018-12-24 | 2019-05-21 | 中国海洋大学 | 基于四维风险评估的auv动态避障方法 |
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
Non-Patent Citations (3)
Title |
---|
Learning-Based Energy-Efficient Data Collection by Unmanned Vehicles in Smart Cities;Bo Zhang等;《IEEE Transactions on Industrial Informatics 》;IEEE;20171214;第14卷(第4期);第1666-1676页 * |
基于激励学习和人工势场法的机器人路径规划;易良;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社;20080115(第01期);第9、21-24页 * |
基于遗传算法和深度强化学习的多无人机协同区域监视的航路规划;李艳庆;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;中国学术期刊(光盘版)电子杂志社;20190215(第02期);第1-69页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110134140A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134140B (zh) | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 | |
Jiang et al. | Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge | |
Tai et al. | Virtual-to-real deep reinforcement learning: Continuous control of mobile robots for mapless navigation | |
CN109655066B (zh) | 一种基于Q(λ)算法的无人机路径规划方法 | |
CN109144102B (zh) | 一种基于改进蝙蝠算法的无人机航路规划方法 | |
Mac et al. | Heuristic approaches in robot path planning: A survey | |
CN111240356B (zh) | 一种基于深度强化学习的无人机集群会合方法 | |
CN110926477A (zh) | 一种无人机航路规划及避障方法 | |
CN108919818B (zh) | 基于混沌种群变异pio的航天器姿态轨道协同规划方法 | |
CN110174118A (zh) | 基于强化学习的机器人多目标搜索路径规划方法和装置 | |
CN109597425A (zh) | 基于强化学习的无人机导航和避障方法 | |
CN113268074B (zh) | 一种基于联合优化的无人机航迹规划方法 | |
Yue et al. | Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs | |
CN111381600A (zh) | 一种基于粒子群算法的uuv路径规划方法 | |
CN115562357B (zh) | 一种面向无人机集群的智能路径规划方法 | |
Fang et al. | Autonomous underwater vehicle formation control and obstacle avoidance using multi-agent generative adversarial imitation learning | |
Katyal et al. | High-speed robot navigation using predicted occupancy maps | |
Li et al. | A behavior-based mobile robot navigation method with deep reinforcement learning | |
Xue et al. | Multi-agent deep reinforcement learning for UAVs navigation in unknown complex environment | |
CN113805609A (zh) | 一种混沌迷失鸽群优化机制的无人机群目标搜索方法 | |
CN114721427A (zh) | 一种动态环境下的多无人机协同搜救侦察规划方法 | |
Behjat et al. | Learning robot swarm tactics over complex adversarial environments | |
Parhi et al. | Humanoid robot path planning using memory-based gravity search algorithm and enhanced differential evolution approach in a complex environment | |
CN117387635B (zh) | 一种基于深度强化学习和pid控制器的无人机导航方法 | |
Li et al. | Research on the agricultural machinery path tracking method based on deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |