CN110703766A - 一种基于迁移学习策略深度q网络的无人机路径规划方法 - Google Patents

一种基于迁移学习策略深度q网络的无人机路径规划方法 Download PDF

Info

Publication number
CN110703766A
CN110703766A CN201911084670.5A CN201911084670A CN110703766A CN 110703766 A CN110703766 A CN 110703766A CN 201911084670 A CN201911084670 A CN 201911084670A CN 110703766 A CN110703766 A CN 110703766A
Authority
CN
China
Prior art keywords
uav
unmanned aerial
aerial vehicle
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911084670.5A
Other languages
English (en)
Other versions
CN110703766B (zh
Inventor
丁勇
汪常建
胡佩瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201911084670.5A priority Critical patent/CN110703766B/zh
Publication of CN110703766A publication Critical patent/CN110703766A/zh
Application granted granted Critical
Publication of CN110703766B publication Critical patent/CN110703766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公布了一种基于迁移学习策略深度Q网络的无人机路径规划方法,所述方法首先利用栅格法对UAV所处的动态环境进行建模并对其进行描述,建立UAV的状态空间和动作空间模型;其次,初始化DQN的网络参数和无人机的当前状态;然后,在静态环境模型下采用基于社会力模型的回报机制对DQN进行训练,得到网络权值和最优动作值;接着,利用迁移学习将静态环境下训练得到的网络权值和最优动作值迁移到动态环境下,继续进行神经网络训练,得到UAV将要执行的动作;最后,计算当前时刻无人机的位置,实现动态环境下无人机的路径规划。本发明有效解决了无人机在动态环境下进行路径规划时,DQN训练收敛速度慢、路径规划不理想、成功率较低的问题。

Description

一种基于迁移学习策略深度Q网络的无人机路径规划方法
技术领域
本发明属于无人机路径规划领域,尤其涉及一种基于迁移学习和DQN(Deep Q-Network)的无人机路径规划方法,应用迁移学习和深度强化学习进行动态环境下的无人机路径规划。
技术背景
无人机路径规划是无人机技术研究领域的核心问题,相关算法发展迅速。传统的方法包括:Dijkstra最短路径搜索法(贪婪算法)、A*算法、蚁群优化算法、强化学习算法等。Dijkstra算法其核心思想是每一次探索选择的下一个顶点都是距离起点欧氏距离最近的点,直到找到目标。该方法只适用于已知整体信息、静态的地图中,效率较低;A*算法是在Dijkstra方法的基础上,加入了评估当前点到目标点的度量,相对于Dijkstra方法,减少了访问节点数,提高了搜索速度,但该算法的计算复杂度较高;蚁群优化算法是一种并行式分布计算方法,是源于生物群体的具有全局搜索能力的智能算法,但存在收敛时间较长的问题。80年代末,强化学习算法研究兴起,这是一种奖惩方式的学习方法,传统的强化学习方式在环境复杂情况下会导致过度的学习,在环境信息太少的情况下又会陷入局部最优解,而且当输入矩阵过大时会导致维数灾难。近年来,深度学习与强化学习相结合形成的DQN算法展现了巨大潜力,但在解决动态环境下的路径规划时,仍存在训练神经网络需要耗时大、网络收敛速度较慢,无法满足实时性等一系列问题。
发明内容
本发明的目的在于提供一种迁移学习与DQN算法相结合的无人机路径规划方法,该方法可以解决DQN算法在动态环境下进行路径规划时出现的收敛速度缓慢、成功率低的问题。
为实现上述目的,本发明采用以下技术方案:
一种基于迁移学习策略深度Q网络的无人机路径规划方法,包括:
(1)利用栅格法对UAV所处的动态环境进行建模并对其进行描述;
(2)建立UAV的状态空间和动作空间模型;
(3)初始化DQN的Q估计网络和Q目标网络;
(4)初始化无人机路径规划的当前状态;
(5)在静态环境模型下采用基于社会力模型的回报机制对DQN进行训练,得到Q估计网络权值和最优动作值;
(6)利用迁移学习将静态环境模型下训练得到Q估计网络权值和最优动作值迁移到动态环境模型下,继续进行神经网络训练,得到UAV将要执行的动作;
(7)计算当前时刻无人机的位置,直至达到目标位置。
本发明具有以下优点:
1.本发明采用基于改进社会力模型的回报方式,在UAV接近目标的过程中加入对UAV方向的矫正因素,同时在UAV找到目标位置时给予一个较大的正回报,考虑当前状态转移对机动能力的需求、对燃油损耗的惩罚项,这些措施的采用有助于UAV在飞行过程中尽快找到目标位置,而不是在目标位置附近作过多徘徊或往复地飞行,提高了无人机路径规划的效率。
2.本发明采用在静态环境模型下对无人机路径规划进行训练,得到相应的网络权值参数和最优动作值,然后利用迁移学习将静态模型下的网络模型参数和最优动作值迁移至动态环境下,大大缩短了动态环境下进行无人机路径规划所花费的时间,提高了路径规划的收敛速度,提高了成功率。
附图表说明
图1为本发明方法的流程图
图2为UAV所处的动态环境模型
图3为无人机动作空间示意图
图4为UAV所处的静态环境模型
图5为基于社会力模型回报机制的路径规划
图6为基于经典回报的路径规划
图7为未经迁移学习和经过迁移学习的平均回报比较
图8为未经迁移学习和经过迁移学习的路径规划成功率比较
具体实施方式
结合所附图表,对本发明的技术方案做具体说明。
本发明的一种基于迁移学习策略深度Q网络的无人机路径规划方法,具体包括以下步骤:
步骤1,利用栅格法对UAV所处的动态环境进行建模并对其进行描述。
(1.1)UAV所处的动态环境为20x20的栅格地图,如图2所示。其中,浅粉色方块为可运动的障碍物;其它黑色位置为不可移动障碍物,分别为L形墙、横墙、竖墙、T行墙、斜墙、方形墙和不规则墙,以全方位测试智能体的避障效果;黄色圆形为目标位置,红色方块为智能体起始位置,目标位置与智能体起始位置可随机产生,当智能体运动至与障碍物所在栅格中心位置重合时,认为智能体触碰障碍物;白色区域为非障碍区。
(1.2)对UAV所处的动态环境进行描述,具体为:
1)UAV、动态障碍和动态目标的运动满足:UAV、障碍物和目标均以固定时间间隔τ更新位置,障碍物或目标的运动认为是速度方向改变但大小不变的匀速运动。
2)根据UAV在实际状况中根据可能遇到的动态障碍物,设置动态环境存在以下三种情况:
(a)目标和障碍物位置都变化,但相对位置关系保持不变;
(b)目标位置变化,障碍物位置不变;
(c)障碍物位置变化,目标位置不变。
步骤2,建立UAV的状态空间和动作空间模型,具体为:
(2.1)建立UAV的状态空间模型S,具体为:
Figure BSA0000194361130000031
式中,(xt,yt)为t时刻无人机在环境中的位置;(xT,yT)为目标的位置;(xo,yo)为无人机距离最近的障碍物的位置;lx与ly分别为x轴方向上地图的长度和y轴方向上地图的长度。
(2.2)将360度n等分成若干角度,相邻两个方向的间隔角度为
Figure BSA0000194361130000032
令n=8,
Figure BSA0000194361130000033
即无人机的航向精度为45°,则UAV的动作空间模型为A={0,1,...,8},如图3所示。
步骤3,初始化DQN的Q估计网络和Q目标网络,具体为:
(3.1)建立经验回放记忆库D,大小为2000,用来储存训练数据和权值参数。
(3.2)建立Q估计网络,具体参数为,Q估计网络隐藏层、输出层的神经元个数为8,使用Relu激活函数;设置神经网络学习效率a=0.01;累计回报折扣因子γ为0.9;无人机飞行步长η=1,可飞行最大步长为46;ε-greedy策略设置1-ε范围为[0.8,0.94];随机初始化估计网络权重θ。
(3.3)建立Q目标网络网络参数同Q估计网络,初始化网络权重θ-=θ。
步骤4,初始化无人机路径规划的当前状态,包括设置当前步数为0,随机生成目标及障碍物的位置和UAV所处的最初位置;定义无人机的最终状态ST为找到目标或触碰障碍物或UAV飞行到达规定的最大步数TMAX=46时对应的状态。
步骤5,在静态环境模型下采用基于社会力模型的回报机制对DQN进行训练,得到Q估计网络权值θ-和最优动作值Qs,具体为:
(5.1)静态环境模型的建立
这里将当目标位置和障碍物位置不随时间运动时的环境视为静态环境。采用近似栅格分解法描述静态环境,如图4所示。路径规划实验环境为20x20的栅格地图,其中,黑色位置为不可移动障碍物;黄色圆形为目标位置;红色方块为智能体起始位置,目标位置与起始位置可随机生成;白色区域为非障碍区。
(5.2)采用基于社会力模型的回报机制,具体为:
基于社会力模型的回报rt满足:
rt=fT+fob+fav (2)
式中,fT对应目标对UAV的期望力映射到回报函数中的奖惩项,具体为:
Figure BSA0000194361130000042
这里,ω1为增益,用于调节期望力的强度,取ω1=10;
Figure BSA0000194361130000043
分别为上一个状态和当前状态UAV与目标的欧式距离;η为UAV的飞行步长,取η=1;s′为当前状态;sT为找到目标位置时UAV的状态;RT为无人机找到目标时给予的较大的回报值。
fob对应为障碍物给予的回报,以完成对各种形式障碍物的避障,具体为:
Figure BSA0000194361130000051
式中,比例系数K∈[0,1],当K较大时,UAV会尽可能与障碍物保持较大的距离,K较小时,可能降低避障效果,因此K的取值要适中,这里取K=0.5;R0为UAV触碰障碍物时获得的较大的负的回报值,取R0=-0.1;
Figure BSA0000194361130000052
表示UAV距离最近的障碍物之间的距离;dsafe为UAV与障碍物之间的安全距离。
fav为实现当前状态转移对机动能力的需求、对燃油的损耗的惩罚项,具体为:
Figure BSA0000194361130000053
式中,ω2、ω3为增益系数,取ω2=ω3=0.8;fa为水平方向的机动惩罚项;ffuel为燃料损耗项。
(5.3)在静态环境模型下对DQN进行训练,并保存每个环境下训练好的Q估计网络权值θ-和最优动作值Qs
Step1随机生成目标位置(xT,yT)和障碍物的位置,无人机距离最近的障碍物的位置为(xo,yo),UAV在环境中的最初位置为(xt,yt),得到无人机在环境中的初始状态为:
St=(xt-xT,yt-yT,xt-xo,yt-yo) (6)
Step2利用ε-greedy策略,在ε概率内让UAV选择一个随机动作,否则以1-ε概率选择当前状态下使动作值函数为最大值Qs时的动作as=argmaxaQ(s,a;θ),并将最优动作值Qs保存至经验回放记忆库D,这里取ε=0.1,D=2000。
Step3在St状态下,无人机执行动作as,由式(2)获得基于社会力模型的回报rt,计算无人机在t+1时刻的状态St+1,并将[St,as,rt,St+1]存入经验回放记忆库D。
Step4从经验回放记忆库D中选取32组数据(St,at,rt,St+1),计算目标值函数yt为:
Figure BSA0000194361130000061
其中,γ表示回报折扣因子,取γ=0.9。
Step5以(yt-Q(st,at;θ))2做梯度下降,每隔C步设置Q估计网络的权重参数θ-=θ,并保存至经验回放记忆库D。
Step6将st+1设置为当前状态st,步数加一。若st为最终状态sT,则结束;否则返回Step1。
步骤6,利用迁移学习将静态环境下训练得到的Q估计网络权值θ-和最优动作值Qs迁移到动态环境下,继续进行神经网络训练,得到UAV将要执行的动作。具体为:
(6.1)设置初始迁移概率为ρ=0.8,为了避免负迁移情况的出现,在动态环境下训练开始后,将迁移概率以每步0.0006的概率递减,将静态环境下的网络权值参数θ-和最优动作值Qs迁移至动态环境下。
(6.2)在动态环境下对DQN进行路径规划训练,方法同静态环境,得到动作值函数Q(s)最大值的最优动作值为QD、对应的动作和无人机状态(St,at,rt,St+1)。
(6.3)比较静态环境下训练得到的最优动作值QS与动态训练下得到的最优动作值QD,选择较大值对应的动作作为UAV将要执行的动作。
步骤7,计算当前时刻无人机的位置,直至达到目标位置。具体公式为:
Figure BSA0000194361130000062
式中,(x′,y′)为当前时刻无人机的坐标,(x,y)为上一时刻无人机的坐标,η为步长,取η=1,n为QS与QD中较大值对应的无人机的最优动作,
Figure BSA0000194361130000063
为无人机的航向精度。
为了验证方法的可行性和有效性,下面结合实例对本发明做进一步详细的描述。
开发环境为Win10,基于Google开发的机器学习架构tensorflow使用python语言在pycharm上建立仿真环境。
图5为第4600回合时基于社会力模型回报机制的路径规划效果。可以看出,由于障碍物为随机运动,无人机在寻找目标位置的过程中为达到良好的避障效果,会根据实时情况选择最优的运动方式,最终能绕开障碍物并逐渐收敛到最优路径。
图6为第4600回合时基于经典回报的路径规划效果。可以看出,无人机虽然能够以较大概率躲避静止的障碍物,但规划出的路径不平滑,出现了较大的波动,不能满足无人机航迹约束的基本条件。
图7为未经迁移学习和经过迁移学习的平均回报比较。其中图(a)为未经迁移学习的平均回报,可以看出,未经迁移学习的无人机,虽然到1500回合后开始有一个较好的回报,但波动较大,直至5000回合以后才开始收敛。图(b)为迁移学习后UAV得到的平均回报,可以看出,经过迁移学习后,平均回报呈现递增再平稳的趋势,无人机在复杂动态环境下训练初期就能找到目标位置,在500回合左右平均回报维持在相对较高的值上,网络收敛速度较快。
图8为未经迁移学习和经过迁移学习的路径规划成功率比较。其中图(a)为未经迁移学习的成功率,图(b)为经迁移学习的成功率。经过比较可以看出,经过迁移学习后无人机寻找到目标位置的成功率在整个过程中保持较高水平。经统计,经迁移后的动态环境下的路径规划在5000回合的成功率高达75.4049%,而未经迁移的路径规划在5000回合内的成功率为52.5095%,迁移后的成功率明显提高。

Claims (3)

1.一种基于迁移学习策略深度Q网络的无人机路径规划方法,其特征在于,该方法包括以下步骤:
(1)利用栅格法对UAV所处的动态环境进行建模并对其进行描述;
(2)建立UAV的状态空间和动作空间模型;
(3)初始化DQN的Q估计网络和Q目标网络;
(4)初始化无人机路径规划的当前状态;
(5)在静态环境模型下采用基于社会力模型的回报机制对DQN进行训练,得到Q估计网络权值和最优动作值;
(6)利用迁移学习将静态环境模型下训练得到Q估计网络权值和最优动作值迁移到动态环境模型下,继续进行神经网络训练,得到UAV将要执行的动作;
(7)计算当前时刻无人机的位置,直至达到目标位置。
2.根据权利要求1所述的一种基于迁移学习策略深度Q网络的无人机路径规划方法,其特征在于,步骤(5)采用基于社会力模型的回报机制,具体为:
基于社会力模型的回报rt满足:
rt=fT+fob+fav (1)
式中,fT对应目标对UAV的期望力映射到回报函数中的奖惩项,具体为:
这里,ω1为增益,用于调节期望力的强度;
Figure FSA0000194361120000012
分别为上一个状态和当前状态UAV与目标的欧式距离;η为UAV的飞行步长;s′为当前状态;sT为找到目标位置时UAV的状态;RT为无人机找到目标时给予的较大的回报值。
fob对应为障碍物给予的回报,以完成对各种形式障碍物的避障,具体为:
Figure FSA0000194361120000013
式中,比例系数K∈[0,1],当K较大时,UAV会尽可能与障碍物保持较大的距离,K较小时,可能降低避障效果,因此K的取值要适中;R0为UAV触碰障碍物时获得的较大的负的回报值;表示UAV距离最近的障碍物之间的距离;dsafe为UAV与障碍物之间的安全距离。
fav为实现当前状态转移对机动能力的需求、对燃油的损耗的惩罚项,具体为:
Figure FSA0000194361120000022
式中,ω2、ω3为增益系数;为水平方向的机动惩罚项;ffuel为燃料损耗项。
3.根据权利要求1所述的一种基于迁移学习策略深度Q网络的无人机路径规划方法,其特征在于,步骤(6)中利用迁移学习将静态环境下训练得到的Q估计网络权值和最优动作值迁移到动态环境下,继续进行神经网络训练,得到UAV将要执行的动作,具体为:
(3.1)设置初始迁移概率,为了避免负迁移情况的出现,在动态环境下训练开始后,将迁移概率以每步0.0006的概率递减,将静态环境下的Q估计网络权值和最优动作值QS迁移至动态环境下;
(3.2)在动态环境下对DQN进行路径规划训练,得到动作值函数Q(s)最大值为最优动作值QD
(3.3)比较静态环境下训练得到的最优动作值QS与动态训练下得到的最优动作值QD,选择较大值对应的动作作为UAV将要执行的动作。
CN201911084670.5A 2019-11-07 2019-11-07 一种基于迁移学习策略深度q网络的无人机路径规划方法 Active CN110703766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911084670.5A CN110703766B (zh) 2019-11-07 2019-11-07 一种基于迁移学习策略深度q网络的无人机路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911084670.5A CN110703766B (zh) 2019-11-07 2019-11-07 一种基于迁移学习策略深度q网络的无人机路径规划方法

Publications (2)

Publication Number Publication Date
CN110703766A true CN110703766A (zh) 2020-01-17
CN110703766B CN110703766B (zh) 2022-01-11

Family

ID=69204611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911084670.5A Active CN110703766B (zh) 2019-11-07 2019-11-07 一种基于迁移学习策略深度q网络的无人机路径规划方法

Country Status (1)

Country Link
CN (1) CN110703766B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111988225A (zh) * 2020-08-19 2020-11-24 西安电子科技大学 基于强化学习和迁移学习的多路径路由方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112306641A (zh) * 2020-11-18 2021-02-02 中国科学院计算技术研究所 一种用于虚拟机迁移模型的训练方法
CN112783199A (zh) * 2020-12-25 2021-05-11 北京航空航天大学 一种基于迁移学习的无人机自主导航方法
CN112800545A (zh) * 2021-01-28 2021-05-14 中国地质大学(武汉) 基于d3qn的无人船自适应路径规划方法、设备及存储介质
CN112902969A (zh) * 2021-02-03 2021-06-04 重庆大学 一种无人机在数据收集过程中的路径规划方法
CN112925307A (zh) * 2021-01-20 2021-06-08 中国科学院重庆绿色智能技术研究院 一种用于智能仓储机器人系统的分布式多机器人路径规划方法
CN113110516A (zh) * 2021-05-20 2021-07-13 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113128770A (zh) * 2021-04-23 2021-07-16 新疆大学 基于dqn的不确定车间环境下物料配送实时优化方法
CN113359820A (zh) * 2021-05-28 2021-09-07 中国地质大学(武汉) 一种基于dqn的无人机路径规划方法
CN113705921A (zh) * 2021-09-03 2021-11-26 厦门闽江智慧科技有限公司 一种混合充电策略的电动汽车动态路径规划优化求解方法
CN114594793A (zh) * 2022-03-07 2022-06-07 四川大学 一种基站无人机的路径规划方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
WO2017163538A1 (ja) * 2016-03-25 2017-09-28 ソニー株式会社 情報処理装置
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN108924897A (zh) * 2018-06-30 2018-11-30 北京工业大学 一种基于深度强化学习算法的移动sink路径规划方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017163538A1 (ja) * 2016-03-25 2017-09-28 ソニー株式会社 情報処理装置
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN108924897A (zh) * 2018-06-30 2018-11-30 北京工业大学 一种基于深度强化学习算法的移动sink路径规划方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡晓东等: "一种动态环境下空间机器人的快速路径规划方法", 《空间控制技术与应用》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111667513B (zh) * 2020-06-01 2022-02-18 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111988225A (zh) * 2020-08-19 2020-11-24 西安电子科技大学 基于强化学习和迁移学习的多路径路由方法
CN111988225B (zh) * 2020-08-19 2022-03-04 西安电子科技大学 基于强化学习和迁移学习的多路径路由方法
CN112286203B (zh) * 2020-11-11 2021-10-15 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112306641A (zh) * 2020-11-18 2021-02-02 中国科学院计算技术研究所 一种用于虚拟机迁移模型的训练方法
CN112306641B (zh) * 2020-11-18 2023-07-21 中国科学院计算技术研究所 一种用于虚拟机迁移模型的训练方法
CN112783199A (zh) * 2020-12-25 2021-05-11 北京航空航天大学 一种基于迁移学习的无人机自主导航方法
CN112783199B (zh) * 2020-12-25 2022-05-13 北京航空航天大学 一种基于迁移学习的无人机自主导航方法
CN112925307A (zh) * 2021-01-20 2021-06-08 中国科学院重庆绿色智能技术研究院 一种用于智能仓储机器人系统的分布式多机器人路径规划方法
CN112800545A (zh) * 2021-01-28 2021-05-14 中国地质大学(武汉) 基于d3qn的无人船自适应路径规划方法、设备及存储介质
CN112800545B (zh) * 2021-01-28 2022-06-24 中国地质大学(武汉) 基于d3qn的无人船自适应路径规划方法、设备及存储介质
CN112902969A (zh) * 2021-02-03 2021-06-04 重庆大学 一种无人机在数据收集过程中的路径规划方法
CN112902969B (zh) * 2021-02-03 2023-08-01 重庆大学 一种无人机在数据收集过程中的路径规划方法
CN113128770A (zh) * 2021-04-23 2021-07-16 新疆大学 基于dqn的不确定车间环境下物料配送实时优化方法
CN113128770B (zh) * 2021-04-23 2022-08-09 新疆大学 基于dqn的不确定车间环境下物料配送实时优化方法
CN113110516A (zh) * 2021-05-20 2021-07-13 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113110516B (zh) * 2021-05-20 2023-12-22 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113359820A (zh) * 2021-05-28 2021-09-07 中国地质大学(武汉) 一种基于dqn的无人机路径规划方法
CN113705921A (zh) * 2021-09-03 2021-11-26 厦门闽江智慧科技有限公司 一种混合充电策略的电动汽车动态路径规划优化求解方法
CN113705921B (zh) * 2021-09-03 2024-02-27 厦门闽江智慧科技有限公司 一种混合充电策略的电动汽车动态路径规划优化方法
CN114594793A (zh) * 2022-03-07 2022-06-07 四川大学 一种基站无人机的路径规划方法

Also Published As

Publication number Publication date
CN110703766B (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN110703766B (zh) 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN113110592B (zh) 一种无人机避障与路径规划方法
Li et al. Path planning for UAV ground target tracking via deep reinforcement learning
CN109655066B (zh) 一种基于Q(λ)算法的无人机路径规划方法
CN109871032B (zh) 一种基于模型预测控制的多无人机编队协同控制方法
CN110470301B (zh) 多动态任务目标点下的无人机路径规划方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN112230678B (zh) 基于粒子群算法的三维无人机路径规划方法及规划系统
CN110544296B (zh) 一种敌方威胁不确定环境下无人机三维全局航迹智能规划方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN112034887A (zh) 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN111580544A (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN111813144B (zh) 一种基于改进羊群算法的多无人机协同航路规划方法
CN115060263A (zh) 一种考虑低空风和无人机能耗的航迹规划方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN116088576A (zh) 一种基于改进鲸鱼算法的无人机三维路径规划方法
CN114089776A (zh) 一种基于深度强化学习的无人机避障方法
Song et al. UAV Path Planning Based on an Improved Ant Colony Algorithm
Wu et al. An adaptive conversion speed Q-learning algorithm for search and rescue UAV path planning in unknown environments
CN114943168B (zh) 一种水上浮桥组合方法及系统
Zhang et al. Target Tracking and Path Planning of Mobile Sensor Based on Deep Reinforcement Learning
CN112161626B (zh) 一种基于航路跟踪映射网络的高可飞性航路规划方法
Wang et al. Efficient Reinforcement Learning for Autonomous Ship Collision Avoidance under Learning Experience Reuse
CN113985927A (zh) 一种四旋翼无人机栖停机动轨迹优化方法
Zhu et al. Path planning of mobile robot based on deep reinforcement learning with transfer learning strategy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant