CN112362066A - 一种基于改进的深度强化学习的路径规划方法 - Google Patents

一种基于改进的深度强化学习的路径规划方法 Download PDF

Info

Publication number
CN112362066A
CN112362066A CN202011311727.3A CN202011311727A CN112362066A CN 112362066 A CN112362066 A CN 112362066A CN 202011311727 A CN202011311727 A CN 202011311727A CN 112362066 A CN112362066 A CN 112362066A
Authority
CN
China
Prior art keywords
network
point
strategy
model
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011311727.3A
Other languages
English (en)
Other versions
CN112362066B (zh
Inventor
杨宁
赵可贺
郭雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011311727.3A priority Critical patent/CN112362066B/zh
Publication of CN112362066A publication Critical patent/CN112362066A/zh
Application granted granted Critical
Publication of CN112362066B publication Critical patent/CN112362066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations

Abstract

本发明涉及一种基于改进的深度强化学习的路径规划方法,针对不同学习阶段对经验的深度和广度不同需求,提出了一种改进的学习策略,即深度Q网络采用密集网络框架计算Q值。在学习的初始阶段,创建经验值评估网络来增加深度经验的比例,以便更快地了解环境规则。当路径游荡现象发生时,使用并行探索结构来提高经验库的广度。另外,通过引用密集连接方法来改进网络结构,从而提高了网络的学习和表达能力。

Description

一种基于改进的深度强化学习的路径规划方法
技术领域
本发明属于用于导航的路径规划技术,涉及一种基于改进的深度强化学习的路径。
规划方法
背景技术
路径规划技术是导航的重要组成部分,它是机器人技术的核心研究。强化学习是通过智能体在环境中探索获得知识,在试错过程中进行学习,是机器学习领域的一个重要的分支。智能体在未知环境中缺乏环境相关的先验知识,这就要求其具有较强的灵活性与适应性来应对各种状况。同时智能体在路径规划过程中不可避免的会遇到各种障碍物,就要求所设计的路径规划方法能够灵活规划和对环境有一定的适应性,因此赋予智能体自主学习能力有非常重要的实际意义。学习新技能时,全面而多样的经验会有助于完善对新技能的掌握,被称为经验的深度和广度。
随着科学技术、特别是信息科学技术的迅猛发展,移动机器人在现实生活中扮演了越来越重要的角色。从简单的扫地机器人、机器人轮椅,到无人驾驶汽车,移动机器人的应用领域快速扩展。为了成功地完成各种工作任务,必须避免碰撞到环境中的障碍物,同时完成从一点到另一个点的导航。应用路径规划可以使移动机器人获得最佳的导航,减少了不必要的冗余路径,提高了移动机器人工作效率。
强化学习方法是一种基于数据的智能学习控制方法,无需模型信息,可以在移动机器人运动过程中采集样本数据进行学习,通过与环境进行交互收到环境反馈的评价,在迭代中获得近似最优策略,是解决移动机器人在复杂环境中路径规划的有效方法。强化学习算法通过试错的方式进行学习,在先验信息较少的复杂优化决策问题中具有广阔的应用前景。设计基于强化学习的路径规划方法能够使移动机器人具有自主学习能力,能够解决移动机器人在不确定环境中的路径规划问题。
在人工智能领域,在给定网格环境中如何找到一条从起点到目标点的最佳路径是一个知名且重要的问题。长期以来,研究人员在路径规划问题上,提出了许多处理路径搜索和优化问题的算法。具有代表性和启发性的算法,例如A*算法、模拟退火算法、人工势场算法、粒子群算法和蚁群算法。随着研究的深入,路径规划的速度和准确性不断提高,但是这些传统算法总有缺点,例如实时性能差和易于陷入本地最佳状态,不具备对环境的适应性。同时,Q学习、SARSA和其他强化学习算法在相当大的状态空间和动作空间也存在限制。而深度Q网络(DQN)将深度学习与强化学习相结合,使用经验库结构用于破坏样本顺序,以解决从强化学习中获得的经验与时间相关的问题。DQN可以很好地解决Q学习算法存在的容量局限性问题,因此DQN框架在路径规划方面具有巨大潜力。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于改进的深度强化学习的路径规划方法,即基于优化的DQN算法的路径规划方法。
技术方案
一种基于改进的深度强化学习的路径规划方法,其特征在于步骤如下:
步骤1、对传统深度Q网络在策略和网络结构上进行优化:
策略的改进:对下述ε-greedy策略进行改进,
Figure BDA0002790041100000021
μ是每轮随机生成的,大小在0和1之间,ε表示探索率,
Figure BDA0002790041100000022
表示随机动作;
1、经验深度的策略:以当前点为中心的八个邻域的矩形,并评估选择一个特定动作时所获得的经验珍贵程度;价值估计网络E的t时刻损失函数为:
Figure BDA0002790041100000031
根据奖励功能的稀疏形式,将
Figure BDA0002790041100000032
转换为:
Figure BDA0002790041100000033
价值估计网络E在Q网络训练之前的预训练阶段完成训练,然后选择动作;
所述奖励功能的稀疏形式为:
Figure BDA0002790041100000034
给rreach正值鼓励模型找到目标,给rcrash负值来惩罚碰撞行为;随着当前点和目标点距离的增加,正常动作所对应的奖励值会减小,并且γ需要小于1来促使智能体到达目标点;
2、经验广度的策略:模型创建并行结构处理训练过程中的路径游荡现象,模型选择动作来最大化在
Figure BDA0002790041100000035
提取在游荡点ext-1=(st-1,at-1,rt-1,st)和ext=(st,at,rt,st+1)前两步和当前步的经验,模型通过贪婪随机策略与环境互动,并判断在更新策略后网络权重是否能够跳出游荡点;如果模型能够识别该点,或者步数达到了一张地图预设的最大探索步骤,那么结构结束;如果没有,它将继续增加游荡点经验;
3、避免不正确估计的策略:在每个迭代过程中设置智能体所能移动的最大步数:
Figure BDA0002790041100000036
termial指的是到达目标点和障碍物或者当前步数达到最大值时,如果没有发生碰撞或者达到目标点,值函数为
Figure BDA0002790041100000037
当当前步数等于最大步数时,模型的估计函数等于ri,这会引起价值函数估计的巨大损失,从而导致模型训练的不稳定性;
4、网络结构的改进:价值评估网络由卷积层组成和全连接层组成,用relu激活函数减少梯度消失并加快训练速度,Q网络包括预处理层、密集块和全连接层,为了训练模型,计算损失和均方误差,然后更新网络参数;
步骤2:将步骤1的策略和网络结构生成Improve-DQN算法,用于路径规划,规划时输入需要规划的地形图,起始点,终点以及障碍点坐标值。
有益效果
本发明提出的一种基于改进的深度强化学习的路径规划方法,针对不同学习阶段对经验的深度和广度不同需求,提出了一种改进的学习策略,即深度Q网络采用密集网络框架计算Q值。在学习的初始阶段,创建经验值评估网络来增加深度经验的比例,以便更快地了解环境规则。当路径游荡现象发生时,使用并行探索结构来提高经验库的广度。另外,通过引用密集连接方法来改进网络结构,从而提高了网络的学习和表达能力。
附图说明
图1:本发明方法的模型结果
图2:本发明方法的算法流程图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本实施方式选取硬件环境:2GHz 2*E5 CPU,128G内存,12G显存计算机;
操作系统包括Windows10系统。
本发明的基本思想是:对传统的深度Q网络在策略和网络结构上进行改进。在学习的初始阶段,创建经验估值网络以便更快地了解环境规则。当路径游荡现象发生时通过使用并行探索结构来提高经验池的广度。另外,通过密集连接方法来改善网络结构,提高网络的表达能力。最后,结果表明此模型在收敛速度,规划成功率和路径准确性方面都有一定的提高。在相同实验条件下,将本文方法与传统深度Q网络进行比较。
本发明的步骤如下:
步骤1构建一个Q learning算法框架。在一个有限的markov过程中包含一个智能体Agent;一个状态集S,表示它在环境中的状态;以及在每个状态可以执行的动作集A。Agent在起始状态s,通过动作选择策略选择并执行一个动作a,a∈A,在与环境的交互中Agent会从当前状态st转移到下一状态st+1,并且会得到环境的一个即时奖赏rt,根据更新规则修改Q值。Agent学习的目的是使从环境中获得的累积奖赏最大,即在每个状态都执行获得奖赏最大的那个动作。更新Q值的方法如下:
Figure BDA0002790041100000051
其中是学习率α,γ∈[0,1]是折扣因子。学习率α影响未来学到的新值置换原值的比例。如果α=0,表示Agent学不到新的知识;而α=1,则表示不储存学到的知识,全部用新的知识置换。折扣因子代表Agent的远见,它的大小影响未来的动作的预测回报所占的权重,γ=0表示Agent只看重眼前动作的回报;γ=1时Agent将会把未来所有动作的回报值跟眼前动作的回报看的同等重要;当γ∈[0,1]时表示越靠前的动作影响越大,而后面的动作影响变小,甚至可以忽略。
Q-learning从起始状态开始,在每一个情节中执行:在t时刻执行动作αt从环境中获得奖赏值rt,算法完成一次的状态-动作值更新,并存在Q值表中,直到到达终止状态,然后把Agent复位到起始状态,多次学习更新Q值表,最终达到收敛。
经过步骤1,得到了本发明的一个基本的Q learning模型框架。
步骤2用卷积神经网络取代Q值表,解决Q learning容量受限的问题。
使用深度卷积神经网络q(s,a;θ)表示q(s,a),避免了Q表容量受限和各状态作用值函数的问题。提出经验重放的结构,解决样本时间相关性问题,提高训练的稳定性;建立一个单独的目标网络来处理时间差(TD)目标,估计状态作用值和TD目标并更新权重。
通过梯度下降法更新网络参数θ,公式如下:
Figure BDA0002790041100000061
DQN基于Q-Learning来确定Loss Function,估计值网络的输出为q(st,at;θt),目标网络的输出为
Figure BDA0002790041100000062
误差函数的计公式如下:
Figure BDA0002790041100000063
对比Q-learning算法在开始时要初始化建立Q值表,DQN算法在开始时也要初始化神经网络参数。首先开辟内存空间用来存储训练过程中的数据称之为记忆库,用随机数初始化参数θ作为价值网络参数,令θTD=θ用以计算TD目标。DQN算法在训练过程中不断学习知识,但学习到的不是存储在表格中的Q值,而是对神经网络参数的学习。
经过步骤2,我们可以得到传统的深度Q网络。
步骤3在对传统深度Q网络在策略和网络结构上进行优化。
(a)算法描述。模型的目的是从随机生成的地图中的找到一条从起点到终点的最佳路径且没有碰撞。智能体在由可通过和不可通过四连接格子的环境中。起点s和目标g是可连接的,智能体的任务是找到可行的从s到g的动作序列。也就是策略π(s,a)。在以下两方面改善策略:
1.在刚开始训练时,建立动作经验估值网络来增加特殊经验的比例(比如遇到障碍时或到达终点),可以帮助模型更快地学习环境规则;
2.创建并行探索结构。如果路径游荡现象发生,将继续探索游荡点并考虑地图上的其他点,帮助模型在细节上掌握技能。
为了更快的训练速度和更高的精度,将Q网络与密集网络相结合以改善图片特征的提取和传播。结合有效的学习策略,改善网络结构并得到Improved-DQN模型。
(b)奖励函数的设计
奖励值是模型可以从中环境中获得的唯一反馈,这是模型的学习定位。奖励决定了模型学习的技能以及模型的效率。奖励设计着重于两个方面:达到目标和避免障碍。奖励功能为定义为稀疏形式:
Figure BDA0002790041100000071
一般给rreach正值鼓励模型找到目标,给rcrash负值来惩罚碰撞行为。随着当前点和目标点距离的增加,正常动作所对应的奖励值会减小,并且γ需要小于1来促使智能体到达目标点。
(c)对于策略的改进
DQN通常会使用ε-greedy策略来平衡模型的探索与利用,具体算法如下:
Figure BDA0002790041100000072
μ是每轮随机生成的,大小在0和1之间,ε表示探索率,
Figure BDA0002790041100000073
表示随机动作。对该策略进行以下改进:
1.经验深度的策略
为了在训练开始阶段获得更多的特殊经验,创建了一个经验价值估计网络。该估计网络仅考虑以当前点为中心的八个邻域的矩形,并评估选择一个特定动作时所获得的经验珍贵程度。价值估计网络E的t时刻损失函数定义为:
Figure BDA0002790041100000074
结合公式(4),可以将
Figure BDA0002790041100000075
转换为:
Figure BDA0002790041100000076
价值估计网络E在Q网络训练之前的预训练阶段完成训练,然后选择动作。
2.经验广度的策略
模型创建并行结构处理训练过程中的路径游荡现象。模型选择动作来最大化在
Figure BDA0002790041100000081
当游荡现象发生时,并行结构就会触发。并行结构用贪婪随机策略探索地图的其余部分,同时获得游荡点的经验。贪婪随机策略以一定的概率随机选取动作,在不考虑障碍的情况下从当前点移动到离目标点更近的位置。
提取在游荡点ext-1=(st-1,at-1,rt-1,st)和ext=(st,at,rt,st+1)前两步和当前步的经验,模型通过贪婪随机策略与环境互动,并判断在更新策略后网络权重是否可以跳出游荡点。如果模型可以识别该点,或者步数达到了一张地图预设的最大探索步骤,那么结构结束。如果没有,它将继续增加游荡点经验。
3.避免不正确估计的策略
为了节省时间,我们通常在每个迭代过程中设置智能体所能移动的最大步数:
Figure BDA0002790041100000082
这里的termial指的是到达目标点和障碍物或者当前步数达到最大值时,如果没有发生碰撞或者达到目标点,值函数为
Figure BDA0002790041100000083
当当前步数等于最大步数时,模型的估计函数等于ri,这会引起价值函数估计的巨大损失,从而导致模型训练的不稳定性。
(d)对于网络结构的改进
为了成功完成导航任务,提出适用于当前任务的学习模型Improved-DQN。该模型包括价值评估网络E和Q网络Q和具有相同的结构目标网络Qt
价值评估网络由卷积层和全连接层组成。所有卷积层包括卷积和批量归一化,用于提取特征、改变维度并减少过拟合的可能性。用relu激活函数减少梯度消失并加快训练速度。卷积层输入的特征图尺度为Win,输出的特征图尺度为Wout,步长为S,可以表示为:
Figure BDA0002790041100000091
Q网络包括预处理层、密集块和全连接层。输入为80*80*4的灰度矩阵,第一层是卷积层,使用relu激活函数,卷积核尺度为8*8,步长为4,该层缩小图像尺寸,减少后续计算并提取特征。卷积层之后是一个2*2的重叠的池化层。该层保持特征图的大小并且提高模型的泛化性能避免过拟合。接下来是三个密集块和过渡层,增长率分别是8、16和16,瓶颈取2,这决定了3*3卷积层的输出。输出通道数为瓶颈*增长率。密集块使用密集连接并使用多个小卷积核来改善特征传播和重用并且增加非线性。在过渡层中不使用池化层,并且卷积层用于降低维度,主要目的是保留更多的高维特征和位置信息。过渡层的输入和输出信道比例是2:1,用来压缩特征使网络更轻便。全连接层整合特征并输出四个动作的状态动作。
(e)环境观察
在这种环境下,形成了80*80*3的RGB像素矩阵,然后对RGB图像矩阵执行灰度处理以得到80*80的灰色矩阵。通常,灰色矩阵包括四种类型的图像值。通过预处理,四种类型像素值重新写入矩阵[Pb,Po,pc,pg],包括背景像素集Pb,障碍像素集Po,当前点像素pc和目标像素pg。预处理是为了更准确地区分不同对象并获得更易于管理的观察矩阵。
(f)动作空间
有两种通用的动作空间在网格路径规划任务,就是四区和八区。这些对动作空间的定义可以控制当前位置的更改。本发明使用四区,因为研究目的是获得最佳路径而不是运动规划。
经过步骤3,我们可以得到对策略和网络结构改进的Improve-DQN算法。
经过上述步骤,最终得到Improved-DQN的算法。
以Improve-DQN算法,用于路径规划;在规划时输入需要规划的地形图,起始点,终点以及障碍点坐标值。
为了评估模型的性能,定义了以下指标:
1.成功率:成功找到目标点回合数占总回合数的比率;
2.精度:在成功回合中最短路径步数占总步数的比率;
3.损失:训练期间的损失。
表1各类融合算法客观评价结果比较
Figure BDA0002790041100000101

Claims (1)

1.一种基于改进的深度强化学习的路径规划方法,其特征在于步骤如下:
步骤1、对传统深度Q网络在策略和网络结构上进行优化:
策略的改进:对下述ε-greedy策略进行改进,
Figure FDA0002790041090000011
μ是每轮随机生成的,大小在0和1之间,ε表示探索率,
Figure FDA0002790041090000012
表示随机动作;
1、经验深度的策略:以当前点为中心的八个邻域的矩形,并评估选择一个特定动作时所获得的经验珍贵程度;价值估计网络E的t时刻损失函数为:
Figure FDA0002790041090000013
根据奖励功能的稀疏形式,将
Figure FDA0002790041090000014
转换为:
Figure FDA0002790041090000015
价值估计网络E在Q网络训练之前的预训练阶段完成训练,然后选择动作;
所述奖励功能的稀疏形式为:
Figure FDA0002790041090000016
给rreach正值鼓励模型找到目标,给rcrash负值来惩罚碰撞行为;随着当前点和目标点距离的增加,正常动作所对应的奖励值会减小,并且γ需要小于1来促使智能体到达目标点;
2、经验广度的策略:模型创建并行结构处理训练过程中的路径游荡现象,模型选择动作来最大化在
Figure FDA0002790041090000017
提取在游荡点ext-1=(st-1,at-1,rt-1,st)和ext=(st,at,rt,st+1)前两步和当前步的经验,模型通过贪婪随机策略与环境互动,并判断在更新策略后网络权重是否能够跳出游荡点;如果模型能够识别该点,或者步数达到了一张地图预设的最大探索步骤,那么结构结束;如果没有,它将继续增加游荡点经验;
3、避免不正确估计的策略:在每个迭代过程中设置智能体所能移动的最大步数:
Figure FDA0002790041090000021
termial指的是到达目标点和障碍物或者当前步数达到最大值时,如果没有发生碰撞或者达到目标点,值函数为
Figure FDA0002790041090000022
当当前步数等于最大步数时,模型的估计函数等于ri,这会引起价值函数估计的巨大损失,从而导致模型训练的不稳定性;
4、网络结构的改进:价值评估网络由卷积层组成和全连接层组成,用relu激活函数减少梯度消失并加快训练速度,Q网络包括预处理层、密集块和全连接层,为了训练模型,计算损失和均方误差,然后更新网络参数;
步骤2:将步骤1的策略和网络结构生成Improve-DQN算法,用于路径规划,规划时输入需要规划的地形图,起始点,终点以及障碍点坐标值。
CN202011311727.3A 2020-11-20 2020-11-20 一种基于改进的深度强化学习的路径规划方法 Active CN112362066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011311727.3A CN112362066B (zh) 2020-11-20 2020-11-20 一种基于改进的深度强化学习的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011311727.3A CN112362066B (zh) 2020-11-20 2020-11-20 一种基于改进的深度强化学习的路径规划方法

Publications (2)

Publication Number Publication Date
CN112362066A true CN112362066A (zh) 2021-02-12
CN112362066B CN112362066B (zh) 2023-02-10

Family

ID=74533722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011311727.3A Active CN112362066B (zh) 2020-11-20 2020-11-20 一种基于改进的深度强化学习的路径规划方法

Country Status (1)

Country Link
CN (1) CN112362066B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635913A (zh) * 2018-12-16 2019-04-16 北京工业大学 基于自适应贪婪的q学习算法足球系统仿真方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113361132A (zh) * 2021-06-28 2021-09-07 浩鲸云计算科技股份有限公司 一种基于深度q学习对决网络的风冷数据中心节能方法
CN113592162A (zh) * 2021-07-22 2021-11-02 西北工业大学 一种基于多智能体强化学习的多水下无人航行器协同搜索方法
CN113612692A (zh) * 2021-08-11 2021-11-05 西安电子科技大学 基于dqn算法的集中式光片上网络自适应路由规划方法
CN113985870A (zh) * 2021-10-19 2022-01-28 复旦大学 一种基于元强化学习的路径规划方法
CN114153216A (zh) * 2021-12-14 2022-03-08 浙江大学湖州研究院 基于深度强化学习和块规划的月面路径规划系统和方法
CN114355915A (zh) * 2021-12-27 2022-04-15 杭州电子科技大学 一种基于深度强化学习的agv路径规划
CN114692890A (zh) * 2021-12-24 2022-07-01 中国人民解放军军事科学院战争研究院 基于模型的权值组合规划值扩展的方法
CN116382304A (zh) * 2023-05-26 2023-07-04 国网江苏省电力有限公司南京供电分公司 基于dqn模型的多巡检机器人协同路径规划方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130159206A1 (en) * 2011-12-14 2013-06-20 International Business Machines Corporation Dynamic vehicle routing in multi-stage distribution networks
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备
CN109540150A (zh) * 2018-12-26 2019-03-29 北京化工大学 一种应用于危化品环境下多机器人路径规划方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
US20190332922A1 (en) * 2017-02-24 2019-10-31 Google Llc Training policy neural networks using path consistency learning
US20190346272A1 (en) * 2018-05-09 2019-11-14 Deepmind Technologies Limited Performing navigation tasks using grid codes
WO2020056299A1 (en) * 2018-09-14 2020-03-19 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN111290398A (zh) * 2020-03-13 2020-06-16 东南大学 基于生物启发神经网络和强化学习的无人艇路径规划方法
CN111461321A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于Double DQN的改进深度强化学习方法及系统
CN111780777A (zh) * 2020-07-13 2020-10-16 江苏中科智能制造研究院有限公司 一种基于改进a*算法和深度强化学习的无人车路径规划方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130159206A1 (en) * 2011-12-14 2013-06-20 International Business Machines Corporation Dynamic vehicle routing in multi-stage distribution networks
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备
US20190332922A1 (en) * 2017-02-24 2019-10-31 Google Llc Training policy neural networks using path consistency learning
US20190346272A1 (en) * 2018-05-09 2019-11-14 Deepmind Technologies Limited Performing navigation tasks using grid codes
WO2020056299A1 (en) * 2018-09-14 2020-03-19 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN109540150A (zh) * 2018-12-26 2019-03-29 北京化工大学 一种应用于危化品环境下多机器人路径规划方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
CN111461321A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于Double DQN的改进深度强化学习方法及系统
CN111290398A (zh) * 2020-03-13 2020-06-16 东南大学 基于生物启发神经网络和强化学习的无人艇路径规划方法
CN111780777A (zh) * 2020-07-13 2020-10-16 江苏中科智能制造研究院有限公司 一种基于改进a*算法和深度强化学习的无人车路径规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAOYUN LEI; ZHIAN ZHANG; PEIFANG DONG: "Dynamic Path Planning of Unknown Environment Based on Deep Reinforcement Learning", 《JOURNAL OF ROBOTICS》 *
董瑶,葛莹莹,郭鸿湧,等: "基于深度强化学习的移动机器人路径规划", 《计算机工程与应用》 *
马朋委等: "基于启发函数改进的SARSA(λ)算法", 《计算机与数字工程》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635913A (zh) * 2018-12-16 2019-04-16 北京工业大学 基于自适应贪婪的q学习算法足球系统仿真方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113341958B (zh) * 2021-05-21 2022-02-25 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113361132A (zh) * 2021-06-28 2021-09-07 浩鲸云计算科技股份有限公司 一种基于深度q学习对决网络的风冷数据中心节能方法
CN113361132B (zh) * 2021-06-28 2022-03-15 浩鲸云计算科技股份有限公司 一种基于深度q学习对决网络的风冷数据中心节能方法
CN113592162B (zh) * 2021-07-22 2023-06-02 西北工业大学 一种基于多智能体强化学习的多水下无人航行器协同搜索方法
CN113592162A (zh) * 2021-07-22 2021-11-02 西北工业大学 一种基于多智能体强化学习的多水下无人航行器协同搜索方法
CN113612692A (zh) * 2021-08-11 2021-11-05 西安电子科技大学 基于dqn算法的集中式光片上网络自适应路由规划方法
CN113612692B (zh) * 2021-08-11 2022-06-07 西安电子科技大学 基于dqn算法的集中式光片上网络自适应路由规划方法
CN113985870A (zh) * 2021-10-19 2022-01-28 复旦大学 一种基于元强化学习的路径规划方法
CN113985870B (zh) * 2021-10-19 2023-10-03 复旦大学 一种基于元强化学习的路径规划方法
CN114153216A (zh) * 2021-12-14 2022-03-08 浙江大学湖州研究院 基于深度强化学习和块规划的月面路径规划系统和方法
CN114153216B (zh) * 2021-12-14 2023-10-03 浙江大学湖州研究院 基于深度强化学习和块规划的月面路径规划系统和方法
CN114692890A (zh) * 2021-12-24 2022-07-01 中国人民解放军军事科学院战争研究院 基于模型的权值组合规划值扩展的方法
CN114355915A (zh) * 2021-12-27 2022-04-15 杭州电子科技大学 一种基于深度强化学习的agv路径规划
CN114355915B (zh) * 2021-12-27 2024-04-02 杭州电子科技大学 一种基于深度强化学习的agv路径规划
CN116382304A (zh) * 2023-05-26 2023-07-04 国网江苏省电力有限公司南京供电分公司 基于dqn模型的多巡检机器人协同路径规划方法及系统
CN116382304B (zh) * 2023-05-26 2023-09-15 国网江苏省电力有限公司南京供电分公司 基于dqn模型的多巡检机器人协同路径规划方法及系统

Also Published As

Publication number Publication date
CN112362066B (zh) 2023-02-10

Similar Documents

Publication Publication Date Title
CN112362066B (zh) 一种基于改进的深度强化学习的路径规划方法
Pertsch et al. Accelerating reinforcement learning with learned skill priors
Lei et al. Dynamic path planning of unknown environment based on deep reinforcement learning
Jiang et al. Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge
CN107403426B (zh) 一种目标物体检测方法及设备
CN112629542B (zh) 基于ddpg和lstm的无地图机器人路径导航方法及系统
Hussein et al. Deep reward shaping from demonstrations
CN112577507A (zh) 基于哈里斯鹰优化算法的电动汽车路径规划方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
Kantasewi et al. Multi Q-table Q-learning
Wang et al. Research on dynamic path planning of wheeled robot based on deep reinforcement learning on the slope ground
CN116050505A (zh) 一种基于伙伴网络的智能体深度强化学习方法
Ye et al. Efficient robotic object search via hiem: Hierarchical policy learning with intrinsic-extrinsic modeling
Qiu et al. Autonomous robot navigation in dynamic environment using deep reinforcement learning
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN114161419A (zh) 一种情景记忆引导的机器人操作技能高效学习方法
CN117471919A (zh) 一种基于改进鹈鹕优化算法的机器人路径规划方法
Riccio et al. LoOP: Iterative learning for optimistic planning on robots
CN115097814A (zh) 基于改进pso算法的移动机器人路径规划方法、系统及应用
CN113985870A (zh) 一种基于元强化学习的路径规划方法
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
Tran et al. Mobile robot planner with low-cost cameras using deep reinforcement learning
Jiang et al. Motion sequence learning for robot walking based on pose optimization
Gervino Complex Environment Exploration
Bai et al. An improved DDPG algorithm based on evolution-guided transfer in reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant