CN113885329A - 一种基于深度强化学习的移动机器人路径规划方法 - Google Patents
一种基于深度强化学习的移动机器人路径规划方法 Download PDFInfo
- Publication number
- CN113885329A CN113885329A CN202111220548.3A CN202111220548A CN113885329A CN 113885329 A CN113885329 A CN 113885329A CN 202111220548 A CN202111220548 A CN 202111220548A CN 113885329 A CN113885329 A CN 113885329A
- Authority
- CN
- China
- Prior art keywords
- mobile robot
- reward
- reinforcement learning
- path planning
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
一种基于深度强化学习的移动机器人路径规划方法,涉及一种移动机器人路径规划方法,本发明提出的稀疏环境下基于深度强化学习的移动机器人路径规划方法,采用置信水平来实现对探索与利用之间的平衡;通过后见回放经验机制的使用,解决在稀疏奖励环境下难以收敛的问题,提升了样本利用率,加快收敛速度,一定程度上避免了强化学习在路径规划中需要设计复杂奖励函数。由于稀疏奖励是强化学习应用在移动机器人路径规划中比较棘手的问题,本发明不需要复杂的奖励函数设计,同时也可以更加充分的利用样本,增加奖励,使算法迭代更快,更容易收敛,解决了稀疏奖励带来的困难。
Description
技术领域
本发明涉及一种移动机器人路径规划方法,特别是涉及一种基于深度强化学习的移动机器人路径规划方法。
背景技术
移动机器人路径规划是当前移动机器人研究的热点方向,随着移动机器人技术的快速发展和应用场景逐渐复杂化,对于移动机器人来说,在复杂未知的环境中规划路径是一个非常重要的问题。传统算法有A-Star,蚁群算法,遗传算法等,谷歌的DeepMind公司提出(Deep Reinforcement Learning,DRL)算法,将深度学习与强化学习相结合,使得深度强化学习在路径规划中显示出了巨大的潜力。深度强化学习使用神经网络模型逼近值函数,回放经验池用于打破样本顺序,以解决从强化学习中获得的经验与时序关联的问题,它提高了深度神经网络稳定性并易收敛。
在稀疏奖励环境中,奖励函数必须设计得很好。在许多复杂的情况下,只有在满足特定条件的情况下才会给予奖励,因此稀疏奖励带来的负面影响,难以解决。
发明内容
本发明的目的在于提供一种基于深度强化学习的移动机器人路径规划方法,由于稀疏奖励是强化学习应用在移动机器人路径规划中比较棘手的问题,本发明不需要复杂的奖励函数设计,同时也可以更加充分的利用样本,增加奖励,使算法迭代更快,更容易收敛,解决了稀疏奖励带来的困难。
本发明的目的是通过以下技术方案实现的:
一种基于深度强化学习的移动机器人路径规划方法,所述方法包括建立神经网络模型以及训练流程;
建立神经网络模型流程:
初始化回放经验池,容量为,随机初始化估计网络参数,初始化目标网络参,目标选择策略;for episode = 1, M do;采集目标,并初始化状态 for t = 0, T-1 do;采用UCB策略选择动作;移动机器人执行动作,得到下一个状态
end for;
end for;
建立训练流程:
把相对应轨迹的最后时刻的状态作为新目标,即
本发明采用与置信区间上界(Upper-Confidence-Bound, UCB)采用置信水平来实现对探索与利用之前的平衡,置信区间越大,方差越大,采样的不确定性就越大;如下公式(8)所示:
所述的一种基于深度强化学习的移动机器人路径规划方法,所述公式(8)中,,表示目前该动作被选择的次数,为权值;开始训练时,所有动作均未执行,会趋于无穷大,移动机器人将会执行所有动作,随着训练时间的增长,当前动作被执行的次数很低时,值变大,不确定性越高,对应动作被执行的概率越大;反之亦然;随着训练次数的增加,增长速度会越来越慢,增长速度基本保持不变,值逐渐下降,每个动作的置信区间都变得收敛。
本发明的优点与效果是:
本发明提出的稀疏环境下基于深度强化学习的移动机器人路径规划方法,采用置信水平来实现对探索与利用之间的平衡;通过后见回放经验机制的使用,解决在稀疏奖励环境下难以收敛的问题,提升了样本利用率,加快收敛速度,一定程度上避免了强化学习在路径规划中需要设计复杂奖励函数。
附图说明
图1为本发明神经网络模型图;
图2为本发明训练流程图。
具体实施方式
下面结合附图所示实施例对本发明进行详细说明。
本发明通过置信区间上界探索策略选择执行的动作,采用后见经验回放机制,把已到达的状态作为目标,移动机器人可以得到更多积极的奖励,这样可以充分利用样本,提升探索效率。
本发明提出的深度卷积神经网络模型包含三个卷积层和两个全连接层,通过端对端的方法训练,以原始RGB图像作为输入,经处理最后得到上、下、左、右四个动作的Q值。
如图1所示神经网络模型,具体流程如下。
初始化回放经验池,容量为,随机初始化估计网络参数,初始化目标网络参,目标选择策略;for episode = 1, M do;采集目标,并初始化状态 for t = 0, T-1 do;采用UCB策略选择动作;移动机器人执行动作,得到下一个状态
end for
end for;
训练流程图如2所示。
把相对应轨迹的最后时刻的状态作为新目标,即
DRL经典探索算法有策略,玻尔兹曼策略,汤普森抽样。策略虽然每个动作都有被选择的概率,但是无引导性,这并不能有助于移动机器人很大概率的发现最优动作。本文采用与置信区间上界(Upper-Confidence-Bound, UCB)采用置信水平来实现对探索与利用之前的平衡,置信区间越大,方差越大,采样的不确定性就越大。如公式(8)所示:(8)
Claims (3)
1.一种基于深度强化学习的移动机器人路径规划方法,其特征在于,所述方法包括建立神经网络模型以及训练流程;
建立神经网络模型流程:
end for;
end for;
建立训练流程:
本发明采用与置信区间上界(Upper-Confidence-Bound, UCB)采用置信水平来实现对探索与利用之前的平衡,置信区间越大,方差越大,采样的不确定性就越大;如下公式(8)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111220548.3A CN113885329A (zh) | 2021-10-20 | 2021-10-20 | 一种基于深度强化学习的移动机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111220548.3A CN113885329A (zh) | 2021-10-20 | 2021-10-20 | 一种基于深度强化学习的移动机器人路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113885329A true CN113885329A (zh) | 2022-01-04 |
Family
ID=79003637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111220548.3A Withdrawn CN113885329A (zh) | 2021-10-20 | 2021-10-20 | 一种基于深度强化学习的移动机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113885329A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114721397A (zh) * | 2022-04-19 | 2022-07-08 | 北方工业大学 | 一种基于强化学习和好奇心的迷宫机器人路径规划方法 |
CN115494732A (zh) * | 2022-09-29 | 2022-12-20 | 湖南大学 | 一种基于近端策略优化的无人机轨迹设计和功率分配方法 |
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116384469A (zh) * | 2023-06-05 | 2023-07-04 | 中国人民解放军国防科技大学 | 一种智能体策略生成方法、装置、计算机设备和存储介质 |
CN114721397B (zh) * | 2022-04-19 | 2024-05-31 | 北方工业大学 | 一种基于强化学习和好奇心的迷宫机器人路径规划方法 |
-
2021
- 2021-10-20 CN CN202111220548.3A patent/CN113885329A/zh not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114721397A (zh) * | 2022-04-19 | 2022-07-08 | 北方工业大学 | 一种基于强化学习和好奇心的迷宫机器人路径规划方法 |
CN114721397B (zh) * | 2022-04-19 | 2024-05-31 | 北方工业大学 | 一种基于强化学习和好奇心的迷宫机器人路径规划方法 |
CN115494732A (zh) * | 2022-09-29 | 2022-12-20 | 湖南大学 | 一种基于近端策略优化的无人机轨迹设计和功率分配方法 |
CN115494732B (zh) * | 2022-09-29 | 2024-04-12 | 湖南大学 | 一种基于近端策略优化的无人机轨迹设计和功率分配方法 |
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN115993831B (zh) * | 2023-03-23 | 2023-06-09 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116384469A (zh) * | 2023-06-05 | 2023-07-04 | 中国人民解放军国防科技大学 | 一种智能体策略生成方法、装置、计算机设备和存储介质 |
CN116384469B (zh) * | 2023-06-05 | 2023-08-08 | 中国人民解放军国防科技大学 | 一种智能体策略生成方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113885329A (zh) | 一种基于深度强化学习的移动机器人路径规划方法 | |
Devlin et al. | Neural program meta-induction | |
Such et al. | Deep neuroevolution: Genetic algorithms are a competitive alternative for training deep neural networks for reinforcement learning | |
CN110262511B (zh) | 基于深度强化学习的双足机器人自适应性行走控制方法 | |
CN112362066B (zh) | 一种基于改进的深度强化学习的路径规划方法 | |
CN111260027B (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN109063823B (zh) | 一种智能体探索3d迷宫的批a3c强化学习方法 | |
CN110919659A (zh) | 一种基于ddgpes的机器人控制方法 | |
CN111898728A (zh) | 一种基于多Agent强化学习的团队机器人决策方法 | |
CN116448117A (zh) | 一种融合深度神经网络和强化学习方法的路径规划方法 | |
Hussein et al. | Deep reward shaping from demonstrations | |
CN114859911A (zh) | 一种基于drl的四足机器人路径规划方法 | |
CN113487039A (zh) | 基于深度强化学习的智能体自适应决策生成方法及系统 | |
CN113435025A (zh) | 一种结合多级优化模型的机器人高性能轨迹自动生成方法 | |
Kantasewi et al. | Multi Q-table Q-learning | |
CN116128060A (zh) | 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法 | |
CN114161419B (zh) | 一种情景记忆引导的机器人操作技能高效学习方法 | |
CN114372520A (zh) | 一种基于双智能体竞争强化学习的机器人路径探索方法 | |
Khan et al. | Playing a FPS doom video game with deep visual reinforcement learning | |
CN109344961A (zh) | 一种基于pso的权值直接确定神经网络结构优化方法 | |
CN115793634A (zh) | 一种面向避障移动机器人路径规划方法 | |
Jiang et al. | Generative exploration and exploitation | |
CN115936058A (zh) | 一种基于图注意力网络的多智能体迁移强化学习方法 | |
CN111539989B (zh) | 基于优化方差下降的计算机视觉单目标跟踪方法 | |
CN112755538B (zh) | 一种基于多智能体的实时战略游戏对局方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220104 |
|
WW01 | Invention patent application withdrawn after publication |