CN115167419A - 一种基于dqn算法的机器人路径规划方法 - Google Patents
一种基于dqn算法的机器人路径规划方法 Download PDFInfo
- Publication number
- CN115167419A CN115167419A CN202210779102.2A CN202210779102A CN115167419A CN 115167419 A CN115167419 A CN 115167419A CN 202210779102 A CN202210779102 A CN 202210779102A CN 115167419 A CN115167419 A CN 115167419A
- Authority
- CN
- China
- Prior art keywords
- action
- mobile robot
- robot
- state
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 34
- 230000002787 reinforcement Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于DQN算法的机器人路径规划方法,方法步骤包括:利用图像采集装置采集一次环境图像;利用DQN算法对环境图像进行处理获得动作价值函数;利用深度强化学习对动作价值函数进行更新;根据移动机器人更新后的动作价值函数获取移动机器人的运动策略,再根据运动策略计算出最优价值运动策略;根据最优价值运动策略实现移动机器人的最优运动路径导航。该基于DQN算法的机器人路径规划方法通过在图像处理阶段使用DQN算法,利用深度卷积网络对Q值进行逼近并代替Q值表,从而用Q(s,a;w)来近似代替Q*(s,a),避免了使用Q值表耗费大量时间和空间的情况,极大的提高了网络训练的稳定性和收敛性。
Description
技术领域
本发明涉及一种机器人路径规划方法,尤其是一种基于DQN算法的机器人路径规划方法。
背景技术
自主导航能力是移动机器人在所处环境中完成各自功能的一项基础技能,强化学习广泛用于移动机器人的路径规划。然而,该算法的收敛速度较慢、训练效率较低,目前现有技术中还没有如何结合深度学习从而有效地提高训练效率的研究。因此有必要设计出一种基于DQN算法的机器人路径规划方法,能够结合深度学习的信息感知以及强化学习的行为决策,将深度强化学习应用于机器人的导航学习,从而有效地提高学习效率。
发明内容
发明目的:提供一种基于DQN算法的机器人路径规划方法,能够结合深度学习的信息感知以及强化学习的行为决策,将深度强化学习应用于机器人的导航学习,从而有效地提高学习效率。
技术方案:本发明所述的基于DQN算法的机器人路径规划方法,包括如下步骤:
步骤1,在机器人运动前,利用导航区域上空设置的图像采集装置采集一次移动机器人所处的环境图像;
步骤2,利用DQN算法对采集的环境图像进行处理获得移动机器人的动作价值函数Q(s,a;w);
步骤3,利用深度强化学习对获得的动作价值函数Q(s,a;w)进行更新;
步骤4,根据移动机器人更新后的动作价值函数Q(s,a;w)获取移动机器人的运动策略π,运动策略π由多个运动动作依次组合,再根据运动策略π计算出最优价值运动策略π*为:
式中,S为可通行区域,表示从状态s转移到状态s'的过程,Qπ(s',a';w)表示在策略π下状态s'下选择某一动作a'的价值,r(s,a;w)表示在状态s下选取动作a所得奖励,γ表示折扣因子,w为神经网络的各个权重参数;
步骤5,根据最优价值运动策略π*获得移动机器人各个最优价值的动作,依次执行各个最优价值的动作实现移动机器人的最优运动路径导航。
进一步的,步骤1中,环境图像包括机器人所处的实时位置以及机器人移动的目的地位置。
进一步的,步骤2中,获得移动机器人的动作价值函数Q(s,a;w)的具体步骤为:
步骤2.1,利用深度强化学习的3个卷积层将环境图像变成特征向量;
步骤2.2,用3个全连接层把特征映射到一个输出向量Q(s,a;w)上,该输出向量Q(s,a;w)是对移动机器人所有可能动作的打分,将该输出向量Q(s,a;w)作为移动机器人的动作价值函数Q(s,a;w)。
进一步的,步骤3中,利用深度强化学习对获得的动作价值函数Q(s,a;w)进行更新的具体步骤为:
步骤3.1,构建强化学习单回合模型,执行强化学习单回合模型的运行步骤为:
步骤3.1.1,设定初始化状态为s0;
步骤3.1.2,在当前状态st下,根据动作价值函数Q(s,a;w)对移动机器人的各种动作情况进行打分,使用贪婪策略选择动作,选择在状态st下动作价值函数最大的动作at,即at=argmaxa Q*(s,a;w),再执行动作at得到下一个状态st+1和奖励r;
在下一状态st+1下,利用DQN算法继续对移动机器人的所有可能动作进行打分,使用贪婪策略选择分数最高的动作at+1,再更新Q(st,at;w)的值为:
式中,Q(st,at;w)m为Q(st,at;w)更新后的值,α表示学习率,γ表示折扣因子;
步骤3.1.3,更新当前状态,将st+1作为st,再执行步骤3.1.2,以此循环,直到状态st为目的地位置,同时DQN算法对移动机器人各种可能动作的打分也越来越精确;
步骤3.2,执行M个强化学习单回合模型,得到更新学习后的动作价值函数Q(s,a;w),即为DQN算法的输出向量Q(s,a;w)。
本发明与现有技术相比,其有益效果是:(1)在图像处理阶段使用DQN算法,利用深度卷积网络对Q值进行逼近,从而用Q(s,a;w)来近似代替Q*(s,a),不需要使用Q表;(2)相比于现有技术没有运动规则的约束,因此可以利用深度强化学习进一步优化DQN算法,得到训练好的动作价值函数Q(s,a;w);(3)在对移动机器人进行导航时,根据训练的动作价值函数,能够快速收敛,得到最优运动策略(4)使得机器人在训练过程中减少了无效探索,学习效率高,避免了状态和动作数量很多时,避免了使用Q表耗费大量时间和空间的情况,极大的提高了网络训练的稳定性和收敛性。
附图说明
图1为本发明的方法流程图;
图2为本发明的神经网络示意图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:
如图1所示,本发明公开的基于DQN算法的机器人路径规划方法,包括如下步骤:
步骤1,在机器人运动前,利用导航区域上空设置的图像采集装置采集一次移动机器人所处的环境图像;
步骤2,利用DQN(Deep Q-Network)算法对采集的环境图像进行处理获得移动机器人的动作价值函数Q(s,a;w);
步骤3,利用深度强化学习对获得的动作价值函数Q(s,a;w)进行更新;
步骤4,根据移动机器人更新后的动作价值函数Q(s,a;w)获取移动机器人的运动策略π,运动策略π由多个运动动作依次组合,再根据运动策略π计算出最优价值运动策略π*为:
式中,S为可通行区域,表示从状态s转移到状态s'的过程,Qπ(s',a';w)表示在策略π下状态s'下选择某一动作a'的价值,r(s,a;w)表示在状态s下选取动作a所得奖励,γ表示折扣因子,w为神经网络的各个权重参数,如图2所示的实施例,w包括w 11(1)、w 12(1)、w 13(1)、w21(1)、w22(1)、w23(1)、w 11(2)、w21(2)以及w31(2),根据图2可以计算出Q的值为:
Q=a11·w 11(2)+a12·w21(2)+a13·w31(2)
其中,a11=x1·w 11(1)+x2·w21(1),a12=x1·w 12(1)+x2·w22(1),a13=x1·w13(1)+x2·w23(1);
步骤5,根据最优价值运动策略π*获得移动机器人各个最优价值的动作,依次执行各个最优价值的动作实现移动机器人的最优运动路径导航。
通过在图像处理阶段使用DQN算法,利用深度卷积网络对Q值进行逼近,从而用Q(s,a;w)来近似代替Q*(s,a),不需要使用Q表,从而避免了使用Q表耗费大量时间和空间的情况,极大的提高了网络训练的稳定性和收敛性;相比于现有技术没有运动规则的约束,因此可以利用深度强化学习进一步优化DQN算法,得到更新好的动作价值函数Q(s,a;w)。
进一步的,步骤1中,环境图像包括机器人所处的实时位置以及机器人移动的目的地位置。
进一步的,步骤2中,获得移动机器人的动作价值函数Q(s,a;w)的具体步骤为:
步骤2.1,利用深度强化学习的3个卷积层将环境图像变成特征向量;
步骤2.2,用3个全连接层把特征映射到一个输出向量Q(s,a;w)上,该输出向量Q(s,a;w)是对移动机器人所有可能动作的打分,将该输出向量Q(s,a;w)作为移动机器人的动作价值函数Q(s,a;w)。
进一步的,步骤3中,利用深度强化学习对获得的动作价值函数Q(s,a;w)进行更新的具体步骤为:
步骤3.1,构建强化学习单回合模型,执行强化学习单回合模型的运行步骤为:
步骤3.1.1,设定初始化状态为s0;
步骤3.1.2,在当前状态st下,根据动作价值函数Q(s,a;w)对移动机器人的各种动作情况进行打分,使用贪婪策略选择动作,选择在状态st下动作价值函数最大的动作at,即at=argmaxa Q*(s,a;w),再执行动作at得到下一个状态st+1和奖励r;
在下一状态st+1下,利用DQN算法继续对移动机器人的所有可能动作进行打分,使用贪婪策略选择分数最高的动作at+1,再更新Q(st,at;ω)的值为:
式中,Q(st,at;w)m为Q(st,at;w)更新后的值,α表示学习率,γ表示折扣因子;
步骤3.1.3,更新当前状态,即将st+1作为st,再执行步骤3.1.2,以此循环,直到状态st为目的地位置,同时DQN算法对移动机器人各种可能动作的打分也越来越精确;
步骤3.2,执行M个强化学习单回合模型,得到更新学习后的动作价值函数Q(s,a;w),即为DQN算法的输出向量Q(s,a;w)。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。
Claims (4)
1.一种基于DQN算法的机器人路径规划方法,其特征在于,包括如下步骤:
步骤1,在机器人运动前,利用导航区域上空设置的图像采集装置采集一次移动机器人所处的环境图像;
步骤2,利用DQN算法对采集的环境图像进行处理获得移动机器人的动作价值函数Q(s,a;w);
步骤3,利用深度强化学习对获得的动作价值函数Q(s,a;w)进行更新;
步骤4,根据移动机器人更新后的动作价值函数Q(s,a;w)获取移动机器人的运动策略π,运动策略π由多个运动动作依次组合,再根据运动策略π计算出最优价值运动策略π*为:
式中,S为可通行区域,表示从状态s转移到状态s'的过程,Qπ(s',a';w)表示在策略π下状态s'下选择某一动作a'的价值,r(s,a;w)表示在状态s下选取动作a所得奖励,γ表示折扣因子,w为神经网络的各个权重参数;
步骤5,根据最优价值运动策略π*获得移动机器人各个最优价值的动作,依次执行各个最优价值的动作实现移动机器人的最优运动路径导航。
2.根据权利要求1所述的基于DQN算法的机器人路径规划方法,其特征在于,步骤1中,环境图像包括机器人所处的实时位置以及机器人移动的目的地位置。
3.根据权利要求1所述的基于DQN算法的机器人路径规划方法,其特征在于,步骤2中,获得移动机器人的动作价值函数Q(s,a;w)的具体步骤为:
步骤2.1,利用深度强化学习的3个卷积层将环境图像变成特征向量;
步骤2.2,用3个全连接层把特征映射到一个输出向量Q(s,a;w)上,该输出向量Q(s,a;w)是对移动机器人所有可能动作的打分,将该输出向量Q(s,a;w)作为移动机器人的动作价值函数Q(s,a;w)。
4.根据权利要求1所述的基于DQN算法的机器人路径规划方法,其特征在于,步骤3中,利用深度强化学习对获得的动作价值函数Q(s,a;w)进行更新的具体步骤为:
步骤3.1,构建强化学习单回合模型,执行强化学习单回合模型的运行步骤为:
步骤3.1.1,设定初始化状态为s0;
步骤3.1.2,在当前状态st下,根据动作价值函数Q(s,a;w)对移动机器人的各种动作情况进行打分,使用贪婪策略选择动作,选择在状态st下动作价值函数最大的动作at,即at=argmaxa Q*(s,a;w),再执行动作at得到下一个状态st+1和奖励r;
在下一状态st+1下,利用DQN算法继续对移动机器人的所有可能动作进行打分,使用贪婪策略选择分数最高的动作at+1,再更新Q(st,at;w)的值为:
式中,Q(st,at;w)m为Q(st,at;w)更新后的值,α表示学习率,γ表示折扣因子;
步骤3.1.3,更新当前状态,将st+1作为st,再执行步骤3.1.2,以此循环,直到状态st为目的地位置,同时DQN算法对移动机器人各种可能动作的打分也越来越精确;
步骤3.2,执行M个强化学习单回合模型,得到更新学习后的动作价值函数Q(s,a;w),即为DQN算法的输出向量Q(s,a;w)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779102.2A CN115167419A (zh) | 2022-06-30 | 2022-06-30 | 一种基于dqn算法的机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779102.2A CN115167419A (zh) | 2022-06-30 | 2022-06-30 | 一种基于dqn算法的机器人路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115167419A true CN115167419A (zh) | 2022-10-11 |
Family
ID=83491150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210779102.2A Pending CN115167419A (zh) | 2022-06-30 | 2022-06-30 | 一种基于dqn算法的机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115167419A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115855226A (zh) * | 2023-02-24 | 2023-03-28 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
-
2022
- 2022-06-30 CN CN202210779102.2A patent/CN115167419A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115855226A (zh) * | 2023-02-24 | 2023-03-28 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
CN115855226B (zh) * | 2023-02-24 | 2023-05-30 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN110378439B (zh) | 基于Q-Learning算法的单机器人路径规划方法 | |
CN112344944B (zh) | 一种引入人工势场的强化学习路径规划方法 | |
CN111141300A (zh) | 基于深度强化学习的智能移动平台无地图自主导航方法 | |
CN109978012A (zh) | 一种基于结合反馈的改进贝叶斯逆强化学习方法 | |
CN109947131A (zh) | 一种基于强化学习的多水下机器人编队控制方法 | |
CN109064514A (zh) | 一种基于投影点坐标回归的六自由度位姿估计算法 | |
CN111880565A (zh) | 一种基于Q-Learning的集群协同对抗方法 | |
CN109934330A (zh) | 基于多样化种群的果蝇优化算法来构建预测模型的方法 | |
CN108413963A (zh) | 基于自学习蚁群算法的条形机器人路径规划方法 | |
KR20220137732A (ko) | 적응형 리턴 계산 방식을 사용한 강화 학습 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN111159489B (zh) | 一种搜索方法 | |
CN115167419A (zh) | 一种基于dqn算法的机器人路径规划方法 | |
CN113377131B (zh) | 一种使用强化学习获得无人机收集数据轨迹的方法 | |
CN112930541A (zh) | 通过最小化妄想影响来确定控制策略 | |
JP4699598B2 (ja) | 問題解決器として動作するデータ処理装置、及び記憶媒体 | |
CN115629607A (zh) | 一种融合历史信息的强化学习路径规划方法 | |
CN111189455B (zh) | 一种无人机航路规划方法、系统及存储介质 | |
CN115493597A (zh) | 一种基于sac算法的auv路径规划控制方法 | |
CN115293623A (zh) | 一种生产调度模型的训练方法、装置、电子设备及介质 | |
CN116859903A (zh) | 基于改进哈里斯鹰优化算法的机器人平滑路径规划方法 | |
CN112595326A (zh) | 一种融合先验知识的改进Q-learning路径规划算法 | |
CN114610024B (zh) | 一种用于山地环境下的多智能体协同搜索节能方法 | |
Tian et al. | The application of path planning algorithm based on deep reinforcement learning for mobile robots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |