CN102819264A - 移动机器人路径规划q学习初始化方法 - Google Patents

移动机器人路径规划q学习初始化方法 Download PDF

Info

Publication number
CN102819264A
CN102819264A CN2012102692807A CN201210269280A CN102819264A CN 102819264 A CN102819264 A CN 102819264A CN 2012102692807 A CN2012102692807 A CN 2012102692807A CN 201210269280 A CN201210269280 A CN 201210269280A CN 102819264 A CN102819264 A CN 102819264A
Authority
CN
China
Prior art keywords
state
value
potential energy
robot
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102692807A
Other languages
English (en)
Other versions
CN102819264B (zh
Inventor
宋勇
李贻斌
刘冰
王小利
荣学文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University Weihai
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201210269280.7A priority Critical patent/CN102819264B/zh
Publication of CN102819264A publication Critical patent/CN102819264A/zh
Application granted granted Critical
Publication of CN102819264B publication Critical patent/CN102819264B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于人工势能场的移动机器人强化学习初始化方法。将机器人工作环境虚拟化为一个人工势能场,利用先验知识确定所有状态的势能值,使得障碍物区域势能值为零,目标点具有全局最大的势能值,这时人工势能场中每个状态的势能值就代表相应状态遵循最优策略获得的最大累积回报。然后定义Q初始值为当前状态的立即回报加上后继状态的最大折算累积回报。人工势能场将已知环境信息映射成为Q函数初始值,从而将先验知识融入到机器人学习系统中,提高了机器人在强化学习初始阶段的学习能力,与传统Q学习算法相比,本发明能够有效提高初始阶段的学习效率,加快算法收敛速度,算法收敛过程更稳定。

Description

移动机器人路径规划Q学习初始化方法
技术领域
本发明属于机器学习技术领域,尤其涉及一种移动机器人路径规划Q学习初始化方法。
背景技术
随着机器人应用领域的不断拓展,机器人所面临的任务也越来越复杂,尽管很多情况下研究人员可以对机器人可能执行的重复行为进行预编程,但为实现整体的期望行为而进行行为设计变得越来越困难,设计人员往往不可能事先对机器人的所有行为做出合理的预测。因此,能够感知环境的自治机器人必须能够通过与环境的交互在线学习获得新的行为,使得机器人能够根据特定的任务选择能达到目标的最优动作。
强化学习利用类似于人类思维中的试错(trial-and-error)的方法来发现最优行为策略,目前已经在机器人行为学习方面展现出了良好的学习性能。Q学习算法是求解信息不完全Markov决策问题的一种强化学习方法,根据环境状态和上一步学习获得的立即回报,修改从状态到动作的映射策略,以使行为从环境中获得的累积回报值最大,从而获得最优行为策略。标准Q学习算法一般将Q值初始化为0或随机数,机器人没有对环境的先验知识,学习的初始阶段只能随机地选择动作,因此,在复杂环境中算法收敛速度较慢。为了提高算法收敛速度,研究人员提出了许多改进Q学习的方法,提高算法学习效率,改善学习性能。
通常情况下,加速Q学习收敛速度的方法主要包括两个方面:一种方法是设计合适的回报函数,另一种方法是合理初始化Q函数。
目前,研究人员已经提出了许多改进的Q学习算法,使机器人在强化学习的过程中能够获得更加有效的回报,主要包括:关联Q学习算法、惰性Q学习算法、贝叶斯Q学习算法等。其主要目的就是将对于机器人有价值的隐含信息融入到回报函数中,从而加速算法收敛速度。
关联Q学习将当前回报与过去时刻的立即回报进行比较,选择回报值更大的动作,通过关联回报方法能够改善系统的学习能力,减少获得最优值所需要的迭代步数。
惰性Q学习的目标是提供一种预测状态立即回报的方法,学习过程中利用信息延迟原则,在必要的情况下对新的目标进行预测,动作比较器检查每一种情形的期望回报,然后选择期望回报最大的动作执行。
贝叶斯Q学习利用概率分布描述机器人状态-动作对Q值的不确定性估计,学习过程中需要考虑前一时刻Q值的分布,并利用机器人学习到的经验对先前的分布进行更新,利用贝叶斯变量表示当前状态的最大累积回报,贝叶斯方法从本质上改进了Q学习的探索策略,改善了Q学习的性能。
由于标准强化学习中强化信号都是由状态值函数计算得到的标量值,无法将人的知识形态和行为模式融入到学习系统中。而在机器人学习过程中,人往往具有相关领域的经验和知识,因此,在学习过程中将人的认知和智能以强化信号的形式反馈给机器人,能够减小状态空间维数,加快算法收敛速度。针对标准强化学习在人机交互过程中存在的问题,Thomaz等在机器人强化学习过程中由人实时地给出外部强化信号,人根据自身经验调整训练行为,引导机器人进行前瞻性探索。Arsenio提出了一种对训练数据进行在线、自动标注的学习策略,在人机交互过程中通过触发特定的事件获得训练数据,从而将施教者嵌入到强化学习的反馈回路。Mirza等提出了基于交互历史的体系结构,机器人能够利用与人进行社会性交互的历史经验进行强化学习,使机器人能够在与人进行的简单游戏中逐渐获得合适的行为。
另一种改善Q学习算法性能的方法就是将先验知识融入到学习系统中,对Q值进行初始化。目前,对Q值进行初始化的方法主要包括近似函数法、模糊规则法、势函数法等。
近似函数法利用神经网络等智能系统逼近最优值函数,将先验知识映射成为回报函数值,使机器人在整个状态空间的子集上进行学习,从而能够加快算法收敛速度。
模糊规则法根据初始环境信息建立模糊规则库,然后利用模糊逻辑对Q值进行初始化。利用这种方法建立的模糊规则都是根据环境信息人为设定的,往往不能客观地反映机器人的环境状态,造成算法不稳定。
势函数法在整个状态空间定义相应的状态势函数,每一点势能值对应于状态空间中某一离散状态值,然后利用状态势函数对Q值进行初始化,学习系统的Q值可以表示为初始值加上每次迭代的改变量。
在机器人的各种行为当中,机器人必须遵守一系列的行为准则,机器人通过认知与交互作用涌现出相应的行为与智能,机器人强化学习Q值初始化就是要将先验知识映射成为相应的机器人行为。因此,如何获得先验知识的规则化表达形式,特别是实现领域专家的经验与常识知识的机器推理,将人的认知和智能转化为机器的计算和推理的人机智能融合技术是机器人行为学习急需解决的问题。
发明内容
本发明的目的就是为了解决上述问题,提供一种移动机器人路径规划Q学习初始化方法,该方法通过Q值初始化能够将先验知识融入到学习系统中,对机器人初始阶段的学习进行优化,从而为机器人提供一个较好的学习基础,具有能够有效提高初始阶段的学习效率、加快收敛速度的优点。
为了实现上述目的,本发明采用如下技术方案:
一种移动机器人路径规划Q学习初始化方法,具体包括以下步骤:
步骤一:建立人工势能场模型:根据已知环境信息在机器人工作空间构建人工势能场,使得障碍物区域势能值为零,目标点具有全局最大的势能值,整个势能场形成单调递增的曲面,这时人工势能场中每个状态的势能值就代表该状态可获得的最大累积回报;
步骤二:设计回报函数;
步骤三:计算最大累积回报初始值:将每个状态的势能值作为该状态遵循最优行为策略所能够获得的最大累积回报;
步骤四:Q值初始化:将所有状态-动作对的Q(s,a)初始值定义为当前状态执行选定的动作获得的立即回报加上后继状态遵循最优策略获得的最大折算累积回报(最大累积回报乘以折算因子);
步骤五:基于人工势能场的移动机器人Q学习:移动机器人在初始Q值的基础上继续在复杂环境中进行学习,通过Q值初始化能够将先验知识融入到学习系统中,对机器人初始阶段的学习进行优化,从而为机器人提供一个较好的学习基础。
所述步骤一中,人工势能场法是由Khatib最先提出来的一种虚拟方法,最初只是为了解决机械手臂的避障问题,目前已成为应用最为广泛的机器人实时路径规划方法之一。其基本原理是将机器人的整个工作环境虚拟化为每一状态点都具有相应势能的空间,目标点在全局环境产生引力势场,障碍物在局部产生斥力场,利用叠加原理将引力场与斥力场叠加产生势场中每个状态的总场强。在人工势场中机器人依靠斥力场进行避障,利用引力场趋向目标,使得机器人能够从起始位置出发,避开障碍物到达目标点。目前,大多采用库伦定理创建人工势能场计算模型,某一状态的势能大小反比于该状态与障碍物或目标之间的距离;
所述步骤二中,在学习过程中,机器人能够在4个方向上移动,在任意状态选择上下左右4个动作,机器人根据当前状态选择动作,如果该动作使机器人到达目标则获得的立即回报为1,如果机器人与障碍物或其他机器人发生碰撞则获得立即回报为-0.2,如果机器人在自由空间移动则获得的立即回报为-0.1;
所述步骤三中,根据已知环境信息构造人工势能场U′,定义每个状态的最大累积回报初始值V* Init(si)等于该状态对应点的势能值|U′|,其关系公式如下:
V Init * ( s i ) ← | U ′ ( s i ) | ,
公式中,|U′(si)|为状态si的势能值,V* Init(si)为从状态si出发遵循最优策略所能获得的最大累积回报初始值;
所述步骤四中,Q值初始化时,定义Q(si,a)的初始值为在状态si下选择动作a所获得的立即回报r加上后继状态的最大折算累积回报:
Q Init ( s i , a ) = r + γ V Init * ( s j )
公式中,sj为机器人在状态si下选择动作a所产生的后继状态,QInit(si,a)为状态-动作对(si,a)的初始Q值;γ为折算因子,选择γ=0.95;
所述步骤五的具体步骤为:
(a)利用构造的人工势能场U′;
(b)状态si获得的最大累积回报的初始值定义为该状态的势能值,公式如下:
V Init * ( s j ) ← | U ′ ( s i ) |
(c)按照如下规则初始化Q值: Q Init ( s i , a ) = r + γ V Init * ( s j ) ,
(d)观察当前状态st
(e)继续在复杂环境中探索,在当前状态st下选择一个动作at并执行,环境状态更新为新的状态s′t,并接收立即回报rt
(f)观察新状态s′t
(g)根据以下公式更新表项Q(st,at)值:
Q t ( s t , a t ) = ( 1 - α t ) Q t - 1 ( s t , a t ) + α t ( r t + γ arg a t ′ max Q t - 1 ( s t ′ , a t ′ ) )
公式中,αt为学习率,取值范围为(0,1),通常取值为0.5,并随学习过程衰减;
Qt-1(st,at)和Qt-1(s′t,a′t)分别为状态-动作对(st,at)和(s′t,a′t)在t-1时刻的取值,a′t为在新状态s′t下选择的动作;
(h)判断机器人是否已经到达目标或者学习系统已经达到设定的最大学习次数(保证学习系统在最大学习次数内收敛,在本发明的实验环境中最大学习次数设置为300),如果两者满足其一,则学习结束,否则返回到步骤(d)继续学习。
本发明的有益效果:
通过人工势能场将已知环境信息映射成为Q函数初始值,从而将先验知识融入到机器人学习系统中,提高了机器人在强化学习初始阶段的学习能力,与传统Q学习算法相比,能够有效提高初始阶段的学习效率,加快算法收敛速度。
附图说明
图1是基于人工势能场的移动机器人强化学习实施步骤流程图;
图2是基于人工势能场的移动机器人Q学习具体算法流程图;
图3是基于初始环境构建的人工势能场示意图;
图4是机器人目标点邻域内状态势能值及初始Q值示意图;
图5是基于标准Q-学习的机器人规划路径示意图;
图6是标准Q-学习算法收敛过程示意图;
图7是改进Q-学习算法收敛过程示意图;
图8是两种Q-学习算法迭代次数标准差示意图。
具体实施方式
下面结合附图与实例对本发明作进一步说明。
本发明基于人工势能场对机器人强化学习进行初始化,将机器人工作环境虚拟化为一个人工势能场,利用先验知识构建人工势能场,使得障碍物区域势能值为零,目标点具有全局最大的势能值,这时人工势能场中每个状态的势能值就代表相应状态遵循最优策略可获得的最大累积回报。然后定义Q初始值为当前状态的立即回报加上后继状态的最大折算累积回报。通过Q值初始化,使得学习过程收敛速度更快,收敛过程更稳定;如图1所示,具体包括以下步骤:
1人工势能场模型
人工势能场法是由Khatib最先提出来的一种虚拟方法,最初只是为了解决机械手臂的避障问题,目前已成为应用最为广泛的机器人实时路径规划方法之一。其基本原理是将机器人的整个工作环境虚拟化为每一状态点都具有相应势能的空间,目标点在全局环境产生引力势场,障碍物在局部产生斥力场,利用叠加原理将引力场与斥力场叠加产生势场中每个状态的总场强。在人工势场中机器人依靠斥力场进行避障,利用引力场趋向目标,使得机器人能够从起始位置出发,避开障碍物到达目标点。目前,大多采用库伦定理创建人工势能场计算模型,某一状态的势能大小反比于该状态与障碍物或目标之间的距离,计算公式如下:
U(s)=Ua(s)+Ur(s)
其中U(s)为状态s点的势能,Ua(s)为引力场在状态s点产生的势能,Ur(s)为斥力场在状态s点产生的势能。
U a ( s ) = 1 2 k a ρ g 2 ( s )
其中ka为比例因子,ρg(s)为状态s点与目标点之间的最短距离。
U r ( s ) = 1 2 k r ( 1 &rho; ob ( s ) - 1 &rho; 0 ) 2 if&rho; ( s ) < &rho; 0 0 if&rho; ( s ) &GreaterEqual; &rho; 0
其中kr为比例因子,ρob(s)为状态s点与障碍物之间的最短距离,ρ0为障碍物影响系数。
在人工势能场中,机器人工作的环境被转换为一个矢量场,目标点具有最低势能,势能值为零,障碍物区域具有最高势能。为了缩小势能场量值的范围差,并且使目标点具有全局最高势能,利用如下公式对构造的矢量场进行归一化处理:
U &prime; ( s ) = U max ( s ) - U ( s ) | U max ( s ) |
其中U′(s)为势能场U′中状态s的势能,Umax(s)为势能场中最高的势能,其对应的势能值为|Umax(s)|。通过上式转换在机器人工作空间构造出一个新的势能场,使得障碍物区域势能值为零,目标点势能值为1,并且整个势能场形成单调递增的曲面。
2回报函数设计
在学习过程中,机器人能够在4个方向上移动,在任意状态可以选择上下左右4个动作,机器人根据当前状态选择动作,如果该动作使机器人到达目标则获得的立即回报为1,如果机器人与障碍物或其他机器人发生碰撞则获得立即回报为-0.2,如果机器人在自由空间移动则获得的立即回报为-0.1。
3计算最大累积回报初始值
利用人工势能场对已知的环境信息进行描述,目标位置在全局范围产生吸引势能场,已知的障碍物产生局部排斥势能场,两种势能场的叠加产生每个状态点的总场强,并对构建的势能场进行归一化处理,使得目标点具有全局最大势能,障碍物区域具有最小势能,所有状态的势能值就构成了一个单峰值的曲面,如图3所示,曲面上每一个点的值就代表其所对应状态可获得的最大累积回报。
机器人从任意初始状态st出发获得的累积回报定义如下:
V &pi; ( s t ) = r t + &gamma; r t + 1 + &gamma; 2 r t + 2 + &CenterDot; &CenterDot; &CenterDot; = &Sigma; i = 0 &infin; &gamma; i r t + i
上式中,π为控制策略,r为获得的立即回报序列,γ为折算因子,取值范围为(0,1),这里选择γ=0.95;则机器人从状态s出发遵循最优策略所获得的最大累积回报V*(s)计算如下:
V * ( s ) = arg max &pi; V &pi; ( s ) , ( &ForAll; s )
构建如图1所示的人工势能场,定义每个状态的最大累积回报V* Init(si)等于该状态的势能值,其关系公式如下:
V Init * ( s i ) &LeftArrow; | U &prime; ( s i ) | .
公式中,|U′(si)|为状态si对应点的势能值,V* Init(si)为从状态si出发遵循最优策略所能获得的最大累积回报初始值。
4基于人工势能场的机器人强化学习
4.1传统Q学习算法
在马尔科夫决策过程中,机器人通过传感器感知周围环境获知当前状态,并选择当前要执行的动作,环境响应该动作并给出立即回报,并产生后继状态。机器人强化学习的任务就是获得一个最优策略使得机器人从当前状态出发获得最大的折算累积回报。机器人从任意初始状态遵循任意策略π获得的累积回报定义为:
V &pi; ( s t ) &equiv; r t + &gamma; r t + 1 + &gamma; 2 r t + 2 + &CenterDot; &CenterDot; &CenterDot; &equiv; &Sigma; i = 0 &infin; &gamma; i r t + i
公式中,rt为t时刻的立即回报,γ为折算因子,取值范围为(0,1),这里选择γ=0.95。
机器人从状态s出发能够获得最大累积回报的最优策略π*定义如下:
&pi; * &equiv; arg max &pi; V &pi; ( s ) , &ForAll; ( s )
机器人从状态s出发遵循最优策略π*所能够获得的最大累积回报定义为V*(s),则Q函数的值为当前状态的立即回报加上后继状态的最大折算累积回报,计算公式如下:
Q(s,a)≡(1-αt)Q(s,a)+αt(r(s,a)+γV*(s'))
公式中,αt为学习率,取值范围为(0,1),通常选择αt初始值为0.5,并随学习次数衰减;V*(s’)与Q(s′,a’)关系式如下:
V * ( s &prime; ) = max Q ( s &prime; , a &prime; ) a &prime;
则Q(st,at)按照如下规则更新:
Q t ( s t , a t ) = ( 1 - &alpha; t ) Q t - 1 ( s t , a t ) + &alpha; t ( r t + &gamma; arg a t &prime; max Q t - 1 ( s t &prime; , a t &prime; ) )
公式中,Qt-1(st,at)和Qt-1(s′t,a′t)分别为状态-动作对(st,at)和(s′t,a′t)在t-1时刻的取值,a′t为在新状态s′t下选择的动作。
4.2Q值初始化
根据已知环境信息构建人工势能场,这时定义每个离散状态可获得的最大累积回报等于该状态的势能值。然后将从当前状态执行选定的动作获得的立即回报加上后继状态遵循最优策略获得的最大折算累积回报,即可对所有状态-动作对的Q(si,a)设置合理的初始值。Q(si,a)的初始值计算公式如下:
Q Init ( s i , a ) = r + &gamma; V Init * ( s j )
公式中,r为在状态si下选择动作a获得的立即回报,γ为折算因子,取值范围为(0,1),这里选择γ=0.95;sj为机器人在状态si下选择动作a所产生的后继状态,QInit(si,a)为状态-动作对(si,a)的初始Q值;
4.3如图2所示,本发明的基于人工势能场的Q学习算法
(1)根据初始化环境信息构造人工势能场U′。
(2)将状态si的势能值|U′(si)|定义为从该状态出发采用最优行为策略可获得的最大累积回报,关系公式如下:
V Init * ( s i ) &LeftArrow; | U &prime; ( s i ) |
(3)按照如下规则初始化Q值:
QInit(si,a)=r+γVInit*(sj)
(4)观察当前状态st
(5)继续在复杂环境中探索,在当前状态st下选择一个动作at并执行,环境状态更新为新的状态s′t,并接收立即回报rt
(6)观察新状态s′t
(7)根据以下公式更新表项Q(st,at)值:
Q t ( s t , a t ) = ( 1 - &alpha; t ) Q t - 1 ( s t , a t ) + &alpha; t ( r t + &gamma; arg a t &prime; max Q t - 1 ( s t &prime; , a t &prime; ) )
(8)判断机器人是否已经到达目标或者学习系统已经达到设定的最大学习次数(保证学习系统在最大学习次数内收敛,在本发明的实验环境中最大学习次数设置为300),如果两者满足其一,则学习结束,否则返回到步骤(4)继续学习。
为了说明机器人强化学习Q值初始化过程,选择仿真实验中机器人目标点邻域进行演示。在人工势能场中,目标点邻域内状态的势能值如图4中节点中数值所示,每个节点对应于一个离散的状态,每个状态的最大累积回报等于该状态的势能值,势能值为1的节点表示目标状态,势能值为0的节点表示障碍物。每个箭头代表一个动作,若机器人导向目标状态G则获得的立即回报为1,若与障碍物发生碰撞则获得的立即回报为-0.2,若机器人在自由空间移动则获得的立即回报为-0.1。γ为折算因子,选择γ=0.95,根据Q值初始化公式可获得Q函数的初始值,每个状态-动作对的初始Q值如图4中箭头代表数值所示。初始化完成以后,机器人在初始环境的任意状态下都能够选择合适的动作,当机器人面临较复杂的环境时,在学习的初始阶段就具有一定的目的性,而不是完全随机地选择动作,从而加快算法收敛速度。
在实验室所建立的移动机器人环境建模和探索软件平台上,进行了仿真实验。图5为现有的机器人强化学习方法获得的机器人规划路径;图6为现有的机器人强化学习算法收敛过程。算法在经过265次尝试以后开始收敛,在学习的初始阶段(如前80次尝试)机器人在最大迭代次数内基本都不能到达目标点。这是由于Q值被初始化为0,使得机器人没有任何先验知识,只能随机地选择动作,从而导致学习初始阶段效率较低,算法收敛速度较慢。
图7为本发明的算法收敛过程,改进算法明显改善了学习过程的收敛性,算法在经过143次尝试以后开始收敛,而且机器人在经过十几次尝试以后,基本都能在最大迭代次数之内到达目标点,与图6比较可以发现,这种启发式Q值初始化方法有效提高了算法初始阶段的学习效率,明显地改善了机器人路径规划强化学习算法的性能;图8为两种Q-学习算法迭代次数标准差,在学习的初始阶段基于标准Q-学习的机器人在最大迭代次数范围内无法到达目标点,每次学习的迭代次数都等于最大迭代次数,标准差为零。随着学习过程的进行,经过几十次尝试机器人偶尔能够到达目标点,标准差逐渐增大。经过一定时间的学习,机器人每次尝试的迭代次数逐渐收敛于最短路径步数,标准差逐渐减小直至为零。与标准Q-学习算法相比,改进的Q-学习算法在经过十几次尝试,标准差就大于零,说明机器人已经开始能够到达目标点。在学习的最后阶段,改进的Q-学习算法的标准差曲线也较平滑,而且收敛速度更快,这一现象表明基于人工势能场的Q值初始化方法能够明显加快算法的收敛速度,并且能够使得算法收敛过程更加稳定。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (5)

1.一种移动机器人路径规划Q学习初始化方法,其特征是,具体包括以下步骤:
步骤一:建立人工势能场模型:根据已知环境信息在机器人工作空间构建人工势能场,使得障碍物区域势能值为零,目标点具有全局最大的势能值,整个势能场形成单调递增的曲面,这时人工势能场中每个状态的势能值就代表该状态获得的最大累积回报;
步骤二:设计回报函数;
步骤三:计算最大累积回报初始值:将每个状态的势能值作为该状态遵循最优行为策略所能够获得的最大累积回报;
步骤四:Q值初始化:将所有状态-动作对的Q(s,a)初始值定义为当前状态执行选定的动作获得的立即回报加上后继状态遵循最优策略获得的最大折算累积回报;
步骤五:基于人工势能场的移动机器人Q-学习:移动机器人在初始Q值的基础上继续在复杂环境中进行强化学习,通过Q值初始化能够将先验知识融入到学习系统中,对机器人初始阶段的学习进行优化,从而为机器人提供一个较好的学习基础。
2.如权利要求1所述的一种移动机器人路径规划Q学习初始化方法,其特征是,所述步骤二中,在学习过程中,机器人能够在4个方向上移动,在任意状态选择上下左右4个动作,机器人根据当前状态选择动作。
3.如权利要求1所述的一种移动机器人路径规划Q学习初始化方法,其特征是,所述步骤三中,根据已知环境信息构造人工势能场U′,定义每个状态的最大累积回报初始值V* Init(si)等于该状态对应点的势能值|U′|,其关系公式如下:
V Init * ( s i ) &LeftArrow; | U &prime; ( s i ) | ,
公式中,U′(si)为状态si的势能值,V* Init(si)为从状态si出发遵循最优策略所能获得的最大累积回报初始值。
4.如权利要求1所述的一种移动机器人路径规划Q学习初始化方法,其特征是,所述步骤四中,Q值初始化描述如下:
Q(si,a)的初始值定义为在状态si下选择动作a所获得的立即回报r加上后继状态的最大折算累积回报:
Q Init ( s i , a ) = r + &gamma; V Init * ( s j )
公式中,sj为机器人在状态si下选择动作a所产生的后继状态,QInit(si,a)为状态-动作对(si,a)的初始Q值;γ为折算因子。
5.如权利要求1所述的一种移动机器人路径规划Q学习初始化方法,其特征是,所述步骤五的具体步骤为:
(a)根据已知环境信息构造人工势能场U′;
(b)状态si获得的最大累积回报的初始值定义为该状态的势能值,公式如下:
V Init * ( s j ) &LeftArrow; | U &prime; ( s i ) |
(c)按照如下规则初始化Q值: Q Init ( s i , a ) = r + &gamma; V Init * ( s j ) ,
(d)观察当前状态st
(e)继续在复杂环境中探索,在当前状态st下选择一个动作at并执行,环境状态更新为新的状态s′t,并接收立即回报rt
(f)观察新状态s′t
(g)根据以下公式更新表项Q(st,at)值:
Q t ( s t , a t ) = ( 1 - &alpha; t ) Q t - 1 ( s t , a t ) + &alpha; t ( r t + &gamma; arg a t &prime; max Q t - 1 ( s t &prime; , a t &prime; ) )
公式中,αt为学习率,取值范围为(0,1),通常取值为0.5,并随学习过程衰减;Qt-1(st,at)和Qt-1(s′t,a′t)分别为状态-动作对(st,at)和(s′t,a′t)在t-1时刻的取值,a′t为在新状态s′t下选择的动作;
(h)判断机器人是否已经到达目标或者学习系统已经达到设定的最大学习次数,如果两者满足其一,则学习结束,否则返回到步骤(d)继续学习。
CN201210269280.7A 2012-07-30 2012-07-30 移动机器人路径规划q学习初始化方法 Expired - Fee Related CN102819264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210269280.7A CN102819264B (zh) 2012-07-30 2012-07-30 移动机器人路径规划q学习初始化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210269280.7A CN102819264B (zh) 2012-07-30 2012-07-30 移动机器人路径规划q学习初始化方法

Publications (2)

Publication Number Publication Date
CN102819264A true CN102819264A (zh) 2012-12-12
CN102819264B CN102819264B (zh) 2015-01-21

Family

ID=47303416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210269280.7A Expired - Fee Related CN102819264B (zh) 2012-07-30 2012-07-30 移动机器人路径规划q学习初始化方法

Country Status (1)

Country Link
CN (1) CN102819264B (zh)

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412490A (zh) * 2013-08-14 2013-11-27 山东大学 用于多机器人动态路径规划的多克隆人工免疫网络算法
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
CN104680264A (zh) * 2015-03-27 2015-06-03 青岛大学 一种基于多智能体强化学习的运输车路径优化方法
CN104932267A (zh) * 2015-06-04 2015-09-23 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN105139072A (zh) * 2015-09-09 2015-12-09 东华大学 应用于非循迹智能小车避障系统的强化学习算法
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105700526A (zh) * 2016-01-13 2016-06-22 华北理工大学 具有自主学习能力的在线序列极限学习机方法
CN105740644A (zh) * 2016-03-24 2016-07-06 苏州大学 一种基于模型学习的清洁机器人最优目标路径规划方法
CN106017494A (zh) * 2016-05-23 2016-10-12 福州华鹰重工机械有限公司 基于学徒学习的路径规划方法及装置
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN104390648B (zh) * 2014-12-22 2017-07-11 中国矿业大学 一种基于人工势场的煤矿救灾机器人路径规划方法
CN107000223A (zh) * 2014-12-25 2017-08-01 川崎重工业株式会社 臂型机械手的障碍物自动回避方法及控制装置
CN107024220A (zh) * 2017-04-14 2017-08-08 淮安信息职业技术学院 基于强化学习蟑螂算法的机器人路径规划方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107066967A (zh) * 2017-04-12 2017-08-18 清华大学 一种利用局部观测信息的主动人脸寻的方法及装置
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及系统
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法
CN107292392A (zh) * 2017-05-11 2017-10-24 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN107422733A (zh) * 2017-07-27 2017-12-01 南京理工大学 一种基于两轮差速机器人的运动控制方法
CN107844460A (zh) * 2017-07-24 2018-03-27 哈尔滨工程大学 一种基于p‑maxq的多水下机器人的围捕方法
CN107885086A (zh) * 2017-11-17 2018-04-06 合肥工业大学 基于mcmc优化q学习的自主航行器控制参数在线调节方法
CN108202327A (zh) * 2016-12-16 2018-06-26 发那科株式会社 机器学习装置、机器人系统以及机器学习方法
CN108594803A (zh) * 2018-03-06 2018-09-28 吉林大学 基于q-学习算法的路径规划方法
CN108693851A (zh) * 2017-03-31 2018-10-23 发那科株式会社 行为信息学习装置、机器人控制系统及行为信息学习方法
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN108995220A (zh) * 2018-07-17 2018-12-14 大连理工大学 基于强化学习的复杂薄壁结构物体3d打印路径规划方法
CN109146082A (zh) * 2017-06-27 2019-01-04 发那科株式会社 机器学习装置、机器人控制系统和机器学习方法
CN109382825A (zh) * 2017-08-08 2019-02-26 发那科株式会社 控制装置以及学习装置
CN109409592A (zh) * 2018-10-15 2019-03-01 浙江工业大学 动态环境下移动机器人的最优策略解决方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109445437A (zh) * 2018-11-30 2019-03-08 电子科技大学 一种无人电动车的路径规划方法
CN109540136A (zh) * 2018-10-25 2019-03-29 广东华中科技大学工业技术研究院 一种多无人艇协同路径规划方法
CN109635913A (zh) * 2018-12-16 2019-04-16 北京工业大学 基于自适应贪婪的q学习算法足球系统仿真方法
CN109663359A (zh) * 2018-12-06 2019-04-23 广州多益网络股份有限公司 游戏智能体训练的优化方法、装置、终端设备与存储介质
CN109857107A (zh) * 2019-01-30 2019-06-07 广州大学 Agv小车导航方法、装置、系统、介质和设备
CN110046800A (zh) * 2019-03-14 2019-07-23 南京航空航天大学 面向空间目标协同观测的卫星集群构形调整规划方法
CN110070188A (zh) * 2019-04-30 2019-07-30 山东大学 一种融合交互式强化学习的增量式认知发育系统及方法
CN110196587A (zh) * 2018-02-27 2019-09-03 中国科学院深圳先进技术研究院 车辆自动驾驶控制策略模型生成方法、装置、设备及介质
CN110307848A (zh) * 2019-07-04 2019-10-08 南京大学 一种移动机器人导航方法
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
CN110378439A (zh) * 2019-08-09 2019-10-25 重庆理工大学 基于Q-Learning算法的单机器人路径规划方法
CN111045054A (zh) * 2019-04-19 2020-04-21 泰州腾翔信息科技有限公司 基于导航数据的编号识别平台
CN111544888A (zh) * 2020-04-22 2020-08-18 腾讯科技(深圳)有限公司 虚拟群体单位的移动方法和装置、存储介质及电子设备
CN111949032A (zh) * 2020-08-18 2020-11-17 中国科学技术大学 一种基于强化学习的3d避障导航系统及方法
CN112052511A (zh) * 2020-06-15 2020-12-08 成都蓉奥科技有限公司 一种基于深度随机博弈的空战机动策略生成技术
CN112099493A (zh) * 2020-08-31 2020-12-18 西安交通大学 一种自主移动机器人轨迹规划方法、系统及设备
CN112507520A (zh) * 2020-11-12 2021-03-16 深圳慧拓无限科技有限公司 一种基于强化学习的路径规划方法及装置
CN112595326A (zh) * 2020-12-25 2021-04-02 湖北汽车工业学院 一种融合先验知识的改进Q-learning路径规划算法
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合系统
WO2021227536A1 (en) * 2020-05-15 2021-11-18 Huawei Technologies Co., Ltd. Methods and systems for support policy learning
CN113677485A (zh) * 2019-01-23 2021-11-19 谷歌有限责任公司 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应
CN113720346A (zh) * 2021-09-02 2021-11-30 重庆邮电大学 基于势能场和隐马尔可夫模型的车辆路径规划方法及系统
CN113790729A (zh) * 2021-11-16 2021-12-14 北京科技大学 一种基于强化学习算法的无人天车路径规划方法及装置
CN113848911A (zh) * 2021-09-28 2021-12-28 华东理工大学 基于Q-learning和RRT*的移动机器人全局路径规划方法
CN114610034A (zh) * 2022-03-10 2022-06-10 西安科技大学 一种移动机器人路径规划方法
CN115542912A (zh) * 2022-09-29 2022-12-30 福州大学 一种基于改进Q-learning算法的移动机器人路径规划方法
CN116187611A (zh) * 2023-04-25 2023-05-30 南方科技大学 一种多智能体路径规划方法及终端
CN116922379A (zh) * 2023-07-10 2023-10-24 深圳进化动力数码科技有限公司 基于视觉的机械臂避障方法、系统、电子设备及存储介质
CN116922379B (zh) * 2023-07-10 2024-05-31 深圳进化动力数码科技有限公司 基于视觉的机械臂避障方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078951A1 (en) * 2000-04-13 2001-10-25 Zhimin Lin Semi-optimal path finding in a wholly unknown environment
KR101048098B1 (ko) * 2008-09-03 2011-07-11 한국과학기술원 로봇의 경로계획 장치 및 방법
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078951A1 (en) * 2000-04-13 2001-10-25 Zhimin Lin Semi-optimal path finding in a wholly unknown environment
KR101048098B1 (ko) * 2008-09-03 2011-07-11 한국과학기술원 로봇의 경로계획 장치 및 방법
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIAODONG ZHUANG 等: "Robot Path Planning by Artificial Potential Field Optimization Based on Reinforcement Learning with Fuzzy State", 《PROCEEDINGS OF THE 4TH WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION》 *
张波涛 等: "基于Q-GA的人工势场的移动机器人路径规划", 《控制工程》 *
王芳 等: "基于改进人工势场的水下机器人路径规划", 《华中科技大学学报(自然科学版)》 *
黄炳强 等: "基于人工势场法的移动机器人路径规划研究", 《计算机工程与应用》 *
黄鹏 等: "基于动态人工势场法的足球机器人运动策略研究", 《马特斯杯2003年中国机器人大赛及研讨会》 *

Cited By (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412490B (zh) * 2013-08-14 2015-09-16 山东大学 用于多机器人动态路径规划的多克隆人工免疫网络算法
CN103412490A (zh) * 2013-08-14 2013-11-27 山东大学 用于多机器人动态路径规划的多克隆人工免疫网络算法
CN104298239B (zh) * 2014-09-29 2016-08-24 湖南大学 一种室内移动机器人增强地图学习路径规划方法
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
CN104390648B (zh) * 2014-12-22 2017-07-11 中国矿业大学 一种基于人工势场的煤矿救灾机器人路径规划方法
CN107000223B (zh) * 2014-12-25 2019-11-01 川崎重工业株式会社 臂型机械手的障碍物自动回避方法及控制装置
CN107000223A (zh) * 2014-12-25 2017-08-01 川崎重工业株式会社 臂型机械手的障碍物自动回避方法及控制装置
US10350756B2 (en) 2014-12-25 2019-07-16 Kawasaki Jukogyo Kabushiki Kaisha Method of automatically avoiding obstacle for arm robot and control device
CN104680264A (zh) * 2015-03-27 2015-06-03 青岛大学 一种基于多智能体强化学习的运输车路径优化方法
CN104680264B (zh) * 2015-03-27 2017-09-22 青岛大学 一种基于多智能体强化学习的运输车路径优化方法
CN104932267A (zh) * 2015-06-04 2015-09-23 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN104932267B (zh) * 2015-06-04 2017-10-03 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105137967B (zh) * 2015-07-16 2018-01-19 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105139072A (zh) * 2015-09-09 2015-12-09 东华大学 应用于非循迹智能小车避障系统的强化学习算法
CN105700526B (zh) * 2016-01-13 2018-07-27 华北理工大学 具有自主学习能力的在线序列极限学习机方法
CN105700526A (zh) * 2016-01-13 2016-06-22 华北理工大学 具有自主学习能力的在线序列极限学习机方法
CN105740644B (zh) * 2016-03-24 2018-04-13 苏州大学 一种基于模型学习的清洁机器人最优目标路径规划方法
CN105740644A (zh) * 2016-03-24 2016-07-06 苏州大学 一种基于模型学习的清洁机器人最优目标路径规划方法
CN106017494A (zh) * 2016-05-23 2016-10-12 福州华鹰重工机械有限公司 基于学徒学习的路径规划方法及装置
CN108202327A (zh) * 2016-12-16 2018-06-26 发那科株式会社 机器学习装置、机器人系统以及机器学习方法
US10780577B2 (en) 2016-12-16 2020-09-22 Fanuc Corporation Machine learning device, robot system, and machine learning method for learning operations of robot and laser scanner
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN108693851A (zh) * 2017-03-31 2018-10-23 发那科株式会社 行为信息学习装置、机器人控制系统及行为信息学习方法
US10730182B2 (en) 2017-03-31 2020-08-04 Fanuc Corporation Action information learning device, robot control system and action information learning method
CN108693851B (zh) * 2017-03-31 2020-05-26 发那科株式会社 行为信息学习装置、机器人控制系统及行为信息学习方法
CN107066967B (zh) * 2017-04-12 2020-06-02 清华大学 一种利用局部观测信息的主动人脸寻的方法及装置
CN107066967A (zh) * 2017-04-12 2017-08-18 清华大学 一种利用局部观测信息的主动人脸寻的方法及装置
CN107024220A (zh) * 2017-04-14 2017-08-08 淮安信息职业技术学院 基于强化学习蟑螂算法的机器人路径规划方法
CN107292392B (zh) * 2017-05-11 2019-11-22 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN107292392A (zh) * 2017-05-11 2017-10-24 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107065881B (zh) * 2017-05-17 2019-11-08 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及系统
US10596698B2 (en) 2017-06-27 2020-03-24 Fanuc Corporation Machine learning device, robot control system, and machine learning method
CN109146082A (zh) * 2017-06-27 2019-01-04 发那科株式会社 机器学习装置、机器人控制系统和机器学习方法
CN107844460A (zh) * 2017-07-24 2018-03-27 哈尔滨工程大学 一种基于p‑maxq的多水下机器人的围捕方法
CN107844460B (zh) * 2017-07-24 2020-12-25 哈尔滨工程大学 一种基于p-maxq的多水下机器人的围捕方法
CN107422733B (zh) * 2017-07-27 2020-04-21 南京理工大学 一种基于两轮差速机器人的运动控制方法
CN107422733A (zh) * 2017-07-27 2017-12-01 南京理工大学 一种基于两轮差速机器人的运动控制方法
US10953538B2 (en) 2017-08-08 2021-03-23 Fanuc Corporation Control device and learning device
CN109382825A (zh) * 2017-08-08 2019-02-26 发那科株式会社 控制装置以及学习装置
CN109382825B (zh) * 2017-08-08 2021-03-02 发那科株式会社 控制装置以及学习装置
CN107885086A (zh) * 2017-11-17 2018-04-06 合肥工业大学 基于mcmc优化q学习的自主航行器控制参数在线调节方法
CN107885086B (zh) * 2017-11-17 2019-10-25 合肥工业大学 基于mcmc优化q学习的自主航行器控制参数在线调节方法
CN110196587A (zh) * 2018-02-27 2019-09-03 中国科学院深圳先进技术研究院 车辆自动驾驶控制策略模型生成方法、装置、设备及介质
CN108594803B (zh) * 2018-03-06 2020-06-12 吉林大学 基于q-学习算法的路径规划方法
CN108594803A (zh) * 2018-03-06 2018-09-28 吉林大学 基于q-学习算法的路径规划方法
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN108803313B (zh) * 2018-06-08 2022-07-12 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN108995220A (zh) * 2018-07-17 2018-12-14 大连理工大学 基于强化学习的复杂薄壁结构物体3d打印路径规划方法
CN108995220B (zh) * 2018-07-17 2020-04-28 大连理工大学 基于强化学习的复杂薄壁结构物体3d打印路径规划方法
CN109409592A (zh) * 2018-10-15 2019-03-01 浙江工业大学 动态环境下移动机器人的最优策略解决方法
CN109409592B (zh) * 2018-10-15 2021-08-24 浙江工业大学 动态环境下移动机器人的最优策略解决方法
CN109540136A (zh) * 2018-10-25 2019-03-29 广东华中科技大学工业技术研究院 一种多无人艇协同路径规划方法
CN109445437A (zh) * 2018-11-30 2019-03-08 电子科技大学 一种无人电动车的路径规划方法
CN109663359B (zh) * 2018-12-06 2022-03-25 广州多益网络股份有限公司 游戏智能体训练的优化方法、装置、终端设备与存储介质
CN109663359A (zh) * 2018-12-06 2019-04-23 广州多益网络股份有限公司 游戏智能体训练的优化方法、装置、终端设备与存储介质
CN109635913A (zh) * 2018-12-16 2019-04-16 北京工业大学 基于自适应贪婪的q学习算法足球系统仿真方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN113677485A (zh) * 2019-01-23 2021-11-19 谷歌有限责任公司 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应
CN109857107A (zh) * 2019-01-30 2019-06-07 广州大学 Agv小车导航方法、装置、系统、介质和设备
CN110046800B (zh) * 2019-03-14 2020-09-25 南京航空航天大学 面向空间目标协同观测的卫星集群构形调整规划方法
CN110046800A (zh) * 2019-03-14 2019-07-23 南京航空航天大学 面向空间目标协同观测的卫星集群构形调整规划方法
CN111045054A (zh) * 2019-04-19 2020-04-21 泰州腾翔信息科技有限公司 基于导航数据的编号识别平台
CN110070188B (zh) * 2019-04-30 2021-03-30 山东大学 一种融合交互式强化学习的增量式认知发育系统及方法
CN110070188A (zh) * 2019-04-30 2019-07-30 山东大学 一种融合交互式强化学习的增量式认知发育系统及方法
CN110307848A (zh) * 2019-07-04 2019-10-08 南京大学 一种移动机器人导航方法
CN110321666B (zh) * 2019-08-09 2022-05-03 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
CN110378439A (zh) * 2019-08-09 2019-10-25 重庆理工大学 基于Q-Learning算法的单机器人路径规划方法
CN112799386B (zh) * 2019-10-25 2021-11-23 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN111544888A (zh) * 2020-04-22 2020-08-18 腾讯科技(深圳)有限公司 虚拟群体单位的移动方法和装置、存储介质及电子设备
WO2021227536A1 (en) * 2020-05-15 2021-11-18 Huawei Technologies Co., Ltd. Methods and systems for support policy learning
US11605026B2 (en) 2020-05-15 2023-03-14 Huawei Technologies Co. Ltd. Methods and systems for support policy learning
CN112052511A (zh) * 2020-06-15 2020-12-08 成都蓉奥科技有限公司 一种基于深度随机博弈的空战机动策略生成技术
CN111949032A (zh) * 2020-08-18 2020-11-17 中国科学技术大学 一种基于强化学习的3d避障导航系统及方法
CN112099493B (zh) * 2020-08-31 2021-11-19 西安交通大学 一种自主移动机器人轨迹规划方法、系统及设备
CN112099493A (zh) * 2020-08-31 2020-12-18 西安交通大学 一种自主移动机器人轨迹规划方法、系统及设备
CN112507520A (zh) * 2020-11-12 2021-03-16 深圳慧拓无限科技有限公司 一种基于强化学习的路径规划方法及装置
CN112595326A (zh) * 2020-12-25 2021-04-02 湖北汽车工业学院 一种融合先验知识的改进Q-learning路径规划算法
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合系统
CN113720346B (zh) * 2021-09-02 2023-07-04 重庆邮电大学 基于势能场和隐马尔可夫模型的车辆路径规划方法及系统
CN113720346A (zh) * 2021-09-02 2021-11-30 重庆邮电大学 基于势能场和隐马尔可夫模型的车辆路径规划方法及系统
CN113848911A (zh) * 2021-09-28 2021-12-28 华东理工大学 基于Q-learning和RRT*的移动机器人全局路径规划方法
CN113790729A (zh) * 2021-11-16 2021-12-14 北京科技大学 一种基于强化学习算法的无人天车路径规划方法及装置
CN113790729B (zh) * 2021-11-16 2022-04-08 北京科技大学 一种基于强化学习算法的无人天车路径规划方法及装置
CN114610034A (zh) * 2022-03-10 2022-06-10 西安科技大学 一种移动机器人路径规划方法
CN115542912A (zh) * 2022-09-29 2022-12-30 福州大学 一种基于改进Q-learning算法的移动机器人路径规划方法
CN115542912B (zh) * 2022-09-29 2024-06-07 福州大学 一种基于改进Q-learning算法的移动机器人路径规划方法
CN116187611A (zh) * 2023-04-25 2023-05-30 南方科技大学 一种多智能体路径规划方法及终端
CN116922379A (zh) * 2023-07-10 2023-10-24 深圳进化动力数码科技有限公司 基于视觉的机械臂避障方法、系统、电子设备及存储介质
CN116922379B (zh) * 2023-07-10 2024-05-31 深圳进化动力数码科技有限公司 基于视觉的机械臂避障方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN102819264B (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN102819264B (zh) 移动机器人路径规划q学习初始化方法
CN102402712B (zh) 基于神经网络的机器人强化学习初始化方法
Jiang et al. Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge
Low et al. Solving the optimal path planning of a mobile robot using improved Q-learning
Mohanty et al. Controlling the motion of an autonomous mobile robot using various techniques: a review
CN111780777A (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
EP3863904A2 (en) Autonomous vehicle planning
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
Shiltagh et al. Optimal path planning for intelligent mobile robot navigation using modified particle swarm optimization
JP7448683B2 (ja) マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション
Babu et al. Model predictive control for autonomous driving considering actuator dynamics
Ma et al. State-chain sequential feedback reinforcement learning for path planning of autonomous mobile robots
EP3955082A1 (en) Computer-implemented method and device for controlling a mobile robot based on semantic environment maps
Roy et al. Adaptive firefly algorithm for nonholonomic motion planning of car-like system
Yan et al. Real-world learning control for autonomous exploration of a biomimetic robotic shark
Wang et al. Adaptive environment modeling based reinforcement learning for collision avoidance in complex scenes
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Guo et al. Optimal navigation for AGVs: A soft actor–critic-based reinforcement learning approach with composite auxiliary rewards
Raiesdana A hybrid method for industrial robot navigation
Zhang et al. Robot path planning method based on deep reinforcement learning
CN116360454A (zh) 行人环境下基于深度强化学习的机器人路径避碰规划方法
Shi et al. Research on Path Planning Strategy of Rescue Robot Based on Reinforcement Learning
Guan et al. Research on path planning of mobile robot based on improved Deep Q Network
Cherroun et al. Intelligent systems based on reinforcement learning and fuzzy logic approaches," Application to mobile robotic"
CN115097814A (zh) 基于改进pso算法的移动机器人路径规划方法、系统及应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHANDONG UNIVERSITY (WEIHAI)

Free format text: FORMER OWNER: SHANDONG UNIVERSITY

Effective date: 20150812

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150812

Address after: 264209 Weihai Cultural Road West, Shandong, No. 180

Patentee after: Shandong University, Weihai

Address before: 250061 Ji'nan Province, Lixia District, Shandong by Road No. ten, No. 17923

Patentee before: Shandong University

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150121

Termination date: 20150730

EXPY Termination of patent right or utility model