CN111649758A - 一种动态环境下基于强化学习算法的路径规划方法 - Google Patents
一种动态环境下基于强化学习算法的路径规划方法 Download PDFInfo
- Publication number
- CN111649758A CN111649758A CN202010545587.XA CN202010545587A CN111649758A CN 111649758 A CN111649758 A CN 111649758A CN 202010545587 A CN202010545587 A CN 202010545587A CN 111649758 A CN111649758 A CN 111649758A
- Authority
- CN
- China
- Prior art keywords
- state
- learning algorithm
- action
- environment
- feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 230000009471 action Effects 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims description 58
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004540 process dynamic Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3446—Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种动态环境下基于强化学习算法的路径规划方法,包括以下步骤:根据动态已知环境利用栅格法对作业环境进行建模,根据作业任务设置起始点和目标点;基于时间变量t构建改进的Q‑learning算法并赋予智能体停止动作;根据起始点和目标点坐标基于改进的Q‑learning算法对动态已知环境进行学习并输出规划路径;通过智能体探索学习动态未知环境状态并得到输出最优路径;在训练完成后速度非常快,其归因于机器学习算法的学习属性;在效果方面,无论环境是何种情况,该算法皆不会产生碰撞,其在路径规划中的应用将会非常广泛;在结果方面,由于智能体被赋予了新的停止的动作,使得在规划中可以找到更优的路径。
Description
技术领域
本发明涉及路径规划方法,尤其涉及一种动态环境下基于强化学习算法的路径规划方法。
背景技术
路径规划问题一般处理已知环境情况和未知环境情况。现有许多算法可以解决其路径规划问题,但对于动态环境下的(移动障碍物)路径规划问题,算法无法快速地解决该场景下的问题,且给出的规划路线会有碰撞的可能。
如一般的启发式算法结合了深度搜索和广度搜索的优点,使得寻路算法可以在保证速度的情况下大概率地找到最优解。但一般的算法无法处理动态环境的问题。并且在复杂的环境下,启发式算法的搜索效率会变低。同时对于未知动态环境的避障规划,如D*,Lifelong A*等算法只是一种及时规划。但当动态环境已知时,所需的算法更倾向于能够在规划时规避障碍物。
发明内容
鉴于目前存在的上述不足,本发明提供一种动态环境下基于强化学习算法的路径规划方法,在训练完成后速度非常快,无论环境是何种情况,该算法皆不会产生碰撞,由于智能体被赋予了新的停止的动作,使得在规划中可以找到更优的路径。
为达到上述目的,本发明的实施例采用如下技术方案:
一种动态环境下基于强化学习算法的路径规划方法,所述动态环境下基于强化学习算法的路径规划方法包括以下步骤:
根据动态已知环境利用栅格法对作业环境进行建模,根据作业任务设置起始点和目标点;
基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作;
根据起始点和目标点坐标基于改进的Q-learning算法对动态已知环境进行学习并输出规划路径;
通过智能体探索学习动态未知环境状态并得到输出最优路径。
依照本发明的一个方面,所述基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作包括:
在通过栅格法建模得到的二维栅格环境中,每个状态si由栅格的平面直角坐标表示,加入时间变量t,将每个状态si定义为三元坐标(xi,yi,ti),该坐标表示在ti时刻运动到了(xi,yi)点;
在Q-table中增加停止动作,当在si状态下选择停止动作时,其到达的下个状态为(xi,yi,ti+1),更新获得新的Q-table;
设起始点为Ss=(xs,ys,ts),目标点为Se=(xe,ye,te),构建Q-learning算法为:
Q(s,a,t)=Q(s,a,t)+α[R+γmaxaQ(s′,a,t)-Q(s,a,t)]
Q(s,a,t)表示状态的动作值函数,表示t时刻由状态s选择行为a对应的动作值,R为反馈函数,表示在s状态执行a动作得到的反馈,α∈(0,1)为学习率,R+γmaxaQ(s′,a,t)是由Bellman方程根据未来期望对Q(s,a,t)的预测,其含义为给定状态和动作下的最大未来奖励期望。
依照本发明的一个方面,所述状态s的数量为Nx×Ny×t,其中时间t根据最终迭代的步数决定。
依照本发明的一个方面,所述基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作包括:基于状态访问次数设定一个估值函数N(s,a,t),引导探索全部的状态空间,估值函数N(s,a,t)如下:
其中C(s,a,t)为计数函数,若在t时刻s状态下选择了a动作,则计数加1,β∈(0,1)用于来平衡动作值函数与计数函数的权重,在算法中储存估值函数的值,在选择动作的时候,根据估值函数来选择。
依照本发明的一个方面,所述反馈函数R包括两个部分,第一部分为已知反馈,第二部分为预计反馈,具体如下:
R(s,a)=K1r(s,a)+K2h(s,a)
其中r(s,a)是的在s状态执行a动作得到的已知反馈;K1,K2∈(0,1),为控制权重的系数;h(s,a)是在此状态下的预计反馈函数,是一个启发量。
依照本发明的一个方面,所述反馈函数R还包括:假设h(s,a)表示当前状态s到目标点的预估距离,用曼哈顿距离来作为计算距离的方式,s的位置坐标为(xs,ys),目标点se的位置坐标为(xe,ye),那么h(s,a)=|xs-xe|+|ys-ye|。
依照本发明的一个方面,所述反馈函数R还包括:
若将每一步状态的反馈值设置成负数,算法会在刚开始倾向于搜索未搜索过的点,反馈函数如下:
依照本发明的一个方面,所述动态环境下基于强化学习算法的路径规划方法包括以下步骤:
若实际运行状态(xreal,yreal,treal)与规划状态(xpre,ypre,tpre)产生了差别,则根据训练好的Q-table,执行算法的最后两步,寻找状态(xreal,yreal,treal)的最大动作值函数,并执行该动作a,直至到达终点。
依照本发明的一个方面,所述差别包括滞后和提前两种。
依照本发明的一个方面,用改进Q-learning算法对动态环境进行学习,得到累积反馈趋势,并在多次迭代之后开始趋于收敛。
本发明实施的优点:本发明所述的动态环境下基于强化学习算法的路径规划方法,包括以下步骤:根据动态已知环境利用栅格法对作业环境进行建模,根据作业任务设置起始点和目标点;基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作;根据起始点和目标点坐标基于改进的Q-learning算法对动态已知环境进行学习并输出规划路径;通过智能体探索学习动态未知环境状态并得到输出最优路径;在训练完成后速度非常快,其归因于机器学习算法的学习属性;在效果方面,无论环境是何种情况,该算法皆不会产生碰撞,其在路径规划中的应用将会非常广泛;在结果方面,由于智能体被赋予了新的停止的动作,使得在规划中可以找到更优的路径。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述的一种动态环境下基于强化学习算法的路径规划方法示意图;
图2为本发明所述的仿真动态栅格环境示意图;
图3为本发明所述的累积反馈趋势示意图;
图4为本发明所述的仿真验证路径表示意图;
图5为本发明所述的仿真验证路径。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图2、图3、图4和图5所示,一种动态环境下基于强化学习算法的路径规划方法,所述动态环境下基于强化学习算法的路径规划方法包括以下步骤:
步骤S1:根据动态已知环境利用栅格法对作业环境进行建模,根据作业任务设置起始点和目标点;
具体可为:记环境地图E为一矩形,其左下角为坐标原点,X轴正方向向右,Y轴正方向向上。Xmax为E的长,Ymax为E的宽。以w为步长将E切割成栅格。每一行栅格数为每一列栅格数为将E划分成Nx×Ny栅格图,设任意栅格为ni=(xi,yi),(xi,yi)为ni所在的行列表示,其中1≤i≤Nx×Ny,0≤xi<Nx,0≤yi<Ny,(xi,yi,i∈Z)。栅格划分为自由栅格集M与障碍栅格集O。M集可以被规划,O集不允许被通过。现已知起始栅格(xs,ys)∈M,(s∈Z),目标栅格(xe,ye)∈M,(e∈Z)。障碍栅格集:O中的每个元素oi要加入时间变量t来表示障碍物的移动。oi=(xi,yi,ti)∈O,其中ti为障碍物oi位于(xi,yi)的时刻。
步骤S2:基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作;
在通过栅格法建模得到的二维栅格环境中,每个状态si由栅格的平面直角坐标表示,加入时间变量t,将每个状态si定义为三元坐标(xi,yi,ti),该坐标表示在ti时刻运动到了(xi,yi)点;现假设运行的速度不变,每移动一步,t增加1(此处假设不能斜走,若可以斜走,则斜走一步用时假设为1.5);
在Q-table中增加停止动作,每个Q-table中的新状态对应的动作也从上下左右四个,增加了一个停止动作,当在si状态下选择停止动作时,其到达的下个状态为(xi,yi,ti+1),更新获得新的Q-table;如下表1所示:
表1
状态/动作 | 上 | 下 | 右 | 左 | 停 |
(1,1,1) | Q((1,1,1),上) | Q((1,1,1),下) | |||
(1,2,1) | Q((1,2,1),上) | ||||
... | |||||
(4,4,1) | |||||
(1,1,2) | |||||
(1,2,2) | |||||
... | |||||
(4,4,2) | |||||
... |
则有起始点为Ss=(xs,ys,ts),目标点为Se=(xe,ye,te),构建Q-learning算法为:
Q(s,a,t)=Q(s,a,t)+α[R+γmaxaQ(s,a,t)-Q(s,a,t)]
Q(s,a,t)表示状态的动作值函数,表示t时刻由状态s选择行为a对应的动作值,R为反馈函数,表示在s状态执行a动作得到的反馈,α∈(0,1)为学习率,R+γmaxaQ(s′,a,t)是由Bellman方程根据未来期望对Q(s,a,t)的预测,其含义为给定状态和动作下的最大未来奖励期望。
同样是Nx×Ny的平面环境,加入时间维度后,所述状态s的数量为Nx×Ny×t,其中时间t根据最终迭代的步数决定。相比固定障碍物环境中的状态数量增加了t倍。同时障碍物的状态也相应加入t值,使其变成移动障碍物。在状态(x,y,t)与障碍物状态(x,y,t)相同,或者发生一般死锁和循环死锁时,给出相应的负反馈,使其可以在接下来的迭代中避免在该时刻出现在相应的位置。
强化学习中根据值函数的值来选择动作,但常规的值函数中不存在环境信息,在一些有特定环境信息的场景下,用先验信息改进值函数从而指导探索会更加有效。
对于滞后情况下的重新规划问题,算法更需要搜索整个环境。因此可以基于状态访问次数设定一个估值函数N(s,a,t),尝试引导探索全部的状态空间。估值函数见下:
其中C(s,a,t、)为计数函数,若在t时刻s状态下选择了a动作,则计数加1。β∈(0,1),来平衡动作值函数与计数函数的权重。当(s,a,t)被访问次数过多,则会降低其选择的概率,该方法更倾向于搜索未被探索的状态。此估值函数结合了动作值函数和计数函数,在算法中只需要储存估值函数的值,在选择动作的时候,根据估值函数来选择即可。当β=0时,N(s,a,t)=Q(s,a,t),即通过原始的动作值函数根据探索/利用的方法来选择行为。
在本实施例中,需要设计启发式反馈函数,上述的计数函数探索法更加倾向于将环境中没被搜索过的状态加入搜索中,因此,利用这种探索方法会使Q-table中的状态数增加。为了加快Q-table的收敛,则需要改进反馈函数R。将反馈函数设计为两部分,第一部分为已知反馈,第二部分为预计反馈,见下式:
R(s,a)=K1r(s,a)+K2h(s,a)
其中r(s,a)是的在s状态执行a动作得到的已知反馈;K1,K2∈(0,1),为控制权重的系数;h(s,a)是在此状态下的预计反馈函数,是一个启发量。这个函数值即每个状态的状态值函数。若用启发函数来设置反馈值,用此来更改状态值函数,则可以在规划时指导搜索方向,从而增加搜索效率,减少搜索时间。
设计h(s,a)表示当前状态s到目标点的预估距离,用曼哈顿距离来作为计算距离的方式。s的位置坐标为(xs,ys),目标点se的位置坐标为(xe,ye),那么h(s,a)=|xs-xe|+|ys-ye|。
在用启发式方法设计反馈值的同时,也要使得算法更加倾向于搜索未知区域。在反馈设计中,需要使得初始的值函数比经过多次迭代之后的期望奖励大,这样算法会更加倾向于选择没用过的动作状态。现将每一步状态的反馈值设置成负数,算法会在刚开始倾向于搜索未搜索过的点,反馈函数的设置见下式:
步骤S3:根据起始点和目标点坐标基于改进的Q-learning算法对动态已知环境进行学习并输出规划路径;
基于上述Q-learning算法加上了时间维度,并且对搜索/利用方式以及反馈设计分别做出了改进,用以处理动态环境下多路径规划滞后问题;
在完成学习之后,根据规划好的路径进行行驶,若实际运行状态(xreal,yreal,treal)与规划状态(xpre,ypre,tpre)产生了差别(滞后/提前),则根据训练好的Q-table,执行算法的最后两步,寻找状态(xreal,yreal,treal)的最大动作值函数,并执行该动作a,直至到达终点。
具体算法流程如下代码表所示:
步骤S4:通过智能体探索学习动态未知环境状态并得到输出最优路径。
在实际应用中,采用如下方式进行验证:
就移动障碍物环境以及在移动障碍物环境下发生滞后情况进行模拟仿真。仿真软件为python3.6,仿真环境利用tkinter包进行搭建,地图为栅格图,x轴正方向向右,y轴正方向向下;
在栅格中进行移动。算法使用计数值函数式 来更新Q-table,其中β=0.5;更新Q值的Bellman方程式Q(s,a,t)=Q(s,a,t)+α[R+γmaxaQ(s′,a,t)-Q(s,a,t)]中α=0.6,γ=0.9采用反馈函数式R(s,a)=K1r(s,a)+K2h(s,a);
在实际应用中,如图2至图5所示,已知动态环境见图2,起始栅格(1,1,0),目标栅格(4,6),黑色栅格为移动障碍物n1(3,3,0)与n2(2,5,0),并且按照黑色箭头方向运动,遇到墙壁折返。现用改进Q-learning算法对该环境进行学习,得到图3所示的累积反馈趋势,算法改进之后,Q-value在500次迭代之后开始趋于收敛。
用算法给出的规划表画出路径图,见图4和图5,图5中数字为占用该栅格的时刻。易知,在(1,2),(2,4)位置为了避障,分别停留了一个时刻,然后达到了终点,规划出了最优路径。这说明该算法可以用于进行移动障碍规避。
具体包括以下三点:对原Q-learning算法中的值函数进行改动,加入了计数值函数,使得算法可以更大地搜索环境;对原Q-learning算法中的Q-table进行改动,加入了时间维度,使其可以处理动态的障碍物;对原Q-learning算法中的反馈值设计进行改动,加入了启发式反馈值,使其迭代速度更快。
本发明实施的优点:本发明所述的动态环境下基于强化学习算法的路径规划方法,包括以下步骤:根据动态已知环境利用栅格法对作业环境进行建模,根据作业任务设置起始点和目标点;基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作;根据起始点和目标点坐标基于改进的Q-learning算法对动态已知环境进行学习并输出规划路径;通过智能体探索学习动态未知环境状态并得到输出最优路径;在训练完成后速度非常快,其归因于机器学习算法的学习属性;在效果方面,无论环境是何种情况,该算法皆不会产生碰撞,其在路径规划中的应用将会非常广泛;在结果方面,由于智能体被赋予了新的停止的动作,使得在规划中可以找到更优的路径。具体包括以下三点:对原Q-learning算法中的值函数进行改动,加入了计数值函数,使得算法可以更大地搜索环境;对原Q-learning算法中的Q-table进行改动,加入了时间维度,使其可以处理动态的障碍物;对原Q-learning算法中的反馈值设计进行改动,加入了启发式反馈值,使其迭代速度更快。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种动态环境下基于强化学习算法的路径规划方法,其特征在于,所述动态环境下基于强化学习算法的路径规划方法包括以下步骤:
根据动态已知环境利用栅格法对作业环境进行建模,根据作业任务设置起始点和目标点;
基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作;
根据起始点和目标点坐标基于改进的Q-learning算法对动态已知环境进行学习并输出规划路径;
通过智能体探索学习动态未知环境状态并得到输出最优路径。
2.根据权利要求1所述的动态环境下基于强化学习算法的路径规划方法,其特征在于,所述基于时间变量t构建改进的Q-learning算法并赋予智能体停止动作包括:
在通过栅格法建模得到的二维栅格环境中,每个状态si由栅格的平面直角坐标表示,加入时间变量t,将每个状态si定义为三元坐标(xi,yi,ti),该坐标表示在ti时刻运动到了(xi,yi)点;
在Q-table中增加停止动作,当在si状态下选择停止动作时,其到达的下个状态为(xi,yi,ti+1),更新获得新的Q-table;
设起始点为Ss=(xs,ys,ts),目标点为Se=(xe,ye,te),构建Q-learning算法为:
Q(s,a,t)=Q(s,a,t)+α[R+γmaxaQ(s′,a,t)-Q(s,a,t)]
Q(s,a,t)表示状态的动作值函数,表示t时刻由状态s选择行为a对应的动作值,R为反馈函数,表示在s状态执行a动作得到的反馈,α∈(0,1)为学习率,R+γmaxaQ(s′,a,t)是由Bellman方程根据未来期望对Q(s,a,t)的预测,其含义为给定状态和动作下的最大未来奖励期望。
3.根据权利要求2所述的动态环境下基于强化学习算法的路径规划方法,其特征在于,所述状态s的数量为Nx×Ny×t,其中时间t根据最终迭代的步数决定。
5.根据权利要求2所述的动态环境下基于强化学习算法的路径规划方法,其特征在于,所述反馈函数R包括两个部分,第一部分为已知反馈,第二部分为预计反馈,具体如下:
R(s,a)=K1r(s,a)+K2h(s,a)
其中r(s,a)是的在s状态执行a动作得到的已知反馈;K1,K2∈(0,1),为控制权重的系数;h(s,a)是在此状态下的预计反馈函数,是一个启发量。
6.根据权利要求5所述的动态环境下基于强化学习算法的路径规划方法,其特征在于,所述反馈函数R还包括:假设h(s,a)表示当前状态s到目标点的预估距离,用曼哈顿距离来作为计算距离的方式,s的位置坐标为(xs,ys),目标点se的位置坐标为(xe,ye),那么h(s,a)=|xs-xe|+|ys-ye|。
8.根据权利要求2至7之一所述的动态环境下基于强化学习算法的路径规划方法,其特征在于,所述动态环境下基于强化学习算法的路径规划方法包括以下步骤:
若实际运行状态(xreal,yreal,treal)与规划状态(xpre,ypre,tpre)产生了差别,则根据训练好的Q-table,执行算法的最后两步,寻找状态(xreal,yreal,treal)的最大动作值函数,并执行该动作a,直至到达终点。
9.根据权利要求8所述的动态环境下基于强化学习算法的路径规划方法,其特征在于,所述差别包括滞后和提前两种。
10.根据权利要求7所述的动态环境下基于强化学习算法的路径规划方法,其特征在于,用改进Q-learning算法对动态环境进行学习,得到累积反馈趋势,并在多次迭代之后开始趋于收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010545587.XA CN111649758B (zh) | 2020-06-16 | 2020-06-16 | 一种动态环境下基于强化学习算法的路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010545587.XA CN111649758B (zh) | 2020-06-16 | 2020-06-16 | 一种动态环境下基于强化学习算法的路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111649758A true CN111649758A (zh) | 2020-09-11 |
CN111649758B CN111649758B (zh) | 2023-09-15 |
Family
ID=72342199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010545587.XA Active CN111649758B (zh) | 2020-06-16 | 2020-06-16 | 一种动态环境下基于强化学习算法的路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111649758B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258598A (zh) * | 2020-09-25 | 2021-01-22 | 上海梁源科技发展有限公司 | 一种计算变频电机驱动车体走行位置的方法 |
CN112325897A (zh) * | 2020-11-19 | 2021-02-05 | 东北大学 | 基于启发式深度强化学习的路径规划方法 |
CN112612267A (zh) * | 2020-12-08 | 2021-04-06 | 苏州挚途科技有限公司 | 自动驾驶的路径规划方法和装置 |
CN113296502A (zh) * | 2021-05-08 | 2021-08-24 | 华东师范大学 | 动态环境下基于层级关系图学习的多机器人协同导航方法 |
CN114415663A (zh) * | 2021-12-15 | 2022-04-29 | 北京工业大学 | 基于深度强化学习的路径规划方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN108847037A (zh) * | 2018-06-27 | 2018-11-20 | 华中师范大学 | 一种面向非全局信息的城市路网路径规划方法 |
CN110081897A (zh) * | 2019-05-06 | 2019-08-02 | 江南大学 | 一种限制性骑行路径规划装置及方法 |
CN110378439A (zh) * | 2019-08-09 | 2019-10-25 | 重庆理工大学 | 基于Q-Learning算法的单机器人路径规划方法 |
US20200174432A1 (en) * | 2018-12-04 | 2020-06-04 | Fujitsu Limited | Action determining method and action determining apparatus |
-
2020
- 2020-06-16 CN CN202010545587.XA patent/CN111649758B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN108847037A (zh) * | 2018-06-27 | 2018-11-20 | 华中师范大学 | 一种面向非全局信息的城市路网路径规划方法 |
US20200174432A1 (en) * | 2018-12-04 | 2020-06-04 | Fujitsu Limited | Action determining method and action determining apparatus |
CN110081897A (zh) * | 2019-05-06 | 2019-08-02 | 江南大学 | 一种限制性骑行路径规划装置及方法 |
CN110378439A (zh) * | 2019-08-09 | 2019-10-25 | 重庆理工大学 | 基于Q-Learning算法的单机器人路径规划方法 |
Non-Patent Citations (6)
Title |
---|
M. GOMEZ ET AL.: ""Optimal control for Wheeled Mobile Vehicles based on Cell Mapping techniques"", 《2008 IEEE INTELLIGENT VEHICLES SYMPOSIUM》 * |
PRATYUSHA RAKSHIT ET AL.: ""Realization of an Adaptive Memetic Algorithm Using Differential Evolution and Q-Learning: A Case Study in Multirobot Path Planning"", 《 IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS》 * |
于乃功 等: ""基于Q学习算法和遗传算法的动态环境路径规划"", 《北京工业大学学报》 * |
李云峰等: "精密并联机器人运动轨迹规划的研究", 《机床与液压》 * |
王力锋: ""基于强化学习的AUV行为重规划方法研究"", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
钟碧良: ""机器人足球系统的研究与实现"", 《中国优秀博硕士学位论文全文数据库 (博士) 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258598A (zh) * | 2020-09-25 | 2021-01-22 | 上海梁源科技发展有限公司 | 一种计算变频电机驱动车体走行位置的方法 |
CN112325897A (zh) * | 2020-11-19 | 2021-02-05 | 东北大学 | 基于启发式深度强化学习的路径规划方法 |
CN112325897B (zh) * | 2020-11-19 | 2022-08-16 | 东北大学 | 基于启发式深度强化学习的路径规划方法 |
CN112612267A (zh) * | 2020-12-08 | 2021-04-06 | 苏州挚途科技有限公司 | 自动驾驶的路径规划方法和装置 |
CN113296502A (zh) * | 2021-05-08 | 2021-08-24 | 华东师范大学 | 动态环境下基于层级关系图学习的多机器人协同导航方法 |
CN114415663A (zh) * | 2021-12-15 | 2022-04-29 | 北京工业大学 | 基于深度强化学习的路径规划方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111649758B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111649758B (zh) | 一种动态环境下基于强化学习算法的路径规划方法 | |
CN112325897B (zh) | 基于启发式深度强化学习的路径规划方法 | |
CN110083165B (zh) | 一种机器人在复杂狭窄环境下路径规划方法 | |
CN109945881B (zh) | 一种蚁群算法的移动机器人路径规划方法 | |
Lu et al. | Layered costmaps for context-sensitive navigation | |
CN112985408B (zh) | 一种路径规划优化方法及系统 | |
CN108444490B (zh) | 基于可视图和a*算法深度融合的机器人路径规划方法 | |
CN113885536B (zh) | 一种基于全局海鸥算法的移动机器人路径规划方法 | |
CN105527964A (zh) | 一种机器人路径规划方法 | |
CN106931970A (zh) | 一种动态环境中机器人安全自主规划导航方法 | |
Niewola et al. | L* algorithm—A linear computational complexity graph searching algorithm for path planning | |
US10331819B2 (en) | System, method and readable recording medium of controlling virtual model | |
CN115167478B (zh) | 基于深度强化学习的机器人无地图路径规划方法及系统 | |
CN112930541A (zh) | 通过最小化妄想影响来确定控制策略 | |
Seder et al. | Hierarchical path planning of mobile robots in complex indoor environments | |
Gu et al. | DM-DQN: Dueling Munchausen deep Q network for robot path planning | |
Le et al. | Search-based planning and replanning in robotics and autonomous systems | |
CN117471919A (zh) | 一种基于改进鹈鹕优化算法的机器人路径规划方法 | |
CN112182819B (zh) | 一种基于赋权图的结构拓扑优化方法、系统以及可读存储介质 | |
CN112595326A (zh) | 一种融合先验知识的改进Q-learning路径规划算法 | |
CN113885531B (zh) | 用于移动机器人的方法、移动机器人、电路、介质和程序 | |
CN113790729B (zh) | 一种基于强化学习算法的无人天车路径规划方法及装置 | |
Opoku et al. | The Ar-Star (Ar) Pathfinder | |
CN115903808A (zh) | 基于粒子群、蚁群和A-Star算法结合的机器人路径规划方法 | |
CN114415668A (zh) | 基于扩展视野自适应蚁群算法的移动机器人路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |