CN112987742B - 一种机器人路径规划方法和规划系统 - Google Patents
一种机器人路径规划方法和规划系统 Download PDFInfo
- Publication number
- CN112987742B CN112987742B CN202110228596.0A CN202110228596A CN112987742B CN 112987742 B CN112987742 B CN 112987742B CN 202110228596 A CN202110228596 A CN 202110228596A CN 112987742 B CN112987742 B CN 112987742B
- Authority
- CN
- China
- Prior art keywords
- strategy
- subnet
- robot
- action
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000009471 action Effects 0.000 claims abstract description 130
- 238000013528 artificial neural network Methods 0.000 claims abstract description 86
- 230000002787 reinforcement Effects 0.000 claims abstract description 37
- 230000009191 jumping Effects 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 42
- 210000002569 neuron Anatomy 0.000 claims description 36
- 230000004913 activation Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 101100460702 Aspergillus sp. (strain MF297-2) notH gene Proteins 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种机器人路径规划方法,包括:1、构建二维环境栅格图;2、构建进化策略神经网络,其输入为机器人位置,输出为该位置处机器人执行每个动作的概率;3、设置迭代参数并初始化;4、生成策略种群;5、计算策略种群的属性,建立S集合和U集合;6、构建深度强化学习网络;7、利用U更新深度强化学习网络的参数,并更新U和S;8、对S中策略对应的参数添加高斯噪声,生成新的非精英策略,并与上一代精英策略构成新的策略种群;当达到迭代次数最大值时,将策略种群中的最优策略作为结果,得到机器人从起始位置到目的位置每一步的动作;否则跳转至步骤4进行下一次迭代。该方法重复利用经验数据进行策略改进,以快速找到最优路径。
Description
技术领域
本发明属于机器人导航技术领域,具体涉及一种移动机器人路径规划方法和系统。
背景技术
近年来,为了应对不断增长的应用需求,以及移动机器人在陌生环境中的适应性和灵活性的提高,科学家们对移动机器人的局部轨迹的架构和规划进行了研究。尽管已经提出了许多有效方法用于已知环境中的移动机器人导航技术,但是这些方法通常难以应用于未知环境中的自主导航。深度强化学习算法已成功应用于一系列具有挑战性的控制任务,但其缺乏有效的探索,限制了采用深度强化学习在路径规划中的适用性。现有的机器人导航方法主要的问题是在未知环境中,移动机器人系统的信息不能随着环境信息变化而变化,特别是在具有各种形状障碍物的环境中。由于环境信息的不断变化,不能准确的定位,移动机器人难以有效地搜索最佳路线。进化策略是一类受自然进化启发的黑盒优化技术,能够实现有效的探索。但是,进化策略通常遭受到高样本复杂性的困扰,并且难以解决需要优化大量参数的问题。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种机器人路径规划方法,该方法可以实现快速探索,并重复利用经验数据进行策略改进,以快速找到最优路径。
技术方案:本发明一方面公开了一种机器人路径规划方法,包括:
S1、将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd;
S2、构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层 21、隐藏层22、Relu激活单元23、输出层24、Sigmoid激活单元25;所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu 激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
S3、设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*,当前迭代次数t=0;随机生成N组进化策略神经网络的参数Θ={θn}, n=1,2,…,N;
S4、对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作并计算执行后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd;
在第n组参数θn下,机器人从s0到sd的策略πn(θn)由每一步的位置动作对组成:
S5、计算策略πn(θn)的行为特征BC(πn):
计算每个策略的新颖性,第n个策略πn(θn)的新颖性Nv(πn,A)为:
其中BC(πj)为档案库A中与BC(πn)距离最近的K个行为特征点之一, K<N,j=1,2,…,K,BC(πj)≠BC(πn),|| · ||2 为计算向量的2范数;
N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;
计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
S6、构建深度强化学习网络,所述深度强化学习网络包括第一学习分支610 和第二学习分支620;所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613;所述第二学习分支620包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623;所述第一策略网络 611与第二策略网络621的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络611根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元612根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元613的输入;
所述第二策略网络621根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元622根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元623的输入;
所述第一预测单元613包括并联的第一预测子网和第二预测子网,所述第二预测单元623包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2;
S7、根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点中的和作为第一学习分支 610和第二学习分支620的输入,第一预测子网和第二预测子网输出的两个Q 值,分别记为Q1,Q2;第三预测子网和第四预测子网输出的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
其中γ为取值范围为(0,1)的折扣因子超参数;
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1;
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4:
Ψ′2←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ′2分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性 Nv(π(Ψ1),A);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
S8、令t自增1;如果t<T,对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E 个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn},跳转至步骤S4进行下一次迭代优化;
如果t=T,迭代优化结束;将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
另一方面,本发明还公开了实现上述机器人路径规划方法的系统,包括:
二维环境栅格图建立模块1,用于将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd;
进化策略神经网络构建模块2,用于构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层21、隐藏层22、Relu激活单元23、输出层24、 Sigmoid激活单元25;所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
参数设置与初始化模块3,用于设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;
策略种群生成模块4,用于根据N组进化策略神经网络的参数Θ={θn}生成从起始位置到目的位置的N个策略;N个策略的生成步骤为:
对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作并计算执行后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd;
在第n组参数θn下,机器人从s0到sd的策略πn(θn)由每一步的位置动作对组成:
当前策略种群属性计算模块5,用于计算N个策略中每个策略的行为特征、累积奖励、新颖性;将N个策略的所有轨迹点存入经验回放池R, N个策略的所有行为特征组成档案库A;N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
深度强化学习网络构建模块6,用于构建深度强化学习网络并初始化,所述深度强化学习网络包括第一学习分支610和第二学习分支620;所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613;所述第二学习分支620包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623;所述第一策略网络611与第二策略网络621的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络611根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元612根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元613的输入;
所述第二策略网络621根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元622根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元623的输入;
所述第一预测单元613包括并联的第一预测子网和第二预测子网,所述第二预测单元623包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有 G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2;
深度强化学习网络参数更新模块7,用于根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点中的和作为第一学习分支 610和第二学习分支620的输入,第一预测子网和第二预测子网输出的两个Q 值,分别记为Q1,Q2;第三预测子网和第四预测子网输出的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
其中γ为取值范围为(0,1)的折扣因子超参数;
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1;
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4:
Ψ′2←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ′2分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性 Nv(π(Ψ1),A);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
进化策略网络参数更新模块8,用于对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn};
规划结果获取模块9,用于判断策略种群的更新是否结束,如果结束,将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
有益效果:本发明公开的机器人路径规划方法,利用新颖性让策略更好地探索位置和动作,对奖励稀疏的环境也可以有效探索,而深度强化学习可以提高样本效率,节约资源,因此,该方法能够有效地找到一条稳定的最优路径。
附图说明
图1为本发明公开的机器人路径规划方法的流程图;
图2为进化策略神经网络的架构图;
图3为深度强化学习网络的架构图;
图4为本发明公开的机器人路径规划系统的架构图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明公开了一种机器人路径规划方法,如图1所示,包括:
S1、将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd;
S2、构建进化策略神经网络,如图2所示,所述进化策略神经网络包括依次连接的输入层21、隐藏层22、Relu激活单元23、输出层24、Sigmoid激活单元 25;所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置 s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;本实施例中,机器人的动作种类总数为4种,为:前进、后退、向左前进、向右前进;即G=4。
S3、设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*,当前迭代次数t=0;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;本实施例中,将目标行为特征BC*初始化为机器人的目的位置sd;
S4、对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作并计算执行后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd;
在第n组参数θn下,机器人从s0到sd的策略πn(θn)由每一步的位置动作对组成:
S5、计算策略πn(θn)的行为特征BC(πn):
本实施例中,经验回放池R为容量为CR的先进先出队列,这样经验回放池中的轨迹点为最近生成的策略的轨迹点。
计算每个策略的新颖性,第n个策略πn(θn)的新颖性Nv(πn,A)为:
N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;
计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
S6、构建深度强化学习网络,如图3所示,所述深度强化学习网络包括第一学习分支610和第二学习分支620;所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613;所述第二学习分支620 包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623;所述第一策略网络611与第二策略网络621的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络611根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元612根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元613的输入;
所述第二策略网络621根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元622根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元623的输入;
所述第一预测单元613包括并联的第一预测子网和第二预测子网,所述第二预测单元623包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有 G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2;
S7、根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点中的和作为第一学习分支 610和第二学习分支620的输入,第一预测子网和第二预测子网输出的两个Q 值,分别记为Q1,Q2;第三预测子网和第四预测子网输出的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
其中γ为取值范围为(0,1)的折扣因子超参数;
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1;
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4:
Ψ′2←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ′2分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性 Nv(π(Ψ1),A);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
S8、令t自增1;如果t<T,对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E 个新的进化策略神经网络参数与上一代E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn},跳转至步骤S4进行下一次迭代优化;
步骤S7将当前的N个策略中新颖性最低的H个策略进行了更新,在新的策略种群中,E个精英策略保留到下一代,由此不断地更新较差的策略,保留较好的策略,对策略种群进行优化。最后,从优化后的策略种群中择优,即:如果t=T,迭代优化结束;将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
实现上述路径规划方法的机器人路径规划系统的架构如图4所示,包括:
二维环境栅格图建立模块1,用于将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd;
进化策略神经网络构建模块2,用于构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层21、隐藏层22、Relu激活单元23、输出层24、 Sigmoid激活单元25;所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有4个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
参数设置与初始化模块3,用于设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;
策略种群生成模块4,用于根据N组进化策略神经网络的参数Θ={θn}生成从起始位置到目的位置的N个策略;N个策略的生成步骤为:
对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作并计算执行后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd;
在第n组参数θn下,机器人从s0到sd的策略πn(θn)由每一步的位置动作对组成:
当前策略种群属性计算模块5,用于计算N个策略中每个策略的行为特征、累积奖励、新颖性;将N个策略的所有轨迹点存入经验回放池R, N个策略的所有行为特征组成档案库A;N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
深度强化学习网络构建模块6,用于构建深度强化学习网络并初始化,所述深度强化学习网络包括第一学习分支610和第二学习分支620;所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613;所述第二学习分支620包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623;所述第一策略网络611与第二策略网络621的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络611根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元612根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元613的输入;
所述第二策略网络621根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元622根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元623的输入;
所述第一预测单元613包括并联的第一预测子网和第二预测子网,所述第二预测单元623包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有 G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2;
深度强化学习网络参数更新模块7,用于根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点中的和作为第一学习分支610和第二学习分支620的输入,第一预测子网和第二预测子网输出的两个Q 值,分别记为Q1,Q2;第三预测子网和第四预测子网输出的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
其中γ为取值范围为(0,1)的折扣因子超参数;
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1;
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4:
Ψ′2←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ′2分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性 Nv(π(Ψ1),A);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
进化策略网络参数更新模块8,用于对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E个新的进化策略神经网络参数与E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn};
规划结果获取模块9,用于判断策略种群的更新是否结束,如果结束,将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
Claims (8)
1.一种机器人路径规划方法,其特征在于,包括:
S1、将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd;
S2、构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层(21)、隐藏层(22)、Relu激活单元(23)、输出层(24)、Sigmoid激活单元(25);所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
S3、设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*,当前迭代次数t=0;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;
S4、对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作并计算执行后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd;
在第n组参数θn下,机器人从s0到sd的策略πn(θn)由每一步的位置动作对组成:
S5、计算策略πn(θn)的行为特征BC(πn):
计算每个策略的新颖性,第n个策略πn(θn)的新颖性Nv(πn,A)为:
其中BC(πj)为档案库A中与BC(πn)距离最近的K个行为特征点之一,K<N,j=1,2,…,K,BC(πj)≠BC(πn),|| · ||2 为计算向量的2范数;
N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;
计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
S6、构建深度强化学习网络,所述深度强化学习网络包括第一学习分支(610)和第二学习分支(620);所述第一学习分支(610)包括依次连接的第一策略网络(611)、第一动作单元(612)和第一预测单元(613);所述第二学习分支(620)包括依次连接的第二策略网络(621)、第二动作单元(622)和第二预测单元(623);所述第一策略网络(611)与第二策略网络(621)的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络(611)根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元(612)根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元(613)的输入;
所述第二策略网络(621)根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元(622)根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元(623)的输入;
所述第一预测单元(613)包括并联的第一预测子网和第二预测子网,所述第二预测单元(623)包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2;
S7、根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点中的和作为第一学习分支(610)和第二学习分支(620)的输入,第一预测子网和第二预测子网输出的两个Q值,分别记为Q1,Q2;第三预测子网和第四预测子网输出的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
计算当前目标Q值target:target=min(Q3,Q4)*γ+ri l;
其中γ为取值范围为(0,1)的折扣因子超参数;
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1;
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4:
Ψ2′←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ2′分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性Nv(π(Ψ1),A);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
S8、令t自增1;如果t<T,对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn},跳转至步骤S4进行下一次迭代优化;
如果t=T,迭代优化结束;将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
3.根据权利要求1所述的机器人路径规划方法,其特征在于,所述经验回放池R为容量为CR的先进先出队列。
4.根据权利要求1所述的机器人路径规划方法,其特征在于,所述机器人的动作种类总数为4种,为:前进、后退、向左前进、向右前进。
5.一种机器人路径规划系统,其特征在于,包括:
二维环境栅格图建立模块(1),用于将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd;
进化策略神经网络构建模块(2),用于构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层(21)、隐藏层(22)、Relu激活单元(23)、输出层(24)、Sigmoid激活单元(25);所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
参数设置与初始化模块(3),用于设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;
策略种群生成模块(4),用于根据N组进化策略神经网络的参数Θ={θn}生成从起始位置到目的位置的N个策略;N个策略的生成步骤为:
对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作并计算执行后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd;
在第n组参数θn下,机器人从s0到sd的策略πn(θn)由每一步的位置动作对组成:
当前策略种群属性计算模块(5),用于计算N个策略中每个策略的行为特征、累积奖励、新颖性;将N个策略的所有轨迹点存入经验回放池R,N个策略的所有行为特征组成档案库A;N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
深度强化学习网络构建模块(6),用于构建深度强化学习网络并初始化,所述深度强化学习网络包括第一学习分支(610)和第二学习分支(620);所述第一学习分支(610)包括依次连接的第一策略网络(611)、第一动作单元(612)和第一预测单元(613);所述第二学习分支(620)包括依次连接的第二策略网络(621)、第二动作单元(622)和第二预测单元(623);所述第一策略网络(611)与第二策略网络(621)的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络(611)根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元(612)根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元(613)的输入;
所述第二策略网络(621)根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元(622)根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元(623)的输入;
所述第一预测单元(613)包括并联的第一预测子网和第二预测子网,所述第二预测单元(623)包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2;
深度强化学习网络参数更新模块(7),用于根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点中的和作为第一学习分支(610)和第二学习分支(620)的输入,第一预测子网和第二预测子网输出的两个Q值,分别记为Q1,Q2;第三预测子网和第四预测子网输出的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
计算当前目标Q值target:target=min(Q3,Q4)*γ+ri l;
其中γ为取值范围为(0,1)的折扣因子超参数;
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1;
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4:
Ψ2′←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ2′分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性Nv(π(Ψ1),A);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
进化策略网络参数更新模块(8),用于对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn};
规划结果获取模块(9),用于判断策略种群的更新是否结束,如果结束,将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
7.根据权利要求5所述的机器人路径规划系统,其特征在于,所述经验回放池R为容量为CR的先进先出队列。
8.根据权利要求5所述的机器人路径规划系统,其特征在于,所述机器人的动作种类总数为4种,为:前进、后退、向左前进、向右前进。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110180798 | 2021-02-08 | ||
CN2021101807982 | 2021-02-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112987742A CN112987742A (zh) | 2021-06-18 |
CN112987742B true CN112987742B (zh) | 2022-08-26 |
Family
ID=76351926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110228596.0A Active CN112987742B (zh) | 2021-02-08 | 2021-03-02 | 一种机器人路径规划方法和规划系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112987742B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114879486A (zh) * | 2022-02-28 | 2022-08-09 | 复旦大学 | 一种基于强化学习和进化算法的机器人优化控制方法 |
JP7257569B1 (ja) | 2022-03-01 | 2023-04-13 | 株式会社きんでん | 自走制御プログラム、および、自走式作業装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105137967B (zh) * | 2015-07-16 | 2018-01-19 | 北京工业大学 | 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 |
US11068787B2 (en) * | 2017-12-15 | 2021-07-20 | Uber Technologies, Inc. | Training neural networks using evolution based strategies and novelty search |
CN110632922B (zh) * | 2019-09-10 | 2022-06-17 | 青岛理工大学 | 一种基于蝙蝠算法与强化学习的路径规划方法 |
CN111552301B (zh) * | 2020-06-21 | 2022-05-20 | 南开大学 | 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法 |
CN112001585B (zh) * | 2020-07-14 | 2023-09-22 | 北京百度网讯科技有限公司 | 多智能体决策方法、装置、电子设备及存储介质 |
CN111931418B (zh) * | 2020-07-21 | 2023-06-02 | 广东工业大学 | 一种基于进化神经网络的马蹄焰玻璃窑炉的热效率预测方法 |
-
2021
- 2021-03-02 CN CN202110228596.0A patent/CN112987742B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112987742A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Mapper: Multi-agent path planning with evolutionary reinforcement learning in mixed dynamic environments | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
CN102402712B (zh) | 基于神经网络的机器人强化学习初始化方法 | |
Grigorescu et al. | Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles | |
CN112987742B (zh) | 一种机器人路径规划方法和规划系统 | |
CN111307153B (zh) | 基于六边形栅格地图的多auv任务分配与路径规划方法 | |
CN113253733B (zh) | 一种基于学习和融合的导航避障方法、装置及系统 | |
Ding et al. | Game-theoretic cooperative lane changing using data-driven models | |
US11911902B2 (en) | Method for obstacle avoidance in degraded environments of robots based on intrinsic plasticity of SNN | |
Xue et al. | Multi-agent deep reinforcement learning for UAVs navigation in unknown complex environment | |
EP3904973A1 (en) | Device and method for controlling a robot | |
Mondal et al. | A survey of reinforcement learning techniques: strategies, recent development, and future directions | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
CN113537580A (zh) | 一种基于自适应图学习的公共交通客流预测方法及系统 | |
Khan et al. | Motion planning for a snake robot using double deep q-learning | |
CN117553798A (zh) | 复杂人群场景中移动机器人的安全导航方法、设备及介质 | |
Nwaonumah et al. | Deep reinforcement learning for visual navigation of wheeled mobile robots | |
Khan et al. | Learning sample-efficient target reaching for mobile robots | |
Gao et al. | Modeling spatio-temporal interactions for vehicle trajectory prediction based on graph representation learning | |
CN115562258A (zh) | 基于神经网络的机器人社会自适应路径规划方法及系统 | |
Hussonnois et al. | End-to-end autonomous driving using the Ape-X algorithm in Carla simulation environment | |
CN114527759A (zh) | 一种基于分层强化学习的端到端驾驶方法 | |
Anderson et al. | Autonomous navigation via a deep Q network with one-hot image encoding | |
Tran et al. | Mobile robot planner with low-cost cameras using deep reinforcement learning | |
Berseth et al. | Model-based action exploration for learning dynamic motion skills |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |