CN112987742B - 一种机器人路径规划方法和规划系统 - Google Patents

一种机器人路径规划方法和规划系统 Download PDF

Info

Publication number
CN112987742B
CN112987742B CN202110228596.0A CN202110228596A CN112987742B CN 112987742 B CN112987742 B CN 112987742B CN 202110228596 A CN202110228596 A CN 202110228596A CN 112987742 B CN112987742 B CN 112987742B
Authority
CN
China
Prior art keywords
strategy
subnet
robot
action
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110228596.0A
Other languages
English (en)
Other versions
CN112987742A (zh
Inventor
尹翔
彭坤彦
黄宁馨
李恒宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Publication of CN112987742A publication Critical patent/CN112987742A/zh
Application granted granted Critical
Publication of CN112987742B publication Critical patent/CN112987742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种机器人路径规划方法,包括:1、构建二维环境栅格图;2、构建进化策略神经网络,其输入为机器人位置,输出为该位置处机器人执行每个动作的概率;3、设置迭代参数并初始化;4、生成策略种群;5、计算策略种群的属性,建立S集合和U集合;6、构建深度强化学习网络;7、利用U更新深度强化学习网络的参数,并更新U和S;8、对S中策略对应的参数添加高斯噪声,生成新的非精英策略,并与上一代精英策略构成新的策略种群;当达到迭代次数最大值时,将策略种群中的最优策略作为结果,得到机器人从起始位置到目的位置每一步的动作;否则跳转至步骤4进行下一次迭代。该方法重复利用经验数据进行策略改进,以快速找到最优路径。

Description

一种机器人路径规划方法和规划系统
技术领域
本发明属于机器人导航技术领域,具体涉及一种移动机器人路径规划方法和系统。
背景技术
近年来,为了应对不断增长的应用需求,以及移动机器人在陌生环境中的适应性和灵活性的提高,科学家们对移动机器人的局部轨迹的架构和规划进行了研究。尽管已经提出了许多有效方法用于已知环境中的移动机器人导航技术,但是这些方法通常难以应用于未知环境中的自主导航。深度强化学习算法已成功应用于一系列具有挑战性的控制任务,但其缺乏有效的探索,限制了采用深度强化学习在路径规划中的适用性。现有的机器人导航方法主要的问题是在未知环境中,移动机器人系统的信息不能随着环境信息变化而变化,特别是在具有各种形状障碍物的环境中。由于环境信息的不断变化,不能准确的定位,移动机器人难以有效地搜索最佳路线。进化策略是一类受自然进化启发的黑盒优化技术,能够实现有效的探索。但是,进化策略通常遭受到高样本复杂性的困扰,并且难以解决需要优化大量参数的问题。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种机器人路径规划方法,该方法可以实现快速探索,并重复利用经验数据进行策略改进,以快速找到最优路径。
技术方案:本发明一方面公开了一种机器人路径规划方法,包括:
S1、将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd
S2、构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层 21、隐藏层22、Relu激活单元23、输出层24、Sigmoid激活单元25;所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu 激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
S3、设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*,当前迭代次数t=0;随机生成N组进化策略神经网络的参数Θ={θn}, n=1,2,…,N;
S4、对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作
Figure GDA00037047914400000213
并计算执行
Figure GDA00037047914400000214
后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd
在第n组参数θn下,机器人从s0到sd的策略πnn)由每一步的位置动作对组成:
Figure GDA0003704791440000021
其中Mn为策略πnn)中机器人移动的步数,
Figure GDA0003704791440000022
表示机器人在位置
Figure GDA0003704791440000023
处执行动作
Figure GDA0003704791440000024
S5、计算策略πnn)的行为特征BC(πn):
Figure GDA0003704791440000025
Figure GDA0003704791440000026
表示向上取整函数;
计算策略πnn)的累积奖励
Figure GDA0003704791440000027
Figure GDA0003704791440000028
其中
Figure GDA0003704791440000029
为执行
Figure GDA00037047914400000210
后机器人移动到位置
Figure GDA00037047914400000211
处,获得的立即奖励;
将N个策略的所有轨迹点
Figure GDA00037047914400000212
存入经验回放池R,N个策略的所有行为特征组成档案库A,A={BC(πn)};
计算每个策略的新颖性,第n个策略πnn)的新颖性Nv(πn,A)为:
Figure GDA0003704791440000031
其中BC(πj)为档案库A中与BC(πn)距离最近的K个行为特征点之一, K<N,j=1,2,…,K,BC(πj)≠BC(πn),|| · ||2 为计算向量的2范数;
N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;
计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
S6、构建深度强化学习网络,所述深度强化学习网络包括第一学习分支610 和第二学习分支620;所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613;所述第二学习分支620包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623;所述第一策略网络 611与第二策略网络621的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络611根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元612根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元613的输入;
所述第二策略网络621根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元622根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元623的输入;
所述第一预测单元613包括并联的第一预测子网和第二预测子网,所述第二预测单元623包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2
S7、根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S72、令第一策略网络的参数Ψ1、第二策略网络的参数Ψ2均为
Figure GDA0003704791440000041
为U 中第h个策略
Figure GDA0003704791440000042
对应的进化策略神经网络参数,
Figure GDA0003704791440000043
更新Φ1和Φ2,具体包括:
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点
Figure GDA0003704791440000044
中的
Figure GDA0003704791440000045
Figure GDA0003704791440000046
作为第一学习分支 610和第二学习分支620的输入,第一预测子网和第二预测子网输出
Figure GDA0003704791440000047
的两个Q 值,分别记为Q1,Q2;第三预测子网和第四预测子网输出
Figure GDA0003704791440000048
的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
计算当前目标Q值target:
Figure GDA0003704791440000049
其中γ为取值范围为(0,1)的折扣因子超参数;
S722、定义:
Figure GDA00037047914400000410
Figure GDA00037047914400000411
其中Q1(st,at)表示第一预测子网在输入为
Figure GDA00037047914400000412
时输出的Q值;Q2(st,at)表示第二预测子网在输入为
Figure GDA00037047914400000413
时输出的Q值;E[]表示计算期望;
通过
Figure GDA00037047914400000414
反向传播更新Φ1和Φ2
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S732、定义:
Figure GDA0003704791440000051
Figure GDA0003704791440000052
为步骤S731中选择的预测子网的输出Qw对参数Φw的梯度,
Figure GDA0003704791440000053
为策略
Figure GDA0003704791440000054
Figure GDA0003704791440000055
的梯度;s,a为经验回放池R中轨迹点的位置和动作;
通过
Figure GDA0003704791440000056
反向传播更新第一策略网络的参数Ψ1
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4
Ψ′2←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ′2分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性 Nv(π(Ψ1),A);
如果
Figure GDA0003704791440000057
将集合U中的第h个策略
Figure GDA0003704791440000058
和集合S中与
Figure GDA0003704791440000059
对应的策略均替换为π(Ψ1);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
S8、令t自增1;如果t<T,对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E 个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn},跳转至步骤S4进行下一次迭代优化;
如果t=T,迭代优化结束;将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
另一方面,本发明还公开了实现上述机器人路径规划方法的系统,包括:
二维环境栅格图建立模块1,用于将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd
进化策略神经网络构建模块2,用于构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层21、隐藏层22、Relu激活单元23、输出层24、 Sigmoid激活单元25;所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
参数设置与初始化模块3,用于设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;
策略种群生成模块4,用于根据N组进化策略神经网络的参数Θ={θn}生成从起始位置到目的位置的N个策略;N个策略的生成步骤为:
对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作
Figure GDA0003704791440000061
并计算执行
Figure GDA0003704791440000062
后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd
在第n组参数θn下,机器人从s0到sd的策略πnn)由每一步的位置动作对组成:
Figure GDA0003704791440000071
其中Mn为策略πnn)中机器人移动的步数,
Figure GDA0003704791440000072
表示机器人在位置
Figure GDA0003704791440000073
处执行动作
Figure GDA0003704791440000074
当前策略种群属性计算模块5,用于计算N个策略中每个策略的行为特征、累积奖励、新颖性;将N个策略的所有轨迹点
Figure GDA0003704791440000075
存入经验回放池R, N个策略的所有行为特征组成档案库A;N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
深度强化学习网络构建模块6,用于构建深度强化学习网络并初始化,所述深度强化学习网络包括第一学习分支610和第二学习分支620;所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613;所述第二学习分支620包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623;所述第一策略网络611与第二策略网络621的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络611根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元612根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元613的输入;
所述第二策略网络621根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元622根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元623的输入;
所述第一预测单元613包括并联的第一预测子网和第二预测子网,所述第二预测单元623包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有 G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2
深度强化学习网络参数更新模块7,用于根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S72、令第一策略网络的参数Ψ1、第二策略网络的参数Ψ2均为
Figure GDA0003704791440000081
为U 中第h个策略
Figure GDA0003704791440000082
对应的进化策略神经网络参数,
Figure GDA0003704791440000083
更新Φ1和Φ2,具体包括:
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点
Figure GDA0003704791440000084
中的
Figure GDA0003704791440000085
Figure GDA0003704791440000086
作为第一学习分支 610和第二学习分支620的输入,第一预测子网和第二预测子网输出
Figure GDA0003704791440000087
的两个Q 值,分别记为Q1,Q2;第三预测子网和第四预测子网输出
Figure GDA0003704791440000088
的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
计算当前目标Q值target:
Figure GDA0003704791440000089
其中γ为取值范围为(0,1)的折扣因子超参数;
S722、定义:
Figure GDA00037047914400000810
Figure GDA00037047914400000811
其中Q1(st,at)表示第一预测子网在输入为
Figure GDA00037047914400000812
时输出的Q值;Q2(st,at)表示第二预测子网在输入为
Figure GDA0003704791440000091
时输出的Q值;E[]表示计算期望;
通过
Figure GDA0003704791440000092
反向传播更新Φ1和Φ2
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S732、定义:
Figure GDA0003704791440000093
Figure GDA0003704791440000094
为步骤S731中选择的预测子网的输出Qw对参数Φw的梯度,
Figure GDA0003704791440000095
为策略
Figure GDA0003704791440000096
Figure GDA0003704791440000097
的梯度;s,a为经验回放池R中轨迹点的位置和动作;
通过
Figure GDA0003704791440000098
反向传播更新第一策略网络的参数Ψ1
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4
Ψ′2←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ′2分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性 Nv(π(Ψ1),A);
如果
Figure GDA0003704791440000099
将集合U中的第h个策略
Figure GDA00037047914400000910
和集合S中与
Figure GDA00037047914400000911
对应的策略均替换为π(Ψ1);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
进化策略网络参数更新模块8,用于对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn};
规划结果获取模块9,用于判断策略种群的更新是否结束,如果结束,将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
有益效果:本发明公开的机器人路径规划方法,利用新颖性让策略更好地探索位置和动作,对奖励稀疏的环境也可以有效探索,而深度强化学习可以提高样本效率,节约资源,因此,该方法能够有效地找到一条稳定的最优路径。
附图说明
图1为本发明公开的机器人路径规划方法的流程图;
图2为进化策略神经网络的架构图;
图3为深度强化学习网络的架构图;
图4为本发明公开的机器人路径规划系统的架构图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明公开了一种机器人路径规划方法,如图1所示,包括:
S1、将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd
S2、构建进化策略神经网络,如图2所示,所述进化策略神经网络包括依次连接的输入层21、隐藏层22、Relu激活单元23、输出层24、Sigmoid激活单元 25;所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置 s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;本实施例中,机器人的动作种类总数为4种,为:前进、后退、向左前进、向右前进;即G=4。
S3、设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*,当前迭代次数t=0;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;本实施例中,将目标行为特征BC*初始化为机器人的目的位置sd
S4、对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作
Figure GDA0003704791440000111
并计算执行
Figure GDA0003704791440000112
后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd
在第n组参数θn下,机器人从s0到sd的策略πnn)由每一步的位置动作对组成:
Figure GDA0003704791440000113
其中Mn为策略πnn)中机器人移动的步数,
Figure GDA0003704791440000114
表示机器人在位置
Figure GDA0003704791440000115
处执行动作
Figure GDA0003704791440000116
S5、计算策略πnn)的行为特征BC(πn):
Figure GDA0003704791440000117
表示向上取整函数;
计算策略πnn)的累积奖励
Figure GDA0003704791440000118
其中
Figure GDA0003704791440000119
为执行
Figure GDA00037047914400001110
后机器人移动到位置
Figure GDA00037047914400001111
处,获得的立即奖励,计算式为:
Figure GDA00037047914400001112
其中b是超参数,为起始位置到目标位置的直线距离,
Figure GDA00037047914400001113
Figure GDA00037047914400001114
为位置
Figure GDA00037047914400001115
到目标行为特征BC*的直线距离:
Figure GDA0003704791440000121
将N个策略的所有轨迹点
Figure GDA0003704791440000122
存入经验回放池R,N个策略的所有行为特征组成档案库A,A={BC(πn)};
本实施例中,经验回放池R为容量为CR的先进先出队列,这样经验回放池中的轨迹点为最近生成的策略的轨迹点。
计算每个策略的新颖性,第n个策略πnn)的新颖性Nv(πn,A)为:
Figure GDA0003704791440000123
其中BC(πj)为档案库A中与BC(πn)距离最近的K个行为特征点之一, K<N,j=1,2,…,K,BC(πj)≠BC(πn),|| ·||2
Figure GDA0003704791440000124
为计算向量的2范数;
N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;
计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
S6、构建深度强化学习网络,如图3所示,所述深度强化学习网络包括第一学习分支610和第二学习分支620;所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613;所述第二学习分支620 包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623;所述第一策略网络611与第二策略网络621的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络611根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元612根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元613的输入;
所述第二策略网络621根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元622根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元623的输入;
所述第一预测单元613包括并联的第一预测子网和第二预测子网,所述第二预测单元623包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有 G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2
S7、根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S72、令第一策略网络的参数Ψ1、第二策略网络的参数Ψ2均为
Figure GDA0003704791440000131
为U 中第h个策略
Figure GDA0003704791440000132
对应的进化策略神经网络参数,
Figure GDA0003704791440000133
更新Φ1和Φ2,具体包括:
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点
Figure GDA0003704791440000134
中的
Figure GDA0003704791440000135
Figure GDA0003704791440000136
作为第一学习分支 610和第二学习分支620的输入,第一预测子网和第二预测子网输出
Figure GDA0003704791440000137
的两个Q 值,分别记为Q1,Q2;第三预测子网和第四预测子网输出
Figure GDA0003704791440000138
的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
计算当前目标Q值target:
Figure GDA0003704791440000139
其中γ为取值范围为(0,1)的折扣因子超参数;
S722、定义:
Figure GDA00037047914400001310
Figure GDA0003704791440000141
其中Q1(st,at)表示第一预测子网在输入为
Figure GDA0003704791440000142
时输出的Q值;Q2(st,at)表示第二预测子网在输入为
Figure GDA0003704791440000143
时输出的Q值;E[]表示计算期望;
通过
Figure GDA0003704791440000144
反向传播更新Φ1和Φ2
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S732、定义:
Figure GDA0003704791440000145
Figure GDA0003704791440000146
为步骤S731中选择的预测子网的输出Qw对参数Φw的梯度,
Figure GDA0003704791440000147
为策略
Figure GDA0003704791440000148
Figure GDA0003704791440000149
的梯度;s,a为经验回放池R中轨迹点的位置和动作;
通过
Figure GDA00037047914400001410
反向传播更新第一策略网络的参数Ψ1
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4
Ψ′2←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ′2分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性 Nv(π(Ψ1),A);
如果
Figure GDA0003704791440000151
将集合U中的第h个策略
Figure GDA0003704791440000152
和集合S中与
Figure GDA0003704791440000153
对应的策略均替换为π(Ψ1);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
S8、令t自增1;如果t<T,对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E 个新的进化策略神经网络参数与上一代E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn},跳转至步骤S4进行下一次迭代优化;
步骤S7将当前的N个策略中新颖性最低的H个策略进行了更新,在新的策略种群中,E个精英策略保留到下一代,由此不断地更新较差的策略,保留较好的策略,对策略种群进行优化。最后,从优化后的策略种群中择优,即:如果t=T,迭代优化结束;将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
实现上述路径规划方法的机器人路径规划系统的架构如图4所示,包括:
二维环境栅格图建立模块1,用于将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd
进化策略神经网络构建模块2,用于构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层21、隐藏层22、Relu激活单元23、输出层24、 Sigmoid激活单元25;所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有4个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
参数设置与初始化模块3,用于设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;
策略种群生成模块4,用于根据N组进化策略神经网络的参数Θ={θn}生成从起始位置到目的位置的N个策略;N个策略的生成步骤为:
对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作
Figure GDA0003704791440000161
并计算执行
Figure GDA0003704791440000162
后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd
在第n组参数θn下,机器人从s0到sd的策略πnn)由每一步的位置动作对组成:
Figure GDA0003704791440000163
其中Mn为策略πnn)中机器人移动的步数,
Figure GDA0003704791440000164
表示机器人在位置
Figure GDA0003704791440000165
处执行动作
Figure GDA0003704791440000166
当前策略种群属性计算模块5,用于计算N个策略中每个策略的行为特征、累积奖励、新颖性;将N个策略的所有轨迹点
Figure GDA0003704791440000167
存入经验回放池R, N个策略的所有行为特征组成档案库A;N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
深度强化学习网络构建模块6,用于构建深度强化学习网络并初始化,所述深度强化学习网络包括第一学习分支610和第二学习分支620;所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613;所述第二学习分支620包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623;所述第一策略网络611与第二策略网络621的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络611根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元612根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元613的输入;
所述第二策略网络621根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元622根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元623的输入;
所述第一预测单元613包括并联的第一预测子网和第二预测子网,所述第二预测单元623包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有 G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2
深度强化学习网络参数更新模块7,用于根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S72、令第一策略网络的参数Ψ1、第二策略网络的参数Ψ2均为
Figure GDA0003704791440000171
为U 中第h个策略
Figure GDA0003704791440000172
对应的进化策略神经网络参数,
Figure GDA0003704791440000173
更新Φ1和Φ2,具体包括:
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点
Figure GDA0003704791440000174
中的
Figure GDA0003704791440000175
Figure GDA0003704791440000176
作为第一学习分支610和第二学习分支620的输入,第一预测子网和第二预测子网输出
Figure GDA0003704791440000181
的两个Q 值,分别记为Q1,Q2;第三预测子网和第四预测子网输出
Figure GDA0003704791440000182
的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
计算当前目标Q值target:
Figure GDA0003704791440000183
其中γ为取值范围为(0,1)的折扣因子超参数;
S722、定义:
Figure GDA0003704791440000184
Figure GDA0003704791440000185
其中Q1(st,at)表示第一预测子网在输入为
Figure GDA0003704791440000186
时输出的Q值;Q2(st,at)表示第二预测子网在输入为
Figure GDA0003704791440000187
时输出的Q值;E[]表示计算期望;
通过
Figure GDA0003704791440000188
反向传播更新Φ1和Φ2
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S732、定义:
Figure GDA0003704791440000189
Figure GDA00037047914400001810
为步骤S731中选择的预测子网的输出Qw对参数Φw的梯度,
Figure GDA00037047914400001811
为策略
Figure GDA00037047914400001812
Figure GDA00037047914400001813
的梯度;s,a为经验回放池R中轨迹点的位置和动作;
通过
Figure GDA00037047914400001814
反向传播更新第一策略网络的参数Ψ1
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4
Ψ′2←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ′2分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性 Nv(π(Ψ1),A);
如果
Figure GDA0003704791440000191
将集合U中的第h个策略
Figure GDA0003704791440000192
和集合S中与
Figure GDA0003704791440000193
对应的策略均替换为π(Ψ1);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
进化策略网络参数更新模块8,用于对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E个新的进化策略神经网络参数与E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn};
规划结果获取模块9,用于判断策略种群的更新是否结束,如果结束,将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。

Claims (8)

1.一种机器人路径规划方法,其特征在于,包括:
S1、将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd
S2、构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层(21)、隐藏层(22)、Relu激活单元(23)、输出层(24)、Sigmoid激活单元(25);所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
S3、设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*,当前迭代次数t=0;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;
S4、对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作
Figure FDA0003704791430000011
并计算执行
Figure FDA0003704791430000012
后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd
在第n组参数θn下,机器人从s0到sd的策略πnn)由每一步的位置动作对组成:
Figure FDA0003704791430000013
其中Mn为策略πnn)中机器人移动的步数,
Figure FDA0003704791430000014
表示机器人在位置
Figure FDA0003704791430000015
处执行动作
Figure FDA0003704791430000016
S5、计算策略πnn)的行为特征BC(πn):
Figure FDA0003704791430000021
Figure FDA0003704791430000022
表示向上取整函数;
计算策略πnn)的累积奖励
Figure FDA0003704791430000023
其中
Figure FDA0003704791430000024
为执行
Figure FDA0003704791430000025
后机器人移动到位置
Figure FDA0003704791430000026
处,获得的立即奖励;
将N个策略的所有轨迹点
Figure FDA0003704791430000027
存入经验回放池R,N个策略的所有行为特征组成档案库A,A={BC(πn)};
计算每个策略的新颖性,第n个策略πnn)的新颖性Nv(πn,A)为:
Figure FDA0003704791430000028
其中BC(πj)为档案库A中与BC(πn)距离最近的K个行为特征点之一,K<N,j=1,2,…,K,BC(πj)≠BC(πn),|| · ||2 为计算向量的2范数;
N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;
计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
S6、构建深度强化学习网络,所述深度强化学习网络包括第一学习分支(610)和第二学习分支(620);所述第一学习分支(610)包括依次连接的第一策略网络(611)、第一动作单元(612)和第一预测单元(613);所述第二学习分支(620)包括依次连接的第二策略网络(621)、第二动作单元(622)和第二预测单元(623);所述第一策略网络(611)与第二策略网络(621)的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络(611)根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元(612)根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元(613)的输入;
所述第二策略网络(621)根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元(622)根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元(623)的输入;
所述第一预测单元(613)包括并联的第一预测子网和第二预测子网,所述第二预测单元(623)包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2
S7、根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S72、令第一策略网络的参数Ψ1、第二策略网络的参数Ψ2均为
Figure FDA0003704791430000031
Figure FDA0003704791430000032
为U中第h个策略
Figure FDA0003704791430000033
对应的进化策略神经网络参数,
Figure FDA0003704791430000034
更新Φ1和Φ2,具体包括:
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点
Figure FDA0003704791430000035
中的
Figure FDA0003704791430000036
Figure FDA0003704791430000037
作为第一学习分支(610)和第二学习分支(620)的输入,第一预测子网和第二预测子网输出
Figure FDA0003704791430000038
的两个Q值,分别记为Q1,Q2;第三预测子网和第四预测子网输出
Figure FDA0003704791430000039
的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
计算当前目标Q值target:target=min(Q3,Q4)*γ+ri l
其中γ为取值范围为(0,1)的折扣因子超参数;
S722、定义:
Figure FDA0003704791430000041
Figure FDA0003704791430000042
其中Q1(st,at)表示第一预测子网在输入为
Figure FDA0003704791430000043
时输出的Q值;Q2(st,at)表示第二预测子网在输入为
Figure FDA0003704791430000044
时输出的Q值;E[]表示计算期望;
通过
Figure FDA0003704791430000045
反向传播更新Φ1和Φ2
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S732、定义:
Figure FDA0003704791430000046
Figure FDA0003704791430000047
为步骤S731中选择的预测子网的输出Qw对参数Φw的梯度,
Figure FDA0003704791430000048
为策略
Figure FDA0003704791430000049
Figure FDA00037047914300000410
的梯度;s,a为经验回放池R中轨迹点的位置和动作;
通过
Figure FDA00037047914300000411
反向传播更新第一策略网络的参数Ψ1
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4
Ψ2′←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ2′分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性Nv(π(Ψ1),A);
如果
Figure FDA0003704791430000051
将集合U中的第h个策略
Figure FDA0003704791430000052
和集合S中与
Figure FDA0003704791430000053
对应的策略均替换为π(Ψ1);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
S8、令t自增1;如果t<T,对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn},跳转至步骤S4进行下一次迭代优化;
如果t=T,迭代优化结束;将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
2.根据权利要求1所述的机器人路径规划方法,其特征在于,执行
Figure FDA0003704791430000054
后机器人移动到位置
Figure FDA0003704791430000055
处,获得的立即奖励
Figure FDA0003704791430000056
为:
Figure FDA0003704791430000057
其中b是超参数,为起始位置到目标位置的直线距离,
Figure FDA0003704791430000058
Figure FDA0003704791430000059
为位置
Figure FDA00037047914300000510
到目标行为特征BC*的直线距离:
Figure FDA00037047914300000511
3.根据权利要求1所述的机器人路径规划方法,其特征在于,所述经验回放池R为容量为CR的先进先出队列。
4.根据权利要求1所述的机器人路径规划方法,其特征在于,所述机器人的动作种类总数为4种,为:前进、后退、向左前进、向右前进。
5.一种机器人路径规划系统,其特征在于,包括:
二维环境栅格图建立模块(1),用于将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd
进化策略神经网络构建模块(2),用于构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层(21)、隐藏层(22)、Relu激活单元(23)、输出层(24)、Sigmoid激活单元(25);所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
参数设置与初始化模块(3),用于设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*;随机生成N组进化策略神经网络的参数Θ={θn},n=1,2,…,N;
策略种群生成模块(4),用于根据N组进化策略神经网络的参数Θ={θn}生成从起始位置到目的位置的N个策略;N个策略的生成步骤为:
对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作
Figure FDA0003704791430000061
并计算执行
Figure FDA0003704791430000062
后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd
在第n组参数θn下,机器人从s0到sd的策略πnn)由每一步的位置动作对组成:
Figure FDA0003704791430000063
其中Mn为策略πnn)中机器人移动的步数,
Figure FDA0003704791430000064
表示机器人在位置
Figure FDA0003704791430000065
处执行动作
Figure FDA0003704791430000066
当前策略种群属性计算模块(5),用于计算N个策略中每个策略的行为特征、累积奖励、新颖性;将N个策略的所有轨迹点
Figure FDA0003704791430000067
存入经验回放池R,N个策略的所有行为特征组成档案库A;N个策略中新颖性最大的E个策略为精英策略;剩下的N-E个策略组成集合S;新颖性最小的H个策略组成集合U;计算N个策略中的最优策略π*,所述最优策略π*为累积奖励最大的策略;将目标行为特征BC*更新为最优策略π*的行为特征BC(π*);
深度强化学习网络构建模块(6),用于构建深度强化学习网络并初始化,所述深度强化学习网络包括第一学习分支(610)和第二学习分支(620);所述第一学习分支(610)包括依次连接的第一策略网络(611)、第一动作单元(612)和第一预测单元(613);所述第二学习分支(620)包括依次连接的第二策略网络(621)、第二动作单元(622)和第二预测单元(623);所述第一策略网络(611)与第二策略网络(621)的结构均与进化策略神经网络的结构相同,但参数不同,作用均为根据输入的二维位置得到机器人执行每个动作的概率;
所述第一策略网络(611)根据输入位置s(1)得到执行每个动作的概率P(1),所述第一动作单元(612)根据P(1)选择动作a(1),并将a(1)进行one-hot编码,转换为G维向量Va(1);位置s(1)和动作向量Va(1)的组合[s(1),Va(1)]作为第一预测单元(613)的输入;
所述第二策略网络(621)根据输入位置s(2)得到执行每个动作的概率P(2),所述第二动作单元(622)根据P(2)选择动作a(2),并将a(2)进行one-hot编码,转换为G维向量Va(2);位置s(2)和动作向量Va(2)的组合[s(2),Va(2)]作为第二预测单元(623)的输入;
所述第一预测单元(613)包括并联的第一预测子网和第二预测子网,所述第二预测单元(623)包括并联的第三预测子网和第四预测子网;所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同;
所述第一预测子网包括依次连接的输入层、隐藏层、输出层;所述输入层有G+2个神经元,所述隐藏层包括2个级联的子层,每个子层有64个神经元;所述输出层有1个神经元;输入为位置动作向量组合,输出为输入的Q值;
随机初始化第一预测子网的参数Φ1、第二预测子网的参数Φ2;令第三预测子网的参数Φ3=Φ1、第四预测子网Φ4=Φ2
深度强化学习网络参数更新模块(7),用于根据集合U中的策略更新深度强化学习网络中的参数,具体步骤为:
S71、令h=1;
S72、令第一策略网络的参数Ψ1、第二策略网络的参数Ψ2均为
Figure FDA0003704791430000081
Figure FDA0003704791430000082
为U中第h个策略
Figure FDA0003704791430000083
对应的进化策略神经网络参数,
Figure FDA0003704791430000084
更新Φ1和Φ2,具体包括:
S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集,利用第一样本集更新第一预测子网的参数Φ1和第二预测子网的参数Φ2,具体步骤包括:
分别将第一样本集中的轨迹点
Figure FDA0003704791430000085
中的
Figure FDA0003704791430000086
Figure FDA0003704791430000087
作为第一学习分支(610)和第二学习分支(620)的输入,第一预测子网和第二预测子网输出
Figure FDA0003704791430000088
的两个Q值,分别记为Q1,Q2;第三预测子网和第四预测子网输出
Figure FDA0003704791430000089
的两个Q值,分别记为Q3,Q4;l=1,2,…,L;
计算当前目标Q值target:target=min(Q3,Q4)*γ+ri l
其中γ为取值范围为(0,1)的折扣因子超参数;
S722、定义:
Figure FDA00037047914300000810
Figure FDA00037047914300000811
其中Q1(st,at)表示第一预测子网在输入为
Figure FDA00037047914300000812
时输出的Q值;Q2(st,at)表示第二预测子网在输入为
Figure FDA00037047914300000813
时输出的Q值;E[]表示计算期望;
通过
Figure FDA00037047914300000814
反向传播更新Φ1和Φ2
S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集,重新执行步骤S721和S722,再次更新Φ1和Φ2,直到更新次数达到预设的第一更新次数阈值T1
S73、更新第一策略网络的参数Ψ1,包括:
S731、选择第一预测子网或第二预测子网,即w=1或w=2;
S732、定义:
Figure FDA0003704791430000091
Figure FDA0003704791430000092
为步骤S731中选择的预测子网的输出Qw对参数Φw的梯度,
Figure FDA0003704791430000093
为策略
Figure FDA0003704791430000094
Figure FDA0003704791430000095
的梯度;s,a为经验回放池R中轨迹点的位置和动作;
通过
Figure FDA0003704791430000096
反向传播更新第一策略网络的参数Ψ1
S74、用软更新来更新第二策略网络的参数Ψ2、第三预测子网的参数Φ3和第四预测子网的参数Φ4
Ψ2′←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ2′分别是软更新前后的第二策略网络的参数,Φ3和Φ′3分别是软更新前后的第三预测子网的参数,Φ4和Φ′4分别是软更新前后的第四预测子网的参数;τ是大于0小于1的常数;
S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ1,获取在参数Ψ1下从起始位置s0到目的位置sd的策略π(Ψ1),计算策略π(Ψ1)的新颖性Nv(π(Ψ1),A);
如果
Figure FDA0003704791430000097
将集合U中的第h个策略
Figure FDA0003704791430000098
和集合S中与
Figure FDA0003704791430000099
对应的策略均替换为π(Ψ1);
如果h<H,令h自增1,跳转至步骤S72进行下一次深度强化学习网络参数的更新;
进化策略网络参数更新模块(8),用于对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声,生成N-E个新的进化策略神经网络参数;所述N-E个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ={θn};
规划结果获取模块(9),用于判断策略种群的更新是否结束,如果结束,将当前最优策略π*作为结果,得到机器人从起始位置到目的位置每一步的动作。
6.根据权利要求5所述的机器人路径规划系统,其特征在于,执行
Figure FDA0003704791430000101
后机器人移动到位置
Figure FDA0003704791430000102
处,获得的立即奖励
Figure FDA0003704791430000103
为:
Figure FDA0003704791430000104
其中b是超参数,为起始位置到目标位置的直线距离,
Figure FDA0003704791430000105
Figure FDA0003704791430000106
为位置
Figure FDA0003704791430000107
到目标行为特征BC*的直线距离:
Figure FDA0003704791430000108
7.根据权利要求5所述的机器人路径规划系统,其特征在于,所述经验回放池R为容量为CR的先进先出队列。
8.根据权利要求5所述的机器人路径规划系统,其特征在于,所述机器人的动作种类总数为4种,为:前进、后退、向左前进、向右前进。
CN202110228596.0A 2021-02-08 2021-03-02 一种机器人路径规划方法和规划系统 Active CN112987742B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110180798 2021-02-08
CN2021101807982 2021-02-08

Publications (2)

Publication Number Publication Date
CN112987742A CN112987742A (zh) 2021-06-18
CN112987742B true CN112987742B (zh) 2022-08-26

Family

ID=76351926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110228596.0A Active CN112987742B (zh) 2021-02-08 2021-03-02 一种机器人路径规划方法和规划系统

Country Status (1)

Country Link
CN (1) CN112987742B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114879486A (zh) * 2022-02-28 2022-08-09 复旦大学 一种基于强化学习和进化算法的机器人优化控制方法
JP7257569B1 (ja) 2022-03-01 2023-04-13 株式会社きんでん 自走制御プログラム、および、自走式作業装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137967B (zh) * 2015-07-16 2018-01-19 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
US11068787B2 (en) * 2017-12-15 2021-07-20 Uber Technologies, Inc. Training neural networks using evolution based strategies and novelty search
CN110632922B (zh) * 2019-09-10 2022-06-17 青岛理工大学 一种基于蝙蝠算法与强化学习的路径规划方法
CN111552301B (zh) * 2020-06-21 2022-05-20 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN112001585B (zh) * 2020-07-14 2023-09-22 北京百度网讯科技有限公司 多智能体决策方法、装置、电子设备及存储介质
CN111931418B (zh) * 2020-07-21 2023-06-02 广东工业大学 一种基于进化神经网络的马蹄焰玻璃窑炉的热效率预测方法

Also Published As

Publication number Publication date
CN112987742A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
Liu et al. Mapper: Multi-agent path planning with evolutionary reinforcement learning in mixed dynamic environments
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN102402712B (zh) 基于神经网络的机器人强化学习初始化方法
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
CN112987742B (zh) 一种机器人路径规划方法和规划系统
CN111307153B (zh) 基于六边形栅格地图的多auv任务分配与路径规划方法
CN113253733B (zh) 一种基于学习和融合的导航避障方法、装置及系统
Ding et al. Game-theoretic cooperative lane changing using data-driven models
US11911902B2 (en) Method for obstacle avoidance in degraded environments of robots based on intrinsic plasticity of SNN
Xue et al. Multi-agent deep reinforcement learning for UAVs navigation in unknown complex environment
EP3904973A1 (en) Device and method for controlling a robot
Mondal et al. A survey of reinforcement learning techniques: strategies, recent development, and future directions
CN112613608A (zh) 一种强化学习方法及相关装置
CN113537580A (zh) 一种基于自适应图学习的公共交通客流预测方法及系统
Khan et al. Motion planning for a snake robot using double deep q-learning
CN117553798A (zh) 复杂人群场景中移动机器人的安全导航方法、设备及介质
Nwaonumah et al. Deep reinforcement learning for visual navigation of wheeled mobile robots
Khan et al. Learning sample-efficient target reaching for mobile robots
Gao et al. Modeling spatio-temporal interactions for vehicle trajectory prediction based on graph representation learning
CN115562258A (zh) 基于神经网络的机器人社会自适应路径规划方法及系统
Hussonnois et al. End-to-end autonomous driving using the Ape-X algorithm in Carla simulation environment
CN114527759A (zh) 一种基于分层强化学习的端到端驾驶方法
Anderson et al. Autonomous navigation via a deep Q network with one-hot image encoding
Tran et al. Mobile robot planner with low-cost cameras using deep reinforcement learning
Berseth et al. Model-based action exploration for learning dynamic motion skills

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant