CN112987742B

CN112987742B - 一种机器人路径规划方法和规划系统

Info

Publication number: CN112987742B
Application number: CN202110228596.0A
Authority: CN
Inventors: 尹翔; 彭坤彦; 黄宁馨; 李恒宇
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-02-08
Filing date: 2021-03-02
Publication date: 2022-08-26
Anticipated expiration: 2041-03-02
Also published as: CN112987742A

Abstract

本发明公开了一种机器人路径规划方法，包括：1、构建二维环境栅格图；2、构建进化策略神经网络，其输入为机器人位置，输出为该位置处机器人执行每个动作的概率；3、设置迭代参数并初始化；4、生成策略种群；5、计算策略种群的属性，建立S集合和U集合；6、构建深度强化学习网络；7、利用U更新深度强化学习网络的参数，并更新U和S；8、对S中策略对应的参数添加高斯噪声，生成新的非精英策略，并与上一代精英策略构成新的策略种群；当达到迭代次数最大值时，将策略种群中的最优策略作为结果，得到机器人从起始位置到目的位置每一步的动作；否则跳转至步骤4进行下一次迭代。该方法重复利用经验数据进行策略改进，以快速找到最优路径。

Description

一种机器人路径规划方法和规划系统

技术领域

本发明属于机器人导航技术领域，具体涉及一种移动机器人路径规划方法和系统。

背景技术

近年来，为了应对不断增长的应用需求，以及移动机器人在陌生环境中的适应性和灵活性的提高，科学家们对移动机器人的局部轨迹的架构和规划进行了研究。尽管已经提出了许多有效方法用于已知环境中的移动机器人导航技术，但是这些方法通常难以应用于未知环境中的自主导航。深度强化学习算法已成功应用于一系列具有挑战性的控制任务，但其缺乏有效的探索，限制了采用深度强化学习在路径规划中的适用性。现有的机器人导航方法主要的问题是在未知环境中，移动机器人系统的信息不能随着环境信息变化而变化，特别是在具有各种形状障碍物的环境中。由于环境信息的不断变化，不能准确的定位，移动机器人难以有效地搜索最佳路线。进化策略是一类受自然进化启发的黑盒优化技术，能够实现有效的探索。但是，进化策略通常遭受到高样本复杂性的困扰，并且难以解决需要优化大量参数的问题。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种机器人路径规划方法，该方法可以实现快速探索，并重复利用经验数据进行策略改进，以快速找到最优路径。

技术方案：本发明一方面公开了一种机器人路径规划方法，包括：

S1、将机器人活动的二维场景栅格化为二维环境栅格图，每个栅格的属性为障碍物或道路；获取机器人在二维环境栅格图中的起始位置坐标s₀和目的位置坐标s_d；

S2、构建进化策略神经网络，所述进化策略神经网络包括依次连接的输入层 21、隐藏层22、Relu激活单元23、输出层24、Sigmoid激活单元25；所述输入层有2个神经元；所述隐藏层包括2个级联的子层，两个隐藏子层中间有Relu 激活单元；每个隐藏子层有64个神经元；所述输出层有G个神经元；所述进化策略神经网络的输入为机器人的二维位置坐标s，输出为机器人在位置s处执行每个动作的概率P＝(p₁,p₂,…,p_G)，p_g为机器人在位置s处执行第g个动作的概率，g＝1,2,…,G，G是机器人动作种类总数；

S3、设置策略种群规模N，迭代次数T，噪声标准差σ；初始化目标行为特征BC^*，当前迭代次数t＝0；随机生成N组进化策略神经网络的参数Θ＝{θ_n}， n＝1,2,…,N；

S4、对于每一组参数θ_n，将机器人起始位置s₀输入进化策略神经网络，获取机器人执行每个动作的概率p_g，选择概率最大的动作

并计算执行

后机器人的位置和立即奖励；将机器人新的位置输入进化策略神经网络，获取机器人新的动作、位置和立即奖励，直到机器人到达目的位置s_d；

在第n组参数θ_n下，机器人从s₀到s_d的策略π_n(θ_n)由每一步的位置动作对组成：

其中M_n为策略π_n(θ_n)中机器人移动的步数，

表示机器人在位置

处执行动作

S5、计算策略π_n(θ_n)的行为特征BC(π_n)：

表示向上取整函数；

计算策略π_n(θ_n)的累积奖励

其中

为执行

后机器人移动到位置

处，获得的立即奖励；

将N个策略的所有轨迹点

存入经验回放池R，N个策略的所有行为特征组成档案库A，A＝{BC(π_n)}；

计算每个策略的新颖性，第n个策略π_n(θ_n)的新颖性Nv(π_n,A)为：

其中BC(π_j)为档案库A中与BC(π_n)距离最近的K个行为特征点之一， K＜N，j＝1,2,…,K，BC(π_j)≠BC(π_n)，|| · ||₂ 为计算向量的2范数；

N个策略中新颖性最大的E个策略为精英策略；剩下的N-E个策略组成集合S；新颖性最小的H个策略组成集合U；

计算N个策略中的最优策略π^*，所述最优策略π^*为累积奖励最大的策略；将目标行为特征BC^*更新为最优策略π^*的行为特征BC(π^*)；

S6、构建深度强化学习网络，所述深度强化学习网络包括第一学习分支610 和第二学习分支620；所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613；所述第二学习分支620包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623；所述第一策略网络 611与第二策略网络621的结构均与进化策略神经网络的结构相同，但参数不同，作用均为根据输入的二维位置得到机器人执行每个动作的概率；

所述第一策略网络611根据输入位置s(1)得到执行每个动作的概率P(1)，所述第一动作单元612根据P(1)选择动作a(1)，并将a(1)进行one-hot编码，转换为G维向量V_a(1)；位置s(1)和动作向量V_a(1)的组合[s(1),V_a(1)]作为第一预测单元613的输入；

所述第二策略网络621根据输入位置s(2)得到执行每个动作的概率P(2)，所述第二动作单元622根据P(2)选择动作a(2)，并将a(2)进行one-hot编码，转换为G维向量V_a(2)；位置s(2)和动作向量V_a(2)的组合[s(2),V_a(2)]作为第二预测单元623的输入；

所述第一预测单元613包括并联的第一预测子网和第二预测子网，所述第二预测单元623包括并联的第三预测子网和第四预测子网；所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同；

所述第一预测子网包括依次连接的输入层、隐藏层、输出层；所述输入层有G+2个神经元，所述隐藏层包括2个级联的子层，每个子层有64个神经元；所述输出层有1个神经元；输入为位置动作向量组合，输出为输入的Q值；

随机初始化第一预测子网的参数Φ₁、第二预测子网的参数Φ₂；令第三预测子网的参数Φ₃＝Φ₁、第四预测子网Φ₄＝Φ₂；

S7、根据集合U中的策略更新深度强化学习网络中的参数，具体步骤为：

S71、令h＝1；

S72、令第一策略网络的参数Ψ₁、第二策略网络的参数Ψ₂均为

为U 中第h个策略

对应的进化策略神经网络参数，

更新Φ₁和Φ₂，具体包括：

S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集，利用第一样本集更新第一预测子网的参数Φ₁和第二预测子网的参数Φ₂，具体步骤包括：

分别将第一样本集中的轨迹点

中的

和

作为第一学习分支 610和第二学习分支620的输入，第一预测子网和第二预测子网输出

的两个Q 值，分别记为Q₁,Q₂；第三预测子网和第四预测子网输出

的两个Q值，分别记为Q₃,Q₄；l＝1,2,…,L；

计算当前目标Q值target：

其中γ为取值范围为(0,1)的折扣因子超参数；

S722、定义：

其中Q₁(s_t,a_t)表示第一预测子网在输入为

时输出的Q值；Q₂(s_t,a_t)表示第二预测子网在输入为

时输出的Q值；E[]表示计算期望；

通过

反向传播更新Φ₁和Φ₂；

S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集，重新执行步骤S721和S722，再次更新Φ₁和Φ₂，直到更新次数达到预设的第一更新次数阈值T₁；

S73、更新第一策略网络的参数Ψ₁，包括：

S731、选择第一预测子网或第二预测子网，即w＝1或w＝2；

S732、定义：

为步骤S731中选择的预测子网的输出Q_w对参数Φ_w的梯度，

为策略

对

的梯度；s,a为经验回放池R中轨迹点的位置和动作；

通过

反向传播更新第一策略网络的参数Ψ₁；

S74、用软更新来更新第二策略网络的参数Ψ₂、第三预测子网的参数Φ₃和第四预测子网的参数Φ₄：

Ψ′₂←τΨ₁+(1-τ)Ψ₂，Φ′₃←τΦ₁+(1-τ)Φ₃，Φ₄←τΦ₂+(1-τ)Φ₄

其中Ψ₂和Ψ′₂分别是软更新前后的第二策略网络的参数，Φ₃和Φ′₃分别是软更新前后的第三预测子网的参数，Φ₄和Φ′₄分别是软更新前后的第四预测子网的参数；τ是大于0小于1的常数；

S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ₁，获取在参数Ψ₁下从起始位置s₀到目的位置s_d的策略π(Ψ₁)，计算策略π(Ψ₁)的新颖性 Nv(π(Ψ₁),A)；

如果

将集合U中的第h个策略

和集合S中与

对应的策略均替换为π(Ψ₁)；

如果h＜H，令h自增1，跳转至步骤S72进行下一次深度强化学习网络参数的更新；

S8、令t自增1；如果t＜T，对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声，生成N-E个新的进化策略神经网络参数；所述N-E 个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ＝{θ_n}，跳转至步骤S4进行下一次迭代优化；

如果t＝T，迭代优化结束；将当前最优策略π^*作为结果，得到机器人从起始位置到目的位置每一步的动作。

另一方面，本发明还公开了实现上述机器人路径规划方法的系统，包括：

二维环境栅格图建立模块1，用于将机器人活动的二维场景栅格化为二维环境栅格图，每个栅格的属性为障碍物或道路；获取机器人在二维环境栅格图中的起始位置坐标s₀和目的位置坐标s_d；

进化策略神经网络构建模块2，用于构建进化策略神经网络，所述进化策略神经网络包括依次连接的输入层21、隐藏层22、Relu激活单元23、输出层24、 Sigmoid激活单元25；所述输入层有2个神经元；所述隐藏层包括2个级联的子层，两个隐藏子层中间有Relu激活单元；每个隐藏子层有64个神经元；所述输出层有G个神经元；所述进化策略神经网络的输入为机器人的二维位置坐标s，输出为机器人在位置s处执行每个动作的概率P＝(p₁,p₂,…,p_G)，p_g为机器人在位置s处执行第g个动作的概率，g＝1,2,…,G，G是机器人动作种类总数；

参数设置与初始化模块3，用于设置策略种群规模N，迭代次数T，噪声标准差σ；初始化目标行为特征BC^*；随机生成N组进化策略神经网络的参数Θ＝{θ_n}，n＝1,2,…,N；

策略种群生成模块4，用于根据N组进化策略神经网络的参数Θ＝{θ_n}生成从起始位置到目的位置的N个策略；N个策略的生成步骤为：

对于每一组参数θ_n，将机器人起始位置s₀输入进化策略神经网络，获取机器人执行每个动作的概率p_g，选择概率最大的动作

并计算执行

其中M_n为策略π_n(θ_n)中机器人移动的步数，

表示机器人在位置

处执行动作

当前策略种群属性计算模块5，用于计算N个策略中每个策略的行为特征、累积奖励、新颖性；将N个策略的所有轨迹点

存入经验回放池R， N个策略的所有行为特征组成档案库A；N个策略中新颖性最大的E个策略为精英策略；剩下的N-E个策略组成集合S；新颖性最小的H个策略组成集合U；计算N个策略中的最优策略π^*，所述最优策略π^*为累积奖励最大的策略；将目标行为特征BC^*更新为最优策略π^*的行为特征BC(π^*)；

深度强化学习网络构建模块6，用于构建深度强化学习网络并初始化，所述深度强化学习网络包括第一学习分支610和第二学习分支620；所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613；所述第二学习分支620包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623；所述第一策略网络611与第二策略网络621的结构均与进化策略神经网络的结构相同，但参数不同，作用均为根据输入的二维位置得到机器人执行每个动作的概率；

所述第一预测子网包括依次连接的输入层、隐藏层、输出层；所述输入层有 G+2个神经元，所述隐藏层包括2个级联的子层，每个子层有64个神经元；所述输出层有1个神经元；输入为位置动作向量组合，输出为输入的Q值；

深度强化学习网络参数更新模块7，用于根据集合U中的策略更新深度强化学习网络中的参数，具体步骤为：

S71、令h＝1；

为U 中第h个策略

对应的进化策略神经网络参数，

更新Φ₁和Φ₂，具体包括：

分别将第一样本集中的轨迹点

中的

和

的两个Q值，分别记为Q₃,Q₄；l＝1,2,…,L；

计算当前目标Q值target：

其中γ为取值范围为(0,1)的折扣因子超参数；

S722、定义：

其中Q₁(s_t,a_t)表示第一预测子网在输入为

时输出的Q值；Q₂(s_t,a_t)表示第二预测子网在输入为

时输出的Q值；E[]表示计算期望；

通过

反向传播更新Φ₁和Φ₂；

S73、更新第一策略网络的参数Ψ₁，包括：

S731、选择第一预测子网或第二预测子网，即w＝1或w＝2；

S732、定义：

为步骤S731中选择的预测子网的输出Q_w对参数Φ_w的梯度，

为策略

对

的梯度；s,a为经验回放池R中轨迹点的位置和动作；

通过

反向传播更新第一策略网络的参数Ψ₁；

如果

将集合U中的第h个策略

和集合S中与

对应的策略均替换为π(Ψ₁)；

进化策略网络参数更新模块8，用于对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声，生成N-E个新的进化策略神经网络参数；所述N-E个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ＝{θ_n}；

规划结果获取模块9，用于判断策略种群的更新是否结束，如果结束，将当前最优策略π^*作为结果，得到机器人从起始位置到目的位置每一步的动作。

有益效果：本发明公开的机器人路径规划方法，利用新颖性让策略更好地探索位置和动作，对奖励稀疏的环境也可以有效探索，而深度强化学习可以提高样本效率，节约资源，因此，该方法能够有效地找到一条稳定的最优路径。

附图说明

图1为本发明公开的机器人路径规划方法的流程图；

图2为进化策略神经网络的架构图；

图3为深度强化学习网络的架构图；

图4为本发明公开的机器人路径规划系统的架构图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

本发明公开了一种机器人路径规划方法，如图1所示，包括：

S2、构建进化策略神经网络，如图2所示，所述进化策略神经网络包括依次连接的输入层21、隐藏层22、Relu激活单元23、输出层24、Sigmoid激活单元 25；所述输入层有2个神经元；所述隐藏层包括2个级联的子层，两个隐藏子层中间有Relu激活单元；每个隐藏子层有64个神经元；所述输出层有G个神经元；所述进化策略神经网络的输入为机器人的二维位置坐标s，输出为机器人在位置 s处执行每个动作的概率P＝(p₁,p₂,…,p_G)，p_g为机器人在位置s处执行第g个动作的概率，g＝1,2,…,G，G是机器人动作种类总数；本实施例中，机器人的动作种类总数为4种，为：前进、后退、向左前进、向右前进；即G＝4。

S3、设置策略种群规模N，迭代次数T，噪声标准差σ；初始化目标行为特征BC^*，当前迭代次数t＝0；随机生成N组进化策略神经网络的参数Θ＝{θ_n}，n＝1,2,…,N；本实施例中，将目标行为特征BC^*初始化为机器人的目的位置s_d；

并计算执行

其中M_n为策略π_n(θ_n)中机器人移动的步数，

表示机器人在位置

处执行动作

S5、计算策略π_n(θ_n)的行为特征BC(π_n)：

表示向上取整函数；

计算策略π_n(θ_n)的累积奖励

其中

为执行

后机器人移动到位置

处，获得的立即奖励，计算式为：

其中b是超参数，为起始位置到目标位置的直线距离，

为位置

到目标行为特征BC^*的直线距离：

将N个策略的所有轨迹点

本实施例中，经验回放池R为容量为C_R的先进先出队列，这样经验回放池中的轨迹点为最近生成的策略的轨迹点。

其中BC(π_j)为档案库A中与BC(π_n)距离最近的K个行为特征点之一， K＜N，j＝1,2,…,K，BC(π_j)≠BC(π_n)，|| ·||₂

为计算向量的2范数；

S6、构建深度强化学习网络，如图3所示，所述深度强化学习网络包括第一学习分支610和第二学习分支620；所述第一学习分支610包括依次连接的第一策略网络611、第一动作单元612和第一预测单元613；所述第二学习分支620 包括依次连接的第二策略网络621、第二动作单元622和第二预测单元623；所述第一策略网络611与第二策略网络621的结构均与进化策略神经网络的结构相同，但参数不同，作用均为根据输入的二维位置得到机器人执行每个动作的概率；

S71、令h＝1；

为U 中第h个策略

对应的进化策略神经网络参数，

更新Φ₁和Φ₂，具体包括：

分别将第一样本集中的轨迹点

中的

和

的两个Q值，分别记为Q₃,Q₄；l＝1,2,…,L；

计算当前目标Q值target：

其中γ为取值范围为(0,1)的折扣因子超参数；

S722、定义：

其中Q₁(s_t,a_t)表示第一预测子网在输入为

时输出的Q值；Q₂(s_t,a_t)表示第二预测子网在输入为

时输出的Q值；E[]表示计算期望；

通过

反向传播更新Φ₁和Φ₂；

S73、更新第一策略网络的参数Ψ₁，包括：

S731、选择第一预测子网或第二预测子网，即w＝1或w＝2；

S732、定义：

为步骤S731中选择的预测子网的输出Q_w对参数Φ_w的梯度，

为策略

对

的梯度；s,a为经验回放池R中轨迹点的位置和动作；

通过

反向传播更新第一策略网络的参数Ψ₁；

如果

将集合U中的第h个策略

和集合S中与

对应的策略均替换为π(Ψ₁)；

S8、令t自增1；如果t＜T，对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声，生成N-E个新的进化策略神经网络参数；所述N-E 个新的进化策略神经网络参数与上一代E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ＝{θ_n}，跳转至步骤S4进行下一次迭代优化；

步骤S7将当前的N个策略中新颖性最低的H个策略进行了更新，在新的策略种群中，E个精英策略保留到下一代，由此不断地更新较差的策略，保留较好的策略，对策略种群进行优化。最后，从优化后的策略种群中择优，即：如果t＝T，迭代优化结束；将当前最优策略π^*作为结果，得到机器人从起始位置到目的位置每一步的动作。

实现上述路径规划方法的机器人路径规划系统的架构如图4所示，包括：

进化策略神经网络构建模块2，用于构建进化策略神经网络，所述进化策略神经网络包括依次连接的输入层21、隐藏层22、Relu激活单元23、输出层24、 Sigmoid激活单元25；所述输入层有2个神经元；所述隐藏层包括2个级联的子层，两个隐藏子层中间有Relu激活单元；每个隐藏子层有64个神经元；所述输出层有4个神经元；所述进化策略神经网络的输入为机器人的二维位置坐标s，输出为机器人在位置s处执行每个动作的概率P＝(p₁,p₂,…,p_G)，p_g为机器人在位置s处执行第g个动作的概率，g＝1,2,…,G，G是机器人动作种类总数；

并计算执行

其中M_n为策略π_n(θ_n)中机器人移动的步数，

表示机器人在位置

处执行动作

S71、令h＝1；

为U 中第h个策略

对应的进化策略神经网络参数，

更新Φ₁和Φ₂，具体包括：

分别将第一样本集中的轨迹点

中的

和

作为第一学习分支610和第二学习分支620的输入，第一预测子网和第二预测子网输出

的两个Q值，分别记为Q₃,Q₄；l＝1,2,…,L；

计算当前目标Q值target：

其中γ为取值范围为(0,1)的折扣因子超参数；

S722、定义：

其中Q₁(s_t,a_t)表示第一预测子网在输入为

时输出的Q值；Q₂(s_t,a_t)表示第二预测子网在输入为

时输出的Q值；E[]表示计算期望；

通过

反向传播更新Φ₁和Φ₂；

S73、更新第一策略网络的参数Ψ₁，包括：

S731、选择第一预测子网或第二预测子网，即w＝1或w＝2；

S732、定义：

为步骤S731中选择的预测子网的输出Q_w对参数Φ_w的梯度，

为策略

对

的梯度；s,a为经验回放池R中轨迹点的位置和动作；

通过

反向传播更新第一策略网络的参数Ψ₁；

如果

将集合U中的第h个策略

和集合S中与

对应的策略均替换为π(Ψ₁)；

进化策略网络参数更新模块8，用于对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声，生成N-E个新的进化策略神经网络参数；所述N-E个新的进化策略神经网络参数与E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ＝{θ_n}；

Claims

1.一种机器人路径规划方法，其特征在于，包括：

S2、构建进化策略神经网络，所述进化策略神经网络包括依次连接的输入层(21)、隐藏层(22)、Relu激活单元(23)、输出层(24)、Sigmoid激活单元(25)；所述输入层有2个神经元；所述隐藏层包括2个级联的子层，两个隐藏子层中间有Relu激活单元；每个隐藏子层有64个神经元；所述输出层有G个神经元；所述进化策略神经网络的输入为机器人的二维位置坐标s，输出为机器人在位置s处执行每个动作的概率P＝(p₁,p₂,…,p_G)，p_g为机器人在位置s处执行第g个动作的概率，g＝1,2,…,G，G是机器人动作种类总数；

S3、设置策略种群规模N，迭代次数T，噪声标准差σ；初始化目标行为特征BC^*，当前迭代次数t＝0；随机生成N组进化策略神经网络的参数Θ＝{θ_n}，n＝1,2,…,N；

并计算执行

其中M_n为策略π_n(θ_n)中机器人移动的步数，

表示机器人在位置

处执行动作

S5、计算策略π_n(θ_n)的行为特征BC(π_n)：

表示向上取整函数；

计算策略π_n(θ_n)的累积奖励

其中

为执行

后机器人移动到位置

处，获得的立即奖励；

将N个策略的所有轨迹点

其中BC(π_j)为档案库A中与BC(π_n)距离最近的K个行为特征点之一，K＜N，j＝1,2,…,K，BC(π_j)≠BC(π_n)，|| · ||₂ 为计算向量的2范数；

S6、构建深度强化学习网络，所述深度强化学习网络包括第一学习分支(610)和第二学习分支(620)；所述第一学习分支(610)包括依次连接的第一策略网络(611)、第一动作单元(612)和第一预测单元(613)；所述第二学习分支(620)包括依次连接的第二策略网络(621)、第二动作单元(622)和第二预测单元(623)；所述第一策略网络(611)与第二策略网络(621)的结构均与进化策略神经网络的结构相同，但参数不同，作用均为根据输入的二维位置得到机器人执行每个动作的概率；

所述第一策略网络(611)根据输入位置s(1)得到执行每个动作的概率P(1)，所述第一动作单元(612)根据P(1)选择动作a(1)，并将a(1)进行one-hot编码，转换为G维向量V_a(1)；位置s(1)和动作向量V_a(1)的组合[s(1),V_a(1)]作为第一预测单元(613)的输入；

所述第二策略网络(621)根据输入位置s(2)得到执行每个动作的概率P(2)，所述第二动作单元(622)根据P(2)选择动作a(2)，并将a(2)进行one-hot编码，转换为G维向量V_a(2)；位置s(2)和动作向量V_a(2)的组合[s(2),V_a(2)]作为第二预测单元(623)的输入；

所述第一预测单元(613)包括并联的第一预测子网和第二预测子网，所述第二预测单元(623)包括并联的第三预测子网和第四预测子网；所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同；

S71、令h＝1；

为U中第h个策略

对应的进化策略神经网络参数，

更新Φ₁和Φ₂，具体包括：

分别将第一样本集中的轨迹点

中的

和

作为第一学习分支(610)和第二学习分支(620)的输入，第一预测子网和第二预测子网输出

的两个Q值，分别记为Q₁,Q₂；第三预测子网和第四预测子网输出

的两个Q值，分别记为Q₃,Q₄；l＝1,2,…,L；

计算当前目标Q值target：target＝min(Q3,Q4)*γ+r_i ^l；

其中γ为取值范围为(0,1)的折扣因子超参数；

S722、定义：

其中Q₁(s_t,a_t)表示第一预测子网在输入为

时输出的Q值；Q₂(s_t,a_t)表示第二预测子网在输入为

时输出的Q值；E[]表示计算期望；

通过

反向传播更新Φ₁和Φ₂；

S73、更新第一策略网络的参数Ψ₁，包括：

S731、选择第一预测子网或第二预测子网，即w＝1或w＝2；

S732、定义：

为步骤S731中选择的预测子网的输出Q_w对参数Φ_w的梯度，

为策略

对

的梯度；s,a为经验回放池R中轨迹点的位置和动作；

通过

反向传播更新第一策略网络的参数Ψ₁；

Ψ₂′←τΨ₁+(1-τ)Ψ₂，Φ′₃←τΦ₁+(1-τ)Φ₃，Φ₄←τΦ₂+(1-τ)Φ₄

其中Ψ₂和Ψ₂′分别是软更新前后的第二策略网络的参数，Φ₃和Φ′₃分别是软更新前后的第三预测子网的参数，Φ₄和Φ′₄分别是软更新前后的第四预测子网的参数；τ是大于0小于1的常数；

S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ₁，获取在参数Ψ₁下从起始位置s₀到目的位置s_d的策略π(Ψ₁)，计算策略π(Ψ₁)的新颖性Nv(π(Ψ₁),A)；

如果

将集合U中的第h个策略

和集合S中与

对应的策略均替换为π(Ψ₁)；

S8、令t自增1；如果t＜T，对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声，生成N-E个新的进化策略神经网络参数；所述N-E个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ＝{θ_n}，跳转至步骤S4进行下一次迭代优化；

2.根据权利要求1所述的机器人路径规划方法，其特征在于，执行

后机器人移动到位置

处，获得的立即奖励

为：

其中b是超参数，为起始位置到目标位置的直线距离，

为位置

到目标行为特征BC^*的直线距离：

3.根据权利要求1所述的机器人路径规划方法，其特征在于，所述经验回放池R为容量为C_R的先进先出队列。

4.根据权利要求1所述的机器人路径规划方法，其特征在于，所述机器人的动作种类总数为4种，为：前进、后退、向左前进、向右前进。

5.一种机器人路径规划系统，其特征在于，包括：

二维环境栅格图建立模块(1)，用于将机器人活动的二维场景栅格化为二维环境栅格图，每个栅格的属性为障碍物或道路；获取机器人在二维环境栅格图中的起始位置坐标s₀和目的位置坐标s_d；

进化策略神经网络构建模块(2)，用于构建进化策略神经网络，所述进化策略神经网络包括依次连接的输入层(21)、隐藏层(22)、Relu激活单元(23)、输出层(24)、Sigmoid激活单元(25)；所述输入层有2个神经元；所述隐藏层包括2个级联的子层，两个隐藏子层中间有Relu激活单元；每个隐藏子层有64个神经元；所述输出层有G个神经元；所述进化策略神经网络的输入为机器人的二维位置坐标s，输出为机器人在位置s处执行每个动作的概率P＝(p₁,p₂,…,p_G)，p_g为机器人在位置s处执行第g个动作的概率，g＝1,2,…,G，G是机器人动作种类总数；

参数设置与初始化模块(3)，用于设置策略种群规模N，迭代次数T，噪声标准差σ；初始化目标行为特征BC^*；随机生成N组进化策略神经网络的参数Θ＝{θ_n}，n＝1,2,…,N；

策略种群生成模块(4)，用于根据N组进化策略神经网络的参数Θ＝{θ_n}生成从起始位置到目的位置的N个策略；N个策略的生成步骤为：

并计算执行

其中M_n为策略π_n(θ_n)中机器人移动的步数，

表示机器人在位置

处执行动作

当前策略种群属性计算模块(5)，用于计算N个策略中每个策略的行为特征、累积奖励、新颖性；将N个策略的所有轨迹点

存入经验回放池R，N个策略的所有行为特征组成档案库A；N个策略中新颖性最大的E个策略为精英策略；剩下的N-E个策略组成集合S；新颖性最小的H个策略组成集合U；计算N个策略中的最优策略π^*，所述最优策略π^*为累积奖励最大的策略；将目标行为特征BC^*更新为最优策略π^*的行为特征BC(π^*)；

深度强化学习网络构建模块(6)，用于构建深度强化学习网络并初始化，所述深度强化学习网络包括第一学习分支(610)和第二学习分支(620)；所述第一学习分支(610)包括依次连接的第一策略网络(611)、第一动作单元(612)和第一预测单元(613)；所述第二学习分支(620)包括依次连接的第二策略网络(621)、第二动作单元(622)和第二预测单元(623)；所述第一策略网络(611)与第二策略网络(621)的结构均与进化策略神经网络的结构相同，但参数不同，作用均为根据输入的二维位置得到机器人执行每个动作的概率；