CN114859899A

CN114859899A - 移动机器人导航避障的演员-评论家稳定性强化学习方法

Info

Publication number: CN114859899A
Application number: CN202210403450.XA
Authority: CN
Inventors: 张立宪; 张瑞先; 翁睿; 蔡博; 杨嘉楠; 朱益民
Original assignee: Harbin Institute Of Technology Institute Of Artificial Intelligence Co ltd
Current assignee: Harbin Institute Of Technology Institute Of Artificial Intelligence Co ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-08-05
Anticipated expiration: 2042-04-18

Abstract

本发明公开了移动机器人导航避障的演员‑评论家稳定性强化学习方法，属于移动机器人自主导航及规避障碍物技术领域，包括以下步骤：步骤一：网络模型构造；步骤二：网络模型参数初始化；步骤三：训练价值评估网络与李雅普诺夫函数网络；步骤四：训练最小李雅普诺夫值网络；步骤五：训练导航避障策略网络；步骤六：判断导航避障策略是否收敛至稳定策略，若否，则重复步骤三、步骤四和步骤五，直到导航避障策略收敛至稳定策略，若是，得到稳定导航避障策略，通过输入移动机器人当前状态，输出移动机器人运动速度；本发明提高策略训练收敛速度以及在导航避障过程中的安全性。

Description

移动机器人导航避障的演员-评论家稳定性强化学习方法

技术领域

本发明属于移动机器人自主导航及规避障碍物技术领域，具体涉及移动机器人导航避障的演员-评论家稳定性强化学习方法。

背景技术

移动机器人导航避障中强化学习算法的稳定性保证，是指在训练策略中和在实际策略测试中，移动机器人在给定一个初始的安全区域中，移动机器人在整个任务过程中不会进入不安全的区域，或者移动机器人初始时刻在一个不安全的区域，在完成任务过程中，移动机器人能够根据自身状态调整，使得其能够恢复到安全区域中，这种恢复保持性能称之为移动机器人导航避障的稳定性保证。

近年来，国内外机器人相关企业研究单位在利用强化学习训练自主导航避障策略中，通过不同的理论来保证移动机器人在导航避障过程中的稳定性，以提高机器人的安全性。

强化学习应用于移动机器人导航避障的稳定性保证是强化学习应用到实际的关键之一，当前强化学习技术应用于实际物理机器人的问题主要有训练模型速度较慢，及训练的模型对训练场景之外的环境适应性较差，不能保证机器人的安全性，这两个问题制约了强化学习在真实世界中的落地产业化。现有的保证强化学习在移动机器人导航避障中安全的方法，通过在训练阶段对机器人状态增加状态约束，使得机器人尽可能不违反安全约束，然而这种方法需要多传感器检测所约束的各个状态，并且计算量较大，算法体系复杂，不适用于当前计算资源受限，传感器较为单一的移动机器人系统。

另外一种保证强化学习在移动机器人导航避障中安全的方法，通过引入控制理论中的渐近稳定性来保证强化学习算法的闭环稳定性，安全区域定义为状态空间的一个子集，使得任何在这个集合中开始的状态轨迹都会一直在这个集合中，并最终收敛到一个目标状态，以实现整个导航避障过程的安全，而该方法在基于模型的强化学习中取得了一些成果，但是在不基于模型的强化学习算法中应用较少，这些不基于模型的强化学习算法中，在训练策略过程中表现出收敛速度较慢，并在障碍物间距较近的移动机器人导航避障中表现较差。

发明内容

为解决上述背景技术中提出的问题。本发明提供了移动机器人导航避障的演员-评论家稳定性强化学习方法，具有结合控制理论中的李雅普诺夫稳定性概念，在不基于模型的强化学习中，训练移动机器人导航避障策略，并且满足李雅普诺夫稳定性条件，从而提高策略训练收敛速度以及在导航避障过程中安全性的特点。

为实现上述目的，本发明提供如下技术方案：移动机器人导航避障的演员-评论家稳定性强化学习方法，包括以下步骤：

步骤一：网络模型构造

利用神经网络技术构造基于演员-评论家算法在移动机器人导航避障中的策略网络，价值评估网络和李雅普诺夫函数网络；

步骤二：网络模型参数初始化

随机初始化S1中构造的移动机器人导航避障策略网络，及价值评价网络参数，及李雅普诺夫函数网络参数，初始化策略网络训练过程中涉及到的超参数；

步骤三：训练价值评估网络与李雅普诺夫函数网络

构造价值评估网络与李雅普诺夫函数网络的优化目标函数，从存储空间批次随机采样对构造的目标函数进行优化求解；

步骤四：训练最小李雅普诺夫值网络

训练最小李雅普诺夫值网络，获取李雅普诺夫函数网络取得最小值的策略π_m；

步骤五：训练导航避障策略网络

训练导航避障策略网络，在满足演员-评论家算法策略中的最优目标函数同时，保证满足李雅普诺夫函数下降条件；

步骤六：判断导航避障策略是否收敛至稳定策略，若否，则重复步骤三、步骤四和步骤五，直到导航避障策略收敛至稳定策略，若是，得到稳定导航避障策略，通过输入移动机器人当前状态，输出移动机器人运动速度。

本发明中进一步的，所述步骤一中，利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据，两个时刻激光雷达数据经一维卷积和全连接层进行降维，目标相对位置和移动机器人速度数据经全连接层进行预处理，再与降维数据合并，经全连接层组合特征并分类后输出移动机器人的动作分布。

本发明中进一步的，所述步骤一中，利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据，两个时刻激光雷达数据经一维卷积和全连接层进行降维，目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理，再与降维数据合并，经全连接层组合特征并分类后输出评估价值，评估价值为一维向量Q。

本发明中进一步的，所述步骤一中，利用神经网络技术构造李雅普诺夫函数网络的具体步骤与利用神经网络技术构造价值评估网络的具体步骤相同，不同的是李雅普诺夫函数网络输出为李雅普诺夫函数值，且李雅普诺夫函数值为16维向量f。

本发明中进一步的，所述步骤一中，为了保证李雅普诺夫函数网络输出正定，该网络输入状态s和动作a，返回值为f^Tf。

本发明中进一步的，所述步骤三中，价值评估网络的优化目标函数构造的具体步骤为：

在本发明中，Q价值函数用于评估当前状态和当前所采取的动作策略，记做Q^π(s,a)，并有：

其中，τ～π表示为动作状态序列{s₀,a₀,r₁,s₁,a₁,…}服从策略π，γ∈[0,1]是折扣系数，r为在状态s下采取动作a获得的奖励，

利用递归关系，可以得到公式1-1的贝尔曼方程：

Q^π(s,a)＝E_{s'～p(·|s,a)}[r+γE_{a'～π(·|s')}[Q^π(s',a')]] (1-2)

其中，p(·|s,a)为状态转移概率，

由公式1-2，可以构造价值评估网络优化的目标函数为：

本发明中进一步的，所述步骤三中，李雅普诺夫函数网络的优化目标函数构造的具体步骤为：

在本发明中，李雅普诺夫函数用于衡量当前状态和当前所采取的策略所获得的惩罚，记做L^π(s,a)，并有：

其中，c为在状态s下采取动作a获得的惩罚，

利用递归关系，可以得到公式1-4的贝尔曼方程：

L^π(s,a)＝E_{s'～p(·|s,a)}[c+γE_{a'～π(·|s')}[L^π(s',a')]] (1-5)

由公式1-5，可以构造李雅普诺夫函数网络优化的目标函数为：

本发明中进一步的，所述步骤四的具体步骤为：

训练获取最小李雅普诺夫函数的策略

优化目标函数为：

J(θ_m)＝L(s,a) (1-7)

通过优化上述目标函数，可以得到当前状态s下的最小李雅普诺夫函数值为：

L^*(s,a)＝L(s,π_m(·|s)) (1-8)。

本发明中进一步的，所述步骤五的具体步骤为：

训练导航避障策略网络，在满足演员-评论家算法策略中的最优目标函数同时，需保证以下稳定性条件，即：

minJ(θ)

使得E_{s～μ,a～π}[E_{s'～p,a'～π}L(s',a')-L*(s,a)]≤-α₃E_{s～μ,a～π}c(s,a)，

其中，μ为采样分布，p为状态转移分布，利用拉格朗日乘子法，得到本发明算法的最优目标函数为：

J(θ)＝-A(s,a)logπ(s,a)+λ(L(s′,a′)-L^*(s,a)+α₃c) (1-9)

其中，

与现有技术相比，本发明的有益效果是：

本发明减少移动机器人导航避障中传感器的数量，有效减轻移动机器人算法结构，降低计算复杂度，同时通过给出闭环系统稳定性条件，能够有效的提高训练策略效率，提高移动机器人导航避障安全性。

附图说明

图1为本发明的概要流程图；

图2为本发明稳定性条件中李雅普诺夫函数值下降图；

图3为本发明具体实现算法伪代码图；

图4为本发明策略模型神经网络结构图；

图5为本发明价值评估与李雅普诺夫函数神经网络结构图；

图6为本发明与其他方法的收敛速度效果对比图；

图7为本发明与其他方法的安全效果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-7，本发明提供以下技术方案：移动机器人导航避障的演员-评论家稳定性强化学习方法，包括以下步骤：

步骤一：网络模型构造

如附图4所示，利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据，两个时刻激光雷达数据经一维卷积和全连接层进行降维，目标相对位置和移动机器人速度数据经全连接层进行预处理，再与降维数据合并，经全连接层组合特征并分类后输出移动机器人的动作分布；

如附图5所示，利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据，两个时刻激光雷达数据经一维卷积和全连接层进行降维，目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理，再与降维数据合并，经全连接层组合特征并分类后输出评估价值，评估价值为一维向量Q；

如附图5所示，利用神经网络技术构造李雅普诺夫函数网络，步骤与构造价值评估网络的具体步骤相同，不同的是李雅普诺夫函数网络输出为李雅普诺夫函数值，且李雅普诺夫函数值为16维向量f；

为了保证李雅普诺夫函数网络输出正定，该网络输入状态s和动作a，返回值为f^Tf；

由附图4和附图5可知，本发明只需要利用激光雷达深度信息、定位信息和机器人速度信息，其中，定位信息和速度信息属于低维状态信息，所需使用传感器仅有三种，有效的减少因约束其状态而使用更多的传感器；

步骤二：网络模型参数初始化

初始化附图3算法中的存储空间D，包括存储空间的存储数据的位数及大小，随机初始化S1中构造的移动机器人导航避障策略网络，及价值评价网络参数，及李雅普诺夫函数网络参数，及最小李雅普诺夫函数策略网络参数，初始化策略网络训练过程中涉及到的拉格朗日乘子λ和超参数α₃；

步骤三：训练价值评估网络与李雅普诺夫函数网络

利用递归关系，可以得到公式1-1的贝尔曼方程：

Q^π(s,a)＝E_{s'～p(·|s,a)}[r+γE_{a'～π(·|s')}[Q^π(s',a')]] (1-2)

其中，p(·|s,a)为状态转移概率，

由公式1-2，可以构造价值评估网络优化的目标函数为：

其中，c为在状态s下采取动作a获得的惩罚，

利用递归关系，可以得到公式1-4的贝尔曼方程：

L^π(s,a)＝E_{s'～p(·|s,a)}[c+γE_{a'～π(·|s')}[L^π(s',a')]] (1-5)

从存储空间批次随机采样对构造的目标函数进行优化求解；

步骤四：训练最小李雅普诺夫值网络

训练获取最小李雅普诺夫函数的策略

优化目标函数为：

J(θ_m)＝L(s,a) (1-7)

L^*(s,a)＝L(s,π_m(·|s)) (1-8)；

步骤五：训练导航避障策略网络

minJ(θ)

J(θ)＝-A(s,a)logπ(s,a)+λ(L(s′,a′)-L^*(s,a)+α₃c) (1-9)

其中，

本发明在执行时，与演员-评论家(AC)算法和其它基于稳定分析的安全强化学习方法(SLL)在移动机器人导航避障中相比较，由附图6可知，本发明取得的平均回报比AC和SLL算法高，而且到达稳定回报时需要的训练步数更少，验证了本发明训练移动机器人导航避障策略具有收敛速度较快的特点，由附图7可知，本发明取得的安全花销比AC和SLL更低，即本发明保证了算法的稳定性，使得其具有更高的安全性，验证了本发明能够有效提高安全性。

值得注意的是，附图6和附图7中的步数大于600×25后，各个网络开始训练学习，在此之前，均为随机策略，以获取各网络训练所需样本。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.移动机器人导航避障的演员-评论家稳定性强化学习方法，其特征在于，包括以下步骤：

步骤一：网络模型构造

步骤二：网络模型参数初始化

步骤三：训练价值评估网络与李雅普诺夫函数网络

步骤四：训练最小李雅普诺夫值网络

步骤五：训练导航避障策略网络

2.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法，其特征在于：所述步骤一中，利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据，两个时刻激光雷达数据经一维卷积和全连接层进行降维，目标相对位置和移动机器人速度数据经全连接层进行预处理，再与降维数据合并，经全连接层组合特征并分类后输出移动机器人的动作分布。

3.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法，其特征在于：所述步骤一中，利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据，两个时刻激光雷达数据经一维卷积和全连接层进行降维，目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理，再与降维数据合并，经全连接层组合特征并分类后输出评估价值，评估价值为一维向量Q。

4.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法，其特征在于：所述步骤一中，利用神经网络技术构造李雅普诺夫函数网络的具体步骤与利用神经网络技术构造价值评估网络的具体步骤相同，不同的是李雅普诺夫函数网络输出为李雅普诺夫函数值，且李雅普诺夫函数值为16维向量f。

5.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法，其特征在于：所述步骤一中，为了保证李雅普诺夫函数网络输出正定，该网络输入状态s和动作a，返回值为f^Tf。

6.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法，其特征在于：所述步骤三中，价值评估网络的优化目标函数构造的具体步骤为：