CN113296502A

CN113296502A - 动态环境下基于层级关系图学习的多机器人协同导航方法

Info

Publication number: CN113296502A
Application number: CN202110500608.0A
Authority: CN
Inventors: 王廷; 杜枭
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-08-24
Anticipated expiration: 2041-05-08
Also published as: CN113296502B

Abstract

本发明公开了一种动态环境下基于层级关系图学习的多机器人协同导航方法，该方法包括：首先，建模机器人和障碍物环境为有向图模型，通过用层级图网络获得包含机器人对自己状态和其观察到的环境的状态编码向量；在此基础上利用图注意力网络实现机器人选择性的与邻居机器人进行交流，经过多轮的交流，使机器人获得对环境全局认知的状态编码向量；最后，利用提出的一种基于最大熵强化学习的近似策略优化算法MEPPO进行训练，从而获得共享的机器人依据所处状态选择行为的策略。用本发明的导航方法使机器人合作导航更高效且安全，同时具有迁移性，随着智能体数目增大，相比其他方法有更好的表现，为机器人协同导航领域提供了一定的技术支持。

Description

动态环境下基于层级关系图学习的多机器人协同导航方法

技术领域

本发明属于机器人导航领域，用于具有动态障碍物的环境中的多个机器人的合作导航。

背景技术

多机器人协同导航在处理复杂任务方面有着广阔的应用前景，越来越受到工业界和学术界的关注，如自主仓储物流、救援、探险、协同操纵等^[1]。多机器人协同导航问题的目标是在具有一定动态障碍物复杂度的环境下，找寻能够保证多机器人在尽可能少的时间内共同到达所有目标的最优路径。

之前已经有许多方法被提出来解决多机器人导航，例如基于规划的同步定位和建图方法(SLAM)^[2]、基于速度选择的速度障碍方法(VO)^[3]。然而，所有这些工作都是基于一些难以实现的假设，如路径规划的环境先验全局可知。此外，随着机器人数量的增加，环境的非平稳性、机器人行为和状态空间急剧增长以及多智能体的信用分配等问题都对机器人导航提出了严峻的挑战。

近年来，强化学习(RL)与深度神经网络相结合，通过与环境的相互作用，在学习一种使期望的长期回报最大化的策略方面取得了优异的效果。在问题模型方面，一些研究需要从单个机器人的原始传感器测量值中学习一个对预先分配的不变目标的导航策略，或者只对单个机器人学习一个导航策略^[4]。但是，它们无法优化分配目标位置。而且，机器人在导航过程中只把其他机器人视为环境的一部分。一些研究使机器人能够在导航过程中合作动态选择目标^[5]，但只能在无障碍环境中进行。

虽然当前业界已经提出了许多优秀的算法来解决多机器人合作导航，但是这些方法仍然存在一些未解决的问题。首先，在建立具有异构智能体(移动障碍物和机器人)之间的关系模型时，障碍物对机器人导航的影响通常是通过简单的机器人和障碍物的成对关系来建模的，这不能完全表征障碍物与障碍物和机器人与障碍物之间的潜在交互作用。其次，由于任务的高度复杂性和潜在的不稳定性(可伸缩性问题)，随着机器人和障碍物数量的增加，这些方法的性能急剧下降，导致模型的可迁移性比较差。

[1]Rachael N Darmanin and Marvin K Bugeja.A review on multi-robotsystems categorised by application domain.In 2017 25th mediterraneanconference on control and automation(MED),pages 701–706.IEEE,2017.

[2]Hugh Durrant-Whyte and Tim Bailey.Simultaneous localization andmapping:part i.IEEE robotics&automation magazine,13(2):99–110,2006.

[3]Jur Van Den Berg,Stephen J Guy,Ming Lin,and DineshManocha.Reciprocal n-body collision avoidance.In Robotics research,pages 3–19.Springer,2011.

[4]Yu Fan Chen,Michael Everett,Miao Liu,and Jonathan P How.Sociallyaware motion planning with deep reinforcement learning.In 2017IEEE/RSJInternational Conference on Intelligent Robots and Systems(IROS),pages 1343–1350.IEEE,2017a.

[5]Ryan Lowe,Yi Wu,Aviv Tamar,Jean Harb,Pieter Abbeel,and IgorMordatch.Multi-agent actor-critic for mixed cooperative-competitiveenvironments.arXiv preprint arXiv:1706.02275,2017Yue Jin,Yaodong Zhang,JianYuan,and Xudong Zhang.

发明内容

本发明是为了提高机器人导航的稳定性，增强对环境的探索能力，用基于最大熵强化学习改进的近似策略优化算法MEPPO进行训练的一种动态环境下基于层级关系图学习的多机器人协同导航方法，以解决现有技术存在的问题。

实现本发明目的的具体技术方案是：

一种动态环境下基于层级关系图学习的多机器人协同导航方法，包括以下步骤：

步骤1：建模机器人和障碍物环境为有向图模型，利用先验知识对观察到的智能体进行聚类，将智能体聚类成机器人组、动态障碍物组和静态障碍物组；

步骤2：依据有向图模型和智能体组别，对于每个机器人，根据其观察到的局部环境中智能体的状态，把属于三个不同智能体组的智能体分别聚合为一个子组，对每个子组利用相似函数和图卷积神经网络推断机器人与这个子组中的智能体之间的关系；从而，每个机器人得到三个蕴含其与观察到的智能体关系的节点状态嵌入向量；

步骤3：对于每个机器人，依据获得的三个节点状态嵌入向量，利用图注意神经网络(GAT)提取出其与其观测到的三个智能体子组间的权重关系，然后，依据权重关系，把三个节点状态嵌入向量聚合成对局部环境理解的状态编码向量；

步骤4：对于每个机器人，依据获得的对局部环境理解的状态向量，通过图注意力神经网络获得其与邻近的机器人之间的交流权重，然后，经过多轮交流使其获得一个全局状态编码向量；

步骤5：依据得到的机器人的全局状态编码向量，结合设计的回报函数和提出的基于最大熵强化学习的近似策略优化算法MEPPO进行训练，从而获得机器人依据所处状态选择最优行为的策略。

该方法具体实现步骤为：

(1)建模机器人和障碍物环境为有向图模型，其中顶点表示机器人及环境中的智能体(各种障碍物)，边表示机器人能观察到对边的智能体。利用先验知识对观察到的智能体进行聚类，其中将智能体分为机器人组、动态障碍物组和静态障碍物组等组别。

(2)先使用多层感知器将机器人和其他智能体的状态分别嵌入到相同维度的状态向量中，然后利用相似函数

来推断智能体之间的成对；具体讲，对于每个智能体组，先定义一个特征矩X，其第一行是观的机器人的状态嵌入向量，其余行是被观察到机器人和障碍物的状态嵌入向量；通过公式

计算出智能体之间的关系权重矩阵，其中W_θ和

是可训练的参数向量；得到关系矩阵R后，用H^(l+1)＝σ(RH^(l)W^(l)+H^(l))图卷积公式实现在机器人观测到的智能体节点之间传播信息，经过多层卷积后，计算各个智能体得到充分考虑其他智能体状态后的状态表示，其中是可W^(l)第1层的参数矩阵，σ是激活函数，H⁽¹⁾＝X；由此，对于机器人观察到的K智能体组，N个机器人分别得到蕴含智能体之间关系的节点状态嵌入向量

(3)对于机器人i(i∈(1...N))，通过用图注意力网络(GAT)获得机器人对观察到的第k个智能体组的关系权重

然后依据所述的机器人对第k组智能体观察而得的节点状态嵌入向量

从而得到机器人对观察到的环境理解的状态表示

(4)对于观测范围内的机器人，当其与当前机器人之间的距离小于一个预定的阈值时，两个机器人可以相互通信，利用图注意网络求出与所有邻居机器人之间的关注权重，然后,通过计算邻域值的加权和，并进行线性变换来聚合所有消息。在经过多轮的通信之后，每个机器人都有一个对全局状态理解的状态编码向量h_i(i＝1...N)。具体的计算方法：对于每个机器人i,计算一个query向量

一个key向量

和一个value向量

其中W_Q、W_k和W_v是可学习的参数。机器人i从邻居机器人j∈N(i)收到query-value对(Qⁱ,Vⁱ)，并依据权重

与机器人j交流信息，其中d_k是key向量的维度。对于机器人i获得加权聚合消息的公式是V_i＝W_out∑w_ijV_j，其中W_out是可学习的参数。最后，机器人用神经网络做非线性变换，得到最后更新的节点状态向量h_i。

(5)利用提出的一种基于最大熵强化学习的近似策略优化算法MEPPO进行训练，这种训练方法有利于增强机器人的探索能力，从而增强了导航策略的稳定性和高效性。同时，训练方法改进了回报函数，以达到导航安全和效率之间的平衡。设计的增强的回报函数R_i＝R_e,i+R_c,i，其中R_e,i是环境机器人运动的回报，R_c,i是机器人与其他智能体之间碰撞的惩罚。具体来说，R_e,i可表示为：

其中，t_limit是到达目的地的最短时间。公式(1)表示的回报将随着时间单调衰减，以保证机器人代理将被鼓励尽快达到目标。

是所有机器人在时间t离目标的总距离的平均值。公式(2)根据相邻两个时间步机器人到目的地的距离，分别给予机器人一个正向或负向的回报奖励。

另外，R_c,i可以定义为：

其中，d_rr和d_ro是机器人之间和机器人与障碍物之间的最小碰撞距离，当小于这个距离视为发生碰撞。d_disc是智能体之间的最小不适距离，当智能体之间小于这个距离，就给与一定的惩罚，以今早防止碰撞。

近似策略优化算法MEPPO改进的具体描述如下：首先，在最大熵强化学习框架中，回报是由公式r＝r^ex+rⁱⁿ得到，其中，r^ex是环境给予的奖励，rⁱⁿ是根据策略熵所得。价值损失和优势函数如下：

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)，r＝r^ex+rⁱⁿ＝r^ex+αH(π(.|s))

然后，MEPPO算法的策略梯度损失是以下面的公式构成：

其中，f(ρ,A)＝(1+ρ)A if A>0else(1-ρ)A.

MEPPO算法在训练过程中，前期的每一步都向使机器人的策略熵最大的方向优化增强探索能力，后期，经过对环境足够的探索，公式(6)中的系数α逐渐减小，逐渐减少机器人策略的随机性。

本发明有益效果

本发明与现有技术相比的优点在于：利用层级图神经网络关系学习使机器人充分理解与其他智能体之间的关系，同时，改进了强化学习训练方法PPO，增强了机器人对环境的探索能力。用本发明的方法使机器人合作导航更高效且安全，同时具有可迁移性。随着环境中智能体数目增大，相比其他方法有更好的表现。

附图说明

图1是本发明的框架的总览图。

具体实施方式

以下结合附图及实施例对发明进行详细描述。显然，所列举的实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本发明所述的一种动态环境下基于层级关系图学习的多机器人协同导航方法，包括如下步骤：

1、建模机器人和障碍物环境为有向图模型，其中顶点表示机器人及环境中的智能体(各种障碍物)，边表示机器人能观察到对边的智能体。利用先验知识对观察到的智能体进行聚类，其中将智能体分为机器人组G1、动态障碍物组G2和静态障碍物组G3。

2、先使用多层感知器将机器人和其他智能体的状态分别嵌入到相同维度的状态向量中，然后利用相似函数

和图卷积神经网络(GCN)来推断智能体之间的成对；具体讲，对于每个智能体组，先定义一个特征矩X，其第一行是观的机器人的状态嵌入向量，其余行是被观察到机器人和障碍物的状态嵌入向量；通过公式

计算出智能体之间的关系权重矩阵，其中W_θ和

是可训练的参数向量；得到关系矩阵R后，用H^(l+1)＝σ(RH^(l)W^(l)+H^(l))图卷积公式实现在机器人观测到的智能体节点之间传播信息，经过多层卷积后，计算得到各个智能体充分考虑其他智能体状态后的状态表示，其中W^(l)是第1层的参数矩阵，σ是激活函数，H⁽¹⁾＝X；由此，对于机器人观察到的K智能体组，N个机器人分别得到蕴含智能体之间关系的节点状态嵌入向量

3、对于机器人i(i∈(1...N))，通过用图注意力网络(GAT)获得机器人对观察到的第k个智能体组的关系权重

从而得到机器人对观察到的环境理解的状态表示

4、对于观测范围内的机器人，当其与当前机器人之间的距离小于一个预定的阈值时，两个机器人可以相互通信，利用图注意网络求出与所有邻居机器人之间的关注权重，然后,通过计算邻域值的加权和，并进行线性变换来聚合所有消息。在经过多轮的通信之后，每个机器人都有一个对全局状态理解的状态编码向量h_i(i＝1...N)。具体的计算方法：对于每个机器人i,计算一个query向量

一个key向量

和一个value向量

5、利用提出的一种基于最大熵强化学习的近似策略优化算法MEPPO结合改进了回报函数进行训练。MEPPO具体描述如下：首先，在最大熵强化学习框架中，回报是由公式r＝r^ex+rⁱⁿ得到，其中，r^ex是环境给予的奖励，rⁱⁿ是根据策略熵所得。价值损失和优势函数如下：

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)，r＝r^ex+rⁱⁿ＝r^ex+αH(π(.|s))

然后，MEPPO算法的策略梯度损失是以下面的公式构成：

其中，f(ρ,A)＝(1+ρ)A if A>0 else(1-ρ)A.

设计的增强的回报函数如下：机器人i的回报R_i＝R_e,i+R_c,i，其中R_e,i是环境机器人运动的回报，R_c,i是机器人与其他智能体之间碰撞的惩罚。具体来说，R_e,i可表示为：

另外，R_c,i可以定义为：

其中，d_rr和d_ro是机器人之间和机器人与障碍物之间的最小碰撞距离，当小于这个距离视为发生碰撞。d_disc是智能体之间的最小不适距离，当智能体之间小于这个距离，就给与一定的惩罚，以防止碰撞。

Claims

1.一种动态环境下基于层级关系图学习的多机器人协同导航方法，其特征在于，该方法包括以下具体步骤：

2.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法，其特征在于，步骤2所述对每个子组利用相似函数和图卷积神经网络推断机器人与这个子组中的智能体之间的关系，具体为：对于机器人观察的每个子组，先使用多层感知器将机器人和这个子组里的智能体的状态分别嵌入到相同维度的状态嵌入向量中；然后，定义一个特征矩阵X，其第一行是这个机器人的状态嵌入向量，其余行是这个子组中智能体的状态嵌入向量；通过公式

计算出这个机器人和子组内智能体的关系权重矩阵，其中W_θ和

是可训练的参数向量；得到关系矩阵R后，用图卷积公式H^(l+1)＝σ(RH^(l)W^(l)+H^(l))实现在这个机器人和子组内智能体之间信息传播，经过多层卷积后，计算得到状态表示，其中W^(l)是第l层的参数矩阵，σ是激活函数，H⁽¹⁾＝X；由此，对于机器人观察到的三个智能体子组，每个机器人分别得到节点状态嵌入向量

3.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法，其特征在于，所述步骤3具体包括：对于机器人i(i∈(1...N))，依据获得的三个节点状态嵌入向量，通过用图注意力网络(GAT)获得机器人i对于观察到每个智能体子组的权重

最后，把三个节点状态嵌入向量聚合成局部状态编码向量

4.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法，其特征在于：所述步骤4具体为：对于每个机器人，当其观测范围内的其他邻近机器人距离小于一个预定的阈值时，两个机器人能够相互通信，利用图注意网络求出与这些邻近机器人之间的关注权重，然后，通过加权求和，并进行线性变换来聚合所得消息；再经过多轮的通信之后，每个机器人都得到一个对全局状态理解的状态编码向量h_i(i＝1...N)；具体的计算方法：对于每个机器人i,计算一个query向量

一个key向量

和一个value向量

其中W_Q、W_k和W_v是可学习的参数；机器人i从邻居机器人j∈N(i)收到query-value对(Qⁱ,Vⁱ)，并依据权重

与机器人j交流信息，其中d_k是key向量的维度；对于机器人i获得加权聚合消息的公式是V_i＝W_out∑w_ijV_j，其中W_out是可学习的参数；最后，用神经网络做非线性变换，得到全局状态编码向量h_i。

5.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法，其特征在于：步骤5中所述结合设计的回报函数和提出的基于最大熵强化学习的近似策略优化算法MEPPO进行训练，具体为：对于机器人i(i∈(1...N))，设计的回报函数R_i＝R_e,i+R_c,i，其中R_e,i是机器人i动作的回报，R_c,i是机器人i与环境中其他智能体之间碰撞的惩罚；R_e,i表示为：

其中，t_limit是到达目的地的最短时间，α∈(0,1)和β∈(0,1)是温度系数，p_i表示机器人i当前所处的位置，p_g表示机器人i的目的地；公式(1)表示的回报将随着时间单调衰减，以保证机器人将被鼓励尽快达到目标；

是所有机器人在时间t离目标的总距离的平均值；公式(2)根据相邻两个时间步机器人到目的地的距离，分别给予机器人一个正向或负向的回报奖励；另外，R_c,i定义为：

其中，d_rr和d_ro分别表示机器人与其他机器人和障碍物之间的距离，r_r和r_o分别是机器人的半径和障碍物的半径，d_min表示机器人当前与其他机器人和障碍物之间的最小距离，η∈(0,1)是温度系数，d_disc是智能体之间的最小不适距离，当智能体之间小于这个距离，就给与一定的惩罚，以防止碰撞；

近似策略优化算法MEPPO具体描述如下：首先，在最大熵强化学习框架中，回报是由公式r＝r^ex+rⁱⁿ得到，其中，r^ex是环境给予的奖励，rⁱⁿ是根据策略熵所得奖励；t时间步最小化的价值损失如下：

其中，V_ψ(s_t)是通过神经网络估计的得到的价值，ψ是可学习参数，S_t表示t时间的状态，R_t是通过在环境中采样而求得的折扣回报，V_t ^targ是目标价值，其值等于R_t；

优势函数值如下：

其中，δ_t＝r_t+γV_ψ(s_t+1)-V_ψ(s_t)，r＝r^ex+rⁱⁿ＝r^ex+αH(π(.|s_t))，r_t是t时间步获得的真实回报，γ是折扣因子，α是稳定系数，H(π(.|s_t))是状态s_t时选择动作空间所有动作的熵；

然后，MEPPO算法的策略梯度损失如下：

其中，π_θ(a_t|s_t)表示当策略参数是θ时，状态为s_t时下一个动作选择a_t的概率；同理，π_θ'(a_t|s_t)表示当策略参数是θ'，状态为s_t时下一个动作选择a_t的概率；

表示当策略为π_θ'，状态为s_t，选择动作a_t时的优势函数值；其中，f(ρ,A)＝(1+ρ)A if A>0 else(1-ρ)A，ρ∈(0，1)是超参数，α∈(0，1)是温度系数。