CN113296502A - 动态环境下基于层级关系图学习的多机器人协同导航方法 - Google Patents

动态环境下基于层级关系图学习的多机器人协同导航方法 Download PDF

Info

Publication number
CN113296502A
CN113296502A CN202110500608.0A CN202110500608A CN113296502A CN 113296502 A CN113296502 A CN 113296502A CN 202110500608 A CN202110500608 A CN 202110500608A CN 113296502 A CN113296502 A CN 113296502A
Authority
CN
China
Prior art keywords
robot
state
vector
environment
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110500608.0A
Other languages
English (en)
Other versions
CN113296502B (zh
Inventor
王廷
杜枭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202110500608.0A priority Critical patent/CN113296502B/zh
Publication of CN113296502A publication Critical patent/CN113296502A/zh
Application granted granted Critical
Publication of CN113296502B publication Critical patent/CN113296502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种动态环境下基于层级关系图学习的多机器人协同导航方法,该方法包括:首先,建模机器人和障碍物环境为有向图模型,通过用层级图网络获得包含机器人对自己状态和其观察到的环境的状态编码向量;在此基础上利用图注意力网络实现机器人选择性的与邻居机器人进行交流,经过多轮的交流,使机器人获得对环境全局认知的状态编码向量;最后,利用提出的一种基于最大熵强化学习的近似策略优化算法MEPPO进行训练,从而获得共享的机器人依据所处状态选择行为的策略。用本发明的导航方法使机器人合作导航更高效且安全,同时具有迁移性,随着智能体数目增大,相比其他方法有更好的表现,为机器人协同导航领域提供了一定的技术支持。

Description

动态环境下基于层级关系图学习的多机器人协同导航方法
技术领域
本发明属于机器人导航领域,用于具有动态障碍物的环境中的多个机器人的合作导航。
背景技术
多机器人协同导航在处理复杂任务方面有着广阔的应用前景,越来越受到工业界和学术界的关注,如自主仓储物流、救援、探险、协同操纵等[1]。多机器人协同导航问题的目标是在具有一定动态障碍物复杂度的环境下,找寻能够保证多机器人在尽可能少的时间内共同到达所有目标的最优路径。
之前已经有许多方法被提出来解决多机器人导航,例如基于规划的同步定位和建图方法(SLAM)[2]、基于速度选择的速度障碍方法(VO)[3]。然而,所有这些工作都是基于一些难以实现的假设,如路径规划的环境先验全局可知。此外,随着机器人数量的增加,环境的非平稳性、机器人行为和状态空间急剧增长以及多智能体的信用分配等问题都对机器人导航提出了严峻的挑战。
近年来,强化学习(RL)与深度神经网络相结合,通过与环境的相互作用,在学习一种使期望的长期回报最大化的策略方面取得了优异的效果。在问题模型方面,一些研究需要从单个机器人的原始传感器测量值中学习一个对预先分配的不变目标的导航策略,或者只对单个机器人学习一个导航策略[4]。但是,它们无法优化分配目标位置。而且,机器人在导航过程中只把其他机器人视为环境的一部分。一些研究使机器人能够在导航过程中合作动态选择目标[5],但只能在无障碍环境中进行。
虽然当前业界已经提出了许多优秀的算法来解决多机器人合作导航,但是这些方法仍然存在一些未解决的问题。首先,在建立具有异构智能体(移动障碍物和机器人)之间的关系模型时,障碍物对机器人导航的影响通常是通过简单的机器人和障碍物的成对关系来建模的,这不能完全表征障碍物与障碍物和机器人与障碍物之间的潜在交互作用。其次,由于任务的高度复杂性和潜在的不稳定性(可伸缩性问题),随着机器人和障碍物数量的增加,这些方法的性能急剧下降,导致模型的可迁移性比较差。
[1]Rachael N Darmanin and Marvin K Bugeja.A review on multi-robotsystems categorised by application domain.In 2017 25th mediterraneanconference on control and automation(MED),pages 701–706.IEEE,2017.
[2]Hugh Durrant-Whyte and Tim Bailey.Simultaneous localization andmapping:part i.IEEE robotics&automation magazine,13(2):99–110,2006.
[3]Jur Van Den Berg,Stephen J Guy,Ming Lin,and DineshManocha.Reciprocal n-body collision avoidance.In Robotics research,pages 3–19.Springer,2011.
[4]Yu Fan Chen,Michael Everett,Miao Liu,and Jonathan P How.Sociallyaware motion planning with deep reinforcement learning.In 2017IEEE/RSJInternational Conference on Intelligent Robots and Systems(IROS),pages 1343–1350.IEEE,2017a.
[5]Ryan Lowe,Yi Wu,Aviv Tamar,Jean Harb,Pieter Abbeel,and IgorMordatch.Multi-agent actor-critic for mixed cooperative-competitiveenvironments.arXiv preprint arXiv:1706.02275,2017Yue Jin,Yaodong Zhang,JianYuan,and Xudong Zhang.
发明内容
本发明是为了提高机器人导航的稳定性,增强对环境的探索能力,用基于最大熵强化学习改进的近似策略优化算法MEPPO进行训练的一种动态环境下基于层级关系图学习的多机器人协同导航方法,以解决现有技术存在的问题。
实现本发明目的的具体技术方案是:
一种动态环境下基于层级关系图学习的多机器人协同导航方法,包括以下步骤:
步骤1:建模机器人和障碍物环境为有向图模型,利用先验知识对观察到的智能体进行聚类,将智能体聚类成机器人组、动态障碍物组和静态障碍物组;
步骤2:依据有向图模型和智能体组别,对于每个机器人,根据其观察到的局部环境中智能体的状态,把属于三个不同智能体组的智能体分别聚合为一个子组,对每个子组利用相似函数和图卷积神经网络推断机器人与这个子组中的智能体之间的关系;从而,每个机器人得到三个蕴含其与观察到的智能体关系的节点状态嵌入向量;
步骤3:对于每个机器人,依据获得的三个节点状态嵌入向量,利用图注意神经网络(GAT)提取出其与其观测到的三个智能体子组间的权重关系,然后,依据权重关系,把三个节点状态嵌入向量聚合成对局部环境理解的状态编码向量;
步骤4:对于每个机器人,依据获得的对局部环境理解的状态向量,通过图注意力神经网络获得其与邻近的机器人之间的交流权重,然后,经过多轮交流使其获得一个全局状态编码向量;
步骤5:依据得到的机器人的全局状态编码向量,结合设计的回报函数和提出的基于最大熵强化学习的近似策略优化算法MEPPO进行训练,从而获得机器人依据所处状态选择最优行为的策略。
该方法具体实现步骤为:
(1)建模机器人和障碍物环境为有向图模型,其中顶点表示机器人及环境中的智能体(各种障碍物),边表示机器人能观察到对边的智能体。利用先验知识对观察到的智能体进行聚类,其中将智能体分为机器人组、动态障碍物组和静态障碍物组等组别。
(2)先使用多层感知器将机器人和其他智能体的状态分别嵌入到相同维度的状态向量中,然后利用相似函数
Figure BDA0003056379100000031
来推断智能体之间的成对;具体讲,对于每个智能体组,先定义一个特征矩X,其第一行是观的机器人的状态嵌入向量,其余行是被观察到机器人和障碍物的状态嵌入向量;通过公式
Figure BDA0003056379100000032
计算出智能体之间的关系权重矩阵,其中Wθ
Figure BDA0003056379100000033
是可训练的参数向量;得到关系矩阵R后,用H(l+1)=σ(RH(l)W(l)+H(l))图卷积公式实现在机器人观测到的智能体节点之间传播信息,经过多层卷积后,计算各个智能体得到充分考虑其他智能体状态后的状态表示,其中是可W(l)第1层的参数矩阵,σ是激活函数,H(1)=X;由此,对于机器人观察到的K智能体组,N个机器人分别得到蕴含智能体之间关系的节点状态嵌入向量
Figure BDA0003056379100000034
Figure BDA0003056379100000035
(3)对于机器人i(i∈(1...N)),通过用图注意力网络(GAT)获得机器人对观察到的第k个智能体组的关系权重
Figure BDA0003056379100000036
然后依据所述的机器人对第k组智能体观察而得的节点状态嵌入向量
Figure BDA0003056379100000037
从而得到机器人对观察到的环境理解的状态表示
Figure BDA0003056379100000038
(4)对于观测范围内的机器人,当其与当前机器人之间的距离小于一个预定的阈值时,两个机器人可以相互通信,利用图注意网络求出与所有邻居机器人之间的关注权重,然后,通过计算邻域值的加权和,并进行线性变换来聚合所有消息。在经过多轮的通信之后,每个机器人都有一个对全局状态理解的状态编码向量hi(i=1...N)。具体的计算方法:对于每个机器人i,计算一个query向量
Figure BDA0003056379100000039
一个key向量
Figure BDA00030563791000000310
和一个value向量
Figure BDA00030563791000000311
其中WQ、Wk和Wv是可学习的参数。机器人i从邻居机器人j∈N(i)收到query-value对(Qi,Vi),并依据权重
Figure BDA00030563791000000312
与机器人j交流信息,其中dk是key向量的维度。对于机器人i获得加权聚合消息的公式是Vi=Wout∑wijVj,其中Wout是可学习的参数。最后,机器人用神经网络做非线性变换,得到最后更新的节点状态向量hi
(5)利用提出的一种基于最大熵强化学习的近似策略优化算法MEPPO进行训练,这种训练方法有利于增强机器人的探索能力,从而增强了导航策略的稳定性和高效性。同时,训练方法改进了回报函数,以达到导航安全和效率之间的平衡。设计的增强的回报函数Ri=Re,i+Rc,i,其中Re,i是环境机器人运动的回报,Rc,i是机器人与其他智能体之间碰撞的惩罚。具体来说,Re,i可表示为:
Figure BDA0003056379100000041
其中,tlimit是到达目的地的最短时间。公式(1)表示的回报将随着时间单调衰减,以保证机器人代理将被鼓励尽快达到目标。
Figure BDA0003056379100000042
是所有机器人在时间t离目标的总距离的平均值。公式(2)根据相邻两个时间步机器人到目的地的距离,分别给予机器人一个正向或负向的回报奖励。
另外,Rc,i可以定义为:
Figure BDA0003056379100000043
其中,drr和dro是机器人之间和机器人与障碍物之间的最小碰撞距离,当小于这个距离视为发生碰撞。ddisc是智能体之间的最小不适距离,当智能体之间小于这个距离,就给与一定的惩罚,以今早防止碰撞。
近似策略优化算法MEPPO改进的具体描述如下:首先,在最大熵强化学习框架中,回报是由公式r=rex+rin得到,其中,rex是环境给予的奖励,rin是根据策略熵所得。价值损失和优势函数如下:
Figure BDA0003056379100000044
Figure BDA0003056379100000045
其中,δt=rt+γV(st+1)-V(st),r=rex+rin=rex+αH(π(.|s))
然后,MEPPO算法的策略梯度损失是以下面的公式构成:
Figure BDA0003056379100000051
其中,f(ρ,A)=(1+ρ)A if A>0else(1-ρ)A.
MEPPO算法在训练过程中,前期的每一步都向使机器人的策略熵最大的方向优化增强探索能力,后期,经过对环境足够的探索,公式(6)中的系数α逐渐减小,逐渐减少机器人策略的随机性。
本发明有益效果
本发明与现有技术相比的优点在于:利用层级图神经网络关系学习使机器人充分理解与其他智能体之间的关系,同时,改进了强化学习训练方法PPO,增强了机器人对环境的探索能力。用本发明的方法使机器人合作导航更高效且安全,同时具有可迁移性。随着环境中智能体数目增大,相比其他方法有更好的表现。
附图说明
图1是本发明的框架的总览图。
具体实施方式
以下结合附图及实施例对发明进行详细描述。显然,所列举的实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本发明所述的一种动态环境下基于层级关系图学习的多机器人协同导航方法,包括如下步骤:
1、建模机器人和障碍物环境为有向图模型,其中顶点表示机器人及环境中的智能体(各种障碍物),边表示机器人能观察到对边的智能体。利用先验知识对观察到的智能体进行聚类,其中将智能体分为机器人组G1、动态障碍物组G2和静态障碍物组G3。
2、先使用多层感知器将机器人和其他智能体的状态分别嵌入到相同维度的状态向量中,然后利用相似函数
Figure BDA0003056379100000052
和图卷积神经网络(GCN)来推断智能体之间的成对;具体讲,对于每个智能体组,先定义一个特征矩X,其第一行是观的机器人的状态嵌入向量,其余行是被观察到机器人和障碍物的状态嵌入向量;通过公式
Figure BDA0003056379100000053
计算出智能体之间的关系权重矩阵,其中Wθ
Figure BDA0003056379100000054
是可训练的参数向量;得到关系矩阵R后,用H(l+1)=σ(RH(l)W(l)+H(l))图卷积公式实现在机器人观测到的智能体节点之间传播信息,经过多层卷积后,计算得到各个智能体充分考虑其他智能体状态后的状态表示,其中W(l)是第1层的参数矩阵,σ是激活函数,H(1)=X;由此,对于机器人观察到的K智能体组,N个机器人分别得到蕴含智能体之间关系的节点状态嵌入向量
Figure BDA0003056379100000061
3、对于机器人i(i∈(1...N)),通过用图注意力网络(GAT)获得机器人对观察到的第k个智能体组的关系权重
Figure BDA0003056379100000062
然后依据所述的机器人对第k组智能体观察而得的节点状态嵌入向量
Figure BDA0003056379100000063
从而得到机器人对观察到的环境理解的状态表示
Figure BDA0003056379100000064
4、对于观测范围内的机器人,当其与当前机器人之间的距离小于一个预定的阈值时,两个机器人可以相互通信,利用图注意网络求出与所有邻居机器人之间的关注权重,然后,通过计算邻域值的加权和,并进行线性变换来聚合所有消息。在经过多轮的通信之后,每个机器人都有一个对全局状态理解的状态编码向量hi(i=1...N)。具体的计算方法:对于每个机器人i,计算一个query向量
Figure BDA0003056379100000065
一个key向量
Figure BDA0003056379100000066
和一个value向量
Figure BDA0003056379100000067
其中WQ、Wk和Wv是可学习的参数。机器人i从邻居机器人j∈N(i)收到query-value对(Qi,Vi),并依据权重
Figure BDA0003056379100000068
与机器人j交流信息,其中dk是key向量的维度。对于机器人i获得加权聚合消息的公式是Vi=Wout∑wijVj,其中Wout是可学习的参数。最后,机器人用神经网络做非线性变换,得到最后更新的节点状态向量hi
5、利用提出的一种基于最大熵强化学习的近似策略优化算法MEPPO结合改进了回报函数进行训练。MEPPO具体描述如下:首先,在最大熵强化学习框架中,回报是由公式r=rex+rin得到,其中,rex是环境给予的奖励,rin是根据策略熵所得。价值损失和优势函数如下:
Figure BDA0003056379100000069
Figure BDA00030563791000000610
其中,δt=rt+γV(st+1)-V(st),r=rex+rin=rex+αH(π(.|s))
然后,MEPPO算法的策略梯度损失是以下面的公式构成:
Figure BDA00030563791000000611
其中,f(ρ,A)=(1+ρ)A if A>0 else(1-ρ)A.
MEPPO算法在训练过程中,前期的每一步都向使机器人的策略熵最大的方向优化增强探索能力,后期,经过对环境足够的探索,公式(6)中的系数α逐渐减小,逐渐减少机器人策略的随机性。
设计的增强的回报函数如下:机器人i的回报Ri=Re,i+Rc,i,其中Re,i是环境机器人运动的回报,Rc,i是机器人与其他智能体之间碰撞的惩罚。具体来说,Re,i可表示为:
Figure BDA0003056379100000071
其中,tlimit是到达目的地的最短时间。公式(1)表示的回报将随着时间单调衰减,以保证机器人代理将被鼓励尽快达到目标。
Figure BDA0003056379100000072
是所有机器人在时间t离目标的总距离的平均值。公式(2)根据相邻两个时间步机器人到目的地的距离,分别给予机器人一个正向或负向的回报奖励。
另外,Rc,i可以定义为:
Figure BDA0003056379100000073
其中,drr和dro是机器人之间和机器人与障碍物之间的最小碰撞距离,当小于这个距离视为发生碰撞。ddisc是智能体之间的最小不适距离,当智能体之间小于这个距离,就给与一定的惩罚,以防止碰撞。

Claims (5)

1.一种动态环境下基于层级关系图学习的多机器人协同导航方法,其特征在于,该方法包括以下具体步骤:
步骤1:建模机器人和障碍物环境为有向图模型,利用先验知识对观察到的智能体进行聚类,将智能体聚类成机器人组、动态障碍物组和静态障碍物组;
步骤2:依据有向图模型和智能体组别,对于每个机器人,根据其观察到的局部环境中智能体的状态,把属于三个不同智能体组的智能体分别聚合为一个子组,对每个子组利用相似函数和图卷积神经网络推断机器人与这个子组中的智能体之间的关系;从而,每个机器人得到三个蕴含其与观察到的智能体关系的节点状态嵌入向量;
步骤3:对于每个机器人,依据获得的三个节点状态嵌入向量,利用图注意神经网络(GAT)提取出其与其观测到的三个智能体子组间的权重关系,然后,依据权重关系,把三个节点状态嵌入向量聚合成对局部环境理解的状态编码向量;
步骤4:对于每个机器人,依据获得的对局部环境理解的状态向量,通过图注意力神经网络获得其与邻近的机器人之间的交流权重,然后,经过多轮交流使其获得一个全局状态编码向量;
步骤5:依据得到的机器人的全局状态编码向量,结合设计的回报函数和提出的基于最大熵强化学习的近似策略优化算法MEPPO进行训练,从而获得机器人依据所处状态选择最优行为的策略。
2.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法,其特征在于,步骤2所述对每个子组利用相似函数和图卷积神经网络推断机器人与这个子组中的智能体之间的关系,具体为:对于机器人观察的每个子组,先使用多层感知器将机器人和这个子组里的智能体的状态分别嵌入到相同维度的状态嵌入向量中;然后,定义一个特征矩阵X,其第一行是这个机器人的状态嵌入向量,其余行是这个子组中智能体的状态嵌入向量;通过公式
Figure FDA0003056379090000011
计算出这个机器人和子组内智能体的关系权重矩阵,其中Wθ
Figure FDA0003056379090000012
是可训练的参数向量;得到关系矩阵R后,用图卷积公式H(l+1)=σ(RH(l)W(l)+H(l))实现在这个机器人和子组内智能体之间信息传播,经过多层卷积后,计算得到状态表示,其中W(l)是第l层的参数矩阵,σ是激活函数,H(1)=X;由此,对于机器人观察到的三个智能体子组,每个机器人分别得到节点状态嵌入向量
Figure FDA0003056379090000013
3.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法,其特征在于,所述步骤3具体包括:对于机器人i(i∈(1...N)),依据获得的三个节点状态嵌入向量,通过用图注意力网络(GAT)获得机器人i对于观察到每个智能体子组的权重
Figure FDA0003056379090000021
最后,把三个节点状态嵌入向量聚合成局部状态编码向量
Figure FDA0003056379090000022
4.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法,其特征在于:所述步骤4具体为:对于每个机器人,当其观测范围内的其他邻近机器人距离小于一个预定的阈值时,两个机器人能够相互通信,利用图注意网络求出与这些邻近机器人之间的关注权重,然后,通过加权求和,并进行线性变换来聚合所得消息;再经过多轮的通信之后,每个机器人都得到一个对全局状态理解的状态编码向量hi(i=1...N);具体的计算方法:对于每个机器人i,计算一个query向量
Figure FDA0003056379090000023
一个key向量
Figure FDA0003056379090000024
和一个value向量
Figure FDA0003056379090000025
其中WQ、Wk和Wv是可学习的参数;机器人i从邻居机器人j∈N(i)收到query-value对(Qi,Vi),并依据权重
Figure FDA0003056379090000026
与机器人j交流信息,其中dk是key向量的维度;对于机器人i获得加权聚合消息的公式是Vi=Wout∑wijVj,其中Wout是可学习的参数;最后,用神经网络做非线性变换,得到全局状态编码向量hi
5.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法,其特征在于:步骤5中所述结合设计的回报函数和提出的基于最大熵强化学习的近似策略优化算法MEPPO进行训练,具体为:对于机器人i(i∈(1...N)),设计的回报函数Ri=Re,i+Rc,i,其中Re,i是机器人i动作的回报,Rc,i是机器人i与环境中其他智能体之间碰撞的惩罚;Re,i表示为:
Figure FDA0003056379090000027
其中,tlimit是到达目的地的最短时间,α∈(0,1)和β∈(0,1)是温度系数,pi表示机器人i当前所处的位置,pg表示机器人i的目的地;公式(1)表示的回报将随着时间单调衰减,以保证机器人将被鼓励尽快达到目标;
Figure FDA0003056379090000028
是所有机器人在时间t离目标的总距离的平均值;公式(2)根据相邻两个时间步机器人到目的地的距离,分别给予机器人一个正向或负向的回报奖励;另外,Rc,i定义为:
Figure FDA0003056379090000031
其中,drr和dro分别表示机器人与其他机器人和障碍物之间的距离,rr和ro分别是机器人的半径和障碍物的半径,dmin表示机器人当前与其他机器人和障碍物之间的最小距离,η∈(0,1)是温度系数,ddisc是智能体之间的最小不适距离,当智能体之间小于这个距离,就给与一定的惩罚,以防止碰撞;
近似策略优化算法MEPPO具体描述如下:首先,在最大熵强化学习框架中,回报是由公式r=rex+rin得到,其中,rex是环境给予的奖励,rin是根据策略熵所得奖励;t时间步最小化的价值损失如下:
Figure FDA0003056379090000032
其中,Vψ(st)是通过神经网络估计的得到的价值,ψ是可学习参数,St表示t时间的状态,Rt是通过在环境中采样而求得的折扣回报,Vt targ是目标价值,其值等于Rt
优势函数值如下:
Figure FDA0003056379090000033
其中,δt=rt+γVψ(st+1)-Vψ(st),r=rex+rin=rex+αH(π(.|st)),rt是t时间步获得的真实回报,γ是折扣因子,α是稳定系数,H(π(.|st))是状态st时选择动作空间所有动作的熵;
然后,MEPPO算法的策略梯度损失如下:
Figure FDA0003056379090000034
其中,πθ(at|st)表示当策略参数是θ时,状态为st时下一个动作选择at的概率;同理,πθ'(at|st)表示当策略参数是θ',状态为st时下一个动作选择at的概率;
Figure FDA0003056379090000035
表示当策略为πθ',状态为st,选择动作at时的优势函数值;其中,f(ρ,A)=(1+ρ)A if A>0 else(1-ρ)A,ρ∈(0,1)是超参数,α∈(0,1)是温度系数。
CN202110500608.0A 2021-05-08 2021-05-08 动态环境下基于层级关系图学习的多机器人协同导航方法 Active CN113296502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110500608.0A CN113296502B (zh) 2021-05-08 2021-05-08 动态环境下基于层级关系图学习的多机器人协同导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110500608.0A CN113296502B (zh) 2021-05-08 2021-05-08 动态环境下基于层级关系图学习的多机器人协同导航方法

Publications (2)

Publication Number Publication Date
CN113296502A true CN113296502A (zh) 2021-08-24
CN113296502B CN113296502B (zh) 2022-11-01

Family

ID=77321062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110500608.0A Active CN113296502B (zh) 2021-05-08 2021-05-08 动态环境下基于层级关系图学习的多机器人协同导航方法

Country Status (1)

Country Link
CN (1) CN113296502B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN115096317A (zh) * 2022-06-16 2022-09-23 中国科学院空间应用工程与技术中心 一种地月空间dro航天器编队相对导航方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108085333A (zh) * 2016-11-14 2018-05-29 中国科学院上海生命科学研究院 一种延缓薯类植物生理性变质的方法
US20200175216A1 (en) * 2018-12-04 2020-06-04 Google Llc Generating integrated circuit floorplans using neural networks
US20200279136A1 (en) * 2019-03-01 2020-09-03 Royal Bank Of Canada System and method for multi-type mean field reinforcement machine learning
CN111649758A (zh) * 2020-06-16 2020-09-11 华东师范大学 一种动态环境下基于强化学习算法的路径规划方法
CN111738372A (zh) * 2020-08-26 2020-10-02 中国科学院自动化研究所 分布式多智能体时空特征提取方法、行为决策方法
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN111798114A (zh) * 2020-06-28 2020-10-20 北京百度网讯科技有限公司 一种模型训练、订单处理方法、装置、设备及存储介质
CN112149359A (zh) * 2020-10-09 2020-12-29 中国人民解放军国防科技大学 信任域引导裁剪的策略优化方法、系统、存储介质及应用
US20220044094A1 (en) * 2019-10-25 2022-02-10 Tencent Technology (Shenzhen) Company Limited Method and apparatus for constructing network structure optimizer, and computer-readable storage medium

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108085333A (zh) * 2016-11-14 2018-05-29 中国科学院上海生命科学研究院 一种延缓薯类植物生理性变质的方法
US20200175216A1 (en) * 2018-12-04 2020-06-04 Google Llc Generating integrated circuit floorplans using neural networks
US20200279136A1 (en) * 2019-03-01 2020-09-03 Royal Bank Of Canada System and method for multi-type mean field reinforcement machine learning
US20220044094A1 (en) * 2019-10-25 2022-02-10 Tencent Technology (Shenzhen) Company Limited Method and apparatus for constructing network structure optimizer, and computer-readable storage medium
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN111649758A (zh) * 2020-06-16 2020-09-11 华东师范大学 一种动态环境下基于强化学习算法的路径规划方法
CN111798114A (zh) * 2020-06-28 2020-10-20 北京百度网讯科技有限公司 一种模型训练、订单处理方法、装置、设备及存储介质
CN111738372A (zh) * 2020-08-26 2020-10-02 中国科学院自动化研究所 分布式多智能体时空特征提取方法、行为决策方法
CN112149359A (zh) * 2020-10-09 2020-12-29 中国人民解放军国防科技大学 信任域引导裁剪的策略优化方法、系统、存储介质及应用

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ARIP ASADULAEV 等: "《Exploring and Exploiting Conditioning of Reinforcement Learning Agents》", 《IEEE》, 8 December 2020 (2020-12-08), pages 211951 - 211960 *
FENGYI ZHANG 等: "《WAGNN: A Weighted Aggregation Graph Neural Network for robot skill learning》", 《ROBOTICS AND AUTONOMOUS SYSTEMS》, 5 May 2020 (2020-05-05), pages 1 - 9 *
FRANCESCO SOVRANO: "《Combining Experience Replay with Exploration by Random Network Distillation》", 《IEEE》, 31 December 2019 (2019-12-31), pages 1 - 8 *
崔玉龙 等: "《离散时间下广义多智能体系统基于观测器的分布式一致协议》", 《系统科学与数学》, 31 December 2016 (2016-12-31), pages 437 - 452 *
曹洁 等: "《动态环境中的多机器人协同搬运》", 《计算机工程与应用》, 31 December 2013 (2013-12-31), pages 252 - 256 *
杨萌 等: "《时滞对逻辑网络优化控制的影响》", 《复杂系统与复杂性科学》, 31 March 2012 (2012-03-31), pages 35 - 40 *
轩书哲 等: "《基于多智能体强化学习的无人机集群攻防对抗策略研究》", 《信号与信息处理》, 5 May 2021 (2021-05-05), pages 360 - 366 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115096317A (zh) * 2022-06-16 2022-09-23 中国科学院空间应用工程与技术中心 一种地月空间dro航天器编队相对导航方法和系统
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN114779792B (zh) * 2022-06-20 2022-09-09 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统

Also Published As

Publication number Publication date
CN113296502B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
Han et al. Cooperative multi-robot navigation in dynamic environment with deep reinforcement learning
CN113296502B (zh) 动态环境下基于层级关系图学习的多机器人协同导航方法
Wang et al. Modeling motion patterns of dynamic objects by IOHMM
Faisal et al. Human expertise in mobile robot navigation
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
CN111381600A (zh) 一种基于粒子群算法的uuv路径规划方法
Vashisth et al. Existing path planning techniques in unmanned aerial vehicles (UAVs): A systematic review
Sasaki et al. Adaptive path planning for cleaning robots considering dust distribution
Panda et al. Optimal path planning for mobile robots using oppositional invasive weed optimization
Kiani et al. 3D path planning method for multi-UAVs inspired by grey wolf algorithms
Hawari et al. Industry 4.0 with intelligent manufacturing 5G mobile robot based on genetic algorithm
Huang et al. APSO: An A*-PSO hybrid algorithm for mobile robot path planning
Liu et al. A hybrid mobile robot path planning scheme based on modified gray wolf optimization and situation assessment
Gigras et al. Ant colony based path planning algorithm for autonomous robotic vehicles
Chang et al. Type-2 Fuzzy Formation Control for Collision-Free Multi-Robot Systems.
Lin et al. Adaptive neuro-fuzzy formation control for leader-follower mobile robots
Shukla et al. Multi robot path planning parameter analysis based on particle swarm optimization (PSO) in an intricate unknown environments
AlShabi et al. Path planning and obstacle avoidance utilizing chameleon swarm algorithm
Zhang et al. Multi-task Actor-Critic with Knowledge Transfer via a Shared Critic
Chakraborty et al. A robust cooperative multi-robot path-planning in noisy environment
Mina et al. Penguin huddling-inspired energy sharing and formation movement in multi-robot systems
Capi et al. Multiple robots formation–a multiobjctive evolution approach
Kwasniewski et al. Wheeled robot path planning in natural environment
Naranjani et al. A multi-objective path planning algorithm for mobile robots based on cellular automata
Martovytskyi et al. Approach to building a global mobile agent way based on Q-learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant