CN113296502B - 动态环境下基于层级关系图学习的多机器人协同导航方法 - Google Patents
动态环境下基于层级关系图学习的多机器人协同导航方法 Download PDFInfo
- Publication number
- CN113296502B CN113296502B CN202110500608.0A CN202110500608A CN113296502B CN 113296502 B CN113296502 B CN 113296502B CN 202110500608 A CN202110500608 A CN 202110500608A CN 113296502 B CN113296502 B CN 113296502B
- Authority
- CN
- China
- Prior art keywords
- robot
- state
- vector
- environment
- agents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000004891 communication Methods 0.000 claims abstract description 8
- 230000006399 behavior Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000004888 barrier function Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 claims 6
- 238000005070 sampling Methods 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000019771 cognition Effects 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种动态环境下基于层级关系图学习的多机器人协同导航方法,该方法包括:首先,建模机器人和障碍物环境为有向图模型,通过用层级图网络获得包含机器人对自己状态和其观察到的环境的状态编码向量;在此基础上利用图注意力网络实现机器人选择性的与邻居机器人进行交流,经过多轮的交流,使机器人获得对环境全局认知的状态编码向量;最后,利用提出的一种基于最大熵强化学习的近似策略优化算法MEPPO进行训练,从而获得共享的机器人依据所处状态选择行为的策略。用本发明的导航方法使机器人合作导航更高效且安全,同时具有迁移性,随着智能体数目增大,相比其他方法有更好的表现,为机器人协同导航领域提供了一定的技术支持。
Description
技术领域
本发明属于机器人导航领域,用于具有动态障碍物的环境中的多个机器人的合作导航。
背景技术
多机器人协同导航在处理复杂任务方面有着广阔的应用前景,越来越受到工业界和学术界的关注,如自主仓储物流、救援、探险、协同操纵等[1]。多机器人协同导航问题的目标是在具有一定动态障碍物复杂度的环境下,找寻能够保证多机器人在尽可能少的时间内共同到达所有目标的最优路径。
之前已经有许多方法被提出来解决多机器人导航,例如基于规划的同步定位和建图方法(SLAM)[2]、基于速度选择的速度障碍方法(VO)[3]。然而,所有这些工作都是基于一些难以实现的假设,如路径规划的环境先验全局可知。此外,随着机器人数量的增加,环境的非平稳性、机器人行为和状态空间急剧增长以及多智能体的信用分配等问题都对机器人导航提出了严峻的挑战。
近年来,强化学习(RL)与深度神经网络相结合,通过与环境的相互作用,在学习一种使期望的长期回报最大化的策略方面取得了优异的效果。在问题模型方面,一些研究需要从单个机器人的原始传感器测量值中学习一个对预先分配的不变目标的导航策略,或者只对单个机器人学习一个导航策略[4]。但是,它们无法优化分配目标位置。而且,机器人在导航过程中只把其他机器人视为环境的一部分。一些研究使机器人能够在导航过程中合作动态选择目标[5],但只能在无障碍环境中进行。
虽然当前业界已经提出了许多优秀的算法来解决多机器人合作导航,但是这些方法仍然存在一些未解决的问题。首先,在建立具有异构智能体(移动障碍物和机器人)之间的关系模型时,障碍物对机器人导航的影响通常是通过简单的机器人和障碍物的成对关系来建模的,这不能完全表征障碍物与障碍物和机器人与障碍物之间的潜在交互作用。其次,由于任务的高度复杂性和潜在的不稳定性(可伸缩性问题),随着机器人和障碍物数量的增加,这些方法的性能急剧下降,导致模型的可迁移性比较差。
[1]Rachael N Darmanin and Marvin K Bugeja.A review on multi-robotsystems categorised by application domain.In 2017 25th mediterraneanconference on control and automation(MED),pages 701–706.IEEE,2017.
[2]Hugh Durrant-Whyte and Tim Bailey.Simultaneous localization andmapping:part i.IEEE robotics&automation magazine,13(2):99–110,2006.
[3]Jur Van Den Berg,Stephen J Guy,Ming Lin,and DineshManocha.Reciprocal n-body collision avoidance.In Robotics research,pages 3–19.Springer,2011.
[4]Yu Fan Chen,Michael Everett,Miao Liu,and Jonathan P How.Sociallyaware motion planning with deep reinforcement learning.In 2017IEEE/RSJInternational Conference on Intelligent Robots and Systems(IROS),pages 1343–1350.IEEE,2017a.
[5]Ryan Lowe,Yi Wu,Aviv Tamar,Jean Harb,Pieter Abbeel,and IgorMordatch.Multi-agent actor-critic for mixed cooperative-competitiveenvironments.arXiv preprint arXiv:1706.02275,2017Yue Jin,Yaodong Zhang,JianYuan,and Xudong Zhang.
发明内容
本发明是为了提高机器人导航的稳定性,增强对环境的探索能力,用基于最大熵强化学习改进的近似策略优化算法MEPPO进行训练的一种动态环境下基于层级关系图学习的多机器人协同导航方法,以解决现有技术存在的问题。
实现本发明目的的具体技术方案是:
一种动态环境下基于层级关系图学习的多机器人协同导航方法,包括以下步骤:
步骤1:建模机器人和障碍物环境为有向图模型,利用先验知识对观察到的智能体进行聚类,将智能体聚类成机器人组、动态障碍物组和静态障碍物组;
步骤2:依据有向图模型和智能体组别,对于每个机器人,根据其观察到的局部环境中智能体的状态,把属于三个不同智能体组的智能体分别聚合为一个子组,对每个子组利用相似函数和图卷积神经网络推断机器人与这个子组中的智能体之间的关系;从而,每个机器人得到三个蕴含其与观察到的智能体关系的节点状态嵌入向量;
步骤3:对于每个机器人,依据获得的三个节点状态嵌入向量,利用图注意神经网络(GAT)提取出其与其观测到的三个智能体子组间的权重关系,然后,依据权重关系,把三个节点状态嵌入向量聚合成对局部环境理解的状态编码向量;
步骤4:对于每个机器人,依据获得的对局部环境理解的状态向量,通过图注意力神经网络获得其与邻近的机器人之间的交流权重,然后,经过多轮交流使其获得一个全局状态编码向量;
步骤5:依据得到的机器人的全局状态编码向量,结合设计的回报函数和提出的基于最大熵强化学习的近似策略优化算法MEPPO进行训练,从而获得机器人依据所处状态选择最优行为的策略。
该方法具体实现步骤为:
(1)建模机器人和障碍物环境为有向图模型,其中顶点表示机器人及环境中的智能体(各种障碍物),边表示机器人能观察到对边的智能体。利用先验知识对观察到的智能体进行聚类,其中将智能体分为机器人组、动态障碍物组和静态障碍物组等组别。
(2)先使用多层感知器将机器人和其他智能体的状态分别嵌入到相同维度的状态向量中,然后利用相似函数来推断智能体之间的成对;具体讲,对于每个智能体组,先定义一个特征矩X,其第一行是观的机器人的状态嵌入向量,其余行是被观察到机器人和障碍物的状态嵌入向量;通过公式计算出智能体之间的关系权重矩阵,其中Wθ和是可训练的参数向量;得到关系矩阵R后,用H(l+1)=σ(RH(l)W(l)+H(l))图卷积公式实现在机器人观测到的智能体节点之间传播信息,经过多层卷积后,计算各个智能体得到充分考虑其他智能体状态后的状态表示,其中是可W(l)第1层的参数矩阵,σ是激活函数,H(1)=X;由此,对于机器人观察到的K智能体组,N个机器人分别得到蕴含智能体之间关系的节点状态嵌入向量
(3)对于机器人i(i∈(1...N)),通过用图注意力网络(GAT)获得机器人对观察到的第k个智能体组的关系权重然后依据所述的机器人对第k组智能体观察而得的节点状态嵌入向量从而得到机器人对观察到的环境理解的状态表示
(4)对于观测范围内的机器人,当其与当前机器人之间的距离小于一个预定的阈值时,两个机器人可以相互通信,利用图注意网络求出与所有邻居机器人之间的关注权重,然后,通过计算邻域值的加权和,并进行线性变换来聚合所有消息。在经过多轮的通信之后,每个机器人都有一个对全局状态理解的状态编码向量hi(i=1...N)。具体的计算方法:对于每个机器人i,计算一个query向量一个key向量和一个value向量其中WQ、Wk和Wv是可学习的参数。机器人i从邻居机器人j∈N(i)收到query-value对(Qi,Vi),并依据权重与机器人j交流信息,其中dk是key向量的维度。对于机器人i获得加权聚合消息的公式是Vi=Wout∑wijVj,其中Wout是可学习的参数。最后,机器人用神经网络做非线性变换,得到最后更新的节点状态向量hi。
(5)利用提出的一种基于最大熵强化学习的近似策略优化算法MEPPO进行训练,这种训练方法有利于增强机器人的探索能力,从而增强了导航策略的稳定性和高效性。同时,训练方法改进了回报函数,以达到导航安全和效率之间的平衡。设计的增强的回报函数Ri=Re,i+Rc,i,其中Re,i是环境机器人运动的回报,Rc,i是机器人与其他智能体之间碰撞的惩罚。具体来说,Re,i可表示为:
其中,tlimit是到达目的地的最短时间。公式(1)表示的回报将随着时间单调衰减,以保证机器人代理将被鼓励尽快达到目标。是所有机器人在时间t离目标的总距离的平均值。公式(2)根据相邻两个时间步机器人到目的地的距离,分别给予机器人一个正向或负向的回报奖励。
另外,Rc,i可以定义为:
其中,drr和dro是机器人之间和机器人与障碍物之间的最小碰撞距离,当小于这个距离视为发生碰撞。ddisc是智能体之间的最小不适距离,当智能体之间小于这个距离,就给与一定的惩罚,以今早防止碰撞。
近似策略优化算法MEPPO改进的具体描述如下:首先,在最大熵强化学习框架中,回报是由公式r=rex+rin得到,其中,rex是环境给予的奖励,rin是根据策略熵所得。价值损失和优势函数如下:
其中,δt=rt+γV(st+1)-V(st),r=rex+rin=rex+αH(π(.|s))
然后,MEPPO算法的策略梯度损失是以下面的公式构成:
其中,f(ρ,A)=(1+ρ)A if A>0else(1-ρ)A.
MEPPO算法在训练过程中,前期的每一步都向使机器人的策略熵最大的方向优化增强探索能力,后期,经过对环境足够的探索,公式(6)中的系数α逐渐减小,逐渐减少机器人策略的随机性。
本发明有益效果
本发明与现有技术相比的优点在于:利用层级图神经网络关系学习使机器人充分理解与其他智能体之间的关系,同时,改进了强化学习训练方法PPO,增强了机器人对环境的探索能力。用本发明的方法使机器人合作导航更高效且安全,同时具有可迁移性。随着环境中智能体数目增大,相比其他方法有更好的表现。
附图说明
图1是本发明的框架的总览图。
具体实施方式
以下结合附图及实施例对发明进行详细描述。显然,所列举的实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本发明所述的一种动态环境下基于层级关系图学习的多机器人协同导航方法,包括如下步骤:
1、建模机器人和障碍物环境为有向图模型,其中顶点表示机器人及环境中的智能体(各种障碍物),边表示机器人能观察到对边的智能体。利用先验知识对观察到的智能体进行聚类,其中将智能体分为机器人组G1、动态障碍物组G2和静态障碍物组G3。
2、先使用多层感知器将机器人和其他智能体的状态分别嵌入到相同维度的状态向量中,然后利用相似函数和图卷积神经网络(GCN)来推断智能体之间的成对;具体讲,对于每个智能体组,先定义一个特征矩X,其第一行是观的机器人的状态嵌入向量,其余行是被观察到机器人和障碍物的状态嵌入向量;通过公式计算出智能体之间的关系权重矩阵,其中Wθ和是可训练的参数向量;得到关系矩阵R后,用H(l+1)=σ(RH(l)W(l)+H(l))图卷积公式实现在机器人观测到的智能体节点之间传播信息,经过多层卷积后,计算得到各个智能体充分考虑其他智能体状态后的状态表示,其中W(l)是第1层的参数矩阵,σ是激活函数,H(1)=X;由此,对于机器人观察到的K智能体组,N个机器人分别得到蕴含智能体之间关系的节点状态嵌入向量
3、对于机器人i(i∈(1...N)),通过用图注意力网络(GAT)获得机器人对观察到的第k个智能体组的关系权重然后依据所述的机器人对第k组智能体观察而得的节点状态嵌入向量从而得到机器人对观察到的环境理解的状态表示
4、对于观测范围内的机器人,当其与当前机器人之间的距离小于一个预定的阈值时,两个机器人可以相互通信,利用图注意网络求出与所有邻居机器人之间的关注权重,然后,通过计算邻域值的加权和,并进行线性变换来聚合所有消息。在经过多轮的通信之后,每个机器人都有一个对全局状态理解的状态编码向量hi(i=1...N)。具体的计算方法:对于每个机器人i,计算一个query向量一个key向量和一个value向量其中WQ、Wk和Wv是可学习的参数。机器人i从邻居机器人j∈N(i)收到query-value对(Qi,Vi),并依据权重与机器人j交流信息,其中dk是key向量的维度。对于机器人i获得加权聚合消息的公式是Vi=Wout∑wijVj,其中Wout是可学习的参数。最后,机器人用神经网络做非线性变换,得到最后更新的节点状态向量hi。
5、利用提出的一种基于最大熵强化学习的近似策略优化算法MEPPO结合改进了回报函数进行训练。MEPPO具体描述如下:首先,在最大熵强化学习框架中,回报是由公式r=rex+rin得到,其中,rex是环境给予的奖励,rin是根据策略熵所得。价值损失和优势函数如下:
其中,δt=rt+γV(st+1)-V(st),r=rex+rin=rex+αH(π(.|s))
然后,MEPPO算法的策略梯度损失是以下面的公式构成:
其中,f(ρ,A)=(1+ρ)A if A>0 else(1-ρ)A.
MEPPO算法在训练过程中,前期的每一步都向使机器人的策略熵最大的方向优化增强探索能力,后期,经过对环境足够的探索,公式(6)中的系数α逐渐减小,逐渐减少机器人策略的随机性。
设计的增强的回报函数如下:机器人i的回报Ri=Re,i+Rc,i,其中Re,i是环境机器人运动的回报,Rc,i是机器人与其他智能体之间碰撞的惩罚。具体来说,Re,i可表示为:
其中,tlimit是到达目的地的最短时间。公式(1)表示的回报将随着时间单调衰减,以保证机器人代理将被鼓励尽快达到目标。是所有机器人在时间t离目标的总距离的平均值。公式(2)根据相邻两个时间步机器人到目的地的距离,分别给予机器人一个正向或负向的回报奖励。
另外,Rc,i可以定义为:
其中,drr和dro是机器人之间和机器人与障碍物之间的最小碰撞距离,当小于这个距离视为发生碰撞。ddisc是智能体之间的最小不适距离,当智能体之间小于这个距离,就给与一定的惩罚,以防止碰撞。
Claims (4)
1.一种动态环境下基于层级关系图学习的多机器人协同导航方法,其特征在于,该方法包括以下具体步骤:
步骤1:建模机器人和障碍物环境为有向图模型,利用先验知识对观察到的智能体进行聚类,将智能体聚类成机器人组、动态障碍物组和静态障碍物组;
步骤2:依据有向图模型和智能体组别,对于每个机器人,根据其观察到的局部环境中智能体的状态,把属于三个不同智能体组的智能体分别聚合为一个子组,对每个子组利用相似函数和图卷积神经网络推断机器人与这个子组中的智能体之间的关系;从而,每个机器人得到三个蕴含其与观察到的智能体关系的节点状态嵌入向量;
步骤3:对于每个机器人,依据获得的三个节点状态嵌入向量,利用图注意神经网络GAT提取出其与其观测到的三个智能体子组间的权重关系,然后,依据权重关系,把三个节点状态嵌入向量聚合成对局部环境理解的状态编码向量;
步骤4:对于每个机器人,依据获得的对局部环境理解的状态向量,通过图注意力神经网络获得其与邻近的机器人之间的交流权重,然后,经过多轮交流使其获得一个全局状态编码向量;
步骤5:依据得到的机器人的全局状态编码向量,结合设计的回报函数和提出的基于最大熵强化学习的近似策略优化算法MEPPO进行训练,从而获得机器人依据所处状态选择最优行为的策略;其中:
所述结合设计的回报函数和提出的基于最大熵强化学习的近似策略优化算法MEPPO进行训练,具体为:对于机器人i(i∈(1...N)),设计的回报函数Ri=Re,i+Rc,i,其中Re,i是机器人i动作的回报,Rc,i是机器人i与环境中其他智能体之间碰撞的惩罚;Re,i表示为:
其中,tlimit是到达目的地的最短时间,α∈(0,1)和β∈(0,1)是温度系数,pi表示机器人i当前所处的位置,pg表示机器人i的目的地;公式(1)表示的回报将随着时间单调衰减,以保证机器人将被鼓励尽快达到目标;是所有机器人在时间t离目标的总距离的平均值;公式(2)根据相邻两个时间步机器人到目的地的距离,分别给予机器人一个正向或负向的回报奖励;另外,Rc,i定义为:
其中,drr和dro分别表示机器人与其他机器人和障碍物之间的距离,rr和ro分别是机器人的半径和障碍物的半径,dmin表示机器人当前与其他机器人和障碍物之间的最小距离,η∈(0,1)是温度系数,ddisc是智能体之间的最小不适距离,当智能体之间小于这个距离,就给与一定的惩罚,以防止碰撞;
近似策略优化算法MEPPO具体描述如下:首先,在最大熵强化学习框架中,回报是由公式r=rex+rin得到,其中,rex是环境给予的奖励,rin是根据策略熵所得奖励;t时间步最小化的价值损失如下:
其中,Vψ(st)是通过神经网络估计的得到的价值,ψ是可学习参数,St表示t时间的状态,Rt是通过在环境中采样而求得的折扣回报,Vt targ是目标价值,其值等于Rt;
优势函数值如下:
其中,δt=rt+γVψ(st+1)-Vψ(st),r=rex+rin=rex+αH(π(.|st)),rt是t时间步获得的真实回报,γ是折扣因子,α是稳定系数,H(π(.|st))是状态st时选择动作空间所有动作的熵;
然后,MEPPO算法的策略梯度损失如下:
2.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法,其特征在于,步骤2所述对每个子组利用相似函数和图卷积神经网络推断机器人与这个子组中的智能体之间的关系,具体为:对于机器人观察的每个子组,先使用多层感知器将机器人和这个子组里的智能体的状态分别嵌入到相同维度的状态嵌入向量中;然后,定义一个特征矩阵X,其第一行是这个机器人的状态嵌入向量,其余行是这个子组中智能体的状态嵌入向量;通过公式计算出这个机器人和子组内智能体的关系权重矩阵,其中Wθ和是可训练的参数向量;得到关系矩阵R后,用图卷积公式H(l+1)=σ(RH(l)W(l)+H(l))实现在这个机器人和子组内智能体之间信息传播,经过多层卷积后,计算得到状态表示,其中W(l)是第l层的参数矩阵,σ是激活函数,H(1)=X;由此,对于机器人观察到的三个智能体子组,每个机器人分别得到节点状态嵌入向量
4.根据权利要求1所述的动态环境下基于层级关系图学习的多机器人协同导航方法,其特征在于:所述步骤4具体为:对于每个机器人,当其观测范围内的其他邻近机器人距离小于一个预定的阈值时,两个机器人能够相互通信,利用图注意网络求出与这些邻近机器人之间的关注权重,然后,通过加权求和,并进行线性变换来聚合所得消息;再经过多轮的通信之后,每个机器人都得到一个对全局状态理解的状态编码向量hi(i=1...N);具体的计算方法:对于每个机器人i,计算一个query向量一个key向量和一个value向量其中WQ、Wk和Wv是可学习的参数;机器人i从邻居机器人j∈N(i)收到query-value对(Qi,Vi),并依据权重与机器人j交流信息,其中dk是key向量的维度;对于机器人i获得加权聚合消息的公式是Vi=Wout∑wijVj,其中Wout是可学习的参数;最后,用神经网络做非线性变换,得到全局状态编码向量hi。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110500608.0A CN113296502B (zh) | 2021-05-08 | 2021-05-08 | 动态环境下基于层级关系图学习的多机器人协同导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110500608.0A CN113296502B (zh) | 2021-05-08 | 2021-05-08 | 动态环境下基于层级关系图学习的多机器人协同导航方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113296502A CN113296502A (zh) | 2021-08-24 |
CN113296502B true CN113296502B (zh) | 2022-11-01 |
Family
ID=77321062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110500608.0A Active CN113296502B (zh) | 2021-05-08 | 2021-05-08 | 动态环境下基于层级关系图学习的多机器人协同导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113296502B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115096317B (zh) * | 2022-06-16 | 2023-04-11 | 中国科学院空间应用工程与技术中心 | 一种地月空间dro航天器编队相对导航方法和系统 |
CN114779792B (zh) * | 2022-06-20 | 2022-09-09 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108085333B (zh) * | 2016-11-14 | 2021-06-29 | 中国科学院分子植物科学卓越创新中心 | 一种延缓薯类植物生理性变质的方法 |
EP3871132A1 (en) * | 2018-12-04 | 2021-09-01 | Google LLC | Generating integrated circuit floorplans using neural networks |
US20200279136A1 (en) * | 2019-03-01 | 2020-09-03 | Royal Bank Of Canada | System and method for multi-type mean field reinforcement machine learning |
CN110782015B (zh) * | 2019-10-25 | 2024-10-15 | 腾讯科技(深圳)有限公司 | 神经网络的网络结构优化器的训练方法、装置及存储介质 |
CN111781922B (zh) * | 2020-06-15 | 2021-10-26 | 中山大学 | 一种基于深度强化学习的多机器人协同导航方法 |
CN111649758B (zh) * | 2020-06-16 | 2023-09-15 | 华东师范大学 | 一种动态环境下基于强化学习算法的路径规划方法 |
CN111798114B (zh) * | 2020-06-28 | 2024-07-02 | 纽扣互联(北京)科技有限公司 | 一种模型训练、订单处理方法、装置、设备及存储介质 |
CN111738372B (zh) * | 2020-08-26 | 2020-11-17 | 中国科学院自动化研究所 | 分布式多智能体时空特征提取方法、行为决策方法 |
CN112149359A (zh) * | 2020-10-09 | 2020-12-29 | 中国人民解放军国防科技大学 | 信任域引导裁剪的策略优化方法、系统、存储介质及应用 |
-
2021
- 2021-05-08 CN CN202110500608.0A patent/CN113296502B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113296502A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Cooperative multi-robot navigation in dynamic environment with deep reinforcement learning | |
CN113296502B (zh) | 动态环境下基于层级关系图学习的多机器人协同导航方法 | |
CN108664022B (zh) | 一种基于拓扑地图的机器人路径规划方法及系统 | |
Elhoseny et al. | Optimizing robot path in dynamic environments using genetic algorithm and bezier curve | |
Yanmaz et al. | A discrete stochastic process for coverage analysis of autonomous UAV networks | |
Wang et al. | Modeling motion patterns of dynamic objects by IOHMM | |
Pradhan et al. | A novel hybrid neural network-based multirobot path planning with motion coordination | |
Vashisth et al. | Existing path planning techniques in unmanned aerial vehicles (UAVs): A systematic review | |
Sasaki et al. | Adaptive path planning for cleaning robots considering dust distribution | |
Bautin et al. | Towards a communication free coordination for multi-robot exploration | |
Jones et al. | Information-guided persistent monitoring under temporal logic constraints | |
Sujit et al. | Multiple UAV task allocation using particle swarm optimization | |
Hawari et al. | Industry 4.0 with intelligent manufacturing 5G mobile robot based on genetic algorithm | |
Qiao et al. | Dynamic self-organizing leader-follower control in a swarm mobile robots system under limited communication | |
Yu et al. | Congestion prediction for large fleets of mobile robots | |
Pohan et al. | Path Planning using Combined Informed Rapidly-exploring Random Tree Star and Particle Swarm Optimization Algorithms | |
Doellinger et al. | Environment-aware multi-target tracking of pedestrians | |
Cowlagi et al. | Multi-resolution path planning: Theoretical analysis, efficient implementation, and extensions to dynamic environments | |
Susnea | Distributed neural networks microcontroller implementation and applications | |
CN113408688B (zh) | 一种面向未知环境的多放射源在线探寻方法 | |
Konak | A distributed multi-agent algorithm for topology control in mobile ad-hoc networks | |
Kim et al. | Information-Theoretic Based Target Search with Multiple Agents | |
Mishra et al. | Multi-Agent Deep Reinforcement Learning for Persistent Monitoring With Sensing, Communication, and Localization Constraints | |
Masuzawa et al. | Observation planning for environment information summarization with deadlines | |
Abdolzadeh et al. | An approach of cellular learning automata to job shop scheduling problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |