CN113359437A - 基于演化博弈的多智能体编队的分层模型预测控制方法 - Google Patents

基于演化博弈的多智能体编队的分层模型预测控制方法 Download PDF

Info

Publication number
CN113359437A
CN113359437A CN202110528859.XA CN202110528859A CN113359437A CN 113359437 A CN113359437 A CN 113359437A CN 202110528859 A CN202110528859 A CN 202110528859A CN 113359437 A CN113359437 A CN 113359437A
Authority
CN
China
Prior art keywords
agent
follower
leader
state
formation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110528859.XA
Other languages
English (en)
Other versions
CN113359437B (zh
Inventor
戴荔
周小婷
孙中奇
冉德超
曹璐
季明江
夏元清
翟弟华
张金会
崔冰
刘坤
闫莉萍
邹伟东
郭泽华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110528859.XA priority Critical patent/CN113359437B/zh
Publication of CN113359437A publication Critical patent/CN113359437A/zh
Application granted granted Critical
Publication of CN113359437B publication Critical patent/CN113359437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明提供了一种基于演化博弈的多智能体编队的分层模型预测控制方法,能够在受到通讯约束的情况下,每个智能体只需要获得局部的邻居信息就可以无碰撞地形成编队的目标,并且该发明对于时变的通信网络也同样适用。在提高了控制性能和安全性能的同时,降低了计算的复杂程度,减少了通信负担。实现了在受到通讯约束的情况下,每个智能体只需要获得局部的邻居信息就可以无碰撞地形成编队的目标,解决了传统集中式控制方法需要系统的全部信息,需要较强的计算能力和通信能力的问题,以及已有的leader‑follower编队方法中,需要所有的follower智能体与leader智能体进行通讯的问题。

Description

基于演化博弈的多智能体编队的分层模型预测控制方法
技术领域
本发明属于多智能体编队控制技术领域,具体涉及一种基于演化博弈的多智能体编队的分层模型预测控制方法。
背景技术
群体行为是自然界中普遍存在的现象,如鸟群的编队迁徙,鱼群的结队巡游,蚁群的协同工作以及细菌的聚集而生等等,这种集体合作能够使生物群体在觅食生存、逃避天敌等方面有着单个个体难以实现的优势,有利于完成复杂的、具有一定目的或功能性的活动。多智能体控制是人们效仿自然界群体行为提出来的,其中编队控制是当前多智能体领域研究的热点。编队控制要求通过设计合适的控制协议,使多个移动的智能体同时运动到期望的目标点,并在运动过程中保持给定的几何图形。编队控制的应用前景广泛,如军事侦查、安全巡逻、搜索救援等领域。
传统的集中式编队控制方法需要系统的全部信息和较大的通信能力、计算能力,动态性能和实时性能较差。而分布式控制为每个智能体设计一个局部的控制器,并在一定程度上考虑了全局控制目标,因而只需要借助局部的邻居信息就能够实现群体的行为,从而解决全局性的任务。在减少计算量和通信量的同时,提高了系统的灵活性和对环境的适应性。在实际应用中,一方面为了安全考虑,编队控制应该保证智能体具有避障和避碰的功能;另一方面,由于智能体的通讯范围有限,使得智能体在移动过程中系统的通信拓扑会发生改变,所以编队控制还应该考虑时变的通信拓扑。目前,现有技术中还没有分布式的兼具避碰和避障功能的,并且能应用于时变系统的编队控制方法。
发明内容
有鉴于此,本发明提供了一种基于演化博弈的多智能体编队的分层模型预测控制方法,能够在受到通讯约束的情况下,每个智能体只需要获得局部的邻居信息就可以无碰撞地形成编队的目标,并且该发明对于时变的通信网络也同样适用。在提高了控制性能和安全性能的同时,降低了计算的复杂程度,减少了通信负担。
为实现上述目的,本发明的一种基于演化博弈的多智能体编队的分层模型预测控制方法,包括如下步骤:
步骤1,建立多智能体系统,所述多智能体系统中,某个智能体l指定为leader智能体,其余智能体作为它的follower智能体;所述leader智能体为所有智能体规划一个整体的移动路线,作为其邻居的空间参考;所述follower智能体通过与其邻居智能体保持固定的相对位置来实现编队;所述leader智能体中设有局部模型预测控制器;每个follower智能体中均设有D3SD预测模型;
步骤2,将leader智能体当前的状态数据传递给所述局部模型预测控制器,得到当前时刻最优控制输入量和预测的下一时刻的状态;其中,所述局部模型预测控制器通过模型预测控制算法为leader智能体构建优化问题,所述优化问题是最终目标状态已知情况下,使下一时刻目标状态下对应的当前时刻的控制输入量最小,获得当前时刻最优控制输入量;
将当前时刻最优控制输入量输入leader智能体的局部模型预测控制器,得到下一时刻leader智能体的位置;将预测的下一时刻的状态传递给邻居follower智能体;
根据演化博弈的性质为每个follower智能体构建预测模型,记为D3SD预测模型;
每个follower智能体以当前状态作为输入量,通过D3SD预测模型对自身follower智能体进行局部优化,使下一时刻状态与其邻居状态形成一个编队,得到最优控制输入;
步骤3,根据得到的各个智能体的最优控制输入对所述的多智能体进行编队优化。
其中,每个follower智能体中还包括局部控制器,所述步骤2中,通过D3SD预测模型对自身follower智能体进行局部优化的方式为:
首先根据当前的状态通过D3SD预测模型预测自己下一时刻的状态,然后将其传递给邻居的局部控制器,并且接收邻居的预测数据,通过求解局部优化问题得到自己的最优控制输入。
其中,所述步骤2中,为leader智能体构建的优化问题为:
Figure BDA0003067341520000031
其中,ul和zl分别代表智能体l的控制输入和状态,Hl≥0为预测步长,Ql、Rl、Pl为权重系数;zl(k+p|k)为在k时刻预测的k+p时刻的状态,||·||为范数,||z||Q=zTQz;
所受到的状态方程约束为:
zl(k+p+1|k)=Alzl(k+p|k)+Blul(k+p|k)
其中,Al和Bl为系数矩阵;
避障约束为:
Figure BDA0003067341520000032
其中,
Figure BDA0003067341520000033
为障碍物的位置,
Figure BDA0003067341520000034
为所有障碍物的集合,R为定义的安全距离;状态和输入约束为:
Figure BDA0003067341520000049
其中,
Figure BDA00030673415200000410
为可允许的状态集合,
Figure BDA00030673415200000411
为可允许的控制输入集合;
通过求解为leader智能体构建的优化问题,得到最优控制输入
Figure BDA0003067341520000041
和预测的
Figure BDA0003067341520000042
其中,所述leader智能体所在的层次为strategy层,follower智能体所在的层次为tactical层。
其中,为follower智能体构建的局部优化问题为:
Figure BDA0003067341520000043
Figure BDA0003067341520000044
还受到避碰约束:
||xi-xj||≥R
求解所述局部优化问题,得到每个follower智能体的最优控制输入
Figure BDA0003067341520000045
其中,所述步骤2中,利用全局编队目标函数为每个follower智能体构建D3SD预测模型;
其中全局编队目标为:
Figure BDA0003067341520000046
其中,
Figure BDA0003067341520000047
为所有follower智能体的集合,
Figure BDA0003067341520000048
为智能体i的邻居集合,Qij为权重系数;
将全局编队问题转化成分布式密度依赖型演化博弈,用分布式密度依赖型Smith动力学来预测每个智能体的状态:
Figure BDA0003067341520000051
其中,fi是演化博弈中,参与者选择策略i的所对应的效益函数,σi为系数。
有益效果:
本发明采用leader-follower编队控制结构,首先为leader智能体设计一种具有避障功能的局部模型预测控制器,然后通过将全局编队控制问题转化成为演化博弈问题,构建了基于分布式密度依赖型演化博弈的预测模型,在此基础上为每个follower智能体设计一种兼具避碰和避障功能的局部控制器。实现了在受到通讯约束的情况下,每个智能体只需要获得局部的邻居信息就可以无碰撞地形成编队的目标,解决了传统集中式控制方法需要系统的全部信息,需要较强的计算能力和通信能力的问题,以及已有的leader-follower编队方法中,需要所有的follower智能体与leader智能体进行通讯的问题。
本发明对于时变的通信网络也同样适用。在提高了控制性能和安全性能的同时,降低了计算的复杂程度,减少了通信负担,解决了现有的部分编队控制算法不能处理具有通讯约束或时变通讯网络的问题。
本发明构建了基于分布式密度依赖型演化博弈的预测模型,在此基础上为每个follower智能体设计一种兼具避碰和避障功能的局部控制器,无需借助物理器械(摄像头、雷达等)辅助。
本发明在获取系统中各个智能体当前的状态数据后,为每个智能体构建了局部的控制算法,具有分布式控制的特点,适应于具有通讯约束和时变通信网络的多智能体编队系统。根据模型预测控制的思想,设计了滚动优化的方法,为leader智能体规划了一条能够躲避固定障碍物的路线;然后根据全局的最优化目标,利用D3SD算法设计了局部的预测模型,使得每个follower智能体能够预测其下一时刻的状态,经过信息交换后,为每个follower智能体构建了一个兼具避障和避碰功能的局部控制器。解决了传统集中式控制缺乏信息共享及需要与leader智能体进行通讯的问题。
附图说明
图1为现有的集中式控制方法的通讯结构图;
图2为本发明leader-follower结构中智能体的划分示意图;
图3为本发明智能体初始的通信拓扑图示意图;
图4为本发明基于演化博弈的多智能体编队的分层模型预测控制结构图;
图5无D3SD算法在全局通信下的仿真效果图;
图6为本发明所提出的D3SD算法下的仿真效果图;
图7为无D3SD的算法下的仿真结果图;
图8为本发明所提出的D3SD算法下智能体避碰效果图;
图9为本发明所提出的D3SD算法下各个智能体的控制输入效果图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
如图1所示,用于多智能体的集中式控制方法需要每个智能体之间都能进行通讯,而在实际生活中,由于通信范围有一定的距离要求,造成智能体只能与邻居进行信息交流,不满足集中式控制方法的要求;因此,为了解决现有的用于多智能体编队的控制算法不适用于时变通信网络以及无法避障和避碰的问题,本发明公开了一种基于演化博弈的多智能体编队的分层模型预测控制方法,包括建立多智能体系统以及基于演化博弈的多智能体编队的分层模型预测控制两个部分;
其中,第一部分,建立多智能体系统;包括如下子步骤:
步骤11,确定系统的通信拓扑图。
多智能体系统中,信息交互是保障多智能体编队安全、稳定控制的前提。leader-follower结构中智能体的划分示意图如图2所示,假设系统中有n≥0个智能体,各个智能体的通信距离为θ,即如果智能体i和智能体j的距离d=||xi-xj||<θ,那么智能体j就被称为智能体i的邻居,它们之间可以进行信息交流,所有智能体i的邻居集合用
Figure BDA0003067341520000071
表示。整个系统的通信结构用拓扑图
Figure BDA0003067341520000072
表示,其中
Figure BDA0003067341520000073
表示图
Figure BDA0003067341520000074
的节点集合,代表n个智能体;
Figure BDA0003067341520000075
为图
Figure BDA0003067341520000076
边的集合,图
Figure BDA0003067341520000077
边的权值矩阵为A=[aij],当
Figure BDA0003067341520000078
且智能体j能与智能体i通讯时,aij=1;若
Figure BDA0003067341520000079
则aij=0。
步骤12,系统架构的设计。
本发明智能体初始的通信拓扑图示意图如图3所示,在多智能体组成的系统中,将其中某个智能体l指定为leader,其余智能体作为它的follower。leader智能体为所有智能体规划一个整体的移动路线,作为其邻居的空间参考。而follower智能体通过与其邻居智能体保持固定的相对位置来实现编队。
第二部分,基于演化博弈的多智能体编队的分层模型预测控制,本发明基于演化博弈的多智能体编队的分层模型预测控制结构图如图4所示,该控制方法分为两层:针对leader智能体的strategy层和针对follower智能体的tactical层。在strategy层,通过将leader智能体当前的状态数据传递给局部模型预测控制器,得到最优的控制输入
Figure BDA00030673415200000710
和预测的下一时刻的状态
Figure BDA00030673415200000711
然后将预测的状态
Figure BDA00030673415200000712
传递给它在tactical层的邻居follower智能体;在tactical层,每个follower智能体首先根据当前的状态通过D3SD预测模型预测自己下一时刻的状态,然后将其传递给邻居的局部控制器,并且接收邻居的预测数据,通过求解局部优化问题得到自己的最优控制输入。其具体步骤为:
步骤21,针对leader智能体的局部模型预测控制器(strategy层):
S10、采用leader-follower编队控制方法,确定每个智能体的邻居,获取各个智能体的实时状态数据以及期望数据;所述实时状态数据包括智能体当前的状态和速度,所述期望数据包括leader智能体的目标位置以及形成编队时,各个智能体之间的相对位置。
其中,确定leader智能体l的目标点
Figure BDA0003067341520000081
以及leader智能体的邻居集合
Figure BDA0003067341520000082
采集leader智能体在k时刻的状态
Figure BDA0003067341520000083
其中,xl表示leader智能体的位置,vl表示leader智能体的速度;
S11、通过各个智能体当前的状态,利用模型预测控制算法为leader智能体构建以当前状态为输入量、各个智能体的控制力为输出的编队优化模型。Leader智能体的控制目标为:
Figure BDA0003067341520000084
在不考虑避碰条件的情况下,为leader智能体建立MPC优化问题:
Figure BDA0003067341520000085
其中,ul和zl分别代表智能体l的控制输入和状态,Hl为预测步长,Ql、Rl、Pl为权重系数。zl(k+p|k)为在k时刻预测的k+p时刻的状态,||·||为范数,||z||Q=zTQz。
Figure BDA0003067341520000086
表示阶段成本函数,
Figure BDA0003067341520000087
表示终端成本函数。
S12、leader智能体所受到的约束:
对于任意p∈[0,Hl-1],leader智能体在k时刻预测的k时刻的值,为此时的实际状态:
zl(k|k)=zl(k)
所受到的状态方程约束为:
zl(k+p+1|k)=Alzl(k+p|k)+Blul(k+p|k)
其中,Al和Bl为系数矩阵。
leader智能体在移动过程中,应当避免和障碍物发生碰撞,即与障碍物保持一个相对安全的距离:
Figure BDA0003067341520000091
其中,
Figure BDA0003067341520000092
为障碍障碍物的位置,
Figure BDA0003067341520000093
为所有障碍物的集合,R为设定的安全距离。
leader智能体在移动过程中,其状态应在规定的范围内(即在指定的范围内移动,其速度不能超过最大速度以及不低于最小速度),控制输入不能超过调节能力的上下限:
Figure BDA00030673415200000913
其中,
Figure BDA0003067341520000094
为可允许的状态集合,z l
Figure BDA0003067341520000095
分别是leader智能体状态,
Figure BDA0003067341520000096
为可允许的控制输入集合,u l
Figure BDA0003067341520000097
分别是最小和最大的控制输入。
S13、如果S11和S12中所组成的优化问题可行,局部模型预测控制器会计算得到一个可以最小化成本函数Jl的最优控制序列
Figure BDA0003067341520000098
和相应的最优状态序列
Figure BDA0003067341520000099
在每个时刻,最优控制序列
Figure BDA00030673415200000910
的第一个元素
Figure BDA00030673415200000911
会作为控制行为应用到leader智能体上,而相应的
Figure BDA00030673415200000912
会作为预测值发送给leader智能体在tactical层的邻居。
步骤22,针对follower智能体的演化博弈控制器(tactical层):
S20、假设在形成编队之前,各个智能体之间不会发生碰撞,也并不会受到任何约束条件。此时,系统的全局控制目标是调节每个follower智能体与其相邻智能体之间保持一定的距离,并尽可能形成一个预先设计好的队形。即全局的优化问题为:
Figure BDA0003067341520000101
Qij为权重矩阵。特别的,如果j=l,
Figure BDA0003067341520000102
S21、在演化博弈中,每个参与者可以从策略集合
Figure BDA0003067341520000103
中选择某个策略来进行博弈,mi≥0代表选择策略si的智能体的数目,
Figure BDA0003067341520000104
表示参与者在策略集合
Figure BDA0003067341520000105
中的分布,种群中所有参与者的数目为m=m1+…+mn,表示种群的大小。定义ρi=mi/m,p=[ρ1,...,ρn]和π=ρ1+…+ρn分别为种群的状态和量,
Figure BDA0003067341520000106
表示所有可能的状态集合。fi(p)表示参与者选择策略i所带来的效益,种群中的效益函数为F(p)=[f1,...,fn]。
在演化博弈中,选择策略i的智能体按照一定的修正φij(F(p),p)可以转变为选择j策略,这一过程可以用分布式的平均动力学(Distributed mean dynamics)来描述:
Figure BDA0003067341520000107
其中
Figure BDA0003067341520000108
表示所有策略i可以转变的策略集合。
与分布式的平均动力学不同,分布式密度依赖演化博弈动力学(Distributeddensity-dependent dynamics)中包含了繁殖率γi
Figure BDA0003067341520000111
通常认为,种群的大小确定繁殖率,当种群中采取策略i的智能体的量增大时,γi应该减小。即γi应正比于效益函数fi,γi=δifii≥0。
如果选择修正协议φij(F(p),p)=[fj-fi]+,则得到了分布式密度依赖Smith动力学(Distributed density-dependent smith dynamics,D3SD)。
Figure BDA0003067341520000112
上式中,其均衡点p*被称为纳什均衡。当处于纳什均衡时,fj(p*)=fi(p*)。另外,由于所获得的效益不会再得到提高,参与者不会在不同策略之间进行转换,即γi=0,F(p)=0。
S22、由于S10中的全局函数J(x)是连续可微的,且最优解x*满足
Figure BDA0003067341520000113
假设所有智能体都位于一个正定可测量的坐标系中,那么就可以将编队控制问题转化成为分布式的密度依赖型演化博弈问题。即将
Figure BDA0003067341520000114
作为种群博弈中种群的状态,
Figure BDA0003067341520000115
为种群博弈中的策略集
Figure BDA0003067341520000116
Figure BDA0003067341520000117
作为效益函数。这样F(x)就转化成了分布式密度依赖型演化博弈,其势函数为J(x)。利用在分布式密度依赖性演化博弈中,每个参与者按照D3SD演化,可以达到其纳什均衡点这一性质,预测每个follower智能体在在下一时刻的位置
Figure BDA0003067341520000118
Figure BDA0003067341520000119
根据所预测的
Figure BDA00030673415200001110
由系统的动态方程求出
Figure BDA00030673415200001111
然后将预测值
Figure BDA0003067341520000121
发送给相应的邻居智能体。
步骤23,根据通信拓扑,智能体之间相互传递信息,为follower智能体建立局部最优化目标。
S30、每个follower智能体的目标为与其邻居智能体保持预期的相对位置,即局部最优化目标为:
Figure BDA0003067341520000122
Figure BDA0003067341520000123
S31、各个follower智能体受到的约束:
zi(k+1|k)=Aizi(k)+Biui(k)
Figure BDA0003067341520000124
Figure BDA0003067341520000125
其中,如果j=l,
Figure BDA0003067341520000126
如果
Figure BDA0003067341520000127
Figure BDA0003067341520000128
以上各个约束与S11中的约束含义相同。除这些约束外,每个follower智能体移动过程中,需要保证不与其他智能体发生碰撞,即每个智能体和其他智能体之间保持一个相对安全距离:
||xi-xj||≥R
S31、通过并行求解S23中的优化问题,每个follower智能体可以得到自己的最优控制输入
Figure BDA0003067341520000129
和相应的最优控制状态
Figure BDA00030673415200001210
步骤23,将各个智能体根据控制器计算得到的最优控制输入
Figure BDA00030673415200001211
应用到每个智能体中,在下一时刻(k+1时刻)重复以上步骤。
注意:为了实现分布式编队控制的目的,在每个时刻k要求系统的通信拓扑图
Figure BDA00030673415200001212
是连通的。
为了更好的展示本发明的有效性,将本发明中的基于演化博弈的多智能体编队的分层模型预测控制方法(为了下文方便,简称D3SD算法)的编队结果与其他两种控制方法相比:
1)全局通讯算法:假设智能体不受到通讯约束,每个follower智能体都能与leader智能体进行通讯。在k时刻,当leader智能体通过模型预测控制规划好的路线后,将
Figure BDA0003067341520000131
传递给每个follower智能体。然后follower与leader智能体保持期望的相对位置来形成编队,即通过求解以下的优化问题得到自己的最优控制输入:
Figure BDA0003067341520000132
Figure BDA0003067341520000133
zi(k+1|k)=Aizi(k)+Biui(k)
Figure BDA0003067341520000134
2)无D3SD算法:该算法的结构与本文提出的D3SD算法结构一致,不同点在于该算法中不通过D3SD来预测智能体的状态,而是利用k-1时刻的控制输入和系统的动态方程预测k+1时刻的状态。
图5中的三张图展示了在全局通信算法下,各个智能体的轨迹、与障碍物1的距离(distance)、与障碍物2的距离(distance);图6中的三张展示了无D3SD算法下各个智能体的轨迹、与障碍物1的距离(distance)以及与障碍物2的距离(distance)的仿真效果图。图7中的三张图展示了根据本发明所提出的D3SD算法得到的各个智能体的轨迹、与障碍物1的距离(distance)、与障碍物2的距离(distance)。三种算法均实现编队的目的。但是采用全局通信算法时,某些智能体与固定障碍物的距离小于安全距离R(图中的红色虚线),有可能发生碰撞;而本发明所提出的D3SD算法和作为对比的无D3SD算法能够有效地避开障碍物,并与两个障碍物保持安全距离。
为了定性的分析,将全局通信下的算法作为为基准算法,定义性能指标为:
Figure BDA0003067341520000141
其中Trun是仿真运行的时间。
Figure BDA0003067341520000142
从表中可以看出,D3SD算法的性能下降率为6.54%,无D3SD算法的性能下降率为11.8%。因此,与无D3SD算法相比,D3SD算法在没有牺牲太多性能的情况下实现了避障功能。
如图8所示,D3SD算法中任意两个智能体之间的相对距离总是大于安全距离R,而其他两种算法中,智能体之间的距离有小于安全距离的情况,可能会发生碰撞。对于其他的约束条件,图9描述了在D3SD算法下,每个智能体的实际输入都在两条红色虚线内,即满足输入约束。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于演化博弈的多智能体编队的分层模型预测控制方法,其特征在于,包括以下步骤:
步骤1,建立多智能体系统,所述多智能体系统中,某个智能体l指定为leader智能体,其余智能体作为它的follower智能体;所述leader智能体为所有智能体规划一个整体的移动路线,作为其邻居的空间参考;所述follower智能体通过与其邻居智能体保持固定的相对位置来实现编队;所述leader智能体中设有局部模型预测控制器;每个follower智能体中均设有D3SD预测模型;
步骤2,将leader智能体当前的状态数据传递给所述局部模型预测控制器,得到当前时刻最优控制输入量和预测的下一时刻的状态;其中,所述局部模型预测控制器通过模型预测控制算法为leader智能体构建优化问题,所述优化问题是最终目标状态已知情况下,使下一时刻目标状态下对应的当前时刻的控制输入量最小,获得当前时刻最优控制输入量;
将当前时刻最优控制输入量输入leader智能体的局部模型预测控制器,得到下一时刻leader智能体的位置;将预测的下一时刻的状态传递给邻居follower智能体;
根据演化博弈的性质为每个follower智能体构建预测模型,记为D3SD预测模型;
每个follower智能体以当前状态作为输入量,通过D3SD预测模型对自身follower智能体进行局部优化,使下一时刻状态与其邻居状态形成一个编队,得到最优控制输入;
步骤3,根据得到的各个智能体的最优控制输入对所述的多智能体进行编队优化。
2.根据权利要求1所述的方法,其特征在于,每个follower智能体中还包括局部控制器,所述步骤2中,通过D3SD预测模型对自身follower智能体进行局部优化的方式为:
首先根据当前的状态通过D3SD预测模型预测自己下一时刻的状态,然后将其传递给邻居的局部控制器,并且接收邻居的预测数据,通过求解局部优化问题得到自己的最优控制输入。
3.根据权利要求1所述的基于演化博弈的多智能体编队的分层模型预测控制方法,其特征在于,所述步骤2中,为leader智能体构建的优化问题为:
Figure FDA0003067341510000021
其中,ul和zl分别代表智能体l的控制输入和状态,Hl≥0为预测步长,Ql、Rl、Pl为权重系数;zl(k+p|k)为在k时刻预测的k+p时刻的状态,||·||为范数,||z||Q=zTQz;
所受到的状态方程约束为:
zl(k+p+1|k)=Alzl(k+p|k)+Blul(k+p|k)
其中,Al和Bl为系数矩阵;
避障约束为:
Figure FDA0003067341510000022
其中,
Figure FDA0003067341510000023
为障碍物的位置,
Figure FDA0003067341510000024
为所有障碍物的集合,R为定义的安全距离;
状态和输入约束为:
Figure FDA0003067341510000031
其中,
Figure FDA0003067341510000032
为可允许的状态集合,
Figure FDA0003067341510000033
为可允许的控制输入集合;
通过求解为leader智能体构建的优化问题,得到最优控制输入
Figure FDA0003067341510000034
和预测的
Figure FDA0003067341510000035
4.根据权利要求1任意一项所述的方法,其特征在于,所述leader智能体所在的层次为strategy层,follower智能体所在的层次为tactical层。
5.根据权利要求2所述的方法,其特征在于,为follower智能体构建的局部优化问题为:
Figure FDA0003067341510000036
Figure FDA0003067341510000037
还受到避碰约束:
||xi-xj||≥R
求解所述局部优化问题,得到每个follower智能体的最优控制输入
Figure FDA0003067341510000038
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述步骤2中,利用全局编队目标函数为每个follower智能体构建D3SD预测模型;
其中全局编队目标为:
Figure FDA0003067341510000039
其中,
Figure FDA0003067341510000041
为所有follower智能体的集合,
Figure FDA0003067341510000042
为智能体i的邻居集合,Qij为权重系数;
将全局编队问题转化成分布式密度依赖型演化博弈,用分布式密度依赖型Smith动力学来预测每个智能体的状态:
Figure FDA0003067341510000043
其中,fi是演化博弈中,参与者选择策略i的所对应的效益函数,σi为系数。
CN202110528859.XA 2021-05-14 2021-05-14 基于演化博弈的多智能体编队的分层模型预测控制方法 Active CN113359437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528859.XA CN113359437B (zh) 2021-05-14 2021-05-14 基于演化博弈的多智能体编队的分层模型预测控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528859.XA CN113359437B (zh) 2021-05-14 2021-05-14 基于演化博弈的多智能体编队的分层模型预测控制方法

Publications (2)

Publication Number Publication Date
CN113359437A true CN113359437A (zh) 2021-09-07
CN113359437B CN113359437B (zh) 2022-09-09

Family

ID=77526495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528859.XA Active CN113359437B (zh) 2021-05-14 2021-05-14 基于演化博弈的多智能体编队的分层模型预测控制方法

Country Status (1)

Country Link
CN (1) CN113359437B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113805587A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 多无人车分布式编队控制方法、装置和设备
CN114047758A (zh) * 2021-11-08 2022-02-15 南京云智控产业技术研究院有限公司 基于Q-learning的多移动机器人编队方法
CN114267168A (zh) * 2021-12-24 2022-04-01 北京航空航天大学 一种应用于城市快速路环境下的编队资源分配方法
CN114594689A (zh) * 2022-03-15 2022-06-07 北京理工大学 大规模集群系统的分布式递归编组及自主聚合控制方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984343A (zh) * 2014-05-15 2014-08-13 北京理工大学 一种多无人移动平台网络化协同控制方法
US20170139423A1 (en) * 2015-11-12 2017-05-18 King Fahd University Of Petroleum And Minerals Control system and method for multi-vehicle systems
CN106773689A (zh) * 2016-12-16 2017-05-31 西北工业大学 基于分层分布式模型预测控制的auv编队协同控制方法
CN109756946A (zh) * 2018-12-19 2019-05-14 北京交通大学 一种多智能体协同调控编队方法
CN109917811A (zh) * 2019-04-12 2019-06-21 中国人民解放军国防科技大学 一种无人机集群协同避障-重构处理方法
CN110058519A (zh) * 2019-04-02 2019-07-26 南京航空航天大学 一种基于快速自适应技术的主动编队容错控制方法
CN110488606A (zh) * 2019-07-25 2019-11-22 中北大学 一种多四旋翼主从式保性能神经自适应协同编队控制方法
CN110825092A (zh) * 2019-12-02 2020-02-21 电子科技大学 一种多智能体系统的编队控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984343A (zh) * 2014-05-15 2014-08-13 北京理工大学 一种多无人移动平台网络化协同控制方法
US20170139423A1 (en) * 2015-11-12 2017-05-18 King Fahd University Of Petroleum And Minerals Control system and method for multi-vehicle systems
CN106773689A (zh) * 2016-12-16 2017-05-31 西北工业大学 基于分层分布式模型预测控制的auv编队协同控制方法
CN109756946A (zh) * 2018-12-19 2019-05-14 北京交通大学 一种多智能体协同调控编队方法
CN110058519A (zh) * 2019-04-02 2019-07-26 南京航空航天大学 一种基于快速自适应技术的主动编队容错控制方法
CN109917811A (zh) * 2019-04-12 2019-06-21 中国人民解放军国防科技大学 一种无人机集群协同避障-重构处理方法
CN110488606A (zh) * 2019-07-25 2019-11-22 中北大学 一种多四旋翼主从式保性能神经自适应协同编队控制方法
CN110825092A (zh) * 2019-12-02 2020-02-21 电子科技大学 一种多智能体系统的编队控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张颖: "基于双模式模型预测控制算法的多智能体编队控制", 《上海海事大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113805587A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 多无人车分布式编队控制方法、装置和设备
CN113805587B (zh) * 2021-09-17 2023-08-15 中国人民解放军国防科技大学 多无人车分布式编队控制方法、装置和设备
CN114047758A (zh) * 2021-11-08 2022-02-15 南京云智控产业技术研究院有限公司 基于Q-learning的多移动机器人编队方法
CN114267168A (zh) * 2021-12-24 2022-04-01 北京航空航天大学 一种应用于城市快速路环境下的编队资源分配方法
CN114267168B (zh) * 2021-12-24 2023-03-21 北京航空航天大学 一种应用于城市快速路环境下的编队资源分配方法
CN114594689A (zh) * 2022-03-15 2022-06-07 北京理工大学 大规模集群系统的分布式递归编组及自主聚合控制方法
CN114594689B (zh) * 2022-03-15 2022-09-27 北京理工大学 大规模集群系统的分布式递归编组及自主聚合控制方法

Also Published As

Publication number Publication date
CN113359437B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN113359437B (zh) 基于演化博弈的多智能体编队的分层模型预测控制方法
Zhu et al. Multi-robot flocking control based on deep reinforcement learning
CN111552314B (zh) 多无人机自适应编队跟踪控制方法
US7343222B2 (en) System, method and apparatus for organizing groups of self-configurable mobile robotic agents in a multi-robotic system
Zhang et al. Collective behavior coordination with predictive mechanisms
CN113268078B (zh) 一种无人机群自适应环境的目标追踪围捕方法
Xu et al. Stigmergic independent reinforcement learning for multiagent collaboration
Khodaparast et al. Deep reinforcement learning based energy efficient multi-UAV data collection for IoT networks
Masadeh et al. Reinforcement learning-based security/safety UAV system for intrusion detection under dynamic and uncertain target movement
Liu et al. Swarm learning-based dynamic optimal management for traffic congestion in 6G-driven intelligent transportation system
Sui et al. Path planning of multiagent constrained formation through deep reinforcement learning
Senouci et al. Call admission control in cellular networks: a reinforcement learning solution
CN117236561A (zh) 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
CN116088396B (zh) 一种无人集群双层协同任务控制方法及系统
Bai et al. An improved PPO for multiple unmanned aerial vehicles
Xu et al. Bandwidth scheduling and optimization using non-cooperative game model-based shuffled frog leaping algorithm in a networked learning control system
Wang et al. Integration of software defined radios and software defined networking towards reinforcement learning enabled unmanned aerial vehicle networks
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法
Li et al. Joint Optimization on Trajectory, Computation and Communication resources in Information Freshness Sensitive MEC System
Habibi et al. Offering a demand-based charging method using the GBO algorithm and fuzzy logic in the WRSN for wireless power transfer by UAV
Yu et al. Inducing cooperation via team regret minimization based multi-agent deep reinforcement learning
CN112947554B (zh) 基于强化学习的多设备自适应监测方法
CN114488802B (zh) 组内决策一致多群组博弈的纳什均衡指定时间搜索方法
CN116736883B (zh) 一种无人飞行集群智能协同运动规划的方法
CN116996939A (zh) 一种基于边缘计算的车辆群智感知节点选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant