CN113359437A

CN113359437A - 基于演化博弈的多智能体编队的分层模型预测控制方法

Info

Publication number: CN113359437A
Application number: CN202110528859.XA
Authority: CN
Inventors: 戴荔; 周小婷; 孙中奇; 冉德超; 曹璐; 季明江; 夏元清; 翟弟华; 张金会; 崔冰; 刘坤; 闫莉萍; 邹伟东; 郭泽华
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-09-07
Anticipated expiration: 2041-05-14
Also published as: CN113359437B

Abstract

本发明提供了一种基于演化博弈的多智能体编队的分层模型预测控制方法，能够在受到通讯约束的情况下，每个智能体只需要获得局部的邻居信息就可以无碰撞地形成编队的目标，并且该发明对于时变的通信网络也同样适用。在提高了控制性能和安全性能的同时，降低了计算的复杂程度，减少了通信负担。实现了在受到通讯约束的情况下，每个智能体只需要获得局部的邻居信息就可以无碰撞地形成编队的目标，解决了传统集中式控制方法需要系统的全部信息，需要较强的计算能力和通信能力的问题，以及已有的leader‑follower编队方法中，需要所有的follower智能体与leader智能体进行通讯的问题。

Description

基于演化博弈的多智能体编队的分层模型预测控制方法

技术领域

本发明属于多智能体编队控制技术领域，具体涉及一种基于演化博弈的多智能体编队的分层模型预测控制方法。

背景技术

群体行为是自然界中普遍存在的现象，如鸟群的编队迁徙，鱼群的结队巡游，蚁群的协同工作以及细菌的聚集而生等等，这种集体合作能够使生物群体在觅食生存、逃避天敌等方面有着单个个体难以实现的优势，有利于完成复杂的、具有一定目的或功能性的活动。多智能体控制是人们效仿自然界群体行为提出来的，其中编队控制是当前多智能体领域研究的热点。编队控制要求通过设计合适的控制协议，使多个移动的智能体同时运动到期望的目标点，并在运动过程中保持给定的几何图形。编队控制的应用前景广泛，如军事侦查、安全巡逻、搜索救援等领域。

传统的集中式编队控制方法需要系统的全部信息和较大的通信能力、计算能力，动态性能和实时性能较差。而分布式控制为每个智能体设计一个局部的控制器，并在一定程度上考虑了全局控制目标，因而只需要借助局部的邻居信息就能够实现群体的行为，从而解决全局性的任务。在减少计算量和通信量的同时，提高了系统的灵活性和对环境的适应性。在实际应用中，一方面为了安全考虑，编队控制应该保证智能体具有避障和避碰的功能；另一方面，由于智能体的通讯范围有限，使得智能体在移动过程中系统的通信拓扑会发生改变，所以编队控制还应该考虑时变的通信拓扑。目前，现有技术中还没有分布式的兼具避碰和避障功能的，并且能应用于时变系统的编队控制方法。

发明内容

有鉴于此，本发明提供了一种基于演化博弈的多智能体编队的分层模型预测控制方法，能够在受到通讯约束的情况下，每个智能体只需要获得局部的邻居信息就可以无碰撞地形成编队的目标，并且该发明对于时变的通信网络也同样适用。在提高了控制性能和安全性能的同时，降低了计算的复杂程度，减少了通信负担。

为实现上述目的，本发明的一种基于演化博弈的多智能体编队的分层模型预测控制方法，包括如下步骤：

步骤1，建立多智能体系统，所述多智能体系统中，某个智能体l指定为leader智能体，其余智能体作为它的follower智能体；所述leader智能体为所有智能体规划一个整体的移动路线，作为其邻居的空间参考；所述follower智能体通过与其邻居智能体保持固定的相对位置来实现编队；所述leader智能体中设有局部模型预测控制器；每个follower智能体中均设有D3SD预测模型；

步骤2，将leader智能体当前的状态数据传递给所述局部模型预测控制器，得到当前时刻最优控制输入量和预测的下一时刻的状态；其中，所述局部模型预测控制器通过模型预测控制算法为leader智能体构建优化问题，所述优化问题是最终目标状态已知情况下，使下一时刻目标状态下对应的当前时刻的控制输入量最小，获得当前时刻最优控制输入量；

将当前时刻最优控制输入量输入leader智能体的局部模型预测控制器，得到下一时刻leader智能体的位置；将预测的下一时刻的状态传递给邻居follower智能体；

根据演化博弈的性质为每个follower智能体构建预测模型，记为D3SD预测模型；

每个follower智能体以当前状态作为输入量，通过D3SD预测模型对自身follower智能体进行局部优化，使下一时刻状态与其邻居状态形成一个编队，得到最优控制输入；

步骤3，根据得到的各个智能体的最优控制输入对所述的多智能体进行编队优化。

其中，每个follower智能体中还包括局部控制器，所述步骤2中，通过D3SD预测模型对自身follower智能体进行局部优化的方式为：

首先根据当前的状态通过D3SD预测模型预测自己下一时刻的状态，然后将其传递给邻居的局部控制器，并且接收邻居的预测数据，通过求解局部优化问题得到自己的最优控制输入。

其中，所述步骤2中，为leader智能体构建的优化问题为：

其中，u_l和z_l分别代表智能体l的控制输入和状态，H_l≥0为预测步长，Q_l、R_l、P_l为权重系数；z_l(k+p|k)为在k时刻预测的k+p时刻的状态，||·||为范数，||z||_Q＝z^TQz；

所受到的状态方程约束为：

z_l(k+p+1|k)＝A_lz_l(k+p|k)+B_lu_l(k+p|k)

其中，A_l和B_l为系数矩阵；

避障约束为：

其中，

为障碍物的位置，

为所有障碍物的集合，R为定义的安全距离；状态和输入约束为：

其中，

为可允许的状态集合，

为可允许的控制输入集合；

通过求解为leader智能体构建的优化问题，得到最优控制输入

和预测的

其中，所述leader智能体所在的层次为strategy层，follower智能体所在的层次为tactical层。

其中，为follower智能体构建的局部优化问题为：

还受到避碰约束：

||x_i-x_j||≥R

求解所述局部优化问题，得到每个follower智能体的最优控制输入

其中，所述步骤2中，利用全局编队目标函数为每个follower智能体构建D3SD预测模型；

其中全局编队目标为：

其中，

为所有follower智能体的集合，

为智能体i的邻居集合，Q_ij为权重系数；

将全局编队问题转化成分布式密度依赖型演化博弈，用分布式密度依赖型Smith动力学来预测每个智能体的状态：

其中，f_i是演化博弈中，参与者选择策略i的所对应的效益函数，σ_i为系数。

有益效果：

本发明采用leader-follower编队控制结构，首先为leader智能体设计一种具有避障功能的局部模型预测控制器，然后通过将全局编队控制问题转化成为演化博弈问题，构建了基于分布式密度依赖型演化博弈的预测模型，在此基础上为每个follower智能体设计一种兼具避碰和避障功能的局部控制器。实现了在受到通讯约束的情况下，每个智能体只需要获得局部的邻居信息就可以无碰撞地形成编队的目标，解决了传统集中式控制方法需要系统的全部信息，需要较强的计算能力和通信能力的问题，以及已有的leader-follower编队方法中，需要所有的follower智能体与leader智能体进行通讯的问题。

本发明对于时变的通信网络也同样适用。在提高了控制性能和安全性能的同时，降低了计算的复杂程度，减少了通信负担，解决了现有的部分编队控制算法不能处理具有通讯约束或时变通讯网络的问题。

本发明构建了基于分布式密度依赖型演化博弈的预测模型，在此基础上为每个follower智能体设计一种兼具避碰和避障功能的局部控制器，无需借助物理器械(摄像头、雷达等)辅助。

本发明在获取系统中各个智能体当前的状态数据后，为每个智能体构建了局部的控制算法，具有分布式控制的特点，适应于具有通讯约束和时变通信网络的多智能体编队系统。根据模型预测控制的思想，设计了滚动优化的方法，为leader智能体规划了一条能够躲避固定障碍物的路线；然后根据全局的最优化目标，利用D3SD算法设计了局部的预测模型，使得每个follower智能体能够预测其下一时刻的状态，经过信息交换后，为每个follower智能体构建了一个兼具避障和避碰功能的局部控制器。解决了传统集中式控制缺乏信息共享及需要与leader智能体进行通讯的问题。

附图说明

图1为现有的集中式控制方法的通讯结构图；

图2为本发明leader-follower结构中智能体的划分示意图；

图3为本发明智能体初始的通信拓扑图示意图；

图4为本发明基于演化博弈的多智能体编队的分层模型预测控制结构图；

图5无D3SD算法在全局通信下的仿真效果图；

图6为本发明所提出的D3SD算法下的仿真效果图；

图7为无D3SD的算法下的仿真结果图；

图8为本发明所提出的D3SD算法下智能体避碰效果图；

图9为本发明所提出的D3SD算法下各个智能体的控制输入效果图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

如图1所示，用于多智能体的集中式控制方法需要每个智能体之间都能进行通讯，而在实际生活中，由于通信范围有一定的距离要求，造成智能体只能与邻居进行信息交流，不满足集中式控制方法的要求；因此，为了解决现有的用于多智能体编队的控制算法不适用于时变通信网络以及无法避障和避碰的问题，本发明公开了一种基于演化博弈的多智能体编队的分层模型预测控制方法，包括建立多智能体系统以及基于演化博弈的多智能体编队的分层模型预测控制两个部分；

其中，第一部分，建立多智能体系统；包括如下子步骤：

步骤11，确定系统的通信拓扑图。

多智能体系统中，信息交互是保障多智能体编队安全、稳定控制的前提。leader-follower结构中智能体的划分示意图如图2所示，假设系统中有n≥0个智能体，各个智能体的通信距离为θ，即如果智能体i和智能体j的距离d＝||x_i-x_j||＜θ，那么智能体j就被称为智能体i的邻居，它们之间可以进行信息交流，所有智能体i的邻居集合用

表示。整个系统的通信结构用拓扑图

表示，其中

表示图

的节点集合，代表n个智能体；

为图

边的集合，图

边的权值矩阵为A＝[a_ij]，当

且智能体j能与智能体i通讯时，a_ij＝1；若

则a_ij＝0。

步骤12，系统架构的设计。

本发明智能体初始的通信拓扑图示意图如图3所示，在多智能体组成的系统中，将其中某个智能体l指定为leader，其余智能体作为它的follower。leader智能体为所有智能体规划一个整体的移动路线，作为其邻居的空间参考。而follower智能体通过与其邻居智能体保持固定的相对位置来实现编队。

第二部分，基于演化博弈的多智能体编队的分层模型预测控制，本发明基于演化博弈的多智能体编队的分层模型预测控制结构图如图4所示，该控制方法分为两层：针对leader智能体的strategy层和针对follower智能体的tactical层。在strategy层，通过将leader智能体当前的状态数据传递给局部模型预测控制器，得到最优的控制输入

和预测的下一时刻的状态

然后将预测的状态

传递给它在tactical层的邻居follower智能体；在tactical层，每个follower智能体首先根据当前的状态通过D3SD预测模型预测自己下一时刻的状态，然后将其传递给邻居的局部控制器，并且接收邻居的预测数据，通过求解局部优化问题得到自己的最优控制输入。其具体步骤为：

步骤21，针对leader智能体的局部模型预测控制器(strategy层)：

S10、采用leader-follower编队控制方法，确定每个智能体的邻居，获取各个智能体的实时状态数据以及期望数据；所述实时状态数据包括智能体当前的状态和速度，所述期望数据包括leader智能体的目标位置以及形成编队时，各个智能体之间的相对位置。

其中，确定leader智能体l的目标点

以及leader智能体的邻居集合

采集leader智能体在k时刻的状态

其中，x_l表示leader智能体的位置，v_l表示leader智能体的速度；

S11、通过各个智能体当前的状态，利用模型预测控制算法为leader智能体构建以当前状态为输入量、各个智能体的控制力为输出的编队优化模型。Leader智能体的控制目标为：

在不考虑避碰条件的情况下，为leader智能体建立MPC优化问题：

其中，u_l和z_l分别代表智能体l的控制输入和状态，H_l为预测步长，Q_l、R_l、P_l为权重系数。z_l(k+p|k)为在k时刻预测的k+p时刻的状态，||·||为范数，||z||_Q＝z^TQz。

表示阶段成本函数，

表示终端成本函数。

S12、leader智能体所受到的约束：

对于任意p∈[0，H_l-1]，leader智能体在k时刻预测的k时刻的值，为此时的实际状态：

z_l(k|k)＝z_l(k)

所受到的状态方程约束为：

z_l(k+p+1|k)＝A_lz_l(k+p|k)+B_lu_l(k+p|k)

其中，A_l和B_l为系数矩阵。

leader智能体在移动过程中，应当避免和障碍物发生碰撞，即与障碍物保持一个相对安全的距离：

其中，

为障碍障碍物的位置，

为所有障碍物的集合，R为设定的安全距离。

leader智能体在移动过程中，其状态应在规定的范围内(即在指定的范围内移动，其速度不能超过最大速度以及不低于最小速度)，控制输入不能超过调节能力的上下限：

其中，

为可允许的状态集合，z _l和

分别是leader智能体状态，

为可允许的控制输入集合，u _l和

分别是最小和最大的控制输入。

S13、如果S11和S12中所组成的优化问题可行，局部模型预测控制器会计算得到一个可以最小化成本函数J_l的最优控制序列

和相应的最优状态序列

在每个时刻，最优控制序列

的第一个元素

会作为控制行为应用到leader智能体上，而相应的

会作为预测值发送给leader智能体在tactical层的邻居。

步骤22，针对follower智能体的演化博弈控制器(tactical层)：

S20、假设在形成编队之前，各个智能体之间不会发生碰撞，也并不会受到任何约束条件。此时，系统的全局控制目标是调节每个follower智能体与其相邻智能体之间保持一定的距离，并尽可能形成一个预先设计好的队形。即全局的优化问题为:

Q_ij为权重矩阵。特别的，如果j＝l，

S21、在演化博弈中，每个参与者可以从策略集合

中选择某个策略来进行博弈，m_i≥0代表选择策略s_i的智能体的数目，

表示参与者在策略集合

中的分布，种群中所有参与者的数目为m＝m₁+…+m_n，表示种群的大小。定义ρ_i＝m_i/m，p＝[ρ₁，...，ρ_n]和π＝ρ₁+…+ρ_n分别为种群的状态和量，

表示所有可能的状态集合。f_i(p)表示参与者选择策略i所带来的效益，种群中的效益函数为F(p)＝[f₁，...，f_n]。

在演化博弈中，选择策略i的智能体按照一定的修正φ_ij(F(p)，p)可以转变为选择j策略，这一过程可以用分布式的平均动力学(Distributed mean dynamics)来描述：

其中

表示所有策略i可以转变的策略集合。

与分布式的平均动力学不同，分布式密度依赖演化博弈动力学(Distributeddensity-dependent dynamics)中包含了繁殖率γ_i：

通常认为，种群的大小确定繁殖率，当种群中采取策略i的智能体的量增大时，γ_i应该减小。即γ_i应正比于效益函数f_i，γ_i＝δ_if_i,δ_i≥0。

如果选择修正协议φ_ij(F(p)，p)＝[f_j-f_i]₊，则得到了分布式密度依赖Smith动力学(Distributed density-dependent smith dynamics，D3SD)。

上式中，其均衡点p^*被称为纳什均衡。当处于纳什均衡时，f_j(p^*)＝f_i(p^*)。另外，由于所获得的效益不会再得到提高，参与者不会在不同策略之间进行转换，即γ_i＝0，F(p)＝0。

S22、由于S10中的全局函数J(x)是连续可微的，且最优解x^*满足

假设所有智能体都位于一个正定可测量的坐标系中，那么就可以将编队控制问题转化成为分布式的密度依赖型演化博弈问题。即将

作为种群博弈中种群的状态，

为种群博弈中的策略集

作为效益函数。这样F(x)就转化成了分布式密度依赖型演化博弈，其势函数为J(x)。利用在分布式密度依赖性演化博弈中，每个参与者按照D3SD演化，可以达到其纳什均衡点这一性质，预测每个follower智能体在在下一时刻的位置

根据所预测的

由系统的动态方程求出

然后将预测值

发送给相应的邻居智能体。

步骤23，根据通信拓扑，智能体之间相互传递信息，为follower智能体建立局部最优化目标。

S30、每个follower智能体的目标为与其邻居智能体保持预期的相对位置，即局部最优化目标为：

S31、各个follower智能体受到的约束：

z_i(k+1|k)＝A_iz_i(k)+B_iu_i(k)

其中，如果j＝l，

如果

以上各个约束与S11中的约束含义相同。除这些约束外，每个follower智能体移动过程中，需要保证不与其他智能体发生碰撞，即每个智能体和其他智能体之间保持一个相对安全距离：

||x_i-x_j||≥R

S31、通过并行求解S23中的优化问题，每个follower智能体可以得到自己的最优控制输入

和相应的最优控制状态

步骤23，将各个智能体根据控制器计算得到的最优控制输入

应用到每个智能体中，在下一时刻(k+1时刻)重复以上步骤。

注意：为了实现分布式编队控制的目的，在每个时刻k要求系统的通信拓扑图

是连通的。

为了更好的展示本发明的有效性，将本发明中的基于演化博弈的多智能体编队的分层模型预测控制方法(为了下文方便，简称D3SD算法)的编队结果与其他两种控制方法相比：

1)全局通讯算法：假设智能体不受到通讯约束，每个follower智能体都能与leader智能体进行通讯。在k时刻，当leader智能体通过模型预测控制规划好的路线后，将

传递给每个follower智能体。然后follower与leader智能体保持期望的相对位置来形成编队，即通过求解以下的优化问题得到自己的最优控制输入：

z_i(k+1|k)＝A_iz_i(k)+B_iu_i(k)

2)无D3SD算法：该算法的结构与本文提出的D3SD算法结构一致，不同点在于该算法中不通过D3SD来预测智能体的状态，而是利用k-1时刻的控制输入和系统的动态方程预测k+1时刻的状态。

图5中的三张图展示了在全局通信算法下，各个智能体的轨迹、与障碍物1的距离(distance)、与障碍物2的距离(distance)；图6中的三张展示了无D3SD算法下各个智能体的轨迹、与障碍物1的距离(distance)以及与障碍物2的距离(distance)的仿真效果图。图7中的三张图展示了根据本发明所提出的D3SD算法得到的各个智能体的轨迹、与障碍物1的距离(distance)、与障碍物2的距离(distance)。三种算法均实现编队的目的。但是采用全局通信算法时，某些智能体与固定障碍物的距离小于安全距离R(图中的红色虚线)，有可能发生碰撞；而本发明所提出的D3SD算法和作为对比的无D3SD算法能够有效地避开障碍物，并与两个障碍物保持安全距离。

为了定性的分析，将全局通信下的算法作为为基准算法，定义性能指标为：

其中T_run是仿真运行的时间。

从表中可以看出，D3SD算法的性能下降率为6.54％，无D3SD算法的性能下降率为11.8％。因此，与无D3SD算法相比，D3SD算法在没有牺牲太多性能的情况下实现了避障功能。

如图8所示，D3SD算法中任意两个智能体之间的相对距离总是大于安全距离R，而其他两种算法中，智能体之间的距离有小于安全距离的情况，可能会发生碰撞。对于其他的约束条件，图9描述了在D3SD算法下，每个智能体的实际输入都在两条红色虚线内，即满足输入约束。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。