CN111983923B

CN111983923B - 一种受限多智能体系统编队控制方法、系统及设备

Info

Publication number: CN111983923B
Application number: CN202010693046.1A
Authority: CN
Inventors: 尉越; 奚乐乐; 王星博
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-12-23
Anticipated expiration: 2040-07-17
Also published as: CN111983923A

Abstract

本发明提出了一种受限多智能体系统编队控制方法、系统及设备，通过建立受限多智能体系统模型，该系统模型包括：多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型；根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型，计算得到各个智能体的满足预设编队条件的第一位置状态信息使用第一位置状态信息对各个智能体进行位置状态控制。本实施例所提供的方法充分利用多智能体系统的群体性优势，可分布式地动态求解优化问题的最优解，并可以光滑地控制受限多智能体系统完成编队任务，可扩展性强，具有很高的实用性。

Description

一种受限多智能体系统编队控制方法、系统及设备

技术领域

本发明涉及多智能体控制技术领域，尤其涉及一种受限多智能体系统编队控制方法、系统及设备。

背景技术

近年来，受限多智能体的分布式编队控制受到了广泛的关注。多智能体编队控制的研究大多是建立在对系统状态和各智能体输入没有限制的理想假设基础上的，但智能体的系统状态或输入通常被限制在某个集合内，而现有技术中的受限多智能体编队控制研究中，未能提出针对带有多个非光滑函数加和形式优化指标情况的光滑编队控制协议，因此无法解决带有多非光滑优化指标的受限多智能体系统的编队控制问题。

因此，现有技术有待于进一步的改进。

发明内容

鉴于现有技术的不足，本发明目的在于提供一种受限多智能体系统编队控制方法、系统及设备，克服现有技术中的受限多智能体编队控制技术中，针对带有多个非光滑优化指标的编队控制方法，还未有有效的解决方案的缺陷。

本发明的技术方案如下：

第一方面，本实施例提供了一种受限多智能体系统编队控制方法，其中，包括：

建立受限多智能体系统模型，其中，所述受限多智能体系统模型包括：多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型；所述多智能体系统拓扑模型中含有多个智能体对应的信息节点；

基于凸优化理论和多算子分割技术，计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子；

根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型，得到第一编队控制算法，并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息；

根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制。

可选的，所述非光滑优化指标中含有多个独立的非光滑凸函数；各个智能体对应的信息节点构成有向强连通图；且所述分布式资源分配优化模型至少有一个可行解。

可选的，所述多智能体系统由若干个一阶积分器模型的智能体组成，其运动学模型为:

其中,u_i(t)为t时刻的速度控制量，

是智能体i的位置状态；每个智能体i∈{1,…,n}有m+1个函数

包含在代价函数中，其中,f_i0是光滑凸函数，f_i ^j,j∈{1,…,n}是非光滑凸函数，其中的一个非光滑函数为智能体i的局部区域限制Ω_i的指示函数。

第二方面，一种受限多智能体系统编队控制方法，其中，包括：

根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型、所述分布式资源分配优化模型和引入用于评估分布式左特征向量的信息估计器，得到第二编队控制算法，并基于所述第二编队控制算法计算得到各个智能体的满足预设编队条件的第二位置状态信息；

根据计算得到的各个智能体满足的第二位置状态信息对各个智能体进行编队控制。

第三方面，本实施例提供了一种受限多智能体系统编队控制系统，其中，包括：

模型构建模块，用于建立受限多智能体系统模型，其中，所述受限多智能体系统模型包括：多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型；所述多智能体系统拓扑模型中含有多个智能体对应的信息节点；

多近端算子计算模块，用于基于凸优化理论和多算子分割技术，计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子；

位置计算模块，用于根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型，得到第一编队控制算法，并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息；

驱动控制模块，用于根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制。

第四方面，本实施例公开了一种受限多智能体系统编队控制装置，其中，包括：处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现所述的受限多智能体系统编队控制方法的步骤。

第五方面，本实施例公开了一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如所述的受限多智能体系统编队控制方法的步骤。

有益效果：本发明提出了一种受限多智能体系统编队控制方法、系统及设备，通过建立受限多智能体系统模型，该系统模型包括：多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型；根据分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子得到第一编队控制算法，并根据所述第一编队控制算法得到各个智能体的第一位置状态信息，使用第一位置状态信息对各个智能体进行位置状态控制。本实施例所提供的方法是一种分布式的多智能体系统编队控制方案，充分利用多智能体系统的群体性优势，可分布式地动态求解优化问题的最优解，并可以光滑地控制受限多智能体系统完成编队任务，可扩展性强，具有很高的实用性。

附图说明

图1是本发明所述一种受限多智能体系统编队控制方法的步骤流程图；

图2是本发明所述方法中多智能体系统的拓扑结构示意图；

图3是本发明所述方法中多智能体系统的方法原理示意图；

图4为第二编队控制算法驱动下整体多智能体系统随时间运动的运动轨迹图；

图5为多智能体系统等式约束编队条件

与

轨迹图；

图6为多智能体系统不等式约束编队条件B_ix_i-g_i,i∈{1,2,3,4}的x₁维度轨迹图；

图7为多智能体系统不等式约束编队条件B_ix_i-g_i,i∈{1,2,3,4}的x₂维度轨迹图；

图8为多智能体系统位置状态

的轨迹图；

图9为多智能体系统位置状态

的轨迹图；

图10为多智能体系统全局代价函数F(x)的变化轨迹图；

图11是本实施例受限多智能体系统的原理结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

在当代研究中，随着人类社会学和生物学研究的发展和指导，多智能体系统的分布式协同控制已经扩展到许多学科，解决了许多分布式任务，成为控制领域的一个研究热点。多智能体系统是指一组具有自组织能力的智能个体，它们可以相互协作完成一系列给定的群体任务。在多智能体系统的研究中，集群的概念来源于生物学的行为科学，如蚁群搬运、鸟群飞行、鱼群抵御捕食者等，多个个体之间的协同与合作将大大提高个体行为的智能化程度，更好地完成个体的行为许多个人无法完成的工作，具有效率高、可扩展性强、并行处理等优点。多智能体系统的分布式控制在过去的十年中得到了广泛的应用，包括分布式编队控制、分布式节点部署、无线传感器网络、机械臂协同作业、无人机编队、卫星编队、集群航天器深空探测等以及其他领域。

近年来，受限多智能体系统的分布式编队控制受到了广泛的关注。多智能体系统编队控制的研究大多是建立在对系统状态和各智能体输入没有限制的理想假设基础上的，但智能体的系统状态或输入通常被限制在某个集合内。在多无人机编队控制中，由于考虑到机体的安全性，无人机系统需要满足一定的限制条件，例如在无人机分布式编队搜救任务中，要保证机队避开危险区域；在实际的车辆驾驶中，速度和加速度通常受到饱和，在多智能车辆系统的编队控制中，不仅要保证队形的稳定性，还要始终保持多智能体系统的连通性，并且在一定的限度内形成足够的灵活性。由于现实中对系统模型或任务目标的需要，在设计分布式控制器时需要考虑许多约束条件，大大增加了设计难度。原有的控制器设计思想已不能满足这些控制系统的要求。因此，受限多智能体系统的分布式编队控制具有重要意义。同时在许多任务场景中，受限多智能体系统的分布式编队控制也要考虑相应的优化指标。不同性质约束的处理是受限多智能体系统分布式编队控制研究的关键问题。因此，具有指标优化任务的受限多智能体系统的分布式编队控制具有重要意义。

非光滑指标优化的分布式编队控制有两种重要的算法设计思路。第一种是基于非光滑分析设计非光滑算法。然而这种算法的不连续性可能导致系统状态突变从而影响实际物理系统的控制实现，此外非光滑算法的收敛性也很难分析。

综上所述，现有的带有指标优化的受限多智能体编队控制研究中，未能提出针对带有多个非光滑函数加和形式优化指标情况的光滑编队控制协议，没有涉及等式约束与不等式约束形式共存的编队条件，并且未充分考虑非平衡有向图情况下的控制协议设计，相关的稳定性理论欠缺。

针对现有技术中受限多智能体编队控制方法中未针对带有多个非光滑函数加和形式优化指标情况的编队控制方法，本实施例提供了一种带有多非光滑优化指标的受限多智能体系统光滑编队控制方法，本方法以多智能体系统为研究对象，系统拓扑结构选用有向图描述，节点动力学模型采用通用的一阶积分器方程描述。首先，针对实际的带有优化指标的多智能体系统编队控制问题，构造出一种全新的分布式资源分配编队控制问题模型。通过求解优化问题的最优解，以实现可以光滑地控制受限多智能体系统完成编队任务，本实施例可扩展性强，具有较高的实际应用价值。

示例性方法

第一方面，本实施例公开了一种受限多智能体系统编队控制方法，如图1所示，包括：

步骤S1、建立受限多智能体系统模型，其中，所述受限多智能体系统模型包括：多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型；所述多智能体系统拓扑模型中含有多个智能体对应的信息节点。

本步骤中，首先，针对多智能体系统的实际物理意义及节点间的信息交互方式建立受限多智能体系统模型。规定单个节点只能获得邻居的相关状态信息，由此建立基于邻居相关状态的多智能体系统模型。多智能体系统模型主要包括两部分，第一部分为多智能体系统拓扑模型，第二部分为多智能体系统动力学模型以及带有多非光滑优化指标的受限多智能体系统编队控制问题的分布式资源分配优化模型。

结合图2所示，多智能体系统拓扑模型中含多个智能体，各个智能体对应一个信息节点。

一个加权图

可以用

来表示，具体示例如图1，其中

是图中所含智能体表示的信息节点所组成的集合，ε表示图中节点之间所形成的通信边的集合。

是加权邻接矩阵，n为智能体节点个数。一条通信边e_ij∈ε意味着智能体i可以从智能体j处收到信息。如果通信边e_ij∈ε,那么a_ij>0，否则a_ij＝0。同时规定

为智能体编号的集合。智能体

表示智能体j是智能体i的邻居，

为智能体i邻居所组成的集合。智能体i的入度与出度分别表示为

与

图的拉普拉斯矩阵可以表示为

其中矩阵

是以智能体i∈{1,…,n}相关的

为对角线元素的对角矩阵。我们用‖·‖表示欧几里得范数，并且用

表示实数的集合。

表示所有正实数所组成的集合。矩阵

表示对角矩阵，其中第i个矩阵对角线元素是i∈{1,…,n}相对应的

矩阵I_n表示一个n维单位矩阵。向量

代表元素全为零的向量。矩阵O_n代表n维空矩阵，其中每一个O_n中的元素均为零。(·)^T代表矩阵的转置运算。假设图

是一个强连通有向图，其拉普拉斯矩阵为L_n，那么存在一个对应于拉普拉斯矩阵零特征值的正左特征向量h＝(h₁,h₂,…,h_n)^T使得

与

成立。同时有

其中向量

代表n维单位向量，

是有关H＝diag(h₁,h₂,…,h_n)的组合矩阵，υ是任意的n维向量，特征值λ₂(L)是其第二小特征值，x为智能体的位置状态。

在拓扑模型的基础上，本方案建立了多智能体系统动力学模型与带有多非光滑优化指标的受限多智能体系统编队控制问题的分布式资源分配优化模型。本发明研究的主旨是解决一类带有非光滑优化指标的受限多智能体系统编队控制问题，其中非光滑优化指标中含有多个独立的非光滑凸函数，除此之外，系统状态最终还要满足给定的有关群体任务的等式约束编队条件与不等式约束编队条件。由此引申出来的这类问题的代价函数为局部代价函数之和，其中每个局部代价函数是由一个二次可导的光滑凸函数与多个非光滑凸函数组成。虽然每个非光滑函数可以近端化，但其加和形式可能不可近端化，上述问题被总结为一个优化指标为单光滑加多非光滑函数的多智能体系统编队控制问题。在本问题中，所考虑的多智能体系统由n个一阶积分器模型的智能体组成，其运动学模型如下：

其中u_i(t)为t时刻的速度控制量，

是智能体i的位置状态，多智能体系统所构成的网络拓扑图为

每个智能体i∈{1,…,n}有m+1个函数

包含在代价函数中，其中f_i ⁰是光滑凸函数，f_i ^j,j∈{1,…,n}是非光滑凸函数，其中的一个非光滑函数为智能体i的局部区域限制Ω_i的指示函数。每个智能体只能得到关于自己代价函数的信息。本发明所考虑的受限多智能体系统编队控制问题的分布式资源分配模型为：

对于i∈{1,…,n}，其中

I_q是q×q维的单位矩阵，d_i是智能体i需要实现的等式约束编队条件要求的位置，B_i是q×q维实矩阵，g_i是q维实向量。状态

是第i个智能体的位置状态向量，并且

在本发明所研究的编队控制问题中，优化任务需要在等式约束编队条件

与不等式约束编队条件B_ix_i≤g_i,i∈{1,…,n}满足的基础上完成。为了多智能体系统编队控制问题(1)描述的准确性，这里给出了一些问题的假设。

假设1：对于智能体i∈{1,…,n}，f_i ⁰是二次连续可微函数并且强凸，这意味着存在一个常数c>0使得对于每个智能体i都有

其中

不失一般性，可以假设c>m-1。

假设2：对于所有i∈{1,…,n},j∈{1,…,m}而言，每个f_i ^j都是(非光滑)下半连续、紧的、适当凸函数，并且可以近端化。

假设3：加权拓扑图

是有向强连通图。

假设4：对于控制问题(1)总存在至少一个可行解。

步骤S2、基于凸优化理论和多算子分割技术，计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子。

所述多近端算子为多个非光滑代价函数的近端算子(proximal operator)，所述近端算子是使得非光滑代价函数取得最小化的算子。

针对多智能体系统编队控制问题(1)中所带有的多个非光滑优化指标，通过近端算子、凸优化与算子分割技术设计多近端算子框架，从而指导下一步骤的算法设计。

首先简要介绍近端算子的定义与相关性质。

给定一个f(δ)为下半连续的凸函数，其中

那么f(δ)在

处的近端算子prox_f[η]与Moreau包络分别为

与

Moreau包络M_f[η]是f(δ)在η处的一个本质光滑或正则化的形式:它是连续可微的，无论f(δ)是否连续可微。定义一个对于闭合凸集Ω的指示函数为I_Ω(δ)，当δ∈Ω时I_Ω(δ)＝0，其他情况I_Ω(δ)＝+∞。此时有

其中P_Ω[η]＝argmin_δ∈Ω‖δ-η‖是投影算子。这里让

代表f(δ)的次梯度。如果f(δ)是凸的，那么

即为单调的，也就是说对于所有

和

都有

δ＝prox_f[η]等同于

此外，根据不动点算法的性质可知‖prox_f(δ₁)-prox_f(δ₂)‖≤‖δ₁-δ₂‖。

这意味着prox_f(·)是一个非扩张算子，也就是说prox_f(·)是1-利普希茨连续的。

针对编队控制问题(1)，由凸优化理论可以推导出以下结论。

引理1：如果假设1到假设4成立，那么一个可行点

是控制问题(1)的一个可行解当且仅当存在

和

使得

Bx^*-g≤0_nq且(w^*)^T(Bx^*-g)＝0，其中j∈{1,…,m}，

且

B是以B_i为对角线元素的矩阵，g是以g_i为元素的向量。需要注意的是，本引理的证明是文献(Ruszczynski A P,Ruszczynski A.NonlinearOptimization[M].Princeton,NJ,USA:Princeton university press,2006.)中定理3.34证明的简单延展。之后为了处理因为

的不可近端化的性质所带来的困难，受到三算子分割法的启发，本发明提出了基于多近端算子的多算子分割技术。这里需要引入一组辅助变量

与一个参数

来估计

使得存在一组可行点

满足

且

根据近端算子的性质，由此可以知道控制问题(1)的最优解x^*的多近端算子为：

其中对于任意的

i∈{1,…,n},均有

从式(2)与式(3)来看，设计

的目的即为估计第j∈{1,…,m-1}个非光滑函数次梯度

中的次导数。

步骤S3、根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型，得到第一编队控制算法，并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息。

利用步骤S2中的多近端算子技术，在非平衡有向图中已知左特征向量h信息的情况下设计分布式光滑控制算法并证明所设计算法的有效性。值得注意的是，本技术方案提出的光滑编队控制协议也可以处理平衡有向图或无向图情况下的编队控制问题，因为在这些情况下

根据式(2)与式(3)所描述的多近端算子框架，本发明所提出的针对h信息已知情况下的带有多非光滑优化指标的受限多智能体系统编队控制算法如下：

其中t≥0,i∈{1,…,n}，0<α₁<1/(m-1)，v_1,i是智能体i的拉格朗日乘子。

j＝1,2，

是矩阵L_n和I_q的克朗内克积。τ≥max_{i∈{1,…,nq}}{|λ_i(B)|}，μ<[1-α₁(m-1)]/τ。

是对nq维非负实向量的投影算子。需要注意的是，控制算法(4)是一个完全分布式的主-对偶控制算法，基本思路是求解拉格朗日方程

的鞍点动力学，其中

j∈{0,1,…,m}。

设

是一个控制算法(4)的平衡点。

首先给出一个李雅普诺夫备选函数：

V(x,y,v₁,v₂,w)＝V₁(x,y,w)+V₂(x)+V₃(v₁,v₂)；

其中各项的表达式：

其中

根据控制算法(4)与引理1，在此可以得出以下结论：

定理1：若假设1到假设4均成立。对于含有n个一阶积分器模型智能体的多智能体系统，其控制算法为算法(4)。如果满足不等式

其中

那么x(t)随时间收敛并且

是控制问题(1)的一个最优解，即多智能体系统的状态x(t)会渐近收敛到编队条件满足的位置，并且是控制问题(1)中的非光滑优化指标的最优解。

证明：显然V₃(v₁,v₂)≥0。首先说明V₁(x,y,w)≥0。由于0<α₁<1/(m-1),因此有

其次说明V₂(x)≥0。由于f_i ⁰(x),i∈{1,…,n}的凸性，因此可以得到结论

由此可知V₂(x)≥0。综上所述，很明显V(x,y,v₁,v₂,w)是非负的且径向无界的，V(x,y,v₁,v₂,w)≥0，并且V(x,y,v₁,v₂,w)＝0当且仅当

之后需要说明的是

从控制算法(4)中可以得出对于j∈{1,…,m-1}有

由此可以得出：

另一方面，考虑控制算法(4)，可知李雅普诺夫备选函数V(x,y,v₁,v₂)导数的轨迹满足

根据假设1可知，存在一个b₂>0使得

因此可以得出结论

其中

总存在

这说明可以保证总有b₁>0以及b₃>0。

根据上述分析并使用不等式

式(10)可以转化为

其中，

∈₄＝α₂α₃λ₂(L_nq)-(α₃+1)²，∈₅＝1/4，∈₆＝(α₃+1)(1-μτ)。

此外因为V(x,y,v₁,v₂,w)是正的、径向无界且有下界，由此可知

是李雅普诺夫稳定的。从不变集原理可以看出(x(t),y(t),v₁(t),v₂(t),w(t))会收敛到

中的最大不变集中。因为

是控制算法(4)的一个平衡点，那么根据近端算子的性质可以得到

因为

所以有

考虑v₂(0)＝0_nq，因此这里可以得到结论

这说明

之后可知w^*≥0_nq且

如果w^*＝0_nq，则有Bx^*-g<0_nq；如果w^*>0_nq，则有Bx^*-g＝0_nq，因此有Bx^*-g≤0_nq且(w^*)^T(Bx^*-g)＝0。

综上所述，可知x(t)随时间收敛并且

是控制问题(1)的一个最优解，即多智能体系统的状态x(t)会渐近收敛到编队条件满足的位置，并且是控制问题(1)中的非光滑优化指标的最优解。注意定理1中给出的不等式(6)为控制算法(4)的有效性提供了充分条件。虽然不等式中用到了如h^*与λ₂(L_nq)等全局信息，但可以用分布式算法事先估计。

步骤S4、根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制。

另一方面，由于左特征向量h是一个全局信息，很难由单独的智能体得到，因此本步骤中根据实施例所公开的控制算法，考虑非平衡有向图中未知左特征向量h信息的情况下，为算法引入分布式左特征向量h信息估计器，设计非平衡图下的自适应分布式光滑控制算法，并且利用针对集合收敛的积分输入-状态稳定理论证明所设计算法的有效性。

因此当左特征向量h未知的情况下，本实施例还提供了另一种受限多智能体系统编队控制方法，包括：

建立受限多智能体系统模型，其中，所述受限多智能体系统模型包括：多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型；所述多智能体系统拓扑模型中含有多个智能体对应的信息节点；该步骤的功能与步骤S1相同。

基于凸优化理论和多算子分割技术，计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子；该步骤的功能与步骤S2相同。

根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型、所述分布式资源分配优化模型和引入用于评估分布式左特征向量的信息估计器，得到第二编队控制算法，并基于所述第二编队控制算法计算得到各个智能体的满足预设编队条件的第二位置状态信息。

由于左特征向量h是一个全局信息，很难由单独的智能体得到。因此根据上述步骤S3中的第一编队控制算法，考虑非平衡有向图中未知左特征向量h信息的情况下，为算法引入分布式左特征向量h信息估计器，设计非平衡图下的自适应分布式光滑控制算法，并且利用针对集合收敛的积分输入-状态稳定理论证明所设计算法的有效性。类似于算法(4)，根据多近端算子框架与多智能体系统连通性理论，对于j＝1,…,m-1，本发明所提出的带有分布式h估计器的带有非光滑优化指标受限多智能体系统编队控制算法为

其中

是n维单位阵的第i行向量。t≥0,i∈{1,…,n}，0<α₁<1/(m-1)，v_1,i是智能体i的拉格朗日乘子；

j＝1,2，

是矩阵L_n和I_q的克朗内克积；τ≥max_{i∈{1,…,nq}}{|λ_i(B)|}，μ<[1-α₁(m-1)]/τ；

是对nq维非负实向量的投影算子。类似定理1，本技术方案在这里给出在控制算法(10)下多智能体系统收敛性的主要结论。

定理2：若假设1到假设4均成立。对于含有n个一阶积分器模型智能体的多智能体系统，其控制算法为算法(10)。如果满足不等式(6)，那么x(t)随时间收敛并且

证明：由于v₃的演化与系统中其他状态η＝col(x,y,v₁,v₂,w)是独立的，因此控制算法(10)驱动的多智能体系可以分成三部分，其表达式如下：

其中

首先仅考虑第一个子系统；

从定理1中可知(x(t),y(t),v₁(t),v₂(t),w(t))收敛于

中的最大不变集

之后考虑系统

其中

重新分析李雅普诺夫备选函数V(x,y,v₁,v₂,w)，可知

其中，

因为ρ(t)→0当t→∞，存在一个时刻T₀使得当t>T₀时，有

因此当t>T₀时有

当t＝T₀时，(x,y,v₁,v₂,w)有界。综上所述，可知V(x,y,v₁,v₂,w)是李雅普诺夫稳定的，因此根据拉萨尔不变集原理，系统

收敛于

上的最大不变集

其中每个点都是控制问题(1)的最优解。最后考虑完整系统(11)，显然

是一个系统(11)的紧零不变集，因此类似

的分析可知，每个

都是李雅普诺夫稳定的。之后可以定义一个对应集合

的积分输入-状态稳定李雅普诺夫备选函数

根据对应集合

的积分输入-状态稳定理论，可知系统(11)在t>T₀时对应集合

是零输出耗散的。又可知G₃是随时间指数收敛到零的，因此根据带有指数收敛输入的集合收敛积分输入-状态稳定理论，存在一个时间序列S_T使得其对应的状态序列

收敛到零，说明了x(t,G₃(t))会在t→∞处收敛到

其中所有点都是控制算法(10)的平衡点。如果

是控制算法(10)的一个平衡点，那么类似于定理1的证明，这里可以得出

从控制算法(10)中可知v₃的初始值为

因此可以得到

由此可知

因为

由此可知

其中

是

的第(i-1)q+i个分量上的元素。基于上述结果，再考虑式(12)，因此有

又因为v₂(0)＝0_nq，因此有

综上所述，可以得到结论

又有Bx^*-g≤0_nq且(w^*)^T(Bx^*-g)＝0，根据引理1可知x(t)随时间收敛并且

在定理2的证明中，控制算法(10)驱动的多智能体系统被分成了三部分。由于估计器v₃的估计误差，对应集合

的积分输入-状态稳定李雅普诺夫备选函数的值在T₀时刻之前可能会增加，但随后证明了李雅普诺夫备选函数在T₀之后会渐近收敛到零。由于第二个系统会渐近收敛到

因此一般性的输入-状态稳定理论在这里不适用。通过使用对应集合收敛的积分输入-状态稳定理论，证明了控制算法(10)可以使系统状态渐近收敛到

这为有指数收敛性质输入的渐近收敛系统稳定性分析提供了新思路。

本实施例提供了受限多智能体系统光滑编队控制方法，所述控制方法以多智能体系统为研究对象，系统拓扑结构选用有向图描述，节点动力学模型采用通用的一阶积分器方程描述。

结合图3所示，本方法主要包括以下内容：

首先，针对实际的带有优化指标的多智能体系统编队控制问题，构造出一种全新的分布式资源分配编队控制问题模型，完成了对多智能体系统编队控制与其所包含的资源分配问题的完整描述，体现了问题目标函数中含有多个非光滑独立函数的特点。

其次，本方法通过对优化指标中多个非光滑函数次梯度的估计，构造出一种全新的多近端算子，完成了对多个非光滑函数近端算子的解耦，保证了所提出的编队控制方案的光滑性。在此基础上，考虑到节点只能获得邻居相关状态信息，并且系统拓扑为有向图，针对系统拓扑为非平衡有向图的情况，基于多近端算子框架设计了一种已知系统拓扑连通矩阵零特征值的左特征向量前提下的分布式光滑控制方案。

最后，针对系统拓扑为非平衡有向图且左特征向量未知的情况，设计了一种包含系统拓扑连通矩阵零特征值的左特征向量分布式估计器的分布式自适应光滑编队控制方案。考虑到带有多非光滑优化指标的受限多智能体系统编队控制中的集合收敛问题，本发明提出了一套针对集合的积分输入-状态稳定理论，充分说明了本发明针对的受限多智能体系统在集合收敛情况下的积分输入-状态稳定理论的有效性，证明了本方案可以光滑地求解带有多非光滑优化指标的受限多智能体系统编队控制问题，使受限多智能体系统状态最终收敛到完成非光滑优化任务的位置，并且满足给定的等式约束与不等式约束编队条件。

该方案是一种分布式的多智能体系统编队控制方案，充分利用多智能体系统的群体性优势，可分布式地动态求解优化问题的最优解，并可以光滑地控制受限多智能体系统完成编队任务，可扩展性强，具有很高的实际应用价值。

下面给出了带有分布式h信息估计器的控制算法(10)下带有多非光滑优化指标的受限多智能体系统编队控制的相应仿真，验证了控制算法(10)的有效性。假设系统中含有四个模型为一阶积分器的多智能体，在二维平面内运动，考虑的受限多智能体系统编队控制问题具体形式为

min f(x)＝f⁰(x)+f¹(x)+f²(x)+f³(x)

＝‖x-m‖²+Ω(x)+‖x-p‖₁+‖Tx‖₁

其中

并且有

每个智能体i的局部代价函数f_i(x_i)由以下函数组成：

f_i ⁰(x_i)＝‖x_i-q_i‖²,

f_i ¹(x_i)＝‖x_i-p_i‖₁,

其中，

f_i ⁰(x_i),f_i ¹(x_i)与f_i ²(x_i)以及f_i ³(x_i)分别代表了光滑目标函数、锚点为p_i的l₁惩罚函数、代表时间/空间稀疏度的l₁惩罚函数，以及x_i∈Ω_i的指示函数。等式约束编队条件中的参数为d₁＝[5m,-1m]^T，d₂＝[-1m,1m]^T，d₃＝[-1m,-1m]^T，d₄＝[2m,2m]^T。代价函数f_i ⁰的导数，f_i ¹、f_i ²以及f_i ³的近端算子分别为：

其中

函数φ(x,y)为

有向图

的拉普拉斯矩阵为

并且智能体的初始位置设定为x₁(0)＝[-6m,5.5m]^T，x₂(0)＝[6m,5m]^T，x₃(0)＝[5m,-3.5m]^T与x₄(0)＝[-5m,-5m]^T。不等式约束编队条件的参数为

以及g₁＝[3.5,4.1]^T，g₂＝[3.2,4.5]^T，g₃＝[2.5,4.8]^T，g₄＝[3.4,3.5]^T。设拉格朗日乘子v_1,i,i∈{1,2,3,4}与辅助变量

v_2,i,w_i,i∈{1,2,3,4}初始值均为零。v_3,i,i∈{1,2,3,4}取值为

仿真步长为t_p＝0.1s，迭代步数为n＝700，运行时间为t＝30.00s。

第一编队控制算法(即公式(10))驱动下整体多智能体系统随时间运动的运动轨迹如图4所示，等式约束编队条件

和

的轨迹如图5所示，不等式约束编队条件B_ix_i-g_i,i∈{1,2,3,4}的轨迹如图6与图7所示，说明了多智能体系统位置状态最终会收敛满足编队条件

i∈{1,2,3,4}的位置。图8与图9给出了智能体位置状态

与

随时间运动的轨迹。图10显示了全局代价函数F(x)的变化轨线，说明局部代价函数之和在系统收敛点最小。从图4到图10中可以看出所有的智能体最终在达成编队条件的同时到达了优化任务最优点。

示例性设备

本实施例公开了一种受限多智能体系统编队控制系统，如图11所示，包括：

模型构建模块111，用于建立受限多智能体系统模型，其中，所述受限多智能体系统模型包括：多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型；所述多智能体系统拓扑模型中含有多个智能体对应的信息节点；其功能如步骤S1所述。

多近端算子计算模块112，用于基于凸优化理论和多算子分割技术，计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子；其功能如步骤S2所述。

位置计算模块113，用于根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型，得到第一编队控制算法，并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息；其功能如步骤S3所述。

驱动控制模块114，用于根据计算得到的各个智能体满足的第一位置信息对各个智能体进行编队控制，其功能如步骤S4所述。

进一步的，当未知左特征向量h信息的情况下，所述位置计算模块113，还可以用于根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型、所述分布式资源分配优化模型和引入用于评估分布式左特征向量的信息估计器，得到第二编队控制算法，并基于所述第二编队控制算法计算得到各个智能体的满足预设编队条件的第二位置状态信息；

所述驱动控制模块114，还可以根据计算得到的各个智能体满足的第二位置状态信息对各个智能体进行编队控制。

在上述方法的基础上，本实施例还公开了一种受限多智能体系统编队控制装置，包括处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现所述的受限多智能体系统编队控制方法的步骤。

具体的，所述一种受限多智能体系统编队控制装置包括至少一个处理器(processor)以及存储器(memory)，还可以包括显示屏、通信接口(CommunicationsInterface)和总线。其中，处理器、显示屏、存储器和通信接口可以通过总线完成相互间的通信。显示屏设置为显示初始设置模式中预设的用户引导界面。通信接口可以传输信息。处理器可以调用存储器中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器通过运行存储在存储器中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

本发明提出了一种建立受限多智能体系统编队控制方法、系统及设备，所述受限多智能体系统模型包括：多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型；所述多智能体系统拓扑模型中含有多个智能体对应的信息节点；基于凸优化理论和多算子分割技术，计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子；根据所述位置最优解的多近端算子，以及预设编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息；根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制。本实施例所提供的方法是一种分布式的多智能体系统编队控制方案，充分利用多智能体系统的群体性优势，可分布式地动态求解优化问题的最优解，并可以光滑地控制受限多智能体系统完成编队任务，可扩展性强，具有很高的实际应用价值。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种受限多智能体系统编队控制方法，其特征在于，包括：

根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制；

所述第一编队控制算法的表达式为：

其中，u(t)为t时刻的速度控制量,x(t)为多智能体系统的t时刻状态，t≥0,i∈{1,…,n}，0＜α₁＜1/(m-1)，m为非光滑函数个数；F^m是第m个非光滑函数，F^j是第j个非光滑函数,j∈{1,…,m-1}；v_1,i是智能体i的拉格朗日乘子,

v₂是辅助向量,

v₂(0)是v₂的初始值；对角矩阵

矩阵

是拉普拉斯矩阵L_n和单位矩阵I_q的克朗内克积；τ≥max_{i∈{1，…，nq}}{|λ_i(B)|}，μ＜[1-α₁(m-1)]/τ；

是对nq维非负实向量的投影算子；

是对y^*＝[y^1*,…,y^n*]的估计向量,y^j是向量y的第j个分量,

是辅助向量，

为等式约束编队条件中的所需要实现位置；λ_i(L_nq)是矩阵L_nq的第i大特征值，h_i为L_nq零特征值左特征向量的第i个分量，i∈{1，…，n}，h为L_nq零特征值的左特征向量；

其中,nq×nq维对角矩阵B＝diag[B₁,…,B_n]，

b₁、b₂和c均为多智能体系统所对应总代价函数的相关参数。

2.根据权利要求1所述的受限多智能体系统编队控制方法，其特征在于，所述非光滑优化指标中含有多个独立的非光滑凸函数；各个智能体对应的信息节点构成有向强连通图；且所述分布式资源分配优化模型至少有一个可行解。

3.根据权利要求2所述的受限多智能体系统编队控制方法，其特征在于，所述多智能体系统由若干个一阶积分器模型的智能体组成，其运动学模型为:

其中,u_i(t)为智能体i在t时刻的速度控制量，

是智能体i的位置状态；

是x_i对于时间的导数；每个智能体i∈{1,…,n}有m+1个函数f_i ⁰,f_i ¹,…,f_i ^m:

包含在代价函数中，其中,f_i ⁰是光滑凸函数，f_i ^j,j∈{1,…,n}是非光滑凸函数，其中的一个非光滑函数为智能体i的局部区域限制Ω_i的指示函数。

4.根据权利要求3所述的受限多智能体系统编队控制方法，其特征在于，所述多智能体系统的分布式资源分配模型为：

其中，F(x)是多智能体系统的总代价函数，系统对于i∈{1,…,n}，其中

I_q是q×q维的单位矩阵，d_i是智能体i满足等式约束编队条件要求的位置，B_i是q×q维实矩阵，g_i是q维实向量；

5.一种受限多智能体系统编队控制方法，其特征在于，包括：

根据计算得到的各个智能体满足的第二位置状态信息对各个智能体进行编队控制；

所述第二编队控制算法的表达式为：

其中，u(t)为t时刻的速度控制量,x(t)为多智能体系统的t时刻状态，t≥0,i∈{1,…,n}，0＜α₁＜1/(m-1)，m为非光滑函数个数；F^m是第m个非光滑函数，F^j是第j个非光滑函数,j∈{1,…,m-1}；

是智能体i对h的估计向量,

v₂是辅助向量,

v₂(0)是v₂的初始值；对角阵

是n维单位阵的第i行向量；v_1,i是智能体i的拉格朗日乘子；

矩阵

是拉普拉斯矩阵L_n和单位矩阵I_q的克朗内克积；矩阵

τ≥max_{i∈{1，…，nq}}{|λ_i(B)|}，μ＜[1-α₁(m-1)]/τ；

是对nq维非负实向量的投影算子；

是对y^*＝[y^1*,…,y^n*]的估计向量,y^j是向量y的第j个分量,

是辅助向量，

为等式约束编队条件中的所需要实现位置；λ_i(L_nq)是矩阵L_nq的第i大特征值，h_i为L_nq零特征值左特征向量的第i个分量，i∈{1,…,n}；

nq×nq维对角矩阵B＝diag[B₁,…,B_n]，

b1、b₂和c均为多智能体系统所对应总代价函数的相关参数。

6.一种受限多智能体系统编队控制系统，其特征在于，包括：

驱动控制模块，用于根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制；

所述第一编队控制算法的表达式为：

其中，u(t)为t时刻的速度控制量,x(t)为多智能体系统的t时刻状态，t≥0,i∈{1,…,n}，0＜α₁＜1/(m-1)，m为非光滑函数个数,F^m是第m个非光滑函数，F^j是第j个非光滑函数；

v₂是辅助向量,

v₃是辅助向量,

v₃(0)是v₃的初始值；对角阵

是n维单位阵的第i行向量；v_1,i是智能体i的拉格朗日乘子；

矩阵

是拉普拉斯矩阵L_n和单位矩阵I_q的克朗内克积；τ≥max_i∈{1,L,nq}{|λ_i(B)|}；

是对nq维非负实向量的投影算子；

是对y^*＝[y^1*,…,y^n*]的估计向量,y^j是向量y的第j个分量,

是辅助向量，

为等式约束编队条件中的所需要实现位置；λ_i(L_nq)是矩阵L_nq的第i大特征值，h_i为L_nq零特征值左特征向量的第i个分量，i∈{1,…,n}，μ＜[1-α₁(m-1)]/τ；

nq×nq维对角矩阵B＝diag[B₁,…,B_n]，

7.一种受限多智能体系统编队控制装置，其特征在于，包括：处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现上述权利要求1-5任一项所述的受限多智能体系统编队控制方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-5任一项所述的受限多智能体系统编队控制方法的步骤。