CN113485344A

CN113485344A - 一种多智能体输出编队跟踪控制方法及系统

Info

Publication number: CN113485344A
Application number: CN202110800042.3A
Authority: CN
Inventors: 董希旺; 石宇; 于江龙; 化永朝; 李清东; 任章; 吕金虎
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-08
Anticipated expiration: 2041-07-15
Also published as: CN113485344B

Abstract

本发明涉及一种多智能体输出编队跟踪控制方法及系统，该方法首先基于局部通信信息，设计分布式编队轨迹生成器，实时生成异构智能体的期望编队轨迹；其次利用强化学习的原理，利用系统模型的输入输出数据，在线优化迭代得到稳定的最优反馈控制器；最后根据在线学习的结果，设计输出编队跟踪控制前馈补偿控制器，实现了编队跟踪控制。本发明大大节约了通信资源，降低了通信负担，同时无需利用跟随者智能体的任何模型信息，对环境适应性更好，并且跟踪控制精度高。

Description

一种多智能体输出编队跟踪控制方法及系统

技术领域

本发明涉及控制理论和无人系统装备技术领域，特别是涉及一种多智能体输出编队跟踪控制方法及系统。

背景技术

多智能体系统的编队控制是目前控制理论和无人系统装备领域研究热点，并在工程中被广泛应用，例如无人机、无人车、机器人协同测绘、侦查、货物运输，武器系统集群组合攻击等多种民用及军用场景。当集群系统数目较多时，传统的基于引导、跟踪、行为规划等集中式控制方案消耗通信资源多、通信负担重。

因此，亟需一种多智能体输出编队跟踪控制方法及系统，以节约通信资源，降低通信负担。

发明内容

本发明的目的是提供一种多智能体输出编队跟踪控制方法及系统，以节约通信资源，降低通信负担。

为实现上述目的，本发明提供了如下方案：

一种多智能体输出编队跟踪控制方法，包括：

建立多智能体系统的通信网络拓扑模型；

建立领导者智能体模型；

设计跟随者智能体的期望编队构型；

根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器；

利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹；

利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。

可选的，所述建立多智能体系统的通信网络拓扑模型，具体包括：

建立跟随者智能体与跟随者智能体之间的第一通信拓扑连通关系；

建立跟随者智能体与领导者智能体之间的第二通信拓扑连通关系；

根据所述第一通信拓扑连通关系和所述第二通信拓扑连通关系建立所述多智能体系统的通信网络拓扑模型。

可选的，所述领导者智能体模型表示为：

y₀(t)＝Rξ₀(t)

其中，

表示领导者智能体状态对时间的导数；ξ₀(t)表示领导者智能体状态；S表示领导者智能体系数矩阵；R表示领导者智能体输出矩阵；y₀(t)表示领导者智能体输出状态。

可选的，跟随者智能体的期望编队构型的具体表达式为：

其中，

表示第i个跟随者智能体的期望编队构型；

表示第i个跟随者智能体相对领导者智能体的状态偏移量；R表示领导者智能体输出矩阵。

可选的，所述分布式编队轨迹生成器的具体表达式为：

其中，

表示第i个分布式编队轨迹生成器状态的时间导数；S表示领导者智能体系数矩阵；ξ_i(t)表示第i个分布式编队轨迹生成器的状态；F表示常数增益矩阵；

表示第i个跟随者智能体的参考轨迹；j表示第j个跟随者智能体；N_i表示第i个跟随者智能体的邻居集合；

表示第i个跟随者智能体队形向量；g_i表示领导者智能体到第i个跟随者智能体的通信权值；w_ij表示第j个智能体到第i个智能体之间对应的通信权重；ξ₀(t)表示领导者智能体状态；v_i(t)表示轨迹生成补偿项；R表示领导者智能体输出矩阵。

可选的，所述利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹，具体包括：

利用强化学习算法设计最优反馈控制器；

根据所述最优反馈控制器的最优反馈控制增益，设计输出编队跟踪控制前馈补偿控制器；

根据所述最优反馈控制器和所述输出编队跟踪控制前馈补偿控制器获得所述编队轨迹跟踪控制器；

可选的，所述利用强化学习算法设计最优反馈控制器，具体包括：

设计强化学习算法的指标函数；

根据分布式编队轨迹生成器的生成状态和所述跟随者智能体的状态对所述指标函数进行参数化拟合，得到拟合后的指标函数；

初始化所述拟合后的指标函数、迭代控制器和迭代次数；

预定时间间隔采集加入数据激励控制器后的所述多智能体系统内的所有智能体状态和跟随者智能模型的控制输入量，得到采集数据；

当所述采集数据中未使用数据的个数达到预定值时，对所述迭代控制器进行迭代更新；

当当前迭代控制器与上一轮迭代更新得到的迭代控制器之间的差值小于误差允许阈值时，则迭代更新结束。

可选的，所述输出编队跟踪控制前馈补偿控制器的具体表达式为：

其中，z_ic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量；

表示第i个跟随者智能体模型的输入矩阵的平均值；

和

表示所述最优反馈控制器的最优反馈控制增益；S表示领导者智能体系数矩阵；

表示第i个跟随者智能体队形向量；

为第i个跟随者智能体队形向量的时间导数。

可选的，所述编队轨迹跟踪控制器的具体表达式为：

其中，

表示编队轨迹跟踪控制器的控制量；

和

表示所述最优反馈控制器的最优反馈控制增益；z_ic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量；R_i表示指标函数的可设计变量，用于控制增益大小；ξ_i(t)表示第i个分布式编队轨迹生成器的状态；x_i(t)表示第i个跟随者智能体的状态量；B_i表示第i个跟随者智能体的输入矩阵。

一种多智能体输出编队跟踪控制系统，包括：

网络模型建立模块，用于建立多智能体系统的通信网络拓扑模型；

领导者模型建立模块，用于建立领导者智能体模型；

编队构型设计模块，用于设计跟随者智能体的期望编队构型；

轨迹生成器设计模块，用于根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器；

参考轨迹生成模块，用于利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹；

跟踪模块，用于利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种多智能体输出编队跟踪控制方法及系统，通过基于分布式方法设计编队轨迹生成器，跟随者智能体间基于邻居信息进行通信，大大节约了通信资源，降低了通信负担。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种多智能体输出编队跟踪控制方法的流程图；

图2为本发明实施例1提供的一种多智能体输出编队跟踪控制方法中利用编队轨迹跟踪控制器使跟随者智能体的输出轨迹跟踪参考轨迹的方法流程图；

图3为本发明实施例2提供的一种多智能体输出编队跟踪控制系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

多智能体系统的编队控制是目前控制理论和无人系统装备领域研究热点。当集群系统数目较多时，传统的基于引导-跟踪、行为规划等集中式控制方案消耗通信资源多、通信负担重。

同时，现有的编队控制大多研究解决同构型智能体的编队控制问题。因此，为适应未来无人系统决策智能化、组织网络化、构型多元化的特点，需建立更具备智能性与通用体系特征的协同编队控制方法。

参阅图1，本发明提供了一种多智能体输出编队跟踪控制方法，包括：

S1：建立多智能体系统的通信网络拓扑模型；

为解决现有的编队控制大多研究同构型智能体的编队控制问题，本实施例的多智能体系统考虑包含1个领导者和N个跟随者的异构智能体集合。

因此，针对领导者智能体和跟随者智能体需要分别建立通信拓扑结构，即：

(1)建立跟随者智能体与跟随者智能体之间的第一通信拓扑连通关系；

各跟随者智能体之间的通信拓扑结构可以被数学化建模为一个图G＝{S,E,W}。其中S＝{s₁,s₂,…,s_N}代表所有跟随者智能体集合，集合中s_i代表第i个跟随者，下标i的取值可以为1到N之间的正整数。

从第i个跟随者智能体到第j个跟随者智能体之间的通信交互可以用e_ij＝(s_i,s_j)来表示，下标j的取值为1到N之间的正整数且j≠i。

令集合E＝{e_ij＝(s_i,s_j),s_i,s_j∈S}为智能体系统的边集。如果存在一个信道e_ij，则称跟随者智能体j为跟随者智能体i的邻居，并定义N_i＝{s_j∈S,(s_i,s_j)∈E}为智能体i的邻居集合。常数w_ij为跟随者智能体j到i之间对应的通信权重数值，当且仅当跟随者智能体j为跟随者智能体i的邻居时有w_ij＝1，否则w_ij＝0，并由此定义图G的邻接矩阵为维数N×N的矩阵，其中第i行第j列元素为w_ij，即数学表达式为W＝[w_ij]。

定义描述各节点入度矩阵为

描述跟随者智能体与跟随者智能体之间的第一通信拓扑连通关系的拉普拉斯矩阵被定义为L＝D-W。

(2)建立跟随者智能体与领导者智能体之间的第二通信拓扑连通关系；

领导者智能体和跟随者智能体之间存在的有向连接可以用对角矩阵L_C＝diag{g_i}表示，因此第二通信拓扑连通关系为L_C＝diag{g_i}，其中g_i为领导者智能体到第i个跟随者智能体的通信权值，如果领导者智能体到跟随者智能体i存在通信连接，则g_i＝1，否则g_i＝0。

(3)根据所述第一通信拓扑连通关系和所述第二通信拓扑连通关系建立所述多智能体系统的通信网络拓扑模型。

根据拉普拉斯矩阵L和对角矩阵L_C的特性，可以找到一个正定对角矩阵J，满足J(L+L_c)+(L+L_c)^TJ，使其为严格正定矩阵，并将其定义为通信网络拓扑模型。建立的通信网络拓扑模型需满足下面条件：跟随者智能体之间存在一个节点，使其到其他任意节点都具有一条有向路径连通，且领导者智能体到此节点有连接时，通信拓扑的结构符合后续分布式编队轨迹生成器的设计要求。

S2：建立领导者智能体模型；

所述领导者智能体模型表示为：

其中，

表示领导者智能体状态对时间的导数；维数p×1的向量ξ₀(t)表示领导者智能体状态；维数为p×p的矩阵S表示领导者智能体系数矩阵，用于设计领导者的不同运动模态；维数为q×p的矩阵R表示领导者智能体输出矩阵；维数为q×1的向量y₀(t)表示领导者智能体输出状态；

S3：设计跟随者智能体的期望编队构型；

利用向量

描述各跟随者智能体相对领导者智能体形成的期望状态编队构型，其中分段连续可微分函数

表示第i个跟随者智能体相对领导者智能体的状态偏移量，则跟随者智能体的期望编队构型的具体表达式为：

其中，

表示第i个跟随者智能体的期望编队构型；

S4：根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器；

分布式编队轨迹生成器的具体表达式为：

其中，

表示第i个分布式编队轨迹生成器状态的时间导数；S表示领导者智能体系数矩阵；ξ_i(t)表示第i个分布式编队轨迹生成器的状态；F表示常数增益矩阵，用于调整分布式编队轨迹生成器稳定性和响应特性，F＝-μM^-1，其中M为线性矩阵不等式S^TM+MS-(1-ε)I_p+αM＜0的解。正常数ε在0到1之间，正常数α取值范围为任意正实数，通过合适的选取可以使得矩阵不等式有解，并作为可调参数使得分布式编队轨迹生成器具有不同的响应；正常数μ满足μ…λ_max(J/λ_min(J(L+L_c)+(L+L_c)^TJ)，具体数值可以自行设计选取，作为分布式编队轨迹生成器的性能可调参数。另外，I_p表示维数为p的单位矩阵，λ_max(J)，λ_min(J(L+L_c)+(L+L_c)^TJ)分别表示矩阵最大特征值和最小特征值；

表示第i个跟随者智能体队形向量；g_i表示领导者智能体到第i个跟随者智能体的通信权值，如果领导者到智能体i存在通信连接则g_i＝1，否则g_i＝0；w_ij表示第j个智能体到第i个智能体之间对应的通信权重，当且仅当智能体j为智能体i的邻居时有w_ij＝1，否则w_ij＝0；ξ₀(t)表示领导者智能体状态；R表示领导者智能体输出矩阵；v_i(t)表示轨迹生成补偿项，v_i(t)满足下式的变量：

其中，

为第i个跟随者智能体队形向量

的时间导数。

需要说明的是，能够实现根据通信网络拓扑模型、领导者智能体模型和期望编队构型设计分布式编队轨迹生成器的其他实施方式也都在本发明的保护范围内。

S5：利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹，其中参考轨迹包括跟随者智能体的期望编队构型信息；

S6：利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。

作为一种可选的实施方式，利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹，如图2所示，具体包括：

S61：利用强化学习算法设计最优反馈控制器：

由于现有技术中控制器的设计过程需要所有智能体完整的动力学模型信息。对于异构系统的输出调节与控制问题要求完整模型信息以预先求解输出调节方程。考虑到实际系统广泛存在的模型不确定或建模复杂的情况，以上方法的应用会受到限制。对此，本实施例基于强化学习算法设计编队轨迹跟踪控制器，具体如下：

(1)设计强化学习算法的指标函数

其中，指标因子

设计为跟踪误差和跟随者控制输入的二次型形式；γ_i为的正常数并且其满足条件γ_i＞0和

在此处可作为设计参量，通过修改不同的取值获得不同的控制器响应性能；Q_i，R_i选用对称正定矩阵作为指标函数的可设计变量，分别用于指导并约束强化学习控制器误差收敛水平和控制增益大小。

(2)根据分布式编队轨迹生成器的生成状态和所述跟随者智能体的状态对所述指标函数进行参数化拟合，得到拟合后的指标函数；

将分布式编队轨迹生成器状态ξ_i(t)和跟随者智能体的状态x_i(t)记作增广向量θ_i(t)＝[ξ_i(t)^T,x_i(t)^T]^T，对指标函数进行参数化拟合，拟合后的指标函数表示为：

其中，P_i为维数(p+n_i)×(p+n_i)的实矩阵，S_i为维数(p+n_i)×1的实向量，T_i为实数，表示指标函数的参数。将P_i行、列分别按照维数p与n_i分块得到

(3)初始化拟合后的指标函数、迭代控制器和迭代次数；

根据(6)式给出的结构，选取初始参数矩阵为

根据(7)式的分块方法，初始迭代控制器表示为

预估反馈控制器增益矩阵记为K_i1和K_i2，且分别初始化为

初始化迭代次数k＝0。

(4)预定时间间隔采集加入数据激励控制器后的所述多智能体系统内的所有智能体状态和跟随者智能模型的控制输入量，得到采集数据；

任意选择一个稳定的数据激励控制器

加入多智能体系统中，其中K_i1 ⁰，K_i2 ⁰为任意使得跟随者智能体模型稳定的增益矩阵，维数分别为m_i×p和m_i×n_i。且n_i维的向量e选取为一组合适维数的随机频率高斯白噪声加权和，作为提升强化学习算法稳定性的探索噪声。对于加入了激励的系统，从0时刻开始，每间隔δt时间收集所有智能体状态和跟随者智能体模型的控制输入量，并将作为一组数据进行保存。

跟随者智能体模型表示为：

其中，x_i(t)为维数m_i×1的向量，表示跟随者智能体的状态量；

为维数m_i×1的向量，表示跟随者智能体的状态量的时间导数；u_i(t)为维数n_i×1的向量，表示控制输入量；y_i(t)为维数p×1的向量，表示控制输出量；x_i(t)、u_i(t)和y_i(t)作为后续强化学习的数据来源。A_i、B_i和C_i分别为维数m_i×m_i，m_i×n_i，p×m_i的实矩阵，分别表示跟随者智能体的系统矩阵、输入矩阵和输出矩阵。

需要说明的是，在本发明的异构智能体控制背景下，以上跟随者智能体与领导者智能体之间以及跟随者智能体相互之间的系统模型在维数和参数上均可以不相同。

另外，此处描述跟随者智能体的模型信息A_i，B_i，C_i仅作为算法适用对象的描述和说明，实际算法设计实施过程并不需要使用具体变量数值。

(5)当所述采集数据中未使用数据的个数达到预定值时，对所述迭代控制器进行迭代更新；

当采集数据中未使用数据的个数达到选定值κ时，执行一轮迭代更新；

第k轮迭代求解如(9)式方程，取迭代控制器为

利用最小二乘方法求解参数

的最佳拟合解，记录每组求解数据。

其中

意义表示第k轮得到的预估反馈控制器增益矩阵。

参数更新：将

按照式(7)的方法分块，写为分块矩阵形式，并得到迭代控制器更新形式为：

令k＝k+1，作为下一轮迭代中的已知量。

(6)当当前迭代控制器与上一轮迭代更新得到的迭代控制器之间的差值小于误差允许阈值时，则迭代更新结束；

选取误差允许阈值为一正常数ε，对同一组θ_i(t)，结合式(10)和保存数据，当有

时，终止迭代。得到

使其作为收敛后的最优反馈控制增益。

S62：根据所述最优反馈控制器的最优反馈控制增益，设计输出编队跟踪控制前馈补偿控制器；

基于S61步骤得到的最优反馈控制增益，继续计算

其中

表示输入矩阵B_i的估计值。选取矩阵满足

且

为满秩矩阵，验证并调整输出编队状态，使其满足如下的可行性条件：

设计输出编队跟踪控制前馈补偿控制器，具体表达式为：

表示第i个跟随者智能体模型的输入矩阵的平均值；

和

表示第i个跟随者智能体队形向量；

为第i个跟随者智能体队形向量的时间导数。

S63：根据所述最优反馈控制器和所述输出编队跟踪控制前馈补偿控制器获得所述编队轨迹跟踪控制器，编队轨迹跟踪控制器的具体表达式为：

其中，

表示编队轨迹跟踪控制器的控制量；

和

S64：利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。

利用编队轨迹跟踪控制器计算

实现异构智能体渐进稳定的编队跟踪控制。

本发明提供的多智能体输出编队跟踪控制方法是一种针对一般线性系统的基于强化学习原理的异构多智能体输出编队跟踪控制方法。首先基于局部通信信息，设计分布式编队轨迹生成器，实时生成异构智能体的期望编队轨迹；其次利用强化学习的原理，利用系统模型的输入输出数据，在线优化迭代得到稳定的最优反馈控制器；最后根据在线学习的结果，设计输出编队跟踪控制前馈补偿控制器，实现编队跟踪控制。本发明具有以下优点：

1、算法基于分布式方法设计编队轨迹生成器，跟随者智能体间基于邻居信息进行通信，大大节约了通信资源，降低了通信负担；

2、控制器设计过程基于强化学习算法，仅使用系统模型的输入输出数据进行控制器迭代学习，无需利用跟随者智能体的任何模型信息，对环境适应性更好。设计离轨策略下的数据收集学习，增强了学习过程的稳定性，实现了控制理论与人工智能技术的有机融合；

3、通过强化学习方法在线设计最优反馈控制器，适应异构的领导者和跟随者，提高了算法的适应性和自主智能性；

4、控制算法包含对领导者智能体状态、跟随者智能体自身状态的反馈控制，同时包含有对编队信息的前馈控制，实现了渐进稳定的无差编队跟踪，具有精度高的优点；

5、对于工程实际中广泛存在的动力学模型线性或可线性化的多智能体系统提供了智能自主的控制方法。

实施例2：

参阅图3，本发明提供了一种多智能体输出编队跟踪控制系统，包括：

网络模型建立模块M1，用于建立多智能体系统的通信网络拓扑模型；

领导者模型建立模块M2，用于建立领导者智能体模型；

编队构型设计模块M3，用于设计跟随者智能体的期望编队构型；

轨迹生成器设计模块M4，用于根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器；

参考轨迹生成模块M5，用于利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹；

跟踪模块M6，用于利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。

本说明书中每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。