CN113900380B

CN113900380B - 一种异构集群系统鲁棒输出编队跟踪控制方法及系统

Info

Publication number: CN113900380B
Application number: CN202111360794.9A
Authority: CN
Inventors: 董希旺; 石宇; 任章; 李清东; 化永朝; 于江龙; 吕金虎
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2023-02-28
Anticipated expiration: 2041-11-17
Also published as: CN113900380A

Abstract

本发明涉及一种异构集群系统鲁棒输出编队跟踪控制方法及系统，包括：基于分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数，并根据异构集群系统数据和在线数据学习算法，对强化学习算法指标函数进行参数化迭代拟合，进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数；基于跟随者期望状态编队构型、最优跟踪控制器和最优拟合后的强化学习算法指标函数，构建鲁棒编队控制器；基于鲁棒编队控制器和最优跟踪控制器，构建鲁棒编队跟踪控制器；本发明中的鲁棒编队跟踪控制器能够控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹，以实现异构渐进稳定的编队跟踪控制。

Description

一种异构集群系统鲁棒输出编队跟踪控制方法及系统

技术领域

本发明涉及集群系统编队控制技术领域，特别是涉及一种异构集群系统鲁棒输出编队跟踪控制方法及系统。

背景技术

集群系统作为从自然界集群现象中抽象出的数学模型，其协同与编队控制一直以来是目前控制理论、自动化技术以及无人系统装备领域研究的热点，并在无人机控制协同测绘、无人武器系统编队打击目标、工厂协同货物运输等场景中得到了广泛应用。传统的基于领从跟踪、虚拟结构、行为规划等的集中式控制方案具有通信负担重、安全鲁棒性较低等问题，故分布式控制技术具有重要价值。

同时现有的研究多聚焦在同构型的集群编队控制或编队控制问题，且未考虑复杂应用场景下可能存在的内部系统不确定以及外部扰动等问题。在一些实际场景中可能出现存在多个需要协同跟踪的领导者，故针对单一领导者的编队控制研究不具备普遍性。此外，在现有的方法和系统中，编队控制器的设计都需要依赖于领导者和跟随者完整的动力学模型，这对于实际工程场景中普遍存在的模型不确定和外部扰动依然不具备鲁棒性。

发明内容

本发明的目的是提供一种异构集群系统鲁棒输出编队跟踪控制方法及系统，以解决在存在多领导者、内部不确定性和外部扰动情况下的异构集群系统对多领导者的鲁棒编队跟踪控制问题。

为实现上述目的，本发明提供了如下方案：

一种异构集群系统鲁棒输出编队跟踪控制方法，所述异构集群系统包括多个领导者和多个跟随者；所述异构集群系统鲁棒输出编队跟踪控制方法包括：

基于所述异构集群系统的通信拓扑模型和领导者动力学模型，建立每个所述跟随者对应的分布式自适应有限时间观测器；所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息；

基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数，并根据异构集群系统数据和在线数据学习算法，对所述强化学习算法指标函数进行参数化迭代拟合，进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数；所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量；所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制；

基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数，构建鲁棒编队控制器；

基于所述鲁棒编队控制器和所述最优跟踪控制器，构建鲁棒编队跟踪控制器；所述鲁棒编队跟踪控制器用于控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹，以实现异构渐进稳定的编队跟踪控制。

可选的，所述异构集群系统的节点数量为N+M；所述异构集群系统包括N个跟随者，编号为1,2,...N，以及M个领导者，编号为N+1,...N+M；所述节点表示跟随者或者领导者；集合

和集合

分别表示跟随者编号集合和领导者编号集合；

所述领导者为无邻居独立运动的个体，所述跟随者至少有一个通信邻居且分为两类：不接收任何领导者信息或接受全部领导者信息；

所述异构集群系统的通信拓扑模型用图

表示；

代表节点集合，所述节点集合中的s_i代表第i个节点，下标i的取值为1到N+M之间的正整数；

为异构集群系统的边集，(s_i,s_j)表示从第j个节点到第i个节点之间的通信传输，下标j的取值为1到N+M之间的正整数且j≠i，并当存在一个信道(s_i,s_j)时，确定第j个节点为第i个节点的邻居，并定义

为第i个节点的邻居集合；

W＝[w_ij]，常数w_ij为第j个节点到第i个节点之间对应的通信权重数值，当且仅当第j个节点为第i个节点的邻居有w_ij＝1，否则w_ij＝0；

描述各节点入度矩阵为

描述节点与节点之间的通信拓扑连通关系的拉普拉斯矩阵为L＝D-W；所述拉普拉斯矩阵为

其中，L₂为维数N×N矩阵，用于反映跟随者之间相互通信的关系以及是否接收领导着者信息，L₁为维数N×M矩阵，用于反映领导者向跟随者传递信息的关系；

所述通信拓扑模型满足的约束条件为：跟随者之间至少存在一个与所有领导者相连接的节点，且所述节点到其他任意跟随者都具有一条有向路径连通；

所述领导者动力学模型为：

其中，

维数p×1的向量ζ_i(t)表示领导者状态信息，

表示领导者状态信息对时间的导数；维数为p×p的矩阵S表示领导者系数矩阵，用于配置领导者的不同运动模态；维数为q×p的矩阵R表示领导者输出矩阵；维数为q×1的向量

表示领导者输出状态信息。

可选的，所述跟随者动力学模型为：

其中，

维数n_i×1的向量x_i(t)表示跟随者状态信息，

表示跟随者状态信息对时间的导数；维数为m_i×1的向量y_i(t)表示跟随者控制输入信息；维数为q×1的向量y_i(t)表示跟随者输出状态信息；维数n_i×1的向量u_i(t)表示跟随者控制输入量；维数为d_ni×1的向量d_ni(t)表示跟随者模型内部不确定性信息，维数为n_i×1的向量d_i(t)表示跟随者受到的外部扰动信息；A_i,B_i,C_i,D_i分别为维数n_i×n_i,n_i×m_i,q×n_i,n_i×d_ni的矩阵且分别代表跟随者系数矩阵、跟随者控制矩阵、跟随者输出矩阵和跟随者内部不确定性输入矩阵。

可选的，第i个跟随者的分布式自适应有限时间观测器为：

在第一个式子中，维数为p×1的向量ξ_i(t)表示观测器状态信息，

表示观测器状态信息对时间的导数；

维数为p×p的矩阵S表示领导者系数矩阵；

数值函数α_i(t)表示自适应增益函数；

维数为q×q的常矩阵H和H₁表示反馈控制增益矩阵和有限时间控制增益矩阵；

维数为q×1的向量φ_i(t)表示第i个跟随者接收的邻居误差信息；

输出为维数q×1向量的非线性函数g(·)表示保证有限时间特性的控制输入函数；

在第二式子中，常数w_ij和w_ik分别表示第j个跟随者的通信权重和第k个领导者的通信权重；

维数为q×1的向量

表示观测器输出量且

维数为q×1的向量

表示第j跟随者观测器输出量和第k个领导者输出量；

在第三式子中，维数q×q的常矩阵Γ用于调节α_i(t)变化速率，T表示转置，

为α_i(t)的导数；

在第四式子中，φ_i1(t)，φ_i2(t)，φ_iq(t)分别表示φ_i(t)的第1，2，q个元素，常数σ用于设计控制器收敛时间且满足σ＞1。

可选的，将观测器状态信息ξ_i(t)和跟随者状态信息x_i(t)记作增广向量θ_i(t)＝[ξ_i(t)^T,x_i(t)^T]^T，待拟合的强化学习算法指标函数形式为：

其中，P_i,S_i,T_i分别为维数(p+n_i)×(p+n_i),(p+n_i)×1,1×1的参数矩阵并且选取初始参数矩阵为P_i ⁰,S_i ⁰,T_i ⁰，T表示转置。

可选的，所述根据异构集群系统数据和在线数据学习算法，对所述强化学习算法指标函数进行参数化迭代拟合，进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数，具体包括：

将数据激励控制器添加至所述异构集群系统以获取一段时间内的异构集群系统数据；

根据所述异构集群系统数据和在线数据学习算法，对所述强化学习算法指标函数进行参数化迭代拟合，得到更新后的控制器增益矩阵；

根据所述更新后的控制器增益矩阵，更新强化学习算法指标函数的参数矩阵，并当更新后的控制器增益矩阵收敛时，得到最优控制器增益矩阵和最优强化学习算法指标函数的参数矩阵，进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数。

可选的，所述最优跟踪控制器为

其中，

和

分别为维数为m_i×p和m_i×n_i的最优控制器增益矩阵。

可选的，利用向量

描述各跟随者相对领导者形成的期望状态编队构型，其中，分段连续可微分函数h_i(t)表示第i个跟随者状态编队偏移量；

鲁棒编队控制器：

式中，h_i(t)为第i个跟随者状态编队偏移量，v_i(t),δ_i(t)维数分别为p×1,n_i×1的变量，维数为q×p的矩阵R_i表示第i个领导者输出矩阵，ω_i(t)为数值函数。

可选的，所述鲁棒编队跟踪控制器为

一种异构集群系统鲁棒输出编队跟踪控制系统，所述异构集群系统包括多个领导者和多个跟随者；所述异构集群系统鲁棒输出编队跟踪控制系统包括：

分布式自适应有限时间观测器构建模块，用于基于所述异构集群系统的通信拓扑模型和领导者动力学模型，建立每个所述跟随者对应的分布式自适应有限时间观测器；所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息；

最优跟踪控制器确定模块，用于基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数，并根据异构集群系统数据和在线数据学习算法，对所述强化学习算法指标函数进行参数化迭代拟合，进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数；所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量；所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制；

鲁棒编队控制器构建模块，用于基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数，构建鲁棒编队控制器；

鲁棒编队跟踪控制器构建模块，用于基于所述鲁棒编队控制器和所述最优跟踪控制器，构建鲁棒编队跟踪控制器；所述鲁棒编队跟踪控制器用于控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹，以实现异构渐进稳定的编队跟踪控制。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明将协同控制和基于数据驱动的强化学习技术相结合，设计分布式自适应有限时间观测器、基于强化学习算法的最优跟踪控制器和鲁棒编队控制器，综合解决在存在多领导者、内部不确定性和外部扰动情况下的异构集群系统对多领导者的鲁棒编队跟踪控制问题。本发明基于异构集群系统实时运行中的输入输出信息以及观测状态信息，在线优化迭代控制器，无需利用通信网络全局信息、跟随者模型信息、内部不确定性具体信息和外部扰动具体信息，就能解决上述问题，同时提升了异构集群编队跟踪的鲁棒性和智能性，对于工程实际中广泛存在的动力学模型线性或可线性化的集群系统，提供了智能自主的控制方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明异构集群系统鲁棒输出编队跟踪控制方法的流程示意图；

图2为本发明异构集群系统鲁棒输出编队跟踪控制系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本实施例提供了一种基于数据驱动的异构集群系统鲁棒输出编队跟踪控制方法，包含以下具体方案：

1、建立基于局部通信信息的分布式自适应有限时间观测器，估计并整合多领导者运动信息；

2、利用观测器和异构集群系统在线输入输出数据，基于强化学习的原理优化迭代得到稳定的输出跟踪控制器；

3、根据在线学习的结果进一步设计鲁棒编队控制器实现集群系统的编队跟踪控制。

图1为本发明异构集群系统鲁棒输出编队跟踪控制方法的流程示意图。如图1所示，本实施例提供的异构集群系统鲁棒输出编队跟踪控制方法，包括以下步骤。

步骤101：基于所述异构集群系统的通信拓扑模型和领导者动力学模型，建立每个所述跟随者对应的分布式自适应有限时间观测器；所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息。

步骤A1：建立异构集群系统的通信拓扑模型。

所述异构集群系统的节点数量为N+M(所述节点表示跟随者或者领导者)；；所述异构集群系统包括N个跟随者，编号为1,2,...N，以及M个领导者，编号为N+1,...N+M；所述节点表示跟随者或者领导者；集合

和集合

分别表示跟随者编号集合和领导者编号集合。

所有领导者和所有跟随者之间的通信拓扑模型可以被数学化建模为一个图

其中，

代表节点集合，节点集合中的s_i代表第i个节点，下标i的取值可以为1到N+M之间的正整数。

令集合

为异构集群系统的边集，(s_i,s_j)表示从第j个节点到第i个节点之间的通信传输，下标j的取值可以为1到N+M之间的正整数且j≠i。

如果存在一个信道(s_i,s_j)，则称第j个节点为第i个节点的邻居，并定义

为第i个节点的邻居集合。

常数w_ij为第j个节点到第i个节点之间对应的通信权重数值，当且仅当第j个节点为第i个节点的邻居有w_ij＝1，否则w_ij＝0，并由此定义图

的邻接矩阵为维数(N+M)×(N+M)的矩阵，其中，第i行第j列元素为w_ij，即数学表达式为W＝[w_ij]。

定义描述各节点入度矩阵为

描述节点与节点之间的通信拓扑连通关系的拉普拉斯矩阵被定义为L＝D-W。

领导者定义为无邻居独立运动的个体，跟随者至少有一个通信邻居且分为如下两类：不接收任何领导者信息或接受全部领导者信息。

此时拉普拉斯矩阵可以具体写为

其中，L₂为维数N×N矩阵，用于反映跟随者之间相互通信的关系以及是否接收领导着者信息，L₁为维数N×M矩阵，用于反映领导者向跟随者传递信息的关系。

合适的通信拓扑模型满足以下条件：

跟随者之间至少存在一个与所有领导者相连接的节点，且该节点到其他任意跟随者节点都具有一条有向路径连通。

符合以上条件的通信拓扑模型符合后续分布式自适应有限时间观测器的设计要求。

步骤A2：建立异构集群系统中领导者动力学模型。

领导者动力学模型为：

其中，

维数p×1的向量ζ_i(t)表示领导者状态信息，

表示领导者输出状态信息。

步骤A3：建立每个跟随者的分布式自适应有限时间观测器，以估计和整合多领导者运动信息。

设计具有如下形式的分布式自适应有限时间观测器(观测器的主体是第一个式子，后面的三个式子作用是变量解释)。

其中，

以上为针对第i个跟随者的分布式自适应有限时间观测器。

表示观测器状态信息对时间的导数；

维数为p×p的矩阵S表示领导者系数矩阵；

数值函数α_i(t)表示自适应增益函数；

维数为q×q的常矩阵H和H₁表示反馈控制增益矩阵和有限时间控制增益矩阵，可以通过方程求取：H＝P^-1R^T，H₁＝P^-1；其中，维数为p×p的常矩阵P满足S^TP+PS+Γ-R^TR＜0。

维数为q×1的向量φ_i(t)表示第i个跟随者接收的邻居误差信息，即第i个跟随者观测器的输入，具体为：计算第i个观测器输出量和所有邻居跟随者输出量的相对误差，计算第i个观测器输出量和所有领导者输出量的相对误差，再求和。

输出为维数q×1向量的非线性函数g(·)表示保证有限时间特性的控制输入函数。

维数为q×1的向量

表示观测器输出量且

维数为q×1的向量

表示第j跟随者观测器输出量和第k个领导者输出量；

为α_i(t)的导数。

通过观测器的有限时间收敛，各个跟随者的观测器收敛到领导者运动轨迹的凸包加权中心中，即满足的关系为：

式中

维数为p×1的向量ξ_i(t)表示第i个跟随者(观测器)状态信息，维数p×1的向量ζ_i(t)表示第j个领导者状态信息，b_j和b_k代表一组正常数且满足

其中，1_M代表维数为M×1元素全部为1的向量，

代表克罗内克积算符。

同时自适应机制保证本步骤中的方法收敛性不依赖于通信拓扑的全局信息。

步骤102：基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数，并根据异构集群系统数据和在线数据学习算法，对所述强化学习算法指标函数进行参数化迭代拟合，进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数；所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量；所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制；具体包括：

步骤B1：建立跟随者动力学模型。

跟随者动力学模型为：

其中，

维数n_i×1的向量x_i(t)表示跟随者状态信息，

表示跟随者状态信息对时间的导数；维数为m_i×1的向量y_i(t)表示跟随者控制输入信息；维数为q×1的向量y_i(t)表示跟随者输出状态信息；维数n_i×1的向量u_i(t)表示跟随者控制输入量；维数为d_ni×1的向量d_ni(t)表示跟随者模型内部不确定性信息，维数为n_i×1的向量d_i(t)表示跟随者受到的外部扰动信息。A_i,B_i,C_i,D_i为维数n_i×n_i,n_i×m_i,q×n_i,n_i×d_ni的矩阵且分别代表跟随者系数矩阵、跟随者控制矩阵、跟随者输出矩阵和跟随者内部不确定性输入矩阵。

步骤B2：构建强化学习算法指标函数。

(1)确定强化学习算法指标函数：

其中，指标函数中因子r_i＝(y_i(t)-ξ_i(t))^TQ_i(y_i(t)-ξ_i(t))+u_i(t)^TR_iu_i(t)设计为跟踪误差(跟随者输出状态信息和观测器输出状态信息之间的误差)和跟随者控制输入的二次型形式；γ_i为正常数并且其满足条件γ_i＞0和

在此处可作为设计参量，通过修改不同的取值获得不同的控制器响应性能；维数为q×q和m_i×m_i的矩阵Q_i，R_i选用对称正定矩阵作为指标函数的可设计变量，分别用于指导并约束强化学习控制器误差收敛水平和控制增益大小。

将观测器输出状态信息ξ_i(t)和跟随者的状态x_i(t)记作增广向量θ_i(t)＝[ξ_i(t)^T,x_i(t)^T]^T，待拟合的强化学习算法指标函数形式为：

其中，P_i,S_i,T_i分别为维数(p+n_i)×(p+n_i),(p+n_i)×1,1×1的矩阵并且选取初始参数矩阵为P_i ⁰,S_i ⁰,T_i ⁰。

步骤B3：首先将数据激励控制器添加至所述异构集群系统以获取一段时间内的异构集群系统数据；其次根据所述异构集群系统数据和在线数据学习算法，对所述强化学习算法指标函数进行参数化迭代拟合，得到更新后的控制器增益矩阵；最后根据所述更新后的控制器增益矩阵，更新强化学习算法指标函数的参数矩阵，并当更新后的控制器增益矩阵收敛时，得到最优控制器增益矩阵和最优强化学习算法指标函数的参数矩阵，进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数。

(1)建立基于在线数据的学习方法

初始迭代控制器表示为

其中，

和

为维数分别为m_i×p和m_i×n_i的任意矩阵；

预估反馈控制器增益矩阵记为K_i，初始化为常数矩阵

初始化迭代次数k＝1；

任意选择一个稳定的数据激励控制器

加入集群系统中；其中，K_i1 ⁰，K_i2 ⁰为任意使得跟随者模型稳定的增益矩阵，维数分别为m_i×p和m_i×n_i。且n_i维的向量e(t)选取为一组合适维数的随机频率高斯白噪声加权和，作为提升强化学习算法稳定性的探索噪声。

(2)基于在线数据的学习方法对待拟合的强化学习算法指标函数进行参数化拟合。

对于加入了数据激励控制器的集群系统，从0时刻开始，每间隔δt时间收集所有跟随者观测器状态ξ_i(t)，跟随者状态x_i(t)以及跟随者的控制输入量

并将作为一组数据进行保存。

考虑第k次迭代的情况，通过收集到的数据计算以下变量：

其中，符号

表示预估控制器在第k次迭代。

经过t₁到t_s时间的数据收集，将前述的变量汇总为如下形式的增广向量：

为t＝t_s时的H_it，按上述计算；

此时对所述指标函数进行参数化拟合，得到单次拟合后的指标函数；

更新预估控制器

为

更新拟合函数的参数为

更新迭代次数k＝k+1，以上作为下轮迭代中的已知量。

选取误差允许阈值为一正常数ε，当

时停止迭代。

记P_i ^*＝P_i ^k，

T_i ^*＝T_i ^k，

最优跟踪控制器为

将P_i行、P_i列分别按照维数p与n_i分块得到如下形式：

步骤103：基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数，构建鲁棒编队控制器，具体包括：

步骤C1：建立跟随者期望状态编队构型。

利用向量

描述各跟随者相对领导者形成的期望状态编队构型，其中，分段连续可微分函数h_i(t)，

表示第i个跟随者状态编队偏移量，T表示转置。

步骤C2：建立跟随者期望输出编队构型。

跟随者的期望输出编队构型的具体表达式为h_oi(t)＝Rh_i(t)。

其中，

表示第i个跟随者的期望输出编队构型；R表示领导者输出矩阵。

步骤C3：建立鲁棒编队控制器。

基于步骤102得到的最优跟踪控制器和最优拟合后的强化学习算法指标函数，继续计算

其中，维数为n_i×m_i的矩阵

表示输入矩阵B_i的估计值。

选取矩阵满足

且

为满秩矩阵，验证并调整输出编队状态，满足如下的可行性条件：

设计具有如下形式的鲁棒编队控制器：

式中，h_i(t)为第i个跟随者状态编队偏移量，v_i(t),δ_i(t)维数分别为p×1,n_i×1的变量，维数为q×p的矩阵R_i表示第i个领导者输出矩阵，ω_i(t)为数值函数，经由自适应变量函数β_i(t)求取。具体公式为如下：

δ_i(t)＝x_i(t)-Π_i(ξ_i(t)+h_i(t)),

其中，正常数μ_i用于调节自适应增益β_i(t)，维数为n_i×p的常值矩阵Π_i由此公式

计算。

步骤104：基于所述鲁棒编队控制器和所述最优跟踪控制器，构建鲁棒编队跟踪控制器，实现集群系统跟随者相对领导者运动的鲁棒编队跟踪控制。

合并步骤102中的最优跟踪控制器

和步骤103中的鲁棒编队控制器u_fi(t)，得到对系统鲁棒编队跟踪控制器，其具有如下形式：

利用鲁棒编队跟踪控制使跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹，实现异构渐进稳定的编队跟踪控制，即有下式成立：

其中，y_i(t)为第i个跟随者输出，h_oi(t)表示第i个跟随者的期望输出编队构型，ζ_j(t)为第j个领导者的输出，b_j，b_k，

是前述得到的正常数。

为实现上述目的，本发明还提供了一种异构集群系统鲁棒输出编队跟踪控制系统，所述异构集群系统包括多个领导者和多个跟随者；如图2所示，所述异构集群系统鲁棒输出编队跟踪控制系统包括：

分布式自适应有限时间观测器构建模块201，用于基于所述异构集群系统的通信拓扑模型和领导者动力学模型，建立每个所述跟随者对应的分布式自适应有限时间观测器；所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息。

最优跟踪控制器确定模块202，用于基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数，并根据异构集群系统数据和在线数据学习算法，对所述强化学习算法指标函数进行参数化迭代拟合，进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数；所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量；所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制。

鲁棒编队控制器构建模块203，用于基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数，构建鲁棒编队控制器。

鲁棒编队跟踪控制器构建模块204，用于基于所述鲁棒编队控制器和所述最优跟踪控制器，构建鲁棒编队跟踪控制器；所述鲁棒编队跟踪控制器用于控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹，以实现异构渐进稳定的编队跟踪控制。

与现有技术相比，本发明具有以下有益效果：

1、在本发明步骤101中，基于分布式自适应有限时间方法设计的观测器，可以处理存在多领导者的情况，获得对领导者凸包加权中心运动信息的准确估计；同时基于步骤101建立的通信网络，节约了通信资源，减轻了通信负担。

2、本发明步骤102提供了控制器设计过程，具体为基于数据驱动的强化学习算法，仅使用系统输入输出数据和状态数据进行控制器迭代学习，得到最优跟踪控制器就可以处理异构集群的编队跟踪问题，而无需利用跟随者的任何模型信息，对环境适应性更好，实现了控制理论与人工智能技术的有机融合。同时步骤101中的有限时间观测器在有限时间内给出对领导者参考运动的精确估计，提升了最优跟踪控制器的学习精度；

3、本发明步骤103最终给出的鲁棒编队跟踪控制器能够处理未知的内部不确定性以及外部扰动，其中，内部不确定环节D_id_ni(t)由步骤102的最优跟踪控制器

消除，外部扰动项d_i(t)由步骤103的鲁棒编队控制器u_fi(t)渐进抑制，无需提前了解不确定性和扰动的精确模型，相比于已有的方法提升了控制方法的鲁棒性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。