CN111722628B

CN111722628B - 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法

Info

Publication number: CN111722628B
Application number: CN202010565612.0A
Authority: CN
Inventors: 刘成林; 罗玉娟
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2021-07-09
Anticipated expiration: 2040-06-19
Also published as: NL2027701B1; NL2027701A; CN111722628A

Abstract

本发明公开了一种多智能体轨迹更新迭代学习的点到点跟踪控制方法，属于控制技术领域。所述方法包括：先构建异构离散多智能体系统的数学模型，将期望位置点看成是由虚拟的领导者生成的，根据多智能体系统的通信拓扑结构确定以领导者为根节点的生成树结构；其次，根据期望点设计一种目标轨迹更新方法，通过更新目标轨迹使得新目标轨迹收敛到系统输出；最后，为跟随者智能体设计基于目标轨迹更新的P型迭代学习方法，实现多智能体系统对期望点完全跟踪。本发明通过上述方法，解决了异构多智能体系统的点到点跟踪控制问题，且系统输出跟踪上新目标轨迹的速度比跟踪固定目标轨迹的速度要快，从而使智能体完成对期望点的跟踪。

Description

一种多智能体轨迹更新迭代学习的点到点跟踪控制方法

技术领域

本发明涉及一种利用基于目标轨迹更新的迭代学习方法解决异构多智能体系统点到点跟踪控制问题，属于控制技术领域。

背景技术

近几十年，随着人工智能、工业技术不断发展，出现了很多规模庞大、结构复杂的控制系统，必须由多个子系统相互通信、合作完成宏观的任务。智能体之间的协调与合作将大大提高个体行为的智能化程度，更好地完成很多单个个体无法完成的工作。时至今日，多智能体协调控制技术已在传感器网络、机器人、交通信号控制等领域得到广泛应用。在实际工业生产中，许多被控系统都是在有限区间上执行重复运动任务，例如指令信号为周期函数的伺服系统、协同绕地球做周期运动的卫星、生产线上完成焊接、搬运等重复性任务的机械臂等。考虑到设备运行过程中产生的磨损以及老化原因，被控系统一般很难得到精准的系统模型，并且对于这类在有限区间上执行重复运动任务的多智能体系统，需要系统输出在整个作业区间上实现对期望轨迹的零误差跟踪。为实现具有重复运动性质的多智能体系统在整个作业区间上对期望轨迹的精准跟踪，迭代学习的思想被引用到多智能体系统的一致性跟踪控制问题中。

在基于迭代学习的多智能体系统一致性的研究中，通常要求系统输出能在整个作业区间上实现全轨迹跟踪。然而，在自动化协调控制生产过程中，系统输出只需要实现在特定时间点跟踪上期望位置点，比如机械臂在执行抓取和放置物件的时候只需要考虑抓取和放置物件时间点上的输出，不需要多加考虑其它时间点上的输出。并且对于一些复杂的工艺流程，由于设备的局限性，数据是无法全部检测出来的，完成对全部数据点的跟踪是有困难的，只能实现对某些可检测出来的位置点进行跟踪。因此，对特定点进行跟踪控制具有重大的研究价值。

当前，关于点到点的跟踪控制研究已经引起了一些学者的关注。实现点到点的跟踪控制的常规方法通常是设计一个通过期望位置点的任意轨迹，从而将点到点的跟踪控制问题转换成对固定目标轨迹的全轨迹跟踪控制问题。对固定目标轨迹的全轨迹跟踪控制是解决点到点的跟踪控制问题的比较简单的方法，但此方法跟踪性能的好坏会与经过期望位置点的固定目标轨迹的选取有关，而选取最优的固定目标轨迹则需要一定的先验知识，这对实现点到点的跟踪控制问题是有一定的局限性的。除此之外，该方法并不能充分利用其它时间点的自由度去解决点到点的跟踪控制问题。为了弥补固定轨迹的点到点跟踪控制方法的不足，有一些学者提出了基于目标轨迹更新的控制方法去解决系统的点到点跟踪控制问题。Son T D,Ahn H S,Moore K L.(Iterative learning control in optimaltracking problems with specified data points.Automatica,2013)利用上一次迭代的目标轨迹与系统输出轨迹的跟踪误差得到当前迭代时的目标轨迹，从而建立起目标轨迹更新函数。安通鉴,刘祥官.(目标轨迹更新的点到点鲁棒迭代学习控制.浙江大学学报,2015)借助插值法提出一种基于目标轨迹更新的迭代学习方法去解决具有初始扰动的点到点跟踪问题，并得出了该算法比固定轨迹的点到点跟踪控制算法的跟踪性能要好的结论。陶洪峰，董晓齐，杨慧中.(参考轨迹更新的点到点迭代学习控制算法优化及应用.控制理论与应用,2016)在目标轨迹更新的迭代学习算法的基础上，引入范数优化去提高算法的跟踪精度和快速性，并分析了系统在无扰动和非重复扰动的收敛性和鲁棒性。当前，关于单个系统的点到点的跟踪控制研究已经引起了一些学者的关注。而针对由多个协同合作的智能体构成的多智能体系统，如何利用迭代学习方法去解决多智能体系统的点到点跟踪控制问题是当前控制领域的一个难题。

发明内容

本发明的目的在于提供一种基于目标轨迹更新的迭代学习方法去解决异构多智能体系统的点到点跟踪控制问题。

实现本发明目的的技术解决方案为：

一种多智能体轨迹更新迭代学习的点到点跟踪控制方法，包括以下步骤：

步骤1.构建异构离散多智能体系统的模型；

步骤2.分析异构离散多智能体系统中各智能体之间的信息交换关系，使用有向图构建多智能体系统的通信拓扑结构，其中只有一个或多个跟随者智能体能获取领导者信息，且由领导者和跟随者组成的通信拓扑图包含一个以领导者为根节点的生成树；

步骤3.给定所有跟随者智能体的初始状态条件；

步骤4.根据期望位置点设计一种目标轨迹更新方法，并求解目标轨迹更新方法的参数，通过更新目标轨迹使得新目标轨迹渐近收敛到系统输出；

步骤5.为跟随者智能体设计基于目标轨迹更新的P型迭代学习方法，求解P型迭代学习方法的参数，从而实现多智能体系统在有限时间内对期望位置点完全跟踪。

本发明与现有技术相比，其显著优点在于：解决了异构多智能体系统的点到点跟踪控制问题，更新的目标轨迹比固定目标轨迹更加逼近系统输出，即系统输出收敛到新目标轨迹的速度比收敛到固定目标轨迹速度要快，从而使智能体完成对给定的期望点的跟踪，控制更加符合实际应用。

附图说明

图1是本发明网络拓扑结构图。

图2是本发明在图1拓扑通讯图下的第10次迭代的跟踪过程。

图3是本发明在图1拓扑通讯图下的第80次迭代的跟踪过程。

图4是本发明在图1拓扑通讯图下的误差收敛图。

图5是基于固定目标轨迹的迭代学习方法在图1拓扑通讯图下的第10次迭代的跟踪过程。

图6是基于固定目标轨迹的迭代学习方法在图1拓扑通讯图下的第100次迭代的跟踪过程。

图7是基于固定目标轨迹的迭代学习方法在图1拓扑通讯图下的误差收敛图。

具体实施方式

下面结合附图和具体实施例，进一步说明本发明方案。

本发明提出一种基于目标轨迹更新的迭代学习方法去解决多智能体系统的点到点跟踪问题，包括以下步骤：

步骤1.构建异构离散多智能体系统的数学模型；

由n个不同的智能体构成的离散异构多智能体系统模型为：

其中，k表示迭代次数，i代表第i个智能体，i＝1,2,…,n，t∈[0,N]为一个周期内的采样时间点；

和y_i,k(t)∈R^m分别表示智能体i的状态，控制输入和系统输出。

是具有相应维数的矩阵。

定义

则系统(1)以紧凑矩阵形式写成：

其中，A＝diag{A₁,A₂,…,A_n}，B＝diag{B₁,B₂,…,B_n}，C＝diag{C₁,C₂,…,C_n}。

将系统(2)转换成基于时间序列的输入输出矩阵模型：

y_k＝Pu_k+Qx_k(0), (3)

其中，y_k＝[y_k(0),y_k(1),…,y_k(N)]^T，u_k＝[u_k(0),u_k(1),…,u_k(N)]^T，

Q＝[C CA CA² CA³ … CA^N-1].

针对传统的迭代学习控制算法，通常控制目标是实现对固定轨迹y_d(t)的全轨迹跟踪控制，要求随着迭代的进行，系统输出随着迭代次数的增多不断接近固定轨迹，即y_i,k(t)→y_d(t),t∈{0,1,2,…,N}。但实际工程中，很多时候只需要实现对待跟踪的时间点T＝{t₁,t₂,…,t_M}的跟踪，因此，本发明考虑采用基于目标轨迹更新的迭代学习控制算法实现多智能体系统对期望位置点的跟踪，即y_i,k(t_s)→y_d(t_s),s＝1,2…,M,并且有0≤t₁＜t₂＜…＜t_M≤N，其中y_d(t_s)是期望位置点。

基于领导者-跟随者通信结构，考虑将期望位置点y_d(t_s),s＝1,2…,M看成是由虚拟的领导者生成的，并将系统(1)中n个智能体看作是跟随者，只有部分跟随者智能体能直接获取领导者信息。本发明的主要工作内容为：针对仅有部分跟随者智能体能直接获取期望位置点信息的多智能体系统(1)，在固定通信拓扑下，设计合适的学习方法，实现多智能体系统(1)在有限时间内对期望位置点完全跟踪。

步骤2.分析多智能体系统中各智能体之间的信息交换关系，使用有向图构建多智能体系统的通信拓扑结构，根据多智能体系统的通信拓扑结构确定以领导者为根节点的有向生成树结构；

使用有向图

表示多智能体系统的拓扑结构，其中图G的节点集合V＝{1,2,…,n}对应n个智能体，图G的边集

对应智能体之间的信息交流传递，边的权重a_ij≥0,a_ii＝0,i,j∈V，矩阵

是加权邻接矩阵。若有向图中节点j可以从节点i获得信息，则该节点对连边用e_ij＝(i,j)∈E表示。若e_ij∈E，则加权邻接矩阵中的元素a_ij＞0，否则为0，并且a_ii＝0，

智能体i的邻居集合为N_i＝{j∈V:(i,j)∈E}。

图G的拉普拉斯矩阵

矩阵D为图G的度矩阵，式中

有向图G中，节点i₁到节点i_s的有向路径是指一系列边的有序列(i₁,i₂),…,(i_s-1,i_s)。有向图G中如果存在一个节点i到其它任意节点都有一条有向路径，则节点i为根节点，若图G有根节点，则该有向图有一个生成树。

由于本发明通过领导-跟随协调控制结构研究了多智能体一致性跟踪问题。当加入领导者后，n个跟随智能体和领导者组成图

智能体i与领导者之间的信息传递用s_i表示，s_i＞0表示智能体与领导者有联系，s_i＝0表示智能体与领导者没有联系。

在有向图

中，若存在一个以领导者为根节点的有向生成树，意味着领导者有一条有向通路通往所有跟随者智能体。

步骤3.给定所有跟随者智能体的初始状态条件；

所有跟随者智能体的初始状态重置条件为：x_i,k(t)＝0.

通常采用迭代学习控制算法对固定轨迹的跟踪要求随着迭代次数的增多，系统输出y_i,k(t)渐近收敛到固定轨迹y_d(t)，即

||y_d-y_k+1||≤||y_d-y_k||. (4)

而本发明提出的目标轨迹更新算法是使得新目标轨迹r_i,k(t)渐近收敛到系统输出y_k(t)，即

||r_k+1-y_k||≤||r_k-y_k||. (5)

首先，定义目标轨迹更新算法为：

r_i,k+1(t)＝y_d(t)+h_i(t)f_i(t), (6)

其中，r_i,k+1(t)为第i个智能体在第k次迭代学习更新后的目标轨迹，y_d(t)是经过期望位置点y_d(t_s)的任意轨迹，h_i(t)＝(t-t₁)(t-t₂)…(t-t_M)，f_i(t)为任意离散函数。

令r_k(t)＝[r_1,k(t),r_2,k(t),…,r_n,k(t)]^T，f(t)＝[f₁(t),f₂(t),…,f_n(t)]^T，H(t)＝diag{h₁(t),h₂(t),…,h_n(t)}，Y_d(t)＝[y_d(t),y_d(t),…,y_d(t)]^T则式(6)可转换成：

r_k+1(t)＝Y_d(t)+H(t)f(t). (7)

再将式(7)写成基于时间序列的形式：

r_k+1＝Y_d+Hf, (8)

其中：

r_k+1＝[r_k+1(0),r_k+1(1),…,r_k+1(N)]^T,

Y_d＝[Y_d(0),Y_d(1),…,Y_d(N)]^T,

H＝diag{H(0),H(1),…,H(N)},

f＝[f(0),f(1),…,f(N)]^T.

由于点到点跟踪是要求每次更新的目标轨迹在需要跟踪的时间点T＝{t₁,t₂,…,t_M}的值与给定期望点保持一致，即r_i,k(t_s)＝y_d(t_s)，则式(8)进一步可转换成任意采样点处的目标轨迹：

r_k+1＝r_k+Hf. (9)

令f＝F(r_k-y_k)，其中F为实对角矩阵，则式(9)可表示为：

r_k+1＝r_k+HF(r_k-y_k). (10)

令λ_k＝HF，由于矩阵H和矩阵F都是对角矩阵，则λ_k也为实对角矩阵，且

式中，

则目标轨迹更新算法(10)变成：

r_k+1＝r_k+λ_k(r_k-y_k). (11)

由式(11)可知：

对式(12)两边取范数：

||r_k+1-y_k||≤||I+λ_k||||r_k-y_k||. (13)

因此，当||I+λ_k||≤1，可得||r_k+1-y_k||≤||r_k-y_k||。

而在基于目标轨迹更新的点到点跟踪控制问题中，目标轨迹在需要跟踪的时间点T＝{t₁,t₂,…,t_M}上的值是固定不变的，且与期望点保持一致，即满足：

r_i,k(t_s)＝y_d(t_s)，s＝1,2…,M. (14)

因此可得出：

r_i,k+1(t_s)＝r_i,k(t_s). (15)

由式(11)可知，当在需要跟踪的时间点T＝{t₁,t₂,…,t_M}上满足λ_i,k(t_s)＝0，s＝1,2…,M，且满足r_i,1(t_s)＝y_d(t_s)时，式(15)成立。

所以若满足||I+λ_k||＝1，且λ_i,k(t_s)＝0，s＝1,2…,M，则可得出||r_k+1-y_k||≤||r_k-y_k||。

从式(5)可以看出，随着迭代次数的增多，更新的目标轨迹比固定目标轨迹更加逼近系统输出，即系统输出收敛到新目标轨迹的速度比收敛到固定目标轨迹速度要快。由此可以看出，基于目标轨迹更新的点到点跟踪控制算法既能使得系统更快地跟踪上期望点，达到更好的跟踪效果，还可以弥补固定目标轨迹的点到点跟踪控制算法的不足。

首先，给出每个智能体的跟踪误差为：

e_i,k(t)＝r_i,k(t)-y_i,k(t), (16)

e_ij,k(t)＝y_j,k(t)-y_i,k(t),j∈N_i, (17)

其中，e_i,k(t)代表第k次迭代时智能体i的输出与迭代更新后的目标轨迹之间的误差，而e_ij,k(t)则表示第k次迭代时智能体和其邻居智能体之间的误差。

令ξ_i,k(t)表示在第k次迭代中智能体i接收或测量的信息，我们得到

其中，a_ij是边的权重，并且s_i是智能体i与领导者之间的耦合权重。

由于e_ij,k(t)＝e_i,k(t)-e_j,k(t)，式(18)转换成：

定义e_k(t)＝[e_1,k(t),e_2,k(t),…,e_n,k(t)]^T，ξ_k(t)＝[ξ_1,k(t),ξ_2,k(t),…,ξ_n,k(t)]^T，利用图论知识，

则式(19)可写成：

其中，S＝diag{s₁,s₂,…,s_n}，并且L是G的拉普拉斯矩阵，I_m表示m×m维单位矩阵。

将式(20)也写成基于时间序列的形式，即：

ξ_k＝Me_k， (21)

其中，e_k＝[e_k(0),e_k(1),…,e_k(N)]^T，ξ_k＝[ξ_k(0),ξ_k(1),…,ξ_k(N)]^T，

在本发明中，我们考虑对每一个跟踪者智能体采用P型迭代学习方法去解决多智能体系统对期望点的跟踪控制问题，迭代学习方法如下所示：

u_i,k+1(t)＝u_i,k(t)+Γ_iξ_i,k+1(t), (22)

其中，

为学习增益。

令u_k(t)＝[u_1,k(t),u_2,k(t),…,u_n,k(t)]^T，ξ_k(t)＝[ξ_1,k(t),ξ_2,k(t),…,ξ_n,k(t)]^T，则式(22)转换成：

u_k+1(t)＝u_k(t)+Γξ_k+1(t), (23)

其中，Γ＝diag{Γ₁,Γ₂,…,Γ_n}。

其次，令ξ_k＝[ξ_k(0),ξ_k(1),…,ξ_k(N)]^T，u_k＝[u_k(0),u_k(1),…,u_k(N)]^T，式(23)可转换成：

其中，

将式(21)代入式(24)可得迭代学习方法：

由式(11)和式(25)可得出基于目标轨迹更新的迭代学习方法为：

当λ_k＝0时，式(26)变成：

此时目标轨迹没有进行迭代更新，所以式(27)是固定目标轨迹的迭代学习方法。可以看出，式(27)是式(26)的一种特殊形式。

由式(16)可得：

e_k＝r_k-y_k, (28)

再由式(3)和式(26)可进一步得出：

对式(29)进行整合，可得出：

由式(3)可得：

Gu_k＝y_k-Qx_k(0). (31)

将式(31)代入式(30)，可得：

由于所有的跟随者智能体都满足x_i,k(0)＝0，可得x_k+1(0)-x_k(0)＝0，

从而式(32)可简化为：

对式(33)两边同时左乘

从而得到：

再对式(34)两边同时取范数，可得：

由于已证明出||I+λ_k||＝1，因此可得出：

由式(36)可知，当

可得||e_k||→0,k→∞。

因此，对于t∈[0,N]时，当k→∞时，有e_k(t)→0。

对于所有的t_s∈T∈[0,N]，当k→∞，由式(14)和式(16)可以看出：

y_k+1(t_s)→r_k+1(t_s)＝y_d(t_s). (37)

综上所述，对于离散异构多智能体系统，在基于目标轨迹更新的迭代学习方法作用下，如果存在矩阵

使得不等式

成立，随着迭代的进行，跟随者的输出轨迹会收敛到期望点，即当k→∞时，y_k+1(t_s)＝y_d(t_s)。

实施例

考虑六个不同的跟随者智能体和一个领导者智能体构成的离散异构多智能体系统，系统的通信拓扑图如图1所示，其中编号0代表领导者智能体，编号1-6代表跟随者智能体。

跟随者智能体的动力学模型如下：

系统仿真时间为t∈[0,2]，采样时间为0.1s。选取其中的5个点作为期望位置点进行跟踪控制研究，待跟踪的点T＝{20,60,100,140,180}，期望输出为y_d(T)＝{5,3,-3,-5,1.5}。

将期望位置点y_d(T)＝{5,3,-3,-5,1.5}看成是由编号为0的虚拟的领导者生成的，并将上述6个智能体看作是跟随者，只有部分跟随者智能体能直接获取领导者信息。由通信拓扑图1可知只有智能体1和智能体4能够直接获得领导者0的信息，因此，S＝diag{1.5,0,0,2,0,0}，同时也可得到智能体之间的Laplacian矩阵如下：

在仿真中，我们将智能体的初始状态设为：x_1,k(0)＝[0 10]^T，x_2,k(0)＝[0 1]^T，x₃,_k(0)＝[2 2 1]^T，x_4,k(0)＝[2 2 1]^T，x_5,k(0)＝[0 0 0 5]^T，x_6,k(0)＝[0 0 0 5]^T，并将每个智能体第一次迭代时的控制输入信号设为0。

对于固定目标轨迹的迭代学习方法(27)，取经过上述期望位置点y_d(T)＝{5,3,-3,-5,1.5}的轨迹为y_d(t)＝(-6.5t⁴+41.7t³-72.4t²+33.3t+1)。

对于基于目标轨迹更新的迭代学习方法(26)，取r_i,1(t)＝y_d(t)，且λ_k满足

选择Γ＝diag{6,1.2,1.5,1.5,3,3}，得出多智能体系统的收敛条件

在基于目标轨迹更新的迭代学习方法(26)作用下，图2和图3分别表示六个智能体在第10次迭代和第80次迭代的跟踪过程，可以很清楚地看出随着迭代过程的进行，智能体能跟踪上期望位置点。图5表示六个跟随者智能体在基于目标轨迹更新的迭代学习方法作用下的误差收敛图，将max_t∈T|e_i,k(t)|＜10^-3设为误差精度要求，可以看出当迭代学习80次时，六个跟随者智能体才能全部跟踪上期望位置点。

为了将基于目标轨迹更新的迭代学习方法(26)与固定目标轨迹的迭代学习方法(27)的跟踪性能进行比较，我们选择r_k+1＝r_k＝y_d(t)，此时算法(26)便转换为固定目标轨迹的迭代学习控制算法。在固定目标轨迹的迭代学习算法作用下，图6和图7分别表示六个智能体在第10次迭代和第100次迭代的跟踪过程，可以很清楚地看出随着迭代过程的进行，智能体能跟踪上固定目标轨迹y_d(t)。由于固定目标轨迹y_d(t)是经过期望位置点y_d(T)的，所以算法(27)也能完成对期望位置点的跟踪。图7可以看出使用固定目标轨迹的迭代学习控制算法的跟随者智能体在第100次迭代后才能完全跟踪上期望轨迹，收敛速度比目标轨迹更新的迭代学习算法的收敛速度要慢。综上所述，可以发现更新的目标轨迹比固定目标轨迹能更快地实现多智能体系统点到点的跟踪。

Claims

1.一种多智能体轨迹更新迭代学习的点到点跟踪控制方法，其特征在于，包括以下步骤：

步骤1、构建异构离散多智能体系统的模型；

步骤2、分析异构离散多智能体系统中各智能体之间的信息交换关系，使用有向图构建多智能体系统的通信拓扑结构，其中只有一个或多个跟随者智能体能获取领导者信息，且由领导者和跟随者组成的通信拓扑图包含一个以领导者为根节点的生成树；

步骤3、给定所有跟随者智能体的初始状态条件；

步骤4、根据期望位置点设计一种目标轨迹更新方法，并求解目标轨迹更新方法的参数，通过更新目标轨迹使得新目标轨迹渐近收敛到系统输出；

目标轨迹更新方法如下：

r_i,k+1(t)＝y_d(t)+h_i(t)f_i(t), (5)

其中，r_i,k+1(t)为第i个智能体在第k+1次迭代学习更新后的目标轨迹，y_d(t)是经过期望位置点y_d(t_s)的任意轨迹，h_i(t)＝(t-t₁)(t-t₂)…(t-t_M)，f_i(t)为任意离散函数；

令r_k(t)＝[r_1,k(t),r_2,k(t),…,r_n,k(t)]^T，f(t)＝[f₁(t),f₂(t),…,f_n(t)]^T，H(t)＝diag{h₁(t),h₂(t),…,h_n(t)}，Y_d(t)＝[y_d(t),y_d(t),…,y_d(t)]^T则式(4)转换成：

r_k+1(t)＝Y_d(t)+H(t)f(t), (6)

再将式(6)写成基于时间序列的形式：

r_k+1＝Y_d+Hf, (7)

其中：

r_k+1＝[r_k+1(0),r_k+1(1),…,r_k+1(N)]^T,

Y_d＝[Y_d(0),Y_d(1),…,Y_d(N)]^T,

H＝diag{H(0),H(1),…,H(N)},

f＝[f(0),f(1),…,f(N)]^T,

由于点到点跟踪是要求每次更新的目标轨迹在需要跟踪的时间点T＝{t₁,t₂,…,t_M}的值与给定期望点保持一致，即r_i,k(t_s)＝y_d(t_s)，则式(7)进一步转换成任意采样点处的目标轨迹：

r_k+1＝r_k+Hf, (8)

令f＝F(r_k-y_k)，其中F为实对角矩阵，则式(8)表示为：

r_k+1＝r_k+HF(r_k-y_k), (9)

式中，

则目标轨迹更新方法(9)变成：

r_k+1＝r_k+λ_k(r_k-y_k)， (10)

采用迭代学习控制算法对固定轨迹的跟踪要求随着迭代次数的增多，系统输出y_i,k(t)渐近收敛到固定轨迹y_d(t)，即

||y_d-y_k+1||≤||y_d-y_k||， (11)

本目标轨迹更新算法是使得新目标轨迹r_i,k(t)渐近收敛到系统输出y_k(t)，即

||r_k+1-y_k||≤||r_k-y_k||, (12)

对于点到点跟踪控制问题，采用目标轨迹更新算法r_k+1＝r_k+λ_k(r_k-y_k)，若满足||I+λ_k||＝1，且λ_k满足

则可得到||r_k+1-y_k||≤||r_k-y_k||，T表示待跟踪的时间点T＝{t₁,t₂,…,t_M}；

步骤5、为跟随者智能体设计基于目标轨迹更新的P型迭代学习方法，求解P型迭代学习方法的参数，从而实现多智能体系统在有限时间内对期望位置点完全跟踪。

2.根据权利要求1所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法，其特征在于，步骤1中，由n个不同的智能体构成的异构离散多智能体系统模型为：

和y_i,k(t)∈R^m分别表示智能体i的状态、控制输入和系统输出；

是具有相应维数的矩阵；

定义

则系统(1)以紧凑矩阵形式写成：

其中，A＝diag{A₁,A₂,…,A_n}，B＝diag{B₁,B₂,…,B_n}，C＝diag{C₁,C₂,…,C_n}；

将系统(2)转换成基于时间序列的输入输出矩阵模型：

y_k＝Pu_k+Qx_k(0), (3)

Q＝[C CA CA² CA³ … CA^N-1],

给定本发明待跟踪的时间点T＝{t₁,t₂,…,t_M}，考虑采用新控制方法实现多智能体系统对期望位置点的跟踪，即y_i,k(t_s)→y_d(t_s),s＝1,2…,M,并且有0≤t₁＜t₂＜…＜t_M≤N，其中y_d(t_s)是期望位置点；将期望位置点y_d(t_s)看成是由虚拟的领导者生成的，s＝1,2…,M；并将系统中n个智能体看作是跟随者，且只有部分跟随者智能体能直接获取领导者信息。

3.根据权利要求2所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法，其特征在于，步骤2中，使用有向图