CN112526886A

CN112526886A - 随机试验长度下离散多智能体系统迭代学习编队控制方法

Info

Publication number: CN112526886A
Application number: CN202011442840.5A
Authority: CN
Inventors: 刘杨; 凡益民; 贾英民
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-19

Abstract

本发明属于多无人机或者多机器人系统的编队任务领域，特别涉及一种随机试验长度下离散多智能体系统迭代学习编队控制方法，包括步骤：将多智能体协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题；设计分布式P型迭代学习控制器；利用λ范数对设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析，并求解增益矩阵；对两种情况下的收敛性分析证明进行仿真验证。本发明通过定义与给定编队队形有关的修正状态误差，放松了每次迭代试验长度一致的条件，与单个智能体的现有结果相比，本发明在计算增益矩阵时也更为方便。

Description

随机试验长度下离散多智能体系统迭代学习编队控制方法

技术领域

本发明属于多无人机或者多机器人系统的编队任务领域，特别涉及一种随机试验长度下离散多智能体系统迭代学习编队控制方法。

背景技术

在工业领域中，当一组车辆或移动机器人协作以给定的形式重复运输非常大且重的物体时，它们必须在整个运输过程中(从规定的起始位置到指定位置)保持所需的队形。目前可以通过应用迭代学习控制(ILC)方法解决上述在整个运动过程中都需要维持编队队形的问题。

在最近的研究中，Z.Chun等人(见“Adaptive learning tracking for robotmanipulators with varying trial lengths,”J.Franklin Inst.Eng.Appl.Math.,vol.356,no.12,pp.5993–6014,2019)考虑了机器人操纵器系统的自适应学习控制，其中操作长度随迭代次数的不同而随机变化。R.W.Longman and K.D.Mombaur(见“Investigatingthe use of iterative learning control and repetitive control to implementperiodic gaits,”Lecture Notes Control Inform.Sci.,vol.340,pp.189--218,2006)将ILC策略应用于人形机器人和两足动物步行机器人，在学习过程中，每次迭代周期的时长通常都不相同。由于复杂的因素和未知的动力学因素，单个智能体(例如移动机器人)的学习过程无法保证每次迭代的试验时间相同。而在先前的机器人编队研究中，要求对于所有迭代，每个机器人的运行时间必须是固定的。事实上，如果一个机器人在给定的终端时间之前结束其当前的学习试验，那么整个网络系统的迭代过程将停止，以确保在多个机器人之间始终保持给定的编队结构。因此，将迭代学习方法用于多智能体系统的协同控制时，每次迭代的实际试验长度可能会随机变化。

D.Shen等人(见“Iterative learning control for discrete nonlinearsystems with randomly iteration varying lengths,”Syst.Contr.Lett.,vol.96,pp.81–87,2016)和L.Wang等人(见“Sampled-data iterative learning control forcontinuous-time nonlinear systems with iteration-varying lengths,”Int.J.Robust Nonlin.Contr.,doi:10.1002/rnc.4066,2018)针对试验长度随机变化的系统，处理了随机过程中的概率问题，但求解增益矩阵非常困难。此外，在现有的多智能体编队学习问题研究中(见本申请人的“An iterative learning approach to formationcontrol of multi-agent systems,’Syst.Contr.Lett.,vol.61,no.1,pp.148–154,2012；和“Robust formation control of discrete-time multi-agent systems by iterativelearning approach,”Int.J.Syst.Sci.,vol.46,no.4,pp.625–633,2015.)，均没有考虑到诸如移动机器人之类的每个智能体无法保证每次迭代学习试验长度相同的问题。

发明内容

为此，本发明提出一种随机试验长度下离散多智能体系统迭代学习编队控制方法，本方法通过定义与给定多智能体队形有关的修正状态误差，放松了每次迭代试验长度一致的条件，与单个智能体的现有结果相比，本发明在计算增益矩阵时更为方便。

为了实现上述目的，本发明提供的一种随机试验长度下离散多智能体系统迭代学习编队控制方法，包括如下步骤：

S1：将多智能体协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题；

S2：设计分布式P型迭代学习控制器；

S3：利用λ范数对步骤S2中设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析，并求解增益矩阵；

S4：对步骤S3的分析结果进行仿真验证。

进一步，步骤S1具体过程为：

定义一个由n个智能体组成的离散时间多智能体系统：

x_k,j(t+1)＝f(x_k,j(t))+B(t)u_k,j(t)，k＝0,1,2,…；j＝1,…,n, (1)

其中，t＝0,1,...,T_d是离散时间，T_d为期望时间长度，k是离散迭代次数；x_k,j(t)∈R^m是第k次迭代时刻t的智能体j的状态；

是第k次迭代时刻t的控制输入或方案；f(x_k,j(t))∈R^m是一个未知的向量值非线性连续函数；B(t)是系统矩阵，

令T_k表示第k次迭代的实际迭代运行长度，仅考虑0到T_k的迭代过程，将式(1)变为：

其中，列向量x_k(t)∈R^nm和

由x_k,j(t)和u_k,j(t),j＝1,...,n分别形成；F(x_k(t))＝[f^T(x_k,1(t))…f^T(x_k,n(t))]^T。

进一步，步骤S2具体过程为：

首先作出如下三个假设：

假设1：连续函数f(x_k,l(t))在x_k,l(t)中是全局Lipschitz，即满足：

||f(x_k+1,l(t))-f(x_k,l(t))||≤k_f||x_k+1,l(t)-x_k,l(t)||

其中，k_f为Lipschitz常数，进而

||F(x_k+1(t))-F(x_k(t))||≤k_f||x_k+1(t)-x_k(t)|| (3)

假设2：第k次迭代的初始状态由x_k(0)＝x₀,

表示，其中x₀是任意给定的点，即初始偏移对于每次迭代都是固定的；

假设3：第k次迭代的初始状态由

表示，其中ξ是一个正常数，即每次迭代的初始偏移都在给定区域中变化；

基于上述三个假设条件，单个智能体的状态误差当且仅当满足下式(4)和(5)时，多智能体系统(1)在整个运动过程中实现了期望的编队控制目标，

e_j(t)＝x_j(t)-d_j(t) (5)

其中，e_j(t)是智能体j的状态误差，j＝1,...,n，N＝{1,2,...,n}；x_j(t)为第j个智能体的状态，d_j(t)表示智能体j到公共虚拟领导者的期望相对状态；令

e(t)为n个智能体状态误差的紧凑矩阵形式，

定义新变量y_j(t)，将式(4)和(5)转化为另一个降阶系统(6)的渐近稳定性问题，

y_j(t)＝e₁(t)-e_j+1(t),j＝1,…,n-1. (6)

将式(6)表示为

然后得出

以及

其中

当且仅当y(t)＝0时，式(4)成立，

假设在时间t有输出的概率为p(t)，如果0＜t≤T_min，则p(t)＝1，T_min是第k次迭代的实际迭代运行最小长度；如果T_min+1≤t≤T_d，则0＜p(t)＜1，并且p(T_min)＞p(T_min+1)＞…＞p(T_d)，

记第k次迭代时的实际迭代运行长度为T_k的事件为

事件

的发生概率

则

其中，p(T_k)是第k次迭代时的实际迭代运行长度为T_k的概率，P(A_t)是事件A_t发生的概率，

定义一个示性函数1(t≤T_k)，使其遵守伯努利分布，以解决由每次迭代的迭代长度的随机性引起的问题，对于给定时刻t≤T_min，等式1(t≤T_k)＝1代表迭代学习过程一直持续到时刻t，并且发生的概率p(t)＝1；对于给定时刻t＞T_min，时间的集合{t≤T_k}包含{T_k＝t},{T_k＝t+1},…,{T_k＝T_d}，所以

T_min＜t≤T_d，P(A_β)是事件发生的概率，β的取值范围是t到T_d，因此，P(1(t≤T_k)＝1)＝p(t)，

进一步得到，E{1(t≤T_k)}＝1·p(t)+0·(1-p(t))＝p(t)，其中E{1(t≤T_k)}表示求期望，

定义新的状态误差为：

其中，

是整个系统第k次迭代的状态误差，e_k,j(t)(j＝1,…,n)是第j个智能体在第k次迭代t时刻的状态误差；

为第k次迭代的修正误差；式(10)变为

在任何一次迭代学习过程中，交互图都可能在多智能体运动期间切换，基于ILC理论将迭代学习协议设计为

其中，u_k,l(t)是第l个智能体在第k次迭代的控制输入；

是增益矩阵；a_k+1,lj(t)是多智能体间通信拓扑的边上权重；

是第j个智能体在第k次迭代中t+1时刻的修正误差；

是第l个智能体在第k次迭代时t+1时刻的修正误差；N_k+1,l(t)是对应于第l个智能体在第k+1次迭代的离散时刻t的邻居索引集,

将式(12)写成紧凑形式：

其中，

是增益矩阵，u_k(t)是第k次迭代的控制输入；σ_k+1(t)表示图

在第k+1次迭代的切换信号函数，

表示图

的拉普拉斯矩阵，其在连续的切换时刻之间是恒定的。

进一步，步骤S3具体过程为：

1)对固定迭代初始偏移情况，进行初始状态精重置下的收敛性分析，具体过程为：

定理1：将迭代学习协议(12)应用于多智能体系统(1)，在该多智能体系统(1)中，迭代运行长度在每次迭代中随机变化，并且所述假设1和假设2成立，如果增益矩阵

满足

则变量

可以随着k→∞收敛到零，从而渐近实现了编队控制目标，其中y_k,j(t)＝e_k,1(t)-e_k,j+1(t),j＝1,…,n-1；式(14)中，sup是指数学含义的上确界：无论t取何值，范数的大小都小于1；

是信息交互图的下标集，L_i是第i个交互图的拉普拉斯矩阵；

2)对有界迭代初始偏移情况，进行初始状态随机变换下的收敛性分析，具体过程为：

定理2：将迭代学习协议(12)应用于多智能体系统(1)，在多智能体系统(1)中，迭代运行长度在每次迭代时随机变化，并且所述假设1和假设3成立，如果增益矩阵

满足

则y_k(t)可以收敛到原点的一个小邻域，其中t＝1,…,T_d,k→∞，即limsup_k→∞E||y_k(t)||≤vξ，其中v是一个常数。

本发明的有益效果：

1)本发明所设计的分布式P型迭代学习控制器，放宽了对具有切换拓扑多智能体学习系统的要求，即每个迭代试验的长度都是相同的，在工程上更加实用；

2)与单个智能体的现有结果相比，本发明在计算控制器增益矩阵时更为方便，在数学求解上更加简单。

附图说明

图1为本发明实施例的随机试验长度下离散多无人机系统迭代学习编队控制方法流程图；

图2为本发明实施例的四个无人机的切换交互图；

图3为本发明实施例的四个无人机在第1次迭代的状态轨迹图；

图4为本发明实施例的四个无人机在第25次迭代的状态轨迹图；

图5为本发明实施例的四个无人机在第100次迭代的状态轨迹图；

图6为本发明实施例的初始偏移固定情况下的编队学习过程图；

图7为本发明实施例的初始偏移变化情况下的编队学习过程图。

具体实施方式

下面结合附图和实施例进一步描述本发明，应该理解，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。本实施例以多无人机的迭代学习编队控制为例。

如图1所示，本实施例提供的随机试验长度下离散多无人机系统迭代学习编队控制方法，包括如下步骤：

S1：将多无人机协调追踪的控制问题转化为追踪误差在一定时间段内稳定性控制问题。具体过程如下：

S11：应用代数图理论中的有向图来模拟多无人机之间的交互拓扑；

令

是阶数为n的加权有向图，其中，V＝{v₁,…,v_n}为n个节点集合，v₁,...,v_n为节点；

为有向边集，在加权有向图G中，从节点v_l到节点v_j的边(v_l,v_j)表示从无人机l到无人机j发送的信息，l＝1,2,...,n，j＝1,2,...,n；

为加权邻接矩阵，a_jl为与边(v_l,v_j)相关联的邻接权重，当且仅当

时，邻接权重a_jl才是正的；无人机j的邻居集合由

表示；加权有向图G的拉普拉斯算子L定义为L＝D-A，其中D＝diag{d₁,…,d_n}，d₁,...,d_n分别为对角矩阵中的元素，

j＝1,2,...,n。为了描述变量拓扑，定义分段常数切换信号函数

其中，T_d为期望迭代周期时长，且为正数，M∈Z⁺表示可能的交互图的总数，Z⁺表示正整数。本实施例假设每个切换图都有一个生成树。

S12:将多无人机协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题；

考虑一个由n个无人机组成的离散时间多无人机系统，其中第j个无人机由以下非线性动力学方程表示

x_k,j(t+1)＝f(x_k,j(t))+B(t)u_k,j(t)，k＝0,1,2,…；j＝1,…,n, (1)

其中，t＝0,1,…T_d是离散时间，k是离散迭代次数；x_k,j(t)∈R^m是第k次迭代时刻t的无人机j的状态；

是第k次迭代时刻t的控制输入或方案；f(x_k,j(t))∈R^m是一个未知的向量值非线性连续函数；B(t)是输入矩阵。

令T_k表示第k次迭代的实际迭代运行长度，其最小长度和最大长度分别由T_min和T_max表示。这意味着每次迭代的实际长度在{T_min，T_min+1，…，T_max}内变化，可能大于或小于期望时间长度T_d(T_d∈[T_min,T_max])。因此，多无人机协调追踪的迭代学习控制问题在于每次迭代时长都是随机的。另外，在编队控制中，所有无人机的实际迭代运行长度相等，即每个无人机的实际迭代运行长度等于多个无人机中最先结束迭代过程的无人机的运行长度。

基于以上描述，本发明需要考虑两种情况：实际迭代时长小于期望时间长度，即T_k＜T_d，以及实际时长大于等于期望时间长度，即T_k≥T_d。对于后一种情况，实际长度大于期望时间长度T_d的部分不会对实际学习过程有所帮助，所以通常，后一种情况可以认为是T_k＝T_d。当T_k＜T_d时，从时刻T_k+1到T_d的输出丢失，并且对学习更新没有帮助。因此，本实施例仅考虑0到T_k迭代过程中的效果。

将式(1)变为如下紧凑形式：

其中，列向量x_k(t)∈R^nm和

由x_k,j(t)和u_k,j(t)(j＝1,…,n)分别形成，同样F(x_k(t))＝[f^T(x_k,1(t))…f^T(x_k,n(t))]^T。

S2：设计分布式P型迭代学习控制器；

基于建模分析和实际应用，本实施例作如下三个假设：

假设1：连续函数f(x_k,l(t))在x_k,l(t)中是全局Lipschitz，即满足

||f(x_k+1,l(t))-f(x_k,l(t))||≤k_f||x_k+1,l(t)-x_k,l(t)||

其中，k_f为Lipschitz常数，进而

||F(x_k+1(t))-F(x_k(t))||≤k_f||x_k+1(t)-x_k(t)|| (3)

假设2：第k次迭代的初始状态由x_k(0)＝x₀,

表示，其中x₀是任意给定的点，即初始偏移对于每次迭代都是固定的。

假设3：第k次迭代的初始状态由

表示，其中ξ是一个正常数，也就是说，每次迭代的初始偏移都在给定区域中变化。

具体而言，多无人机系统(1)在整个运动过程中实现了期望的编队控制目标，当且仅当

e_j(t)＝x_j(t)-d_j(t) (5)

其中，e_j(t)是无人机j的状态误差，j＝1,…,n，N＝{1,2,...,n}；x_j(t)为第j个无人机的状态；，d_j(t)表示无人机j到公共虚拟领导者的期望相对状态，这意味着所有无人机对其状态误差的一致性可以保证准确的编队队形。令

e(t)为n个无人机状态误差的紧凑矩阵形式。

通过定义新变量y_j(t)，可以将上述关于状态误差(式(4)和(5))的问题转化为另一个降阶系统(6)的渐近稳定性问题。

y_j(t)＝e₁(t)-e_j+1(t),j＝1,…,n-1. (6)

将式(6)表示为

然后得出

以及

其中

显然，当且仅当y(t)＝0时，式(4)才能成立。

假设在时间t有输出的概率为p(t)，如果0＜t≤T_min，则p(t)＝1；如果T_min+1≤t≤T_d，则0＜p(t)＜1。除此之外，如果在时间t'存在一个输出信号，则对于时间t＜t'也存在输出信号。显而易见可以得到p(T_min)＞p(T_min+1)＞…＞p(T_d)。

随机变量T_k是第k次迭代时的实际迭代运行长度，它的变化范围是{T_min,T_min+1，…，T_d}。记第k次迭代时的实际迭代运行长度为T_k的事件为

其代表在有限时长0＜t≤T_k的输出是可利用的，而在时长T_k+1≤t≤T_d的输出是缺失的。因此，第k次迭代时的实际迭代运行长度为T_k的事件的发生概率

计算为

所以

通过定义一个示性函数1(t≤T_k)，使其遵守伯努利分布，可以解决由每次迭代的迭代长度的随机性引起的问题。对于给定时刻t≤T_min，等式1(t≤T_k)＝1代表迭代学习过程一直持续到时刻t，并且发生的概率p(t)＝1；对于给定时刻t＞T_min，时间的集合{t≤T_k}包含{T_k＝t},{T_k＝t+1},…,{T_k＝T_d}。所以

T_min＜t≤T_d，P(A_β)是事件发生的概率，注意β的取值范围是t到T_d。因此，P(1(t≤T_k)＝1)＝p(t)，

进一步可以得到，E{1(t≤T_k)}＝1·p(t)+0·(1-p(t))＝p(t)，其中E{1(t≤T_k)}表示函数求期望。

定义新的状态误差为：

其中，

为第k次迭代的修正误差。式(10)可以写成

在任何一次迭代学习过程中，交互图都可能在多无人机运动期间切换。基于ILC理论，可以将迭代学习协议设计为

其中，u_k,l(t)是第l个无人机在第k次迭代的控制输入；

是增益矩阵；a_k+1,lj(t)是无人机间通信拓扑的边上权重；

是第j个无人机在第k次迭代中t+1时刻的修正误差；

是第l个无人机在第k次迭代时t+1时刻的修正误差；N_k+1,l(t)对应于第l个无人机在第k+1次迭代的离散时间t的邻居索引集。

将式(12)写成紧凑形式：

其中，

是增益矩阵，u_k(t)是第k次迭代的控制输入；σ_k+1(t)表示图

在第k+1次迭代的切换信号函数，

表示图

的拉普拉斯矩阵。值得注意的是，在连续的切换时刻之间，

是恒定的。

S3：利用λ范数对步骤S2中设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析，并求解增益矩阵。本步骤针对迭代固定初始偏移和变化初始偏移两种情况，使用重新定义的具有数学期望的λ范数来导出ILC系统的完整收敛分析。

对固定迭代初始偏移情况，进行初始状态精确重置下的收敛性分析。

定理1：将迭代学习协议(12)应用于多无人机系统(1)，在该多无人机系统(1)中，迭代运行长度在每次迭代中随机变化，并且上述假设1和假设2成立。如果增益矩阵

满足

则变量

可以随着k→∞收敛到零，从而渐近实现了编队控制目标(4)。式(14)中，sup是指数学含义的上确界：无论t取何值，范数的大小都小于1；L_i是第i个交互图的拉普拉斯矩阵。

下面对上述初始状态精确重置下的收敛性分析进行证明。

证明：将式(2)和(5)代入式(7)，并观察到无人机l到公共虚拟领导者的期望相对状态d_l(t)(l＝1,...,n)在每次迭代中都是固定的，可以得出

通过式(13)，得出

将式(6)和(8)代入式(16)，可以得出结论：

因此，式(15)可以写成

因为

可以得到

其中，

从式(19)得出

将欧几里得范式应用于式(20)的两边，得到：

将式(3)，(8)，(11)和(13)代入式(2)得到

此外，可以得到

其中，

被定义为

结合式(21)和(23)并取数学期望，并且1(t≤T_k)是独立于y_k(t)，可以得到：

将式(24)的两边都乘以α^-λt并对以t为自变量的函数取上确界，得出

其中，参数α满足α≥k_f，λ为λ范数。从而可以得出：

将式(26)代入式(25)可以得到

其中，

由于任何

都属于集合{L₁,…,L_M}，因此，如果存在满足式(14)的学习增益矩阵Г，则式(14)等效为

由于0＜p(t)≤1，可以得到

所以，如果式(28)成立，可以选择足够大的λ来满足

这意味着

由于时间t的有限性，可以进一步获得

根据||y_k(t)||≥0，得出

总之，如果不等式(14)对于所有时间t都成立，则可以渐近实现所需的编队控制目标(4)。

对有界变化迭代初始偏移情况，进行初始状态随机变换下的收敛性分析。具体过程如下：

定理2：将迭代学习协议(12)应用于多无人机系统(1)，在该多无人机系统(1)中，迭代运行长度在每次迭代时随机变化，并且上述假设1和假设3成立。如果增益矩阵

满足

则y_k(t)可以收敛到原点的一个小邻域，其中t＝1,…,T_d，即limsup_k→∞E||y_k(t)||≤vξ，其中v是一个常数。

下面对上述初始状态随机变换下的收敛性分析进行证明。

与上述对初始状态精确重置下的收敛性分析证明的前半部分相似，即从式(15)到(21)的推导保持不变。之后将假设3中的不等式应用到式(22)，可以得到：

然后将式(32)代入式(21)并采用数学期望得出

将式(33)的两边乘以α^-λt并取t的最大值，可以得出

其中，

根据时间t的有限性，是能够选择一个参数μ满足

并有

||y_k+1(t)||_λ≤η||y_k(t)||_λ+μξ (35)

因此，从式(35)中可以得到：

进一步得到

其中，

当本实施例的多无人机系统(1)带有时不变输入矩阵B时，可以根据定理1和定理2建立如下推论：

将迭代学习协议(12)应用于具有B(t)≡B的多无人机系统(1)。如果

则增益矩阵

满足

则在假设2下渐近实现了所需要的编队控制目标(4)，或者在假设3下

成立。

下面对上述推论进行证明：

当加权有向图G是连通图时，矩阵-SLH是Hurwitz稳定的，因此始终可以设计一个合适的增益矩阵以满足当B(t)≡B时的条件(14)。

基于式(14)与B(t)≡B，可以得出

然后结合式(14)和(37)得到

||PP^T||＜||P||||P^T||＜1 (38)

其中，

从不等式(8)可以得出：

PP^T＜I,PP^T-I＜0

通过参考shur补引理，可以进一步推断出

最后可以通过求解线性矩阵不等式(39)来计算出所需的增益矩阵(36)。

S4：对步骤S3的分析证明进行仿真验证。为了证明上述理论分析的效果，本实施例通过编队仿真进一步说明。

将迭代学习协议(12)应用于由四个无人机组成的多无人机系统(1)，设T_d＝100，

并且x_l(t)＝[x_l1(t)x_l2(t)]^T∈R²对应于第l个无人机的位置。所需的相对状态描述为

这表示随时间变化的矩形编队。为便于说明，考虑信息交互图无方向，并在图2中的图集G_s＝{G_a,G_b,G_c,G_d}中切换，其中每个边的权重为1。

根据式(14)，将学习增益设置为

关于假设2，选择四个无人机的初始状态，使得x₀＝[2 8 -1 1 4 3 5 9]^T。同时，让u₀(t)＝0，t＝0,…,T_d。为了方便起见，假设T_min＝90并且T_k在离散集合{90，91，…，100}中变化，满足离散均匀分布。

四个无人机在第1，25，100次迭代的状态误差轨迹e_k,l(t)＝[e_k,l(1)(t) e_k,l(2)(t)]^T(l＝1,2,3,4)展现在图3至图5中，其中随着迭代次数的增加，沿着时间轴达到了关于四个无人机状态误差的渐近共识。显然，本实施例的多无人机系统达到了式(40)给出的所需要的编队控制目标(4)，这与定理1的分析相吻合。

四个无人机关于状态误差的不一致性描述为

L_c∈R^n×n的对角线元素是

其它元素是

显然，z_k(t)＝0成立当且仅当四个无人机在状态误差上达到了一致。因此，编队误差可以表示为

它代表了状态误差不一致的能量。多无人机编队学习过程如图6所示，其中Y轴设置为||z_k(t)||₂，并使用半对数图表示，因此很容易看到最终收敛精度。显然，随着k→∞，编队误差将收敛到零。

考虑具有变化的初始状态的系统，其他条件与图6中的条件相同。对于假设3，初始状态在x₀＝[2 8 -1 1 4 3 5 9]^T的附近范围内随机变化，其满足||x_k(0)-x₀||≤4。可以清楚地看到，本发明的ILC方案仍然可以保持稳健的编队性能，如图7所示，虽然该性能不如图6中的性能。另外，编队误差将收敛到原点附近。因此，有界的初始偏移会导致有界的编队误差。

对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以对本发明的实施例做出若干变型和改进，这些都属于本发明的保护范围。

Claims

1.一种随机试验长度下离散多智能体系统迭代学习编队控制方法，其特征在于，包括步骤：

S2：设计分布式P型迭代学习控制器；

S4：对步骤S3的分析结果进行仿真验证。

2.根据权利要求1所述的方法，其特征在于，步骤S1具体过程为：

定义一个由n个智能体组成的离散时间多智能体系统：

x_k，j(t+1)＝f(x_k，j(t))+B(t)u_k，j(t)，k＝0，1，2，…；j＝1，…，n， (1)

其中，t＝0，1，...，T_d是离散时间，T_d为期望时间长度，k是离散迭代次数；x_k，j(t)∈R^m是第k次迭代时刻t的智能体j的状态；

是第k次迭代时刻t的控制输入或方案；f(x_k，j(t))∈R^m是一个未知的向量值非线性连续函数；B(t)是系统矩阵，

其中，列向量x_k(t)∈R^nm和

由x_k，j(t)和u_k，j(t)，j＝1，...，n分别形成；F(x_k(t))＝[f^T(x_k，1(t))…f^T(x_k，n(t))]^T。

3.根据权利要求2所述的方法，其特征在于，步骤S2具体过程为：

首先作出如下三个假设：

假设1：连续函数f(x_k，l(t))在x_k，l(t)中是全局Lipschitz，即满足：

||f(x_k+1，l(t))-f(x_k，l(t))||≤k_f||x_k+1，l(t)-x_k，l(t)||

其中，k_f为Lipschitz常数，进而

||F(x_k+1(t))-F(x_k(t))||≤k_f||x_k+1(t)-x_k(t)|| (3)

假设2：第k次迭代的初始状态由x_k(0)＝x₀，

假设3：第k次迭代的初始状态由

e_j(t)＝x_j(t)-d_j(t) (5)

其中，e_j(t)是智能体j的状态误差，j＝1，...，n，N＝{1，2，..，n}；x_j(t)为第j个智能体的状态，d_j(t)表示智能体j到公共虚拟领导者的期望相对状态；令

e(t)为n个智能体状态误差的紧凑矩阵形式，

y_j(t)＝e₁(t)-e_j+1(t)，j＝1，…，n-1. (6)

将式(6)表示为

然后得出

以及

其中

当且仅当y(t)＝0时，式(4)成立，

假设在时间t有输出的概率为p(t)，如果0＜t≤T_min，则p(t)＝1，T_min是第k次迭代的实际迭代运行最小长度；如果T_min+1≤t≤T_d，则0＜p(t)＜1，并且p(T_min)＞p(T_min+1)＞…＞p(T_d)，其中，p(T_min)和p(T_d)分别是在时间T_min和T_d有输出的概率，

记第k次迭代时的实际迭代运行长度为T_k的事件为AT_k，事件

的发生概率

则

定义一个示性函数1(t≤T_k)，使其遵守伯努利分布，以解决由每次迭代的迭代长度的随机性引起的问题，对于给定时刻t≤T_min，等式1(t≤T_k)＝1代表迭代学习过程一直持续到时刻t，并且发生的概率p(t)＝1；对于给定时刻t＞T_min，时间的集合{t≤T_k}包含{T_k＝t}，{T_k＝t+1}，…，{T_k＝T_d}，所以