CN114547980A

CN114547980A - 具有时变状态约束的多智能体有限时间事件触发控制方法

Info

Publication number: CN114547980A
Application number: CN202210171849.XA
Authority: CN
Inventors: 陈刚; 刘智
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-27
Anticipated expiration: 2042-02-24

Abstract

本发明涉及一种具有时变状态约束的多智能体有限时间事件触发控制方法，属于计算机领域。本发明针对存在时变非对称状态约束且部分模型未知的异构一阶非线性多智能体系统，为实现系统的状态一致性控制，采用非线性映射函数将受时变约束的状态转化为不受约束的状态，并针对该不受限制的系统设计了有限时间事件触发的控制算法。该算法不仅可以减少的通信资源的浪费，整个算法的可行性通过李雅普诺夫稳定性理论进行了证明。另外为了求得基于事件触发机制下的有限时间最优控制策略引入了强化学习算法，并结合Critic神经网络实现对未知值函数的逼近，再通过在线策略迭代求解出最优的控制策略。

Description

具有时变状态约束的多智能体有限时间事件触发控制方法

技术领域

本发明属于计算机领域，涉及具有时变状态约束的多智能体有限时间事件触发控制方法。

背景技术

在实际应用，出于安全性和性能因素的考虑，系统不可避免地会受到外部环境或其内部自身存在的某些限制，因此时常要对自身的状态进行约束，这种状态约束可以分为时不变或者时变的。对时不变状态约束，如在机器人操作系统中，为了保证机器人的稳定性，通常要将各个关节的运动速度设定在一个可靠的常值范围之内；对于时变状态约束，比如在无人驾驶系统中，要求汽车在行驶过程中的位置和速度需要时刻依据实时路况以及车流量等信息对汽车行驶的速度进行限制，因此对位置或速度的约束是要时刻跟随外界环境的变化而变化的。因此研究具有时变状态约束的控制问题具有重要的理论和应用意义。按照目前的研究，解决状态约束的方法主要分为两种，一种是障碍李雅普诺夫函数法(BLF)，该方法的主要思想是不对受约束的状态进行非线性映射，而是在选取李雅普诺夫函数时选取为障碍李雅普诺夫函数，该函数的特点是当受约束的状态趋于状态的上下限时，函数的取值会趋于无穷大，通过进一步对李雅普诺夫函数的分析就可以解决状态约束问题。另一种方式被称为非线性映射方法，该方法的思想是将受约束的状态通过某个非线性函数映射后，将受约束的状态转化为不受约束的状态，在整个变化过程中，只要保证变化后的状态施加某种限定条件(如始终保持有界)就能保证变化前后的系统等价，即可以利用映射后不受约束的状态来对系统进行分析以此来解决系统的状态约束问题。同样的，这两种方法也同样适用于求解具有非对称时变状态约束的系统，只是对于时变约束的系统采用BLF时应选取时变障碍李雅普诺夫函数。

其次在实际控制中，随着系统规模和多智能体维数的增加，计算资源的消耗也越来越大，而且各个智能体之间总是存在通信网络带宽和计算资源的限制，因此很多时候求得出的一致性控制策略往往不可行。为了延长智能体的使用寿命，减少智能体之间不必要的通信和控制器的更新，使得智能体之间可以更为有效的节省有限的传输与计算资源。因此近些年来，事件触发控制得到了广泛关注，该触发方式不同于时间触发，控制策略不是时刻跟着时间的变化而变化，而是在满足预先设定的事件触发条件时才会对控制策略进行更新，在不满足触发条件时，控制策略始终与上一个触发时刻更新的策略保持一致。这样一来，控制器就不需要无时无刻的变化，在满足性能的同时，又能极大程度上的减少通讯资源的浪费。在最近的研究当中，将分布式事件触发控制算法引入了多智能体的一致性控制当中也成为了现实，让控制策略按照根据预先设定的分布式事件触发协议更新，即能减少通信资源，也比传统的时间触发系统有更好的实时性能，分布式的方式也使得每个智能体的策略更新仅在自己的时间触发，也显著的降低了触发频率。但引入事件触发控制之后，必须要对该控制策略在触发条件满足是否会在有限时间内被无限次数的触发，这种现象我们称为Zeno行为，这是执行器所接受不了的。因此在引入事件触发控制之后，必须要对事件触发控制策略以及触发条件进行验证，证明其在任意时间内都不会使系统产Zeno行为。

为了求得基于事件触发机制下的有限时间最优控制策略，近些年来有许多学者将事件触发与最优控制方法结合起来。求解最优控制问题的最关键问题就在于对Hamilton-Jacobi-Bellman方程(HJBEs)的求解，而HJB方程由于系统维数或模型可能存在未知部分的原因，通常很难求得解析解。因此为了解决这一问题，通常会将自适应动态规划(ADP)或强化学习(Reinforcement Learning RL)结合起来，通过迭代的方式来求解HJB方程，以获得最优策略。

由于目前研究具有状态约束的问题大多数是针对单个的智能体系统而言，对多智能体系统的一致性研究较少，而且基本上考虑的都是时不变的状态约束，对具有时变非对称状态约束的考虑较少。另外在解决状态约束问题是用到的BLF方法需要根据状态受限的条件重新设计李雅普诺夫函数，导致控制器的设计过程复杂，而且绝大多数情况下只应用于状态受限的单个系统，因此本发明为了降低控制器设计的复杂程度，并且能够处理具有非对称时变状态约束的低阶且部分模型未知的非线性多智能体系统，采用了非线性映射的方式对具有时变非对称约束的状态进行处理。

另外虽然事件触发控制可以在极大程度上减少对通信资源的浪费，但大多数情况下一致性控制问题都是在无限时间收敛下来考虑的，即往往不考虑系统达到一致性的收敛速度，而往往我们想要得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性。因此本发明引入了有限时间事件触发控制，使系统既能减少通信资源的同时，也可以加快系统达到一致性的收敛速度，该收敛时间还可以根据具体需求进行人为的设定，使得事件触发控制的鲁棒性和时效性得到了有效的提高。同时为了消除事件触发控制策略所可能引起的Zeno行为，该现象是指控制策略在有限时间内被无限次数的触发，这是系统所不允许的，因此额外增加了一个自适应动态参数，通过合理设计该参数的自适应率，便可避免求得的控制策略使系统产生Zeno行为。

同时由于该算法求得的事件触发控制策略虽然可以使得多智能体系统在有限时间内到达平均状态一致性，但往往不能保证该控制策略为最优的。因此为了求解出最优策略，本发明引入了强化学习算法对最优策略进行求解，通过设置与状态误差、控制输入和当前状态有关的带折扣因子的成本函数，对该成本函数求导并结合Hamilton方程写出HJB(Hamilton–Jacobi–Bellman)方程，在根据事件触发条件以及采样误差与Hamilton方程逼近误差将HJB(event-triggered HJB)方程改写成ETHJB方程，再利用Critic神经网络对未知的值函数进行逼近，再带回到原来的ETHJB方程中，通过反复迭代，直至当前控制策略与下一步的控制方法收敛到足够小的误差项，则该策略即为想要求得的最优控制方法。

发明内容

有鉴于此，本发明的目的在于提供一种具有时变状态约束的多智能体有限时间事件触发控制方法。本发明针对存在时变非对称状态约束且部分模型未知的异构一阶非线性多智能体系统，为实现系统的状态一致性控制，采用非线性映射函数将受时变约束的状态转化为不受约束的状态，并针对该不受限制的系统设计了一种有限时间事件触发的控制算法。该算法不仅可以减少的通信资源的浪费，还使得系统具有更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性，整个算法的可行性通过李雅普诺夫稳定性理论进行了证明。另外为了求得基于事件触发机制下的有限时间最优控制策略引入了强化学习算法，并结合Critic神经网络实现对未知值函数的逼近，再通过在线策略迭代求解出最优的控制策略。

为达到上述目的，本发明提供如下技术方案：

具有时变状态约束的多智能体有限时间事件触发控制方法，该方法包括以下步骤：

S1：建立问题；

考虑如下由n个智能体组成的无领导者的非线性多智能体系统，其中每个智能体的模型表示为：

其中

为状态向量,

为控制输入，设跟随者模型中的F_i(x_i(t)):

为未知光滑的非线性函数。

局部邻居误差定义为：

定义平均状态为

跟踪误差定义为：

y_i(t)＝x_i(t)-x₀(t) (1-3)

为便于描述，将y_i(t),x_i(t),x₀(t),e_i(t)分别写为y_i,x_i,x₀,e_i，同时令x(t)＝[x₁,x₂,...,x_n]^T，e(t)＝[e₁,e₂,...,e_n]^T，得：

其中

为克罗内克积，I_n为n阶单位矩阵。

状态x₁,x₂,...,x_n且始终满足非对称时变约束，即有：

其中n为跟随者的个数，x _i(t)，

分别为受限状态的上下限，其值与时间有关，该条件对于任意时间都应该满足；在t＝0时刻要人为的设置一个足够大上界

和一个足够小的下界x _i(0)使得

满足。设上下限的导数

和

均存在。

假设系统中的F_i(x_i(t))为未知光滑的非线性函数，采用神经网络对未知的函数进行拟合，如下所示：

其中Z和O(X)分别为神经网络的输入和输出，φ(·)为基函数，W为权重系数。在本发明中，基函数φ(·)选取为双曲正切函数，具体形式如下：

将未知函数F_i(x_i(t))用神经网络替换得

F_i(x_i(t))＝W_i ^Tφ(V^TZ)+ε_i (1-9)

其中W为神经网络理想的权重系数，ε为逼近误差，且满足||ε||≤ε_m,||W‖≤W_m，ε_m,W_m均为未知的正常数，‖·‖为标准欧几里得范数。

S2：状态映射；

非线性多智能体系统的状态要始终保持在某个非对称时变约束中，采用非线性映射的方式将受事变约束的状态转换为不受约束的状态，具体过程如下：

假设x_i(t)满足以下等式，即选取如下的非线性映射函数：

对(3-2)移项再取反函数得：

其中i＝1,2,...,n，s_i为经过映射后得到的状态，不难看出，当x_i(t)趋近于上界

时有

趋于正无穷，当x_i(t)趋近于下界x _i(t)时有

趋于负无穷，即有：

经过(2-2)的映射之后，先前受时变非对称约束的状态x_i(t)转化为了不受约束的状态s_i，另外显然tan(·)在区间

上为单调递增的函数，只需要保证变化后的状态s_i在任意时刻下始终是有界的，那么就存在唯一的一个映射前的状态x_i(t)以及一组上下界与之相对应。即将该状态经过非线性映射函数映射后得到不受约束的状态s_i，对于这个不受约束的状态只需要保证该状态始终有界，就能时映射前后的系统等价，通过该状态来实现原先状态受约束系统的一致性控制。

显然s_i为与

x _i(t),x_i(t)有关的函数，因此

将(3-5)写成矩阵形式得

其中

Γ＝[Γ₁,Γ₂,...,Γ_n]^T，u＝[0,...,0,u]^T，

F(x)＝[F₁(x_i),F₂(x_i),...,F_n(x_i)]^T。

S3：设计分布式有限时间事件触发控制器

设控制策略在满足以下条件时会进行触发，控制策略为：

神经网络的自适应率

为：

其中p,q均为后续设计的控制增益常数，

为理想的神经网络权重系数，

表示第i个智能体的第k个采样时刻，且满足

上述策略更新的触发条件为：

其中d为正常数。

对该控制策略以及触发条件的可行性进行证明，实现选取如下的李雅普诺夫函数：

其中

为自定义的正定矩阵，tr(·)为矩阵的迹。

对V₀(t)沿时间t求导，具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t)。y(t)和x(t)的关系转换为：

则

为：

由于无向图的拉普拉斯矩阵的任意一行或任意一列的元素之和等于0，即有

为n维的列向量，在(3-5)式两边同乘

得

再将

代入，并将未知非线性函数F(x)用神经网络替换得：

代入神经网络的自适应率，并结合引理二知：

其中

将控制增益系数p,q分别设置为

将引理三代入上式得：

其中

由事件触发条件知，在时间

时，总有||z_i(t)||²+‖r_i(t)||²≤d||e_i(t)||²满足，即有

其中

将其带入到上式中得：

其中

在分布式控制策略(3-1)和神经网络自适应率(3-2)，以及事件触发条件(3-3)的作用下，使得系统(1-1)实现有限时间一致性。

S4：Zeno行为的消除

在控制器设计时再引入一个动态的可变参数α_i(t)，将α_i(t)的自适应率设计为：

其中α_i(t)＞0，β_i∈[0,1)为折扣因子。

神经网络的自适应率改为：

有限时间事件触发条件变为：

其中δ_i为正常数。接下来对其可行性进行证明：

对不等式两边同时取t∈[τ_n,τ_n+1)的积分，并结合引理二知：

选取李雅普诺夫函数V(t)为：

其中

为正定矩阵。对V(t)沿时间t求导，将(3-11)代入得：

将神经网络的自适应率代入上式得：

其中θ_i＝||z_i(t)||²+||r_i(t)||²-||e_i(t)||²。在

时，总有

成立，且令

代入上式并结合(1-3)得：

其中

中的最大值。在触发条件上添加动态系数之和，原来的系统仍然能达到有限时间的一致性。

接下来，则对该添加动态系数后的控制策略和触发条件是否使得系统避免Zeno行为的产生。

首先假设对于任意一个智能体i，使得

成立，其中T^*为正常数。由极限定理知，存在一个足够大的正整数N，使得k≥N(ω₀)满足，其中

令τ₁＝t^*，并对(4-9)两边同时取积分得：

当

成立时，会有：

上式表明对于任意一个智能体i的控制策略触发时间间隔

都能满足其大于0，即触发条件不能在有限时间内被无限次数的触发，避免了Zeno行为的产生。

S5：利用强化学习算法求解最优事件触发控制器

对于系统中的任一智能体，针对映射后不受非对称时变约束的状态s(t)，该智能体的动力学模型表示为：

定义该智能体在控制策略u_i(t)作用下的成本函数

为：

其中0＜γ_i＜1为折扣因子。另外引入

指数项的作用是为保证

最终一定能够达到收敛，如果没有这一负指数项，成本函数在t趋于无穷大时会发散。

其中

为可调整的正参数，Q,R均为正定矩阵。

设V_i ^*(s_i)为最优的成本函数，数学定义为：

其中

表示定义在上Ω_i所有可容许策略的集合。

要想得到最小的成本函数，则让哈密顿方程

求得的最小值等于0，即有：

其中

将

代入得HJB方程为：

定义最优控制策略为

在稳定性条件下有

对上述HJB方程两边同时对u_i求导并移项得最优策略

再将最优控制策略带回到哈密顿方程中得：

其中

V_i ^*(0)＝0。

为得到事件触发条件下的最优控制器，应该将上述的HJB方程改为ETHJB方程。假设只在事件触发的瞬间

时刻对信号进行采样，既有

其中

为s_i在

时刻的采样值。定义采样此时的误差为e_i,k

另外控制策略在事件触发条件满足的时刻应该立即更新，在触发条件不满足时应该始终和上一时刻触发时的控制策略保持一致，使用零阶保持器来实现。假设在触发时刻

下的控制策略更新为

则在

整个区间范围内，控制策略都应该保持为

假设该控制策略通过零阶保持器的输出策略为

且

满足：

在控制策略取得最优时，有：

将零阶保持器输出的最优控制策略代入到(5-7)得ETHJB方程为：

为便于后续对ETHJB方程的求解，最优控制策略

是始终满足Lipschitz条件的，既有：

其中

为正常数。

对未知的值函数进行逼近，求得最优控制策略。令：

其中

为Critic神经网络的权重系数，

为神经网络的基函数，

为逼近误差。同理得

并假设理想的神经网络权重系数为

即当

取

时，逼近误差

再将其带入到

中得：

将其带入到哈密尔顿方程中，并由于，则取二者的差值得：

其中

为使得所求得的最优控制策略更加精确，充分对历史信息进行利用，通过引入一项历史误差项来实现。设在第k₀不步之前的累计误差为历史状态

d∈{1,2,...,k₀}，其中

表示前d个状态下，第i的智能体在第k步时所产生的累计误差。

则定义总体误差E_i为，并构造以下目标函数，通过使得ε_e(t)最小化来调整critic神经网络的权重系数:

更新事件触发的条件为：

其中||E_i,T||²为事件触发条件的下限，λ_min(Q_i)为Q_i矩阵的最小特征值，

θ_i∈(0,+∞)均为可调节的参数。

取Critic神经网络权重系数的自适应为：

其中

为可调整的正参数，

接下来基于(5-8)、(5-15)和(5-19)式，利用critic神经网络实现对值函数和策略函数的同步更新，设计基于策略迭代的在线强化学习算法来求解ETHJB方程，以求解最优事件触发控制输入。

可选的，所述基于策略迭代的在线强化学习算法来求解ETHJB方程具体为：

S11：给定一个可行的执行器输入

S12：策略评估，给定初始

利用下式求解V_i ^k(s_i(t))

S13：策略改进，将V_i ^k(s_i(t))代入并更新

S14：令

返回S12直至V_i ^k(s_i(t))收敛到最小值。

一种计算机装置，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的方法。

一种计算机可读存储介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现所述的方法。

本发明的有益效果在于：

(1)本发明所设计的控制算法可用于实现具有时变非对称状态约束且系统模型部分未知的异构多智能体系统的状态平均一致性控制，即该算法对具有模型未知、多智能体、异构和时变状态约束等特性的复杂系统具有良好的分布式自适应控制能力。

(2)本发明设计了一个非线性映射函数来解决非对称时变状态约束问题，避免了需要针对不同的约束条件重新构造合适的时变障碍李雅普诺夫函数，使得控制器的设计更为简便。

(3)本发明为了减少智能体之间通信资源的浪费，引入了分布式事件触发控制算法，使得控制策略按照预先设定的事件触发协议更新，比传统的时间触发系统有更好的实时性能，分布式的方式也使得每个智能体的策略更新仅在自己的时间触发，显著的降低了触发频率。

(4)本发明为了提高一致性控制的收敛速度，获得更好的抗干扰能力以及更好的鲁棒性，将有限时间控制与事件触发相结合，实现了有限时间下的事件触发控制，并且该收敛时间可人为进行设定，有限时间下的系统稳定性也通过李雅普诺夫方法进行了证明。

(5)本发明为了避免引入有限时间事件触发控制下可能会产生的Zeno行为，在事件触发条件中添加了一项自适应参数，通过自适应的调整该参数并结合合适的神经网络自适应率便能在整个过程中避免Zeno行为的发生。

(6)本发明为了求得基于事件触发机制下的有限时间最优控制策略，引入了在线强化学习算法，通过Critic神经网络实现对未知值函数的逼近，再利用在线策略迭代的方式完成对ETHJB方程的求解，从而求得最优控制策略。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为状态x_i至状态s_i的映射示意图；

图2为系统转换示意图；

图3为具有时变状态约束的多智能体系统有限时间事件触发控制算法框图；

图4为强化学习算法求解ETC方案的结构框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，为一种具有时变状态约束的多智能体有限时间事件触发控制方法。

该方法的主要步骤是，针对受非对称时变约束的状态，通过非线性映射函数对该受限状态进行映射，使其不再受约束。之后只要保证映射后的状态始终有界，就能通过对该不受约束的状态来实现对多智能体系统的一致性控制。为了降低通信资源的浪费，引入了事件触发控制，同时为了得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性，将事件触发控制与有限时间结合起来，使得系统最终能在有限时间之内通过事件触发控制实现平均状态一致性。最后为了求解出基于事件触发机制下的最优控制策略，引入了强化学习，通过Critic神经网络对未知的值函数进行逼近，以此来求解事件触发控制下的ETHJB方程，再通过策略迭代，求解出最优控制策略。在算法的设计过程中，会反复使用到下面三个引理，因此在分析之前写出，引理内容如下：

引理一：对于一个无向通信拓扑图G，存在以下特性：

1.L为无向图的拉普拉斯矩阵，可知拉普拉斯矩阵最少有一个0特征根，且特征值可以升序排列为0＝λ₁＜λ₂＜...＜λ_n，其中λ₂为第二小的特征根；

2.

其中x＝[x₁,x₂,...,x_N]^T；

3.假设

既有x^TLx≥λ₂x^Tx；

引理二：考虑如下系统

其中f:D→Rⁿ是在原点的开邻域上连续的，如果存在一个连续可微的函数V:

在邻域

上当t≥0时总能保持正定，即连续函数V(x)满足以下条件：

①V(x)正定；

②

在x≠0处负定；

若V的导数满足：

其中

h＞2,b为设定的负常数τ_n+1＝τ_n+t^*,τ₀＝0,，则上述系统可实现预设时间的稳定，若邻域

则能实现系统在全局范围内的有限时间稳定，并且稳定时间可由t^*下式给出：

引理三：存在正常数ρ，使得：

1.问题描述

考虑如下由n个智能体组成的无领导者的非线性多智能体系统，其中每个智能体的模型可表示为：

其中

为状态向量,

为控制输入，假设跟随者模型中的F_i(x_i(t)):

为未知光滑的非线性函数。

局部邻居误差定义为：

考虑该多智能体系统的平均一致性，即定义平均状态为

所以跟踪误差可定义为：

y_i(t)＝x_i(t)-x₀(t) (1-3)

为了便于描述，将y_i(t),x_i(t),x₀(t),e_i(t)分别写为y_i,x_i,x₀,e_i，同时令x(t)＝[x₁,x₂,...,x_n]^T，e(t)＝[e₁,e₂,...,e_n]^T，得：

其中

为克罗内克积，I_n为n阶单位矩阵。

状态x₁,x₂,...,x_n且始终满足非对称时变约束，即有：

其中n为跟随者的个数，x _i(t)，

分别为受限状态的上下限，其值与时间有关，该条件对于任意时间都应该满足，特别的，在t＝0时刻要人为的设置一个足够大上界

和一个足够小的下界x _i(0)使得

满足。另外，为了便于后续控制器的设计，我们假设上下限的导数

和

均存在。

另外，由于假设系统中的F_i(x_i(t))为未知光滑的非线性函数，因此需要采用神经网络对未知的函数进行拟合，如下所示：

因此将未知函数F_i(x_i(t))用神经网络替换得

F_i(x_i(t))＝W_i ^Tφ(V^TZ)+ε_i (1-9)

其中W为神经网络理想的权重系数，ε为逼近误差，且满足||ε||≤ε_m,||W||≤W_m，ε_m,W_m均为未知的正常数，||·||为标准欧几里得范数。

2：状态映射

由上述分析可知，该非线性多智能体系统的状态要始终保持在某个非对称时变约束中，因此采用非线性映射的方式将受事变约束的状态转换为不受约束的状态，具体过程如下：

假设x_i(t)满足以下等式，即选取如下的非线性映射函数：

对(3-2)移项再取反函数得：

时有

趋于正无穷，当x_i(t)趋近于下界x _i(t)时有

趋于负无穷，即有：

上为单调递增的函数，因此只需要保证变化后的状态s_i在任意时刻下始终是有界的，那么就存在唯一的一个映射前的状态x_i(t)以及一组上下界与之相对应。即将该状态经过非线性映射函数映射后可得到不受约束的状态s_i，对于这个不受约束的状态我们只需要保证该状态始终有界，就能时映射前后的系统等价，即可以通过该状态来实现原先状态受约束系统的一致性控制。

显然s_i为与

x _i(t),x_i(t)有关的函数，因此

将(3-5)写成矩阵形式得

其中

Γ＝[Γ₁,Γ₂,...,Γ_n]^T，u＝[0,...,0,u]^T，

F(x)＝[F₁(x_i),F₂(x_i),...,F_n(x_i)]^T。

3.分布式有限时间事件触发控制器设计

在实际的多智能体系统一致性控制中，随着系统规模和多智能体维数的增加，计算资源的消耗也越来越大，而且各个智能体之间总是存在通信网络带宽和计算资源的限制，因此很多时候求得出的一致性控制策略往往不可行。为了延长智能体的使用寿命，减少智能体之间不必要的通信和控制器的更新，使得智能体之间可以更为有效的节省有限的传输与计算资源，将分布式事件触发控制算法引入了多智能体的一致性控制当中，控制策略按照预先设定的事件触发协议更新，即能减少通信资源，也比传统的时间触发系统有更好的实时性能，分布式的方式也使得每个智能体的策略更新仅在自己的时间触发，也显著的降低了触发频率。

另外在实际控制中，大多数一致性控制问题都是在无限时间收敛下来考虑的，而往往我们想要得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性，因此实现多智能体有限时间一致性控制具有重要意义。因此，为实现多智能体系统的有限时间一致性，并为了减少通信资源的浪费以及策略更新的频率，设计了一种分布式有限时间事件触发控制器。

假设控制策略在满足以下条件时会进行触发，控制策略为：

神经网络的自适应率

为：

其中p,q均为后续设计的控制增益常数，

为理想的神经网络权重系数，

表示第i个智能体的第k个采样时刻，且满足

上述策略更新的触发条件为：

其中d为正常数。

下面对该控制策略以及触发条件的可行性进行证明，实现选取如下的李雅普诺夫函数：

其中

为自定义的正定矩阵，tr(·)为矩阵的迹。

对V₀(t)沿时间t求导，且由第二部分可知，具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t)。因此y(t)和x(t)的关系可转换为：

则

为：

为n维的列向量，在(3-5)式两边同乘

得

再将

代入，并将未知非线性函数F(x)用神经网络替换得：

由神经网络的自适应率代入，并结合引理二可知：

其中

将控制增益系数p,q分别设置为

将引理三代入上式可得：

其中

由事件触发条件可知，在时间

时，总有||z_i(t)||²+||r_i(t)||²≤d‖e_i(t)‖²满足，即有

其中

将其带入到上式中可得：

其中

根据引理三可知，在分布式控制策略(3-1)和神经网络自适应率(3-2)，以及事件触发条件(3-3)的作用下，可以使得系统(1-1)实现有限时间一致性。

四：Zeno行为的消除

由第三部分可知，多智能体系统的一致性已经可以得到保证，但在事件触发机制的作用下，通常还需要考虑是否会引起Zeno行为，该现象是指控制策略在有限时间内被无限次数的触发，这肯定是我们不想要的，也是执行器无法接受的，因此必须要验证该控制策略是否会使得系统产生Zeno行为。

为了避免系统Zeno现象的产生，在控制器设计时再引入一个可以动态的可变参数α_i(t)，将α_i(t)的自适应率设计为：

其中α_i(t)＞0，β_i∈[0,1)为折扣因子。

神经网络的自适应率改为：

有限时间事件触发条件变为：

其中δ_i为正常数。接下来对其可行性进行证明：

对不等式两边同时取t∈[τ_n,τ_n+1)的积分，并结合引理二可知：

选取李雅普诺夫函数V(t)为：

其中

为正定矩阵。对V(t)沿时间t求导，将(3-11)代入可得：

将神经网络的自适应率代入上式可得：

其中θ_i＝‖z_i(t)‖²+||r_i(t)||²-||e_i(t)||²。又因为在

时，总有

成立，且令

代入上式并结合(1-3)可得：

其中

中的最大值。由引理二知，在触发条件上添加了动态系数之和，原来的系统仍然能达到有限时间的一致性。

接下来，则对该添加动态系数后的控制策略和触发条件是否可以使得系统避免Zeno行为的产生。

首先假设对于任意一个智能体i，使得

成立，其中T^*为正常数。由极限定理可知，存在一个足够大的正整数N，使得k≥N(ω₀)满足，其中

令τ₁＝t^*，由引理二，并对(4-9)两边同时取积分可得：

可以证明，当

成立时，会有：

上式表明对于任意一个智能体i的控制策略触发时间间隔

五：强化学习算法求解最优事件触发控制器

由第四部分可知，我们给出的控制器可以使得系统实现一致性，但却不能保证该控制策略是最优的。强化学习(reinforcement learning,RL)不是采用预先设计好的动作，而是通过与环境通信来寻求协调协议，使每一个智能体逐渐了解周围的环境，并在探索的过程中不断完善自身的策略。此外，强化学习在求解HJB方程时表现出色，特别是在系统动力学模型部分或者完全未知时。强化学习方法的关键是通过策略迭代(PI)算法或值迭代(VI)在线学习HJB方程的解，其中控制器和成本函数分别由actor-critic神经网络进行逼近。因此在本节中引入了强化学习算法来求得最优事件触发问题中的HJB方程，以获得最优的事件触发策略。具体实现步骤如下：

对于系统中的任一智能体，针对映射后不受非对称时变约束的状态s(t)，该智能体的动力学模型可表示为：

定义该智能体在控制策略u_i(t)作用下的成本函数

为：

其中0＜γ_i＜1为折扣因子。另外引入

指数项的作用是为了保证

其中

为可调整的正参数，Q,R均为正定矩阵。

设V_i ^*(s_i)为最优的成本函数，数学定义为：

其中

表示定义在上Ω_i所有可容许策略的集合。

要想得到最小的成本函数，应该让哈密顿方程

求得的最小值等于0，即有：

其中

将

代入可得HJB方程为：

定义最优控制策略为

在稳定性条件下有

对上述HJB(Hamilton–Jacobi–Bellman)方程两边同时对u_i求导并移项可得最优策略

再将最优控制策略带回到哈密顿方程中可得：

其中

V_i ^*(0)＝0。

为了得到事件触发条件下的最优控制器，应该将上述的HJB方程改为ETHJB(event-triggered HJB)方程。假设我们只在事件触发的瞬间

时刻对信号进行采样，既有

其中

为s_i在

时刻的采样值。定义采样此时的误差为e_i,k

另外控制策略在事件触发条件满足的时刻应该立即更新，在触发条件不满足时应该始终和上一时刻触发时的控制策略保持一致，通常可以使用零阶保持器来实现。假设在触发时刻

下的控制策略更新为

则在

整个区间范围内，控制策略都应该保持为

即可假设该策略通过零阶保持器的输出策略为

且

满足：

同样的在控制策略取得最优时，也有：

将零阶保持器输出的最优控制策略代入到(5-7)可得ETHJB方程为：

为了便于后续对ETHJB方程的求解，这里假设最优控制策略

是始终满足Lipschitz条件的，既有：

其中

为正常数。

接下来引入Critic神经网络对未知的值函数进行逼近，以此来求解ETHJB方程，这里不需要引入Actor神经网络对控制策略进行逼近是因为显然控制策略只与值函数以及一项已知正定矩阵与常数项组成。因此只需要对未知的值函数进行逼近，就能进而求得最优控制策略。令：

其中

为Critic神经网络的权重系数，

为神经网络的基函数，

为逼近误差。同理可得

并假设理想的神经网络权重系数为

即当

取

时，逼近误差

再将其带入到

中可得：

将其带入到哈密尔顿方程中，并由于，则取二者的差值可得：

其中

另外为了使得所求得的最优控制策略更加精确，可以充分对历史信息进行利用，通过引入了一项历史误差项来实现。假设在第k₀不步之前的累计误差为历史状态

d∈{1,2,...,k₀}，其中

则可定义总体误差E_i为，并构造以下目标函数，通过使得ε₆(t)最小化来调整critic神经网络的权重系数:

更新事件触发的条件为：

θ_i∈(0,+∞)均为可调节的参数。

取Critic神经网络权重系数的自适应为：

其中

为可调整的正参数，

接下来基于(5-8)、(5-15)和(5-19)式，利用critic神经网络实现对值函数和策略函数的同步更新,设计一种基于策略迭代的在线强化学习算法来求解ETHJB方程,以求解最优事件触发控制输入。

方法结构框图如图4所示。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.具有时变状态约束的多智能体有限时间事件触发控制方法，其特征在于：该方法包括以下步骤：

S1：建立问题；

其中

为状态向量,

为控制输入，设跟随者模型中的

为未知光滑的非线性函数；

局部邻居误差定义为：

定义平均状态为

跟踪误差定义为：

y_i(t)＝x_i(t)-x₀(t) (1-3)

其中

为克罗内克积，I_n为n阶单位矩阵；

状态x₁,x₂,...,x_n且始终满足非对称时变约束，即有：

其中n为跟随者的个数，x_i(t)，

分别为受限状态的上下限，其值与时间有关，该约束对于任意时间都满足；在t＝0时刻要人为的设置一个足够大上界

和一个足够小的下界x _i(0)使得

满足；设上下限的导数

和

均存在；

其中Z和O(X)分别为神经网络的输入和输出，φ(·)为基函数，W为权重系数；在本发明中，基函数φ(·)选取为双曲正切函数，具体形式如下：

将未知函数F_i(x_i(t))用神经网络替换得

F_i(x_i(t))＝W_i ^Tφ(V^TZ)+ε_i (1-9)

其中W为神经网络理想的权重系数，ε为逼近误差，且满足||ε||≤ε_m,||W||≤W_m，ε_m,W_m均为未知的正常数，||·||为标准欧几里得范数；

S2：状态映射；

假设x_i(t)满足以下等式，即选取如下的非线性映射函数：

对(3-2)移项再取反函数得：

时有

趋于正无穷，当x_i(t)趋近于下界x _i(t)时有

趋于负无穷，即有：

上为单调递增的函数，只需要保证变化后的状态s_i在任意时刻下始终是有界的，那么就存在唯一的一个映射前的状态x_i(t)以及一组上下界与之相对应；即将该状态经过非线性映射函数映射后得到不受约束的状态s_i，对于这个不受约束的状态只需要保证该状态始终有界，就能时映射前后的系统等价，通过该状态来实现原先状态受约束系统的一致性控制；

显然s_i为与

x _i(t),x_i(t)有关的函数，因此

将(3-5)写成矩阵形式得

其中

Γ＝[Γ₁,Γ₂,...,Γ_n]^T，u＝[0,...,0,u]^T，

F(x)＝[F₁(x_i),F₂(x_i),...,F_n(x_i)]^T；

S3：设计分布式有限时间事件触发控制器

设控制策略在满足以下条件时会进行触发，控制策略为：

神经网络的自适应率

为：

其中p,q均为后续设计的控制增益常数，

为理想的神经网络权重系数，

表示第i个智能体的第k个采样时刻，且满足

上述策略更新的触发条件为：

其中d为正常数；

其中

为自定义的正定矩阵，tr(·)为矩阵的迹；

对V₀(t)沿时间t求导，具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t)；y(t)和x(t)的关系转换为：

则

为：

为n维的列向量，在(3-5)式两边同乘

得

再将

代入，并将未知非线性函数F(x)用神经网络替换得：

代入神经网络的自适应率，并结合引理二知：

其中

将控制增益系数p,q分别设置为

将引理三代入上式得：

其中

由事件触发条件知，在时间

时，总有||z_i(t)||²+||r_i(t)||²≤d||e_i(t)||²满足，即有

其中

将其带入到上式中得：

其中

在分布式控制策略(3-1)和神经网络自适应率(3-2)，以及事件触发条件(3-3)的作用下，使得系统(1-1)实现有限时间一致性；

S4：Zeno行为的消除

其中α_i(t)＞0，β_i∈[0,1)为折扣因子；

神经网络的自适应率改为：

有限时间事件触发条件变为：

其中δ_i为正常数；接下来对其可行性进行证明：

选取李雅普诺夫函数V(t)为：

其中

为正定矩阵；对V(t)沿时间t求导，将(3-11)代入得：

将神经网络的自适应率代入上式得：

其中θ_i＝||z_i(t)||²+||r_i(t)||²-||e_i(t)||²；在

时，总有

成立，且令

代入上式并结合(1-3)得：

其中

中的最大值；在触发条件上添加动态系数之和，原来的系统仍然能达到有限时间的一致性；

接下来，则对该添加动态系数后的控制策略和触发条件是否使得系统避免Zeno行为的产生；

首先假设对于任意一个智能体i，使得

成立，其中T^*为正常数；由极限定理知，存在一个足够大的正整数N，使得k≥N(ω₀)满足，其中

令τ₁＝t^*，并对(4-9)两边同时取积分得：

当

成立时，会有：

上式表明对于任意一个智能体i的控制策略触发时间间隔

都能满足其大于0，即触发条件不能在有限时间内被无限次数的触发，避免了Zeno行为的产生；

S5：利用强化学习算法求解最优事件触发控制器

定义该智能体在控制策略u_i(t)作用下的成本函数

为：

其中0＜γ_i＜1为折扣因子；另外引入

指数项的作用是为保证

最终一定能够达到收敛，如果没有这一负指数项，成本函数在t趋于无穷大时会发散；

其中

为可调整的正参数，Q,R均为正定矩阵；

设V_i ^*(s_i)为最优的成本函数，数学定义为：

其中

表示定义在上Ω_i所有可容许策略的集合；

要想得到最小的成本函数，则让哈密顿方程

求得的最小值等于0，即有：

其中

将

代入得HJB方程为：

定义最优控制策略为

在稳定性条件下有

对上述HJB方程两边同时对u_i求导并移项得最优策略

再将最优控制策略带回到哈密顿方程中得：

其中

为得到事件触发条件下的最优控制器，将HJB方程改为ETHJB方程；假设只在事件触发的瞬间

时刻对信号进行采样，既有

其中

为s_i在

时刻的采样值；定义采样此时的误差为e_i,k

另外，控制策略在事件触发条件满足时，立即更新，在触发条件不满足时始终和上一时刻触发时的控制策略保持一致，使用零阶保持器来实现；假设在触发时刻

下的控制策略更新为

则在

整个区间范围内，控制策略保持为

假设该控制策略通过零阶保持器的输出策略为

且

满足：

在控制策略取得最优时，有：

将零阶保持器输出的最优控制策略代入到(5-7)得ETHJB方程为：

为便于后续对ETHJB方程的求解，最优控制策略

是始终满足Lipschitz条件的，既有：

其中

为正常数；

对未知的值函数进行逼近，求得最优控制策略；令：

其中

为Critic神经网络的权重系数，

为神经网络的基函数，

为逼近误差；同理得

并假设理想的神经网络权重系数为

即当

取

时，逼近误差

再将其带入到

中得：

将其带入到哈密尔顿方程中，并由于，则取二者的差值得：

其中

为使得所求得的最优控制策略更加精确，充分对历史信息进行利用，通过引入一项历史误差项来实现；设在第k₀不步之前的累计误差为历史状态

其中

表示前d个状态下，第i的智能体在第k步时所产生的累计误差；

则定义总体误差E_i为，并构造以下目标函数，通过使得ε_θ(t)最小化来调整critic神经网络的权重系数:

更新事件触发的条件为：

θ_i∈(0,+∞)均为可调节的参数；

取Critic神经网络权重系数的自适应为：

其中

为可调整的正参数，

2.根据权利要求1所述的具有时变状态约束的多智能体有限时间事件触发控制方法，其特征在于：所述基于策略迭代的在线强化学习算法来求解ETHJB方程具体为：

S11：给定一个可行的执行器输入

S12：策略评估，给定初始

利用下式求解V_i ^k(s_i(t))

S13：策略改进，将V_i ^k(s_i(t))代入并更新

S14：令

返回S12直至V_i ^k(s_i(t))收敛到最小值。

3.一种计算机装置，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-2任一项所述的方法。

4.一种计算机可读存储介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-2任一项所述的方法。