CN114841074A

CN114841074A - 基于状态观测与经验池的非线性多智能体一致性方法

Info

Publication number: CN114841074A
Application number: CN202210540972.4A
Authority: CN
Inventors: 陈刚; 赖鑫; 黄毅卿; 胡彬; 蒲嫦莉; 颜小力; 曾元
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-02

Abstract

本发明涉及一种基于状态观测与经验池的非线性多智能体一致性方法，属于计算机领域。首先在跟随者对领导者状态无法获取的场景下，使用反步法和动态面控制法为每个智能体设计了全维观测器来观测领导者的状态。之后，一致性问题就转换成了每个跟随者对各自的领导者状态观测器的最优跟踪问题。下一步针对控输入受非对称饱和约束定义了一个非二次代价函数来处理，然后定义新的增广系统下的最优控制问题，并使用强化学习策略算法来迭代求解，并分析了策略迭代下解的稳定性和最优性。对于最优控制的HJB方程难以直接求解的困难，本发明利用神经网络良好的逼近性质，使用actor‑critic框架进行求解。

Description

基于状态观测与经验池的非线性多智能体一致性方法

技术领域

本发明属于计算机领域，涉及基于状态观测与经验池的非线性多智能体一致性方法。

背景技术

目前，多智能体系统应用场景越来越多，并且发挥着越来越重要的作用，如多机器人编队、交通控制、智能电网和多机器人SLAM等。而完成多智能体协调控制的首要目标是多智能体的一致性问题。此外通常伴随着达成一定的条件，如使达到一致过程中使用的能量最尽量小，一致过程的时间尽量短等。对于单智能体系统，已经有许多最优控制方法被提出。在多智能体场景下的最优协同控制问题，协同最优控制一般是通过解CHJB方程实现，但是由于智能体系统的非线性、智能体的系统模型可能未知以及多个智能体相互耦合，使得该方程的解难以获得解析解。针对该问题，最近这些年有许多使用自适应动态规划(ADP)的方法被提出，也有提出结合了强化学习中策略迭代、值迭代、事件触发等的ADP算法。actor-critic两个神经网络结构是在ADP中应用最多，其中actor产生控制策略，critic对控制策略进行评估并可以对策略的改变提供方向。此外，还有许多针对系统受到限制，如输入饱和，系统状态受约束等，以及智能体之间的通信受到时延的研究及算法被提出。但对于这些问题的研究并不全面，多智能体系统协同中还有存在许多需要探索的地方。

在实际应用中，面对的大部分系统都是非线性的并且常常受到执行器饱和的约束，现有的很多对与此研究都是基于执行器受到对称约束这一假设的。而在实际工程中很多系统的执行器受到的约束通常是非对称的，对于这个问题有使用开关函数的方法提出，但是由于系统的非线性使得开关函数的选取较为困难。而对于解决多智能体最优控制问题，通常是通过解CHJB方程，但是由于系统的非线性，该方程难以直接求解。因此有许多研究使用了结合强化学习和自适应控制的自适应动态规划来迭代求解该方程来获取最优控制，很多研究使用actor和critic两个神经网络来分别近似值最优控制和值函数。但是在神经网络训练迭代的过程中，训练过程的稳定以及收敛通常要求在训练过程中满足持续激励条件，但是这种要求在实际中是难以满足的。

发明内容

有鉴于此，本发明的目的在于提供一种基于状态观测与经验池的非线性多智能体一致性方法。解决算法应对执行器受非对称约束并且可以减弱PE条件对于自适应动态规划方法中神经网络训练过程存在的限制，使得训练更容易收敛及稳定，最终实现多智能体的一致性最优控制。

为达到上述目的，本发明提供如下技术方案：

基于状态观测与经验池的非线性多智能体一致性方法，包括以下步骤：

1.初始化：对每个智能体给定系统初始状态，根据(2.25)和(4.13)选取合适的参数，actor和critic权重

阈值参数p_ia，p_ic；

2.对每个智能体进行循环：

1)在经验池有N个线性无关元素的数据

之前循环：

a)按照第二部分设计的状态观测器观测领导者状态x_i(t)为s_i1(t)，并构建增广状态X_i(t)；

b)让增广系统运行一个小段时间h使得t_i+1＝t_i+h，记录

X_i(t_i)，u_i(t_i)，i＝i+1；

c)如果经验池已达到上限，提出时间最久的数据；

2)使用actor得到的控制u_i(t)，让增广系统运行一段时间，得到

X_i(t)，并计算er_i，er_ipast，根据(3.22)和(3.26)使用ode方法更critic

和actor

3)如果

停止循环。

本发明的有益效果在于：

1、本发明设计的在线自适应算法可以实现多智能体领导者跟随者一致性控制，在稳定系统的同时能使神经网络参数一致有界；

2、本发明在跟随者对领导者状态不易获取的场景下，为每个智能体设计了全维观测器来观测领导者的状态，将问题转换成了每个跟随者对各自的领导者状态观测器的最优跟踪问题，简化了问题场景；

3、本发明针对反步法在系统模型阶次变高时需要反复求导出现的“微分爆炸”问题，结合动态面控制法来设计观测器，降低了问题复杂性；

4、本发明对于执行器存在的非对称输入饱和限制，通过在目标函数中引入一种修正过的双曲正切函数来处理这种约束，解决非对称输入饱和限制问题，避免了使用开关函数来处理非对称约束带来的构造困难；

5、实际中很多情况下面对的都是受到不对称输入约束的系统，提出的约束处理方案相比于对称饱和输入限制下的处理适用于更广泛的动力系统，更贴切于实际应用；

6、本发明使用了过往数据构成的经验池来减弱持续激励条件，将过去的数据和当前的数据结合应用于训练过程，不仅减弱了持续激励条件还有利于算法的收敛；

7、本发明中通过在actor网络中增加一个鲁棒项来移除actor-critic两个神经网络的逼近误差给系统稳定性带来的影响，并分析证明了算法在一定条件下的稳定性和收敛性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明原理图；

图2为状态观测器设计流程；

图3为本发明总体流程图；

图4为领导者跟随者一致性转化为跟踪问题示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，本发明主要由下面四部分组成：问题描述、领导者状态观测器设计、基于观测器的多智能体控制器设计与分析和算法稳定性分析。下面将依次介绍：

第一部分问题描述

考虑一类由一个领导者和N个跟随者组成的多智能体系统，领导者的动态模型为：

其中

为领导者的状态，

为领导者的内部函数，假设其未知、可微且有界||f(x₀)||≤ρ₀，其中ρ0为未知常数；第i(i＝1，2，3，…,N)个跟随者的动态模型为：

其中

和

分别为第i个跟随者的状态和输入，

和

分别为第i个跟随者的内部函数和输入矩阵函数，是Ω上的连续函数。N个跟随者之间的通信拓扑可用有向图G＝(V，E，A)来描述。这里假设N个跟随者之间的通信有向图包含有向生成树，且领导者能发送信息给至少一个被称为根节点的跟随者。

控制目标为：在每个智能体只能获取自身及邻居跟随者状态信息的场景下，为每个智能体设计控制u_i使得每个跟随者的状态能够跟踪领导者的状态，也就是使跟踪误差e_i→0(即达到一致性)，其中

其中

b_i＝1，当且仅当该智能体与领导者由信息交流的时候，a_ij＝1当第i个跟随者和第j个跟随者之间可以进行信息交互的时候。此外，每个智能体的控制u_i实现多智能体的一致性的同时也要令各自如下形式的性能函数最小：

其中积分第一项表示对跟踪误差的要求，第二项表示对控制过程中输入信号能量损失的要求。

在未受限制的情况下，第二项

通常定义为二次型。但是在输入受饱和限制的情况下，只是用二次型性能指标得到的解并不能保证输入满足限制条件。因此，在本设计中，定义

为非二次型惩罚函数，在后续最优解的形式中可以看到在这种形式下的

下得到的u_i满足限制条件。在本设计中

定义为如下形式：

其中，

R是一个对角正定阵，θ^-1(·)∈C^l(Ω)是一个单调奇函数并且满足θ^-1(0)＝0，本设计选择θ^-1(·)＝tanh^-1(·)，这里tanh(·)是双曲正切函数：

第二部分领导者状态观测器

在并非全部跟随者都和领导者可以进行信息交互的前提下，使得设计最优控制器变得比较困难。因此，本发明中对各个智能体设计了各自的状态观测器来观测领导者的状态，这样跟随者就可以去跟踪自己对应的观测器状态。

先介绍设计过程中使用的杨氏不等式引理：假设有任意向量

对任意正实数p和q，其中p^-1+q^-1＝1，有x^Ty≤1/p||x||^p+1/q||y||^q成立。

本设计中使用反步法和动态面控制法设计全分布式状态观测器：

而其中

i代表第i个跟随者(i＝1，2，3，…,N)，s_i1是观测器的观测值，依据动态面控制法步骤然后定义每个跟随者的跟踪误差e_i1和动态面误差e_i2以及边界误差如下：

e_i1＝∑a_ij(s_i1-s_j1)+b_i(s_i1-x₀) (2.2)

对上面定义的局部误差e_i1进行求导，

定义控制器误差z_i2，如式(2.5)

其中，v_i2为虚拟控制器，

虚拟滤波控制器

结合式(2.3)和(2.5)，将e_i2带入局部误差e_i1的导数可写作

为第i个跟随者的第一个李雅普诺夫函数设计为如下形式：

对式(2.7)求导

其中

为对位置参数ρ₀的估计，

的自适应律

为

同样的，对e_i2求导

这里τ_i2为低通滤波器的时间常数，

为第i个跟随者的第二个李雅普诺夫函数设计为如下形式：

对V_i2求导

对边界误差z_i2求导

为第i个跟随者的第三个李雅普诺夫函数设计为如下形式：

由

和z_i2，e_i1，e_i2之间的关系可知

结合杨氏不等式得

为第i个跟随者总李雅普诺夫函数设计为如下形式：

V_i＝V_i1+V_i2+V_i3 (2.17)

根据V_i1的表达式，设计虚拟控制器v_i2为：

由上面介绍的杨氏引理得：

结合后可以得到如下不等式：

根据V_i2设计第i个跟随者的实际控制权v_i为

将控制器带入(2.13)得

最后总的李雅普诺夫函数求导V_i，并结合式(2.21)(2.23)(2.16)得

为了使各个误差都有界，只需令

当K_i1，K_i2及τ_i2满足(2.24)时，(2.23)可写成

最后一步对所有跟随者选取总的Lyapunov函数：

其中

对上式进行积分得

由上可知V(t)一致最终有界，通过选取合适的参数可以使V(t)，N个跟随者的观测器的局部跟踪误差，动态面误差，边界误差收敛到一个小的紧集内。这样，对每个跟随者，都有自己的观测器来获知领导者的状态。

第三部分基于观测器的多智能体控制器设计与分析

上一部分中，对每个跟随者都设计了各自的状态观测器来观测领导者的状态x₀，并分析了状态观测器的状态s_i1能通过调节参数来以任意精度收敛到领导者状态x₀。现在只要让每个跟随者去跟随自己观测到的领导者状态s_i1，这样就转换成了每个智能体的跟踪问题。根据状态观测器系统(2.1)来代替领导者系统(1.1)后，局部跟踪误差(1.3)可以写成

e_i＝x_i-s_i1 (3.1)

结合式(1.2)和(1.5)得局部跟踪误差动态模型为

由(3.4)，对应的性能函数为

对应的控制目标变为：为每个跟随者设计控制器u_i，使：1)局部跟踪误差e_i动态系统(3.2)渐近稳定；2)性能函数V_i(x_i(0)，s_i1)(3.3)达到最小。

定义由局部的跟踪误差e_i和待跟踪状态s_i1组成的增广系统状态

增广系统动态模型为

其中，

基于增广系统的动态模型，性能函数(3.3)可写为

其中，

性能函数的最优值记为V^*(x)，定义为

并且V^*(0)＝0，结合(1.5)和(3.7)系统的汉密尔顿量可写成

通过平衡条件

可以得到最优控制的形式

其中

是一个常向量，β是在(1.6)中定义有关于输入限制的常数。

最优的代价函数和最优控制会满足汉密尔顿量为0，所以把(3.11)带入到(3.10)中并令其等于0，得到最优HJB方程

然后使用强化学习策略迭代的方法，来进行求解。下面讨论算法的稳定性和最优性。

假设方程(3.12)存在一个正定光滑的解V_i满足V_i(0)＝0、在(3.10)定义的H的最优值

最优控制u_i由(3.11)中给出并且增广动态闭环系统(3.5)和(3.11)中关于X_i是Lipschitz连续的，那么原点是系统(3.5)和控制(3.11)的全局渐近稳定点，并且控制(3.11)会使得性能函数(3.9)最小。

这里选取性能函数V_i作为Lyapunov函数，由于(3.10)和

V_i对时间的导数会满足：

这里，D(X_i)＝F_i(X_i)+G_i(X_i)u_i ^*；所以，可以知道原点就是增广系统(3.5)的全局渐近稳定平衡点,X_i会渐进收敛为0。而V_i是光滑的并且由V_i(0)＝0，当时间t→∞时由于系统渐近稳定会有X_i→0，V_i(X_i(∞))＝0，因此对上式两边积分得到

于是把性能函数(3.7)写成：

减去零也就是减去HJB方程，

由(3.11)得

带入(3.14)配方后

进一步完成配方，可以得到

因为

是正定可积的，所以V_i ^*(X_i(0))≤V_i(X_i(0)，u_i)，也就是说控制u_i ^*会使得性能函数最小。

HJB方程的策略迭代解法，通过迭代进行策略评估和策略提升，可以得到最优解。但是HJB方程由于系统可能是复杂非线性系统，方程的解析解难以求出，并且存在系统的系统矩阵未知的情况，使得方程的求解变得不可能。因此，本发明利用神经网络的逼近作用，在actor-ccitic框架下近似求解最优控制。其中critic近似最优值函数V_i ^*，actor近似最优控制u_i ^*。

首先对每个智能体定义一个critic神经网络来近似最优性能函数V_i ^*，

V_i ^*(X_i)＝W_ic ^*Tσ_ic(X_i)+ε_ic(X_i) (3.15)

其中

表示理想的逼近权重向量并且满足||W_ic ^*||≤W_icm；

是神经网络的激活函数向量，向量中每个函数之间相互独立，且满足σ_ic(0)＝0，激活函数对X_i的梯度

ε_i是神经网络的逼近误差。根据(3.15)，

根据Weierstrass高阶逼近理论，知道基向量σ_ic(X_i)的数量N→∞时，逼近误差ε_ic(X_i)→∞，也就是误差在一个紧集内收敛到0。将(3.16)代入HJB方程，近似HJB定义为

这里ε_iH是汉密尔顿量残差

假定基函数σ_i及其梯度

代价函数逼近误差ε_i，残差ε_iH都是在一个集合

内一致有界的，也就是说存在正常量σ_im，σ_idm，ε_im，ε_iHm使得对任意的x，

和||ε_iH||≤ε_iHm都成立。这里假定N足够大，使得逼近误差很小。

如果知道理想的权重向量W_ic ^*，就可以近似得到最优价值函数。但是W_ic ^*是未知的，因此需要对W_ic ^*进行估计，其估计量记为

对应的值函数估计就写为

现在的目标就是设计合适的

更新律使

可以收敛到理想权重系数W_ic ^*。

本发明通过使用一个记录了一定量先前数据的经验池，用过往数据结合当前的状态等信息来设计

的自适应律。

首先定义当前时刻哈密顿误差er_i(t)，

其中

以及经验池中过往数据的哈密顿误差e_ipast，

它使用的是先前时刻t₀，t₁，...，t_k＜t的X_i(t_i)，u_i(t_i)，和当前时刻的

共同构成的。

将两个误差结合起来定义总的误差：

其中

而

由此给出本发明设计的

自适应律为：

其中ρ_ic＞0代表梯度下降的步长，步长越大收敛越快，但是容易导致不稳定，更新律要求

至少有N个线性无关向量。

然后对每个智能体定义actor神经网络来近似最优控制u_i ^*，从式(3.11)中求得的理论上最优控制u_i ^*形式可以看到，u_i ^*包含了两部分，一部分是常量，一部分是和状态相关的变化量，只需近似变化的那一部分，因此actor定义为

其中

表示理想的逼近权重向量并且满足||W_ia ^*||≤W_iam；

是actor神经网络的激活函数向量，向量中每个函数之间相互独立，ε_ia是actor神经网络的逼近误差。假定基函数σ_ia及代价函数逼近误差ε_ia，是在一个集合

内一致有界的，也就是说存在正常量σ_iam，ε_iam，使得对任意的x，||σ_ia||≤σ_iam和||ε_ia||≤ε_iam都成立。这里同样假定N足够大，使得逼近误差很小。

同样地，W_ia ^*是未知的，需要对W_ia ^*进行估计，其估计量记为

对应的最优控制估计就写为

现在的目标就是设计合适的

更新律使

可以收敛到理想权重系数W_ia ^*。通过最小化估计的u_i ^*与(3.11)中理论形式的u_i ^*之间的误差来更新

具体为优化一个差值函数E_a(t)，

这里

其中的

是在上面定义的critic参数估计值。

通过使用梯度法令(3.11)最小，得到下面的actor估计参数的更新律

其中ρ_ia＞0代表梯度下降的步长。

本发明的算法流程如下：

算法：基于状态观测的多智能体最优控制算法

阈值参数p_ia，p_ic；

2.对每个智能体进行循环：

1)在经验池有N个线性无关元素的数据

之前循环：

b)让增广系统运行一个小段时间h使得t_i+1＝t_i+h，记录

X_i(ti)，u_i(ti)，i＝i+1；

c)如果经验池已达到上限，提出时间最久的数据。

2)使用actor得到的控制u_i(t)，让增广系统运行一段时间，得到

和actor

3)如果

停止循环。

第四部分算法稳定性分析

下面分析算法的稳定性。首先定义actor和critic的权重估计误差系统。

critic的权重估计误差记为

由(3.22)

的更新律，以及根据(3.17)得到的

可以得到

的动态响应可写为

其中

由于前面假定ε_icH有界，而

所以||P_i||≤(ρ_ic/2)(k+1)ε_icHm，P_i可以看成是一个扰动项每当ε_icH为零时消失。

一般训练过程中要求

满足PE条件(

其中β₁，β₂，T都是大于零常数)需要在参数更新的每个时间序列都满足，这一条件在学习期间是难以保证的。而从上可以看到，本发明中使用了经验池中的过往数据即

作为额外项记为ψ_i，通过要求

包含至少N个线性无关向量或者说额外项是正定的来转还更为宽松的PE条件。这样只要从经验池取得了符合要求的

后，可以不再更新经验池也能持续满足条件。

由于额外项ψ_i是正定的并且

所以会有

其中λ_min(·)代表着最小特征值。

actor的权重估计误差记为

结合

的更新律、(3.11)和(3.23)，可以得到

的动态响应可写为

假定输入函数G_i是关于集合

内一致有界的，也就是对任意x_i有||G_i||²＜1/2。为了消除actor和critic网络的逼近误差，得到稳定平衡点的闭环系统，在actor周中加入一个鲁棒项Γ

其中

M、N是正常数并且满足：

记

B_r是以r为半径的球，选取Lyapunov函数为：

对其求导得

由HJB方程

将上式第一部分进行变换，

由(4.7)定义的鲁棒项的特征N+X_i ^TX_i＞0，上述不等式可以写为下面的形式，

由(4.4)以及||P_i||≤(ρ_ic/2)(k+1)ε_icHm得

因为前面假定的各逼近参数的有界，

结合式(4.10)、(4.11)以及(4.12)，可以知道

所以，只要critic的更新步长ρ_ic和actor基向量的界限σ_iam满足：

就能使

根据barbalat引理，当t→∞时，||Y||²→0，也就是X_i ^T、

以及

都会渐近收敛为零，最终使得增广系统(3.7)稳定，actor和critic的参数收敛到目标值。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于状态观测与经验池的非线性多智能体一致性方法，其特征在于：该方法包括以下步骤：

S1：问题描述；

S2：领导者状态观测器设计；

S3：基于观测器的多智能体控制器设计与分析；

S4：算法稳定性分析。

2.根据权利要求1所述的基于状态观测与经验池的非线性多智能体一致性方法，其特征在于：所述S1具体为：

其中

为领导者的状态，

其中

和

分别为第i个跟随者的状态和输入，

和

分别为第i个跟随者的内部函数和输入矩阵函数，是Ω上的连续函数；N个跟随者之间的通信拓扑可用有向图G＝(V，E，A)来描述；设N个跟随者之间的通信有向图包含有向生成树，且领导者能发送信息给至少一个被称为根节点的跟随者；

控制目标为：在每个智能体只能获取自身及邻居跟随者状态信息的场景下，为每个智能体设计控制u_i使得每个跟随者的状态能够跟踪领导者的状态，也就是使跟踪误差e_i→0，即达到一致性，其中

其中

b_i＝1，当且仅当该智能体与领导者由信息交流的时候，a_ij＝1当第i个跟随者和第j个跟随者之间进行信息交互的时候；每个智能体的控制u_i实现多智能体的一致性的同时也要令各自如下形式的性能函数最小：

其中积分第一项表示对跟踪误差的要求，第二项表示对控制过程中输入信号能量损失的要求；

在未受限制的情况下，第二项

通常定义为二次型；但是在输入受饱和限制的情况下，只是用二次型性能指标得到的解并不能保证输入满足限制条件；定义

为非二次型惩罚函数，在后续最优解的形式中得到在这种形式下的

下得到的u_i满足限制条件；

定义为如下形式：

其中，

R是一个对角正定阵，θ^-1(·)∈C¹(Ω)是一个单调奇函数并且满足θ^-1(0)＝0，选择θ^-1(·)＝tanh^-1(·)，tanh(·)是双曲正切函数：

3.根据权利要求2所述的基于状态观测与经验池的非线性多智能体一致性方法，其特征在于：所述S2具体为：

设有任意向量

对任意正实数p和q，其中p^-1+q^-1＝1，有x^Ty≤1/p|x||^p+1/q||y||^q成立；

使用反步法和动态面控制法设计全分布式状态观测器：

而其中s_i1，s_i2

i代表第i个跟随者，i＝1，2，3，…,N，s_i1是观测器的观测值，依据动态面控制法步骤然后定义每个跟随者的跟踪误差e_i1和动态面误差e_i2以及边界误差如下：

e_i1＝∑a_ij(s_i1-s_j1)+b_i(s_i1-x₀) (2.2)

对上面定义的局部误差e_i1进行求导，

定义控制器误差z_i2：

其中，v_i2为虚拟控制器，

虚拟滤波控制器

结合式(2.3)和(2.5)，将e_i2带入局部误差e_i1的导数写作

为第i个跟随者的第一个李雅普诺夫函数设计为如下形式：

对式(2.7)求导

其中

为对位置参数ρ₀的估计，

的自适应律

为

同样的，对e_i2求导

这里τ_i2为低通滤波器的时间常数，

为第i个跟随者的第二个李雅普诺夫函数设计为如下形式：

对V_i2求导

对边界误差z_i2求导

为第i个跟随者的第三个李雅普诺夫函数设计为如下形式：

由

和z_i2，e_i1，e_i2之间的关系知

结合杨氏不等式得

为第i个跟随者总李雅普诺夫函数设计为如下形式：

V_i＝V_i1+V_i2+V_i3 (2.17)

根据V_i1的表达式，设计虚拟控制器v_i2为：

由上面介绍的杨氏引理得：

结合后得到如下不等式：

根据V_i2设计第i个跟随者的实际控制权v_i为

将控制器带入(2.13)得

最后总的李雅普诺夫函数求导V_i，并结合式(2.21)(2.23)(2.16)得

为使各个误差都有界，令

当K_i1，K_i2及τ_i2满足(2.24)时，(2.23)写成

最后一步对所有跟随者选取总的Lyapunov函数：

其中K＝min(K₁，...，K_N)，

c_i，对上式进行积分得

V(t)一致最终有界，通过选取合适的参数使V(t)，N个跟随者的观测器的局部跟踪误差，动态面误差，边界误差收敛到一个小的紧集内；对每个跟随者，有自己的观测器来获知领导者的状态。

4.根据权利要求3所述的基于状态观测与经验池的非线性多智能体一致性方法，其特征在于：所述S3具体为：

根据状态观测器系统(2.1)来代替领导者系统(1.1)后，局部跟踪误差(1.3)写成

e_i＝x_i-s_i1 (3.1)

结合式(1.2)和(1.5)得局部跟踪误差动态模型为

由(3.4)，对应的性能函数为

对应的控制目标变为：为每个跟随者设计控制器u_i，使：

1)局部跟踪误差e_i动态系统(3.2)渐近稳定；

2)性能函数V_i(x_i(0)，s_i1)(3.3)达到最小；

增广系统动态模型为

其中，

基于增广系统的动态模型，性能函数(3.3)写为

其中，

性能函数的最优值记为V^*(x)，定义为

并且V^*(0)＝0，结合(1.5)和(3.7)系统的汉密尔顿量写成

通过平衡条件

得到最优控制的形式

其中

是一个常向量，β是在(1.6)中定义有关于输入限制的常数；

使用强化学习策略迭代的方法，来进行求解；

最优控制u_i由(3.11)中给出并且增广动态闭环系统(3.5)和(3.11)中关于X_i是Lipschitz连续的，那么原点是系统(3.5)和控制(3.11)的全局渐近稳定点，并且控制(3.11)会使得性能函数(3.9)最小；

选取性能函数V_i作为Lyapunov函数，由于(3.10)和

V_i对时间的导数会满足：

D(X_i)＝F_i(X_i)+H_i(X_i)u_i ^*；原点就是增广系统(3.5)的全局渐近稳定平衡点,X_i会渐进收敛为0；而V_i是光滑的并且由V_i(0)＝0，当时间t→∞时由于系统渐近稳定会有X_i→0，V_i(X_i(∞))＝0，对上式两边积分得到

于是把性能函数(3.7)写成：

减去零也就是减去HJB方程，

由(3.11)得

带入(3.14)配方后

完成配方，得到

是正定可积的，V_i ^*(X_i(0))≤V_i(X_i(0)，u_i)，控制u_i ^*会使得性能函数最小；

HJB方程的策略迭代解法，通过迭代进行策略评估和策略提升，得到最优解；利用神经网络的逼近作用，在actor-ccitic框架下近似求解最优控制；其中critic近似最优值函数V_i ^*，actor近似最优控制u_i ^*；

V_i ^*(X_i)＝W_ic ^*Tσ_ic(X_i)+ε_ic(X_i) (3.15)

其中

表示理想的逼近权重向量并且满足||W_ic ^*||≤W_icm；σ_ic(X_i)＝[σ_ic1，σ_ic2，...，σ_icN]^T：

ε_i是神经网络的逼近误差；根据(3.15)，

根据Weierstrass高阶逼近理论，知道基向量σ_ic(X_i)的数量N→∞时，逼近误差ε_ic(X_i)→∞，也就是误差在一个紧集内收敛到0；将(3.16)代入HJB方程，近似HJB定义为

这里ε_iH是汉密尔顿量残差

假定基函数σ_i及其梯度

代价函数逼近误差ε_i，残差ε_iH都是在一个集合

内一致有界的，也就是说存在正常量σ_im，σ_idm，ε_im，ε_iHm使得对任意的x，||σ_ic||≤σ_icm、

||ε_ic||≤ε_icm、

和||ε_iH||≤ε_iHm都成立；这里假定N足够大，使得逼近误差很小；

如果知道理想的权重向量W_ic ^*，得到最优价值函数；对W_ic ^*进行估计，其估计量记为

对应的值函数估计就写为

设计合适的

更新律使

收敛到理想权重系数W_ic ^*；

使用一个记录一定量先前数据的经验池，用过往数据结合当前的状态等信息来设计

的自适应律；

首先定义当前时刻哈密顿误差er_i(t)，

其中

以及经验池中过往数据的哈密顿误差e_ipast，

共同构成的；

将两个误差结合起来定义总的误差：

其中

而

自适应律为：

至少有N个线性无关向量；

然后对每个智能体定义actor神经网络来近似最优控制u_i ^*，从式(3.11)中求得的理论上最优控制u_i ^*形式，u_i ^*包含两部分，一部分是常量，一部分是和状态相关的变化量，actor定义为

u_i ^*＝W_ia ^*Tσ_ia(X_i)+ε_ia(X_i)+l_β (3.23)

其中

表示理想的逼近权重向量并且满足||W_ia ^*||≤W_iam；σ_ia(X_i)＝[σ_ia1，σ_ia2，...，σ_iaN]^T：

是actor神经网络的激活函数向量，向量中每个函数之间相互独立，ε_ia是actor神经网络的逼近误差；假定基函数σ_ia及代价函数逼近误差ε_ia，是在一个集合

内一致有界的，也就是说存在正常量σ_iam，ε_iam，使得对任意的x，||σ_ia||≤σ_iam和||ε_ia||≤ε_iam都成立；这里同样假定N足够大，使得逼近误差很小；

W_ia ^*是未知的，需要对W_ia ^*进行估计，其估计量记为

对应的最优控制估计就写为

设计合适的

更新律使

收敛到理想权重系数W_ia ^*；通过最小化估计的u_i ^*与(3.11)中理论形式的u_i ^*之间的误差来更新

具体为优化一个差值函数E_a(t)，

这里

其中的

是在上面定义的critic参数估计值；

其中ρ_ia＞0代表梯度下降的步长；

算法流程如下：

阈值参数p_ia，p_ic；

2.对每个智能体进行循环：

1)在经验池有N个线性无关元素的数据

之前循环：

b)让增广系统运行一个小段时间h使得t_i+1＝t_i+h，记录

X_i(t_i)，u_i(t_i)，i＝i+1；

c)如果经验池已达到上限，提出时间最久的数据；

2)使用actor得到的控制u_i(t)，让增广系统运行一段时间，得到

和actor

3)如果

停止循环。

5.根据权利要求4所述的基于状态观测与经验池的非线性多智能体一致性方法，其特征在于：所述S4具体为：

首先定义actor和critic的权重估计误差系统；

critic的权重估计误差记为

由(3.22)

的更新律，以及根据(3.17)得到的

得到

的动态响应写为

其中

由于前面假定ε_icH有界，而

所以||P_i||≤(ρ_ic/2)(k+1)ε_icHm，P_i看成是一个扰动项每当ε_icH为零时消失；

训练过程中要求

满足PE条件(

其中β₁，β₂，T都是大于零常数)需要在参数更新的每个时间序列都满足，这一条件在学习期间是难以保证的；使用经验池中的过往数据即

作为额外项记为ψ_i，通过要求

包含至少N个线性无关向量或者说额外项是正定的来转还更为宽松的PE条件；这样只要从经验池取得了符合要求的

后，不再更新经验池也能持续满足条件；

额外项ψ_i是正定的并且

有

其中λ_min(·)代表着最小特征值；

actor的权重估计误差记为

结合

的更新律、(3.11)和(3.23)，得到

的动态响写为

假定输入函数G_i是关于集合

内一致有界的，对任意x_i有||G_i||²＜1/2；为消除actor和critic网络的逼近误差，得到稳定平衡点的闭环系统，在actor周中加入一个鲁棒项Γ

其中

M、N是正常数并且满足：

记

B_r是以r为半径的球，选取Lyapunov函数为：

对其求导得

由HJB方程

将上式第一部分进行变换，

由(4.7)定义的鲁棒项的特征N+X_i ^TX_i＞0，上述不等式写为下面的形式，

由(4.4)以及||P_i||≤(ρ_ic/2)(k+1)ε_icHm得

假定的各逼近参数的有界，

结合式(4.10)、(4.11)以及(4.12)，知道

只要critic的更新步长ρ_ic和actor基向量的界限σ_iam满足：

就能使

根据barbalat引理，当t→∞时，||Y||²→0，也就是X_i ^T、

以及