CN112445132A

CN112445132A - 一种多智能体系统最优状态一致性控制方法

Info

Publication number: CN112445132A
Application number: CN201910818742.8A
Authority: CN
Inventors: 穆朝絮; 赵倩; 孙长银
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2021-03-05

Abstract

本发明公开了一种多智能体系统最优状态一致性控制方法，该方法首先构造状态邻域跟踪误差及跟踪误差系统，将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题；然后针对邻域跟踪误差系统，定义误差系统的代价函数，给出全局纳什均衡解；并引入Q函数，使用Q函数重构代价函数，推导Q函数贝尔曼方程并求解最优控制；依据Q函数贝尔曼方程及最优控制方程，设计基于策略迭代的Q‑learning算法，并用最小二乘法迭代地求解每个智能体的最优控制。本方法不要求知道系统的动态信息，避免了直接求解耦合哈密顿‑雅可比‑贝尔曼方程；算法实现采用最小二乘法，得到的控制解为解析解，避免了近似误差的出现，有效提高了最优控制的精准度。

Description

一种多智能体系统最优状态一致性控制方法

技术领域

本发明涉及多智能体系统的最优状态一致性控制技术领域，更具体地，涉及一种多智能体系统最优状态一致性控制方法。

背景技术

多智能体系统是由在一个环境中交互的多个智能体组成的系统。在多智能体系统中，各智能体之间互相通信，彼此协调，并行地求解问题，因此能有效地提高问题求解的能力。多智能体系统协同控制主要研究的问题有编队、群集、一致性等。其中，一致性问题是多智能体系统的根本性问题。系统一致性控制往往要求达到最优，即不仅要求使系统稳定，使其完成系统状态和领导者状态一致性的目的，还应该使系统的性能指标函数达到最小化，即达到最优一致性控制。现实应用中，系统动态往往由于各种原因而不易或者不能获取，这种情况导致了一些需要系统动态信息的方法不能得以实施，于是必须设计出一种无模型最优控制算法来解决此棘手问题。本发明从多智能体系统一致性控制问题出发，研究在系统状态未知情况下，智能体和领导者的最优状态一致性问题，是符合多智能体系统一致性控制技术的应用需求和发展趋势的。

强化学习，又称再励学习，是机器学习方法之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习方法是最优控制的重要方法。策略迭代和值迭代是强化学习里常用的两种学习算法。强化学习可以解决不同的最优控制问题，例如具有约束控制的最优稳定控制，具有时间延迟的最优控制，最优跟踪控制，最优一致性控制，以及零和和非零和博弈的最优控制等。Q-learning，亦称控制依赖启发式动态规划，是一种无模型强化学习算法，用于估计任何策略的Q函数的方法，最优或非最优，其不需要任何系统动力学知识便能求取最优控制。Q-learning中Q函数为Q(x,u)，其中x代表状态，u代表控制，Q(x,u)是最优值Q^*(x,u)的估计值。智能体利用其经验来改进估计，并根据学习率将新信息混合到以前的经验中。用于求解马尔可夫决策过程的算法具有三个基本函数：代价函数V映射状态到值，Q函数Q映射状态和动作到值，以及策略u映射状态到动作上的概率分布。给定转换和奖励函数形式的模型，可以从一个映射计算其它任何映射，即Q函数可用于重构代价函数

近年来，Q-learning技术应用广泛，例如控制系统的跟踪控制、零和博弈、事件触发控制、鲁棒控制等。、

发明内容

本发明为解决现有技术的不足，提供了一种多智能体系统最优状态一致性控制方法，以解决多智能体系统在系统动态未知情况下的最优状态一致性问题。

本发明是通过以下技术方案实现的：

一种多智能体系统最优状态一致性控制方法，包括如下步骤：

步骤(1)：构造状态邻域跟踪误差及跟踪误差系统，将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题；

步骤(2)：针对邻域跟踪误差系统，定义误差系统的代价函数，给出全局纳什均衡解；

步骤(3)：引入Q函数，使用Q函数重构步骤(2)中的代价函数，推导Q函数贝尔曼方程并求解最优控制；

步骤(4)：依据步骤(3)中的Q函数贝尔曼方程及最优控制方程，设计基于策略迭代的Q-learning算法，并用最小二乘法迭代地求解每个智能体的最优控制

在上述技术方案中，步骤(1)进一步包括下述步骤：

(1-1)针对多智能体系统，采用拓扑图描述系统中智能体之间的交流关系

是有向拓扑图，它包括一组N个顶点的非空有限集

一组边的集合

和一个加权邻接矩阵

其中非负邻接元素e_ij≥0；当且仅当e_ij＝(ν_j,ν_i)∈ε时，e_ij>0，其表示为节点i能够从节点j接收信息；否则，e_ij＝0；节点ν_i的邻居集为

入度矩阵

定义为对角矩阵

其中

是节点i的加权入度；图的拉普拉斯矩阵为

从节点ν_i到节点ν_r的有向路径描述为一组边的序列ν_i,ν_i+1,...ν_r，其中(ν_j,ν_i)∈ε，j∈{i,i+1,...r}；如果存在名为领导者的节点ν₀，并且从领导者到其他节点的有向路径都在图中，则该图被定义为包含生成树；

考虑如下包含N个智能体的离散多智能体系统，用拓扑图G表示，智能体i的动态如下：

x_i(k+1)＝Ax_i(k)+B_iu_i(k),i＝1,2,...,N,(1)

其中

是智能体i在时刻k的状态，x_i(k+1)是智能体i在时刻k+1的状态，

是智能体i的控制；

和

为系统矩阵，假设A和B_i未知，A的特征值位于单位圆盘内的外部或边缘；

领导者动态如下：

x₀(k+1)＝Ax₀(k),(2)

其中

为领导者在时刻k的目标状态，x₀(k+1)是领导者在时刻k+1的状态，在拓扑图中，领导者至少直接和系统中的一个智能体直接连接。

(1-2)一致性控制的目标是使用来自智能体i本身及其邻居智能体的信息来获取每个智能体i的最优分布式控制律u_i(k)，使所有智能体的状态最终和领导者的状态同步，即

为此定义每个智能体i的局部邻域跟踪误差：

其中

是智能体i的邻居智能体j在时刻k的状态，b_i≥0是智能体的连接增益，b_i>0表示智能体i直接和领导者相连接，否则b_i＝0；根据公式(3)，整个智能体系统的局部邻域跟踪误差向量

其表达式如下

其中

是拉普拉斯矩阵，

是一个对角矩阵，对角元素b_ii＝b_i为智能体i的连接增益，

表示克罗内克积，

是全局状态向量，

I_n是n×n的单位矩阵；

(1-3)定义如下等式：

其中

是全局同步误差向量；

根据公式(5)和公式(4)可以重新表示为：

设拓扑图包含生成树并且至少一个智能体i的连接增益b_i≠0，则拓扑图是强连接的，

是非奇异的，则同步误差η(k)的界为

其中

是

的最小奇异值；当||ε(k)||→0时，||η(k)||→0，这意味着将整体跟踪误差ε(k)调节得足够小，则全局同步误差η(k)可以任意小，并且智能体i将与领导者同步。

(1-4)智能体i的邻域跟踪误差动态方程如下：

(7)重新表示为：

则构造出了邻域误差跟踪系统(8)，使原系统的最优一致性控制问题转化为了误差系统的镇定控制问题。

在上述技术方案中，步骤(2)进一步包括下述步骤：

(2-1)智能体i的代价函数为：

其中智能体i的效应函数U_i为

(10)中

均是对称权重矩阵，0<γ≤1是折扣因子，

是智能体i的邻居智能体j的控制，代价函数(9)是系统的性能指标函数，最小化系统代价函数(9)，可以求解控制的最优值，即接下来可以设计算法最小化(9)并求解系统最优控制，最小化领域跟踪误差ε(k)，则可以最小化同步误差η(k)，达到最优状态一致性的目标。

(2-2)给定智能体i和其邻居的固定控制(u_i(l),u_j(l))，智能体i的代价函数定义为：

其中

是一个包含智能体i的状态ε_i(k)和其邻居的状态ε_j(k)的向量，即

p是智能体i的邻居智能体的数量，代价函数(9)评估每个智能体i的性能，智能体i的代价函数(11)包含局部信息，因此，代价函数的解结构由局部向量

表示。

(2-3)利用公式(10)和(11)，可以推导出

其中

是包含智能体i的控制律u_i(l)和其邻居智能体控制u_j(l)的一个向量，即

R_i是智能体i的一个对角矩阵，其对角元素为R_ii和所有R_ij；

利用公式(12)和反馈控制律

其中K_i为反馈控制矩阵，可以获得

根据步骤(1)中的公式(8)，智能体i的邻域跟踪误差动态可以重新表示为：

其中

将

代入到(14)中，可以推导出下式：

ε_i(k+1)＝(A-BK_i)ε_i(k)＝K_1iε_i(k),(15)

其中K_1i＝A-BK_i；

将公式(15)代入公式(13)，得到代价函数

关于邻域跟踪误差ε_i(k)的二次型形式：

其中

(2-4)基于贝尔曼最优性原理(贝尔曼最优性原理，即：多级决策过程的最优策略具有这种性质，不论初始状态和初始决策如何，其余的决策对于由初始决策所形成的状态来说，必定也是一个最优策略；这个原理可以归结为一个基本的递推公式，求解多级决策问题时，要从末端开始，到始端为止，逆向递推)，智能体i的最优代价函数满足耦合的离散时间HJB方程：

通过计算

得到最优控制律

(2-5)如果存在

其中

均为控制u₁,u₂,...,u_i,...,u_N的最优值，则N个控制律序列被描述为N个智能体博弈的纳什均衡解，

被称为N个智能体博弈的纳什均衡，则每个智能体i的耦合离散时间HJB方程可以表示为

其中

为控制u_j(k)的最优值，目标即得到系统的纳什均衡解，即所有智能体的最优控制。

在上述技术方案中，步骤(3)进一步包括下述步骤：

(3-1)对于每个智能体i的允许控制律，步骤(2)中代价函数(11)可以重新表示为贝尔曼方程：

基于贝尔曼方程(21)，定义智能体i的离散Q函数如下：

其中Q函数中的变量为

和u_i(k)，

表示智能体i的误差状态和其邻居的误差状态，即，u_i(k)表示智能体i的控制定律u_i(k)，从公式(22)可知，下面等式成立：

根据公式(12)和代价函数的二次型(16)，Q函数满足：

使用误差系统动态公式(14)，将(24)重新表示为

根据公式(9)和(11)，给出关于局部矢量

的代价函数的解结构，因此，

可以用向量

表示为：

矩阵H_i为：

其中

H_i满足

为了简化表示，

写作为

写作为

等等。

(3-2)计算如下等式：

由(27)，智能体i的最优控制可以得到：

其中

是矩阵H_i中最后一行元素除去

组成的行向量，即

是反馈控制增益矩阵。目标是计算出线性最优控制律(28)以最小化代价函数。

(3-3)根据公式(22)和(23)，Q函数写为：

将(26)代入公式(29)，根据公式(12)，Q函数贝尔曼方程可以重新表示为

其中

在上述技术方案中，步骤(4)进一步包括下述步骤：

(4-1)如果

的控制策略u_i(k)不仅稳定系统(7)而且保证代价函数(9)有限，则称其为容许的；基于公式(28)和(30)，采用策略迭代实现Q-learning算法，如下所述：

步骤1)初始化：对智能体i，给定一个初始稳定容许控制策略

令r＝0，其中r表示迭代步数，设置最大训练循环步数N；

步骤2)策略估计：计算核心矩阵H^r+1

步骤3)策略更新：

步骤4)当r＝N停止迭代过程，获得近似最优控制律

否则增加迭代步数r＝r+1并转到步骤2)。

(4-2)使用Q函数贝尔曼方程(31)执行算法时，不需要任何系统动力学知识，仅基于数据实现。在策略评估步骤，基于沿着系统轨迹获取的每个智能体i的数据组Z_i(k)，Z_i(k+1)，采用策略迭代结合最小二乘法方法，实时获得H_i的更新值。计算过程如下：

定义：

公式(30)可以重新表示为

则公式(26)表示为

其中，

h_i＝vec(H_i)。vec(·)函数用于矢量化，通过将

矩阵的列A_*1,...,A_*q堆叠以形成具有fq个元素的矢量

即，

公式(35)中的

的表述如下：

在公式(35)中h_i表示为h_i＝vec(H_i)，它作用于维数为(p+2)×(p+2)的矩阵并输出(p+2)(p+3)/2×1维的列向量。vec(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的，其中非对角元素总和为(H_i(αβ)+H_i(βα))，α和β分别表示矩阵H_i的行和列。这意味着H_i是一个维数为(p+2)×(p+2)的对称矩阵，具有(p+2)×(p+3)/2个独立元素。因此，仅需要获取(p+2)×(p+3)/2个数据。

结合公式(34)和(35)，得到

如果Ξ_i(k)列满秩，则可以通过最小二乘法直接求解公式(34)：

因此，可以通过h_i获得核矩阵H_i。策略迭代算法需要持续激励条件，以确保对状态空间的充分探索，即

其中δ为持续激励，在训练过程中用作每个智能体i的真实控制，随着迭代步长的增加，持续激励衰减到零。

本发明的优点和有益效果为：

(1)构造了多智能体系统的邻域跟踪误差系统，将智能体和领导者的同步误差收敛转化为了多智能体的邻域跟踪误差收敛，在误差系统的基础上，设计了基于策略迭代的Q-learning算法，该算法避免了直接解耦合的哈密顿-雅可比-贝尔曼方程。本算法是一种无模型算法，不需要任何多智能体系统的动态信息，基于系统数据实现。

(2)本发明中的算法实现依赖于最小二乘法，通过最小二乘法和策略迭代相结合的方式，迭代地获得多智能体系统的最优解析控制解，与利用神经网络实现相比，该方法不存在近似误差，大大提高了结果的准确性。

附图说明

图1是策略迭代Q-learning算法实现过程的流程图；

图2是四智能体动态系统的有向交流拓扑图；

图3是智能体状态跟踪领导者状态的轨迹图；

图4是智能体状态跟踪领导者状态的2D相平面图；

图5是智能体状态跟踪领导者状态的3D相平面图；

图6是智能体状态和领导者状态的误差轨迹图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

下面具体详述以上各个步骤：

步骤(1)涉及目标问题转化，即系统转化问题，将多智能体系统的最优状态一致性控制转化为邻域跟踪误差系统的误差稳定控制；步骤(1)进一步包括下述步骤：

是有向拓扑图，它包括一组N个顶点的非空有限集

一组边的集合

和一个加权邻接矩阵

入度矩阵

定义为对角矩阵

其中

是节点i的加权入度；图的拉普拉斯矩阵为

x_i(k+1)＝Ax_i(k)+B_iu_i(k),i＝1,2,...,N,(1)

其中

是智能体i的控制；

和

领导者动态如下：

x₀(k+1)＝Ax₀(k),(2)

其中

为此定义每个智能体i的局部邻域跟踪误差：

其中

其表达式如下

其中

是拉普拉斯矩阵，

是一个对角矩阵，对角元素b_ii＝b_i为智能体i的连接增益，

表示克罗内克积，

是全局状态向量，

I_n是n×n的单位矩阵；

(1-3)定义如下等式：

其中

是全局同步误差向量；

根据公式(5)和公式(4)可以重新表示为：

是非奇异的，则同步误差η(k)的界为

其中

是

(1-4)智能体i的邻域跟踪误差动态方程如下：

(7)重新表示为：

步骤(2)针对邻域跟踪误差系统，定义误差系统的代价函数，给出全局纳什均衡解，步骤(2)进一步包括下述步骤：

(2-1)智能体i的代价函数为：

其中智能体i的效应函数U_i为

(10)中

均是对称权重矩阵，0<γ≤1是折扣因子，

其中

表示。

(2-3)利用公式(10)和(11)，可以推导出

其中

R_i是智能体i的一个对角矩阵，其对角元素为R_ii和所有R_ij；

利用公式(12)和反馈控制律

其中K_i为反馈控制矩阵，可以获得

其中

将

代入到(14)中，可以推导出下式：

ε_i(k+1)＝(A-BK_i)ε_i(k)＝K_1iε_i(k),(15)

其中K_1i＝A-BK_i；

将公式(15)代入公式(13)，得到代价函数

关于邻域跟踪误差ε_i(k)的二次型形式：

其中

通过计算

得到最优控制律

(2-5)如果存在

其中

其中

步骤(3)对于完全未知的多智能系统或其他实际的大规模系统，系统模型不易或者不能获取。另外，根据步骤(2-4)、(2-5)中的耦合的离散时间HJB方程难以直接求解全局纳什均衡解。因此，基于步骤(1)和步骤(2)，本步骤引入Q函数，使用Q函数重构步骤(2)中的代价函数，推导Q函数贝尔曼方程并求解最优控制。步骤(3)进一步包括下述步骤：

基于贝尔曼方程(21)，定义智能体i的离散Q函数如下：

其中Q函数中的变量为

和u_i(k)，

根据公式(12)和代价函数的二次型(16)，Q函数满足：

使用误差系统动态公式(14)，将(24)重新表示为

根据公式(9)和(11)，给出关于局部矢量

的代价函数的解结构，因此，

可以用向量

表示为：

矩阵H_i为：

其中

H_i满足

为了简化表示，

写作为

写作为

等等。

(3-2)计算如下等式：

由(27)，智能体i的最优控制可以得到：

其中

是矩阵H_i中最后一行元素除去

组成的行向量，即

(3-3)根据公式(22)和(23)，Q函数写为：

其中

步骤(4)依据步骤(3)中的Q函数贝尔曼方程(30)及最优控制(28)，设计基于策略迭代的Q-learning算法，并用最小二乘法迭代地求解每个智能体的最优控制

步骤(4)进一步包括下述步骤：

(4-1)如果

步骤1)初始化：对智能体i，给定一个初始稳定容许控制策略

令r＝0，其中r表示迭代步数，设置最大训练循环步数N；

步骤2)策略估计：计算核心矩阵H^r+1

步骤3)策略更新：

步骤4)当r＝N停止迭代过程，获得近似最优控制律

否则增加迭代步数r＝r+1并转到步骤2)。

定义：

公式(30)可以重新表示为

则公式(26)表示为

其中，

h_i＝vec(H_i)。vec(·)函数用于矢量化，通过将

矩阵的列A_*1,...,A_*q堆叠以形成具有fq个元素的矢量

即，

公式(35)中的

的表述如下：

结合公式(34)和(35)，得到

其中δ为持续激励，在训练过程中用作每个智能体i的真实控制，随着迭代步长的增加，持续激励衰减到零。Q-learning算法的流程图如图1所示。

为了使本领域人员更好地理解本发明，下面结合具体实施例，对本发明的线性系统自适应最优跟踪控制方法进行详细说明。

仿真中采用如下线性离散四智能体系统，智能体之间的交流拓扑图如图2所示：

从图2中可知，如果图中只有领导者和智能体1，则此系统即是一般的跟踪问题。当智能体的数量增加时，单智能体系统就转化为了多智能体系统。根据图2，连接增益为b₁＝1，b₂＝b₃＝b₄＝0，i＝1,2,3,4；选择边的增益为e₁₃＝0.8，e₂₁＝1，e₃₂＝0.7，e₄₃＝0.6；代价函数中权重矩阵选为Q₁₁＝Q₂₂＝Q₃₃＝Q₄₄＝I_2×2，R₁₁＝R₂₂＝R₃₃＝R₄₄＝R₁₃＝R₂₁＝R₃₂＝R₄₃＝1，R₁₂＝R₁₄＝R₂₃＝R₂₄＝R₃₁＝R₃₄＝R₄₁＝R₄₂＝0。将算法应用到四智能体系统的状态一致性控制中。选择折扣因子为γ＝0.8。领导者的初始状态为

智能体的初始状态向量为

初始

中的元素均在[0,0.1]随机选择，计算

探索信号δ的选择为

δ＝0.097e^-0.07i(0.5sin(2k)²cos(10.1k)+0.9sin(1.1k)²cos(4k)+0.3sin(2k)²cos(7k)

+0.3sin(10k)³+0.7sin(3k)³cos(4k)+0.3sin(3k)cos(1.2k)²

+0.4sin(1.1k)²+0.5cos(2.4k)sin(8k)²+0.3sin(k)cos(0.8k)²

+0.3sin(4k)³+0.4cos(2k)sin(5k)⁴+0.3sin(10k)³)

初始控制律分别为

设置最大迭代步数为N＝150。领导者和智能体的状态轨迹，状态2D相平面图和3D相平面图分别如图3,4,5所示。从图中可以看出，经过一定的迭代后，所有智能体都与领导者达成了同步。图6显示了四个智能体的跟踪误差动态，它们最终收敛于零。所有结果都证明了在未知准确系统模型的情况下，提出的Q-learning算法对多智能体系统状态一致性控制的有效性。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多智能体系统最优状态一致性控制方法，其特征在于，包括如下步骤：

步骤(4)：依据步骤(3)中的Q函数贝尔曼方程及最优控制方程，设计基于策略迭代的Q-learning算法，并用最小二乘法迭代地求解每个智能体的最优控制。

2.根据权利要求1所述的多智能体系统最优状态一致性控制方法，其特征在于，步骤(1)进一步包括下述步骤：

是有向拓扑图，它包括一组N个顶点的非空有限集

一组边的集合

和一个加权邻接矩阵

入度矩阵

定义为对角矩阵

其中

是节点i的加权入度；图的拉普拉斯矩阵为

x_i(k+1)＝Ax_i(k)+B_iu_i(k),i＝1,2,...,N, (1)

其中

是智能体i的控制；

和

领导者动态如下：

x₀(k+1)＝Ax₀(k), (2)

其中

为领导者在时刻k的目标状态，x₀(k+1)是领导者在时刻k+1的状态，在拓扑图中，领导者至少直接和系统中的一个智能体直接连接；

为此定义每个智能体i的局部邻域跟踪误差：

其中

其表达式如下

其中

是拉普拉斯矩阵，

是一个对角矩阵，对角元素b_ii＝b_i为智能体i的连接增益，

表示克罗内克积，

是全局状态向量，

I_n是n×n的单位矩阵；

(1-3)定义如下等式：

其中

是全局同步误差向量；

根据公式(5)和公式(4)可以重新表示为：

是非奇异的，则同步误差η(k)的界为

其中

是

的最小奇异值；当||ε(k)||→0时，|η(k)||→0，这意味着将整体跟踪误差ε(k)调节得足够小，则全局同步误差η(k)可以任意小，并且智能体i将与领导者同步；

(1-4)智能体i的邻域跟踪误差动态方程如下：

(7)重新表示为：

3.根据权利要求1所述的多智能体系统最优状态一致性控制方法，其特征在于，步骤(2)进一步包括下述步骤：

(2-1)智能体i的代价函数为：

其中智能体i的效应函数U_i为

(10)中

均是对称权重矩阵，0<γ≤1是折扣因子，

是智能体i的邻居智能体j的控制，代价函数(9)是系统的性能指标函数，最小化系统代价函数(9)，可以求解控制的最优值，即接下来可以设计算法最小化(9)并求解系统最优控制，最小化领域跟踪误差ε(k)，则可以最小化同步误差η(k)，达到最优状态一致性的目标；

其中

表示；

(2-3)利用公式(10)和(11)，可以推导出

其中

R_i是智能体i的一个对角矩阵，其对角元素为R_ii和所有R_ij；

利用公式(12)和反馈控制律

其中K_i为反馈控制矩阵，可以获得

其中

将

代入到(14)中，可以推导出下式：

ε_i(k+1)＝(A-BK_i)ε_i(k)＝K_1iε_i(k), (15)

其中K_1i＝A-BK_i；

将公式(15)代入公式(13)，得到代价函数

关于邻域跟踪误差ε_i(k)的二次型形式：

其中

通过计算

得到最优控制律

(2-5)如果存在

其中

其中

4.根据权利要求1所述的多智能体系统最优状态一致性控制方法，其特征在于，步骤(3)进一步包括下述步骤：

基于贝尔曼方程(21)，定义智能体i的离散Q函数如下：

其中Q函数中的变量为

和u_i(k)，

根据公式(12)和代价函数的二次型(16)，Q函数满足：

使用误差系统动态公式(14)，将(24)重新表示为

根据公式(9)和(11)，给出关于局部矢量

的代价函数的解结构，因此，

可以用向量

表示为：

矩阵H_i为：

其中

H_i满足

为了简化表示，

写作为

写作为

等等；

(3-2)计算如下等式：

由(27)，智能体i的最优控制可以得到：

其中

是矩阵H_i中最后一行元素除去

组成的行向量，即

是反馈控制增益矩阵；目标是计算出线性最优控制律(28)以最小化代价函数；

(3-3)根据公式(22)和(23)，Q函数写为：

其中

5.根据权利要求1所述的多智能体系统最优状态一致性控制方法，其特征在于，步骤(4)进一步包括下述步骤：

(4-1)如果

步骤1)初始化：对智能体i，给定一个初始稳定容许控制策略

令r＝0，其中r表示迭代步数，设置最大训练循环步数N；

步骤2)策略估计：计算核心矩阵H^r+1

步骤3)策略更新：

步骤4)当r＝N停止迭代过程，获得近似最优控制律

否则增加迭代步数r＝r+1并转到步骤2)；

(4-2)使用Q函数贝尔曼方程(31)执行算法时，不需要任何系统动力学知识，仅基于数据实现；在策略评估步骤，基于沿着系统轨迹获取的每个智能体i的数据组Z_i(k)，Z_i(k+1)，采用策略迭代结合最小二乘法方法，实时获得H_i的更新值；计算过程如下：

定义：

公式(30)可以重新表示为

则公式(26)表示为

其中，

h_i＝vec(H_i)；vec(·)函数用于矢量化，通过将

矩阵的列A_*1,...,A_*q堆叠以形成具有fq个元素的矢量

即，

公式(35)中的

的表述如下：

在公式(35)中h_i表示为h_i＝vec(H_i)，它作用于维数为(p+2)×(p+2)的矩阵并输出(p+2)(p+3)/2×1维的列向量；vec(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的，其中非对角元素总和为(H_i(αβ)+H_i(βα))，α和β分别表示矩阵H_i的行和列；这意味着H_i是一个维数为(p+2)×(p+2)的对称矩阵，具有(p+2)×(p+3)/2个独立元素；因此，仅需要获取(p+2)×(p+3)/2个数据；

结合公式(34)和(35)，得到

因此，可以通过h_i获得核矩阵H_i；策略迭代算法需要持续激励条件，以确保对状态空间的充分探索，即