CN116500893B

CN116500893B - 一种高阶多智能体的强化学习优化控制器构建方法及系统

Info

Publication number: CN116500893B
Application number: CN202310446816.6A
Authority: CN
Inventors: 文国兴; 宋燕芬; 李彬; 刘丽霞
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-11-14
Anticipated expiration: 2043-04-19
Also published as: CN116500893A

Abstract

本发明属于自适应非线性控制技术领域，提出了一种高阶多智能体的强化学习优化控制器构建方法及系统，针对非线性高阶多智能体系统，根据反步技术和强化学习开发一种优化的领航者‑跟随者一致控制。由于每个智能体系统都包含具有导数关系的各种状态，所以考虑利用反步策略设计分布式控制。在前m‑1个反推步骤中，虚拟控制被设计为具有由相邻智能体的输出状态组成的一致性误差项，以保证多智能体系统一致性。对于具有非线性动态的最后一个反推步骤，最优实际控制是通过执行简化的critic‑actor强化学习得到的。最后，通过理论和仿真验证了该优化一致性方法的有效性。

Description

一种高阶多智能体的强化学习优化控制器构建方法及系统

技术领域

本发明属于自适应非线性控制技术领域，尤其涉及一种高阶多智能体的强化学习优化控制器构建方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

多智能体系统由一系列相互作用的单个智能体组成，通过相互通信、合作等方式完成一些复杂的任务，其能力超过多个单智能体的能力累加。近十几年来，多智能体系统已广泛应用在实际工程中，如：自动公路系统、无人机群、卫星集群、移动机器人编队和多刚体系统。因此，针对多智能体控制器构建方法有重要的应用价值和意义。

对于多智能体系统，分布式一致控制一直是最基本的问题，被广泛应用和研究。一致控制是指所有智能体通过相互协调达到某个共同状态。关于高阶多智能体系统，因为其一致控制器设计需要管理多重状态变量，一直是多智能体控制的难点和重点问题。相比低阶多智能体系统，高阶多智能体有更广泛的应用范围，可能应用于机器人编队、无人机群、动力臂生产流水线等等。

在实际应用中，高阶多智能体系统，在执行一些任务时，往往需要一个大的能量消耗，如：无人机群在执行搜索任务时，往往需要大量能量消耗。而优化控制是用最少控制资源实现控制目标，因此寻求对高阶多智能体系统的优化控制器的构建方法，具有重要的实际意义。然而，由于高阶多智能体包含多重状态变量，而目前的优化控制方法，算法非常复杂，难以扩展和应用于高阶多智能体系统。因此，高阶多智能体系统的优化一致控制器的构建，是一个具有挑战和实际应用意义的问题。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提出一种高阶多智能体的强化学习优化控制器构建方法及系统，确保用最少控制资源实现控制目标即实现高阶非线性多智能体系统的一致性，不同于传统的强化学习优化控制，该控制器的构建，采用了一种简化的强化学习方法，有效降低了计算复杂度，这使得它可以更有效地应用于许多控制技术。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供了高阶非线性多智能体的强化学习优化控制器的构建方法，包括如下步骤：

构造包含n个智能体的高阶非线性多智能体系统模型；

基于高阶非线性多智能体系统模型，采用反步法和强化学习相结合来设计控制器，具体包括：

在第一个反推步骤中，设计了由相邻智能体的输出状态组成的一致误差，得到具有一致误差项的第一步的虚拟控制，中间m-2步直接利用系统状态得到中间步虚拟控制；在第m个步骤中，结合第一步的虚拟控制和中间步的虚拟控制，执行强化学习的critic-actor神经网络，并设计了神经网络权重更新率，得到实际控制输入信号。

进一步地，所述实际控制输入信号满足的条件为：都是半全局一致最终有界的且使所有智能体的输出都遵循参考轨迹。

进一步地，所述在第一个反推步骤中，设计了由相邻智能体的输出状态组成的一致误差，得到具有一致误差项的第一步的虚拟控制包括：

基于跟踪误差变量的定义和参考信号得到误差动力学方程；

基于智能体邻居的状态，得到一致性误差表达式；

通过引入误差变量，结合误差动力学方程和一致性误差表达式由相邻智能体的输出状态组成的一致误差；

基于相邻智能体的输出状态组成的一致误差和设计参数得到第一阶的虚拟控制。

进一步地，所述强化学习的critic-actor神经网络的设计是通过利用神经网络逼近连续未知函数的方式得到的。

进一步地，在中间m-2步直接利用系统状态得到虚拟控制，通过为所有智能体的第j个反推子系统设计李雅普诺夫函数进行稳定性分析。

进一步地，在反步步骤中的最后一步中，产生所述执行强化学习优化一致控制，其critic-actor神经网络的设计如下：

其中，和/>分别表示critic和actor神经网络的权重，ξ_im为最后一个反推步骤的跟踪误差/>表示最优性能函数，γ_im是一个设计参数，Φ_i(ξ_im)为基函数向量，/>为最优控制u^*的逼近；

其权重更新律分别为：

其中，κ_ci>0和κ_ai>0分别代表critic和actor的设计参数，σ_i为正的设计参数，I_m为设计的正定矩阵。

进一步地，所述神经网络权重更新率是根据与哈密顿-雅可比-贝尔曼方程相关的简单正函数的负梯度产生的。

本发明的第二个方面提供多智能体系统的强化学习优化一致控制系统，包括：

系统模型构建模块，其被配置为：构造包含n个智能体的高阶非线性多智能体系统模型；

控制器构造模块，其被配置为：基于高阶非线性多智能体系统模型，采用反步法和强化学习相结合来设计控制器，具体包括：

在第一个反推步骤中，设计了由相邻智能体的输出状态组成的一致误差，得到具有一致误差项的虚拟控制，中间m-2步直接利用系统状态得到其虚拟控制；在第m个步骤中，结合第一步的虚拟控制和中间步的虚拟控制，执行强化学习的critic-actor神经网络，并设计了神经网络权重更新率，得到实际控制输入信号。

本发明的第三个方面提供：一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的高阶非线性多智能体一致控制的强化学习优化控制器的构建方法中的步骤。

本发明的第四个方面提供：一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的基于强化学习多智能体系统的优化一致控制方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明针对非线性高阶多智能体系统，根据反步技术和强化学习开发一种优化的领航者-跟随者一致控制，由于每个智能体系统都包含具有导数关系的各种状态，所以考虑利用反步策略和计分布式控制相结合。在前m-1个反推步骤中，虚拟控制被设计为具有由相邻智能体的输出状态组成的一致性误差项，以保证多智能体系统一致性。对于具有非线性动态的最后一个反推步骤，最优实际控制是通过执行简化的critic-actor强化学习得到的，克服了求解HJB方程的困难。可以保证多智能体系统的稳定性。考虑了高阶多智能体的多重状态变量，并针对目前的优化控制算法进行简化，从而构建出适合高阶多智能体的优化控制器，从而使其用最少控制成本实现控制目标。

2、在传统的强化学习优化控制中，critic和actor的权重更新率是通过对近似的哈密顿-雅可比-贝尔曼(HJB)方程进行梯度下降法得到的，其中包括许多非线性项目，因此，该算法非常复杂。然而，在这种优化控制中，由于强化学习更新率是根据与HJB方程相关的简单正函数的负梯度产生的，因此其算法非常简单。同时，它还可以消除持续激励条件。最后，通过理论和仿真验证了该优化一致性方法的有效性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例提供的高阶多智能体系统的最优一致控制结构框图；

图2是本发明实施例提供的仿真算例的状态跟踪性能；

图3是本发明实施例提供的仿真算例的三个反步步骤的跟踪误差；

图4是本发明实施例提供的仿真算例的actor神经网络权重范数；

图5是本发明实施例提供的仿真算例的critic神经网络权重范数；

图6是本发明实施例提供的仿真算例的成本函数。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明的优化控制方案是基于以下m个步骤的反步过程设计的。由于构造的高阶非线性多智能体系统的前m-1个子系统采用线性动态形式建模，不包含不确定性，因此可以直接利用系统状态得到其虚拟控制。

此外，高阶非线性多智能体系统的第m个子系统涉及未知的非线性动力学方程，因此，构造了基于神经网络近似的critic-actor强化学习，以在最后一步反步中得到最优的实际控制。

实施例一

如图1所示，本实施例提供一种高阶多智能体的强化学习优化控制器构建方法，包括如下步骤：

一.系统建模与问题陈述

构造高阶非线性多智能体系统模型：

其中，x_i1∈R和u_i∈R是智能体i的系统输出和控制输入，是连续未知的非线性动力函数，其中，/>系统状态。

控制目标为：对于多智能体系统(1)，根据反步技术找到基于强化学习的优化一致性控制，使得(i)所有控制信号都是半全局一致最终有界的(SGUUB)；(ii)达成领航者-追随者的一致。

假设1：动态函数是有界的。

假设2：参考信号x_r(t)及其导数是光滑且有界的函数。

引理1：设K(t)∈R是一个连续正函数，如果它满足其中β₁,β₂>0是两个常数，则以下不等式成立：

引理2：如果一个智能体的通讯拓扑图是一个有向连通图，其对应的拉普拉斯矩阵L是不可约，并且矩阵是正定的，其中，B＝diag{b₁,b₂,…,b_n}是一个正的对角矩阵。

多智能体系统(1)的优化一致性控制是从下面的m步反步设计中推导出来的。

二.优化一致控制设计

多智能体系统的优化一致性控制是从下面的m步反步设计中推导出来的。

步骤1：在第一个反步步骤中，定义第i个智能体的跟踪误差为ξ_i1(t)＝x_i1-x_r，并导出其动力方程。

设计由相邻智能体的输出状态组成的一致误差为为第一步设计含有一致误差项的虚拟控制

步骤1具体包括：

对于第i个智能体，i＝1,…,n，跟踪误差变量定义为

ξ_i1(t)＝x_i1-x_r. (3)

其中x_r表示参考信号。

由(1)可知，ξ_i1(t)误差动力学方程可以表示为

基于邻居的状态，一致性误差定义为

其中，如若智能体i到智能体k存在信息流，即φ_ik＝(o_i,o_k)∈ψ，则将智能体k称为智能体i的邻居，S_i＝{k|(o_i,o_k)∈ψ}表示智能体i的邻居标签集，a_ik和b_i分别表示通信权重矩阵A和B中的元素。

通过引入误差变量(3)，一致误差(5)进一步被重新表达为：

设计虚拟控制为：

其中，γ_i>1/2是设计参数。

利用第二步的误差动力学方程(4)可以变为

步骤3：为所有智能体的第一步设计李雅普诺夫函数，对其进行稳定性和误差收敛性分析。

所述李雅普诺夫函数设计为：然后对其求导得到结果为：

对于所有智能体的第一个跟踪误差，考虑以下李雅普诺夫函数

其中，ξ₁(t)＝[ξ₁₁,ξ₂₁,…,ξ_n1]^T，

备注1：根据引理2，矩阵是正定的。设e(t)＝[e₁,…,e_n]^T，由(6)可知，存在关系式/>因此，以下等式成立

根据上式，有以下不等式成立

其中，和/>分别表示L_B的最大和最小特征值。

对沿(8)求导有

将(7)式代入到(12)中有

根据杨氏不等式有以下两个不等式：

将上述不等式代入到(13)式可得

步骤4：定义第j,(j＝2,…,m-1)步的坐标变换为并导出其动力方程，设计这一步智能体i的虚拟控制为/>

第j步：将坐标变换定义为：

根据ξ_ij(t)的误差动力学为

其中，是第j-1步的关于智能体i的虚拟控制。

让代表这一步反步步骤的虚拟控制，将其定义为

其中，γ_ij>1是设计参数。

利用(17)式可以写为

步骤5：为所有智能体的第j个反推子系统设计李雅普诺夫函数进行稳定性分析。

李雅普诺夫函数被设计为：其中

然后计算其导数，并结合前j-1步得到的结果，可以获得结果：

对于所有智能体的第j个反推子系统，选择李雅普诺夫函数为：

其中，

根据(19)式，的时间导数为：

应用虚拟控制(18)，可以得到以下等式：

根据杨氏不等式可得以下不等式：

将上述不等式代入(22)有：

使用前j-1反推步骤获得的结果，上述不等式可以改为：

步骤6：在反步步骤中的最后一步中，通过求解得到为了得到可行的优化控制，利用神经网络逼近连续未知函数，因此构造了如下执行强化学习的critic和actor神经网络：

和/>分别表示critic和actor神经网络的权重，其权重更新律分别为：

其中，κ_ci>0和κ_ai>0分别代表critic和actor的设计参数。

最后一步，根据反步的设计原理，实际控制将根据前m-1步的虚拟控制产生。此外，作为主要贡献之一，实际控制将是通过从critic-actor强化学习训练中获得的优化控制。

考虑到以下坐标变换，

根据(1)，误差动力学可以生成为：

将与误差动态(27)相关的积分性能指数定义为

其中是成本函数。

定义1：分布式一致控制u_i被称为集合Ω上的可容许控制,通过u_i∈Ψ(Ω),如果它是连续的，并保持u_i(0)＝0，并使系统稳定及J_i(ξ_im)是有限的。

定义2：如果完成控制分配的性能指标(28)最小，则认为可容许的一致控制u_i∈Ψ(Ω)是最优的。

在(28)的基础上，将性能函数定义为

设表示最优实际控制。将上述方程中的u_i替换为/>得到以下最优性能函数

通过计算(30)两边的导数，导出HJB方程为：

基于上述陈述，最优控制是上述HJB方程(31)的唯一解，因此，求解有：

然而，最优控制(32)包含不确定项为了指定最优控制，并使其成为HJB方程的唯一解，通过求解下面所示的HJB方程来获得不确定项/>该方程通过将(32)添加到(31)得到

然而，由于上述HJB方程的非线性特性，很难找到其解析解。为了克服这一困难，强化学习自适应策略是获取其近似解的一种可行方法。

为了构造强化学习，未知项被分为如下两部分，

其中，γ_im>0是设计参数，

将(34)代入(32)：

由于是一个未知且连续的函数，可以通过神经网络在给定的紧集Ω上逼近，如下所示:

其中和ò_i分别表示理想神经网络权值、基函数向量和近似误差。

将(36)代入到(34)和(35)中有

由于理想权向量是未知的，因此(38)中给出的最优控制/>是不可用的。为了得到可行的最优控制，强化学习通过critic-actor来实现，如下所示：

式中是对/>的估计，而/>和/>分别表示神经网络critic和actor的权重。

critic和actor神经网络权重按照如下规则更新：

其中，κ_ci>0和κ_ai>0分别代表critic和actor设计参数。

设计参数κ_ai、κ_ci和γ_im需要满足以下条件:

步骤7：为多智能体系统设计总的李雅普诺夫函数，对其进行稳定性和误差收敛性分析。

李雅普诺夫函数被设计为：

然后计算其导数，结合前m-1步得到的结果并且应用引理1，可以获得最终结果：从而证明控制目标能被实现。

选取多智能体系统的总李雅普诺夫函数为：

其中

计算沿(27)，(41)和(42)的时间导数，然后代入最优控制(40)，得到：/>

由杨氏不等式可以得到以下结果:

将上述不等式代入到(45)中有

根据有如下不等式成立

/>

将(48)和(49)代入到(47)中有

根据条件(43)，有如下不等式成立

(50)可以重新表示为

由于参数γ_im，κ_ai，κ_ci满足条件(43)，可将上述不等式(52)转化为：

将前m-1步的结果代入式(53)，可得如下不等式

其中，以常数d为界，即|D(t)|≤d。

步骤8：利用Matlab软件进行仿真实验，进一步验证控制方法的可行性。

定理1：对于多智能体系统，如果在前m-1步中采用增益参数γ_ij>1的虚拟控制(7)和(18)实现优化的一致控制，在最后一步中采用强化学习规则(41)和(42)实现设计参数满足条件(43)的优化的实际控制(40)，则可以实现以下的两个控制目标。

i)误差变量ξ_ik(t),为半全局一致最终有界。

ii)通过选择合适的设计参数，可以使所有智能体的输出都遵循参考轨迹。

证明：设根据式(11)，由式(54)可得/>

令则不等式(55)可化为:

将引理1应用于(56)，如下所示的不等式成立

上述结果表明，这些误差变量ξ_ik(t),为半全局一致最终有界。跟踪误差可以接近一个小的零邻域。

为了验证该优化共识方法的可行性，本实施例以参考轨迹x_r(t)＝5sin(0.8t)为准，研究了以下由6个智能体组成的数值模拟系统:

其中a_i＝1,…,6＝-1.1,0.7,0.8,-0.9,-0.7,0.6，b_i＝1,…,6＝1.2,0.3,-1.3,-0.4,1.6,1.9。初始状态是

邻接矩阵为

多智能体系统与领航者之间的通信权重矩阵记为B＝diag{0,1,0,0,1,0}。

根据定理1，最优控制可以由三个反步过程导出。在前两个反步步骤中，由于这两个子系统采用线性动态形式建模，因此可以直接利用系统状态得到它们的虚拟控制。在第三步反推中，出现了控制输入和未知的非线性动态函数。然后利用critic-actor强化学习训练得到最优的实际控制。反步设计过程如下所示。

第一步：根据(5)式以及邻接矩阵A和通信权重矩阵B，将一致误差设为

然后根据(7)式得到虚拟控制增益常数设为γ_i＝1,…,6＝22。

第二步：在第二个反步步骤中，根据式(18)生成虚拟控制增益参数选取为γ_{i2,i＝1,…,6}＝15。

第三步：在最后的反步步骤中，导出优化的实际控制。

critic和actor的神经网络都设计为10个神经元。基函数向量Φ_i(ξ_i),i＝1,2,3,4,5,6的高斯函数使中心η_i＝1,…,10在-10到10区间内均匀分布，宽ρ_i＝1,…,10＝2。

根据强化学习更新规律(41)和(42)，设计参数分别为κ_c＝2.5,κ_a＝2.4，σ_i＝0.3。权重初值为M_ci(0)＝[0.2,…,0.2]^T∈R¹⁰,M_ai(0)＝[0.3,…,0.3]^T∈R¹⁰。对应式(40)，控制增益参数为γ_{i3,i＝1,…,6}＝180。

仿真结果如图2-图6所示。图2表示跟踪性能；图3表示了跟踪误差ξ_i1,ξ_i2,ξ_i3,i＝1,…,6的收敛性。图4-图5表示critic和actor自适应权重的有界性。图6表示成本函数图2-图6可以进一步证明该优化方法能够完成控制的目标。

本发明的该控制方法可以应用于多四旋翼无人机中等，实现对多四旋翼无人机飞行姿态的控制，当然不仅限于此，最终可以使多智能体系统达到最优一致控制。

实施例二

本实施例提供了一种高阶多智能体的强化学习优化控制器构建及系统，包括：

系统模型构建模块，其被配置为：构造包含n个智能体的高阶非线性多智能体系统；

控制器构建模块，其被配置为：基于高阶非线性多智能体系统，采用反步法和强化学习相结合来设计控制器，具体包括：

在第一个反推步骤中，设计了由相邻智能体的输出状态组成的一致误差，得到具有一致误差项的虚拟控制，中间m-2步直接利用系统状态得到中间步的虚拟控制；在第m个步骤中，结合第一步的虚拟控制和中间步的拟控制，执行强化学习的critic-actor神经网络，并设计了神经网络权重更新率，得到实际控制输入信号。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一所述的一种高阶多智能体的强化学习优化控制器构建方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一所述一种高阶多智能体的强化学习优化控制器构建方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，包括如下步骤：

构造包含n个智能体的高阶非线性多智能体系统模型；

在第一个反推步骤中，设计了由相邻智能体的输出状态组成的一致误差，得到具有一致误差项的虚拟控制，中间m-2步直接利用系统状态得到中间步虚拟控制；在第m个步骤中，结合第一步的虚拟控制和中间步虚拟控制，执行强化学习的critic-actor神经网络，并设计了神经网络权重更新率，得到实际控制输入信号；所述执行强化学习的critic-actor神经网络的设计如下：

其中，和/>分别表示critic和actor神经网络的权重，ξ_im为最后一个反推步骤的跟踪误差，/>表示最优性能函数，γ_im是一个设计参数，Φ_i(ξ_im)为基函数向量，/>为最优控制u^*的逼近；

其权重更新律分别为：

其中，κ_ci>0和κ_ai>0分别代表critic和actor的设计参数，σ_i为正的设计参数，I_m为设计的正定矩阵；

设计参数κ_ai、κ_ci和γ_im满足以下条件:

2.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，所述实际控制输入信号满足的条件为：都是半全局一致最终有界的且使所有智能体的输出都遵循参考轨迹。

3.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，所述在第一个反推步骤中，设计了由相邻智能体的输出状态组成的一致误差，得到具有一致误差项的虚拟控制包括：

基于跟踪误差变量的定义和参考信号得到误差动力学方程；

基于智能体邻居的状态，得到一致性误差表达式；

基于相邻智能体的输出状态组成的一致误差和设计参数得到第一步的虚拟控制。

4.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，所述强化学习的critic-actor神经网络的设计是通过利用神经网络逼近连续未知函数的方式得到的。

5.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，在中间m-2步直接利用系统状态得到中间步虚拟控制中，通过为所有智能体的第j个反推子系统设计李雅普诺夫函数进行稳定性分析。

6.如权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，所述神经网络权重更新率是根据与哈密顿-雅可比-贝尔曼方程相关的简单正函数的负梯度产生的。

7.一种高阶多智能体的强化学习优化控制器构建系统，其特征在于，包括：

控制器构造模块，其被配置为：基于高阶非线性多智能体系统，采用反步法和强化学习相结合来设计控制器，具体包括：

在第一个反推步骤中，设计了由相邻智能体的输出状态组成的一致误差，得到具有一致误差项的虚拟控制，中间m-2步直接利用系统状态得到其虚拟控制；在第m个步骤中，结合第一步的虚拟控制和中间步的虚拟控制，执行强化学习的critic-actor神经网络，并设计了神经网络权重更新率，得到实际控制输入信号；所述执行强化学习的critic-actor神经网络的设计如下：

其权重更新律分别为：

设计参数κ_ai、κ_ci和γ_im满足以下条件:

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的一种高阶多智能体的强化学习优化控制器构建方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的一种高阶多智能体的强化学习优化控制器构建方法中的步骤。