CN112445132A - 一种多智能体系统最优状态一致性控制方法 - Google Patents

一种多智能体系统最优状态一致性控制方法 Download PDF

Info

Publication number
CN112445132A
CN112445132A CN201910818742.8A CN201910818742A CN112445132A CN 112445132 A CN112445132 A CN 112445132A CN 201910818742 A CN201910818742 A CN 201910818742A CN 112445132 A CN112445132 A CN 112445132A
Authority
CN
China
Prior art keywords
agent
equation
optimal
control
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910818742.8A
Other languages
English (en)
Inventor
穆朝絮
赵倩
孙长银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910818742.8A priority Critical patent/CN112445132A/zh
Publication of CN112445132A publication Critical patent/CN112445132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种多智能体系统最优状态一致性控制方法,该方法首先构造状态邻域跟踪误差及跟踪误差系统,将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题;然后针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解;并引入Q函数,使用Q函数重构代价函数,推导Q函数贝尔曼方程并求解最优控制;依据Q函数贝尔曼方程及最优控制方程,设计基于策略迭代的Q‑learning算法,并用最小二乘法迭代地求解每个智能体的最优控制。本方法不要求知道系统的动态信息,避免了直接求解耦合哈密顿‑雅可比‑贝尔曼方程;算法实现采用最小二乘法,得到的控制解为解析解,避免了近似误差的出现,有效提高了最优控制的精准度。

Description

一种多智能体系统最优状态一致性控制方法
技术领域
本发明涉及多智能体系统的最优状态一致性控制技术领域,更具体地,涉及一种多智能体系统最优状态一致性控制方法。
背景技术
多智能体系统是由在一个环境中交互的多个智能体组成的系统。在多智能体系统中,各智能体之间互相通信,彼此协调,并行地求解问题,因此能有效地提高问题求解的能力。多智能体系统协同控制主要研究的问题有编队、群集、一致性等。其中,一致性问题是多智能体系统的根本性问题。系统一致性控制往往要求达到最优,即不仅要求使系统稳定,使其完成系统状态和领导者状态一致性的目的,还应该使系统的性能指标函数达到最小化,即达到最优一致性控制。现实应用中,系统动态往往由于各种原因而不易或者不能获取,这种情况导致了一些需要系统动态信息的方法不能得以实施,于是必须设计出一种无模型最优控制算法来解决此棘手问题。本发明从多智能体系统一致性控制问题出发,研究在系统状态未知情况下,智能体和领导者的最优状态一致性问题,是符合多智能体系统一致性控制技术的应用需求和发展趋势的。
强化学习,又称再励学习,是机器学习方法之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习方法是最优控制的重要方法。策略迭代和值迭代是强化学习里常用的两种学习算法。强化学习可以解决不同的最优控制问题,例如具有约束控制的最优稳定控制,具有时间延迟的最优控制,最优跟踪控制,最优一致性控制,以及零和和非零和博弈的最优控制等。Q-learning,亦称控制依赖启发式动态规划,是一种无模型强化学习算法,用于估计任何策略的Q函数的方法,最优或非最优,其不需要任何系统动力学知识便能求取最优控制。Q-learning中Q函数为Q(x,u),其中x代表状态,u代表控制,Q(x,u)是最优值Q*(x,u)的估计值。智能体利用其经验来改进估计,并根据学习率将新信息混合到以前的经验中。用于求解马尔可夫决策过程的算法具有三个基本函数:代价函数V映射状态到值,Q函数Q映射状态和动作到值,以及策略u映射状态到动作上的概率分布。给定转换和奖励函数形式的模型,可以从一个映射计算其它任何映射,即Q函数可用于重构代价函数
Figure BDA0002186960000000011
近年来,Q-learning技术应用广泛,例如控制系统的跟踪控制、零和博弈、事件触发控制、鲁棒控制等。、
发明内容
本发明为解决现有技术的不足,提供了一种多智能体系统最优状态一致性控制方法,以解决多智能体系统在系统动态未知情况下的最优状态一致性问题。
本发明是通过以下技术方案实现的:
一种多智能体系统最优状态一致性控制方法,包括如下步骤:
步骤(1):构造状态邻域跟踪误差及跟踪误差系统,将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题;
步骤(2):针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解;
步骤(3):引入Q函数,使用Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并求解最优控制;
步骤(4):依据步骤(3)中的Q函数贝尔曼方程及最优控制方程,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个智能体的最优控制
Figure BDA0002186960000000021
在上述技术方案中,步骤(1)进一步包括下述步骤:
(1-1)针对多智能体系统,采用拓扑图描述系统中智能体之间的交流关系
Figure BDA0002186960000000022
是有向拓扑图,它包括一组N个顶点的非空有限集
Figure BDA0002186960000000023
一组边的集合
Figure BDA0002186960000000024
和一个加权邻接矩阵
Figure BDA0002186960000000025
其中非负邻接元素eij≥0;当且仅当eij=(νji)∈ε时,eij>0,其表示为节点i能够从节点j接收信息;否则,eij=0;节点νi的邻居集为
Figure BDA0002186960000000026
入度矩阵
Figure BDA0002186960000000027
定义为对角矩阵
Figure BDA0002186960000000028
其中
Figure BDA0002186960000000029
是节点i的加权入度;图的拉普拉斯矩阵为
Figure BDA00021869600000000210
从节点νi到节点νr的有向路径描述为一组边的序列νii+1,...νr,其中(νji)∈ε,j∈{i,i+1,...r};如果存在名为领导者的节点ν0,并且从领导者到其他节点的有向路径都在图中,则该图被定义为包含生成树;
考虑如下包含N个智能体的离散多智能体系统,用拓扑图G表示,智能体i的动态如下:
xi(k+1)=Axi(k)+Biui(k),i=1,2,...,N,(1)
其中
Figure BDA00021869600000000211
是智能体i在时刻k的状态,xi(k+1)是智能体i在时刻k+1的状态,
Figure BDA00021869600000000212
是智能体i的控制;
Figure BDA00021869600000000213
Figure BDA00021869600000000214
为系统矩阵,假设A和Bi未知,A的特征值位于单位圆盘内的外部或边缘;
领导者动态如下:
x0(k+1)=Ax0(k),(2)
其中
Figure BDA00021869600000000215
为领导者在时刻k的目标状态,x0(k+1)是领导者在时刻k+1的状态,在拓扑图中,领导者至少直接和系统中的一个智能体直接连接。
(1-2)一致性控制的目标是使用来自智能体i本身及其邻居智能体的信息来获取每个智能体i的最优分布式控制律ui(k),使所有智能体的状态最终和领导者的状态同步,即
Figure BDA00021869600000000216
Figure BDA00021869600000000217
为此定义每个智能体i的局部邻域跟踪误差:
Figure BDA00021869600000000218
其中
Figure BDA00021869600000000219
是智能体i的邻居智能体j在时刻k的状态,bi≥0是智能体的连接增益,bi>0表示智能体i直接和领导者相连接,否则bi=0;根据公式(3),整个智能体系统的局部邻域跟踪误差向量
Figure BDA0002186960000000031
其表达式如下
Figure BDA0002186960000000032
其中
Figure BDA0002186960000000033
是拉普拉斯矩阵,
Figure BDA0002186960000000034
是一个对角矩阵,对角元素bii=bi为智能体i的连接增益,
Figure BDA0002186960000000035
表示克罗内克积,
Figure BDA0002186960000000036
是全局状态向量,
Figure BDA0002186960000000037
In是n×n的单位矩阵;
(1-3)定义如下等式:
Figure BDA0002186960000000038
其中
Figure BDA0002186960000000039
是全局同步误差向量;
根据公式(5)和公式(4)可以重新表示为:
Figure BDA00021869600000000310
设拓扑图包含生成树并且至少一个智能体i的连接增益bi≠0,则拓扑图是强连接的,
Figure BDA00021869600000000311
是非奇异的,则同步误差η(k)的界为
Figure BDA00021869600000000312
其中
Figure BDA00021869600000000313
Figure BDA00021869600000000314
的最小奇异值;当||ε(k)||→0时,||η(k)||→0,这意味着将整体跟踪误差ε(k)调节得足够小,则全局同步误差η(k)可以任意小,并且智能体i将与领导者同步。
(1-4)智能体i的邻域跟踪误差动态方程如下:
Figure BDA00021869600000000315
(7)重新表示为:
Figure BDA00021869600000000316
则构造出了邻域误差跟踪系统(8),使原系统的最优一致性控制问题转化为了误差系统的镇定控制问题。
在上述技术方案中,步骤(2)进一步包括下述步骤:
(2-1)智能体i的代价函数为:
Figure BDA00021869600000000317
其中智能体i的效应函数Ui
Figure BDA00021869600000000318
(10)中
Figure BDA00021869600000000319
均是对称权重矩阵,0<γ≤1是折扣因子,
Figure BDA00021869600000000320
是智能体i的邻居智能体j的控制,代价函数(9)是系统的性能指标函数,最小化系统代价函数(9),可以求解控制的最优值,即接下来可以设计算法最小化(9)并求解系统最优控制,最小化领域跟踪误差ε(k),则可以最小化同步误差η(k),达到最优状态一致性的目标。
(2-2)给定智能体i和其邻居的固定控制(ui(l),uj(l)),智能体i的代价函数定义为:
Figure BDA0002186960000000041
其中
Figure BDA0002186960000000042
是一个包含智能体i的状态εi(k)和其邻居的状态εj(k)的向量,即
Figure BDA0002186960000000043
Figure BDA0002186960000000044
p是智能体i的邻居智能体的数量,代价函数(9)评估每个智能体i的性能,智能体i的代价函数(11)包含局部信息,因此,代价函数的解结构由局部向量
Figure BDA0002186960000000045
表示。
(2-3)利用公式(10)和(11),可以推导出
Figure BDA0002186960000000046
其中
Figure BDA0002186960000000047
是包含智能体i的控制律ui(l)和其邻居智能体控制uj(l)的一个向量,即
Figure BDA0002186960000000048
Ri是智能体i的一个对角矩阵,其对角元素为Rii和所有Rij
利用公式(12)和反馈控制律
Figure BDA0002186960000000049
其中Ki为反馈控制矩阵,可以获得
Figure BDA00021869600000000410
根据步骤(1)中的公式(8),智能体i的邻域跟踪误差动态可以重新表示为:
Figure BDA00021869600000000411
其中
Figure BDA00021869600000000412
Figure BDA00021869600000000413
代入到(14)中,可以推导出下式:
εi(k+1)=(A-BKii(k)=K1iεi(k),(15)
其中K1i=A-BKi
将公式(15)代入公式(13),得到代价函数
Figure BDA00021869600000000414
关于邻域跟踪误差εi(k)的二次型形式:
Figure BDA0002186960000000051
其中
Figure BDA0002186960000000052
(2-4)基于贝尔曼最优性原理(贝尔曼最优性原理,即:多级决策过程的最优策略具有这种性质,不论初始状态和初始决策如何,其余的决策对于由初始决策所形成的状态来说,必定也是一个最优策略;这个原理可以归结为一个基本的递推公式,求解多级决策问题时,要从末端开始,到始端为止,逆向递推),智能体i的最优代价函数满足耦合的离散时间HJB方程:
Figure BDA0002186960000000053
通过计算
Figure BDA0002186960000000054
得到最优控制律
Figure BDA0002186960000000055
Figure BDA0002186960000000056
(2-5)如果存在
Figure BDA0002186960000000057
其中
Figure BDA0002186960000000058
均为控制u1,u2,...,ui,...,uN的最优值,则N个控制律序列被描述为N个智能体博弈的纳什均衡解,
Figure BDA0002186960000000059
被称为N个智能体博弈的纳什均衡,则每个智能体i的耦合离散时间HJB方程可以表示为
Figure BDA00021869600000000510
其中
Figure BDA00021869600000000511
为控制uj(k)的最优值,目标即得到系统的纳什均衡解,即所有智能体的最优控制。
在上述技术方案中,步骤(3)进一步包括下述步骤:
(3-1)对于每个智能体i的允许控制律,步骤(2)中代价函数(11)可以重新表示为贝尔曼方程:
Figure BDA00021869600000000512
基于贝尔曼方程(21),定义智能体i的离散Q函数如下:
Figure BDA00021869600000000513
其中Q函数中的变量为
Figure BDA00021869600000000514
和ui(k),
Figure BDA00021869600000000515
表示智能体i的误差状态和其邻居的误差状态,即,ui(k)表示智能体i的控制定律ui(k),从公式(22)可知,下面等式成立:
Figure BDA00021869600000000516
根据公式(12)和代价函数的二次型(16),Q函数满足:
Figure BDA00021869600000000517
使用误差系统动态公式(14),将(24)重新表示为
Figure BDA0002186960000000061
根据公式(9)和(11),给出关于局部矢量
Figure BDA00021869600000000613
的代价函数的解结构,因此,
Figure BDA0002186960000000062
可以用向量
Figure BDA0002186960000000063
表示为:
Figure BDA0002186960000000064
矩阵Hi为:
Figure BDA0002186960000000065
其中
Figure BDA0002186960000000066
Hi满足
Figure BDA0002186960000000067
为了简化表示,
Figure BDA0002186960000000068
写作为
Figure BDA0002186960000000069
写作为
Figure BDA00021869600000000610
等等。
(3-2)计算如下等式:
Figure BDA00021869600000000611
由(27),智能体i的最优控制可以得到:
Figure BDA00021869600000000612
其中
Figure BDA0002186960000000071
是矩阵Hi中最后一行元素除去
Figure BDA0002186960000000072
组成的行向量,即
Figure BDA0002186960000000073
Figure BDA0002186960000000074
Figure BDA0002186960000000075
是反馈控制增益矩阵。目标是计算出线性最优控制律(28)以最小化代价函数。
(3-3)根据公式(22)和(23),Q函数写为:
Figure BDA0002186960000000076
将(26)代入公式(29),根据公式(12),Q函数贝尔曼方程可以重新表示为
Figure BDA0002186960000000077
其中
Figure BDA0002186960000000078
在上述技术方案中,步骤(4)进一步包括下述步骤:
(4-1)如果
Figure BDA0002186960000000079
的控制策略ui(k)不仅稳定系统(7)而且保证代价函数(9)有限,则称其为容许的;基于公式(28)和(30),采用策略迭代实现Q-learning算法,如下所述:
步骤1)初始化:对智能体i,给定一个初始稳定容许控制策略
Figure BDA00021869600000000710
令r=0,其中r表示迭代步数,设置最大训练循环步数N;
步骤2)策略估计:计算核心矩阵Hr+1
Figure BDA00021869600000000711
步骤3)策略更新:
Figure BDA00021869600000000712
步骤4)当r=N停止迭代过程,获得近似最优控制律
Figure BDA00021869600000000713
否则增加迭代步数r=r+1并转到步骤2)。
(4-2)使用Q函数贝尔曼方程(31)执行算法时,不需要任何系统动力学知识,仅基于数据实现。在策略评估步骤,基于沿着系统轨迹获取的每个智能体i的数据组Zi(k),Zi(k+1),采用策略迭代结合最小二乘法方法,实时获得Hi的更新值。计算过程如下:
定义:
Figure BDA00021869600000000714
公式(30)可以重新表示为
Figure BDA0002186960000000081
则公式(26)表示为
Figure BDA0002186960000000082
其中,
Figure BDA0002186960000000083
hi=vec(Hi)。vec(·)函数用于矢量化,通过将
Figure BDA0002186960000000084
矩阵的列A*1,...,A*q堆叠以形成具有fq个元素的矢量
Figure BDA0002186960000000085
即,
Figure BDA0002186960000000086
公式(35)中的
Figure BDA0002186960000000087
的表述如下:
Figure BDA0002186960000000088
在公式(35)中hi表示为hi=vec(Hi),它作用于维数为(p+2)×(p+2)的矩阵并输出(p+2)(p+3)/2×1维的列向量。vec(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列。这意味着Hi是一个维数为(p+2)×(p+2)的对称矩阵,具有(p+2)×(p+3)/2个独立元素。因此,仅需要获取(p+2)×(p+3)/2个数据。
结合公式(34)和(35),得到
Figure BDA0002186960000000089
如果Ξi(k)列满秩,则可以通过最小二乘法直接求解公式(34):
Figure BDA00021869600000000810
因此,可以通过hi获得核矩阵Hi。策略迭代算法需要持续激励条件,以确保对状态空间的充分探索,即
Figure BDA00021869600000000811
其中δ为持续激励,在训练过程中用作每个智能体i的真实控制,随着迭代步长的增加,持续激励衰减到零。
本发明的优点和有益效果为:
(1)构造了多智能体系统的邻域跟踪误差系统,将智能体和领导者的同步误差收敛转化为了多智能体的邻域跟踪误差收敛,在误差系统的基础上,设计了基于策略迭代的Q-learning算法,该算法避免了直接解耦合的哈密顿-雅可比-贝尔曼方程。本算法是一种无模型算法,不需要任何多智能体系统的动态信息,基于系统数据实现。
(2)本发明中的算法实现依赖于最小二乘法,通过最小二乘法和策略迭代相结合的方式,迭代地获得多智能体系统的最优解析控制解,与利用神经网络实现相比,该方法不存在近似误差,大大提高了结果的准确性。
附图说明
图1是策略迭代Q-learning算法实现过程的流程图;
图2是四智能体动态系统的有向交流拓扑图;
图3是智能体状态跟踪领导者状态的轨迹图;
图4是智能体状态跟踪领导者状态的2D相平面图;
图5是智能体状态跟踪领导者状态的3D相平面图;
图6是智能体状态和领导者状态的误差轨迹图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
一种多智能体系统最优状态一致性控制方法,包括如下步骤:
步骤(1):构造状态邻域跟踪误差及跟踪误差系统,将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题;
步骤(2):针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解;
步骤(3):引入Q函数,使用Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并求解最优控制;
步骤(4):依据步骤(3)中的Q函数贝尔曼方程及最优控制方程,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个智能体的最优控制
Figure BDA0002186960000000091
下面具体详述以上各个步骤:
步骤(1)涉及目标问题转化,即系统转化问题,将多智能体系统的最优状态一致性控制转化为邻域跟踪误差系统的误差稳定控制;步骤(1)进一步包括下述步骤:
(1-1)针对多智能体系统,采用拓扑图描述系统中智能体之间的交流关系
Figure BDA0002186960000000092
是有向拓扑图,它包括一组N个顶点的非空有限集
Figure BDA0002186960000000093
一组边的集合
Figure BDA0002186960000000094
和一个加权邻接矩阵
Figure BDA0002186960000000095
其中非负邻接元素eij≥0;当且仅当eij=(νji)∈ε时,eij>0,其表示为节点i能够从节点j接收信息;否则,eij=0;节点νi的邻居集为
Figure BDA0002186960000000101
入度矩阵
Figure BDA0002186960000000102
定义为对角矩阵
Figure BDA0002186960000000103
其中
Figure BDA0002186960000000104
是节点i的加权入度;图的拉普拉斯矩阵为
Figure BDA0002186960000000105
从节点νi到节点νr的有向路径描述为一组边的序列νii+1,...νr,其中(νji)∈ε,j∈{i,i+1,...r};如果存在名为领导者的节点ν0,并且从领导者到其他节点的有向路径都在图中,则该图被定义为包含生成树;
考虑如下包含N个智能体的离散多智能体系统,用拓扑图G表示,智能体i的动态如下:
xi(k+1)=Axi(k)+Biui(k),i=1,2,...,N,(1)
其中
Figure BDA0002186960000000106
是智能体i在时刻k的状态,xi(k+1)是智能体i在时刻k+1的状态,
Figure BDA0002186960000000107
是智能体i的控制;
Figure BDA0002186960000000108
Figure BDA0002186960000000109
为系统矩阵,假设A和Bi未知,A的特征值位于单位圆盘内的外部或边缘;
领导者动态如下:
x0(k+1)=Ax0(k),(2)
其中
Figure BDA00021869600000001010
为领导者在时刻k的目标状态,x0(k+1)是领导者在时刻k+1的状态,在拓扑图中,领导者至少直接和系统中的一个智能体直接连接。
(1-2)一致性控制的目标是使用来自智能体i本身及其邻居智能体的信息来获取每个智能体i的最优分布式控制律ui(k),使所有智能体的状态最终和领导者的状态同步,即
Figure BDA00021869600000001011
Figure BDA00021869600000001012
为此定义每个智能体i的局部邻域跟踪误差:
Figure BDA00021869600000001013
其中
Figure BDA00021869600000001014
是智能体i的邻居智能体j在时刻k的状态,bi≥0是智能体的连接增益,bi>0表示智能体i直接和领导者相连接,否则bi=0;根据公式(3),整个智能体系统的局部邻域跟踪误差向量
Figure BDA00021869600000001015
其表达式如下
Figure BDA00021869600000001016
其中
Figure BDA00021869600000001017
是拉普拉斯矩阵,
Figure BDA00021869600000001018
是一个对角矩阵,对角元素bii=bi为智能体i的连接增益,
Figure BDA00021869600000001019
表示克罗内克积,
Figure BDA00021869600000001020
是全局状态向量,
Figure BDA00021869600000001021
In是n×n的单位矩阵;
(1-3)定义如下等式:
Figure BDA00021869600000001022
其中
Figure BDA00021869600000001023
是全局同步误差向量;
根据公式(5)和公式(4)可以重新表示为:
Figure BDA00021869600000001024
设拓扑图包含生成树并且至少一个智能体i的连接增益bi≠0,则拓扑图是强连接的,
Figure BDA00021869600000001025
是非奇异的,则同步误差η(k)的界为
Figure BDA00021869600000001026
其中
Figure BDA00021869600000001027
Figure BDA00021869600000001028
的最小奇异值;当||ε(k)||→0时,||η(k)||→0,这意味着将整体跟踪误差ε(k)调节得足够小,则全局同步误差η(k)可以任意小,并且智能体i将与领导者同步。
(1-4)智能体i的邻域跟踪误差动态方程如下:
Figure BDA0002186960000000111
(7)重新表示为:
Figure BDA0002186960000000112
则构造出了邻域误差跟踪系统(8),使原系统的最优一致性控制问题转化为了误差系统的镇定控制问题。
步骤(2)针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解,步骤(2)进一步包括下述步骤:
(2-1)智能体i的代价函数为:
Figure BDA0002186960000000113
其中智能体i的效应函数Ui
Figure BDA0002186960000000114
(10)中
Figure BDA0002186960000000115
均是对称权重矩阵,0<γ≤1是折扣因子,
Figure BDA0002186960000000116
是智能体i的邻居智能体j的控制,代价函数(9)是系统的性能指标函数,最小化系统代价函数(9),可以求解控制的最优值,即接下来可以设计算法最小化(9)并求解系统最优控制,最小化领域跟踪误差ε(k),则可以最小化同步误差η(k),达到最优状态一致性的目标。
(2-2)给定智能体i和其邻居的固定控制(ui(l),uj(l)),智能体i的代价函数定义为:
Figure BDA0002186960000000117
其中
Figure BDA0002186960000000118
是一个包含智能体i的状态εi(k)和其邻居的状态εj(k)的向量,即
Figure BDA0002186960000000119
p是智能体i的邻居智能体的数量,代价函数(9)评估每个智能体i的性能,智能体i的代价函数(11)包含局部信息,因此,代价函数的解结构由局部向量
Figure BDA00021869600000001110
表示。
(2-3)利用公式(10)和(11),可以推导出
Figure BDA00021869600000001111
其中
Figure BDA00021869600000001112
是包含智能体i的控制律ui(l)和其邻居智能体控制uj(l)的一个向量,即
Figure BDA0002186960000000121
Ri是智能体i的一个对角矩阵,其对角元素为Rii和所有Rij
利用公式(12)和反馈控制律
Figure BDA0002186960000000122
其中Ki为反馈控制矩阵,可以获得
Figure BDA0002186960000000123
根据步骤(1)中的公式(8),智能体i的邻域跟踪误差动态可以重新表示为:
Figure BDA0002186960000000124
其中
Figure BDA0002186960000000125
Figure BDA0002186960000000126
代入到(14)中,可以推导出下式:
εi(k+1)=(A-BKii(k)=K1iεi(k),(15)
其中K1i=A-BKi
将公式(15)代入公式(13),得到代价函数
Figure BDA0002186960000000127
关于邻域跟踪误差εi(k)的二次型形式:
Figure BDA0002186960000000128
其中
Figure BDA0002186960000000129
(2-4)基于贝尔曼最优性原理(贝尔曼最优性原理,即:多级决策过程的最优策略具有这种性质,不论初始状态和初始决策如何,其余的决策对于由初始决策所形成的状态来说,必定也是一个最优策略;这个原理可以归结为一个基本的递推公式,求解多级决策问题时,要从末端开始,到始端为止,逆向递推),智能体i的最优代价函数满足耦合的离散时间HJB方程:
Figure BDA00021869600000001210
通过计算
Figure BDA00021869600000001211
得到最优控制律
Figure BDA00021869600000001212
Figure BDA00021869600000001213
(2-5)如果存在
Figure BDA00021869600000001214
其中
Figure BDA0002186960000000131
均为控制u1,u2,...,ui,...,uN的最优值,则N个控制律序列被描述为N个智能体博弈的纳什均衡解,
Figure BDA0002186960000000132
被称为N个智能体博弈的纳什均衡,则每个智能体i的耦合离散时间HJB方程可以表示为
Figure BDA0002186960000000133
其中
Figure BDA0002186960000000134
为控制uj(k)的最优值,目标即得到系统的纳什均衡解,即所有智能体的最优控制。
步骤(3)对于完全未知的多智能系统或其他实际的大规模系统,系统模型不易或者不能获取。另外,根据步骤(2-4)、(2-5)中的耦合的离散时间HJB方程难以直接求解全局纳什均衡解。因此,基于步骤(1)和步骤(2),本步骤引入Q函数,使用Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并求解最优控制。步骤(3)进一步包括下述步骤:
(3-1)对于每个智能体i的允许控制律,步骤(2)中代价函数(11)可以重新表示为贝尔曼方程:
Figure BDA0002186960000000135
基于贝尔曼方程(21),定义智能体i的离散Q函数如下:
Figure BDA0002186960000000136
其中Q函数中的变量为
Figure BDA0002186960000000137
和ui(k),
Figure BDA0002186960000000138
表示智能体i的误差状态和其邻居的误差状态,即,ui(k)表示智能体i的控制定律ui(k),从公式(22)可知,下面等式成立:
Figure BDA0002186960000000139
根据公式(12)和代价函数的二次型(16),Q函数满足:
Figure BDA00021869600000001310
使用误差系统动态公式(14),将(24)重新表示为
Figure BDA00021869600000001311
根据公式(9)和(11),给出关于局部矢量
Figure BDA00021869600000001312
的代价函数的解结构,因此,
Figure BDA00021869600000001313
可以用向量
Figure BDA00021869600000001314
表示为:
Figure BDA00021869600000001315
矩阵Hi为:
Figure BDA0002186960000000141
其中
Figure BDA0002186960000000142
Hi满足
Figure BDA0002186960000000143
为了简化表示,
Figure BDA0002186960000000144
写作为
Figure BDA0002186960000000145
写作为
Figure BDA0002186960000000146
等等。
(3-2)计算如下等式:
Figure BDA0002186960000000147
由(27),智能体i的最优控制可以得到:
Figure BDA0002186960000000148
其中
Figure BDA0002186960000000149
是矩阵Hi中最后一行元素除去
Figure BDA00021869600000001410
组成的行向量,即
Figure BDA00021869600000001411
Figure BDA00021869600000001412
Figure BDA00021869600000001413
是反馈控制增益矩阵。目标是计算出线性最优控制律(28)以最小化代价函数。
(3-3)根据公式(22)和(23),Q函数写为:
Figure BDA00021869600000001414
将(26)代入公式(29),根据公式(12),Q函数贝尔曼方程可以重新表示为
Figure BDA0002186960000000151
其中
Figure BDA0002186960000000152
步骤(4)依据步骤(3)中的Q函数贝尔曼方程(30)及最优控制(28),设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个智能体的最优控制
Figure BDA0002186960000000153
步骤(4)进一步包括下述步骤:
(4-1)如果
Figure BDA0002186960000000154
的控制策略ui(k)不仅稳定系统(7)而且保证代价函数(9)有限,则称其为容许的;基于公式(28)和(30),采用策略迭代实现Q-learning算法,如下所述:
步骤1)初始化:对智能体i,给定一个初始稳定容许控制策略
Figure BDA0002186960000000155
令r=0,其中r表示迭代步数,设置最大训练循环步数N;
步骤2)策略估计:计算核心矩阵Hr+1
Figure BDA0002186960000000156
步骤3)策略更新:
Figure BDA0002186960000000157
步骤4)当r=N停止迭代过程,获得近似最优控制律
Figure BDA0002186960000000158
否则增加迭代步数r=r+1并转到步骤2)。
(4-2)使用Q函数贝尔曼方程(31)执行算法时,不需要任何系统动力学知识,仅基于数据实现。在策略评估步骤,基于沿着系统轨迹获取的每个智能体i的数据组Zi(k),Zi(k+1),采用策略迭代结合最小二乘法方法,实时获得Hi的更新值。计算过程如下:
定义:
Figure BDA0002186960000000159
公式(30)可以重新表示为
Figure BDA00021869600000001510
则公式(26)表示为
Figure BDA0002186960000000161
其中,
Figure BDA0002186960000000162
hi=vec(Hi)。vec(·)函数用于矢量化,通过将
Figure BDA0002186960000000163
矩阵的列A*1,...,A*q堆叠以形成具有fq个元素的矢量
Figure BDA0002186960000000164
即,
Figure BDA0002186960000000165
公式(35)中的
Figure BDA0002186960000000166
的表述如下:
Figure BDA0002186960000000167
在公式(35)中hi表示为hi=vec(Hi),它作用于维数为(p+2)×(p+2)的矩阵并输出(p+2)(p+3)/2×1维的列向量。vec(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列。这意味着Hi是一个维数为(p+2)×(p+2)的对称矩阵,具有(p+2)×(p+3)/2个独立元素。因此,仅需要获取(p+2)×(p+3)/2个数据。
结合公式(34)和(35),得到
Figure BDA0002186960000000168
如果Ξi(k)列满秩,则可以通过最小二乘法直接求解公式(34):
Figure BDA0002186960000000169
因此,可以通过hi获得核矩阵Hi。策略迭代算法需要持续激励条件,以确保对状态空间的充分探索,即
Figure BDA00021869600000001610
其中δ为持续激励,在训练过程中用作每个智能体i的真实控制,随着迭代步长的增加,持续激励衰减到零。Q-learning算法的流程图如图1所示。
为了使本领域人员更好地理解本发明,下面结合具体实施例,对本发明的线性系统自适应最优跟踪控制方法进行详细说明。
仿真中采用如下线性离散四智能体系统,智能体之间的交流拓扑图如图2所示:
Figure BDA00021869600000001611
从图2中可知,如果图中只有领导者和智能体1,则此系统即是一般的跟踪问题。当智能体的数量增加时,单智能体系统就转化为了多智能体系统。根据图2,连接增益为b1=1,b2=b3=b4=0,i=1,2,3,4;选择边的增益为e13=0.8,e21=1,e32=0.7,e43=0.6;代价函数中权重矩阵选为Q11=Q22=Q33=Q44=I2×2,R11=R22=R33=R44=R13=R21=R32=R43=1,R12=R14=R23=R24=R31=R34=R41=R42=0。将算法应用到四智能体系统的状态一致性控制中。选择折扣因子为γ=0.8。领导者的初始状态为
Figure BDA0002186960000000171
智能体的初始状态向量为
Figure BDA0002186960000000172
初始
Figure BDA0002186960000000173
中的元素均在[0,0.1]随机选择,计算
Figure BDA0002186960000000174
探索信号δ的选择为
δ=0.097e-0.07i(0.5sin(2k)2cos(10.1k)+0.9sin(1.1k)2cos(4k)+0.3sin(2k)2cos(7k)
+0.3sin(10k)3+0.7sin(3k)3cos(4k)+0.3sin(3k)cos(1.2k)2
+0.4sin(1.1k)2+0.5cos(2.4k)sin(8k)2+0.3sin(k)cos(0.8k)2
+0.3sin(4k)3+0.4cos(2k)sin(5k)4+0.3sin(10k)3)
初始控制律分别为
Figure BDA0002186960000000175
设置最大迭代步数为N=150。领导者和智能体的状态轨迹,状态2D相平面图和3D相平面图分别如图3,4,5所示。从图中可以看出,经过一定的迭代后,所有智能体都与领导者达成了同步。图6显示了四个智能体的跟踪误差动态,它们最终收敛于零。所有结果都证明了在未知准确系统模型的情况下,提出的Q-learning算法对多智能体系统状态一致性控制的有效性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种多智能体系统最优状态一致性控制方法,其特征在于,包括如下步骤:
步骤(1):构造状态邻域跟踪误差及跟踪误差系统,将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题;
步骤(2):针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解;
步骤(3):引入Q函数,使用Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并求解最优控制;
步骤(4):依据步骤(3)中的Q函数贝尔曼方程及最优控制方程,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个智能体的最优控制。
2.根据权利要求1所述的多智能体系统最优状态一致性控制方法,其特征在于,步骤(1)进一步包括下述步骤:
(1-1)针对多智能体系统,采用拓扑图描述系统中智能体之间的交流关系
Figure FDA0002186959990000011
是有向拓扑图,它包括一组N个顶点的非空有限集
Figure FDA0002186959990000012
一组边的集合
Figure FDA0002186959990000013
和一个加权邻接矩阵
Figure FDA0002186959990000014
其中非负邻接元素eij≥0;当且仅当eij=(νji)∈ε时,eij>0,其表示为节点i能够从节点j接收信息;否则,eij=0;节点νi的邻居集为
Figure FDA0002186959990000015
入度矩阵
Figure FDA0002186959990000016
定义为对角矩阵
Figure FDA0002186959990000017
其中
Figure FDA0002186959990000018
是节点i的加权入度;图的拉普拉斯矩阵为
Figure FDA0002186959990000019
从节点νi到节点νr的有向路径描述为一组边的序列νii+1,...νr,其中(νji)∈ε,j∈{i,i+1,...r};如果存在名为领导者的节点ν0,并且从领导者到其他节点的有向路径都在图中,则该图被定义为包含生成树;
考虑如下包含N个智能体的离散多智能体系统,用拓扑图G表示,智能体i的动态如下:
xi(k+1)=Axi(k)+Biui(k),i=1,2,...,N, (1)
其中
Figure FDA00021869599900000110
是智能体i在时刻k的状态,xi(k+1)是智能体i在时刻k+1的状态,
Figure FDA00021869599900000111
是智能体i的控制;
Figure FDA00021869599900000112
Figure FDA00021869599900000113
为系统矩阵,假设A和Bi未知,A的特征值位于单位圆盘内的外部或边缘;
领导者动态如下:
x0(k+1)=Ax0(k), (2)
其中
Figure FDA00021869599900000114
为领导者在时刻k的目标状态,x0(k+1)是领导者在时刻k+1的状态,在拓扑图中,领导者至少直接和系统中的一个智能体直接连接;
(1-2)一致性控制的目标是使用来自智能体i本身及其邻居智能体的信息来获取每个智能体i的最优分布式控制律ui(k),使所有智能体的状态最终和领导者的状态同步,即
Figure FDA00021869599900000115
Figure FDA00021869599900000116
为此定义每个智能体i的局部邻域跟踪误差:
Figure FDA00021869599900000117
其中
Figure FDA00021869599900000118
是智能体i的邻居智能体j在时刻k的状态,bi≥0是智能体的连接增益,bi>0表示智能体i直接和领导者相连接,否则bi=0;根据公式(3),整个智能体系统的局部邻域跟踪误差向量
Figure FDA00021869599900000119
其表达式如下
Figure FDA0002186959990000021
其中
Figure FDA0002186959990000022
是拉普拉斯矩阵,
Figure FDA0002186959990000023
是一个对角矩阵,对角元素bii=bi为智能体i的连接增益,
Figure FDA0002186959990000024
表示克罗内克积,
Figure FDA0002186959990000025
是全局状态向量,
Figure FDA0002186959990000026
In是n×n的单位矩阵;
(1-3)定义如下等式:
Figure FDA0002186959990000027
其中
Figure FDA0002186959990000028
是全局同步误差向量;
根据公式(5)和公式(4)可以重新表示为:
Figure FDA0002186959990000029
设拓扑图包含生成树并且至少一个智能体i的连接增益bi≠0,则拓扑图是强连接的,
Figure FDA00021869599900000210
是非奇异的,则同步误差η(k)的界为
Figure FDA00021869599900000211
其中
Figure FDA00021869599900000212
Figure FDA00021869599900000213
的最小奇异值;当||ε(k)||→0时,|η(k)||→0,这意味着将整体跟踪误差ε(k)调节得足够小,则全局同步误差η(k)可以任意小,并且智能体i将与领导者同步;
(1-4)智能体i的邻域跟踪误差动态方程如下:
Figure FDA00021869599900000214
(7)重新表示为:
Figure FDA00021869599900000215
则构造出了邻域误差跟踪系统(8),使原系统的最优一致性控制问题转化为了误差系统的镇定控制问题。
3.根据权利要求1所述的多智能体系统最优状态一致性控制方法,其特征在于,步骤(2)进一步包括下述步骤:
(2-1)智能体i的代价函数为:
Figure FDA00021869599900000216
其中智能体i的效应函数Ui
Figure FDA00021869599900000217
(10)中
Figure FDA00021869599900000218
均是对称权重矩阵,0<γ≤1是折扣因子,
Figure FDA00021869599900000219
是智能体i的邻居智能体j的控制,代价函数(9)是系统的性能指标函数,最小化系统代价函数(9),可以求解控制的最优值,即接下来可以设计算法最小化(9)并求解系统最优控制,最小化领域跟踪误差ε(k),则可以最小化同步误差η(k),达到最优状态一致性的目标;
(2-2)给定智能体i和其邻居的固定控制(ui(l),uj(l)),智能体i的代价函数定义为:
Figure FDA0002186959990000031
其中
Figure FDA0002186959990000032
是一个包含智能体i的状态εi(k)和其邻居的状态εj(k)的向量,即
Figure FDA0002186959990000033
p是智能体i的邻居智能体的数量,代价函数(9)评估每个智能体i的性能,智能体i的代价函数(11)包含局部信息,因此,代价函数的解结构由局部向量
Figure FDA0002186959990000034
表示;
(2-3)利用公式(10)和(11),可以推导出
Figure FDA0002186959990000035
其中
Figure FDA0002186959990000036
是包含智能体i的控制律ui(l)和其邻居智能体控制uj(l)的一个向量,即
Figure FDA0002186959990000037
Ri是智能体i的一个对角矩阵,其对角元素为Rii和所有Rij
利用公式(12)和反馈控制律
Figure FDA0002186959990000038
其中Ki为反馈控制矩阵,可以获得
Figure FDA0002186959990000039
根据步骤(1)中的公式(8),智能体i的邻域跟踪误差动态可以重新表示为:
Figure FDA00021869599900000310
其中
Figure FDA00021869599900000311
Figure FDA00021869599900000312
代入到(14)中,可以推导出下式:
εi(k+1)=(A-BKii(k)=K1iεi(k), (15)
其中K1i=A-BKi
将公式(15)代入公式(13),得到代价函数
Figure FDA00021869599900000313
关于邻域跟踪误差εi(k)的二次型形式:
Figure FDA0002186959990000041
其中
Figure FDA0002186959990000042
(2-4)基于贝尔曼最优性原理(贝尔曼最优性原理,即:多级决策过程的最优策略具有这种性质,不论初始状态和初始决策如何,其余的决策对于由初始决策所形成的状态来说,必定也是一个最优策略;这个原理可以归结为一个基本的递推公式,求解多级决策问题时,要从末端开始,到始端为止,逆向递推),智能体i的最优代价函数满足耦合的离散时间HJB方程:
Figure FDA0002186959990000043
通过计算
Figure FDA0002186959990000044
得到最优控制律
Figure FDA0002186959990000045
Figure FDA0002186959990000046
(2-5)如果存在
Figure FDA0002186959990000047
其中
Figure FDA0002186959990000048
均为控制u1,u2,...,ui,...,uN的最优值,则N个控制律序列被描述为N个智能体博弈的纳什均衡解,
Figure FDA0002186959990000049
被称为N个智能体博弈的纳什均衡,则每个智能体i的耦合离散时间HJB方程可以表示为
Figure FDA00021869599900000410
其中
Figure FDA00021869599900000411
为控制uj(k)的最优值,目标即得到系统的纳什均衡解,即所有智能体的最优控制。
4.根据权利要求1所述的多智能体系统最优状态一致性控制方法,其特征在于,步骤(3)进一步包括下述步骤:
(3-1)对于每个智能体i的允许控制律,步骤(2)中代价函数(11)可以重新表示为贝尔曼方程:
Figure FDA00021869599900000412
基于贝尔曼方程(21),定义智能体i的离散Q函数如下:
Figure FDA00021869599900000413
其中Q函数中的变量为
Figure FDA00021869599900000414
和ui(k),
Figure FDA00021869599900000415
表示智能体i的误差状态和其邻居的误差状态,即,ui(k)表示智能体i的控制定律ui(k),从公式(22)可知,下面等式成立:
Figure FDA00021869599900000416
根据公式(12)和代价函数的二次型(16),Q函数满足:
Figure FDA00021869599900000417
使用误差系统动态公式(14),将(24)重新表示为
Figure FDA0002186959990000051
根据公式(9)和(11),给出关于局部矢量
Figure FDA0002186959990000052
的代价函数的解结构,因此,
Figure FDA0002186959990000053
可以用向量
Figure FDA0002186959990000054
表示为:
Figure FDA0002186959990000055
矩阵Hi为:
Figure FDA0002186959990000056
其中
Figure FDA0002186959990000057
Hi满足
Figure FDA0002186959990000058
为了简化表示,
Figure FDA0002186959990000059
写作为
Figure FDA00021869599900000510
写作为
Figure FDA00021869599900000511
等等;
(3-2)计算如下等式:
Figure FDA00021869599900000512
由(27),智能体i的最优控制可以得到:
Figure FDA0002186959990000061
其中
Figure FDA0002186959990000062
是矩阵Hi中最后一行元素除去
Figure FDA0002186959990000063
组成的行向量,即
Figure FDA0002186959990000064
Figure FDA0002186959990000065
是反馈控制增益矩阵;目标是计算出线性最优控制律(28)以最小化代价函数;
(3-3)根据公式(22)和(23),Q函数写为:
Figure FDA0002186959990000066
将(26)代入公式(29),根据公式(12),Q函数贝尔曼方程可以重新表示为
Figure FDA0002186959990000067
其中
Figure FDA0002186959990000068
5.根据权利要求1所述的多智能体系统最优状态一致性控制方法,其特征在于,步骤(4)进一步包括下述步骤:
(4-1)如果
Figure FDA0002186959990000069
的控制策略ui(k)不仅稳定系统(7)而且保证代价函数(9)有限,则称其为容许的;基于公式(28)和(30),采用策略迭代实现Q-learning算法,如下所述:
步骤1)初始化:对智能体i,给定一个初始稳定容许控制策略
Figure FDA00021869599900000610
令r=0,其中r表示迭代步数,设置最大训练循环步数N;
步骤2)策略估计:计算核心矩阵Hr+1
Figure FDA00021869599900000611
步骤3)策略更新:
Figure FDA00021869599900000612
步骤4)当r=N停止迭代过程,获得近似最优控制律
Figure FDA00021869599900000613
否则增加迭代步数r=r+1并转到步骤2);
(4-2)使用Q函数贝尔曼方程(31)执行算法时,不需要任何系统动力学知识,仅基于数据实现;在策略评估步骤,基于沿着系统轨迹获取的每个智能体i的数据组Zi(k),Zi(k+1),采用策略迭代结合最小二乘法方法,实时获得Hi的更新值;计算过程如下:
定义:
Figure FDA0002186959990000071
公式(30)可以重新表示为
Figure FDA0002186959990000072
则公式(26)表示为
Figure FDA0002186959990000073
其中,
Figure FDA0002186959990000074
hi=vec(Hi);vec(·)函数用于矢量化,通过将
Figure FDA0002186959990000075
矩阵的列A*1,...,A*q堆叠以形成具有fq个元素的矢量
Figure FDA0002186959990000076
即,
Figure FDA0002186959990000077
公式(35)中的
Figure FDA0002186959990000078
的表述如下:
Figure FDA0002186959990000079
在公式(35)中hi表示为hi=vec(Hi),它作用于维数为(p+2)×(p+2)的矩阵并输出(p+2)(p+3)/2×1维的列向量;vec(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列;这意味着Hi是一个维数为(p+2)×(p+2)的对称矩阵,具有(p+2)×(p+3)/2个独立元素;因此,仅需要获取(p+2)×(p+3)/2个数据;
结合公式(34)和(35),得到
Figure FDA00021869599900000710
如果Ξi(k)列满秩,则可以通过最小二乘法直接求解公式(34):
Figure FDA00021869599900000711
因此,可以通过hi获得核矩阵Hi;策略迭代算法需要持续激励条件,以确保对状态空间的充分探索,即
Figure FDA00021869599900000712
其中δ为持续激励,在训练过程中用作每个智能体i的真实控制,随着迭代步长的增加,持续激励衰减到零。
CN201910818742.8A 2019-08-30 2019-08-30 一种多智能体系统最优状态一致性控制方法 Pending CN112445132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910818742.8A CN112445132A (zh) 2019-08-30 2019-08-30 一种多智能体系统最优状态一致性控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910818742.8A CN112445132A (zh) 2019-08-30 2019-08-30 一种多智能体系统最优状态一致性控制方法

Publications (1)

Publication Number Publication Date
CN112445132A true CN112445132A (zh) 2021-03-05

Family

ID=74733958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910818742.8A Pending CN112445132A (zh) 2019-08-30 2019-08-30 一种多智能体系统最优状态一致性控制方法

Country Status (1)

Country Link
CN (1) CN112445132A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110039A (zh) * 2021-04-08 2021-07-13 东北大学秦皇岛分校 一种多智能体系统的有限时间分布式聚合优化方法
CN113359476A (zh) * 2021-07-09 2021-09-07 广东华中科技大学工业技术研究院 离散时间下多智能体系统的一致性控制算法设计方法
CN113364386A (zh) * 2021-05-26 2021-09-07 潍柴动力股份有限公司 永磁同步电机的基于强化学习的h∞电流控制方法及系统
CN113848712A (zh) * 2021-09-22 2021-12-28 南京邮电大学 一种基于云的多移动机器人输出一致性控制系统
CN113848718A (zh) * 2021-09-28 2021-12-28 安徽大学 基于线性算子理论的固定时间的异构分群同步控制算法
CN116028822A (zh) * 2023-03-30 2023-04-28 国网福建省电力有限公司 一种电能表误差状态评估方法、系统、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803349A (zh) * 2018-08-13 2018-11-13 中国地质大学(武汉) 非线性多智能体系统的最优一致性控制方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803349A (zh) * 2018-08-13 2018-11-13 中国地质大学(武汉) 非线性多智能体系统的最优一致性控制方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAOXU MU等: "Q-learning solution for optimal consensus control of discrete-time multiagent systems using reinforcement learning", 《JOURNAL OF THE FRANKLIN INSTITUTE》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110039A (zh) * 2021-04-08 2021-07-13 东北大学秦皇岛分校 一种多智能体系统的有限时间分布式聚合优化方法
CN113110039B (zh) * 2021-04-08 2022-06-24 东北大学秦皇岛分校 一种多智能体系统的有限时间分布式聚合优化方法
CN113364386A (zh) * 2021-05-26 2021-09-07 潍柴动力股份有限公司 永磁同步电机的基于强化学习的h∞电流控制方法及系统
CN113359476A (zh) * 2021-07-09 2021-09-07 广东华中科技大学工业技术研究院 离散时间下多智能体系统的一致性控制算法设计方法
CN113848712A (zh) * 2021-09-22 2021-12-28 南京邮电大学 一种基于云的多移动机器人输出一致性控制系统
CN113848712B (zh) * 2021-09-22 2023-10-31 南京邮电大学 一种基于云的多移动机器人输出一致性控制系统
CN113848718A (zh) * 2021-09-28 2021-12-28 安徽大学 基于线性算子理论的固定时间的异构分群同步控制算法
CN113848718B (zh) * 2021-09-28 2023-10-31 安徽大学 基于线性算子理论的固定时间的异构分群同步控制算法
CN116028822A (zh) * 2023-03-30 2023-04-28 国网福建省电力有限公司 一种电能表误差状态评估方法、系统、设备及存储介质
CN116028822B (zh) * 2023-03-30 2023-07-18 国网福建省电力有限公司 一种电能表误差状态评估方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112445132A (zh) 一种多智能体系统最优状态一致性控制方法
Duan et al. Distributional soft actor-critic: Off-policy reinforcement learning for addressing value estimation errors
US20210319362A1 (en) Incentive control for multi-agent systems
CN112836618B (zh) 一种三维人体姿态估计方法及计算机可读存储介质
CN112947084B (zh) 一种基于强化学习的模型未知多智能体一致性控制方法
WO2018039011A1 (en) Asychronous training of machine learning model
US20130246006A1 (en) Method for kalman filter state estimation in bilinear systems
CN107592671B (zh) 一种网络化多智能体主动变拓扑的自主协同定位方法
Burns et al. Single-query motion planning with utility-guided random trees
CN113900380B (zh) 一种异构集群系统鲁棒输出编队跟踪控制方法及系统
Fišer et al. Growing neural gas efficiently
CN104020665A (zh) 基于多目标粒子群算法的机械臂最小跃度轨迹优化方法
CN112596549B (zh) 基于连续凸规则的多无人机编队控制方法、装置及介质
CN113962030A (zh) 飞行器多体分离模拟的重叠网格扰动域更新方法
WO2019154944A1 (en) Distributed machine learning system
Ma et al. Hierarchical reinforcement learning via dynamic subspace search for multi-agent planning
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
Li et al. A novel Q-learning algorithm based on improved whale optimization algorithm for path planning
CN111694272B (zh) 基于模糊逻辑系统的非线性多智能体的自适应控制方法及装置
CN109889525A (zh) 多通信协议智能感知方法
CN113341696A (zh) 一种运载火箭姿态控制参数智能整定方法
CN108509594A (zh) 一种基于云计算框架的交通大数据清洗系统
Zhang et al. Clique-based cooperative multiagent reinforcement learning using factor graphs
Ye et al. Costate-supplement ADP for model-free optimal control of discrete-time nonlinear systems
CN113008223B (zh) 基于粒子滤波与图优化的海底地形同步定位与建图方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210305

RJ01 Rejection of invention patent application after publication