CN112445132A - 一种多智能体系统最优状态一致性控制方法 - Google Patents
一种多智能体系统最优状态一致性控制方法 Download PDFInfo
- Publication number
- CN112445132A CN112445132A CN201910818742.8A CN201910818742A CN112445132A CN 112445132 A CN112445132 A CN 112445132A CN 201910818742 A CN201910818742 A CN 201910818742A CN 112445132 A CN112445132 A CN 112445132A
- Authority
- CN
- China
- Prior art keywords
- agent
- equation
- optimal
- control
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种多智能体系统最优状态一致性控制方法,该方法首先构造状态邻域跟踪误差及跟踪误差系统,将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题;然后针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解;并引入Q函数,使用Q函数重构代价函数,推导Q函数贝尔曼方程并求解最优控制;依据Q函数贝尔曼方程及最优控制方程,设计基于策略迭代的Q‑learning算法,并用最小二乘法迭代地求解每个智能体的最优控制。本方法不要求知道系统的动态信息,避免了直接求解耦合哈密顿‑雅可比‑贝尔曼方程;算法实现采用最小二乘法,得到的控制解为解析解,避免了近似误差的出现,有效提高了最优控制的精准度。
Description
技术领域
本发明涉及多智能体系统的最优状态一致性控制技术领域,更具体地,涉及一种多智能体系统最优状态一致性控制方法。
背景技术
多智能体系统是由在一个环境中交互的多个智能体组成的系统。在多智能体系统中,各智能体之间互相通信,彼此协调,并行地求解问题,因此能有效地提高问题求解的能力。多智能体系统协同控制主要研究的问题有编队、群集、一致性等。其中,一致性问题是多智能体系统的根本性问题。系统一致性控制往往要求达到最优,即不仅要求使系统稳定,使其完成系统状态和领导者状态一致性的目的,还应该使系统的性能指标函数达到最小化,即达到最优一致性控制。现实应用中,系统动态往往由于各种原因而不易或者不能获取,这种情况导致了一些需要系统动态信息的方法不能得以实施,于是必须设计出一种无模型最优控制算法来解决此棘手问题。本发明从多智能体系统一致性控制问题出发,研究在系统状态未知情况下,智能体和领导者的最优状态一致性问题,是符合多智能体系统一致性控制技术的应用需求和发展趋势的。
强化学习,又称再励学习,是机器学习方法之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习方法是最优控制的重要方法。策略迭代和值迭代是强化学习里常用的两种学习算法。强化学习可以解决不同的最优控制问题,例如具有约束控制的最优稳定控制,具有时间延迟的最优控制,最优跟踪控制,最优一致性控制,以及零和和非零和博弈的最优控制等。Q-learning,亦称控制依赖启发式动态规划,是一种无模型强化学习算法,用于估计任何策略的Q函数的方法,最优或非最优,其不需要任何系统动力学知识便能求取最优控制。Q-learning中Q函数为Q(x,u),其中x代表状态,u代表控制,Q(x,u)是最优值Q*(x,u)的估计值。智能体利用其经验来改进估计,并根据学习率将新信息混合到以前的经验中。用于求解马尔可夫决策过程的算法具有三个基本函数:代价函数V映射状态到值,Q函数Q映射状态和动作到值,以及策略u映射状态到动作上的概率分布。给定转换和奖励函数形式的模型,可以从一个映射计算其它任何映射,即Q函数可用于重构代价函数近年来,Q-learning技术应用广泛,例如控制系统的跟踪控制、零和博弈、事件触发控制、鲁棒控制等。、
发明内容
本发明为解决现有技术的不足,提供了一种多智能体系统最优状态一致性控制方法,以解决多智能体系统在系统动态未知情况下的最优状态一致性问题。
本发明是通过以下技术方案实现的:
一种多智能体系统最优状态一致性控制方法,包括如下步骤:
步骤(1):构造状态邻域跟踪误差及跟踪误差系统,将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题;
步骤(2):针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解;
步骤(3):引入Q函数,使用Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并求解最优控制;
在上述技术方案中,步骤(1)进一步包括下述步骤:
(1-1)针对多智能体系统,采用拓扑图描述系统中智能体之间的交流关系
是有向拓扑图,它包括一组N个顶点的非空有限集一组边的集合和一个加权邻接矩阵其中非负邻接元素eij≥0;当且仅当eij=(νj,νi)∈ε时,eij>0,其表示为节点i能够从节点j接收信息;否则,eij=0;节点νi的邻居集为入度矩阵定义为对角矩阵其中是节点i的加权入度;图的拉普拉斯矩阵为从节点νi到节点νr的有向路径描述为一组边的序列νi,νi+1,...νr,其中(νj,νi)∈ε,j∈{i,i+1,...r};如果存在名为领导者的节点ν0,并且从领导者到其他节点的有向路径都在图中,则该图被定义为包含生成树;
考虑如下包含N个智能体的离散多智能体系统,用拓扑图G表示,智能体i的动态如下:
xi(k+1)=Axi(k)+Biui(k),i=1,2,...,N,(1)
领导者动态如下:
x0(k+1)=Ax0(k),(2)
(1-2)一致性控制的目标是使用来自智能体i本身及其邻居智能体的信息来获取每个智能体i的最优分布式控制律ui(k),使所有智能体的状态最终和领导者的状态同步,即 为此定义每个智能体i的局部邻域跟踪误差:
(1-3)定义如下等式:
根据公式(5)和公式(4)可以重新表示为:
设拓扑图包含生成树并且至少一个智能体i的连接增益bi≠0,则拓扑图是强连接的,是非奇异的,则同步误差η(k)的界为其中是的最小奇异值;当||ε(k)||→0时,||η(k)||→0,这意味着将整体跟踪误差ε(k)调节得足够小,则全局同步误差η(k)可以任意小,并且智能体i将与领导者同步。
(1-4)智能体i的邻域跟踪误差动态方程如下:
(7)重新表示为:
则构造出了邻域误差跟踪系统(8),使原系统的最优一致性控制问题转化为了误差系统的镇定控制问题。
在上述技术方案中,步骤(2)进一步包括下述步骤:
(2-1)智能体i的代价函数为:
其中智能体i的效应函数Ui为
(10)中均是对称权重矩阵,0<γ≤1是折扣因子,是智能体i的邻居智能体j的控制,代价函数(9)是系统的性能指标函数,最小化系统代价函数(9),可以求解控制的最优值,即接下来可以设计算法最小化(9)并求解系统最优控制,最小化领域跟踪误差ε(k),则可以最小化同步误差η(k),达到最优状态一致性的目标。
(2-2)给定智能体i和其邻居的固定控制(ui(l),uj(l)),智能体i的代价函数定义为:
其中是一个包含智能体i的状态εi(k)和其邻居的状态εj(k)的向量,即 p是智能体i的邻居智能体的数量,代价函数(9)评估每个智能体i的性能,智能体i的代价函数(11)包含局部信息,因此,代价函数的解结构由局部向量表示。
(2-3)利用公式(10)和(11),可以推导出
根据步骤(1)中的公式(8),智能体i的邻域跟踪误差动态可以重新表示为:
εi(k+1)=(A-BKi)εi(k)=K1iεi(k),(15)
其中K1i=A-BKi;
(2-4)基于贝尔曼最优性原理(贝尔曼最优性原理,即:多级决策过程的最优策略具有这种性质,不论初始状态和初始决策如何,其余的决策对于由初始决策所形成的状态来说,必定也是一个最优策略;这个原理可以归结为一个基本的递推公式,求解多级决策问题时,要从末端开始,到始端为止,逆向递推),智能体i的最优代价函数满足耦合的离散时间HJB方程:
(2-5)如果存在
在上述技术方案中,步骤(3)进一步包括下述步骤:
(3-1)对于每个智能体i的允许控制律,步骤(2)中代价函数(11)可以重新表示为贝尔曼方程:
基于贝尔曼方程(21),定义智能体i的离散Q函数如下:
根据公式(12)和代价函数的二次型(16),Q函数满足:
使用误差系统动态公式(14),将(24)重新表示为
矩阵Hi为:
(3-2)计算如下等式:
由(27),智能体i的最优控制可以得到:
(3-3)根据公式(22)和(23),Q函数写为:
将(26)代入公式(29),根据公式(12),Q函数贝尔曼方程可以重新表示为
在上述技术方案中,步骤(4)进一步包括下述步骤:
步骤2)策略估计:计算核心矩阵Hr+1
步骤3)策略更新:
(4-2)使用Q函数贝尔曼方程(31)执行算法时,不需要任何系统动力学知识,仅基于数据实现。在策略评估步骤,基于沿着系统轨迹获取的每个智能体i的数据组Zi(k),Zi(k+1),采用策略迭代结合最小二乘法方法,实时获得Hi的更新值。计算过程如下:
定义:
公式(30)可以重新表示为
则公式(26)表示为
在公式(35)中hi表示为hi=vec(Hi),它作用于维数为(p+2)×(p+2)的矩阵并输出(p+2)(p+3)/2×1维的列向量。vec(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列。这意味着Hi是一个维数为(p+2)×(p+2)的对称矩阵,具有(p+2)×(p+3)/2个独立元素。因此,仅需要获取(p+2)×(p+3)/2个数据。
结合公式(34)和(35),得到
如果Ξi(k)列满秩,则可以通过最小二乘法直接求解公式(34):
本发明的优点和有益效果为:
(1)构造了多智能体系统的邻域跟踪误差系统,将智能体和领导者的同步误差收敛转化为了多智能体的邻域跟踪误差收敛,在误差系统的基础上,设计了基于策略迭代的Q-learning算法,该算法避免了直接解耦合的哈密顿-雅可比-贝尔曼方程。本算法是一种无模型算法,不需要任何多智能体系统的动态信息,基于系统数据实现。
(2)本发明中的算法实现依赖于最小二乘法,通过最小二乘法和策略迭代相结合的方式,迭代地获得多智能体系统的最优解析控制解,与利用神经网络实现相比,该方法不存在近似误差,大大提高了结果的准确性。
附图说明
图1是策略迭代Q-learning算法实现过程的流程图;
图2是四智能体动态系统的有向交流拓扑图;
图3是智能体状态跟踪领导者状态的轨迹图;
图4是智能体状态跟踪领导者状态的2D相平面图;
图5是智能体状态跟踪领导者状态的3D相平面图;
图6是智能体状态和领导者状态的误差轨迹图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
一种多智能体系统最优状态一致性控制方法,包括如下步骤:
步骤(1):构造状态邻域跟踪误差及跟踪误差系统,将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题;
步骤(2):针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解;
步骤(3):引入Q函数,使用Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并求解最优控制;
下面具体详述以上各个步骤:
步骤(1)涉及目标问题转化,即系统转化问题,将多智能体系统的最优状态一致性控制转化为邻域跟踪误差系统的误差稳定控制;步骤(1)进一步包括下述步骤:
(1-1)针对多智能体系统,采用拓扑图描述系统中智能体之间的交流关系
是有向拓扑图,它包括一组N个顶点的非空有限集一组边的集合和一个加权邻接矩阵其中非负邻接元素eij≥0;当且仅当eij=(νj,νi)∈ε时,eij>0,其表示为节点i能够从节点j接收信息;否则,eij=0;节点νi的邻居集为入度矩阵定义为对角矩阵其中是节点i的加权入度;图的拉普拉斯矩阵为从节点νi到节点νr的有向路径描述为一组边的序列νi,νi+1,...νr,其中(νj,νi)∈ε,j∈{i,i+1,...r};如果存在名为领导者的节点ν0,并且从领导者到其他节点的有向路径都在图中,则该图被定义为包含生成树;
考虑如下包含N个智能体的离散多智能体系统,用拓扑图G表示,智能体i的动态如下:
xi(k+1)=Axi(k)+Biui(k),i=1,2,...,N,(1)
领导者动态如下:
x0(k+1)=Ax0(k),(2)
(1-2)一致性控制的目标是使用来自智能体i本身及其邻居智能体的信息来获取每个智能体i的最优分布式控制律ui(k),使所有智能体的状态最终和领导者的状态同步,即 为此定义每个智能体i的局部邻域跟踪误差:
(1-3)定义如下等式:
根据公式(5)和公式(4)可以重新表示为:
设拓扑图包含生成树并且至少一个智能体i的连接增益bi≠0,则拓扑图是强连接的,是非奇异的,则同步误差η(k)的界为其中是的最小奇异值;当||ε(k)||→0时,||η(k)||→0,这意味着将整体跟踪误差ε(k)调节得足够小,则全局同步误差η(k)可以任意小,并且智能体i将与领导者同步。
(1-4)智能体i的邻域跟踪误差动态方程如下:
(7)重新表示为:
则构造出了邻域误差跟踪系统(8),使原系统的最优一致性控制问题转化为了误差系统的镇定控制问题。
步骤(2)针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解,步骤(2)进一步包括下述步骤:
(2-1)智能体i的代价函数为:
其中智能体i的效应函数Ui为
(10)中均是对称权重矩阵,0<γ≤1是折扣因子,是智能体i的邻居智能体j的控制,代价函数(9)是系统的性能指标函数,最小化系统代价函数(9),可以求解控制的最优值,即接下来可以设计算法最小化(9)并求解系统最优控制,最小化领域跟踪误差ε(k),则可以最小化同步误差η(k),达到最优状态一致性的目标。
(2-2)给定智能体i和其邻居的固定控制(ui(l),uj(l)),智能体i的代价函数定义为:
其中是一个包含智能体i的状态εi(k)和其邻居的状态εj(k)的向量,即p是智能体i的邻居智能体的数量,代价函数(9)评估每个智能体i的性能,智能体i的代价函数(11)包含局部信息,因此,代价函数的解结构由局部向量表示。
(2-3)利用公式(10)和(11),可以推导出
根据步骤(1)中的公式(8),智能体i的邻域跟踪误差动态可以重新表示为:
εi(k+1)=(A-BKi)εi(k)=K1iεi(k),(15)
其中K1i=A-BKi;
(2-4)基于贝尔曼最优性原理(贝尔曼最优性原理,即:多级决策过程的最优策略具有这种性质,不论初始状态和初始决策如何,其余的决策对于由初始决策所形成的状态来说,必定也是一个最优策略;这个原理可以归结为一个基本的递推公式,求解多级决策问题时,要从末端开始,到始端为止,逆向递推),智能体i的最优代价函数满足耦合的离散时间HJB方程:
(2-5)如果存在
步骤(3)对于完全未知的多智能系统或其他实际的大规模系统,系统模型不易或者不能获取。另外,根据步骤(2-4)、(2-5)中的耦合的离散时间HJB方程难以直接求解全局纳什均衡解。因此,基于步骤(1)和步骤(2),本步骤引入Q函数,使用Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并求解最优控制。步骤(3)进一步包括下述步骤:
(3-1)对于每个智能体i的允许控制律,步骤(2)中代价函数(11)可以重新表示为贝尔曼方程:
基于贝尔曼方程(21),定义智能体i的离散Q函数如下:
根据公式(12)和代价函数的二次型(16),Q函数满足:
使用误差系统动态公式(14),将(24)重新表示为
矩阵Hi为:
(3-2)计算如下等式:
由(27),智能体i的最优控制可以得到:
(3-3)根据公式(22)和(23),Q函数写为:
将(26)代入公式(29),根据公式(12),Q函数贝尔曼方程可以重新表示为
步骤2)策略估计:计算核心矩阵Hr+1
步骤3)策略更新:
(4-2)使用Q函数贝尔曼方程(31)执行算法时,不需要任何系统动力学知识,仅基于数据实现。在策略评估步骤,基于沿着系统轨迹获取的每个智能体i的数据组Zi(k),Zi(k+1),采用策略迭代结合最小二乘法方法,实时获得Hi的更新值。计算过程如下:
定义:
公式(30)可以重新表示为
则公式(26)表示为
在公式(35)中hi表示为hi=vec(Hi),它作用于维数为(p+2)×(p+2)的矩阵并输出(p+2)(p+3)/2×1维的列向量。vec(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列。这意味着Hi是一个维数为(p+2)×(p+2)的对称矩阵,具有(p+2)×(p+3)/2个独立元素。因此,仅需要获取(p+2)×(p+3)/2个数据。
结合公式(34)和(35),得到
如果Ξi(k)列满秩,则可以通过最小二乘法直接求解公式(34):
因此,可以通过hi获得核矩阵Hi。策略迭代算法需要持续激励条件,以确保对状态空间的充分探索,即其中δ为持续激励,在训练过程中用作每个智能体i的真实控制,随着迭代步长的增加,持续激励衰减到零。Q-learning算法的流程图如图1所示。
为了使本领域人员更好地理解本发明,下面结合具体实施例,对本发明的线性系统自适应最优跟踪控制方法进行详细说明。
仿真中采用如下线性离散四智能体系统,智能体之间的交流拓扑图如图2所示:
从图2中可知,如果图中只有领导者和智能体1,则此系统即是一般的跟踪问题。当智能体的数量增加时,单智能体系统就转化为了多智能体系统。根据图2,连接增益为b1=1,b2=b3=b4=0,i=1,2,3,4;选择边的增益为e13=0.8,e21=1,e32=0.7,e43=0.6;代价函数中权重矩阵选为Q11=Q22=Q33=Q44=I2×2,R11=R22=R33=R44=R13=R21=R32=R43=1,R12=R14=R23=R24=R31=R34=R41=R42=0。将算法应用到四智能体系统的状态一致性控制中。选择折扣因子为γ=0.8。领导者的初始状态为智能体的初始状态向量为初始中的元素均在[0,0.1]随机选择,计算探索信号δ的选择为
δ=0.097e-0.07i(0.5sin(2k)2cos(10.1k)+0.9sin(1.1k)2cos(4k)+0.3sin(2k)2cos(7k)
+0.3sin(10k)3+0.7sin(3k)3cos(4k)+0.3sin(3k)cos(1.2k)2
+0.4sin(1.1k)2+0.5cos(2.4k)sin(8k)2+0.3sin(k)cos(0.8k)2
+0.3sin(4k)3+0.4cos(2k)sin(5k)4+0.3sin(10k)3)
设置最大迭代步数为N=150。领导者和智能体的状态轨迹,状态2D相平面图和3D相平面图分别如图3,4,5所示。从图中可以看出,经过一定的迭代后,所有智能体都与领导者达成了同步。图6显示了四个智能体的跟踪误差动态,它们最终收敛于零。所有结果都证明了在未知准确系统模型的情况下,提出的Q-learning算法对多智能体系统状态一致性控制的有效性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种多智能体系统最优状态一致性控制方法,其特征在于,包括如下步骤:
步骤(1):构造状态邻域跟踪误差及跟踪误差系统,将多智能体系统的最优状态一致性控制问题转化为误差系统的误差稳定控制问题;
步骤(2):针对邻域跟踪误差系统,定义误差系统的代价函数,给出全局纳什均衡解;
步骤(3):引入Q函数,使用Q函数重构步骤(2)中的代价函数,推导Q函数贝尔曼方程并求解最优控制;
步骤(4):依据步骤(3)中的Q函数贝尔曼方程及最优控制方程,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个智能体的最优控制。
2.根据权利要求1所述的多智能体系统最优状态一致性控制方法,其特征在于,步骤(1)进一步包括下述步骤:
(1-1)针对多智能体系统,采用拓扑图描述系统中智能体之间的交流关系
是有向拓扑图,它包括一组N个顶点的非空有限集一组边的集合和一个加权邻接矩阵其中非负邻接元素eij≥0;当且仅当eij=(νj,νi)∈ε时,eij>0,其表示为节点i能够从节点j接收信息;否则,eij=0;节点νi的邻居集为入度矩阵定义为对角矩阵其中是节点i的加权入度;图的拉普拉斯矩阵为从节点νi到节点νr的有向路径描述为一组边的序列νi,νi+1,...νr,其中(νj,νi)∈ε,j∈{i,i+1,...r};如果存在名为领导者的节点ν0,并且从领导者到其他节点的有向路径都在图中,则该图被定义为包含生成树;
考虑如下包含N个智能体的离散多智能体系统,用拓扑图G表示,智能体i的动态如下:
xi(k+1)=Axi(k)+Biui(k),i=1,2,...,N, (1)
领导者动态如下:
x0(k+1)=Ax0(k), (2)
(1-2)一致性控制的目标是使用来自智能体i本身及其邻居智能体的信息来获取每个智能体i的最优分布式控制律ui(k),使所有智能体的状态最终和领导者的状态同步,即 为此定义每个智能体i的局部邻域跟踪误差:
(1-3)定义如下等式:
根据公式(5)和公式(4)可以重新表示为:
设拓扑图包含生成树并且至少一个智能体i的连接增益bi≠0,则拓扑图是强连接的,是非奇异的,则同步误差η(k)的界为其中是的最小奇异值;当||ε(k)||→0时,|η(k)||→0,这意味着将整体跟踪误差ε(k)调节得足够小,则全局同步误差η(k)可以任意小,并且智能体i将与领导者同步;
(1-4)智能体i的邻域跟踪误差动态方程如下:
(7)重新表示为:
则构造出了邻域误差跟踪系统(8),使原系统的最优一致性控制问题转化为了误差系统的镇定控制问题。
3.根据权利要求1所述的多智能体系统最优状态一致性控制方法,其特征在于,步骤(2)进一步包括下述步骤:
(2-1)智能体i的代价函数为:
其中智能体i的效应函数Ui为
(10)中均是对称权重矩阵,0<γ≤1是折扣因子,是智能体i的邻居智能体j的控制,代价函数(9)是系统的性能指标函数,最小化系统代价函数(9),可以求解控制的最优值,即接下来可以设计算法最小化(9)并求解系统最优控制,最小化领域跟踪误差ε(k),则可以最小化同步误差η(k),达到最优状态一致性的目标;
(2-2)给定智能体i和其邻居的固定控制(ui(l),uj(l)),智能体i的代价函数定义为:
其中是一个包含智能体i的状态εi(k)和其邻居的状态εj(k)的向量,即p是智能体i的邻居智能体的数量,代价函数(9)评估每个智能体i的性能,智能体i的代价函数(11)包含局部信息,因此,代价函数的解结构由局部向量表示;
(2-3)利用公式(10)和(11),可以推导出
根据步骤(1)中的公式(8),智能体i的邻域跟踪误差动态可以重新表示为:
εi(k+1)=(A-BKi)εi(k)=K1iεi(k), (15)
其中K1i=A-BKi;
(2-4)基于贝尔曼最优性原理(贝尔曼最优性原理,即:多级决策过程的最优策略具有这种性质,不论初始状态和初始决策如何,其余的决策对于由初始决策所形成的状态来说,必定也是一个最优策略;这个原理可以归结为一个基本的递推公式,求解多级决策问题时,要从末端开始,到始端为止,逆向递推),智能体i的最优代价函数满足耦合的离散时间HJB方程:
(2-5)如果存在
4.根据权利要求1所述的多智能体系统最优状态一致性控制方法,其特征在于,步骤(3)进一步包括下述步骤:
(3-1)对于每个智能体i的允许控制律,步骤(2)中代价函数(11)可以重新表示为贝尔曼方程:
基于贝尔曼方程(21),定义智能体i的离散Q函数如下:
根据公式(12)和代价函数的二次型(16),Q函数满足:
使用误差系统动态公式(14),将(24)重新表示为
矩阵Hi为:
(3-2)计算如下等式:
由(27),智能体i的最优控制可以得到:
(3-3)根据公式(22)和(23),Q函数写为:
将(26)代入公式(29),根据公式(12),Q函数贝尔曼方程可以重新表示为
5.根据权利要求1所述的多智能体系统最优状态一致性控制方法,其特征在于,步骤(4)进一步包括下述步骤:
步骤2)策略估计:计算核心矩阵Hr+1
步骤3)策略更新:
(4-2)使用Q函数贝尔曼方程(31)执行算法时,不需要任何系统动力学知识,仅基于数据实现;在策略评估步骤,基于沿着系统轨迹获取的每个智能体i的数据组Zi(k),Zi(k+1),采用策略迭代结合最小二乘法方法,实时获得Hi的更新值;计算过程如下:
定义:
公式(30)可以重新表示为
则公式(26)表示为
在公式(35)中hi表示为hi=vec(Hi),它作用于维数为(p+2)×(p+2)的矩阵并输出(p+2)(p+3)/2×1维的列向量;vec(·)的输出是通过将平方矩阵的列堆叠成单列向量而构建的,其中非对角元素总和为(Hi(αβ)+Hi(βα)),α和β分别表示矩阵Hi的行和列;这意味着Hi是一个维数为(p+2)×(p+2)的对称矩阵,具有(p+2)×(p+3)/2个独立元素;因此,仅需要获取(p+2)×(p+3)/2个数据;
结合公式(34)和(35),得到
如果Ξi(k)列满秩,则可以通过最小二乘法直接求解公式(34):
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818742.8A CN112445132A (zh) | 2019-08-30 | 2019-08-30 | 一种多智能体系统最优状态一致性控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818742.8A CN112445132A (zh) | 2019-08-30 | 2019-08-30 | 一种多智能体系统最优状态一致性控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112445132A true CN112445132A (zh) | 2021-03-05 |
Family
ID=74733958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910818742.8A Pending CN112445132A (zh) | 2019-08-30 | 2019-08-30 | 一种多智能体系统最优状态一致性控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112445132A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110039A (zh) * | 2021-04-08 | 2021-07-13 | 东北大学秦皇岛分校 | 一种多智能体系统的有限时间分布式聚合优化方法 |
CN113359476A (zh) * | 2021-07-09 | 2021-09-07 | 广东华中科技大学工业技术研究院 | 离散时间下多智能体系统的一致性控制算法设计方法 |
CN113364386A (zh) * | 2021-05-26 | 2021-09-07 | 潍柴动力股份有限公司 | 永磁同步电机的基于强化学习的h∞电流控制方法及系统 |
CN113848712A (zh) * | 2021-09-22 | 2021-12-28 | 南京邮电大学 | 一种基于云的多移动机器人输出一致性控制系统 |
CN113848718A (zh) * | 2021-09-28 | 2021-12-28 | 安徽大学 | 基于线性算子理论的固定时间的异构分群同步控制算法 |
CN116028822A (zh) * | 2023-03-30 | 2023-04-28 | 国网福建省电力有限公司 | 一种电能表误差状态评估方法、系统、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803349A (zh) * | 2018-08-13 | 2018-11-13 | 中国地质大学(武汉) | 非线性多智能体系统的最优一致性控制方法及系统 |
-
2019
- 2019-08-30 CN CN201910818742.8A patent/CN112445132A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803349A (zh) * | 2018-08-13 | 2018-11-13 | 中国地质大学(武汉) | 非线性多智能体系统的最优一致性控制方法及系统 |
Non-Patent Citations (1)
Title |
---|
CHAOXU MU等: "Q-learning solution for optimal consensus control of discrete-time multiagent systems using reinforcement learning", 《JOURNAL OF THE FRANKLIN INSTITUTE》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110039A (zh) * | 2021-04-08 | 2021-07-13 | 东北大学秦皇岛分校 | 一种多智能体系统的有限时间分布式聚合优化方法 |
CN113110039B (zh) * | 2021-04-08 | 2022-06-24 | 东北大学秦皇岛分校 | 一种多智能体系统的有限时间分布式聚合优化方法 |
CN113364386A (zh) * | 2021-05-26 | 2021-09-07 | 潍柴动力股份有限公司 | 永磁同步电机的基于强化学习的h∞电流控制方法及系统 |
CN113359476A (zh) * | 2021-07-09 | 2021-09-07 | 广东华中科技大学工业技术研究院 | 离散时间下多智能体系统的一致性控制算法设计方法 |
CN113848712A (zh) * | 2021-09-22 | 2021-12-28 | 南京邮电大学 | 一种基于云的多移动机器人输出一致性控制系统 |
CN113848712B (zh) * | 2021-09-22 | 2023-10-31 | 南京邮电大学 | 一种基于云的多移动机器人输出一致性控制系统 |
CN113848718A (zh) * | 2021-09-28 | 2021-12-28 | 安徽大学 | 基于线性算子理论的固定时间的异构分群同步控制算法 |
CN113848718B (zh) * | 2021-09-28 | 2023-10-31 | 安徽大学 | 基于线性算子理论的固定时间的异构分群同步控制算法 |
CN116028822A (zh) * | 2023-03-30 | 2023-04-28 | 国网福建省电力有限公司 | 一种电能表误差状态评估方法、系统、设备及存储介质 |
CN116028822B (zh) * | 2023-03-30 | 2023-07-18 | 国网福建省电力有限公司 | 一种电能表误差状态评估方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112445132A (zh) | 一种多智能体系统最优状态一致性控制方法 | |
Duan et al. | Distributional soft actor-critic: Off-policy reinforcement learning for addressing value estimation errors | |
US20210319362A1 (en) | Incentive control for multi-agent systems | |
CN112836618B (zh) | 一种三维人体姿态估计方法及计算机可读存储介质 | |
CN112947084B (zh) | 一种基于强化学习的模型未知多智能体一致性控制方法 | |
WO2018039011A1 (en) | Asychronous training of machine learning model | |
US20130246006A1 (en) | Method for kalman filter state estimation in bilinear systems | |
CN107592671B (zh) | 一种网络化多智能体主动变拓扑的自主协同定位方法 | |
Burns et al. | Single-query motion planning with utility-guided random trees | |
CN113900380B (zh) | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 | |
Fišer et al. | Growing neural gas efficiently | |
CN104020665A (zh) | 基于多目标粒子群算法的机械臂最小跃度轨迹优化方法 | |
CN112596549B (zh) | 基于连续凸规则的多无人机编队控制方法、装置及介质 | |
CN113962030A (zh) | 飞行器多体分离模拟的重叠网格扰动域更新方法 | |
WO2019154944A1 (en) | Distributed machine learning system | |
Ma et al. | Hierarchical reinforcement learning via dynamic subspace search for multi-agent planning | |
CN116700327A (zh) | 一种基于连续动作优势函数学习的无人机轨迹规划方法 | |
Li et al. | A novel Q-learning algorithm based on improved whale optimization algorithm for path planning | |
CN111694272B (zh) | 基于模糊逻辑系统的非线性多智能体的自适应控制方法及装置 | |
CN109889525A (zh) | 多通信协议智能感知方法 | |
CN113341696A (zh) | 一种运载火箭姿态控制参数智能整定方法 | |
CN108509594A (zh) | 一种基于云计算框架的交通大数据清洗系统 | |
Zhang et al. | Clique-based cooperative multiagent reinforcement learning using factor graphs | |
Ye et al. | Costate-supplement ADP for model-free optimal control of discrete-time nonlinear systems | |
CN113008223B (zh) | 基于粒子滤波与图优化的海底地形同步定位与建图方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210305 |
|
RJ01 | Rejection of invention patent application after publication |