CN114841074A - 基于状态观测与经验池的非线性多智能体一致性方法 - Google Patents

基于状态观测与经验池的非线性多智能体一致性方法 Download PDF

Info

Publication number
CN114841074A
CN114841074A CN202210540972.4A CN202210540972A CN114841074A CN 114841074 A CN114841074 A CN 114841074A CN 202210540972 A CN202210540972 A CN 202210540972A CN 114841074 A CN114841074 A CN 114841074A
Authority
CN
China
Prior art keywords
function
error
agent
state
follower
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210540972.4A
Other languages
English (en)
Inventor
陈刚
赖鑫
黄毅卿
胡彬
蒲嫦莉
颜小力
曾元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210540972.4A priority Critical patent/CN114841074A/zh
Publication of CN114841074A publication Critical patent/CN114841074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于状态观测与经验池的非线性多智能体一致性方法,属于计算机领域。首先在跟随者对领导者状态无法获取的场景下,使用反步法和动态面控制法为每个智能体设计了全维观测器来观测领导者的状态。之后,一致性问题就转换成了每个跟随者对各自的领导者状态观测器的最优跟踪问题。下一步针对控输入受非对称饱和约束定义了一个非二次代价函数来处理,然后定义新的增广系统下的最优控制问题,并使用强化学习策略算法来迭代求解,并分析了策略迭代下解的稳定性和最优性。对于最优控制的HJB方程难以直接求解的困难,本发明利用神经网络良好的逼近性质,使用actor‑critic框架进行求解。

Description

基于状态观测与经验池的非线性多智能体一致性方法
技术领域
本发明属于计算机领域,涉及基于状态观测与经验池的非线性多智能体一致性方法。
背景技术
目前,多智能体系统应用场景越来越多,并且发挥着越来越重要的作用,如多机器人编队、交通控制、智能电网和多机器人SLAM等。而完成多智能体协调控制的首要目标是多智能体的一致性问题。此外通常伴随着达成一定的条件,如使达到一致过程中使用的能量最尽量小,一致过程的时间尽量短等。对于单智能体系统,已经有许多最优控制方法被提出。在多智能体场景下的最优协同控制问题,协同最优控制一般是通过解CHJB方程实现,但是由于智能体系统的非线性、智能体的系统模型可能未知以及多个智能体相互耦合,使得该方程的解难以获得解析解。针对该问题,最近这些年有许多使用自适应动态规划(ADP)的方法被提出,也有提出结合了强化学习中策略迭代、值迭代、事件触发等的ADP算法。actor-critic两个神经网络结构是在ADP中应用最多,其中actor产生控制策略,critic对控制策略进行评估并可以对策略的改变提供方向。此外,还有许多针对系统受到限制,如输入饱和,系统状态受约束等,以及智能体之间的通信受到时延的研究及算法被提出。但对于这些问题的研究并不全面,多智能体系统协同中还有存在许多需要探索的地方。
在实际应用中,面对的大部分系统都是非线性的并且常常受到执行器饱和的约束,现有的很多对与此研究都是基于执行器受到对称约束这一假设的。而在实际工程中很多系统的执行器受到的约束通常是非对称的,对于这个问题有使用开关函数的方法提出,但是由于系统的非线性使得开关函数的选取较为困难。而对于解决多智能体最优控制问题,通常是通过解CHJB方程,但是由于系统的非线性,该方程难以直接求解。因此有许多研究使用了结合强化学习和自适应控制的自适应动态规划来迭代求解该方程来获取最优控制,很多研究使用actor和critic两个神经网络来分别近似值最优控制和值函数。但是在神经网络训练迭代的过程中,训练过程的稳定以及收敛通常要求在训练过程中满足持续激励条件,但是这种要求在实际中是难以满足的。
发明内容
有鉴于此,本发明的目的在于提供一种基于状态观测与经验池的非线性多智能体一致性方法。解决算法应对执行器受非对称约束并且可以减弱PE条件对于自适应动态规划方法中神经网络训练过程存在的限制,使得训练更容易收敛及稳定,最终实现多智能体的一致性最优控制。
为达到上述目的,本发明提供如下技术方案:
基于状态观测与经验池的非线性多智能体一致性方法,包括以下步骤:
1.初始化:对每个智能体给定系统初始状态,根据(2.25)和(4.13)选取合适的参数,actor和critic权重
Figure BDA0003648336240000021
阈值参数pia,pic
2.对每个智能体进行循环:
1)在经验池有N个线性无关元素的数据
Figure BDA0003648336240000022
之前循环:
a)按照第二部分设计的状态观测器观测领导者状态xi(t)为si1(t),并构建增广状态Xi(t);
b)让增广系统运行一个小段时间h使得ti+1=ti+h,记录
Figure BDA0003648336240000023
Xi(ti),ui(ti),i=i+1;
c)如果经验池已达到上限,提出时间最久的数据;
2)使用actor得到的控制ui(t),让增广系统运行一段时间,得到
Figure BDA0003648336240000024
Xi(t),并计算eri,eripast,根据(3.22)和(3.26)使用ode方法更critic
Figure BDA0003648336240000025
和actor
Figure BDA0003648336240000026
3)如果
Figure BDA0003648336240000027
Figure BDA0003648336240000028
停止循环。
本发明的有益效果在于:
1、本发明设计的在线自适应算法可以实现多智能体领导者跟随者一致性控制,在稳定系统的同时能使神经网络参数一致有界;
2、本发明在跟随者对领导者状态不易获取的场景下,为每个智能体设计了全维观测器来观测领导者的状态,将问题转换成了每个跟随者对各自的领导者状态观测器的最优跟踪问题,简化了问题场景;
3、本发明针对反步法在系统模型阶次变高时需要反复求导出现的“微分爆炸”问题,结合动态面控制法来设计观测器,降低了问题复杂性;
4、本发明对于执行器存在的非对称输入饱和限制,通过在目标函数中引入一种修正过的双曲正切函数来处理这种约束,解决非对称输入饱和限制问题,避免了使用开关函数来处理非对称约束带来的构造困难;
5、实际中很多情况下面对的都是受到不对称输入约束的系统,提出的约束处理方案相比于对称饱和输入限制下的处理适用于更广泛的动力系统,更贴切于实际应用;
6、本发明使用了过往数据构成的经验池来减弱持续激励条件,将过去的数据和当前的数据结合应用于训练过程,不仅减弱了持续激励条件还有利于算法的收敛;
7、本发明中通过在actor网络中增加一个鲁棒项来移除actor-critic两个神经网络的逼近误差给系统稳定性带来的影响,并分析证明了算法在一定条件下的稳定性和收敛性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明原理图;
图2为状态观测器设计流程;
图3为本发明总体流程图;
图4为领导者跟随者一致性转化为跟踪问题示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,本发明主要由下面四部分组成:问题描述、领导者状态观测器设计、基于观测器的多智能体控制器设计与分析和算法稳定性分析。下面将依次介绍:
第一部分问题描述
考虑一类由一个领导者和N个跟随者组成的多智能体系统,领导者的动态模型为:
Figure BDA0003648336240000041
其中
Figure BDA0003648336240000042
为领导者的状态,
Figure BDA0003648336240000043
为领导者的内部函数,假设其未知、可微且有界||f(x0)||≤ρ0,其中ρ0为未知常数;第i(i=1,2,3,…,N)个跟随者的动态模型为:
Figure BDA0003648336240000044
其中
Figure BDA0003648336240000045
Figure BDA0003648336240000046
分别为第i个跟随者的状态和输入,
Figure BDA0003648336240000047
Figure BDA0003648336240000048
分别为第i个跟随者的内部函数和输入矩阵函数,是Ω上的连续函数。N个跟随者之间的通信拓扑可用有向图G=(V,E,A)来描述。这里假设N个跟随者之间的通信有向图包含有向生成树,且领导者能发送信息给至少一个被称为根节点的跟随者。
控制目标为:在每个智能体只能获取自身及邻居跟随者状态信息的场景下,为每个智能体设计控制ui使得每个跟随者的状态能够跟踪领导者的状态,也就是使跟踪误差ei→0(即达到一致性),其中
Figure BDA0003648336240000049
其中
Figure BDA00036483362400000410
bi=1,当且仅当该智能体与领导者由信息交流的时候,aij=1当第i个跟随者和第j个跟随者之间可以进行信息交互的时候。此外,每个智能体的控制ui实现多智能体的一致性的同时也要令各自如下形式的性能函数最小:
Figure BDA00036483362400000411
其中积分第一项表示对跟踪误差的要求,第二项表示对控制过程中输入信号能量损失的要求。
在未受限制的情况下,第二项
Figure BDA00036483362400000412
通常定义为二次型。但是在输入受饱和限制的情况下,只是用二次型性能指标得到的解并不能保证输入满足限制条件。因此,在本设计中,定义
Figure BDA00036483362400000413
为非二次型惩罚函数,在后续最优解的形式中可以看到在这种形式下的
Figure BDA00036483362400000414
下得到的ui满足限制条件。在本设计中
Figure BDA00036483362400000415
定义为如下形式:
Figure BDA00036483362400000416
其中,
Figure BDA0003648336240000051
R是一个对角正定阵,θ-1(·)∈Cl(Ω)是一个单调奇函数并且满足θ-1(0)=0,本设计选择θ-1(·)=tanh-1(·),这里tanh(·)是双曲正切函数:
Figure BDA0003648336240000052
这里双曲正切函数虽然是一个对称函数,但是相比于普通的对称函数,该函数中有一个偏移量β,|umin|≠|umax|,所以β不等于零,而当|umin|=|umax|时,偏移β等于零,又退化成对称函数了,该设计让本发明能够应对非对称约束下的最优控制问题,并且本发明更加的灵活和普适。
第二部分领导者状态观测器
在并非全部跟随者都和领导者可以进行信息交互的前提下,使得设计最优控制器变得比较困难。因此,本发明中对各个智能体设计了各自的状态观测器来观测领导者的状态,这样跟随者就可以去跟踪自己对应的观测器状态。
先介绍设计过程中使用的杨氏不等式引理:假设有任意向量
Figure BDA0003648336240000053
对任意正实数p和q,其中p-1+q-1=1,有xTy≤1/p||x||p+1/q||y||q成立。
本设计中使用反步法和动态面控制法设计全分布式状态观测器:
Figure BDA0003648336240000054
而其中
Figure BDA0003648336240000055
i代表第i个跟随者(i=1,2,3,…,N),si1是观测器的观测值,依据动态面控制法步骤然后定义每个跟随者的跟踪误差ei1和动态面误差ei2以及边界误差如下:
ei1=∑aij(si1-sj1)+bi(si1-x0) (2.2)
Figure BDA0003648336240000056
对上面定义的局部误差ei1进行求导,
Figure BDA0003648336240000057
定义控制器误差zi2,如式(2.5)
Figure BDA0003648336240000058
其中,vi2为虚拟控制器,
Figure BDA0003648336240000059
虚拟滤波控制器
结合式(2.3)和(2.5),将ei2带入局部误差ei1的导数可写作
Figure BDA0003648336240000061
为第i个跟随者的第一个李雅普诺夫函数设计为如下形式:
Figure BDA0003648336240000062
对式(2.7)求导
Figure BDA0003648336240000063
其中
Figure BDA0003648336240000064
为对位置参数ρ0的估计,
Figure BDA0003648336240000065
的自适应律
Figure BDA0003648336240000066
Figure BDA0003648336240000067
同样的,对ei2求导
Figure BDA0003648336240000068
Figure BDA0003648336240000069
这里τi2为低通滤波器的时间常数,
为第i个跟随者的第二个李雅普诺夫函数设计为如下形式:
Figure BDA00036483362400000610
对Vi2求导
Figure BDA00036483362400000611
对边界误差zi2求导
Figure BDA00036483362400000612
为第i个跟随者的第三个李雅普诺夫函数设计为如下形式:
Figure BDA00036483362400000613
Figure BDA00036483362400000614
和zi2,ei1,ei2之间的关系可知
Figure BDA00036483362400000615
结合杨氏不等式得
Figure BDA00036483362400000616
为第i个跟随者总李雅普诺夫函数设计为如下形式:
Vi=Vi1+Vi2+Vi3 (2.17)
根据Vi1的表达式,设计虚拟控制器vi2为:
Figure BDA0003648336240000071
由上面介绍的杨氏引理得:
Figure BDA0003648336240000072
结合后可以得到如下不等式:
Figure BDA0003648336240000073
根据Vi2设计第i个跟随者的实际控制权vi
Figure BDA0003648336240000074
将控制器带入(2.13)得
Figure BDA0003648336240000075
最后总的李雅普诺夫函数求导Vi,并结合式(2.21)(2.23)(2.16)得
Figure BDA0003648336240000076
为了使各个误差都有界,只需令
Figure BDA0003648336240000077
当Ki1,Ki2及τi2满足(2.24)时,(2.23)可写成
Figure BDA0003648336240000078
最后一步对所有跟随者选取总的Lyapunov函数:
Figure BDA0003648336240000079
其中
Figure BDA0003648336240000081
对上式进行积分得
Figure BDA0003648336240000082
由上可知V(t)一致最终有界,通过选取合适的参数可以使V(t),N个跟随者的观测器的局部跟踪误差,动态面误差,边界误差收敛到一个小的紧集内。这样,对每个跟随者,都有自己的观测器来获知领导者的状态。
第三部分基于观测器的多智能体控制器设计与分析
上一部分中,对每个跟随者都设计了各自的状态观测器来观测领导者的状态x0,并分析了状态观测器的状态si1能通过调节参数来以任意精度收敛到领导者状态x0。现在只要让每个跟随者去跟随自己观测到的领导者状态si1,这样就转换成了每个智能体的跟踪问题。根据状态观测器系统(2.1)来代替领导者系统(1.1)后,局部跟踪误差(1.3)可以写成
ei=xi-si1 (3.1)
结合式(1.2)和(1.5)得局部跟踪误差动态模型为
Figure BDA0003648336240000083
由(3.4),对应的性能函数为
Figure BDA0003648336240000084
对应的控制目标变为:为每个跟随者设计控制器ui,使:1)局部跟踪误差ei动态系统(3.2)渐近稳定;2)性能函数Vi(xi(0),si1)(3.3)达到最小。
定义由局部的跟踪误差ei和待跟踪状态si1组成的增广系统状态
Figure BDA0003648336240000085
增广系统动态模型为
Figure BDA0003648336240000086
其中,
Figure BDA0003648336240000087
基于增广系统的动态模型,性能函数(3.3)可写为
Figure BDA0003648336240000088
其中,
Figure BDA0003648336240000089
性能函数的最优值记为V*(x),定义为
Figure BDA0003648336240000091
并且V*(0)=0,结合(1.5)和(3.7)系统的汉密尔顿量可写成
Figure BDA0003648336240000092
通过平衡条件
Figure BDA0003648336240000093
可以得到最优控制的形式
Figure BDA0003648336240000094
其中
Figure BDA0003648336240000095
是一个常向量,β是在(1.6)中定义有关于输入限制的常数。
最优的代价函数和最优控制会满足汉密尔顿量为0,所以把(3.11)带入到(3.10)中并令其等于0,得到最优HJB方程
Figure BDA0003648336240000096
然后使用强化学习策略迭代的方法,来进行求解。下面讨论算法的稳定性和最优性。
假设方程(3.12)存在一个正定光滑的解Vi满足Vi(0)=0、在(3.10)定义的H的最优值
Figure BDA0003648336240000097
最优控制ui由(3.11)中给出并且增广动态闭环系统(3.5)和(3.11)中关于Xi是Lipschitz连续的,那么原点是系统(3.5)和控制(3.11)的全局渐近稳定点,并且控制(3.11)会使得性能函数(3.9)最小。
这里选取性能函数Vi作为Lyapunov函数,由于(3.10)和
Figure BDA0003648336240000098
Vi对时间的导数会满足:
Figure BDA0003648336240000099
这里,D(Xi)=Fi(Xi)+Gi(Xi)ui *;所以,可以知道原点就是增广系统(3.5)的全局渐近稳定平衡点,Xi会渐进收敛为0。而Vi是光滑的并且由Vi(0)=0,当时间t→∞时由于系统渐近稳定会有Xi→0,Vi(Xi(∞))=0,因此对上式两边积分得到
Figure BDA00036483362400000910
于是把性能函数(3.7)写成:
Figure BDA00036483362400000911
Figure BDA0003648336240000101
减去零也就是减去HJB方程,
Figure BDA0003648336240000102
由(3.11)得
Figure BDA0003648336240000103
带入(3.14)配方后
Figure BDA0003648336240000104
Figure BDA0003648336240000105
进一步完成配方,可以得到
Figure BDA0003648336240000106
因为
Figure BDA0003648336240000107
是正定可积的,所以Vi *(Xi(0))≤Vi(Xi(0),ui),也就是说控制ui *会使得性能函数最小。
HJB方程的策略迭代解法,通过迭代进行策略评估和策略提升,可以得到最优解。但是HJB方程由于系统可能是复杂非线性系统,方程的解析解难以求出,并且存在系统的系统矩阵未知的情况,使得方程的求解变得不可能。因此,本发明利用神经网络的逼近作用,在actor-ccitic框架下近似求解最优控制。其中critic近似最优值函数Vi *,actor近似最优控制ui *
首先对每个智能体定义一个critic神经网络来近似最优性能函数Vi *
Vi *(Xi)=Wic *Tσic(Xi)+εic(Xi) (3.15)
其中
Figure BDA0003648336240000108
表示理想的逼近权重向量并且满足||Wic *||≤Wicm
Figure BDA0003648336240000109
是神经网络的激活函数向量,向量中每个函数之间相互独立,且满足σic(0)=0,激活函数对Xi的梯度
Figure BDA00036483362400001010
εi是神经网络的逼近误差。根据(3.15),
Figure BDA00036483362400001011
根据Weierstrass高阶逼近理论,知道基向量σic(Xi)的数量N→∞时,逼近误差εic(Xi)→∞,也就是误差在一个紧集内收敛到0。将(3.16)代入HJB方程,近似HJB定义为
Figure BDA00036483362400001012
这里εiH是汉密尔顿量残差
Figure BDA00036483362400001013
假定基函数σi及其梯度
Figure BDA00036483362400001014
代价函数逼近误差εi,残差εiH都是在一个集合
Figure BDA00036483362400001015
内一致有界的,也就是说存在正常量σim,σidm,εim,εiHm使得对任意的x,
Figure BDA00036483362400001016
Figure BDA0003648336240000111
和||εiH||≤εiHm都成立。这里假定N足够大,使得逼近误差很小。
如果知道理想的权重向量Wic *,就可以近似得到最优价值函数。但是Wic *是未知的,因此需要对Wic *进行估计,其估计量记为
Figure BDA0003648336240000112
对应的值函数估计就写为
Figure BDA0003648336240000113
现在的目标就是设计合适的
Figure BDA0003648336240000114
更新律使
Figure BDA0003648336240000115
可以收敛到理想权重系数Wic *
本发明通过使用一个记录了一定量先前数据的经验池,用过往数据结合当前的状态等信息来设计
Figure BDA0003648336240000116
的自适应律。
首先定义当前时刻哈密顿误差eri(t),
Figure BDA0003648336240000117
其中
Figure BDA0003648336240000118
以及经验池中过往数据的哈密顿误差eipast
Figure BDA0003648336240000119
它使用的是先前时刻t0,t1,...,tk<t的Xi(ti),ui(ti),和当前时刻的
Figure BDA00036483362400001110
共同构成的。
将两个误差结合起来定义总的误差:
Figure BDA00036483362400001111
其中
Figure BDA00036483362400001112
Figure BDA00036483362400001113
由此给出本发明设计的
Figure BDA00036483362400001114
自适应律为:
Figure BDA0003648336240000121
其中ρic>0代表梯度下降的步长,步长越大收敛越快,但是容易导致不稳定,更新律要求
Figure BDA0003648336240000122
至少有N个线性无关向量。
然后对每个智能体定义actor神经网络来近似最优控制ui *,从式(3.11)中求得的理论上最优控制ui *形式可以看到,ui *包含了两部分,一部分是常量,一部分是和状态相关的变化量,只需近似变化的那一部分,因此actor定义为
Figure BDA00036483362400001214
其中
Figure BDA0003648336240000123
表示理想的逼近权重向量并且满足||Wia *||≤Wiam
Figure BDA0003648336240000124
是actor神经网络的激活函数向量,向量中每个函数之间相互独立,εia是actor神经网络的逼近误差。假定基函数σia及代价函数逼近误差εia,是在一个集合
Figure BDA0003648336240000125
内一致有界的,也就是说存在正常量σiam,εiam,使得对任意的x,||σia||≤σiam和||εia||≤εiam都成立。这里同样假定N足够大,使得逼近误差很小。
同样地,Wia *是未知的,需要对Wia *进行估计,其估计量记为
Figure BDA0003648336240000126
对应的最优控制估计就写为
Figure BDA0003648336240000127
现在的目标就是设计合适的
Figure BDA0003648336240000128
更新律使
Figure BDA0003648336240000129
可以收敛到理想权重系数Wia *。通过最小化估计的ui *与(3.11)中理论形式的ui *之间的误差来更新
Figure BDA00036483362400001210
具体为优化一个差值函数Ea(t),
Figure BDA00036483362400001211
这里
Figure BDA00036483362400001212
其中的
Figure BDA00036483362400001213
是在上面定义的critic参数估计值。
通过使用梯度法令(3.11)最小,得到下面的actor估计参数的更新律
Figure BDA0003648336240000131
其中ρia>0代表梯度下降的步长。
本发明的算法流程如下:
算法:基于状态观测的多智能体最优控制算法
1.初始化:对每个智能体给定系统初始状态,根据(2.25)和(4.13)选取合适的参数,actor和critic权重
Figure BDA0003648336240000132
阈值参数pia,pic
2.对每个智能体进行循环:
1)在经验池有N个线性无关元素的数据
Figure BDA0003648336240000133
之前循环:
a)按照第二部分设计的状态观测器观测领导者状态xi(t)为si1(t),并构建增广状态Xi(t);
b)让增广系统运行一个小段时间h使得ti+1=ti+h,记录
Figure BDA0003648336240000134
Xi(ti),ui(ti),i=i+1;
c)如果经验池已达到上限,提出时间最久的数据。
2)使用actor得到的控制ui(t),让增广系统运行一段时间,得到
Figure BDA0003648336240000135
Xi(t),并计算eri,eripast,根据(3.22)和(3.26)使用ode方法更critic
Figure BDA0003648336240000136
和actor
Figure BDA0003648336240000137
3)如果
Figure BDA0003648336240000138
Figure BDA0003648336240000139
停止循环。
第四部分算法稳定性分析
下面分析算法的稳定性。首先定义actor和critic的权重估计误差系统。
critic的权重估计误差记为
Figure BDA00036483362400001310
由(3.22)
Figure BDA00036483362400001311
的更新律,以及根据(3.17)得到的
Figure BDA00036483362400001312
可以得到
Figure BDA00036483362400001313
的动态响应可写为
Figure BDA00036483362400001314
其中
Figure BDA00036483362400001315
Figure BDA00036483362400001316
由于前面假定εicH有界,而
Figure BDA0003648336240000141
所以||Pi||≤(ρic/2)(k+1)εicHm,Pi可以看成是一个扰动项每当εicH为零时消失。
一般训练过程中要求
Figure BDA0003648336240000142
满足PE条件(
Figure BDA0003648336240000143
其中β1,β2,T都是大于零常数)需要在参数更新的每个时间序列都满足,这一条件在学习期间是难以保证的。而从上可以看到,本发明中使用了经验池中的过往数据即
Figure BDA0003648336240000144
作为额外项记为ψi,通过要求
Figure BDA0003648336240000145
包含至少N个线性无关向量或者说额外项是正定的来转还更为宽松的PE条件。这样只要从经验池取得了符合要求的
Figure BDA0003648336240000146
后,可以不再更新经验池也能持续满足条件。
由于额外项ψi是正定的并且
Figure BDA0003648336240000147
所以会有
Figure BDA0003648336240000148
其中λmin(·)代表着最小特征值。
actor的权重估计误差记为
Figure BDA0003648336240000149
结合
Figure BDA00036483362400001410
的更新律、(3.11)和(3.23),可以得到
Figure BDA00036483362400001411
的动态响应可写为
Figure BDA00036483362400001412
假定输入函数Gi是关于集合
Figure BDA00036483362400001413
内一致有界的,也就是对任意xi有||Gi||2<1/2。为了消除actor和critic网络的逼近误差,得到稳定平衡点的闭环系统,在actor周中加入一个鲁棒项Γ
Figure BDA00036483362400001414
其中
Figure BDA00036483362400001415
M、N是正常数并且满足:
Figure BDA0003648336240000151
Figure BDA0003648336240000152
Br是以r为半径的球,选取Lyapunov函数为:
Figure BDA0003648336240000153
对其求导得
Figure BDA0003648336240000154
由HJB方程
Figure BDA0003648336240000155
将上式第一部分进行变换,
Figure BDA0003648336240000156
由(4.7)定义的鲁棒项的特征N+Xi TXi>0,上述不等式可以写为下面的形式,
Figure BDA0003648336240000157
由(4.4)以及||Pi||≤(ρic/2)(k+1)εicHm
Figure BDA0003648336240000161
因为前面假定的各逼近参数的有界,
Figure BDA0003648336240000162
结合式(4.10)、(4.11)以及(4.12),可以知道
Figure BDA0003648336240000163
所以,只要critic的更新步长ρic和actor基向量的界限σiam满足:
Figure BDA0003648336240000164
就能使
Figure BDA0003648336240000165
根据barbalat引理,当t→∞时,||Y||2→0,也就是Xi T
Figure BDA0003648336240000166
以及
Figure BDA0003648336240000167
都会渐近收敛为零,最终使得增广系统(3.7)稳定,actor和critic的参数收敛到目标值。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.基于状态观测与经验池的非线性多智能体一致性方法,其特征在于:该方法包括以下步骤:
S1:问题描述;
S2:领导者状态观测器设计;
S3:基于观测器的多智能体控制器设计与分析;
S4:算法稳定性分析。
2.根据权利要求1所述的基于状态观测与经验池的非线性多智能体一致性方法,其特征在于:所述S1具体为:
考虑一类由一个领导者和N个跟随者组成的多智能体系统,领导者的动态模型为:
Figure FDA0003648336230000011
其中
Figure FDA0003648336230000012
为领导者的状态,
Figure FDA0003648336230000013
为领导者的内部函数,假设其未知、可微且有界||f(x0)||≤ρ0,其中ρ0为未知常数;第i(i=1,2,3,…,N)个跟随者的动态模型为:
Figure FDA0003648336230000014
其中
Figure FDA0003648336230000015
Figure FDA0003648336230000016
分别为第i个跟随者的状态和输入,
Figure FDA0003648336230000017
Figure FDA0003648336230000018
Figure FDA0003648336230000019
分别为第i个跟随者的内部函数和输入矩阵函数,是Ω上的连续函数;N个跟随者之间的通信拓扑可用有向图G=(V,E,A)来描述;设N个跟随者之间的通信有向图包含有向生成树,且领导者能发送信息给至少一个被称为根节点的跟随者;
控制目标为:在每个智能体只能获取自身及邻居跟随者状态信息的场景下,为每个智能体设计控制ui使得每个跟随者的状态能够跟踪领导者的状态,也就是使跟踪误差ei→0,即达到一致性,其中
Figure FDA00036483362300000110
其中
Figure FDA00036483362300000111
bi=1,当且仅当该智能体与领导者由信息交流的时候,aij=1当第i个跟随者和第j个跟随者之间进行信息交互的时候;每个智能体的控制ui实现多智能体的一致性的同时也要令各自如下形式的性能函数最小:
Figure FDA00036483362300000112
其中积分第一项表示对跟踪误差的要求,第二项表示对控制过程中输入信号能量损失的要求;
在未受限制的情况下,第二项
Figure FDA00036483362300000113
通常定义为二次型;但是在输入受饱和限制的情况下,只是用二次型性能指标得到的解并不能保证输入满足限制条件;定义
Figure FDA0003648336230000021
为非二次型惩罚函数,在后续最优解的形式中得到在这种形式下的
Figure FDA0003648336230000022
下得到的ui满足限制条件;
Figure FDA0003648336230000023
定义为如下形式:
Figure FDA0003648336230000024
其中,
Figure FDA0003648336230000025
R是一个对角正定阵,θ-1(·)∈C1(Ω)是一个单调奇函数并且满足θ-1(0)=0,选择θ-1(·)=tanh-1(·),tanh(·)是双曲正切函数:
Figure FDA0003648336230000026
双曲正切函数中有一个偏移量β,|umin|≠|umax|,β不等于零,而当|umin|=|umax|时,偏移β等于零,退化成对称函数。
3.根据权利要求2所述的基于状态观测与经验池的非线性多智能体一致性方法,其特征在于:所述S2具体为:
设有任意向量
Figure FDA0003648336230000027
对任意正实数p和q,其中p-1+q-1=1,有xTy≤1/p|x||p+1/q||y||q成立;
使用反步法和动态面控制法设计全分布式状态观测器:
Figure FDA0003648336230000028
而其中si1,si2
Figure FDA0003648336230000029
i代表第i个跟随者,i=1,2,3,…,N,si1是观测器的观测值,依据动态面控制法步骤然后定义每个跟随者的跟踪误差ei1和动态面误差ei2以及边界误差如下:
ei1=∑aij(si1-sj1)+bi(si1-x0) (2.2)
Figure FDA00036483362300000210
对上面定义的局部误差ei1进行求导,
Figure FDA00036483362300000211
定义控制器误差zi2
Figure FDA00036483362300000212
其中,vi2为虚拟控制器,
Figure FDA0003648336230000031
虚拟滤波控制器
结合式(2.3)和(2.5),将ei2带入局部误差ei1的导数写作
Figure FDA0003648336230000032
为第i个跟随者的第一个李雅普诺夫函数设计为如下形式:
Figure FDA0003648336230000033
对式(2.7)求导
Figure FDA0003648336230000034
其中
Figure FDA0003648336230000035
为对位置参数ρ0的估计,
Figure FDA0003648336230000036
的自适应律
Figure FDA0003648336230000037
Figure FDA0003648336230000038
同样的,对ei2求导
Figure FDA0003648336230000039
Figure FDA00036483362300000310
这里τi2为低通滤波器的时间常数,
为第i个跟随者的第二个李雅普诺夫函数设计为如下形式:
Figure FDA00036483362300000311
对Vi2求导
Figure FDA00036483362300000312
对边界误差zi2求导
Figure FDA00036483362300000313
为第i个跟随者的第三个李雅普诺夫函数设计为如下形式:
Figure FDA00036483362300000314
Figure FDA00036483362300000315
和zi2,ei1,ei2之间的关系知
Figure FDA00036483362300000316
结合杨氏不等式得
Figure FDA00036483362300000317
为第i个跟随者总李雅普诺夫函数设计为如下形式:
Vi=Vi1+Vi2+Vi3 (2.17)
根据Vi1的表达式,设计虚拟控制器vi2为:
Figure FDA0003648336230000041
由上面介绍的杨氏引理得:
Figure FDA0003648336230000042
Figure FDA0003648336230000043
结合后得到如下不等式:
Figure FDA0003648336230000044
根据Vi2设计第i个跟随者的实际控制权vi
Figure FDA0003648336230000045
将控制器带入(2.13)得
Figure FDA0003648336230000046
最后总的李雅普诺夫函数求导Vi,并结合式(2.21)(2.23)(2.16)得
Figure FDA0003648336230000047
为使各个误差都有界,令
Figure FDA0003648336230000048
当Ki1,Ki2及τi2满足(2.24)时,(2.23)写成
Figure FDA0003648336230000049
最后一步对所有跟随者选取总的Lyapunov函数:
Figure FDA0003648336230000051
其中K=min(K1,...,KN),
Figure FDA0003648336230000052
ci,对上式进行积分得
Figure FDA0003648336230000053
V(t)一致最终有界,通过选取合适的参数使V(t),N个跟随者的观测器的局部跟踪误差,动态面误差,边界误差收敛到一个小的紧集内;对每个跟随者,有自己的观测器来获知领导者的状态。
4.根据权利要求3所述的基于状态观测与经验池的非线性多智能体一致性方法,其特征在于:所述S3具体为:
根据状态观测器系统(2.1)来代替领导者系统(1.1)后,局部跟踪误差(1.3)写成
ei=xi-si1 (3.1)
结合式(1.2)和(1.5)得局部跟踪误差动态模型为
Figure FDA0003648336230000054
由(3.4),对应的性能函数为
Figure FDA0003648336230000055
对应的控制目标变为:为每个跟随者设计控制器ui,使:
1)局部跟踪误差ei动态系统(3.2)渐近稳定;
2)性能函数Vi(xi(0),si1)(3.3)达到最小;
定义由局部的跟踪误差ei和待跟踪状态si1组成的增广系统状态
Figure FDA0003648336230000056
增广系统动态模型为
Figure FDA0003648336230000057
其中,
Figure FDA0003648336230000058
基于增广系统的动态模型,性能函数(3.3)写为
Figure FDA0003648336230000059
其中,
Figure FDA00036483362300000510
性能函数的最优值记为V*(x),定义为
Figure FDA0003648336230000061
并且V*(0)=0,结合(1.5)和(3.7)系统的汉密尔顿量写成
Figure FDA0003648336230000062
通过平衡条件
Figure FDA0003648336230000063
得到最优控制的形式
Figure FDA0003648336230000064
其中
Figure FDA0003648336230000065
是一个常向量,β是在(1.6)中定义有关于输入限制的常数;
最优的代价函数和最优控制会满足汉密尔顿量为0,所以把(3.11)带入到(3.10)中并令其等于0,得到最优HJB方程
Figure FDA0003648336230000066
使用强化学习策略迭代的方法,来进行求解;
假设方程(3.12)存在一个正定光滑的解Vi满足Vi(0)=0、在(3.10)定义的H的最优值
Figure FDA0003648336230000067
最优控制ui由(3.11)中给出并且增广动态闭环系统(3.5)和(3.11)中关于Xi是Lipschitz连续的,那么原点是系统(3.5)和控制(3.11)的全局渐近稳定点,并且控制(3.11)会使得性能函数(3.9)最小;
选取性能函数Vi作为Lyapunov函数,由于(3.10)和
Figure FDA0003648336230000068
Vi对时间的导数会满足:
Figure FDA0003648336230000069
D(Xi)=Fi(Xi)+Hi(Xi)ui *;原点就是增广系统(3.5)的全局渐近稳定平衡点,Xi会渐进收敛为0;而Vi是光滑的并且由Vi(0)=0,当时间t→∞时由于系统渐近稳定会有Xi→0,Vi(Xi(∞))=0,对上式两边积分得到
Figure FDA00036483362300000610
于是把性能函数(3.7)写成:
Figure FDA0003648336230000071
减去零也就是减去HJB方程,
Figure FDA0003648336230000072
由(3.11)得
Figure FDA0003648336230000073
带入(3.14)配方后
Figure FDA0003648336230000074
Figure FDA0003648336230000075
完成配方,得到
Figure FDA0003648336230000076
Figure FDA0003648336230000077
是正定可积的,Vi *(Xi(0))≤Vi(Xi(0),ui),控制ui *会使得性能函数最小;
HJB方程的策略迭代解法,通过迭代进行策略评估和策略提升,得到最优解;利用神经网络的逼近作用,在actor-ccitic框架下近似求解最优控制;其中critic近似最优值函数Vi *,actor近似最优控制ui *
首先对每个智能体定义一个critic神经网络来近似最优性能函数Vi *
Vi *(Xi)=Wic *Tσic(Xi)+εic(Xi) (3.15)
其中
Figure FDA0003648336230000078
表示理想的逼近权重向量并且满足||Wic *||≤Wicm;σic(Xi)=[σic1,σic2,...,σicN]T
Figure FDA0003648336230000079
是神经网络的激活函数向量,向量中每个函数之间相互独立,且满足σic(0)=0,激活函数对Xi的梯度
Figure FDA00036483362300000710
εi是神经网络的逼近误差;根据(3.15),
Figure FDA00036483362300000711
根据Weierstrass高阶逼近理论,知道基向量σic(Xi)的数量N→∞时,逼近误差εic(Xi)→∞,也就是误差在一个紧集内收敛到0;将(3.16)代入HJB方程,近似HJB定义为
Figure FDA00036483362300000712
这里εiH是汉密尔顿量残差
Figure FDA00036483362300000713
假定基函数σi及其梯度
Figure FDA00036483362300000714
代价函数逼近误差εi,残差εiH都是在一个集合
Figure FDA00036483362300000715
内一致有界的,也就是说存在正常量σim,σidm,εim,εiHm使得对任意的x,||σic||≤σicm
Figure FDA00036483362300000716
||εic||≤εicm
Figure FDA0003648336230000081
和||εiH||≤εiHm都成立;这里假定N足够大,使得逼近误差很小;
如果知道理想的权重向量Wic *,得到最优价值函数;对Wic *进行估计,其估计量记为
Figure FDA0003648336230000082
对应的值函数估计就写为
Figure FDA0003648336230000083
设计合适的
Figure FDA0003648336230000084
更新律使
Figure FDA0003648336230000085
收敛到理想权重系数Wic *
使用一个记录一定量先前数据的经验池,用过往数据结合当前的状态等信息来设计
Figure FDA0003648336230000086
的自适应律;
首先定义当前时刻哈密顿误差eri(t),
Figure FDA0003648336230000087
其中
Figure FDA0003648336230000088
以及经验池中过往数据的哈密顿误差eipast
Figure FDA0003648336230000089
它使用的是先前时刻t0,t1,...,tk<t的Xi(ti),ui(ti),和当前时刻的
Figure FDA00036483362300000810
共同构成的;
将两个误差结合起来定义总的误差:
Figure FDA00036483362300000811
其中
Figure FDA00036483362300000812
Figure FDA00036483362300000813
Figure FDA00036483362300000814
自适应律为:
Figure FDA0003648336230000091
其中ρic>0代表梯度下降的步长,步长越大收敛越快,但是容易导致不稳定,更新律要求
Figure FDA0003648336230000092
至少有N个线性无关向量;
然后对每个智能体定义actor神经网络来近似最优控制ui *,从式(3.11)中求得的理论上最优控制ui *形式,ui *包含两部分,一部分是常量,一部分是和状态相关的变化量,actor定义为
ui *=Wia *Tσia(Xi)+εia(Xi)+lβ (3.23)
其中
Figure FDA0003648336230000093
表示理想的逼近权重向量并且满足||Wia *||≤Wiam;σia(Xi)=[σia1,σia2,...,σiaN]T
Figure FDA0003648336230000094
是actor神经网络的激活函数向量,向量中每个函数之间相互独立,εia是actor神经网络的逼近误差;假定基函数σia及代价函数逼近误差εia,是在一个集合
Figure FDA0003648336230000095
内一致有界的,也就是说存在正常量σiam,εiam,使得对任意的x,||σia||≤σiam和||εia||≤εiam都成立;这里同样假定N足够大,使得逼近误差很小;
Wia *是未知的,需要对Wia *进行估计,其估计量记为
Figure FDA0003648336230000096
对应的最优控制估计就写为
Figure FDA0003648336230000097
设计合适的
Figure FDA0003648336230000098
更新律使
Figure FDA0003648336230000099
收敛到理想权重系数Wia *;通过最小化估计的ui *与(3.11)中理论形式的ui *之间的误差来更新
Figure FDA00036483362300000910
具体为优化一个差值函数Ea(t),
Figure FDA00036483362300000911
这里
Figure FDA00036483362300000912
其中的
Figure FDA00036483362300000913
是在上面定义的critic参数估计值;
通过使用梯度法令(3.11)最小,得到下面的actor估计参数的更新律
Figure FDA0003648336230000101
其中ρia>0代表梯度下降的步长;
算法流程如下:
1.初始化:对每个智能体给定系统初始状态,根据(2.25)和(4.13)选取合适的参数,actor和critic权重
Figure FDA0003648336230000102
阈值参数pia,pic
2.对每个智能体进行循环:
1)在经验池有N个线性无关元素的数据
Figure FDA0003648336230000103
之前循环:
a)按照第二部分设计的状态观测器观测领导者状态xi(t)为si1(t),并构建增广状态Xi(t);
b)让增广系统运行一个小段时间h使得ti+1=ti+h,记录
Figure FDA0003648336230000104
Xi(ti),ui(ti),i=i+1;
c)如果经验池已达到上限,提出时间最久的数据;
2)使用actor得到的控制ui(t),让增广系统运行一段时间,得到
Figure FDA0003648336230000105
Xi(t),并计算eri,eripast,根据(3.22)和(3.26)使用ode方法更critic
Figure FDA0003648336230000106
和actor
Figure FDA0003648336230000107
3)如果
Figure FDA0003648336230000108
Figure FDA0003648336230000109
停止循环。
5.根据权利要求4所述的基于状态观测与经验池的非线性多智能体一致性方法,其特征在于:所述S4具体为:
首先定义actor和critic的权重估计误差系统;
critic的权重估计误差记为
Figure FDA00036483362300001010
由(3.22)
Figure FDA00036483362300001011
的更新律,以及根据(3.17)得到的
Figure FDA00036483362300001012
得到
Figure FDA00036483362300001013
的动态响应写为
Figure FDA00036483362300001014
其中
Figure FDA00036483362300001015
Figure FDA00036483362300001016
由于前面假定εicH有界,而
Figure FDA0003648336230000111
所以||Pi||≤(ρic/2)(k+1)εicHm,Pi看成是一个扰动项每当εicH为零时消失;
训练过程中要求
Figure FDA0003648336230000112
满足PE条件(
Figure FDA0003648336230000113
其中β1,β2,T都是大于零常数)需要在参数更新的每个时间序列都满足,这一条件在学习期间是难以保证的;使用经验池中的过往数据即
Figure FDA0003648336230000114
作为额外项记为ψi,通过要求
Figure FDA0003648336230000115
包含至少N个线性无关向量或者说额外项是正定的来转还更为宽松的PE条件;这样只要从经验池取得了符合要求的
Figure FDA0003648336230000116
后,不再更新经验池也能持续满足条件;
额外项ψi是正定的并且
Figure FDA0003648336230000117
Figure FDA0003648336230000118
其中λmin(·)代表着最小特征值;
actor的权重估计误差记为
Figure FDA0003648336230000119
结合
Figure FDA00036483362300001110
的更新律、(3.11)和(3.23),得到
Figure FDA00036483362300001111
的动态响写为
Figure FDA00036483362300001112
假定输入函数Gi是关于集合
Figure FDA00036483362300001113
内一致有界的,对任意xi有||Gi||2<1/2;为消除actor和critic网络的逼近误差,得到稳定平衡点的闭环系统,在actor周中加入一个鲁棒项Γ
Figure FDA00036483362300001114
其中
Figure FDA00036483362300001115
M、N是正常数并且满足:
Figure FDA00036483362300001116
Figure FDA0003648336230000121
Br是以r为半径的球,选取Lyapunov函数为:
Figure FDA0003648336230000122
对其求导得
Figure FDA0003648336230000123
由HJB方程
Figure FDA0003648336230000124
将上式第一部分进行变换,
Figure FDA0003648336230000125
由(4.7)定义的鲁棒项的特征N+Xi TXi>0,上述不等式写为下面的形式,
Figure FDA0003648336230000126
由(4.4)以及||Pi||≤(ρic/2)(k+1)εicHm
Figure FDA0003648336230000127
Figure FDA0003648336230000131
假定的各逼近参数的有界,
Figure FDA0003648336230000132
结合式(4.10)、(4.11)以及(4.12),知道
Figure FDA0003648336230000133
只要critic的更新步长ρic和actor基向量的界限σiam满足:
Figure FDA0003648336230000134
Figure FDA0003648336230000135
就能使
Figure FDA0003648336230000136
根据barbalat引理,当t→∞时,||Y||2→0,也就是Xi T
Figure FDA0003648336230000137
以及
Figure FDA0003648336230000138
都会渐近收敛为零,最终使得增广系统(3.7)稳定,actor和critic的参数收敛到目标值。
CN202210540972.4A 2022-05-17 2022-05-17 基于状态观测与经验池的非线性多智能体一致性方法 Pending CN114841074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210540972.4A CN114841074A (zh) 2022-05-17 2022-05-17 基于状态观测与经验池的非线性多智能体一致性方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210540972.4A CN114841074A (zh) 2022-05-17 2022-05-17 基于状态观测与经验池的非线性多智能体一致性方法

Publications (1)

Publication Number Publication Date
CN114841074A true CN114841074A (zh) 2022-08-02

Family

ID=82570639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210540972.4A Pending CN114841074A (zh) 2022-05-17 2022-05-17 基于状态观测与经验池的非线性多智能体一致性方法

Country Status (1)

Country Link
CN (1) CN114841074A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115268275A (zh) * 2022-08-24 2022-11-01 广东工业大学 基于状态观测器的多智能体系统一致性跟踪方法及系统
CN116500893A (zh) * 2023-04-19 2023-07-28 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN116627042A (zh) * 2023-07-20 2023-08-22 南京邮电大学 执行器非对称饱和多自主体系统的分布式协同跟踪方法
CN116661347A (zh) * 2023-05-26 2023-08-29 苏州科技大学 一种含不确定时滞的多智能体一致性控制方法
CN116679573A (zh) * 2023-08-04 2023-09-01 北京全路通信信号研究设计院集团有限公司 一种一致性跟踪控制方法、装置、电子设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115268275A (zh) * 2022-08-24 2022-11-01 广东工业大学 基于状态观测器的多智能体系统一致性跟踪方法及系统
CN115268275B (zh) * 2022-08-24 2024-05-28 广东工业大学 基于状态观测器的多智能体系统一致性跟踪方法及系统
CN116500893A (zh) * 2023-04-19 2023-07-28 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN116500893B (zh) * 2023-04-19 2023-11-14 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN116661347A (zh) * 2023-05-26 2023-08-29 苏州科技大学 一种含不确定时滞的多智能体一致性控制方法
CN116661347B (zh) * 2023-05-26 2024-01-12 苏州科技大学 一种含不确定时滞的多智能体一致性控制方法
CN116627042A (zh) * 2023-07-20 2023-08-22 南京邮电大学 执行器非对称饱和多自主体系统的分布式协同跟踪方法
CN116627042B (zh) * 2023-07-20 2023-09-29 南京邮电大学 执行器非对称饱和多自主体系统的分布式协同跟踪方法
CN116679573A (zh) * 2023-08-04 2023-09-01 北京全路通信信号研究设计院集团有限公司 一种一致性跟踪控制方法、装置、电子设备及存储介质
CN116679573B (zh) * 2023-08-04 2023-10-20 北京全路通信信号研究设计院集团有限公司 一种一致性跟踪控制方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN114841074A (zh) 基于状态观测与经验池的非线性多智能体一致性方法
Wen et al. Optimized backstepping for tracking control of strict-feedback systems
Zhu et al. Distributed Nash equilibrium seeking in an aggregative game on a directed graph
Liu et al. Adaptive neural output feedback tracking control for a class of uncertain discrete-time nonlinear systems
Wang et al. Consensus tracking for nonlinear multi-agent systems with unknown disturbance by using model free adaptive iterative learning control
Pan et al. Composite adaptive fuzzy H∞ tracking control of uncertain nonlinear systems
Shi et al. Single-cycle and multi-cycle generalized 2D model predictive iterative learning control (2D-GPILC) schemes for batch processes
Zhao et al. Event-triggered optimal consensus tracking control for multi-agent systems with unknown internal states and disturbances
Zhao et al. Distributed optimal coordination control for nonlinear multi-agent systems using event-triggered adaptive dynamic programming method
Yu et al. Practical time-varying output formation tracking for high-order nonlinear strict-feedback multi-agent systems with input saturation
Wang et al. Finite-time distributed event-triggered formation control for quadrotor UAVs with experimentation
CN112947084A (zh) 一种基于强化学习的模型未知多智能体一致性控制方法
Liu et al. Adaptive decentralized control for switched nonlinear large-scale systems with quantized input signal
CN109634136A (zh) 输入非线性的分数阶多智能体系统控制器的设计方法
Zhang et al. Distributed fixed‐time consensus tracking for high‐order uncertain non‐linear multi‐agent systems with switching topologies
CN117055605A (zh) 多无人机姿态控制方法及系统
CN108762072B (zh) 基于核范数子空间法和增广向量法的预测控制方法
CN112685657A (zh) 一种基于多模态交叉融合图网络的会话社交推荐方法
Yang et al. Predictor‐based bipartite time‐varying formation control of nonlinear multi‐agents systems via disturbance observer
Li et al. Identification of nonlinear process described by neural fuzzy Hammerstein-Wiener model using multi-signal processing
Jiang et al. A traverse algorithm approach to stochastic stability analysis of Markovian jump systems with unknown and uncertain transition rates
Liu et al. Adaptive finite-time consensus tracking for nonstrict feedback nonlinear multi-agent systems with unknown control directions
CN117687305A (zh) 一种以鲁棒性能为导向的机电系统启发式优化设计方法及系统
CN117452975A (zh) 一种四旋翼无人机集群的保性能协同编队控制设计方法
Ye et al. Costate-supplement ADP for model-free optimal control of discrete-time nonlinear systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination