CN114547980A - 具有时变状态约束的多智能体有限时间事件触发控制方法 - Google Patents
具有时变状态约束的多智能体有限时间事件触发控制方法 Download PDFInfo
- Publication number
- CN114547980A CN114547980A CN202210171849.XA CN202210171849A CN114547980A CN 114547980 A CN114547980 A CN 114547980A CN 202210171849 A CN202210171849 A CN 202210171849A CN 114547980 A CN114547980 A CN 114547980A
- Authority
- CN
- China
- Prior art keywords
- time
- state
- function
- control strategy
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000006870 function Effects 0.000 claims abstract description 100
- 238000011217 control strategy Methods 0.000 claims abstract description 85
- 238000013528 artificial neural network Methods 0.000 claims abstract description 60
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 230000001960 triggered effect Effects 0.000 claims abstract description 28
- 238000013461 design Methods 0.000 claims abstract description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 71
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000003044 adaptive effect Effects 0.000 claims description 22
- 230000002787 reinforcement Effects 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 15
- KFOPKOFKGJJEBW-ZSSYTAEJSA-N methyl 2-[(1s,7r,8s,9s,10r,13r,14s,17r)-1,7-dihydroxy-10,13-dimethyl-3-oxo-1,2,6,7,8,9,11,12,14,15,16,17-dodecahydrocyclopenta[a]phenanthren-17-yl]acetate Chemical compound C([C@H]1O)C2=CC(=O)C[C@H](O)[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H](CC(=O)OC)[C@@]1(C)CC2 KFOPKOFKGJJEBW-ZSSYTAEJSA-N 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 208000011231 Crohn disease Diseases 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims description 2
- 230000036962 time dependent Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 15
- 239000002699 waste material Substances 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 abstract description 6
- 230000036961 partial effect Effects 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 5
- 230000004888 barrier function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 3
- 241000764238 Isis Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012938 design process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种具有时变状态约束的多智能体有限时间事件触发控制方法,属于计算机领域。本发明针对存在时变非对称状态约束且部分模型未知的异构一阶非线性多智能体系统,为实现系统的状态一致性控制,采用非线性映射函数将受时变约束的状态转化为不受约束的状态,并针对该不受限制的系统设计了有限时间事件触发的控制算法。该算法不仅可以减少的通信资源的浪费,整个算法的可行性通过李雅普诺夫稳定性理论进行了证明。另外为了求得基于事件触发机制下的有限时间最优控制策略引入了强化学习算法,并结合Critic神经网络实现对未知值函数的逼近,再通过在线策略迭代求解出最优的控制策略。
Description
技术领域
本发明属于计算机领域,涉及具有时变状态约束的多智能体有限时间事件触发控制方法。
背景技术
在实际应用,出于安全性和性能因素的考虑,系统不可避免地会受到外部环境或其内部自身存在的某些限制,因此时常要对自身的状态进行约束,这种状态约束可以分为时不变或者时变的。对时不变状态约束,如在机器人操作系统中,为了保证机器人的稳定性,通常要将各个关节的运动速度设定在一个可靠的常值范围之内;对于时变状态约束,比如在无人驾驶系统中,要求汽车在行驶过程中的位置和速度需要时刻依据实时路况以及车流量等信息对汽车行驶的速度进行限制,因此对位置或速度的约束是要时刻跟随外界环境的变化而变化的。因此研究具有时变状态约束的控制问题具有重要的理论和应用意义。按照目前的研究,解决状态约束的方法主要分为两种,一种是障碍李雅普诺夫函数法(BLF),该方法的主要思想是不对受约束的状态进行非线性映射,而是在选取李雅普诺夫函数时选取为障碍李雅普诺夫函数,该函数的特点是当受约束的状态趋于状态的上下限时,函数的取值会趋于无穷大,通过进一步对李雅普诺夫函数的分析就可以解决状态约束问题。另一种方式被称为非线性映射方法,该方法的思想是将受约束的状态通过某个非线性函数映射后,将受约束的状态转化为不受约束的状态,在整个变化过程中,只要保证变化后的状态施加某种限定条件(如始终保持有界)就能保证变化前后的系统等价,即可以利用映射后不受约束的状态来对系统进行分析以此来解决系统的状态约束问题。同样的,这两种方法也同样适用于求解具有非对称时变状态约束的系统,只是对于时变约束的系统采用BLF时应选取时变障碍李雅普诺夫函数。
其次在实际控制中,随着系统规模和多智能体维数的增加,计算资源的消耗也越来越大,而且各个智能体之间总是存在通信网络带宽和计算资源的限制,因此很多时候求得出的一致性控制策略往往不可行。为了延长智能体的使用寿命,减少智能体之间不必要的通信和控制器的更新,使得智能体之间可以更为有效的节省有限的传输与计算资源。因此近些年来,事件触发控制得到了广泛关注,该触发方式不同于时间触发,控制策略不是时刻跟着时间的变化而变化,而是在满足预先设定的事件触发条件时才会对控制策略进行更新,在不满足触发条件时,控制策略始终与上一个触发时刻更新的策略保持一致。这样一来,控制器就不需要无时无刻的变化,在满足性能的同时,又能极大程度上的减少通讯资源的浪费。在最近的研究当中,将分布式事件触发控制算法引入了多智能体的一致性控制当中也成为了现实,让控制策略按照根据预先设定的分布式事件触发协议更新,即能减少通信资源,也比传统的时间触发系统有更好的实时性能,分布式的方式也使得每个智能体的策略更新仅在自己的时间触发,也显著的降低了触发频率。但引入事件触发控制之后,必须要对该控制策略在触发条件满足是否会在有限时间内被无限次数的触发,这种现象我们称为Zeno行为,这是执行器所接受不了的。因此在引入事件触发控制之后,必须要对事件触发控制策略以及触发条件进行验证,证明其在任意时间内都不会使系统产Zeno行为。
为了求得基于事件触发机制下的有限时间最优控制策略,近些年来有许多学者将事件触发与最优控制方法结合起来。求解最优控制问题的最关键问题就在于对Hamilton-Jacobi-Bellman方程(HJBEs)的求解,而HJB方程由于系统维数或模型可能存在未知部分的原因,通常很难求得解析解。因此为了解决这一问题,通常会将自适应动态规划(ADP)或强化学习(Reinforcement Learning RL)结合起来,通过迭代的方式来求解HJB方程,以获得最优策略。
由于目前研究具有状态约束的问题大多数是针对单个的智能体系统而言,对多智能体系统的一致性研究较少,而且基本上考虑的都是时不变的状态约束,对具有时变非对称状态约束的考虑较少。另外在解决状态约束问题是用到的BLF方法需要根据状态受限的条件重新设计李雅普诺夫函数,导致控制器的设计过程复杂,而且绝大多数情况下只应用于状态受限的单个系统,因此本发明为了降低控制器设计的复杂程度,并且能够处理具有非对称时变状态约束的低阶且部分模型未知的非线性多智能体系统,采用了非线性映射的方式对具有时变非对称约束的状态进行处理。
另外虽然事件触发控制可以在极大程度上减少对通信资源的浪费,但大多数情况下一致性控制问题都是在无限时间收敛下来考虑的,即往往不考虑系统达到一致性的收敛速度,而往往我们想要得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性。因此本发明引入了有限时间事件触发控制,使系统既能减少通信资源的同时,也可以加快系统达到一致性的收敛速度,该收敛时间还可以根据具体需求进行人为的设定,使得事件触发控制的鲁棒性和时效性得到了有效的提高。同时为了消除事件触发控制策略所可能引起的Zeno行为,该现象是指控制策略在有限时间内被无限次数的触发,这是系统所不允许的,因此额外增加了一个自适应动态参数,通过合理设计该参数的自适应率,便可避免求得的控制策略使系统产生Zeno行为。
同时由于该算法求得的事件触发控制策略虽然可以使得多智能体系统在有限时间内到达平均状态一致性,但往往不能保证该控制策略为最优的。因此为了求解出最优策略,本发明引入了强化学习算法对最优策略进行求解,通过设置与状态误差、控制输入和当前状态有关的带折扣因子的成本函数,对该成本函数求导并结合Hamilton方程写出HJB(Hamilton–Jacobi–Bellman)方程,在根据事件触发条件以及采样误差与Hamilton方程逼近误差将HJB(event-triggered HJB)方程改写成ETHJB方程,再利用Critic神经网络对未知的值函数进行逼近,再带回到原来的ETHJB方程中,通过反复迭代,直至当前控制策略与下一步的控制方法收敛到足够小的误差项,则该策略即为想要求得的最优控制方法。
发明内容
有鉴于此,本发明的目的在于提供一种具有时变状态约束的多智能体有限时间事件触发控制方法。本发明针对存在时变非对称状态约束且部分模型未知的异构一阶非线性多智能体系统,为实现系统的状态一致性控制,采用非线性映射函数将受时变约束的状态转化为不受约束的状态,并针对该不受限制的系统设计了一种有限时间事件触发的控制算法。该算法不仅可以减少的通信资源的浪费,还使得系统具有更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性,整个算法的可行性通过李雅普诺夫稳定性理论进行了证明。另外为了求得基于事件触发机制下的有限时间最优控制策略引入了强化学习算法,并结合Critic神经网络实现对未知值函数的逼近,再通过在线策略迭代求解出最优的控制策略。
为达到上述目的,本发明提供如下技术方案:
具有时变状态约束的多智能体有限时间事件触发控制方法,该方法包括以下步骤:
S1:建立问题;
考虑如下由n个智能体组成的无领导者的非线性多智能体系统,其中每个智能体的模型表示为:
局部邻居误差定义为:
yi(t)=xi(t)-x0(t) (1-3)
为便于描述,将yi(t),xi(t),x0(t),ei(t)分别写为yi,xi,x0,ei,同时令x(t)=[x1,x2,...,xn]T,e(t)=[e1,e2,...,en]T,得:
状态x1,x2,...,xn且始终满足非对称时变约束,即有:
其中n为跟随者的个数,x i(t),分别为受限状态的上下限,其值与时间有关,该条件对于任意时间都应该满足;在t=0时刻要人为的设置一个足够大上界和一个足够小的下界x i(0)使得满足。设上下限的导数和均存在。
假设系统中的Fi(xi(t))为未知光滑的非线性函数,采用神经网络对未知的函数进行拟合,如下所示:
其中Z和O(X)分别为神经网络的输入和输出,φ(·)为基函数,W为权重系数。在本发明中,基函数φ(·)选取为双曲正切函数,具体形式如下:
将未知函数Fi(xi(t))用神经网络替换得
Fi(xi(t))=Wi Tφ(VTZ)+εi (1-9)
其中W为神经网络理想的权重系数,ε为逼近误差,且满足||ε||≤εm,||W‖≤Wm,εm,Wm均为未知的正常数,‖·‖为标准欧几里得范数。
S2:状态映射;
非线性多智能体系统的状态要始终保持在某个非对称时变约束中,采用非线性映射的方式将受事变约束的状态转换为不受约束的状态,具体过程如下:
假设xi(t)满足以下等式,即选取如下的非线性映射函数:
对(3-2)移项再取反函数得:
经过(2-2)的映射之后,先前受时变非对称约束的状态xi(t)转化为了不受约束的状态si,另外显然tan(·)在区间上为单调递增的函数,只需要保证变化后的状态si在任意时刻下始终是有界的,那么就存在唯一的一个映射前的状态xi(t)以及一组上下界与之相对应。即将该状态经过非线性映射函数映射后得到不受约束的状态si,对于这个不受约束的状态只需要保证该状态始终有界,就能时映射前后的系统等价,通过该状态来实现原先状态受约束系统的一致性控制。
将(3-5)写成矩阵形式得
S3:设计分布式有限时间事件触发控制器
设控制策略在满足以下条件时会进行触发,控制策略为:
其中d为正常数。
对该控制策略以及触发条件的可行性进行证明,实现选取如下的李雅普诺夫函数:
对V0(t)沿时间t求导,具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t)。y(t)和x(t)的关系转换为:
代入神经网络的自适应率,并结合引理二知:
S4:Zeno行为的消除
在控制器设计时再引入一个动态的可变参数αi(t),将αi(t)的自适应率设计为:
其中αi(t)>0,βi∈[0,1)为折扣因子。
神经网络的自适应率改为:
有限时间事件触发条件变为:
其中δi为正常数。接下来对其可行性进行证明:
对不等式两边同时取t∈[τn,τn+1)的积分,并结合引理二知:
选取李雅普诺夫函数V(t)为:
将神经网络的自适应率代入上式得:
接下来,则对该添加动态系数后的控制策略和触发条件是否使得系统避免Zeno行为的产生。
令τ1=t*,并对(4-9)两边同时取积分得:
S5:利用强化学习算法求解最优事件触发控制器
对于系统中的任一智能体,针对映射后不受非对称时变约束的状态s(t),该智能体的动力学模型表示为:
设Vi *(si)为最优的成本函数,数学定义为:
再将最优控制策略带回到哈密顿方程中得:
另外控制策略在事件触发条件满足的时刻应该立即更新,在触发条件不满足时应该始终和上一时刻触发时的控制策略保持一致,使用零阶保持器来实现。假设在触发时刻下的控制策略更新为则在整个区间范围内,控制策略都应该保持为假设该控制策略通过零阶保持器的输出策略为且满足:
在控制策略取得最优时,有:
将零阶保持器输出的最优控制策略代入到(5-7)得ETHJB方程为:
对未知的值函数进行逼近,求得最优控制策略。令:
将其带入到哈密尔顿方程中,并由于,则取二者的差值得:
其中为使得所求得的最优控制策略更加精确,充分对历史信息进行利用,通过引入一项历史误差项来实现。设在第k0不步之前的累计误差为历史状态d∈{1,2,...,k0},其中表示前d个状态下,第i的智能体在第k步时所产生的累计误差。
则定义总体误差Ei为,并构造以下目标函数,通过使得εe(t)最小化来调整critic神经网络的权重系数:
更新事件触发的条件为:
取Critic神经网络权重系数的自适应为:
接下来基于(5-8)、(5-15)和(5-19)式,利用critic神经网络实现对值函数和策略函数的同步更新,设计基于策略迭代的在线强化学习算法来求解ETHJB方程,以求解最优事件触发控制输入。
可选的,所述基于策略迭代的在线强化学习算法来求解ETHJB方程具体为:
一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法。
一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现所述的方法。
本发明的有益效果在于:
(1)本发明所设计的控制算法可用于实现具有时变非对称状态约束且系统模型部分未知的异构多智能体系统的状态平均一致性控制,即该算法对具有模型未知、多智能体、异构和时变状态约束等特性的复杂系统具有良好的分布式自适应控制能力。
(2)本发明设计了一个非线性映射函数来解决非对称时变状态约束问题,避免了需要针对不同的约束条件重新构造合适的时变障碍李雅普诺夫函数,使得控制器的设计更为简便。
(3)本发明为了减少智能体之间通信资源的浪费,引入了分布式事件触发控制算法,使得控制策略按照预先设定的事件触发协议更新,比传统的时间触发系统有更好的实时性能,分布式的方式也使得每个智能体的策略更新仅在自己的时间触发,显著的降低了触发频率。
(4)本发明为了提高一致性控制的收敛速度,获得更好的抗干扰能力以及更好的鲁棒性,将有限时间控制与事件触发相结合,实现了有限时间下的事件触发控制,并且该收敛时间可人为进行设定,有限时间下的系统稳定性也通过李雅普诺夫方法进行了证明。
(5)本发明为了避免引入有限时间事件触发控制下可能会产生的Zeno行为,在事件触发条件中添加了一项自适应参数,通过自适应的调整该参数并结合合适的神经网络自适应率便能在整个过程中避免Zeno行为的发生。
(6)本发明为了求得基于事件触发机制下的有限时间最优控制策略,引入了在线强化学习算法,通过Critic神经网络实现对未知值函数的逼近,再利用在线策略迭代的方式完成对ETHJB方程的求解,从而求得最优控制策略。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为状态xi至状态si的映射示意图;
图2为系统转换示意图;
图3为具有时变状态约束的多智能体系统有限时间事件触发控制算法框图;
图4为强化学习算法求解ETC方案的结构框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,为一种具有时变状态约束的多智能体有限时间事件触发控制方法。
该方法的主要步骤是,针对受非对称时变约束的状态,通过非线性映射函数对该受限状态进行映射,使其不再受约束。之后只要保证映射后的状态始终有界,就能通过对该不受约束的状态来实现对多智能体系统的一致性控制。为了降低通信资源的浪费,引入了事件触发控制,同时为了得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性,将事件触发控制与有限时间结合起来,使得系统最终能在有限时间之内通过事件触发控制实现平均状态一致性。最后为了求解出基于事件触发机制下的最优控制策略,引入了强化学习,通过Critic神经网络对未知的值函数进行逼近,以此来求解事件触发控制下的ETHJB方程,再通过策略迭代,求解出最优控制策略。在算法的设计过程中,会反复使用到下面三个引理,因此在分析之前写出,引理内容如下:
引理一:对于一个无向通信拓扑图G,存在以下特性:
1.L为无向图的拉普拉斯矩阵,可知拉普拉斯矩阵最少有一个0特征根,且特征值可以升序排列为0=λ1<λ2<...<λn,其中λ2为第二小的特征根;
引理二:考虑如下系统
①V(x)正定;
若V的导数满足:
引理三:存在正常数ρ,使得:
1.问题描述
考虑如下由n个智能体组成的无领导者的非线性多智能体系统,其中每个智能体的模型可表示为:
局部邻居误差定义为:
yi(t)=xi(t)-x0(t) (1-3)
为了便于描述,将yi(t),xi(t),x0(t),ei(t)分别写为yi,xi,x0,ei,同时令x(t)=[x1,x2,...,xn]T,e(t)=[e1,e2,...,en]T,得:
状态x1,x2,...,xn且始终满足非对称时变约束,即有:
其中n为跟随者的个数,x i(t),分别为受限状态的上下限,其值与时间有关,该条件对于任意时间都应该满足,特别的,在t=0时刻要人为的设置一个足够大上界和一个足够小的下界x i(0)使得满足。另外,为了便于后续控制器的设计,我们假设上下限的导数和均存在。
另外,由于假设系统中的Fi(xi(t))为未知光滑的非线性函数,因此需要采用神经网络对未知的函数进行拟合,如下所示:
其中Z和O(X)分别为神经网络的输入和输出,φ(·)为基函数,W为权重系数。在本发明中,基函数φ(·)选取为双曲正切函数,具体形式如下:
因此将未知函数Fi(xi(t))用神经网络替换得
Fi(xi(t))=Wi Tφ(VTZ)+εi (1-9)
其中W为神经网络理想的权重系数,ε为逼近误差,且满足||ε||≤εm,||W||≤Wm,εm,Wm均为未知的正常数,||·||为标准欧几里得范数。
2:状态映射
由上述分析可知,该非线性多智能体系统的状态要始终保持在某个非对称时变约束中,因此采用非线性映射的方式将受事变约束的状态转换为不受约束的状态,具体过程如下:
假设xi(t)满足以下等式,即选取如下的非线性映射函数:
对(3-2)移项再取反函数得:
经过(2-2)的映射之后,先前受时变非对称约束的状态xi(t)转化为了不受约束的状态si,另外显然tan(·)在区间上为单调递增的函数,因此只需要保证变化后的状态si在任意时刻下始终是有界的,那么就存在唯一的一个映射前的状态xi(t)以及一组上下界与之相对应。即将该状态经过非线性映射函数映射后可得到不受约束的状态si,对于这个不受约束的状态我们只需要保证该状态始终有界,就能时映射前后的系统等价,即可以通过该状态来实现原先状态受约束系统的一致性控制。
将(3-5)写成矩阵形式得
3.分布式有限时间事件触发控制器设计
在实际的多智能体系统一致性控制中,随着系统规模和多智能体维数的增加,计算资源的消耗也越来越大,而且各个智能体之间总是存在通信网络带宽和计算资源的限制,因此很多时候求得出的一致性控制策略往往不可行。为了延长智能体的使用寿命,减少智能体之间不必要的通信和控制器的更新,使得智能体之间可以更为有效的节省有限的传输与计算资源,将分布式事件触发控制算法引入了多智能体的一致性控制当中,控制策略按照预先设定的事件触发协议更新,即能减少通信资源,也比传统的时间触发系统有更好的实时性能,分布式的方式也使得每个智能体的策略更新仅在自己的时间触发,也显著的降低了触发频率。
另外在实际控制中,大多数一致性控制问题都是在无限时间收敛下来考虑的,而往往我们想要得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性,因此实现多智能体有限时间一致性控制具有重要意义。因此,为实现多智能体系统的有限时间一致性,并为了减少通信资源的浪费以及策略更新的频率,设计了一种分布式有限时间事件触发控制器。
假设控制策略在满足以下条件时会进行触发,控制策略为:
其中d为正常数。
下面对该控制策略以及触发条件的可行性进行证明,实现选取如下的李雅普诺夫函数:
对V0(t)沿时间t求导,且由第二部分可知,具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t)。因此y(t)和x(t)的关系可转换为:
由神经网络的自适应率代入,并结合引理二可知:
四:Zeno行为的消除
由第三部分可知,多智能体系统的一致性已经可以得到保证,但在事件触发机制的作用下,通常还需要考虑是否会引起Zeno行为,该现象是指控制策略在有限时间内被无限次数的触发,这肯定是我们不想要的,也是执行器无法接受的,因此必须要验证该控制策略是否会使得系统产生Zeno行为。
为了避免系统Zeno现象的产生,在控制器设计时再引入一个可以动态的可变参数αi(t),将αi(t)的自适应率设计为:
其中αi(t)>0,βi∈[0,1)为折扣因子。
神经网络的自适应率改为:
有限时间事件触发条件变为:
其中δi为正常数。接下来对其可行性进行证明:
对不等式两边同时取t∈[τn,τn+1)的积分,并结合引理二可知:
选取李雅普诺夫函数V(t)为:
将神经网络的自适应率代入上式可得:
接下来,则对该添加动态系数后的控制策略和触发条件是否可以使得系统避免Zeno行为的产生。
令τ1=t*,由引理二,并对(4-9)两边同时取积分可得:
五:强化学习算法求解最优事件触发控制器
由第四部分可知,我们给出的控制器可以使得系统实现一致性,但却不能保证该控制策略是最优的。强化学习(reinforcement learning,RL)不是采用预先设计好的动作,而是通过与环境通信来寻求协调协议,使每一个智能体逐渐了解周围的环境,并在探索的过程中不断完善自身的策略。此外,强化学习在求解HJB方程时表现出色,特别是在系统动力学模型部分或者完全未知时。强化学习方法的关键是通过策略迭代(PI)算法或值迭代(VI)在线学习HJB方程的解,其中控制器和成本函数分别由actor-critic神经网络进行逼近。因此在本节中引入了强化学习算法来求得最优事件触发问题中的HJB方程,以获得最优的事件触发策略。具体实现步骤如下:
对于系统中的任一智能体,针对映射后不受非对称时变约束的状态s(t),该智能体的动力学模型可表示为:
设Vi *(si)为最优的成本函数,数学定义为:
再将最优控制策略带回到哈密顿方程中可得:
为了得到事件触发条件下的最优控制器,应该将上述的HJB方程改为ETHJB(event-triggered HJB)方程。假设我们只在事件触发的瞬间时刻对信号进行采样,既有其中为si在时刻的采样值。定义采样此时的误差为ei,k
另外控制策略在事件触发条件满足的时刻应该立即更新,在触发条件不满足时应该始终和上一时刻触发时的控制策略保持一致,通常可以使用零阶保持器来实现。假设在触发时刻下的控制策略更新为则在整个区间范围内,控制策略都应该保持为即可假设该策略通过零阶保持器的输出策略为且满足:
同样的在控制策略取得最优时,也有:
将零阶保持器输出的最优控制策略代入到(5-7)可得ETHJB方程为:
接下来引入Critic神经网络对未知的值函数进行逼近,以此来求解ETHJB方程,这里不需要引入Actor神经网络对控制策略进行逼近是因为显然控制策略只与值函数以及一项已知正定矩阵与常数项组成。因此只需要对未知的值函数进行逼近,就能进而求得最优控制策略。令:
将其带入到哈密尔顿方程中,并由于,则取二者的差值可得:
其中另外为了使得所求得的最优控制策略更加精确,可以充分对历史信息进行利用,通过引入了一项历史误差项来实现。假设在第k0不步之前的累计误差为历史状态d∈{1,2,...,k0},其中表示前d个状态下,第i的智能体在第k步时所产生的累计误差。
则可定义总体误差Ei为,并构造以下目标函数,通过使得ε6(t)最小化来调整critic神经网络的权重系数:
更新事件触发的条件为:
取Critic神经网络权重系数的自适应为:
接下来基于(5-8)、(5-15)和(5-19)式,利用critic神经网络实现对值函数和策略函数的同步更新,设计一种基于策略迭代的在线强化学习算法来求解ETHJB方程,以求解最优事件触发控制输入。
方法结构框图如图4所示。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.具有时变状态约束的多智能体有限时间事件触发控制方法,其特征在于:该方法包括以下步骤:
S1:建立问题;
考虑如下由n个智能体组成的无领导者的非线性多智能体系统,其中每个智能体的模型表示为:
局部邻居误差定义为:
yi(t)=xi(t)-x0(t) (1-3)
为便于描述,将yi(t),xi(t),x0(t),ei(t)分别写为yi,xi,x0,ei,同时令x(t)=[x1,x2,...,xn]T,e(t)=[e1,e2,...,en]T,得:
状态x1,x2,...,xn且始终满足非对称时变约束,即有:
其中n为跟随者的个数,xi(t),分别为受限状态的上下限,其值与时间有关,该约束对于任意时间都满足;在t=0时刻要人为的设置一个足够大上界和一个足够小的下界x i(0)使得满足;设上下限的导数和均存在;
假设系统中的Fi(xi(t))为未知光滑的非线性函数,采用神经网络对未知的函数进行拟合,如下所示:
其中Z和O(X)分别为神经网络的输入和输出,φ(·)为基函数,W为权重系数;在本发明中,基函数φ(·)选取为双曲正切函数,具体形式如下:
将未知函数Fi(xi(t))用神经网络替换得
Fi(xi(t))=Wi Tφ(VTZ)+εi (1-9)
其中W为神经网络理想的权重系数,ε为逼近误差,且满足||ε||≤εm,||W||≤Wm,εm,Wm均为未知的正常数,||·||为标准欧几里得范数;
S2:状态映射;
非线性多智能体系统的状态要始终保持在某个非对称时变约束中,采用非线性映射的方式将受事变约束的状态转换为不受约束的状态,具体过程如下:
假设xi(t)满足以下等式,即选取如下的非线性映射函数:
对(3-2)移项再取反函数得:
经过(2-2)的映射之后,先前受时变非对称约束的状态xi(t)转化为了不受约束的状态si,另外显然tan(·)在区间上为单调递增的函数,只需要保证变化后的状态si在任意时刻下始终是有界的,那么就存在唯一的一个映射前的状态xi(t)以及一组上下界与之相对应;即将该状态经过非线性映射函数映射后得到不受约束的状态si,对于这个不受约束的状态只需要保证该状态始终有界,就能时映射前后的系统等价,通过该状态来实现原先状态受约束系统的一致性控制;
将(3-5)写成矩阵形式得
S3:设计分布式有限时间事件触发控制器
设控制策略在满足以下条件时会进行触发,控制策略为:
其中d为正常数;
对该控制策略以及触发条件的可行性进行证明,实现选取如下的李雅普诺夫函数:
对V0(t)沿时间t求导,具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t);y(t)和x(t)的关系转换为:
代入神经网络的自适应率,并结合引理二知:
S4:Zeno行为的消除
在控制器设计时再引入一个动态的可变参数αi(t),将αi(t)的自适应率设计为:
其中αi(t)>0,βi∈[0,1)为折扣因子;
神经网络的自适应率改为:
有限时间事件触发条件变为:
其中δi为正常数;接下来对其可行性进行证明:
对不等式两边同时取t∈[τn,τn+1)的积分,并结合引理二知:
选取李雅普诺夫函数V(t)为:
将神经网络的自适应率代入上式得:
代入上式并结合(1-3)得:
接下来,则对该添加动态系数后的控制策略和触发条件是否使得系统避免Zeno行为的产生;
令τ1=t*,并对(4-9)两边同时取积分得:
S5:利用强化学习算法求解最优事件触发控制器
对于系统中的任一智能体,针对映射后不受非对称时变约束的状态s(t),该智能体的动力学模型表示为:
设Vi *(si)为最优的成本函数,数学定义为:
再将最优控制策略带回到哈密顿方程中得:
另外,控制策略在事件触发条件满足时,立即更新,在触发条件不满足时始终和上一时刻触发时的控制策略保持一致,使用零阶保持器来实现;假设在触发时刻下的控制策略更新为则在整个区间范围内,控制策略保持为假设该控制策略通过零阶保持器的输出策略为且满足:
在控制策略取得最优时,有:
将零阶保持器输出的最优控制策略代入到(5-7)得ETHJB方程为:
对未知的值函数进行逼近,求得最优控制策略;令:
将其带入到哈密尔顿方程中,并由于,则取二者的差值得:
则定义总体误差Ei为,并构造以下目标函数,通过使得εθ(t)最小化来调整critic神经网络的权重系数:
更新事件触发的条件为:
取Critic神经网络权重系数的自适应为:
接下来基于(5-8)、(5-15)和(5-19)式,利用critic神经网络实现对值函数和策略函数的同步更新,设计基于策略迭代的在线强化学习算法来求解ETHJB方程,以求解最优事件触发控制输入。
3.一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-2任一项所述的方法。
4.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-2任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210171849.XA CN114547980B (zh) | 2022-02-24 | 具有时变状态约束的多智能体有限时间事件触发控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210171849.XA CN114547980B (zh) | 2022-02-24 | 具有时变状态约束的多智能体有限时间事件触发控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547980A true CN114547980A (zh) | 2022-05-27 |
CN114547980B CN114547980B (zh) | 2024-06-07 |
Family
ID=
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115268275A (zh) * | 2022-08-24 | 2022-11-01 | 广东工业大学 | 基于状态观测器的多智能体系统一致性跟踪方法及系统 |
CN115479507A (zh) * | 2022-09-14 | 2022-12-16 | 中国科学院声学研究所 | 一种水下航行器制导控制方法及系统 |
CN115562037A (zh) * | 2022-11-01 | 2023-01-03 | 江南大学 | 一种非线性多智能体系统控制方法、装置、设备及应用 |
CN117669271A (zh) * | 2024-01-31 | 2024-03-08 | 北京理工大学 | 基于近端算子的多智能体系统非光滑优化方法及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115268275A (zh) * | 2022-08-24 | 2022-11-01 | 广东工业大学 | 基于状态观测器的多智能体系统一致性跟踪方法及系统 |
CN115268275B (zh) * | 2022-08-24 | 2024-05-28 | 广东工业大学 | 基于状态观测器的多智能体系统一致性跟踪方法及系统 |
CN115479507A (zh) * | 2022-09-14 | 2022-12-16 | 中国科学院声学研究所 | 一种水下航行器制导控制方法及系统 |
CN115479507B (zh) * | 2022-09-14 | 2023-08-15 | 中国科学院声学研究所 | 一种水下航行器制导控制方法及系统 |
CN115562037A (zh) * | 2022-11-01 | 2023-01-03 | 江南大学 | 一种非线性多智能体系统控制方法、装置、设备及应用 |
CN115562037B (zh) * | 2022-11-01 | 2023-04-25 | 江南大学 | 一种非线性多智能体系统控制方法、装置、设备及应用 |
CN117669271A (zh) * | 2024-01-31 | 2024-03-08 | 北京理工大学 | 基于近端算子的多智能体系统非光滑优化方法及存储介质 |
CN117669271B (zh) * | 2024-01-31 | 2024-04-26 | 北京理工大学 | 基于近端算子的多智能体系统非光滑优化方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wen et al. | Optimized backstepping for tracking control of strict-feedback systems | |
Zhang et al. | Finite-time distributed event-triggered consensus control for multi-agent systems | |
Liu et al. | Adaptive neural output feedback tracking control for a class of uncertain discrete-time nonlinear systems | |
Xie et al. | Event‐triggered consensus control for second‐order multi‐agent systems | |
Liu et al. | Adaptive fixed-time hierarchical sliding mode control for switched under-actuated systems with dead-zone constraints via event-triggered strategy | |
Fallah Ghavidel et al. | Observer-based hybrid adaptive fuzzy control for affine and nonaffine uncertain nonlinear systems | |
Xi et al. | Event-triggered adaptive fuzzy distributed tracking control for uncertain nonlinear multi-agent systems | |
Howell et al. | Continuous action reinforcement learning automata and their application to adaptive digital filter design | |
Wang et al. | Fuzzy adaptive event-triggered finite-time constraint control for output-feedback uncertain nonlinear systems | |
Cui et al. | Distributed containment control for nonlinear multiagent systems in pure‐feedback form | |
Wang et al. | Event-triggered adaptive containment control for heterogeneous stochastic nonlinear multiagent systems | |
CN114841074A (zh) | 基于状态观测与经验池的非线性多智能体一致性方法 | |
Chen et al. | Adaptive control for switched uncertain nonlinear systems with time‐varying output constraint and input saturation | |
Chen et al. | Adaptive control design for MIMO switched nonlinear systems with full state constraints | |
Zhang et al. | Global iterative learning control based on fuzzy systems for nonlinear multi-agent systems with unknown dynamics | |
Shang et al. | Finite-time asynchronous H∞ filtering for positive Markov jump systems | |
Lei et al. | Adaptive asymptotic tracking control of constrained multi‐input multi‐output nonlinear systems via event‐triggered strategy | |
Pan et al. | Event-triggered dynamic output feedback control for networked Markovian jump systems with partly unknown transition rates | |
Yang et al. | Stability and stabilization for uncertain fuzzy system with sampled-data control and state quantization | |
Xu et al. | New result on robust stability of switched systems with all subsystems unstable | |
Jia et al. | Application of two fuzzy logic systems to complex-type ZNN models for the Drazin inverse of time-dependent complex-value matrix | |
Zhao et al. | Observer-based dynamic event-triggered control for nonstrict-feedback stochastic nonlinear multiagent systems | |
CN114547980A (zh) | 具有时变状态约束的多智能体有限时间事件触发控制方法 | |
CN114547980B (zh) | 具有时变状态约束的多智能体有限时间事件触发控制方法 | |
Si et al. | Further results on exponentially robust stability of uncertain connection weights of neutral-type recurrent neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |