CN114547980A - 具有时变状态约束的多智能体有限时间事件触发控制方法 - Google Patents

具有时变状态约束的多智能体有限时间事件触发控制方法 Download PDF

Info

Publication number
CN114547980A
CN114547980A CN202210171849.XA CN202210171849A CN114547980A CN 114547980 A CN114547980 A CN 114547980A CN 202210171849 A CN202210171849 A CN 202210171849A CN 114547980 A CN114547980 A CN 114547980A
Authority
CN
China
Prior art keywords
time
state
function
control strategy
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210171849.XA
Other languages
English (en)
Other versions
CN114547980B (zh
Inventor
陈刚
刘智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210171849.XA priority Critical patent/CN114547980B/zh
Priority claimed from CN202210171849.XA external-priority patent/CN114547980B/zh
Publication of CN114547980A publication Critical patent/CN114547980A/zh
Application granted granted Critical
Publication of CN114547980B publication Critical patent/CN114547980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种具有时变状态约束的多智能体有限时间事件触发控制方法,属于计算机领域。本发明针对存在时变非对称状态约束且部分模型未知的异构一阶非线性多智能体系统,为实现系统的状态一致性控制,采用非线性映射函数将受时变约束的状态转化为不受约束的状态,并针对该不受限制的系统设计了有限时间事件触发的控制算法。该算法不仅可以减少的通信资源的浪费,整个算法的可行性通过李雅普诺夫稳定性理论进行了证明。另外为了求得基于事件触发机制下的有限时间最优控制策略引入了强化学习算法,并结合Critic神经网络实现对未知值函数的逼近,再通过在线策略迭代求解出最优的控制策略。

Description

具有时变状态约束的多智能体有限时间事件触发控制方法
技术领域
本发明属于计算机领域,涉及具有时变状态约束的多智能体有限时间事件触发控制方法。
背景技术
在实际应用,出于安全性和性能因素的考虑,系统不可避免地会受到外部环境或其内部自身存在的某些限制,因此时常要对自身的状态进行约束,这种状态约束可以分为时不变或者时变的。对时不变状态约束,如在机器人操作系统中,为了保证机器人的稳定性,通常要将各个关节的运动速度设定在一个可靠的常值范围之内;对于时变状态约束,比如在无人驾驶系统中,要求汽车在行驶过程中的位置和速度需要时刻依据实时路况以及车流量等信息对汽车行驶的速度进行限制,因此对位置或速度的约束是要时刻跟随外界环境的变化而变化的。因此研究具有时变状态约束的控制问题具有重要的理论和应用意义。按照目前的研究,解决状态约束的方法主要分为两种,一种是障碍李雅普诺夫函数法(BLF),该方法的主要思想是不对受约束的状态进行非线性映射,而是在选取李雅普诺夫函数时选取为障碍李雅普诺夫函数,该函数的特点是当受约束的状态趋于状态的上下限时,函数的取值会趋于无穷大,通过进一步对李雅普诺夫函数的分析就可以解决状态约束问题。另一种方式被称为非线性映射方法,该方法的思想是将受约束的状态通过某个非线性函数映射后,将受约束的状态转化为不受约束的状态,在整个变化过程中,只要保证变化后的状态施加某种限定条件(如始终保持有界)就能保证变化前后的系统等价,即可以利用映射后不受约束的状态来对系统进行分析以此来解决系统的状态约束问题。同样的,这两种方法也同样适用于求解具有非对称时变状态约束的系统,只是对于时变约束的系统采用BLF时应选取时变障碍李雅普诺夫函数。
其次在实际控制中,随着系统规模和多智能体维数的增加,计算资源的消耗也越来越大,而且各个智能体之间总是存在通信网络带宽和计算资源的限制,因此很多时候求得出的一致性控制策略往往不可行。为了延长智能体的使用寿命,减少智能体之间不必要的通信和控制器的更新,使得智能体之间可以更为有效的节省有限的传输与计算资源。因此近些年来,事件触发控制得到了广泛关注,该触发方式不同于时间触发,控制策略不是时刻跟着时间的变化而变化,而是在满足预先设定的事件触发条件时才会对控制策略进行更新,在不满足触发条件时,控制策略始终与上一个触发时刻更新的策略保持一致。这样一来,控制器就不需要无时无刻的变化,在满足性能的同时,又能极大程度上的减少通讯资源的浪费。在最近的研究当中,将分布式事件触发控制算法引入了多智能体的一致性控制当中也成为了现实,让控制策略按照根据预先设定的分布式事件触发协议更新,即能减少通信资源,也比传统的时间触发系统有更好的实时性能,分布式的方式也使得每个智能体的策略更新仅在自己的时间触发,也显著的降低了触发频率。但引入事件触发控制之后,必须要对该控制策略在触发条件满足是否会在有限时间内被无限次数的触发,这种现象我们称为Zeno行为,这是执行器所接受不了的。因此在引入事件触发控制之后,必须要对事件触发控制策略以及触发条件进行验证,证明其在任意时间内都不会使系统产Zeno行为。
为了求得基于事件触发机制下的有限时间最优控制策略,近些年来有许多学者将事件触发与最优控制方法结合起来。求解最优控制问题的最关键问题就在于对Hamilton-Jacobi-Bellman方程(HJBEs)的求解,而HJB方程由于系统维数或模型可能存在未知部分的原因,通常很难求得解析解。因此为了解决这一问题,通常会将自适应动态规划(ADP)或强化学习(Reinforcement Learning RL)结合起来,通过迭代的方式来求解HJB方程,以获得最优策略。
由于目前研究具有状态约束的问题大多数是针对单个的智能体系统而言,对多智能体系统的一致性研究较少,而且基本上考虑的都是时不变的状态约束,对具有时变非对称状态约束的考虑较少。另外在解决状态约束问题是用到的BLF方法需要根据状态受限的条件重新设计李雅普诺夫函数,导致控制器的设计过程复杂,而且绝大多数情况下只应用于状态受限的单个系统,因此本发明为了降低控制器设计的复杂程度,并且能够处理具有非对称时变状态约束的低阶且部分模型未知的非线性多智能体系统,采用了非线性映射的方式对具有时变非对称约束的状态进行处理。
另外虽然事件触发控制可以在极大程度上减少对通信资源的浪费,但大多数情况下一致性控制问题都是在无限时间收敛下来考虑的,即往往不考虑系统达到一致性的收敛速度,而往往我们想要得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性。因此本发明引入了有限时间事件触发控制,使系统既能减少通信资源的同时,也可以加快系统达到一致性的收敛速度,该收敛时间还可以根据具体需求进行人为的设定,使得事件触发控制的鲁棒性和时效性得到了有效的提高。同时为了消除事件触发控制策略所可能引起的Zeno行为,该现象是指控制策略在有限时间内被无限次数的触发,这是系统所不允许的,因此额外增加了一个自适应动态参数,通过合理设计该参数的自适应率,便可避免求得的控制策略使系统产生Zeno行为。
同时由于该算法求得的事件触发控制策略虽然可以使得多智能体系统在有限时间内到达平均状态一致性,但往往不能保证该控制策略为最优的。因此为了求解出最优策略,本发明引入了强化学习算法对最优策略进行求解,通过设置与状态误差、控制输入和当前状态有关的带折扣因子的成本函数,对该成本函数求导并结合Hamilton方程写出HJB(Hamilton–Jacobi–Bellman)方程,在根据事件触发条件以及采样误差与Hamilton方程逼近误差将HJB(event-triggered HJB)方程改写成ETHJB方程,再利用Critic神经网络对未知的值函数进行逼近,再带回到原来的ETHJB方程中,通过反复迭代,直至当前控制策略与下一步的控制方法收敛到足够小的误差项,则该策略即为想要求得的最优控制方法。
发明内容
有鉴于此,本发明的目的在于提供一种具有时变状态约束的多智能体有限时间事件触发控制方法。本发明针对存在时变非对称状态约束且部分模型未知的异构一阶非线性多智能体系统,为实现系统的状态一致性控制,采用非线性映射函数将受时变约束的状态转化为不受约束的状态,并针对该不受限制的系统设计了一种有限时间事件触发的控制算法。该算法不仅可以减少的通信资源的浪费,还使得系统具有更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性,整个算法的可行性通过李雅普诺夫稳定性理论进行了证明。另外为了求得基于事件触发机制下的有限时间最优控制策略引入了强化学习算法,并结合Critic神经网络实现对未知值函数的逼近,再通过在线策略迭代求解出最优的控制策略。
为达到上述目的,本发明提供如下技术方案:
具有时变状态约束的多智能体有限时间事件触发控制方法,该方法包括以下步骤:
S1:建立问题;
考虑如下由n个智能体组成的无领导者的非线性多智能体系统,其中每个智能体的模型表示为:
Figure BDA0003518499930000031
其中
Figure BDA0003518499930000032
为状态向量,
Figure BDA0003518499930000033
为控制输入,设跟随者模型中的Fi(xi(t)):
Figure BDA0003518499930000034
为未知光滑的非线性函数。
局部邻居误差定义为:
Figure BDA0003518499930000035
定义平均状态为
Figure BDA0003518499930000036
跟踪误差定义为:
yi(t)=xi(t)-x0(t) (1-3)
为便于描述,将yi(t),xi(t),x0(t),ei(t)分别写为yi,xi,x0,ei,同时令x(t)=[x1,x2,...,xn]T,e(t)=[e1,e2,...,en]T,得:
Figure BDA0003518499930000041
Figure BDA0003518499930000042
其中
Figure BDA0003518499930000043
为克罗内克积,In为n阶单位矩阵。
状态x1,x2,...,xn且始终满足非对称时变约束,即有:
Figure BDA0003518499930000044
其中n为跟随者的个数,x i(t),
Figure BDA0003518499930000045
分别为受限状态的上下限,其值与时间有关,该条件对于任意时间都应该满足;在t=0时刻要人为的设置一个足够大上界
Figure BDA0003518499930000046
和一个足够小的下界x i(0)使得
Figure BDA0003518499930000047
满足。设上下限的导数
Figure BDA0003518499930000048
Figure BDA0003518499930000049
均存在。
假设系统中的Fi(xi(t))为未知光滑的非线性函数,采用神经网络对未知的函数进行拟合,如下所示:
Figure BDA00035184999300000410
其中Z和O(X)分别为神经网络的输入和输出,φ(·)为基函数,W为权重系数。在本发明中,基函数φ(·)选取为双曲正切函数,具体形式如下:
Figure BDA00035184999300000411
将未知函数Fi(xi(t))用神经网络替换得
Fi(xi(t))=Wi Tφ(VTZ)+εi (1-9)
其中W为神经网络理想的权重系数,ε为逼近误差,且满足||ε||≤εm,||W‖≤Wm,εm,Wm均为未知的正常数,‖·‖为标准欧几里得范数。
S2:状态映射;
非线性多智能体系统的状态要始终保持在某个非对称时变约束中,采用非线性映射的方式将受事变约束的状态转换为不受约束的状态,具体过程如下:
假设xi(t)满足以下等式,即选取如下的非线性映射函数:
Figure BDA0003518499930000051
对(3-2)移项再取反函数得:
Figure BDA0003518499930000052
其中i=1,2,...,n,si为经过映射后得到的状态,不难看出,当xi(t)趋近于上界
Figure BDA0003518499930000053
时有
Figure BDA0003518499930000054
趋于正无穷,当xi(t)趋近于下界x i(t)时有
Figure BDA0003518499930000055
趋于负无穷,即有:
Figure BDA0003518499930000056
经过(2-2)的映射之后,先前受时变非对称约束的状态xi(t)转化为了不受约束的状态si,另外显然tan(·)在区间
Figure BDA0003518499930000057
上为单调递增的函数,只需要保证变化后的状态si在任意时刻下始终是有界的,那么就存在唯一的一个映射前的状态xi(t)以及一组上下界与之相对应。即将该状态经过非线性映射函数映射后得到不受约束的状态si,对于这个不受约束的状态只需要保证该状态始终有界,就能时映射前后的系统等价,通过该状态来实现原先状态受约束系统的一致性控制。
显然si为与
Figure BDA0003518499930000058
x i(t),xi(t)有关的函数,因此
Figure BDA0003518499930000059
将(3-5)写成矩阵形式得
Figure BDA00035184999300000510
其中
Figure BDA00035184999300000511
Γ=[Γ12,...,Γn]T,u=[0,...,0,u]T
Figure BDA00035184999300000512
F(x)=[F1(xi),F2(xi),...,Fn(xi)]T
S3:设计分布式有限时间事件触发控制器
设控制策略在满足以下条件时会进行触发,控制策略为:
Figure BDA0003518499930000061
神经网络的自适应率
Figure BDA0003518499930000062
为:
Figure BDA0003518499930000063
其中p,q均为后续设计的控制增益常数,
Figure BDA0003518499930000064
为理想的神经网络权重系数,
Figure BDA0003518499930000065
表示第i个智能体的第k个采样时刻,且满足
Figure BDA0003518499930000066
上述策略更新的触发条件为:
Figure BDA0003518499930000067
其中d为正常数。
对该控制策略以及触发条件的可行性进行证明,实现选取如下的李雅普诺夫函数:
Figure BDA0003518499930000068
其中
Figure BDA0003518499930000069
为自定义的正定矩阵,tr(·)为矩阵的迹。
对V0(t)沿时间t求导,具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t)。y(t)和x(t)的关系转换为:
Figure BDA00035184999300000610
Figure BDA00035184999300000611
为:
Figure BDA00035184999300000612
由于无向图的拉普拉斯矩阵的任意一行或任意一列的元素之和等于0,即有
Figure BDA00035184999300000613
为n维的列向量,在(3-5)式两边同乘
Figure BDA00035184999300000614
Figure BDA00035184999300000615
再将
Figure BDA00035184999300000616
代入,并将未知非线性函数F(x)用神经网络替换得:
Figure BDA0003518499930000071
代入神经网络的自适应率,并结合引理二知:
Figure BDA0003518499930000072
其中
Figure BDA0003518499930000073
将控制增益系数p,q分别设置为
Figure BDA0003518499930000074
将引理三代入上式得:
Figure BDA0003518499930000075
其中
Figure BDA0003518499930000076
由事件触发条件知,在时间
Figure BDA0003518499930000077
时,总有||zi(t)||2+‖ri(t)||2≤d||ei(t)||2满足,即有
Figure BDA0003518499930000081
其中
Figure BDA0003518499930000082
将其带入到上式中得:
Figure BDA0003518499930000083
其中
Figure BDA0003518499930000084
在分布式控制策略(3-1)和神经网络自适应率(3-2),以及事件触发条件(3-3)的作用下,使得系统(1-1)实现有限时间一致性。
S4:Zeno行为的消除
在控制器设计时再引入一个动态的可变参数αi(t),将αi(t)的自适应率设计为:
Figure BDA0003518499930000085
其中αi(t)>0,βi∈[0,1)为折扣因子。
神经网络的自适应率改为:
Figure BDA0003518499930000086
有限时间事件触发条件变为:
Figure BDA0003518499930000087
其中δi为正常数。接下来对其可行性进行证明:
Figure BDA0003518499930000088
对不等式两边同时取t∈[τnn+1)的积分,并结合引理二知:
Figure BDA0003518499930000091
选取李雅普诺夫函数V(t)为:
Figure BDA0003518499930000092
其中
Figure BDA0003518499930000093
为正定矩阵。对V(t)沿时间t求导,将(3-11)代入得:
Figure BDA0003518499930000094
将神经网络的自适应率代入上式得:
Figure BDA0003518499930000095
其中θi=||zi(t)||2+||ri(t)||2-||ei(t)||2。在
Figure BDA0003518499930000096
时,总有
Figure BDA0003518499930000097
Figure BDA0003518499930000098
成立,且令
Figure BDA0003518499930000099
代入上式并结合(1-3)得:
Figure BDA0003518499930000101
其中
Figure BDA0003518499930000102
中的最大值。在触发条件上添加动态系数之和,原来的系统仍然能达到有限时间的一致性。
接下来,则对该添加动态系数后的控制策略和触发条件是否使得系统避免Zeno行为的产生。
首先假设对于任意一个智能体i,使得
Figure BDA0003518499930000103
成立,其中T*为正常数。由极限定理知,存在一个足够大的正整数N,使得k≥N(ω0)满足,其中
Figure BDA0003518499930000104
Figure BDA0003518499930000105
令τ1=t*,并对(4-9)两边同时取积分得:
Figure BDA0003518499930000106
Figure BDA0003518499930000107
成立时,会有:
Figure BDA0003518499930000108
上式表明对于任意一个智能体i的控制策略触发时间间隔
Figure BDA0003518499930000109
都能满足其大于0,即触发条件不能在有限时间内被无限次数的触发,避免了Zeno行为的产生。
S5:利用强化学习算法求解最优事件触发控制器
对于系统中的任一智能体,针对映射后不受非对称时变约束的状态s(t),该智能体的动力学模型表示为:
Figure BDA00035184999300001010
定义该智能体在控制策略ui(t)作用下的成本函数
Figure BDA00035184999300001011
为:
Figure BDA0003518499930000111
其中0<γi<1为折扣因子。另外引入
Figure BDA0003518499930000112
指数项的作用是为保证
Figure BDA0003518499930000113
最终一定能够达到收敛,如果没有这一负指数项,成本函数在t趋于无穷大时会发散。
Figure BDA0003518499930000114
其中
Figure BDA0003518499930000115
为可调整的正参数,Q,R均为正定矩阵。
设Vi *(si)为最优的成本函数,数学定义为:
Figure BDA0003518499930000116
其中
Figure BDA0003518499930000117
表示定义在上Ωi所有可容许策略的集合。
要想得到最小的成本函数,则让哈密顿方程
Figure BDA0003518499930000118
求得的最小值等于0,即有:
Figure BDA0003518499930000119
其中
Figure BDA00035184999300001110
Figure BDA00035184999300001111
代入得HJB方程为:
Figure BDA00035184999300001112
定义最优控制策略为
Figure BDA00035184999300001113
在稳定性条件下有
Figure BDA00035184999300001114
对上述HJB方程两边同时对ui求导并移项得最优策略
Figure BDA00035184999300001115
Figure BDA00035184999300001116
再将最优控制策略带回到哈密顿方程中得:
Figure BDA00035184999300001117
其中
Figure BDA00035184999300001118
Vi *(0)=0。
为得到事件触发条件下的最优控制器,应该将上述的HJB方程改为ETHJB方程。假设只在事件触发的瞬间
Figure BDA00035184999300001119
时刻对信号进行采样,既有
Figure BDA00035184999300001120
其中
Figure BDA00035184999300001121
为si
Figure BDA00035184999300001122
时刻的采样值。定义采样此时的误差为ei,k
Figure BDA00035184999300001123
另外控制策略在事件触发条件满足的时刻应该立即更新,在触发条件不满足时应该始终和上一时刻触发时的控制策略保持一致,使用零阶保持器来实现。假设在触发时刻
Figure BDA0003518499930000121
下的控制策略更新为
Figure BDA0003518499930000122
则在
Figure BDA0003518499930000123
整个区间范围内,控制策略都应该保持为
Figure BDA0003518499930000124
假设该控制策略通过零阶保持器的输出策略为
Figure BDA0003518499930000125
Figure BDA0003518499930000126
满足:
Figure BDA0003518499930000127
在控制策略取得最优时,有:
Figure BDA0003518499930000128
将零阶保持器输出的最优控制策略代入到(5-7)得ETHJB方程为:
Figure BDA0003518499930000129
为便于后续对ETHJB方程的求解,最优控制策略
Figure BDA00035184999300001210
是始终满足Lipschitz条件的,既有:
Figure BDA00035184999300001211
其中
Figure BDA00035184999300001212
为正常数。
对未知的值函数进行逼近,求得最优控制策略。令:
Figure BDA00035184999300001213
其中
Figure BDA00035184999300001214
为Critic神经网络的权重系数,
Figure BDA00035184999300001215
为神经网络的基函数,
Figure BDA00035184999300001216
为逼近误差。同理得
Figure BDA00035184999300001217
Figure BDA00035184999300001218
并假设理想的神经网络权重系数为
Figure BDA00035184999300001219
即当
Figure BDA00035184999300001220
Figure BDA00035184999300001221
时,逼近误差
Figure BDA00035184999300001222
再将其带入到
Figure BDA00035184999300001223
中得:
Figure BDA00035184999300001224
将其带入到哈密尔顿方程中,并由于,则取二者的差值得:
Figure BDA00035184999300001225
其中
Figure BDA00035184999300001226
为使得所求得的最优控制策略更加精确,充分对历史信息进行利用,通过引入一项历史误差项来实现。设在第k0不步之前的累计误差为历史状态
Figure BDA0003518499930000131
d∈{1,2,...,k0},其中
Figure BDA0003518499930000132
表示前d个状态下,第i的智能体在第k步时所产生的累计误差。
则定义总体误差Ei为,并构造以下目标函数,通过使得εe(t)最小化来调整critic神经网络的权重系数:
Figure BDA0003518499930000133
更新事件触发的条件为:
Figure BDA0003518499930000134
其中||Ei,T||2为事件触发条件的下限,λmin(Qi)为Qi矩阵的最小特征值,
Figure BDA0003518499930000135
θi∈(0,+∞)均为可调节的参数。
取Critic神经网络权重系数的自适应为:
Figure BDA0003518499930000136
其中
Figure BDA0003518499930000137
为可调整的正参数,
Figure BDA0003518499930000138
接下来基于(5-8)、(5-15)和(5-19)式,利用critic神经网络实现对值函数和策略函数的同步更新,设计基于策略迭代的在线强化学习算法来求解ETHJB方程,以求解最优事件触发控制输入。
可选的,所述基于策略迭代的在线强化学习算法来求解ETHJB方程具体为:
S11:给定一个可行的执行器输入
Figure BDA0003518499930000139
S12:策略评估,给定初始
Figure BDA00035184999300001310
利用下式求解Vi k(si(t))
Figure BDA00035184999300001311
S13:策略改进,将Vi k(si(t))代入并更新
Figure BDA00035184999300001312
Figure BDA0003518499930000141
S14:令
Figure BDA0003518499930000142
返回S12直至Vi k(si(t))收敛到最小值。
一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法。
一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现所述的方法。
本发明的有益效果在于:
(1)本发明所设计的控制算法可用于实现具有时变非对称状态约束且系统模型部分未知的异构多智能体系统的状态平均一致性控制,即该算法对具有模型未知、多智能体、异构和时变状态约束等特性的复杂系统具有良好的分布式自适应控制能力。
(2)本发明设计了一个非线性映射函数来解决非对称时变状态约束问题,避免了需要针对不同的约束条件重新构造合适的时变障碍李雅普诺夫函数,使得控制器的设计更为简便。
(3)本发明为了减少智能体之间通信资源的浪费,引入了分布式事件触发控制算法,使得控制策略按照预先设定的事件触发协议更新,比传统的时间触发系统有更好的实时性能,分布式的方式也使得每个智能体的策略更新仅在自己的时间触发,显著的降低了触发频率。
(4)本发明为了提高一致性控制的收敛速度,获得更好的抗干扰能力以及更好的鲁棒性,将有限时间控制与事件触发相结合,实现了有限时间下的事件触发控制,并且该收敛时间可人为进行设定,有限时间下的系统稳定性也通过李雅普诺夫方法进行了证明。
(5)本发明为了避免引入有限时间事件触发控制下可能会产生的Zeno行为,在事件触发条件中添加了一项自适应参数,通过自适应的调整该参数并结合合适的神经网络自适应率便能在整个过程中避免Zeno行为的发生。
(6)本发明为了求得基于事件触发机制下的有限时间最优控制策略,引入了在线强化学习算法,通过Critic神经网络实现对未知值函数的逼近,再利用在线策略迭代的方式完成对ETHJB方程的求解,从而求得最优控制策略。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为状态xi至状态si的映射示意图;
图2为系统转换示意图;
图3为具有时变状态约束的多智能体系统有限时间事件触发控制算法框图;
图4为强化学习算法求解ETC方案的结构框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,为一种具有时变状态约束的多智能体有限时间事件触发控制方法。
该方法的主要步骤是,针对受非对称时变约束的状态,通过非线性映射函数对该受限状态进行映射,使其不再受约束。之后只要保证映射后的状态始终有界,就能通过对该不受约束的状态来实现对多智能体系统的一致性控制。为了降低通信资源的浪费,引入了事件触发控制,同时为了得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性,将事件触发控制与有限时间结合起来,使得系统最终能在有限时间之内通过事件触发控制实现平均状态一致性。最后为了求解出基于事件触发机制下的最优控制策略,引入了强化学习,通过Critic神经网络对未知的值函数进行逼近,以此来求解事件触发控制下的ETHJB方程,再通过策略迭代,求解出最优控制策略。在算法的设计过程中,会反复使用到下面三个引理,因此在分析之前写出,引理内容如下:
引理一:对于一个无向通信拓扑图G,存在以下特性:
1.L为无向图的拉普拉斯矩阵,可知拉普拉斯矩阵最少有一个0特征根,且特征值可以升序排列为0=λ1<λ2<...<λn,其中λ2为第二小的特征根;
2.
Figure BDA0003518499930000161
其中x=[x1,x2,...,xN]T
3.假设
Figure BDA0003518499930000162
既有xTLx≥λ2xTx;
引理二:考虑如下系统
Figure BDA0003518499930000163
其中f:D→Rn是在原点的开邻域上连续的,如果存在一个连续可微的函数V:
Figure BDA0003518499930000164
在邻域
Figure BDA0003518499930000165
上当t≥0时总能保持正定,即连续函数V(x)满足以下条件:
①V(x)正定;
Figure BDA0003518499930000166
在x≠0处负定;
若V的导数满足:
Figure BDA0003518499930000167
其中
Figure BDA0003518499930000168
h>2,b为设定的负常数τn+1=τn+t*0=0,,则上述系统可实现预设时间的稳定,若邻域
Figure BDA0003518499930000169
则能实现系统在全局范围内的有限时间稳定,并且稳定时间可由t*下式给出:
Figure BDA00035184999300001610
引理三:存在正常数ρ,使得:
Figure BDA00035184999300001611
1.问题描述
考虑如下由n个智能体组成的无领导者的非线性多智能体系统,其中每个智能体的模型可表示为:
Figure BDA00035184999300001612
其中
Figure BDA0003518499930000171
为状态向量,
Figure BDA0003518499930000172
为控制输入,假设跟随者模型中的Fi(xi(t)):
Figure BDA0003518499930000173
为未知光滑的非线性函数。
局部邻居误差定义为:
Figure BDA0003518499930000174
考虑该多智能体系统的平均一致性,即定义平均状态为
Figure BDA0003518499930000175
所以跟踪误差可定义为:
yi(t)=xi(t)-x0(t) (1-3)
为了便于描述,将yi(t),xi(t),x0(t),ei(t)分别写为yi,xi,x0,ei,同时令x(t)=[x1,x2,...,xn]T,e(t)=[e1,e2,...,en]T,得:
Figure BDA0003518499930000176
Figure BDA0003518499930000177
其中
Figure BDA0003518499930000178
为克罗内克积,In为n阶单位矩阵。
状态x1,x2,...,xn且始终满足非对称时变约束,即有:
Figure BDA0003518499930000179
其中n为跟随者的个数,x i(t),
Figure BDA00035184999300001710
分别为受限状态的上下限,其值与时间有关,该条件对于任意时间都应该满足,特别的,在t=0时刻要人为的设置一个足够大上界
Figure BDA00035184999300001711
和一个足够小的下界x i(0)使得
Figure BDA00035184999300001712
满足。另外,为了便于后续控制器的设计,我们假设上下限的导数
Figure BDA00035184999300001713
Figure BDA00035184999300001714
均存在。
另外,由于假设系统中的Fi(xi(t))为未知光滑的非线性函数,因此需要采用神经网络对未知的函数进行拟合,如下所示:
Figure BDA00035184999300001715
其中Z和O(X)分别为神经网络的输入和输出,φ(·)为基函数,W为权重系数。在本发明中,基函数φ(·)选取为双曲正切函数,具体形式如下:
Figure BDA0003518499930000181
因此将未知函数Fi(xi(t))用神经网络替换得
Fi(xi(t))=Wi Tφ(VTZ)+εi (1-9)
其中W为神经网络理想的权重系数,ε为逼近误差,且满足||ε||≤εm,||W||≤Wm,εm,Wm均为未知的正常数,||·||为标准欧几里得范数。
2:状态映射
由上述分析可知,该非线性多智能体系统的状态要始终保持在某个非对称时变约束中,因此采用非线性映射的方式将受事变约束的状态转换为不受约束的状态,具体过程如下:
假设xi(t)满足以下等式,即选取如下的非线性映射函数:
Figure BDA0003518499930000182
对(3-2)移项再取反函数得:
Figure BDA0003518499930000183
其中i=1,2,...,n,si为经过映射后得到的状态,不难看出,当xi(t)趋近于上界
Figure BDA0003518499930000184
时有
Figure BDA0003518499930000185
趋于正无穷,当xi(t)趋近于下界x i(t)时有
Figure BDA0003518499930000186
趋于负无穷,即有:
Figure BDA0003518499930000187
经过(2-2)的映射之后,先前受时变非对称约束的状态xi(t)转化为了不受约束的状态si,另外显然tan(·)在区间
Figure BDA0003518499930000188
上为单调递增的函数,因此只需要保证变化后的状态si在任意时刻下始终是有界的,那么就存在唯一的一个映射前的状态xi(t)以及一组上下界与之相对应。即将该状态经过非线性映射函数映射后可得到不受约束的状态si,对于这个不受约束的状态我们只需要保证该状态始终有界,就能时映射前后的系统等价,即可以通过该状态来实现原先状态受约束系统的一致性控制。
显然si为与
Figure BDA0003518499930000189
x i(t),xi(t)有关的函数,因此
Figure BDA0003518499930000191
将(3-5)写成矩阵形式得
Figure BDA0003518499930000192
其中
Figure BDA0003518499930000193
Γ=[Γ12,...,Γn]T,u=[0,...,0,u]T
Figure BDA0003518499930000194
F(x)=[F1(xi),F2(xi),...,Fn(xi)]T
3.分布式有限时间事件触发控制器设计
在实际的多智能体系统一致性控制中,随着系统规模和多智能体维数的增加,计算资源的消耗也越来越大,而且各个智能体之间总是存在通信网络带宽和计算资源的限制,因此很多时候求得出的一致性控制策略往往不可行。为了延长智能体的使用寿命,减少智能体之间不必要的通信和控制器的更新,使得智能体之间可以更为有效的节省有限的传输与计算资源,将分布式事件触发控制算法引入了多智能体的一致性控制当中,控制策略按照预先设定的事件触发协议更新,即能减少通信资源,也比传统的时间触发系统有更好的实时性能,分布式的方式也使得每个智能体的策略更新仅在自己的时间触发,也显著的降低了触发频率。
另外在实际控制中,大多数一致性控制问题都是在无限时间收敛下来考虑的,而往往我们想要得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性,因此实现多智能体有限时间一致性控制具有重要意义。因此,为实现多智能体系统的有限时间一致性,并为了减少通信资源的浪费以及策略更新的频率,设计了一种分布式有限时间事件触发控制器。
假设控制策略在满足以下条件时会进行触发,控制策略为:
Figure BDA0003518499930000195
神经网络的自适应率
Figure BDA0003518499930000196
为:
Figure BDA0003518499930000197
其中p,q均为后续设计的控制增益常数,
Figure BDA0003518499930000198
为理想的神经网络权重系数,
Figure BDA0003518499930000199
表示第i个智能体的第k个采样时刻,且满足
Figure BDA0003518499930000201
上述策略更新的触发条件为:
Figure BDA0003518499930000202
其中d为正常数。
下面对该控制策略以及触发条件的可行性进行证明,实现选取如下的李雅普诺夫函数:
Figure BDA0003518499930000203
其中
Figure BDA0003518499930000204
为自定义的正定矩阵,tr(·)为矩阵的迹。
对V0(t)沿时间t求导,且由第二部分可知,具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t)。因此y(t)和x(t)的关系可转换为:
Figure BDA0003518499930000205
Figure BDA0003518499930000206
为:
Figure BDA0003518499930000207
由于无向图的拉普拉斯矩阵的任意一行或任意一列的元素之和等于0,即有
Figure BDA0003518499930000208
为n维的列向量,在(3-5)式两边同乘
Figure BDA0003518499930000209
Figure BDA00035184999300002010
再将
Figure BDA00035184999300002011
代入,并将未知非线性函数F(x)用神经网络替换得:
Figure BDA00035184999300002012
由神经网络的自适应率代入,并结合引理二可知:
Figure BDA0003518499930000211
其中
Figure BDA0003518499930000212
将控制增益系数p,q分别设置为
Figure BDA0003518499930000213
将引理三代入上式可得:
Figure BDA0003518499930000214
其中
Figure BDA0003518499930000215
由事件触发条件可知,在时间
Figure BDA0003518499930000216
时,总有||zi(t)||2+||ri(t)||2≤d‖ei(t)‖2满足,即有
Figure BDA0003518499930000217
其中
Figure BDA0003518499930000218
将其带入到上式中可得:
Figure BDA0003518499930000221
其中
Figure BDA0003518499930000222
根据引理三可知,在分布式控制策略(3-1)和神经网络自适应率(3-2),以及事件触发条件(3-3)的作用下,可以使得系统(1-1)实现有限时间一致性。
四:Zeno行为的消除
由第三部分可知,多智能体系统的一致性已经可以得到保证,但在事件触发机制的作用下,通常还需要考虑是否会引起Zeno行为,该现象是指控制策略在有限时间内被无限次数的触发,这肯定是我们不想要的,也是执行器无法接受的,因此必须要验证该控制策略是否会使得系统产生Zeno行为。
为了避免系统Zeno现象的产生,在控制器设计时再引入一个可以动态的可变参数αi(t),将αi(t)的自适应率设计为:
Figure BDA0003518499930000223
其中αi(t)>0,βi∈[0,1)为折扣因子。
神经网络的自适应率改为:
Figure BDA0003518499930000224
有限时间事件触发条件变为:
Figure BDA0003518499930000225
其中δi为正常数。接下来对其可行性进行证明:
Figure BDA0003518499930000226
对不等式两边同时取t∈[τnn+1)的积分,并结合引理二可知:
Figure BDA0003518499930000227
选取李雅普诺夫函数V(t)为:
Figure BDA0003518499930000231
其中
Figure BDA0003518499930000232
为正定矩阵。对V(t)沿时间t求导,将(3-11)代入可得:
Figure BDA0003518499930000233
将神经网络的自适应率代入上式可得:
Figure BDA0003518499930000234
其中θi=‖zi(t)‖2+||ri(t)||2-||ei(t)||2。又因为在
Figure BDA0003518499930000235
时,总有
Figure BDA0003518499930000236
Figure BDA0003518499930000237
成立,且令
Figure BDA0003518499930000238
代入上式并结合(1-3)可得:
Figure BDA0003518499930000241
其中
Figure BDA0003518499930000242
中的最大值。由引理二知,在触发条件上添加了动态系数之和,原来的系统仍然能达到有限时间的一致性。
接下来,则对该添加动态系数后的控制策略和触发条件是否可以使得系统避免Zeno行为的产生。
首先假设对于任意一个智能体i,使得
Figure BDA0003518499930000243
成立,其中T*为正常数。由极限定理可知,存在一个足够大的正整数N,使得k≥N(ω0)满足,其中
Figure BDA0003518499930000244
Figure BDA0003518499930000245
令τ1=t*,由引理二,并对(4-9)两边同时取积分可得:
Figure BDA0003518499930000246
可以证明,当
Figure BDA0003518499930000247
成立时,会有:
Figure BDA0003518499930000248
上式表明对于任意一个智能体i的控制策略触发时间间隔
Figure BDA0003518499930000249
都能满足其大于0,即触发条件不能在有限时间内被无限次数的触发,避免了Zeno行为的产生。
五:强化学习算法求解最优事件触发控制器
由第四部分可知,我们给出的控制器可以使得系统实现一致性,但却不能保证该控制策略是最优的。强化学习(reinforcement learning,RL)不是采用预先设计好的动作,而是通过与环境通信来寻求协调协议,使每一个智能体逐渐了解周围的环境,并在探索的过程中不断完善自身的策略。此外,强化学习在求解HJB方程时表现出色,特别是在系统动力学模型部分或者完全未知时。强化学习方法的关键是通过策略迭代(PI)算法或值迭代(VI)在线学习HJB方程的解,其中控制器和成本函数分别由actor-critic神经网络进行逼近。因此在本节中引入了强化学习算法来求得最优事件触发问题中的HJB方程,以获得最优的事件触发策略。具体实现步骤如下:
对于系统中的任一智能体,针对映射后不受非对称时变约束的状态s(t),该智能体的动力学模型可表示为:
Figure BDA0003518499930000251
定义该智能体在控制策略ui(t)作用下的成本函数
Figure BDA0003518499930000252
为:
Figure BDA0003518499930000253
其中0<γi<1为折扣因子。另外引入
Figure BDA0003518499930000254
指数项的作用是为了保证
Figure BDA0003518499930000255
最终一定能够达到收敛,如果没有这一负指数项,成本函数在t趋于无穷大时会发散。
Figure BDA0003518499930000256
其中
Figure BDA0003518499930000257
为可调整的正参数,Q,R均为正定矩阵。
设Vi *(si)为最优的成本函数,数学定义为:
Figure BDA0003518499930000258
其中
Figure BDA0003518499930000259
表示定义在上Ωi所有可容许策略的集合。
要想得到最小的成本函数,应该让哈密顿方程
Figure BDA00035184999300002510
求得的最小值等于0,即有:
Figure BDA00035184999300002511
其中
Figure BDA00035184999300002512
Figure BDA00035184999300002513
代入可得HJB方程为:
Figure BDA00035184999300002514
定义最优控制策略为
Figure BDA00035184999300002515
在稳定性条件下有
Figure BDA00035184999300002516
对上述HJB(Hamilton–Jacobi–Bellman)方程两边同时对ui求导并移项可得最优策略
Figure BDA00035184999300002517
Figure BDA00035184999300002518
再将最优控制策略带回到哈密顿方程中可得:
Figure BDA0003518499930000261
其中
Figure BDA0003518499930000262
Vi *(0)=0。
为了得到事件触发条件下的最优控制器,应该将上述的HJB方程改为ETHJB(event-triggered HJB)方程。假设我们只在事件触发的瞬间
Figure BDA0003518499930000263
时刻对信号进行采样,既有
Figure BDA0003518499930000264
其中
Figure BDA0003518499930000265
为si
Figure BDA0003518499930000266
时刻的采样值。定义采样此时的误差为ei,k
Figure BDA0003518499930000267
另外控制策略在事件触发条件满足的时刻应该立即更新,在触发条件不满足时应该始终和上一时刻触发时的控制策略保持一致,通常可以使用零阶保持器来实现。假设在触发时刻
Figure BDA0003518499930000268
下的控制策略更新为
Figure BDA0003518499930000269
则在
Figure BDA00035184999300002610
整个区间范围内,控制策略都应该保持为
Figure BDA00035184999300002611
即可假设该策略通过零阶保持器的输出策略为
Figure BDA00035184999300002612
Figure BDA00035184999300002613
满足:
Figure BDA00035184999300002614
同样的在控制策略取得最优时,也有:
Figure BDA00035184999300002615
将零阶保持器输出的最优控制策略代入到(5-7)可得ETHJB方程为:
Figure BDA00035184999300002616
为了便于后续对ETHJB方程的求解,这里假设最优控制策略
Figure BDA00035184999300002617
是始终满足Lipschitz条件的,既有:
Figure BDA00035184999300002618
其中
Figure BDA00035184999300002619
为正常数。
接下来引入Critic神经网络对未知的值函数进行逼近,以此来求解ETHJB方程,这里不需要引入Actor神经网络对控制策略进行逼近是因为显然控制策略只与值函数以及一项已知正定矩阵与常数项组成。因此只需要对未知的值函数进行逼近,就能进而求得最优控制策略。令:
Figure BDA00035184999300002620
其中
Figure BDA00035184999300002621
为Critic神经网络的权重系数,
Figure BDA00035184999300002622
为神经网络的基函数,
Figure BDA00035184999300002623
为逼近误差。同理可得
Figure BDA00035184999300002624
Figure BDA0003518499930000271
并假设理想的神经网络权重系数为
Figure BDA0003518499930000272
即当
Figure BDA0003518499930000273
Figure BDA0003518499930000274
时,逼近误差
Figure BDA0003518499930000275
再将其带入到
Figure BDA0003518499930000276
中可得:
Figure BDA0003518499930000277
将其带入到哈密尔顿方程中,并由于,则取二者的差值可得:
Figure BDA0003518499930000278
其中
Figure BDA0003518499930000279
另外为了使得所求得的最优控制策略更加精确,可以充分对历史信息进行利用,通过引入了一项历史误差项来实现。假设在第k0不步之前的累计误差为历史状态
Figure BDA00035184999300002710
d∈{1,2,...,k0},其中
Figure BDA00035184999300002711
表示前d个状态下,第i的智能体在第k步时所产生的累计误差。
则可定义总体误差Ei为,并构造以下目标函数,通过使得ε6(t)最小化来调整critic神经网络的权重系数:
Figure BDA00035184999300002712
更新事件触发的条件为:
Figure BDA00035184999300002713
其中||Ei,T||2为事件触发条件的下限,λmin(Qi)为Qi矩阵的最小特征值,
Figure BDA00035184999300002714
θi∈(0,+∞)均为可调节的参数。
取Critic神经网络权重系数的自适应为:
Figure BDA00035184999300002715
其中
Figure BDA00035184999300002716
为可调整的正参数,
Figure BDA00035184999300002717
接下来基于(5-8)、(5-15)和(5-19)式,利用critic神经网络实现对值函数和策略函数的同步更新,设计一种基于策略迭代的在线强化学习算法来求解ETHJB方程,以求解最优事件触发控制输入。
Figure BDA0003518499930000281
方法结构框图如图4所示。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.具有时变状态约束的多智能体有限时间事件触发控制方法,其特征在于:该方法包括以下步骤:
S1:建立问题;
考虑如下由n个智能体组成的无领导者的非线性多智能体系统,其中每个智能体的模型表示为:
Figure FDA0003518499920000011
其中
Figure FDA0003518499920000012
为状态向量,
Figure FDA0003518499920000013
为控制输入,设跟随者模型中的
Figure FDA0003518499920000014
为未知光滑的非线性函数;
局部邻居误差定义为:
Figure FDA0003518499920000015
定义平均状态为
Figure FDA0003518499920000016
跟踪误差定义为:
yi(t)=xi(t)-x0(t) (1-3)
为便于描述,将yi(t),xi(t),x0(t),ei(t)分别写为yi,xi,x0,ei,同时令x(t)=[x1,x2,...,xn]T,e(t)=[e1,e2,...,en]T,得:
Figure FDA0003518499920000017
Figure FDA0003518499920000018
其中
Figure FDA0003518499920000019
为克罗内克积,In为n阶单位矩阵;
状态x1,x2,...,xn且始终满足非对称时变约束,即有:
Figure FDA00035184999200000110
其中n为跟随者的个数,xi(t),
Figure FDA00035184999200000111
分别为受限状态的上下限,其值与时间有关,该约束对于任意时间都满足;在t=0时刻要人为的设置一个足够大上界
Figure FDA00035184999200000112
和一个足够小的下界x i(0)使得
Figure FDA00035184999200000113
满足;设上下限的导数
Figure FDA00035184999200000114
Figure FDA00035184999200000115
均存在;
假设系统中的Fi(xi(t))为未知光滑的非线性函数,采用神经网络对未知的函数进行拟合,如下所示:
Figure FDA00035184999200000116
其中Z和O(X)分别为神经网络的输入和输出,φ(·)为基函数,W为权重系数;在本发明中,基函数φ(·)选取为双曲正切函数,具体形式如下:
Figure FDA0003518499920000021
将未知函数Fi(xi(t))用神经网络替换得
Fi(xi(t))=Wi Tφ(VTZ)+εi (1-9)
其中W为神经网络理想的权重系数,ε为逼近误差,且满足||ε||≤εm,||W||≤Wm,εm,Wm均为未知的正常数,||·||为标准欧几里得范数;
S2:状态映射;
非线性多智能体系统的状态要始终保持在某个非对称时变约束中,采用非线性映射的方式将受事变约束的状态转换为不受约束的状态,具体过程如下:
假设xi(t)满足以下等式,即选取如下的非线性映射函数:
Figure FDA0003518499920000022
对(3-2)移项再取反函数得:
Figure FDA0003518499920000023
其中i=1,2,...,n,si为经过映射后得到的状态,不难看出,当xi(t)趋近于上界
Figure FDA0003518499920000024
时有
Figure FDA0003518499920000025
趋于正无穷,当xi(t)趋近于下界x i(t)时有
Figure FDA0003518499920000026
趋于负无穷,即有:
Figure FDA0003518499920000027
经过(2-2)的映射之后,先前受时变非对称约束的状态xi(t)转化为了不受约束的状态si,另外显然tan(·)在区间
Figure FDA0003518499920000028
上为单调递增的函数,只需要保证变化后的状态si在任意时刻下始终是有界的,那么就存在唯一的一个映射前的状态xi(t)以及一组上下界与之相对应;即将该状态经过非线性映射函数映射后得到不受约束的状态si,对于这个不受约束的状态只需要保证该状态始终有界,就能时映射前后的系统等价,通过该状态来实现原先状态受约束系统的一致性控制;
显然si为与
Figure FDA0003518499920000031
x i(t),xi(t)有关的函数,因此
Figure FDA0003518499920000032
将(3-5)写成矩阵形式得
Figure FDA0003518499920000033
其中
Figure FDA0003518499920000034
Γ=[Γ12,...,Γn]T,u=[0,...,0,u]T
Figure FDA0003518499920000035
F(x)=[F1(xi),F2(xi),...,Fn(xi)]T
S3:设计分布式有限时间事件触发控制器
设控制策略在满足以下条件时会进行触发,控制策略为:
Figure FDA0003518499920000036
神经网络的自适应率
Figure FDA0003518499920000037
为:
Figure FDA0003518499920000038
其中p,q均为后续设计的控制增益常数,
Figure FDA0003518499920000039
为理想的神经网络权重系数,
Figure FDA00035184999200000310
表示第i个智能体的第k个采样时刻,且满足
Figure FDA00035184999200000311
上述策略更新的触发条件为:
Figure FDA00035184999200000312
其中d为正常数;
对该控制策略以及触发条件的可行性进行证明,实现选取如下的李雅普诺夫函数:
Figure FDA00035184999200000313
其中
Figure FDA00035184999200000314
为自定义的正定矩阵,tr(·)为矩阵的迹;
对V0(t)沿时间t求导,具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t);y(t)和x(t)的关系转换为:
Figure FDA0003518499920000041
Figure FDA0003518499920000042
为:
Figure FDA0003518499920000043
由于无向图的拉普拉斯矩阵的任意一行或任意一列的元素之和等于0,即有
Figure FDA0003518499920000044
Figure FDA0003518499920000045
为n维的列向量,在(3-5)式两边同乘
Figure FDA0003518499920000046
Figure FDA0003518499920000047
再将
Figure FDA0003518499920000048
Figure FDA0003518499920000049
代入,并将未知非线性函数F(x)用神经网络替换得:
Figure FDA00035184999200000410
代入神经网络的自适应率,并结合引理二知:
Figure FDA00035184999200000411
其中
Figure FDA00035184999200000412
将控制增益系数p,q分别设置为
Figure FDA00035184999200000413
将引理三代入上式得:
Figure FDA0003518499920000051
其中
Figure FDA0003518499920000052
由事件触发条件知,在时间
Figure FDA0003518499920000053
时,总有||zi(t)||2+||ri(t)||2≤d||ei(t)||2满足,即有
Figure FDA0003518499920000054
其中
Figure FDA0003518499920000055
将其带入到上式中得:
Figure FDA0003518499920000056
其中
Figure FDA0003518499920000057
在分布式控制策略(3-1)和神经网络自适应率(3-2),以及事件触发条件(3-3)的作用下,使得系统(1-1)实现有限时间一致性;
S4:Zeno行为的消除
在控制器设计时再引入一个动态的可变参数αi(t),将αi(t)的自适应率设计为:
Figure FDA0003518499920000058
其中αi(t)>0,βi∈[0,1)为折扣因子;
神经网络的自适应率改为:
Figure FDA0003518499920000061
有限时间事件触发条件变为:
Figure FDA0003518499920000062
其中δi为正常数;接下来对其可行性进行证明:
Figure FDA0003518499920000063
对不等式两边同时取t∈[τnn+1)的积分,并结合引理二知:
Figure FDA0003518499920000064
选取李雅普诺夫函数V(t)为:
Figure FDA0003518499920000065
其中
Figure FDA0003518499920000066
Figure FDA0003518499920000067
为正定矩阵;对V(t)沿时间t求导,将(3-11)代入得:
Figure FDA0003518499920000068
将神经网络的自适应率代入上式得:
Figure FDA0003518499920000071
其中θi=||zi(t)||2+||ri(t)||2-||ei(t)||2;在
Figure FDA0003518499920000072
时,总有
Figure FDA0003518499920000073
Figure FDA0003518499920000074
成立,且令
Figure FDA0003518499920000075
代入上式并结合(1-3)得:
Figure FDA0003518499920000076
其中
Figure FDA0003518499920000077
中的最大值;在触发条件上添加动态系数之和,原来的系统仍然能达到有限时间的一致性;
接下来,则对该添加动态系数后的控制策略和触发条件是否使得系统避免Zeno行为的产生;
首先假设对于任意一个智能体i,使得
Figure FDA0003518499920000078
成立,其中T*为正常数;由极限定理知,存在一个足够大的正整数N,使得k≥N(ω0)满足,其中
Figure FDA0003518499920000079
Figure FDA00035184999200000710
令τ1=t*,并对(4-9)两边同时取积分得:
Figure FDA00035184999200000711
Figure FDA00035184999200000712
成立时,会有:
Figure FDA0003518499920000081
上式表明对于任意一个智能体i的控制策略触发时间间隔
Figure FDA0003518499920000082
都能满足其大于0,即触发条件不能在有限时间内被无限次数的触发,避免了Zeno行为的产生;
S5:利用强化学习算法求解最优事件触发控制器
对于系统中的任一智能体,针对映射后不受非对称时变约束的状态s(t),该智能体的动力学模型表示为:
Figure FDA0003518499920000083
定义该智能体在控制策略ui(t)作用下的成本函数
Figure FDA0003518499920000084
为:
Figure FDA0003518499920000085
其中0<γi<1为折扣因子;另外引入
Figure FDA0003518499920000086
指数项的作用是为保证
Figure FDA0003518499920000087
最终一定能够达到收敛,如果没有这一负指数项,成本函数在t趋于无穷大时会发散;
Figure FDA0003518499920000088
其中
Figure FDA0003518499920000089
Figure FDA00035184999200000810
为可调整的正参数,Q,R均为正定矩阵;
设Vi *(si)为最优的成本函数,数学定义为:
Figure FDA00035184999200000811
其中
Figure FDA00035184999200000812
表示定义在上Ωi所有可容许策略的集合;
要想得到最小的成本函数,则让哈密顿方程
Figure FDA00035184999200000813
求得的最小值等于0,即有:
Figure FDA00035184999200000814
其中
Figure FDA00035184999200000815
Figure FDA00035184999200000816
代入得HJB方程为:
Figure FDA00035184999200000817
定义最优控制策略为
Figure FDA00035184999200000818
在稳定性条件下有
Figure FDA00035184999200000819
对上述HJB方程两边同时对ui求导并移项得最优策略
Figure FDA00035184999200000820
Figure FDA0003518499920000091
再将最优控制策略带回到哈密顿方程中得:
Figure FDA0003518499920000092
其中
Figure FDA0003518499920000093
为得到事件触发条件下的最优控制器,将HJB方程改为ETHJB方程;假设只在事件触发的瞬间
Figure FDA0003518499920000094
时刻对信号进行采样,既有
Figure FDA0003518499920000095
其中
Figure FDA0003518499920000096
为si
Figure FDA0003518499920000097
时刻的采样值;定义采样此时的误差为ei,k
Figure FDA0003518499920000098
另外,控制策略在事件触发条件满足时,立即更新,在触发条件不满足时始终和上一时刻触发时的控制策略保持一致,使用零阶保持器来实现;假设在触发时刻
Figure FDA0003518499920000099
下的控制策略更新为
Figure FDA00035184999200000910
则在
Figure FDA00035184999200000911
整个区间范围内,控制策略保持为
Figure FDA00035184999200000912
假设该控制策略通过零阶保持器的输出策略为
Figure FDA00035184999200000913
Figure FDA00035184999200000914
满足:
Figure FDA00035184999200000915
在控制策略取得最优时,有:
Figure FDA00035184999200000916
将零阶保持器输出的最优控制策略代入到(5-7)得ETHJB方程为:
Figure FDA00035184999200000917
为便于后续对ETHJB方程的求解,最优控制策略
Figure FDA00035184999200000918
是始终满足Lipschitz条件的,既有:
Figure FDA00035184999200000919
其中
Figure FDA00035184999200000920
为正常数;
对未知的值函数进行逼近,求得最优控制策略;令:
Figure FDA00035184999200000921
其中
Figure FDA00035184999200000922
为Critic神经网络的权重系数,
Figure FDA00035184999200000923
为神经网络的基函数,
Figure FDA00035184999200000924
为逼近误差;同理得
Figure FDA00035184999200000925
Figure FDA00035184999200000926
并假设理想的神经网络权重系数为
Figure FDA0003518499920000101
即当
Figure FDA0003518499920000102
Figure FDA0003518499920000103
时,逼近误差
Figure FDA0003518499920000104
再将其带入到
Figure FDA0003518499920000105
中得:
Figure FDA0003518499920000106
将其带入到哈密尔顿方程中,并由于,则取二者的差值得:
Figure FDA0003518499920000107
其中
Figure FDA0003518499920000108
为使得所求得的最优控制策略更加精确,充分对历史信息进行利用,通过引入一项历史误差项来实现;设在第k0不步之前的累计误差为历史状态
Figure FDA0003518499920000109
其中
Figure FDA00035184999200001010
Figure FDA00035184999200001011
表示前d个状态下,第i的智能体在第k步时所产生的累计误差;
则定义总体误差Ei为,并构造以下目标函数,通过使得εθ(t)最小化来调整critic神经网络的权重系数:
Figure FDA00035184999200001012
更新事件触发的条件为:
Figure FDA00035184999200001013
其中||Ei,T||2为事件触发条件的下限,λmin(Qi)为Qi矩阵的最小特征值,
Figure FDA00035184999200001014
θi∈(0,+∞)均为可调节的参数;
取Critic神经网络权重系数的自适应为:
Figure FDA00035184999200001015
其中
Figure FDA00035184999200001016
为可调整的正参数,
Figure FDA00035184999200001017
接下来基于(5-8)、(5-15)和(5-19)式,利用critic神经网络实现对值函数和策略函数的同步更新,设计基于策略迭代的在线强化学习算法来求解ETHJB方程,以求解最优事件触发控制输入。
2.根据权利要求1所述的具有时变状态约束的多智能体有限时间事件触发控制方法,其特征在于:所述基于策略迭代的在线强化学习算法来求解ETHJB方程具体为:
S11:给定一个可行的执行器输入
Figure FDA0003518499920000111
S12:策略评估,给定初始
Figure FDA0003518499920000112
利用下式求解Vi k(si(t))
Figure FDA0003518499920000113
S13:策略改进,将Vi k(si(t))代入并更新
Figure FDA0003518499920000114
Figure FDA0003518499920000115
S14:令
Figure FDA0003518499920000116
返回S12直至Vi k(si(t))收敛到最小值。
3.一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-2任一项所述的方法。
4.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-2任一项所述的方法。
CN202210171849.XA 2022-02-24 具有时变状态约束的多智能体有限时间事件触发控制方法 Active CN114547980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210171849.XA CN114547980B (zh) 2022-02-24 具有时变状态约束的多智能体有限时间事件触发控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210171849.XA CN114547980B (zh) 2022-02-24 具有时变状态约束的多智能体有限时间事件触发控制方法

Publications (2)

Publication Number Publication Date
CN114547980A true CN114547980A (zh) 2022-05-27
CN114547980B CN114547980B (zh) 2024-06-07

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115268275A (zh) * 2022-08-24 2022-11-01 广东工业大学 基于状态观测器的多智能体系统一致性跟踪方法及系统
CN115479507A (zh) * 2022-09-14 2022-12-16 中国科学院声学研究所 一种水下航行器制导控制方法及系统
CN115562037A (zh) * 2022-11-01 2023-01-03 江南大学 一种非线性多智能体系统控制方法、装置、设备及应用
CN117669271A (zh) * 2024-01-31 2024-03-08 北京理工大学 基于近端算子的多智能体系统非光滑优化方法及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115268275A (zh) * 2022-08-24 2022-11-01 广东工业大学 基于状态观测器的多智能体系统一致性跟踪方法及系统
CN115268275B (zh) * 2022-08-24 2024-05-28 广东工业大学 基于状态观测器的多智能体系统一致性跟踪方法及系统
CN115479507A (zh) * 2022-09-14 2022-12-16 中国科学院声学研究所 一种水下航行器制导控制方法及系统
CN115479507B (zh) * 2022-09-14 2023-08-15 中国科学院声学研究所 一种水下航行器制导控制方法及系统
CN115562037A (zh) * 2022-11-01 2023-01-03 江南大学 一种非线性多智能体系统控制方法、装置、设备及应用
CN115562037B (zh) * 2022-11-01 2023-04-25 江南大学 一种非线性多智能体系统控制方法、装置、设备及应用
CN117669271A (zh) * 2024-01-31 2024-03-08 北京理工大学 基于近端算子的多智能体系统非光滑优化方法及存储介质
CN117669271B (zh) * 2024-01-31 2024-04-26 北京理工大学 基于近端算子的多智能体系统非光滑优化方法及存储介质

Similar Documents

Publication Publication Date Title
Wen et al. Optimized backstepping for tracking control of strict-feedback systems
Zhang et al. Finite-time distributed event-triggered consensus control for multi-agent systems
Liu et al. Adaptive neural output feedback tracking control for a class of uncertain discrete-time nonlinear systems
Xie et al. Event‐triggered consensus control for second‐order multi‐agent systems
Liu et al. Adaptive fixed-time hierarchical sliding mode control for switched under-actuated systems with dead-zone constraints via event-triggered strategy
Fallah Ghavidel et al. Observer-based hybrid adaptive fuzzy control for affine and nonaffine uncertain nonlinear systems
Xi et al. Event-triggered adaptive fuzzy distributed tracking control for uncertain nonlinear multi-agent systems
Howell et al. Continuous action reinforcement learning automata and their application to adaptive digital filter design
Wang et al. Fuzzy adaptive event-triggered finite-time constraint control for output-feedback uncertain nonlinear systems
Cui et al. Distributed containment control for nonlinear multiagent systems in pure‐feedback form
Wang et al. Event-triggered adaptive containment control for heterogeneous stochastic nonlinear multiagent systems
CN114841074A (zh) 基于状态观测与经验池的非线性多智能体一致性方法
Chen et al. Adaptive control for switched uncertain nonlinear systems with time‐varying output constraint and input saturation
Chen et al. Adaptive control design for MIMO switched nonlinear systems with full state constraints
Zhang et al. Global iterative learning control based on fuzzy systems for nonlinear multi-agent systems with unknown dynamics
Shang et al. Finite-time asynchronous H∞ filtering for positive Markov jump systems
Lei et al. Adaptive asymptotic tracking control of constrained multi‐input multi‐output nonlinear systems via event‐triggered strategy
Pan et al. Event-triggered dynamic output feedback control for networked Markovian jump systems with partly unknown transition rates
Yang et al. Stability and stabilization for uncertain fuzzy system with sampled-data control and state quantization
Xu et al. New result on robust stability of switched systems with all subsystems unstable
Jia et al. Application of two fuzzy logic systems to complex-type ZNN models for the Drazin inverse of time-dependent complex-value matrix
Zhao et al. Observer-based dynamic event-triggered control for nonstrict-feedback stochastic nonlinear multiagent systems
CN114547980A (zh) 具有时变状态约束的多智能体有限时间事件触发控制方法
CN114547980B (zh) 具有时变状态约束的多智能体有限时间事件触发控制方法
Si et al. Further results on exponentially robust stability of uncertain connection weights of neutral-type recurrent neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant