CN114740710A - 一种随机非线性多智能体的强化学习优化编队控制方法 - Google Patents

一种随机非线性多智能体的强化学习优化编队控制方法 Download PDF

Info

Publication number
CN114740710A
CN114740710A CN202210453088.7A CN202210453088A CN114740710A CN 114740710 A CN114740710 A CN 114740710A CN 202210453088 A CN202210453088 A CN 202210453088A CN 114740710 A CN114740710 A CN 114740710A
Authority
CN
China
Prior art keywords
formation
agent
error
equation
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210453088.7A
Other languages
English (en)
Inventor
文国兴
高发亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Binzhou University
Original Assignee
Binzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Binzhou University filed Critical Binzhou University
Priority to CN202210453088.7A priority Critical patent/CN114740710A/zh
Publication of CN114740710A publication Critical patent/CN114740710A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及自适应非线性控制技术领域,具体公开了一种随机非线性多智能体的强化学习优化编队控制方法,基于神经网络的函数逼近能力,设计了一种自适应辨识器对未知随机动力进行估计在期望意义,然后通过构建评判网络和执行经网络执行强化学习,从而获得优化控制;在本发明中,由于强化学习算法是通过对一个简单的正函数执行梯度下降法得到的,该函数设计根据HJB方程的偏导,因此可以使最优控制比传统的方法更简单,可以更方便地应用到随机非线性多智能体系统;最后,从定理证明和计算机仿真两个方面验证,所提出的优化方法能够实现预期的目标。

Description

一种随机非线性多智能体的强化学习优化编队控制方法
技术领域
本发明涉及自适应非线性控制技术领域,具体涉及一种随机非线性多智能体的强化学习优化编队控制方法。
背景技术
随机系统的控制设计是一个非常具有挑战性的问题,因为它的微分不仅涉及随机扰动,而且还涉及稳定性分析中的Hessian项。随着控制理论的发展,一些流行的非线性控制技术,如Sontag的镇定公式,反步技术和自适应观测器,已经被推广到随机系统。值得提及的是,一些最优控制方法也被扩展到随机非线性系统。然而,由于随机多智能体控制需要状态耦合,给优化设计带来了困难,因此对随机多智能体系统的最优编队控制鲜有报道。主要原因是传统的强化学习优化方法,要么是复杂算法,要么要求一些严格的条件,如:持续激励,他们很难应用和推广到随机多智能体系统控制。针对这一情况,本发明提出了一种基于强化学习策略的多智能体优化编队控制方法。通过构建自适应辨识器,解决了未知随机动力问题。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种随机非线性多智能体的强化学习优化编队控制方法。
本发明解决其技术问题所采用的技术方案是:一种随机非线性多智能体的强化学习优化编队控制方法,包括以下步骤:
步骤1)建立多智能体系统状态与领航智能体状态之间的跟踪误差,并根据多智能体动力方程,推导出误差动力微分方程;
步骤2)定义基于邻居智能体的编队误差项,并利用误差动力微分方程,求导出编队误差微分方程;
步骤3)利用编队误差,定义分布式最优性能指标函数,并利用动力方程获得分布式HJB(Hamilton-Jacobi-Bellman)等式,利用HJB方程有唯一解的性质,求得该最优控制的基本形式;
步骤4)利用神经网络设计自适应辨识器,对随机多智能体系统的未知动力进行估计在期望意义,并设计李亚普诺夫函数对其进行证明;
步骤5)利用自适应辨识器状态对跟踪误差及编队误差进行估计,进而获得最优控制及HJB方程的近似形式;
步骤6)设计强化学习的评判网络和执行网络,从而获得优化控制;
步骤7)设计李雅普诺夫函数,对其进行稳定性和误差收敛性分析;
步骤8)利用Matlab软件进行仿真实验。
具体的是:所述步骤1)中的多智能体系统状态为xi(t),领航智能体状态为yr(t),然后建立跟踪误差为:zi(t)=xi(t)-yr(t)-ζi,i=1,…,n,误差动力微分方程为:
Figure BDA0003619612090000021
具体的是:所述步骤2)中的编队误差项为:
Figure BDA0003619612090000022
其中:Yi表示智能体i的邻居智能体集;编队误差微分方程为:
Figure BDA0003619612090000023
其中:
Figure BDA0003619612090000024
具体的是:所述步骤3)中的最优性能指标函数为
Figure BDA0003619612090000025
其中
Figure BDA0003619612090000026
分布式HJB等式为:
Figure BDA0003619612090000027
并利用HJB方程有唯一解的性质,通过方程
Figure BDA0003619612090000028
解得该最优控制的基本形式为:
Figure BDA0003619612090000029
具体的是:所述步骤4)中的利用神经网络对未知动力函数fi(xi)和hii)=ηi(t)||ψi(xi)||4进行逼近:
Figure BDA00036196120900000210
然后,设计自适应辨识器:
Figure BDA0003619612090000031
其中,
Figure BDA0003619612090000032
是辩识器状态,
Figure BDA0003619612090000033
为设计常数。
具体的是:所述神经网络的权重
Figure BDA0003619612090000034
Figure BDA0003619612090000035
被在线训练通过下列法则:
Figure BDA0003619612090000036
具体的是:所述步骤5)中的跟踪误差及编队误差进行估计为
Figure BDA0003619612090000037
获得最优控制为
Figure BDA0003619612090000038
HJB方程的近似形式为
Figure BDA0003619612090000039
具体的是:所述步骤6)中的评判网络为
Figure BDA00036196120900000310
评判网络训练法则为
Figure BDA00036196120900000311
执行网络为
Figure BDA00036196120900000312
执行网络训练法则为
Figure BDA00036196120900000313
具体的是:所述评判网络和执行网络根据HJB方程有唯一解的性质,利用其偏导构建一个与其等价的简单正定函数,对这个简单的正函数执行梯度下降法,得到强化学习算法。
具体的是:所述步骤7)中的李雅普诺夫函数被设计为:
Figure BDA00036196120900000314
然后计算其导数,获得结果:
Figure BDA00036196120900000315
从而证明优化编队控制方法的有效性。
本发明具有以下有益效果:
本发明设计的随机非线性多智能体的强化学习优化编队控制方法,利用HJB方程偏导设计一个与其等价的简单正函数,采用梯度下降法得到强化学习算法,从而最终获得其优化控制。因为这个设计能大大缓解算法的复杂度,能有效用于随机非线性多智能体控制。
附图说明
图1是本发明提出的随机多智能体优化编队控制结构框图。
图2是仿真算例的多智能体优化编队控制性能的示意图。
图3是仿真算例的编队控制的代价函数。
图4是仿真算例的辨识器误差收敛性。
图5是仿真算例的编队跟踪误差变量收敛性。
图6是仿真算例的辨识器自适应权重矩阵
Figure BDA0003619612090000041
的有界性。
图7是仿真算例的辨识器自适应权重矩阵
Figure BDA0003619612090000042
的有界性。
图8是仿真算例的强化学习评判网络权重矩阵
Figure BDA0003619612090000043
的有界性。
图9是仿真算例的强化学习执行网络权重矩阵
Figure BDA0003619612090000044
的有界性。
具体实施方式
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地进一步详细的说明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,针对未知动力的随机非线性多智能体系统,提供了一种基于强化学习的随机非线性多智能体的优化编队控制方法,具体内容如下:
一.系统建模与问题陈述
考虑下列随机非线性多智能体系统,其各智能体之间的互连通讯拓扑图为无向连通图:
dxi(t)=(ui+fi(xi))dt+ψi(xi)dw,i=1,…,n (1)
其中:
Figure BDA0003619612090000045
Figure BDA0003619612090000046
分别是状态和控制输入向量,
Figure BDA0003619612090000047
Figure BDA0003619612090000048
是两个未知的非线性连续函数,
Figure BDA0003619612090000049
表示完全概率空间上r维的独立标准维纳过程。
Figure BDA00036196120900000410
表示编队运动的期望轨迹或领航智能体,然后定义跟踪误差变量zi(t)为:
zi(t)=xi(t)-yr(t)-ζi,i=1,…,n, (2)
其中:
Figure BDA00036196120900000411
表示预先设定的编队队形,也就是智能体与领航智能体的相对位置。
根据(1),跟踪误差zi(t)的动力方程为:
Figure BDA0003619612090000051
定义1:如果多智能体系统(1)的状态xi(t)满足条件
Figure BDA0003619612090000052
则称该多智能体实现了预定的编队控制。
假设1:编队运动轨迹
Figure BDA0003619612090000053
及其导数
Figure BDA0003619612090000054
是已知的和有界的。
控制目标:针对随机非线性多智能体系统(1),设计分布式优化编队控制ui=1,…,n,确保:i).该闭环控制的所有误差信号是一致最终有界在期望意义;ii).跟踪误差收敛到一个小的零领域在期望意义。
为了构建最优编队控制,定义下列编队误差项:
Figure BDA0003619612090000055
其中:Yi表示智能体i的邻居集,aij是A=[aij]毗邻矩阵的元素,表示智能体间的通讯权重;bi表示智能体与领航智能体之间的通讯权重,并假设到少有一个bi≠0。
根据跟踪误差的定义,编队误差(4)可以重新表示为:
Figure BDA0003619612090000056
根据微分方程(3),编队误差动力微分方程可得为:
Figure BDA0003619612090000057
其中:
Figure BDA0003619612090000058
定义2:设
Figure BDA0003619612090000059
是一个与(1)关联的二次连续可微函数,则该函数的无穷小生成算子L为:
Figure BDA00036196120900000510
并且它的伊藤微分公式为:
Figure BDA00036196120900000511
引理1:如果存在两个常数a>0,c>0和两个K函数ν1(·),ν2(·),使二次连续可微函数
Figure BDA00036196120900000512
满足:
Figure BDA00036196120900000513
那么随机系统(1)在有界初始状态x(0)下有唯一强解,且满足:
Figure BDA00036196120900000514
上述结果意味着xi是半全局一致最终有界在期望意义。
引理2:如果一个智能体的通讯拓扑图是一个有向连通图,则其对应的拉普拉斯矩阵L是不可约,并且矩阵
Figure BDA0003619612090000061
是正定的,其中B=diag{b1,b2,…,bn}是一个正定的对角矩阵。
引理3:L(t)∈R是任意有界的正定连续函数,且初值有界,如果它满足
Figure BDA0003619612090000062
其中α>0和β>0是两个常数,则下列不等式成立:
Figure BDA0003619612090000063
其中e是自然对数的底数。
二.最优编队控制描述
对于多智能体系统(1),引入性能指标为:
Figure BDA0003619612090000064
其中:
Figure BDA0003619612090000065
定义1:ui被称为在集合Ω可容许控制,表示为ui∈Ψ(Ω),如果它是连续的,满足ui(0)=0,稳定(1)在集合Ω,并使(12)有界在期望意义。
定义2:随机多智能体系统(1)的一个可容许编队控制被称为最优控制,如果它能在完成控制任务,同时最小化性能指标(12)。
根据事实
Figure BDA0003619612090000066
其中
Figure BDA0003619612090000067
代价函数υ(z,u)可以分解为:
Figure BDA0003619612090000068
其中:
Figure BDA0003619612090000069
根据(13),引入分布式性能指标为:
Figure BDA00036196120900000610
然后,可以定义分布式性能指数函数为:
Figure BDA00036196120900000611
表示最优控制为
Figure BDA00036196120900000612
其中Ω是包含所有多智能体状态和参考信号yr(t)的紧集,则将
Figure BDA00036196120900000613
代入(15),可得到最优性能指标函数为:
Figure BDA00036196120900000614
根据最优控制的描述,(16)意味着:
Figure BDA00036196120900000615
通过几个简单的积分计算到(16),然后有
Figure BDA0003619612090000071
经过几次基本的数学运算在(18),可得
Figure BDA0003619612090000072
根据随机动力方程(6)和伊藤微分规则(8),有下列结果:
Figure BDA0003619612090000073
其中:
Figure BDA0003619612090000074
表示白噪声。
将(20)代入(19),得到分布式HJB方程为:
Figure BDA0003619612090000075
根据上述分析,最优控制
Figure BDA0003619612090000076
与(16)是唯一关联的,因此它应该是支持分布HJB方程(21)的唯一控制解。这样,最优控制可以通过求解
Figure BDA0003619612090000077
得到:
Figure BDA0003619612090000078
为了明确最优控制(22),并确保是其HJB方程的唯一解,中的梯度项
Figure BDA0003619612090000079
希望通过求解下列HJB方程获得,这个方程是通过将(22)代入到(21)获得:
Figure BDA00036196120900000710
然而,由于该方程的强非线性,用解析方法求解是不可能的。在本发明中,强化学习策略被采用为获得优化控制,从而有效克服来自求解HJB方程的困难。
三.自适应神经网络辨识器设计
由于随机多智能体系统(1)中的非线性函数fi(xi)和ψi(xi)是未知的,成为控制设计的一个阻碍,因此我们需要构造了自适应神经网络辨识器,对其随机动力进行估计在期望意义。在紧集Ω,神经网络被设计逼近两个未知函数fi(xi)和hii)=ηi(t)||ψi(xi)||4如下,其中:hii)的详细推导在定理1,
Figure BDA0003619612090000081
ηi(t)是辨识器误差:
Figure BDA0003619612090000082
其中:
Figure BDA0003619612090000083
Figure BDA0003619612090000084
是理想的权重矩阵,
Figure BDA0003619612090000085
Figure BDA0003619612090000086
是高斯基函数向量,
Figure BDA0003619612090000087
Figure BDA0003619612090000088
逼近误差,并满足
Figure BDA0003619612090000089
Figure BDA00036196120900000810
其中δfi和δhi是两个正的常数,li是神经元数。
因为两个理想权值
Figure BDA00036196120900000811
Figure BDA00036196120900000812
是未知的常数矩阵,在实际应用中,需要对其自适应估计。设
Figure BDA00036196120900000813
Figure BDA00036196120900000814
表示它们的自适应估计,自适应辩识器被构造如下:
Figure BDA00036196120900000815
其中:
Figure BDA00036196120900000816
是辩识器状态,
Figure BDA00036196120900000817
为设计常数。
神经网络权重
Figure BDA00036196120900000818
Figure BDA00036196120900000819
被在线训练通过下列法则:
Figure BDA00036196120900000820
其中:
Figure BDA00036196120900000821
Figure BDA00036196120900000822
是两个正定矩阵,σfi>0和σhi>0是设计常量。
然后,从(1)和(25)可得到辨识器误差动力方程为:
Figure BDA00036196120900000823
理论1:如果自适应辨识器(25)和训练法则(26)用于对随机多智能体系统(1)的未知动力进行估计,则可以保证1)这个自适应辨识器系统的所有信号都是半全局一致最终有界在期望意义;2)通过使设计参数ki足够大,辨识器误差ηi(t)收敛到一个小的零邻域在期望意义。
证明:选择李雅普诺夫函数为:
Figure BDA00036196120900000824
其中:
Figure BDA00036196120900000825
Figure BDA00036196120900000826
权重误差。
根据(26)和(27),计算无穷小生成算子L V1(t)为:
Figure BDA0003619612090000091
应用柯西不等式和杨氏不等式,可得以下结果:
Figure BDA0003619612090000092
用以上不等式(30),等式(29)可以变成:
Figure BDA0003619612090000093
将(24)代入不等式(31),利用迹算子的性质Tr(ABT)=ATB=BTA,A,
Figure BDA0003619612090000094
可得如下结果:
Figure BDA0003619612090000095
根据
Figure BDA0003619612090000096
Figure BDA0003619612090000097
有以下等式:
Figure BDA0003619612090000098
利用柯西不等式和杨氏不等式可得到下列结果:
Figure BDA0003619612090000099
将上述(33)和(34)代入(32)有
Figure BDA0003619612090000101
Figure BDA0003619612090000102
然后不等式(35)能被重写为:
L V1(t)≤-α1V1(t)+β1, (36)
其中:
Figure BDA0003619612090000103
根据引理1,可得到以下结果:
Figure BDA0003619612090000104
由上述不等式可知,自适应辨识器(25)和训练法则(26)可以保证:1)辨识器系统的所有信号都是半全局一致最终有界在期望意义;2)通过选择足够大的参数ki,辨识器误差ηi(t)可以收敛到一个小的零邻域在期望意义。
四.强化学习优化编队控制设计
根据定理1,跟踪误差zi(t)可估计为:
Figure BDA0003619612090000105
根据(25),可计算
Figure BDA0003619612090000106
的导数为:
Figure BDA0003619612090000107
且编队误差χi(t)可估计为:
Figure BDA0003619612090000108
在(22)中用
Figure BDA0003619612090000109
替换χi(t),得到分布最优控制
Figure BDA00036196120900001010
的估计为:
Figure BDA00036196120900001011
为了实现跟踪控制,将梯度项
Figure BDA00036196120900001012
分割为:
Figure BDA00036196120900001013
其中:γi是一个设计参数,
Figure BDA00036196120900001014
将(42)代入(41)产生:
Figure BDA0003619612090000111
这个连续项
Figure BDA0003619612090000112
是未知的,可利用神经网络在紧集Ω上对其逼近为:
Figure BDA0003619612090000113
其中:
Figure BDA0003619612090000114
Figure BDA0003619612090000115
分别是理想的神经网络权重矩阵和高斯基函数向量,qi是神经元数,
Figure BDA0003619612090000116
是逼近误差,是有界的被一个常数δi,即
Figure BDA0003619612090000117
将(44)代入(43)和(44)有:
Figure BDA0003619612090000118
Figure BDA0003619612090000119
由于理想权重
Figure BDA00036196120900001110
是未知的,因此最优控制(46)是不可用的。为了获得可用的控制,对评判-执行结构的强化学习进行如下设计。
评判网络设计如下:
Figure BDA00036196120900001111
其中
Figure BDA00036196120900001112
是评判网络的输出,
Figure BDA00036196120900001113
是权重矩阵,被训练通过下列法则:
Figure BDA00036196120900001114
其中kci>0为设计参数。
执行网络设计如下:
Figure BDA00036196120900001115
其中
Figure BDA00036196120900001116
是权重矩阵,被训练通过下列法则:
Figure BDA00036196120900001117
其中kai>0为设计参数。
五.强化学习自适应律设计原理
强化学习训练法则(48)和(50)的数学推导如下:
Figure BDA00036196120900001118
Figure BDA00036196120900001119
替换HJB方程(21)中的
Figure BDA00036196120900001120
Figure BDA00036196120900001121
可得其近似方程为:
Figure BDA0003619612090000121
根据先前的描述,分布式优化编队控制(49)希望使
Figure BDA0003619612090000122
如果
Figure BDA0003619612090000123
满足且有唯一解,则等价于:
Figure BDA0003619612090000124
Figure BDA0003619612090000125
显然,方程(52)等价于Qi(t)=0。然后基于Qi(t)的负梯度,推导出训练律(48)和(50)。
计算Qi(t)的导数沿(48)和(50),并使用这个事实
Figure BDA0003619612090000126
有下列结果:
Figure BDA0003619612090000127
不等式(53)意味着训练律(48)和(50)都能确保Qi(t)=0,因此(52)也得到保证。
六.主要结论与证明
理论2:假设随机多智能体系统(1),在有界初始状态。如果辩识器(25)与训练法则(26)被用于确定该随机多智能体系统在期望意义,评判网络(47)与训练法则(48),执行网络(49)与训练法则(50),用于优化控制,且设计常数满足下列条件:
Figure BDA0003619612090000131
该优化编队控制可实现以下目标:
i)所有误差信号是半全局一致最终有界。
ii)领航-追随编队控制能被实现。
证明:选择下面的李亚普诺夫函数
Figure BDA0003619612090000132
其中
Figure BDA0003619612090000133
根据引理2,
Figure BDA0003619612090000134
是一个正定矩阵,因此它有n正特征值λ1,…,λn。让
Figure BDA0003619612090000135
然后,可以从(40)得到
Figure BDA0003619612090000136
Figure BDA0003619612090000137
之间的关系
Figure BDA0003619612090000138
进一步,可以得到以下结果:
Figure BDA0003619612090000139
由上式(56),可以得到下列不等式
Figure BDA00036196120900001310
其中:
Figure BDA00036196120900001311
对V2(t)沿(39)、(48)和(50)求导有:
Figure BDA00036196120900001312
根据Cauchy-Schwartz和Young不等式,可以得到以下不等式:
Figure BDA0003619612090000141
将不等式(59)代入到(58)有:
Figure BDA0003619612090000142
根据
Figure BDA0003619612090000143
有以下等式:
Figure BDA0003619612090000144
将以上(61)替入(60)有
Figure BDA0003619612090000151
由(54)中的条件kai>kci可得:
Figure BDA0003619612090000152
将不等式(63)代入(62)有:
Figure BDA0003619612090000153
根据条件(54),不等式(64)可以变为:
Figure BDA0003619612090000154
其中:
Figure BDA0003619612090000161
Figure BDA0003619612090000162
是正定矩阵的最小特征值
Figure BDA0003619612090000163
Figure BDA0003619612090000164
由定理1可以得出,C(t)的所有项都是有界的,因此一定存在一个常数β2,满足:||C(t)||≤β2
根据(57),(65)可以被重写为:
Figure BDA0003619612090000165
其中:
Figure BDA0003619612090000166
根据引理3,从(66)可以得到下列不等式:
Figure BDA0003619612090000167
上述不等式表明,所有的误差信号都是半全局一致最终有界,通过选择设计常数足够大,可以使编队跟踪误差收敛到期望的小零邻域。
七.仿真实验
为了进一步验证所提出的优化多智能体编队控制方法,下列数值仿真被执行。这个数值多智能体被建模为:
Figure BDA0003619612090000168
其中:ai=1,2,3,4=0.5,-0.8,0.6,-1.1,bi=1,2,3,4=-0.5,1.1,0.5,-1.2,ci=1,2,3,4=-0.8,0.4,-0.7,0.8,di=1,2,3,4=0.5,-0.6,1.1,-1.9。初状态为:xi=1,2,3,4(0)=[5,4]T,[-5,6]T,[4,-5]T,[-5,-3]T
所期望的编队运动轨迹,也就是领航智能体为:yr(t)=[2 sin(0.7t),3 cos(0.7t)]T。这个多智能体的编队队形,也就是与领航智能体的相对位置为:ζi=1,2,3,4=[3.7,3.7]T,[-3.7,3.7]T,[3.7,-3.7]T,[-3.7,-3.7]T。这个多智能体系统的邻接矩阵、及各智能体与领航智能体的通信权重分别为:
Figure BDA0003619612090000169
B=diag{1,0,0,0}。
辩识器设计:神经网络设计为16个神经元,基函数向量Θfi(xi),Θhii),i=1,…,4,被设计分别通过高斯函数
Figure BDA0003619612090000171
Figure BDA0003619612090000172
这个高斯函数的中心μj均匀分布在-8到8之间,且宽度为2。
对应到(25),这个辨识器系统,参数被选择ki=1,2,3,4=55,初始值为
Figure BDA0003619612090000173
Figure BDA0003619612090000174
对应于训练法则(26),选择参数为:Γfi=1,2,3,4=0.5I16×16fi=1,2,3,4=0.3,Γhi=1,2,3,4=0.4I16×16hi=1,2,3,4=0.3。其权重矩阵初始值为:
Figure BDA0003619612090000175
强化学习设计:神经网络设计有24个神经元,然后基函数向量被设计基于高斯函数
Figure BDA0003619612090000176
这个高斯函数的中心μj均匀分布在-8到8之间,且宽度ρi为2。对应到优化控制(49),控制参数设置为:γi=1,2,3,4=50。对应到强化学习训练法则(48)和(50),设计参数选择为kc1,c2,c3,c4=1.3和ka1,a2,a3,a4=1.8,神经网络权重的初始值设为
Figure BDA0003619612090000177
图2-图9显示了仿真结果。从图2中可以看出,通过执行所提出的控制,实现了预期的编队。图3给出了优化控制的代价函数。图4显示了辨识器误差ηi(t)收敛到零,这意味着辨识器可以准确对原系统进行估计,并应用于控制设计。图5显示了估计的跟踪误差
Figure BDA0003619612090000178
收敛于零。图4和图5表明跟踪误差zi(t)可以被保证收敛到零。图6-图9显示了辨识器、评判和执行神经网络的自适应权重的有界性。从图2-图9中可以看出,所提出的优化编队控制能够实现控制目标。
本发明不局限于上述实施方式,任何人应得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims (10)

1.一种随机非线性多智能体的强化学习优化编队控制方法,其特征在于,包括以下步骤:
步骤1)建立多智能体系统状态与领航智能体状态之间的跟踪误差,并根据多智能体动力方程,推导出误差动力微分方程;
步骤2)定义基于邻居智能体的编队误差项,并利用误差动力微分方程,求导出编队误差微分方程;
步骤3)利用编队误差,定义分布式最优性能指标函数,并利用动力方程获得分布式HJB等式,利用HJB方程有唯一解的性质,求得该最优控制的基本形式;
步骤4)利用神经网络设计自适应辨识器,对随机多智能体系统的未知动力进行估计在期望意义,并设计李亚普诺夫函数对其进行证明;
步骤5)利用自适应辨识器状态对跟踪误差及编队误差进行估计,进而获得最优控制及HJB方程的近似形式;
步骤6)设计强化学习的评判网络和执行网络,从而获得优化控制;
步骤7)设计李雅普诺夫函数,对其进行稳定性和误差收敛性分析;
步骤8)利用Matlab软件进行仿真实验。
2.根据权利要求1所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述步骤1)中的多智能体系统状态为xi(t),领航智能体状态为yr(t),然后建立跟踪误差为:zi(t)=xi(t)-yr(t)-ζi,i=1,…,n,误差动力微分方程为:
Figure FDA0003619612080000015
3.根据权利要求1所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述步骤2)中的编队误差项为:
Figure FDA0003619612080000011
其中:Yi表示智能体i的邻居智能体集;编队误差微分方程为:
Figure FDA0003619612080000012
其中:
Figure FDA0003619612080000013
4.根据权利要求1所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述步骤3)中的最优性能指标函数为
Figure FDA0003619612080000014
其中
Figure FDA0003619612080000021
分布式HJB等式为:
Figure FDA0003619612080000022
并利用HJB方程有唯一解的性质,通过方程
Figure FDA0003619612080000023
解得该最优控制的基本形式为:
Figure FDA0003619612080000024
5.根据权利要求1所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述步骤4)中的利用神经网络对未知动力函数fi(xi)和hii)=ηi(t)||ψi(xi)||4进行逼近:
Figure FDA0003619612080000025
然后,设计自适应辨识器:
Figure FDA0003619612080000026
其中
Figure FDA0003619612080000027
Figure FDA0003619612080000028
是辩识器状态,
Figure FDA0003619612080000029
为设计常数。
6.根据权利要求5所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述神经网络的权重
Figure FDA00036196120800000210
Figure FDA00036196120800000211
被在线训练通过下列法则:
Figure FDA00036196120800000212
7.根据权利要求1所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述步骤5)中的跟踪误差及编队误差进行估计为:
Figure FDA00036196120800000213
获得最优控制为
Figure FDA00036196120800000214
HJB方程的近似形式为
Figure FDA00036196120800000215
8.根据权利要求1所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述步骤6)中的评判网络为
Figure FDA00036196120800000216
评判网络训练法则为
Figure FDA00036196120800000217
执行网络为
Figure FDA0003619612080000031
执行网络训练法则为
Figure FDA0003619612080000032
9.根据权利要求8所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述评判网络和执行网络根据HJB方程有唯一解的性质,利用其偏导构建一个与其等价的简单正定函数,对这个简单的正函数执行梯度下降法,得到强化学习算法。
10.根据权利要求1所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述步骤7)中的李雅普诺夫函数被设计为:
Figure FDA0003619612080000033
然后计算其导数,获得结果:
Figure FDA0003619612080000034
从而证明优化编队控制方法的有效性。
CN202210453088.7A 2022-04-27 2022-04-27 一种随机非线性多智能体的强化学习优化编队控制方法 Withdrawn CN114740710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210453088.7A CN114740710A (zh) 2022-04-27 2022-04-27 一种随机非线性多智能体的强化学习优化编队控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210453088.7A CN114740710A (zh) 2022-04-27 2022-04-27 一种随机非线性多智能体的强化学习优化编队控制方法

Publications (1)

Publication Number Publication Date
CN114740710A true CN114740710A (zh) 2022-07-12

Family

ID=82283786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210453088.7A Withdrawn CN114740710A (zh) 2022-04-27 2022-04-27 一种随机非线性多智能体的强化学习优化编队控制方法

Country Status (1)

Country Link
CN (1) CN114740710A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116500893A (zh) * 2023-04-19 2023-07-28 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN116540736A (zh) * 2023-06-12 2023-08-04 天津工业大学 基于人机交互二阶非线性多智能体系统的编队控制方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116500893A (zh) * 2023-04-19 2023-07-28 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN116500893B (zh) * 2023-04-19 2023-11-14 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN116540736A (zh) * 2023-06-12 2023-08-04 天津工业大学 基于人机交互二阶非线性多智能体系统的编队控制方法
CN116540736B (zh) * 2023-06-12 2024-02-23 天津工业大学 基于人机交互二阶非线性多智能体系统的编队控制方法

Similar Documents

Publication Publication Date Title
CN111351488B (zh) 飞行器智能轨迹重构再入制导方法
CN110647042B (zh) 一种基于数据驱动的机器人鲁棒学习预测控制方法
Tang et al. Dynamic event-triggered control for discrete-time nonlinear Markov jump systems using policy iteration-based adaptive dynamic programming
CN114740710A (zh) 一种随机非线性多智能体的强化学习优化编队控制方法
CN108284442B (zh) 一种基于模糊神经网络的机械臂柔性关节控制方法
Elhaki et al. Reinforcement learning-based saturated adaptive robust neural-network control of underactuated autonomous underwater vehicles
Adánez et al. Multidimensional membership functions in T–S fuzzy models for modelling and identification of nonlinear multivariable systems using genetic algorithms
Shirzadeh et al. Trajectory tracking of a quadrotor using a robust adaptive type-2 fuzzy neural controller optimized by cuckoo algorithm
Qin et al. Robust adaptive consensus of nonstrict-feedback multi-agent systems with quantized input and unmodeled dynamics
CN111399375A (zh) 一种基于非线性系统的神经网络预测控制器
CN107255920A (zh) 基于网络优化算法的pid控制方法和装置及系统
Rego et al. Lyapunov-based continuous-time nonlinear control using deep neural network applied to underactuated systems
CN111291471A (zh) 一种基于l1正则无迹变换的约束多模型滤波方法
CN101251868A (zh) 水下潜器运动机理模型与递归神经网络并行建模方法
CN114626307B (zh) 一种基于变分贝叶斯的分布式一致性目标状态估计方法
Pöhler et al. Uncertainty-based human motion tracking with stable Gaussian process state space models
CN115167102A (zh) 一种基于并行优势动作评价的强化学习自适应pid控制方法
CN109800517B (zh) 一种改进的磁流变阻尼器逆向建模方法
Chen et al. Novel adaptive neural networks control with event-triggered for uncertain nonlinear system
CN114357872A (zh) 一种基于stacking模型融合的船舶运动黑箱辨识建模与运动预测方法
CN107450311A (zh) 逆模型建模方法及装置、以及自适应逆控制方法及装置
CN111798494A (zh) 广义相关熵准则下的机动目标鲁棒跟踪方法
CN106371321A (zh) 一种焦化炉炉膛压力系统模糊网络优化pid控制方法
CN105197185A (zh) 一种船舶舵机的迭代学习控制算法
Vianna et al. Neural Network Based Model Predictive Control for an Autonomous Vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220712

WW01 Invention patent application withdrawn after publication