CN114740710A - 一种随机非线性多智能体的强化学习优化编队控制方法 - Google Patents
一种随机非线性多智能体的强化学习优化编队控制方法 Download PDFInfo
- Publication number
- CN114740710A CN114740710A CN202210453088.7A CN202210453088A CN114740710A CN 114740710 A CN114740710 A CN 114740710A CN 202210453088 A CN202210453088 A CN 202210453088A CN 114740710 A CN114740710 A CN 114740710A
- Authority
- CN
- China
- Prior art keywords
- formation
- agent
- error
- equation
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/024—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及自适应非线性控制技术领域,具体公开了一种随机非线性多智能体的强化学习优化编队控制方法,基于神经网络的函数逼近能力,设计了一种自适应辨识器对未知随机动力进行估计在期望意义,然后通过构建评判网络和执行经网络执行强化学习,从而获得优化控制;在本发明中,由于强化学习算法是通过对一个简单的正函数执行梯度下降法得到的,该函数设计根据HJB方程的偏导,因此可以使最优控制比传统的方法更简单,可以更方便地应用到随机非线性多智能体系统;最后,从定理证明和计算机仿真两个方面验证,所提出的优化方法能够实现预期的目标。
Description
技术领域
本发明涉及自适应非线性控制技术领域,具体涉及一种随机非线性多智能体的强化学习优化编队控制方法。
背景技术
随机系统的控制设计是一个非常具有挑战性的问题,因为它的微分不仅涉及随机扰动,而且还涉及稳定性分析中的Hessian项。随着控制理论的发展,一些流行的非线性控制技术,如Sontag的镇定公式,反步技术和自适应观测器,已经被推广到随机系统。值得提及的是,一些最优控制方法也被扩展到随机非线性系统。然而,由于随机多智能体控制需要状态耦合,给优化设计带来了困难,因此对随机多智能体系统的最优编队控制鲜有报道。主要原因是传统的强化学习优化方法,要么是复杂算法,要么要求一些严格的条件,如:持续激励,他们很难应用和推广到随机多智能体系统控制。针对这一情况,本发明提出了一种基于强化学习策略的多智能体优化编队控制方法。通过构建自适应辨识器,解决了未知随机动力问题。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种随机非线性多智能体的强化学习优化编队控制方法。
本发明解决其技术问题所采用的技术方案是:一种随机非线性多智能体的强化学习优化编队控制方法,包括以下步骤:
步骤1)建立多智能体系统状态与领航智能体状态之间的跟踪误差,并根据多智能体动力方程,推导出误差动力微分方程;
步骤2)定义基于邻居智能体的编队误差项,并利用误差动力微分方程,求导出编队误差微分方程;
步骤3)利用编队误差,定义分布式最优性能指标函数,并利用动力方程获得分布式HJB(Hamilton-Jacobi-Bellman)等式,利用HJB方程有唯一解的性质,求得该最优控制的基本形式;
步骤4)利用神经网络设计自适应辨识器,对随机多智能体系统的未知动力进行估计在期望意义,并设计李亚普诺夫函数对其进行证明;
步骤5)利用自适应辨识器状态对跟踪误差及编队误差进行估计,进而获得最优控制及HJB方程的近似形式;
步骤6)设计强化学习的评判网络和执行网络,从而获得优化控制;
步骤7)设计李雅普诺夫函数,对其进行稳定性和误差收敛性分析;
步骤8)利用Matlab软件进行仿真实验。
具体的是:所述步骤2)中的编队误差项为:
其中:Yi表示智能体i的邻居智能体集;编队误差微分方程为:
具体的是:所述步骤5)中的跟踪误差及编队误差进行估计为
具体的是:所述评判网络和执行网络根据HJB方程有唯一解的性质,利用其偏导构建一个与其等价的简单正定函数,对这个简单的正函数执行梯度下降法,得到强化学习算法。
具体的是:所述步骤7)中的李雅普诺夫函数被设计为:
本发明具有以下有益效果:
本发明设计的随机非线性多智能体的强化学习优化编队控制方法,利用HJB方程偏导设计一个与其等价的简单正函数,采用梯度下降法得到强化学习算法,从而最终获得其优化控制。因为这个设计能大大缓解算法的复杂度,能有效用于随机非线性多智能体控制。
附图说明
图1是本发明提出的随机多智能体优化编队控制结构框图。
图2是仿真算例的多智能体优化编队控制性能的示意图。
图3是仿真算例的编队控制的代价函数。
图4是仿真算例的辨识器误差收敛性。
图5是仿真算例的编队跟踪误差变量收敛性。
具体实施方式
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地进一步详细的说明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,针对未知动力的随机非线性多智能体系统,提供了一种基于强化学习的随机非线性多智能体的优化编队控制方法,具体内容如下:
一.系统建模与问题陈述
考虑下列随机非线性多智能体系统,其各智能体之间的互连通讯拓扑图为无向连通图:
dxi(t)=(ui+fi(xi))dt+ψi(xi)dw,i=1,…,n (1)
zi(t)=xi(t)-yr(t)-ζi,i=1,…,n, (2)
根据(1),跟踪误差zi(t)的动力方程为:
控制目标:针对随机非线性多智能体系统(1),设计分布式优化编队控制ui=1,…,n,确保:i).该闭环控制的所有误差信号是一致最终有界在期望意义;ii).跟踪误差收敛到一个小的零领域在期望意义。
为了构建最优编队控制,定义下列编队误差项:
其中:Yi表示智能体i的邻居集,aij是A=[aij]毗邻矩阵的元素,表示智能体间的通讯权重;bi表示智能体与领航智能体之间的通讯权重,并假设到少有一个bi≠0。
根据跟踪误差的定义,编队误差(4)可以重新表示为:
根据微分方程(3),编队误差动力微分方程可得为:
并且它的伊藤微分公式为:
那么随机系统(1)在有界初始状态x(0)下有唯一强解,且满足:
上述结果意味着xi是半全局一致最终有界在期望意义。
其中e是自然对数的底数。
二.最优编队控制描述
对于多智能体系统(1),引入性能指标为:
定义1:ui被称为在集合Ω可容许控制,表示为ui∈Ψ(Ω),如果它是连续的,满足ui(0)=0,稳定(1)在集合Ω,并使(12)有界在期望意义。
定义2:随机多智能体系统(1)的一个可容许编队控制被称为最优控制,如果它能在完成控制任务,同时最小化性能指标(12)。
根据(13),引入分布式性能指标为:
然后,可以定义分布式性能指数函数为:
根据最优控制的描述,(16)意味着:
通过几个简单的积分计算到(16),然后有
经过几次基本的数学运算在(18),可得
根据随机动力方程(6)和伊藤微分规则(8),有下列结果:
将(20)代入(19),得到分布式HJB方程为:
然而,由于该方程的强非线性,用解析方法求解是不可能的。在本发明中,强化学习策略被采用为获得优化控制,从而有效克服来自求解HJB方程的困难。
三.自适应神经网络辨识器设计
由于随机多智能体系统(1)中的非线性函数fi(xi)和ψi(xi)是未知的,成为控制设计的一个阻碍,因此我们需要构造了自适应神经网络辨识器,对其随机动力进行估计在期望意义。在紧集Ω,神经网络被设计逼近两个未知函数fi(xi)和hi(θi)=ηi(t)||ψi(xi)||4如下,其中:hi(θi)的详细推导在定理1,ηi(t)是辨识器误差:
然后,从(1)和(25)可得到辨识器误差动力方程为:
理论1:如果自适应辨识器(25)和训练法则(26)用于对随机多智能体系统(1)的未知动力进行估计,则可以保证1)这个自适应辨识器系统的所有信号都是半全局一致最终有界在期望意义;2)通过使设计参数ki足够大,辨识器误差ηi(t)收敛到一个小的零邻域在期望意义。
证明:选择李雅普诺夫函数为:
根据(26)和(27),计算无穷小生成算子L V1(t)为:
应用柯西不等式和杨氏不等式,可得以下结果:
用以上不等式(30),等式(29)可以变成:
利用柯西不等式和杨氏不等式可得到下列结果:
将上述(33)和(34)代入(32)有
L V1(t)≤-α1V1(t)+β1, (36)
根据引理1,可得到以下结果:
由上述不等式可知,自适应辨识器(25)和训练法则(26)可以保证:1)辨识器系统的所有信号都是半全局一致最终有界在期望意义;2)通过选择足够大的参数ki,辨识器误差ηi(t)可以收敛到一个小的零邻域在期望意义。
四.强化学习优化编队控制设计
根据定理1,跟踪误差zi(t)可估计为:
且编队误差χi(t)可估计为:
将(42)代入(41)产生:
将(44)代入(43)和(44)有:
评判网络设计如下:
其中kci>0为设计参数。
执行网络设计如下:
其中kai>0为设计参数。
五.强化学习自适应律设计原理
强化学习训练法则(48)和(50)的数学推导如下:
不等式(53)意味着训练律(48)和(50)都能确保Qi(t)=0,因此(52)也得到保证。
六.主要结论与证明
理论2:假设随机多智能体系统(1),在有界初始状态。如果辩识器(25)与训练法则(26)被用于确定该随机多智能体系统在期望意义,评判网络(47)与训练法则(48),执行网络(49)与训练法则(50),用于优化控制,且设计常数满足下列条件:
该优化编队控制可实现以下目标:
i)所有误差信号是半全局一致最终有界。
ii)领航-追随编队控制能被实现。
证明:选择下面的李亚普诺夫函数
由上式(56),可以得到下列不等式
对V2(t)沿(39)、(48)和(50)求导有:
根据Cauchy-Schwartz和Young不等式,可以得到以下不等式:
将不等式(59)代入到(58)有:
将以上(61)替入(60)有
由(54)中的条件kai>kci可得:
将不等式(63)代入(62)有:
根据条件(54),不等式(64)可以变为:
根据(57),(65)可以被重写为:
根据引理3,从(66)可以得到下列不等式:
上述不等式表明,所有的误差信号都是半全局一致最终有界,通过选择设计常数足够大,可以使编队跟踪误差收敛到期望的小零邻域。
七.仿真实验
为了进一步验证所提出的优化多智能体编队控制方法,下列数值仿真被执行。这个数值多智能体被建模为:
其中:ai=1,2,3,4=0.5,-0.8,0.6,-1.1,bi=1,2,3,4=-0.5,1.1,0.5,-1.2,ci=1,2,3,4=-0.8,0.4,-0.7,0.8,di=1,2,3,4=0.5,-0.6,1.1,-1.9。初状态为:xi=1,2,3,4(0)=[5,4]T,[-5,6]T,[4,-5]T,[-5,-3]T。
所期望的编队运动轨迹,也就是领航智能体为:yr(t)=[2 sin(0.7t),3 cos(0.7t)]T。这个多智能体的编队队形,也就是与领航智能体的相对位置为:ζi=1,2,3,4=[3.7,3.7]T,[-3.7,3.7]T,[3.7,-3.7]T,[-3.7,-3.7]T。这个多智能体系统的邻接矩阵、及各智能体与领航智能体的通信权重分别为:B=diag{1,0,0,0}。
对应到(25),这个辨识器系统,参数被选择ki=1,2,3,4=55,初始值为 对应于训练法则(26),选择参数为:Γfi=1,2,3,4=0.5I16×16,σfi=1,2,3,4=0.3,Γhi=1,2,3,4=0.4I16×16,σhi=1,2,3,4=0.3。其权重矩阵初始值为:
强化学习设计:神经网络设计有24个神经元,然后基函数向量被设计基于高斯函数这个高斯函数的中心μj均匀分布在-8到8之间,且宽度ρi为2。对应到优化控制(49),控制参数设置为:γi=1,2,3,4=50。对应到强化学习训练法则(48)和(50),设计参数选择为kc1,c2,c3,c4=1.3和ka1,a2,a3,a4=1.8,神经网络权重的初始值设为
图2-图9显示了仿真结果。从图2中可以看出,通过执行所提出的控制,实现了预期的编队。图3给出了优化控制的代价函数。图4显示了辨识器误差ηi(t)收敛到零,这意味着辨识器可以准确对原系统进行估计,并应用于控制设计。图5显示了估计的跟踪误差收敛于零。图4和图5表明跟踪误差zi(t)可以被保证收敛到零。图6-图9显示了辨识器、评判和执行神经网络的自适应权重的有界性。从图2-图9中可以看出,所提出的优化编队控制能够实现控制目标。
本发明不局限于上述实施方式,任何人应得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
本发明未详细描述的技术、形状、构造部分均为公知技术。
Claims (10)
1.一种随机非线性多智能体的强化学习优化编队控制方法,其特征在于,包括以下步骤:
步骤1)建立多智能体系统状态与领航智能体状态之间的跟踪误差,并根据多智能体动力方程,推导出误差动力微分方程;
步骤2)定义基于邻居智能体的编队误差项,并利用误差动力微分方程,求导出编队误差微分方程;
步骤3)利用编队误差,定义分布式最优性能指标函数,并利用动力方程获得分布式HJB等式,利用HJB方程有唯一解的性质,求得该最优控制的基本形式;
步骤4)利用神经网络设计自适应辨识器,对随机多智能体系统的未知动力进行估计在期望意义,并设计李亚普诺夫函数对其进行证明;
步骤5)利用自适应辨识器状态对跟踪误差及编队误差进行估计,进而获得最优控制及HJB方程的近似形式;
步骤6)设计强化学习的评判网络和执行网络,从而获得优化控制;
步骤7)设计李雅普诺夫函数,对其进行稳定性和误差收敛性分析;
步骤8)利用Matlab软件进行仿真实验。
9.根据权利要求8所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述评判网络和执行网络根据HJB方程有唯一解的性质,利用其偏导构建一个与其等价的简单正定函数,对这个简单的正函数执行梯度下降法,得到强化学习算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210453088.7A CN114740710A (zh) | 2022-04-27 | 2022-04-27 | 一种随机非线性多智能体的强化学习优化编队控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210453088.7A CN114740710A (zh) | 2022-04-27 | 2022-04-27 | 一种随机非线性多智能体的强化学习优化编队控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114740710A true CN114740710A (zh) | 2022-07-12 |
Family
ID=82283786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210453088.7A Withdrawn CN114740710A (zh) | 2022-04-27 | 2022-04-27 | 一种随机非线性多智能体的强化学习优化编队控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114740710A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116500893A (zh) * | 2023-04-19 | 2023-07-28 | 齐鲁工业大学(山东省科学院) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 |
CN116540736A (zh) * | 2023-06-12 | 2023-08-04 | 天津工业大学 | 基于人机交互二阶非线性多智能体系统的编队控制方法 |
-
2022
- 2022-04-27 CN CN202210453088.7A patent/CN114740710A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116500893A (zh) * | 2023-04-19 | 2023-07-28 | 齐鲁工业大学(山东省科学院) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 |
CN116500893B (zh) * | 2023-04-19 | 2023-11-14 | 齐鲁工业大学(山东省科学院) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 |
CN116540736A (zh) * | 2023-06-12 | 2023-08-04 | 天津工业大学 | 基于人机交互二阶非线性多智能体系统的编队控制方法 |
CN116540736B (zh) * | 2023-06-12 | 2024-02-23 | 天津工业大学 | 基于人机交互二阶非线性多智能体系统的编队控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111351488B (zh) | 飞行器智能轨迹重构再入制导方法 | |
CN110647042B (zh) | 一种基于数据驱动的机器人鲁棒学习预测控制方法 | |
Tang et al. | Dynamic event-triggered control for discrete-time nonlinear Markov jump systems using policy iteration-based adaptive dynamic programming | |
CN114740710A (zh) | 一种随机非线性多智能体的强化学习优化编队控制方法 | |
CN108284442B (zh) | 一种基于模糊神经网络的机械臂柔性关节控制方法 | |
Elhaki et al. | Reinforcement learning-based saturated adaptive robust neural-network control of underactuated autonomous underwater vehicles | |
Adánez et al. | Multidimensional membership functions in T–S fuzzy models for modelling and identification of nonlinear multivariable systems using genetic algorithms | |
Shirzadeh et al. | Trajectory tracking of a quadrotor using a robust adaptive type-2 fuzzy neural controller optimized by cuckoo algorithm | |
Qin et al. | Robust adaptive consensus of nonstrict-feedback multi-agent systems with quantized input and unmodeled dynamics | |
CN111399375A (zh) | 一种基于非线性系统的神经网络预测控制器 | |
CN107255920A (zh) | 基于网络优化算法的pid控制方法和装置及系统 | |
Rego et al. | Lyapunov-based continuous-time nonlinear control using deep neural network applied to underactuated systems | |
CN111291471A (zh) | 一种基于l1正则无迹变换的约束多模型滤波方法 | |
CN101251868A (zh) | 水下潜器运动机理模型与递归神经网络并行建模方法 | |
CN114626307B (zh) | 一种基于变分贝叶斯的分布式一致性目标状态估计方法 | |
Pöhler et al. | Uncertainty-based human motion tracking with stable Gaussian process state space models | |
CN115167102A (zh) | 一种基于并行优势动作评价的强化学习自适应pid控制方法 | |
CN109800517B (zh) | 一种改进的磁流变阻尼器逆向建模方法 | |
Chen et al. | Novel adaptive neural networks control with event-triggered for uncertain nonlinear system | |
CN114357872A (zh) | 一种基于stacking模型融合的船舶运动黑箱辨识建模与运动预测方法 | |
CN107450311A (zh) | 逆模型建模方法及装置、以及自适应逆控制方法及装置 | |
CN111798494A (zh) | 广义相关熵准则下的机动目标鲁棒跟踪方法 | |
CN106371321A (zh) | 一种焦化炉炉膛压力系统模糊网络优化pid控制方法 | |
CN105197185A (zh) | 一种船舶舵机的迭代学习控制算法 | |
Vianna et al. | Neural Network Based Model Predictive Control for an Autonomous Vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220712 |
|
WW01 | Invention patent application withdrawn after publication |