CN113485110A - 一种输出受限非线性系统分布式自适应最优协同控制方法 - Google Patents

一种输出受限非线性系统分布式自适应最优协同控制方法 Download PDF

Info

Publication number
CN113485110A
CN113485110A CN202110791189.0A CN202110791189A CN113485110A CN 113485110 A CN113485110 A CN 113485110A CN 202110791189 A CN202110791189 A CN 202110791189A CN 113485110 A CN113485110 A CN 113485110A
Authority
CN
China
Prior art keywords
optimal
distributed
control
adaptive
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110791189.0A
Other languages
English (en)
Inventor
孙景亮
龙腾
李俊志
曹严
周桢林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110791189.0A priority Critical patent/CN113485110A/zh
Publication of CN113485110A publication Critical patent/CN113485110A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开的一种输出受限非线性系统分布式自适应最优协同控制方法,属于协同控制技术领域。本发明基于所建立的多智能体严格反馈非线性系统,结合Backstepping控制方法和自适应动态规划技术,构建“前馈+反馈”复合控制架构,定义一致性误差动态面;设计神经网络权值自适应更新律,实现对非线性系统未知函数项的在线估计;提出统一界限李雅普诺夫函数,有效处理系统输出约束,避免基于界限李雅普诺夫函数的控制方法仅适用于输出受限条件的问题;设计分布式前馈自适应虚拟控制输入以及分布式自适应最优反馈实际控制律,保证多智能体系统的协同一致性,提升输出受限条件下闭环系统稳定性和鲁棒性,保证分布式最优协同控制律的最优性,节约控制成本。

Description

一种输出受限非线性系统分布式自适应最优协同控制方法
技术领域
本发明属于协同控制技术领域,尤其涉及一种输出受限非线性系统分布式自适应最优协同控制方法。
背景技术
近年来,无人机集群、无人车集群、导弹集群等多智能体系统已在军民领域得到广泛关注与快速发展。分布式最优控制技术,凭借其对闭环系统协调一致性与性能最优性方面的有效保障,已得到广大学者专家的青睐与关注,并取得了一定的理论研究成果。然而,现有分布式最优控制方法大多在理想线性化假设条件下通过求解代数黎卡提方程组推导分布式最优协同控制律。考虑实际系统的复杂非线性特性以及多智能体协同导致的强耦合特性,基于线性化假设的分布式最优协同控制律已难以满足非线性多智能体系统强鲁棒、高可靠、自适应控制需求。因此,有必要直接针对非线性多智能体系统设计分布式最优协同控制律,提升闭环系统的鲁棒性和稳定性。但非线性系统的分布式最优协同控制律设计通常涉及Hamilton-Jacobi-Bellman(HJB)方程组的求解问题,而该HJB方程组本质上属于非线性耦合偏微分方程组,通常难以找到其解析解,这给非线性分布式最优协同控制律的设计与应用带来较大技术挑战。
自适应动态规划技术凭借其对非线性函数的近似高效逼近最优代价函数,能够实现耦合HJB方程组的在线近似求解,是解决复杂非线性最优控制问题的有效工具。近年来,自适应动态规划技术已被应用于非线性多智能体系统的分布式最优协同控制律的设计中,并取得了一定的理论研究成果。但现有成果大多局限于仿射非线性系统的分布式最优控制律设计且尚未考虑系统输出约束导致的闭环系统稳定性问题,限制了分布式协同控制律的适用范围,降低了闭环系统的稳定性和鲁棒性。尽管部分研究学者已针对多智能体严格反馈非线性系统开展了基于自适应动态规划技术的分布式最优协同控制方法研究,并取得了一定的研究成果。但现有成果大多仅考虑闭环系统的稳定控制问题,尚无法有效处理系统输出约束导致的闭环系统稳定性和最优性难以同时保证的技术难题。因此,有必要设计输出受限的分布式最优协同控制律,从而达到预防输出约束违背,提升闭环系统鲁棒性,实现协同控制器优化的目的。
发明内容
本发明公开的一种输出受限非线性系统分布式自适应最优协同控制方法主要目的是:基于所建立的多智能体严格反馈非线性系统,结合Backstepping控制方法和自适应动态规划技术,构建“前馈+反馈”复合控制架构,定义一致性误差动态面;在此基础上,设计神经网络权值自适应更新律,实现对非线性系统未知函数项的在线估计;提出统一界限李雅普诺夫函数,有效处理系统输出约束;设计分布式前馈自适应虚拟控制输入以及分布式自适应最优反馈实际控制律,保证多智能体系统的协同一致性,提升输出受限条件下闭环系统稳定性和鲁棒性,保证分布式最优协同控制律的最优性,节约控制成本。
本发明的目的是通过如下技术方案实现。
本发明公开的一种输出受限非线性系统分布式自适应最优协同控制方法,通过建立多智能体不确定严格反馈非线性系统模型,结合Backstepping控制方法和自适应动态规划,构建“前馈+反馈”复合控制架构;在此架构下,定义一致性误差动态面,基于李雅普诺夫稳定性理论,设计神经网络权值自适应更新律,实现对非线性系统未知函数项的在线估计;提出统一界限李雅普诺夫函数,有效处理系统输出约束;设计分布式前馈自适应虚拟控制输入,将协同跟踪控制系统转化为等效误差子系统的分布式协同最优反馈控制问题,通过将所定义得协同最优代价函数分解为线性项和非线性项,构建评价网络,设计评价网络权值自适应更新律,在线逼近协同代价函数非线性项,从而设计包含线性反馈项的分布式协同自适应最优反馈实际控制律,保证多智能体系统的协同一致性,提升输出受限条件下闭环系统稳定性和鲁棒性,保证分布式最优协同控制律的最优性,节约控制成本。
本发明公开一种输出受限非线性系统分布式自适应最优协同控制方法,包括以下步骤:
步骤1、建立多智能体不确定严格反馈非线性系统模型。
建立多智能体不确定严格反馈非线性系统模型如公式(1)所示:
Figure BDA0003161135780000021
其中,N表示智能体总数量,ni表示每个智能体状态变量数,
Figure BDA0003161135780000022
表示第i个智能体的第q个状态变量,
Figure BDA00031611357800000219
表示维度为lq的向量空间,
Figure BDA0003161135780000024
表示xi,q对时间的一阶导数,i=1,2,...,N,q=1,2,...,ni
Figure BDA0003161135780000025
上标T表示转置;
Figure BDA0003161135780000026
为系统输入向量;
Figure BDA0003161135780000027
表示系统输出向量,yi,k为第i个智能体的第k个变量,k=1,2,...,l1;本发明中系统输出向量满足不等式
Figure BDA0003161135780000028
表示系统输出变量的边界值;
Figure BDA0003161135780000029
表示第i个智能体的内部动力学非线性光滑函数;
Figure BDA00031611357800000210
未知但满足局部李普希兹连续条件且fi,q(0)=0;
Figure BDA00031611357800000211
表示第i个智能体的输入矩阵;函数
Figure BDA00031611357800000212
可逆且满足不等式
Figure BDA00031611357800000213
其中,
Figure BDA00031611357800000214
Figure BDA00031611357800000215
均为正常数,||·||表示对变量求2-范数。
步骤2、基于步骤1所建立的多智能体不确定严格反馈非线性系统模型,结合Backstepping控制方法和自适应动态规划,构建“前馈+反馈”复合控制架构;在此架构下,定义一致性误差动态面。
结合Backstepping控制方法和自适应动态规划,构建的“前馈+反馈”复合控制架构如式(2)所示:
Figure BDA00031611357800000216
其中,
Figure BDA00031611357800000217
表示第i个智能体的前馈控制输入,
Figure BDA00031611357800000218
表示第i个智能体的最优反馈控制输入。
在上述所建立的“前馈+反馈”复合控制架构下,定义一致性误差动态面如式(3)所示:
Figure BDA0003161135780000031
其中,zi,q表示一致性误差变量,aij表示多智能体之间构成的通信拓扑结构中邻接矩阵元素,bi表示第i个跟随智能体与领导者智能体的连接状态;如果第i个跟随智能体能够获取领导者智能体的信息,则bi=1,否则,bi=0;r表示领导者智能体输出参考信号;λi,q表示将分布式虚拟控制变量
Figure BDA0003161135780000032
作为输入的一阶滤波器的输出信号,即:
Figure BDA0003161135780000033
其中,τi,q表示大于零的时间常数,
Figure BDA0003161135780000034
为λi,q对时间求一阶导数;
Figure BDA0003161135780000035
表示分布式虚拟控制变量,表达形式为
Figure BDA0003161135780000036
Figure BDA0003161135780000037
为最优反馈虚拟控制输入信号,
Figure BDA0003161135780000038
为前馈虚拟控制输入信号。
步骤3、基于Backstepping控制方法和自适应动态规划,通过设计统一的界限李雅普诺夫函数,有效处理系统输出约束;通过构建神经网络,设计神经网络权值自适应更新律,实现对多智能体系统未知函数项的在线估计;基于所设计的神经网络权值自适应更新律以及界限李雅普诺夫函数,在保证闭环系统稳定性的前提下,设计分布式前馈虚拟控制输入。
基于Backstepping控制方法和自适应动态规划,设计统一的界限李雅普诺夫函数如式(5)所示:
Figure BDA0003161135780000039
其中,VUBLF表示统一的界限李雅普诺夫函数,
Figure BDA00031611357800000310
表示状态变量xi,1的边界值,
Figure BDA00031611357800000311
满足
Figure BDA00031611357800000312
通过构建如式(6)所示神经网络,实现对多智能体系统未知函数项Fi,q(Xi,q)在线估计
Figure BDA00031611357800000313
其中,
Figure BDA00031611357800000314
表示第i个智能体中神经网络理想权值,
Figure BDA00031611357800000315
表示第i个智能体中神经网络激励函数,δi,q为神经网络逼近误差且满足||δi,q||≤δi,qM,δi,qM>0为正常数,L表示神经网络中神经元个数,Xi,q表示神经网络的输入变量。
在保证闭环系统稳定性的前提下,设计分布式前馈虚拟控制
Figure BDA00031611357800000316
前馈实际输入ui以及相应的神经网络权值自适应更新律如下:
Figure BDA00031611357800000317
Figure BDA0003161135780000041
Figure BDA0003161135780000042
Figure BDA0003161135780000043
Figure BDA0003161135780000044
其中,
Figure BDA0003161135780000045
Gi,1(xi,1)=(bi+di)gi,1(xi,1),di表示通信拓扑中入度矩阵元素li,q>0,ρi,q>0,q=1...,ni表示设计参数,
Figure BDA0003161135780000046
为神经网络理想权值θi,q的估计值,
Figure BDA0003161135780000047
表示
Figure BDA0003161135780000048
对时间求一阶导数,Γi,q>0,q=1,…,ni表示需要设计的对称矩阵;
Figure BDA0003161135780000049
表示第i个智能体的邻域;上标-1表示求逆运算。
步骤4、基于步骤3所设计的分布式前馈虚拟控制
Figure BDA00031611357800000410
前馈实际输入ui以及相应的神经网络权值自适应更新律,将原来协同跟踪控制系统转化为子系统的协同最优反馈控制问题,通过将所定义的协同代价函数分解为线性和非线性项,利用贝尔曼最优原理,推导得到分布式最优反馈控制律。
基于步骤3所设计的分布式前馈虚拟控制
Figure BDA00031611357800000411
前馈实际输入ui以及相应的神经网络权值自适应更新律,将原来协同跟踪控制系统转化为如式(12)所示的子系统的协同最优反馈控制问题:
Figure BDA00031611357800000412
其中,
Figure BDA00031611357800000413
为zi,1对时间求一阶导数,
Figure BDA00031611357800000414
Figure BDA00031611357800000415
Gi,1(xi,1)=(bi+di)gi,1(xi,1),aij,di,bi均为智能体间通信拓扑参数。
定义协同代价函数如式(13)所示:
Figure BDA00031611357800000416
其中,
Figure BDA00031611357800000417
表示zi,1-子系统的最优代价函数,αi,1表示子系统的容许控制,γi,1为预设参数。
Figure BDA00031611357800000418
为zi,1-子系统的容许控制集,上标T表示转置。
通过将所定义的协同代价函数分解为线性和非线性项,如下所示:
Figure BDA00031611357800000419
其中,ki,1表示设计参数,
Figure BDA00031611357800000420
为最优代价函数
Figure BDA00031611357800000421
的非线性项。
利用贝尔曼最优原理,推导得到zi,1-子系统的分布式最优反馈虚拟控制律如式(15)所示
Figure BDA0003161135780000051
其中,
Figure BDA0003161135780000052
表示
Figure BDA0003161135780000053
对zi,1求偏导数,即,
Figure BDA0003161135780000054
Figure BDA0003161135780000055
满足如下HJB方程
Figure BDA0003161135780000056
步骤5、基于步骤4得到的zi,1-子系统的分布式最优反馈虚拟控制输入,通过构建评价网络,设计评价网络权值自适应更新律,在线逼近最优协同代价函数非线性项,从而得到能够在线执行的分布式自适应最优反馈实际控制律,保证协同控制系统的最优性和鲁棒性,节约控制成本。
构建如式(17)所示评价网络,逼近最优协同代价函数非线性项
Figure BDA0003161135780000057
Figure BDA0003161135780000058
其中,
Figure BDA0003161135780000059
Figure BDA00031611357800000510
的估计值,
Figure BDA00031611357800000511
为评价网络近似权值向量,σi,1(zi,1)是评价网络激活函数向量。将式(17)代入式(15),得到zi,1-子系统的分布式最优反馈虚拟控制输入如下:
Figure BDA00031611357800000512
式中,
Figure BDA00031611357800000513
表示
Figure BDA00031611357800000514
的估计值,
Figure BDA00031611357800000515
表示σi,1(zi,1)对zi,1求偏导数,即,
Figure BDA00031611357800000516
设计评价网络权值自适应更新律如下:
Figure BDA00031611357800000517
其中,
Figure BDA00031611357800000518
表示
Figure BDA00031611357800000519
对时间求一阶导数,
Figure BDA00031611357800000520
ηi,1>0为评价网络学习率,
Figure BDA00031611357800000521
F1i,1和F2i,1表示设计参数,
Figure BDA00031611357800000522
ei,1表示哈密顿函数残余误差,即,
Figure BDA00031611357800000523
Figure BDA00031611357800000524
||·||表示对变量求2-范数。
通过设计如式(19)所示评价网络权值自适应更新律
Figure BDA00031611357800000525
能够保证zi,1-子系统中评价网络近似权值向量
Figure BDA00031611357800000526
趋近于其理想权值向量Wi,1,即,
Figure BDA00031611357800000527
从而使得哈密顿函数
Figure BDA00031611357800000528
保证zi,1-子系统的闭环稳定性。
进一步,考虑zi,k,k=2,...,ni-子系统,基于上述类似步骤设计分布式虚拟最优反馈控制输入
Figure BDA0003161135780000061
以及分布式实际最优反馈控制输入
Figure BDA0003161135780000062
如下:
Figure BDA0003161135780000063
Figure BDA0003161135780000064
其中,
Figure BDA0003161135780000065
Figure BDA0003161135780000066
分别表示
Figure BDA0003161135780000067
Figure BDA0003161135780000068
的估计值,ki,k为需要设计的大于零的常数,
Figure BDA0003161135780000069
表示σi,k(zi,k)对zi,q求偏导数,即,
Figure BDA00031611357800000610
Figure BDA00031611357800000611
表示评价网络近似权值向量,k={q,ni}。
同理,zi,k-子系统中评价网络权值自适应更新律设计如下:
Figure BDA00031611357800000612
式中,
Figure BDA00031611357800000626
表示
Figure BDA00031611357800000614
对时间求一阶导数,ηi,k>0表示各子系统评价网络学习率,
Figure BDA00031611357800000615
Figure BDA00031611357800000616
F1i,k和F2i,k表示设计参数,
Figure BDA00031611357800000617
ei,k表示哈密顿函数残余误差,即,
Figure BDA00031611357800000618
Figure BDA00031611357800000619
γi,k表示各子系统中代价函数预设参数,||·||表示对变量求2-范数。
通过上述评价网络权值自适应更新律(22)的设计,能够在线执行分布式自适应最优反馈实际控制律(21),保证子系统的闭环稳定性,提升协同控制系统的最优性和鲁棒性,节约控制成本。
作为优选,所述步骤5中设计分布式虚拟最优反馈控制输入
Figure BDA00031611357800000620
的具体过程如下:
考虑zi,q,q=2,...,ni-1-子系统,定义协同代价函数如式(13)所示
Figure BDA00031611357800000621
式中,
Figure BDA00031611357800000622
表示zi,q-子系统的最优代价函数,αi,q表示子系统的容许控制,γi,q为预设参数。ψ(Ωzi,q)为zi,q-子系统的容许控制集,上标T表示转置。
通过将所定义的协同代价函数分解为线性和非线性项,如公式(24)所示:
Figure BDA00031611357800000623
其中,ki,q表示大于零的设计参数,
Figure BDA00031611357800000624
为最优代价函数
Figure BDA00031611357800000625
的非线性项。
定义zi,q,q=2,...,ni-1-子系统的哈密顿函数为:
Figure BDA0003161135780000071
其中,
Figure BDA0003161135780000072
表示
Figure BDA0003161135780000073
对zi,q求偏导数,即,
Figure BDA0003161135780000074
根据贝尔曼最优性原理,推导得到如下分布式虚拟最优反馈控制输入
Figure BDA0003161135780000075
Figure BDA0003161135780000076
其中,
Figure BDA0003161135780000077
满足下列HJB方程组
Figure BDA0003161135780000078
作为优选,所述步骤5中设计分布式实际最优反馈控制输入
Figure BDA0003161135780000079
的具体过程如下:
考虑
Figure BDA00031611357800000710
-子系统,定义协同代价函数如式(28)所示
Figure BDA00031611357800000711
式中,
Figure BDA00031611357800000712
表示zi,q-子系统的最优代价函数,uoi表示子系统的容许控制,
Figure BDA00031611357800000713
为预设参数。
Figure BDA00031611357800000714
Figure BDA00031611357800000715
-子系统的容许控制集,上标T表示转置。
通过将所定义的协同代价函数分解为线性和非线性项,如公式(29)所示:
Figure BDA00031611357800000716
其中,
Figure BDA00031611357800000717
表示大于零的设计参数,
Figure BDA00031611357800000718
为最优代价函数
Figure BDA00031611357800000719
的非线性项。
定义
Figure BDA00031611357800000720
-子系统的哈密顿函数为:
Figure BDA00031611357800000721
其中,
Figure BDA00031611357800000722
表示
Figure BDA00031611357800000723
Figure BDA00031611357800000724
求偏导数,即,
Figure BDA00031611357800000725
根据贝尔曼最优性原理,推导得到如下分布式实际最优反馈控制输入
Figure BDA00031611357800000726
Figure BDA00031611357800000727
其中,
Figure BDA00031611357800000728
满足下列HJB方程组
Figure BDA00031611357800000729
有益效果:
1、本发明公开一种输出受限非线性系统分布式自适应最优协同控制方法,将自适应动态规划融入Backstepping方法虚拟控/实际控制输入的设计中,提出“前馈+反馈”的分布式复合自适应最优协同控制方法,保证闭环系统的稳定性,同时实现对虚拟控制输入的优化设计,在保证协同跟踪精度的前提下节约控制成本。
2、本发明公开一种输出受限非线性系统分布式自适应最优协同控制方法,通过将最优代价函数分解为线性和非线性项,利用自适应动态规划技术,通过构建评价网络,设计评价网络权值自适应更新律,通过设计线性反馈增强的分布式最优反馈控制输入,解决非线性耦合HJB方程的在线迭代求解问题,提升闭环系统的协同跟踪控制能力。
3、本发明公开一种输出受限非线性系统分布式自适应最优协同控制方法,通过设计统一的界限李雅普诺夫函数,提出不依赖于系统输出受限存在性条件的协同控制器,避免传统基于界限李雅普诺夫函数的控制方法仅适用于输出受限条件始终存在的问题,提升闭环系统的稳定性和鲁棒性。
附图说明
图1为本发明方法的分布式自适应最优协同控制流程图。
图2为本发明实施例提供的多智能体通信拓扑图。
图3为本发明实施例提供的协同跟踪输出曲线图。
图4为本发明实施例提供的协同跟踪误差曲线图。
图5为本发明实施例提供的多智能体状态变化曲线图。
图6为本发明实施例提供的协同跟踪实际控制输入曲线图。
图7为本发明实施例提供的协同跟踪虚拟控制输入曲线图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
为了使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明的设计过程作详细说明。其中,自始至终相同或类似的符号表示相同或类似功能。
如图1所示,本实施例公开一种输出受限非线性系统分布式自适应最优协同控制方法,具体实现步骤如下:
步骤1,建立多智能体不确定严格反馈非线性系统模型。
建立多智能体不确定严格反馈非线性系统模型如公式(33)所示:
Figure BDA0003161135780000091
其中,N表示智能体总数量,ni表示每个智能体状态变量数,
Figure BDA0003161135780000092
表示第i个智能体的第q个状态变量,
Figure BDA0003161135780000093
表示维度为lq的向量空间,
Figure BDA0003161135780000094
表示xi,q对时间的一阶导数,i=1,2,...,N,q=1,2,...,ni
Figure BDA0003161135780000095
上标T表示转置;
Figure BDA0003161135780000096
为系统输入向量;
Figure BDA0003161135780000097
表示系统输出向量,yi,k为第i个智能体的第k个变量,k=1,2,...,l1;本发明中系统输出向量满足不等式
Figure BDA0003161135780000098
表示系统输出变量的边界值;
Figure BDA0003161135780000099
表示第i个智能体的内部动力学非线性光滑函数;本发明中,
Figure BDA00031611357800000910
未知但满足局部李普希兹连续条件且fi,q(0)=0;
Figure BDA00031611357800000911
表示第i个智能体的输入矩阵;本发明中函数
Figure BDA00031611357800000912
可逆且满足不等式
Figure BDA00031611357800000913
其中,
Figure BDA00031611357800000914
Figure BDA00031611357800000915
均为正常数,||·||表示对变量求2-范数。
步骤2,基于步骤1所建立的多智能体不确定严格反馈非线性系统模型,结合Backstepping控制方法和自适应动态规划技术,构建“前馈+反馈”复合控制架构;在此架构下,定义一致性误差动态面。
结合Backstepping控制方法和自适应动态规划技术,如图1所示,本发明构建的“前馈+反馈”复合控制架构如式(34)所示:
Figure BDA00031611357800000916
其中,
Figure BDA00031611357800000917
表示第i个智能体的前馈控制输入,
Figure BDA00031611357800000918
表示第i个智能体的最优反馈控制输入。
在上述所建立的“前馈+反馈”复合控制架构下,考虑如图2所示多智能体通信拓扑结构,定义一致性误差动态面如式(35)所示:
Figure BDA00031611357800000919
其中,zi,q表示一致性误差变量,aij表示多智能体之间构成的通信拓扑结构中邻接矩阵元素,bi表示第i个跟随智能体与领导者智能体的连接状态;如果第i个跟随智能体能够获取领导者智能体的信息,则bi=1,否则,bi=0;r表示领导者智能体输出参考信号;λi,q表示将分布式虚拟控制变量
Figure BDA00031611357800000920
作为输入的一阶滤波器的输出信号,即:
Figure BDA00031611357800000921
其中,τi,q表示大于零的时间常数,
Figure BDA00031611357800000922
为λi,q对时间求一阶导数;
Figure BDA00031611357800000923
表示分布式虚拟控制变量,表达形式为
Figure BDA0003161135780000101
Figure BDA0003161135780000102
为最优反馈虚拟控制输入信号,
Figure BDA0003161135780000103
为前馈虚拟控制输入信号。
步骤3,基于Backstepping控制方法和自适应动态规划技术,通过设计新型统一的界限李雅普诺夫函数,有效处理系统输出约束;通过构建神经网络,设计神经网络权值自适应更新律,实现对多智能体系统未知函数项的在线估计;基于所设计的神经网络权值自适应更新律以及界限李雅普诺夫函数,在保证闭环系统稳定性的前提下,设计分布式前馈虚拟控制输入。
设计新型统一的界限李雅普诺夫函数如式(37)所示
Figure BDA0003161135780000104
其中,VUBLF表示统一的界限李雅普诺夫函数,
Figure BDA0003161135780000105
表示状态变量xi,1的边界值,
Figure BDA0003161135780000106
满足
Figure BDA0003161135780000107
此外,VUBLF满足下列关系:①对于任意不等于零的xi,1,VUBLF均大于零,即,当
Figure BDA0003161135780000108
时,VUBLF>0;②当且仅当xi,1=0时,VBLF=0成立;③当
Figure BDA0003161135780000109
时,VUBLF→∞成立。因此,本发明所设计的新型统一的界限李雅普诺夫函数是有效的。
给定传统界限李雅普诺夫函数如下式所示:
Figure BDA00031611357800001010
其中,VCBLF表示统一的界限李雅普诺夫函数
相比传统界限李雅普诺夫函数,本发明设计的新型统一的界限李雅普诺夫函数具备如下特征:
(1)当系统输出xi,1接近其界限值
Figure BDA00031611357800001011
时,VUBLF和VCBLF表现出类似的特性,即,当
Figure BDA00031611357800001012
时,VUBLF→∞;
(2)当系统输出约束逐渐消失,即输出约束界值趋近于无穷大时,即,
Figure BDA00031611357800001013
传统界限李雅普诺夫函数趋近于零,即,VCBLF→0;而本发明所设计的统一的界限李雅普诺夫函数VCBLF趋近于
Figure BDA00031611357800001014
即,
Figure BDA00031611357800001015
因此,对比式(37)和式(38),得出本发明所设计的新型统一的界限李雅普诺夫函数不依赖于系统输出受限存在性条件,避免基于传统界限李雅普诺夫函数的控制方法仅适用于输出受限条件始终存在的问题,提升闭环系统的稳定性和鲁棒性。
通过构建如式(39)所示神经网络,实现对多智能体系统未知函数项Fi,q(Xi,q)在线估计
Figure BDA0003161135780000111
其中,
Figure BDA0003161135780000112
表示第i个智能体中神经网络理想权值,
Figure BDA0003161135780000113
表示第i个智能体中神经网络激励函数,δi,q为神经网络逼近误差且满足||δi,q||≤δi,qM,δi,qM>0为正常数,L表示神经网络中神经元个数,Xi,q表示神经网络的输入变量。
考虑所构建的神经网络理想权值θi,q未知,本发明采用神经网络的输入
Figure BDA0003161135780000114
表示理想权值θi,q的估计值。因此,多智能体系统未知函数项Fi,q(Xi,q)在线估计表达式可表示为:
Figure BDA0003161135780000115
其中,
Figure BDA0003161135780000116
表示θi,q的估计值。
为保证所设计的分布式前馈控制输入能够保证闭环系统的稳定性,本发明设计如下李雅普诺夫函数:
Figure BDA0003161135780000117
其中,Vi F表示第i个智能体的李雅普诺夫函数,tr(·)表示对矩阵求迹,Γi,q>0,q=1,...,ni表示需要设计的对称矩阵,
Figure BDA0003161135780000118
表示神经网络权值估计误差,即,
Figure BDA0003161135780000119
基于李雅普诺夫稳定性理论,设计分布式前馈虚拟控制
Figure BDA00031611357800001110
前馈实际输入ui以及相应的神经网络权值自适应更新律如下:
Figure BDA00031611357800001111
Figure BDA00031611357800001112
Figure BDA00031611357800001113
Figure BDA00031611357800001114
Figure BDA00031611357800001115
其中,
Figure BDA00031611357800001116
Gi,1(xi,1)=(bi+di)gi,1(xi,1),di表示通信拓扑中入度矩阵元素li,q>0,ρi,q>0,q=1...,ni表示设计参数,
Figure BDA00031611357800001117
为神经网络理想权值θi,q的估计值,
Figure BDA00031611357800001118
表示
Figure BDA00031611357800001119
对时间求一阶导数,Γi,q>0,q=1,...,ni表示需要设计的对称矩阵;
Figure BDA00031611357800001120
表示第i个智能体的邻域;上标-1表示求逆运算。
步骤4,基于步骤3所设计的分布式前馈虚拟控制
Figure BDA0003161135780000121
前馈实际输入ui以及相应的神经网络权值自适应更新律,将原来协同跟踪控制系统转化为子系统的协同最优反馈控制问题,通过将所定义的协同代价函数分解为线性和非线性项,利用贝尔曼最优原理,推导得到分布式最优反馈控制律。
基于步骤3所设计的分布式前馈虚拟控制
Figure BDA0003161135780000122
前馈实际输入ui以及相应的神经网络权值自适应更新律,将原来协同跟踪控制系统转化为如式(47)所示的子系统的协同最优反馈控制问题:
Figure BDA0003161135780000123
其中,
Figure BDA0003161135780000124
为zi,1对时间求一阶导数,
Figure BDA0003161135780000125
Figure BDA0003161135780000126
Gi,1(xi,1)=(bi+di)gi,1(xi,1),aij,di,bi均为智能体间通信拓扑参数。
定义协同代价函数如式(48)所示:
Figure BDA0003161135780000127
其中,
Figure BDA0003161135780000128
表示zi,1-子系统的最优代价函数,αi,1表示子系统的容许控制,γi,1为预设参数。
Figure BDA0003161135780000129
为zi,1-子系统的容许控制集,上标T表示转置。
通过将所定义的协同代价函数分解为线性和非线性项,如下所示:
Figure BDA00031611357800001210
其中,ki,1表示设计参数,
Figure BDA00031611357800001211
为最优代价函数
Figure BDA00031611357800001212
的非线性项。
定义zi,1-子系统的哈密顿函数如下:
Figure BDA00031611357800001213
其中,
Figure BDA00031611357800001214
表示
Figure BDA00031611357800001215
对zi,1求偏导数,即,
Figure BDA00031611357800001216
利用贝尔曼最优原理,推导得到zi,1-子系统的分布式最优反馈虚拟控制输入如式(51)所示
Figure BDA00031611357800001217
其中,
Figure BDA00031611357800001218
表示
Figure BDA00031611357800001219
对zi,1求偏导数,即,
Figure BDA00031611357800001220
Figure BDA00031611357800001221
满足如下HJB方程
Figure BDA0003161135780000131
通过求解耦合HJB方程(52),能够得到zi,1-子系统的分布式最优反馈虚拟控制输入。但考虑到式(52)属于耦合非线性偏微分方程,难以获得其解析解形式。因此,如图2所示,本发明将采用自适应动态规划,通过构建评价网络,设计评价网络权值自适应更新律,实现对最优代价函数
Figure BDA0003161135780000132
的非线性项
Figure BDA0003161135780000133
的迭代求解,从而保证zi,1-子系统的分布式最优反馈虚拟控制输入在线执行。
步骤5,基于步骤4得到的zi,1-子系统的分布式最优反馈虚拟控制输入,通过构建评价网络,设计评价网络权值自适应更新律,在线逼近最优协同代价函数非线性项,从而得到能够在线执行的分布式自适应最优反馈实际控制律,保证协同控制系统的最优性和鲁棒性,节约控制成本。
通过构建评价网络,最优协同代价函数非线性项
Figure BDA0003161135780000134
表示为:
Figure BDA0003161135780000135
式中,
Figure BDA00031611357800001320
表示评价网络理想权值向量,σi,1(zi,1)是评价网络激活函数向量,εi,1为逼近误差,Li,1为评价网络神经元个数。
将式(53)代入式(51),得到zi,1-子系统的分布式最优反馈虚拟控制输入为:
Figure BDA0003161135780000137
式中,
Figure BDA0003161135780000138
表示σi,1(zi,1)对zi,1求偏导数,即,
Figure BDA0003161135780000139
Figure BDA00031611357800001310
表示εi,1对zi,1求偏导数,即,
Figure BDA00031611357800001311
考虑评价网络理想权值Wi,1未知,本实施例采用评价网络输出估计最优协同代价函数非线性项
Figure BDA00031611357800001312
即,
Figure BDA00031611357800001313
其中,
Figure BDA00031611357800001314
Figure BDA00031611357800001315
的估计值,
Figure BDA00031611357800001316
为评价网络近似权值向量。
将式(55)代入式(51),得到zi,1-子系统的分布式最优反馈虚拟控制输入如下:
Figure BDA00031611357800001317
式中,
Figure BDA00031611357800001318
表示
Figure BDA00031611357800001319
的估计值。
相应地,将式(56)代入耦合HJB(52),得到逼近的耦合HJB方程如下:
Figure BDA0003161135780000141
式中,ei,1表示zi,1-子系统的哈密顿函数残余误差,
Figure BDA0003161135780000142
||·||表示对变量求2-范数。
为保证评价网络估计权值向量
Figure BDA0003161135780000143
趋近于理想权值向量Wi,1,本实施例通过设计评价网络权值自适应更新律,最小化目标函数
Figure BDA0003161135780000144
基于梯度下降法,考虑闭环系统稳定性,本实施例设计评价网络权值自适应更新律如下:
Figure BDA0003161135780000145
其中,
Figure BDA0003161135780000146
表示
Figure BDA0003161135780000147
对时间求一阶导数,
Figure BDA0003161135780000148
ηi,1>0为评价网络学习率,
Figure BDA0003161135780000149
F1i,1和F2i,1表示设计参数。
通过设计如式(58)所示评价网络权值自适应更新律
Figure BDA00031611357800001410
能够保证zi,1-子系统中评价网络近似权值向量
Figure BDA00031611357800001411
趋近于其理想权值向量Wi,1,即,
Figure BDA00031611357800001412
从而使得哈密顿函数
Figure BDA00031611357800001413
保证zi,1-子系统的闭环稳定性。
进一步,考虑zi,k,k=2,...,ni-子系统,类似于步骤4和步骤5设计方法,可设计分布式虚拟最优反馈控制输入
Figure BDA00031611357800001414
以及分布式实际最优反馈控制律
Figure BDA00031611357800001415
如下:
Figure BDA00031611357800001416
Figure BDA00031611357800001417
其中,
Figure BDA00031611357800001418
Figure BDA00031611357800001419
分别表示
Figure BDA00031611357800001420
Figure BDA00031611357800001421
的估计值,ki,k为需要设计的大于零的常数,
Figure BDA00031611357800001422
表示σi,k(zi,k)对zi,q求偏导数,即,
Figure BDA00031611357800001423
Figure BDA00031611357800001424
表示评价网络近似权值向量,k={q,ni}。
同理,zi,k-子系统中评价网络权值自适应更新律设计如下:
Figure BDA00031611357800001425
式中,
Figure BDA00031611357800001426
表示
Figure BDA00031611357800001427
对时间求一阶导数,ηi,k>0表示各子系统评价网络学习率,
Figure BDA00031611357800001428
Figure BDA00031611357800001429
F1i,k和F2i,k表示设计参数,
Figure BDA00031611357800001430
ei,k表示哈密顿函数残余误差,即,
Figure BDA0003161135780000151
Figure BDA0003161135780000152
γi,k表示各子系统中代价函数预设参数,||·||表示对变量求2-范数。
通过上述步骤,本实施例将自适应动态规划融入Backstepping控制方法设计的每一步中,设计的复合分布式自适应最优协同控制律能够保证多智能体系统在输出不违背约束条件的前提下稳定跟踪参考轨迹,如图3所示,且协同跟踪误差最终一致有界,如图4-5所示,保证了闭环系统的稳定性,同时实现了对虚拟控制输入的优化设计,如图7所示,在保证协同跟踪精度的前提下节约控制成本,如图6所示,从而达到提升闭环系统的稳定性和鲁棒性,节约控制成本的目的。
以上所述,仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。

Claims (8)

1.一种输出受限非线性系统分布式自适应最优协同控制方法,其特征在于:包括以下步骤,
步骤1、建立多智能体不确定严格反馈非线性系统模型;
步骤2、基于步骤1所建立的多智能体不确定严格反馈非线性系统模型,结合Backstepping控制方法和自适应动态规划,构建“前馈+反馈”复合控制架构;在此架构下,定义一致性误差动态面;
步骤3、基于Backstepping控制方法和自适应动态规划,通过设计统一的界限李雅普诺夫函数,有效处理系统输出约束;通过构建神经网络,设计神经网络权值自适应更新律,实现对多智能体系统未知函数项的在线估计;基于所设计的神经网络权值自适应更新律以及界限李雅普诺夫函数,在保证闭环系统稳定性的前提下,设计分布式前馈虚拟控制输入;
步骤4、基于步骤3所设计的分布式前馈虚拟控制
Figure FDA0003161135770000011
前馈实际输入ui以及相应的神经网络权值自适应更新律,将原来协同跟踪控制系统转化为子系统的协同最优反馈控制问题,通过将所定义的协同代价函数分解为线性和非线性项,利用贝尔曼最优原理,推导得到分布式最优反馈控制律;
步骤5、基于步骤4得到的zi,1-子系统的分布式最优反馈虚拟控制输入,通过构建评价网络,设计评价网络权值自适应更新律,在线逼近最优协同代价函数非线性项,从而得到能够在线执行的分布式自适应最优反馈实际控制律,保证协同控制系统的最优性和鲁棒性,节约控制成本。
2.如权利要求1所述的一种输出受限非线性系统分布式自适应最优协同控制方法,其特征在于:步骤1实现方法为,
建立多智能体不确定严格反馈非线性系统模型如公式(1)所示:
Figure FDA0003161135770000012
其中,N表示智能体总数量,ni表示每个智能体状态变量数,
Figure FDA0003161135770000013
表示第i个智能体的第q个状态变量,
Figure FDA0003161135770000014
表示维度为lq的向量空间,
Figure FDA0003161135770000015
表示xi,q对时间的一阶导数,i=1,2,...,N,q=1,2,…,ni
Figure FDA0003161135770000016
上标T表示转置;
Figure FDA0003161135770000017
为系统输入向量;
Figure FDA0003161135770000018
表示系统输出向量,yi,k为第i个智能体的第k个变量,k=1,2,...,l1;本发明中系统输出向量满足不等式
Figure FDA0003161135770000019
Figure FDA00031611357700000110
表示系统输出变量的边界值;
Figure FDA00031611357700000111
表示第i个智能体的内部动力学非线性光滑函数;
Figure FDA00031611357700000112
未知但满足局部李普希兹连续条件且fi,q(0)=0;
Figure FDA00031611357700000113
表示第i个智能体的输入矩阵;函数
Figure FDA00031611357700000114
可逆且满足不等式
Figure FDA00031611357700000115
其中,
Figure FDA00031611357700000116
Figure FDA00031611357700000117
均为正常数,||·||表示对变量求2-范数。
3.如权利要求2所述的一种输出受限非线性系统分布式自适应最优协同控制方法,其特征在于:步骤2实现方法为,
结合Backstepping控制方法和自适应动态规划,构建的“前馈+反馈”复合控制架构如式(2)所示:
Figure FDA0003161135770000021
其中,
Figure FDA0003161135770000022
表示第i个智能体的前馈控制输入,
Figure FDA0003161135770000023
表示第i个智能体的最优反馈控制输入;
在上述所建立的“前馈+反馈”复合控制架构下,定义一致性误差动态面如式(3)所示:
Figure FDA0003161135770000024
其中,zi,q表示一致性误差变量,aij表示多智能体之间构成的通信拓扑结构中邻接矩阵元素,bi表示第i个跟随智能体与领导者智能体的连接状态;如果第i个跟随智能体能够获取领导者智能体的信息,则bi=1,否则,bi=0;r表示领导者智能体输出参考信号;λi,q表示将分布式虚拟控制变量
Figure FDA0003161135770000025
作为输入的一阶滤波器的输出信号,即:
Figure FDA0003161135770000026
其中,τi,q表示大于零的时间常数,
Figure FDA0003161135770000027
为λi,q对时间求一阶导数;
Figure FDA0003161135770000028
表示分布式虚拟控制变量,表达形式为
Figure FDA0003161135770000029
Figure FDA00031611357700000210
为最优反馈虚拟控制输入信号,
Figure FDA00031611357700000211
为前馈虚拟控制输入信号。
4.如权利要求3所述的一种输出受限非线性系统分布式自适应最优协同控制方法,其特征在于:步骤3实现方法为,
基于Backstepping控制方法和自适应动态规划,设计统一的界限李雅普诺夫函数如式(5)所示:
Figure FDA00031611357700000212
其中,VUBLF表示统一的界限李雅普诺夫函数,
Figure FDA00031611357700000213
表示状态变量xi,1的边界值,
Figure FDA00031611357700000214
满足
Figure FDA00031611357700000215
通过构建如式(6)所示神经网络,实现对多智能体系统未知函数项Fi,q(Xi,q)在线估计
Figure FDA00031611357700000216
其中,
Figure FDA00031611357700000217
表示第i个智能体中神经网络理想权值,
Figure FDA00031611357700000218
表示第i个智能体中神经网络激励函数,δi,q为神经网络逼近误差且满足||δi,q||≤δi,qM,δi,qM>0为正常数,L表示神经网络中神经元个数,Xi,q表示神经网络的输入变量;
在保证闭环系统稳定性的前提下,设计分布式前馈虚拟控制
Figure FDA00031611357700000219
前馈实际输入ui以及相应的神经网络权值自适应更新律如下:
Figure FDA0003161135770000031
Figure FDA0003161135770000032
Figure FDA0003161135770000033
Figure FDA0003161135770000034
Figure FDA0003161135770000035
其中,
Figure FDA0003161135770000036
Gi,1(xi,1)=(bi+di)gi,1(xi,1),di表示通信拓扑中入度矩阵元素li,q>0,ρi,q>0,q=1...,ni表示设计参数,
Figure FDA0003161135770000037
为神经网络理想权值θi,q的估计值,
Figure FDA0003161135770000038
表示
Figure FDA0003161135770000039
对时间求一阶导数,Γi,q>0,q=1,…,ni表示需要设计的对称矩阵;
Figure FDA00031611357700000310
表示第i个智能体的邻域;上标-1表示求逆运算。
5.如权利要求4所述的一种输出受限非线性系统分布式自适应最优协同控制方法,其特征在于:步骤4实现方法为,
基于步骤3所设计的分布式前馈虚拟控制
Figure FDA00031611357700000311
前馈实际输入ui以及相应的神经网络权值自适应更新律,将原来协同跟踪控制系统转化为如式(12)所示的子系统的协同最优反馈控制问题:
Figure FDA00031611357700000312
其中,
Figure FDA00031611357700000313
为zi,1对时间求一阶导数,
Figure FDA00031611357700000314
Figure FDA00031611357700000315
Gi,1(xi,1)=(bi+di)gi,1(xi,1),aij,di,bi均为智能体间通信拓扑参数;
定义协同代价函数如式(13)所示:
Figure FDA00031611357700000316
其中,
Figure FDA00031611357700000317
表示zi,1-子系统的最优代价函数,αi,1表示子系统的容许控制,γi,1为预设参数;
Figure FDA00031611357700000318
为zi,1-子系统的容许控制集,上标T表示转置;
通过将所定义的协同代价函数分解为线性和非线性项,如下所示:
Figure FDA00031611357700000319
其中,ki,1表示设计参数,
Figure FDA0003161135770000041
为最优代价函数
Figure FDA0003161135770000042
的非线性项;
利用贝尔曼最优原理,推导得到zi,1-子系统的分布式最优反馈虚拟控制律如式(15)所示
Figure FDA0003161135770000043
其中,
Figure FDA0003161135770000044
表示
Figure FDA0003161135770000045
对zi,1求偏导数,即,
Figure FDA0003161135770000046
Figure FDA0003161135770000047
满足如下HJB方程
Figure FDA0003161135770000048
6.如权利要求5所述的一种输出受限非线性系统分布式自适应最优协同控制方法,其特征在于:步骤5实现方法为,
构建如式(17)所示评价网络,逼近最优协同代价函数非线性项
Figure FDA0003161135770000049
Figure FDA00031611357700000410
其中,
Figure FDA00031611357700000411
Figure FDA00031611357700000412
的估计值,
Figure FDA00031611357700000413
为评价网络近似权值向量,σi,1(zi,1)是评价网络激活函数向量;将式(17)代入式(15),得到zi,1-子系统的分布式最优反馈虚拟控制输入如下:
Figure FDA00031611357700000414
式中,
Figure FDA00031611357700000415
表示
Figure FDA00031611357700000416
的估计值,
Figure FDA00031611357700000417
表示σi,1(zi,1)对zi,1求偏导数,即,
Figure FDA00031611357700000418
设计评价网络权值自适应更新律如下:
Figure FDA00031611357700000419
其中,
Figure FDA00031611357700000420
表示
Figure FDA00031611357700000421
对时间求一阶导数,
Figure FDA00031611357700000422
ηi,1>0为评价网络学习率,
Figure FDA00031611357700000423
F1i,1和F2i,1表示设计参数,
Figure FDA00031611357700000424
ei,1表示哈密顿函数残余误差,即,
Figure FDA00031611357700000425
Figure FDA00031611357700000426
||·||表示对变量求2-范数;
通过设计如式(19)所示评价网络权值自适应更新律
Figure FDA00031611357700000427
能够保证zi,1-子系统中评价网络近似权值向量
Figure FDA00031611357700000432
趋近于其理想权值向量Wi,1,即,
Figure FDA00031611357700000428
从而使得哈密顿函数
Figure FDA00031611357700000429
保证zi,1-子系统的闭环稳定性;
进一步,考虑zi,k,k=2,...,ni-子系统,基于上述类似步骤设计分布式虚拟最优反馈控制输入
Figure FDA00031611357700000430
以及分布式实际最优反馈控制输入
Figure FDA00031611357700000431
如下:
Figure FDA0003161135770000051
Figure FDA0003161135770000052
其中,
Figure FDA0003161135770000053
Figure FDA0003161135770000054
分别表示
Figure FDA0003161135770000055
Figure FDA0003161135770000056
的估计值,ki,k为需要设计的大于零的常数,
Figure FDA0003161135770000057
表示σi,k(zi,k)对zi,q求偏导数,即,
Figure FDA0003161135770000058
Figure FDA0003161135770000059
表示评价网络近似权值向量,k={q,ni};
同理,zi,k-子系统中评价网络权值自适应更新律设计如下:
Figure FDA00031611357700000510
式中,
Figure FDA00031611357700000511
表示
Figure FDA00031611357700000512
对时间求一阶导数,ηi,k>0表示各子系统评价网络学习率,
Figure FDA00031611357700000513
Figure FDA00031611357700000514
F1i,k和F2i,k表示设计参数,
Figure FDA00031611357700000515
ei,k表示哈密顿函数残余误差,即,
Figure FDA00031611357700000516
Figure FDA00031611357700000517
γi,k表示各子系统中代价函数预设参数,||·||表示对变量求2-范数;
通过上述评价网络权值自适应更新律(22)的设计,能够在线执行分布式自适应最优反馈实际控制律(21),保证子系统的闭环稳定性,提升协同控制系统的最优性和鲁棒性,节约控制成本。
7.如权利要求6所述的一种输出受限非线性系统分布式自适应最优协同控制方法,其特征在于:所述步骤5中设计分布式虚拟最优反馈控制输入
Figure FDA00031611357700000518
的具体过程如下,
考虑zi,q,q=2,...,ni-1-子系统,定义协同代价函数如式(13)所示
Figure FDA00031611357700000519
式中,
Figure FDA00031611357700000520
表示zi,q-子系统的最优代价函数,αi,q表示子系统的容许控制,γi,q为预设参数;
Figure FDA00031611357700000521
为zi,q-子系统的容许控制集,上标T表示转置;
通过将所定义的协同代价函数分解为线性和非线性项,如公式(24)所示:
Figure FDA00031611357700000522
其中,ki,q表示大于零的设计参数,
Figure FDA00031611357700000523
为最优代价函数
Figure FDA00031611357700000524
的非线性项;
定义zi,q,q=2,...,ni-1-子系统的哈密顿函数为:
Figure FDA0003161135770000061
其中,
Figure FDA0003161135770000062
表示
Figure FDA0003161135770000063
对zi,q求偏导数,即,
Figure FDA0003161135770000064
根据贝尔曼最优性原理,推导得到如下分布式虚拟最优反馈控制输入
Figure FDA0003161135770000065
Figure FDA0003161135770000066
其中,
Figure FDA0003161135770000067
满足下列HJB方程组
Figure FDA0003161135770000068
8.如权利要求6所述的一种输出受限非线性系统分布式自适应最优协同控制方法,其特征在于:所述步骤5中设计分布式实际最优反馈控制输入
Figure FDA0003161135770000069
的具体过程如下,
考虑
Figure FDA00031611357700000610
定义协同代价函数如式(28)所示
Figure FDA00031611357700000611
式中,
Figure FDA00031611357700000612
表示zi,q-子系统的最优代价函数,uoi表示子系统的容许控制,
Figure FDA00031611357700000613
为预设参数;
Figure FDA00031611357700000614
Figure FDA00031611357700000615
的容许控制集,上标T表示转置;
通过将所定义的协同代价函数分解为线性和非线性项,如公式(29)所示:
Figure FDA00031611357700000616
其中,
Figure FDA00031611357700000617
表示大于零的设计参数,
Figure FDA00031611357700000618
为最优代价函数
Figure FDA00031611357700000619
的非线性项;
定义
Figure FDA00031611357700000620
的哈密顿函数为:
Figure FDA00031611357700000621
其中,
Figure FDA00031611357700000622
表示
Figure FDA00031611357700000623
Figure FDA00031611357700000624
求偏导数,即,
Figure FDA00031611357700000625
根据贝尔曼最优性原理,推导得到如下分布式实际最优反馈控制输入
Figure FDA00031611357700000626
Figure FDA00031611357700000627
其中,
Figure FDA00031611357700000628
满足下列HJB方程组
Figure FDA00031611357700000629
CN202110791189.0A 2021-07-13 2021-07-13 一种输出受限非线性系统分布式自适应最优协同控制方法 Pending CN113485110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110791189.0A CN113485110A (zh) 2021-07-13 2021-07-13 一种输出受限非线性系统分布式自适应最优协同控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110791189.0A CN113485110A (zh) 2021-07-13 2021-07-13 一种输出受限非线性系统分布式自适应最优协同控制方法

Publications (1)

Publication Number Publication Date
CN113485110A true CN113485110A (zh) 2021-10-08

Family

ID=77938489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110791189.0A Pending CN113485110A (zh) 2021-07-13 2021-07-13 一种输出受限非线性系统分布式自适应最优协同控制方法

Country Status (1)

Country Link
CN (1) CN113485110A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114609915A (zh) * 2022-04-02 2022-06-10 东北电力大学 一种未知控制方向的时变多智能体协同控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803349A (zh) * 2018-08-13 2018-11-13 中国地质大学(武汉) 非线性多智能体系统的最优一致性控制方法及系统
CN108828949A (zh) * 2018-07-20 2018-11-16 南京航空航天大学 一种基于自适应动态规划的分布式最优协同容错控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108828949A (zh) * 2018-07-20 2018-11-16 南京航空航天大学 一种基于自适应动态规划的分布式最优协同容错控制方法
CN108803349A (zh) * 2018-08-13 2018-11-13 中国地质大学(武汉) 非线性多智能体系统的最优一致性控制方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINGLIANG SUN: "Distnbuted Optimal Backstepping Composite Control for Multi-agent System with Output Constraints via Adaptive Dynamic Programming", 《2021 36TH YOUTH ACADEMIC ANNUAL CONFERENCE OF CHINESE ASSOCIATION OF AUTOMATION (YAC)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114609915A (zh) * 2022-04-02 2022-06-10 东北电力大学 一种未知控制方向的时变多智能体协同控制方法
CN114609915B (zh) * 2022-04-02 2023-01-31 东北电力大学 一种未知控制方向的时变多智能体协同控制方法

Similar Documents

Publication Publication Date Title
Li et al. Finite-time adaptive fuzzy output feedback dynamic surface control for MIMO nonstrict feedback systems
Yang et al. Adaptive neural prescribed performance tracking control for near space vehicles with input nonlinearity
Wu et al. Adaptive terminal sliding mode control for hypersonic flight vehicles with strictly lower convex function based nonlinear disturbance observer
CN104950677A (zh) 基于反演滑模控制的机械臂系统饱和补偿控制方法
Yang et al. Adaptive H∞ tracking control for a class of uncertain nonlinear systems using radial-basis-function neural networks
Shen et al. Dynamic surface control for tracking of unmanned surface vessel with prescribed performance and asymmetric time-varying full state constraints
CN113359445A (zh) 一种多智能体磁滞系统分布式输出反馈渐近一致控制方法
Pan et al. Online data‐driven composite adaptive backstepping control with exact differentiators
Liu et al. Adaptive distributed finite-time formation control for multi-UAVs under input saturation without collisions
Li et al. Observer-based finite-time fuzzy adaptive control for MIMO non-strict feedback nonlinear systems with errors constraint
CN113485110A (zh) 一种输出受限非线性系统分布式自适应最优协同控制方法
Hsu et al. Indirect adaptive self-organizing RBF neural controller design with a dynamical training approach
Wang et al. Finite-time performance guaranteed event-triggered adaptive control for nonlinear systems with unknown control direction
Li et al. Adaptive optimal trajectory tracking control of AUVs based on reinforcement learning
CN117452975A (zh) 一种四旋翼无人机集群的保性能协同编队控制设计方法
CN111176117B (zh) 一种无人直升机的模糊自适应弹性控制方法
Boo et al. Integral Sliding Mode Control-Based Robust Bidirectional Platoon Control of Vehicles With the Unknown Acceleration and Mismatched Disturbance
Yi et al. Fixed-time connectivity-preserving consensus of periodically disturbed nonlinear multi-agent systems with limited communication ranges
Liu et al. Robust adaptive self-Structuring neural network bounded target tracking control of underactuated surface vessels
CN109176529B (zh) 一种空间机器人协调运动的自适应模糊控制方法
Feng et al. Event‐triggered finite‐time control for a constrained robotic manipulator with flexible joints
CN113459083B (zh) 一种事件触发下的机械臂自适应固定时间控制方法及系统
Zhang et al. Fraction dynamic-surface-based adaptive neural finite-time control for stochastic nonlinear systems subject to unknown control directions, time-varying input delay and state delay
Ma et al. Robust consensus control of nonlinear multi‐agent systems based on convergence rate estimation
Ma et al. High-order disturbance observer-based safe tracking control for a class of uncertain MIMO nonlinear systems with time-varying full state constraints

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211008

WD01 Invention patent application deemed withdrawn after publication