CN113900380A - 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 - Google Patents
一种异构集群系统鲁棒输出编队跟踪控制方法及系统 Download PDFInfo
- Publication number
- CN113900380A CN113900380A CN202111360794.9A CN202111360794A CN113900380A CN 113900380 A CN113900380 A CN 113900380A CN 202111360794 A CN202111360794 A CN 202111360794A CN 113900380 A CN113900380 A CN 113900380A
- Authority
- CN
- China
- Prior art keywords
- follower
- robust
- formation
- matrix
- controller
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 71
- 230000002787 reinforcement Effects 0.000 claims abstract description 57
- 239000011159 matrix material Substances 0.000 claims description 102
- 239000013598 vector Substances 0.000 claims description 49
- 238000004891 communication Methods 0.000 claims description 42
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 230000033001 locomotion Effects 0.000 claims description 15
- 238000013461 design Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000003416 augmentation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000012905 input function Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种异构集群系统鲁棒输出编队跟踪控制方法及系统,包括:基于分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数,并根据异构集群系统数据和在线数据学习算法,对强化学习算法指标函数进行参数化迭代拟合,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数;基于跟随者期望状态编队构型、最优跟踪控制器和最优拟合后的强化学习算法指标函数,构建鲁棒编队控制器;基于鲁棒编队控制器和最优跟踪控制器,构建鲁棒编队跟踪控制器;本发明中的鲁棒编队跟踪控制器能够控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹,以实现异构渐进稳定的编队跟踪控制。
Description
技术领域
本发明涉及集群系统编队控制技术领域,特别是涉及一种异构集群系统鲁棒输出编队跟踪控制方法及系统。
背景技术
集群系统作为从自然界集群现象中抽象出的数学模型,其协同与编队控制一直以来是目前控制理论、自动化技术以及无人系统装备领域研究的热点,并在无人机控制协同测绘、无人武器系统编队打击目标、工厂协同货物运输等场景中得到了广泛应用。传统的基于领从跟踪、虚拟结构、行为规划等的集中式控制方案具有通信负担重、安全鲁棒性较低等问题,故分布式控制技术具有重要价值。
同时现有的研究多聚焦在同构型的集群编队控制或编队控制问题,且未考虑复杂应用场景下可能存在的内部系统不确定以及外部扰动等问题。在一些实际场景中可能出现存在多个需要协同跟踪的领导者,故针对单一领导者的编队控制研究不具备普遍性。此外,在现有的方法和系统中,编队控制器的设计都需要依赖于领导者和跟随者完整的动力学模型,这对于实际工程场景中普遍存在的模型不确定和外部扰动依然不具备鲁棒性。
发明内容
本发明的目的是提供一种异构集群系统鲁棒输出编队跟踪控制方法及系统,以解决在存在多领导者、内部不确定性和外部扰动情况下的异构集群系统对多领导者的鲁棒编队跟踪控制问题。
为实现上述目的,本发明提供了如下方案:
一种异构集群系统鲁棒输出编队跟踪控制方法,所述异构集群系统包括多个领导者和多个跟随者;所述异构集群系统鲁棒输出编队跟踪控制方法包括:
基于所述异构集群系统的通信拓扑模型和领导者动力学模型,建立每个所述跟随者对应的分布式自适应有限时间观测器;所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息;
基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数,并根据异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数;所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量;所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制;
基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数,构建鲁棒编队控制器;
基于所述鲁棒编队控制器和所述最优跟踪控制器,构建鲁棒编队跟踪控制器;所述鲁棒编队跟踪控制器用于控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹,以实现异构渐进稳定的编队跟踪控制。
可选的,所述异构集群系统的节点数量为N+M;所述异构集群系统包括N个跟随者,编号为1,2,...N,以及M个领导者,编号为N+1,...N+M;所述节点表示跟随者或者领导者;集合和集合分别表示跟随者编号集合和领导者编号集合;
所述领导者为无邻居独立运动的个体,所述跟随者至少有一个通信邻居且分为两类:不接收任何领导者信息或接受全部领导者信息;
为异构集群系统的边集,(si,sj)表示从第j个节点到第i个节点之间的通信传输,下标j的取值为1到N+M之间的正整数且j≠i,并当存在一个信道(si,sj)时,确定第j个节点为第i个节点的邻居,并定义为第i个节点的邻居集合;
W=[wij],常数wij为第j个节点到第i个节点之间对应的通信权重数值,当且仅当第j个节点为第i个节点的邻居有wij=1,否则wij=0;
描述各节点入度矩阵为描述节点与节点之间的通信拓扑连通关系的拉普拉斯矩阵为L=D-W;所述拉普拉斯矩阵为其中,L2为维数N×N矩阵,用于反映跟随者之间相互通信的关系以及是否接收领导着者信息,L1为维数N×M矩阵,用于反映领导者向跟随者传递信息的关系;
所述通信拓扑模型满足的约束条件为:跟随者之间至少存在一个与所有领导者相连接的节点,且所述节点到其他任意跟随者都具有一条有向路径连通;
其中,维数p×1的向量ζi(t)表示领导者状态信息,表示领导者状态信息对时间的导数;维数为p×p的矩阵S表示领导者系数矩阵,用于配置领导者的不同运动模态;维数为q×p的矩阵R表示领导者输出矩阵;维数为q×1的向量表示领导者输出状态信息。
可选的,所述跟随者动力学模型为:
其中,维数ni×1的向量xi(t)表示跟随者状态信息,表示跟随者状态信息对时间的导数;维数为mi×1的向量yi(t)表示跟随者控制输入信息;维数为q×1的向量yi(t)表示跟随者输出状态信息;维数ni×1的向量ui(t)表示跟随者控制输入量;维数为dni×1的向量dni(t)表示跟随者模型内部不确定性信息,维数为ni×1的向量di(t)表示跟随者受到的外部扰动信息;Ai,Bi,Ci,Di分别为维数ni×ni,ni×mi,q×ni,ni×dni的矩阵且分别代表跟随者系数矩阵、跟随者控制矩阵、跟随者输出矩阵和跟随者内部不确定性输入矩阵。
可选的,第i个跟随者的分布式自适应有限时间观测器为:
维数为p×p的矩阵S表示领导者系数矩阵;
数值函数αi(t)表示自适应增益函数;
维数为q×q的常矩阵H和H1表示反馈控制增益矩阵和有限时间控制增益矩阵;
维数为q×1的向量φi(t)表示第i个跟随者接收的邻居误差信息;
输出为维数q×1向量的非线性函数g(·)表示保证有限时间特性的控制输入函数;
在第二式子中,常数wij和wik分别表示第j个跟随者的通信权重和第k个领导者的通信权重;
在第四式子中,φi1(t),φi2(t),φiq(t)分别表示φi(t)的第1,2,q个元素,常数σ用于设计控制器收敛时间且满足σ>1。
可选的,将观测器状态信息ξi(t)和跟随者状态信息xi(t)记作增广向量θi(t)=[ξi(t)T,xi(t)T]T,待拟合的强化学习算法指标函数形式为:
其中,Pi,Si,Ti分别为维数(p+ni)×(p+ni),(p+ni)×1,1×1的参数矩阵并且选取初始参数矩阵为Pi 0,Si 0,Ti 0,T表示转置。
可选的,所述根据异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数,具体包括:
将数据激励控制器添加至所述异构集群系统以获取一段时间内的异构集群系统数据;
根据所述异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,得到更新后的控制器增益矩阵;
根据所述更新后的控制器增益矩阵,更新强化学习算法指标函数的参数矩阵,并当更新后的控制器增益矩阵收敛时,得到最优控制器增益矩阵和最优强化学习算法指标函数的参数矩阵,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数。
式中,hi(t)为第i个跟随者状态编队偏移量,vi(t),δi(t)维数分别为p×1,ni×1的变量,维数为q×p的矩阵Ri表示第i个领导者输出矩阵,ωi(t)为数值函数。
一种异构集群系统鲁棒输出编队跟踪控制系统,所述异构集群系统包括多个领导者和多个跟随者;所述异构集群系统鲁棒输出编队跟踪控制系统包括:
分布式自适应有限时间观测器构建模块,用于基于所述异构集群系统的通信拓扑模型和领导者动力学模型,建立每个所述跟随者对应的分布式自适应有限时间观测器;所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息;
最优跟踪控制器确定模块,用于基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数,并根据异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数;所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量;所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制;
鲁棒编队控制器构建模块,用于基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数,构建鲁棒编队控制器;
鲁棒编队跟踪控制器构建模块,用于基于所述鲁棒编队控制器和所述最优跟踪控制器,构建鲁棒编队跟踪控制器;所述鲁棒编队跟踪控制器用于控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹,以实现异构渐进稳定的编队跟踪控制。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明将协同控制和基于数据驱动的强化学习技术相结合,设计分布式自适应有限时间观测器、基于强化学习算法的最优跟踪控制器和鲁棒编队控制器,综合解决在存在多领导者、内部不确定性和外部扰动情况下的异构集群系统对多领导者的鲁棒编队跟踪控制问题。本发明基于异构集群系统实时运行中的输入输出信息以及观测状态信息,在线优化迭代控制器,无需利用通信网络全局信息、跟随者模型信息、内部不确定性具体信息和外部扰动具体信息,就能解决上述问题,同时提升了异构集群编队跟踪的鲁棒性和智能性,对于工程实际中广泛存在的动力学模型线性或可线性化的集群系统,提供了智能自主的控制方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明异构集群系统鲁棒输出编队跟踪控制方法的流程示意图;
图2为本发明异构集群系统鲁棒输出编队跟踪控制系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本实施例提供了一种基于数据驱动的异构集群系统鲁棒输出编队跟踪控制方法,包含以下具体方案:
1、建立基于局部通信信息的分布式自适应有限时间观测器,估计并整合多领导者运动信息;
2、利用观测器和异构集群系统在线输入输出数据,基于强化学习的原理优化迭代得到稳定的输出跟踪控制器;
3、根据在线学习的结果进一步设计鲁棒编队控制器实现集群系统的编队跟踪控制。
图1为本发明异构集群系统鲁棒输出编队跟踪控制方法的流程示意图。如图1所示,本实施例提供的异构集群系统鲁棒输出编队跟踪控制方法,包括以下步骤。
步骤101:基于所述异构集群系统的通信拓扑模型和领导者动力学模型,建立每个所述跟随者对应的分布式自适应有限时间观测器;所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息。
步骤A1:建立异构集群系统的通信拓扑模型。
所述异构集群系统的节点数量为N+M(所述节点表示跟随者或者领导者);;所述异构集群系统包括N个跟随者,编号为1,2,...N,以及M个领导者,编号为N+1,...N+M;所述节点表示跟随者或者领导者;集合和集合分别表示跟随者编号集合和领导者编号集合。
常数wij为第j个节点到第i个节点之间对应的通信权重数值,当且仅当第j个节点为第i个节点的邻居有wij=1,否则wij=0,并由此定义图的邻接矩阵为维数(N+M)×(N+M)的矩阵,其中,第i行第j列元素为wij,即数学表达式为W=[wij]。
领导者定义为无邻居独立运动的个体,跟随者至少有一个通信邻居且分为如下两类:不接收任何领导者信息或接受全部领导者信息。
其中,L2为维数N×N矩阵,用于反映跟随者之间相互通信的关系以及是否接收领导着者信息,L1为维数N×M矩阵,用于反映领导者向跟随者传递信息的关系。
合适的通信拓扑模型满足以下条件:
跟随者之间至少存在一个与所有领导者相连接的节点,且该节点到其他任意跟随者节点都具有一条有向路径连通。
符合以上条件的通信拓扑模型符合后续分布式自适应有限时间观测器的设计要求。
步骤A2:建立异构集群系统中领导者动力学模型。
其中,维数p×1的向量ζi(t)表示领导者状态信息,表示领导者状态信息对时间的导数;维数为p×p的矩阵S表示领导者系数矩阵,用于配置领导者的不同运动模态;维数为q×p的矩阵R表示领导者输出矩阵;维数为q×1的向量表示领导者输出状态信息。
步骤A3:建立每个跟随者的分布式自适应有限时间观测器,以估计和整合多领导者运动信息。
设计具有如下形式的分布式自适应有限时间观测器(观测器的主体是第一个式子,后面的三个式子作用是变量解释)。
维数为p×p的矩阵S表示领导者系数矩阵;
数值函数αi(t)表示自适应增益函数;
维数为q×q的常矩阵H和H1表示反馈控制增益矩阵和有限时间控制增益矩阵,可以通过方程求取:H=P-1RT,H1=P-1;其中,维数为p×p的常矩阵P满足STP+PS+Γ-RTR<0。
维数为q×1的向量φi(t)表示第i个跟随者接收的邻居误差信息,即第i个跟随者观测器的输入,具体为:计算第i个观测器输出量和所有邻居跟随者输出量的相对误差,计算第i个观测器输出量和所有领导者输出量的相对误差,再求和。
输出为维数q×1向量的非线性函数g(·)表示保证有限时间特性的控制输入函数。
在第二式子中,常数wij和wik分别表示第j个跟随者的通信权重和第k个领导者的通信权重;
在第四式子中,φi1(t),φi2(t),φiq(t)分别表示φi(t)的第1,2,q个元素,常数σ用于设计控制器收敛时间且满足σ>1。
同时自适应机制保证本步骤中的方法收敛性不依赖于通信拓扑的全局信息。
步骤102:基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数,并根据异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数;所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量;所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制;具体包括:
步骤B1:建立跟随者动力学模型。
其中,维数ni×1的向量xi(t)表示跟随者状态信息,表示跟随者状态信息对时间的导数;维数为mi×1的向量yi(t)表示跟随者控制输入信息;维数为q×1的向量yi(t)表示跟随者输出状态信息;维数ni×1的向量ui(t)表示跟随者控制输入量;维数为dni×1的向量dni(t)表示跟随者模型内部不确定性信息,维数为ni×1的向量di(t)表示跟随者受到的外部扰动信息。Ai,Bi,Ci,Di为维数ni×ni,ni×mi,q×ni,ni×dni的矩阵且分别代表跟随者系数矩阵、跟随者控制矩阵、跟随者输出矩阵和跟随者内部不确定性输入矩阵。
步骤B2:构建强化学习算法指标函数。
(1)确定强化学习算法指标函数:
其中,指标函数中因子ri=(yi(t)-ξi(t))TQi(yi(t)-ξi(t))+ui(t)TRiui(t)设计为跟踪误差(跟随者输出状态信息和观测器输出状态信息之间的误差)和跟随者控制输入的二次型形式;γi为正常数并且其满足条件γi>0和在此处可作为设计参量,通过修改不同的取值获得不同的控制器响应性能;维数为q×q和mi×mi的矩阵Qi,Ri选用对称正定矩阵作为指标函数的可设计变量,分别用于指导并约束强化学习控制器误差收敛水平和控制增益大小。
将观测器输出状态信息ξi(t)和跟随者的状态xi(t)记作增广向量θi(t)=[ξi(t)T,xi(t)T]T,待拟合的强化学习算法指标函数形式为:
其中,Pi,Si,Ti分别为维数(p+ni)×(p+ni),(p+ni)×1,1×1的矩阵并且选取初始参数矩阵为Pi 0,Si 0,Ti 0。
步骤B3:首先将数据激励控制器添加至所述异构集群系统以获取一段时间内的异构集群系统数据;其次根据所述异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,得到更新后的控制器增益矩阵;最后根据所述更新后的控制器增益矩阵,更新强化学习算法指标函数的参数矩阵,并当更新后的控制器增益矩阵收敛时,得到最优控制器增益矩阵和最优强化学习算法指标函数的参数矩阵,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数。
(1)建立基于在线数据的学习方法
任意选择一个稳定的数据激励控制器加入集群系统中;其中,Ki1 0,Ki2 0为任意使得跟随者模型稳定的增益矩阵,维数分别为mi×p和mi×ni。且ni维的向量e(t)选取为一组合适维数的随机频率高斯白噪声加权和,作为提升强化学习算法稳定性的探索噪声。
(2)基于在线数据的学习方法对待拟合的强化学习算法指标函数进行参数化拟合。
考虑第k次迭代的情况,通过收集到的数据计算以下变量:
经过t1到ts时间的数据收集,将前述的变量汇总为如下形式的增广向量:
此时对所述指标函数进行参数化拟合,得到单次拟合后的指标函数;
将Pi行、Pi列分别按照维数p与ni分块得到如下形式:
步骤103:基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数,构建鲁棒编队控制器,具体包括:
步骤C1:建立跟随者期望状态编队构型。
步骤C2:建立跟随者期望输出编队构型。
跟随者的期望输出编队构型的具体表达式为hoi(t)=Rhi(t)。
步骤C3:建立鲁棒编队控制器。
设计具有如下形式的鲁棒编队控制器:
式中,hi(t)为第i个跟随者状态编队偏移量,vi(t),δi(t)维数分别为p×1,ni×1的变量,维数为q×p的矩阵Ri表示第i个领导者输出矩阵,ωi(t)为数值函数,经由自适应变量函数βi(t)求取。具体公式为如下:
δi(t)=xi(t)-Πi(ξi(t)+hi(t)),
步骤104:基于所述鲁棒编队控制器和所述最优跟踪控制器,构建鲁棒编队跟踪控制器,实现集群系统跟随者相对领导者运动的鲁棒编队跟踪控制。
利用鲁棒编队跟踪控制使跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹,实现异构渐进稳定的编队跟踪控制,即有下式成立:
为实现上述目的,本发明还提供了一种异构集群系统鲁棒输出编队跟踪控制系统,所述异构集群系统包括多个领导者和多个跟随者;如图2所示,所述异构集群系统鲁棒输出编队跟踪控制系统包括:
分布式自适应有限时间观测器构建模块201,用于基于所述异构集群系统的通信拓扑模型和领导者动力学模型,建立每个所述跟随者对应的分布式自适应有限时间观测器;所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息。
最优跟踪控制器确定模块202,用于基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数,并根据异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数;所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量;所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制。
鲁棒编队控制器构建模块203,用于基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数,构建鲁棒编队控制器。
鲁棒编队跟踪控制器构建模块204,用于基于所述鲁棒编队控制器和所述最优跟踪控制器,构建鲁棒编队跟踪控制器;所述鲁棒编队跟踪控制器用于控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹,以实现异构渐进稳定的编队跟踪控制。
与现有技术相比,本发明具有以下有益效果:
1、在本发明步骤101中,基于分布式自适应有限时间方法设计的观测器,可以处理存在多领导者的情况,获得对领导者凸包加权中心运动信息的准确估计;同时基于步骤101建立的通信网络,节约了通信资源,减轻了通信负担。
2、本发明步骤102提供了控制器设计过程,具体为基于数据驱动的强化学习算法,仅使用系统输入输出数据和状态数据进行控制器迭代学习,得到最优跟踪控制器就可以处理异构集群的编队跟踪问题,而无需利用跟随者的任何模型信息,对环境适应性更好,实现了控制理论与人工智能技术的有机融合。同时步骤101中的有限时间观测器在有限时间内给出对领导者参考运动的精确估计,提升了最优跟踪控制器的学习精度;
3、本发明步骤103最终给出的鲁棒编队跟踪控制器能够处理未知的内部不确定性以及外部扰动,其中,内部不确定环节Didni(t)由步骤102的最优跟踪控制器消除,外部扰动项di(t)由步骤103的鲁棒编队控制器ufi(t)渐进抑制,无需提前了解不确定性和扰动的精确模型,相比于已有的方法提升了控制方法的鲁棒性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种异构集群系统鲁棒输出编队跟踪控制方法,其特征在于,所述异构集群系统包括多个领导者和多个跟随者;所述异构集群系统鲁棒输出编队跟踪控制方法包括:
基于所述异构集群系统的通信拓扑模型和领导者动力学模型,建立每个所述跟随者对应的分布式自适应有限时间观测器;所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息;
基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数,并根据异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数;所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量;所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制;
基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数,构建鲁棒编队控制器;
基于所述鲁棒编队控制器和所述最优跟踪控制器,构建鲁棒编队跟踪控制器;所述鲁棒编队跟踪控制器用于控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹,以实现异构渐进稳定的编队跟踪控制。
2.根据权利要求1所述的一种异构集群系统鲁棒输出编队跟踪控制方法,其特征在于,所述异构集群系统的节点数量为N+M;所述异构集群系统包括N个跟随者,编号为1,2,...N,以及M个领导者,编号为N+1,...N+M;所述节点表示跟随者或者领导者;集合ε={1,2,...N}和集合分别表示跟随者编号集合和领导者编号集合;
所述领导者为无邻居独立运动的个体,所述跟随者至少有一个通信邻居且分为两类:不接收任何领导者信息或接受全部领导者信息;
为异构集群系统的边集,(si,sj)表示从第j个节点到第i个节点之间的通信传输,下标j的取值为1到N+M之间的正整数且j≠i,并当存在一个信道(si,sj)时,确定第j个节点为第i个节点的邻居,并定义为第i个节点的邻居集合;
W=[wij],常数wij为第j个节点到第i个节点之间对应的通信权重数值,当且仅当第j个节点为第i个节点的邻居有wij=1,否则wij=0;
描述各节点入度矩阵为描述节点与节点之间的通信拓扑连通关系的拉普拉斯矩阵为L=D-W;所述拉普拉斯矩阵为其中,L2为维数N×N矩阵,用于反映跟随者之间相互通信的关系以及是否接收领导着者信息,L1为维数N×M矩阵,用于反映领导者向跟随者传递信息的关系;
所述通信拓扑模型满足的约束条件为:跟随者之间至少存在一个与所有领导者相连接的节点,且所述节点到其他任意跟随者都具有一条有向路径连通;
3.根据权利要求2所述的一种异构集群系统鲁棒输出编队跟踪控制方法,其特征在于,
4.根据权利要求3所述的一种异构集群系统鲁棒输出编队跟踪控制方法,其特征在于,第i个跟随者的分布式自适应有限时间观测器为:
维数为p×p的矩阵S表示领导者系数矩阵;
数值函数αi(t)表示自适应增益函数;
维数为q×q的常矩阵H和H1表示反馈控制增益矩阵和有限时间控制增益矩阵;
维数为q×1的向量φi(t)表示第i个跟随者接收的邻居误差信息;
输出为维数q×1向量的非线性函数g(·)表示保证有限时间特性的控制输入函数;
在第二式子中,常数wij和wik分别表示第j个跟随者的通信权重和第k个领导者的通信权重;
在第四式子中,φi1(t),φi2(t),φiq(t)分别表示φi(t)的第1,2,q个元素,常数σ用于设计控制器收敛时间且满足σ>1。
6.根据权利要求5所述的一种异构集群系统鲁棒输出编队跟踪控制方法,其特征在于,所述根据异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数,具体包括:
将数据激励控制器添加至所述异构集群系统以获取一段时间内的异构集群系统数据;
根据所述异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,得到更新后的控制器增益矩阵;
根据所述更新后的控制器增益矩阵,更新强化学习算法指标函数的参数矩阵,并当更新后的控制器增益矩阵收敛时,得到最优控制器增益矩阵和最优强化学习算法指标函数的参数矩阵,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数。
10.一种异构集群系统鲁棒输出编队跟踪控制系统,其特征在于,所述异构集群系统包括多个领导者和多个跟随者;所述异构集群系统鲁棒输出编队跟踪控制系统包括:
分布式自适应有限时间观测器构建模块,用于基于所述异构集群系统的通信拓扑模型和领导者动力学模型,建立每个所述跟随者对应的分布式自适应有限时间观测器;所述分布式自适应有限时间观测器用于估计和整合多领导者运动信息;
最优跟踪控制器确定模块,用于基于所述分布式自适应有限时间观测器和跟随者动力学模型构建强化学习算法指标函数,并根据异构集群系统数据和在线数据学习算法,对所述强化学习算法指标函数进行参数化迭代拟合,进而确定最优跟踪控制器和最优拟合后的强化学习算法指标函数;所述异构集群系统数据包括跟随者状态信息、观测器状态信息以及跟随者控制输入量;所述最优跟踪控制器用于实现跟随者对观测器状态信息的跟踪控制;
鲁棒编队控制器构建模块,用于基于跟随者期望状态编队构型、所述最优跟踪控制器和所述最优拟合后的强化学习算法指标函数,构建鲁棒编队控制器;
鲁棒编队跟踪控制器构建模块,用于基于所述鲁棒编队控制器和所述最优跟踪控制器,构建鲁棒编队跟踪控制器;所述鲁棒编队跟踪控制器用于控制跟随者的输出轨迹跟踪多领导者凸包加权中心形成的参考轨迹,以实现异构渐进稳定的编队跟踪控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111360794.9A CN113900380B (zh) | 2021-11-17 | 2021-11-17 | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111360794.9A CN113900380B (zh) | 2021-11-17 | 2021-11-17 | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113900380A true CN113900380A (zh) | 2022-01-07 |
CN113900380B CN113900380B (zh) | 2023-02-28 |
Family
ID=79194501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111360794.9A Active CN113900380B (zh) | 2021-11-17 | 2021-11-17 | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113900380B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114815856A (zh) * | 2022-06-27 | 2022-07-29 | 中国人民解放军国防科技大学 | 非完整多智能体系统时变编队包含控制方法、装置和设备 |
CN115268275A (zh) * | 2022-08-24 | 2022-11-01 | 广东工业大学 | 基于状态观测器的多智能体系统一致性跟踪方法及系统 |
CN115988447A (zh) * | 2022-11-30 | 2023-04-18 | 南京航空航天大学 | 一种基于ZigBee的混合编队无人设备的分层通信方法 |
CN115993842A (zh) * | 2023-03-23 | 2023-04-21 | 西北工业大学深圳研究院 | 一种用于群体智能系统的编队协同控制方法 |
CN116414037A (zh) * | 2023-06-09 | 2023-07-11 | 北京航空航天大学 | 一种用于集群系统约束控制的自适应装置 |
CN117434847A (zh) * | 2023-12-22 | 2024-01-23 | 西北工业大学 | 一种微纳卫星集群宏观队形重构与保持控制器设计方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140150100A1 (en) * | 2012-08-15 | 2014-05-29 | Qualcomm Incorporated | Adaptive Observation of Driver and Hardware Level Behavioral Features on a Mobile Device |
US20170147722A1 (en) * | 2014-06-30 | 2017-05-25 | Evolving Machine Intelligence Pty Ltd | A System and Method for Modelling System Behaviour |
GB201810437D0 (en) * | 2018-06-26 | 2018-08-08 | Jaguar Land Rover Ltd | A controller for a vehicle |
CN108519775A (zh) * | 2017-10-30 | 2018-09-11 | 北京博鹰通航科技有限公司 | 一种精准喷洒的无人机系统及其控制方法 |
CN111435252A (zh) * | 2020-01-15 | 2020-07-21 | 北京航空航天大学 | 异构多智能体系统分组输出时变编队跟踪控制方法及系统 |
CN111665848A (zh) * | 2020-06-28 | 2020-09-15 | 北京航空航天大学 | 拓扑切换下无人机与无人车异构集群编队跟踪控制方法 |
US10983532B1 (en) * | 2017-08-03 | 2021-04-20 | University Of South Florida | Distributed control of heterogeneous multi-agent systems |
CN112947084A (zh) * | 2021-02-08 | 2021-06-11 | 重庆大学 | 一种基于强化学习的模型未知多智能体一致性控制方法 |
CN112987790A (zh) * | 2021-03-04 | 2021-06-18 | 北京航空航天大学 | 一种分布式异构集群系统分组编队跟踪控制方法和系统 |
CN113485344A (zh) * | 2021-07-15 | 2021-10-08 | 北京航空航天大学 | 一种多智能体输出编队跟踪控制方法及系统 |
-
2021
- 2021-11-17 CN CN202111360794.9A patent/CN113900380B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140150100A1 (en) * | 2012-08-15 | 2014-05-29 | Qualcomm Incorporated | Adaptive Observation of Driver and Hardware Level Behavioral Features on a Mobile Device |
US20170147722A1 (en) * | 2014-06-30 | 2017-05-25 | Evolving Machine Intelligence Pty Ltd | A System and Method for Modelling System Behaviour |
US10983532B1 (en) * | 2017-08-03 | 2021-04-20 | University Of South Florida | Distributed control of heterogeneous multi-agent systems |
CN108519775A (zh) * | 2017-10-30 | 2018-09-11 | 北京博鹰通航科技有限公司 | 一种精准喷洒的无人机系统及其控制方法 |
GB201810437D0 (en) * | 2018-06-26 | 2018-08-08 | Jaguar Land Rover Ltd | A controller for a vehicle |
CN111435252A (zh) * | 2020-01-15 | 2020-07-21 | 北京航空航天大学 | 异构多智能体系统分组输出时变编队跟踪控制方法及系统 |
CN111665848A (zh) * | 2020-06-28 | 2020-09-15 | 北京航空航天大学 | 拓扑切换下无人机与无人车异构集群编队跟踪控制方法 |
CN112947084A (zh) * | 2021-02-08 | 2021-06-11 | 重庆大学 | 一种基于强化学习的模型未知多智能体一致性控制方法 |
CN112987790A (zh) * | 2021-03-04 | 2021-06-18 | 北京航空航天大学 | 一种分布式异构集群系统分组编队跟踪控制方法和系统 |
CN113485344A (zh) * | 2021-07-15 | 2021-10-08 | 北京航空航天大学 | 一种多智能体输出编队跟踪控制方法及系统 |
Non-Patent Citations (1)
Title |
---|
田磊 等: "拓扑切换的集群系统分布式分组时变编队跟踪控制" * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114815856A (zh) * | 2022-06-27 | 2022-07-29 | 中国人民解放军国防科技大学 | 非完整多智能体系统时变编队包含控制方法、装置和设备 |
CN114815856B (zh) * | 2022-06-27 | 2022-09-20 | 中国人民解放军国防科技大学 | 非完整多智能体系统时变编队包含控制方法、装置和设备 |
CN115268275A (zh) * | 2022-08-24 | 2022-11-01 | 广东工业大学 | 基于状态观测器的多智能体系统一致性跟踪方法及系统 |
CN115268275B (zh) * | 2022-08-24 | 2024-05-28 | 广东工业大学 | 基于状态观测器的多智能体系统一致性跟踪方法及系统 |
CN115988447A (zh) * | 2022-11-30 | 2023-04-18 | 南京航空航天大学 | 一种基于ZigBee的混合编队无人设备的分层通信方法 |
CN115988447B (zh) * | 2022-11-30 | 2023-12-01 | 南京航空航天大学 | 一种基于ZigBee的混合编队无人设备的分层通信方法 |
CN115993842A (zh) * | 2023-03-23 | 2023-04-21 | 西北工业大学深圳研究院 | 一种用于群体智能系统的编队协同控制方法 |
CN115993842B (zh) * | 2023-03-23 | 2023-05-30 | 西北工业大学深圳研究院 | 一种用于群体智能系统的编队协同控制方法 |
CN116414037A (zh) * | 2023-06-09 | 2023-07-11 | 北京航空航天大学 | 一种用于集群系统约束控制的自适应装置 |
CN116414037B (zh) * | 2023-06-09 | 2023-08-18 | 北京航空航天大学 | 一种用于集群系统约束控制的自适应装置 |
CN117434847A (zh) * | 2023-12-22 | 2024-01-23 | 西北工业大学 | 一种微纳卫星集群宏观队形重构与保持控制器设计方法 |
CN117434847B (zh) * | 2023-12-22 | 2024-04-02 | 西北工业大学 | 一种微纳卫星集群宏观队形重构与保持控制器设计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113900380B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113900380B (zh) | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 | |
CN112947084B (zh) | 一种基于强化学习的模型未知多智能体一致性控制方法 | |
CN109445447B (zh) | 一种多智能体编队跟踪控制方法及系统 | |
Dutta et al. | A decentralized formation and network connectivity tracking controller for multiple unmanned systems | |
Zhao et al. | Distributed optimal coordination control for nonlinear multi-agent systems using event-triggered adaptive dynamic programming method | |
CN110780668B (zh) | 一种多无人艇的分布式编队合围跟踪控制方法及系统 | |
Shahvali et al. | Distributed control of networked uncertain Euler–Lagrange systems in the presence of stochastic disturbances: a prescribed performance approach | |
CN112180734A (zh) | 一种基于分布式自适应事件触发的多智能体一致性方法 | |
KR101935006B1 (ko) | 멀티 에이전트 시스템에 포함되는 추종 에이전트 및 이의 제어 방법 | |
CN113485344B (zh) | 一种多智能体输出编队跟踪控制方法及系统 | |
CN114237041B (zh) | 一种基于预设性能的空-地协同固定时间容错控制方法 | |
CN112527016B (zh) | 一种智能集群一体化容错时变编队控制方法及系统 | |
Zhou et al. | Consensus tracking via quantized iterative learning control for singular nonlinear multi-agent systems with state time-delay and initial state error | |
CN112445132A (zh) | 一种多智能体系统最优状态一致性控制方法 | |
Liu | Tracking control of multi-agent systems using a networked predictive PID tracking scheme | |
De Campos et al. | On the consensus of heterogeneous multi-agent systems: a decoupling approach | |
CN114063438B (zh) | 一种数据驱动的多智能体系统pid控制协议自学习方法 | |
Chen et al. | Fixed-time cooperative tracking control for double-integrator multiagent systems: A time-based generator approach | |
CN114280930B (zh) | 一种随机高阶线性多智能体系统控制协议的设计方法及系统 | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
Popov et al. | A robust control approach to formation control | |
CN114637278A (zh) | 一种多领导者与切换拓扑下的多智能体容错编队跟踪控制方法 | |
Wang et al. | Iterative learning approach for consensus tracking of partial difference multi-agent systems with control delay under switching topology | |
CN116382313A (zh) | 一种考虑通信受限的auh协同编队控制方法 | |
CN114545777A (zh) | 基于改进q函数的多智能体一致性强化学习方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |