CN116430899A - 基于强化学习的异构集群无人系统事件触发协同控制方法 - Google Patents

基于强化学习的异构集群无人系统事件触发协同控制方法 Download PDF

Info

Publication number
CN116430899A
CN116430899A CN202310453213.9A CN202310453213A CN116430899A CN 116430899 A CN116430899 A CN 116430899A CN 202310453213 A CN202310453213 A CN 202310453213A CN 116430899 A CN116430899 A CN 116430899A
Authority
CN
China
Prior art keywords
follower
matrix
state
controller
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310453213.9A
Other languages
English (en)
Inventor
徐勇
苑云鹏
孙健
窦丽华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202310453213.9A priority Critical patent/CN116430899A/zh
Publication of CN116430899A publication Critical patent/CN116430899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了基于强化学习的异构集群无人系统事件触发协同控制方法,涉及集群无人系统技术领域,能够减少通信资源的消耗,适用于系统模型未知情况下实现最优协同跟踪控制。具体方案为:建立针对无人系统的系统模型;构建事件触发的分布式观测器,利用观测器来估计领航者的状态;构建基于边的事件触发控制器,重构增广异构无人系统的动力学模型,根据增广异构无人系统动力学模型构建控制器增益矩阵。基于数据驱动的求解机制,首先将无人机系统前期运行的数据存储起来,而后根据无人机系统前期运行数据,利用基于强化学习的策略迭代算法,学习最优的基于边的事件触发控制器,进而保证控制器增益矩阵Ki *最优,实现最优的协同跟踪控制。

Description

基于强化学习的异构集群无人系统事件触发协同控制方法
技术领域
本发明涉及集群无人系统技术领域,具体涉及一种基于强化学习的异构集群无人系统事件触发协同控制方法。
背景技术
近年来,随着无线通信技术的进步和计算能力的提高,集群无人系统协同控制已经被广泛应用于微电网、无人驾驶、路径跟踪或编队控制、智能城市等领域。集群无人系统的协同控制一直是近几十年来研究的热点,它的控制目标是设计一个分布式的控制协议使多个独立的无人系统通过能够相互协作实现系统的整体目标。具体来说,通过无人系统间的信息交互实现状态或者输出的一致。其中,如何减少无人系统之间的交互频次,减少通信资源和计算资源的消耗,以及在无法获得系统模型信息的情况下,实现整体系统的协同一直是集群无人系统协同控制领域的一个亟待解决的问题。
事件触发控制是指对受控系统状态的采样时刻是由受控系统预设的触发条件所确定的,区别于传统的周期性采样控制。即当受控系统的状态满足一定的预设条件时才会对受控系统状态进行采样,并将采样的状态值传递给控制器进行控制输入更新。
除此之外,在现有的绝大多数协同控制方案的设计中,协同控制的实现需要完整地掌握系统的模型信息,这在很多实际应用当中是难以现实。同时,现有的控制器设计技术只考虑了系统稳态性能而没有考虑系统的瞬态性能,无法保证系统协同控制的最优性。
因此,如何在系统模型未知下设计控制器来保证异构集群无人系统实现最优协同是目前的热点和难点问题。
为了解决这个问题,目前有研究通过收集系统数据,采用强化学习的控制策略通过收集的系统数据来实现最优控制器的学习,进而保证在系统模型未知下实现最优协同跟踪控制。
但是这种最优协同跟踪控制方案,需要消耗大量的通信资源,对于系统带宽要求较高,且在系统模型已知的情况下才能获得最优控制方案,在系统模型未知的情况下,其最优性无法保证。
如何在系统存在带宽受限且系统模型未知前提下,提出一种能够保证低资源消耗的最优协同跟踪控制方案,是目前亟待解决的问题。
发明内容
有鉴于此,本发明提供了基于强化学习的异构集群无人系统事件触发协同控制方法,能够减少通信资源的消耗,且适用于系统模型未知情况下实现最优协同跟踪控制。
为达到上述目的,本发明的技术方案为:其中无人系统由一个领航者和N个跟随者组成,无人系统内部通过一个连通的拓扑图进行通信,对该无人系统按照如下步骤执行基于事件触发的协同控制:
步骤一,首先建立针对所述无人系统的系统模型,包含领航者的动力学模型和每个跟随者的动力学模型。
步骤二,构建事件触发的分布式观测器,利用观测器来估计领航者的状态。
步骤三,构建基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪。
步骤四,重构增广异构无人系统的动力学模型,根据所述增广异构无人系统动力学模型构建控制器增益矩阵。
步骤五,基于数据驱动的求解机制,首先将无人机系统前期运行的数据存储起来,而后根据无人机系统前期运行数据,利用基于强化学习的策略迭代算法,学习最优的所述基于边的事件触发控制器,进而保证控制器增益矩阵Ki *最优,实现最优的协同跟踪控制。
进一步地,步骤一,建立针对所述无人系统的系统模型,包含领航者的动力学模型和每个跟随者的动力学模型,具体采用如下步骤:
领航者的动力学模型如下:
Figure BDA0004198174370000031
其中,
Figure BDA0004198174370000032
为x0的导数、A0为领航者的状态系统矩阵、x0为领航者的状态、C0为领航者的输出系统矩阵、y0为领航者的输出;
第i个跟随者动力学模型如下:
Figure BDA0004198174370000033
其中,xi为跟随者的状态,
Figure BDA0004198174370000034
为xi的导数,Ai为跟随者的状态矩阵,Bi为第i个跟随者的输入矩阵,ui为第i个跟随者的控制输入,yi为跟随者的输出,Ci为跟随者的输出矩阵。
进一步地,步骤二,构建事件触发的分布式观测器,利用观测器来估计领航者的状态,其中所构建的事件触发的分布式观测器为:
Figure BDA0004198174370000035
其中,ηi为针对第i个跟随者的观测器的状态,
Figure BDA0004198174370000036
为ηi的导数,/>
Figure BDA0004198174370000037
为控制器第i个观测器的控制输入信号,c为任意选取的固定常数;A0为领航者的状态系统矩阵。
进一步地,步骤三,构建基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪,具体为:
首先,构建基于边的估计器
Figure BDA0004198174370000038
并且满足以下关系:
Figure BDA0004198174370000039
其中,
Figure BDA00041981743700000310
为第i个观测器和第j个观测器相邻状态的估计值,/>
Figure BDA00041981743700000311
为/>
Figure BDA00041981743700000312
的导数,/>
Figure BDA00041981743700000313
为相邻边ij的第k次触发时刻,/>
Figure BDA00041981743700000314
为相邻边ij的第k+1次触发时刻,A0为领航者的状态系统矩阵;
当事件触发时,基于边的估计器的估计值
Figure BDA00041981743700000315
等于真实状态/>
Figure BDA00041981743700000316
其中事件触发函数为
Figure BDA00041981743700000317
的形式如下
Figure BDA0004198174370000041
其中,
Figure BDA0004198174370000042
为控制器第i个观测器的控制输入信号,/>
Figure BDA0004198174370000043
为t时刻输入信号为/>
Figure BDA0004198174370000044
时控制器第i个观测器的事件触发函数,A0为领航者的状态系统矩阵,α>0和β>0为触发条件的参数,任意选取的常数,dτ为微分,τ取值为/>
Figure BDA0004198174370000045
e为自然底数。
并且结合基于边的估计器,构建如下形式的基于边的事件触发控制器:
Figure BDA0004198174370000046
其中,aij为第i、j个跟随者之间的权重,若i、j为邻居则大于零,否则等于零;ai0为第i个跟随者和领航者之间的权重,其中δi是观测器状态ηi和领航者无人系统状态x0的误差。
进一步地,步骤四,构建增广异构无人系统动力学模型,具体为:
Figure BDA0004198174370000047
其中,zi=[xi T x0 T]T表示由跟随者状态xi和领导者状态z0组成增广异构无人系统的状态,
Figure BDA0004198174370000048
为zi的导数;/>
Figure BDA0004198174370000049
分别表示第i个增广异构无人系统的三个系统矩阵;ui=K1ixi+K2ix0=Kizi为跟随者i的控制输入,Ki=[K1iK2i]为跟随者i的控制器增益矩阵,K1i和K2i分别为控制器ui的前馈增益矩阵和反馈增益矩阵。
进一步地,步骤五,具体过程如下:
S501.定义变量
Figure BDA00041981743700000410
Figure BDA00041981743700000411
其中,vecv(zi)表示状态zi中每个元素组成的列向量,
Figure BDA00041981743700000412
表示状态zi中的第一个元素,以此类推;P表示正定矩阵,vecs(P)为矩阵P中不同元素构成的列向量;/>
Figure BDA0004198174370000051
为n(2n+1)维的实数集;
S502.定义四个数据存储单元分别为
Figure BDA0004198174370000052
和Θ1 k,将系统运行的数据存储起来:
Figure BDA0004198174370000053
Figure BDA0004198174370000054
Figure BDA0004198174370000055
Figure BDA0004198174370000056
其中在时间区间[t0,tl]内收集系统产生的数据,并以一定的采样步长将区间分成若干子区间;t0为系统收集数据的初始时刻,t1为系统在初始收集数据时刻t0的通过采样步长后的时刻,依次类推,tl为系统收集数据的终止时刻;
Figure BDA0004198174370000057
分别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内值函数收集的系统数据.I为单位矩阵,Ri表示对称正定矩阵;
Figure BDA0004198174370000058
别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集的系统数据;/>
Figure BDA0004198174370000059
Figure BDA00041981743700000510
分别表示第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集与输入关联的系统数据;Θ1 k表示一个迭代向量,其迭代依赖于存储单元/>
Figure BDA00041981743700000511
Figure BDA00041981743700000512
和更新的控制器增益;
S503.迭代关系为
Figure BDA00041981743700000513
其中,Pi为正定矩阵,每次迭代进行更新,上标k和k+1表示第k和第k+1次迭代对应的数据,Ki k+1即表示第k+1次迭代的跟随者i的控制器增益矩阵,Ri -1表示矩阵Ri的逆,
Figure BDA00041981743700000514
表示第i个增广异构无人系统的其中一个系统矩阵/>
Figure BDA00041981743700000515
的转置;
S504.依赖数据存储单元中的系统运行数据,根据以下对应关系进行迭代求解:
Figure BDA0004198174370000061
其中,Qi为对称的半正定矩阵;vec(Ki k+1)表示第i个跟随者的控制器增益矩阵K在第k+1次迭代的学习的数值;
S505.判断‖Ki k+1-Ki k‖<ε1是否成立,其中ε1任意选取的大于零的数值;
①如果‖Ki k+1-Ki k‖<ε1成立,则停止迭代,此时控制增益为Ki k+1,控制器为ui=Ki k+ 1zi
②如果‖Ki k+1-Ki k‖<ε1不成立,则k=k+1,而后转至S503和S504继续求解;
S506.获得最优的控制器ui *,同时获得最优控制器增益矩阵Ki *
有益效果:
本发明提供一种基于强化学习的异构集群无人系统事件触发协同控制方法,首先设计分布式观测器实现领导者无人系统状态的估计,并构建基于控制输入触发的事件触发机制,可以在通信资源受限下实现跟随者无人系统对领导者状态的准确跟踪。然后,采用强化学习的策略迭代算法,在不需要获取系统模型的情况下,可以寻找到最优的控制策略,同时保证异构集群无人系统的协同跟踪控制。
附图说明
图1为本发明提供的基于强化学习的异构集群无人系统事件触发协同控制算法设计流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
如图1所示,本发明针对的无人系统由1个领航者和N个跟随者无人系统组成,它们之间通过一个连通的拓扑图进行通信,本发明提供的基于事件触发和强化学习的集群无人系统协同控制方法具体步骤如下:
步骤一:建立无人系统模型。
本发明实施例所构建的无人系统领航者的动力学模型如下:
Figure BDA0004198174370000071
其中,
Figure BDA0004198174370000072
为x0的导数、A0为领航者的状态系统矩阵、x0为领航者的状态、C0为领航者的输出系统矩阵、y0为领航者的输出。
第i个跟随者动力学模型如下:
Figure BDA0004198174370000073
其中,
Figure BDA0004198174370000074
为xi的导数,xi为跟随者的状态、yi为跟随者的输出,Ai为跟随者的状态矩阵、Bi为第i个跟随者的输入矩阵、ui为第i个跟随者的控制输入、Ci为为跟随者的输出矩阵;
步骤二:构建事件触发的分布式观测器,利用观测器来估计领导者的状态
Figure BDA0004198174370000075
其中,ηi为针对第i个跟随者的观测器的状态,
Figure BDA0004198174370000076
为ηi的导数,/>
Figure BDA0004198174370000077
为控制器第i个观测器的控制输入信号,c为任意选取的固定常数;A0为领航者的状态系统矩阵。
步骤三:考虑通信资源有限,为了降低无人系统之间的通信频率,设计基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪。
本发明实施例中,控制器的具体设计方法如下
首先,构建基于边的估计器
Figure BDA0004198174370000078
并且满足以下关系
Figure BDA0004198174370000079
其中,
Figure BDA00041981743700000710
为/>
Figure BDA00041981743700000711
的导数,/>
Figure BDA00041981743700000712
为第i个观测器和第j个观测器相邻状态的估计值,/>
Figure BDA0004198174370000081
为相邻边ij的第k次触发时刻,/>
Figure BDA0004198174370000082
为相邻边ij的第k+1次触发时刻,由后续设计的事件触发函数来决定。当事件触发时,估计器的估计值/>
Figure BDA0004198174370000083
等于真实状态
Figure BDA0004198174370000084
事件触发函数的形式如下
Figure BDA0004198174370000085
其中,α>0和β>0为触发条件的参数,可任意选取的常数。
并且结合基于边的估计器,设计如下形式的基于边的事件触发控制器
Figure BDA00041981743700000811
其中,aij为第i、j个跟随者之间的权重,若ij为邻居则大于零,否则等于零;ai0为第i个跟随者和领航者之间的权重,其中δi是观测器状态ηi和领航者无人系统状态x0的误差,形式如下
δi=ηi-x0
步骤四:构建增广异构无人系统动力学模型
Figure BDA0004198174370000087
其中,zi=[xi T x0 T]T表示由跟随者状态xi和领导者状态x0组成增广异构无人系统的状态,
Figure BDA0004198174370000088
为zi的导数。/>
Figure BDA0004198174370000089
分别表示第i个增广异构无人系统的系统矩阵。ui=K1ixi+K2ix0=Kizi为跟随者i的控制输入,Ki=[K1i K2i]为跟随者i的控制器增益矩阵,K1i和K2i分别为控制器ui的前馈增益矩阵和反馈增益矩阵,均需要学习的获得,从而保证控制器增益矩阵Ki最优。
步骤五:在初始增益矩阵
Figure BDA00041981743700000810
是Hurwitz矩阵的前提下,Ki 0表示第i个跟随着在初始时刻给定的初始值,为提前给出初始设定的Ki。采用基于数据驱动的求解机制,首先将系统前期运行的数据存储起来,而后根据系统前期运行数据,利用基于强化学习的策略迭代算法,学习最优控制器ui,进而保证控制器增益矩阵Ki *最优,实现最优的协同跟踪控制。
其中基于强化学习的策略迭代算法的具体过程如下:
S501.定义变量
Figure BDA0004198174370000091
Figure BDA0004198174370000092
其中,vecv(zi)表示状态zi中每个元素组成的列向量,zi1表示状态zi中的第一个元素,以此类推;P表示正定矩阵,vecs(P)为矩阵P中不同元素构成的列向量;
Figure BDA0004198174370000093
为n(2n+1)维的实数集。
S502.定义数据存储单元
Figure BDA0004198174370000094
和Θ1 k,将系统运行的数据存储起来
Figure BDA0004198174370000095
Figure BDA0004198174370000096
Figure BDA0004198174370000097
Figure BDA0004198174370000098
其中在时间区间[t0,tl]内收集系统产生的数据,并以一定的采样步长将区间分成若干子区间;t0为系统收集数据的初始时刻,t1为系统在初始收集数据时刻t0的通过采样步长后的时刻,依次类推,tl为系统收集数据的终止时刻;
Figure BDA0004198174370000099
分别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内值函数收集的系统数据.I为单位矩阵,Ri表示对称正定矩阵;
Figure BDA00041981743700000910
别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集的系统数据;/>
Figure BDA00041981743700000911
Figure BDA0004198174370000101
分别表示第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集与输入关联的系统数据;Θ1 k表示一个迭代向量,其迭代依赖于存储单元/>
Figure BDA0004198174370000102
Figure BDA0004198174370000103
和更新的控制器增益;
S503.迭代关系为
Figure BDA0004198174370000104
其中,Pi为正定矩阵,每次迭代进行更新,上标k和k+1表示第k和第k+1次迭代对应的数据,Ki k+1即表示第k+1次迭代的跟随者i的控制器增益矩阵,Ri -1表示矩阵Ri的逆,
Figure BDA0004198174370000105
表示第i个增广异构无人系统的其中一个系统矩阵/>
Figure BDA0004198174370000106
的转置;
S504.依赖数据存储单元中的系统运行数据,根据以下对应关系进行迭代求解
Figure BDA0004198174370000107
其中,Qi为对称的半正定矩阵;vec(Ki k+1)表示第i个跟随者的控制器增益矩阵K在第k+1次迭代的学习的数值;
S505.判断‖Ki k+1-Ki k‖<ε1是否成立,ε1任意选取的大于零的数值;
①如果‖Ki k+1-Ki k‖<ε1成立,则停止迭代,此时控制增益为Ki k+1,控制器为ui=Ki k+ 1zi
②如果‖Ki k+1-Ki k‖<ε1不成立,则k=k+1,而后转至3和4继续求解;
6.获得最优的控制器ui *,同时获得最优控制器增益矩阵Ki *
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于强化学习的异构集群无人系统事件触发协同控制方法,其特征在于,其中无人系统由一个领航者和N个跟随者组成,无人系统内部通过一个连通的拓扑图进行通信,对该无人系统按照如下步骤执行基于事件触发的协同控制:
步骤一,首先建立针对所述无人系统的系统模型,包含领航者的动力学模型和每个跟随者的动力学模型;
步骤二,构建事件触发的分布式观测器,利用观测器来估计领航者的状态;
步骤三,构建基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪;
步骤四,重构增广异构无人系统的动力学模型,根据所述增广异构无人系统动力学模型构建控制器增益矩阵;
步骤五,基于数据驱动的求解机制,首先将无人机系统前期运行的数据存储起来,而后根据无人机系统前期运行数据,利用基于强化学习的策略迭代算法,学习最优的所述基于边的事件触发控制器,进而保证控制器增益矩阵Ki*最优,实现最优的协同跟踪控制。
2.如权利要求1所述的基于强化学习的异构集群无人系统事件触发协同控制方法,其特征在于,所述步骤一,建立针对所述无人系统的系统模型,包含领航者的动力学模型和每个跟随者的动力学模型,具体采用如下步骤:
领航者的动力学模型如下:
Figure FDA0004198174360000011
其中,
Figure FDA0004198174360000012
为x0的导数、A0为领航者的状态系统矩阵、x0为领航者的状态、C0为领航者的输出系统矩阵、y0为领航者的输出;
第i个跟随者动力学模型如下:
Figure FDA0004198174360000013
其中,xi为跟随者的状态,
Figure FDA0004198174360000014
为xi的导数,Ai为跟随者的状态矩阵,Bi为第i个跟随者的输入矩阵,ui为第i个跟随者的控制输入,yi为跟随者的输出,Ci为跟随者的输出矩阵。
3.如权利要求1或2所述的基于强化学习的异构集群无人系统事件触发协同控制方法,其特征在于,所述步骤二,构建事件触发的分布式观测器,利用观测器来估计领航者的状态,其中所构建的事件触发的分布式观测器为:
Figure FDA0004198174360000021
其中,ηi为针对第i个跟随者的观测器的状态,
Figure FDA0004198174360000022
为ηi的导数,/>
Figure FDA0004198174360000023
为控制器第i个观测器的控制输入信号,c为任意选取的固定常数;A0为领航者的状态系统矩阵。
4.如权利要求1或2所述的基于强化学习的异构集群无人系统事件触发协同控制方法,其特征在于,所述步骤三,构建基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪,具体为:
首先,构建基于边的估计器
Figure FDA0004198174360000024
并且满足以下关系:
Figure FDA0004198174360000025
其中,
Figure FDA0004198174360000026
为第i个观测器和第j个观测器相邻状态的估计值,/>
Figure FDA0004198174360000027
为/>
Figure FDA0004198174360000028
的导数,/>
Figure FDA0004198174360000029
为相邻边ij的第k次触发时刻,/>
Figure FDA00041981743600000210
为相邻边ij的第k+1次触发时刻,A0为领航者的状态系统矩阵;
当事件触发时,基于边的估计器的估计值
Figure FDA00041981743600000211
等于真实状态/>
Figure FDA00041981743600000212
其中事件触发函数为
Figure FDA00041981743600000213
的形式如下
Figure FDA00041981743600000214
其中,
Figure FDA00041981743600000215
为控制器第i个观测器的控制输入信号,/>
Figure FDA00041981743600000216
为t时刻输入信号为/>
Figure FDA00041981743600000217
时控制器第i个观测器的事件触发函数,A0为领航者的状态系统矩阵,α>0和β>0为触发条件的参数,任意选取的常数,dτ为微分,τ取值为/>
Figure FDA00041981743600000218
e为自然底数;
并且结合基于边的估计器,构建如下形式的基于边的事件触发控制器:
Figure FDA0004198174360000031
其中,aij为第i、j个跟随者之间的权重,若i、j为邻居则大于零,否则等于零;ai0为第i个跟随者和领航者之间的权重,其中δi是观测器状态ηi和领航者无人系统状态x0的误差。
5.如权利要求4所述的基于强化学习的异构集群无人系统事件触发协同控制方法,其特征在于,所述步骤四,构建增广异构无人系统动力学模型,具体为:
Figure FDA0004198174360000032
其中,zi=[xi T x0 T]T表示由跟随者状态xi和领导者状态x0组成增广异构无人系统的状态,
Figure FDA0004198174360000033
为zi的导数;/>
Figure FDA0004198174360000034
分别表示第i个增广异构无人系统的三个系统矩阵;ui=K1ixi+K2ix0=Kizi为跟随者i的控制输入,Ki=[K1i K2i]为跟随者i的控制器增益矩阵,K1i和K2i分别为控制器ui的前馈增益矩阵和反馈增益矩阵。
6.如权利要求5所述的基于强化学习的异构集群无人系统事件触发协同控制方法,其特征在于,所述步骤五,具体过程如下:
S501.定义变量
Figure FDA0004198174360000035
Figure FDA0004198174360000036
其中,vecv(zi)表示状态zi中每个元素组成的列向量,
Figure FDA0004198174360000039
表示状态zi中的第一个元素,以此类推;P表示正定矩阵,vecs(P)为矩阵P中不同元素构成的列向量;/>
Figure FDA0004198174360000037
为n(2n+1)维的实数集;
S502.定义四个数据存储单元分别为
Figure FDA0004198174360000038
和Θ1 k,将系统运行的数据存储起来:
Figure FDA0004198174360000041
Figure FDA0004198174360000042
Figure FDA0004198174360000043
Figure FDA0004198174360000044
其中在时间区间[t0,tl]内收集系统产生的数据,并以一定的采样步长将区间分成若干子区间;t0为系统收集数据的初始时刻,t1为系统在初始收集数据时刻t0的通过采样步长后的时刻,依次类推,tl为系统收集数据的终止时刻;
Figure FDA0004198174360000045
分别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内值函数收集的系统数据.I为单位矩阵,Ri表示对称正定矩阵;
Figure FDA0004198174360000046
别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集的系统数据;/>
Figure FDA0004198174360000047
Figure FDA0004198174360000048
分别表示第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集与输入关联的系统数据;Θ1 k表示一个迭代向量,其迭代依赖于存储单元/>
Figure FDA0004198174360000049
Figure FDA00041981743600000410
和更新的控制器增益;
S503.迭代关系为
Figure FDA00041981743600000411
其中,Pi为正定矩阵,每次迭代进行更新,上标k和k+1表示第k和第k+1次迭代对应的数据,Ki k+1即表示第k+1次迭代的跟随者i的控制器增益矩阵,Ri -1表示矩阵Ri的逆,
Figure FDA00041981743600000412
表示第i个增广异构无人系统的其中一个系统矩阵/>
Figure FDA00041981743600000413
的转置;
S504.依赖数据存储单元中的系统运行数据,根据以下对应关系进行迭代求解:
Figure FDA00041981743600000414
其中,Qi为对称的半正定矩阵;
Figure FDA0004198174360000051
表示第i个跟随者的控制器增益矩阵K在第k+1次迭代的学习的数值;
S505.判断‖Ki k+1-Ki k‖<ε1是否成立,其中ε1任意选取的大于零的数值;
①如果‖Ki k+1-Ki k‖<ε1成立,则停止迭代,此时控制增益为Ki k+1,控制器为ui=Ki k+1zi
②如果‖Ki k+1-Ki k‖<ε1不成立,则k=k+1,而后转至S503和S504继续求解;
S506.获得最优的控制器ui *,同时获得最优控制器增益矩阵Ki *
CN202310453213.9A 2023-04-25 2023-04-25 基于强化学习的异构集群无人系统事件触发协同控制方法 Pending CN116430899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310453213.9A CN116430899A (zh) 2023-04-25 2023-04-25 基于强化学习的异构集群无人系统事件触发协同控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310453213.9A CN116430899A (zh) 2023-04-25 2023-04-25 基于强化学习的异构集群无人系统事件触发协同控制方法

Publications (1)

Publication Number Publication Date
CN116430899A true CN116430899A (zh) 2023-07-14

Family

ID=87085288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310453213.9A Pending CN116430899A (zh) 2023-04-25 2023-04-25 基于强化学习的异构集群无人系统事件触发协同控制方法

Country Status (1)

Country Link
CN (1) CN116430899A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117826860A (zh) * 2024-03-04 2024-04-05 北京航空航天大学 一种基于强化学习的固定翼无人机控制策略的确定方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117826860A (zh) * 2024-03-04 2024-04-05 北京航空航天大学 一种基于强化学习的固定翼无人机控制策略的确定方法

Similar Documents

Publication Publication Date Title
CN110456807A (zh) 一种多航天器一致性动态增益控制方法
CN112327633A (zh) 具有时滞和干扰的领导跟随多智能体系统一致性的方法
CN113727306B (zh) 一种基于深度强化学习的解耦c-v2x网络切片方法
CN110347181B (zh) 基于能耗的无人机分布式编队控制方法
CN116430899A (zh) 基于强化学习的异构集群无人系统事件触发协同控制方法
CN113625559B (zh) 一种基于指定时间收敛的多智能体系统协同控制方法
CN117149434A (zh) 基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法
CN113268083A (zh) 基于动态事件触发的多无人机系统编队跟踪控制方法
CN118170034B (zh) 一种具有通信丢包的异构多智能体系统均方一致控制方法
CN110610019A (zh) 转移概率部分未知的马尔科夫跳变系统的动力学分析方法
CN114114904B (zh) 一种有限时间和固定时间分布式事件触发一致性方法
CN117255027A (zh) 一种具有切换拓扑的多智能体系统二分同步方法
Babazadeh et al. Event-triggered surrounding adaptive control of nonlinear multi-agent systems
Cai et al. A Review of Research on the Application of Deep Reinforcement Learning in Unmanned Aerial Vehicle Resource Allocation and Trajectory Planning
CN116088317A (zh) 一种基于动态事件触发的多智能体一致性控制方法
CN116679753A (zh) 一种异构无人系统抗欺骗攻击的编队跟踪控制方法
CN115933631B (zh) 一种应用于欠驱动无人艇的编队控制器构建方法及装置
CN116382303A (zh) 一种车辆队列的自适应事件触发控制方法
Gao et al. Cooperative braking of urban rail vehicles with Koopman model predictive control
CN117687309B (zh) 用于异构集群系统的异步约束输出编队跟踪方法及系统
Guo et al. Asynchronous dynamic event‐triggered control for network systems with dual triggers
Xie et al. Reliability modeling and analysis of ship communication network based on Apriori algorithm
CN118426467A (zh) 一种基于动态事件触发的无人船编队控制方法
CN116974195A (zh) 一种异构无人集群系统的强化学习最优输出跟踪控制方法
CN117950320A (zh) 一种基于事件触发机制的多无人机一致性控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination