CN116430899A - 基于强化学习的异构集群无人系统事件触发协同控制方法 - Google Patents
基于强化学习的异构集群无人系统事件触发协同控制方法 Download PDFInfo
- Publication number
- CN116430899A CN116430899A CN202310453213.9A CN202310453213A CN116430899A CN 116430899 A CN116430899 A CN 116430899A CN 202310453213 A CN202310453213 A CN 202310453213A CN 116430899 A CN116430899 A CN 116430899A
- Authority
- CN
- China
- Prior art keywords
- follower
- matrix
- state
- controller
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 72
- 230000001960 triggered effect Effects 0.000 claims abstract description 17
- 230000003190 augmentative effect Effects 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 6
- 238000011217 control strategy Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了基于强化学习的异构集群无人系统事件触发协同控制方法,涉及集群无人系统技术领域,能够减少通信资源的消耗,适用于系统模型未知情况下实现最优协同跟踪控制。具体方案为:建立针对无人系统的系统模型;构建事件触发的分布式观测器,利用观测器来估计领航者的状态;构建基于边的事件触发控制器,重构增广异构无人系统的动力学模型,根据增广异构无人系统动力学模型构建控制器增益矩阵。基于数据驱动的求解机制,首先将无人机系统前期运行的数据存储起来,而后根据无人机系统前期运行数据,利用基于强化学习的策略迭代算法,学习最优的基于边的事件触发控制器,进而保证控制器增益矩阵Ki *最优,实现最优的协同跟踪控制。
Description
技术领域
本发明涉及集群无人系统技术领域,具体涉及一种基于强化学习的异构集群无人系统事件触发协同控制方法。
背景技术
近年来,随着无线通信技术的进步和计算能力的提高,集群无人系统协同控制已经被广泛应用于微电网、无人驾驶、路径跟踪或编队控制、智能城市等领域。集群无人系统的协同控制一直是近几十年来研究的热点,它的控制目标是设计一个分布式的控制协议使多个独立的无人系统通过能够相互协作实现系统的整体目标。具体来说,通过无人系统间的信息交互实现状态或者输出的一致。其中,如何减少无人系统之间的交互频次,减少通信资源和计算资源的消耗,以及在无法获得系统模型信息的情况下,实现整体系统的协同一直是集群无人系统协同控制领域的一个亟待解决的问题。
事件触发控制是指对受控系统状态的采样时刻是由受控系统预设的触发条件所确定的,区别于传统的周期性采样控制。即当受控系统的状态满足一定的预设条件时才会对受控系统状态进行采样,并将采样的状态值传递给控制器进行控制输入更新。
除此之外,在现有的绝大多数协同控制方案的设计中,协同控制的实现需要完整地掌握系统的模型信息,这在很多实际应用当中是难以现实。同时,现有的控制器设计技术只考虑了系统稳态性能而没有考虑系统的瞬态性能,无法保证系统协同控制的最优性。
因此,如何在系统模型未知下设计控制器来保证异构集群无人系统实现最优协同是目前的热点和难点问题。
为了解决这个问题,目前有研究通过收集系统数据,采用强化学习的控制策略通过收集的系统数据来实现最优控制器的学习,进而保证在系统模型未知下实现最优协同跟踪控制。
但是这种最优协同跟踪控制方案,需要消耗大量的通信资源,对于系统带宽要求较高,且在系统模型已知的情况下才能获得最优控制方案,在系统模型未知的情况下,其最优性无法保证。
如何在系统存在带宽受限且系统模型未知前提下,提出一种能够保证低资源消耗的最优协同跟踪控制方案,是目前亟待解决的问题。
发明内容
有鉴于此,本发明提供了基于强化学习的异构集群无人系统事件触发协同控制方法,能够减少通信资源的消耗,且适用于系统模型未知情况下实现最优协同跟踪控制。
为达到上述目的,本发明的技术方案为:其中无人系统由一个领航者和N个跟随者组成,无人系统内部通过一个连通的拓扑图进行通信,对该无人系统按照如下步骤执行基于事件触发的协同控制:
步骤一,首先建立针对所述无人系统的系统模型,包含领航者的动力学模型和每个跟随者的动力学模型。
步骤二,构建事件触发的分布式观测器,利用观测器来估计领航者的状态。
步骤三,构建基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪。
步骤四,重构增广异构无人系统的动力学模型,根据所述增广异构无人系统动力学模型构建控制器增益矩阵。
步骤五,基于数据驱动的求解机制,首先将无人机系统前期运行的数据存储起来,而后根据无人机系统前期运行数据,利用基于强化学习的策略迭代算法,学习最优的所述基于边的事件触发控制器,进而保证控制器增益矩阵Ki *最优,实现最优的协同跟踪控制。
进一步地,步骤一,建立针对所述无人系统的系统模型,包含领航者的动力学模型和每个跟随者的动力学模型,具体采用如下步骤:
领航者的动力学模型如下:
第i个跟随者动力学模型如下:
进一步地,步骤二,构建事件触发的分布式观测器,利用观测器来估计领航者的状态,其中所构建的事件触发的分布式观测器为:
进一步地,步骤三,构建基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪,具体为:
其中,为控制器第i个观测器的控制输入信号,/>为t时刻输入信号为/>时控制器第i个观测器的事件触发函数,A0为领航者的状态系统矩阵,α>0和β>0为触发条件的参数,任意选取的常数,dτ为微分,τ取值为/>e为自然底数。
并且结合基于边的估计器,构建如下形式的基于边的事件触发控制器:
其中,aij为第i、j个跟随者之间的权重,若i、j为邻居则大于零,否则等于零;ai0为第i个跟随者和领航者之间的权重,其中δi是观测器状态ηi和领航者无人系统状态x0的误差。
进一步地,步骤四,构建增广异构无人系统动力学模型,具体为:
其中,zi=[xi T x0 T]T表示由跟随者状态xi和领导者状态z0组成增广异构无人系统的状态,为zi的导数;/>分别表示第i个增广异构无人系统的三个系统矩阵;ui=K1ixi+K2ix0=Kizi为跟随者i的控制输入,Ki=[K1iK2i]为跟随者i的控制器增益矩阵,K1i和K2i分别为控制器ui的前馈增益矩阵和反馈增益矩阵。
进一步地,步骤五,具体过程如下:
S501.定义变量
其中在时间区间[t0,tl]内收集系统产生的数据,并以一定的采样步长将区间分成若干子区间;t0为系统收集数据的初始时刻,t1为系统在初始收集数据时刻t0的通过采样步长后的时刻,依次类推,tl为系统收集数据的终止时刻;分别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内值函数收集的系统数据.I为单位矩阵,Ri表示对称正定矩阵;别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集的系统数据;/> 分别表示第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集与输入关联的系统数据;Θ1 k表示一个迭代向量,其迭代依赖于存储单元/> 和更新的控制器增益;
S503.迭代关系为
其中,Pi为正定矩阵,每次迭代进行更新,上标k和k+1表示第k和第k+1次迭代对应的数据,Ki k+1即表示第k+1次迭代的跟随者i的控制器增益矩阵,Ri -1表示矩阵Ri的逆,表示第i个增广异构无人系统的其中一个系统矩阵/>的转置;
S504.依赖数据存储单元中的系统运行数据,根据以下对应关系进行迭代求解:
其中,Qi为对称的半正定矩阵;vec(Ki k+1)表示第i个跟随者的控制器增益矩阵K在第k+1次迭代的学习的数值;
S505.判断‖Ki k+1-Ki k‖<ε1是否成立,其中ε1任意选取的大于零的数值;
①如果‖Ki k+1-Ki k‖<ε1成立,则停止迭代,此时控制增益为Ki k+1,控制器为ui=Ki k+ 1zi;
②如果‖Ki k+1-Ki k‖<ε1不成立,则k=k+1,而后转至S503和S504继续求解;
S506.获得最优的控制器ui *,同时获得最优控制器增益矩阵Ki *。
有益效果:
本发明提供一种基于强化学习的异构集群无人系统事件触发协同控制方法,首先设计分布式观测器实现领导者无人系统状态的估计,并构建基于控制输入触发的事件触发机制,可以在通信资源受限下实现跟随者无人系统对领导者状态的准确跟踪。然后,采用强化学习的策略迭代算法,在不需要获取系统模型的情况下,可以寻找到最优的控制策略,同时保证异构集群无人系统的协同跟踪控制。
附图说明
图1为本发明提供的基于强化学习的异构集群无人系统事件触发协同控制算法设计流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
如图1所示,本发明针对的无人系统由1个领航者和N个跟随者无人系统组成,它们之间通过一个连通的拓扑图进行通信,本发明提供的基于事件触发和强化学习的集群无人系统协同控制方法具体步骤如下:
步骤一:建立无人系统模型。
本发明实施例所构建的无人系统领航者的动力学模型如下:
第i个跟随者动力学模型如下:
步骤二:构建事件触发的分布式观测器,利用观测器来估计领导者的状态
步骤三:考虑通信资源有限,为了降低无人系统之间的通信频率,设计基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪。
本发明实施例中,控制器的具体设计方法如下
其中,为/>的导数,/>为第i个观测器和第j个观测器相邻状态的估计值,/>为相邻边ij的第k次触发时刻,/>为相邻边ij的第k+1次触发时刻,由后续设计的事件触发函数来决定。当事件触发时,估计器的估计值/>等于真实状态
事件触发函数的形式如下
其中,α>0和β>0为触发条件的参数,可任意选取的常数。
其中,aij为第i、j个跟随者之间的权重,若ij为邻居则大于零,否则等于零;ai0为第i个跟随者和领航者之间的权重,其中δi是观测器状态ηi和领航者无人系统状态x0的误差,形式如下
δi=ηi-x0
步骤四:构建增广异构无人系统动力学模型
其中,zi=[xi T x0 T]T表示由跟随者状态xi和领导者状态x0组成增广异构无人系统的状态,为zi的导数。/>分别表示第i个增广异构无人系统的系统矩阵。ui=K1ixi+K2ix0=Kizi为跟随者i的控制输入,Ki=[K1i K2i]为跟随者i的控制器增益矩阵,K1i和K2i分别为控制器ui的前馈增益矩阵和反馈增益矩阵,均需要学习的获得,从而保证控制器增益矩阵Ki最优。
步骤五:在初始增益矩阵是Hurwitz矩阵的前提下,Ki 0表示第i个跟随着在初始时刻给定的初始值,为提前给出初始设定的Ki。采用基于数据驱动的求解机制,首先将系统前期运行的数据存储起来,而后根据系统前期运行数据,利用基于强化学习的策略迭代算法,学习最优控制器ui,进而保证控制器增益矩阵Ki *最优,实现最优的协同跟踪控制。
其中基于强化学习的策略迭代算法的具体过程如下:
S501.定义变量
其中在时间区间[t0,tl]内收集系统产生的数据,并以一定的采样步长将区间分成若干子区间;t0为系统收集数据的初始时刻,t1为系统在初始收集数据时刻t0的通过采样步长后的时刻,依次类推,tl为系统收集数据的终止时刻;分别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内值函数收集的系统数据.I为单位矩阵,Ri表示对称正定矩阵;别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集的系统数据;/> 分别表示第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集与输入关联的系统数据;Θ1 k表示一个迭代向量,其迭代依赖于存储单元/> 和更新的控制器增益;
S503.迭代关系为
其中,Pi为正定矩阵,每次迭代进行更新,上标k和k+1表示第k和第k+1次迭代对应的数据,Ki k+1即表示第k+1次迭代的跟随者i的控制器增益矩阵,Ri -1表示矩阵Ri的逆,表示第i个增广异构无人系统的其中一个系统矩阵/>的转置;
S504.依赖数据存储单元中的系统运行数据,根据以下对应关系进行迭代求解
其中,Qi为对称的半正定矩阵;vec(Ki k+1)表示第i个跟随者的控制器增益矩阵K在第k+1次迭代的学习的数值;
S505.判断‖Ki k+1-Ki k‖<ε1是否成立,ε1任意选取的大于零的数值;
①如果‖Ki k+1-Ki k‖<ε1成立,则停止迭代,此时控制增益为Ki k+1,控制器为ui=Ki k+ 1zi;
②如果‖Ki k+1-Ki k‖<ε1不成立,则k=k+1,而后转至3和4继续求解;
6.获得最优的控制器ui *,同时获得最优控制器增益矩阵Ki *。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于强化学习的异构集群无人系统事件触发协同控制方法,其特征在于,其中无人系统由一个领航者和N个跟随者组成,无人系统内部通过一个连通的拓扑图进行通信,对该无人系统按照如下步骤执行基于事件触发的协同控制:
步骤一,首先建立针对所述无人系统的系统模型,包含领航者的动力学模型和每个跟随者的动力学模型;
步骤二,构建事件触发的分布式观测器,利用观测器来估计领航者的状态;
步骤三,构建基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪;
步骤四,重构增广异构无人系统的动力学模型,根据所述增广异构无人系统动力学模型构建控制器增益矩阵;
步骤五,基于数据驱动的求解机制,首先将无人机系统前期运行的数据存储起来,而后根据无人机系统前期运行数据,利用基于强化学习的策略迭代算法,学习最优的所述基于边的事件触发控制器,进而保证控制器增益矩阵Ki*最优,实现最优的协同跟踪控制。
4.如权利要求1或2所述的基于强化学习的异构集群无人系统事件触发协同控制方法,其特征在于,所述步骤三,构建基于边的事件触发控制器,实现观测器状态对领航者状态的跟踪,具体为:
其中,为控制器第i个观测器的控制输入信号,/>为t时刻输入信号为/>时控制器第i个观测器的事件触发函数,A0为领航者的状态系统矩阵,α>0和β>0为触发条件的参数,任意选取的常数,dτ为微分,τ取值为/>e为自然底数;
并且结合基于边的估计器,构建如下形式的基于边的事件触发控制器:
其中,aij为第i、j个跟随者之间的权重,若i、j为邻居则大于零,否则等于零;ai0为第i个跟随者和领航者之间的权重,其中δi是观测器状态ηi和领航者无人系统状态x0的误差。
6.如权利要求5所述的基于强化学习的异构集群无人系统事件触发协同控制方法,其特征在于,所述步骤五,具体过程如下:
S501.定义变量
其中在时间区间[t0,tl]内收集系统产生的数据,并以一定的采样步长将区间分成若干子区间;t0为系统收集数据的初始时刻,t1为系统在初始收集数据时刻t0的通过采样步长后的时刻,依次类推,tl为系统收集数据的终止时刻;分别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内值函数收集的系统数据.I为单位矩阵,Ri表示对称正定矩阵;别表示在对应第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集的系统数据;/> 分别表示第i个跟随者在子区间[t0,t1],[t1,t2],...,[tl-1,tl]内收集与输入关联的系统数据;Θ1 k表示一个迭代向量,其迭代依赖于存储单元/> 和更新的控制器增益;
S503.迭代关系为
其中,Pi为正定矩阵,每次迭代进行更新,上标k和k+1表示第k和第k+1次迭代对应的数据,Ki k+1即表示第k+1次迭代的跟随者i的控制器增益矩阵,Ri -1表示矩阵Ri的逆,表示第i个增广异构无人系统的其中一个系统矩阵/>的转置;
S504.依赖数据存储单元中的系统运行数据,根据以下对应关系进行迭代求解:
S505.判断‖Ki k+1-Ki k‖<ε1是否成立,其中ε1任意选取的大于零的数值;
①如果‖Ki k+1-Ki k‖<ε1成立,则停止迭代,此时控制增益为Ki k+1,控制器为ui=Ki k+1zi;
②如果‖Ki k+1-Ki k‖<ε1不成立,则k=k+1,而后转至S503和S504继续求解;
S506.获得最优的控制器ui *,同时获得最优控制器增益矩阵Ki *。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453213.9A CN116430899A (zh) | 2023-04-25 | 2023-04-25 | 基于强化学习的异构集群无人系统事件触发协同控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453213.9A CN116430899A (zh) | 2023-04-25 | 2023-04-25 | 基于强化学习的异构集群无人系统事件触发协同控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116430899A true CN116430899A (zh) | 2023-07-14 |
Family
ID=87085288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310453213.9A Pending CN116430899A (zh) | 2023-04-25 | 2023-04-25 | 基于强化学习的异构集群无人系统事件触发协同控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116430899A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117826860A (zh) * | 2024-03-04 | 2024-04-05 | 北京航空航天大学 | 一种基于强化学习的固定翼无人机控制策略的确定方法 |
-
2023
- 2023-04-25 CN CN202310453213.9A patent/CN116430899A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117826860A (zh) * | 2024-03-04 | 2024-04-05 | 北京航空航天大学 | 一种基于强化学习的固定翼无人机控制策略的确定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110456807A (zh) | 一种多航天器一致性动态增益控制方法 | |
CN112327633A (zh) | 具有时滞和干扰的领导跟随多智能体系统一致性的方法 | |
CN113727306B (zh) | 一种基于深度强化学习的解耦c-v2x网络切片方法 | |
CN110347181B (zh) | 基于能耗的无人机分布式编队控制方法 | |
CN116430899A (zh) | 基于强化学习的异构集群无人系统事件触发协同控制方法 | |
CN113625559B (zh) | 一种基于指定时间收敛的多智能体系统协同控制方法 | |
CN117149434A (zh) | 基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法 | |
CN113268083A (zh) | 基于动态事件触发的多无人机系统编队跟踪控制方法 | |
CN118170034B (zh) | 一种具有通信丢包的异构多智能体系统均方一致控制方法 | |
CN110610019A (zh) | 转移概率部分未知的马尔科夫跳变系统的动力学分析方法 | |
CN114114904B (zh) | 一种有限时间和固定时间分布式事件触发一致性方法 | |
CN117255027A (zh) | 一种具有切换拓扑的多智能体系统二分同步方法 | |
Babazadeh et al. | Event-triggered surrounding adaptive control of nonlinear multi-agent systems | |
Cai et al. | A Review of Research on the Application of Deep Reinforcement Learning in Unmanned Aerial Vehicle Resource Allocation and Trajectory Planning | |
CN116088317A (zh) | 一种基于动态事件触发的多智能体一致性控制方法 | |
CN116679753A (zh) | 一种异构无人系统抗欺骗攻击的编队跟踪控制方法 | |
CN115933631B (zh) | 一种应用于欠驱动无人艇的编队控制器构建方法及装置 | |
CN116382303A (zh) | 一种车辆队列的自适应事件触发控制方法 | |
Gao et al. | Cooperative braking of urban rail vehicles with Koopman model predictive control | |
CN117687309B (zh) | 用于异构集群系统的异步约束输出编队跟踪方法及系统 | |
Guo et al. | Asynchronous dynamic event‐triggered control for network systems with dual triggers | |
Xie et al. | Reliability modeling and analysis of ship communication network based on Apriori algorithm | |
CN118426467A (zh) | 一种基于动态事件触发的无人船编队控制方法 | |
CN116974195A (zh) | 一种异构无人集群系统的强化学习最优输出跟踪控制方法 | |
CN117950320A (zh) | 一种基于事件触发机制的多无人机一致性控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |