CN116430899A

CN116430899A - 基于强化学习的异构集群无人系统事件触发协同控制方法

Info

Publication number: CN116430899A
Application number: CN202310453213.9A
Authority: CN
Inventors: 徐勇; 苑云鹏; 孙健; 窦丽华
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-14

Abstract

本发明公开了基于强化学习的异构集群无人系统事件触发协同控制方法，涉及集群无人系统技术领域，能够减少通信资源的消耗，适用于系统模型未知情况下实现最优协同跟踪控制。具体方案为：建立针对无人系统的系统模型；构建事件触发的分布式观测器，利用观测器来估计领航者的状态；构建基于边的事件触发控制器，重构增广异构无人系统的动力学模型，根据增广异构无人系统动力学模型构建控制器增益矩阵。基于数据驱动的求解机制，首先将无人机系统前期运行的数据存储起来，而后根据无人机系统前期运行数据，利用基于强化学习的策略迭代算法，学习最优的基于边的事件触发控制器，进而保证控制器增益矩阵K_i ^*最优，实现最优的协同跟踪控制。

Description

基于强化学习的异构集群无人系统事件触发协同控制方法

技术领域

本发明涉及集群无人系统技术领域，具体涉及一种基于强化学习的异构集群无人系统事件触发协同控制方法。

背景技术

近年来，随着无线通信技术的进步和计算能力的提高，集群无人系统协同控制已经被广泛应用于微电网、无人驾驶、路径跟踪或编队控制、智能城市等领域。集群无人系统的协同控制一直是近几十年来研究的热点，它的控制目标是设计一个分布式的控制协议使多个独立的无人系统通过能够相互协作实现系统的整体目标。具体来说，通过无人系统间的信息交互实现状态或者输出的一致。其中，如何减少无人系统之间的交互频次，减少通信资源和计算资源的消耗，以及在无法获得系统模型信息的情况下，实现整体系统的协同一直是集群无人系统协同控制领域的一个亟待解决的问题。

事件触发控制是指对受控系统状态的采样时刻是由受控系统预设的触发条件所确定的，区别于传统的周期性采样控制。即当受控系统的状态满足一定的预设条件时才会对受控系统状态进行采样，并将采样的状态值传递给控制器进行控制输入更新。

除此之外，在现有的绝大多数协同控制方案的设计中，协同控制的实现需要完整地掌握系统的模型信息，这在很多实际应用当中是难以现实。同时，现有的控制器设计技术只考虑了系统稳态性能而没有考虑系统的瞬态性能，无法保证系统协同控制的最优性。

因此，如何在系统模型未知下设计控制器来保证异构集群无人系统实现最优协同是目前的热点和难点问题。

为了解决这个问题，目前有研究通过收集系统数据，采用强化学习的控制策略通过收集的系统数据来实现最优控制器的学习，进而保证在系统模型未知下实现最优协同跟踪控制。

但是这种最优协同跟踪控制方案，需要消耗大量的通信资源，对于系统带宽要求较高，且在系统模型已知的情况下才能获得最优控制方案，在系统模型未知的情况下，其最优性无法保证。

如何在系统存在带宽受限且系统模型未知前提下，提出一种能够保证低资源消耗的最优协同跟踪控制方案，是目前亟待解决的问题。

发明内容

有鉴于此，本发明提供了基于强化学习的异构集群无人系统事件触发协同控制方法，能够减少通信资源的消耗，且适用于系统模型未知情况下实现最优协同跟踪控制。

为达到上述目的，本发明的技术方案为：其中无人系统由一个领航者和N个跟随者组成，无人系统内部通过一个连通的拓扑图进行通信，对该无人系统按照如下步骤执行基于事件触发的协同控制：

步骤一，首先建立针对所述无人系统的系统模型，包含领航者的动力学模型和每个跟随者的动力学模型。

步骤二，构建事件触发的分布式观测器，利用观测器来估计领航者的状态。

步骤三，构建基于边的事件触发控制器，实现观测器状态对领航者状态的跟踪。

步骤四，重构增广异构无人系统的动力学模型，根据所述增广异构无人系统动力学模型构建控制器增益矩阵。

步骤五，基于数据驱动的求解机制，首先将无人机系统前期运行的数据存储起来，而后根据无人机系统前期运行数据，利用基于强化学习的策略迭代算法，学习最优的所述基于边的事件触发控制器，进而保证控制器增益矩阵K_i ^*最优，实现最优的协同跟踪控制。

进一步地，步骤一，建立针对所述无人系统的系统模型，包含领航者的动力学模型和每个跟随者的动力学模型，具体采用如下步骤：

领航者的动力学模型如下：

其中，

为x₀的导数、A₀为领航者的状态系统矩阵、x₀为领航者的状态、C₀为领航者的输出系统矩阵、y₀为领航者的输出；

第i个跟随者动力学模型如下：

其中，x_i为跟随者的状态，

为x_i的导数，A_i为跟随者的状态矩阵，B_i为第i个跟随者的输入矩阵，u_i为第i个跟随者的控制输入，y_i为跟随者的输出，C_i为跟随者的输出矩阵。

进一步地，步骤二，构建事件触发的分布式观测器，利用观测器来估计领航者的状态，其中所构建的事件触发的分布式观测器为：

其中，η_i为针对第i个跟随者的观测器的状态，

为η_i的导数，/>

为控制器第i个观测器的控制输入信号，c为任意选取的固定常数；A₀为领航者的状态系统矩阵。

进一步地，步骤三，构建基于边的事件触发控制器，实现观测器状态对领航者状态的跟踪，具体为：

首先，构建基于边的估计器

并且满足以下关系：

其中，

为第i个观测器和第j个观测器相邻状态的估计值，/>

为/>

的导数，/>

为相邻边ij的第k次触发时刻，/>

为相邻边ij的第k+1次触发时刻，A₀为领航者的状态系统矩阵；

当事件触发时，基于边的估计器的估计值

等于真实状态/>

其中事件触发函数为

的形式如下

其中，

为控制器第i个观测器的控制输入信号，/>

为t时刻输入信号为/>

时控制器第i个观测器的事件触发函数，A₀为领航者的状态系统矩阵，α>0和β>0为触发条件的参数，任意选取的常数，dτ为微分，τ取值为/>

e为自然底数。

并且结合基于边的估计器，构建如下形式的基于边的事件触发控制器：

其中，a_ij为第i、j个跟随者之间的权重，若i、j为邻居则大于零，否则等于零；a_i0为第i个跟随者和领航者之间的权重，其中δ_i是观测器状态η_i和领航者无人系统状态x₀的误差。

进一步地，步骤四，构建增广异构无人系统动力学模型，具体为：

其中，z_i＝[x_i ^T x₀ ^T]^T表示由跟随者状态x_i和领导者状态z₀组成增广异构无人系统的状态，

为z_i的导数；/>

分别表示第i个增广异构无人系统的三个系统矩阵；u_i＝K_1ix_i+K_2ix₀＝K_iz_i为跟随者i的控制输入，K_i＝[K_1iK_2i]为跟随者i的控制器增益矩阵，K_1i和K_2i分别为控制器u_i的前馈增益矩阵和反馈增益矩阵。

进一步地，步骤五，具体过程如下：

S501.定义变量

其中，vecv(z_i)表示状态z_i中每个元素组成的列向量，

表示状态z_i中的第一个元素，以此类推；P表示正定矩阵，vecs(P)为矩阵P中不同元素构成的列向量；/>

为n(2n+1)维的实数集；

S502.定义四个数据存储单元分别为

和Θ₁ ^k，将系统运行的数据存储起来：

其中在时间区间[t₀,t_l]内收集系统产生的数据，并以一定的采样步长将区间分成若干子区间；t₀为系统收集数据的初始时刻，t₁为系统在初始收集数据时刻t₀的通过采样步长后的时刻，依次类推，t_l为系统收集数据的终止时刻；

分别表示在对应第i个跟随者在子区间[t₀,t₁]，[t₁,t₂]，...,[t_l-1,t_l]内值函数收集的系统数据.I为单位矩阵，R_i表示对称正定矩阵；

别表示在对应第i个跟随者在子区间[t₀,t₁]，[t₁,t₂]，...,[t_l-1,t_l]内收集的系统数据；/>

分别表示第i个跟随者在子区间[t₀,t₁]，[t₁,t₂]，...,[t_l-1,t_l]内收集与输入关联的系统数据；Θ₁ ^k表示一个迭代向量，其迭代依赖于存储单元/>

和更新的控制器增益；

S503.迭代关系为

其中，P_i为正定矩阵，每次迭代进行更新，上标k和k+1表示第k和第k+1次迭代对应的数据，K_i ^k+1即表示第k+1次迭代的跟随者i的控制器增益矩阵，R_i ^-1表示矩阵R_i的逆，

表示第i个增广异构无人系统的其中一个系统矩阵/>

的转置；

S504.依赖数据存储单元中的系统运行数据，根据以下对应关系进行迭代求解：

其中，Q_i为对称的半正定矩阵；vec(K_i ^k+1)表示第i个跟随者的控制器增益矩阵K在第k+1次迭代的学习的数值；

S505.判断‖K_i ^k+1-K_i ^k‖<ε₁是否成立,其中ε₁任意选取的大于零的数值；

①如果‖K_i ^k+1-K_i ^k‖<ε₁成立，则停止迭代，此时控制增益为K_i ^k+1，控制器为u_i＝K_i ^k+ ¹z_i；

②如果‖K_i ^k+1-K_i ^k‖<ε₁不成立，则k＝k+1，而后转至S503和S504继续求解；

S506.获得最优的控制器u_i ^*，同时获得最优控制器增益矩阵K_i ^*。

有益效果：

本发明提供一种基于强化学习的异构集群无人系统事件触发协同控制方法，首先设计分布式观测器实现领导者无人系统状态的估计，并构建基于控制输入触发的事件触发机制，可以在通信资源受限下实现跟随者无人系统对领导者状态的准确跟踪。然后，采用强化学习的策略迭代算法，在不需要获取系统模型的情况下，可以寻找到最优的控制策略，同时保证异构集群无人系统的协同跟踪控制。

附图说明

图1为本发明提供的基于强化学习的异构集群无人系统事件触发协同控制算法设计流程图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

如图1所示，本发明针对的无人系统由1个领航者和N个跟随者无人系统组成，它们之间通过一个连通的拓扑图进行通信，本发明提供的基于事件触发和强化学习的集群无人系统协同控制方法具体步骤如下：

步骤一：建立无人系统模型。

本发明实施例所构建的无人系统领航者的动力学模型如下：

其中，

为x₀的导数、A₀为领航者的状态系统矩阵、x₀为领航者的状态、C₀为领航者的输出系统矩阵、y₀为领航者的输出。

第i个跟随者动力学模型如下：

其中，

为x_i的导数，x_i为跟随者的状态、y_i为跟随者的输出，A_i为跟随者的状态矩阵、B_i为第i个跟随者的输入矩阵、u_i为第i个跟随者的控制输入、C_i为为跟随者的输出矩阵；

步骤二：构建事件触发的分布式观测器，利用观测器来估计领导者的状态

其中，η_i为针对第i个跟随者的观测器的状态，

为η_i的导数，/>

步骤三：考虑通信资源有限，为了降低无人系统之间的通信频率，设计基于边的事件触发控制器，实现观测器状态对领航者状态的跟踪。

本发明实施例中，控制器的具体设计方法如下

首先，构建基于边的估计器

并且满足以下关系

其中，

为/>

的导数，/>

为第i个观测器和第j个观测器相邻状态的估计值，/>

为相邻边ij的第k次触发时刻，/>

为相邻边ij的第k+1次触发时刻，由后续设计的事件触发函数来决定。当事件触发时，估计器的估计值/>

等于真实状态

事件触发函数的形式如下

其中，α>0和β>0为触发条件的参数，可任意选取的常数。

并且结合基于边的估计器，设计如下形式的基于边的事件触发控制器

其中，a_ij为第i、j个跟随者之间的权重，若ij为邻居则大于零，否则等于零；a_i0为第i个跟随者和领航者之间的权重，其中δ_i是观测器状态η_i和领航者无人系统状态x₀的误差，形式如下

δ_i＝η_i-x₀

步骤四：构建增广异构无人系统动力学模型

其中，z_i＝[x_i ^T x₀ ^T]^T表示由跟随者状态x_i和领导者状态x₀组成增广异构无人系统的状态，

为z_i的导数。/>

分别表示第i个增广异构无人系统的系统矩阵。u_i＝K_1ix_i+K_2ix₀＝K_iz_i为跟随者i的控制输入，K_i＝[K_1i K_2i]为跟随者i的控制器增益矩阵，K_1i和K_2i分别为控制器u_i的前馈增益矩阵和反馈增益矩阵，均需要学习的获得，从而保证控制器增益矩阵K_i最优。

步骤五：在初始增益矩阵

是Hurwitz矩阵的前提下，K_i ⁰表示第i个跟随着在初始时刻给定的初始值，为提前给出初始设定的K_i。采用基于数据驱动的求解机制，首先将系统前期运行的数据存储起来，而后根据系统前期运行数据，利用基于强化学习的策略迭代算法，学习最优控制器u_i，进而保证控制器增益矩阵K_i ^*最优，实现最优的协同跟踪控制。

其中基于强化学习的策略迭代算法的具体过程如下：

S501.定义变量

其中，vecv(z_i)表示状态z_i中每个元素组成的列向量，z_i1表示状态z_i中的第一个元素，以此类推；P表示正定矩阵，vecs(P)为矩阵P中不同元素构成的列向量；

为n(2n+1)维的实数集。

S502.定义数据存储单元

和Θ₁ ^k，将系统运行的数据存储起来

和更新的控制器增益；

S503.迭代关系为

表示第i个增广异构无人系统的其中一个系统矩阵/>

的转置；

S504.依赖数据存储单元中的系统运行数据，根据以下对应关系进行迭代求解

S505.判断‖K_i ^k+1-K_i ^k‖<ε₁是否成立,ε₁任意选取的大于零的数值；

②如果‖K_i ^k+1-K_i ^k‖<ε₁不成立，则k＝k+1，而后转至3和4继续求解；

6.获得最优的控制器u_i ^*，同时获得最优控制器增益矩阵K_i ^*。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。