CN114993108B

CN114993108B - 一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法

Info

Publication number: CN114993108B
Application number: CN202210535338.1A
Authority: CN
Inventors: 高煜欣; 刘春生
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-04-28
Anticipated expiration: 2042-05-17
Also published as: CN114993108A

Abstract

本发明公开了一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法，包括如下步骤：利用图论的相关理论，将协同制导问题转化为多智能体协同控制问题，构造协同制导问题的通讯拓扑；基于通讯拓扑，推导制导模型，同时引入障碍函数，并建立局部邻域一致误差方程；基于局部邻域一致误差方程并结合周期事件触发机制，推导最优触发饱和制导策略；利用自适应动态规划技术构建评价网络，实施最优触发制导策略。本发明通过周期事件触发机制的引入，节约了通信带宽资源，提升了信息的利用率，同时避免了芝诺现象的发生。

Description

一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法

技术领域

本发明涉及多约束条件下多弹协同制导领域，尤其是一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法。

背景技术

多弹协同作战相较于一对一作战模式而言，大幅度提升了作战效率，有效降低了拦截目标的逃逸概率，是近年来制导领域研究的热点。在实际制导过程中，受导弹物理因素限制，导弹执行机构、物理器件等都存在承受范围，因此，研究约束条件下的协同制导策略具有实际意义。通常，对协同制导的研究等价为对多智能体系统的研究，且目前也有许多该策略的研究成果，但是在现有针对状态受限的多智能体协同控制研究中，约束条件大多是静态的、对称的。然而，战场环境复杂，存在许多动态非对称的情况。例如，在导弹集群作战中，为了避免与障碍物发生碰撞，需要考虑约束条件，当障碍物为机动的邻域导弹或者飞行的鸟群时，静态、对称的显然难以满足需求。并且，例如导弹尾鳍等执行机构也存在操作范围，超过范围可能会导致智能体受损。因此，考虑动态非对称和输入受限约束更加符合实际应用的要求。同时，多数研究成果仅考虑了系统的稳定性，忽略了最优性问题。因此，发展多约束下最优协同制导方法具有实际意义，该控制策略实现的前提是求解其相关的Hamilton-Jacobi-Bellman(HJB)方程，然而在非线性系统中，HJB方程求解困难。自适应动态规划技术被广泛应用于最优控制问题中，该方法利用函数近似结构来估计代价函数，用于按时间正向求解动态规划问题，可以有效近似HJB方程的解析解。此外，制导系统资源和通信带宽是有限的，而传统的时间触发控制通信压力较大，控制输入更新较为频繁，造成资源浪费。因此，在设计最优协同制导策略的过程中，提升信息利用率显得尤为重要。

发明内容

本发明所要解决的技术问题在于，提供一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法，拓展了多约束非线性协同制导领域，全状态满足动态约束，而且控制策略不仅在受限范围内，同时节约通信资源。

为解决上述技术问题，本发明提供一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法，包括如下步骤：

步骤1、利用图论的相关理论，将协同制导问题转化为多智能体协同控制问题，构造协同制导问题的通讯拓扑；

步骤2、基于通讯拓扑，推导制导模型，同时引入障碍函数，并建立局部邻域一致误差方程；

步骤3、基于局部邻域一致误差方程并结合周期事件触发机制，推导最优触发饱和制导策略；

步骤4、利用自适应动态规划技术构建评价网络，实施最优触发制导策略。

优选的，步骤1中，利用图论的相关理论，将协同制导问题转化为多智能体协同控制问题，构造协同制导问题的通讯拓扑具体为：通讯拓扑表示为如下有向图：

其中，

表示节点个体集合，

表示节点通讯链接集合，A＝[a_ij]∈R^N×N,a_ij≥0表示权值链接矩阵，如果(i,j)∈ε，则表明节点j是节点i的邻域个体，此时a_ij＝1；否则，a_ij＝0；将节点i的所有邻域个体的集合表示为N_i＝{j:(i,j)∈ε}，定义入度矩阵D＝diag{d₁,d₂,…,d_N}，其中

表示节点i的邻域个体的数量，定义图

的拉普拉斯矩阵为L＝D-A且所有行的和为零，考虑图

为强联通的有向图且a_ii＝0；另外，节点i与领导者之间的连接矩阵表示为B＝diag{b₁,b₂,…,b_N}，其中，b_i＝1表示节点i能够接收领导者信息；否则，b_i＝0。

优选的，步骤2中，基于通讯拓扑，推导制导模型，同时引入障碍函数，并建立局部邻域一致误差方程具体为：二维平面N枚导弹协同拦截同一目标模型表达为如下相对运动方程：

其中M_i代表第i枚导弹，T代表目标，考虑所有导弹和目标的运动为质点运动且速度大小均为恒定值，V_i和V_T分别表示第i枚导弹和目标的速度；

和γ_T分别表示第i枚导弹的目标的航迹倾角；γ_MiT表示第i枚导弹与目标之间视线角；r_i表示第i枚导弹和目标之间的距离，则其相对速率表示为

u_i和ν分别第i枚导弹和目标垂直于速度向量的加速度，各枚导弹之间主要依靠通讯拓扑网络进行通讯，即第i枚导弹只与其邻域导弹进行通信；

第i枚导弹和目标均表现为如下一阶自动驾驶仪：

其中

表示第i枚拦截弹的坐标位置；a_i表示拦截弹的侧向加速度；

表示拦截弹自动驾驶仪时间常数，设定时间常数为0.1s；相应的目标自动驾驶仪表达式为：

其中(x_T,y_T)表示目标的坐标位置；a_T表示目标的侧向加速度；τ_T表示目标自动驾驶仪时间常数，设定时间常数为0.1s；

基于隐形协同制导方式，将视线角作为协同变量，定义状态量

则协同拦截制导模型可以表示为如下仿射非线性动力学：

其中

分别表示第i个导弹的系统状态函数和控制系数函数，考虑控制输入受限，即满足|u_i(t)|≤λ_i，同时，系统满足如下全状态动态约束条件：

x_i(t)∈Ω_i:＝{(t,x_i):x_iL(t)≤x_i≤x_iH(t)} (6

其中x_iL(t)∈Rⁿ，x_iH(t)∈Rⁿ分别表示系统状态的下约束函数和上约束函数，且具有如下动态：

其中θ_iL(@)、θ_iH(@)为有界函数使得x_iL(t)、x_iH(t)有界，且满足x_iL(t)＜0＜x_iH(t)，为了保证系统状态满足约束条件，引入如下障碍函数：

且满足初始条件x_iL(0)＜x_i(0)＜x_iH(0)，注意到当x_i(t)接近其边界时s_i→∞，对(4)式求导可得：

其中

定义F_i(x_i)＝s_i1f_i(x_i)+s_i2,G_i(x_i)＝s_i1g_i(x_i)，第i个导弹动力学模型被重写为：

则针对第i个导弹，建立如下局部邻域一致误差系统：

其中

x₀为领导者信号，假设x₀及其导数

都是连续的，并且当b_i≠0时，第i个导弹可以接收到领导者信息，(13)式求导可得：

其中

优选的，步骤3中，基于局部邻域一致误差方程并结合周期事件触发机制，推导最优触发饱和制导策略具体为：定义如下局部性能指标函数：

其中Q_i,R_ii,R_ij为设计的正定对称矩阵，U_i(@)为关于u_i的半正定函数使得控制输入满足约束条件，具体表达式如下：

其中

为由矩阵R_ii对角元素组成的行矩阵，

为相同维度且各元素都为1的列矩阵；

定义如下Hamilton函数为：

针对第i个导弹，定义采样周期为h(大于零)和一个单调递增的时间瞬间序列

记测量采样瞬间

基于(8)式，一一对应关系可得触发系统状态为

接着，定义如下触发误差：

得到如下基于事件的局部邻域一致误差系统和触发测量误差为：

同时，推断出下一个触发时间为：

其中

为触发条件；

则最优饱和触发控制策略为：

其中

代入(18)式得到如下触发Hamilton函数：

优选的，步骤4中，利用自适应动态规划技术构建评价网络，实施最优触发制导策略具体为：构造如下评价网络近似性能指标函数，其期望形式为：

其中

为评价网络期望权值，

为评价网络激励函数，ε_i(z_i)表示近似误差；

对(25)式求偏导，其关于状态的偏导数表示为：

其中

由于评价网络理想权值是未知的，利用评价网络输出信号估计理想权值，则有：

则可以推导出近似饱和触发控制策略为：

相应的，代入触发Hamilton函数得近似误差函数：

设计权值更新律使得

从而保证Hamilton近似误差最小，为了使得估计权值逼近理想权值，设计如下目标函数：

基于梯度下降法，设计权值更新律，保证目标函数最小化，同时为了保证闭环系统在学习的过程中信号的有界性，在更新律中引入一个连续可微的径向无界Lyapunov函数J_i(z_i)，满足

其中

表示J_i(z_i)对时间的导数，

表示J_i(z_i)对z_i的偏导数，即

因此，权值更新律具体形式如下：

其中β_i为学习律，

被定义为满足如下条件的开关函数：

触发条件如下：

其中

为设计的常数，κ_min(·),κ_man(·)分别为相应矩阵的最小/大特征值，

为常数。

本发明的有益效果为：(1)本发明考虑了全状态动态约束下多导弹系统的协同制导问题，与现有大多数静态约束条件不同，系统状态满足的约束条件为一个动态的非对称函数；(2)本发明在设计协同制导策略的同时，考虑输入饱和受限问题，使得所设计的制导策略更加合理，更加满足系统执行机构存在物理承受范围的客观因素；(3)本发明通过周期事件触发机制的引入，节约了通信带宽资源，提升了信息的利用率，同时避免了芝诺现象的发生。

附图说明

图1为本发明的多弹协同制导二维平面相对运动示意图。

图2为本发明的方法流程示意图。

具体实施方式

如图1和图2所示，一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法，包括如下步骤：

步骤1、利用图论的相关理论，将协同制导问题转化为多智能体协同控制问题，构造协同制导问题的通讯拓扑；通讯拓扑表示为如下有向图：

其中，

表示节点个体集合，

表示节点i的邻域个体的数量，定义图

的拉普拉斯矩阵为L＝D-A且所有行的和为零，考虑图

步骤2、基于通讯拓扑，推导制导模型，同时引入障碍函数，并建立局部邻域一致误差方程；二维平面N枚导弹协同拦截同一目标模型表达为如下相对运动方程：

第i枚导弹和目标均表现为如下一阶自动驾驶仪：

其中

表示第i枚拦截弹的坐标位置；a_i表示拦截弹的侧向加速度；

则协同拦截制导模型可以表示为如下仿射非线性动力学：

其中

x_i(t)∈Ω_i:＝{(t,x_i):x_iL(t)≤x_i≤x_iH(t)} (6)

其中θ_iL(·)、θ_iH(·)为有界函数使得x_iL(t)、x_iH(t)有界，且满足x_iL(t)＜0＜x_iH(t)，为了保证系统状态满足约束条件，引入如下障碍函数：

其中

则针对第i个导弹，建立如下局部邻域一致误差系统：

其中

x₀为领导者信号，假设x₀及其导数

其中

步骤3、基于局部邻域一致误差方程并结合周期事件触发机制，推导最优触发饱和制导策略；定义如下局部性能指标函数：

其中Q_i,R_ii,R_ij为设计的正定对称矩阵，U_i(·)为关于u_i的半正定函数使得控制输入满足约束条件，具体表达式如下：

其中

为由矩阵R_ii对角元素组成的行矩阵，

为相同维度且各元素都为1的列矩阵；定义如下Hamilton函数为：

记测量采样瞬间

基于(8)式，一一对应关系可得触发系统状态为

接着，定义如下触发误差：

同时，推断出下一个触发时间为：

其中

为触发条件；

则最优饱和触发控制策略为：

其中

代入(18)式得到如下触发Hamilton函数：

步骤4、利用自适应动态规划技术构建评价网络，实施最优触发制导策略；构造如下评价网络近似性能指标函数，其期望形式为：

其中

为评价网络期望权值，

为评价网络激励函数，ε_i(z_i)表示近似误差；

对(25)式求偏导，其关于状态的偏导数表示为：

其中

则可以推导出近似饱和触发控制策略为：

相应的，代入触发Hamilton函数得近似误差函数：

设计权值更新律使得

其中

表示J_i(z_i)对时间的导数，

表示J_i(z_i)对z_i的偏导数，即

因此，权值更新律具体形式如下：

其中β_i为学习律，

被定义为满足如下条件的开关函数：

触发条件如下：

其中

为常数。

Claims

1.一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法，其特征在于，包括如下步骤：

步骤1、利用图论的理论，将协同制导问题转化为多智能体协同控制问题，构造协同制导问题的通讯拓扑；通讯拓扑表示为如下有向图：

其中，

表示节点个体集合，

表示节点通讯链接集合，A＝[a_ij]∈R^N×N,a_ij≥0表示权值链接矩阵，如果(i,j)∈E，则表明节点j是节点i的邻域个体，此时a_ij＝1；否则，a_ij＝0；将节点i的所有邻域个体的集合表示为N_i＝{j:(i,j)∈E}，定义入度矩阵D＝diag{d₁,d₂,…,d_N}，其中

表示节点i的邻域个体的数量，定义图

的拉普拉斯矩阵为L＝D-A且所有行的和为零，考虑图

为强联通的有向图且a_ii＝0；另外，节点i与领导者之间的连接矩阵表示为B＝diag{b₁,b₂,…,b_N}，其中，b_i＝1表示节点i能够接收领导者信息；否则，b_i＝0；

和γ_T分别表示第i枚导弹和目标的航迹倾角；

表示第i枚导弹与目标之间视线角；r_i表示第i枚导弹和目标之间的距离，则其相对速率表示为

u_i和ν分别为第i枚导弹和目标垂直于速度向量的加速度，各枚导弹之间依靠通讯拓扑网络进行通讯，即第i枚导弹只与其邻域导弹进行通信；

第i枚导弹和目标均表现为如下一阶自动驾驶仪：

其中

表示第i枚拦截弹的坐标位置；a_i表示拦截弹的侧向加速度；

则协同拦截制导模型可以表示为如下仿射非线性动力学：

其中

x_i(t)∈Ω_i:＝{(t,x_i):x_iL(t)≤x_i≤x_iH(t)} (6)

其中

则针对第i个导弹，建立如下局部邻域一致误差系统：

其中

x₀为领导者信号，假设x₀及其导数

其中

其中

为由矩阵R_ii对角元素组成的行矩阵，

为相同维度且各元素都为1的列矩阵；

定义如下Hamilton函数为：

针对第i个导弹，定义采样周期为h大于零和一个单调递增的时间瞬间序列

记测量采样瞬间

基于(8)式，一一对应关系可得触发系统状态为

接着，定义如下触发误差：

同时，推断出下一个触发时间为：

其中

为触发条件；

则最优饱和触发控制策略为：

其中

V_i ^*(z_i)为评价网络近似性能指标函数的期望形式，代入(18)式得到如下触发Hamilton函数：

2.如权利要求1所述的基于全状态动态约束的分布式周期事件触发饱和协同制导方法，其特征在于，步骤4中，利用自适应动态规划技术构建评价网络，实施最优触发制导策略具体为：构造如下评价网络近似性能指标函数，其期望形式为：

其中

为评价网络期望权值，

为评价网络激励函数，ε_i(z_i)表示近似误差；

对(25)式求偏导，其关于状态的偏导数表示为：

其中

则可以推导出近似饱和触发控制策略为：

相应的，代入触发Hamilton函数得近似误差函数：

设计权值更新律使得

其中

表示J_i(z_i)对时间的导数，

表示J_i(z_i)对z_i的偏导数，即

因此，权值更新律具体形式如下：

其中β_i为学习律，

Φ(·)被定义为满足如下条件的开关函数：

触发条件如下：

其中

为设计的常数，κ_min(·),κ_max(·)分别为相应矩阵的最小/大特征值，

为常数。