CN117332684B

CN117332684B - 一种基于强化学习的多航天器追逃博弈下的最优捕获方法

Info

Publication number: CN117332684B
Application number: CN202311242135.4A
Authority: CN
Inventors: 贾玉鹏; 董怡
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-04-26
Anticipated expiration: 2043-09-25
Also published as: CN117332684A

Abstract

本发明涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法，包括以下步骤：建立多航天器动态方程；获取追逃博弈双方的初始位置，对多航天器进行任务分配；针对外部扰动设计补偿器；对动态方程进行坐标变换；根据增广系统，利用坐标变换后的动态方程构建航天器追逃博弈问题；设计基于强化学习的无模型迭代策略；初始化控制器，并采集博弈双方动态信息；根据无模型迭代策略迭代求解航天器追逃博弈问题，得到最优追击策略，再次进行坐标变换得到最优控制器；根据最优控制器控制追击航天器捕获逃逸航天器，实现追逃博弈的纳什均衡。与现有技术相比，本发明可以克服外部系统带来的扰动，在未知模型的情况下完成追击任务并实现纳什均衡。

Description

一种基于强化学习的多航天器追逃博弈下的最优捕获方法

技术领域

本发明涉及对抗博弈领域，尤其是涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法。

背景技术

对抗博弈作为无人装备的重要应用场景，在导弹拦截，无人舰船编队攻防以及车辆自动驾驶中发挥着重要的作用。在军事科学研究领域中，鱼雷与船舶、导弹与战斗机的对抗，无人机集群的对抗等，已经被抽象为一类特定的问题---追逃博弈。

在博弈过程中，博弈的策略用来寻找最大/小化的支付函数，在全局信息已知的情形下可以通过求解Hamilton-Jacobi-Isaacs(HJI)方程获得显式解。随着无人装备的智能化发展，基于微分博弈的固定式控制策略难以适应现代智能装备的对抗，针对智能装备的博弈策略问题亟待解决。并且在实际博弈情形中，可能会遇见未知动力学系统的博弈方，此时利用可以观测的信息设计最优控制器成为难题。

发明内容

本发明的目的是为了提供一种基于强化学习的多航天器追逃博弈下的最优捕获方法，针对追击航天器受外部扰动的影响，建立动态补偿器进行坐标变换，提出基于增广系统的博弈问题，消除外部扰动的影响；同时，针对具有一种不对称信息的博弈情形：逃逸者知道全部系统矩阵，而对于追逐者来说这部分信息未知，提出一种基于强化学习的在线求解方案，克服系统模型获取的困难，根据博弈过程中采集的数据，利用最小二乘法得到最优策略的近似解，并证明其可以成功捕获，并且实现纳什均衡。

本发明的目的可以通过以下技术方案来实现：

一种基于强化学习的多航天器追逃博弈下的最优捕获方法，包括以下步骤：

步骤1)根据博弈航天器动力学特性建立多航天器动态方程；

步骤2)获取追逃博弈双方的初始位置，对多航天器进行任务分配；

步骤3)针对外部扰动设计补偿器；

步骤4)根据补偿器对多航天器动态方程进行坐标变换；

步骤5)根据增广系统，利用坐标变换后的动态方程构建航天器追逃博弈问题；

步骤6)设计基于强化学习的无模型迭代策略；

步骤7)初始化控制器，并采集博弈双方的动态信息；

步骤8)根据无模型迭代策略迭代求解航天器追逃博弈问题，得到最优追击策略，再次进行坐标变换得到最优控制器；

步骤9)根据最优控制器控制追击航天器，捕获逃逸航天器，实现追逃博弈的纳什均衡。

所述步骤1)中，多航天器动态方程为：

其中，分别为航天器沿着参考坐标系的位置与速度，σ表示航天器的角速度，u_α,u_β,u_γ分别表示在航天器在各个坐标轴方向的控制输入；

定义系统状态系统控制器U＝[u_α,u_β,u_γ]，则多个航天器表示为/>i＝1,…,N,/>j＝1,…M；

其中，N，M分别表示逃逸者与追击者的数量，X_ei，X_pj分别表示逃逸与追击者的系统状态，U_ei表示逃逸者的系统输入，U_pj表示追击者的系统输入，A,B矩阵表示其在LVLH坐标下用状态空间描述的系统矩阵：

所述步骤2)中，对多航天器进行任务分配具体为：建立二分图，分别表示双方航天器i＝1,…,M，j＝1,…,N，其中，P_j表示第j个追击者，E_i表示第i个逃逸者；在二分图中画一条从P_j到E_i的边，P_j到E_i的初始距离作为成本；使用最大匹配算法来为每一个追击航天器分配一个追击任务。

所述步骤3)中，外部扰动为：d＝C₀w,其中C₀,A₀为常数矩阵，并且A₀满足Re(λ(A₀))≤0，d表示航天受到的扰动，由外部系统w产生，其微分为/>

所述步骤3)中，针对外部扰动，存在正整数s_r，以及实数r＝1,2,3，使得：

定义：令为一个可控矩阵对且/>为赫尔维茨矩阵，则存在非奇异矩阵T_r满足以下方程：

其中，

则定义动态补偿器为：

其中，U_pj表示追击者的系统输入，η_j为动态补偿器。

所述步骤4)中，坐标变换的方法为：其中，θ_j＝col(θ₁,θ₂,θ₃，),Γ＝block diag(Γ₁,Γ₂,Γ₃),T＝block diag(T₁,T₂,T₃)，U_pj表示追击者的系统输入；

经过坐标变换后，追击航天器动态方程表示为：

相对状态量为：

定义新的增广系统变量则其动态变量表示为：

所述步骤5)包括以下步骤：

步骤5-1)考虑无限时域下的博弈场景，引入以下博弈的性能指标函数：

其中Q为半正定矩阵，R_p，R_e为正定矩阵，纳什均衡为

步骤5-2)根据性能指标函数定义航天器追逃博弈问题：

定义追逃双方的值函数为：

定义零和微分对策如下：

即追击者的目标是最小化值函数，而逃避者则试图最大化值函数，这相当于定义两个性能指标J_pj＝J_ji＝-J_ei.，博弈双方都最小化它们各自的性能指标

所述步骤6)具体为：定义追逃双方的控制增益分别为：

航天器相对距离的动态方程为：

对值函数进行偏导得到：

则：

其中，在迭代求取/> 的过程中不依赖于系统的状态方程，从而得到无模型的迭代策略。

所述步骤7)中，采集博弈双方的动态信息为：

所述步骤8)具体为：将航天器追逃博弈问题的求解转化为黎卡提方程的等价方程的求解，通过最小二乘法迭代求解/>直到算法收敛，满足/>得到最优追击策略/>再次进行坐标变换得到最优追击控制器为/>

与现有技术相比，本发明具有以下有益效果：

(1)本发明设计的动态补偿器，在坐标变换后基于增广系统的博弈问题抑制了外部扰动的影响；

(2)本发明设计的基于强化学习的追击控制器，解决了追击过程中对精准模型的需求；该控制器使用二分图框架设计的追击指标，采用最大匹配算法进行最小化指标来进行任务分配，可以在总最小路径-最小能耗下完成追击，可以在预先给定性能指标后，以确保完成追击。

(3)本发明针对具有一种不对称信息的博弈情形：逃逸者知道全部系统矩阵，而对于追逐者来说这部分信息未知，提出一种基于强化学习的在线求解方案，克服系统模型获取的困难，根据博弈过程中采集的数据，利用最小二乘法得到最优策略的近似解，并证明其可以成功捕获，并且实现纳什均衡。

附图说明

图1为本发明的方法流程图；

图2为一种实施例中求解航天器追逃博弈问题时的迭代过程；

图3为一种实施例中求解航天器追逃博弈问题时的迭代过程；

图4为一种实施例中航天器相对距离变化曲线；

图5为一种实施例中航天器的追逃轨迹。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明公开了一种基于强化学习的多航天器追逃博弈下的最优捕获方法，针对多航天器运动状态，基于内模原理设计补偿器，消除外部扰动的影响，根据坐标变化后的系统建立无限时域下的追逃博弈模型；根据航天器初始状态设计任务分配的策略，最小化成本；对于给定的博弈性能指标函数，提出一种基于强化学习的在线求解方案，采用最小二乘法得到最优策略的近似解，克服真实场景中系统的精确模型难以获取的困难。本发明可以在线求取多航天器追逃博弈鞍点，克服外部系统带来的扰动，并且在未知模型的情况下可以完成追击任务并实现博弈的纳什均衡，为多航天器追逃博弈提供了重要的技术支撑。

具体的，本实施例提供一种基于强化学习的多航天器追逃博弈下的最优捕获方法，如图1所示，包括以下步骤：

步骤1)根据博弈航天器动力学特性建立多航天器动态方程；

设定LVLH(Local Vertical Local Horzontal)坐标系，则可以通过下式中的多航天器动态方程表达航天器的运动状态：

系统的相对状态为X_ji，由博弈双方的动态方程可以得到

系统扰动由外部系统产生：其中C₀,A₀为常数矩阵，并且A₀满足Re(λ(A₀))≤0，d表示航天受到的扰动，由外部系统w产生，其微分为/>

本实例中，考虑博弈双方数量一致，每个追求者只需要成功抓住一个逃避者来完成任务。因为操纵性是一样的，没有必要指派更多的追兵给一个逃避者。在这种情况下，取初始相对以距离为目标的任务分配与算法设计以最小化该距离总和。具体的，建立二分图，分别表示双方航天器i＝1,…,M，j＝1,…,N，其中，P_j表示第j个追击者，E_i表示第i个逃逸者；在二分图中画一条从P_j到E_i的边，P_j到E_i的初始距离作为成本；使用最大匹配算法来为每一个追击航天器分配一个追击任务。

步骤3)针对外部扰动设计基于内模原理的补偿器，消除外部系统的扰动；

针对外部扰动，存在正整数s_r，以及实数r＝1,2,3，使得：

定义：可以得到

其中，

令为一个可控矩阵对且/>为赫尔维茨矩阵Hurwitz，则存在非奇异矩阵T_r满足以下方程：

令θ＝col(θ₁,θ₂,θ₃)Υ＝block diag(Υ₁,Υ₂,Υ₃),

则定义动态补偿器为：

其中，U_pj表示追击者的系统输入，η_j为动态补偿器。

步骤4)根据补偿器对多航天器动态方程进行坐标变换；

基于上一步设计的动态补偿器进行坐标变换：

其中，θ_j＝col(θ₁,θ₂,θ₃，)，Γ＝block diag(Γ₁,Γ₂,Γ₃)，T＝block diag(T₁,T₂,T₃)，U_pj表示追击者的系统输入。

经过坐标变换后，追击航天器动态方程表示为：

相对状态量为：

定义新的增广系统变量则其动态变量表示为：

其中Q为半正定矩阵，R_p，R_e为正定矩阵，纳什均衡为

步骤5-2)根据性能指标函数定义航天器追逃博弈问题：

定义追逃双方的值函数为：

定义零和微分对策如下：

即追击者的目标是最小化值函数，而逃避者则试图最大化值函数，这相当于定义两个性能指标J_pj＝J_ji＝-J_ei.，博弈双方都最小化它们各自的性能指标同时在该最优控制器下，追击航天器可以成果捕获所有逃逸航天器，即他们之间的相对距离/>i＝1,…,M，j＝1,…,N。

步骤6)设计基于强化学习的无模型迭代策略；

为求解最优逃逸控制器，设定零和博弈的哈密尔顿函数为：

通过对哈密尔顿函数求偏导，可以得到最优追击、逃逸控制器：

其中表示值函数的梯度。

将最优控制器带入哈密尔顿函数，可以得到HJI(Hamilton-Jacobi-Isaacs)方程为：

假定最优值函数表示为控制器为/> 可以通过求解黎卡提方程/> 来获得/>逃逸航天器预知精准状态信息，可以求解黎卡提方程获得最优控制器。

以下给出求解黎卡提方程的等价计算方式：

为追击者设计未知模型的控制器。定义控制器其中K_pj，K_ei为反馈增益，则最优控制器可以表示为/>对于追击航天器，可以通过在线采集数据和在线策略迭代的方式获取最优控制器，用下式迭代求解/>等价求解黎卡提方程：

以下提出不依赖模型的迭代方法。

定义追逃双方的控制增益分别为：

航天器相对距离的动态方程为：

为了获取不依赖模型的迭代策略，对值函数进行偏导得到：

则：

步骤7)初始化控制器，并采集博弈双方的动态信息；

给定一个初始的可以使得系统镇定的控制器，采集系统状态信息：

其中，q为系统采集的数据次数，需要满足来保证/>满秩。

利用在线采集的数据，根据最小二乘法，可以求解出最优追击控制器增益：

随着迭代次数的增加，逐步迭代求解，直到算法收敛，满足得到最优追击策略/>再次进行坐标变换得到最优追击控制器为/> 可以得到替换掉初始给定的控制器，从而实现追击博弈的均衡，即实现了给定性能指标下的最优追击策略。

追击条件：对于给定的相同动力学的航天器，针对给定的性能指标，在的情形下，追击航天器成功捕获逃逸航天器，即航天器之间相对距离的收敛。

首先，本实施例对控制器功能进行证明。

针对步骤2)中的航天器的状态方向，步骤5)设定的博弈双方的性能指标，步骤9)给出的条件成立，应用基于强化学习的最优追击控制器，可以解决步骤5)提出的航天器追击问题。证明流程如下：

(1)构造Lyapunov能量函数为定义的值函数：V_ji(Z_ji)；

(2)计算能量函数沿着步骤一中的闭环系统的导数：根据步骤6)的HJI方程可以得到/> 显然，在条件/>满足的情况下，可以得到/>因此相对距离回渐进地收敛到0，从而航天器追击策略的控制问题的理论证明完成。

其次，本实施例航天器博弈的纳什均衡进行证明。

纳什均衡要求：为博弈的鞍点，满足/> 且迭代完成的/> 即/>

证明流程如下：

(1)根据上述证明的控制器功能可以得到V_ji(Z_ji(∞))＝V_ji(0)＝0，则博弈双方的性能指标可以表示为

(2)根据相对距离的动态方程以及最优控制器，性能指标可以表示为：

(3)根据HJI方程，则/> 为博弈的鞍点，满足/>即实现了博弈的纳什均衡；

(4)考虑给出的迭代策略，当给出初始可镇定控制策略时，则可以通过步骤6)提出的等价黎卡提方程唯一求解出这样唯一决定了追击控制策略/> 根据步骤7)的/>满秩实现，通过步骤8)的求解方式同样唯一确定了/>与给定的一致，因此可以得到/>从而证明了迭代策略给出的策略可以渐进逼近最优策略/>从而本发明给出的控制器可以实现纳什均衡的理论证明完成。

最后，本实施例进行航天器追逃博弈的仿真验证。

将双方航天器的数量定义相同N＝M＝3，将步骤二给定的性能指标中参数选择为Q＝I_6×6；R_p＝1×10⁴I_3×3，R_e＝6×10⁴I_3×3，取外部扰动为正弦信号：d＝sin(0.2t)选择逃逸者的初始状态为：

追击者的初始状态为：

由图2，3给出的迭代过程仿真结果可以看出在迭代十二次后，可以或者最优追击控制器的增益；由图4给出的仿真结果所有追击航天器都可以成功捕获逃逸航天器；航天器追逃过程的轨迹如图5所示。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

Claims

1.一种基于强化学习的多航天器追逃博弈下的最优捕获方法，其特征在于，包括以下步骤：

步骤1)根据博弈航天器动力学特性建立多航天器动态方程；

步骤3)针对外部扰动设计补偿器；

步骤4)根据补偿器对多航天器动态方程进行坐标变换；

步骤6)设计基于强化学习的无模型迭代策略；

步骤7)初始化控制器，并采集博弈双方的动态信息；

步骤9)根据最优控制器控制追击航天器，捕获逃逸航天器，实现追逃博弈的纳什均衡；

所述步骤1)中，多航天器动态方程为：

其中，α,β,γ,分别为航天器沿着参考坐标系的位置与速度，σ表示航天器的角速度，u_α,u_β,u_γ分别表示在航天器在各个坐标轴方向的控制输入；

定义系统状态系统控制器U＝[u_α,u_β,u_γ]，则多个航天器表示为

所述步骤2)中，对多航天器进行任务分配具体为：建立二分图，分别表示双方航天器其中，P_j表示第j个追击者，E_i表示第i个逃逸者；在二分图中画一条从P_j到E_i的边，P_j到E_i的初始距离作为成本；使用最大匹配算法来为每一个追击航天器分配一个追击任务；

所述步骤3)中，针对外部扰动，存在正整数s_r，以及实数使得：

定义：令/>为一个可控矩阵对且/>为赫尔维茨矩阵，则存在非奇异矩阵T_r满足以下方程：

其中，

则定义动态补偿器为：

其中，U_pj表示追击者的系统输入，η_j为动态补偿器；

所述步骤4)中，坐标变换的方法为：

其中，θ_j＝col(θ₁,θ₂,θ₃，),Γ＝block diag(Γ₁,Γ₃,Γ₃),T＝block diag(T₁,T₂,T₃)，U_pj表示追击者的系统输入；

经过坐标变换后，追击航天器动态方程表示为：

相对状态量为：

定义新的增广系统变量则其动态变量表示为：

所述步骤5)包括以下步骤：

其中Q为半正定矩阵，R_p，R_e为正定矩阵，纳什均衡为

步骤5-2)根据性能指标函数定义航天器追逃博弈问题：

定义追逃双方的值函数为：

定义零和微分对策如下：

所述步骤6)具体为：定义追逃双方的控制增益分别为：

航天器相对距离的动态方程为：

对值函数进行偏导得到：

则：

其中，在迭代求取/>的过程中不依赖于系统的状态方程，从而得到无模型的迭代策略；

所述步骤7)中，采集博弈双方的动态信息为：

所述步骤8)具体为：将航天器追逃博弈问题的求解转化为黎卡提方程的等价方程的求解，通过最小二乘法迭代求解/>直到算法收敛，满足∥∥P_ji ^l-P_ji ^l-1∥∥≤∈，得到最优追击策略/>再次进行坐标变换得到最优追击控制器为/>