CN116449714B

CN116449714B - 一种多航天器追捕博弈轨道控制方法

Info

Publication number: CN116449714B
Application number: CN202310430248.0A
Authority: CN
Inventors: 江秀强; 谢怡飞; 黄祺; 宁张弛; 潘嘉伟; 黄正东; 季袁冬; 钟苏川; 孙国皓
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2024-01-23
Anticipated expiration: 2043-04-20
Also published as: CN116449714A

Abstract

本发明公开了一种多航天器追捕博弈轨道控制方法，其包括以下步骤：建立多航天器系统的追逃微分对策模型和代价函数；进行目标控制点预分配；求解追逃微分对策模型，得到追逃博弈对应的矩阵黎卡提微分方程；获取航天器轨道机动的推力加速度矢量；获取追逃博弈最优轨迹和完成追捕后的状态参数；将多航天器的围捕构型保持问题转化为单个航天器的轨道保持问题；将单个航天器轨道控制的初状态作为DQN网络的输入；将追逃博弈最优轨迹作为对应航天器的目标轨迹，将DQN网络输出的动作作为对应航天器的轨道控制动作。本方法通过博弈论及微分对策和深度学习算法解决多航天器追捕博弈及其围捕后构型维持的问题，可以高效实现多航天器追捕博弈轨道控制。

Description

一种多航天器追捕博弈轨道控制方法

技术领域

本发明涉及航天器轨道控制领域，具体涉及一种多航天器追捕博弈轨道控制方法。

背景技术

多航天追捕博弈轨道控制是指在针对非合作、智能的目标航天器时，通过博弈任务分配，多航天器协同追逃，实现对目标的围捕，并保持围捕轨道构型一段时间的相对稳定。能够弥补在单个航天器性能处于相对落后的条件下，在轨博弈能力不足的缺点，为空间攻防问题提供有效方案。

现有关于多航天器建模与控制的研究大多面向编队/集群飞行任务展开，不涉及具有非合作特性的空间目标。空间非合作目标具有信息层面不沟通、机动行为不配合的特点，其动力学行为呈现出的不确定性及对抗性，增加了对其进行协同追捕的挑战性。博弈围捕队形轨道保持方面，由于受到各类摄动力的影响，包括日月摄动力、光压摄动力、潮汐摄动力、大气阻力、地球非球形引力摄动力等，其中以地球扁率引起的J2项摄动为主。摄动力会引起航天器持续偏离预定轨道，导致围捕编队队形遭到破坏。较为传统的LQR算法需要对编队动力学模型精确建模，然而精确模型具有非线性、复杂、时变等特点，一旦编队中航天器数量增多，动力学建模难度将会激增，控制器设计也会变得更加困难。而复杂的太空环境及多航天器追捕博弈所面临的问题多是非线性且时变的，传统的构型保持方法将很难适用。

专利《一种基于动态博弈理论的多航天器追逃控制方法》(专利号：CN201911003658.7)中，建立在同一时间历程下的多航天器博弈模型，提供一种基于动态博弈理论的多航天器追逃控制方法。但是该发明忽略了一切摄动力对围捕轨道控制的影响，在实际近地轨道中编队构型会受到以地球偏心率引起的J2摄动项的破坏，无法持续实现追捕目标。

专利《一种解析构造航天器追逃界栅和判断捕获逃逸区域的方法》(专利号：CN201810109434.3)中，所述的方法基于微分对策的Hamilton函数，可以求解出航天器追逃博弈界栅解析表达式，其结果可为博弈路径规划提供有效的参考。但是，该发明仅面向航天器一对一追逃博弈进行设计，无法完成多航天器追逃博弈任务。

专利《低轨卫星星座构型保持方法》(专利号CN 202011527273.3)中，针对低轨卫星系统特点，提出了一种在考虑大气阻力摄动的情况下的基于轨道参数偏置的低轨卫星星座构型保持方法，但是此方法不适合应用在多星博弈的场景中，由于面对的是具有复杂动力学行为的空间非合作目标，难以及时获取各类飞行参数且会大大增加求解难度。

综上，面对复杂的太空环境及日益增长的战略需要，如何解决多航天器协同追捕对抗非合作目标及围捕后的编队构型相对保持成为实现多航天追捕博弈及轨道控制任务的关键。

发明内容

针对现有技术中的上述不足，本发明提供的一种多航天器追捕博弈轨道控制方法解决了现有技术难以同时进行多航天器轨道控制的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种多航天器追捕博弈轨道控制方法，其包括以下步骤：

S1、基于航天器的运动状态矢量建立多航天器系统的追逃微分对策模型，以及对应的代价函数；多航天器系统包括追捕航天器和逃逸航天器；

S2、利用匈牙利算法以距离最近原则进行追捕航天器目标控制点预分配，开始一对一追逃博弈；

S3、设置追逃微分对策模型中权值矩阵的初始值，以追捕航天器最小化其代价函数、逃逸航天器最大化其代价函数为目标，通过哈密顿函数求解追逃微分对策模型，得到追逃博弈对应的矩阵黎卡提微分方程；

S4、通过求解矩阵黎卡提微分方程的逆矩阵，获取追捕航天器和逃逸航天器轨道机动的推力加速度矢量；

S5、基于追捕航天器和逃逸航天器轨道机动的推力加速度矢量，通过运动学方程得到追逃博弈最优轨迹和完成追捕后的状态参数；

S6、以完成追捕后的状态参数作为轨道控制的初状态，搭建航天器飞行编队相对动力学模型，将多航天器的构型保持问题转化为单个航天器的轨道保持问题；

S7、将单个航天器轨道控制的初状态作为DQN网络的输入，获取DQN网络输出的动作；

S8、将追逃博弈最优轨迹作为对应航天器的目标轨迹，将DQN网络输出的动作作为对应航天器的轨道控制动作。

本发明的有益效果为：本发明同时考虑多航天器追捕博弈与围捕后多航天器飞行编队构型维持两个过程任务，将两个过程有机融合，通过博弈论及微分对策和深度学习算法解决多航天器追捕博弈及其围捕后构型维持的问题，可以高效实现多航天器追捕博弈轨道控制。

附图说明

图1为本方法的流程示意图；

图2为目标采取博弈策略下追逃二维平面轨迹示意图；

图3为目标采取不机动下追逃二维平面轨迹示意图；

图4为目标采取余弦机动下追逃二维平面轨迹示意图；

图5为训练50000轮航天器误差对比图；

图6为追捕航天器绝对运动轨道对比图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该多航天器追捕博弈轨道控制方法包括以下步骤：

S5、基于追捕航天器和逃逸航天器轨道机动的推力加速度矢量，通过运动学方程得到追逃博弈最优轨迹和完成追捕后的状态参数；状态参数包括位置和加速度的矢量；

S7、将单个航天器轨道控制的初状态作为DQN网络(Deep Q-learning网络)的输入，获取DQN网络输出的动作；

步骤S1中追逃微分对策模型的表达式为：

其中为逃逸航天器与追捕航天器的相对运动空间状态矢量的一阶微分；X为逃逸航天器与追捕航天器的相对运动状态矢量；u_e为逃逸航天器推力加速度矢量，u_e＝[a_ex，a_ey，a_ez]^T，a_ex、a_ey、a_ez分别为逃逸航天器在x轴、y轴、z轴方向上的推力加速度；u_p为追捕航天器推力加速度矢量，u_p＝[a_px，a_py，a_pz]^T，a_px、a_py、a_pz分别为追捕航天器在x轴、y轴、z轴方向上的推力加速度；J_e和J_p分别为追捕航天器与逃逸航天器的代价函数；t_f表示固定时域微分对策的终端时间；X(t_f)表示终端时刻逃逸航天器与追捕航天器的相对运动状态矢量；(·)^T表示矩阵的转置；S表示终端状态性能指标加权矩阵；Q(t)表示当前状态性能指标加权矩阵；R_p表示追捕航天器的控制性能指标的加权矩阵；u_p(t)表示t时刻追捕航天器推力加速度矢量；R_e表示逃逸航天器的控制性能指标的加权矩阵；u_e(t)表示t时刻逃逸航天器推力加速度矢量；/>ω为参考轨道平均角速度；

步骤S3中哈密顿函数的表达式为：

其中H表示哈密顿函数；λ(t)^T为t时刻协态变量λ(t)的转置矩阵，λ(t)＝P()()，x()为t时刻的协态变量状态解；协态变量指不受实验设计控制的独立变量；协态变量状态解包括位置和加速度的矢量。

步骤S3中追逃博弈对应的矩阵黎卡提微分方程表达式为：

其中P()为t时刻关于协态变量状态解的对称矩阵，为P()的微分矢量；Q_p和Q_e分别表示追捕航天器和逃逸航天器的对策矩阵；追逃博弈对应的矩阵黎卡提微分方程的终端条件为/>即P(T_f)＝；/> P(T_f)表示终端时刻关于协态变量状态解的对称矩阵。

步骤S4的具体方法包括以下子步骤：

S4-1、在追逃博弈对应的矩阵黎卡提微分方程的基础上，采用四阶龙格－库塔方法倒向积分求得随时间变化的P()，并根据公式：

获取追捕航天器在t时刻的反馈增益矩阵K_p()和逃逸航天器在t时刻的反馈增益矩阵K_e()；

S4-2、根据公式：

得到追捕航天器在t时刻轨道机动的推力加速度矢量u_p()和逃逸航天器在t时刻轨道机动的推力加速度矢量u_e()。

步骤S6的具体方法包括以下子步骤：

S6-1、根据公式：

在构建参考航天器轨道坐标系下的相对运动学方程；其中为逃逸航天器与追捕航天器间的相对加速度；ω为参考轨道的平均角速度；/>为逃逸航天器与追捕航天器间的相对速度；r为逃逸航天器与追捕航天器间的距离；μ为地球引力常数，取值为3.986×1014m³/s²；r_e为逃逸航天器到坐标系原点的距离；x为逃逸航天器与追捕航天器的相对位置矢量在x轴方向上的投影；r_p为追捕航天器到坐标系原点的距离；Δf为逃逸航天器与追捕航天器的相对摄动加速度大小；

S6-2、在参考航天器轨道坐标系下的相对运动学方程基础上将J2项摄动线性化，得到修正后的航天器飞行编队相对动力学模型，其表达式为：

其中为逃逸航天器与追捕航天器的相对加速度在x轴方向上的投影；/>为逃逸航天器与追捕航天器的相对加速度在y轴方向上的投影；/>为逃逸航天器与追捕航天器的相对加速度在z轴方向上的投影；/>为逃逸航天器与追捕航天器的相对速度在x轴方向上的投影；/>为逃逸航天器与追捕航天器的相对速度在y轴方向上的投影；J₂表示特性化后的摄动力；R_E为地球半径；r_e为航天器到地球的距离；i表示轨道倾角；u表示推力加速度；x为逃逸航天器与追捕航天器的相对位置矢量在x轴方向上的投影；y为逃逸航天器与追捕航天器的相对位置矢量在y轴方向上的投影；z为逃逸航天器与追捕航天器的相对位置矢量在z轴方向上的投影；ω为参考轨道平均角速度。

在具体实施过程中，DQN网络对数据的处理涉及到迭代。当多航天编队在某个环境当中时，航天器的每个状态是其对当前环境的感知；航天器执行动作使当前状态按照某一概率转到另一个状态的过程。与此同时，航天器在这一转移过程中会根据某一潜在的奖励函数得到由环境反馈回的一个奖励。在该过程中，设置折扣奖励函数：

其中G_t为折扣奖励函数；为每一步的折扣因子，表示未来奖励的重要程度，γ越大，则未来奖励越重要；R_t+k为t时刻的航天器在第K步迭代的奖励。在迭代过程中，航天器目标是学习最佳队形维持策略，使其自身累积的折扣奖励G_t最大化。

DQN网络的值函数迭代过程为：

其中表示更新后的收益期望，具体表示t时刻的航天器在状态s_t下采取动作a_t获得的收益；α为DQN网络的学习率；max_πQ(s_t+1,a_t)表示航天器在状态s_t+1时执行策略π所获得的累计折扣奖励在执行节点动作a_t时所能达到的收益期望最大值；R_t为t时刻的航天器的奖励。

开始迭代之后执行动作并积累经验，获得下一状态信息，将该状态转移过程储存到经验池中，采用经验回放机制，在强化学习时利用经验池储存的经验来更新Q值，持续迭代，将t时刻的航天器在状态s_t下对应的收益期望最大值中的动作a_t作为DQN网络的输出。

在本发明的一个实施例中，如图2、图3和图4所示，可以看出采用博弈控制算法在目标不同机动能力时，最终均能到达指定地点，由此证明本方法的优越性。

从图5可以看出，在航天器飞行三个周期20000s的时间内，航天器的位置误差及速度误差均保持在了一个较为稳定的范围内。对于x方向，位置误差最大不超过0.03km，速度误差呈一定的波动状态，保持在-0.01～0.01m/s左右；对于y方向，位置误差随着时间慢慢增加，但增幅量很小，在飞行三个周期内误差量能保持在0.2m之内，速度误差呈波动状保持在0.02m/s范围内；对于z方向，速度误差和伴随误差均呈波动状，最终波动均不超过预设范围。由此可见，本方法使得最终效果收敛，同时也证明了本方法将DQN算法用于多航天器编队构型维持上的合理性。

从图6中可以看出，受控后的绝对运动轨道相对于有摄动情况下明显有了很大的改善，受控制后追捕航天器绝对运动轨道基本上紧挨着无摄动力影响时的轨道，J2项摄动力对轨道的影响基本上被消除，验证了DQN网络在本方法中的可行性。

Claims

1.一种多航天器追捕博弈轨道控制方法，其特征在于，包括以下步骤：

S8、将追逃博弈最优轨迹作为对应航天器的目标轨迹，将DQN网络输出的动作作为对应航天器的轨道控制动作；

步骤S6的具体方法包括以下子步骤：

S6-1、根据公式：

构建参考航天器轨道坐标系下的相对运动学方程；其中为逃逸航天器与追捕航天器间的相对加速度；ω为参考轨道的平均角速度；/>为逃逸航天器与追捕航天器间的相对速度；r为逃逸航天器与追捕航天器间的距离；μ为地球引力常数；r_e为逃逸航天器到坐标系原点的距离；x为逃逸航天器与追捕航天器的相对位置矢量在x轴方向上的投影；r_p为追捕航天器到坐标系原点的距离；Δf为逃逸航天器与追捕航天器的相对摄动加速度大小；

其中为逃逸航天器与追捕航天器的相对加速度在x轴方向上的投影；/>为逃逸航天器与追捕航天器的相对加速度在y轴方向上的投影；/>为逃逸航天器与追捕航天器的相对加速度在z轴方向上的投影；/>为逃逸航天器与追捕航天器的相对速度在x轴方向上的投影；为逃逸航天器与追捕航天器的相对速度在y轴方向上的投影；J₂表示特性化后的摄动力；R_E为地球半径；r_e为航天器到地球的距离；i表示轨道倾角；u表示推力加速度；x为逃逸航天器与追捕航天器的相对位置矢量在x轴方向上的投影；y为逃逸航天器与追捕航天器的相对位置矢量在y轴方向上的投影；z为逃逸航天器与追捕航天器的相对位置矢量在z轴方向上的投影；ω为参考轨道平均角速度。

2.根据权利要求1所述的多航天器追捕博弈轨道控制方法，其特征在于，步骤S1中追逃微分对策模型的表达式为：

J_e＝-J_p

其中为逃逸航天器与追捕航天器的相对运动空间状态矢量的一阶微分；X为逃逸航天器与追捕航天器的相对运动状态矢量；u_e为逃逸航天器推力加速度矢量，u_e＝[a_ex，a_ey，a_ez]^T，a_ex、a_ey、a_ez分别为逃逸航天器在x轴、y轴、z轴方向上的推力加速度；u_p为追捕航天器推力加速度矢量，u_p＝[a_px，a_py，a_pz]^T，a_px、a_py、a_pz分别为追捕航天器在x轴、y轴、z轴方向上的推力加速度；J_e和J_p分别为追捕航天器与逃逸航天器的代价函数；t_f表示固定时域微分对策的终端时间；X(t_f)表示终端时刻逃逸航天器与追捕航天器的相对运动状态矢量；(·)^T表示矩阵的转置；S表示终端状态性能指标加权矩阵；Q(t)表示当前状态性能指标加权矩阵；R_p表示追捕航天器的控制性能指标的加权矩阵；u_p(t)表示t时刻追捕航天器推力加速度矢量；R_e表示逃逸航天器的控制性能指标的加权矩阵；u_e(t)表示t时刻逃逸航天器推力加速度矢量；ω为参考轨道平均角速度；/>

3.根据权利要求2所述的多航天器追捕博弈轨道控制方法，其特征在于，步骤S3中哈密顿函数的表达式为：

其中H表示哈密顿函数；λ(t)^T为t时刻协态变量λ(t)的转置矩阵，λ(t)＝P(t)x(t)，P(t)为t时刻关于协态变量状态解的对称矩阵，x(t)为t时刻的协态变量状态解。

4.根据权利要求3所述的多航天器追捕博弈轨道控制方法，其特征在于，步骤S3中追逃博弈对应的矩阵黎卡提微分方程表达式为：

其中为P(t)的微分矢量；Q_p和Q_e分别表示追捕航天器和逃逸航天器的对策矩阵；追逃博弈对应的矩阵黎卡提微分方程的终端条件为/> 即P(T_f)＝S；/>P(T_f)表示终端时刻关于协态变量状态解的对称矩阵。

5.根据权利要求4所述的多航天器追捕博弈轨道控制方法，其特征在于，步骤S4的具体方法包括以下子步骤：

S4-1、在追逃博弈对应的矩阵黎卡提微分方程的基础上，采用四阶龙格－库塔方法倒向积分求得随时间变化的P(t)，并根据公式：

获取追捕航天器在t时刻的反馈增益矩阵K_p(t)和逃逸航天器在t时刻的反馈增益矩阵K_e(t)；

S4-2、根据公式：

得到追捕航天器在t时刻轨道机动的推力加速度矢量u_p(t)和逃逸航天器在t时刻轨道机动的推力加速度矢量u_e(t)。