CN116750211B

CN116750211B - 一种基于追踪目标分配与轨道规划的追踪防御方法

Info

Publication number: CN116750211B
Application number: CN202310861932.4A
Authority: CN
Inventors: 江秀强; 罗跃龙; 周创; 吕文杰; 季袁冬; 钟苏川; 孙国皓
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2024-01-23
Anticipated expiration: 2043-07-13
Also published as: CN116750211A

Abstract

本发明提供了一种基于追踪目标分配与轨道规划的追踪防御方法，属于空间安全技术领域，该方法包括：构建轨道动力学模型；构建大规模航天器集群追逃模型；将集群目标分配问题构建为三个耦合的子问题，并采用双层合同网协议算法求解子问题，得到追踪星和目标星的追踪配对关系；利用最优轨道机动Lambert算法为每个追踪星求解远程交会阶段的交会轨道机动控制策略；利用近端策略优化算法PPO算法以及最优轨道机动Lambert算法，得到近程追逃博弈阶段的追踪轨道闭环控制策略；判断追踪星集群是否完成对所有目标的追踪防御。本发明解决了脉冲机动方式下大规模卫星集群追踪防御问题。

Description

一种基于追踪目标分配与轨道规划的追踪防御方法

技术领域

本发明属于空间安全技术领域，尤其涉及一种基于追踪目标分配与轨道规划的追踪防御方法。

背景技术

随着卫星轨道机动能力和智能化的发展，以及具有交会和反交会能力在轨卫星数量的大量增加，使得卫星之间面临的空间威胁与日俱增。因此，需要对空间威胁目标进行追踪以防止其造成损害和破坏。由于此类空间威胁通常为信息层面不沟通、机动行为不配合的非合作目标，卫星在追踪防御的同时目标也会主动机动躲避。因此，有必要研究空间追踪防御背景下的轨道追逃博弈问题。而随着航天器数量的急剧增多，单对单的追逃博弈技术难以满足未来大规模航天器集群博弈需求。此外，大规模卫星集群之间的轨道博弈问题难以简单地通过扩展单对单或几对几的问题求解，因为这将导致决策的动作空间维数陡增。因此，亟需研究追踪防御场景下的大规模多星集群追踪技术。

然而，大多数研究只关注一对一的追逃博弈，少数研究了多方追逃博弈和编队拦截问题。在现有的多方追逃博弈研究中，航天器数量较少，因此单对单追逃博弈方法可以简单地扩展至三方或四方博弈。然而，如果在群对群的多星追逃博弈问题中沿用该思路，将导致决策行动空间的维度爆炸。此外，由于缺乏系统对抗任务的制定和分配，也没有考虑决策和行动之间的耦合关系，现有的研究难以满足大规模协同追踪防御需求。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于追踪目标分配与轨道规划的追踪防御方法，以大规模的威胁目标星集群为防御对象，解决了脉冲机动方式下的大规模卫星群对群追踪防御问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于追踪目标分配与轨道规划的追踪防御方法，包括以下步骤：

S1、构建轨道动力学模型；

S2、根据轨道动力学模型，分别定义追踪星子群模型、追踪星模型以目标星模型，并初始化追踪星集群和目标星集群，得到大规模航天器集群追逃模型；

S3、根据大规模航天器集群追逃模型，将集群目标分配问题构建为三个耦合的子问题，并采用双层合同网协议算法求解所述子问题，得到追踪星和目标星的追踪配对关系；

S4、根据追踪配对关系，利用最优轨道机动Lambert算法为每个追踪星求解远程交会阶段的交会轨道机动控制策略，并通过追踪星在远程交会阶段执行交会轨道机动控制策略，得到第一脉冲速度增量以实现对目标星的接近；

S5、基于对目标星的接近，利用近端策略优化算法PPO算法以及最优轨道机动Lambert算法，得到近程追逃博弈阶段的追踪轨道闭环控制策略，并通过追踪星在近程追逃博弈阶段的每个时间步长执行追踪轨道闭环控制策略，得出第二脉冲速度增量以对机动的目标星实现追踪防御；

S6、判断追踪星集群是否完成对所有目标的追踪防御，若是，则结束流程，否则，返回步骤S1。

本发明的有益效果是：本发明通过集群目标分配问题和追逃机动闭环控制问题的结合，实现大规模群对群的追踪防御追逃博弈delta-v闭环控制；与现有多航天器追逃博弈问题相比，本发明场景下的参与追逃的卫星数量可达几十上百颗，本发明通过求解两个耦合子问题——集群目标分配问题和两阶段追逃轨道规划问题，解决了大规模卫星集群的追踪策略与控制问题，且追逃双方集群数量可不同；本发明通过改进的双层合同网协议算法能够分别在子群级和个体级分别进行目标分配，提升目标分配方案的合理性，提升整体追踪防御效率；大部分航天器追逃博弈研究只针对相对位置较近的航天器追逃，忽略了追踪者远距离交会轨道对追逃博弈的影响，本发明中航天器集群追踪防御的轨道机动过程分为远程交会和近程追逃博弈两阶段，可以模拟初始位置相距极远的场景，考虑了近距离博弈之前的行为，更贴近实际；本发明通过近程追逃博弈阶段采用PPO算法和Lambert算法结合的混合算法求解机动控制策略，能够获得更智能的delta-v机动追踪闭环控制策略，能够在脉冲速度增量相差不大的情况下，缩短追踪时间，同时，该智能闭环控制策略具有鲁棒性，发生意外情况(如因机动误差导致轨道不一致、策略不选择最优策略导致轨道不一致或卫星故障、损毁等)时。本发明解决了脉冲机动方式下大规模卫星集群追踪防御问题。

进一步地，所述步骤S1中轨道动力学模型的表达式如下：

其中，v_x、v_y和v_z分别表示航天器在x、y和z轴上的速度，r_x、r_y和r_z分别表示航天器在x、y和z轴上的位置，下标x、y和z代表ECI坐标系中的三个坐标轴方向，μ表示地球引力常数，r表示航天器与地心的距离，和/>表示r_x、r_y和r_z对时间的导数，/>和/>表示v_x、v_y和v_z对时间的导数。

再进一步地，所述步骤S2中追踪星子群模型的表达式如下：

Subgroup＝{num,sma,ecc,inc,Ω,argp}

其中，Subgroup表示追踪星子群模型，num表示子群中追踪星数量，sma表示半长轴，ecc表示偏心率，inc表示轨道倾角，Ω表示升交点赤经，argp表示近心点辐角；

所述追踪星模型和目标星模型的表达式分别如下：

其中，Satellite和Satellite'分别表示追踪星模型和目标星模型，表示真近点角；或

所述追踪星模型和目标星模型的表达式分别如下：

Satellite＝{r,v}

Satellite'＝{r,v}

其中，Satellite和Satellite'分别表示追踪星模型和目标星模型，r,v表示分别位置和速度矢量，E表示偏近点角，μ表示地球引力常数，P和Q均表示中间变量。

上述进一步方案的有益效果是：构建了大规模航天器集群追逃模型，对追踪星子群、追踪星和目标星的属性进行了详细定义，得以描述大规模卫星集群追踪防御问题。

再进一步地，所述步骤S3包括以下步骤：

S301、根据大规模航天器集群追逃模型，将集群目标分配问题构建为目标分配顺序问题、子群目标分配和个体目标分配三个耦合的子问题；

S302、根据所述子问题，利用优先级评估算法对每个目标的优先级进行评估，确定目标分配顺序；

S303、根据确定的目标分配顺序，利用一层合同网将目标分配至各子群；

S304、基于一层合同网处理结果，利用二层合同网将分配结果在每个子群中执行，得到追踪星和目标星的追踪配对关系。

上述进一步方案的有益效果是：双层合同网协议算法在集群层面做出上层决策，实现目标分配，从而为每个追踪星明确防御目标。双层合同网协议算法充分考虑到卫星轨道面分布差异，用双层协商机制减少了星间交流次数，提升了目标分配效率。

再进一步地，所述步骤S302包括以下步骤：

S3021、初始化目标星和追踪星集群，并令初始的有序目标集合令j＝1，其中，/>表示空集，j表示子群序号；

S3022、根据所述子问题，选择当前目标星T_j，并计算得到优先级函数J_1j：

J_1j＝αR_j-βc_j

α,β∈[0,1]

其中，α,β表示均表示权重系数，c_j表示追踪目标星T_j的估计代价，R_j表示目标星T_j被成功追踪防御时获得的收益；

S3023、根据优先级函数J_1j，将目标星T_j插入至有序目标集合D_TS；

S3024、判断是否计算完所有目标星的优先级函数J_1j，若是，则根据有序目标集合D_TS，确定目标分配顺序，否则，令j值为j+1，并返回步骤S3022。

上述进一步方案的有益效果是：通过构建优先级函数，解决了目标的分配时序问题，使优先级更高的目标星更早进行分配，提升了分配方案的合理性。

再进一步地，所述步骤S303包括以下步骤：

S3031、根据确定的目标分配顺序，将第i个目标星的信息T_i发送至各追踪星子群；

S3032、计算第j个子群对第i个目标星的收益函数

其中，g(·)表示一个以T_i和S_j为自变量的函数，T_i表示目标星，S_j表示子群，s表示子群总数量；

S3033、选择具有最大收益函数的追踪星子群；

S3034、更新已分配目标的追踪子群对未分配目标的追踪子群的收益函数，完成将目标分配至各子群。

上述进一步方案的有益效果是：一层协商在子群级进行目标分配，将目标星分配至追踪星子群中，充分考虑了追踪星子群间的轨道面差异，降低计算代价并提升分配方案合理性。

再进一步地，所述步骤S304包括以下步骤：

S3041、基于一层合同网处理结果，将分配至第j个子群的目标信息发送至子群内所有追踪星；

S3042、计算第j个子群的第k个追踪星对第i个目标星的收益函数

其中，h表示一个以T_i和S_j{k}为自变量的函数，T_i表示目标星，S_j表示子群，p_j表示第j个子群中追踪星的数量，S_j{k}表示子群S_j中第k个追踪星；

S3043、选择具有最大收益函数的追踪星，其中，所述追踪星接收当前目标星作为追踪目标；

S3044、更新已分配目标星的追踪星对未分配目标星的追踪星的收益函数；

S3045、判断子群内所有追踪星是否均接收目标星，若是，则得到追踪星和目标星的追踪配对关系，否则，返回步骤S3041。

上述进一步方案的有益效果是：二层协商在各追踪星子群内部并行进行，能提升分配效率；二层协商将目标星分配至某个具体的追踪星，获得追踪星和目标星的配对关系。

再进一步地，所述步骤S4包括以下步骤：

S401、输入追踪星的轨道根数、当前时间t₀、目标星的轨道根数以及可选择追踪时间总数n；

S402、根据所述追踪配对关系以及目标星的轨道根数，分别计算得到追踪星的位置r_p和速度v_p，以及目标星的位置r_e和速度v_e；

S403、根据追踪星的轨道根数，计算得到追踪星的飞行周期，并将所述飞行周期T作为追踪时间上限；

S404、对飞行周期T进行均分，得到n个可选择追踪时间t_i；

S405、对每个追踪时间t_i，基于目标星在t₀时刻的位置r_e和速度v_e，计算得到t时刻的目标星的位置r_e,t和速度v_e,t，其中，t＝t₀+t_i；

S406、根据追踪星的位置r_p和速度v_p，结合t时刻目标星的位置r_e,t和速度v_e,t，求解Lambert问题获取远程交会阶段所需的第一脉冲速度增量Δv_i；

S407、判断是否得到每个追踪t_i对应的第一脉冲增量Δv_i，若是，则进入步骤S408，否则，返回步骤S405；

S408、根据收益函数R，计算每次迭代(t_i,Δv_i)对应的收益函数R_i，并以具有最大收益函数的(t_i,Δv_i)对为离散追踪时间下的最优解，实现对目标星的接近，其中，所述收益函数R的表达式如下：

R＝-(ω₃·|Δv_i|+ω₄·t_i)

其中，ω₃表示第一脉冲速度增量的权重系数，ω₄表示追踪时间的权重系数。。

上述进一步方案的有益效果是：通过最优轨道机动Lambert算法求解了自由飞行时间下的Lambert问题，获得了远程交会阶段追踪星所需的脉冲速度增量，可实现远程交会阶段的追踪星对目标星的接近。

再进一步地，所述步骤S5包括以下步骤：

S501、基于对目标星的接近，将Actor网络与环境多次交互以获取状态、动作以及奖励的数据；

S502、将获取的数据输入至Critic网络，得到每个状态s_t对应的价值V_φ(s_t)；

S503、定义t时间对应的整局收益函数R_t，并根据价值V_φ(s_t)，计算得到优势函数A_t：

A_t＝R_t-V_φ(s_t)

其中，t'表示时间步，n'表示时间步上限，γ表示奖励衰减的权重系数，r_t′表示时间t'对应的单步奖励，r_t表示时间t对应的单步奖励；

S504、根据下式计算得到a_loss，并采用梯度更新法更新Actor网络；

其中，s_t表示时间t的状态，a_t表示时间t的状动作，，p_θnew表示新策略下的概率，p_θold表示旧策略下的概率，clip(·)表示限制输入变量的最大值和最小值，ε表示设定的参数；

S505、根据下式计算得到c_loss，并采用梯度更新法更新Critic网络：

其中，a_loss和c_loss均表示神经网络的损失；

S506、基于更新后的Actor网络和Critic网络，得到PPO网络；

S507、利用PPO网络，得到追踪时间，并利用最优轨道机动Lambert算法得到追踪星的第二脉冲速度增量，以对机动的目标星实现追踪防御。

上述进一步方案的有益效果是：通过提出的基于PPO和Lambert算法的混合算法，在目标星进行机动的近程追逃博弈阶段，获得了追踪星闭环脉冲速度增量控制，从而实现追踪星对机动目标星的追踪防御。

附图说明

图1为本发明的方法流程图。

图2为本实施例中集群目标分配问题的框架示意图。

图3为本实施例中双层合同网协议算法DLCNP流程图。

图4为本实施例中最优Lambert算法流程图。

图5为本实施例中结合PPO算法和Lambert算法的混合算法流程图。

图6为本实施例中PPO算法训练流程图。

图7为本实施例中集群整体追踪防御追逃轨迹图。

图8为本实施例中No.1追踪星追踪No.2目标星轨迹图。

图9本实施例中No.1追踪星追踪防御No.2目标星过程中的脉冲速度增量变化示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

基于背景技术可知，为了克服上述缺点，本发明从追踪星集群的角度研究了空间追踪防御场景下的群对群追逃博弈问题，求解了追踪者集群的追踪策略。具体来说，本发明的主要内容如下：

(1)本发明从追踪防御的角度，研究了大规模卫星集群追逃博弈问题，将其转化为两个耦合问题——集群目标分配问题和轨道机动问题。

(2)将集群目标分配问题建模为三个子问题：目标分配顺序问题、子群目标分配和个体目标分配，并提出了改进的双层CNP(DLCNP)算法来求解这些耦合子问题。

(3)由于目标星的警戒范围，轨道机动问题分为远程交会阶段和近程追逃博弈阶段。对于远程交会阶段，开发了一种最优Lambert(OL)算法来规划交会轨道，以获得远程交会轨道机动控制策略。对于近程追逃博弈阶段，设计了一个基于PPO和OL结合的混合算法，以获得近程追逃博弈阶段的追踪防御所需的闭环控制delta-v解。

如图1所示，本发明提供了一种基于追踪目标分配与轨道规划的追踪防御方法，其实现方法如下：

S1、构建轨道动力学模型；

本实施例中，以地球为中心天体的ECI坐标系下建立航天器动力学模型，追踪星集群和目标星集群中的每个航天器都将在该动力学模型中表示。

本实施例中，ECI坐标系是一个典型的笛卡尔坐标系，它的坐标原点O是地球中心，Z轴沿地球自转轴向北指向，X轴指向地球的春分点，Y轴和XZ平面构成一个右手坐标系，XY平面是赤道平面。由于追逃过程只持续几个轨道周期，本发明中可以忽略地球重力场的J2非球形项的影响。

其中，轨道动力学模型用以下形式的二体模型来描述。

其中，v_x、v_y和v_z分别表示航天器在x、y和z轴上的速度，r_x、r_y和r_z分别表示航天器在x、y和z轴上的位置，下标x、y和z代表ECI坐标系中的三个坐标轴方向，μ表示地球引力常数，r表示航天器与地心的距离，和/>表示r_x、r_y和r_z对时间的导数，/>和/>表示v_x、v_y和v_z对时间的导数，[r_x,r_y,r_z]^T和[v_x,v_y,v_z]^T为航天器的位置和速度矢量，表示航天器与地心的距离，地球引力常数设为μ＝398,600×10⁹m³/s²。当航天器机动时，航天器速度的变化如下所示。

式(2)中，v_-表示航天器机动时前一瞬间的速度，v₊表示航天器机动时后一瞬间的速度，Δv＝[Δv_x,Δv_y,Δv_z]^T为航天器机动的脉冲速度增量：

本实施例中，追踪星子群模型Subgroup定义如下：

Subgroup＝{num,sma,ecc,inc,Ω,argp} (3)

式(3)中，num表示子群中追踪星数量，sma表示半长轴，ecc表示偏心率，inc表示轨道倾角，Ω表示升交点赤经，argp表示近心点辐角。

其中，追踪星模型和目标星模型均可由轨道根数表示如下：

式(4)中，Satellite和Satellite'分别表示追踪星模型和目标星模型，为真近点角。其余元素定义与式(3)相同。此外，追踪星模型和目标星模型还可由航天器在ECI坐标系下的位置矢量和速度矢量表示如下：

式(5)中，Satellite和Satellite'分别表示追踪星模型和目标星模型。

并且，位置和速度矢量{r,v}与轨道根数的转换关系如下所示。

式(6)中，偏近点角E、矢量P和矢量Q计算如下。

其中，μ表示地球引力常数，P和Q均表示中间变量。

S3、根据大规模航天器集群追逃模型，将集群目标分配问题构建为三个耦合的子问题，并采用双层合同网协议算法求解所述子问题，得到追踪星和目标星的追踪配对关系，其实现方法如下：

S302、根据所述子问题，利用优先级评估算法对每个目标的优先级进行评估，确定目标分配顺序，其实现方法如下：

J_1j＝αR_j-βc_j

α,β∈[0,1]

S3024、判断是否计算完所有目标星的优先级函数J_1j，若是，则根据有序目标集合D_TS，确定目标分配顺序，否则，令j值为j+1，并返回步骤S3022；

S303、根据确定的目标分配顺序，利用一层合同网将目标分配至各子群，其实现方法如下：

S3032、计算第j个子群对第i个目标星的收益函数

S3033、选择具有最大收益函数的追踪星子群；

S3034、更新已分配目标的追踪子群对未分配目标的追踪子群的收益函数，完成将目标分配至各子群；

S304、基于一层合同网处理结果，利用二层合同网将分配结果在每个子群中执行，得到追踪星和目标星的追踪配对关系，其实现方法如下：

本实施例中，如图2所示，目标分配顺序问题建模如下：

定义集合：

D_p＝{P₁,P₂,...,P_m}表示m个追踪星的集合，D_p也可表示为D_p＝{S₁,S₂,...,S_s}，表示S个子群的集合，同时，对满足/>每个子群均由多个追踪星组成，子群表示为S_j＝{P_x,P_y,...,P_z}。

D_T＝{T₁,T₂,...,T_n}表示n个目标星的集合，i＝1,2,3,…,n，i表示第i个目标星，即目标星序号，且在任务开始时n>m。随着追逃任务的演化，D_T逐渐减少为空集。

参数：

R_j表示目标星T_j被成功追踪防御时获得的收益，R_j越大，当T_j被成功追踪防御时的收益越大。

c_j表示追踪目标星T_j的估计代价。

变量：

如果目标星T_j∈D_T被成功追踪防御后，D_T{j}＝null，否则不变。

D_TS为目标分配的设计变量，表示按照高到低的优先级排序的目标星序列。

本实施例中，目标分配的目的是评估计算目标星T_j的优先级函数J_1j，然后根据优先级函数J_1j由高到低对D_T中的元素排序，最终获得有序目标集合D_TS。目标星T_j的优先级函数J_1j定义如下。

J_1j＝αR_j-βc_j (9)

式(9)中，c_j表示追踪目标星T_j的估计代价，R_j表示目标星T_j被成功追踪防御时获得的收益，α,β∈[0,1]表示收益R_j和估计代价c_j的权重系数，满足α+β＝1。估计代价c_j取决于目标星T_j的位置和追踪星集群轨道面。、

下列过程约束确保了任务过程中所需机动Δv不会超出可用上限Δv_max。

本实施例中，子群目标分配问题建模如下：

子群目标分配：

为了清晰阐述子群目标分配，表1中给出了符号和相应的描述。

表1

子群目标分配定义如下：

式(11)中，ω₁表示升交点赤经的权重系数，ω₂表示轨道倾角的权重系数。通过多次数值仿真测试，选择ω₁＝0.5和ω₂＝0.5。

其中，个体目标分配问题建模如下：

基于子群分配结果，个体目标分配在每个子群内并行进行，个体目标分配是为各子群内的追踪星找到最佳的目标星分配。

为了清楚地阐述个体目标分配，表2中给出了符号和相应的描述。

表2

个体目标分配定义如下：

式(12)中，ω₃表示脉冲速度增量的权重系数，ω₄表示追踪时间的权重系数。考虑到Δv_ik和Δt_ik的单位差异，ω₃和ω₄需要在数值上平衡上述两项。通过多次数值仿真测试，选择了ω₃＝1和ω₄＝1/3600。

本实施例中，如图3所示，双层合同网协议算法流程如下：

目标分配的预先准备阶段，其目的是评估每个目标的优先级，从而确定目标分配的顺序。优先级评估算法可以在目标分配前在地面系统上运行，算法流程如下所示：

初始化目标星、追踪星集群和初始的有序集并令j＝1；选择当前目标星T_j并计算优先级函数J_1j；根据优先级函数将T_j插入D_TS，保证优先级大的目标在前，优先级小的目标在后；判断是否计算完所有目标的优先级。若是，则优先级评估算法结束；若否，令j＝j+1并转至步骤3.1.2。上述优先级评估算法可以获得有序目标集合D_TS，从而确定目标分配顺序。

本实施例中，子群目标分配和个体目标分配描述了集群目标分配过程。集群目标分配的经典CNP算法的主要流程如下。首先，目标信息被发送至所有追踪者(目标发布)，然后，追踪者计算与目标有关的收益函数值。管理者比较所有的收益函数值，并选择具有最大收益函数的追踪者中标。为了提高目标分配的性能，在经典的CNP算法和目标分配顺序的解的基础上，提出了一种双层合同网协议(DLCNP)算法：一层协商将目标分配至各子群以求解子群目标分配；二层协商在各子群并行执行，将目标分配至各追踪星以求解个体目标分配。DLCNP算法中，分配第i个目标星的一层协商流程如下：

将第i个目标星的信息发送至各追踪星子群；计算第j个子群对第i个目标星的一层收益函数/>选择具有最大收益函数的追踪星子群中标；更新该已分配目标对其他追踪星子群的收益函数。

DLCNP算法中的一层协商通过上述步骤的循环完成的，直到所有目标星被分配至子群。

本实施例中，二层协商将在每个子群内并行执行。在第j个子群中，二层协商的过程如下：

基于一层协商结果，分配至第j个子群的目标信息被发送至子群内所有追踪星；计算第j个子群的第k个追踪星对第i个目标星的收益函数其中，p_j表示第j个子群中追踪星数量；选择具有最大收益函数的追踪星中标，该追踪星接收当前目标星作为追踪目标；更新该已分配目标星对其他追踪星的收益函数。

子群内的二层协商通过循环上述步骤完成，直到子群内所有追踪星均接收自己的目标星，二层协商在每个子群内并行进行。

S4、根据追踪配对关系，利用最优轨道机动Lambert算法为每个追踪星求解远程交会阶段的交会轨道机动控制策略，并通过追踪星在远程交会阶段执行交会轨道机动控制策略，得到第一脉冲速度增量以实现对目标星的接近，其实现方法如下：

S404、对飞行周期T进行均分，得到n个可选择追踪时间t_i；

R＝-(ω₃·|Δv_i|+ω₄·t_i)

其中，ω₃表示第一脉冲速度增量的权重系数，ω₄表示追踪时间的权重系数。

本实施例中，如图4所示，最优轨道机动Lambert(OL)的目的是求解最优的脉冲机动增量和离散的追踪时间。OL算法以t_step为时间步长遍历区间[0,T]以获得每次迭代的追踪时间t_i＝i·t_step，i＝1,2,...,n；根据t_i和目标星信息，计算目标星在t＝t₀+t_i时的位置；然后追踪星的初始状态、目标星在t＝t₀+t_i时的状态和追踪时间输入到Lambert问题中以求解脉冲速度增量Δv_i；然后计算每次迭代对应的收益函数R_i；遍历完时间区间[0,T]后，选择具有最大收益函数的(t_i,Δv_i)作为最优脉冲机动；最后，将最优脉冲速度增量Δv_i施加于追踪星如下。

v_p＝v_p+Δv_i (13)

OL算法的具体步骤如下：

输入：追踪星轨道根数当前时间t₀，目标星轨道根数可选追踪时间总数n；求解追踪星的位置r_p和速度v_p，求解追踪星的位置r_e和速度v_e；基于追踪星的轨道根数/>求解其飞行周期T作为追踪时间上限；均分飞行周期T，获取n个可选追踪时间t_i＝i·(T/n),i＝1,2,...,n；对每个追踪时间t_i，基于目标星的轨道根数/>计算t＝t₀+t_i时间的追踪星位置；求解经典的Lambert问题，结合t₀时间追踪星速度以获得交会所需的脉冲速度增量Δv_i；循环求解追踪星位置和脉冲速度增量Δv_i，得到每个追踪时间t_i对应的脉冲速度增量Δv_i；根据收益函数R＝-(ω₃·|Δv_i|+ω₄·t_i)，计算每个(t_i,Δv_i)对所对应的收益函数，并选择最大收益函数的(t_i,Δv_i)对作为离散追踪时间下的最优解。

S5、基于对目标星的接近，利用近端策略优化算法PPO算法以及最优轨道机动Lambert算法，得到近程追逃博弈阶段的追踪轨道闭环控制策略，并通过追踪星在近程追逃博弈阶段的每个时间步长执行追踪轨道闭环控制策略，得出第二脉冲速度增量以对机动的目标星实现追踪防御，其实现方法如下：

A_t＝R_t-V_φ(s_t)

其中，a_loss和c_loss均表示神经网络的损失；

S506、基于更新后的Actor网络和Critic网络，得到PPO网络；

本实施例中，如图5所示，该混合算法由追踪时间优化器(Pursuit TimeOptimizer,PTO)和Lambert问题求解器(Lambert Problem Solver,LPS)组成。该方法的贡献在于，PTO使用深度强化学习方法为LPS提供一个追踪时间。然后，LPS求解经典Lambert问题以获得追踪星的脉冲速度增量。在每个时间步长只需要计算一个神经网络输出和一个Lambert问题，并且训练好的神经网络可以应用于不同的“追踪星-目标星”配对关系。

本实施例中，作为一个基于Actor-Critic框架的深度强化学习算法，近端策略优化算法(Proximal Policy Optimization，PPO)具有适用性强、对超参数不敏感以及处理连续空间问题表现优异的特点。Actor网络根据策略函数输出动作，而Critic网络是状态的值函数，用于估计输入状态的期望。训练数据则来源于与环境的多次交互，策略通过使用随机梯度上升方法基于数据小批量多次优化目标函数来更新。

本实施例中，PPO算法中，近程追逃博弈阶段的状态空间和动作空间定义如下。

式(14)中，s表示状态，a表示动作；由PTO模块获得的无量纲时间t_p∈[t_min,t_max]被输入至LPS模块以获得对应的Lambert问题。

t_i时间对应的奖励函数r_i定义如下。

式(15)中，base表示一个用于调整奖励函数正负符号的固定值，r_p,i和v_p,i表示追踪星在t_i时间的位置矢量和速度矢量，r_e,i和v_e,i表示目标星在t_i时间的位置矢量和速度矢量，r_p,i+1和v_p,i+1表示追踪星在下一时间步长t_i+1时间的位置矢量和速度矢量，r_e,i+1和v_e,i+1表示目标星在下一时间步长t_i+1时间的位置矢量和速度矢量。ω₁和ω₂表示权重系数，u_p,i＝[u_x,i,u_y,i,u_z,i]^T表示追踪星在t_i时间的脉冲速度增量。

本实施例中，提供追踪时间猜测的PPO算法的训练过程如图6所示：

步骤1、数据收集

状态信息s被输入到Actor网络中以获得nu和sigma，以这两个量为均值和方差构造正态分布来表示动作的概率分布，然后，通过从该正态分布中随机抽样以获得特定动作a，该动作与环境交互以获得奖励r和下一步的状态s₁，并储存当前步的(s,a,r)，下一步的状态s₁作为新状态信息，循环执行上述步骤直到储存了足够的数据量，设一集(episode)的最后时间为t＝n。

步骤2、Critic网络计算优势函数

首先，将所有的储存的数据输入Critic网络，获得每个状态s_t对应的价值V_φ(s_t)。根据式(16)计算该集(episode)的收益函数R_t。然后根据式(17)计算优势函数A_t。

A_t＝R_t-V_φ(s_t) (17)

步骤3、更新Actor网络

根据式(18)计算a_loss，并采用梯度更新法更新Actor网络。

步骤4、更新Critic网络

根据式(19)计算c_loss，并采用梯度更新法更新Critic网络。

步骤5、循环执行多次网络更新

循环步骤3和步骤4多次以更新网络参数，最终，全部的训练过程会循环执行步骤1-步骤5直到训练结束，训练结束后，使用所训练的PPO网络可以获得追踪时间猜测。

基于PTO模块获得的追踪时间，LPS模块构建一个经典的Lambert问题以求解追踪星的脉冲速度增量。求解Lambert问题的方法已经非常成熟且广泛应用了，此处不再赘述。

本实施例中，仿真建立了30颗卫星的追踪星集群和45颗卫星的目标星集群的集群对集群追踪防御场景。仿真实验的时间步长设置为10s。目标星的最大逃逸脉冲大小设置为V_e＝0.2km/s。为了便于区分追踪星和目标星，追踪星编号设置为奇数，目标星卫星编号设置为偶数，如图7所示，图7为本发明所提方案的集群整体追踪防御追逃轨迹图，追踪星集群完成集群追踪防御的总时间为6890s。

集群目标分配结果如下表3所示，表3为集群目标分配结果。

表3

本实施例中，选择No.1追踪星卫星为例，其第一个追踪任务的轨迹图如图8所示，其脉冲速度增量变化如图9所示。

Claims

1.一种基于追踪目标分配与轨道规划的追踪防御方法，其特征在于，包括以下步骤：

S1、构建轨道动力学模型；

所述步骤S1中轨道动力学模型的表达式如下：

其中，、/>和/>分别表示航天器在/>、/>和/>轴上的速度，/>、/>和/>分别表示航天器在/>、/>和/>轴上的位置，下标/>、/>和/>代表ECI坐标系中的三个坐标轴方向，/>表示地球引力常数，/>表示航天器与地心的距离，/>、/>和/>表示/>、/>和/>对时间的导数，/>、/>和/>表示/>、/>和/>对时间的导数；

所述步骤S2中追踪星子群模型的表达式如下：

其中，表示追踪星子群模型，/>表示子群中追踪星数量，/>表示半长轴，表示偏心率，/>表示轨道倾角，/>表示升交点赤经，/>表示近心点辐角；

所述追踪星模型和目标星模型的表达式分别如下：

其中，和/>分别表示追踪星模型和目标星模型，/>表示真近点角；或

所述追踪星模型和目标星模型的表达式分别如下：

其中，和/>分别表示追踪星模型和目标星模型，/>表示分别位置和速度矢量，/>表示偏近点角，/>表示地球引力常数，/>和/>均表示中间变量；

所述步骤S3包括以下步骤：

S304、基于一层合同网处理结果，利用二层合同网将分配结果在每个子群中执行，得到追踪星和目标星的追踪配对关系；

所述步骤S4包括以下步骤：

S401、输入追踪星的轨道根数、当前时间、目标星的轨道根数以及可选择追踪时间总数/>；

S402、根据所述追踪配对关系以及目标星的轨道根数，分别计算得到追踪星的位置和速度/>，以及目标星的位置/>和速度/>；

S403、根据追踪星的轨道根数，计算得到追踪星的飞行周期，并将所述飞行周期作为追踪时间上限；

S404、对飞行周期进行均分，得到n个可选择追踪时间t _i；

S405、对每个追踪时间t _i，基于目标星在时刻的位置/>和速度/>，计算得到t时刻的目标星的位置/>和速度/>，其中，/>；

S406、根据追踪星的位置和速度/>，结合t时刻目标星的位置/>和速度/>，求解Lambert问题获取远程交会阶段所需的第一脉冲速度增量/>；

S407、判断是否得到每个追踪t _i对应的第一脉冲增量，若是，则进入步骤S408，否则，返回步骤S405；

S408、根据收益函数R，计算每次迭代对应的收益函数/>，并以具有最大收益函数的/>对为离散追踪时间下的最优解，实现对目标星的接近，其中，所述收益函数R的表达式如下：

其中，表示第一脉冲速度增量的权重系数，/>表示追踪时间的权重系数；

所述步骤S5包括以下步骤：

S502、将获取的数据输入至Critic网络，得到每个状态对应的价值/>；

S503、定义t时间对应的整局收益函数，并根据价值/>，计算得到优势函数/>：

其中，表示时间步，/>表示时间步上限，/>表示奖励衰减的权重系数，/>表示时间/>对应的单步奖励，/>表示时间/>对应的单步奖励；

S504、根据下式计算得到，并采用梯度更新法更新Actor网络；

其中，表示时间/>的状态，/>表示时间/>的状动作，/>表示新策略下的概率，/>表示旧策略下的概率，/>表示限制输入变量的最大值和最小值，/>表示设定的参数；

S505、根据下式计算得到，并采用梯度更新法更新Critic网络：

其中，和/>均表示神经网络的损失；

S506、基于更新后的Actor网络和Critic网络，得到PPO网络；

S507、利用PPO网络，得到追踪时间，并利用最优轨道机动Lambert算法得到追踪星的第二脉冲速度增量，以对机动的目标星实现追踪防御；

2.根据权利要求1所述的基于追踪目标分配与轨道规划的追踪防御方法，其特征在于，所述步骤S302包括以下步骤：

S3021、初始化目标星和追踪星集群，并令初始的有序目标集合，令/>，其中，表示空集，/>表示子群序号；

S3022、根据所述子问题，选择当前目标星，并计算得到优先级函数/>：

其中，表示均表示权重系数，/>表示追踪目标星/>的估计代价，/>表示目标星/>被成功追踪防御时获得的收益；

S3023、根据优先级函数，将目标星/>插入至有序目标集合/>；

S3024、判断是否计算完所有目标星的优先级函数，若是，则根据有序目标集合/>，确定目标分配顺序，否则，令j值为j+1，并返回步骤S3022。

3.根据权利要求1所述的基于追踪目标分配与轨道规划的追踪防御方法，其特征在于，所述步骤S303包括以下步骤：

S3031、根据确定的目标分配顺序，将第i个目标星的信息发送至各追踪星子群；

S3032、计算第j个子群对第i个目标星的收益函数：

其中，表示一个以/>和/>为自变量的函数，/>表示目标星，/>表示子群，/>表示子群总数量；

S3033、选择具有最大收益函数的追踪星子群；

4.根据权利要求1所述的基于追踪目标分配与轨道规划的追踪防御方法，其特征在于，所述步骤S304包括以下步骤：

S3042、计算第j个子群的第k个追踪星对第i个目标星的收益函数：

其中，表示一个以/>和/>为自变量的函数，/>表示目标星，/>表示子群，/>表示第j个子群中追踪星的数量，/>表示子群/>中第k个追踪星；