CN116125811A

CN116125811A - 基于近端策略优化的航天器多空间碎片避撞自主决策方法

Info

Publication number: CN116125811A
Application number: CN202310103998.7A
Authority: CN
Inventors: 穆朝絮; 刘硕; 刘朝阳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-05-16

Abstract

本发明公开了基于近端策略优化的航天器多空间碎片避撞自主决策方法，所述方法包括以下步骤：步骤一：根据地心惯性坐标系下构建航天器的空间动力学模型；步骤二：根据航天器与空间碎片轨道动力学构建碰撞概率数学模型；步骤三：基于碰撞时间的空间碎片仿真参数生成；步骤四：对碰撞概率与能量损耗构建奖励函数数学模型；步骤五所述航天器避撞自主决策训练系统是在当前状态下选择最优动作，通过连续决策使得航天器能够以最佳状态成功规避空间碎片；步骤六：离线训练航天器避撞自主决策模型；步骤七：训练好的航天器避撞自主决策模型应用于在线航天器多个空间碎片避撞场景中；本发明以减少生成最优规避机动的时间消耗，提升航空器的能源利用率。

Description

基于近端策略优化的航天器多空间碎片避撞自主决策方法

技术领域

本发明涉及航天器避撞领域，具体涉及基于近端策略优化的航天器多空间碎片避撞自主决策方法。

背景技术

随着全球航天事业快速发展，世界范围内卫星发射次数也是逐年攀升，全世界先后有超过三十多个国家和地区相继进行了发射任务。进入21世纪，出于国家军事战略安全的需要，世界各国进行卫星发射的任务越来越紧迫，发射活动也愈发频繁。然而由于宇宙空间资源的有限，特别是近地空间以及地球同步轨道空间的有限性，导致地球附近的空间碎片数量迅速攀升，这些无效载荷严重污染了地球周围的空间环境，对在轨航天器的安全运行、卫星任务执行以及火箭发射的窗口期都产生了广泛且严重影响。现有的空间碎片避撞问题研究多是基于简化的相对运动学模型，并且采用离线的数学优化方法得出最优机动量。但传统的高斯伪谱法、遗传算法等求解速度无法满足航天器在轨实时避障决策需求，工程上也很难为空间飞行器提供瞬时大推力，所以有必要对有限推力空间飞行器在轨实时自主避障机动决策进行研究。

因此，设计一种基于近端策略优化的航天器多空间碎片避撞自主决策方法能够实现自主规避，并且能够有效的降低机动决策时间，优化机动能耗。

发明内容

本发明的目的是提供一种基于近端策略优化的航天器多空间碎片避撞自主决策方法，本发明解决了现有航天器空间碎片规避问题计算效率低、无法自主规避等问题；本发明主要通过构建航天器与空间碎片轨道动力学模型、设计碰撞概率计算模块、生成空间碎片仿真参数等步骤实现离线训练，使用神经网络实现在线决策；通过仿真案例验证，证明该方法对航天器计算资源使用较少，有效降低规避决策时间，具备实时决策能力，并且提升了航天器对多空间碎片的规避成功率与能源利用效率。

以减少生成最优规避机动的时间消耗，提升航空器的能源利用率。

本发明采用以下技术方案：

一种基于近端策略优化的航天器多空间碎片避撞自主决策方法，所述方法包括以下步骤：

步骤一：根据地心惯性坐标系下构建航天器的空间动力学模型为：

其中，r是航天器空间位置矢量；μ为地球引力常数，其值为3.986×10⁵km³/s²；f_t为发动机推力加速度矢量，本发明中采用脉冲机动方式，机动总量设置为F_max；f_p是作用在航天器上的J2摄动加速度矢量；

步骤二：根据航天器与空间碎片轨道动力学构建碰撞概率数学模型；

步骤三：基于碰撞时间的空间碎片仿真参数生成；

步骤四：对碰撞概率与能量损耗构建奖励函数数学模型；

步骤五：根据近端策略优化算法建立航天器避撞自主决策训练系统；

所述航天器避撞自主决策训练系统是在当前状态下选择最优动作，通过连续决策使得航天器能够以最佳状态成功规避空间碎片；

步骤六：将步骤一、步骤二、步骤三和步骤四中所建立的模型应用在步骤五系统中，离线训练航天器避撞自主决策系统；

步骤七：将步骤六中训练好的航天器避撞自主决策系统应用于在线航天器多个空间碎片避撞场景中，得到成功的自主规避的优化机动轨迹。

进一步，所述步骤二构建碰撞概率数学模型，其具体过程为：

在每个时间步长中获取当前时刻的航天器和空间碎片在地心坐标系下的位置和速度；

根据轨道动力学方程向前传播得到航天器与空间碎片最接近时刻以及在最接进时刻的位置和速度；

将航天器与空间碎片最接近时刻以及在最接进时刻的位置和速度转换为在相对坐标系下得到相对位置和相对速度，计算两者的联合位置误差协方差；

选取二维高斯概率密度函数的无穷级数首项作为概率积分的近似按照如下公式计算出在最接近时刻的碰撞概率数学模型P_c；

其中，μ_x和μ_y分别为航天器与空间碎片在相遇坐标系下x轴和y轴坐标，σ_x和σ_y分别为航天器与空间碎片在相遇坐标系下x轴和y轴上的联合位置误差标准差，r_A为航天器与空间碎片半径之和。

进一步，所述步骤三基于碰撞时间的空间碎片仿真参数生成，其具体过程为：

根据航天器初始时刻的状态进行一定时间的轨道传播获得空间碎片碰撞时间t_c；

根据空间碎片碰撞时间t_c时刻航天器的位置R_s和速度V_s，加入一定的随机扰动R_ε和V_ε；

在此基础上，随机选择一个轨道倾角

以获得最终的空间碎片的位置R′_d和速度V_d′；

根据空间碎片向前传播t_c秒获得空间碎片的初始位置R_d和速度V_d。

进一步，所述步骤四基于碰撞概率与能量损耗的奖励函数数学模型为：

其中，r_p为碰撞概率的奖励值，P_sum为多个空间碎片的总的碰撞概率，其计算公式为

P_i为单个空间碎片的碰撞概率；r_c为能量损耗奖励，F_max为总能量值，F_ac为累计能量消耗值，F_sc为单次机动能量消耗值，F_smax为单次机动最大能量消耗值；r_s为步长奖励；r_t为终端条件奖励，t_step为环境步数，coll_flag为碰撞发生标志位。

进一步，所述步骤五建立航天器避撞自主决策训练系统，其具体过程为：

501、将航天器避撞决策过程建模为马尔科夫决策过程模型，所述航天器避撞决策过程模型包括：状态集、动作集、状态转移方程、奖励函数数学模型和折扣因子；

所述状态集由二十六个变量组成，包括一个航天器与三个空间碎片通过所述航天器的空间动力学模型生成在地心坐标系下的相对三维位置坐标和三维速度值、航天器的剩余燃料值；

通过所述碰撞概率数学模型得到的航天器与三个空间碎片在最接近时刻的相对距离、碰撞概率和总碰撞概率；

所述动作集由三个变量组成，包括航天器在地心坐标系下的x方向脉冲机动值、y方向脉冲机动值、z方向脉冲机动值；

采用

计算单次机动三个方向的总机动损耗值；

所述状态转移方程是基于航天器的空间动力学模型，即当输入一个动作后，状态会以100％的概率按照轨道动力学方程转移到下一状态；

所述奖励函数数学模型，其中总奖励值分别由碰撞概率奖励值r_p、能量损耗奖励值r_c、步长奖励值r_s、终端条件奖励值r_t组成；

折扣因子设置为0.95；

502、采用近端策略优化算法对航天器避撞模型进行训练建立航天器避撞自主决策训练系统；其中：

所述航天器避撞自主决策训练系统包括Critic网络和Actor网络组成；所述Actor网络用于输出航天器的机动值，所述Critic网络用于评价当前状态的好坏程度；所述Actor网络和所述Critic网络不断的与前四个步骤组成的仿真环境互动，收集经验样本，通过经验样本进一步的训练更新Actor网络和Critic网络参数；

所述航天器避撞自主决策训练系统在训练初期首先初始化Actor网络和Critic网络参数，初始化经验池空间，其中经验池的每组数据D_t＝{s_t,s_t+1,a_t,r_t}为当前状态s_t，新状态s_t+1，当前机动值a_t以及当前奖励值r_t；

对初始化航天器与空间碎片的状态s₀，并将该状态输入给Actor网络和Critic网络；Actor网络根据输入状态输出机动值a₀，Critic网络根据输入状态输出评价值；

所述航天器避撞自主决策训练系统将Actor网络输出的机动值带入碰撞概率数学模型到中得到新的状态，并且通过步骤四的奖励函数数学模型得到该机动值的回报值r₀；

经验池存储上述数据；

所述航天器避撞自主决策训练系统进一步判断新状态是否到达终端状态，即发生碰撞、能量耗尽、仿真回合结束这三种状态；如果未到达终端状态，则Actor网络与Critic网络继续与环境做互动；如果达到终端状态，则需要重新初始化航天器与空间碎片的状态。

所述航天器避撞自主决策训练系统判断经验池的数量，如果达到经验池的数量，则通过算法更新Actor网络与Critic网络，否则系统继续收集数据。

在训练时，根据近端策略优化算法算法对Actor和Critic网络进行更新；

对更新过Actor和Critic网络之后清空经验池；

系统判断是否到达最大训练回合，如果到达则停止训练，否则继续训练。

进一步，所述Actor和Critic网络均采用全连接神经网络模型：

所述Critic网络，设计一个全连接神经网络，输入层的节点数等于状态集的变量数，即输入变量为二十六个状态变量；输出层的节点数为一个评价值，该评价值用来评判当前状态的好坏。隐含层的层数与节点数可自行定义，此处设计三层隐含层，每层节点数依次为256、128、128，采用ReLU函数作为网络的激活函数，使用Adam优化器训练神经网络；

所述Actor网络，设计一个全连接神经网络，网络输入变量为二十六个状态变量，具有两个隐藏层，隐藏层节点分别为256和128，输出为三个方向的脉冲机动均值和标准差，对其进行概率采样可得到实际脉冲机动值，采用ReLU函数作为网络的激活函数，使用Adam优化器训练神经网络。

本发明的有益效果是：

本发明解决了现有航天器空间碎片规避问题计算效率低、无法自主规避等问题。本发明的目的在于提供一种能够离线训练并且在线决策的避撞方法，主要通过构建航天器与空间碎片轨道动力学模型、设计碰撞概率计算模块、生成空间碎片仿真参数等步骤实现离线训练，使用神经网络实现在线决策。该方法对航天器计算资源使用较少，有效降低规避决策时间，具备实时决策能力，提升了航天器对多空间碎片的规避成功率与能源利用效率。

附图说明

图1是碰撞概率计算流程图。

图2是航天器避撞自主决策训练流程图。

图3是航天器避撞自主决策系统训练结果图。

图4是仿真案例机动结果图。

图5是仿真案例脱靶距离变化结果图。

图6是仿真案例碰撞概率变化结果图。

图7是百次仿真机动增量和奖励值关系图。

具体实施方式

下面结合附图对本发明实施例做进一步的说明。

具体实施方式一：本发明提供了一种基于近端策略优化的航天器多空间碎片避撞自主决策方法，包括以下步骤：

步骤一：构建航天器与空间碎片轨道动力学模型；

步骤二：设计碰撞概率计算模块；

步骤三：基于碰撞时间的空间碎片仿真参数生成；

步骤四：基于碰撞概率与能量损耗的奖励函数设计；

步骤六：将步骤一、步骤二、步骤三和步骤四中所建立的模型应用在步骤五系统中，离线训练航天器避撞自主决策模型；

步骤七：将步骤六中训练好的航天器避撞自主决策模型应用于在线航天器多个空间碎片避撞场景中，得到成功的自主规避的优化机动轨迹。

本发明主要分为两个阶段：离线训练和在线决策。通过动力学模型生成大量不同的仿真数据离线训练近端策略优化算法，最终得到训练好的神经网络模型。利用训练好的神经网络模型即可实现在线实施自主规避决策，有效提高避撞成功率。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一构建航天器与空间碎片轨道动力学模型，其具体过程为：

首先，本方法基于J2000地心惯性坐标系建立了航天器、空间碎片轨道动力学方程，该方法可以直接使用空间位置和速度来描述空间物体在轨状态，可以更为直观和简便的在自学习系统中进行运算，进而提高系统的解算速度。在地心惯性坐标系下，航天器的空间动力学模型为：

其中，r是航天器空间位置矢量；μ为地球引力常数，其值为3.986×10⁵km³/s²；f_t为发动机推力加速度矢量，本发明中采用脉冲机动方式，机动总量设置为F_max；f_p是作用在航天器上的J2摄动加速度矢量，具体表达式为：

其中，x，y，z分别为航天器位置矢量沿J2000坐标系坐标轴的分量，f_px，f_pz，f_pz为摄动加速度沿三维坐标轴的分量，

R_e为地球半径，其值为6378.137km，J2＝1.08262668×10^-3。

由于航天器附近的空间碎片轨道高度与航天器的轨道高度近似，因此空间碎片的轨道运动学方程与航天器轨道动力学方程一致。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述步骤二设计碰撞概率计算模块，其具体过程为：

针对卫星碰撞风险评估问题，目前受到广泛认可的是通过碰撞概率估计的方式对卫星与空间目标的碰撞风险进行评估分析。则三维高斯概率密度函数表达式为：

其中，t_TCA为两个空间物体最接近时刻，C_rr(t_TCA)为两者联合位置误差协方差，S(t_TCA)为两者的相对位置。则将该式在联合包络球所经过的空间区域进行积分，可以得到相遇时刻的碰撞概率为：

针对上式的积分运算耗时较大问题，考虑到空间物体相对速度较大，因此可以将空间物体视为线性的相对运动，则基于此假设可以将计算碰撞概率的问题转化为计算二维概率密度函数在圆域内的积分问题，碰撞概率计算公式可以简化为：

根据前人的工作，上式可以取无穷级数首项作为概率积分的近似，具体表达式为：

以上即为碰撞概率的计算公式，则以碰撞概率做为碰撞预警的流程图如图1所示。

在每个时间步长中，系统首先获取当前时刻的航天器和空间碎片在地心坐标系下的位置和速度，然后根据轨道动力学方程向前传播得到航天器与空间碎片最接近时刻(TCA)以及在最接进时刻的位置和速度，然后将其转换为在相对坐标系(NTW)下得到相对位置和相对速度，并计算两者的联合位置误差协方差，最后根据式(6)计算出在最接近时刻的碰撞概率。

根据已有的研究成果，航天器的碰撞规避阈值通常分为三种情况：当碰撞概率达到10^-4时为危险概率阈值，此时航天器必须要做出相应的规避机动；当碰撞概率达到10^-5时为临近危险概率阈值，此时需要进行碰撞预警，并对危险目标做进一步的追踪和分析；当实施规避机机动策略后，需要使得航天器与空间碎片在最接近时刻的碰撞概率小于10^-7。本方法将10^-4作为危险碰撞概率阈值，当计算出的碰撞概率超过该阈值时表明需要做规避机动。

具体实施方式四：本实施方式与具体实施方式三不同的是：所述步骤三基于碰撞时间的空间碎片仿真参数生成，其具体过程为：

本方法采用强化学习作为规避机动的优化工具，因此需要对强化学习算法做离线训练。为了能够生成大量的仿真场景，本部分设计了相应的空间碎片参数生成方法。

本方法在训练时航天器的轨道参数固定，其余三个空间碎片在每个训练回合随机生成。在初始时刻，得到航天器的状态，并对其进行一定时间的轨道传播，系统随机选择一个时间作为碰撞时间t_c，然后根据t_c时刻航天器的位置R_s和速度V_s，加入一定的随机扰动R_ε和V_ε。在此基础上，随机生成一个轨道倾角

得到空间碎片的位置R′_d和速度V_d′，最后将空间碎片向前传播t_c秒后得到空间碎片的初始位置和速度R_d和速度V_d。

基于这种方式可以在每个训练回合生成不同的空间碎片，一方面保证了训练样本的多样性，另一方面也提高了强化学习的适用性。相对于传统的寻优算法，通过基于数据训练的强化学习能够具有更好的泛化性能。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述步骤四基于碰撞概率与能量损耗的奖励函数设计，其具体过程为：

作为航天器避撞问题，首先要解决的就是成功规避空间碎片，以保证航天器的正常在轨服务。其次就是要在成功规避的前提下尽量减小能量损耗(即减少速度增量)，则将碰撞概率和能量消耗作为两个优化指标，对其进行奖励函数设计，具体设计结果如下：

上述定义的奖励函数充分考虑了规避任务和能量优化指标，同时便于强化学习算法的学习。其中，为了让智能体学会规避空间碎片，设置了r_p奖励值。当P_sum>10^-4时，r_p为负奖励；当P_sum<10^-4时，r_p为正奖励以此来鼓励智能体向正确规避空间碎片的方向学习。在规避空间碎片的同时，也需要优化能量损耗，因此设置r_c奖励值，其中包含了累计能量损耗和单次机动损耗。当P_sum>10^-4时，r_c整体负奖励值整体较小，鼓励智能体大胆的去规避机动，但是当P_sum<10^-4时，智能体不应该再做额外的机动动作，以此减小能量损耗，因此在这种情况下r_c将获得较大的负奖励。同时为了鼓励智能体向仿真终端时刻运行，特地设置时间步长奖励r_s，随着智能体运行时间越长获得奖励越大。r_t为系统终端条件奖励值，当航天器与空间碎片发生碰撞或者能量耗尽时判断该回合结束，给予负奖励；当航天器成功规避并运行到仿真终端时刻时给予较大的正奖励。

具体实施方式六：本实施方式与具体实施方式五不同的是：所述步骤五基于强化学习理论建立航天器避撞自主决策训练系统，其具体过程为：

强化学习领域最具代表性的为行动者评论家(Actor-Critic)算法架构。其核心是通过“行动者”产生动作策略，然后通过“评论家”对当前策略进行评价，指导动作策略的调整。该框架衍生出包含置信域策略优化算法(TRPO)、近端策略优化算法(PPO)、深度确定性策略梯度算法(DDPG)等在内的众多算法。其中PPO算法以其易于实现，性能较优等优点脱颖而出，因此本方法采用PPO作为航天器避撞算法。

航天器避撞自主决策训练系统的目的是在当前状态下选择最优动作，通过连续决策使得航天器能够以最佳状态成功规避空间碎片，这个过程满足随机序贯决策特征。

将航天器避撞决策过程建模为马尔科夫决策过程模型，该马尔科夫决策过程模型包括：状态集、动作集、状态转移方程、奖励函数和折扣因子；

其中，所述状态集由二十六个变量组成，包括一个航天器与三个空间碎片通过所述航天器的空间动力学模型生成在地心坐标系下的相对三维位置坐标和三维速度值、航天器的剩余燃料值；通过所述碰撞概率数学模型得到的航天器与三个空间碎片在最接近时刻的相对距离、碰撞概率和总碰撞概率；

动作集由三个变量组成，包括航天器在地心坐标系下的x方向脉冲机动值、y方向脉冲机动值、z方向脉冲机动值。采用

计算单次机动三个方向的总机动损耗值。

状态转移方程采用轨道动力学方程(1)，即当输入一个动作后，状态会以100％的概率按照轨道动力学方程转移到下一状态。

奖励函数即为步骤四设计的奖励函数，其中总奖励值分别由碰撞概率奖励值r_p、能量损耗奖励值r_c、步长奖励值r_s、终端条件奖励值r_t组成。

折扣因子设置为0.95。

通过以上五个内容即可构成训练系统的整个决策更新过程。

航天器避撞自主决策训练系统使用PPO算法作为训练算法，其由一个Critic网络和一个Actor网络组成。Actor网络用于输出航天器的机动值，Critic网络用于评价当前状态的好坏程度。Actor网络和Critic网络不断的与前四个步骤组成的仿真环境互动，收集经验样本，通过经验样本进一步的训练更新Actor网络和Critic网络参数。

航天器避撞自主决策训练系统流程图如图2所示，在训练初期首先初始化Actor网络和Critic网络参数，初始化经验池空间，其中经验池的每组数据D_t＝{s_t,s_t+1,a_t,r_t}为当前状态s_t，新状态s_t+1，当前机动值a_t以及当前奖励值r_t；

在每个仿真回合中首先初始化航天器与空间碎片的状态s₀，并将该状态输入给Actor网络和Critic网络。Actor网络根据输入状态输出机动值a₀，Critic网络根据输入状态输出评价值；

系统将Actor网络输出的机动值带入到轨道动力学方程中得到新的状态，并且通过步骤四的奖励函数得到该机动值的回报值r₀；

将该组数据存储到经验池；

系统进一步判断新状态是否到达终端状态，即发生碰撞、能量耗尽、仿真回合结束这三种状态。如果未到达终端状态，则Actor网络与Critic网络继续与环境做互动；如果达到终端状态，则需要重新初始化航天器与空间碎片的状态。

系统判断经验池的数量，如果达到经验池的数量，则通过PPO算法更新Actor网络与Critic网络，否则系统继续收集数据。

因为自主决策训练系统的训练目标是：得到最大的总期望收益J(θ)和最小的期望误差L(θ)对应的Actor网络参数。其中，参数θ为Actor网络逼近的策略函数，期望误差用于更新Critic网络参数。则PPO算法更新Actor网络与Critic网络的方式具体如下：

本方法定义Actor网络损失函数为L_actor(θ)，其具体表达式为：

其中，

为新旧策略的概率比值，π_θ(a_t∣s_t)是以参数θ表示的在状态s_t条件下选择动作a_t的概率；

是以参数θ_old表示的在状态s_t条件下选择动作a_t的概率，θ_old为θ的历史值，在经过一定步数的训练后将θ的数值传递给θ_old。

为优势函数，其表征当前动作a_t相较于策略π_θ的优势。

L_critic(θ)表示状态s_t对应的真实价值函数与估计值的差值，用于更新Critic网络参数。由于s_t对应的价值函数V_π(s_t)未知，一般采用神经网络对其估计，其可以表示为神经网络权值参数θ的函数，即

对于某一条轨迹，状态s_t处的真实价值函数可由下式估算得到：

则价值函数的损失函数可表示为：

则最大总期望收益J(θ)和最小期望误差L(θ)表示为：

以上则为更新Actor和Critic网络损失函数的相应推导。在训练时，利用梯度下降法对Actor和Critic网络进行更新；

在更新过Actor和Critic网络之后清空经验池；

具体实施方式七：本实施方式与具体实施方式六不同的是：所述Actor网络和Critic网络均采用全连接神经网络模型：

针对Critic网络，设计一个全连接神经网络，输入层的节点数等于状态集的变量数，即输入变量为二十六个状态变量；输出层的节点数为一个评价值，该评价值用来评判当前状态的好坏。隐含层的层数与节点数可自行定义，此处设计三层隐含层，每层节点数依次为256、128、128，采用ReLU函数作为网络的激活函数，使用Adam优化器训练神经网络。

针对Actor网络，设计一个全连接神经网络，网络输入变量为二十六个状态变量，具有两个隐藏层，隐藏层节点分别为256和128，输出为三个方向的脉冲机动均值和标准差，对其进行概率采样可得到实际脉冲机动值，采用ReLU函数作为网络的激活函数，使用Adam优化器训练神经网络。

为方便描述步骤六训练过程，设计如下仿真场景：

本仿真场景考虑三个空间碎片的避撞问题，在初始时刻，航天器的轨道参数设定为[6868.76,-1801.98,-3153.79,0.20,7.62,0.13](位置km，速度km/s)；根据步骤四，可以通过设定碰撞时间来生成空间碎片的轨道参数，于是设定生成三个空间碎片的相关参数如表1所示：

表1空间碎片生成相关参数范围

编号	碰撞时间	轨道倾角
			空间碎片1	6500s～6600s	35°～55°
空间碎片2	7000s～7100s	50°～70°
			空间碎片3	7500s～7600s	260°～280°

除此之外，设定位置R_s和速度V_s加入的标准差分别为0.00005和0.00001。

设定航天器半径为100m，三个空间碎片半径为0.1m；设定航天器每回合最大机动增量为1m/s，单次机动单个方向最大机动增量为0.03m/s；设定航天器和空间碎片在x轴、y轴和z轴上的位置不确定性协方差为[200,200,200,300,300,300](单位m)。运动学仿真步长设置为200s，每回合仿真周期为9000s。强化学习算法训练超参数如表2所示：

表2强化学习算法超参数设定

采用以下实施例验证本发明的有益效果：

实施例一：

1)实验环境

采用步骤五中描述的仿真实验环境

2)实验结果分析

通过本发明步骤六训练得到如图3所示的平均回报曲线，由图3中可以看出，本发明所提出的训练算法在2000回合附近开始收敛；

为了直观展示训练结果，选定一个仿真案例，其中空间碎片1轨道参数设定为[5456.76,883.44,-4080.35,1.36,6.90,3.01](位置km，速度km/s),空间碎片2轨道参数设定为[3458.48,288.65,-5930.48,0.36,7.58,0.58],空间碎片3轨道参数设定为[1486.74,-2978.73,-6015.82,-3.09,5.90,3.67]。由图4可以看出，航天器主要做了四次机动即可成功规避三个空间碎片，总机动增量为0.2245m/s。图4和图5显示了航天器机动后的脱靶距离和碰撞概率的变化情况，在四次机动后，碰撞概率均降到10^-7，同时仿真机动决策时间为1.2s，证明了本发明的有效性和快速性。

为验证算法鲁棒性，取训练好的网络进行100次规避机动仿真，得到如图7所示百次仿真测试规避机动增量和奖励值的散点图。从散点图可以看出，本发明所述方法最终规避成功率为100％，百次仿真测试机动增量均值为0.2186m/s，说明本算法具有较好的鲁棒性，能够大幅度提高航天器的避撞能力。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。