CN113311851B

CN113311851B - 航天器追逃智能轨道控制方法、装置和存储介质

Info

Publication number: CN113311851B
Application number: CN202110450195.XA
Authority: CN
Inventors: 黄煌; 刘磊; 魏春岭; 石恒; 黄盘兴; 李栋
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2023-06-16
Anticipated expiration: 2041-04-25
Also published as: CN113311851A

Abstract

本发明实施例提供一种航天器追逃智能轨道控制方法，包括：从预先建立的追逐航天器和被追逐航天器的运动轨迹的运动学模型中获取t0时刻所述追逐航天器和被追逐航天器的观测量；将所述追逐航天器和被追逐航天器的观测量分别输入各自训练效果收敛的动作网络中计算t0时刻所述追逐航天器和被追逐航天器的速度增量；根据t0时刻所述追逐航天器和被追逐航天器的速度增量对追逐航天器和被追逐航天器进行轨道控制，获取t0+T时刻所述追逐航天器和被追逐航天器的观测量，根据观测量判断按照所述t0时刻的速度增量进行轨道控制后所述追逐航天器和被追逐航天器之间是否追逃成功。利用本发明实施例提供的技术方案可以实现航天器之间的准确追逃控制。

Description

航天器追逃智能轨道控制方法、装置和存储介质

技术领域

本发明涉及航天器控制技术领域，特别涉及一种航天器追逃智能轨道控制方法、装置和存储介质。

背景技术

空间态势感知任务需要利用多个不同类别、位于不同轨道的航天器进行大范围空域的协同观测。对于存在博弈关系的多个航天器，如何实现航天器之间的追逃控制是目前面临的一大挑战。

发明内容

鉴于上述技术问题，本发明实施例提供一种航天器追逃智能轨道控制方法、装置和存储介质，以实现航天器之间的准确追逃控制。

本发明实施例提供一种航天器追逃智能轨道控制方法，包括：

从预先建立的追逐航天器和被追逐航天器的运动轨迹的运动学模型中获取t0时刻所述追逐航天器和被追逐航天器的观测量，所述观测量包括：所述追逐航天器和被追逐航天器的位置信息和速度信息，所述运动轨迹的运动学模型是根据开普勒轨道动力学方法在仿真环境中建立的；

将所述追逐航天器和被追逐航天器的观测量分别输入各自训练效果收敛的动作网络中计算t0时刻所述追逐航天器和被追逐航天器的速度增量；

当自身航天器为所述追逐航天器时，根据所述追逐航天器的速度增量对所述追逐航天器进行轨道控制，根据所述被追逐航天器的速度增量在所述仿真环境中对所述被追逐航天器进行轨道控制；当自身航天器为所述被追逐航天器时，根据所述追逐航天器的速度增量在所述仿真环境中对所述追逐航天器进行轨道控制，根据所述被追逐航天器的速度增量对所述被追逐航天器进行轨道控制；

获取t0+T时刻所述追逐航天器和被追逐航天器的观测量，根据观测量判断按照所述t0时刻的速度增量进行轨道控制后所述追逐航天器和被追逐航天器之间是否追逃成功。

本发明实施例提供一种航天器追逃智能轨道控制装置，包括：

观测量获取模块，用于从预先建立的追逐航天器和被追逐航天器的运动轨迹的运动学模型中获取t0时刻所述追逐航天器和被追逐航天器的观测量，所述观测量包括：所述追逐航天器和被追逐航天器的位置信息和速度信息，所述运动轨迹的运动学模型是根据开普勒轨道动力学方法在仿真环境中建立的；

速度增量获取模块，用于将所述追逐航天器和被追逐航天器的观测量分别输入各自训练效果收敛的动作网络中计算t0时刻所述追逐航天器和被追逐航天器的速度增量；

轨道控制模块，用于当自身航天器为所述追逐航天器时，根据所述追逐航天器的速度增量对所述追逐航天器进行轨道控制，根据所述被追逐航天器的速度增量在所述仿真环境中对所述被追逐航天器进行轨道控制；当自身航天器为所述被追逐航天器时，根据所述追逐航天器的速度增量在所述仿真环境中对所述追逐航天器进行轨道控制，根据所述被追逐航天器的速度增量对所述被追逐航天器进行轨道控制；

追逃结果判断模块，用于获取t0+T时刻所述追逐航天器和被追逐航天器的观测量，根据观测量判断按照所述t0时刻的速度增量进行轨道控制后所述追逐航天器和被追逐航天器之间是否追逃成功。

本发明实施例提供一种非易失性存储介质，该非易失性存储介质包括：软件程序，当该软件程序被执行时执行上述方法。

在本发明实施例中，通过获取t0时刻追逐航天器和被追逐航天器的速度增量，根据上述速度增量分别对自身航天器(为所述追逐航天器或被追逐航天器)进行在轨的轨道控制，对对方航天器(当自身航天器为追逐航天器时，对方航天器为被追逐航天器，反之亦然)在所述仿真环境中进行轨道控制。在一个控制周期T之后，即t0+T时刻获取追逐航天器和被追逐航天器的观测量，根据该观测量判断追逐航天器和被追逐航天器之间是否追逃成功。在现有的追逃技术中，在轨航天器需要多次和地面指挥控制系统进行通信，接收并根据来自地面指控控制系统的指令进行轨道控制，所以现有技术的追逃方案有较大时延，进而导致不能实现准确追逃。利用本发明的技术方案，可以实现在轨追逃学习和控制，因此响应及时，能够实现准确追逃。

附图说明

图1为本发明实施例提供的一种航天器追逃智能轨道控制方法的流程示意图；

图2为本发明实施例提供的一种航天器追逃智能轨道控制装置的结构示意图；

图3为利用上述训练方法得到的训练效果收敛的动作网络输出的图形；

图4为第2000次训练后得到的追逐航天器和被追逐航天器的位置曲线图；

图5为第29500次训练后得到的追逐航天器和被追逐航天器的位置曲线图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1为本发明实施例提供的一种航天器追逃智能轨道控制方法的流程示意图。如图1所示，该方法包括如下步骤：

步骤101，从预先建立的追逐航天器和被追逐航天器的运动轨迹的运动学模型中获取t0时刻所述追逐航天器和被追逐航天器的观测量，所述观测量包括：所述追逐航天器和被追逐航天器的位置信息和速度信息，所述运动轨迹的运动学模型是根据开普勒轨道动力学方法在仿真环境中建立的。

步骤102，将所述追逐航天器和被追逐航天器的观测量分别输入各自训练效果收敛的动作网络中计算t0时刻所述追逐航天器和被追逐航天器的速度增量。

步骤103，当自身航天器为所述追逐航天器时，根据所述追逐航天器的速度增量对所述追逐航天器进行轨道控制，根据所述被追逐航天器的速度增量在所述仿真环境中对所述被追逐航天器进行轨道控制；当自身航天器为所述被追逐航天器时，根据所述追逐航天器的速度增量在所述仿真环境中对所述追逐航天器进行轨道控制，根据所述被追逐航天器的速度增量对所述被追逐航天器进行轨道控制。

步骤104，获取t0+T时刻所述追逐航天器和被追逐航天器的观测量，根据观测量判断按照所述t0时刻的速度增量进行轨道控制后所述追逐航天器和被追逐航天器之间是否追逃成功。

在本发明实施例中，在自身航天器和对方航天器的在轨追逃博弈中，自身航天器可能为追逐航天器也可以为被追逐航天器。当自身航天器为追逐航天器时，对方航天器为被追逐航天器；当自身航天器为被追逐航天器时，对方航天器为追逐航天器。通过在仿真环境中根据开普勒轨道动力学方法建立的运动轨迹的运动学模型，可以获取追逐航天器和被追逐航天器的观测量，将两者的观测量输入各自训练效果收敛的动作网络可以计算第一个时刻，即t0时刻两者的速度增量。可以根据自身航天器的速度增量对自身航天器在轨的轨道进行控制。因为在实际空间环境中，虽然控制不了对方航天器的实际运行轨道，利用本发明技术方案，通过大量样本学习训练可以得到对方航天器的训练效果收敛的动作网络，通过该动作网络可以获取对方航天器的速度增量，在仿真环境中根据该速度增量对对方航天器进行轨道控制，进而能在各个时刻从仿真环境中获取对方航天器的在轨参数。在t0时刻对自身航天器和对方航天器进行轨道控制后，可以在两者运行了一个控制周期T后的t0+T时刻再次获取两者的观测量，根据两者的观测量判断两者之间是否追逐成功。利用本发明技术方案，可以在轨实时获取追逐航天器和被追逐航天器的观测量和速度增量，对自身航天器实行在轨实时控制，无需和地面通信，因此时延非常小，可以实现航天器之间的追逃控制。

在本发明一实施例中，判断按照所述t0时刻的速度增量进行轨道控制后所述追逐航天器和被追逐航天器之间是否追逃成功包括：当所述自身航天器为所述追逐航天器时，根据t0+T时刻输出的追逐航天器和被追逐航天器的位置信息，计算两个航天器之间的距离，当距离小于预设值时，则判定所述追逐航天器和被追逐航天器之间追逃成功；当所述自身航天器为所述被追逐航天器时，根据t0+T时刻输出的追逐航天器和被追逐航天器的位置信息，计算两个航天器之间的距离，当距离大于预设值时，则判定所述追逐航天器和被追逐航天器之间追逃成功。

在本发明一实施例中，该方法进一步包括：获取所述追逐航天器和被追逐航天器多个时刻的观测量、速度增量以及即时奖励函数；根据所述多个时刻中每个时刻所述追逐航天器和被追逐航天器对应的观测量、速度增量、即时奖励函数和MADDPG算法在所述仿真环境中分别对所述追逐航天器和被追逐航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络。本实施例提供一种航天器训练方法，通过获取多个时刻的信息，包括观测量、速度增量以及即时奖励函数等，即可对初始动作网络和初始评价网络进行训练，得到训练效果逐渐收敛的动作网络和评价网络。收敛的判断标准是动作网络和评价网络的权值更新量小于预设值，表示即使在输入新的时刻的信息的情况下，网络输出波动减小，输出趋于稳定。在本发明实施例中，判断权值更新量小于预设值的方法包括：连续获取初始动作网络和初始评价网络多个时刻的期望输出值和实际输出值，将每个时刻的期望输出值和实际输出值输入到代价函数，得到差值，当这多个时刻中的每个时刻对应的差值均小于预定值，则判定该权值更新量小于预设值。

在本发明一实施例中，上述确定所述追逐航天器和被追逐航天器的即时奖励函数的方法包括：

所述追逐航天器的即时奖励函数为：

所述被追逐航天器的即时奖励函数具体为：

其中，p_ax和p_ay分别表示追逐航天器在x和y方向的位置信息，p_bx和p_by分别表示被追逐航天器在x和y方向的位置信息。

在本发明一实施例中，对所述追逐航天器和被追逐航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络包括：

步骤1：在所述仿真环境中对所述追逐航天器、被追逐航天器的初始轨道参数进行初始化，所述追逐航天器和被追逐航天器处于同一轨道面内；

步骤2：初始化所述追逐航天器和被追逐航天器的初始动作网络和初始评价网络；

步骤3：从gym仿真环境中获取t1时刻所述两个航天器的观测量，进行归一化处理后，输入到各自的初始动作网络中，得到t1时刻每个航天器在二维平面内的速度增量；

步骤4：在所述gym仿真环境中分别执行所述两个航天器的速度增量，对所述两个航天器进行轨道控制；

步骤5：从所述gym仿真环境中分别获取t1+T时刻所述两个航天器的观测量，确定两个航天器t1+T时刻的即时奖励函数；

步骤6：生成一条训练样本并存入样本库，所述训练样本包括：t1时刻所述追逐航天器和被追逐航天器的观测量、速度增量，t1+T时刻所述两个航天器的即时奖励函数和观测量；

步骤7：重复执行步骤3至步骤6，直至样本库中的样本的数量达到预设值；

步骤8：对所述追逐航天器和被追逐航天器的初始动作网络及初始评价网络进行训练；

步骤9：重复步骤7-8直至达到指定训练次数；

步骤10：返回步骤1，对所述初始轨道参数加入随机扰动，并重新开始所述两个航天器的动作网络及评价网络的训练，直至得到训练效果收敛的所述动作网络及评价网络。

在本发明一实施例中，所述MADDPG算法的超参数包括：预设的学习率、长期回报折扣因子、每次训练次数、批学习的数据量，对所述追逐航天器和被追逐航天器的初始动作网络及初始评价网络进行训练包括：

针对追逐航天器和被追逐航天器，从所述样本库中随机抽取n个训练样本；

将所述n个训练样本中的每个训练样本输入各自的初始评价网络，根据所述各自的初始评价网络的输出以及各自的即时奖励值，以及长期回报折扣因子，计算所述追逐航天器和被追逐航天器的每条训练样本所对应的长期奖励值；

以所述各自的长期奖励值为期望输出，按照预设的每次训练次数、批学习的数据量，分别对所述追逐航天器和被追逐航天器的初始评价网络进行训练，得到所述追逐航天器和被追逐航天器的第一评价网络，确定所述第一评价网络的权值；

根据所述各自的第一评价网络的权值和预设的学习率，对所述各自的初始动作网络的权值进行更新，返回从所述样本库中随机抽取n个训练样本的操作，直至利用所述追逐航天器和被追逐航天器的样本库中的样本分别完成所述追逐航天器和被追逐航天器的动作网络和评价网络的训练得到所述训练效果收敛的所述动作网络和评价网络。

在本实施例及上一实施例中，获取大量训练样本，例如几千次，甚至几万次训练的训练样本。训练样本包括：t1时刻所述追逐航天器和被追逐航天器的观测量、速度增量，t1+T时刻所述两个航天器的即时奖励函数和观测量。通过获取并利用大量训练样本对追逐航天器和被追逐航天器的动作网络及评价网络进行训练，因此可以使用最终训练得到的动作网络及评价网络学习到各种轨迹路径上的观测量和速度增量，得到训练效果收敛的动作网络及评价网络，通过该网络输出的速度增量和评价结果可以准确反映追逐航天器和被追逐航天器的实际在轨的运行参数。进而，利用准确的在轨运行参数可以实现航天器之间的成功追逃。

图2为本发明实施例提供的一种航天器追逃智能轨道控制装置的结构示意图。如图2所示，该装置包括：观测量获取模块201、速度增量获取模块202、轨道控制模块203和追逃结果判断模块204。

观测量获取模块201，用于从预先建立的追逐航天器和被追逐航天器的运动轨迹的运动学模型中获取t0时刻所述追逐航天器和被追逐航天器的观测量，所述观测量包括：所述追逐航天器和被追逐航天器的位置信息和速度信息，所述运动轨迹的运动学模型是根据开普勒轨道动力学方法在仿真环境中建立的；

速度增量获取模块202，用于将所述追逐航天器和被追逐航天器的观测量分别输入各自训练效果收敛的动作网络中计算t0时刻所述追逐航天器和被追逐航天器的速度增量；

轨道控制模块203，用于当自身航天器为所述追逐航天器时，根据所述追逐航天器的速度增量对所述追逐航天器进行轨道控制，根据所述被追逐航天器的速度增量在所述仿真环境中对所述被追逐航天器进行轨道控制；当自身航天器为所述被追逐航天器时，根据所述追逐航天器的速度增量在所述仿真环境中对所述追逐航天器进行轨道控制，根据所述被追逐航天器的速度增量对所述被追逐航天器进行轨道控制；

追逃结果判断模块204，用于获取t0+T时刻所述追逐航天器和被追逐航天器的观测量，根据观测量判断按照所述t0时刻的速度增量进行轨道控制后所述追逐航天器和被追逐航天器之间是否追逃成功。

在本发明一实施例中，该追逃结果判断模块204，进一步用于

当所述自身航天器为所述追逐航天器时，根据t0+T时刻输出的追逐航天器和被追逐航天器的位置信息，计算两个航天器之间的距离，当所述距离小于预设值时，则判定所述追逐航天器和被追逐航天器之间追逃成功；

当所述自身航天器为所述被追逐航天器时，根据t0+T时刻输出的追逐航天器和被追逐航天器的位置信息，计算两个航天器之间的距离，当所述距离大于预设值时，则判定所述追逐航天器和被追逐航天器之间追逃成功。

在本发明一实施例中，该装置进一步包括：网络训练模块205，用于获取所述追逐航天器和被追逐航天器多个时刻的观测量、速度增量以及即时奖励函数，根据所述多个时刻中每个时刻所述追逐航天器和被追逐航天器对应的观测量、速度增量、即时奖励函数和MADDPG算法在所述仿真环境中分别对所述追逐航天器和被追逐航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络。

在本发明一实施例中，该网络训练模块205进一步用于确定所述追逐航天器的即时奖励函数为：

确定所述被追逐航天器的即时奖励函数具体为：

在本发明一实施例中，所述网络训练模块205，进一步用于执行

步骤9：重复步骤7-8直至达到指定训练次数；

在本发明一实施例中，所述网络训练模块205，进一步用于

本发明另一实施例提供一种航天器追逃智能轨道控制方法，为每一个航天器分别设计一个动作网络和一个评价网络，在训练过程中能够获取所有航天器的观测信息，以实现对动态环境的建模，动作网络则仅仅根据自身航天器和邻居航天器(对方航天器)的观测信息，给出轨道的速度增量，通过反复试错的动作-评价学习训练，在没有任何先验知识和人为干预的情况下，自身航天器最终学会了对另一个非合作航天器，即对方航天器的追逐的目标或者逃离对方航天器的追逐，能够直接基于目标观测量生成变轨策略，通过数据特征提取的方式建立环境模型，对动态变化的空间环境有很好的适应能力。

多航天器追逃控制方法具体步骤为：

(1)于二维平面内，根据kepler轨道动力学建立多个目标航天器的运动学模型，并于gym仿真环境中建立场景以实现可视化；

目标航天器包括追逐航天器、被追逐航天器，追逐航天器的观测量包括自身位置、速度、被追逐航天器位置、速度；

控制量包括2维平面内速度增量；

被追逐航天器的观测量包括自身位置、速度、追逐航天器位置；

控制量包括2维平面内速度增量；

(2)对多个目标航天器分别设计观测量及控制量；

(3)设置多个目标航天器的奖励函数；

追逐航天器的奖励函数具体为：

式中，

为追逐航天器位置，/>

为被追逐航天器位置，r_t为奖励函数值；

被追逐航天器的奖励函数具体为：

(4)设置各目标航天器的动作网络及评价网络，并设计MADDPG算法的超参数；

各目标航天器的动作网络及评价网络通过网络结构及激活函数设置，MADDPG算法的超参数包括学习率、长期回报折扣因子、每次训练次数、批学习的数据量；

(5)开始进行目标航天器训练，在训练过程中，将多个目标航天器的轨道参数及初始位置进行初始化以保证多个目标航天器位于同一平面内，并初始化各目标航天器的动作网络及评价网络；

(6)由gym仿真环境中获取多个目标航天器的观测量，进行归一化处理，并将处理所得数据输入至各目标航天器的动作网络中，获取各目标航天器的控制量；

(7)根据步骤(6)所得控制量于gym仿真环境中对各目标航天器进行轨道控制；

(8)一个控制周期结束后，由gym仿真环境中再次获取多个目标航天器的观测量，根据对应的奖励函数计算即时奖励；

(9)根据步骤(8)所得结果，生成一条训练样本并置于样本库中，包括轨道控制前后的观测量、控制量、即时奖励；

(10)重复步骤(5)—步骤(9)，直至样本库中样本数量达到指定数量；

(11)训练各目标航天器的动作网络、评价网络，由样本库中抽取n个样本，根据各样本存储数据中的即时奖励及评价网络输出，计算各样本中观测量对应的长期奖励值；

(12)根据步骤(11)所得长期奖励值作为期望输出，对各目标航天器的评价网络进行训练，以评价网络权值更新网络权值；

(13)重复步骤(11)—步骤(12)，直至评价网络收敛；

(14)完成训练，重新设置各目标航天器的轨道参数及初始位置，并验证追逃算法训练效果。

下面结合具体实施例进行进一步说明：

在本实施例中，追逃控制方法的具体流程如下：

在二维平面内，基于kepler轨道动力学建立多个目标航天器的运动学模型，并在gym中建立场景，并实现可视化；

为每个目标航天器设计观测量和控制量，追逐航天器的观测量包括：自身位置、速度、被追逐航天器位置、速度，控制量为2维平面内的速度增量；被追逐的航天器的观测量包括：自身位置、速度、追逐航天器的位置，控制量为2维平面内的速度增量；

为每个航天器设计即时奖励函数，具体为：

追逐航天器的奖励函数为：

被追逐航天器的奖励函数为：

为每个目标航天器设计动作网络和评价网络，包括网络结构、激活函数；

设计MADDPG算法的超参数，包括学习率、长期回报折扣因子、每次训练次数、批学习的数据量；

按照如下步骤训练每个目标航天器的动作网络和评价网络：

(1)初始化多个目标航天器的轨道参数，即轨道六根数和初始位置，多个目标航天器处于同一个轨道面内；

(2)初始化每个目标航天器的动作网络和评价网络；

(3)从gym仿真环境中获取多个目标航天器的观测量，进行归一化处理，输入到各自的航天器动作网络中，得到每个目标航天器的控制量，即速度增量；

(4)在gym仿真环境中执行该速度增量，对多个目标航天器进行轨道控制；

(5)一个控制周期结束后，从gym仿真环境中再次获取多个目标航天器的观测量，计算即时奖励；

(6)生成一条训练样本放入样本库中，该条样本包括上一步观测量、控制量、即时奖励、下一步观测量；

(7)重复上述步骤(3)到步骤(6)，直至样本库中的样本数量达到一定值；

(8)开始多个目标航天器各自动作网络和评价网络的训练。首先从样本库中随机抽取n个样本；

(9)根据样本中存储的数据的即时奖励值及评价网络输出，计算每一个样本中观测量对应的长期奖励值；

(10)以长期奖励值为期望输出，对每个目标航天器的评价网络进行训练；

(11)以评价网络权值更新动作网络权值；

(12)不断重复上述训练过程，直至网络收敛；

完成训练后，重新设置轨道参数和初始位置，验证追逃算法的训练效果。

以两个航天器为例，具体参数如下：

初始轨道六根数：[6378+440,0.00001,0.00001,0,0.01,0]

控制周期：1秒

最大速度增量：0.002

动作网络结构：2个隐层，每层64节点

评价网络结构：2个隐层，每层64节点

网络中间层激活函数：ReLU

网络输出层激活函数：ReLU

ReLU函数的表达式为：

y(x)＝max(0,x)+min(0,x)

式中，x为输出节点的输入；

y为输出节点的输出；

max(0,x)为取0和x中的较大值；

min(0,x)为取0和x中的较小值。

奖励函数：设卫星A与卫星B的相对距离为x，那么，相应的奖励值为

图3为利用上述训练方法得到的训练效果收敛的动作网络输出的图形。图4为第2000次训练后得到的追逐航天器和被追逐航天器的位置曲线图。图5为第29500次训练后得到的追逐航天器和被追逐航天器的位置曲线图。由图5可见，通过近3万次的训练后，实现了一个航天器对另一个航天器的稳定追逐。

本发明实施例提供一种非易失性存储介质，包括：软件程序，当所述软件程序被执行时执行上述图1所示的方法。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种航天器追逃智能轨道控制方法，其特征在于，包括：

获取t0+T时刻所述追逐航天器和被追逐航天器的观测量，根据观测量判断按照所述t0时刻的速度增量进行轨道控制后所述追逐航天器和被追逐航天器之间是否追逃成功；

判断按照所述t0时刻的速度增量进行轨道控制后所述追逐航天器和被追逐航天器之间是否追逃成功包括：

当所述自身航天器为所述追逐航天器时，根据t0+T时刻输出的追逐航天器和被追逐航天器的位置信息，计算两个航天器之间的距离，当距离小于预设值时，则判定所述追逐航天器和被追逐航天器之间追逃成功；

当所述自身航天器为所述被追逐航天器时，根据t0+T时刻输出的追逐航天器和被追逐航天器的位置信息，计算两个航天器之间的距离，当距离大于预设值时，则判定所述追逐航天器和被追逐航天器之间追逃成功；

获取所述追逐航天器和被追逐航天器多个时刻的观测量、速度增量以及即时奖励函数；

根据所述多个时刻中每个时刻所述追逐航天器和被追逐航天器对应的观测量、速度增量、即时奖励函数和MADDPG算法在所述仿真环境中分别对所述追逐航天器和被追逐航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络；

确定所述追逐航天器和被追逐航天器的即时奖励函数包括：

所述追逐航天器的即时奖励函数为：

所述被追逐航天器的即时奖励函数具体为：

2.根据权利要求1所述的方法，其特征在于，对所述追逐航天器和被追逐航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络包括：

步骤9：重复步骤7-8直至达到指定训练次数；

3.根据权利要求2所述的方法，其特征在于，所述MADDPG算法的超参数包括：预设的学习率、长期回报折扣因子、每次训练次数、批学习的数据量，对所述追逐航天器和被追逐航天器的初始动作网络及初始评价网络进行训练包括：

4.一种航天器追逃智能轨道控制装置，其特征在于，包括：

追逃结果判断模块，用于获取t0+T时刻所述追逐航天器和被追逐航天器的观测量，根据观测量判断按照所述t0时刻的速度增量进行轨道控制后所述追逐航天器和被追逐航天器之间是否追逃成功；

所述追逃结果判断模块，进一步用于：

当所述自身航天器为所述被追逐航天器时，根据t0+T时刻输出的追逐航天器和被追逐航天器的位置信息，计算两个航天器之间的距离，当所述距离大于预设值时，则判定所述追逐航天器和被追逐航天器之间追逃成功；

网络训练模块，用于获取所述追逐航天器和被追逐航天器多个时刻的观测量、速度增量以及即时奖励函数，根据所述多个时刻中每个时刻所述追逐航天器和被追逐航天器对应的观测量、速度增量、即时奖励函数和MADDPG算法在所述仿真环境中分别对所述追逐航天器和被追逐航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络；

所述网络训练模块进一步用于确定所述追逐航天器的即时奖励函数为：

确定所述被追逐航天器的即时奖励函数具体为：

5.根据权利要求4所述的装置，其特征在于，

所述网络训练模块，进一步用于执行

步骤9：重复步骤7-8直至达到指定训练次数；

6.根据权利要求5所述的装置，其特征在于，所述网络训练模块，进一步用于

7.一种非易失性存储介质，其特征在于，包括：软件程序，当所述软件程序被执行时执行上述权利要求1～3任一项所述的方法。