CN113353289B

CN113353289B - 面向空间博弈的自主驱离方法、装置和存储介质

Info

Publication number: CN113353289B
Application number: CN202110450161.0A
Authority: CN
Inventors: 黄煌; 刘磊; 魏春岭; 石恒; 黄盘兴; 范清春
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-12-13
Anticipated expiration: 2041-04-25
Also published as: CN113353289A

Abstract

本发明实施例提供一种面向空间博弈的策略梯度强化学习自主驱离策略，包括：选取一护卫星作为第一航天器和第二航天器的参照点，获取第二航天器的预定的水滴运动轨迹，在仿真环境中建立CW轨道相对运动学模型；获取t0时刻第一航天器和第二航天器的观测量，根据所述水滴运动轨迹获取所述第二航天器的速度增量；将t0时刻第一航天器的观测量输入训练效果收敛的动作网络计算t0时刻所述第一航天器的速度增量，进行轨道控制；计算t0+T时刻第一航天器观测量，根据所述t0时刻第二航天器的速度增量计算t0+T时刻第二航天器的观测量；根据t0+T时刻第一航天器和第二航天器的观测量计算距离并进行驱离判定。利用本发明实施例提供的技术方案可以实现航天器之间的准确驱离控制及判定。

Description

面向空间博弈的自主驱离方法、装置和存储介质

技术领域

本发明涉及航天器控制技术领域，特别涉及一种面向空间博弈的自主驱离方法、装置和存储介质。

背景技术

电子干扰是一种常见的太空博弈方式，干扰卫星通过变轨进入目标卫星下方一定范围内对其星地通信进行干扰。应对此类干扰的一种有效方式是逼近到干扰卫星附近，对其施加某种威慑。

发明内容

鉴于上述技术问题，本发明实施例提供一种面向空间博弈的自主驱离方法、装置和存储介质，以实现航天器之间的驱离判断及控制。

本发明实施例提供一种面向空间博弈的自主驱离方法，包括，

选取一护卫星作为第一航天器和第二航天器的参照点，获取第二航天器的预定的水滴运动轨迹，在仿真环境中建立CW轨道相对运动学模型，所述参照点为所述CW轨道相对运动学模型的坐标系的原点，所述CW轨道相对运动学模型用于描述所述第二航天器的水滴运动轨迹和所述第一航天器的运动轨迹；

从所述CW轨道相对运动学模型中获取t0时刻第一航天器和第二航天器的观测量，根据所述水滴运动轨迹获取所述第二航天器的速度增量，所述观测量包括，位置信息和速度信息；

将所述t0时刻第一航天器的观测量输入到训练效果收敛的动作网络计算t0时刻所述第一航天器的速度增量，根据所述速度增量对所述第一航天器的轨道进行控制，所述速度增量包括，所述CW轨道相对运动学模型x、y、z轴三个方向的速度增量；

根据t0时刻第一航天器的观测量和速度增量，利用CW方程计算t0+T时刻第一航天器观测量，根据所述t0时刻第二航天器的观测量和速度增量，利用所述CW方程获取t0+T时刻所述第二航天器的观测量，T为控制周期；

根据t0+T时刻所述第一航天器和第二航天器的观测量，计算t0+T时刻所述第一航天器和第二航天器之间的距离，当距离小于预定值时，判定成功驱离所述第二航天器。

本发明实施例提供一种面向空间博弈的自主驱离装置，包括，

运动学模型建立模块，用于选取一护卫星作为第一航天器和第二航天器的参照点，获取第二航天器的预定的水滴运动轨迹，在仿真环境中建立CW轨道相对运动学模型，所述参照点为所述CW轨道相对运动学模型的坐标系的原点，所述CW轨道相对运动学模型用于描述所述第二航天器的水滴运动轨迹和所述第一航天器的运动轨迹；

速度增量获取模块，用于从所述CW轨道相对运动学模型中获取t0时刻第一航天器和第二航天器的观测量，根据所述水滴运动轨迹获取所述第二航天器的速度增量，所述观测量包括：位置信息和速度信息；

轨道控制模块，用于将所述t0时刻第一航天器的观测量输入训练效果收敛的动作网络计算t0时刻所述第一航天器的速度增量，根据所述速度增量对所述第一航天器的轨道进行控制，所述速度增量包括，所述CW轨道相对运动学模型x、y、z轴三个方向的速度增量；

观测量获取模块，用于根据t0时刻第一航天器的观测量和速度增量，利用CW方程计算t0+T时刻第一航天器观测量，根据所述t0时刻第二航天器的观测量和速度增量，利用所述CW方程获取t0+T时刻所述第二航天器的观测量，T为控制周期；

驱离判断模块，根据t0+T时刻所述第一航天器和第二航天器的观测量，计算t0+T时刻所述第一航天器和第二航天器之间的距离，当距离小于预定值时，判定成功驱离所述第二航天器。

本发明实施例提供一种非易失性存储介质，该非易失性存储介质包括，软件程序，当该软件程序被执行时执行上述方法。

在本发明实施例中，于仿真环境中建立CW轨道相对运动学模型，通过获取第二航天器的预定水滴运动轨迹及速度增量，在运动学模型中获取t0时刻第一航天器和第二航天器的观测量，根据所得观测量输入训练效果收敛的动作网络计算第一航天器的速度增量并进行控制，计算一个控制周期T后第一航天器观测量及第二航天器的观测量，同时确定当前时刻第一、第二航天器的距离并进行驱离判定。在现有技术中，现有依靠地面解算再上注的运行模式，实时性差，并且同样可能受到进攻方卫星的电子干扰，不能实现成功驱离的准确判定。利用本发明的技术方案，可实现航天器间的驱离判断，实时性强。

附图说明

图1为发明提供的一种面向空间博弈的自主驱离方法的流程示意图；

图2为发明提供的一种面向空间博弈的自主驱离装置的结构示意图；

图3为发明提供的不同训练参数的收敛曲线示意图；

图4为发明提供的CW方程描述下第一航天器和第二航天器运动轨迹示意图；

图5为发明提供的第一航天器于CW轨道相对运动学模型坐标系内x、z方向速度增量示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1为本发明实施例提供的一种面向空间博弈的自主驱离方法的流程示意图。如图1所示，该方法包括如下步骤，

步骤101，选取一护卫星作为第一航天器和第二航天器的参照点，获取第二航天器的预定的水滴运动轨迹，在仿真环境中建立CW轨道相对运动学模型，所述参照点为所述CW轨道相对运动学模型的坐标系的原点，所述CW轨道相对运动学模型用于描述所述第二航天器的水滴运动轨迹和所述第一航天器的运动轨迹。

步骤102，从所述CW轨道相对运动学模型中获取t0时刻第一航天器和第二航天器的观测量，根据所述水滴运动轨迹获取所述第二航天器的速度增量，所述观测量包括：位置信息和速度信息。

步骤103，将所述t0时刻第一航天器的观测量输入到训练效果收敛的动作网络计算t0时刻所述第一航天器的速度增量，根据所述速度增量对所述第一航天器的轨道进行控制，所述速度增量包括，所述CW轨道相对运动学模型x、y、z轴三个方向的速度增量。

步骤104，根据t0时刻第一航天器的观测量和速度增量，利用CW方程计算t0+T时刻第一航天器观测量，根据所述t0时刻第二航天器的观测量和速度增量，利用所述CW方程获取t0+T时刻所述第二航天器的观测量，T为控制周期。

步骤105，根据t0+T时刻所述第一航天器和第二航天器的观测量，计算t0+T时刻所述第一航天器和第二航天器之间的距离，当距离小于预定值时，判定成功驱离所述第二航天器。

在本发明实施例中，以任意护卫星作为第一航天器和第二航天器参照点，获取第二航天器的预定的水滴运动轨迹，在仿真环境中建立CW轨道相对运动学模型，通过获取t0时刻第二航天器的观测量及速度增量，以及第一航天器的观测量及速度增量，计算一个控制周期后第一、第二航天器的距离与预定值进行判断，其中，第二航天器的速度增量通过观测量与CW方程获取，第一航天器速度增量通过观测量输入训练效果收敛的动作网络确定。利用本发明技术方案，可以在轨实时判断第一、第二航天器是否成功驱离，实时性更好。

在本发明一实施例中，判断t0+T时刻第一航天器是否成功驱离第二航天器包括，根据t0+T时刻一航天器和第二航天器之间的距离，当距离小于预定值时，判定成功驱离所述第二航天器。

在本发明一实施例中，该方法进一步包括，

在仿真环境中建立CW轨道相对运动学模型，CW轨道相对运动学模型用于描述所述第二航天器的水滴运动轨迹和所述第一航天器的运动轨迹，获取t0时刻第一航天器和第二航天器的观测量、第二航天器的速度增量、将t0时刻第一航天器的观测量输入训练效果收敛的动作网络计算t0时刻第一航天器的速度增量，根据t0时刻第一航天器的观测量和速度增量，利用CW方程计算t0+T时刻第一航天器观测量，根据t0时刻第二航天器的速度增量，利用所述CW方程获取t0+T时刻所述第二航天器的观测量，通过一个控制周期后的第一航天器和第二航天器的观测量，计算t0+T时刻第一航天器和第二航天器之间的距离，当距离小于预定值时，判定成功驱离所述第二航天器。

本实施例提供一种面向空间博弈的自主驱离方法，通过获取多个时刻的信息，包括航天器的观测量、速度增量、即时奖励函数，根据多个时刻中每个时刻对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数，在仿真环境中对第一航天器的初始动作网络和初始评价网络进行训练调整得到训练效果收敛的所述动作网络和评价网络，收敛的判断标准是网络的权值更新量小于预设值，表示即使在输入新的时刻的信息的情况下，网络输出波动减小，输出趋于稳定。所述超参数包括：学习率、长期回报折扣因子、每次训练次数和批学习数据量。在本发明实施例中，判断权值更新量小于预设值的方法包括：连续获取初始动作网络和初始评价网络多个时刻的期望输出值和实际输出值，将每个时刻的期望输出值和实际输出值输入到代价函数，得到差值，当这多个时刻中的每个时刻对应的差值均小于预定值，则判定该权值更新量小于预设值。

在本发明一实施例中，上述确定第一航天器的即时奖励函数的方法包括，

当第一航天器与第二航天器相对距离不大于3公里时，将即时奖励函数的值设定为固定值；

当第一航天器与第二航天器相对距离大于3公里时，即时奖励函数的值根据第一航天器与第二航天器之间的相对距离进行设置，具体为，

式中，x为第一航天器与第二航天器之间的相对距离；

在本发明一实施例中，根据所述多个时刻中每个时刻对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在所述仿真环境中对所述第一航天器的初始动作网络和初始评价网络进行训练调整得到训练效果收敛的所述动作网络和评价网络包括：

步骤1，对第一航天器、第二航天器在所述CW轨道相对运动学模型内的初始位置信息、速度信息、控制周期、轨道高度进行初始化；

步骤2，设定第二航天器由时间驱动的机动策略；

步骤3，初始化所述第一航天器的初始动作网络和初始评价网络，设置策略梯度强化学习算法的初始化超参数；

步骤4，启动CW轨道相对运动学模型解算及网络训练，读取所述t1时刻第一航天器的初始位置信息、初始速度信息，通过第一航天器初始位置信息和初始速度信息驱动所述第一航天器初始动作网络，获取所述初始动作网络输出的t1时刻的速度增量，根据所述水滴运动轨迹获取第二航天器t1时刻的速度增量，根据t1时刻第一航天器和第二航天器的初始位置信息、初始速度信息和速度增量通过CW轨道相对运动学模型解算t1+T时刻第一航天器、第二航天器的位置信息及速度信息；

步骤5，对步骤4所得的位置信息、速度信息和速度增量进行归一化处理，通过第一航天器的t1+T时刻即时奖励函数计算即时奖励值；

步骤6，生成训练样本，所述训练样本包括，t1时刻第一航天器与第二航天器的位置信息及速度信息、t1+T时刻第一航天器与第二航天器的位置信息及速度信息、t1时刻第一航天器与第二航天器的速度增量、t1+T时刻第一航天器的即时奖励值；

步骤7，重复步骤4至步骤6，直至生成多个预定时刻中每个时刻的训练样本，以使样本库中的训练样的数量达到预定值；

步骤8，对第一航天器的初始动作网络及初始评价网络进行训练；

步骤9，重复步骤8直至达到指定训练次数；

步骤10，返回步骤1，加入随机扰动，并重新开始第一航天器的动作网络及评价网络的训练，直至得到所述训练效果收敛的动作网络及评价网络。

在本发明一实施例中，根据所述多个时刻中每个时刻对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在所述仿真环境中对所述第一航天器的初始动作网络和初始评价网络进行训练调整得到训练效果收敛的所述动作网络和评价网络，所述超参数包括，学习率、长期回报折扣因子、每次训练次数、批学习数据量。

对第一航天器的初始动作网络及初始评价网络进行训练包括，

从所述样本库中随机抽取n个训练样本；

将所述n个训练样本中的每个样本包含的位置信息、速度信息、速度增量和即时奖励值输入所述初始评价网络，根据所述初始评价网络的输出、该条训练样本的即时奖励值以及长期回报折扣因子，计算该条训练样本所对应的长期奖励值；

以所述长期奖励值为期望输出，按照预设的每次训练次数、批学习的数据量，对所述第一航天器的初始评价网络进行训练得到第一评价网络，确定所述第一评价网络的权值；

根据所述第一评价网络的权值和所述学习率确定所述初始动作网络的权值更新量，根据所述权值更新量对所述动作网络进行更新，返回从所述样本库中随机抽取n个训练样本的操作，直至利用所述样本库中的样本完成所述动作网络和评价网络的训练得到训练效果收敛的所述动作网络和评价网络。

在本实施例及上一实施例中，获取大量训练样本，例如几千次，甚至几万次训练的训练样本。训练样本包括，t1时刻第一航天器与第二航天器的初始位置信息、初始速度信息、速度增量，t1+T时刻所述两个航天器的即时奖励函数和观测量。通过获取并利用大量训练样本对第一航天器动作网络及评价网络进行训练，使得最终训练得到的动作网络及评价网络学习到各种轨迹路径上的观测量和速度增量，得到训练效果收敛的动作网络及评价网络，通过该网络输出的速度增量和评价结果可以准确反映第一、第二航天器实际在轨的运行参数，准确判断是否成功驱离。

图2为本发明实施例提供的一种面向空间博弈的自主驱离装置的结构示意图。如图2所示，该装置包括：运动学模型建立模块201、速度增量获取模块202、轨道控制模块203、观测量获取模块204、驱离判断模块205。

运动学模型建立模块201，用于选取一护卫星作为第一航天器和第二航天器的参照点，获取第二航天器的预定的水滴运动轨迹，在仿真环境中建立CW轨道相对运动学模型，所述参照点为所述CW轨道相对运动学模型的坐标系的原点，所述CW轨道相对运动学模型用于描述所述第二航天器的水滴运动轨迹和所述第一航天器的运动轨迹；

速度增量获取模块202，用于从所述CW轨道相对运动学模型中获取t0时刻第一航天器和第二航天器的观测量，根据所述水滴运动轨迹获取所述第二航天器的速度增量，所述观测量包括，位置信息和速度信息；

轨道控制模块203，用于将所述t0时刻第一航天器的观测量输入训练效果收敛的动作网络计算t0时刻所述第一航天器的速度增量，根据所述速度增量对所述第一航天器的轨道进行控制，所述速度增量包括，所述CW轨道相对运动学模型x、y、z轴三个方向的速度增量；

观测量获取模块204，用于根据t0时刻第一航天器的观测量和速度增量，利用CW方程计算t0+T时刻第一航天器观测量，根据所述t0时刻第二航天器的观测量和速度增量，利用所述CW方程获取t0+T时刻所述第二航天器的观测量，T为控制周期；

驱离判断模块205，根据t0+T时刻所述第一航天器和第二航天器的观测量，计算t0+T时刻所述第一航天器和第二航天器之间的距离，当距离小于预定值时，判定成功驱离所述第二航天器。

在本发明一实施例中，该装置进一步包括，网络训练模块206，用于获取所述第一航天器及第二航天器多个时刻的观测量和速度增量；

根据所述多个时刻中每个时刻所述第一航天器和第二航天器之间的距离确定对应时刻所述第一航天器的即时奖励函数；

根据所述多个时刻中每个时刻对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在所述仿真环境中对所述第一航天器的初始动作网络和初始评价网络进行训练调整得到训练效果收敛的所述动作网络和评价网络，所述训练效果收敛的所述动作网络和评价网络的权值更新量小于预设值，所述超参数包括：学习率、长期回报折扣因子、每次训练次数和批学习数据量。

在本发明一实施例中，该网络训练模块206进一步用于在多个时刻中每个时刻第一航天器和第二航天器之间的距离确定对应时刻时，第一航天器的即时奖励函数为，

式中，x为第一航天器与第二航天器之间的相对距离。

在本发明一实施例中，所述网络训练模块206，进一步用于执行

步骤2，设定第二航天器由时间驱动的机动策略；

步骤9，重复步骤8直至达到指定训练次数；

在本发明一实施例中，所述网络训练模块206，进一步用于

从所述样本库中随机抽取n个训练样本；

本发明另一实施例提供一种航天器面向空间博弈的自主驱离方法，为第一航天器设计一个动作网络和一个评价网络，在训练过程中能够获取所有航天器的观测信息，以实现对动态环境的建模，动作网络则仅仅根据第一航天器、第二航天器的观测信息，给出轨道速度增量，通过反复试错的动作-评价学习训练，在没有任何先验知识和人为干预的情况下，使第一航天器最终学会了对第二航天器通过举例进行是否成功驱离的判断，通过数据特征提取的方式建立环境模型，对动态变化的空间环境有很好的适应能力，解决了现有依靠地面解算再上注的运行模式，实时性差的问题。

面向空间博弈的自主驱离方法具体步骤为，

(1)选取任意护卫星为参照点，建立CW轨道相对运动学模型；

(2)对两颗在轨对抗卫星的位置、速度进行初始化，预设在轨对抗卫星的机动能力，并预设在轨对抗卫星的观测量及控制量；

观测量包括卫星自身位置、速度、在轨对抗目标卫星位置及速度，所述控制量为CW轨道相对运动学模型内坐标系三轴方向的速度增量；

所述在轨对抗卫星包括第一航天器、第二航天器；

(3)为第二航天器设定一个固定的运动轨迹；

(4)为第一航天器设置即时奖励函数；

当第一航天器与第二航天器相对距离不大于3公里时，即时奖励函数值固定；当当第一航天器与第二航天器相对距离大于3公里时，即时奖励函数值根据第一航天器与第二航天器相对距离进行设置，具体为，

式中，x为第一航天器与第二航天器相对距离；

(5)为第一航天器设置动作网络及评价网络；

(6)设置策略梯度强化学习算法的超参数；

超参数包括学习率、长期回报折扣因子、每次训练次数、批学习数据量；

(7)对动作网络及评价网络进行学习训练，具体步骤如下，

(7-1)对第一航天器、第二航天器于CW轨道相对运动学模型内的初始位置、速度、控制周期、轨道高度进行初始化；

(7-2)设定第二航天器由时间驱动的机动策略；

(7-3)初始化第一航天器的动作网络和评价网络，设置策略梯度强化学习算法的初始化超参数；

(7-4)启动CW轨道相对运动学模型解算及网络训练，读取t0时刻第二航天器的初始速度增量、第一航天器的初始位置、初始速度，通过第一航天器数据驱动第一航天器动作网络，获取动作网络输出的速度增量，通过CW轨道相对运动学模型解算t0+T时刻第一航天器、第二航天器的位置及速度；

(7-5)根据步骤(7-4)所得观测量数据进行归一化处理，通过即时奖励函数计算即时奖励值；

(7-6)生成包括t0时刻第一航天器与第二航天器的位置及速度、t0+T时刻第一航天器与第二航天器的位置及速度、t0时刻第一航天器与第二航天器的速度增量、t0+T时刻即时奖励值的训练样本；

(7-7)重复步骤(7-4)至步骤(7-6)，直至训练样本于样本库中达到定值；

(7-8)对第一航天器的动作网络及评价网络进行训练，具体步骤如下，

(7-8-1)由样本库中随机抽取n个训练样本；

(7-8-2)以样本库中一条样本的t0时刻观测量和t0时刻控制量，作为评价网络输入，根据评价网络输出、该条样本的即时奖励值，计算该条样本的t0时刻观测量和t0时刻动作所对应的长期奖励值；

(7-8-3)以长期奖励值为期望输出，对第一航天器的评价网络进行训练；

(7-8-4)根据训练后的评价网络权值更新动作网络权值；

(7-9)重复步骤(7-8)直至达到指定训练次数；

(7-10)返回步骤(1)，加入随机扰动，并重新开始第一航天器的动作网络及评价网络训练，直至动作网络及评价网络收敛。

根据动作网络给出的速度增量实现第一航天器的轨道控制，当第一航天器抵近至第二航天器一定范围内，则认为驱离成功。

下面结合具体实施例进行进一步说明，

在本实施例中，以某护卫星为参照点，建立CW轨道相对运动学模型；

初始化两颗卫星的位置和速度，设置两颗卫星的机动能力，并设计各自的观测量和控制量，包括，自身位置、速度、目标位置、速度，控制量为x,y,z平面内的速度增量；

为第二航天器设定水滴轨迹；

为第一航天器设计智能算法的即时奖励函数，奖励函数需要同时考虑红蓝双方的相对距离，并且为了鼓励红方快速抵近蓝方，当两者相对距离小于3公里时，还需要给红方一个非常大的奖励，奖励函数的具体表达式如下，

其中x＝d/100；

为第一航天器设计动作网络和评价网络，包括网络结构、激活函数；

设计策略梯度强化学习算法的超参数，包括学习率、长期回报折扣因子、每次训练次数、批学习的数据量；

按照如下步骤开展学习训练，

(1)初始化两颗卫星在CW方程中的初始位置和速度，控制周期T，CW方程所在的轨道高度；

(2)设定第二航天器由时间驱动的机动策略；

(3)初始化第一航天器的动作网络和评价网络，设置策略梯度强化学习方法的初始化参数；

(4)启动CW方程解算和网络训练，首先读取t0时刻蓝方预设的初始速度增量，利用第一航天器的初始位置速度，驱动红方动作网络，获得网络输出的速度增量，驱动CW方程解算t0+T时刻红蓝两颗卫星的位置和速度；

(5)对上述观测量进行归一化处理，根据t0+T时刻观测量，利用步骤4中的奖励函数，计算即时奖励；

(6)生成一条训练样本，该条训练样本包括以下变量，

Sample＝[t0时刻红蓝位置和速度，t0+T时刻红蓝位置和速度，t0时刻红蓝速度增量，t0+T时刻的即时奖励]；

(7)重复上述步骤(4)到步骤(6)，直至样本库中的样本数量达到一定值；

(8)开始对航天器的动作网络和评价网络进行训练，具体为，

i.首先从样本库中随机抽取n个样本；

ii.根据样本中存储的数据，计算每一个样本中观测量对应的长期奖励值；

iii.以长期奖励值为期望输出，对航天器的评价网络进行训练；

iv.以评价网络权值更新动作网络权值；

(9)不断重复步骤(4)到步骤(8)，直至当前场景训练次数完毕；

(10)回到步骤(1)，重新初始化航天器与目标的初始位置，并加入一定的随机扰动，开始新一局场景的训练，直至网络收敛；

完成训练后，重新随机初始化一个新的场景，验证面向空间电子干扰博弈的策略梯度强化学习自主驱离策略的训练效果。

以某两颗卫星为例，

初始状态，

第一航天器，位置[20，0，0]km速度[0，0，0]

第二航天器，位置[0，0，50]km速度[0，0，0]

CW方程参数，控制周期10分钟地球同步轨道

任务要求，红方递进至蓝方3km以内

红方最大速度增量，0.003km/s

动作网络结构，2个隐层，每层64节点

评价网络结构，2个隐层，每层64节点

网络中间层激活函数，ReLU

网络输出层激活函数，ReLU

ReLU函数的表达式为，

y(x)＝max(0,x)+min(0,x)

式中，x为输出节点的输入，y为输出节点的输出，max(0,x)为取0和x中的较大值，min(0,x)为取0和x中的较小值。

图3为发明提供的不同训练参数的收敛曲线示意图，如图3所示，给出了不同训练参数的收敛曲线。图4为发明提供的CW方程描述下第一航天器和第二航天器运动轨迹示意图。图5为发明提供的第一航天器于CW轨道相对运动学模型坐标系内x、z方向速度增量示意图。如图4、图5所示，分别给出了以训练模型驱动第一航天器运动的轨迹和速度增量。可以看出，利用本发明提出的驱离策略，能够实现对水滴机动目标的驱离。

本发明实施例提供一种非易失性存储介质，包括，软件程序，当所述软件程序被执行时执行上述图1所示的方法。

本发明与现有技术相比的优点在于，

本发明提供的一种面向空间对抗的策略梯度强化学习自主驱离方法，首次提出利用深度强化学习方法进行电子对抗目标驱离任务中的轨道自主机动控制，首次给出了目标水滴机动下快速抵近学习与训练的通用步骤。区别于传统轨道控制方法，本方法基于目标的实时位置和速度，生成机动策略，通过数据特征提取的方式，建立CW描述下水滴轨迹与自身的相对运动关系模型，因此对抵近过程中目标实时机动有更好的适应能力。目前从公开报道的文献、专利或新闻中，尚未见到深度强化学习方法被用于水滴轨迹抵近驱离的机动控制；

同时，在每一个控制周期，都根据当前时刻目标的实时位置速度解算自身的机动策略，得到的机动策略是当前最优，而并没有对目标未来的运动有预设。因此在抵近过程中，当目标进行主动机动时，不仅能够即时调整机动策略，同时还能够保证机动策略的最优性。传统方法根据初始位置、末端位置和转移时间进行解算，得到的是全局最优解，在轨道转移过程中，一旦目标进行机动，可能极大地破坏原本的全局最优性，即时中途进行修正，也可能导致抵近轨迹耗时长；同时采用航天器对环境的观测数据进行学习训练，这些观测数据在实际中是可以通过通信或测量手段获得的。并且，在所建立的数字仿真环境中，能够完成绝大部分的学习训练过程，而不需要进行大规模的实际在轨训练，具有工程实用性。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims

1.一种面向空间博弈的自主驱离方法，其特征在于，包括，

从所述CW轨道相对运动学模型中获取t0时刻第一航天器和第二航天器的观测量，根据所述水滴运动轨迹获取所述第二航天器的速度增量，所述观测量包括：位置信息和速度信息；

将所述t0时刻第一航天器的观测量输入到训练效果收敛的动作网络计算t0时刻所述第一航天器的速度增量，根据所述速度增量对所述第一航天器的轨道进行控制，所述速度增量包括所述CW轨道相对运动学模型x、y、z轴三个方向的速度增量；

2.根据权利要求1所述的方法，其特征在于，进一步包括，

获取所述第一航天器及第二航天器多个时刻的观测量和速度增量；

3.根据权利要求1所述的方法，其特征在于，

所述z轴垂直向下指向地心，y轴垂直于所述护卫星的轨道平面，x轴根据右手直角坐标系定义。

4.根据权利要求2所述的方法，其特征在于，根据所述多个时刻中每个时刻所述第一航天器和第二航天器之间的距离确定对应时刻所述第一航天器的即时奖励函数包括：

式中，x为第一航天器与第二航天器之间的相对距离。

5.根据权利要求2所述的方法，其特征在于，根据所述多个时刻中每个时刻对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在所述仿真环境中对所述第一航天器的初始动作网络和初始评价网络进行训练调整得到训练效果收敛的所述动作网络和评价网络包括：

步骤2，设定第二航天器由时间驱动的机动策略；

步骤4，启动CW轨道相对运动学模型解算及网络训练，读取t1时刻第一航天器的初始位置信息、初始速度信息，通过第一航天器初始位置信息和初始速度信息驱动所述第一航天器初始动作网络，获取所述初始动作网络输出的t1时刻的速度增量，根据所述水滴运动轨迹获取第二航天器t1时刻的速度增量，根据t1时刻第一航天器和第二航天器的初始位置信息、初始速度信息和速度增量通过CW轨道相对运动学模型解算t1+T时刻第一航天器、第二航天器的位置信息及速度信息；

步骤9，重复步骤8直至达到指定训练次数；

6.根据权利要求5所述的方法，其特征在于，对第一航天器的初始动作网络及初始评价网络进行训练包括：

从所述样本库中随机抽取n个训练样本；

将所述n个训练样本中的每个样本包含的位置信息、速度信息、速度增量和即时奖励值输入所述初始评价网络，根据所述初始评价网络的输出、该条训练样本的即时奖励值以及所述长期回报折扣因子，计算该条训练样本所对应的长期奖励值；

以所述长期奖励值为期望输出，按照预设的所述每次训练次数、批学习数据量，对所述第一航天器的初始评价网络进行训练得到第一评价网络，确定所述第一评价网络的权值；

7.一种面向空间博弈的自主驱离装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，进一步包括：网络训练模块，用于获取所述第一航天器及第二航天器多个时刻的观测量和速度增量；根据所述多个时刻中每个时刻所述第一航天器和第二航天器之间的距离确定对应时刻所述第一航天器的即时奖励函数；根据所述多个时刻中每个时刻对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在所述仿真环境中对所述第一航天器的初始动作网络和初始评价网络进行训练调整得到训练效果收敛的所述动作网络和评价网络，所述训练效果收敛的所述动作网络和评价网络的权值更新量小于预设值，所述超参数包括：学习率、长期回报折扣因子、每次训练次数和批学习数据量。

9.根据权利要求8所述的装置，其特征在于，所述网络训练模块，进一步用于

式中，x为第一航天器与第二航天器之间的相对距离。

10.根据权利要求8所述的装置，其特征在于，

所述网络训练模块，进一步用于执行

步骤2，设定第二航天器由时间驱动的机动策略；

步骤9，重复步骤8直至达到指定训练次数；

11.根据权利要求10所述的装置，其特征在于，所述网络训练模块，进一步用于

从所述样本库中随机抽取n个训练样本；

以所述长期奖励值为期望输出，按照预设的所述每次训练次数、批学习的数据量，对所述第一航天器的初始评价网络进行训练得到第一评价网络，确定所述第一评价网络的权值；

12.一种非易失性存储介质，其特征在于，包括，软件程序，当所述软件程序被执行时执行上述权利要求1～6任一项所述的方法。