CN113268859B

CN113268859B - 航天器在轨博弈的仿真模拟方法、系统及存储介质

Info

Publication number: CN113268859B
Application number: CN202110448705.XA
Authority: CN
Inventors: 袁利; 黄煌; 汤亮; 石恒; 韩冬
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2023-07-14
Anticipated expiration: 2041-04-25
Also published as: CN113268859A

Abstract

本发明实施例提供一种航天器在轨博弈的仿真模拟系统，包括实时解算航天器随时间变化的位置、速度、姿态、姿态角信息的运动学模型装置，对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义的场景定义装置，建立智能算法的神经网络模型的神经网络模型建立装置，调用神经网络模型并根据航天器观测量及速度增量、t0+T时刻航天器观测量及即时奖励函数对动作网络、评价网络进行训练的智能算法装置，将神经网络模型的训练过程数据通过图形方式呈现的结果输出与性能评估装置，可视化地呈现所述航天器的运动轨迹的场景实时显示装置，利用本技术方案可以实现航天器运行状态及运动轨迹的精确模拟与评估。

Description

航天器在轨博弈的仿真模拟方法、系统及存储介质

技术领域

本发明涉及航天器轨道控制技术领域，特别涉及一种航天器在轨博弈的仿真模拟方法、系统及存储介质。

背景技术

空间博弈任务实时性要求高，传统依靠地面指令上传的方式，受限于通信延时和测控弧段约束，难以满足动态博弈态势的需求。亟需提升空间博弈任务的自主能力，使得航天器能够根据目标状态和空间环境，自主地调整自身的姿态、轨道、载荷控制策略，以应对动态变化的空间态势。

发明内容

鉴于上述技术问题，本发明实施例提供一种航天器在轨博弈的仿真模拟方法、系统及存储介质，以通过该仿真模拟方法和系统获取航天器的实时在轨运行状态，进而实现航天器的在轨博弈。

本发明解决上述技术问题是通过如下技术方案予以实现的：

一种航天器在轨博弈的仿真模拟系统，包括：

运动学模型装置，用于根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算；

场景定义装置，用于对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义，所述观测量包括：所述航天器的位置信息和速度信息，所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的；

神经网络模型建立装置，用于建立智能算法的神经网络模型，所述神经网络模型包括：动作网络和评价网络的网络激活函数及网络结构；

智能算法装置，用于获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数，调用所述神经网络模型，根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练，根据预设智能算法建立对应的算法模型，利用算法模型对所述动作网络和评价网络的网络权值进行更新，得到训练效果逐渐收敛的动作网络和评价网络；

结果输出与性能评估装置，用于将神经网络模型的训练过程数据通过图形方式呈现，呈现的内容包括：不同算法模型训练过程的收敛曲线，航天器的运动轨迹，同时对航天器的运行状态进行数值评估；

场景实时显示装置，用于可视化地呈现所述航天器的运动轨迹。

本发明实施例提供一种航天器在轨博弈的仿真模拟方法，该方法包括：

根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算；

对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义，所述观测量包括：所述航天器的位置信息和速度信息，所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的；

建立智能算法的神经网络模型，所述神经网络模型包括：动作网络和评价网络的网络激活函数及网络结构；

获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数，调用神经网络模型，根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练，根据预设智能算法建立对应的算法模型，利用算法模型对所述动作网络和评价网络的网络权值进行更新，得到训练效果逐渐收敛的动作网络和评价网络；

将神经网络模型的训练过程数据通过图形方式呈现，呈现的内容包括：不同算法模型训练过程的收敛曲线，航天器的运动轨迹，同时对航天器的运行状态进行数值评估；其中，航天器的运动轨迹通过可视化方法进行呈现。

本发明实施例提供一种非易失性存储介质，该非易失性存储介质包括：软件程序，当该软件程序被执行时执行上述方法。

在本发明实施例中，通过建立各航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算；获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数，根据t0时刻所述航天器的观测量、速度增量，一个控制周期T后t0+T时刻航天器的观测量和即时奖励函数对动作网络、评价网络进行训练并建立对应算法模型，将神经网络模型训练过程以图形方式进行呈现，实现航天器运行状态的呈现及数值评估。在现有技术中，传统依靠地面指令上传的方式，受限于通信延时和测控弧段约束，难以满足动态博弈态势的需求，由于缺少航天器在轨博弈博弈的深度强化学习训练系统，不能为后续多类空间场景下单个或多个航天器博弈提供便捷的学习训练环境，在空间博弈多智能体深度强化学习训练系统方面存在技术的空白。利用本发明的技术方案，建立了一套全新的面相空间博弈任务的数字仿真环境和学习训练框架，可以实现航天器在轨博弈的深度强化模拟控制，实现对空间态势的准确掌握，可根据用户需要对航天器个数、速度增量幅值、航天器抽象化参数、太阳方位等进行个性化设置，能够满足不同博弈场景的需求。

附图说明

图1为发明提供的航天器在轨博弈的仿真模拟系统组成示意图；

图2为发明提供的航天器在轨博弈的仿真模拟方法流程示意图；

图3为发明提供的深度强化学习训练系统各装置组成及调用关系示意图；

具体实施方式

图1为本发明实施例提供的一种航天器在轨博弈的仿真模拟系统的组成示意图，如图1所示，包括：运动学模型装置101、场景定义装置102、神经网络模型建立装置103、智能算法装置104、结果输出与性能评估装置105、场景实时显示装置106。

运动学模型装置101，用于根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算；

场景定义装置102，用于对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义，所述观测量包括：所述航天器的位置信息和速度信息，所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的；

神经网络模型建立装置103，用于建立智能算法的神经网络模型，所述神经网络模型包括：动作网络和评价网络的网络激活函数及网络结构；

智能算法装置104，用于获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数，调用所述神经网络模型，根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练，根据预设智能算法建立对应的算法模型，利用算法模型对所述动作网络和评价网络的网络权值进行更新，得到训练效果逐渐收敛的动作网络和评价网络；

结果输出与性能评估装置105，用于将神经网络模型的训练过程数据通过图形方式呈现，呈现的内容包括：不同算法模型训练过程的收敛曲线，航天器的运动轨迹，同时对航天器的运行状态进行数值评估；

场景实时显示装置106，用于可视化地呈现所述航天器的运动轨迹，并进一步用于根据用户输入调整所述航天器的运动轨迹，所述航天器用实心圆表示。

在本发明实施例中，当网络权值更新量小于预设值时，判定该动作网络和评价网络收敛。判断权值更新量小于预设值的方法包括：连续获取初始动作网络和初始评价网络多个时刻的期望输出值和实际输出值，将每个时刻的期望输出值和实际输出值输入到代价函数，得到差值，当这多个时刻中的每个时刻对应的差值均小于预定值，则判定该权值更新量小于预设值。

在本发明一实施例中，运动学模型装置101，用于调用开普勒轨道运动学模型、CW轨道运动学模型、刚体六自由度姿态动力学模型，解算出各航天器的位置信息、速度信息、姿态、姿态角速度，调用相对指向模型，解算各航天器之间的相对位置、相对速度和相对指向关系。

在本发明一实施例中，智能算法装置104，进一步用于根据所述多个时刻中每个时刻所述第一航天器和第二航天器对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在所述仿真环境中分别对所述第一航天器和第二航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络，所述超参数包括：学习率、长期回报折扣因子、每次训练次数和批学习数据量。

在本发明一实施例中，所述智能算法装置104，进一步用于执行

步骤1：在所述仿真环境中对所述第一航天器、第二航天器的初始轨道参数进行初始化，所述第一航天器和第二航天器处于同一轨道面内；

步骤2：初始化所述第一航天器和第二航天器的初始动作网络和初始评价网络；

步骤3：从gym仿真环境中获取t1时刻所述两个航天器的观测量，进行归一化处理后，输入到各自的初始动作网络中，得到t1时刻每个航天器在二维平面内的速度增量；

步骤4：在所述gym仿真环境中分别执行所述两个航天器的速度增量，对所述两个航天器进行轨道控制；

步骤5：从所述gym仿真环境中分别获取t1+T时刻所述两个航天器的观测量，确定两个航天器t1+T时刻的即时奖励函数；

步骤6：生成一条训练样本并存入样本库，所述训练样本包括：t1时刻所述第一航天器和第二航天器的观测量、速度增量，t1+T时刻所述两个航天器的即时奖励函数和观测量；

步骤7：重复执行步骤3至步骤6，直至样本库中的样本的数量达到预设值；

步骤8：对所述第一航天器和第二航天器的初始动作网络及初始评价网络进行训练；

步骤9：重复步骤7-8直至达到指定训练次数；

步骤10：返回步骤1，对所述初始轨道参数加入随机扰动，并重新开始所述两个航天器的动作网络及评价网络的训练，直至得到训练效果收敛的所述动作网络及评价网络。

在本发明一实施例中，智能算法装置104，进一步用于

针对第一航天器和第二航天器，从所述样本库中随机抽取n个训练样本；

将所述n个训练样本中的每个训练样本输入各自的初始评价网络，根据所述各自的初始评价网络的输出以及各自的即时奖励值，以及长期回报折扣因子，计算所述第一航天器和第二航天器的每条训练样本所对应的长期奖励值；

以所述各自的长期奖励值为期望输出，按照预设的每次训练次数、批学习的数据量，分别对所述第一航天器和第二航天器的初始评价网络进行训练，得到所述第一航天器和第二航天器的第一评价网络，确定所述第一评价网络的权值；

根据所述各自的第一评价网络的权值和预设的学习率，对所述各自的初始动作网络的权值进行更新，返回从所述样本库中随机抽取n个训练样本的操作，直至利用所述第一航天器和第二航天器的样本库中的样本分别完成所述第一航天器和第二航天器的动作网络和评价网络的训练得到所述训练效果收敛的所述动作网络和评价网络。

图2为本发明实施例提供的航天器在轨博弈的仿真模拟方法的流程示意图。如图2所示，该方法包括如下步骤：

步骤201，根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算。

步骤202，对航天器数量、机动能力、速度增量幅值、即时奖励函数、太阳方位角、碰撞情况、通讯网络、观测量进行定义，所述观测量包括：所述航天器的位置信息和速度信息，所述即时奖励函数是根据航天器之间的距离和/或太阳方位角和/或航天器之间的方位角确定的。

步骤203，建立智能算法的神经网络模型，所述神经网络模型包括：动作网络和评价网络的网络激活函数及网络结构；建立所述动作网络和评价网络。动作网络和评价网络包括：前馈全连接网络、卷积神经网络、长短期记忆网络。

步骤204，获取航天器运行过程中多个时刻的观测量、速度增量以及即时奖励函数，调用神经网络模型，根据所述多个时刻中t0时刻所述航天器的观测量、速度增量、t0+T时刻的观测量和即时奖励函数对动作网络、评价网络进行训练，根据预设智能算法建立对应的算法模型，利用算法模型对所述动作网络和评价网络的网络权值进行更新，得到训练效果逐渐收敛的动作网络和评价网络。

步骤205，将神经网络模型的训练过程数据通过图形方式呈现，呈现的内容包括：不同算法模型训练过程的收敛曲线，航天器的运行轨迹，同时对航天器的运行状态进行数值评估；其中，航天器的运动轨迹通过可视化方法进行呈现。

在本发明实施例中，根据在轨博弈的每一航天器的轨道动力学模型、初始轨道参数、速度增量对所述航天器随时间变化的位置信息、速度信息、姿态、姿态角速度进行实时解算，获取所有观测量，并确定即时奖励函数，建立智能算法神经网络模型并根据t0时刻所述航天器的观测量、速度增量，一个控制周期T后的观测量和即时奖励函数对动作网络、评价网络进行训练，将神经网络模型的训练过程数据通过图形方式呈现，可以解决现有技术中，航天器不能根据目标状态和空间环境，自主地调整自身的姿态、轨道、载荷控制策略，以应对动态变化的空间态势的问题。利用本发明技术方案，通过大量样本学习训练可以得到对方航天器的训练效果收敛的动作网络，通过该动作网络可以获取对方航天器的速度增量，在仿真环境中根据该速度增量对对方航天器进行轨道控制，进而能在各个时刻获取对方航天器的实际在轨参数。

在本发明一实施例中，该方法进一步包括：调用开普勒轨道运动学模型、CW轨道运动学模型、刚体六自由度姿态动力学模型，解算出各航天器的位置信息、速度信息、姿态、姿态角速度，调用相对指向模型，解算各航天器之间的相对位置、相对速度和相对指向关系。

在本发明一实施例中，进一步包括：

对任意两个航天器，获取第一航天器和第二航天器多个时刻的观测量、速度增量以及即时奖励函数；

根据所述多个时刻中每个时刻所述第一航天器和第二航天器对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在所述仿真环境中分别对第一航天器、第二航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络，所述超参数包括：学习率、长期回报折扣因子、每次训练次数和批学习数据量。

在本发明一实施例中，对所述第一航天器和第二航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络包括：

步骤9：重复步骤7-8直至达到指定训练次数；

在本发明一实施例中，所述MADDPG算法的超参数包括：预设的学习率、长期回报折扣因子、每次训练次数、批学习的数据量，对所述第一航天器和第二航天器的初始动作网络及初始评价网络进行训练包括：

一种非易失性存储介质，包括：软件程序，当所述软件程序被执行时执行上述方法。

下面结合具体实施例进行进一步说明：

在本实施例中，航天器在轨博弈的深度强化学习训练系统应具有如下功能：

1、能够根据初始轨道参数，解算航天器的位置

2、能够检测两个航天器之间的碰撞

3、能够方便地调用不同的智能算法，并记录算法的训练过程

4、用户可自定义设定空间博弈场景，包括太阳方位、航天器数量、每一个航天器的能力边界、博弈过程的约束条件、通讯拓扑等，并且在训练过程中，可根据需要对场景进行重新初始化

5、能够根据用户设定，可视化呈现航天器博弈全过程，并记录各航天器的轨迹

围绕上述功能需求，航天器在轨博弈的深度强化学习训练系统的组成有：运动学模型装置、场景实时显示装置、结果输出与性能评估装置、神经网络模型建立装置、智能算法装置、场景定义装置六部分组成，图3为发明提供的深度强化学习训练系统各装置组成及调用关系示意图，如图3所示。

运动学模型装置：

该装置调用轨道动力学模型，根据初始的轨道参数，以速度增量为输入，解算航天器随时间变化的位置和速度；

该装置还可设置不同的碰撞参数，对两个航天器碰撞后的运动进行模拟；

场景实时显示装置：

该装置通过渲染，对航天器的运动状态进行可视化呈现。根据用户设置，航天器可以用不同大小和颜色的圆表示。显示装置的窗口尺寸可根据用户需要进行设置；

结果输出与性能评估装置：

该装置能够对训练过程的数据，利用画图的方式进行呈现，包括不同算法的收敛曲线，航天器的运行轨迹等，并且能够根据用户设定的规则(函数)，对航天器的运行状态给予数值评估；

神经网络模型建立装置：

该装置用于建立智能算法的神经网络模型，用户可根据需要，建立多层前馈全连接网络、卷积神经(CNN)网络、长短期记忆(LSTM)网络等。所建立的网络模型可用于强化学习算法中的动作网络或评价网络；

智能算法装置：

该装置通过统一的接口和统一的功能函数，包含若干强化学习算法，例如单体强化学习算法DDPG、PPO等，以及多体强化学习算法MADDPG。该装置调用神经网络模型，建立不同智能算法所需的网络模型；通过update()函数实现网络权值更新；通过feedforward()函数实现网络的前向推理；通过model()函数实现智能算法需要的神经网络模型的建立；

场景定义装置：

该装置定义航天器的数量，角色，是否有机动能力，速度增量幅值多少，奖励函数，太阳方位，是否考虑碰撞，通讯网络，观测量等内容。

本发明与现有技术相比的优点在于：

(1)本发明提供的一种航天器在轨博弈博弈的深度强化学习训练系统，首次建立了考虑航天器轨道动力学的多智能体强化学习训练系统，区别于STK卫星仿真软件和spinningup、baseline等深度强化学习平台，首次将航天器轨道运动特性与深度强化学习平台相结合，同时兼顾航天器在空间中的运动特点和深度强化学习算法，从运动学模型、场景实时显示模块、结果输出与性能评估模块、神经网络模型、智能算法模块、场景定义模块六部分，建立了一套全新的面相空间博弈任务的数字仿真环境和学习训练框架，目前从公开报道的文献、专利或软件中，尚未见到面向空间博弈任务的多智能体强化学习训练系统；

(2)本发明面向空间博弈智能算法的研究对仿真环境、学习训练框架的需求，通过对功能、接口、调用关系等方面的分析，围绕模块化开发和可扩展的原则，从运动学模型、场景实时显示模块、结果输出与性能评估模块、神经网络模型、智能算法模块、场景定义模块六部分，建立航天器在轨博弈博弈的深度强化学习训练系统，创造性地提供了一种系统化的建设方案，填补了空间博弈多智能体深度强化学习训练系统的空白；

本发明实施例提供一种非易失性存储介质，包括：软件程序，所述软件程序被执行时执行图2所述的方法。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims

1.一种航天器在轨博弈的仿真模拟系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述场景实时显示装置，进一步用于根据用户输入调整所述航天器的运动轨迹，所述航天器用实心圆表示。

3.根据权利要求1所述的系统，其特征在于，所述动作网络和评价网络，包括：前馈全连接网络、卷积神经网络、长短期记忆网络。

4.根据权利要求1所述的系统，其特征在于，

所述智能算法包括：单体强化学习算法DDPG、单体强化学习算法PPO、多体强化学习算法MADDPG。

5.根据权利要求1所述的系统，其特征在于，

所述运动学模型装置，用于调用开普勒轨道运动学模型、CW轨道运动学模型或刚体六自由度姿态动力学模型，解算出各航天器的位置信息、速度信息、姿态、姿态角速度，调用相对指向模型，解算各航天器之间的相对位置、相对速度和相对指向关系。

6.根据权利要求1所述的系统，其特征在于，所述在轨博弈的航天器包括：第一航天器和第二航天器；

智能算法装置，进一步用于根据所述多个时刻中每个时刻所述第一航天器和第二航天器对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在仿真环境中分别对所述第一航天器和第二航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络，所述超参数包括：学习率、长期回报折扣因子、每次训练次数和批学习数据量。

7.根据权利要求6所述的系统，其特征在于，

所述智能算法装置，进一步用于执行

步骤9：重复步骤7-8直至达到指定训练次数；

8.根据权利要求7所述的系统，其特征在于，

所述智能算法装置，进一步用于

根据所述各自的第一评价网络的权值和所述学习率，对所述各自的初始动作网络的权值进行更新，返回从所述样本库中随机抽取n个训练样本的操作，直至利用所述第一航天器和第二航天器的样本库中的样本分别完成所述第一航天器和第二航天器的动作网络和评价网络的训练得到所述训练效果收敛的所述动作网络和评价网络。

9.一种航天器在轨博弈的仿真模拟方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述在轨博弈的航天器包括：第一航天器和第二航天器，该方法进一步包括：

根据所述多个时刻中每个时刻所述第一航天器和第二航天器对应的观测量、速度增量、即时奖励函数、MADDPG算法和超参数在仿真环境中分别对第一航天器、第二航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络，所述超参数包括：学习率、长期回报折扣因子、每次训练次数和批学习数据量。

11.根据权利要求10所述的方法，其特征在于，对所述第一航天器和第二航天器的初始动作网络和初始评价网络进行训练调整得到所述训练效果逐渐收敛的动作网络和评价网络包括：

步骤9：重复步骤7-8直至达到指定训练次数；

12.根据权利要求11所述的方法，其特征在于，对所述第一航天器和第二航天器的初始动作网络及初始评价网络进行训练包括：

13.一种非易失性存储介质，其特征在于，包括：软件程序，当所述软件程序被执行时执行上述权利要求9～12任一项所述的方法。