CN114036631A

CN114036631A - 一种基于强化学习的航天器自主交会对接制导策略生成方法

Info

Publication number: CN114036631A
Application number: CN202111231850.9A
Authority: CN
Inventors: 杨志斌; 幸林泉; 肖应民; 周勇; 黄志球; 薛垒
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-02-11
Anticipated expiration: 2041-10-22
Also published as: CN114036631B

Abstract

本发明公开了一种基于强化学习的航天器自主交会对接制导策略生成方法，包括：将航天器交会对接过程建模为马尔科夫决策过程模型；采用动态规划算法对马尔科夫决策过程模型进行求解，得到所有状态采取不同动作的得分，生成决策表；将决策表中的所有状态作为训练数据特征，将决策表中所有状态在每个动作下的得分作为训练数据标签，以此构建训练数据；构建神经网络模型，并采用训练数据对神经网络模型进行训练，得到作为决策表的近似表示的神经网络模型；对于某一个状态，通过得到的神经网络模型计算该状态下所有动作的得分，选择得分最大的动作作为最优制导策略；基于最优制导策略，航天器进行自主交会对接。

Description

一种基于强化学习的航天器自主交会对接制导策略生成方法

技术领域

本发明属于航空航天技术领域，具体涉及一种基于强化学习的航天器自主交会对接制导策略生成方法。

背景技术

随着航天任务的复杂度增加，航天器自主交会对接成为富有挑战性的问题。传统解决方案是使用最优化控制方法，该方法或者对动态模型做了大量简化假设，或者需要冗余的计算资源。近年来，强化学习方法在诸如机器人系统、自动汽车和物联网等工业应用中被广泛使用。于是，在复杂航天制导任务的推动下，一些研究引入强化学习技术以增强航天器自主交会对接制导能力。大量已有的工作表明无模型的强化学习方法适用于仿真环境下制导策略学习，例如PPO(Proximal Policy Optimization)、DDPG(Deep DeterministicPolicy Gradient)、D4PG(Distributed Distributional Deep Deterministic PolicyGradient)等。然而，无模型的强化学习需要大量的环境交互，而且训练随机性大，在实时性要求高、计算资源受限的真实物理系统中不易使用；与之相反，基于模型的强化学习能够充分利用先验知识，与环境的交互更少，而且易于收敛，在真实物理场景中可以更加高效。

基于已有的航天器动力知识与航天工业经验，可以考虑将基于模型的强化学习方法应用于航天器自主交会对接，因此，如何对航天器自主交会对接过程进行建模是需要解决的关键问题；基于模型的强化学习求解的最优制导策略往往由一张决策表表示，决策表所需内存体积巨大而航天电子设备内存受限，如何压缩决策表所需内存体积是一个重要问题；另外，如何验证策略表压缩后的有效性与鲁棒性对于航天器自主交会对接也是至关重要的。

发明内容

发明目的：为实现对航天器自主交会对接过程进行建模、为解决如何压缩决策表所需内存体积的问题，以及解决如何验证策略表压缩后的有效性与鲁棒性的问题，本发明提出了一种基于强化学习的航天器自主交会对接制导策略生成方法。

技术方案：一种基于强化学习的航天器自主交会对接制导策略生成方法，包括以下步骤：

S100：将航天器交会对接过程建模为马尔科夫决策过程模型；

S200：采用动态规划算法对构建的马尔科夫决策过程模型进行求解，得到所有状态采取不同动作的得分；将某一状态下采用某一个动作的得分作为决策表中的一元素，以此生成决策表；

S300：将决策表中的所有状态作为训练数据特征，将决策表中所有状态在每个动作下的得分作为训练数据标签，以此构建训练数据；

S400：构建神经网络模型，并采用训练数据对神经网络模型进行训练，得到作为决策表的近似表示的神经网络模型；

S500：对于某一个状态，通过S400得到的神经网络模型计算该状态下所有动作的得分，选择得分最大的动作作为最优制导策略；

S600：基于最优制导策略，航天器进行自主交会对接。

进一步的，S100具体实现步骤为：

将航天器交会对接过程分解为x-y平面上的相对运动和z方向上的相对运动，相对运动模型遵循Clohessy-Wiltshire方程；

取六个变量，分别为：x方向距离x、y方向距离y、z方向距离z、x方向速度

y方向速度

和z方向速度

一个状态代表所述六个变量的一种取值，以此构建状态集；基于x方向加速度u_x、y方向加速度u_y、z方向加速度u_z，每个方向的加速度分为正向加速度、负向加速度、零加速度三种类型，每个类型的取值范围用区间表示，共二十七个动作组合，以此构建动作集；

对状态集中的状态数据与动作集中的动作数据进行离散化处理；

取离散化处理后的状态集和动作集，通过定义状态转移方程、设计奖励函数和定义折扣因子，建模得到马尔科夫决策过程模型。

进一步的，所述状态转移方程为Clohessy-Wiltshire方程。

进一步的，所述奖励函数表示为：

式中，第一个分式项用于减少不必要的推力，其中，u_max表示为可能的最大的总加速度；第二项用于鼓励航天器靠近目标，

第三项-1用于加速收敛过程；第四项用于保证航天器能够靠近目标，add随着dist的减小而增加。

进一步的，所述动态规划算法为Gauss–Seidel迭代法。

进一步的，所述S400具体实现步骤为：

构建一个全连接的神经网络模型，其包括：输入层、隐含层、输出层；其中，输入层的节点数等于状态集的变量数，输出层的节点数等于动作集的动作数，隐含层的层数与节点数可自行定义；

定义神经网络激活函数为ReLU函数，定义损失函数为非对称均方误差函数，使用回归算法与Adam优化器，采用训练数据对神经网络模型进行训练，得到作为决策表的近似表示的神经网络模型。

进一步的，当得到作为决策表的近似表示的神经网络模型后，对得到的神经网络模型的鲁棒性进行验证，对验证通过的神经网络模型参与S500的计算，对验证不通过的神经网络模型进行调整，调整后的神经网络模型重新进行鲁棒性验证；

所述的对得到的神经网络模型的鲁棒性进行验证，具体实施步骤包括：

可视化S200得到的决策表和S400得到的作为决策表的近似表示的神经网络模型；

在可视化决策表与神经网络模型的基础上，将输入空间分割为若干格子，在远离决策边界的区域内的格子尺寸大于在靠近决策边界的区域内的格子尺寸；

对于每一个格子，使用神经网络形式化验证工具，验证在该格子代表的输入空间内，有且只有一个动作，该动作作为神经网络模型的最优策略输出；

对于每一个格子，对比决策表与神经网络模型的最优策略输出，以此判断神经网络模型的鲁棒性。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明从已有的航天器动力知识与航天工业经验出发，使用基于模型的强化学习方法，将航天器交会对接过程建模为马尔科夫决策过程，通过动态规划算法求解马尔科夫决策过程模型的最优策略，生成决策表，相比于无模型的强化学习方法，具有采样少、收敛速度快、训练过程稳定等优点；

(2)本发明提出使用神经网络模型压缩决策表，能够显著减少决策策略所需的内存体积，适用于内存资源受限的航天电子设备；

(3)本发明提出的形式化验证神经网络方法，能够有效验证神经网络鲁棒性，检查神经网络与决策表策略的一致性。

附图说明

图1为航天器自主交会对接过程图；

图2为本发明方法框架；

图3为一种具体实施的神经网络模型设计；

图4为一种具体实施的决策表与神经网络策略图的对比；

图5为验证神经网络鲁棒性而分割输入空间；

图6为具体实施本方法后的航天器自主交会对接运动轨迹图。

具体实施方式

下面结合附图进一步阐述本发明方法。

图1为航天器自主交会对接过程，即追踪航天器自主制导接近目标航天器，本发明的基于强化学习的航天器自主交会对接制导策略生成方法，目的是在交会对接过程中为追踪航天器生成最优制导策略。航天器交会对接过程可分解为x-y平面上的相对运动和z方向上的相对运动，相对运动模型遵循Clohessy-Wiltshire方程。

现以百米内航天器自主交会对接为例，现结合图2至图6对本发明方法做进一步说明。

步骤1：将航天器交会对接过程建模为马尔科夫决策过程模型，该马尔科夫决策过程模型包括：状态集、动作集、状态转移方程、奖励函数和折扣因子；

其中，状态集由六个变量组成，包括x方向距离x、y方向距离y、z方向距离z、x方向速度

y方向速度

和z方向速度

一个状态代表六个变量的一种取值。表1是一种百米内航天器状态变量的取值设计。

表1百米内航天器状态变量的取值设计表

动作集包括x方向加速度u_x、y方向加速度u_y、z方向加速度u_z，每个方向的加速度分为正向加速度、负向加速度、零加速度三种类型，每个类型的取值范围用区间表示，共二十七个动作组合。表2是一种百米内航天器动作变量的取值设计。

表2百米内航天器动作变量的取值设计表

状态集与动作集变量进行离散化处理。

状态转移方程为Clohessy-Wiltshire方程，定义转移概率：动作变量取区间中值的概率为0.5，取区间上下界极值的概率为0.25。

奖励函数设计为：

第三项-1用于加速收敛过程；第四项用于保证航天器能够靠近目标，add需要分段取值，随着dist的减小而增加；表3为add的一种取值设计表。

表3add的一种取值设计表

dist	0.5	0.1	0.05	0.01	0.005	0.001
							add	10	40	90	190	390	500

定义折扣因子等于0.95。

在建立马尔科夫决策过程模型后，使用Gauss–Seidel迭代法求解所有状态采取不同动作的得分，生成决策表，决策表中的元素为航天器在某一个状态下采取某一个动作的得分。航天器在交会对接过程中，在任意一个状态，查询决策表，选择该状态下得分最大的动作作为最优制导策略。

步骤2：为了压缩决策表所需内存体积，本发明在生成决策表后，将决策表作为训练数据，训练数据包括训练数据特征与训练数据标签；训练数据特征为决策表的所有状态，训练数据标签为决策表中所有状态在每一个动作下的得分；采用该训练数据，训练神经网络模型作为决策表的近似表示形式，具体操作为：

设计一个全连接的神经网络模型，输入层的节点数等于状态集的变量数，即输入变量为六个状态变量；输出层的节点数等于动作集的动作数，即输出变量为二十七个动作的得分。隐含层的层数与节点数可自行定义，此处设计五层隐含层，每层隐含层包含二十五个节点。采用决策表作为训练数据，定义神经网络激活函数为ReLU函数，定义损失函数为非对称均方误差函数，使用回归算法与Adam优化器，训练得到一个充分逼近决策表的神经网络模型。图3为使用本发明方法实现百米内航天器自主交会对接制导而设计的神经网络模型。

步骤3：航天器在交会对接过程中，对于某一个状态，通过步骤2训练得到的神经网络计算该状态下所有动作的得分，选择得分最大的动作作为最优制导策略。

为了确认神经网络模型的有效性，可计算神经网络模型的准确率，以及同时可视化决策表与神经网络模型的策略图，将两者的策略图进行比较，确认神经网络策略压缩效果。图4为使用本发明方法实现百米内航天器自主交会对接制导后的策略图比较，不同的灰度代表不同的动作。

为了验证神经网络模型的鲁棒性，在可视化决策表与神经网络策略的基础上，将输入空间分割为若干格子，在远离决策边界的区域可以将格子分割得较大，在靠近决策边界的区域可以将格子分割得较小；在分割输入空间后，对于每一个格子，使用神经网络进行形式化验证，验证在该格子代表的输入空间内，有且只有一个动作将作为神经网络最优策略输出；在形式化验证神经网络之后，对于每一个格子，对比决策表与神经网络产生的最优策略，检验决策表与神经网络策略的一致性。图5为使用本发明方法实现百米内航天器自主交会对接制导后，分割输入空间的示意图。

仿真航天器在神经网络策略下的运动轨迹。图6为使用本发明方法实现百米内航天器自主交会对接制导后的仿真运动轨迹图。目标航天器位于原点，图6显示追踪航天器最终准确接近目标航天器。

Claims

1.一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：包括以下步骤：

S100：将航天器交会对接过程建模为马尔科夫决策过程模型；

S600：基于最优制导策略，航天器进行自主交会对接。

2.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：S100具体实现步骤为：

y方向速度

和z方向速度

3.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：所述状态转移方程为Clohessy-Wiltshire方程。

4.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：所述奖励函数表示为：

5.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：所述动态规划算法为Gauss–Seidel迭代法。

6.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：所述S400具体实现步骤为：

7.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方法，其特征在于：当得到作为决策表的近似表示的神经网络模型后，对得到的神经网络模型的鲁棒性进行验证，对验证通过的神经网络模型参与S500的计算，对验证不通过的神经网络模型进行调整，调整后的神经网络模型重新进行鲁棒性验证；