CN116588353A

CN116588353A - 基于深度强化学习的复杂约束下航天器姿态规划方法

Info

Publication number: CN116588353A
Application number: CN202310674921.5A
Authority: CN
Inventors: 赵凡宇; 江姝蕾; 陈悦洁; 金仲和; 时中
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-08-15

Abstract

本发明针对禁止指向约束下的航天器姿态机动规划问题，提出了一种基于深度强化学习的复杂约束下航天器姿态规划方法。本发明方法综合考虑旋转路径最短、能量最优、禁止指向约束、动力学约束等，通过深度强化学习训练得出了一个简洁的多重约束模型，可以确定姿态机动的近似最优路径，适用于微型航天器的控制。训练好的模型可以直接对起始、目标姿态进行端到端的推理，相较于传统方法的低求解效率，以及高复杂精确模型度，本发明具有相对高效且简单的求解过程以及较强的泛化性能。仿真结果表明规划结果满足所有约束，包括4个禁止指向约束、动力学约束等等。

Description

基于深度强化学习的复杂约束下航天器姿态规划方法

技术领域

本发明涉及卫星姿态机动规划领域，涉及一种基于深度强化学习的复杂约束下航天器姿态规划方法。

背景技术

随着航天技术的快速发展和人类太空探索频率的不断提高，世界航天发射活动呈逐年增多趋势，航天任务不断向多样化、无人自主化方向发展。以航天、深空探测等为代表的新兴航天任务近年来不断受到航天大国的关注和投入。这些任务要求航天器进行大量姿态机动，在姿态机动过程中，航天器必须满足一系列的姿态指向约束。

姿态指向约束包括禁止指向约束：一些光敏热敏元件(星敏感器、红外摄像机、低温冷却望远镜等)不能暴露在太阳等强光源或热源下，即敏感元件不能对准强光(热)源的方向；其次是强制指向约束：对目标进行观测时，光学镜头要指向观测目标；太阳能帆板需要一直对准太阳以保持电力供应，星载天线需要指向地面站以保证数据传输等。在哈勃空间望远镜、深空一号探测器以及卡西尼探测器上都存在着这些姿态指向约束，这极大地限制了航天器在姿态机动过程中的可行区域。

姿态指向约束可以看作是航天器外部环境的约束，航天器自身的姿态动力学约束同样需要考虑。一方面，航天器执行机构的输出幅值受限。另一方面，在航天器姿态控制系统中，姿态敏感器和执行机构要求姿态机动的角速度不能过大。在航天器执行任务过程中，根据外部环境的不同会产生不同的姿态指向约束。当复杂的外部环境引发的约束和航天器自身动力学约束耦合在一起作用时，对航天器的姿态机动路径求解造成了一定的困难，因此航天器姿态机动规划必须要加以改进。

同时，由于航天任务的多样性，航天器姿态机动能力须得到提高。比如在执行灾难预警、科学探测以及军事侦查等任务时，经常要求航天器在有限能量消耗，以较短的时间从当前姿态机动到给定期望姿态。具体要求主要包括以下三方面：1)机动路径长度；2)机动能量消耗；3)机动时间。这需要从理论上对复杂约束下姿态机动问题进行深入研究，在综合考虑以上复杂约束和任务指标情况下，规划出安全且高效的姿态机动路径。

目前常见的姿态机动规划包括势函数，几何方法，离散法，随机规划算法，数值优化规划方法来开展这方面工作。这些方法都有相应的缺陷，比如势函数方法容易陷入局部最小值；几何方法应用较多约束作用有限；离散法依赖于离线求解的结构；随机规划方法一般只产生可行路径，最优性没有考虑；数值优化法则需要精确的数学建模，需要强大的计算能力，不利于实际应用。

发明内容

本发明提供了一种基于深度强化学习的复杂约束下航天器姿态规划方法，目的是针对传统方法存在求解效率低、模型依赖性强等问题。深度强化学习有构建复杂的智能体的能力，从而实现从感知到规划的端到端处理。本发明综合考虑旋转路径最短、能量最优、禁止指向约束、动力学约束等，通过深度强化学习训练得出了一个简洁的多重约束模型，可以确定姿态机动的近似最优路径，适用于微型航天器的控制。仿真结果表明规划结果满足所有约束，验证了该方法在机动平均能耗以及规划速度方面的优势。

一种基于深度强化学习的复杂约束下航天器姿态规划方法，包括以下步骤：

(1)构建基本航天器姿态描述方式，建立禁止指向约束，控制力矩约束，角速度约束，姿态运动学和动力学约束，同过通过设定初始姿态、目标姿态以及禁止指向区域，将三维姿态天球中姿态机动问题，转化为二维平面路径规划问题；

(2)基于所述二维平面路径规划问题对初始训练环境、动作、状态及奖励进行设定，然后采用深度Q网络(DQN)建立深度强化学习模型并对模型进行训练，得到训练好的模型；

(3)将初始姿态、目标姿态以及随机环境输入训练好的模型中，得到卫星规划路径。

上述技术方案中，进一步地，步骤(1)中建立所述禁止指向约束主要是由于光敏热敏元件(星敏感器、红外摄像机、低温冷却望远镜等)不能暴露在太阳等强光源或热源下，也就是强光天体的方向矢量和敏感光学元件的视线轴方向夹角不能低于视场角，禁止指向约束表示形式为：

其中，r_b表示该敏感光学元件在航天器体坐标系下的方向向量，r_I表示强光天体在惯性坐标系系下的方向向量，C_bI表示从惯性坐标系到体坐标系的姿态转移矩阵，φ代表了敏感光学元件的视场角。

在实际姿态机动任务中，航天器的姿态执行机构输出的姿态控制力矩有限，形成控制力矩约束，所述控制力矩约束：

|T_i|＜γ₁，i＝1,2,3

其中，T_i表示航天器的控制力矩，i则代表在三轴上的分量；γ₁表示航天器的控制力矩上限幅值。

建立所述角速度约束是由于角速度敏感器的量程有限，航天器的角速度必须保持在限定范围内，所述角速度约束为：

|ω_i|＜γ₂，i＝1,2,3

其中，ω_i为航天器的角速度；γ₂表示航天器的角速度上限幅值；

将航天器视为三轴运动的刚体，采用四元数形式描述所述姿态运动学和动力学约束：

其中，ω＝[ω₁,ω₂,ω₃]是航天器的角速度，ω^×为ω的斜对称矩阵，是ω的导数，J为航天器的转动惯量，T为航天器控制力矩。

所述航天器姿态描述方式具体为，采用欧拉轴/角和单位四元数描述航天器姿态，转换关系如下：

式中:q₀、q_v分别为四元数的标部和矢部，q₁,q₂,q₃分别表示q_v在复数平面内的三个分量；e_x,e_y,e_z分别表示欧拉旋转轴对应的三轴分量；θ表示航天器绕欧拉旋转轴e的旋转角。本发明采用最小角度机动方式，航天器从初始姿态机动到目标姿态，根据欧拉旋转定理，其姿态机动路径为绕e轴旋转θ角。

进一步地，步骤(2)中所述状态s_t设定为：

其中代表当前姿态向量与各个方向上的障碍物的夹角/> 则代表当前姿态向量与目标姿态目标向量相对方向/>以及夹角/>

所述动作设定为，使航天器从当前运动方向沿不同的旋转方向旋转角度至目标方向，从而得到不同的动作；其中，角度/>的计算公式为：

其中，n代表设计的动作数目。由于目标方向与当前运动方向存在一定的夹角，所以要设计不同的旋转方向，即绕不同旋转轴旋转，这样可以到目标方向，从而实现将视线轴旋转规划问题转化为平面粒子运动路径规划问题。

所述奖励设计分为三个部分，首先是基本奖励和贪婪奖励，分别用于实现实时路径规划的基本目标和加快算法的收敛速度。此外，光滑度奖励旨在提高规划路径的平滑度。所述基本奖励用于告诉智能体目标在哪里，障碍物在哪里，设计为：当到达目标姿态时给予正奖励r_T＝20，而当进入禁止指向区域时给予惩罚(即负奖励)r_F＝-20。。所述贪婪奖励基于只利用目标信息而忽略障碍物信息的贪心策略来引导航天器到达目标姿态，可以使智能体在训练过程中减少一些漫无目的的游荡，加速收敛强化学习算法的速度。为此，贪婪奖励设计为：

是基于夹角距离的奖励设计：当前一刻夹角大于当前时刻夹角则-0.1，否则-0.3，负数的设计是由于需要告诉智能体步数越多奖励越低，故如果夹角越来越大则获得更大惩罚；

是基于目标方向的奖励设计：当前一刻目标方向夹角大于当前时刻则+0.1，否则-0.1。

所述光滑度奖励用于减少两个连续动作之间不必要的方向切换，增加规划路径的平滑度。为此，将光滑度奖励设计为：

本发明构建的深度强化学习模型将深度学习和强化学习结合起来，深度学习适合归纳与总结经验知识，而强化学习利用智能体与环境交互获得的样本信息为深度学习提供经验数据，这使得深度强化学习模型具备构建出复杂智能体的潜力，使卫星能够实现从感知到决策控制的端到端自学习。构建的深度强化学习模型面对不同环境泛化性能强；回避了运动学和动力学建模；降低了实时计算量。

与现有技术相比，本发明具有以下有益效果：

(1)首先，在单个视线轴的运动空间上进行合理的平面映射。通过设计适当的动作，将视线轴旋转规划问题转化为平面粒子运动路径规划问题。

(2)深度Q网络(DQN)可以综合考虑各种约束条件。本发明方法的路径规划结果可以同时满足最短旋转路径、最优能量、禁止约束、动态约束和到达终端姿态的要求。

(3)本发明方法在各种复杂环境中具有泛化能力和较强的通用性，特别是对于不确定的环境和突然出现的禁止约束，它可以实时、快速地生成规划结果。

附图说明

图1为本发明的动作设计3D示意图；

图2为本发明的动作设计2D示意图；

图3为本发明的状态设计2D示意图；

图4为本发明的网络结构图；

图5为本发明训练数据环境2D示意图；

图6为本发明的仿真样例姿态四元数随时间变化的示意图；

图7为本发明的仿真样例角速度随时间变化的示意图；

图8为本发明的仿真样例控制力矩随时间变化的示意图。

图9为本发明的仿真样例规划姿态机动路径2D示意图。

图10为本发明的仿真样例规划姿态机动路径3D示意图。

具体实施方式

下面结合附图对发明的设计方案进行详细说明。

1航天器姿态描述与复杂姿态约束描述

航天器在执行任务时通常需要大角度姿态机动来完成各种空间探测或交会对接等航天任务，由于机动过程中伴随着诸多约束，姿态系统则需要建立相应的姿态机动描述方式。

1.1航天器姿态描述方式

首先本发明采用欧拉轴/角和单位四元数两种方式描述航天器姿态，转换关系如下。

式中:q₀、q_v分别为四元数的标部和矢部，q₁,q₂,q₃分别表示q_v在复数平面内的三个分量；e_x,e_y,e_z分别表示欧拉旋转轴对应的三轴分量；θ表示航天器绕欧拉旋转轴e的旋转角。本发明采用最小角度机动方式，航天器从初始姿态机动到目标姿态，根据欧拉旋转定理，其姿态机动路径为绕态机动路径为绕e轴旋转θ角。

1.2姿态运动学和动力学约束

对航天器姿态运动学和动力学约束的建立和分析是设计航天器姿态规划方法的前提，用以保证航天器从初始姿态到目标姿态的安全姿态机动。本发明将航天器视为三轴运动的刚体，采用四元数形式描述姿态运动学和动力学约束：

其中，ω＝[ω₁,ω₂,ω₃]是航天器的角速度，ω^×为ω的斜对称矩阵，是ω的导数，J为航天器的转动惯量。

1.3禁止指向约束

航天器需要避免敏感光学元件指向强光天体，大角度姿态机动过程中要求强光天体的方向矢量和敏感光学元件的视线轴方向夹角不能低于视场角，禁止指向约束表示形式为

1.4控制力矩约束

在实际姿态机动任务中，航天器的姿态执行机构输出的姿态控制力矩有限，形成控制力矩约束：

|T_i|＜γ₁，i＝1,2,3

式中：T_i表示航天器的控制力矩，i则代表在三轴上的分量；γ₁表示航天器的控制力矩上限幅值。

1.5角速度约束

同时，由于航天器的角速度敏感器的量程有限，航天器的角速度必须保持在限定范围内，形成航天器角速度约束：

|ω_i|＜γ₂，i＝1,2,3

式中：ω_i为航天器的角速度；γ₂表示航天器的角速度上限幅值。

2深度强化学习设置

2.1动作设置

由于禁止指向约束，姿态机动的角速度和控制力矩受到限制。因此，有必要设置一个离散的动作，使规划的轨迹满足约束。

如图1所示。上一时刻的姿态方向矢量为r^t-1，当前时刻的姿态矢量为r^t，进行了动作可以推断出下一时刻的指向向量为/>本发明使用最小角度回转路径方法来实现从初始姿态到目标姿态的机动。这种机动方式/>通过围绕旋转轴e_t旋转一个角度θ₁。e_t由以下公式计算。

在二维平面空间中查看动作的具体设计。如图2所示，当前动作方向，即绕旋转轴e_t的角速度方向，由r^t-1和r^t的方向决定。r_f表示目标方向矢量。由于目标方向和当前运动方向夹角为因此有必要设计不同的旋转方向。通过围绕不同的轴旋转可以获得不同的动作/>例如，向量r₁ ^t+1可以通过向量/>绕向量r_i ^t旋转角度/>得到，角度/>的计算公式为：

本发明将n设计为32，因此智能体可以围绕上一时刻点走32种不同的方向。

2.2状态设置

由于实时复杂环境的不确定性，卫星必须学会避开禁止的约束并找到目标。因此，要进行实时决策，需要获得至少两种类型的信息：当前姿态周围禁止约束的观测状态以及目标姿态与当前姿态之间的位置关系/>故状态设置如下：

如图3所示。其中代表当前姿态向量与各个方向上的障碍物的夹角/>也就是当前方向向量周围的向量/>与禁止指向区域的中心方向向量之间的角度，/>则代表当前姿态向量与目标姿态目标向量相对方向/>以及夹角/> 表示最大检测角度。

2.3奖励设置

首先是基本奖励和贪婪奖励，分别实现实时路径规划的基本目标和加快算法的收敛速度。此外，光滑度奖励旨在提高规划路径的平滑度。所述基本奖励R_bs用于告诉智能体目标在哪里，障碍物在哪里，设计为：当到达目标姿态时给予正奖励r_T＝20，而当进入禁止指向区域时给予惩罚(即负奖励)r_F＝-20。所述贪婪奖励基于只利用目标信息而忽略障碍物信息的贪心策略来引导航天器到达目标姿态，可以使智能体在训练过程中减少一些漫无目的的游荡，加速收敛强化学习算法的速度。为此，贪婪奖励设计为：

是基于距离的奖励设计：当前一刻距离(夹角)大于当前时刻夹角则-0.1，否则-0.3，负数的设计是由于需要告诉智能体步数越多奖励越低，如果距离(夹角)越来越远则获得更大惩罚。

2.4网络架构

深度强化学习网络的结构如图4所示。禁止指向观测被馈送到卷积神经网络模块(Convolutional Neural Network Module)，卷积神经网络模块包括：步长为2的一维卷积层(Conv1D，其包括一个尺寸为5*2的过滤器Filter)、2*2卷积核的最大池化层(MaxPool)以及一个展平层(Flatten)。然后将其输出与目标姿态信息/>拼接，并将其馈送到全连接的网络模块(Fully Connected Network Module)，全连接的网络模块包括三个32维的全连接层(Dense)。最后得到动作值Q(s_t,·)，以便进入下一个状态。

3仿真实验

对多约束条件下的航天器姿态机动进行了仿真，以验证本发明提出的姿态机动规划方法的有效性。

3.1训练数据集设置

本发明使用DQN模型来解决卫星姿态规划问题。训练集构建了一个通用的路径规划环境，其中包括航天器在姿态机动过程中需要避开的四个明亮天体。如图5所示。该环境是一个将姿态天球扩展为经度和纬度的二维平面表示。这些明亮天体在惯性系下的方向为r₁＝[0.37,0.87,-0.31]^T、r₂＝[-0.53,-0.28,0.8]^T、r₃＝[0.16,-0.96,0.22]^T和r₄＝[0.76,0,0.64]^T，视场角为θ₁＝35、θ₂＝25°、θ₃＝30°和θ₄＝20°，目标姿态为q_f＝[0.733,0.362,-0.544,0.181]^T。在每个禁止指向区域周围的8个方向上生成起点，终点位于环境的中心。将起点设置在禁止指向区域附近可以使神经网络更好地学习如何避免禁止指向约束区域。

测试集则是由500个随机生成的4个夹角为20-30°的禁止约束和30对随机生成的起始和目标姿态组成。

3.2仿真结果

在航天器姿态机动仿真验证中，经过训练的DQN模型使用表1中的样本生成了端到端的结果。航天器在z轴方向安装了一个光学相机，光学相机在航天器体坐标系下的方向向量由r_b表示。表1中列出了该样例的航天器转动惯量J、航天器在姿态机动过程中需要避开的四个强光天体的方向r_I和视场角数据θ_i、以及航天器的初始姿态q₀和目标姿态q_f以及初始角速度ω_s和目标角速度ω_f。

表1

图6至图8显示了姿态机动过程中航天器的姿态四元数、角速度和控制力矩曲线，展示了仿真的结果。图6显示，航天器可以实现从初始姿态到目标姿态的姿态机动，验证了姿态机动规划的有效性。图7和图8表明，本发明方法获得的路径满足边界约束，整个路径中的控制力矩和角速度不超过上限值。同时，姿态四元数和角速度也比较稳定。

图9和图10分别为本发明规划结果的二维和三维示意图，可以看出规划路径满足禁止指向约束且平滑。

接着用3.1中的测试集进行测试，将得到的8000个测试结果进行计算，得到成功率为98.47％。同时将得到的8000个测试结果进行计算，得到了平均能耗为0.1333N²·m²·s/scene，以及平均规划时间为每个环境0.384s。

通过上面的仿真结果我们可以看到，DQN模型用大量数据进行了训练，从而学习到了如何在节点之间合理分配控制力矩和角速度，同时生成更平滑的路径并降低能耗。

表2

此外，泛化和处理不确定性是深度强化学习的优势。面对许多复杂、不确定和未知的环境，也可以基于观测到的DQN周围环境来处理突然出现的禁止指向区域。由表2的数据显示，增加禁止约束的数量对算法成功率和规划持续时间影响很小相较于其他算法。尽管该算法是在简单的环境中训练的，但它具有在更复杂的环境中使用的泛化能力。

Claims

1.一种基于深度强化学习的复杂约束下航天器姿态规划方法，其特征在于，

构建基本航天器姿态描述方式，建立禁止指向约束、控制力矩约束、角速度约束以及姿态运动学和动力学约束，通过设定初始姿态、目标姿态以及禁止指向区域，将三维姿态天球中姿态机动问题，转化为二维平面路径规划问题；

基于所述二维平面路径规划问题对初始训练环境、动作、状态及奖励进行设定，然后建立深度强化学习模型并对模型进行训练，得到训练好的模型；

将初始姿态、目标姿态以及随机环境输入训练好的模型中，得到卫星规划路径。

2.根据权利要求1所述一种基于深度强化学习的复杂约束下航天器姿态规划方法，其特征在于，构建所述基本航天器姿态描述方式，具体为，采用欧拉轴/角和单位四元数描述航天器姿态，具体公式如下：

式中:q₀、q_v分别为四元数的标部和矢部，q₁,q₂,q₃分别表示q_v在复数平面内的三个分量；e_x,e_y,e_z分别表示欧拉旋转轴对应的三轴分量；θ表示航天器绕欧拉旋转轴e的旋转角。

3.根据权利要求2所述一种基于深度强化学习的复杂约束下航天器姿态规划方法，其特征在于，所述禁止指向约束为：

其中，r_b表示敏感光学元件在航天器体坐标系下的方向向量，r_I表示强光天体在惯性坐标系下的方向向量，C_bI表示从惯性坐标系到航天器体坐标系的姿态转移矩阵，φ代表了敏感光学元件的视场角。

4.根据权利要求1所述一种基于深度强化学习的复杂约束下航天器姿态规划方法，其特征在于，所述控制力矩约束为：

|T_i|＜γ₁，i＝1,2,3

其中，T_i表示航天器的控制力矩，i代表在三轴上的分量；γ₁表示航天器的控制力矩上限幅值。

5.根据权利要求1所述一种基于深度强化学习的复杂约束下航天器姿态规划方法，其特征在于，所述角速度约束为：

|ω_i|＜γ₂，i＝1,2,3

其中，ω_i为航天器的角速度，i代表在三轴上的分量；γ₂表示航天器的角速度上限幅值。

6.根据权利要求1所述一种基于深度强化学习的复杂约束下航天器姿态规划方法，其特征在于，将航天器视为三轴运动的刚体，所述姿态运动学和动力学约束描述如下：

7.根据权利要求1所述一种基于深度强化学习的复杂约束下航天器姿态规划方法，其特征在于，所述状态s_t设定为：

其中代表当前姿态向量与各个方向上的障碍物的夹角/> 则代表当前姿态向量与目标姿态向量相对方向/>以及夹角/>

8.根据权利要求1所述一种基于深度强化学习的复杂约束下航天器姿态规划方法，其特征在于，所述动作设定为，使航天器从当前运动方向沿不同的旋转方向旋转角度至目标方向，从而得到不同的动作；其中，角度/>的计算公式为：

其中，n代表设计的动作数目。

9.根据权利要求1所述一种基于深度强化学习的复杂约束下航天器姿态规划方法，其特征在于，所述奖励设定分为三个部分：基本奖励和贪婪奖励，分别用于实现实时路径规划的基本目标和加快算法的收敛速度；光滑度奖励则用于提高规划路径的平滑度；

所述贪婪奖励基于只利用目标信息而忽略障碍物信息的贪心策略来引导航天器到达目标姿态，贪婪奖励设计为两部分：

是基于夹角距离的奖励设计：当前一刻夹角大于当前时刻夹角则-0.1，否则-0.3，负数的设计是由于需要告诉智能体步数越多奖励越低，故如果夹角越来越大则获得更大惩罚；/>

是基于目标方向的奖励设计：当前一刻目标方向夹角大于当前时刻则+0.1，否则-0.1；

光滑度奖励设计为：