CN117699055B

CN117699055B - 一种基于深度强化学习的卫星对运动目标跟瞄方法及系统

Info

Publication number: CN117699055B
Application number: CN202410169830.0A
Authority: CN
Inventors: 芦文龙; 牛文龙; 李运; 王迪; 彭晓东; 杨震
Original assignee: National Space Science Center of CAS
Current assignee: National Space Science Center of CAS
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-04-12
Anticipated expiration: 2044-02-06
Also published as: CN117699055A

Abstract

本发明涉及宇航飞行器及设备领域，具体涉及一种基于深度强化学习的卫星对运动目标跟瞄方法及系统。该方法包括：根据卫星初始状态和运动目标的初始状态，针对卫星对运动目标的跟瞄分阶段建模，包括初始阶段、姿态机动阶段和跟瞄阶段；将完成姿态机动阶段的卫星姿态数据的误差四元数和角速度输入预先建立和训练好的跟瞄模型，输出控制扭矩控制卫星姿态，实现对运动目标的跟瞄；所述跟瞄模型基于强化学习的模型架构及奖励函数实现。本发明可以有效解决卫星对运动目标跟瞄的难题，提高跟瞄的精确度和稳定度。可以作为基准，从单颗卫星的应用扩展到在庞大的智能卫星星座中进行大范围、多时间敏感运动目标跟瞄的复杂领域。

Description

一种基于深度强化学习的卫星对运动目标跟瞄方法及系统

技术领域

本发明涉及宇航飞行器及设备领域，具体涉及一种基于深度强化学习的卫星对运动目标跟瞄方法及系统。

背景技术

近年来，对地观测卫星监视技术的长足进步促使姿态控制系统的机动能力和精确度显著提高，也对卫星观测任务的自主调度和执行产生了迫切的需求。

在传统遥感卫星系统领域，典型的重点是针对静态地面目标的任务调度和执行。在这些系统中，指令的决定和上传均由地面站操作员手动管理。同时，由于卫星与地面站之间的通信延迟，指令经常会出现延迟。尽管投入了大量资源，但使用传统方法，这一过程经常产生令人不满意的结果。这一问题有可能导致关键的观测机会被忽视，尤其是当卫星的任务是跟瞄具有时间敏感性的移动目标时更是如此。这种情况大大降低了遥感卫星系统的监视效能。

航天器星载智能系统的增强促进了卫星任务调度与执行自主性的实现。从本质上讲，通过减少卫星在轨运行期间对地面站的依赖，并将任务调度和执行的责任移交给智能系统的星载计算资源，可以减轻与地面站相关的通信延迟所造成的限制，并提高卫星对具有快速和不可预测未来运动意图等特点的运动目标的响应能力。

然而，大部分研究工作都是在观测目标是静态地面实体的前提下开展的，通常被定性为任务分配问题，可以根据卫星的可见时间窗口提前规划。与此形成鲜明对比的是，对于运动目标，需要在目标轨迹不确定的情况进行任务调度与规划，需要根据目标的动态位置变化实时调整卫星姿态。这些实时的姿态控制对于保持卫星有效载荷与运动目标之间的对准至关重要。为了应对这一挑战，迫切需要一种强化学习驱动的方法，使卫星能够自主规划和执行对时间敏感的移动目标的跟瞄。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种基于深度强化学习的卫星对运动目标跟瞄方法及系统。

为了实现上述目的，本发明提出了一种基于深度强化学习的卫星对运动目标跟瞄方法，包括：

根据卫星初始状态和运动目标初始状态，针对卫星对运动目标的跟瞄分阶段建模，包括初始阶段、姿态机动阶段和跟瞄阶段；

将完成姿态机动阶段的卫星姿态数据的误差四元数和角速度输入预先建立和训练好的跟瞄模型，输出控制扭矩控制卫星姿态，实现对运动目标的跟瞄；

所述跟瞄模型基于强化学习的模型架构及奖励函数实现。

优选的，所述卫星初始状态包括轨道六根数和在地心惯性坐标系下的坐标；所述运动目标初始状态包括运动目标在地心惯性坐标系下的坐标。

优选的，所述初始阶段的建模包括：卫星初始状态，以及对卫星的姿态四元数和角速度进行随机初始化。

优选的，所述姿态机动阶段的建模包括：

采用从轨道坐标系到本体坐标系的偏航-俯仰-滚转旋转序列进行姿态机动，当前旋转矩阵满足下式：

其中，、/>和/>分别为卫星的滚转角、俯仰角和偏航角，/>、/>和/>分别为/>、/>和/>对应的旋转分量；

通过姿态机动实现当前旋转矩阵和期望旋转矩阵/>相同，计算得到期望的滚转角/>、期望的俯仰角/>和期望的偏航角/>；

通过转换得出相应的期望四元数。

优选的，所述跟瞄阶段的建模包括：

通过对卫星施加扭矩，维持运动目标跟瞄所需的方位，确保运动目标保持在矩形视场内，直到运动目标离开卫星的姿态机动范围；所述运动目标保持在矩形视场内的判据为同时满足以下条件：

有效载荷的矢量方向和本体坐标系YOZ 平面之间的夹角小于矩形视场的水平半角/>；

有效载荷的矢量方向和本体坐标系XOZ 平面之间的夹角小于矩形视场的垂直半角/>；和

有效载荷的Z轴方向与矢量方向方向一致；

其中，水平半角和垂直半角/>是卫星有效载荷的固有属性。

优选的，所述跟瞄模型采用深度Q网络，输入为由误差四元数和卫星在时间步长t时的角速度/>构成的一个7维状态/>，输出为一个3维的控制力矩/>组成的动作，T表示转置。

优选的，所述奖励函数为：

其中，为姿态机动奖励，/>为跟瞄奖励，/>为稳定性奖励，/>为安全边界奖励；/>和/>分别为对应的权重；

。

优选的，所述方法还包括跟瞄模型的训练步骤：

构建卫星跟瞄运动目标的场景，建立训练集；

将训练集输入深度Q网络，设定学习率，并使用Adam优化器，直到满足训练要求，得到训练好的跟瞄模型。

另一方面，本发明提出了一种基于深度强化学习的卫星对运动目标跟瞄系统，所述系统包括：

建模模块，用于根据卫星初始状态和运动目标初始状态，针对卫星对运动目标的跟瞄分阶段建模，包括初始阶段、姿态机动阶段和跟瞄阶段；和

跟瞄模块，用于将完成姿态机动阶段的卫星姿态数据的误差四元数和角速度输入预先建立和训练好的跟瞄模型，输出控制扭矩控制卫星姿态，实现对运动目标的跟瞄；

所述跟瞄模型基于强化学习的模型架构及奖励函数实现。

与现有技术相比，本发明的优势在于：

1、相比于传统的卫星任务规划与执行方法，本发明不同于对地面静止目标的任务规划执行方法，本方法着重于运动目标的跟瞄，将跟瞄过程视为姿态控制问题，提出的方法可以使卫星实现精确且稳定的自主跟瞄；创新性地引入强化学习，根据误差四元数来自动地输出控制力矩来控制卫星姿态和有效载荷的指向，最终实现对目标的跟瞄；构建设计强化学习的模型架构以及奖励函数，在测试数据集上的实验证明了其设计的有效性；

2、本发明的方法可以有效解决卫星对运动目标跟瞄的难题，提高跟瞄的精确度和稳定度。

3、本发明可以作为基准，从单颗卫星的应用扩展到在庞大的智能卫星星座中进行大范围、多时间敏感运动目标跟瞄的复杂领域。

附图说明

图1是本发明方法中提及的卫星视场示意图；

图2是本发明方法在测试集的测试结果即卫星的姿态误差四元数变化图；

图3是本发明方法在测试集的测试结果即目标的累积被检测时间。

具体实施方式

本发明提出一种基于深度强化学习的卫星对运动目标跟瞄方法，包括如下步骤：

步骤A：将运动目标跟瞄过程进行了建模为初始阶段、姿态机动阶段和跟瞄阶段。

步骤B：构建卫星跟瞄运动目标的场景，仿真训练数据集和测试数据集，其中包括了卫星的轨道六根数和在地心惯性坐标系下的坐标，运动目标在地心惯性坐标系下的坐标。

步骤C：构建设计强化学习的模型架构以及奖励函数。该网络模型包括输入输出信息、数据维度的设计，考虑到跟瞄过程中的精确性和稳定性的带有权重的奖励函数的设计。

步骤D：用在训练集上训练的强化学习模型在测试集上测试卫星对运动目标的跟瞄效果。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

本发明的实施例1提出了一种基于深度强化学习的卫星对运动目标跟瞄方法，具体步骤如下：

第一步：对跟瞄任务的建模

步骤A：卫星最初以一定的初始姿态执行特定任务。然而，在从地面站接收到移动目标的历史轨迹位置后，卫星立即启动大角度的姿态机动。进行这一机动是为了优化其成像有效载荷对目标位置的定向。随后，卫星必须精确地施加控制力矩，以维持跟瞄所需的方向，确保目标始终在其视场内，直到目标离开卫星的姿态机动范围。卫星跟瞄移动目标的过程可分为三个阶段：初始状态、姿态机动阶段和跟瞄阶段。如图1所示为卫星视场示意图。

步骤A1：卫星的初始状态由重要信息组成，包括卫星的轨道六根数和在地心惯性坐标系下的坐标。考虑到卫星在执行本次任务之前可能处于其他的特定任务中，对其姿态四元数和角速度进行随机初始化。

步骤A2：假设卫星的成像有效载荷安装在卫星的Z轴上，则需要确保卫星有效载荷的正确对准，以便进行有效跟瞄。将/>表示目标位置与卫星在ECI坐标系（地心惯性坐标系）中的矢量差，可根据下式进行换算：

其中和/>分别代表目标和卫星的 ECI 位置向量。那么，主体框架的Z轴可以通过以下方式得到：

为了保证图像质量，即防止安装负载的轴发生任何旋转，选择了确保偏航角为零：

然后，根据右手定则原理就可以确定本体坐标系的剩余 Y 轴：

最后，从轨道框架到主体框架的所需旋转矩阵可以通过下式求得：

其中，分别为轨道坐标系的x轴，y轴和z轴的方向，/>分别为矩阵对应每个元素的简写，例如/>为/>，/>为/>，以此类推，/>为/>；

将滚转角、俯仰角和偏航角分别记为、/>和/>。那么相应的旋转分量由下面的式子给出：

采用从轨道坐标系到本体坐标系的偏航-俯仰-滚转（3-2-1）旋转序列进行姿态机动，当前旋转矩阵的计算过程如下：

姿态机动阶段的目的是通过姿态旋转使有效载荷的指向与矢量保持一致。简单地说，我们的目标是使当前旋转与期望旋转相同（/>）。然后，期望的滚转角/>和期望的俯仰角/>可以用下面的公式表示：

完成上述计算以确定所需的三个轴的旋转角度后，我们就可以通过转换得出相应的期望四元数。

步骤A3：在跟瞄阶段，卫星必须精确地施加扭矩，以维持目标跟瞄所需的方位，确保目标保持在其视场内，直到目标离开卫星的姿态机动范围。矩形视场可由两个参数定义：水平半角和垂直半角/>，这两个参数都是有效载荷的固有属性。

将当前旋转后卫星的 x、y 和 z 轴分别记为、/>和/>，其值分别为：

然后下面的判据可以判断目标是否在有效载荷的矩形视场内，具体如下：

1）和 YOZ 平面之间的夹角应该小于水平半角/>。

2）和 XOZ 平面之间的夹角应小于垂直半角/>。

3）有效载荷（z 轴）的方向应与矢量/>方向一致。

公式形式为：

结合上述的公式，我们就能确定卫星是否对目标进行了有效跟瞄。

第二步：构建训练数据集和测试数据集

步骤B：构建卫星跟瞄运动目标的场景，仿真训练集和测试集，其中包括了卫星的轨道六根数和在地心惯性坐标系下的坐标，运动目标在地心惯性坐标系下的坐标。

步骤B1：在指定的区域中仿真卫星跟瞄运动目标的场景，仿真时间间隔设置为1s。

步骤B2：考虑到目标运动的时间敏感性、轨迹随机性，将每个目标的运动轨迹的高度设置在 [a1, a2] km范围内的随机数，速度设置在 [v1, v2]km/s范围内的随机数，目标在随机设置的地点之间移动。仿真所需要的参数如表1所示：

表1 仿真参数设置

步骤B3：导出卫星和目标的信息至txt文件中，便于算法进行读入。

步骤B4：将所仿真的场景按照一定比例进行训练集：测试集的划分。

第三步：构建设计强化学习的模型架构以及奖励函数

步骤C1：创建深度强化学习的网络模型。采用深度 Q 网络（DQN）算法，以拟合 Q迭代（FQI）为基础，利用不同的技巧来稳定神经网络的学习：它使用重放缓冲区、目标网络和梯度裁剪。

重放缓冲区会存储若干条经验。网络会重复使用经验，数据利用率高，对于数据获取困难的情况尤其有用。

目标网络的引入增加了学习的稳定性，在更新过程中，只更新评估网络的权重，而目标网络的权重保持不变。在更新了一定步长后，再将更新过的评估网络的权重复制给目标网络，来实现稳定性。

梯度裁剪通常用于处理训练过程中可能出现的梯度爆炸问题，通过在梯度更新之前对梯度进行缩放，确保梯度的范数不超过预定的阈值。

步骤C2：为了实现卫星对运动目标的跟瞄，即将有效载荷的方向与目标的位置精确对齐，这需要精确地输出控制力矩来实现。因此，本发明将深度强化学习算法的输入设置由误差四元数和卫星在时间步长 t 时的角速度构成的一个 7 维状态：

和一个3维的控制力矩组成的动作：

对控制问题进行了离散化。表2显示了可能的动作（控制扭矩）

表2动作（控制扭矩）

步骤C3：奖励函数在强化学习代理的训练过程中起着关键的激励作用，对学习结果产生重大影响。在卫星对目标跟瞄的背景下，主要目标是精确地应用控制力矩进行卫星姿态控制，以实现快速跟瞄目标和同时增强有效载荷稳定性的双重目的，从而在整个跟瞄过程中优化图像质量。

1）姿态机动奖励

姿态机动的目的是使有效载荷的指向与矢量一致，当/>等于 1 时，意味着指向没有偏差，获得了最大奖励，不需要再进行姿态机动。

2）跟瞄奖励

一旦卫星对目标进行了有效跟瞄，卫星代理将获得相对较高的奖励。

3）稳定性奖励

在跟瞄过程中，为了保持载荷的稳定性，有必要将卫星本体的角速度保持在相对较低的水平，以确保图像质量，因此我们对角速度进行了限制。

4）安全边界奖励

在姿态机动过程中，考虑到避免对卫星元件造成不可逆转的损坏，角速度不能太高。当任何方向的角速度超过设定的限制时，卫星代理将受到巨大的惩罚。

最后，奖励总和可通过下式求得，其中和/>分别为各奖励的权重。

第四步：训练与测试

步骤D：用在训练集上训练的强化学习模型在测试集上测试卫星对运动目标的跟瞄效果，具体过程包括：

步骤D1：初始化步骤C1中提出的深度强化学习网络模型。

步骤D2：将步骤B中仿真的训练数据集输入到网络模型中，并在步骤C提出的奖励函数的指引下训练网络。将学习率设置为 0.0001，并使用 Adam 优化器，使用超参数 =0.9 和/> = 0.999。训练的总时间步数设定为 5e6。训练阶段在 GeForce RTX 3080（10GB）GPU 上耗时约20小时，批次大小为32。训练结束后，将网络模型保存为pth文件。

步骤D3：创建网络模型，加载训练好的pth文件，读取预训练权重。将测试数据集输入到网络模型中，计算出跟瞄过程中卫星的姿态误差四元数变化，目标的累积被检测时间。

步骤D4：将检测结果以及记录的数据信息保存到txt文件中，通过matplotlib 可视化出数据信息的变化趋势。示意图如图2和图3所示，其中图2是卫星的姿态误差四元数变化图；图3是目标的累积被检测时间。

实施例2

本发明的实施例2提出了一种基于深度强化学习的卫星对运动目标跟瞄系统，该系统基于实施例1的方法实现，包括：

建模模块，用于根据卫星初始状态和运动目标初始状态，针对卫星对运动目标的跟瞄分阶段建模，包括初始阶段、姿态机动阶段和跟瞄阶段；

所述跟瞄模型基于强化学习的模型架构及奖励函数实现。

综述：

本发明详细建模卫星与运动目标之间的跟瞄过程，介绍了一种实现卫星对运动目标精确且稳定的跟瞄的创新方法。该发明将运动目标的跟瞄过程建模为初始阶段、姿态机动阶段和跟瞄阶段，并借助深度强化学习模型，输入误差四元数和角速度信息来输出力矩控制卫星的姿态。在考虑到精确性和稳定性的同时，通过设计奖励函数进行指导，成功实现了卫星对运动目标进行精确且稳定的跟瞄。

考虑到依靠大规模智能卫星星座进行目标监控的新兴趋势，该研究成果提供了理论基础和实验见解，具有奠基性意义。它为未来在智能卫星星座内跟瞄多个时间敏感的移动目标的研究奠定了基础。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的卫星对运动目标跟瞄方法，包括：

所述跟瞄模型基于强化学习的模型架构及奖励函数实现；

所述姿态机动阶段的建模包括：

，

其中，、/>和/>分别为卫星的滚转角、俯仰角和偏航角，/>、/>和/>分别为/>、/>和对应的旋转分量；

通过姿态机动实现当前旋转矩阵和期望旋转矩阵/>相同，计算得到期望的滚转角 />、期望的俯仰角 />和期望的偏航角/>；

通过转换得出相应的期望四元数；

所述跟瞄阶段的建模包括：

通过对卫星施加扭矩，维持运动目标跟瞄需要的方位，确保运动目标保持在矩形视场内，直到运动目标离开卫星的姿态机动范围；所述运动目标保持在矩形视场内的判据为同时满足以下条件：

有效载荷的矢量方向和本体坐标系YOZ平面之间的夹角小于矩形视场的水平半角/>；

有效载荷的矢量方向和本体坐标系XOZ平面之间的夹角小于矩形视场的垂直半角/>；和

有效载荷的Z轴方向与矢量方向方向一致；

其中，水平半角和垂直半角/>是卫星有效载荷的固有属性；

所述跟瞄模型采用深度Q网络，输入为由误差四元数以及卫星在时间步长t时的角速度/>构成的一个7维状态/>，输出为一个3维的控制力矩组成的动作/>，T表示转置。

2.根据权利要求1所述的基于深度强化学习的卫星对运动目标跟瞄方法，其特征在于，所述卫星初始状态包括轨道六根数和在地心惯性坐标系下的坐标；所述运动目标初始状态包括运动目标在地心惯性坐标系下的坐标。

3.根据权利要求1所述的基于深度强化学习的卫星对运动目标跟瞄方法，其特征在于，所述初始阶段的建模包括：卫星初始状态，以及对卫星的姿态四元数和角速度进行随机初始化。

4.根据权利要求1所述的基于深度强化学习的卫星对运动目标跟瞄方法，其特征在于，所述奖励函数为：

，

其中，为姿态机动奖励，/>为跟瞄奖励，/>为稳定性奖励，/>为安全边界奖励；/> 和 /> 分别为对应的权重；

，

。

5.根据权利要求4所述的基于深度强化学习的卫星对运动目标跟瞄方法，其特征在于，所述方法还包括跟瞄模型的训练步骤：

构建卫星跟瞄运动目标的场景，建立训练集；

6.一种基于权利要求1的基于深度强化学习的卫星对运动目标跟瞄方法的系统，其特征在于，所述系统包括：

所述跟瞄模型基于强化学习的模型架构及奖励函数实现。