CN113033072A

CN113033072A - 一种基于多头注意力指针网络的成像卫星任务规划方法

Info

Publication number: CN113033072A
Application number: CN202110182573.0A
Authority: CN
Inventors: 赵凡宇; 马一凡; 金仲和; 王春晖; 王鑫
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-06-25

Abstract

本发明针对成像卫星任务规划问题约束复杂、求解空间大和输入任务序列长度不固定的特点，基于深度强化学习求解组合优化的思路，公开了一种基于多头注意力指针网络的成像卫星任务规划方法。首先，综合考虑时间窗口约束、资源约束对成像卫星任务规划问题进行建模。其次，基于多头注意力指针网络建立序列决策算法模型。最后，基于Actor Critic强化学习算法对算法模型进行训练。该方法实现了对成像卫星任务规划问题有效的求解，相比于传统优化算法具有更快的求解速度和获得更高的收益，提出的多头注意力指针网络模型相比于一般指针网络模型具有更快的训练速度和泛化能力。

Description

一种基于多头注意力指针网络的成像卫星任务规划方法

技术领域

本发明涉及成像卫星任务规划领域，具体涉及一种基于多头注意力指针网络的成像卫星任务规划方法。

背景技术

成像卫星任务规划问题是在考虑时间窗口和资源约束的条件下，对卫星资源加以分配，制定出合理的任务观测序列，从而实现有限的卫星资源得以高效利用。随着成像卫星应用领域的不断扩大和成像卫星用户需求的不断增加，如何对大量用户观测任务进行规划，以充分发挥成像卫星的工作效益成为了卫星在轨运行的重要研究内容，也成为了实现卫星智能化的重要研究课题。

针对成像卫星任务规划问题，目前国内外已经展开了丰富的研究。王法瑞在其硕士论文《基于改进遗传算法的微小卫星自主任务规划方法研究》中考虑时间窗口约束、电池电量约束和存储空间约束对单星任务规划问题进行了建模。考虑卫星任务的复杂多样性和时间相关性，在遗传算法中设计了基于定长整数序列编码的个体编解码规则。面向卫星在轨应用需求，考虑星上计算资源受限，提出了一种多模式交叉、变异的改进遗传算法。贺仁杰等人在《成像卫星任务规划技术》一书中，综合考虑了成像卫星的各种条件，研究了卫星在成像过程中的各种约束条件，综合分析了目前成像卫星任务规划领域的研究情况。书中首先针对卫星的成像问题的研究背景做了深入的分析，考虑卫星的成像特性和各种约束条件，将任务规划问题分割为预处理和规划求解两部分，建立了预处理模型，然后分别研究了单星观测任务规划技术，多星综合任务规划技术，动态任务规划技术和自主任务规划技术，最后详细介绍了一种卫星任务规划仿真系统，并对未来的成像卫星任务规划做了展望。LiY等人在2014年的中国航空学报(英文版)上发表的《Rescheduling of observingspacecraft using fuzzy neural network and ant colony algorithm》论文中，针对不确定性条件下的卫星观测任务重调度问题，提出模糊神经网络和混合重调度策略进行处理。首先建立卫星观测任务重调度的数学模型，并通过提出引入自适应控制机制的蚁群算法来进行求解。最后在某成像卫星的重调度问题上进行应用，具有较好的可行性和有效性。Wei J等人在2013年的ICMSE(International Conference on Management Science andEngineering)会议上发表的《The mission planning model and improved ant colonysolving algorithm for networking SAR satellites》论文中，针对组网合成孔径雷达(synthetic aperture radar，SAR)面临的任务多、调度复杂和求解空间大的问题，构建多目标优化模型，完成组网SAR的协同规划。提出结合蚁群算法和模拟退火算法解决模型的高维离散组合优化问题，以提高算法的收敛速度和鲁棒性。

成像卫星任务规划问题是一类多约束组合优化问题，模型的求解空间大，目前国内外的普遍采用智能启发式优化算法对成像卫星任务规划问题进行求解。比如蚁群算法、遗传算法、模拟退火算法和禁忌搜索算法。这些算法虽然实现了对成像卫星任务规划问题有效的求解，但是存在着启发式因子设计困难、状态转移复杂和迭代求解带来的寻优速度慢的问题。近几年来，出现了一些基于深度强化学习求解组合优化问题的研究。Vinyals等人在2015年的NIPS会议上发表的《Pointer networks》论文中提出Pointer Networks(PN)求解了一些经典的组合优化问题，比如旅行商问题(traveling salesman problem，TSP)和背包问题(knapsack problem，KP)，使用注意力机制计算得到Softmax概率分布，作为指针(Pointer)指向输入序列中的元素，对输入序列进行组合，最后使用有监督方法对模型进行训练。Bello等人在发表的论文《Neural combinatorial optimization withreinforcement learning》中，使用Actor Critic强化学习算法对PN进行训练，在节点长度为100的TSP问题上获得了近似最优解，解决了有监督训练中训练数据获取困难、精度不足的问题。Nazari等人在发表的论文《Reinforcement learning for solving the vehiclerouting problem》中，对Bello等人所使用算法模型中的Encoder部分进行了改进，用一个嵌入层替换掉了PN的编码器部分。这使得输入序列中的动态元素发生改变时，可以并行地对Encoder进行更新，减小了计算的复杂度，最后对交通路线规划问题(vehicle routingproblem，VRP)进行了求解。本发明对上述基于深度强化学习求解组合优化的问题展开研究，综合考虑时间窗口约束、资源约束对成像卫星任务规划问题进行建模，并提出一种多头注意力指针网络(multi-head attention pointer networks，MHA-PN)实现对成像卫星任务规划问题进行求解。

发明内容

本发明针对成像卫星任务规划问题约束复杂、求解空间大和输入任务序列长度不固定的特点，基于深度强化学习求解组合优化的思路，提出了一种基于多头注意力指针网络对成像卫星任务规划问题进行求解的方法。首先，综合考虑时间窗口约束、资源约束对成像卫星任务规划问题进行建模。其次，基于多头注意力指针网络建立序列决策算法模型。最后，基于Actor Critic强化学习算法对算法模型进行训练。该方法实现了对成像卫星任务规划问题有效的求解，相比于传统优化算法具有更快的求解速度和获得更高的收益，提出的多头注意力指针网络模型相比于一般指针网络模型具有更快的训练速度和泛化能力。

基于多头注意力指针网络的成像卫星任务规划方法包括以下步骤：

(1)综合考虑时间窗口约束和资源约束对成像卫星任务规划问题进行建模；

(2)建立序列到序列的算法模型结构，分为编码器和解码器部分；

(3)在解码器的每个解码时间步骤，依次更新动态元素和Mask向量来考虑成像卫星任务规划问题所要满足的约束；

(4)基于Actor Critic强化学习算法对算法模型进行训练。

在步骤(1)中，在对成像卫星任务规划问题的建模过程中，成像卫星在执行观测任务时，每个地面观测任务都有可见的时间窗口，卫星通过侧摆和在轨运行完成任务间转移时需要消耗时间和电量，每个地面目标的观测也要消耗电量和存储量。在进行成像卫星任务规划时，需综合考虑以下约束：

(1-1)时间窗口约束：由于成像卫星机动能力有限，要同时考虑任务执行时间和任务转移时间的约束，下一个任务执行的开始时间必须大于当前任务执行结束时间和卫星侧摆机动时间之和；

(1-2)存储量约束：在执行每个观测任务时，需要消耗卫星的存储空间。本发明考虑无数据下传状态下的任务规划，完成所有规划出的观测任务所需消耗的存储空间不能超过卫星所提供的存储总容量；

(1-3)电量约束：卫星在执行观测任务及在任务间进行姿态机动转移时，需要消耗卫星的电量。本发明仅考虑无在轨充电的过程，完成所有规划的观测任务所需消耗的电量不能超过卫星所提供的总电量。

在步骤(2)中，将输入任务集合X＝{x₁,x₂,...,x_M}中的每个任务x_i分为两部分，分别是静态元素集合s_i和动态元素集合

基于序列到序列的结构，提出一种MHA-PN的算法模型，分为编码器和解码器部分：

(2-1)编码器部分：使用一维卷积层作为嵌入层(embedding layer，EL)并作为算法模型的编码器，将输入序列中每个任务的静态元素和动态元素分别映射为高维向量(通常为256-2048维)。即对每个任务

i∈[1,M]，EL将其映射为向量

i∈[1,M]；

(2-2)解码器部分：使用GRU作为算法模型的解码器。y^t为在解码时间步骤t时所选择要执行的任务序号，将其对应的静态元素

经EL映射后得到的向量

作为解码器的输入。h^t为解码器在解码时间步骤t时的得到的隐含层状态。

在步骤(3)中，在每个解码时间步骤t时，根据编码器的输出向量

i∈[1,M]、解码器的输出隐含层状态h^t和Mask向量计算得到指向输入序列各个节点的Softmax概率分布，选择概率最大的节点作为下一解码时间步骤t+1时的输出y^t+1。根据MHA-PN机制所选择的输出节点y^t+1，依次对输入序列中的动态元素

i∈[1,M]和Mask向量进行更新。

在步骤(4)中，针对设定的成像卫星任务规划场景，对数据集中的任务元素进行设定，制作数据集。以任务规划可获得的收益为优化目标，基于Actor Critic强化学习算法对算法模型进行训练，其由两个神经网络构成，分别为Actor网络和Critic网络组成。其中，Actor网络即MHA-PN算法模型，根据输入任务序列计算得到对应输入任务序列各节点的概率分布。Critic网络为由三层一维卷积构成的前向网络，根据输入任务序列计算得到规划可获得收益率的评估值。

上述步骤(3)中所述的更新具体如下：

每个任务x_i的静态元素集合s_i＝{ws_i,ang_i,we_i,con_i,r_i,m_i,e_i}，其中，ws_i为任务可观测时间窗口的开始时间，ang_i为成像卫星在执行任务观测时沿滚转轴方向侧摆的角度，we_i为任务可观测时间窗口的结束时间，con_i为任务执行所需要的时间，r_i为任务执行可获得的收益，m_i为任务执行所需消耗的存储空间，e_i为任务执行所需消耗的电量；每个任务x_i的动态元素集合为

其中，在每个解码时间步骤t时，

标记当前任务是否满足时间窗口约束，

标记当前任务是否已执行过，

记录卫星当前的存储量剩余，

记录卫星当前的电量剩余，

记录卫星当前沿滚转轴方向侧摆的位置；

首先根据任务序号y^t+1，获取

获取每个任务i的信息：ang_i，ws_i；

遍历每个任务i，选择满足时间窗口约束的任务；

将所有满足时间窗口约束的任务中动态元素

进行置1，其他不满足时间窗口约束的任务中动态元素

进行置0；

将y^t+1对应的任务中动态元素

进行置0；

根据y^t+1获取

并对动态元素

进行更新，将其更新为

根据y^t+1获取

并结合

和

对动态元素

进行更新，将其更新为

其中

e_s为任务转移时卫星进行姿态调整单位角度消耗的电量；

根据

对动态元素

进行更新，将其更新为

将Mask向量初始化为[1,1,...1]；

根据动态元素

将Mask向量中已经访问过的任务对应的位置置0；

根据动态元素

将Mask向量中不满足时间窗口约束的任务对应的位置置0；

根据动态元素

判断如果存储空间耗尽，将Mask向量中所有位置置0；

根据动态元素

判断如果电量耗尽，将Mask向量中所有位置置0。

采用本发明的方法可以实现对成像卫星任务规划问题的有效求解，而且相比于传统优化算法，本发明的方法具有更快的求解速度并可获得更高的收益，所提出的多头注意力指针网络模型相比于一般指针网络模型具有更快的训练速度，对于不同长度的输入样本序列具有更强的泛化能力，可以更好地泛化在密集观测场景下的成像卫星任务规划的求解上。

附图说明

图1为成像卫星任务规划问题所要满足时间窗口约束的示意图；

图2为本发明所提出的MHA-PN算法模型的结构示意图；

图3为MHA-PN算法模型训练过程收敛曲线；

图4为MHA-PN算法模型推理结果示意图；

图5为不同长度下MHA-PN算法推理收益率分布。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

将输入任务集合定义为X＝{x₁,x₂,...,x_M}，其中M为输入候选任务的个数。将输入任务集合中的每个任务x_i分为两部分，分别为静态元素集合s_i和动态元素集合

其中，静态元素始终保持不变，用来存储任务序列中各个任务的基本信息，动态元素在每个解码时间步骤t时发生动态变化，用来记录任务序列中各个任务实时的状态。此时，可将输入任务集合重新定义为

i∈[1,M]}。将规划所得的输出任务集合定义为Y＝{y¹,y²,...,y^N}，其中N为规划结果中要执行的任务个数，y^t为在每个解码时间步骤t时所选择要执行的任务序号。

将每个任务x_i的静态元素集合定义为s_i＝{ws_i,ang_i,we_i,con_i,r_i,m_i,e_i}，其中，ws_i为任务可观测时间窗口的开始时间，ang_i为成像卫星在执行任务观测时沿滚转轴方向侧摆的角度，we_i为任务可观测时间窗口的结束时间，con_i为任务执行所需要的时间，r_i为任务执行可获得的收益，m_i为任务执行所需消耗的存储空间，e_i为任务执行所需消耗的电量。将每个任务x_i的动态元素集合定义为

其中，在每个解码时间步骤t时，

标记当前任务是否满足时间窗口约束，

标记当前任务是否已执行过，

记录卫星当前的存储量剩余，

记录卫星当前的电量剩余，

记录卫星当前沿滚转轴方向侧摆的位置；

如图1所示，为成像卫星任务规划问题所要满足的时间窗口约束示意图，其中横轴表示时间，纵轴表示成像卫星在执行任务观测时沿滚转轴方向侧摆的角度。假设y^t和y^t+1分别为在解码时间步骤t和t+1时所选择要执行的任务序号。在任务y^t的可观测时间窗口中，

为任务可观测时间窗口的开始时间，

为任务执行的开始时间，

为任务执行的结束时间，

为任务可观测时间窗口的结束时间。假设任务转移时卫星进行姿态调整消耗的时间为t_slew，任务转移时卫星进行姿态调整单位角度消耗的时间为t_s。任务y^t在执行结束后，进行姿态调整转移至任务y^t+1，此时要位于任务y^t+1的时间窗口之前，任务y^t+1在任务y^t+1的时间窗口开始时间开始执行。如果任务y^t+1的时间窗口为可选择的时间窗口，则需要满足的时间窗口约束为：

式中，

和t_slew的计算公式为：

任务y^t+1的执行开始时间

的计算公式为：

假设卫星的总存储空间为M_total，卫星的总电量为E_total，任务转移时卫星进行姿态调整消耗的电量为e_slew，任务转移时卫星进行姿态调整单位角度消耗的电量为e_s，决策函数

表示在解码时间步骤t时任务y^t被执行。成像卫星任务规划所要满足的存储约束和电量约束为：

综合考虑各类约束，本发明将收益率R_rate(Y|X⁰)作为优化的目标，定义目标函数为：

如图2所示，为本发明所提出的MHA-PN算法模型的结构示意图。使用一维卷积层作为EL并作为算法模型的编码器，使用GRU作为MHA-PN算法模型的解码器，GRU内部引入了两个门控单元，分别为重置门r^t和更新门z^t：1)重置门r^t表示上一解码时间步骤的隐含层状态对候选隐含层状态

中的影响程度；2)更新门z^t表示上一解码时间步骤的隐含层状态对当前状态中的影响程度。假设在解码时间步骤t时的隐含层状态为h^t，其在解码过程中的更新公式为：

r^t＝σ(W_rx^t+U_rh^t-1+b_r)

z^t＝σ(W_zx^t+U_zh^t-1+b_z)

式中，W_r、W_z和W_h为输入权重矩阵，U_r、U_z和U_h为隐含层权重矩阵，b_r、b_z和b_h为偏置向量，⊙表示Hadamard点积运算，

为在解码时间步骤t时的输入向量，y^t为在解码时间步骤t时所选择要执行的任务序号，

为y^t对应的静态元素

经EL映射后得到的高维向量。σ(·)和tanh(·)为激活函数，分别为Sigmoid函数和双曲正切tanh函数，计算公式分别为：

和

本发明借鉴多头注意力(multi-head attention，MHA)机制的思想，对指针网络进行改进，提出了MHA-PN机制。多头注意力机制能够综合不同表示子空间中模型所学习到的信息，提高了模型的学习能力。由于整个过程是并行计算的，提升了模型的计算效率，可以加快模型的训练速度。将编码器的输出向量

和解码器的输出隐含层状态h^t的维度平均划分为n部分，假设

和h^t的维度为d_model，划分后的向量为

和

其维度为d_k，则有：d_model＝d_k×n

MHA-PN机制的具体计算过程为：1)通过注意力机制计算得到各部分的对齐向量(Alignment Vector)

式中，W_a和V_a为权重矩阵，tanh为激活函数，“；”表示向量之间的拼接操作；2)对编码器的输出向量进行加权累加计算得到各部分的背景向量(Context Vector)

式中，“；”表示向量之间的拼接操作；3)根据Glimpse机制，在划分后的各部分上分别进行非线性映射，计算得到各部分的中间向量(Middle Vector)

式中，W_c为权重矩阵，tanh为激活函数，“；”表示向量之间的拼接操作；4)将各部分计算得到的中间向量

进行合并，经映射后得到对齐向量(Alignment Vector)a^t：

式中，V_c为权重矩阵，“；”表示向量之间的拼接操作；5)计算得到下一解码时间步骤t+1时的输出节点y^t+1，其指向输入序列各个节点的Softmax概率分布P(y^t+1|Y^t,X^t)＝Softmax(a^t+log(Mask))，式中，X^t和Y^t分别为时间步骤t时的输入任务集合和输出任务集合，Mask为Mask向量。

本发明使用Mask向量来考虑成像卫星任务规划问题中的各类约束，其长度和输入序列的长度相等，每位的取值为0或1。当Mask向量中某位的值为0时，将计算所得的Softmax概率分布对应位的概率值为0，可将对应的任务排除。在每个解码时间步骤t时，根据MHA-PN机制选择得到的输出节点y^t+1，依次对输入序列中的动态元素d^t和Mask向量进行更新，更新算法的伪代码如表1所示。本文将Mask向量初始化为[1,0,...,0]，以保证从第一个任务开始执行。当Mask向量为[0,0,...,0]时，说明此时已经满足终止条件：1)所有的任务均不满足时间窗口约束；2)存储空间耗尽；3)电量耗尽。此时结束解码的过程，完成本次的任务规划并得到最终的输出序列Y＝{y¹,y²,...,y^N}。

表1

本发明使用Actor Critic算法对MHA-PN算法模型进行训练，训练过程的伪代码如表2所示，Actor Critic算法由两部分神经网络构成，分别为：

1)Actor网络：即MHA-PN算法模型，根据输入任务序列计算得到对应输入任务序列各节点的概率分布。：

式中，

为每批训练样本中的第i个训练样本序列，Y_i为MHA-PN算法模型根据训练样本序列

得到的输出任务序列，

为MHA-PN算法模型根据训练样本序列

得到输出序列Y_i的概率，

为MHA-PN算法模型对训练样本序列

进行规划所得的收益率；

2)Critic网络：根据输入任务序列计算得到规划可获得收益率的评估值。Critic网络的优化目标为均方误差，对于参数的梯度计算公式为：

式中，

为Critic网络的参数，

为Critic网络对训练样本序列

可获得收益率的估计值。

表2

每个任务的静态元素、动态元素和场景参数的设定如表3所示，其中，[a,b]表示对应元素随机产生，并且满足a到b之间的均匀分布。

训练数据集的设定如下：样本序列的长度为50，训练样本的数量为1e5。模型训练的超参数设定如下：每批训练样本的数量为256，训练的轮次(Epoch)数为1，Actor网络的学习率为5e-4，Critic网络的学习率为5e-4，学习率的衰减步长为1000，学习率的衰减比率为0.8，优化器为Adam。模型的超参数设定如下：EL的隐含层维度为512，GRU的隐含层维度为512，GRU的层数为1，MHA-PN机制的隐含层维度为512，注意力头数为8，模型的Dropout比率为0.1。实验环境的设定如下：操作系统为Ubuntu16.04，CPU为Intel Xeon E5-2620，GPU为RTX2080Ti，深度学习框架为Pytorch。基于Actor Critic强化学习算法，对MHA-PN算法模型进行训练。如图3所示，为MHA-PN算法模型训练过程收敛曲线。其中，最上方线条为Actor网络的Loss收敛曲线，中间线条为模型所获得收益率的收敛曲线，最下方线条为Critic网络的Reward收敛曲线。模型所获得收益率最终收敛至67.6％。

表3

元素参数	设定	数据类型
			ws<sub>i</sub>	[0,4.0]	浮点变量
ang<sub>i</sub>	[-0.25,0.25]	浮点变量
			we<sub>i</sub>	[ws<sub>i</sub>+0.03,ws<sub>i</sub>+0.08]	浮点变量
con<sub>i</sub>	[0.01,0.02]	浮点变量
			r<sub>i</sub>	[0.1,0.9]	浮点变量
m<sub>i</sub>	[0,0.01]	浮点变量
			e<sub>i</sub>	[0.1,0.01]	浮点变量
win<sub>i</sub>	初始设定为1	整型变量，0/1
			acc<sub>i</sub>	初始设定为1	整型变量，0/1
mem<sub>i</sub>	初始设定为0.5	浮点变量
			pow<sub>i</sub>	初始设定为0.5	浮点变量
pos<sub>i</sub>	初始设定为0	浮点变量
			t<sub>s</sub>	设定为0.2	浮点常量
e<sub>s</sub>	设定为0.01	浮点常量

如图4所示，为MHA-PN算法模型推理结果示意图。基于已经训练好的MHA-PN算法模型，可直接对长度为50的输入样本序列进行推理。推理结果中，横轴表示时间，纵轴表示成像卫星在执行任务观测时沿滚转轴侧摆的角度，每个横条表示任务可观测的时间窗口，时间窗口中的两个点分别表示任务的执行开始时间和执行结束时间，时间窗口间的连线表示在任务转移时卫星进行姿态调整的过程。卫星从Start位置开始依次对规划目标进行观测，到达End位置时结束本次过境的观测。根据模型的推理结果，完成观测目标数量为31个，获得的收益率为63.2％。

将PN算法模型和MHA-PN算法模型，采用同样的训练和模型超参数设定，在同样的数据集和硬件平台上进行训练，算法模型的指标对比如表4所示，从中可以看出，相比于Nazari等所使用的PN算法模型，MHA-PN算法模型获得了更高的收益率，同时训练速度也获得了提升，提高了20.0％。

表4

算法模型	收益率	训练时间	速度提升
				PN	69.2％	7214.7s/epoch	-
MHA-PN	69.6％	5770.9s/epoch	20％

如图5所示，为不同长度下MHA-PN算法推理收益率分布，其中(a)、(b)、(c)、(d)、(e)和(f)6幅子图分别对应长度为50、100、125、150、175和200的样本序列的收益率分布。从图中可以看出，随着输入样本序列长度的增加，收益率对于PN和MHA-PN算法模型来说，收益率都产生了明显的下降。这是由于任务时间窗口分布的时间跨度是固定的，所以当输入样本序列的长度增加时，任务将的分布变得更加密集，从而产生了更多时间窗口冲突的任务，算法模型推理可获得的收益率产生了下降。随着输入样本序列长度的增加，相比于PN算法模型和MHA-PN算法模型推理获得的收益率的优势越来越明显，说明MHA-PN对于不同长度的输入样本序列具有更强的泛化能力，可以更好地泛化在密集观测场景下的成像卫星任务规划的求解上。不同长度样本序列下PN算法模型和MHA-PN算法模型推理获得的收益率的均值对比如表5所示。

表5

算法模型

n＝50

n＝100

n＝125

n＝150

n＝175

n＝200

PN

68.75％

53.05％

44.72％

32.88％

27.38％

25.31％

MHA-PN

69.45％

53.36％

48.91％

44.43％

41.68％

38.11％

Claims

1.一种基于多头注意力指针网络的成像卫星任务规划方法，其特征在于，该方法首先综合考虑时间窗口约束、资源约束对成像卫星任务规划问题进行建模，然后基于多头注意力指针网络建立序列决策算法模型，最后基于Actor Critic强化学习算法对算法模型进行训练；具体包括如下：

(1)综合考虑时间窗口约束、存储量约束和电量约束对成像卫星任务规划问题进行建模；

(4)基于Actor Critic强化学习算法对算法模型进行训练。

2.根据权利要求1所述的基于多头注意力指针网络的成像卫星任务规划方法，其特征在于，在步骤(1)中进行成像卫星任务规划时，需综合考虑以下约束：

(1-2)存储量约束：在执行每个观测任务时，需要消耗卫星的存储空间，考虑无数据下传状态下的任务规划，则完成所有规划出的观测任务所需消耗的存储空间不能超过卫星所提供的存储总容量；

(1-3)电量约束：卫星在执行观测任务及在任务间进行姿态机动转移时，需要消耗卫星的电量，仅考虑无在轨充电的过程，完成所有规划的观测任务所需消耗的电量不能超过卫星所提供的总电量。

3.根据权利要求1所述的基于多头注意力指针网络的成像卫星任务规划方法，其特征在于，在步骤(2)中，将输入任务集合X＝{x₁,x₂,...,x_M}中的每个任务x_i分为两部分，分别是静态元素集合s_i和动态元素集合

基于序列到序列的结构，建立一种MHA-PN的算法模型，分为编码器和解码器部分：

(2-1)编码器部分：使用一维卷积层作为嵌入层EL并作为算法模型的编码器，将输入序列中每个任务的静态元素和动态元素分别映射为高维向量，即对每个任务

采用EL将其映射为向量

(2-2)解码器部分：使用GRU作为算法模型的解码器，y^t为在解码时间步骤t时所选择要执行的任务序号，将其对应的静态元素

经EL映射后得到的向量

作为解码器的输入，解码器在解码时间步骤t时得到的隐含层状态为h^t。

4.根据权利要求3所述的基于多头注意力指针网络的成像卫星任务规划方法，其特征在于，在步骤(3)中，在每个解码时间步骤t时，根据编码器的输出向量

解码器的输出隐含层状态h^t和Mask向量计算得到指向输入序列各个节点的Softmax概率分布，选择概率最大的节点作为下一解码时间步骤t+1时的输出任务序号y^t+1，依次对输入序列中的动态元素

和Mask向量进行更新。

5.根据权利要求4所述的基于多头注意力指针网络的成像卫星任务规划方法，其特征在于，所述的对动态元素和Mask向量进行更新，具体如下：

其中，在每个解码时间步骤t时，

标记当前任务是否满足时间窗口约束，

标记当前任务是否已执行过，

记录卫星当前的存储量剩余，

记录卫星当前的电量剩余，

记录卫星当前沿滚转轴方向侧摆的位置；

首先根据任务序号y^t+1，获取

获取每个任务i的信息：ang_i，ws_i；

遍历每个任务i，选择满足时间窗口约束的任务；

将所有满足时间窗口约束的任务中动态元素

进行置1，其他不满足时间窗口约束的任务中动态元素

进行置0；

将y^t+1对应的任务中动态元素

进行置0；

根据y^t+1获取

并对动态元素

进行更新，将其更新为

根据y^t+1获取

并结合

和

对动态元素

进行更新，将其更新为

其中

e_s为任务转移时卫星进行姿态调整单位角度消耗的电量；

根据

对动态元素

进行更新，将其更新为

将Mask向量初始化为[1,1,...1]；

根据动态元素

将Mask向量中已经访问过的任务对应的位置置0；

根据动态元素

将Mask向量中不满足时间窗口约束的任务对应的位置置0；

根据动态元素

判断如果存储空间耗尽，将Mask向量中所有位置置0；

根据动态元素

判断如果电量耗尽，将Mask向量中所有位置置0。

6.根据权利要求1所述的基于多头注意力指针网络的成像卫星任务规划方法，其特征在于，在步骤(4)中，针对设定的成像卫星任务规划场景，对数据集中的任务元素进行设定，制作数据集；以任务规划可获得的收益为优化目标，基于Actor Critic强化学习算法对算法模型进行训练，其由两个神经网络构成，分别为Actor网络和Critic网络组成；其中，Actor网络即MHA-PN算法模型，根据输入任务序列计算得到对应输入任务序列各节点的概率分布，Critic网络为由三层一维卷积构成的前向网络，根据输入任务序列计算得到规划可获得收益率的评估值。