CN113033072A - 一种基于多头注意力指针网络的成像卫星任务规划方法 - Google Patents

一种基于多头注意力指针网络的成像卫星任务规划方法 Download PDF

Info

Publication number
CN113033072A
CN113033072A CN202110182573.0A CN202110182573A CN113033072A CN 113033072 A CN113033072 A CN 113033072A CN 202110182573 A CN202110182573 A CN 202110182573A CN 113033072 A CN113033072 A CN 113033072A
Authority
CN
China
Prior art keywords
task
satellite
constraint
sequence
imaging satellite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110182573.0A
Other languages
English (en)
Inventor
赵凡宇
马一凡
金仲和
王春晖
王鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110182573.0A priority Critical patent/CN113033072A/zh
Publication of CN113033072A publication Critical patent/CN113033072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)

Abstract

本发明针对成像卫星任务规划问题约束复杂、求解空间大和输入任务序列长度不固定的特点,基于深度强化学习求解组合优化的思路,公开了一种基于多头注意力指针网络的成像卫星任务规划方法。首先,综合考虑时间窗口约束、资源约束对成像卫星任务规划问题进行建模。其次,基于多头注意力指针网络建立序列决策算法模型。最后,基于Actor Critic强化学习算法对算法模型进行训练。该方法实现了对成像卫星任务规划问题有效的求解,相比于传统优化算法具有更快的求解速度和获得更高的收益,提出的多头注意力指针网络模型相比于一般指针网络模型具有更快的训练速度和泛化能力。

Description

一种基于多头注意力指针网络的成像卫星任务规划方法
技术领域
本发明涉及成像卫星任务规划领域,具体涉及一种基于多头注意力指针网络的成像卫星任务规划方法。
背景技术
成像卫星任务规划问题是在考虑时间窗口和资源约束的条件下,对卫星资源加以分配,制定出合理的任务观测序列,从而实现有限的卫星资源得以高效利用。随着成像卫星应用领域的不断扩大和成像卫星用户需求的不断增加,如何对大量用户观测任务进行规划,以充分发挥成像卫星的工作效益成为了卫星在轨运行的重要研究内容,也成为了实现卫星智能化的重要研究课题。
针对成像卫星任务规划问题,目前国内外已经展开了丰富的研究。王法瑞在其硕士论文《基于改进遗传算法的微小卫星自主任务规划方法研究》中考虑时间窗口约束、电池电量约束和存储空间约束对单星任务规划问题进行了建模。考虑卫星任务的复杂多样性和时间相关性,在遗传算法中设计了基于定长整数序列编码的个体编解码规则。面向卫星在轨应用需求,考虑星上计算资源受限,提出了一种多模式交叉、变异的改进遗传算法。贺仁杰等人在《成像卫星任务规划技术》一书中,综合考虑了成像卫星的各种条件,研究了卫星在成像过程中的各种约束条件,综合分析了目前成像卫星任务规划领域的研究情况。书中首先针对卫星的成像问题的研究背景做了深入的分析,考虑卫星的成像特性和各种约束条件,将任务规划问题分割为预处理和规划求解两部分,建立了预处理模型,然后分别研究了单星观测任务规划技术,多星综合任务规划技术,动态任务规划技术和自主任务规划技术,最后详细介绍了一种卫星任务规划仿真系统,并对未来的成像卫星任务规划做了展望。LiY等人在2014年的中国航空学报(英文版)上发表的《Rescheduling of observingspacecraft using fuzzy neural network and ant colony algorithm》论文中,针对不确定性条件下的卫星观测任务重调度问题,提出模糊神经网络和混合重调度策略进行处理。首先建立卫星观测任务重调度的数学模型,并通过提出引入自适应控制机制的蚁群算法来进行求解。最后在某成像卫星的重调度问题上进行应用,具有较好的可行性和有效性。Wei J等人在2013年的ICMSE(International Conference on Management Science andEngineering)会议上发表的《The mission planning model and improved ant colonysolving algorithm for networking SAR satellites》论文中,针对组网合成孔径雷达(synthetic aperture radar,SAR)面临的任务多、调度复杂和求解空间大的问题,构建多目标优化模型,完成组网SAR的协同规划。提出结合蚁群算法和模拟退火算法解决模型的高维离散组合优化问题,以提高算法的收敛速度和鲁棒性。
成像卫星任务规划问题是一类多约束组合优化问题,模型的求解空间大,目前国内外的普遍采用智能启发式优化算法对成像卫星任务规划问题进行求解。比如蚁群算法、遗传算法、模拟退火算法和禁忌搜索算法。这些算法虽然实现了对成像卫星任务规划问题有效的求解,但是存在着启发式因子设计困难、状态转移复杂和迭代求解带来的寻优速度慢的问题。近几年来,出现了一些基于深度强化学习求解组合优化问题的研究。Vinyals等人在2015年的NIPS会议上发表的《Pointer networks》论文中提出Pointer Networks(PN)求解了一些经典的组合优化问题,比如旅行商问题(traveling salesman problem,TSP)和背包问题(knapsack problem,KP),使用注意力机制计算得到Softmax概率分布,作为指针(Pointer)指向输入序列中的元素,对输入序列进行组合,最后使用有监督方法对模型进行训练。Bello等人在发表的论文《Neural combinatorial optimization withreinforcement learning》中,使用Actor Critic强化学习算法对PN进行训练,在节点长度为100的TSP问题上获得了近似最优解,解决了有监督训练中训练数据获取困难、精度不足的问题。Nazari等人在发表的论文《Reinforcement learning for solving the vehiclerouting problem》中,对Bello等人所使用算法模型中的Encoder部分进行了改进,用一个嵌入层替换掉了PN的编码器部分。这使得输入序列中的动态元素发生改变时,可以并行地对Encoder进行更新,减小了计算的复杂度,最后对交通路线规划问题(vehicle routingproblem,VRP)进行了求解。本发明对上述基于深度强化学习求解组合优化的问题展开研究,综合考虑时间窗口约束、资源约束对成像卫星任务规划问题进行建模,并提出一种多头注意力指针网络(multi-head attention pointer networks,MHA-PN)实现对成像卫星任务规划问题进行求解。
发明内容
本发明针对成像卫星任务规划问题约束复杂、求解空间大和输入任务序列长度不固定的特点,基于深度强化学习求解组合优化的思路,提出了一种基于多头注意力指针网络对成像卫星任务规划问题进行求解的方法。首先,综合考虑时间窗口约束、资源约束对成像卫星任务规划问题进行建模。其次,基于多头注意力指针网络建立序列决策算法模型。最后,基于Actor Critic强化学习算法对算法模型进行训练。该方法实现了对成像卫星任务规划问题有效的求解,相比于传统优化算法具有更快的求解速度和获得更高的收益,提出的多头注意力指针网络模型相比于一般指针网络模型具有更快的训练速度和泛化能力。
基于多头注意力指针网络的成像卫星任务规划方法包括以下步骤:
(1)综合考虑时间窗口约束和资源约束对成像卫星任务规划问题进行建模;
(2)建立序列到序列的算法模型结构,分为编码器和解码器部分;
(3)在解码器的每个解码时间步骤,依次更新动态元素和Mask向量来考虑成像卫星任务规划问题所要满足的约束;
(4)基于Actor Critic强化学习算法对算法模型进行训练。
在步骤(1)中,在对成像卫星任务规划问题的建模过程中,成像卫星在执行观测任务时,每个地面观测任务都有可见的时间窗口,卫星通过侧摆和在轨运行完成任务间转移时需要消耗时间和电量,每个地面目标的观测也要消耗电量和存储量。在进行成像卫星任务规划时,需综合考虑以下约束:
(1-1)时间窗口约束:由于成像卫星机动能力有限,要同时考虑任务执行时间和任务转移时间的约束,下一个任务执行的开始时间必须大于当前任务执行结束时间和卫星侧摆机动时间之和;
(1-2)存储量约束:在执行每个观测任务时,需要消耗卫星的存储空间。本发明考虑无数据下传状态下的任务规划,完成所有规划出的观测任务所需消耗的存储空间不能超过卫星所提供的存储总容量;
(1-3)电量约束:卫星在执行观测任务及在任务间进行姿态机动转移时,需要消耗卫星的电量。本发明仅考虑无在轨充电的过程,完成所有规划的观测任务所需消耗的电量不能超过卫星所提供的总电量。
在步骤(2)中,将输入任务集合X={x1,x2,...,xM}中的每个任务xi分为两部分,分别是静态元素集合si和动态元素集合
Figure BDA0002941824670000041
基于序列到序列的结构,提出一种MHA-PN的算法模型,分为编码器和解码器部分:
(2-1)编码器部分:使用一维卷积层作为嵌入层(embedding layer,EL)并作为算法模型的编码器,将输入序列中每个任务的静态元素和动态元素分别映射为高维向量(通常为256-2048维)。即对每个任务
Figure BDA0002941824670000042
i∈[1,M],EL将其映射为向量
Figure BDA0002941824670000043
i∈[1,M];
(2-2)解码器部分:使用GRU作为算法模型的解码器。yt为在解码时间步骤t时所选择要执行的任务序号,将其对应的静态元素
Figure BDA0002941824670000044
经EL映射后得到的向量
Figure BDA0002941824670000045
作为解码器的输入。ht为解码器在解码时间步骤t时的得到的隐含层状态。
在步骤(3)中,在每个解码时间步骤t时,根据编码器的输出向量
Figure BDA0002941824670000046
i∈[1,M]、解码器的输出隐含层状态ht和Mask向量计算得到指向输入序列各个节点的Softmax概率分布,选择概率最大的节点作为下一解码时间步骤t+1时的输出yt+1。根据MHA-PN机制所选择的输出节点yt+1,依次对输入序列中的动态元素
Figure BDA0002941824670000047
i∈[1,M]和Mask向量进行更新。
在步骤(4)中,针对设定的成像卫星任务规划场景,对数据集中的任务元素进行设定,制作数据集。以任务规划可获得的收益为优化目标,基于Actor Critic强化学习算法对算法模型进行训练,其由两个神经网络构成,分别为Actor网络和Critic网络组成。其中,Actor网络即MHA-PN算法模型,根据输入任务序列计算得到对应输入任务序列各节点的概率分布。Critic网络为由三层一维卷积构成的前向网络,根据输入任务序列计算得到规划可获得收益率的评估值。
上述步骤(3)中所述的更新具体如下:
每个任务xi的静态元素集合si={wsi,angi,wei,coni,ri,mi,ei},其中,wsi为任务可观测时间窗口的开始时间,angi为成像卫星在执行任务观测时沿滚转轴方向侧摆的角度,wei为任务可观测时间窗口的结束时间,coni为任务执行所需要的时间,ri为任务执行可获得的收益,mi为任务执行所需消耗的存储空间,ei为任务执行所需消耗的电量;每个任务xi的动态元素集合为
Figure BDA0002941824670000051
其中,在每个解码时间步骤t时,
Figure BDA0002941824670000052
标记当前任务是否满足时间窗口约束,
Figure BDA0002941824670000053
标记当前任务是否已执行过,
Figure BDA0002941824670000054
记录卫星当前的存储量剩余,
Figure BDA0002941824670000055
记录卫星当前的电量剩余,
Figure BDA0002941824670000056
记录卫星当前沿滚转轴方向侧摆的位置;
首先根据任务序号yt+1,获取
Figure BDA0002941824670000057
获取每个任务i的信息:angi,wsi
遍历每个任务i,选择满足时间窗口约束的任务;
将所有满足时间窗口约束的任务中动态元素
Figure BDA0002941824670000058
进行置1,其他不满足时间窗口约束的任务中动态元素
Figure BDA0002941824670000059
进行置0;
将yt+1对应的任务中动态元素
Figure BDA00029418246700000510
进行置0;
根据yt+1获取
Figure BDA00029418246700000511
并对动态元素
Figure BDA00029418246700000512
进行更新,将其更新为
Figure BDA00029418246700000513
根据yt+1获取
Figure BDA00029418246700000514
并结合
Figure BDA00029418246700000515
Figure BDA00029418246700000516
对动态元素
Figure BDA00029418246700000517
进行更新,将其更新为
Figure BDA00029418246700000518
其中
Figure BDA00029418246700000519
es为任务转移时卫星进行姿态调整单位角度消耗的电量;
根据
Figure BDA00029418246700000520
对动态元素
Figure BDA00029418246700000521
进行更新,将其更新为
Figure BDA00029418246700000522
将Mask向量初始化为[1,1,...1];
根据动态元素
Figure BDA0002941824670000061
将Mask向量中已经访问过的任务对应的位置置0;
根据动态元素
Figure BDA0002941824670000062
将Mask向量中不满足时间窗口约束的任务对应的位置置0;
根据动态元素
Figure BDA0002941824670000063
判断如果存储空间耗尽,将Mask向量中所有位置置0;
根据动态元素
Figure BDA0002941824670000064
判断如果电量耗尽,将Mask向量中所有位置置0。
采用本发明的方法可以实现对成像卫星任务规划问题的有效求解,而且相比于传统优化算法,本发明的方法具有更快的求解速度并可获得更高的收益,所提出的多头注意力指针网络模型相比于一般指针网络模型具有更快的训练速度,对于不同长度的输入样本序列具有更强的泛化能力,可以更好地泛化在密集观测场景下的成像卫星任务规划的求解上。
附图说明
图1为成像卫星任务规划问题所要满足时间窗口约束的示意图;
图2为本发明所提出的MHA-PN算法模型的结构示意图;
图3为MHA-PN算法模型训练过程收敛曲线;
图4为MHA-PN算法模型推理结果示意图;
图5为不同长度下MHA-PN算法推理收益率分布。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
将输入任务集合定义为X={x1,x2,...,xM},其中M为输入候选任务的个数。将输入任务集合中的每个任务xi分为两部分,分别为静态元素集合si和动态元素集合
Figure BDA0002941824670000065
其中,静态元素始终保持不变,用来存储任务序列中各个任务的基本信息,动态元素在每个解码时间步骤t时发生动态变化,用来记录任务序列中各个任务实时的状态。此时,可将输入任务集合重新定义为
Figure BDA0002941824670000071
i∈[1,M]}。将规划所得的输出任务集合定义为Y={y1,y2,...,yN},其中N为规划结果中要执行的任务个数,yt为在每个解码时间步骤t时所选择要执行的任务序号。
将每个任务xi的静态元素集合定义为si={wsi,angi,wei,coni,ri,mi,ei},其中,wsi为任务可观测时间窗口的开始时间,angi为成像卫星在执行任务观测时沿滚转轴方向侧摆的角度,wei为任务可观测时间窗口的结束时间,coni为任务执行所需要的时间,ri为任务执行可获得的收益,mi为任务执行所需消耗的存储空间,ei为任务执行所需消耗的电量。将每个任务xi的动态元素集合定义为
Figure BDA0002941824670000072
其中,在每个解码时间步骤t时,
Figure BDA0002941824670000073
标记当前任务是否满足时间窗口约束,
Figure BDA0002941824670000074
标记当前任务是否已执行过,
Figure BDA0002941824670000075
记录卫星当前的存储量剩余,
Figure BDA0002941824670000076
记录卫星当前的电量剩余,
Figure BDA0002941824670000077
记录卫星当前沿滚转轴方向侧摆的位置;
如图1所示,为成像卫星任务规划问题所要满足的时间窗口约束示意图,其中横轴表示时间,纵轴表示成像卫星在执行任务观测时沿滚转轴方向侧摆的角度。假设yt和yt+1分别为在解码时间步骤t和t+1时所选择要执行的任务序号。在任务yt的可观测时间窗口中,
Figure BDA0002941824670000078
为任务可观测时间窗口的开始时间,
Figure BDA0002941824670000079
为任务执行的开始时间,
Figure BDA00029418246700000710
为任务执行的结束时间,
Figure BDA00029418246700000711
为任务可观测时间窗口的结束时间。假设任务转移时卫星进行姿态调整消耗的时间为tslew,任务转移时卫星进行姿态调整单位角度消耗的时间为ts。任务yt在执行结束后,进行姿态调整转移至任务yt+1,此时要位于任务yt+1的时间窗口之前,任务yt+1在任务yt+1的时间窗口开始时间开始执行。如果任务yt+1的时间窗口为可选择的时间窗口,则需要满足的时间窗口约束为:
Figure BDA00029418246700000712
式中,
Figure BDA0002941824670000081
和tslew的计算公式为:
Figure BDA0002941824670000082
Figure BDA0002941824670000083
任务yt+1的执行开始时间
Figure BDA0002941824670000084
的计算公式为:
Figure BDA0002941824670000085
假设卫星的总存储空间为Mtotal,卫星的总电量为Etotal,任务转移时卫星进行姿态调整消耗的电量为eslew,任务转移时卫星进行姿态调整单位角度消耗的电量为es,决策函数
Figure BDA0002941824670000086
表示在解码时间步骤t时任务yt被执行。成像卫星任务规划所要满足的存储约束和电量约束为:
Figure BDA0002941824670000087
Figure BDA0002941824670000088
Figure BDA0002941824670000089
Figure BDA00029418246700000810
综合考虑各类约束,本发明将收益率Rrate(Y|X0)作为优化的目标,定义目标函数为:
Figure BDA00029418246700000811
如图2所示,为本发明所提出的MHA-PN算法模型的结构示意图。使用一维卷积层作为EL并作为算法模型的编码器,使用GRU作为MHA-PN算法模型的解码器,GRU内部引入了两个门控单元,分别为重置门rt和更新门zt:1)重置门rt表示上一解码时间步骤的隐含层状态对候选隐含层状态
Figure BDA0002941824670000091
中的影响程度;2)更新门zt表示上一解码时间步骤的隐含层状态对当前状态中的影响程度。假设在解码时间步骤t时的隐含层状态为ht,其在解码过程中的更新公式为:
rt=σ(Wrxt+Urht-1+br)
zt=σ(Wzxt+Uzht-1+bz)
Figure BDA0002941824670000094
Figure BDA0002941824670000095
式中,Wr、Wz和Wh为输入权重矩阵,Ur、Uz和Uh为隐含层权重矩阵,br、bz和bh为偏置向量,⊙表示Hadamard点积运算,
Figure BDA0002941824670000096
为在解码时间步骤t时的输入向量,yt为在解码时间步骤t时所选择要执行的任务序号,
Figure BDA0002941824670000097
为yt对应的静态元素
Figure BDA0002941824670000098
经EL映射后得到的高维向量。σ(·)和tanh(·)为激活函数,分别为Sigmoid函数和双曲正切tanh函数,计算公式分别为:
Figure BDA0002941824670000099
Figure BDA00029418246700000910
本发明借鉴多头注意力(multi-head attention,MHA)机制的思想,对指针网络进行改进,提出了MHA-PN机制。多头注意力机制能够综合不同表示子空间中模型所学习到的信息,提高了模型的学习能力。由于整个过程是并行计算的,提升了模型的计算效率,可以加快模型的训练速度。将编码器的输出向量
Figure BDA00029418246700000911
和解码器的输出隐含层状态ht的维度平均划分为n部分,假设
Figure BDA00029418246700000912
和ht的维度为dmodel,划分后的向量为
Figure BDA00029418246700000913
Figure BDA00029418246700000914
其维度为dk,则有:dmodel=dk×n
MHA-PN机制的具体计算过程为:1)通过注意力机制计算得到各部分的对齐向量(Alignment Vector)
Figure BDA0002941824670000101
式中,Wa和Va为权重矩阵,tanh为激活函数,“;”表示向量之间的拼接操作;2)对编码器的输出向量进行加权累加计算得到各部分的背景向量(Context Vector)
Figure BDA0002941824670000102
式中,“;”表示向量之间的拼接操作;3)根据Glimpse机制,在划分后的各部分上分别进行非线性映射,计算得到各部分的中间向量(Middle Vector)
Figure BDA0002941824670000103
式中,Wc为权重矩阵,tanh为激活函数,“;”表示向量之间的拼接操作;4)将各部分计算得到的中间向量
Figure BDA0002941824670000104
进行合并,经映射后得到对齐向量(Alignment Vector)at
Figure BDA0002941824670000105
式中,Vc为权重矩阵,“;”表示向量之间的拼接操作;5)计算得到下一解码时间步骤t+1时的输出节点yt+1,其指向输入序列各个节点的Softmax概率分布P(yt+1|Yt,Xt)=Softmax(at+log(Mask)),式中,Xt和Yt分别为时间步骤t时的输入任务集合和输出任务集合,Mask为Mask向量。
本发明使用Mask向量来考虑成像卫星任务规划问题中的各类约束,其长度和输入序列的长度相等,每位的取值为0或1。当Mask向量中某位的值为0时,将计算所得的Softmax概率分布对应位的概率值为0,可将对应的任务排除。在每个解码时间步骤t时,根据MHA-PN机制选择得到的输出节点yt+1,依次对输入序列中的动态元素dt和Mask向量进行更新,更新算法的伪代码如表1所示。本文将Mask向量初始化为[1,0,...,0],以保证从第一个任务开始执行。当Mask向量为[0,0,...,0]时,说明此时已经满足终止条件:1)所有的任务均不满足时间窗口约束;2)存储空间耗尽;3)电量耗尽。此时结束解码的过程,完成本次的任务规划并得到最终的输出序列Y={y1,y2,...,yN}。
表1
Figure BDA0002941824670000111
本发明使用Actor Critic算法对MHA-PN算法模型进行训练,训练过程的伪代码如表2所示,Actor Critic算法由两部分神经网络构成,分别为:
1)Actor网络:即MHA-PN算法模型,根据输入任务序列计算得到对应输入任务序列各节点的概率分布。:
Figure BDA0002941824670000112
式中,
Figure BDA0002941824670000121
为每批训练样本中的第i个训练样本序列,Yi为MHA-PN算法模型根据训练样本序列
Figure BDA0002941824670000122
得到的输出任务序列,
Figure BDA0002941824670000123
为MHA-PN算法模型根据训练样本序列
Figure BDA0002941824670000124
得到输出序列Yi的概率,
Figure BDA0002941824670000125
为MHA-PN算法模型对训练样本序列
Figure BDA0002941824670000126
进行规划所得的收益率;
2)Critic网络:根据输入任务序列计算得到规划可获得收益率的评估值。Critic网络的优化目标为均方误差,对于参数的梯度计算公式为:
Figure BDA0002941824670000127
式中,
Figure BDA0002941824670000128
为Critic网络的参数,
Figure BDA0002941824670000129
为Critic网络对训练样本序列
Figure BDA00029418246700001210
可获得收益率的估计值。
表2
Figure BDA00029418246700001211
每个任务的静态元素、动态元素和场景参数的设定如表3所示,其中,[a,b]表示对应元素随机产生,并且满足a到b之间的均匀分布。
训练数据集的设定如下:样本序列的长度为50,训练样本的数量为1e5。模型训练的超参数设定如下:每批训练样本的数量为256,训练的轮次(Epoch)数为1,Actor网络的学习率为5e-4,Critic网络的学习率为5e-4,学习率的衰减步长为1000,学习率的衰减比率为0.8,优化器为Adam。模型的超参数设定如下:EL的隐含层维度为512,GRU的隐含层维度为512,GRU的层数为1,MHA-PN机制的隐含层维度为512,注意力头数为8,模型的Dropout比率为0.1。实验环境的设定如下:操作系统为Ubuntu16.04,CPU为Intel Xeon E5-2620,GPU为RTX2080Ti,深度学习框架为Pytorch。基于Actor Critic强化学习算法,对MHA-PN算法模型进行训练。如图3所示,为MHA-PN算法模型训练过程收敛曲线。其中,最上方线条为Actor网络的Loss收敛曲线,中间线条为模型所获得收益率的收敛曲线,最下方线条为Critic网络的Reward收敛曲线。模型所获得收益率最终收敛至67.6%。
表3
元素参数 设定 数据类型
ws<sub>i</sub> [0,4.0] 浮点变量
ang<sub>i</sub> [-0.25,0.25] 浮点变量
we<sub>i</sub> [ws<sub>i</sub>+0.03,ws<sub>i</sub>+0.08] 浮点变量
con<sub>i</sub> [0.01,0.02] 浮点变量
r<sub>i</sub> [0.1,0.9] 浮点变量
m<sub>i</sub> [0,0.01] 浮点变量
e<sub>i</sub> [0.1,0.01] 浮点变量
win<sub>i</sub> 初始设定为1 整型变量,0/1
acc<sub>i</sub> 初始设定为1 整型变量,0/1
mem<sub>i</sub> 初始设定为0.5 浮点变量
pow<sub>i</sub> 初始设定为0.5 浮点变量
pos<sub>i</sub> 初始设定为0 浮点变量
t<sub>s</sub> 设定为0.2 浮点常量
e<sub>s</sub> 设定为0.01 浮点常量
如图4所示,为MHA-PN算法模型推理结果示意图。基于已经训练好的MHA-PN算法模型,可直接对长度为50的输入样本序列进行推理。推理结果中,横轴表示时间,纵轴表示成像卫星在执行任务观测时沿滚转轴侧摆的角度,每个横条表示任务可观测的时间窗口,时间窗口中的两个点分别表示任务的执行开始时间和执行结束时间,时间窗口间的连线表示在任务转移时卫星进行姿态调整的过程。卫星从Start位置开始依次对规划目标进行观测,到达End位置时结束本次过境的观测。根据模型的推理结果,完成观测目标数量为31个,获得的收益率为63.2%。
将PN算法模型和MHA-PN算法模型,采用同样的训练和模型超参数设定,在同样的数据集和硬件平台上进行训练,算法模型的指标对比如表4所示,从中可以看出,相比于Nazari等所使用的PN算法模型,MHA-PN算法模型获得了更高的收益率,同时训练速度也获得了提升,提高了20.0%。
表4
算法模型 收益率 训练时间 速度提升
PN 69.2% 7214.7s/epoch -
MHA-PN 69.6% 5770.9s/epoch 20%
如图5所示,为不同长度下MHA-PN算法推理收益率分布,其中(a)、(b)、(c)、(d)、(e)和(f)6幅子图分别对应长度为50、100、125、150、175和200的样本序列的收益率分布。从图中可以看出,随着输入样本序列长度的增加,收益率对于PN和MHA-PN算法模型来说,收益率都产生了明显的下降。这是由于任务时间窗口分布的时间跨度是固定的,所以当输入样本序列的长度增加时,任务将的分布变得更加密集,从而产生了更多时间窗口冲突的任务,算法模型推理可获得的收益率产生了下降。随着输入样本序列长度的增加,相比于PN算法模型和MHA-PN算法模型推理获得的收益率的优势越来越明显,说明MHA-PN对于不同长度的输入样本序列具有更强的泛化能力,可以更好地泛化在密集观测场景下的成像卫星任务规划的求解上。不同长度样本序列下PN算法模型和MHA-PN算法模型推理获得的收益率的均值对比如表5所示。
表5
算法模型 n=50 n=100 n=125 n=150 n=175 n=200
PN 68.75% 53.05% 44.72% 32.88% 27.38% 25.31%
MHA-PN 69.45% 53.36% 48.91% 44.43% 41.68% 38.11%

Claims (6)

1.一种基于多头注意力指针网络的成像卫星任务规划方法,其特征在于,该方法首先综合考虑时间窗口约束、资源约束对成像卫星任务规划问题进行建模,然后基于多头注意力指针网络建立序列决策算法模型,最后基于Actor Critic强化学习算法对算法模型进行训练;具体包括如下:
(1)综合考虑时间窗口约束、存储量约束和电量约束对成像卫星任务规划问题进行建模;
(2)建立序列到序列的算法模型结构,分为编码器和解码器部分;
(3)在解码器的每个解码时间步骤,依次更新动态元素和Mask向量来考虑成像卫星任务规划问题所要满足的约束;
(4)基于Actor Critic强化学习算法对算法模型进行训练。
2.根据权利要求1所述的基于多头注意力指针网络的成像卫星任务规划方法,其特征在于,在步骤(1)中进行成像卫星任务规划时,需综合考虑以下约束:
(1-1)时间窗口约束:由于成像卫星机动能力有限,要同时考虑任务执行时间和任务转移时间的约束,下一个任务执行的开始时间必须大于当前任务执行结束时间和卫星侧摆机动时间之和;
(1-2)存储量约束:在执行每个观测任务时,需要消耗卫星的存储空间,考虑无数据下传状态下的任务规划,则完成所有规划出的观测任务所需消耗的存储空间不能超过卫星所提供的存储总容量;
(1-3)电量约束:卫星在执行观测任务及在任务间进行姿态机动转移时,需要消耗卫星的电量,仅考虑无在轨充电的过程,完成所有规划的观测任务所需消耗的电量不能超过卫星所提供的总电量。
3.根据权利要求1所述的基于多头注意力指针网络的成像卫星任务规划方法,其特征在于,在步骤(2)中,将输入任务集合X={x1,x2,...,xM}中的每个任务xi分为两部分,分别是静态元素集合si和动态元素集合
Figure FDA0002941824660000011
基于序列到序列的结构,建立一种MHA-PN的算法模型,分为编码器和解码器部分:
(2-1)编码器部分:使用一维卷积层作为嵌入层EL并作为算法模型的编码器,将输入序列中每个任务的静态元素和动态元素分别映射为高维向量,即对每个任务
Figure FDA0002941824660000012
采用EL将其映射为向量
Figure FDA0002941824660000013
(2-2)解码器部分:使用GRU作为算法模型的解码器,yt为在解码时间步骤t时所选择要执行的任务序号,将其对应的静态元素
Figure FDA0002941824660000021
经EL映射后得到的向量
Figure FDA0002941824660000022
作为解码器的输入,解码器在解码时间步骤t时得到的隐含层状态为ht
4.根据权利要求3所述的基于多头注意力指针网络的成像卫星任务规划方法,其特征在于,在步骤(3)中,在每个解码时间步骤t时,根据编码器的输出向量
Figure FDA0002941824660000023
解码器的输出隐含层状态ht和Mask向量计算得到指向输入序列各个节点的Softmax概率分布,选择概率最大的节点作为下一解码时间步骤t+1时的输出任务序号yt+1,依次对输入序列中的动态元素
Figure FDA0002941824660000024
和Mask向量进行更新。
5.根据权利要求4所述的基于多头注意力指针网络的成像卫星任务规划方法,其特征在于,所述的对动态元素和Mask向量进行更新,具体如下:
每个任务xi的静态元素集合si={wsi,angi,wei,coni,ri,mi,ei},其中,wsi为任务可观测时间窗口的开始时间,angi为成像卫星在执行任务观测时沿滚转轴方向侧摆的角度,wei为任务可观测时间窗口的结束时间,coni为任务执行所需要的时间,ri为任务执行可获得的收益,mi为任务执行所需消耗的存储空间,ei为任务执行所需消耗的电量;每个任务xi的动态元素集合为
Figure FDA0002941824660000025
其中,在每个解码时间步骤t时,
Figure FDA0002941824660000026
标记当前任务是否满足时间窗口约束,
Figure FDA0002941824660000027
标记当前任务是否已执行过,
Figure FDA0002941824660000028
记录卫星当前的存储量剩余,
Figure FDA0002941824660000029
记录卫星当前的电量剩余,
Figure FDA00029418246600000210
记录卫星当前沿滚转轴方向侧摆的位置;
首先根据任务序号yt+1,获取
Figure FDA00029418246600000211
获取每个任务i的信息:angi,wsi
遍历每个任务i,选择满足时间窗口约束的任务;
将所有满足时间窗口约束的任务中动态元素
Figure FDA00029418246600000212
进行置1,其他不满足时间窗口约束的任务中动态元素
Figure FDA0002941824660000031
进行置0;
将yt+1对应的任务中动态元素
Figure FDA0002941824660000032
进行置0;
根据yt+1获取
Figure FDA0002941824660000033
并对动态元素
Figure FDA0002941824660000034
进行更新,将其更新为
Figure FDA0002941824660000035
根据yt+1获取
Figure FDA0002941824660000036
并结合
Figure FDA0002941824660000037
Figure FDA0002941824660000038
对动态元素
Figure FDA0002941824660000039
进行更新,将其更新为
Figure FDA00029418246600000310
其中
Figure FDA00029418246600000311
es为任务转移时卫星进行姿态调整单位角度消耗的电量;
根据
Figure FDA00029418246600000312
对动态元素
Figure FDA00029418246600000313
进行更新,将其更新为
Figure FDA00029418246600000314
将Mask向量初始化为[1,1,...1];
根据动态元素
Figure FDA00029418246600000315
将Mask向量中已经访问过的任务对应的位置置0;
根据动态元素
Figure FDA00029418246600000316
将Mask向量中不满足时间窗口约束的任务对应的位置置0;
根据动态元素
Figure FDA00029418246600000317
判断如果存储空间耗尽,将Mask向量中所有位置置0;
根据动态元素
Figure FDA00029418246600000318
判断如果电量耗尽,将Mask向量中所有位置置0。
6.根据权利要求1所述的基于多头注意力指针网络的成像卫星任务规划方法,其特征在于,在步骤(4)中,针对设定的成像卫星任务规划场景,对数据集中的任务元素进行设定,制作数据集;以任务规划可获得的收益为优化目标,基于Actor Critic强化学习算法对算法模型进行训练,其由两个神经网络构成,分别为Actor网络和Critic网络组成;其中,Actor网络即MHA-PN算法模型,根据输入任务序列计算得到对应输入任务序列各节点的概率分布,Critic网络为由三层一维卷积构成的前向网络,根据输入任务序列计算得到规划可获得收益率的评估值。
CN202110182573.0A 2021-02-08 2021-02-08 一种基于多头注意力指针网络的成像卫星任务规划方法 Pending CN113033072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110182573.0A CN113033072A (zh) 2021-02-08 2021-02-08 一种基于多头注意力指针网络的成像卫星任务规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182573.0A CN113033072A (zh) 2021-02-08 2021-02-08 一种基于多头注意力指针网络的成像卫星任务规划方法

Publications (1)

Publication Number Publication Date
CN113033072A true CN113033072A (zh) 2021-06-25

Family

ID=76460836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182573.0A Pending CN113033072A (zh) 2021-02-08 2021-02-08 一种基于多头注意力指针网络的成像卫星任务规划方法

Country Status (1)

Country Link
CN (1) CN113033072A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114157336A (zh) * 2021-11-01 2022-03-08 中国空间技术研究院 一种动态弹性卫星波束调度方法
CN114332639A (zh) * 2021-11-30 2022-04-12 中国人民解放军战略支援部队航天工程大学 一种非线性残差自注意力机制的卫星姿态视觉测量算法
CN114800510A (zh) * 2022-05-06 2022-07-29 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN115021799A (zh) * 2022-07-11 2022-09-06 北京理工大学 一种基于多智能体协同的低轨卫星切换方法
CN116738765A (zh) * 2023-08-10 2023-09-12 北京国星创图科技有限公司 一种基于卫星仿真和关键路径的卫星任务规划分析方法
CN114157336B (zh) * 2021-11-01 2024-05-31 中国空间技术研究院 一种动态弹性卫星波束调度方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052759A (zh) * 2017-12-25 2018-05-18 航天恒星科技有限公司 一种基于遗传算法的敏捷多星任务观测计划求解方法及系统
CN109409775A (zh) * 2018-11-14 2019-03-01 中国电子科技集团公司第五十四研究所 一种卫星联合观测任务规划方法
CN109631911A (zh) * 2018-12-17 2019-04-16 浙江大学 一种基于深度学习目标识别算法的卫星姿态转动信息确定方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052759A (zh) * 2017-12-25 2018-05-18 航天恒星科技有限公司 一种基于遗传算法的敏捷多星任务观测计划求解方法及系统
CN109409775A (zh) * 2018-11-14 2019-03-01 中国电子科技集团公司第五十四研究所 一种卫星联合观测任务规划方法
CN109631911A (zh) * 2018-12-17 2019-04-16 浙江大学 一种基于深度学习目标识别算法的卫星姿态转动信息确定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马一凡: "基于改进指针网络的卫星对地观测任务规划方法", 《浙江大学学报(工学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114157336A (zh) * 2021-11-01 2022-03-08 中国空间技术研究院 一种动态弹性卫星波束调度方法
CN114157336B (zh) * 2021-11-01 2024-05-31 中国空间技术研究院 一种动态弹性卫星波束调度方法
CN114332639A (zh) * 2021-11-30 2022-04-12 中国人民解放军战略支援部队航天工程大学 一种非线性残差自注意力机制的卫星姿态视觉测量算法
CN114332639B (zh) * 2021-11-30 2023-12-22 中国人民解放军战略支援部队航天工程大学 一种非线性残差自注意力机制的卫星姿态视觉测量方法
CN114800510A (zh) * 2022-05-06 2022-07-29 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN114800510B (zh) * 2022-05-06 2024-01-23 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN115021799A (zh) * 2022-07-11 2022-09-06 北京理工大学 一种基于多智能体协同的低轨卫星切换方法
CN115021799B (zh) * 2022-07-11 2023-03-10 北京理工大学 一种基于多智能体协同的低轨卫星切换方法
CN116738765A (zh) * 2023-08-10 2023-09-12 北京国星创图科技有限公司 一种基于卫星仿真和关键路径的卫星任务规划分析方法
CN116738765B (zh) * 2023-08-10 2023-11-21 北京国星创图科技有限公司 一种基于卫星仿真和关键路径的卫星任务规划分析方法

Similar Documents

Publication Publication Date Title
CN113033072A (zh) 一种基于多头注意力指针网络的成像卫星任务规划方法
CN113051815B (zh) 一种基于独立指针网络的敏捷成像卫星任务规划方法
He et al. A generic Markov decision process model and reinforcement learning method for scheduling agile earth observation satellites
Russell et al. Q-decomposition for reinforcement learning agents
Wen et al. A multi-robot path-planning algorithm for autonomous navigation using meta-reinforcement learning based on transfer learning
CN111191934A (zh) 一种基于强化学习策略的多目标云工作流调度方法
Ge et al. Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control
CN116187787B (zh) 作战资源跨域调配问题的智能规划方法
Tan et al. Multi-type task allocation for multiple heterogeneous unmanned surface vehicles (USVs) based on the self-organizing map
Juang et al. A self-generating fuzzy system with ant and particle swarm cooperative optimization
Hua et al. Research on many-to-many target assignment for unmanned aerial vehicle swarm in three-dimensional scenarios
Wu et al. A data-driven improved genetic algorithm for agile earth observation satellite scheduling with time-dependent transition time
Peng et al. Model-based actor-critic with chance constraint for stochastic system
Lin et al. When architecture meets AI: A deep reinforcement learning approach for system of systems design
CN116739466A (zh) 基于多智能体深度强化学习的配送中心车辆路径规划方法
CN115686031A (zh) 一种基于学习和采样的auv信息性路径规划方法
CN113449867B (zh) 一种基于知识蒸馏的深度强化学习多智能体协作方法
CN115630566A (zh) 一种基于深度学习和动力约束的资料同化方法和系统
Wu et al. An algorithm for solving travelling salesman problem based on improved particle swarm optimisation and dynamic step Hopfield network
Longa et al. Swarm Intelligence in Cooperative Environments: N-Step Dynamic Tree Search Algorithm Extended Analysis
Espinós Longa et al. Swarm Intelligence in Cooperative Environments: n-Step Dynamic Tree Search Algorithm Overview
Yu et al. A novel automated guided vehicle (AGV) remote path planning based on RLACA algorithm in 5G environment
Wang et al. Deep Reinforcement Learning-Based Periodic Earth Observation Scheduling for Agile Satellite Constellation
Shi et al. Adaptive reinforcement q-learning algorithm for swarm-robot system using pheromone mechanism
Thomas et al. Inverse Reinforcement Learning for Generalized Labeled Multi-Bernoulli Multi-Target Tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210625

WD01 Invention patent application deemed withdrawn after publication