CN113051815A - 一种基于独立指针网络的敏捷成像卫星任务规划方法 - Google Patents

一种基于独立指针网络的敏捷成像卫星任务规划方法 Download PDF

Info

Publication number
CN113051815A
CN113051815A CN202110291278.9A CN202110291278A CN113051815A CN 113051815 A CN113051815 A CN 113051815A CN 202110291278 A CN202110291278 A CN 202110291278A CN 113051815 A CN113051815 A CN 113051815A
Authority
CN
China
Prior art keywords
task
satellite
constraint
algorithm model
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110291278.9A
Other languages
English (en)
Other versions
CN113051815B (zh
Inventor
赵凡宇
马一凡
金仲和
王春晖
王鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110291278.9A priority Critical patent/CN113051815B/zh
Publication of CN113051815A publication Critical patent/CN113051815A/zh
Application granted granted Critical
Publication of CN113051815B publication Critical patent/CN113051815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Radio Relay Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于独立指针网络的敏捷成像卫星任务规划方法。综合考虑时间窗口约束、任务转移时卫星姿态调整时间、存储约束和电量约束对敏捷成像卫星任务规划问题进行建模。提出一种融合IndRNN和Pointer Networks的算法模型(Ind‑PN)对敏捷成像卫星任务规划问题进行求解,使用多层的IndRNN结构作为算法模型的解码器。基于Actor Critic强化学习算法对算法模型进行训练,以获得最大的观测收益率。该方法实现了对敏捷成像卫星任务规划问题的有效求解,相比于传统优化算法具有更快的求解速度和获得更高的收益,对于较长的输入任务序列,Ind‑PN算法收敛速度更快,可获得更高的观测收益率。

Description

一种基于独立指针网络的敏捷成像卫星任务规划方法
技术领域
本发明涉及敏捷成像卫星任务规划领域,具体涉及一种基于独立指针网络的敏捷成像卫星任务规划方法。
背景技术
敏捷成像卫星相比于普通成像卫星具有更强的姿态机动能力,具备沿俯仰轴侧摆的能力,对于地面观测目标可产生更长的可观测时间窗口。随着敏捷成像卫星应用领域的不断扩大,用户任务需求也在不断增加。如何对大量的用户任务需求进行规划,制订出合理有效的任务观测序列,对充分发挥卫星的空间位置优势,提升敏捷成像卫星的工作效率具有重要的作用。敏捷成像卫星任务规划问题可以描述为在满足一定约束的条件下,将获得的观测任务收益作为优化目标,对一组待观测任务进行选取、排序和确定任务执行开始时间的过程。
针对敏捷成像卫星任务规划问题,目前国内外已经展开了丰富的研究。邱涤珊等人在期刊航空学报发表的论文《敏捷成像卫星多星密集任务调度方法》中面向应急任务规划场景,综合考虑敏捷成像卫星时间约束和资源约束,借鉴蚂蚁系统和最大最小蚂蚁系统提出一种改进蚁群算法,对敏捷成像卫星任务规划问题进行求解。在寻优策略、信息素更新策略、任务转移概率上分别进行了针对性的设计。张铭在期刊计算机应用发表的文章《基于改进烟花算法的密集任务成像卫星调度方法》中对密集观测场景下的敏捷成像卫星观测任务进行合成约束分析,考虑时间窗口约束和资源约束建立基于任务合成的多星密集任务调度问题模型,利用精英选择策略对烟花算法进行了改进,保证种族多样性并提高了算法的收敛速度。相比于无任务合成的任务算法,获取了更高的收益率和求解效率。耿远卓在期刊控制与决策发表的文章《敏捷凝视卫星密集点目标聚类与最优观测规划》中针对密集点目标,基于考虑顶点度的团划分算法进行任务聚类。综合考虑任务优先级、任务可见时间窗口和任务之间转移时间对原始蚁群算法进行改进,解决了蚁群优化算法易陷入局部最优、收敛速度慢的问题。最后,对提出的改进启发式蚁群算法在大规模密集问题实例上进行了验证。Kananub S等人在期刊Computer Integrated Manufacturing Systems中发表的文章《Agile earth observing satellites mission scheduling based on decompositionoptimization algorithm》考虑多时间窗口约束对敏捷成像卫星任务规划问题进行建模。首先,将敏捷成像卫星任务规划问题分解为两阶段问题进行求解,首先进行任务资源分配,然后进行单星任务规划。针对资源分配问题,提出一种新型可学习遗传算法,知识模型从迭代过程中学习和获取知识,进行反馈来指导算法的搜索过程。针对单星任务规划问题,设计了后向时间松弛和最优位置搜索方法。
敏捷成像卫星任务规划问题是一类多约束组合优化问题,模型的求解空间大,目前国内外普遍采用智能启发式优化算法对敏捷成像卫星任务规划问题进行求解。比如蚁群算法、遗传算法、模拟退火算法和禁忌搜索算法。这些算法虽然实现了对敏捷成像卫星任务规划问题有效的求解,但是存在着启发式因子设计困难、状态转移复杂和迭代求解带来的寻优速度慢的问题。近几年来,出现了一些基于深度强化学习求解组合优化问题的研究。Vinyals等人在2015年的NIPS会议上发表的《Pointer networks》论文中提出PointerNetworks(PN)求解了一些经典的组合优化问题,比如旅行商问题(traveling salesmanproblem,TSP)和背包问题(knapsack problem,KP),使用注意力机制计算得到Softmax概率分布,作为指针(Pointer)指向输入序列中的元素,对输入序列进行组合,最后使用有监督方法对模型进行训练。Bello等人在发表的论文《Neural combinatorial optimizationwith reinforcement learning》中,使用Actor Critic强化学习算法对PN进行训练,在节点长度为100的TSP问题上获得了近似最优解,解决了有监督训练中训练数据获取困难、精度不足的问题。Nazari等人在发表的论文《Reinforcement learning for solving thevehicle routing problem》中,对Bello等人所使用算法模型中的Encoder部分进行了改进,用一个嵌入层替换掉了PN的编码器部分。这使得输入序列中的动态元素发生改变时,可以并行地对Encoder进行更新,减小了计算的复杂度,最后对交通路线规划问题(vehiclerouting problem,VRP)进行了求解。本发明对上述基于深度强化学习求解组合优化的问题展开研究,综合考虑时间窗口约束、资源约束对敏捷成像卫星任务规划问题进行建模,并提出一种独立指针网络(independently pointer networks,Ind-PN)实现对敏捷成像卫星任务规划问题的求解。
发明内容
本发明针对敏捷成像卫星任务规划问题求解空间大、输入任务序列长度较长的特点,基于深度强化学习求解组合优化的思路,公开了一种基于独立指针网络的敏捷成像卫星任务规划方法。综合考虑时间窗口约束、任务转移时卫星姿态调整时间、存储约束和电量约束对敏捷成像卫星任务规划问题进行建模。提出一种融合IndRNN和Pointer Networks的算法模型(Ind-PN)对敏捷成像卫星任务规划问题进行求解,使用多层的IndRNN结构作为算法模型的解码器。基于Actor Critic强化学习算法对算法模型进行训练,以获得最大的观测收益率。该方法实现了对敏捷成像卫星任务规划问题的有效求解,相比于传统优化算法具有更快的求解速度和获得更高的收益,对于较长的输入任务序列,Ind-PN算法收敛速度更快,可获得更高的观测收益率。
基于独立指针网络的敏捷成像卫星任务规划方法包括以下步骤:
(1)综合考虑时间窗口约束和资源约束对敏捷成像卫星任务规划问题进行建模;
(2)建立序列到序列的Ind-PN算法模型结构,分为编码器和解码器部分;
(3)在解码器的每个解码时间步骤t时,依次更新动态元素和Mask向量来考虑敏捷成像卫星任务规划问题所要满足的约束;
(4)基于Actor Critic强化学习算法对Ind-PN算法模型进行训练。
在步骤(1)中,在对敏捷成像卫星任务规划问题的建模过程中,敏捷成像卫星在执行观测任务时,每个地面观测任务都有可见的时间窗口,卫星通过侧摆和在轨运行完成任务间转移时需要消耗时间和电量,每个地面目标的观测也要消耗电量和存储量。在进行敏捷成像卫星任务规划时,需综合考虑以下约束:
(1-1)时间窗口约束:卫星在对地面目标进行观测时,观测任务执行的时间区间要位于任务可观测时间窗口之内。由于卫星的机动能力是有限的,要同时考虑任务执行所需要的时间和任务转移时卫星进行姿态调整消耗的时间。为了提高卫星的资源利用效率,所有的任务不重复执行;
(1-2)存储量约束:在执行每个观测任务时,需要消耗卫星的存储空间。本发明考虑无数据下传状态下的任务规划,完成所有规划出的观测任务所需消耗的存储空间不能超过卫星所提供的存储总容量;
(1-3)电量约束:卫星在执行观测任务及在任务间进行姿态机动转移时,需要消耗卫星的电量。本发明仅考虑无在轨充电的过程,完成所有规划的观测任务所需消耗的电量不能超过卫星所提供的总电量。
在步骤(2)中,将输入任务集合X={x1,x2,...,xM}中的每个任务xi分为两部分,分别是静态元素集合si和动态元素集合
Figure BDA0002982076930000049
其中M为输入候选任务的长度。本发明基于序列到序列的结构,提出一种Ind-PN的算法模型,分为编码器和解码器部分:
(2-1)编码器部分:使用一维卷积层作为嵌入层(embedding layer,EL)并作为算法模型的编码器,将输入序列中每个任务的静态元素和动态元素分别映射为高维向量(通常为256-2048维)。即对每个任务
Figure BDA0002982076930000041
i∈[1,M],EL将其映射为向量
Figure BDA0002982076930000042
i∈[1,M];
(2-2)解码器部分:使用L层的IndRNN结构作为算法模型的解码器。yt为在解码时间步骤t时所选择要执行的任务序号,将其对应的静态元素
Figure BDA0002982076930000043
经EL映射后得到的向量
Figure BDA0002982076930000044
作为编码器的输入。
Figure BDA0002982076930000045
l∈[1,L]为解码器在解码时间步骤t时第l层的隐含层状态。
在步骤(3)中,在每个解码时间步骤t时,根据编码器的输出向量
Figure BDA0002982076930000046
i∈[1,M]、解码器最后一层的隐含层状态
Figure BDA0002982076930000047
和Mask向量计算得到指向输入序列各个节点的Softmax概率分布,选择概率最大的节点yt+1作为下一解码时间步骤t+1时的输出。根据所选择的输出节点yt+1,依次对输入序列中的动态元素
Figure BDA0002982076930000048
i∈[1,M]和Mask向量进行更新。
在步骤(4)中,针对设定的敏捷成像卫星任务规划场景,对数据集中的任务元素进行设定,制作数据集。以任务规划可获得的收益为优化目标,基于Actor Critic强化学习算法对算法模型进行训练,其由两个神经网络构成,分别为Actor网络和Critic网络组成。其中,Actor网络即Ind-PN算法模型,根据输入任务序列计算得到对应输入任务序列各节点的概率分布。Critic网络为由三层一维卷积构成的前向网络,根据输入任务序列计算得到规划可获得收益率的评估值。
上述步骤(3)中所述的更新具体如下:
每个任务xi的静态元素集合si={wsi,angi,wei,coni,ri,mi,ei},其中,wsi为任务可观测时间窗口的开始时间,angi为敏捷成像卫星在执行任务观测时沿滚转轴方向侧摆的角度,wei为任务可观测时间窗口的结束时间,coni为任务执行所需要的时间,ri为任务执行可获得的收益,mi为任务执行所需消耗的存储空间,ei为任务执行所需消耗的电量;每个任务xi的动态元素集合为
Figure BDA0002982076930000051
其中,在每个解码时间步骤t时,
Figure BDA0002982076930000052
标记当前任务是否满足时间窗口约束,
Figure BDA0002982076930000053
标记当前任务是否已执行过,
Figure BDA0002982076930000054
记录卫星当前的存储量剩余,
Figure BDA0002982076930000055
记录卫星当前的电量剩余,
Figure BDA0002982076930000056
记录上一解码时间步骤时卫星所执行的任务序号,
Figure BDA0002982076930000057
记录卫星对当前任务执行观测的开始时间。
首先根据静态元素s和动态元素dt,获取时间步骤t时的信息:yt
Figure BDA0002982076930000058
根据任务序号yt
Figure BDA0002982076930000059
计算得到
Figure BDA00029820769300000510
根据静态元素s,获取每个任务i的信息:coni,angi,wei
使用
Figure BDA00029820769300000511
遍历每个任务i,选择满足时间窗口约束的任务;
将所有满足时间窗口约束的任务中动态元素
Figure BDA00029820769300000512
进行置1,其他不满足时间窗口约束的任务中动态元素
Figure BDA00029820769300000513
进行置0;
将yt+1对应任务的动态元素
Figure BDA00029820769300000514
进行置0;
使用yt+1对动态元素
Figure BDA00029820769300000515
进行更新,将其更新为yt+1
使用yt+1对动态元素
Figure BDA00029820769300000516
进行更新,将其更新为
Figure BDA00029820769300000517
根据yt+1获取
Figure BDA00029820769300000615
并对动态元素
Figure BDA00029820769300000614
进行更新,将其更新为
Figure BDA0002982076930000061
根据yt+1获取
Figure BDA0002982076930000062
并结合
Figure BDA0002982076930000063
Figure BDA00029820769300000616
对动态元素
Figure BDA0002982076930000064
进行更新,将其更新为
Figure BDA0002982076930000065
其中
Figure BDA0002982076930000066
es为任务转移时卫星进行姿态调整单位角度消耗的电量;
根据
Figure BDA0002982076930000067
对动态元素
Figure BDA0002982076930000068
进行更新,将其更新为
Figure BDA0002982076930000069
将Mask向量初始化为[1,1,...1];
根据动态元素
Figure BDA00029820769300000610
将Mask向量中已经访问过的任务对应的位置置0;
根据动态元素
Figure BDA00029820769300000611
将Mask向量中不满足时间窗口约束的任务对应的位置置0;
根据动态元素
Figure BDA00029820769300000612
判断如果存储空间耗尽,将Mask向量中所有位置置0;
根据动态元素
Figure BDA00029820769300000613
判断如果电量耗尽,将Mask向量中所有位置置0。
采用本发明的方法可以实现对敏捷成像卫星任务规划问题的有效求解,而且相比于传统优化算法,本发明提出的方法具有更快的求解速度并且可获得更高的收益。对于较长的输入任务序列,所提出的独立指针网络模型相比于一般指针网络模型收敛速度更快,可获得更高的观测收益率。
附图说明
图1为敏捷成像卫星任务规划问题所要满足时间窗口约束的示意图;
图2为本发明所提出的Ind-PN算法模型的结构示意图;
图3为Ind-PN算法模型训练过程收敛曲线;
图4为Ind-PN算法模型推理结果示意图;
图5为长度为200时,训练过程中不同算法模型的收敛曲线对比;
图6为长度为400时,训练过程中不同算法模型的收敛曲线对比。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
将输入任务集合定义为X={x1,x2,...,xM},其中M为输入候选任务的个数。将输入任务集合中的每个任务xi分为两部分,分别为静态元素集合si和动态元素集合
Figure BDA0002982076930000071
其中,静态元素始终保持不变,用来存储任务序列中各个任务的基本信息,动态元素在每个解码时间步骤t时发生动态变化,用来记录任务序列中各个任务实时的状态。此时,可将输入任务集合重新定义为
Figure BDA0002982076930000072
将规划所得的输出任务集合定义为Y={y1,y2,...,yN},其中N为规划结果中要执行的任务个数,yt为在每个解码时间步骤t时所选择要执行的任务序号。
将每个任务xi的静态元素集合定义为si={wsi,angi,wei,coni,ri,mi,ei},其中,wsi为任务可观测时间窗口的开始时间,angi为成像卫星在执行任务观测时沿滚转轴方向侧摆的角度,wei为任务可观测时间窗口的结束时间,coni为任务执行所需要的时间,ri为任务执行可获得的收益,mi为任务执行所需消耗的存储空间,ei为任务执行所需消耗的电量。将每个任务xi的动态元素集合定义为
Figure BDA0002982076930000073
其中,在每个解码时间步骤t时,
Figure BDA0002982076930000074
标记当前任务是否满足时间窗口约束,
Figure BDA0002982076930000075
标记当前任务是否已执行过,
Figure BDA0002982076930000076
记录卫星当前的存储量剩余,
Figure BDA0002982076930000077
记录卫星当前的电量剩余,
Figure BDA0002982076930000078
记录上一解码时间步骤时卫星所执行的任务序号,
Figure BDA0002982076930000079
记录卫星对当前任务执行观测的开始时间;
如图1所示,为敏捷成像卫星任务规划问题所要满足的时间窗口约束示意图,其中横轴表示时间,纵轴表示成像卫星在执行任务观测时沿滚转轴方向侧摆的角度。假设yt和yt +1分别为在解码时间步骤t和t+1时所选择要执行的任务序号。在任务yt的可观测时间窗口中,
Figure BDA00029820769300000710
为任务可观测时间窗口的开始时间,
Figure BDA00029820769300000711
为任务执行的开始时间,
Figure BDA00029820769300000712
为任务执行的结束时间,
Figure BDA00029820769300000713
为任务可观测时间窗口的结束时间。假设任务转移时卫星进行姿态调整消耗的时间为tslew,任务转移时卫星进行姿态调整单位角度消耗的时间为ts
对于敏捷成像卫星任务规划问题,任务yt+1的执行开始时间
Figure BDA0002982076930000081
的计算分两种不同的情况,其中:1)情况一中时间窗口间的关系如图1的子图(a)所示,任务yt在执行结束后,进行姿态调整转移至任务yt+1,此时位于任务yt+1的时间窗口之内,则任务yt+1立即开始执行;2)情况二中时间窗口间的关系如图1的子图(b)所示,任务yt在执行结束后,进行姿态调整转移至任务yt+1,此时位于任务yt+1的时间窗口之前,则任务yt+1在任务yt+1的时间窗口开始时间开始执行。综上两种情况,
Figure BDA0002982076930000082
的计算公式为:
Figure BDA0002982076930000083
式中,
Figure BDA0002982076930000084
和tslew的计算公式为:
Figure BDA0002982076930000085
Figure BDA0002982076930000086
如果任务yt+1的时间窗口为可选择的时间窗口,任务yt+1执行的时间区间要位于任务yt+1可观测的时间窗口之内,则需要满足的时间窗口约束为:
Figure BDA0002982076930000087
假设卫星的总存储空间为Mtotal,卫星的总电量为Etotal,任务转移时卫星进行姿态调整消耗的电量为eslew,任务转移时卫星进行姿态调整单位角度消耗的电量为es,决策函数l(yt)表示在解码时间步骤t时任务yt被执行。敏捷成像卫星任务规划所要满足的存储约束和电量约束为:
Figure BDA0002982076930000088
Figure BDA0002982076930000089
Figure BDA0002982076930000091
Figure BDA0002982076930000092
综合考虑各类约束,本发明将收益率Rrate(Y|X0)作为优化的目标,定义目标函数为:
Figure BDA0002982076930000093
如图2所示,为本发明所提出的Ind-PN算法模型的结构示意图。使用一维卷积层作为EL并作为算法模型的编码器,使用L层的IndRNN结构作为算法模型的解码器。假设在每个解码时间步骤t时第l层的隐含层状态
Figure BDA0002982076930000094
l∈[1,L],则其在解码过程中的更新公式为:
Figure BDA0002982076930000095
式中,W为权重矩阵,u为权重向量,b为偏置向量,⊙表示Hadamard乘积运算,ReLU为ReLU激活函数,其表达式为:
ReLU(x)=max(0,x)
Figure BDA0002982076930000096
l∈[1,L-1]为在解码时间步骤t时第l层的输入向量,其在层间连接中的计算公式为:
Figure BDA0002982076930000097
式中,BN(l-1)表示在第l-1层进行批量归一化(batch normalization,BN)操作。
第一层输入向量
Figure BDA0002982076930000098
的计算公式为:
Figure BDA0002982076930000099
式中,yt为在解码时间步骤t时所选择要执行的任务序号,
Figure BDA00029820769300000910
为yt对应的静态元素
Figure BDA00029820769300000911
经EL映射后得到的高维向量。
最后一层隐含层状态
Figure BDA00029820769300000912
的计算公式为:
Figure BDA00029820769300000913
式中,“+”表示最后一层的隐含层状态输出和第一层输入向量
Figure BDA00029820769300000914
之间的残差连接(residual connection,RES)。
PN机制的具体计算过程为:1)首先,将
Figure BDA0002982076930000101
Figure BDA0002982076930000102
拼接并进行非线性映射,计算中间向量(Middle Vector)ut,计算公式为:
Figure BDA0002982076930000103
式中,Wa为权重矩阵,tanh为激活函数,“;”表示向量之间进行拼接;2)然后,中间向量ut经映射后得到对齐向量(Alignment Vector)at,计算公式为:
Figure BDA0002982076930000104
式中,Va为权重矩阵;3)最后,计算得到下一时间步骤t+1时,输出节点yt+1的Softmax概率分布P(yt+1|Yt,Xt),计算公式为:P(yt+1|Yt,Xt)=Softmax(at+log(Mask)),式中,Xt和Yt分别为时间步骤t时的输入任务集合和输出任务集合,Mask为Mask向量。
表1
Figure BDA0002982076930000105
本发明使用Mask向量来考虑成像卫星任务规划问题中的各类约束,其长度和输入序列的长度相等,每位的取值为0或1。当Mask向量中某位的值为0时,将计算所得的Softmax概率分布对应位的概率值为0,可将对应的任务排除。在每个解码时间步骤t时,根据PN机制选择得到的输出节点yt+1,依次对输入序列中的动态元素dt和Mask向量进行更新,更新算法的伪代码如表1所示。本文将Mask向量初始化为[1,0,...,0],以保证从第一个任务开始执行。当Mask向量为[0,0,...,0]时,说明此时已经满足终止条件:1)所有的任务均不满足时间窗口约束;2)存储空间耗尽;3)电量耗尽。此时结束解码的过程,完成本次的任务规划并得到最终的输出序列Y={y1,y2,...,yN}。
表2
Figure BDA0002982076930000111
本发明使用Actor Critic算法对Ind-PN算法模型进行训练,训练过程的伪代码如表2所示,Actor Critic算法由两部分神经网络构成,分别为:
1)Actor网络:即Ind-PN算法模型,根据输入任务序列计算得到对应输入任务序列各节点的概率分布:
Figure BDA0002982076930000112
式中,θ为Ind-PN算法模型的参数,B为每批训练样本的数量,
Figure BDA0002982076930000121
为每批训练样本中的第i个训练样本序列,Yi为Ind-PN算法模型根据训练样本序列
Figure BDA0002982076930000122
得到的输出任务序列,
Figure BDA0002982076930000123
为Ind-PN算法模型根据训练样本序列
Figure BDA0002982076930000124
得到输出序列Yi的概率,
Figure BDA0002982076930000125
为Ind-PN算法模型对训练样本序列
Figure BDA0002982076930000126
进行规划所得的收益率;
2)Critic网络:根据输入任务序列计算得到规划可获得收益率的评估值。Critic网络的优化目标为均方误差,对于参数的梯度计算公式为:
Figure BDA0002982076930000127
式中,
Figure BDA0002982076930000128
为Critic网络的参数,
Figure BDA0002982076930000129
为Critic网络对训练样本序列
Figure BDA00029820769300001210
可获得收益率的估计值。
每个任务的静态元素、动态元素和场景参数的设定如表3所示,其中,[a,b]表示对应元素随机产生,并且满足a到b之间的均匀分布。
表3
元素参数 设定 数据类型
ws<sub>i</sub> [0,4.0] 浮点变量
ang<sub>i</sub> [-0.25,0.25] 浮点变量
we<sub>i</sub> [ws<sub>i</sub>+0.03,ws<sub>i</sub>+0.08] 浮点变量
con<sub>i</sub> [0.01,0.02] 浮点变量
r<sub>i</sub> [0.1,0.9] 浮点变量
m<sub>i</sub> [0,0.01] 浮点变量
e<sub>i</sub> [0.1,0.01] 浮点变量
win<sub>i</sub> 初始设定为1 整型变量,0/1
acc<sub>i</sub> 初始设定为1 整型变量,0/1
mem<sub>i</sub> 初始设定为0.5 浮点变量
pow<sub>i</sub> 初始设定为0.5 浮点变量
pos<sub>i</sub> 初始设定为0 浮点变量
t<sub>s</sub> 设定为0.2 浮点常量
e<sub>s</sub> 设定为0.01 浮点常量
训练数据集的设定如下:样本序列的长度为200,训练样本的数量为1e5。模型训练的超参数设定如下:每批训练样本的数量为40,训练的轮次(Epoch)数为10,Actor网络的学习率为5e-4,Critic网络的学习率为5e-4,学习率的衰减步长为1000,学习率的衰减比率为0.8,优化器为Adam。模型的超参数设定如下:EL的隐含层维度为256,IndRNN的隐含层维度为256,IndRNN的层数为4,PN机制的隐含层维度为256,模型的Dropout比率为0.1。实验环境的设定如下:操作系统为Ubuntu16.04,CPU为Intel Xeon E5-2620,GPU为RTX2080Ti,深度学习框架为Pytorch。基于Actor Critic强化学习算法,对Ind-PN算法模型进行训练。如图3所示,为Ind-PN算法模型训练过程收敛曲线。其中,最上方线条为Actor网络的Loss收敛曲线,中间线条为模型所获得收益率的收敛曲线,最下方线条为Critic网络的Reward收敛曲线。模型所获得收益率最终收敛至46.3%。
如图4所示,为Ind-PN算法模型推理结果示意图。基于已经训练好的Ind-PN算法模型,可直接对长度为200的输入样本序列进行推理。推理结果中,横轴表示时间,纵轴表示成像卫星在执行任务观测时沿滚转轴侧摆的角度,每个横条表示任务可观测的时间窗口,时间窗口中的两个点分别表示任务的执行开始时间和执行结束时间,时间窗口间的连线表示在任务转移时卫星进行姿态调整的过程。卫星从Start位置开始依次对规划目标进行观测,到达End位置时结束本次过境的观测。根据模型的推理结果,完成观测目标数量为66个,获得的收益率为46.8%。
表4
序列长度 解码器 层数 Epoch数 收益率
200 GRU 1 10 45.7%
200 GRU 2 10 45.5%
200 IndRNN+BN+RES 2 10 45.4%
200 IndRNN+BN+RES 4 10 46.1%
将训练数据集中样本序列的长度设置为200,分别使用不同层数的IndRNN和门控循环单元(gate recurrent unit,GRU)作为算法模型的解码器,训练过程中模型收益率的收敛曲线对比如图5所示。当算法模型使用4层的IndRNN结构作为解码器,并进行BN和RES操作时,模型在训练时可以更快地收敛,并且获得更高的收益率。当训练数据集中样本序列的长度为200时,模型获得收益率的对比如表4所示。当算法模型使用GRU作为解码器时,将层数由1层加深至2层,收益率产生了下降。当算法模型使用IndRNN作为解码器时,将层数由2层加深至4层,收益率产生了增加。当算法模型使用4层的IndRNN结构作为解码器,并进行BN和RES操作时,可获得最高的收益率为46.1%。
表5
序列长度 解码器 层数 Epoch数 收益率
400 GRU 1 10 2.3%
400 GRU 2 10 2.8%
400 IndRNN 2 10 3.0%
400 IndRNN+BN+RES 2 10 1.8%
400 IndRNN+BN+RES 4 10 20.6%
将训练数据集中样本序列的长度设置为400,训练过程中模型收益率的收敛曲线对比如图6所示。当算法模型使用4层的IndRNN结构作为解码器,并进行BN和RES操作时,模型在训练时可以更快地收敛,并且获得更高的收益率。模型获得收益率的对比如表5所示。由于仿真场景中任务分布的时间跨度是固定的,当序列长度增加时任务间的分布变得更加密集,从而产生了更多时间窗口冲突的任务。所以当样本序列的长度为400时,对于使用不同解码器的算法模型来说,可获得的收益率都产生了明显下降。当算法模型使用4层的IndRNN结构作为解码器,并进行BN和RES操作时,可获得最高的收益率为20.6%。
本发明的相关研究获得中央高校基本科研业务费专项资金资助。

Claims (6)

1.一种基于独立指针网络的敏捷成像卫星任务规划方法,其特征在于,该方法首先综合考虑时间窗口约束、资源约束对敏捷成像卫星任务规划问题进行建模,然后基于独立指针网络建立序列决策算法模型,最后基于Actor Critic强化学习算法对算法模型进行训练,具体包括如下:
(1)综合考虑时间窗口约束、存储量约束和电量约束对敏捷成像卫星任务规划问题进行建模;
(2)建立序列到序列的Ind-PN算法模型结构,分为编码器和解码器部分;利用融合IndRNN和Pointer Networks的Ind-PN算法模型对敏捷成像卫星任务规划问题进行求解,使用多层的IndRNN结构作为算法模型的解码器;
(3)在解码器的每个解码时间步骤,依次更新动态元素和Mask向量来考虑敏捷成像卫星任务规划问题所要满足的约束;
(4)基于Actor Critic强化学习算法对算法模型进行训练。
2.根据权利要求1所述的基于独立指针网络的敏捷成像卫星任务规划方法,其特征在于,在步骤(1)中进行敏捷成像卫星任务规划时,需综合考虑以下约束:
(1-1)时间窗口约束:由于敏捷成像卫星机动能力有限,要同时考虑任务执行时间和任务转移时间的约束,下一个任务执行的开始时间必须大于当前任务执行结束时间和卫星侧摆机动时间之和;
(1-2)存储量约束:在执行每个观测任务时,需要消耗卫星的存储空间,考虑无数据下传状态下的任务规划,则完成所有规划出的观测任务所需消耗的存储空间不能超过卫星所提供的存储总容量;
(1-3)电量约束:卫星在执行观测任务及在任务间进行姿态机动转移时,需要消耗卫星的电量,仅考虑无在轨充电的过程,完成所有规划的观测任务所需消耗的电量不能超过卫星所提供的总电量。
3.根据权利要求1所述的基于独立指针网络的敏捷成像卫星任务规划方法,其特征在于,在步骤(2)中,将输入任务集合X={x1,x2,...,xM}中的每个任务xi分为两部分,分别是静态元素集合si和动态元素集合
Figure FDA0002982076920000011
基于序列到序列的结构,建立一种Ind-PN的算法模型,分为编码器和解码器部分:
(2-1)编码器部分:使用一维卷积层作为嵌入层EL并作为算法模型的编码器,将输入序列中每个任务的静态元素和动态元素分别映射为高维向量,即对每个任务
Figure FDA0002982076920000021
采用EL将其映射为向量
Figure FDA0002982076920000022
(2-2)解码器部分:
使用L层的IndRNN结构作为算法模型的解码器,yt为在解码时间步骤t时所选择要执行的任务序号,将其对应的静态元素
Figure FDA0002982076920000023
经EL映射后得到的向量
Figure FDA0002982076920000024
作为编码器的输入,解码器在解码时间步骤t时第l层的隐含层状态为
Figure FDA0002982076920000025
4.根据权利要求3所述的基于独立指针网络的敏捷成像卫星任务规划方法,其特征在于,在步骤(3)中,在每个解码时间步骤t时,根据编码器的输出向量
Figure FDA0002982076920000026
解码器最后一层输出的隐含层状态
Figure FDA0002982076920000027
和Mask向量计算得到指向输入序列各个节点的Softmax概率分布,选择概率最大的节点作为下一解码时间步骤t+1时的输出任务序号yt+1,依次对输入序列中的动态元素
Figure FDA0002982076920000028
和Mask向量进行更新。
5.根据权利要求4所述的基于独立指针网络的敏捷成像卫星任务规划方法,其特征在于,所述的对动态元素和Mask向量进行更新,具体如下:
每个任务xi的静态元素集合si={wsi,angi,wei,coni,ri,mi,ei},其中,wsi为任务可观测时间窗口的开始时间,angi为敏捷成像卫星在执行任务观测时沿滚转轴方向侧摆的角度,wei为任务可观测时间窗口的结束时间,coni为任务执行所需要的时间,ri为任务执行可获得的收益,mi为任务执行所需消耗的存储空间,ei为任务执行所需消耗的电量;每个任务xi的动态元素集合为
Figure FDA0002982076920000029
其中,在每个解码时间步骤t时,
Figure FDA00029820769200000210
标记当前任务是否满足时间窗口约束,
Figure FDA00029820769200000211
标记当前任务是否已执行过,
Figure FDA00029820769200000212
记录卫星当前的存储量剩余,
Figure FDA00029820769200000213
记录卫星当前的电量剩余,
Figure FDA00029820769200000214
记录上一解码时间步骤时卫星所执行的任务序号,
Figure FDA00029820769200000215
记录卫星对当前任务执行观测的开始时间;
首先根据静态元素s和动态元素dt,获取时间步骤t时的信息:yt
Figure FDA0002982076920000031
根据任务序号yt
Figure FDA0002982076920000032
计算得到
Figure FDA0002982076920000033
根据静态元素s,获取每个任务i的信息:coni,angi,wei
使用
Figure FDA0002982076920000034
遍历每个任务i,选择满足时间窗口约束的任务;
将所有满足时间窗口约束的任务中动态元素
Figure FDA0002982076920000035
进行置1,其他不满足时间窗口约束的任务中动态元素
Figure FDA0002982076920000036
进行置0;
将yt+1对应任务的动态元素
Figure FDA0002982076920000037
进行置0;
使用yt+1对动态元素
Figure FDA0002982076920000038
进行更新,将其更新为yt+1
使用yt+1对动态元素
Figure FDA0002982076920000039
进行更新,将其更新为
Figure FDA00029820769200000310
根据yt+1获取
Figure FDA00029820769200000311
并对动态元素
Figure FDA00029820769200000312
进行更新,将其更新为
Figure FDA00029820769200000313
根据yt+1获取
Figure FDA00029820769200000314
并结合
Figure FDA00029820769200000315
Figure FDA00029820769200000316
对动态元素
Figure FDA00029820769200000317
进行更新,将其更新为
Figure FDA00029820769200000318
其中
Figure FDA00029820769200000319
es为任务转移时卫星进行姿态调整单位角度消耗的电量;
根据angyt+1对动态元素
Figure FDA00029820769200000320
进行更新,将其更新为
Figure FDA00029820769200000321
将Mask向量初始化为[1,1,...1];
根据动态元素
Figure FDA00029820769200000322
将Mask向量中已经访问过的任务对应的位置置0;
根据动态元素
Figure FDA00029820769200000323
将Mask向量中不满足时间窗口约束的任务对应的位置置0;
根据动态元素
Figure FDA00029820769200000324
判断如果存储空间耗尽,将Mask向量中所有位置置0;
根据动态元素
Figure FDA00029820769200000325
判断如果电量耗尽,将Mask向量中所有位置置0。
6.根据权利要求1所述的基于独立指针网络的敏捷成像卫星任务规划方法,其特征在于,在步骤(4)中,针对设定的敏捷成像卫星任务规划场景,对数据集中的任务元素进行设定,制作数据集;以任务规划可获得的收益为优化目标,基于Actor Critic强化学习算法对算法模型进行训练,其由两个神经网络构成,分别为Actor网络和Critic网络组成;其中,Actor网络即Ind-PN算法模型,根据输入任务序列计算得到对应输入任务序列各节点的概率分布,Critic网络为由三层一维卷积构成的前向网络,根据输入任务序列计算得到规划可获得收益率的评估值。
CN202110291278.9A 2021-03-18 2021-03-18 一种基于独立指针网络的敏捷成像卫星任务规划方法 Active CN113051815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110291278.9A CN113051815B (zh) 2021-03-18 2021-03-18 一种基于独立指针网络的敏捷成像卫星任务规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110291278.9A CN113051815B (zh) 2021-03-18 2021-03-18 一种基于独立指针网络的敏捷成像卫星任务规划方法

Publications (2)

Publication Number Publication Date
CN113051815A true CN113051815A (zh) 2021-06-29
CN113051815B CN113051815B (zh) 2023-08-11

Family

ID=76513622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110291278.9A Active CN113051815B (zh) 2021-03-18 2021-03-18 一种基于独立指针网络的敏捷成像卫星任务规划方法

Country Status (1)

Country Link
CN (1) CN113051815B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496103A (zh) * 2021-07-08 2021-10-12 中国科学院微小卫星创新研究院 基于多重原则与链条组合的敏捷卫星多目标协同观测方法
CN115801093A (zh) * 2022-10-14 2023-03-14 西安空间无线电技术研究所 一种保证卫星网络端到端确定性时延的路径规划方法
CN116090688A (zh) * 2023-04-10 2023-05-09 中国人民解放军国防科技大学 基于改进指针网络的移动目标遍历访问序列规划方法
CN117332229A (zh) * 2023-09-27 2024-01-02 天津大学 面向故障诊断的星间交互信息优选方法
CN117557068A (zh) * 2024-01-10 2024-02-13 南京融星智联信息技术有限公司 一种低轨卫星星上半自主任务规划方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100146132A1 (en) * 2008-12-04 2010-06-10 Morris Robert P Methods, Systems, And Computer Program Products For Accessing A Resource Having A Network Address Associated With A Location On A Map
CN102479085A (zh) * 2010-11-30 2012-05-30 中国人民解放军国防科学技术大学 敏捷卫星任务规划方法
CN108052759A (zh) * 2017-12-25 2018-05-18 航天恒星科技有限公司 一种基于遗传算法的敏捷多星任务观测计划求解方法及系统
CN109409775A (zh) * 2018-11-14 2019-03-01 中国电子科技集团公司第五十四研究所 一种卫星联合观测任务规划方法
CN110109872A (zh) * 2019-04-29 2019-08-09 北京空间飞行器总体设计部 一种遥感卫星异构数据统一存储管理装置
AU2020100051A4 (en) * 2020-01-10 2020-02-13 Jin, Yawen Miss Method of the mission planning for the communication between the small satellite clusters
CN111310892A (zh) * 2020-01-20 2020-06-19 南京邮电大学 一种基于独立循环神经网络的语言模型建模方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100146132A1 (en) * 2008-12-04 2010-06-10 Morris Robert P Methods, Systems, And Computer Program Products For Accessing A Resource Having A Network Address Associated With A Location On A Map
CN102479085A (zh) * 2010-11-30 2012-05-30 中国人民解放军国防科学技术大学 敏捷卫星任务规划方法
CN108052759A (zh) * 2017-12-25 2018-05-18 航天恒星科技有限公司 一种基于遗传算法的敏捷多星任务观测计划求解方法及系统
CN109409775A (zh) * 2018-11-14 2019-03-01 中国电子科技集团公司第五十四研究所 一种卫星联合观测任务规划方法
CN110109872A (zh) * 2019-04-29 2019-08-09 北京空间飞行器总体设计部 一种遥感卫星异构数据统一存储管理装置
AU2020100051A4 (en) * 2020-01-10 2020-02-13 Jin, Yawen Miss Method of the mission planning for the communication between the small satellite clusters
CN111310892A (zh) * 2020-01-20 2020-06-19 南京邮电大学 一种基于独立循环神经网络的语言模型建模方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496103A (zh) * 2021-07-08 2021-10-12 中国科学院微小卫星创新研究院 基于多重原则与链条组合的敏捷卫星多目标协同观测方法
CN113496103B (zh) * 2021-07-08 2023-08-29 中国科学院微小卫星创新研究院 基于多重原则与链条组合的敏捷卫星多目标协同观测方法
CN115801093A (zh) * 2022-10-14 2023-03-14 西安空间无线电技术研究所 一种保证卫星网络端到端确定性时延的路径规划方法
CN116090688A (zh) * 2023-04-10 2023-05-09 中国人民解放军国防科技大学 基于改进指针网络的移动目标遍历访问序列规划方法
CN117332229A (zh) * 2023-09-27 2024-01-02 天津大学 面向故障诊断的星间交互信息优选方法
CN117332229B (zh) * 2023-09-27 2024-05-10 天津大学 面向故障诊断的星间交互信息优选方法
CN117557068A (zh) * 2024-01-10 2024-02-13 南京融星智联信息技术有限公司 一种低轨卫星星上半自主任务规划方法及系统
CN117557068B (zh) * 2024-01-10 2024-04-05 南京融星智联信息技术有限公司 一种低轨卫星星上半自主任务规划方法及系统

Also Published As

Publication number Publication date
CN113051815B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN113051815A (zh) 一种基于独立指针网络的敏捷成像卫星任务规划方法
He et al. A generic Markov decision process model and reinforcement learning method for scheduling agile earth observation satellites
Chen et al. A distributed method for dynamic multi-robot task allocation problems with critical time constraints
CN113128828B (zh) 一种基于多智能体强化学习的卫星观测分布式在线规划方法
CN113033072A (zh) 一种基于多头注意力指针网络的成像卫星任务规划方法
Wei et al. Deep reinforcement learning and parameter transfer based approach for the multi-objective agile earth observation satellite scheduling problem
CN109960544A (zh) 基于数据驱动型敏捷卫星任务并行调度方法
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及系统
Ge et al. Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control
CN114167898B (zh) 一种无人机收集数据的全局路径规划方法及系统
Saeedvand et al. Novel hybrid algorithm for Team Orienteering Problem with Time Windows for rescue applications
Tan et al. Multi-type task allocation for multiple heterogeneous unmanned surface vehicles (USVs) based on the self-organizing map
Tarkesh et al. Facility layout design using virtual multi-agent system
CN113805609A (zh) 一种混沌迷失鸽群优化机制的无人机群目标搜索方法
Hua et al. Research on many-to-many target assignment for unmanned aerial vehicle swarm in three-dimensional scenarios
Kiaee Integration of electric vehicles in smart grid using deep reinforcement learning
Ren et al. Hierarchical reinforcement-learning for real-time scheduling of agile satellites
Juang et al. A self-generating fuzzy system with ant and particle swarm cooperative optimization
Xiang et al. An effective memetic algorithm for UAV routing and orientation under uncertain navigation environments
Lin et al. When architecture meets AI: A deep reinforcement learning approach for system of systems design
Ou et al. Hybrid path planning based on adaptive visibility graph initialization and edge computing for mobile robots
Zhu et al. A cooperative task assignment method of multi-UAV based on self organizing map
Wu et al. An algorithm for solving travelling salesman problem based on improved particle swarm optimisation and dynamic step Hopfield network
Zhan et al. Dueling network architecture for multi-agent deep deterministic policy gradient
Thomas et al. Inverse Reinforcement Learning for Generalized Labeled Multi-Bernoulli Multi-Target Tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant