CN113128828B

CN113128828B - 一种基于多智能体强化学习的卫星观测分布式在线规划方法

Info

Publication number: CN113128828B
Application number: CN202110243719.8A
Authority: CN
Inventors: 李大林; 彭晓东
Original assignee: National Space Science Center of CAS
Current assignee: National Space Science Center of CAS
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-03-08
Anticipated expiration: 2041-03-05
Also published as: CN113128828A

Abstract

本发明公开了一种基于多智能体强化学习的卫星观测分布式在线规划方法，所述方法包括：步骤1)为卫星观测网络中的每个卫星建立星上执行网络；步骤2)建立集中训练网络，通过多次地面仿真对所有星上执行网络进行集中训练；步骤3)通过星地通信将训练好的星上执行网络分别上传到对应的卫星，或者在发射前将训练好的星上执行网络注入对应的卫星；步骤4)当地面或者在轨卫星发现机遇观测目标时，向卫星观测网络广播观测任务；步骤5)各卫星分别使用星上决策模型对是否接受该观测任务进行决策；根据各自的决策结果，控制卫星实施观测任务。本发明提出了考虑时间覆盖度的自注意力网络决策方法，提升了卫星间的决策协同性和训练时策略梯度传递效率。

Description

一种基于多智能体强化学习的卫星观测分布式在线规划方法

技术领域

本发明涉及多星观测规划问题领域，具体涉及一种基于多智能体强化学习的卫星观测分布式在线规划方法。

背景技术

集中决策的多星观测规划问题的解决方法能够用于地面集中决策，也能够用于星上集中决策。当用于星上集中决策时，需要一颗卫星作为决策的管理节点。这种方式下，需要将观测需求汇总至管理节点，再由管理节点将规划好的任务分配至各卫星。这对使用条件提出了很高的要求：

首先，需要管理节点具有强通信能力，能够及时将任务下发到执行观测的卫星。及时采集整个多星系统中各卫星的任务情况、剩余资源情况等。

其次，需要管理节点具有很强的处理能力，对整个多星系统的任务进行统一规划。

再次，需要作为管理节点的卫星具有高可靠性。因为管理节点卫星一旦失效或者出现故障，将影响到整个多星系统的运行。

以上的要求，对于由微小卫星组成的多星观测系统来说，是很难达到的。为了解决上述问题，基于多智能体系统的卫星规划方法称为一个重要的解决途径。这里将每一个卫星作为一个智能体。每个卫星体获取任务信息以及其它卫星的运行状态，独立进行决策。

在多智能体系统中，每个智能体的行为影响着环境的同时，其行为的决策也受着其他智能体的行为影响。智能体之间需要协调一致地探索好的行为或策略之间的联系。这个问题非常重要，特别是在智能体之间无法通信的情况下。在博弈论中，协调博弈被定义为具有多重纳什均衡的博弈。博弈论文献中提出了纳什均衡选择的各种准则，如支付优势、显著性等。其中假设智能体在应用这些规则之前了解博弈模型。针对智能体无法了解博弈模型，但能够通过与环境的交互来学习博弈模型的环境，学者们提出了多智能体强化学习方法来确定纳什均衡，包括纳什Q-学习、MADDPG，以及平均场Q-学习等。

发明内容

本发明的目的在于克服上述技术缺陷，提出了一种基于多智能体强化学习的卫星观测分布式在线规划方法；该方法首先建立了分布式天文观测在线调度问题模型；然后在集中训练-分布式决策强化学习框架下，设计了基于策略梯度共享的天文观测任务在线调度问题求解网络；最后通过仿真实验，测试了算法的调度能力。

为实现上述目的，本发明提出了一种基于多智能体强化学习的卫星观测分布式在线规划方法，所述方法包括：

步骤1)为卫星观测网络中的每个卫星建立星上执行网络；

步骤2)建立集中训练网络，通过多次地面仿真对所有星上执行网络进行集中训练；

步骤3)通过星地通信将训练好的星上执行网络分别上传到对应的卫星，或者在发射前将训练好的星上执行网络注入对应的卫星；

步骤4)当地面或者在轨卫星发现机遇观测目标时，向卫星观测网络广播观测任务；

步骤5)各卫星分别使用星上决策模型对是否接受该观测任务进行决策；根据各自的决策结果，控制卫星实施观测任务。

作为上述方法的一种改进，所述星上执行网络为状态注意度决策网络，包括：输入层、多头自注意力网络层、全连接层、乘积单元和SoftMax；

当星上执行网络设置在卫星s_j上时，所述输入层，将观测任务状态向量

和其它卫星时间覆盖度向量

进行拼接；得到与卫星数量N相同的观测状态向量

i为观测任务的序号，j为观测卫星的序号，p_i为观测任务i所需的观测时长，ω_i为观测任务i的总观测收益；

为观测卫星s_n对观测任务i的时间覆盖度；将N个观测状态向量

输入到多头自注意力网络层中；

所述多头自注意力网络层，用于获取卫星观测网络中其它卫星对当前卫星s_j的注意力，按照当前卫星的序号j，提取当前卫星对应的二维决策向量

并输出至全连接层；

所述全连接层，用于对二维决策向量

处理后输出至乘法单元；

所述乘法单元，用于将全连接层的输出与卫星s_j的可用状态向量

相乘，将结果输出至SoftMax；

所述SoftMax，用于对相乘结果进行过滤，输出最终的动作概率向量

作为上述方法的一种改进，每颗卫星的时间覆盖度的计算步骤包括：

在[t₀,t₁]时段内，若卫星s对目标o分别在时间窗口

W^c＝[start^c,end^c]，t₀≤start^c<end^c≤t₁，c＝1,...,C,中可见；C为时间窗口总数；卫星s的可见时段V(s,o,t₀,t₁)为：

V(s,o,t₀,t₁)＝{v|v∈[start^c,end^c],c＝1,...,C}

定义可见时段V的模|V(s,o,t₀,t₁)|为各段可见窗口时长的和：

在[t₀,t₁]时段内，卫星s对目标o时间覆盖度C(s,o,t₀,t₁)为：

作为上述方法的一种改进，所述集中训练网络包括：第一全连接层、第二全连接层、多头自注意力层和第三全连接层；第一全连接层的输入为：N个观测卫星的状态向量，其中，观测卫星s_n的状态向量包括：可观察状态

和其星上执行网络输出的动作概率向量

第三全连接层的输出为状态动作值Q。

作为上述方法的一种改进，所述步骤2)具体包括：

从历史决策记录中随机采样历史记录，作为训练状态注意度决策网络的训练集；观测任务i的历史记录H_i中包含每次决策时各卫星的决策所利用状态信息、决策结果以及实际观测收益，决策结果包括接受和拒绝两个的概率，即：

式中，

表示接收到观测任务i前，卫星s_j的可观察状态；

表示卫星s_j执行决策动作后，改变后的可观察状态；

为卫星s_j决策网络所计算出的两个动作的概率分布，R_i为实际收益；

根据集中训练网络的计算的当前状态与采取决策动作之后的总状态动作值函数值的变化与实际收益间的偏差，对集中训练网络的参数进行调整；网络训练的目标函数为：

式中，Q^θ为策略参数θ定义的状态动作值；

为状态动作值的目标网络函数；该目标网络函数的参数周期性的根据状态动作值函数进行更新。

本发明的优势在于：

本发明为了提高分布式决策卫星网络对科学机遇事件的观测效能，提出了考虑时间覆盖度的自注意力网络决策方法，提升了卫星间的决策协同性和训练时策略梯度传递效率。

附图说明

图1为星上实际执行-地面训练模式示意图；

图2为地面模拟执行-训练模式示意图；

图3为卫星观测网络在线任务规划总体训练架构；

图4为展开状态深度网络的结构示意图；

图5为状态注意图决策网络的结构示意图；

图6为自注意力集中训练网络的结构示意图；

图7为时间覆盖度对协同决策网络效能影响；

图8为在集中训练网络中自注意力网络层对观测收益的影响；

图9为重复观测惩罚因子效能示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

本发明提出了一种基于多智能体强化学习的卫星观测分布式在线规划方法，采用如下技术方案：

1、天文观测分布式在线调度问题建模

当卫星具备了决策能力后，每颗卫星能够独立决策，选择自身执行的观测任务，并为观测任务排序。该项能力的提升能够带来整个卫星网络使用方式的改变。

观测任务的发布能够分为两类。一类是天基自动触发的变源天体后随观测任务。在某一观测设备(能够是分布式决策观测网络内部的观测设备，也能够是网络外部的观测设备)发现变源天体后，将该事件发布到分布式决策观测网络中的每颗卫星。这一类观测任务对时效性有较高的要求，需要卫星尽快进行观测，这里将这类任务归为为实时任务。另一类是地面科学用户提出的观测任务。通过地面站或其它可与卫星通信的设备上传观测任务到卫星观测网络。既有对时效性要求较高的实时任务，也有对实时性要求不高的非实时观测任务，能够在一定的事件范围内选择合适的时机进行观测。本文仅讨论实时性观测任务。即，不论任务来源于自身触发、其他卫星或者地面，观测任务都要求立即执行。

每颗卫星接收到该事件后，各自判定自身的观测设备是否适合观测该类天体，包括可见条件的判定、观测谱段判定等。在对该事件的目标天体不可见，或者观测设备无法对该类天体进行有效的观测的情况下，直接忽略该事件，不对其进行调度；在目标天体可见且观测设备适用于对该天体实施观测的情况下，进入决策环节。

各卫星决策是几乎同时进行的，所以，无法得知其它卫星对该任务的决策结果。仅能够计算出，其它卫星对该目标的可见性和观测谱段的匹配性，本章中，将该类信息称作静态决策条件。卫星根据静态决策条件和自身已经安排的观测任务进行决策。由于决策是独立进行的，所以，卫星间的决策会面临协作的问题。如果卫星都倾向于对可观测的目标实施观测，会出现多颗观测能力相同的卫星同时做出实施观测决定的情况，这样就造成了观测资源的浪费；如果卫星为了避免观测资源的浪费，而倾向于不对目标实施观测，那么又会出现目标没有被观测情况，造成观测目标的遗漏，错过天文发现的机会，影响观测效能的发挥，也是一种观测资源的浪费。

下面对所研究的规划问题进行定义。

1.1变量

本发明研究的规划问题为：给定一个具有N颗观测卫星的观测网络S＝{s₁,s₂,...,s_N}，一个具有M个观测任务的集合J＝{J₁,J₂,...,J_M}，每个观测任务J_i定义为

其中o_i为任务天体在天球上的坐标，用赤经，赤纬表示；r_i为观测任务J_i的发布时间；p_i为任务的观测时长；ω_i为该观测任务完成后的总收益。

定义1：令卫星s_j对观测任务J_i是否观测的决策定义为：

各卫星在r_i时刻决策的结果为向量

定义2：观测任务J_i被执行状态定义为：

定义3：卫星s_j的在r_i时刻的可用性，即在r_i时刻，卫星s_j是否在执行其他观测任务的状态，用

表示：

1.2约束与假设

该规划问题的约束条件主要包括：

1、独占性约束。同一时刻，一颗卫星仅能够执行一个观测任务。即：

如果

则r_i+p_i≤r_j。

2、即时性约束。观测任务按照各自发布时间r_i，逐次进入决策系统中进行分布式决策。在任务J_i到达系统后，所有的卫星同时进行独立决策是否执行对J_i的观测。决策依据卫星各自的决策策略进行。当卫星s_j的决策结果为执行观测任务J_i时，从r_i时刻立即开始。

3、非抢占性约束。每个观测任务在未满足观测时长p_i需求前，不能被其它观测任务抢占。也即若卫星未完成上一个接受的观测任务前，不能接受其他观测任务。

同时，为了突出核心问题，对所研究问题进行如下假设：

1、存储充足性假设。假设各颗卫星的存储都在下一次数据下行前，能够满足观测数据的存储需求。对于数据无法及时安排下行的情况不在本文讨论的范围之内。

2、无通信打断假设。假设卫星在执行观测任务期间，星地、星间的各项通信行为对观测行为无影响。观测任务在独占卫星p_i时间后，所得观测数据均满足其观测需求。

3、轨道稳定性假设。假设能够在星上对观测网络中其他卫星的运行轨道进行推演，并依次计算其他卫星对观测任务的可见性指标。卫星的轨道虽然会随着运行时间衰减，但利用较好的轨道递推模型，能够使轨道推演带来的偏差降低到不影响观测约束检查的水平。并且，也能够采用较长的更新周期，将各卫星的轨道根数向系统中其他卫星同步，既保证计算精度又不给通信带来大量的压力。所以，这里将轨道信息也视作静态信息。

4、任务发布即时性假设。假设观测任务的发布时刻r_i即为各卫星接收到该任务信息的时刻。在实际问题中，能够在观测实际开始前一定时间内，将观测任务分发给各卫星。

5、姿态机动耗时假设。假设卫星在切换观测任务时，因姿态调整所消耗时间对观测任务的完成没有影响。根据上述两项假设，任务发布及时性假设和姿态机动耗时假设，本文中将观测任务发布时刻、卫星接收到任务时刻、卫星决策时刻和开始执行观测时间(如果决定接收该观测任务)统一定义为r_i。

6、通信受限假设。假设各颗卫星不了解其它卫星的已接受观测任务情况，仅了解其它卫星的轨道信息、主要载荷参数等静态信息。了解其它卫星正在执行的观测或者观测计划安排，需要大量的通信支持。对于大规模的卫星网络来说，实现这样要求的成本较高。

1.3目标函数

为了将研究重点聚焦于分布式决策方法，本文所研究的问题中，不要求多星对同一目标的观测在时间上的连续性。单一卫星由于受到地球遮挡以及其他观测约束的影响，只能对特定范围内的天体实现连续观测。当前以及既往的天文卫星项目都受到该项约束的影响。同时，也说明该项影响在一定程度上是可接受的。

当观测任务不要求时间连续性时，任意一颗卫星接受了观测任务，观测系统即能够获得该观测任务的收益。该规划问题的优化目标函数即为完成观测任务的总收益最大，也即加权完成数最大：

其中，γ_i为观测任务的完成质量系数。根据每个卫星任务的科学目标、载荷特性、观测目标特性等具体情况，制定衡量观测完成质量的方法。由于在进行观测任务规划时，无法使用观测结果数据的质量来对观测进行评判。这里的完成质量系数仅考虑在观测实施前的期望。观测完成质量系数需要考虑到每颗卫星由于轨道的特性，对观测目标的观测存在无效的观测时段，例如遮挡、空间环境影响等因素。例如，观测任务的完成质量评价系数能够使用执行该观测的卫星对该目标的时间覆盖度。若同时有多颗卫星同时对一个观测目标实施观测，则能够取各自时间覆盖度的最大值、均值或者卫星组合的时间覆盖度。本文中，采用接受观测任务的卫星中，时间覆盖度最大值，作为观测完成质量系数，即：

其中，C(s_j,o_i,r_i,r_i+p_i)为卫星s_j对观测任务J_i的平均时间覆盖度。

该规划问题中变量及其含义整理如表1所示。

表1

1.4可观察状态分析

以每颗卫星作为一个智能体，在轨决策过程中，每颗卫星对后续任务执行有影响的状态包括：

1、观测任务的属性。包括观测任务的优先级ω_i，任务所需观测时间p_i，观测任务的方向o_i。其中观测任务的优先级能够理解为该观测任务的直接收益；任务所需时间是对卫星资源的消耗，属于观测成本或损耗；观测任务的方向，与卫星的观测效率相关，可转换为时间覆盖度。

2、对新观测目标的时间覆盖度。即卫星对新观测任务中目标的观测效率。

3、卫星的可用性。

上述状态中，观测任务的属性是各卫星可观察状态中必需的部分，观测任务信息是决策行为的触发条件，同时也是卫星进行决策的最主要因素。

卫星对目标的时间覆盖度，是目标位置、卫星载荷视场角、卫星观测约束条件和卫星的轨道参数的函数。目标位置是每次任务下达后可知的。卫星载荷视场角和卫星观测约束条件是静态的信息。由于我们假设卫星的轨道参数衰减速度可忽略，所以每颗卫星均能够在通信条件允许时，及时更新其他卫星的轨道参数。从而，每颗卫星均可独立的计算观测网络中，所有卫星对新观测目标的时间覆盖度。时间覆盖度信息也可作为可观测部分状态。

卫星可用性直接决定于卫星上一次接收的观测任务的时间r_t-1以及该任务所需的观测时长p_t-1。对于决策卫星自身，该状态是可知的。但对于观测网络中其他卫星的可用性状态的获取，则需要卫星间通信条件的支持。若通信条件不允许，无法及时将每颗卫星接收观测任务的状态在整个观测网络中广播，则该类状态为不可观察部分；若通信条件允许，卫星间能够及时沟通各自占用情况，则该类状态为可观察部分。

2、基于策略梯度共享的分布式决策

2.1状态部分可观察多智能体随机博弈

一个状态部分可知的具有N个智能决策体的随机博弈问题

定义为多元组

其中，S^j为系统环境离散状态集S中智能体j∈{1,...,N}可观察到的部分，A^j为智能体j的动作空间。r^j为智能体j的即时回报函数，r^j:

T为状态转移概率，T:S^j×A¹×...×A^N→Ω(S)，Ω(S)为状态空间S上的概率分布函数。γ∈[0,1)为随时间折扣系数。

每个智能体根据自己的决策策略进行决策，选择动作。对于智能体j，相应的决策策略定义为π^j:S→Ω(A^j)，其中Ω(A^j)为智能体j动作空间A^j上的概率分布函数集合。令

表示所有智能体的联合决策策略。若π是与历史决策相关的函数，则称其为行为策略；否则，则称其为固定策略。本文研究的卫星观测问题，仅与当前状态及动作相关，是固定策略。下文如无特殊说明，均假设π为固定策略。

在状态s下，智能体j在联合决策策略π下的值函数为未来累计折扣收益的期望：

上式的标准解法是通过迭代搜索方法找到贝尔曼方程(7)的解

其中，

为所有智能体的联合动作向量，r(s,a)是在联合状态s下采取动作a所得到的收益，s′为下一时刻的联合状态向量，p(s′|s,a)为在联合状态s下采取动作a转移到s′的概率。

根据(6)及贝尔曼方程，可定义智能体j动作值函数，也即Q函数，为

值函数

能够用Q函数表达为：

多智能体随即博弈问题的目标是每个智能体都找到最优策略π，使得其值函数最大化。

在一个随机博弈问题中，纳什均衡点是联合策略

使得对于

以及

都满足

其中，

表示除了智能体j之外的所有智能体的联合策略，即

在纳什均衡处，任意智能体都无法通过仅改变自身策略，来获得更多的收益。在一个达到纳什均衡的系统中，每个智能体都按照其最佳策略

进行决策，同时也假设其它所有智能体都按照最佳联合策略

进行决策。

构成纳什均衡的策略一般能够是行为策略或固定策略。下面的结果表明，在固定策略下，总能够找到一个纳什均衡策略。

定理1：每个有n个决策者的折扣随机博弈在固定策略中至少拥有一个纳什均衡点。

若π_*为一个纳什均衡策略，则定义纳什值函数为

定义纳什操作符

为

其中，

策略梯度方法按照目标的梯度方向

去调整策略中的参数集合θ，实现网络决策网络最大化目标

策略梯度方法是一类重要的强化学习方法。为了实现网络决策网络最大化目标

策略梯度方法按照目标的梯度方向

去调整策略中的参数集合θ，式中π_θ为状态的概率分布。根据Q值函数的定义，策略梯度能够表达为:

当状态到动作是固定的映射关系π_θ(s):S→A时，策略梯度方法能够扩展为确定策略梯度方法。其策略梯度可表达为：

设一个有N个智能体的系统中，每个智能体的决策策略集合为π＝{π₁,π₂,...,π_N}，相应的决策策略参数集合为θ＝{θ₁,θ₂,...,θ_N}。则策略梯度能够写为：

其中，D＝(s,s′,a₁,...,a_N,r₁,...,r_N)为经验回放缓存，包含了所有智能体的经验信息。深度确定策略梯度(Deep deterministic policy gradient,DDPG)是将确定策略梯度方法中的策略π和Q值函数都用深度神经网络进行近似表达。类似的，将式(16)中的策略π和Q值函数都用深度神经网络进行近似表达的方法称作MADDPG。

MADDPG网络能够成功训练是基于：当系统中每个智能体在某状态下，动作已知时，系统的下一个状态仅与当前状态和各智能体动作相关，而与各智能体的决策策略无关。

2.2基于集中训练-分布式决策方式的强化学习

在多智能体强化学习方法中，主要有集中式训练模式、分布式训练模式和集中训练-分布执行模式。其中，集中训练-分布式执行的模式，非常适用于基于多星协同观测网络的分布式决策应用场景。在本章所研究的应用场景下，一方面覆盖整个网络的卫星间的及时通信对卫星网络的通信能力有很高的要求，另一方面，星上处理能力有限，尤其是本文研究中面向的微纳卫星，难以满足大规模网络的训练。而集中训练-分布式执行的模式则能够很好的解决这个问题。针对多星协同观测网络的应用场景，本文设计了两种工作模式：

第一种为星上实际执行-地面训练模式，如图1所示。该模式中，地面收集星上实际任务执行情况，进行地面集中训练，共分为五个环节。星上首先根据初始化的决策网络进行决策，处理地面或者在轨卫星发现机遇观测目标任务。图中，标着字母A的绿色箭头代表地面向卫星星座广播的观测任务；标着字母B的橙色箭头代表在轨运行卫星自主发现机遇观测目标任务后，向网络中其它卫星发布的观测任务。以上两种观测任务的发布可以直接传输，也可以通过为卫星间的通信网络进行中继传输，以提升任务发布的及时性。而后将决策结果数据下行到地面。经过一段时间的数据积累后，地面根据各颗卫星执行记录，经过训练后，将训练好的星上决策网络上传，更新星上的决策网络参数。星上继续利用新的网络进行决策。经多次迭代后，直至各网络参数收敛，系统达到稳定状态。

第二种为地面模拟执行-训练模式。其运行模式可分为四个环节，如图2所示。第一步，通过大量的地面仿真训练场景，训练好星上决策模型。第二步，通过星地通信将决策模型分别上传到对应的卫星，或者在发射前注入卫星。第三步，当地面或者在轨卫星发现机遇观测目标时，向卫星观测网络广播观测任务。各卫星独立对是否接受该观测任务进行决策。第四步，根据各自的决策结果，控制卫星实施观测。地面还能够根据观测网络中卫星的变化、模型的运行效能等情况，重新训练或者持续改进决策模型，再更新到在轨卫星。地面策略能够持续的对星上决策网络进行训练、改进，也能够根据卫星观测网络中卫星的增加、减少而进行调整。再伺机上传到各卫星，更新其星上决策网络。该运行模式，充分利用了地面的的处理能力，将高耗时、耗费算力的工作事前在地面完成。并且对持续优化决策策略友好。

星上实际执行-地面训练模式采用的训练场景都是实际发生的应用场景，真实度高。但训练样本规模受限，网络训练过程中，容易发生过拟合现象。应对将来可能出现的实际情况时，效果可能会受影响。地面模拟执行-训练模式克服了前一种模式中训练样本小的问题，能够仿真生成足够多的训练场景。但在设计仿真场景时，需要控制好实际发生过的应用场景和可能会出现场景的平衡。要求所生成的仿真场景中各项分布与实际情况吻合。对仿真模型要求高于前一种模式。

2.3网络结构及训练方法设计

决策网络结构包括星上分布式执行网络和集中训练网络两部分。求解网络结构如图3所示。集中训练网络获取所有星上分布式执行网络的观测任务执行情况。在训练的时候，利用能够观察全局历史状态的集中训练网络作为评价器(Ctritic)来指导各星上分布式执行网络(Actor)的训练。测试的时候只使用局部观察的星上分布式执行网络进行决策、执行。在集中训练中采用的是离线学习(off-line)，在分布式执行中采用的是在线学习(on-line)。离线学习和在线学习共用星上分布式执行网络，都是仅利用局部的观察信息进行决策。

2.3.1星上分布式决策网络

星上分布式决策网络负责根据卫星自身状态及可观察到其他卫星的状态信息，计算执行该观测任务和不执行该观测任务两个动作的Q值。选择其中Q值大的动作，作为决策结果。本文设计了两个不同的分布式决策网络结构，分别为扩展时间覆盖度网络和状态注意度决策网络。

展开状态深度网络的结构借鉴了文献中对地观测卫星分布式决策中的解决方案。将可观察到的决策相关状态展开为一个向量。将该向量作为决策网络的输入。利用一个多层神经网络计算输入状态向量对应接收、拒绝动作的概率。其中，为了强调当前卫星的时间覆盖度状态，将当前卫星的时间覆盖度排在其他卫星的时间覆盖度前面。网络中包含三层全连接层和一个SoftMax层。具体网络结构见图4。

状态注意度决策网络采用展开状态作为输入，在决策网络内部，将输入的状态向量拆分、重组为三个部分：可用状态向量、观测任务状态向量、时间覆盖度向量。将观测任务状态向量分别与各卫星的时间覆盖度拼接，得到与卫星数量相同的观测状态向量。在这里时间覆盖度向量与展开状态深度网络中用到的不同，当前卫星的时间覆盖度不需要单独提取出来，可按照默认的卫星序列排序。观测状态向量输入到一个多头自注意力网络层中。该多头自注意力网络层的输出维度为[卫星数量,2]。从多头自注意力网络层的输出中，按照当前卫星的序号，提取当前卫星对应的二维决策向量。经过SoftMax过滤后，与可用状态向量相乘，得到最终的动作概率向量

具体输入拼接和网络结构见图5。这里，利用多头自注意力网络层获取观测网络中其它卫星对当前卫星的注意力，该注意力数值与卫星排列次序无关。由于仅取当前卫星的注意力数值，该多头自注意力网络在文献中的提到的网络结构上进行了修改，删除了其他卫星对应V向量。在不影响网络表达能力的条件下，节省了计算量。

2.3.2集中训练网络

集中训练网络的结构如图6所示，为了提升在大量智能体间策略梯度的传递能力，避免智能体数量增多时，梯度的衰减，这里采用多头自注意力网络(multi-heads self-attention)代替双向长短时记忆网络(Bi-LSTM)。从实际物理意义上讲，卫星间不存在次序，双向长短时记忆网络带来的卫星Q值计算中，卫星间距离的信息对系统Q值的求解带来了额外的障碍。卫星间的相关性能够通过自注意力网络的训练获得。所以，多头自注意力网络能够更好的在智能体数目多的情况下，共享策略梯度。并且，由于多头自注意力网络相较于双向长短时记忆网络，具有更好的并行性，能够更好的利用GPU等设备的并行处理能力，提升训练的效率，减少时间消耗。

2.3.3训练方法

由于在观测网络中，当一个观测任务下发到各卫星后，系统总体观测收益和各卫星在决策后的可用状态，仅与卫星当前可用状态和各卫星的决策结果相关，而与做出决策的策略网络参数无关。利用这一特性，在决策策略更新后，仍然能够利用历史的决策信息进行决策网络的训练。

网络训练从历史决策记录中，随机采样，作为训练网络的输入。历史记录H_i中包含每次决策时各卫星的决策所利用状态信息、决策结果(接受和拒绝两个的概率)、决策后各卫星可用状态以及实际观测收益，即

式中，

表示接收到观测任务前，卫星s_j的可观察状态；

表示各星执行决策动作后，改变后的可观察状态。这两类状态具体组成依采用的执行端网络结构不同而有所差异，参见图。

为卫星s_j决策网络所计算出的两个动作的概率分布，R_i为实际收益，参见公式。历史记录储存在经验池中，当经验池满时，按照先入先出的次序，更新经验池。

训练过程中根据集中训练网络的计算的当前状态与采取决策动作之后的总状态动作值函数Q值的变化与实际收益间的偏差，同时对星上决策网络和地面集中训练网络的参数进行调整。网络训练的目标函数为：

式中，Q^θ：策略参数θ定义的状态动作值函数；

状态动作值函数的目标网络值。该目标网络的参数周期性的根据Q^θ网络进行更新。

3仿真实验与分析

3.1实验设计

3.1.1卫星观测网络

在仿真实验中，采用从当前在轨运行卫星数据库中，随机选取卫星的方式，确定实验中所用卫星的轨道参数信息。为了更好的考核所提出方法在不同卫星观测网络中的表现性能，每个相同数目的观测网络均随机选择5组。假设每颗卫星的调姿不受约束，能够将载荷指向任意方向。

3.1.2观测任务

由于需要的数据量较大，网络训练和测试过程中使用的观测任务信息均为随机生成。

训练集中为每个规模的卫星分组准备了共计10000个任务场景，根据每次训练需求，按顺序取用。每个任务场景的总时长为420个时间单元。若将一个轨道周期作为一个时间单元，并按90分钟为一个轨道周期计算，420个时间单元则能够对应为4周。为了使得目标位置的分布贴近实际天文观测需求，选取了HXMT卫星实际已经安排的154个Too观测目标源的位置，作为观测目标的位置基础。每个任务场景构建时，随机从Too任务库中选取目标后，在原始位置上增加一定量的随机扰动后，作为观测任务的位置信息o_i。在420个时间单位中，随机为每个观测目标设置开始观测时间r_i和观测时长需求p_i。观测开始时间在整个场景周期内均匀分布。观测时长需求P满足正态分布P～N(420×0.1,(420×0.2)²)，并为了保证观测时长的有效性，对小于1个时间单位的观测和完成时间超出任务场景时间的观测需求时间进行了截断处理。每个观测任务的完成收益ω_i在整数1～5中随机设置，满足均匀分布。每个任务场景中任务的总收益控制为300。当总观测收益超出上述设置时，停止增加观测任务。从而保证每个任务场景收益的稳定性。设每个任务场景中观测任务中总观测时长与卫星数量和场景长度乘积的比值为场景的压力系数，即

其中N为卫星数量，M为场景中观测任务数量，Prs为观测需求压力系数。

每个规模的卫星分组，分别生成了对应的测试集。测试集中包括10个任务场景，每个场景的生成方式与训练集相同。

3.1.3比较基线

本章所研究的是随机任务到达的多机调度问题，属于NP难问题，没有多项式求解方法。即使预先知道每个任务的到达时间、优先级、观测时长等信息，也没有多项式时间求解方法。没有办法计算出每个测试场景的最优解。本文以王海蛟提出的MADRL和MADDPG网络作为对比方法。在其网络的基础上，应用前述问题的决策任务模型、收益、约束条件等进行网络改造。其中MADDPG-Base将基础卫星状态和观测目标信息作为观察状态输入MADDPG；MADDPG-Base+C则在MADDPG-Base基础上增加了当前决策卫星的时间覆盖度。实验中所用算法的具体信息如表2所示：

表2

3.2实验结果分析

3.2.1时间覆盖度对协同决策网络的影响分析

图7展示了在五颗卫星组成的协同观测网络中，采用时间覆盖度作为卫星状态参数和不采用时间覆盖度作为卫星状态参数在决策网络训练结果方面的差异。图中为平滑参数取0.985后，得到的趋势曲线。从图7的a)中能够发现，采用时间覆盖度作为状态参数的三种算法得到的结果网络，包括Attention(本文提出方法)、MADRL+C和MADDPG-Base+C，仿真场景总收益均高于仅使用卫星可用性和目标参数作为卫星状态参数的算法(MADDPG-Base)。由此可见时间覆盖度对于观测网络的策略训练有帮助。从实验结果中能够发现，是否采用其它卫星的时间覆盖度，对网络的决策能力上的影响并不十分明显。而状态注意力决策网络所得训练效果比上述两种方法都具有优势。由此可见，使用扩展状态方法，并未充分发挥其他卫星时间覆盖度信息的作用。

3.2.2自注意力集中训练网络效果分析

为了验证自注意力网络单元在集中训练网络中性能，图8中，对比了了5颗卫星、10颗卫星、15颗卫星组成的观测网络分别在集中训练网络中国采用自注意力网络层和双向长短时记忆网络层，对规划结果的影响。图中曲线为平滑度设置为0.985后的趋势。从中能够发现，在不同规模的卫星协同观测网络中，在集中训练网络中采用自注意力网络结构，能够获取更高的观测收益。

表3

同时，从表中能够发现，采用自注意力网络结构比双向长短时记忆网络在训练时间上更短。这是由于自注意力网络结构能够更好地利用GPU的并行计算能力，并行计算各卫星网络间的注意力，从而，达到了节省时间的效果。训练所用环境为GPU：NVIDIA TITAN Xp，CPU：Intel Xeon CPU E5-2696 v4。

3.2.3重复观测惩罚对网络决策能力的影响

从图7的b)展示的结果能够发现，状态注意力决策网络在训练的后期，虽然系统观测收益增加，但重复观测数量逐渐增高。所以，考虑在收益函数设计时，加入了惩罚因子，避免同一个观测任务由太多卫星执行，浪费观测资源。

定义观测任务J_i带来的总收益Rⁱ为：

式中，k_i为执行观测任务J_i卫星的总数量；λ为惩罚系数；ω_i为观测任务J_i的观测收益；p_i为观测任务J_i所需的观测时长。

从上式可以发现，当引入大于0的惩罚系数后，同时接受一个观测任务的卫星数量越多，给系统带来的总收益越少。

为了验证惩罚因子的效能，通过在不同网络结构、不同规模问题中设置不同程度的惩罚因子的方式，比较惩罚因子在不同的应用场景中的作用。图9中分别显示了在5颗卫星和10颗卫星网络规模中，惩罚因子对观测网络整体收益的影响。图中曲线为平滑度设置为0.985后的趋势。其中网络整体收益仅考虑观测的实际收益，未计入惩罚因素。从中能够发现引入惩罚因子之后，相比于未引入惩罚因子的网络，网络收敛速度变快。但由于惩罚因子使得网络的训练信息出现偏差，在训练的后期，在惩罚因子的影响下，网络向偏差目标收敛。所以，最终决策网络的收益低于未引入惩罚因子的网络。从观测冲突数量的演化曲线上看，引入惩罚因子的网络能够更快速的减少卫星间对同一目标的重复观测，并维持相对较低的重复观测率。而未引入惩罚因子的网络在初期将重复观测比例降低后，逐渐尝试增加接收观测任务比例。由于各卫星更积极的接收任务，减少了被放弃观测任务的比例，保证了观测任务的执行。

通过地面集中规划，控制卫星观测星座，由于受到通信条件的限制，难以掌握星上实时的状态，响应效率也会受到影响。而星上自主决策机制将克服上述问题。本章瞄准天文卫星观测网络的分布式在线决策问题展开算法研究。首先，分析应用场景，建立了该在线规划问题的描述模型。接着，将该问题归结为状态部分可观察的多智能体随机博弈问题。采用集中训练-分布执行的强化学习架构，设计了在实践中应用时的工作模式。然后，基于策略梯度传递理论方法，设计了规划训练和执行网络结构，以及相应的训练方法。提出了基于时间覆盖度指标表征各卫星状态的方法，并将自注意力网络引入了MADDPG算法结构。最后，通过仿真实验，验证了所提出算法的有效性和训练效率等方面的性能。与对比算法相比，本方法在最终达到的观测收益、训练时间等方面超出了对比算法。

天文观测卫星的观测任务规划是天文观测卫星任务决策的重要环节，解决卫星的高效利用问题。尤其在时域天文学研究相关的卫星任务中，不可预知的机遇科学事件观测需求，使得卫星观测任务规划问题面临复杂的动态性和不可预见性。为了提高天文观测卫星在机遇科学事件观测需求占比高甚至全部是机遇科学事件观测需求的任务条件下的观测任务决策质量，本文分别针对单星观测任务规划、多星协同观测任务集中规划和多星协同观测任务分布式规划三种运行和决策模式进行了相关研究。取得了一下研究成果：

(1)针对单星任务中，在安排机遇科学事件观测的情况下，维持原观测计划中观测完成时间的相对稳定性的问题，利用了已知任务的观测窗口信息，提出了静态需求度和动态需求度两个优化目标函数，设计并实现了一种基于NSGA的规划求解算法，提升了规划结果中原计划观测完成时间的稳定性。与不采用所提出的优化目标函数和对比方法相比，所提方法在实验数据上在平均加权按时完成率上平均提高32％，平均加权完成率上平均提高14％。

(2)针对以机遇科学事件观测为主的天文观测卫星网络的集中式规划问题，提出了天文观测卫星目标观测可见性计算方法，以及时间覆盖度和天球覆盖度两项观测网络能力指标，为衡量卫星观测网络对未知机遇科学观测事件的观测能力提供了工具。利用上述两项能力指标，将集中式实时观测规划问题的优化目标转化为可计算的函数，设计了一种二叉树剪枝规划算法，降低了问题求解的时间复杂度。所提方法在实验数据上，能够解决不同卫星数量规模的观测网络规划问题，规划算法为观测网络赋予了资源预留能力，维持了观测网络的观测能力，为未知的机遇科学观测任务的执行提前做了准备。并且，所提出的求解算法，能够有效提升求解效率。

(3)针对机遇以机遇科学事件观测为主的天文观测卫星网络的分布式规划中，卫星间无法获取其它卫星可用状态，从而无法协同完成观测任务的问题，构建了集中训练-分布执行的协同观测网络工作模式，提出了一种基于多智能体策略梯度共享的深度神经网络算法，设计了神经网络结构和状态描述方法。提出了以时间覆盖度作为描述卫星状态的方法。所提出方法在实验数据上与对比算法相比，具有更好的规划能力。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。