CN113222468A

CN113222468A - 一种基于深度强化学习的成像卫星资源调度方法

Info

Publication number: CN113222468A
Application number: CN202110612071.7A
Authority: CN
Inventors: 付伟; 张超; 王港; 高朝晖
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-06
Anticipated expiration: 2041-06-02
Also published as: CN113222468B

Abstract

本发明公开了一种基于深度强化学习的成像卫星资源调度方法，涉及航天地面任务规划领域。本发明利用图神经网络和强化学习方法，提取卫星任务间的内隐分布规律与内在关联，表征数据分布间的隐含关系，自主学习卫星资源调度过程中任务安排的启发式规则,形成无冲突和优化的卫星任务观测和接收方案。本方法可有效降低规则设计对人工的专业技术要求依赖，提高资源调度方法的有效性和准确性。

Description

一种基于深度强化学习的成像卫星资源调度方法

技术领域

本发明涉及航天地面任务运控技术领域，尤其是指一种基于深度强化学习的成像卫星资源调度方法，可用于对地观测卫星任务规划。

背景技术

成像卫星的资源调度问题作为一个带有时间窗约束的复杂组合优化问题，需要综合考虑卫星和地面站等资源的能力，以最大化发挥星地效能为规划目标，合理安排卫星观测、接收等动作，生成卫星对地观测和接收方案。

传统上解决该类问题常使用基于规则的启发式算法或亚启发式算法，该类算法能在可接受的时间范围内寻较高教质量的解决方案，但是该类算法对启发式规则较为依赖，且启发式规则的设计需要大量的专业知识和丰富的工作经验为基础，具有较高难度。

发明内容

本发明的目的在于提供一种基于深度强化学习的成像卫星资源调度方法。该方法利用图神经网络对资源调度场景进行建模，提取卫星任务间的内隐分布规律与内在关联，表征数据分布间的隐含关系，自动学习卫星任务规划数据间的本质规则，支撑优化卫星任务规划与调度方法，提升卫星资源管控智能化水平。

为了实现上述目的，本发明采用的技术方案为：

一种基于深度强化学习的成像卫星资源调度方法，包括以下步骤：

步骤1，采用有向无环图对资源一体化调度任务过程进行抽象，建立资源调度模型，生成有向无环图集；

步骤2，采用图神经网络的结构表达资源调度过程的任务状态，通过图形嵌入表达任务的相互关系，生成资源调度特征向量，并将资源调度特征向量传递给强化学习网络，图神经网络和强化学习网络共同构成智能体代理网络；

步骤3，在强化学习框架下，采用策略梯度算法对智能体代理网络进行训练，得到智能体代理网络参数表征资源调度策略，生成任务执行序列。

进一步的，步骤1的具体方式为：

步骤1.1，将所有的观测任务分配到卫星，分配任务过程中，卫星观测任务类型与卫星类型相匹配；

步骤1.2，对于一个观测卫星，将所有属于该卫星的任务进行排序；具体方式为，首先根据观测任务的优先级进行排序，任务优先级高的任务放在任务队列前端；然后根据观测卫星经过每个观测区域的时间顺序对观测任务进行时间排序，对于优先级相同的任务，先路过的任务放在前端，后经过的任务放在后端；

步骤1.3，在观测任务的列表中，添加卫星数传任务，得到卫星的总任务序列{t_i}_i＝1：n，n为卫星的任务总数；具体方式为，根据观测卫星与地面站的可见性分析结果，确定每一个可以数传的时间段，然后在此时间段内的每一个观测任务后面添加一个数传任务；

步骤1.4，依据各卫星的总任务序列，为每个卫星建立一个有向无环图；具体方式为，对于任务序列{t_i}中的任务t_i，按照逆序遍历t_i之前的每一个节点t_k，如果t_k满足以下三个条件，则在t_k和t_i之间建立连线：

1)t_k的结束时间大于t_i的开始时间；

2)t_k之后，卫星的能量或者存贮空间可以完成t_i；

3)t_k和当前已找到的任务t_i的所有父节点均无间接或直接连接关系；

最终，得到t_i的所有父节点的集合P(t_i)；

步骤1.5，遍历从t_i开始到任务起点S的所有路径，计算每一条路径上的能量损耗和存储空间损耗，统计能量损耗和存储空间损耗的最大值；

步骤1.6，将任务的优先级、成像质量、任务占用时间、能量损耗和存储空间损耗最大值组成有向无环图中任务节点的特征向量。

进一步的，步骤2中，采用图神经网络的结构表达资源调度过程的任务状态，具体方式为：

步骤2.1，通过单节点嵌入过程(G_i，x_vi)→e_vi构建有向无环图G_i中每个节点vi的嵌入向量e_vi；具体方式为，从G_i的叶节点开始，将消息从子节点传递到父节点，在每个消息传递过程中，节点vi的子节点已汇总了所有更深层子孙节点的消息；单节点vi嵌入过程(G_i，x_vi)→e_vi的计算公式如下：

其中，f()和g()是输入向量上的非线性变换，通过神经网络实现，ξ(v)表示节点v的所有子节点集合；

步骤2.2，向每个有向无环图G_i添加一个汇总节点，该汇总节点将有向无环图G_i中的所有节点都作为子节点，并作为全局汇总节点的子节点；汇总节点的嵌入使用与单节点嵌入相同的计算公式，但是每个汇总节点都采用自己的非线性变换f()和g()。

进一步的，步骤3的具体方式为：

步骤3.1，通过回报奖励执行f()和g()的神经网络参数的梯度下降，将图神经网络和强化学习网络一起训练，得到两个网络的参数统称为θ，调度策略记为π_θ(s_t，a_t)；π_θ(s_t，a_t)表示在状态s_t的情况下，执行动作a_t的概率值；

步骤3.2，当智能体代理网络得到执行每一个任务节点的概率值之后，在当前时刻选择执行具有最大概率值的任务节点；

步骤3.3，从任务列表中剔除已执行的任务节点，重新绘制所有卫星的有向无环图，并计算新的有向无环图中每一个任务节点被执行的概率值；

步骤3.4，重复步骤3.2和3.3，得到成像卫星的任务执行序列。

本发明相比现有技术具有以下有益效果：

1、本发明利用神经网络和强化学习方法，能自主学习卫星资源调度过程中观测任务隐藏的启发式规则，从而快速匹配资源和任务合适的时间窗。

2、本发明能够有效降低对人工规则的专业设计要求，提高了资源调度方法的有效性和准确性。

附图说明

图1是资源一体化调用任务的DAG有向无环图。

图2是图神经网络嵌入过程的示意图。

图3是智能体代理网络的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明做进一步的详细说明。

一种基于深度强化学习的成像卫星资源调度方法，包括如下步骤：

步骤1、采用有向无环图(DAG)对资源一体化调度任务过程进行抽象，建立资源调度模型，生成有向无环图集。具体包括如下步骤：

步骤1.1将所有的观测任务分配到卫星，分配任务过程中要求卫星观测任务类型与卫星类型相匹配。

步骤1.2对于一个成像卫星，将所有属于该卫星的任务进行排序，首先根据观测任务的优先级进行排序，任务优先级高的任务放在任务队列前端；然后根据成像卫星经过每个观测区域的时间顺序对观测任务进行时间排序，对于优先级相同的任务，先路过的任务放在前端，后经过的任务放在后端。

步骤1.3在观测任务的列表中，添加卫星数传任务。根据成像卫星与地面站的可见性分析结果，确定每一个可以数传的时间段，然后在此时间段内的每一个观测任务后面添加一个数传任务。

步骤1.4成像卫星的任务序列记为{t_i}_i＝1：n，为每个卫星建立一个DAG(如图1所示)，其中S_i和T_i分别代表第i颗卫星有向无环图R_i的起点和终点。建立该卫星任务DAG的过程相当于根据限制条件找到{t_i}各任务之间的连线关系。假设任务t_j与t_i之间建立了相连关系，那么就认为任务t_j是任务t_i的父节点，将所有任务t_i的父节点集合记为P(t_i)，那么建立任务DAG的过程也可以看做是寻找任务序列中每一个任务的P(t_i)集合的过程。对于任务序列{t_i}中的任务t_i，按照逆序遍历t_i之前的每一个节点t_k(k＝i-1，i-2，...，1)。如果t_k满足以下三条条件，那么就在t_k和t_i之间建立连线：

1)t_k的结束时间(加上卫星调整角度的时间)大于t_i的开始时间；

2)t_k之后，卫星的能量或者存贮空间可以完成t_i；

3)t_k和P(t_i)中的元素无间接或直接连接关系。

步骤1.5当找到t_i的所有父节点P(t_i)之后，遍历所有从t_i开始到任务起点S的所有路径，计算每一条路径上的能量损耗和存储空间损耗，统计能量损耗和存储空间损耗最大值，从卫星的初始能量和存储空间中减去消耗最大值，作为完成任务t_i后剩余资源容量。

步骤1.6在最终生成的资源一体化调度任务DAG集中同时包含了成像卫星的观测任务(即图1中的黑色节点)和数据下传任务(即图1中的白色节点)。DAG的构建过程需要满足观测任务的约束条件，包括可见性条件，能量和资源约束，时间条件约束等。在DAG图中节点包含任务的优先级，成像质量，任务占用时间，资源消耗等属性信息，作为每个任务节点的特征向量。

步骤2、采用图神经网络的结构表达资源调度过程的任务状态，通过图形嵌入表达任务的相互关系，生成资源调度特征向量，并将资源调度特征向量传递给强化学习网络，图神经网络和强化学习网络共同构成智能体代理网络(如图3所示)。具体包括如下步骤：

步骤2.1单节点嵌入：设DAG G_i中节点v_i中的属性向量为x_vi，单节点嵌入过程(G_i，x_vi)→e_vi将构建每个节点v_i的嵌入向量e_vi。e_vi捕获了从节点i可以到达的所有节点(即节点v_i的子孙节点)的信息。为了计算这些向量，首先从G_i的叶节点开始以一系列消息传递步骤将信息从子节点传播到父节点(如图2中的(a)所示)。在每个消息传递步骤中，节点v_i的子节点已汇总了所有更深层子孙节点的消息(即图2(a)中的阴影节点)，单节点v_i嵌入过程(G_i，x_vi)→e_vi的计算公式如下：

其中f()和g()是输入向量上的非线性变换，实现为(小型)神经网络，

代表G_i中节点v的属性向量，

为

的嵌入向量，而ξ(v)表示节点v的所有子节点集合。节点v嵌入过程中的第一项是一般的非线性聚合运算，第二项又加上了节点v的特征向量以产生v的嵌入。在所有的消息传递步骤中采用了相同的非线性变换f()和g()。

步骤2.2单DAG嵌入和全局嵌入：图神经网络还为每个DAG G_i进行了嵌入

以及为所有的DAG{y¹，y²，...}进行了全局的嵌入：{y¹，y²，...}→z。为了计算这些嵌入工作，向每个DAG Gi添加了一个汇总节点，该汇总节点将DAG Gi中的所有节点都作为子节点(即图2(b)中的正方形)。这些DAG的汇总节点又是全局汇总节点的子节点(即图2(b)中的三角形)。这些汇总节点的嵌入也使用与单节点嵌入相同的等式，但是每个汇总节点都采用自己的非线性变换f()和g()，这样，整个图神经网络总共使用了六个非线性变换，每个汇总节点各使用两个。

步骤3、在强化学习框架下，采用策略梯度算法对智能体代理网络进行训练，得到智能体代理网络参数表征资源调度策略，生成任务执行序列。具体包括如下步骤：

步骤3.1使用策略梯度算法进行训练。通过回报奖励来执行神经网络参数的梯度下降，将智能体代理网络的图神经网络和强化学习网络一起训练，得到两个网络的参数统称为θ，调度策略记为π_θ(s_t，a_t)，即在状态s_t的情况下，执行动作a_t(选择一个任务)的概率值；

步骤3.2当智能体代理网络得到执行每一个任务节点的优先度概率值之后，在当前时刻选择执行具有最大优先度概率值的任务节点，该任务节点可以是一个卫星观测任务，也可以是一个成像卫星数据下传任务；

步骤3.3从任务列表中剔除该任务，重新绘制所有卫星的任务DAG，送入智能体网络计算更新DAG之后每一个任务节点的优先度概率值；

步骤3.4不断重复以上步骤，得到成像卫星的任务执行列表。

总之，本发明利用图神经网络和强化学习方法，提取卫星任务间的内隐分布规律与内在关联，表征数据分布间的隐含关系，自主学习卫星资源调度过程中任务安排的启发式规则，形成无冲突和优化的卫星任务观测和接收方案。本方法可有效降低规则设计对人工的专业技术要求依赖，提高资源调度方法的有效性和准确性。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的成像卫星资源调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的成像卫星资源调度方法，其特征在于，步骤1的具体方式为：

1)t_k的结束时间大于t_i的开始时间；

2)t_k之后，卫星的能量或者存贮空间可以完成t_i；

最终，得到t_i的所有父节点的集合P(t_i)；

3.根据权利要求2所述的一种基于深度强化学习的成像卫星资源调度方法，其特征在于，步骤2中，采用图神经网络的结构表达资源调度过程的任务状态，具体方式为：

4.根据权利要求3所述的一种基于深度强化学习的成像卫星资源调度方法，其特征在于，步骤3的具体方式为：

步骤3.1，通过回报奖励执行f()和g()的神经网络参数的梯度下降，将图神经网络和强化学习网络一起训练，得到两个网络的参数统称为θ，调度策略记为π_θ(s_t,a_t)；π_θ(s_t,a_t)表示在状态s_t的情况下，执行动作a_t的概率值；

步骤3.4，重复步骤3.2和3.3，得到成像卫星的任务执行序列。