CN115081936B

CN115081936B - 面向应急条件下多遥感卫星观测任务调度的方法和装置

Info

Publication number: CN115081936B
Application number: CN202210856415.3A
Authority: CN
Inventors: 刁博宇; 李国邦; 许宇栋; 李超
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-11-18
Anticipated expiration: 2042-07-21
Also published as: CN115081936A

Abstract

本发明公开一种面向应急条件下多遥感卫星观测任务调度的方法和装置，方法包括：步骤一，构建初始任务需求信息表和卫星资源信息表，再创建任务队列；步骤二，调度系统接收到当前应急任务需求，将当前应急任务插入到新到任务队列进行任务调度，判断和决策当前应急任务是否执行，若执行则插入到等待任务队列，反之拒绝执行，后对下一新到任务进行任务调度；步骤三，开始执行应急任务时，将应急任务加入正在执行任务队列，应急任务执行完成后，再将应急任务加入已执行任务队列；步骤四，当所有任务均执行完成后，汇总出任务调度结果表，形成最终任务调度方案。本发明可以为多卫星组的任务规划提供参考，大幅降低时间复杂度，达到更高的任务规划效率。

Description

面向应急条件下多遥感卫星观测任务调度的方法和装置

技术领域

本发明属于信息技术领域，涉及一种面向应急条件下多遥感卫星观测任务调度的方法和装置。

背景技术

通过遥感卫星实现对地观测已经成为一种重要的获取地表信息资源的手段。近几年，随着突发事件和地区热点时间的频繁出现，对卫星集群进行应急条件下的任务调整和规划成为迫切需要解决的难题。特别是应急任务条件下，要求卫星的任务调度能够快速生成决策方案，遥感卫星作为先进对地观测技术的产物，一直在对地观测任务中扮演极为重要的角色。同时，遥感卫星已经成为应急条件下获取地面信息的重要手段。应急环境（例如地震、洪涝、火灾、恐怖袭击和局部战争等）下，事件发生具有突然性，时间、地点和规模具有不确定性。此时，为及时开展救援行动，遥感卫星需要在几小时、甚至几十分钟内提供服务。

目前，各国学者针对卫星静态调度问题开展了大量研究。现有将卫星调度问题描述为无环图上的多准则路径问题，其算法是对标签设置最短路径算法的一种改进，用于生成所有有效路径，用一个交互式会话来选择最佳序列。还有提出了一种动态规划算法，它通过拉格朗日松弛或某些约束的松弛来实现一个边界过程。还有采用拉格朗日松弛技术，并结合禁忌搜索、线性搜索来求解成像卫星静态调度问题。还有设计了进化算法，并将进化算法同爬山法、模拟退火、遗传等算法进行了比较。上述静态调度方法调度周期是固定的，调度决策下达后，无法修改，不符合应急条件下的任务调度需求。

对于成像卫星动态调度问题，有学者认识到过约束调度问题，卫星调度问题便是其中一种，对于约束规划方法来说是一个挑战。已有的提出了一种基于滚动视界的启发式算法来解决敏捷卫星的动态调度问题。启发式是贪婪的，其中排名函数包括动态问题和等待时间。还有提出了一种禁忌搜索元启发式算法，用于解决光学敏捷卫星的多星多轨图像采集调度问题。还有建立综合考虑应急任务响应时间和任务总收益的多星成像规划模型，将规划问题分解为任务时间窗选择和单轨动态规划两部分，分别设计自适应免疫算法和前向动态规划算法，取得了较好的效果，但算法耗时较长。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种面向应急条件下多遥感卫星观测任务调度的方法和装置，基于强化学习对多星应急任务进行规划，利用决策网络对是否接受应急任务进行决策，并采用启发式规则选择执行任务的卫星及时间窗口，生成有效的应急任务规划方案，其具体技术方案如下：

一种面向应急条件下多遥感卫星观测任务调度的方法，包括以下步骤：

步骤一，构建初始任务需求信息表和卫星资源信息表，再创建任务队列，任务队列包括：已完成任务队列、正在执行任务队列、等待任务队列和新到任务队列；

步骤二，调度系统接收到当前应急任务需求，将当前应急任务插入到新到任务队列进行任务调度，判断当前应急任务需求是否有效，若有效则决策该应急任务是否执行，若执行则再插入到等待任务队列等待执行；反之拒绝需求和执行该应急任务，后对下一新到任务进行任务调度；

步骤三，当开始执行应急任务时，将应急任务加入正在执行任务队列，更新卫星资源信息，执行时间窗口被永久占用，应急任务执行完成后，再将应急任务加入已执行任务队列；

步骤四，当所有任务均执行完成后，汇总出包含任务编号、卫星编号、完成的时间窗口的信息的任务调度结果表，形成最终的任务调度方案。

进一步地，所述初始任务需求信息表的属性包含优先级、到达时间、有效完成时间、分辨率要求及成像类型，则设任务集合

，其中任意一个任务可表示为

，

、

、

、

和

分别为任务

的优先级、到达时间、有效完成时间、分辨率要求和成像类型，

；

卫星资源信息表的属性包含任务执行时间、视场角、成像分辨率、成像类型、任务转换时间、侧摆速率和最大侧摆角度，则设卫星资源集合：

，其中任意一个卫星资源可表示为：

，

其中

、

、

、

、

、

、

分别为卫星资源

的任务执行时间、视场角、成像分辨率、成像类型、任务转换时间、侧摆速率和最大侧摆角度。

进一步地，所述步骤二具体为：

当调度系统接收到当前应急任务需求即该应急任务的观测需求，判断观测需求是否有效，首先计算该应急任务可执行的时间窗口，检查各个时间窗口与当前已执行任务的约束情况，构造该应急任务的可选时间窗口集合S，若可选时间窗口集合S为空即判断观测需求无效，则拒绝该应急任务的观测需求，进入下一新到任务的判断过程；若判断观测需求有效，则通过A3C-S算法网络根据给出接受/拒绝任务执行的决策，若A3C-S算法网络给出决策结果为拒绝任务执行，则进入下一新到任务的决策过程，若A3C-S算法网络给出决策结果为接受任务执行，则将应急任务插入等待任务队列，安排可执行的时间窗口，并更新卫星资源信息，进入下一新到任务的决策过程。

进一步地，所述应急任务的决策，在其到达后立即开始，每完成一个任务的决策记为一步，采用N步采样法，进行任务决策策略的更新，决策策略更新的公式如下：

；

其中，

代表

状态下的价值函数，

代表长期累积收益的真实值，

代表即时收益。

进一步地，所述计算该应急任务可执行的时间窗口，检查各个时间窗口与当前已执行任务的约束情况，具体为：

设

为任务

在卫星资源

上的遥感机会集合，

为遥感机会集合

中元素个数，其中任意一个遥感机会

可表示为

，即遥感机会

的时间窗口；

用变量

表示任务调度信息，

=1表示任务

分配到卫星资源

上的第k个遥感机会执行，否则

=0；此外用

和

分别表示任务

在卫星资源

上的开始时间和结束时间，且

；

每个任务只能分配到一个卫星资源上，并且最多执行一次，因此，有如下任务约束：

任务

必须在遥感机会

内执行，因此，有如下遥感机会约束：

，

，

其中

表示任务

在资源

上的观测角度。

进一步地，所述安排可执行的时间窗口具体为：首先计算等待任务队列中任务需求度，任务需求度表示任务需要调度的紧迫程度，对具有高优先级和少遥感机会的任务优先调度，任务需求度表达式为：

；

通过计算任务需求度，在等待任务队列中选择任务，同时在所有可以用于任务完成的时间窗口中，选择最小的时间窗口。

进一步地，所述A3C-S算法网络的结构是基于A3C算法网络，在策略网络和评价网络之前增加了一层全连接网络；所述A3C-S算法网络采用异步更新的方法，在异步训练过程中，存在一个包括策略网络和评价网络两部分功能的公共的全局神经网络，并运行多个线程，每个线程中都有一个局部网络，局部网络的结构与全局神经网络结构一致，每个局部网络独立的和环境进行交互，从而得到经验数据，当各个局部网络学习后，计算其损失函数梯度，并且更新全局神经网络，每隔一段时间，局部网络将自己的参数更新为公共的全局神经网络参数，进而指导之后的环境交互学习，最终得到学习完成后的全局神经网络。

进一步地，所述策略网络的网络参数梯度计算公式如下：

，

，

代表评论网络的神经网络参数，

代表策略网络的参数，

代表神经网络的输入，

代表对应神经网络输入的决策输出，

代表对应的即时奖赏值；

是折扣系数，

是更新步数。

一种面向应急条件下多遥感卫星观测任务调度的装置，包括一个或多个处理器，用于实现所述的面向应急条件下多遥感卫星观测任务调度的方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的面向应急条件下多遥感卫星观测任务调度的方法。

有益效果：

本发明方法可以用于应急条件下的多星任务调度场景，可根据卫星的参数、类型等属性进行扩充，也可以满足不同数量的任务调度，在有限的时间内形成任务规划方案，为多卫星组的任务规划提供参考，在保证任务调度总收益的前提下，大幅降低时间复杂度，达到更高的任务规划效率。

附图说明

图1是本发明的面向应急条件下多遥感卫星观测任务调度的方法的整体流程示意图；

图2是本发明的提出的A3C-S网络的结构概览图；

图3是本发明的面向应急条件下多遥感卫星观测任务调度的方法的详细流程示意图；

图4是本发明的面向应急条件下多遥感卫星观测任务调度的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

多遥感卫星的观测任务调度是实现高效信息获取的核心技术，特别是在应急条件下，卫星遥感任务的高效调度是一个重要的研究方向，不同于一般的卫星任务调度过程，应急任务调度对时效性的要求更高，同时还存在应急任务与一般任务的取舍问题。在多星任务规划问题中，计算复杂度会随着卫星及任务数量的增加而迅速增大，使得传统的算法无法满足应急任务的时效性要求。

因此，如图1和图3所示，本发明提出了一种面向应急条件下多遥感卫星观测任务调度的方法，包括以下步骤：

所述初始任务需求信息表的属性包含优先级、到达时间、有效完成时间、分辨率要求及成像类型，卫星资源信息表的属性包含任务执行时间、视场角、成像分辨率、成像类型、任务转换时间、侧摆速率和最大侧摆角度。

在本发明实施例中，定义任务均为点目标任务，则任务集合：

，

其中任意一个任务可表示为

，

、

、

、

和

分别为任务

。

卫星资源集合

，其中任意一个卫星资源可表示为：

，

，

其中

、

、

、

、

、

、

分别为卫星资源

步骤二，调度系统接收到当前应急任务需求，将当前应急任务插入到新到任务队列进行任务调度，判断当前应急任务需求是否有效，若有效则决策该应急任务是否执行，若执行则再插入到等待任务队列等待执行；反之拒绝需求和执行该应急任务，后对下一新到任务进行任务调度。

所述任务调度的策略为：已完成任务和正在执行任务不可被取消，因此任务调度的目标为等待任务队列和新到任务队列中的遥感任务。

具体的，当调度系统接收到应急任务需求时，首先计算该应急任务可执行的时间窗口，检查各个时间窗口与当前已执行任务的约束情况，构造该应急任务的可选时间窗口集合S；应急任务即应急条件下的卫星观测任务；

若接收到的应急任务可选时间窗口集合S为空，则拒绝该应急任务的观测需求，进入下一新到任务的判断过程；

若该应急任务的观测需求有效，则由A3C-S算法网络根据卫星资源信息及任务需求信息给出接受/拒绝任务执行的决策，如果A3C-S算法网络给出决策结果为拒绝任务执行，则进入下一新到任务的决策过程；

若决策A3C-S算法网络给出决策结果为接受任务执行，则按规则将应急任务插入等待任务队列，安排可执行的时间窗口，并更新卫星资源信息，进入下一新到任务的决策过程；

其中，为应急任务安排可执行的时间窗口，首先计算任务需求度，任务需求度表示任务需要调度的紧迫程度，对具有较高优先级和较少遥感机会的任务优先调度，任务需求度表达式为：

；

通过计算任务需求度，在等待任务队列中选择新任务，同时在所有可以用于任务完成的时间窗口中，选择最小的时间窗口。

本发明实施例中，点目标任务能被传感器单个视场覆盖，大小可忽略不计，所以卫星资源

上所有任务执行时间相同，记为

。

设

为任务

在卫星资源

上的遥感机会集合，

为遥感机会集合

中元素个数，其中任意一个遥感机会

可表示为

，即遥感机会

的时间窗口。

用变量

表示任务调度信息，

=1表示任务

分配到卫星资源

上的第k个遥感机会执行，否则

=0；此外用

和

分别表示任务

在卫星资源

上的开始时间和结束时间，且

。

，

任务

必须在遥感机会

内执行，因此，有如下遥感机会约束：

，

，

其中

表示任务

在资源

上的观测角度。

任务转换时间

表示从任务

执行结束到下一任务

开始执行需要的时间，任务准备时间定义为：

准备就绪时间约束描述为：

，

优先考虑调度收益，由于设定为优先级越小，任务收益越高，故最大化任务收益，即最小化调度任务优先级：

。

由于在卫星应急任务调度问题中，调度方案是在每个观测需求到达后即刻给出的，每个调度时刻仅知道该时刻及以前的观测需求信息，是一种不完备信息条件下调度决策问题，提高了任务规划的难度。此外，卫星应急任务调度问题产生于战时、应急等动态场景，具有极高的时效性要求。

强化学习的优化目标是多步决策之后的最终奖励，每一步的行动最多可以获得一个即时反馈，最终奖励是在一次完整迭代之后才会获得。两相比较，可以发现卫星调度问题与强化学习的模式不谋而合，因此，强化学习的算法策略符合应急任务动态调度场景的需求。

强化学习的输入是当前的任务属性和卫星资源状态。由于卫星的资源状态和观测需求的状态属性都包含多维信息，且这些状态属性中有的是连续变量，因此，适合采用多层神经网络来描述和表征决策策略。

神经网络作为值策略函数的逼近器有以下优势：第一，经典强化学习采用值表（例如，Q-Table）的形式只能表达有限的少量状态，而在实际问题中，状态的数目往往不可数，若仍然采用值表，将随着迭代的次数的增加，而需要维护一个庞大的值表。第二，有的问题中状态值是连续的，而神经网络可以很好处理这种连续的状态情况。第三，在实际条件下，状态到决策一般是非线性映射，神经网络可以很好的拟合这种映射关系。

本发明采用的强化学习方法为使用面向任务规划的异步优势行动者评论家算法网络（A3C-S， Asynchronous Advantage Actor-Critic for Schedule），所述A3C-S算法网络参考了A3C算法网络的框架，并在A3C算法网络基础上做了改进。因此本发明的A3C-S算法网络是 Actor-Critic 架构，网络共分为两部分，包括：Actor 部分，称为策略网络，主要用于更新策略梯度；Critic 部分，称为评价网络，类似于一个评价器，对策略的参数调整幅度进行评价。

所述A3C-S算法网络的结构如图2所示，其中，网络的输入是系统的状态，主要包括系统中各卫星的资源状态和当前提交观测需求（任务需求）的状态。网络的输出层有两个神经元，分别对应接受与拒绝两个决策动作，激活函数采用softmax函数；输出层的每个单元的输出是选择该动作的概率，依据概率来随机选择拒绝或者接受观测需求。

A3C算法网络使用两个单层的全连接网络分别作为策略网络和评价网络，A3C-S的改进在于，在策略网络和评价网络之前增加了一层全连接网络，用于提取系统中各卫星资源的状态特征和当前提交观测需求的状态特征，从而提取出方便后续网络层学习的特征，加快网络收敛。

采用神经网络可以有效拟合强化学习的策略函数和值函数，在神经网络的训练过程中，要求输入的数据具有独立同分布的特性，否则难以进行稳定的训练。

然而，强化学习中的数据样本是智能体通过与环境进行交互所得，并不满足独立同分布假设。

解决数据样本不满足独立同分布假设的一种方法是采用经验回放机制，其做法是将强化学习算法采样所得经验数据放到一个经验池中，并采用随机采样方式来获得打破数据之间的前后关联。然而经验回放机制存在两个问题，一是智能体每次与环境进行交互所得的经验都需要存储在经验池中，训练时在通过随机采样的方式提取，这就消耗不少的内存和处理能力，二是由于采用回放的方式，算法只能基于旧数据生成策略，学习效率相对较低。

A3C-S 算法网络采用异步更新的方法来打破数据之间的关联性。在异步训练过程中，存在一个公共的全局神经网络模型，包括Actor策略网络和Critic评价网络两部分的功能，并运行多个线程，每个线程中都有一个局部网络，该局部网络的结构与全局网络结构一致，每个网络会独立和环境进行交互，从而得到经验数据。当各个局部网络学习到一定程度后，将计算自己的损失函数梯度，并且更新全局网络。另外，每隔一段时间，局部网络将自己的参数更新为公共的全局网络参数，进而指导之后的环境交互，最终学习完成后，全局网络模型就是训练的目标产物。线程中的局部网络主要用于和环境的交互，这些线程里的模型可以更好地和环境交互，拿到高质量的数据帮助全局网络模型更快收敛。

在卫星应急任务调度问题中，一系列应急观测任务序贯到达，每个任务的决策在其到达后立即开始，每完成一个任务的决策记为一步，采用N步采样法，进行任务决策策略的更新，决策策略更新的公式如下：

；

其中，

代表

状态下的价值函数，

表示t时刻的卫星资源和任务状态信息，

代表长期累积收益的真实值，

代表即时收益。每一次决策中，网络对观测需求进行决策，并获得即时奖赏。训练中，网络参数每隔N个决策步更新收集1次梯度并用来更新主网络。采用N步采样的优势在于，可以加速收敛，如果采用单步更新的方式，值函数在每次迭代中只会缓慢地向后改变一步，会带来训练过慢的问题。

对于参数化的策略网络（Actor），网络参数梯度计算公式如下：

，

，

代表评论网络的神经网络参数，

代表策略网络的参数，

代表神经网络的输入，

代表对应神经网络输入的决策输出，

代表对应的即时奖赏值；

是折扣系数，

是更新步数。

对值函数网络，采用监督学习的方法，通过最小化估计值函数估计偏差的方式来更新，公式如下：

，

，

上式中的

是指轨迹

在时刻

之后的累计回报；

在决策过程中，如果到达观测需求是无效需求即无可用时间窗口，那么由于它在进入决策网络决策流程之前已被回绝，不作为一步决策，故而不计入网络参数梯度的计算。

步骤三，当任务开始执行应急任务时，将任务加入正在执行任务队列，更新卫星资源信息，执行时间窗口被永久占用，任务执行完成后，再将任务加入已执行任务队列。

步骤四，当所有任务均执行完成后，调度流程结束，将任务编号、卫星编号、完成的时间窗口汇总为调度结果表，形成最终的任务调度方案。

综上，本发明的核心创新点在于将强化学习的算法引入到多星应急任务规划的应用场景中，对A3C算法网络结构进行了改进，设计了A3C-S算法网络，对应急任务的安排进行决策，保证了应急任务调度的时效性和准确性。

与前述一种面向应急条件下多遥感卫星观测任务调度的方法的实施例相对应，本发明还提供了一种面向应急条件下多遥感卫星观测任务调度的装置的实施例。

参见图4，本发明实施例提供的一种面向应急条件下多遥感卫星观测任务调度的装置，包括一个或多个处理器，用于实现上述实施例中的一种面向应急条件下多遥感卫星观测任务调度的方法。

本发明一种面向应急条件下多遥感卫星观测任务调度的装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种面向应急条件下多遥感卫星观测任务调度的装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种面向应急条件下多遥感卫星观测任务调度的方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向应急条件下多遥感卫星观测任务调度的方法，其特征在于，包括以下步骤：

所述初始任务需求信息表的属性包含优先级、到达时间、有效完成时间、分辨率要求及成像类型，则设任务集合

，其中任意一个任务可表示为

，

、

、

、

和

分别为任务

；

，其中任意一个卫星资源可表示为：

，

，

其中

、

、

、

、

、

、

分别为卫星资源

的任务执行时间、视场角、成像分辨率、成像类型、任务转换时间、侧摆速率和最大侧摆角度；

步骤二，调度系统接收到当前应急任务需求，将当前应急任务插入到新到任务队列进行任务调度，判断当前应急任务需求是否有效，若有效则决策该应急任务是否执行，若执行则再插入到等待任务队列等待执行；反之拒绝需求和执行该应急任务，后对下一新到任务进行任务调度，具体为：

当调度系统接收到当前应急任务需求即该应急任务的观测需求，判断观测需求是否有效，首先计算该应急任务可执行的时间窗口，检查各个时间窗口与当前已执行任务的约束情况，构造该应急任务的可选时间窗口集合S，若可选时间窗口集合S为空即判断观测需求无效，则拒绝该应急任务的观测需求，进入下一新到任务的判断过程；若判断观测需求有效，则通过A3C-S算法网络根据给出接受/拒绝任务执行的决策，若A3C-S算法网络给出决策结果为拒绝任务执行，则进入下一新到任务的决策过程，若A3C-S算法网络给出决策结果为接受任务执行，则将应急任务插入等待任务队列，安排可执行的时间窗口，并更新卫星资源信息，进入下一新到任务的决策过程；

所述应急任务的决策，在其到达后立即开始，每完成一个任务的决策记为一步，采用N步采样法，进行任务决策策略的更新，决策策略更新的公式如下：

；

其中，

代表

状态下的价值函数，

代表长期累积收益的真实值，

代表即时收益；

所述计算该应急任务可执行的时间窗口，检查各个时间窗口与当前已执行任务的约束情况，具体为：

设

为任务

在卫星资源

上的遥感机会集合，

为遥感机会集合

中元素个数，其中任意一个遥感机会

可表示为

，即遥感机会

的时间窗口；

用变量

表示任务调度信息，

=1表示任务

分配到卫星资源

上的第k个遥感机会执行，否则

=0；此外用

和

分别表示任务

在卫星资源

上的开始时间和结束时间，且

；

任务

必须在遥感机会

内执行，因此，有如下遥感机会约束：

，

，

其中

表示任务

在资源

上的观测角度；

所述安排可执行的时间窗口具体为：首先计算等待任务队列中任务需求度，任务需求度表示任务需要调度的紧迫程度，对具有高优先级和少遥感机会的任务优先调度，任务需求度表达式为：

；

通过计算任务需求度，在等待任务队列中选择任务，同时在所有可以用于任务完成的时间窗口中，选择最小的时间窗口；

所述A3C-S算法网络的结构是基于A3C算法网络，在策略网络和评价网络之前增加了一层全连接网络；所述A3C-S算法网络采用异步更新的方法，在异步训练过程中，存在一个包括策略网络和评价网络两部分功能的公共的全局神经网络，并运行多个线程，每个线程中都有一个局部网络，局部网络的结构与全局神经网络结构一致，每个局部网络独立的和环境进行交互，从而得到经验数据，当各个局部网络学习后，计算其损失函数梯度，并且更新全局神经网络，每隔一段时间，局部网络将自己的参数更新为公共的全局神经网络参数，进而指导之后的环境交互学习，最终得到学习完成后的全局神经网络；

所述策略网络的网络参数梯度计算公式如下：