CN109299861A

CN109299861A - 一种敏捷卫星的星上调度方法

Info

Publication number: CN109299861A
Application number: CN201811023681.8A
Authority: CN
Inventors: 陈宇宁; 鲁籍; 陈盈果; 刘晓路; 姚锋; 邢立宁; 陈英武; 贺仁杰; 陈成; 王涛; 张忠山; 吕济民
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2019-02-01
Anticipated expiration: 2038-09-04
Also published as: CN109299861B

Abstract

本发明公开了一种敏捷卫星的星上调度方法，该方法包括步骤100，离线训练：根据输入的训练用的历史数据，对样本进行训练，以输出机器学习分类器；历史数据包括：训练场景集合,每个任务场景均由一系列元任务组成；步骤200，在线调度：根据输入的新的调度场景以及由步骤100得到的机器学习分类器，利用调度算法，获得与新的调度场景对应的调度方案，其中，新的调度场景由一系列元任务组成。本发明所提出的敏捷卫星的星上调度方法在调度方案质量和响应时间两方面都非常适合星上使用，能够为大规模问题非常迅速的提供非常高品质的调度方案。

Description

一种敏捷卫星的星上调度方法

技术领域

本发明涉及到航空航天技术领域，特别是涉及一种敏捷卫星的星上调度方法。

背景技术

多年来，在世界航空航天大国中发展自主敏捷地球观测卫星的研究越来越受到重视。越来越大的任务量以及快速响应的需要正在逐步增加对卫星自主能力的要求，以增加返回的科学数据量并减少系统维护和开发的费用。著名的此类任务包括EO1天器、FireBird和OptiSAR等。NASA的EO1能够探测和响应地球上发生的科学研究相关的事件，如火山喷发、冰盖的生长和消亡、云层探测以及地壳形变等等。Firebird能够自动在星上推导出火灾参数，如燃烧区域的位置和大小。OptiSAR是一个来自加拿大公司UrtheCasr的星座，其能够使得光学卫星拍摄无云图像，这一能力主要借助于能够捕获实时云信息的SAR卫星。

敏捷卫星的自主性提高了地球观测卫星的能力，允许它们能够更快地获取更多的图像。这种能力的发挥主要依靠由有效的规划机制和调度算法机制。由于AEOS(AgileEarth Observation Satellite，敏捷地球观测卫星)星上调度问题是NP(Non-deterministic Polynomial，非确定性多项式)难题，所以几乎所有这些算法都是启发式和超启发式算法。而且，这些算法一半都是被设计用于地面控制中心，无法星上使用，因为这些算法大多数需要庞大的计算资源，而卫星显然不具备这种能力。最近，有一份论文研究了AEOS星上调度问题，作者提出了一个AB&B(An Anytime Branch&Bound，实时的分支定界)星上调度算法来解决它。AB&B算法包括一个分支定界过程，这是一个精确的算法。但是这种算法非常消耗计算资源，不适用于大规模的调度问题。虽然在原工作中相应时间较短，但是其场景规模很小，在大场景规模下这种精确搜索算法显然无法做到星上自主调度实时响应。

在需要接近实时响应的情况下，快速启发式算法显然更合适。这方面的挑战包括设计有用的启发式规则，以确定是否应将新任务集成到正在进行的计划中。由于星上的任务环境是高度动态的，可能会出现在地面上没有预想的情况，因此列举所有可能的规则以应付各种星上场景不切实际，因为这些规则可能是无限多的。此外，某些规则不能或者很难通过人为设计来明确说明或者表示出来。

发明内容

本发明的目的在于提供一种敏捷卫星的星上调度方法来克服或至少减轻现有技术的上述缺陷中的至少一个。

为实现上述目的，本发明提供一种敏捷卫星的星上调度方法，敏捷卫星的星上调度方法包括：步骤100，离线训练：根据输入的训练用的历史数据，对样本进行训练，以输出机器学习分类器；所述历史数据包括：训练场景集合S＝{sce₁,sce₂,…,sce_n},每个任务场景sce_i均由一系列元任务task_i.j组成，所述任务场景sce_i表示为：j＝1……m_i；和步骤200，在线调度：根据输入的新的调度场景sce以及由所述步骤100得到的所述机器学习分类器，利用调度算法，获得与所述新的调度场景sce对应的调度方案Sol；其中，所述新的调度场景sce由一系列元任务task_j组成，j＝1……m；其中：所述步骤100具体包括：步骤110：求取训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i，中的每个元任务task_i,j的特征向量X_i,j,，j＝1……m_i；步骤120：求解训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i对应的调度方案Sol_i；步骤130：确定训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i中的每个元任务task_i,j的标签值Y_i,j；步骤140：将分配好标签值Y_i,j且获取了特征向量X_i,j的元任务task_i,j作为所述机器学习分类器的训练样本并输出训练后的机器学习分类器；所述步骤200具体包括：步骤210：求取输入的新的调度场景sce中的每个元任务task_j的特征向量X_j；步骤220：利用所述机器学习分类器对新的调度场景sce中的每个元任务task_j进行分类，以获得待调度任务集合；步骤230：对于待调度任务集合中的每个任务，按照时间窗的开始时间升序排序；步骤240：按照排序顺序依次为待调度任务安排观测窗口，若安排成功，则将该任务添加到所述新的调度场景的调度方案中，并输出所述新的调度场景的调度方案。

进一步地，所述步骤110中各元任务task_i,j的特征向量X_i,j包含如下特征：基本特征、转换时间冲突度量、时间窗冲突度量、任务密度度量和局部最优度量，其中，所述基本特征包括任务时长、任务收益、时间窗口长度和时间窗的数量，所述转换时间冲突度量包括转换时间损失和利润和过渡时间的比值，所述时间窗冲突度量包括冲突长度、无冲突长度、冲突数和可能损失，所述任务密度度量包括元任务的均匀性和密度。

进一步地，所述步骤130中，通过查看每个场景sce_i中的各元任务task_i,j是否在对应的调度方案Sol_i中，如果是，则元任务task_i,j的标签值Y_i,j分配为1；否则将task_i,j的标签值Y_i,j分配为0。

进一步地，所述步骤120中，使用ALNS算法对训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i对应的调度方案Sol_i进行求解。

进一步地，所述步骤220具体包括：如果所述机器学习分类器输出1，即该样本是正样本，则将该任务添加至本次待调度任务集合中；反之，如果所述机器学习分类器输出0，则将该任务舍弃，不参与本次调度。

本发明训练一个机器学习分类器,利用我们设计提取的特征并使用大量的历史数据在地面控制中心进行训练,并将训练好的分类器嵌入到星上一个贪婪的构造算法中。在每个构造步骤中,贪婪算法使用分类器测试任务的质量以及他们会被调度的潜力,并在分类器接受的情况下利用构造算法安排观察时间。大量的实验结果表明,本发明所提出的敏捷卫星的星上调度方法在调度方案质量和响应时间两方面都非常适合星上使用，能够为大规模问题(最少有100个任务)非常迅速的提供非常高品质的调度方案。

附图说明

图1是所提供的敏捷卫星的星上调度方法的流程示意图。

图2是时间窗冲突示意图。

图3是机器学习分类器示意图。

图4是实验场景实例示意图。

图5是使用三种不同的机器学习分类器取得的收益示意图。

图6是使用三种不同的机器学习分类器所完成观测任务数量示意图。

图7是所提供方法与其他方法收益的比较示意图。

图8是所提供方法与其他方法所完成观测任务数量比较示意图。

图9是不同特征子集对比(收益)示意图。

具体实施方式

在附图中，使用相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本发明的实施例进行详细说明。

在本发明的描述中，术语“中心”、“纵向”、“横向”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

如图1所示，本实施例所提供的敏捷卫星的星上调度方法(下文的LBA)包括：

步骤100，离线训练：根据输入的训练用的历史数据，对样本进行训练，以输出机器学习分类器；所述历史数据包括：训练场景集合S＝{sce₁,sce₂,…,sce_n},其中，sce₁表示“第1个训练场景”，sce₂表示“第2个训练场景”，sce_n表示“第n个训练场景”。每个任务场景sce_i均由一系列元任务task_i,j组成，所述任务场景sce_i表示为：j＝1……m_i,其中，task_i,1表示“第i个场景第1个元任务”,task_i，2表示“第i个场景第2个元任务”,表示“第i个场景第m_i个元任务”。

上述“元任务”是通过卫星单次开机可完成的成像任务，是离线训练和星上调度的基本单元。每一个元任务对应一个母任务，该母任务可能是一个点目标任务，也可能是一个区域目标任务。每一个点目标任务或每一个区域目标任务可以分解为一个或者多个元任务，每个元任务代表该目标的一次观测机会。将点目标任务或区域目标任务分解为一个或者多个元任务的方法可采用成熟的任务预处理技术，“任务预处理技术”包括时间窗口计算、区域目标分解等技术。对于每个母任务，只需选取一个元任务进行观测即可，不需要观测所有元任务。

步骤100的目的是根据地面运营中心提供的大量历史场景训练机器学习分类器。该机器学习分类器是星上调度算法的一个关键组件，它能够判断给定任务是否应被添加到调度任务池中以及凭借这个过程完成问题规模的缩小以及解空间的裁剪。这种机器学习分类器的训练集由历史场景中所有任务的数据组成。

在步骤100中，构建由t个样本组成的训练集，通过该训练集训练机器学习分类器。由t个样本组成的训练集表示为：TS＝{(X₁，Y₁)，(X₂，Y₂)，…，(X_k，Y_k)…，(X_t，Y_t)}，k＝1……t，每个(X_k，Y_k)表示一个训练样本，(X₁，Y₁)表示“第1个训练样本”，(X₂，Y₂)表示“第2个训练样本”，(X_k，Y_k)表示“第k个训练样本”，(X_t，Y_t)表示“第t个训练样本”。其中，X_k是元任务的特征向量，X_k是根据选定的特征计算，这些特征由本发明人为根据卫星调度问题背景预先设置，能够体现AEOS调度问题结构的特点。Y_k是标签值，用于指示元任务是否被添加进在该元任务所在场景的调度方案中的标签。Y的值可以通过参考该任务对应调度方案Sol而得到，该调度方案Sol可具体可参考公开文献(Liu，Xiaolu，et al."An adaptive largeneighborhood search metaheuristic for agile satellite scheduling with time-dependent transition time."Computers&Operations Research 86(2017):41-53.)中提供的ALNS算法而得到。ALNS算法是当前关于卫星调度问题最先进的算法，可以给出质量非常高的结果。如果对应的元任务task出现在调度方案Sol中，则Y被分配为1；如果没有出现则Y的值为0。

上述的“调度方案Sol”指的是一个具体的卫星任务观测方案，该卫星任务观测方案包括观测时间、观测角度、执行元任务以及观测目标。每一个调度方案Sol对应一个调度场景sce，每个调度场景sce包含待观测任务信息和卫星资源轨道信息。其中，“待观测任务信息”的属性具体包括一个元任务的收益、时间窗的开始和结束以及在该时间窗内观测所对应的观测角。特征向量X可以由“待观测任务信息”的属性直接提取，也可以由“待观测任务信息”的属性和场景信息间接计算得到。一个调度场景sce可以使用ALNS算法求解得到一个调度方案Sol。

步骤200，在线调度：根据输入的新的调度场景sce以及由所述步骤100得到的所述机器学习分类器，利用调度算法，获得与所述新的调度场景sce对应的调度方案Sol；其中，所述新的调度场景sce由一系列元任务task_j组成，j＝1……m。

步骤200是为任务筛选设计了一个带有所述机器学习分类器的贪婪算法，并在触发重新安排时为新到达的任务场景生成一个可行的调度方案，生成一个可行的解决方案。因为本发明的机器学习分类器虽然对解空间进行了裁剪并保留了较优的一部分，但是无法产生一个可行解，所以还需要一个构造算法来生成调度方案，而且这里的算法本身可以不具备较强的搜索寻优能力。

在一个实施例中，步骤100中，本实施例采用并测试了已知的机器学习算法，如神经网络、支持向量机和随机森林，发现随机森林在本发明的实验中取得了总体最佳结果(请参见下文的实验部分)。这些机器学习算法接受训练集TS＝{(X₁，Y₁)，(X₂，Y₂)，…，(X_k，Y_k)…，(X_t，Y_t)}，k＝1……t，作为输入并且输出所述机器学习分类器，通过所述机器学习分类器能够判断是否应该安排一个给定的新元任务。

所述步骤100具体包括：

步骤110：求取训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景中的每个元任务task_i,j的特征向量X_i,j，j＝1……m_i。

步骤120：求解训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i对应的调度方案Sol_i。所述步骤120中，使用ALNS算法对训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i对应的调度方案Sol_i进行求解。

步骤130：确定训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i中的每个元任务task_i,j的标签值Y_i,j。通过查看每个场景sce_i中的各元任务task_i,j是否在对应的调度方案Sol_i中，如果是，则元任务task_i,j的标签值Y_i,j分配为1，即正样本；否则将task_i,j的标签值Y_i,j分配为0，即负样本。

步骤140：将分配好标签值Y_i,j且获取了特征向量X_i,j的元任务task_i,j作为机器学习分类器的训练样本，并输出训练好的机器学习分类器。

在实施中，新观测任务的出现是独立的，但在调度和生成调方案期间，新观测任务却被一系列约束关联到了一起。在最终的调度方案中的任务之间必须满足一系列的约束，而本实施例提供的机器学习分类器是逐个对任务进行检测的，无视了任务之间的关联性。单独预测每个任务实际上会导致全局方面的关联性的损失。机器学习分类器将能够产生优秀的单个任务，但这些任务却无法整合完全融入整个计划中。本发明试图通过提取相应的特征，来体现一个任务与其它任务的兼容性(即与其它元任务在约束传播下的计划的兼容性)，以解决这个问题，但这些特征的效用只局限于当前元任务的一个很小的邻域内。因为事实上AEOS调度问题的约束可能会传播到很远的距离，而通过特征提取不可能体现这种长距离传播所带来的影响。然而实验证明，事实上这个缺陷对本发明算法的最终结果影响不大，本发明将继续在实验部分讨论这个问题。

步骤110中每个元任务task_i,j的特征向量X_i,j所包含的特征是依据AEOS调度文献中提出的启发式算子而预先设置得到。

启发式算子选取的特征包括如下：

1.收益：利润是本发明直接关心的。如果目标可以产生比其它更大的利润，那么它更有可能被选入计划计划。

2.可见时间窗数量：可见时间窗口确定目标的可见周期和调度算法可以安排其观察的期间。因此，目标的可见时间窗口(Visible Time Window，VTW)越多，它在计划中的可能性就越大。

3.可见时间窗长度：此度量值与可见时间窗口计数共享相同的原则。更长的可见时间可以为目标的安排赢得更多的机会。

4.可见时间窗冲突度量：该测量结果估计了两个观测目标之间的可见时间窗口重叠长度之间的冲突。

5.任务密度：可见时间窗口的局部密度是可能发生冲突的另一种措施，因为密集的目标分布必然会导致冲突，而在这一区域，目标与稀疏区域的目标相比则较少。

6.局部优度：在一个较小的邻域中，收益最高的任务很可能会被调度解添加至观测计划中。

鉴于此，步骤100中每个元任务task_i,j的特征向量Y_i,j包含如下特征(分为基本特征、转换时间冲突度量、时间窗冲突度量、任务密度度量和局部优度度量五类特征，根据特征的计算复杂度分为cheap，moderate和expensive三个特征子集)：

1.基本特征(cheap)：

1 任务时长

2-4 任务收益priority，priority²，priority³

5 时间窗口长度

6-9 时间窗的数量count，count²，count³

2.转换时间冲突度量(expensive)：

10-13 转换时间损失：任务之间的过渡实际上不是得到任何利润的(空载时间)，所以本发明认为它是一种衡量损失的特征。具体的特征包括到下一个目标的过渡时间，对以下碰撞目标的平均过渡时间，从上一个目标的过渡时间，从前面的碰撞目标平均转换时间。过渡时间的计算是直接使用了文献(Chu，Xiaogeng，Y.Chen，and Y.Tan."An AnytimeBranch and Bound Algorithm for Agile Earth Observation Satellite OnboardScheduling."Advances in Space Research，2017，2017(1)：1-15)中的模型。

14-17 利润和过渡时间的比值：收益和过渡时间的比值：观测一个任务的收益和所需过渡时间的比值。与特征10-13相同，本文考察从该目标到下一个目标的收益和过渡时间比值，从该目标到该目标之后相冲突目标的收益过渡时间比值，从上一个目标到该任务的收益过渡时间比值，在该任务之前的相冲突的目标到该任务的收益与转换时间比值。

3.时间窗冲突度量(moderate)：

18-19 冲突长度(如图2所示)：一个观测时间窗口与其他所有邻近可见时间窗口(不管在不在调度解当中)的总冲突长度、以及相应的平均冲突长度。冲突代表两个观测任务不能同时被观测的概率较大。

20-21 无冲突长度：一个可见时间窗口与任何其它的可见时间窗口不冲突的总长度，以及该长度和当前可见时间窗口的长度的比值。一个可见时间窗口如果与其它可见时间窗口无重叠的长度比较长，那么很可能该可见时间窗口能不与其它任何任务冲突的情况下被安排观测，很可能被加入到调度解中。

22-23 冲突数：一个可见时间窗口和其它临近可见时间窗口的冲突次数。同理，也是一种冲突的度量。

24-25 可能损失：与一个可见时间窗口相互冲突目标的总收益，平均收益。如果该可见时间窗口被安排观测，则可能失去所有相冲突目标的收益。即观测该任务的可能代价。

4.任务密度度量(moderate)：

26-29 元任务的均匀性和密度：以可见时间窗口中点的平均值、方差、偏度、峰度来测量。

5.局部最优度量(expensive)：

30 这一特点表明，当前目标是元任务在其前、后邻域的最佳选择，这一特征表明，当前目标是其前后邻域中所有任务的最佳选择，计算当前目标在邻域中是否具有最高的收益和到相邻任务转换时间的比值。表征该任务在邻域中竞争力。如果是最高则该特征取1，反之则取0。

本发明在前文中介绍了标签值Y由其它算法(地面站算法)所产生的参考解确定。对于一个任务task来说。如果task在地面站算法产生的参考解中，则Y被分配为1。如果不在地面站算法产生的参考解中，则Y取值为0。该参考调度方案要求高质量，以确保Y的正确性以及训练样本对所述机器学习分类器的正确引导，进一步确保了结果所述机器学习分类器的有效性。鉴于这些意见，需要一个能够产生高质量参考调度方案的AEOS调度算法。在本发明的例子中，参考调度方案是ALNS算法在地面站模式下生成的最佳调度方案。ALNS算法是一个大邻域搜索启发式算法，它提供了一个框架，利用一些简单的启发式算子相互竞争来改进当前的调度方案。在每次迭代中，如果满足一定的条件，就会生成并接受新的调度方案来替换当前调度方案。ALNS算法会保存迭代过程中产生的最佳调度方案，并搜索过程中不断更新。

在一个实施例中，步骤200是贪婪算法,其会逐步构造调度方案。任务首先按其可见时间窗口的开始时间的升序顺序排序。按照这个顺序，在构造过程的每次迭代中，所述贪婪算法检查一个任务，并使用步骤4输出的机器学习分类器来测试是否应该考虑将当前任务加入到调度任务池中。如果答案是肯定的，则所述贪婪算法将为其对应的任务在该可见时间窗口中进一步安排观测窗口。一个任务可能与多个可见时间窗口的关联，在这种情况下，所述机器学习分类器将选择最高分数的可见时间窗口，并丢弃其它可见时间窗口(如图3所示)。虽然所述机器学习分类器通过了一部分任务并将有贪婪算法为这些任务安排观测窗口并产生最终的调度方案，但是这些任务之间仍然可能存在不兼容的情况，如果转换时间不能满足约束，那么观测窗口的安排可能会失败，这一部分任务将会被抛弃。所述贪婪算法将一直继续直到遍历了所有任务。

所述步骤200具体包括：

步骤210：求取输入的新的调度场景sce中的每个元任务task_j的特征向量X_j。该求取过程通常是在得到一个元任务的信息后，特征向量X_j都是可以从元任务及其场景中计算得到。

步骤220：利用所述机器学习分类器对新的调度场景sce中的每个元任务task_j进行分类，以获得待调度任务集合。具体地，如果所述机器学习分类器输出1，即该样本是正样本，则将该任务添加至本次待调度任务集合中；反之，如果所述机器学习分类器输出0，则将该任务舍弃，不参与本次调度。

步骤230：对于待调度任务集合中的每个任务，按照时间窗的开始时间升序排序；

步骤240：按照排序顺序依次为待调度任务安排观测窗口，若安排成功，则将该任务添加到所述新的调度场景的调度方案Sol中，并输出所述新的调度场景的调度方案Sol。

步骤200提供的贪婪算法是高效的，非常适合于需要快速响应紧急任务的机载动态环境。

下面是通过实验对本发明的方法进行验证。

1.实验设置

本发明方法提供的算法编码由python编写，运行环境为的英特尔(R)核心(TM)i5-3317U CPU 1.70GHz以及Windows10的4GB RAM电脑。实验场景的配置如下所示。实验时间定为24小时，从2017年/10/20 00：00：00到2017/10/21 00：00：00。敏捷卫星的设计具有最大的俯仰度45，侧摆角度45和偏航角度90。卫星在空间中的位置可以由六个参数来表示，具体为：semi-major axis(α)、eccentricity(е)、inclination(i)、argument of perigee(ω)、ascension(Ω)、anomaly(m)。本发明卫星的这些参数的值显示在表3-1中。这颗是一个普通的近地卫星，也是现在服役的主流卫星水平，其自转周期在地球周围114分钟。卫星在24小时的实验中多次飞越中国。因此，大多数目标有一个以上的可见时间窗口。

表3-1 卫星参数

2.实验场景

由于本发明无法获得真实的历史场景，在本发明的实验中使用了一组随机生成的实例所取代。通过调查，本发明发现，实际上目标是相当均匀分布在陆地和海洋。因此，在本发明的实验观测中，观测任务均匀基本均匀分布在一个以中国为中心包括周边一些国家和区域的正方形地区。对于每个请求，本发明的实验设计以下几个属性：利润、地理位置、适当时间和最低成像持续时间以满足所需的质量要求。所有属性值都由随机均匀分布生成。本发明设计不同的场景，不同的问题大小，问题规模从100个任务到400个，步长为50(共七个场景大小)。根据本发明的调查，这些数字接近真实情况。图4中显示了一个具有300个任务的方案。

3.机器学习分类器选择

本发明提出的LBA的核心关键在于使用机器学习算法离线训练的机器学习分类器。有很多复杂的机器学习算法用于分类并且取得了广泛的应用和较好的效果，如随机森林、支持向量机、神经网络、回归等。机器学习的特点是不同的问题使用不同的算法会取得不一样的效果。初始状态下还不清楚哪一种算法最适合嵌入到本发明建议的调度方法中。为了弄清楚这一问题，本发明进行了实验，对三种机器学习分类器进行了初步的试验和筛选，即随机森林、支持向量机和神经网络。下面详细介绍了算法配置和训练过程。本发明的算法实现是借助scikit库完成的，这是一个一个众所周知的免费软件机器学习库，由Python编写。

3.1.机器学习分类器配置

每个三机器学习算法都依赖于一组相关的参数。为实现参数的合理配置，采用网格搜索方法进行了广泛的参数整定。具体地说，本发明首先给每个参数一个取值范围，然后将其划分为q(在本发明的案例中设置为10)相等的分区，从而产生参数值。按照这种做法，一个具有n个参数的机器学习分类器会有qn种组合方式，最后选择产生最佳性能的一个。三种机器学习分类器的最佳参数设置如下(一些不重要的参数被设置为scikit学习实现中的默认值)。

随机森林：

随机森林由五十个决策树组成。对于每个树，特征数是总特征数量的平方根。不同于总是选择最佳节点的标准实现，本发明的随机森林选择一个节点从一个随机子集的特征分支。此外，scikit的实现结合了五十个子机器学习分类器(对应于五十棵树)，通过平均值的概率预测，而不是让每个子机器学习分类器投票(0或1)。

神经网络：

网络由一个输入层(其单位数是输入样本的特征维度)、两个隐藏层(分别为十个和五个单元)和一个输出单元。神经元是完全连接的，激活函数是0-1激活函数。该网络是使用反向传播训练的，学习率为0.01。

支持向量机：

SVM使用Sigmod核函数和软边距，将误差项的惩罚参数设置为1。

3.2模型训练与交叉验证

本发明最初的训练集由大约2万个样本组成。这些示例是从35方案的35个参考调度方案(如本发明在上一节中提到的每个问题大小的5个方案)生成的。参考解是由最先进的ALNS算法产生的。由于一个地面目标通常与两个或更多的元任务(可见时间窗口)相关联，其中大多数可以在参考调度方案中选择，而带有负标签的样本比正面的样品多(约3倍)，导致训练数据不平衡。为了缓解这一问题，本发明的最终训练集包括1万个随机从2万个候选者中选出的样本，正负样本比例为1：1。

交叉验证是一种用于估计预测模型性能的广泛应用的技术。为了估计三机器学习算法所产生的机器学习分类器的性能，本发明使用了一个十折的交叉验证技术，它已被证明能够提供准确的估计的真实错误率。实验结果表明，随机森林、SVM和神经网络的平均分类精度分别为0.85、0.83、0.82。

通过将三生成的机器学习分类器嵌入到LBA中，本发明获得三种不同类型的LBA，即LBA_NN(带有神经网络的LBA)、LBA_SVM(带有SVM的LBA)和LBA_RF(使用随机森林的LBA)。本发明根据LBA变量和ALNS算法在离线模式下实现的总利润比率来衡量算法的性能。如图5所示，LBA_RF是三个候选人的总赢家，其中在最大的问题规模(400个任务)种获得最低的利润比率86％，在最小的任务场景(100个任务)中达到最高的利润比例96％。LBA_RF总是最好的所有问题的大小，达到平均90％以上的参考利润。通过比较LBA_SVM$与LBA_NN，前者在大问题(有300个任务或更多)的情况下表现较好，而后者在小问题(少于300个任务)时效果更好。

图6显示由LBA_NN，LBA_SVM和LBA_RF生成的调度方案中所选任务的数目。正如预期的那样，调度方案中包含的任务数LBA_RF是三调度方案中最重要的。尽管如此，LBA_NN和LBA_SVM在几乎相同的任务数量上几乎具有相同的性能。根据上述结果，随机森林最终被选择嵌入到LBA以后(即，LBA以后是确切地LBA_RF)。

这一结果也证明了本发明对LBA所实现的低任务数的思考。通过检查结果观察序列的细节，本发明发现在ALNS算法在离线模式下产生的参考调度方案中，一个高利润的任务可能会被丢弃，而对于替换ALNS算法将承担两个或更多的低利润任务，这些任务之间具有很好的兼容,满足约束并增加了更高的利润。LBA则不同，虽然本发明通过特征的设计实现了一定的兼容性的考虑，但是LBA还是更加倾向于高利润的任务，尽管其兼容性可能只能考虑到一个很小的邻域之内。

虽然训练的准确性似乎不尽如人意，但总体结果利润是不错的。虽然LBA机器学习分类器无法生成与列表中每个元任务都相互兼容的任务列表，但它会挑选出具有良好调度质量和兼容品质的的单个元任务。本发明不能产生一个相互兼容的元任务序列的观测计划，但本发明可以列出元任务的优良品质，并可能构成一个良好的观察序列。为了证明本发明的想法，本发明将机器学习分类器嵌入到LBA中，并在图7中绘制了所实现的总利润比率。

4.LBA实验结果

在这一部分，本发明列举的实验计算结果，都是使用的本发明建议的LBA使用随机森林训练机器学习分类器。本发明为每个问题大小生成5方案，并展示这些方案的平均结果。为了显示LBA的优点，本发明还展示最先进的ALNS算法和AB&B的计算结果，为比较起见(本发明在第一章和其它参数中提到的分支数量的限制与原始工作中的设置相同。ALNS_online是ALNS算法的变体，它将ALNS算法用于本发明背景介绍中的星上调度模式。AB&B使用一个精确的分支和绑定算法来解决每个重新安排的问题。在线更新频率为十分钟，这意味着等待日程排定的联机任务列表每十分钟更新一次。本发明从调度方案质量和计算效率两方面对这些算法的性能进行了评估。调度方案质量的衡量标准是三种算法在星上调度模式下产生的总利润与ALNS算法在地面模式下所找到总利润的比例。计算效率是指从任务上传到任务规划完毕的平均的响应时间。结果显示在图7和表3-2中。

表3-2 不同算法运行时间对比

从图7，本发明可以看到，本发明的LBA在星上模式下容易超越ALNS_online和AB&B。实际上，LB在所有问题大小上比ALNS_online和AB&B实现了更高的平均总利润。特别是所建议的LBA能够实现平均ALNS算法在离线模式下获得的总利润的约91.3.这是相当令人满意的，因为不像地面站模式下的ALNS算法，星上模式的LBA任务池是不断更新的，在每一次调度的过程中任务池里只有总任务量的一部分，剩余的任务会随着时间依次到达。LBA按照任务到达的顺序依次判断并构造调度方案，而ALNS算法可以从全局的角度寻找最优解。

从表3-2中本发明可以观察到，本发明的LBA速度快得多平均响应时间始终少于12秒。ALNS_online需要几分钟这是不适合星上使用因为这样长的响应时间是不可接受的。AB&B的平均运行时间不到一分钟但仍然是LBA的三倍左右。本发明提出的LBA另一个令人鼓舞的特点是它的响应时间与问题大小线性增加这意味着本发明的算法能够处理更大的问题大小。这是很明显的。机器学习分类器的分类过程和贪婪算法的构造过程运行时间都是O(n)。

请注意，ALNS_online和AB&B仅达到ALNS算法在地面站模式下获得的总利润的大约60％。有两个理由解释这一现象。首先，星上调度机制触发多次重调度，每次只解决整个问题的一小部分。ALNS_online因此每次只能看到原来搜索空间的一个小部分，自然找不到比较好的解。其次，ALNS_online需要花很长的时间来解决重新安排的问题，在此期间，卫星可能错过了一些观察机会。比如ALNS_online的调度花费为三分钟，那么这三分钟之内新的任务不会被调度，卫星的观测行为按照上一次调度方案执行。由于ALNS算法是为地面站设计的算法，所有ALNS算法在应用中没有上述两个问题，因为它会把所有任务作为一个整体进行调度，而不是任务分段到达。虽然AB&B是为星上调度而设计的算法，但是当面对大尺寸的问题时，它会遇到与ALNS算法相同的问题。实际上，AB&B在原始论文中的的场景规模是25个任务，所有该算法在小规模的问题上表现良好，但在本发明的实验中，它面临运行时间的问题，因为本发明的最小问题规模为100。可以很容易地理解，精确分支和绑定算法的运行时间随着问题大小的增大而呈指数级增加(而LBA的增长趋势是线性的)。尽管速度比ALNS算法快，但在实际需要快速(甚至即时)响应时，AB&B的运行时间仍然不理想。

图8显示由LBA、AB&B、ALNS_online和ALNS算法生成的调度方案中的计划任务数。毫无疑问，ALNS算法总是能够完成最有计划的任务，因为它是为离线模式设计的算法。在三种在线模式算法中，LBA在计划的任务数量方面始终优于其它两个。这也是主要LBA的调度方案的利润高于其它两个的原因。

LBA非常快，几乎不会错过任何观察的机会。当LBA的训练样本在离线模式下生成时，样本本身就携带了全球知识，将这些知识传授给机器学习分类器，使LBA在在线模式下表现得更好。在以上分析的基础上，本发明可以得出结论，LBA很适合在线使用，并且能够适应非常大的尺寸问题。缺乏全球知识和对分支机构数量的限制也降低了AB&B的总体性能。正如本发明提到的，任务总数量的减少是因为在离线训练过程中，LBA单独以元任务作为样本，忽略了它们在调度方案计划中的完整性。而机器学习分类器生成的元任务相互之间不兼容，所以这些元任务中的一些将被构造算法丢弃。然而，由于这些元任务的机器学习分类器选择倾向于有更好的质量和更高的利润，他们形成的调度计划可能是比较好的(虽然可能不是最好的)。

5.不同特征子集的测试

在上面的实验中，LBA是使用整个特征集中运行的，包括一组Cheap的功能、Moderate的功能和Expensive的功能。为了验证所有这些特性都是必需的，本发明分别用三组不同的特征子集运行LBA进行了实验。图9显示了平均计算结果，以各个子集和LBA使用全部特征产生的利润比例来衡量。表3-3中列出了计算时间(以秒为单位)，它显示了不同的问题规模下与计算不同代价子集所需要的时间。

表3-3 不同特征子集对比(时间)

从图9，本发明可以看到，对于所有的问题规模来说，每个特征子集可以达到不超过90％的LBA所获利润(使用所有特征)。使用代价较昂贵的特征子集的LBA得到的效果最好，并且具有更强的处理大型方案的能力，虽然计算成本比其它子集多几倍。从上述结果中，本发明得出结论，特征越复杂，它给LBA带来的性能就越好。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种敏捷卫星的星上调度方法，其特征在于，包括：

步骤100，离线训练：根据输入的训练用的历史数据，对样本进行训练，以输出机器学习分类器；所述历史数据包括：训练场景集合S＝{sce₁,sce₂,…,sce_n},每个任务场景sce_i均由一系列元任务task_i,j组成，所述任务场景sce_i表示为：

步骤200，在线调度：根据输入的新的调度场景sce以及由所述步骤100得到的所述机器学习分类器，利用调度算法，获得与所述新的调度场景sce对应的调度方案Sol；其中，所述新的调度场景sce由一系列元任务task_j组成，j＝1……m；

其中：所述步骤100具体包括：

步骤110：求取训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i，中的每个元任务task_i,j的特征向量X_i,j，j＝1……m_i；

步骤120：求解训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i对应的调度方案Sol_i；

步骤130：确定训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i中的每个元任务task_i.j的标签值Y_i,j；

步骤140：将分配好标签值Y_i,j且获取了特征向量X_i,j的元任务task_i,j作为训练样本训练所述机器学习分类器，并输出训练好的机器学习分类器；

所述步骤200具体包括：

步骤210：求取输入的新的调度场景sce以及场景中的每个元任务task_j的特征向量X_j；

步骤220：利用所述机器学习分类器对新的调度场景sce中的每个元任务task_j进行分类，以获得待调度任务集合；

步骤240：按照排序顺序依次为待调度任务安排观测窗口，若安排成功，则将该任务添加到所述新的调度场景的调度方案中，并输出所述新的调度场景的调度方案。

2.如权利要求1所述的敏捷卫星的星上调度方法，其特征在于，所述步骤110中每个元任务task_i,j的特征向量Y_i,j包含如下特征：

基本特征、转换时间冲突度量、时间窗冲突度量、任务密度度量和局部最优度量，其中，所述基本特征包括任务时长、任务收益、时间窗口长度和时间窗的数量，所述转换时间冲突度量包括转换时间损失和利润和过渡时间的比值，所述时间窗冲突度量包括冲突长度、无冲突长度、冲突数和可能损失，所述任务密度度量包括元任务的均匀性和密度。

3.如权利要求1所述的敏捷卫星的星上调度方法，其特征在于，所述步骤130中，通过查看每个场景sce_i中的各元任务task_i,j是否在对应的调度方案Sol_i中，如果是，则元任务task_i,j的标签值Y_i,j分配为1；否则将task_i,j的标签值Y_i,j分配为0。

4.如权利要求1所述的敏捷卫星的星上调度方法，其特征在于，所述步骤120中，使用ALNS算法对训练场景集合S＝{sce₁,sce₂,…,sce_n}中的每个场景sce_i对应的调度方案Sol_i进行求解。

5.如权利要求1所述的敏捷卫星的星上调度方法，其特征在于，所述步骤220具体包括：如果所述机器学习分类器输出1，即该样本是正样本，则将该任务添加至本次待调度任务集合中；反之，如果所述机器学习分类器输出0，则将该任务舍弃，不参与本次调度。