CN115328638B - 一种基于混合整数规划的多飞行器任务调度方法 - Google Patents

一种基于混合整数规划的多飞行器任务调度方法 Download PDF

Info

Publication number
CN115328638B
CN115328638B CN202211250312.9A CN202211250312A CN115328638B CN 115328638 B CN115328638 B CN 115328638B CN 202211250312 A CN202211250312 A CN 202211250312A CN 115328638 B CN115328638 B CN 115328638B
Authority
CN
China
Prior art keywords
branch
bound
task
strategy
integer programming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211250312.9A
Other languages
English (en)
Other versions
CN115328638A (zh
Inventor
吕金虎
曲庆渝
刘克新
高庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Academy of Mathematics and Systems Science of CAS
Original Assignee
Beihang University
Academy of Mathematics and Systems Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Academy of Mathematics and Systems Science of CAS filed Critical Beihang University
Priority to CN202211250312.9A priority Critical patent/CN115328638B/zh
Publication of CN115328638A publication Critical patent/CN115328638A/zh
Application granted granted Critical
Publication of CN115328638B publication Critical patent/CN115328638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • General Factory Administration (AREA)

Abstract

本发明涉及飞行器任务调度领域,具体为一种基于混合整数规划的多飞行器任务调度方法,包括将对地卫星任务调度问题建模为一个混合整数规划模型,利用分支定界方法对得到的混合整数规划问题进行求解,将分支定界问题建模为马尔科夫决策过程,求解分支定界问题,得到专家策略的数据集,利用模仿学习得到分支定界策略,测试策略求解时间并迭代更新策略池,直至求解时间不再减少后输出最终训练得到的策略。本方法利用分支定界方法对其进行求解,可以近似保证解的最优性,在保证最优性的前提下,提高分支定界方法的求解速度。

Description

一种基于混合整数规划的多飞行器任务调度方法
技术领域
本发明涉及飞行器任务调度领域,尤其涉及混合整数规划问题,具体为一种基于混合整数规划的多飞行器任务调度方法。
背景技术
飞行器是在大气层内或大气层外空间(太空)飞行的器械。其中,在大气层内飞行的称为航空器。在太空飞行的称为航天器,如卫星、载人飞船、空间探测器、航天飞机等。其中,在航天器中,对地观测卫星在国民经济和社会发展中发挥着重要的作用,其应用领域包括气象预报、国土普查、作物估产、森林调查、地质找矿、海洋预报、环境保护、灾害监测、城市规划、地图测绘等方面。
卫星任务调度技术是指在卫星任务需求与管控需求的驱动下,通过对任务和资源的建模,在满足任务约束与资源约束的条件下,最大化卫星任务效益与管控效益的一种优化技术。随着在轨卫星数量的不断增加,卫星任务调度呈现出大规模、复杂化等新常态和灵活组网、快速响应等新需求。因此,设计高效智能的卫星任务调度方法是卫星任务调度技术研究发展的必然要求。
混合整数规划是一种通用的优化技术,在多个领域有着极为广泛的应用。混合整数规划指部分决策变量限制为整数的数学优化问题,它对于解决生产计划、任务调度、路径规划等复杂的组合优化问题都具有极为重要的作用。对其基本理论和计算方法的研究最早可以追溯至几十年前,至今仍然有大量学者在该领域内不断进行更深入的研究和探索。如CN 111091242 A公开了一种电力负荷的最优非参数区间预测方法,该方法构建了基于机器学习的混合整数规划模型,通过混合整数约束保证区间覆盖率满足置信水平,并以最小化区间宽度为训练目标,摆脱了传统电力负荷区间预测对参数化概率分布和单一分位水平的限制。CN 113568675 A公开了一种基于分层强化学习的车联网边缘计算任务卸载方法,将车联网边缘计算任务卸载问题建模为非线性混合整数规划问题。
尽管快速求解混合整数规划问题对于卫星任务调度问题以及卫星在轨执行任务具有非常重要的意义,但是这类问题的求解往往是NP难问题,即没有一种多项式时间算法可以保证能够求解一般的混合整数规划问题。目前,求解混合整数规划问题的算法除了一些精确的数值方法(如分支定界法、分支切割法等)外,还包括一些启发式算法,这些启发式算法因其简单、高效而被广泛使用。然而,很多有效的启发式算法,包括局部分支等,往往都需要一个初始可行的解决方案才可以进一步进行求解。因此,找到一个可行的解决方案通常是解决混合整数规划问题的第一步,也是非常关键的一步。但是,即便仅仅求可行解,该问题也是一个NP难问题。即使是技术较为成熟的一些商业求解器,如CPLEX、Gurobi、SCIP等,也可能在求解过程中遇到困难,甚至求解失败。目前,求解卫星任务调度问题的方法主要可以分为三类,即启发式方法、精确求解方法以及元启发式方法。比较常用的几种启发式方法包括优先级排序算法、冲突消解算法、任务分配算法等,可以有效降低问题的求解难度和决策维度,从而快速构造可行解。以分支定界算法、动态规划算法为代表的精确求解方法能够求得卫星任务调度问题的全局最优解,在动态或不确定环境下也可以保证解的全局最优性。而以演化算法、局部搜索算法为主的元启发式方法的主要思想是,在全局解空间内从初始解出发有选择地向优质解移动,因此这类方法往往具有比较强的全局寻优能力。
这些调度方法表现出良好的优化效果,但也分别存在其各自的问题:启发式方法尽管可以快速构造高质量的可行解,但是往往无法保证解的最优性;精确求解方法可以解算给定模型的最优解,但是往往需要较大的计算量;元启发式方法的全局寻优能力较强,但一般需要进行复杂的编码设计前期工作且计算量也比较大。此外,近年来有学者提出了基于机器学习的卫星任务调度方法,通过监督学习、强化学习等手段解决卫星任务调度问题。该类方法往往兼具启发式方法简单、快速的特点与机器学习技术自学习、自适应的特点,但是往往也难以保证求解的最优性。
此外,近年来随着人工智能技术的发展,有些学者提出利用机器学习的思想求解卫星任务调度问题。基于机器学习的卫星任务规划调度方法是指通过监督学习、无监督学习、强化学习等手段,训练卫星任务调度求解模型,进而对卫星任务进行调度的一类方法。这类方法可以视为一种利用高级规则指导卫星任务调度问题的算法,它兼具启发式方法快速、简单的特点以及学习类方法自学习、自适应的特点。考虑到目前航天管控部门积累了大量卫星管控数据,因此该类数据驱动的方法具有极大的应用前景。
发明内容
针对现有的这些问题,本发明提供一种基于混合整数规划的多飞行器任务调度方法,在不增加求解过程复杂性的前提下,提高求解效率。
本发明完整的技术方案包括:
一种基于混合整数规划的多飞行器任务调度方法,包括如下步骤:
步骤1,对多飞行器的任务属性与资源属性进行分析,将多飞行器的任务调度问题建模为一个混合整数规划模型;
步骤2,利用分支定界方法对得到的混合整数规划问题进行求解,将分支定界问题建模为马尔科夫决策过程,确定所述马尔科夫决策过程中状态、动作、奖励以及转移关系的设置;
步骤3,利用StrongBranch和Pseudo-costBranch两种启发式算法求解步骤2得到的分支定界问题,在求解过程中收集由StrongBranch算法得到的“状态-动作”数据,获得专家策略的数据集;
步骤4,基于得到的“状态-动作”数据,利用模仿学习方法进行模型训练,得到分支定界策略,并放入策略池;
步骤5,在步骤1得到的混合整数规划模型上测试步骤4所得策略的求解时间;
步骤6,利用Pseudo-cost Branch算法以及策略池中的策略求解步骤2中得到的分支定界问题,在求解过程中按回合收集所有策略得到的数据,计算相应的累计奖励,并更新专家策略的数据集;
步骤7,利用强化学习方法对步骤6中得到的数据进行筛选,筛选依据为每组“状态-动作”数据上的累计奖励,仅保留累计奖励较高的数据,并更新策略池;
步骤8,重复步骤4-7,直至模型求解时间不再减少;
步骤9,输出最终训练得到的策略。
所述步骤2的马尔科夫决策过程中的状态包括分支定界的节点状态信息以及可以进行分支定界的候选变量集合;动作为在当前节点上选中进行分支定界的最终候选变量;奖励为在当前节点上选择某变量进行分支定界所需要的求解时间的相反数;转移关系为在当前节点上选择某变量进行分支定界,并得到分支定界决策树上下一个节点。
所述飞行器为对地观测卫星。
本发明相对于现有技术的优点在于:
(1)完成了多飞行器任务调度问题的数学建模,考虑多飞行器任务,尤其是卫星对地观测任务与数据传输任务的任务属性,以及星上有效载荷、地面站等资源属性,建立一个混合整数规划模型,方便利用分支定界方法对其进行求解,可以近似保证解的最优性。
(2)在得到描述多飞行器任务调度问题的混合整数规划模型后,利用分支定界方法求解该模型。将分支定界过程建模为了马尔科夫决策过程,明确此过程中状态、动作、奖励以及转移关系的设置,为了加快求解速度,引入强化学习的思想,保证最优性的同时可以提高求解效率。
(3)提出了一种基于强化学习的分支定界方法,结合模仿学习以及强化学习的观点,来辅助进行分支变量的选择,在此过程中避免了繁杂的计算,在保证最优性的前提下,提高分支定界方法的求解速度。
附图说明
图1为本发明基于混合整数规划的多飞行器任务调度方法的流程示意图。
图2为本发明中分支定界子节点的二部图。
具体实施方式
下面将结合本申请实施方式中的附图,对本申请的实施方式中的技术方案进行清楚、完整的描述,显然,所描述的实施方式仅仅是作为例示,并非用于限制本申请。
以下结合实施例和附图对本发明进行详细描述,但需要理解的是,所述实施例和附图仅用于对本发明进行示例性的描述,而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。
需要指出的是,在本实施方式所用的参数符号中,如无特殊说明,
Figure 822997DEST_PATH_IMAGE001
代表为
Figure 390244DEST_PATH_IMAGE002
矩阵,上角标T代表转置矩阵,如c T 代表c的转置矩阵;
Figure 531244DEST_PATH_IMAGE003
代表n维向量;其余在本实施方式中未明确定义的参数符号均为推导过程中的中间变量,不具备实际物理含义且并不影响对本实施方案技术方案的理解。
本实施方式以卫星任务调度问题的求解为例,对基于混合整数规划的多飞行器任务调度方法进行说明,其流程如图1所示,策略方案包括以下步骤:
步骤1,对对地观测卫星的任务属性与资源属性进行分析,将对地卫星任务调度问题建模为一个混合整数规划模型;
给定卫星任务调度问题如下:
Figure 183943DEST_PATH_IMAGE004
式中STSP为一个多资源、多任务、多时间窗口、多优化目标和多约束的组合优化问题;其中S为场景中的执行用户任务的卫星集合,集合的属性包括用于执行任务的卫星的轨道参数、卫星有效载荷参数;G表示地面站资源,包括常规地面站、极地站、移动站;R表示中继星资源;Φ表示用户任务需求,包括图像要求(类型、分辨率、云层厚度等)、地理位置、时间约束;Σ表示外部环境,包括气象条件、人工约束等;sts表示任务调度的开始时间,ste表示任务调度的结束时间。
在一种具体的实施方式中,上述卫星任务调度问题包括由多颗卫星组成的卫星集合,执行由多个任务组成的任务集合。其中每个任务包括观测阶段和数据传输阶段,每颗卫星包括多个可用观测时间窗口和可用数据传输时间窗口,以任务i,任务j代表任务集合中的两个具体任务编号,以卫星q代表卫星集合中某一具体卫星,对卫星任务调度问题进行说明:
确定卫星任务调度的决策变量,包括:
1)将任务i分配给卫星q;2)任务i在卫星q的第y个可用观测时间窗口进行观测;3)任务i在卫星q的第y个可用观测时间窗口进行观测时所用的时间;4)任务i在卫星q的第z个可用数据传输时间窗口进行数据传输;5)任务i在卫星q的第z个可用数据传输时间窗口进行数据传输时所用的时间;6)任务i和任务j被同时分配给卫星q时,进行观测的优先级;7)任务i和任务j被同时分配给卫星q时,进行数据传输的优先级;
上述调度过程的约束条件包括:
1)每个任务必须要选择一个卫星来执行,且选中后仅可在该卫星的可用时间窗口内执行任务;2)实际观测窗口必须要在可用观测时间窗口范围内;3)实际数据传输窗口必须要在可用数据传输时间窗口范围内;4)总观测时间与数据传输时间必须满足给定要求;5)须满足设定的任务执行顺序;6)每颗卫星上存储的任务数不超过3个,为内存约束;7)对于每个任务,观测必须先于数据传输完成;8)每个时间窗口最多同时执行一个任务;9)每个任务必须要在自己的截止时间之前完成;10)总任务完成时,所有子任务均已完成。
根据上述决策变量和约束条件进行多颗卫星执行多个任务的调度,并得到完成所有任务的总时间(即在最后一个任务的完成时间之后),将完成所有任务的总时间最短作为优化目标。
将上述问题建模为如下混合整数规划问题:
Figure 819323DEST_PATH_IMAGE006
其中,
Figure 975498DEST_PATH_IMAGE007
为上述卫星任务调度中确定的决策变量,
Figure 38132DEST_PATH_IMAGE008
为使决策变量
Figure 912547DEST_PATH_IMAGE007
取最小值的函数;
Figure 351619DEST_PATH_IMAGE009
为目标系数向量,c T c的转置矩阵,
Figure 378612DEST_PATH_IMAGE010
为约束系数矩阵,
Figure 612147DEST_PATH_IMAGE011
为约束向量,
Figure 973858DEST_PATH_IMAGE012
表示决策变量的下界,
Figure 951041DEST_PATH_IMAGE013
表示决策变量的上界,
Figure 81809DEST_PATH_IMAGE014
表示整数决策变量的个数,
Figure 486245DEST_PATH_IMAGE015
表示决策变量的个数。
步骤2,利用分支定界方法对得到的混合整数规划问题进行求解,将分支定界问题建模为马尔科夫决策过程,并建立该过程中状态、动作、奖励以及转移关系如下:
状态:包括分支定界的节点状态信息以及可以进行分支定界的候选变量集合;
其中节点状态信息以二部图的形式表示。即,将分支定界的节点状态信息
Figure 335252DEST_PATH_IMAGE016
编码为一个二部图,其中
Figure 584968DEST_PATH_IMAGE017
表示节点,
Figure 835821DEST_PATH_IMAGE018
表示在该节点的约束信息,
Figure 928935DEST_PATH_IMAGE019
表示在该节点的变量信息,
Figure 265239DEST_PATH_IMAGE020
表示在该节点处变量与约束的耦合关系。该二部图的结构如图2所示。
动作:在当前节点上选中进行分支定界的最终候选变量。
奖励:在当前节点上选择某变量进行分支定界所需要的求解时间的相反数,即求解时间越短,即时奖励越高。
转移关系:在当前节点上选择某变量进行分支定界,得到分支定界决策树上下一个节点。
步骤3,利用StrongBranch和Pseudo-costBranch两种启发式算法与求解器(这里选择开源求解器SCIP)进行交互,求解步骤2中得到的分支定界问题,在求解过程中收集由StrongBranch算法得到的数据(“状态-动作”对),获得专家策略的数据集,所述的数据集包含数据,用于优化并形成专家策略。
本步骤中,由于StrongBranch方法可以得到最小的分支定界决策树,所以利用这些数据训练得到的模型可以近似保证最优性,其中,StrongBranch方法的特点是在当前节点上选择在目标边界上提供最大改进的候选变量作为最终候选变量,利用该方法进行分支定界可以获得一个最小的分支定界决策树。但考虑到在所有节点上都选择StrongBranch方法进行分支定界所需求解时间过长且决策树结构单一,在获得专家策略数据集的过程中,引入Pseudo-cost Branch方法这一快速但不够准确的方法来鼓励对更多节点的探索。这里我们设置,在每个节点上,90%的概率会利用Pseudo-cost Branch方法进行求解,10%的概率会利用StrongBranch方法进行求解。由于StrongBranch方法可以近似保证最优性,因此这里仅保留利用StrongBranch方法求解获得的数据。
步骤4,基于步骤3中得到的数据,利用模仿学习方法,以损失函数最小化为目标进行模型训练,得到分支定界策略,放入策略池。
在训练策略时使用如下交叉熵作为损失函数:
Figure 584224DEST_PATH_IMAGE021
其中,
Figure 689584DEST_PATH_IMAGE022
为交叉熵损失函数,
Figure 435823DEST_PATH_IMAGE023
为神经网络的参数,
Figure 993843DEST_PATH_IMAGE024
为当前获得的专家策略的数据集,
Figure 116520DEST_PATH_IMAGE025
为数据集的大小,
Figure 827118DEST_PATH_IMAGE026
为数据集中的“状态-动作”对,
Figure 744259DEST_PATH_IMAGE027
为拟学习的策略。
步骤5,在步骤1得到的混合整数规划模型上测试步骤4所得策略的求解时间。
步骤6,利用Pseudo-cost Branch算法以及策略池中的策略与求解器进行交互,求解步骤2中得到的分支定界问题,在求解过程中按回合收集所有策略得到的数据,并计算相应的累计奖励,并更新专家策略的数据集。
策略池中的策略这里设置为,在每个节点上,选择每种策略(包括Pseudo-costBranch方法)的概率是等同的,在求解过程中按回合收集所有策略得到的数据,以便于按照下式利用强化学习的方法计算在节点
Figure 55154DEST_PATH_IMAGE028
上的累计奖励:
Figure 715943DEST_PATH_IMAGE029
其中,
Figure 530315DEST_PATH_IMAGE030
表示从当前节点
Figure 883936DEST_PATH_IMAGE028
到回合结束的累计奖励,
Figure 416548DEST_PATH_IMAGE031
表示折扣因子,
Figure 881028DEST_PATH_IMAGE032
表示在第t步的即时奖励。
步骤7,利用强化学习的方法对步骤6中得到的数据进行筛选,以保证数据的近似最优性,筛选依据为每组“状态-动作”对上的累计奖励,仅保留累计奖励较高的策略并更新步骤4中的策略池。
具体做法是利用一个神经网络
Figure 284327DEST_PATH_IMAGE033
来拟合每个状态上的累计奖励的上确界,进而可以认为那些累计奖励靠近
Figure 58117DEST_PATH_IMAGE033
的“状态-动作”对,其动作都是由近似最优策略生成的,据此依照下式挑选出这些比较好的“状态-动作”对,利用模仿学习以得到近似最优策略:
Figure 78026DEST_PATH_IMAGE034
其中
Figure 80617DEST_PATH_IMAGE035
是一个超参数,它和选出的“状态-动作”对在总数据集中的占比是一一对应的,先设置比例值,从而确定
Figure 869581DEST_PATH_IMAGE035
的取值;
Figure 565005DEST_PATH_IMAGE036
的含义是当前节点的状态信息。
步骤8,重复步骤4-7,直至模型求解时间不再减少;
步骤9,输出最终训练得到的策略。
以上申请的仅为本申请的一些实施方式。对于本领域的普通技术人员来说,在不脱离本申请创造构思的前提下,还可以做出若干变型和改进,这些都属于本申请的保护范围。

Claims (3)

1.一种基于混合整数规划的多飞行器任务调度方法,其特征在于,包括如下步骤:
步骤1,对多飞行器的任务属性与资源属性进行分析,将多飞行器的任务调度问题建模为一个混合整数规划模型;
所述飞行器的任务调度问题给定如下:
Figure 730825DEST_PATH_IMAGE001
式中STSP为一个多资源、多任务、多时间窗口、多优化目标和多约束的组合优化问题;其中S为场景中的执行用户任务的卫星集合,集合的属性包括用于执行任务的卫星的轨道参数、卫星有效载荷参数;G表示地面站资源,包括常规地面站、极地站和移动站;R表示中继星资源;Φ表示用户任务需求,包括图像要求,地理位置和时间约束;所述图像要求包括类型、分辨率和云层厚度;Σ表示外部环境,包括气象条件、人工约束;sts表示任务调度的开始时间,ste表示任务调度的结束时间;
将上述问题建模为如下混合整数规划问题:
Figure 963223DEST_PATH_IMAGE002
其中,
Figure 266028DEST_PATH_IMAGE003
为上述卫星任务调度中确定的决策变量,
Figure 888771DEST_PATH_IMAGE004
为使决策变量
Figure 302434DEST_PATH_IMAGE003
取最小值的函数;
Figure 61443DEST_PATH_IMAGE005
为目标系数向量,c T c的转置矩阵,
Figure 738412DEST_PATH_IMAGE006
为约束系数矩阵,
Figure 707505DEST_PATH_IMAGE007
为约束向量,
Figure 797296DEST_PATH_IMAGE008
表示决策变量的下界,
Figure 801024DEST_PATH_IMAGE009
表示决策变量的上界,
Figure 648895DEST_PATH_IMAGE010
表示整数决策变量的个数,
Figure 980650DEST_PATH_IMAGE011
表示决策变量的个数;
步骤2,利用分支定界方法对得到的混合整数规划问题进行求解,将分支定界问题建模为马尔科夫决策过程,确定所述马尔科夫决策过程中状态、动作、奖励以及转移关系的设置;
步骤3,利用StrongBranch和Pseudo-costBranch两种启发式算法求解步骤2得到的分支定界问题,在每个节点上,90%的概率利用Pseudo-cost Branch方法进行求解,10%的概率利用StrongBranch方法进行求解;在求解过程中收集由StrongBranch算法得到的“状态-动作”数据,获得专家策略的数据集;
步骤4,基于得到的“状态-动作”数据,利用模仿学习方法进行模型训练,得到分支定界策略,并放入策略池;
步骤5,在步骤1得到的混合整数规划模型上测试步骤4所得策略的求解时间;
步骤6,利用Pseudo-cost Branch算法以及策略池中的策略求解步骤2中得到的分支定界问题,在求解过程中按回合收集所有策略得到的数据,计算相应的累计奖励,并更新专家策略的数据集;
步骤7,利用强化学习方法对步骤6中得到的数据进行筛选,筛选依据为每组“状态-动作”数据上的累计奖励,仅保留累计奖励较高的数据,并更新策略池;
具体为利用一个神经网络
Figure 1696DEST_PATH_IMAGE012
来拟合每个状态上的累计奖励的上确界,进而认为那些累计奖励靠近
Figure 469717DEST_PATH_IMAGE012
的“状态-动作”对,其动作都是由近似最优策略生成的,据此依照下式挑选出“状态-动作”对,利用模仿学习以得到近似最优策略:
Figure 488489DEST_PATH_IMAGE013
其中,
Figure 697753DEST_PATH_IMAGE014
表示从当前节点到回合结束的累计奖励,
Figure 132277DEST_PATH_IMAGE015
是一个超参数,它和选出的“状态-动作”对在总数据集中的占比一一对应,先设置比例值,从而确定
Figure 845018DEST_PATH_IMAGE015
的取值;
Figure 769112DEST_PATH_IMAGE016
的含义是当前节点的状态信息;
步骤8,重复步骤4-7,直至模型求解时间不再减少;
步骤9,输出最终训练得到的策略。
2.根据权利要求1所述一种基于混合整数规划的多飞行器任务调度方法,其特征在于,
所述步骤2的马尔科夫决策过程中的状态包括分支定界的节点状态信息以及可以进行分支定界的候选变量集合;动作为在当前节点上选中进行分支定界的最终候选变量;奖励为在当前节点上选择某变量进行分支定界所需要的求解时间的相反数;转移关系为在当前节点上选择某变量进行分支定界,并得到分支定界决策树上下一个节点。
3.根据权利要求2所述一种基于混合整数规划的多飞行器任务调度方法,其特征在于,所述飞行器为对地观测卫星。
CN202211250312.9A 2022-10-13 2022-10-13 一种基于混合整数规划的多飞行器任务调度方法 Active CN115328638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211250312.9A CN115328638B (zh) 2022-10-13 2022-10-13 一种基于混合整数规划的多飞行器任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211250312.9A CN115328638B (zh) 2022-10-13 2022-10-13 一种基于混合整数规划的多飞行器任务调度方法

Publications (2)

Publication Number Publication Date
CN115328638A CN115328638A (zh) 2022-11-11
CN115328638B true CN115328638B (zh) 2023-01-10

Family

ID=83914111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211250312.9A Active CN115328638B (zh) 2022-10-13 2022-10-13 一种基于混合整数规划的多飞行器任务调度方法

Country Status (1)

Country Link
CN (1) CN115328638B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102752395A (zh) * 2012-07-13 2012-10-24 浙江大学 一种用于分布式数据中心实时业务分配的在线调度方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN113010282A (zh) * 2021-03-03 2021-06-22 电子科技大学 一种基于深度强化学习的边云协同串行任务卸载方法
CN114153572A (zh) * 2021-10-27 2022-03-08 中国电子科技集团公司第五十四研究所 一种星地协作网络中分布式深度学习的计算卸载方法
CN114519292A (zh) * 2021-12-17 2022-05-20 北京航空航天大学 基于深度强化学习的空空导弹越肩发射制导律设计方法
CN114924862A (zh) * 2022-06-02 2022-08-19 北京百度网讯科技有限公司 利用整数规划求解器实现的任务处理方法、设备和介质
CN115065678A (zh) * 2022-04-07 2022-09-16 东南大学 一种基于深度强化学习的多智能设备任务卸载决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11340899B1 (en) * 2020-11-05 2022-05-24 Mitsubishi Electric Research Laboratories, Inc. Controller with early termination in mixed-integer optimal control optimization

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102752395A (zh) * 2012-07-13 2012-10-24 浙江大学 一种用于分布式数据中心实时业务分配的在线调度方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN113010282A (zh) * 2021-03-03 2021-06-22 电子科技大学 一种基于深度强化学习的边云协同串行任务卸载方法
CN114153572A (zh) * 2021-10-27 2022-03-08 中国电子科技集团公司第五十四研究所 一种星地协作网络中分布式深度学习的计算卸载方法
CN114519292A (zh) * 2021-12-17 2022-05-20 北京航空航天大学 基于深度强化学习的空空导弹越肩发射制导律设计方法
CN115065678A (zh) * 2022-04-07 2022-09-16 东南大学 一种基于深度强化学习的多智能设备任务卸载决策方法
CN114924862A (zh) * 2022-06-02 2022-08-19 北京百度网讯科技有限公司 利用整数规划求解器实现的任务处理方法、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Satellite Observation and Data-Transmission Scheduling using Imitation Learning based on Mixed Integer Linear Programming;Qu Qingyu等;《IEEE Transactions on Aerospace and Electronic Systems》;20220927;第1-25页 *

Also Published As

Publication number Publication date
CN115328638A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
CN113128828B (zh) 一种基于多智能体强化学习的卫星观测分布式在线规划方法
Ji et al. STDEN: Towards physics-guided neural networks for traffic flow prediction
WO2019127945A1 (zh) 基于结构化神经网络的成像任务可调度性预测方法
Russell et al. Q-decomposition for reinforcement learning agents
Binol et al. Time optimal multi-UAV path planning for gathering its data from roadside units
CN108594858B (zh) 马尔科夫运动目标的无人机搜索方法及装置
CN111104522A (zh) 一种基于知识图谱的区域产业关联效应趋势预测方法
He et al. Scheduling multiple agile earth observation satellites with an edge computing framework and a constructive heuristic algorithm
CN113033072A (zh) 一种基于多头注意力指针网络的成像卫星任务规划方法
Xu et al. Deep reinforcement learning for cascaded hydropower reservoirs considering inflow forecasts
Zheng et al. Robustness of the planning algorithm for ocean observation tasks
Qu et al. Satellite observation and data-transmission scheduling using imitation learning based on mixed integer linear programming
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
Bao et al. An effective method for satellite mission scheduling based on reinforcement learning
CN115328638B (zh) 一种基于混合整数规划的多飞行器任务调度方法
Cappellone et al. On-board satellite telemetry forecasting with rnn on risc-v based multicore processor
Yang et al. Prediction of photovoltaic power generation based on LSTM and transfer learning digital twin
LU505438B1 (en) Multi-aircraft task scheduling method based on mixed integer programming
CN114707613B (zh) 基于分层的深度策略梯度网络的电网调控方法
Wang et al. OPM & color petri nets based executable system of systems architecting: A building block in FILA-SoS
CN115395502A (zh) 一种光伏电站功率预测方法及系统
He et al. Multiple autonomous agile satellites coordinating and planning in an uncertain environment
Dai et al. Parameter auto-selection for hemispherical resonator gyroscope's long-term prediction model based on cooperative game theory
CN116070714B (zh) 基于联邦学习和神经架构搜索的云边协同训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant