CN114971162B - 一种状态自适应的机群发动机检测任务动态调度方法 - Google Patents

一种状态自适应的机群发动机检测任务动态调度方法 Download PDF

Info

Publication number
CN114971162B
CN114971162B CN202210380886.1A CN202210380886A CN114971162B CN 114971162 B CN114971162 B CN 114971162B CN 202210380886 A CN202210380886 A CN 202210380886A CN 114971162 B CN114971162 B CN 114971162B
Authority
CN
China
Prior art keywords
task
rescheduling
time
state
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210380886.1A
Other languages
English (en)
Other versions
CN114971162A (zh
Inventor
程颖
宋心怡
陶飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210380886.1A priority Critical patent/CN114971162B/zh
Publication of CN114971162A publication Critical patent/CN114971162A/zh
Application granted granted Critical
Publication of CN114971162B publication Critical patent/CN114971162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种状态自适应的机群发动机检测任务动态调度方法,包括以下步骤:步骤1.结合资源充足度与任务紧迫度进行检测系统状态实时感知;步骤2.构建/更新基于强化学习的系统状态自适应重调度决策网络,并根据系统状态输出重调度信号;步骤3.根据重调度信号决定维持原调度方案或使用智能优化算法进行重调度问题求解;步骤4.根据上一步方案效果计算奖励值,并感知此时的系统状态;步骤5.迭代多次后输出训练完成的强化学习决策网络参数值,利用训练完成的强化学习决策网络进行机群航空发动机检测任务动态调度。本发明使用强化学习算法进行了系统状态自适应重调度,克服了启发式算法的短视性,实现了调度效率的长效提升。

Description

一种状态自适应的机群发动机检测任务动态调度方法
技术领域
本发明属于面向航空发动机机群故障检测任务智能调度技术领域,具体涉及一种状态自适应的机群发动机检测任务动态调度方法。
背景技术
航空发动机的原位无损检测是指机件、设备和系统不经拆卸,在原来安装位置上进行检查,能快速、方便、有效地检测在役结构及易损零部件的损伤,飞机航前进行发动机原位检测是预防事故发生和保证设备运行安全的有效手段。航空发动机作为推进系统关键,当前,使用航空发动机故障检测设备资源以组合协作方式进入航空发动机内部进行自动化航前安全检测,取代低效的人工检测使得航空发动机智能自主维护成为可能。
飞机到达的不确定性以及不可预测性使得飞机的航前检测时间浮动变化大,目前的研究还缺乏针对不确定、不可预测的航空发动机检测任务到达情境下的检测机器人重调度方法。近年来,元启发式算法在求解调度问题时展现出良好的效果,但是其学习能力不足,不能够根据系统状态自适应决策。随着强化学习的发展以及在对调度领域的应用,由于强化学习具有自学习能力,更擅于处理不可预测的突发事件。然而,由于状态空间构造的复杂性,强化学习在求解大规模问题时泛化性不足。针对如何结合元启发式算法与强化学习算法解决上述问题,当前研究还不能给出有效结论。
发明内容
为解决上述技术问题,本发明提供一种状态自适应的机群发动机检测任务动态调度方法,系统状态自适应的机群检测任务动态调度方法是基于对系统状态的实时评估,训练强化学习网络进行系统状态自适应的重调度触发决策,并利用元启发式算法进行调度方案求解,以达到调度目标的长效提升,提高系统面对不确定性环境的适应能力。该方法包括机群检测系统状态实时感知、构建/更新强化学习决策网络并输出重调信号值、维持原有调度时间表/使用智能算法求解重调度方案、根据调度方案表现获得奖励值并进行系统状态感知、输出训练完成的网络参数5个步骤。本发明能够面向不确定的航空发动机检测任务到达场景,实现考虑系统状态的自适应重调度触发决策,提高任务的准时完成率、系统面对不确定环境的自适应能力以及响应能力。
本发明解决其技术问题是采取以下技术方案实现的:
一种状态自适应的机群发动机检测任务动态调度方法,包括如下步骤:
步骤1:综合考虑系统资源充足性以及任务紧迫性,实时感知t时刻系统状态St;根据系统内资源的被占用状况,分别从立即可用资源、预期可用资源两个角度评价t时刻内资源可用状况;根据系统内已调度正在等待执行的任务,根据任务的执行时间紧迫性评价任务的资源需求状况;结合以上两方面综合评价资源充足度,并根据系统中正在等待的最紧迫任务的紧迫程度对系统进行任务紧迫性评估;
步骤2:初始化步骤时,初始化强化学习重调度决策网络参数,构建重调度决策网络;之后,根据上一步获取的系统状态,计算得到强化学习奖励值,更新基于强化学习的系统状态自适应重调度触发决策网络,决策网络输出重调度信号,指导智能优化算法进行重调度;
步骤3:根据上一步强化学习决策网络决定是否需要进行重调度,如果需要,则智能优化算法进行调度问题求解,输出机群检测任务执行时间表;若强化学习决策网络决定不进行重调度,则系统维持原调度安排;
步骤4:根据调度方案的效果表现,计算强化学习奖励值rt;感知(t+1)时刻系统状态St+1;如果达到迭代最大值,则进行步骤5,若未达到最大值,则返回步骤2;
步骤5:迭代训练完成,输出训练完成的强化学习决策网络参数,利用训练完成的强化学习决策网络,进行系统状态自适应的航空发动机检测任务动态调度。
进一步地,所述步骤1具体包括:
1.1t时刻的n类资源状态用资源可用状况以及资源需求状况的比值来综合反映;R(t)n表示t时刻n类资源的资源可用状况,式(1)表示t时刻n类型的资源可用状况的计算方法:
Figure BDA0003592938180000021
其中,tXn,j表示资源rn,j的状态,tXn,j=0表示资源正在被占用,tXn,j=1表示资源空闲;
Figure BDA0003592938180000022
表示资源与任务的对应关系,
Figure BDA0003592938180000023
表示资源rn,j正在服务任务fm,i,反之则两者没有对应关系;T_executem,i表示任务fm,i的执行时间,tT_leftm,i表示任务的剩余执行时间,tT_leftm,i=T_endm,i-t;n,m分别代表资源和任务的种类,qn为n类型的资源总数;公式前半部分计算了系统t时刻的立即可用资源,后半部分计算了t时刻的预期可用资源;
D(t)n表示t时刻n类资源需求状况,如式(2)所示:
Figure BDA0003592938180000031
其中,Bm,i表示将产生延误的任务,T_duem,i表示任务fm,i的截止时间;t为当前时刻;pm为m类型的任务总数;
对不同类型的资源充足性的综合描述是由资源可用状况和资源需求状况描述的,如公式(3)所示:
σ(t)n=R(t)n-D(t)n (3)
1.2同时对系统进行任务紧迫性进行评估,紧迫性由系统中等待的最紧急任务定义,如公式(4)所示:
Figure BDA0003592938180000035
其中,M为检测任务类型总数。
进一步地,所述步骤2具体包括:
状态空间由不同类型的资源充足度σ(t)和任务紧迫性
Figure BDA0003592938180000034
组成,包含状态s1=(σ(t)1,σ(t)1,...,σ(t)N),是由系统资源充足度组成的N维向量,状态
Figure BDA0003592938180000036
为系统任务紧迫度;
强化学习用于进行重调度触发决策,调度系统每过1个单位时间进行一次系统状态感知,强化学习获得此时系统状态后,决策网络给出动作值,决定是否进行重调度;因此,时刻t执行的动作at定义为分段函数,at∈(-1,0)时系统不进行重调度,at∈(0,1)时系统进行重调度,如式(5)所示:
Figure BDA0003592938180000032
进一步地,所述步骤3具体包括:
所述步骤2中得到的重调度信号将决定系统是否执行重调度:若at∈(-1,0)时系统不进行重调度,并等待1个单位时间后再此进行一次系统状态感知;若at∈(0,1)时系统立即进行重调度;
调度目标为任务延迟时长和等待时长最小化;式(6)-式(7)分别表示检测任务延误总时长、检测任务延误率、任务总等待时长等调度目标的计算公式:
Figure BDA0003592938180000033
Figure BDA0003592938180000041
其中,pm为m类型的检测任务总数,T_startm,i为检测任务fm,i开始执行时间;T_endm,i为检测任务检测完成时间,T_endm,i=T_startm,i+T_executem,i。T_releasem,i为检测任务fm,i到达系统的时间。
使用加权相加的方式将多目标问题转化为单目标优化问题,如式(8)所示:
object=λ1tardiness+λ2latency (8)
其中,λ12是调度目标的权重,该权重可以反映出调度目标的重要程度,可以根据需求进行调整;约束条件为任何时刻占用的资源数不能超过该资源总数,如式(9)所示:
Figure BDA0003592938180000042
其中,
Figure BDA0003592938180000043
表示任务fm,i所需的各类资源的数量,tZm,i表示任务fm,i的状态,tZm,i=1表示任务fm,i正在执行中,tZm,i=0表示任务fm,i不在执行中;q1,q2,...,qN为N种类型的检测资源总数;
强化学习决策网络决定进行重调度后,元启发式算法根据以上调度目标以及约束条件进行重调度方案求解。
进一步地,所述步骤4具体包括:
4.1当系统处于st状态时,执行一个动作at后,系统将立即得到奖励rt;根据系统状态以及动作的不同,奖励函数分为如(10)所示,每个回合的总回报为所有重调度所得的即时奖励之和,即所有任务的延误时间与等待时间之和:
Figure BDA0003592938180000044
4.2若系统到达最大迭代次数,则进入步骤5;若未达到,则返回步骤2,进行下一轮迭代。
进一步地,所述步骤5具体包括:
强化学习决策网络训练达到最大阈值后,输出训练好的基于强化学习的系统自适应重调度触发决策网络参数,利用训练好的强化学习网络模型进行机群航空发动机检测任务调度。
本发明与现有技术相比的优点在于:
(1)本发明提出了一种系统状态评估方法,综合考虑任务紧迫性以及资源充足性,也可以应用于有相似需求的生产调度系统;
(2)本发明考虑了系统状态的感知,并在此基础上利用强化学习进行重调度触发自适应,利用元启发式算法进行调度方案的求解,结合了两种算法的优势,实现了考虑系统状态的自适应重调度触发决策,完成了包含延误总时长与等待总时长的调度目标的长效提升。
附图说明
图1是本发明的一种状态自适应的机群发动机检测任务动态调度方法流程图;
图2是本发明的详细流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明公开了一种状态自适应的机群发动机检测任务动态调度方法,该方法包括机群检测系统状态实时感知、构建/更新强化学习决策网络并输出重调信号值、维持原有调度时间表/使用智能算法求解重调度方案、根据调度方案表现获得奖励值并进行系统状态感知、输出训练完成的网络参数5个步骤。本发明能够面向不确定的航空发动机检测任务到达场景,实现考虑系统状态的自适应重调度触发决策,提高任务的准时完成率、系统面对不确定环境的自适应能力以及响应能力。
本发明的一种状态自适应的机群发动机检测任务动态调度方法,其流程图如图1所示,具体的详细流程图如图2所示,具体包括如下步骤:
步骤1:综合考虑系统资源充足性以及任务紧迫性,实时感知t时刻系统状态St;根据系统内资源的被占用状况,分别从立即可用资源、预期可用资源两个角度评价t时刻内资源可用状况;根据系统内已调度正在等待执行的任务,根据任务的执行时间紧迫性评价任务的资源需求状况;结合以上两方面综合评价资源充足度,并根据系统中正在等待的最紧迫任务的紧迫程度对系统进行任务紧迫性评估;
步骤2:初始化步骤时,初始化强化学习重调度触发决策网络参数,构建重调度决策网络;之后,根据上一步获取的系统状态,计算奖励值,更新基于强化学习的系统状态自适应重调度触发强化学习决策网络,强化学习决策网络输出重调度信号,指导智能优化算法进行重调度;
步骤3:根据上一步强化学习决策网络决定需要进行重调度,则智能优化算法进行调度问题求解,输出机群检测任务安排时间表;若强化学习决策网络决定不进行重调度,则系统维持原调度安排;经过1个单位时间后,感知(t+1)时刻系统状态St+1
步骤4:根据调度方案的效果表现,计算强化学习奖励值rt;如果达到迭代最大值,则进行步骤5,若未达到最大值,则返回步骤2;
步骤5:迭代训练完成,输出训练完成的强化学习决策网络参数。利用训练完成的强化学习决策模型进行机群发动机检测任务动态调度。
具体的,步骤1:参见图1中1,机群检测问题模型构建,具体实施方式如下:
1.1.根据调度系统状态进行重调度触发自决策,首先需要对系统状态进行评估。系统状态综合评价了资源充足性以及任务紧迫性,执行重调度时同时需要对系统状态进行评估,调度系统状态变化情况将影响后续检测任务的调度安排。t时刻的n类资源充足性可由资源可用状况以及资源需求状况的差值来综合反映。R(t)n表示t时刻n类资源的资源可用状况,式(1)表示t时刻n类型的资源可用状况的计算方法:
Figure BDA0003592938180000061
其中,n,m分别代表资源和任务的种类,tXn,j表示资源rn,j的状态,tXn,j=0表示资源正在被占用,tXn,j=1表示资源空闲。
Figure BDA0003592938180000062
表示资源与任务的对应关系,
Figure BDA0003592938180000063
表示资源rn,j正在服务任务fm,i,反之则两者没有对应关系。T_executem,i表示任务fm,i的执行时间,tT_leftm,i表示任务的剩余执行时间,tT_leftm,i=T_endm,i-t。qn为n类型的资源总数。式(1)评价了当前时刻资源可提供的服务能力,取值为[0,1],第一项表示t时刻空闲的检测资源,该资源可以立刻提供服务,其可提供的服务能力为1;第二项表示t时刻被占用资源的预计服务能力,用该任务已执行时间与总时间的比值来表示,取值范围为[0,1),如果该任务t时刻还未执行,则其占用的资源的预计服务能力为0。任务的剩余执行时间tT_leftm,i越少,则该任务占用资源的服务能力越大。
本发明定义的资源充足性需要对系统需求状况进行评估。D(t)n表示t时刻n类资源需求状况,如式(2)所示:
Figure BDA0003592938180000064
其中,Bm,i表示任务fm,i预计将延误,T_duem,i表示任务fm,i的截止时间。t为当前时刻。pm为m类型的任务总数。当前系统中所有等待(未开始执行)的任务对单个资源的需求度区间取为(0,1],第一项累计了当前系统中预计延误的任务总数(即当前时间开始执行仍会产生延误),该类任务需要尽快执行,其对资源的需求度为1,第二项表示预计不会产生延误的任务的资源需求度(即当前时间开始执行不会延误),由剩余执行时间与剩余截止时间的比值计算得到,其需求度在(0,1)之间。通过资源可用状态与资源需求状态来综合描述系统中不同种类资源充足性,如式(3)所示:
σ(t)n=R(t)n-D(t)n (3)
1.2.此外,根据任务的紧迫性,对系统进行任务紧迫性评估,系统任务紧迫性定义为系统中正在等待的最紧迫任务的紧迫程度,如式(4)所示:
Figure BDA0003592938180000071
其中,M表示任务的类型总数。σ(t)n
Figure BDA0003592938180000072
分别从资源充足性和任务紧迫性的角度综合评价了系统状态。
步骤2:参见图1中2,构建/更新强化学习决策网络,输出重调度信号动作值,具体包括如下步骤:
强化学习算法可以采用现有针对连续状态空间问题的深度强化学习算法,如SoftActor-Critic、Proximal Policy Optimization等算法。对系统状态条件的感知将指导更有效的重调度决策,所以状态空间由不同类型的资源充足度σ(t)n和任务紧迫性
Figure BDA0003592938180000073
组成,如下表所示:
Figure BDA0003592938180000074
强化学习用于进行重调度触发决策,调度系统每过Δt进行一次系统状态感知,强化学习获得此时系统状态后,决策网络给出动作值,决定是否进行重调度。因此,时刻t执行的动作at定义为分段函数,at∈(-1,0)时系统不进行重调度,at∈(0,1)时系统进行重调度,如(5)所示:
Figure BDA0003592938180000075
若系统处于初始化阶段,则这一步骤将初始化网络参数,并根据上一步骤得到的系统状态获得此时状态St,并输出重调度信号值at
若系统处于迭代训练阶段,强化学习将根据上一步骤得到的状态评估获得此时状态St,并输出重调度信号值at。若训练次数达到一定大小,将训练信息用于强化学习决策网络更新。
步骤3:参见图1中3,维持原调度方案/智能优化算法求解重调度方案,具体实施方式如下:
若强化学习决策网络决定要进行重调度,则选取合适的智能优化算法进行组合优化求解。本方法中针对机群航空发动机检测任务调度场景,设置了调度目标与约束条件。调度目标的设计主要用于单次重调度解的寻优。在调度目标的设计中,参考现有的主流生产任务调度目标,选取检测任务延误时长、任务等待时长作为调度目标。式(6)-式(7)分别表示检测任务延误总时长、任务总等待时长等调度目标的计算公式:
Figure BDA0003592938180000081
Figure BDA0003592938180000082
其中,pm为m类型的检测任务总数;T_startm,i为任务fm,i的开始执行的时间;T_endm,i为检测任务检测完成时间,T_endm,i=T_startm,i+T_executem,i。T_releasem,i为检测任务fm,i到达系统的时间。
使用加权相加的方式将多目标问题转化为单目标优化问题,如式(8)所示:
object=λ1tardiness+λ2latency (8)
其中,λ12是调度目标的权重,该权重可以反映出调度目标的重要程度,可以根据需求进行调整。本场景的约束条件为任何时刻占用的资源数不能超过该资源总数,如式(9)所示:
Figure BDA0003592938180000083
其中,
Figure BDA0003592938180000084
表示任务fm,i所需的各类资源的数量,tZm,i表示任务fm,i的状态,tZm,i=1表示任务fm,i正在执行中,tZm,i=0表示任务fm,i不在执行中。q1,q2,...,qN为N种类型的检测资源总数。
步骤4:参见图1中4,根据调度方案表现获得奖励值,并机群检测系统状态感知,具体实施方式如下:
当系统处于状态st时,系统在执行完一个动作at后会立即收到一个奖励rt。由于强化学习智能体的目标是使获得的总收入最大化,因此奖励设置为检测任务的总延迟时长和总等待时长之和的负值。奖励函数为如公式(10)所示。每个回合的总收益是每个重新安排步骤获得的即时奖励的总和,即所有任务的等待时长和延误时长的总和。
Figure BDA0003592938180000085
此外,由于奖励的稀缺性,为了加快代理的探索速度,提高探索效率,对延迟的任务进行惩罚,即当延迟与执行时间之比超过阈值时,奖励值被设置为较大的负值。
强化学习代理的目标是在折扣系数γ∈(0,1)的情况下使总的累积折扣奖励Rt最大化,如公式(11)所示。
Figure BDA0003592938180000091
此时参照步骤2的方式对那个状态进行感知,得到(t+1)时刻的状态St+1
步骤5:参见图1中5,输出训练完成的网络参数,具体实施方式如下:
达到训练迭代最大次数后,且奖励值收敛,训练停止,训练完成并输出基于强化学习的系统状态自适应的重调度触发决策网络参数。训练完成的强化学习决策网络可以用于机群航空发动机检测任务调度。
综上所述,本发明公开了一种状态自适应的机群发动机检测任务动态调度方法,该方法包括机群检测系统状态实时感知、构建/更新强化学习决策网络并输出重调信号值、维持原有调度时间表/使用智能算法求解重调度方案、根据调度方案表现获得奖励值并进行系统状态感知、输出训练完成的网络参数5个步骤。本发明应用于机群航空发动机检测任务调度场景,面向不确定任务到达频率情境下调度目标长效提升目标,能够有效提高调度算法的泛化能力以及调度效率。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种状态自适应的机群发动机检测任务动态调度方法,其特征在于,包括如下步骤:
步骤1:综合考虑系统资源充足性以及任务紧迫性,实时感知t时刻系统状态St;根据系统内资源的被占用状况,分别从立即可用资源、预期可用资源两个角度评价t时刻内资源可用状况;根据系统内已调度正在等待执行的任务,根据任务的执行时间紧迫性评价任务的资源需求状况;结合以上两方面综合评价资源充足度,并根据系统中正在等待的最紧迫任务的紧迫程度对系统进行任务紧迫性评估;
步骤2:初始化步骤时,初始化强化学习重调度决策网络参数,构建重调度决策网络;之后,根据上一步获取的系统状态,计算得到强化学习奖励值,更新基于强化学习的系统状态自适应重调度触发决策网络,决策网络输出重调度信号,指导智能优化算法进行重调度;
步骤3:根据上一步强化学习决策网络决定是否需要进行重调度,如果需要,则使用智能优化算法进行调度问题求解,输出机群检测任务执行时间表;若强化学习决策网络决定不进行重调度,则系统维持原调度安排;
步骤4:根据调度方案的效果表现,计算强化学习奖励值rt;感知t+1时刻系统状态St+1;如果达到迭代最大值,则进行步骤5,若未达到最大值,则返回步骤2;
步骤5:迭代训练完成,输出训练完成的强化学习决策网络参数,利用训练完成的强化学习决策网络,进行系统状态自适应的航空发动机检测任务动态调度。
2.根据权利要求1中所述的状态自适应的机群发动机检测任务动态调度方法,其特征在于:所述步骤1具体包括:
1.1R(t)n表示t时刻n类资源的资源可用状况,式(1)表示t时刻n类型的资源可用状况的计算方法:
Figure FDA0003957910760000011
其中,n,m分别代表资源和任务的种类,M为检测任务类型总数,tXn,j表示资源rn,j的状态,tXn,j=0表示资源正在被占用,tXn,j=1表示资源空闲;
Figure FDA0003957910760000012
表示资源与任务的对应关系,
Figure FDA0003957910760000013
表示资源rn,j正在服务任务fm,i,反之则两者没有对应关系;T_executem,i表示任务fm,i的执行时间,T_endm,i为检测任务检测完成时间,tT_leftm,i表示任务的剩余执行时间,tT_leftm,i=T_endm,i-t;qn为n类型的资源总数;公式前半部分计算了系统t时刻的立即可用资源,后半部分计算了t时刻的预期可用资源;
D(t)n表示t时刻n类资源需求状况,如式(2)所示:
Figure FDA0003957910760000021
其中,tBm,i表示将产生延误的任务,T_duem,i表示任务fm,i的截止时间;t为当前时刻;pm为m类型的任务总数;
不同类型的资源充足性σ(t)n是由资源可用状况R(t)n和资源需求状况D(t)n描述的,如公式(3)所示:
σ(t)n=R(t)n-D(t)n (3)
1.2对系统进行任务紧迫性进行评估,紧迫性由系统中等待的最紧急任务定义,如公式(4)所示:
Figure FDA0003957910760000022
其中,M为检测任务类型总数。
3.根据权利要求1中所述的状态自适应的机群发动机检测任务动态调度方法,其特征在于:所述步骤2具体包括:
状态空间由不同类型的资源充足度σ(t)和任务紧迫性
Figure FDA0003957910760000023
组成,包含状态s1=(σ(t)1,σ(t)1,...,σ(t)N),是由系统资源充足度组成的N维向量,状态
Figure FDA0003957910760000024
为系统任务紧迫度;
强化学习用于进行重调度触发决策,调度系统每过1个单位时间进行一次系统状态感知,强化学习获得此时系统状态后,强化学习决策网络给出动作值,决定是否进行重调度;因此,时刻t执行的动作at定义为分段函数,at∈(-1,0)时系统不进行重调度,at∈(0,1)时系统进行重调度,如式(5)所示:
Figure FDA0003957910760000025
4.根据权利要求1中所述的状态自适应的机群发动机检测任务动态调度方法,其特征在于:所述步骤3具体包括:
所述步骤2中得到的重调度信号将决定系统是否执行重调度:若at∈(-1,0)时系统不进行重调度,并等待1个单位时间后再此进行一次系统状态感知;若at∈(0,1)时系统立即进行重调度;
调度目标为任务延迟时长和等待时长最小化;式(6)-式(7)分别表示检测任务延误总时长、任务总等待时长的计算公式:
Figure FDA0003957910760000031
Figure FDA0003957910760000032
其中,pm为m类型的检测任务总数,T_ startm,i为检测任务fm,i开始执行时间,T_endm,i为检测任务检测完成时间,
Figure FDA0003957910760000033
T_releasem,i为检测任务fm,i到达系统的时间;T_duem,i表示任务fm,i的截止时间;
使用加权相加的方式将多目标问题转化为单目标优化问题,如式(8)所示:
object=λ1tardiness+λ2latency (8)
其中,λ12是调度目标的权重,该权重可以反映出调度目标的重要程度,可以根据需求进行调整;约束条件为任何时刻占用的资源数不能超过该资源总数,如式(9)所示:
Figure FDA0003957910760000034
其中,
Figure FDA0003957910760000035
表示任务fm,i所需的各类资源的数量,tZm,i表示任务fm,i的状态,tZm,i=1表示任务fm,i正在执行中,tZm,i=0表示任务fm,i不在执行中;q1,q2,...,qN为N种类型的检测资源总数;
强化学习决策网络决定进行重调度后,元启发式算法根据以上调度目标以及约束条件进行重调度方案求解。
5.根据权利要求4中所述的状态自适应的机群发动机检测任务动态调度方法,其特征在于:所述步骤4具体包括:
4.1当系统处于st状态时,执行一个动作at后,系统将立即得到奖励rt;根据系统状态以及动作的不同,奖励函数分为如(10)所示,每个回合的总回报为所有重调度所得的即时奖励之和,即所有任务的延误时间与等待时间之和:
Figure FDA0003957910760000036
4.2若系统到达最大迭代次数,则进入步骤5;若未达到,则返回步骤2,进行下一轮迭代。
6.根据权利要求1中所述的状态自适应的机群发动机检测任务动态调度方法,其特征在于:
所述步骤5具体包括:
强化学习决策网络训练达到最大阈值后,输出训练好的基于强化学习的系统自适应重调度触发决策网络参数,利用训练好的强化学习网络模型进行机群航空发动机检测任务调度。
CN202210380886.1A 2022-04-12 2022-04-12 一种状态自适应的机群发动机检测任务动态调度方法 Active CN114971162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210380886.1A CN114971162B (zh) 2022-04-12 2022-04-12 一种状态自适应的机群发动机检测任务动态调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210380886.1A CN114971162B (zh) 2022-04-12 2022-04-12 一种状态自适应的机群发动机检测任务动态调度方法

Publications (2)

Publication Number Publication Date
CN114971162A CN114971162A (zh) 2022-08-30
CN114971162B true CN114971162B (zh) 2023-01-17

Family

ID=82977336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210380886.1A Active CN114971162B (zh) 2022-04-12 2022-04-12 一种状态自适应的机群发动机检测任务动态调度方法

Country Status (1)

Country Link
CN (1) CN114971162B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694656A (zh) * 2020-04-22 2020-09-22 北京大学 基于多智能体深度强化学习的集群资源调度方法及系统
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113743728A (zh) * 2021-08-05 2021-12-03 北京航空航天大学 一种考虑状态迁移的机群检测均衡化调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089910A1 (en) * 2019-09-25 2021-03-25 Deepmind Technologies Limited Reinforcement learning using meta-learned intrinsic rewards

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694656A (zh) * 2020-04-22 2020-09-22 北京大学 基于多智能体深度强化学习的集群资源调度方法及系统
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113743728A (zh) * 2021-08-05 2021-12-03 北京航空航天大学 一种考虑状态迁移的机群检测均衡化调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Classified Situations Oriented Adaptive Scheduling Method of Robot-aided Aeroengine Faults Detection;Jiawei Ren 等;《2021 IEEE International Conference on Industrial Engineering and Engineering Management (IEEM)》;20220119;第1-5页 *

Also Published As

Publication number Publication date
CN114971162A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110737529B (zh) 一种面向短时多变大数据作业集群调度自适应性配置方法
CN101216710A (zh) 一种由计算机实现的自适应选择动态生产调度控制系统
CN106775932B (zh) 一种云计算系统中随机事件触发的实时工作流调度方法
CN113222403A (zh) 基于大数据的电力调节方法、装置、存储介质及电子设备
CN109710372A (zh) 一种基于猫头鹰搜索算法的计算密集型云工作流调度方法
Beynier et al. A polynomial algorithm for decentralized Markov decision processes with temporal constraints
CN115543626A (zh) 采用异构计算资源负载均衡调度的电力缺陷图像仿真方法
CN114971162B (zh) 一种状态自适应的机群发动机检测任务动态调度方法
Chen et al. A bi-criteria nonlinear fluctuation smoothing rule incorporating the SOM–FBPN remaining cycle time estimator for scheduling a wafer fab—a simulation study
Maciejewski Benchmarking minimum passenger waiting time in online taxi dispatching with exact offline optimization methods
US20050114849A1 (en) System and method for autonomic optimization by computer programs
CN112287591A (zh) 基于期望体系效能的舰艇编队等级修理计划编制方法
CN112000452A (zh) 一种基于排队论的自动驾驶系统实时性分析方法
CN113743728B (zh) 一种考虑状态迁移的机群检测均衡化调度方法
CN108270833A (zh) 渲染云资源的自动调度方法、装置及系统
CN108052378B (zh) 一种面向复杂仿真工作流应用的利润敏感的任务调度方法
CN116069473A (zh) 一种基于深度强化学习的Yarn集群工作流调度方法
CN113158549A (zh) 面向多样化任务的舰艇编队等级修理计划编制方法
CN115858048A (zh) 一种面向混合关键级任务动态到达边缘卸载方法
CN113240287B (zh) 一种基于供需关系的制造服务自适应调度方法
CN116932198A (zh) 资源调度方法、装置、电子设备及可读存储介质
CN113094155B (zh) Hadoop平台下的任务调度方法及装置
CN113946440A (zh) 一种绿色云环境下的资源调度方法
Gao et al. Deep Reinforcement Learning and Markov Decision Problem for Task Offloading in Mobile Edge Computing
CN113516370B (zh) 基于定期与视情相结合的舰艇编队等级修理计划编制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant