CN114971162B

CN114971162B - 一种状态自适应的机群发动机检测任务动态调度方法

Info

Publication number: CN114971162B
Application number: CN202210380886.1A
Authority: CN
Inventors: 程颖; 宋心怡; 陶飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2023-01-17
Anticipated expiration: 2042-04-12
Also published as: CN114971162A

Abstract

本发明涉及一种状态自适应的机群发动机检测任务动态调度方法，包括以下步骤：步骤1.结合资源充足度与任务紧迫度进行检测系统状态实时感知；步骤2.构建/更新基于强化学习的系统状态自适应重调度决策网络，并根据系统状态输出重调度信号；步骤3.根据重调度信号决定维持原调度方案或使用智能优化算法进行重调度问题求解；步骤4.根据上一步方案效果计算奖励值，并感知此时的系统状态；步骤5.迭代多次后输出训练完成的强化学习决策网络参数值，利用训练完成的强化学习决策网络进行机群航空发动机检测任务动态调度。本发明使用强化学习算法进行了系统状态自适应重调度，克服了启发式算法的短视性，实现了调度效率的长效提升。

Description

一种状态自适应的机群发动机检测任务动态调度方法

技术领域

本发明属于面向航空发动机机群故障检测任务智能调度技术领域，具体涉及一种状态自适应的机群发动机检测任务动态调度方法。

背景技术

航空发动机的原位无损检测是指机件、设备和系统不经拆卸，在原来安装位置上进行检查，能快速、方便、有效地检测在役结构及易损零部件的损伤，飞机航前进行发动机原位检测是预防事故发生和保证设备运行安全的有效手段。航空发动机作为推进系统关键，当前，使用航空发动机故障检测设备资源以组合协作方式进入航空发动机内部进行自动化航前安全检测，取代低效的人工检测使得航空发动机智能自主维护成为可能。

飞机到达的不确定性以及不可预测性使得飞机的航前检测时间浮动变化大，目前的研究还缺乏针对不确定、不可预测的航空发动机检测任务到达情境下的检测机器人重调度方法。近年来，元启发式算法在求解调度问题时展现出良好的效果，但是其学习能力不足，不能够根据系统状态自适应决策。随着强化学习的发展以及在对调度领域的应用，由于强化学习具有自学习能力，更擅于处理不可预测的突发事件。然而，由于状态空间构造的复杂性，强化学习在求解大规模问题时泛化性不足。针对如何结合元启发式算法与强化学习算法解决上述问题，当前研究还不能给出有效结论。

发明内容

为解决上述技术问题，本发明提供一种状态自适应的机群发动机检测任务动态调度方法，系统状态自适应的机群检测任务动态调度方法是基于对系统状态的实时评估，训练强化学习网络进行系统状态自适应的重调度触发决策，并利用元启发式算法进行调度方案求解，以达到调度目标的长效提升，提高系统面对不确定性环境的适应能力。该方法包括机群检测系统状态实时感知、构建/更新强化学习决策网络并输出重调信号值、维持原有调度时间表/使用智能算法求解重调度方案、根据调度方案表现获得奖励值并进行系统状态感知、输出训练完成的网络参数5个步骤。本发明能够面向不确定的航空发动机检测任务到达场景，实现考虑系统状态的自适应重调度触发决策，提高任务的准时完成率、系统面对不确定环境的自适应能力以及响应能力。

本发明解决其技术问题是采取以下技术方案实现的：

一种状态自适应的机群发动机检测任务动态调度方法，包括如下步骤：

步骤1：综合考虑系统资源充足性以及任务紧迫性，实时感知t时刻系统状态S_t；根据系统内资源的被占用状况，分别从立即可用资源、预期可用资源两个角度评价t时刻内资源可用状况；根据系统内已调度正在等待执行的任务，根据任务的执行时间紧迫性评价任务的资源需求状况；结合以上两方面综合评价资源充足度，并根据系统中正在等待的最紧迫任务的紧迫程度对系统进行任务紧迫性评估；

步骤2：初始化步骤时，初始化强化学习重调度决策网络参数，构建重调度决策网络；之后，根据上一步获取的系统状态，计算得到强化学习奖励值，更新基于强化学习的系统状态自适应重调度触发决策网络，决策网络输出重调度信号，指导智能优化算法进行重调度；

步骤3：根据上一步强化学习决策网络决定是否需要进行重调度，如果需要，则智能优化算法进行调度问题求解，输出机群检测任务执行时间表；若强化学习决策网络决定不进行重调度，则系统维持原调度安排；

步骤4：根据调度方案的效果表现，计算强化学习奖励值r_t；感知(t+1)时刻系统状态S_t+1；如果达到迭代最大值，则进行步骤5，若未达到最大值，则返回步骤2；

步骤5：迭代训练完成，输出训练完成的强化学习决策网络参数，利用训练完成的强化学习决策网络，进行系统状态自适应的航空发动机检测任务动态调度。

进一步地，所述步骤1具体包括：

1.1t时刻的n类资源状态用资源可用状况以及资源需求状况的比值来综合反映；R(t)_n表示t时刻n类资源的资源可用状况，式(1)表示t时刻n类型的资源可用状况的计算方法：

其中，^tX_n,j表示资源r_n,j的状态，^tX_n,j＝0表示资源正在被占用，^tX_n,j＝1表示资源空闲；

表示资源与任务的对应关系，

表示资源r_n,j正在服务任务f_m,i，反之则两者没有对应关系；T_execute_m,i表示任务f_m,i的执行时间，^tT_left_m,i表示任务的剩余执行时间，^tT_left_m,i＝T_end_m,i-t；n,m分别代表资源和任务的种类，q_n为n类型的资源总数；公式前半部分计算了系统t时刻的立即可用资源，后半部分计算了t时刻的预期可用资源；

D(t)_n表示t时刻n类资源需求状况，如式(2)所示：

其中，B_m,i表示将产生延误的任务，T_due_m,i表示任务f_m,i的截止时间；t为当前时刻；p_m为m类型的任务总数；

对不同类型的资源充足性的综合描述是由资源可用状况和资源需求状况描述的，如公式(3)所示：

σ(t)_n＝R(t)_n-D(t)_n (3)

1.2同时对系统进行任务紧迫性进行评估，紧迫性由系统中等待的最紧急任务定义，如公式(4)所示：

其中，M为检测任务类型总数。

进一步地，所述步骤2具体包括：

状态空间由不同类型的资源充足度σ(t)和任务紧迫性

组成，包含状态s₁＝(σ(t)₁,σ(t)₁,...,σ(t)_N)，是由系统资源充足度组成的N维向量，状态

为系统任务紧迫度；

强化学习用于进行重调度触发决策，调度系统每过1个单位时间进行一次系统状态感知，强化学习获得此时系统状态后，决策网络给出动作值，决定是否进行重调度；因此，时刻t执行的动作a_t定义为分段函数，a_t∈(-1,0)时系统不进行重调度，a_t∈(0,1)时系统进行重调度，如式(5)所示：

进一步地，所述步骤3具体包括：

所述步骤2中得到的重调度信号将决定系统是否执行重调度：若a_t∈(-1,0)时系统不进行重调度，并等待1个单位时间后再此进行一次系统状态感知；若a_t∈(0,1)时系统立即进行重调度；

调度目标为任务延迟时长和等待时长最小化；式(6)-式(7)分别表示检测任务延误总时长、检测任务延误率、任务总等待时长等调度目标的计算公式：

其中，p_m为m类型的检测任务总数，T_start_m,i为检测任务f_m,i开始执行时间；T_end_m,i为检测任务检测完成时间，T_end_m,i＝T_start_m,i+T_execute_m,i。T_release_m,i为检测任务f_m,i到达系统的时间。

使用加权相加的方式将多目标问题转化为单目标优化问题，如式(8)所示：

object＝λ₁tardiness+λ₂latency (8)

其中，λ₁,λ₂是调度目标的权重，该权重可以反映出调度目标的重要程度，可以根据需求进行调整；约束条件为任何时刻占用的资源数不能超过该资源总数，如式(9)所示：

其中，

表示任务f_m,i所需的各类资源的数量，^tZ_m,i表示任务f_m,i的状态，^tZ_m,i＝1表示任务f_m,i正在执行中，^tZ_m,i＝0表示任务f_m,i不在执行中；q₁,q₂,...,q_N为N种类型的检测资源总数；

强化学习决策网络决定进行重调度后，元启发式算法根据以上调度目标以及约束条件进行重调度方案求解。

进一步地，所述步骤4具体包括：

4.1当系统处于s_t状态时，执行一个动作a_t后，系统将立即得到奖励r_t；根据系统状态以及动作的不同，奖励函数分为如(10)所示，每个回合的总回报为所有重调度所得的即时奖励之和，即所有任务的延误时间与等待时间之和：

4.2若系统到达最大迭代次数，则进入步骤5；若未达到，则返回步骤2，进行下一轮迭代。

进一步地，所述步骤5具体包括：

强化学习决策网络训练达到最大阈值后，输出训练好的基于强化学习的系统自适应重调度触发决策网络参数，利用训练好的强化学习网络模型进行机群航空发动机检测任务调度。

本发明与现有技术相比的优点在于：

(1)本发明提出了一种系统状态评估方法，综合考虑任务紧迫性以及资源充足性，也可以应用于有相似需求的生产调度系统；

(2)本发明考虑了系统状态的感知，并在此基础上利用强化学习进行重调度触发自适应，利用元启发式算法进行调度方案的求解，结合了两种算法的优势，实现了考虑系统状态的自适应重调度触发决策，完成了包含延误总时长与等待总时长的调度目标的长效提升。

附图说明

图1是本发明的一种状态自适应的机群发动机检测任务动态调度方法流程图；

图2是本发明的详细流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明公开了一种状态自适应的机群发动机检测任务动态调度方法，该方法包括机群检测系统状态实时感知、构建/更新强化学习决策网络并输出重调信号值、维持原有调度时间表/使用智能算法求解重调度方案、根据调度方案表现获得奖励值并进行系统状态感知、输出训练完成的网络参数5个步骤。本发明能够面向不确定的航空发动机检测任务到达场景，实现考虑系统状态的自适应重调度触发决策，提高任务的准时完成率、系统面对不确定环境的自适应能力以及响应能力。

本发明的一种状态自适应的机群发动机检测任务动态调度方法，其流程图如图1所示，具体的详细流程图如图2所示，具体包括如下步骤：

步骤2：初始化步骤时，初始化强化学习重调度触发决策网络参数，构建重调度决策网络；之后，根据上一步获取的系统状态，计算奖励值，更新基于强化学习的系统状态自适应重调度触发强化学习决策网络，强化学习决策网络输出重调度信号，指导智能优化算法进行重调度；

步骤3：根据上一步强化学习决策网络决定需要进行重调度，则智能优化算法进行调度问题求解，输出机群检测任务安排时间表；若强化学习决策网络决定不进行重调度，则系统维持原调度安排；经过1个单位时间后，感知(t+1)时刻系统状态S_t+1；

步骤4：根据调度方案的效果表现，计算强化学习奖励值r_t；如果达到迭代最大值，则进行步骤5，若未达到最大值，则返回步骤2；

步骤5：迭代训练完成，输出训练完成的强化学习决策网络参数。利用训练完成的强化学习决策模型进行机群发动机检测任务动态调度。

具体的，步骤1：参见图1中1，机群检测问题模型构建，具体实施方式如下：

1.1.根据调度系统状态进行重调度触发自决策，首先需要对系统状态进行评估。系统状态综合评价了资源充足性以及任务紧迫性，执行重调度时同时需要对系统状态进行评估，调度系统状态变化情况将影响后续检测任务的调度安排。t时刻的n类资源充足性可由资源可用状况以及资源需求状况的差值来综合反映。R(t)_n表示t时刻n类资源的资源可用状况，式(1)表示t时刻n类型的资源可用状况的计算方法：

其中，n，m分别代表资源和任务的种类，^tX_n,j表示资源r_n,j的状态，^tX_n,j＝0表示资源正在被占用，^tX_n,j＝1表示资源空闲。

表示资源与任务的对应关系，

表示资源r_n,j正在服务任务f_m,i，反之则两者没有对应关系。T_execute_m,i表示任务f_m,i的执行时间，^tT_left_m,i表示任务的剩余执行时间，^tT_left_m,i＝T_end_m,i-t。q_n为n类型的资源总数。式(1)评价了当前时刻资源可提供的服务能力，取值为[0,1]，第一项表示t时刻空闲的检测资源，该资源可以立刻提供服务，其可提供的服务能力为1；第二项表示t时刻被占用资源的预计服务能力，用该任务已执行时间与总时间的比值来表示，取值范围为[0,1)，如果该任务t时刻还未执行，则其占用的资源的预计服务能力为0。任务的剩余执行时间^tT_left_m,i越少，则该任务占用资源的服务能力越大。

本发明定义的资源充足性需要对系统需求状况进行评估。D(t)_n表示t时刻n类资源需求状况，如式(2)所示：

其中，B_m,i表示任务f_m,i预计将延误，T_due_m,i表示任务f_m,i的截止时间。t为当前时刻。p_m为m类型的任务总数。当前系统中所有等待(未开始执行)的任务对单个资源的需求度区间取为(0,1]，第一项累计了当前系统中预计延误的任务总数(即当前时间开始执行仍会产生延误)，该类任务需要尽快执行，其对资源的需求度为1，第二项表示预计不会产生延误的任务的资源需求度(即当前时间开始执行不会延误)，由剩余执行时间与剩余截止时间的比值计算得到，其需求度在(0,1)之间。通过资源可用状态与资源需求状态来综合描述系统中不同种类资源充足性，如式(3)所示：

σ(t)_n＝R(t)_n-D(t)_n (3)

1.2.此外，根据任务的紧迫性，对系统进行任务紧迫性评估，系统任务紧迫性定义为系统中正在等待的最紧迫任务的紧迫程度，如式(4)所示：

其中，M表示任务的类型总数。σ(t)_n，

分别从资源充足性和任务紧迫性的角度综合评价了系统状态。

步骤2：参见图1中2，构建/更新强化学习决策网络，输出重调度信号动作值，具体包括如下步骤：

强化学习算法可以采用现有针对连续状态空间问题的深度强化学习算法，如SoftActor-Critic、Proximal Policy Optimization等算法。对系统状态条件的感知将指导更有效的重调度决策，所以状态空间由不同类型的资源充足度σ(t)_n和任务紧迫性

组成，如下表所示：

强化学习用于进行重调度触发决策，调度系统每过Δt进行一次系统状态感知，强化学习获得此时系统状态后，决策网络给出动作值，决定是否进行重调度。因此，时刻t执行的动作a_t定义为分段函数，a_t∈(-1,0)时系统不进行重调度，a_t∈(0,1)时系统进行重调度，如(5)所示：

若系统处于初始化阶段，则这一步骤将初始化网络参数，并根据上一步骤得到的系统状态获得此时状态S_t，并输出重调度信号值a_t。

若系统处于迭代训练阶段，强化学习将根据上一步骤得到的状态评估获得此时状态S_t，并输出重调度信号值a_t。若训练次数达到一定大小，将训练信息用于强化学习决策网络更新。

步骤3：参见图1中3，维持原调度方案/智能优化算法求解重调度方案，具体实施方式如下：

若强化学习决策网络决定要进行重调度，则选取合适的智能优化算法进行组合优化求解。本方法中针对机群航空发动机检测任务调度场景，设置了调度目标与约束条件。调度目标的设计主要用于单次重调度解的寻优。在调度目标的设计中，参考现有的主流生产任务调度目标，选取检测任务延误时长、任务等待时长作为调度目标。式(6)-式(7)分别表示检测任务延误总时长、任务总等待时长等调度目标的计算公式：

其中，p_m为m类型的检测任务总数；T_start_m,i为任务f_m,i的开始执行的时间；T_end_m,i为检测任务检测完成时间，T_end_m,i＝T_start_m,i+T_execute_m,i。T_release_m,i为检测任务f_m,i到达系统的时间。

object＝λ₁tardiness+λ₂latency (8)

其中，λ₁,λ₂是调度目标的权重，该权重可以反映出调度目标的重要程度，可以根据需求进行调整。本场景的约束条件为任何时刻占用的资源数不能超过该资源总数，如式(9)所示：

其中，

表示任务f_m,i所需的各类资源的数量，^tZ_m,i表示任务f_m,i的状态，^tZ_m,i＝1表示任务f_m,i正在执行中，^tZ_m,i＝0表示任务f_m,i不在执行中。q₁,q₂,...,q_N为N种类型的检测资源总数。

步骤4：参见图1中4，根据调度方案表现获得奖励值，并机群检测系统状态感知，具体实施方式如下：

当系统处于状态s_t时，系统在执行完一个动作a_t后会立即收到一个奖励r_t。由于强化学习智能体的目标是使获得的总收入最大化，因此奖励设置为检测任务的总延迟时长和总等待时长之和的负值。奖励函数为如公式(10)所示。每个回合的总收益是每个重新安排步骤获得的即时奖励的总和，即所有任务的等待时长和延误时长的总和。

此外，由于奖励的稀缺性，为了加快代理的探索速度，提高探索效率，对延迟的任务进行惩罚，即当延迟与执行时间之比超过阈值时，奖励值被设置为较大的负值。

强化学习代理的目标是在折扣系数γ∈(0,1)的情况下使总的累积折扣奖励R_t最大化，如公式(11)所示。

此时参照步骤2的方式对那个状态进行感知，得到(t+1)时刻的状态S_t+1。

步骤5：参见图1中5，输出训练完成的网络参数，具体实施方式如下：

达到训练迭代最大次数后，且奖励值收敛，训练停止，训练完成并输出基于强化学习的系统状态自适应的重调度触发决策网络参数。训练完成的强化学习决策网络可以用于机群航空发动机检测任务调度。

综上所述，本发明公开了一种状态自适应的机群发动机检测任务动态调度方法，该方法包括机群检测系统状态实时感知、构建/更新强化学习决策网络并输出重调信号值、维持原有调度时间表/使用智能算法求解重调度方案、根据调度方案表现获得奖励值并进行系统状态感知、输出训练完成的网络参数5个步骤。本发明应用于机群航空发动机检测任务调度场景，面向不确定任务到达频率情境下调度目标长效提升目标，能够有效提高调度算法的泛化能力以及调度效率。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种状态自适应的机群发动机检测任务动态调度方法，其特征在于，包括如下步骤：

步骤1：综合考虑系统资源充足性以及任务紧迫性，实时感知t时刻系统状态St；根据系统内资源的被占用状况，分别从立即可用资源、预期可用资源两个角度评价t时刻内资源可用状况；根据系统内已调度正在等待执行的任务，根据任务的执行时间紧迫性评价任务的资源需求状况；结合以上两方面综合评价资源充足度，并根据系统中正在等待的最紧迫任务的紧迫程度对系统进行任务紧迫性评估；

步骤3：根据上一步强化学习决策网络决定是否需要进行重调度，如果需要，则使用智能优化算法进行调度问题求解，输出机群检测任务执行时间表；若强化学习决策网络决定不进行重调度，则系统维持原调度安排；

步骤4：根据调度方案的效果表现，计算强化学习奖励值r_t；感知t+1时刻系统状态S_t+1；如果达到迭代最大值，则进行步骤5，若未达到最大值，则返回步骤2；

2.根据权利要求1中所述的状态自适应的机群发动机检测任务动态调度方法，其特征在于：所述步骤1具体包括：

1.1R(t)_n表示t时刻n类资源的资源可用状况，式(1)表示t时刻n类型的资源可用状况的计算方法：

其中，n,m分别代表资源和任务的种类，M为检测任务类型总数,^tX_n,j表示资源r_n,j的状态，^tX_n,j＝0表示资源正在被占用，^tX_n,j＝1表示资源空闲；

表示资源与任务的对应关系，

表示资源r_n,j正在服务任务f_m,i，反之则两者没有对应关系；T_execute_m,i表示任务f_m,i的执行时间，T_end_m,i为检测任务检测完成时间，^tT_left_m,i表示任务的剩余执行时间，^tT_left_m,i＝T_end_m,i-t；q_n为n类型的资源总数；公式前半部分计算了系统t时刻的立即可用资源，后半部分计算了t时刻的预期可用资源；

D(t)_n表示t时刻n类资源需求状况，如式(2)所示：