CN111160755B

CN111160755B - 一种基于dqn的飞机大修车间实时调度方法

Info

Publication number: CN111160755B
Application number: CN201911362387.4A
Authority: CN
Inventors: 贾晓亮; 符式峰; 刘括; 胡昊; 孙冰洋
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-08-18
Anticipated expiration: 2039-12-26
Also published as: CN111160755A

Abstract

本发明公开了一种基于DQN的飞机大修实时调度方法，属于机器学习与智能制造领域；通过物联网技术获取飞机大修车间实时信息，并以此为基础，建立关于飞机大修车间调度问题的马尔科夫决策模型。利用实时信息对DQN方法进行训练，使其具有自适应的飞机大修车间实时调度能力。同时使用两个具有相同结构的Q网络和经验回放策略来提高DQN方法的训练速度和训练效果。利用该方法进行飞机大修车间实时调度，能够有效缩短飞机大修完工时间。

Description

一种基于DQN的飞机大修车间实时调度方法

技术领域

本发明属于机器学习与智能制造领域，具体涉及一种基于DQN的飞机大修车间实时调度方法。

背景技术

为了提高市场竞争力，飞机大修企业必须制定合理的调度策略，传统的飞机大修车间调度方法主要集中在传统智能算法的应用方面。然而随着当今飞机大修过程变得越来越复杂，大修车间环境也变得难以预测，传统的调度方法已经无法满足大修过程的需求；传统的调度方法事先进行任务分配，不考虑车间的实时信息，导致计划与实际生产产生较大的偏差，如文献《庄新村，卢宇灏，李从心.基于遗传算法的车间调度问题[J].计算机工程，2006(01)：199-200+203.》。尤其是在复杂的飞机大修车间环境下，传统的调度方法会面临稳定性不高，自适应能力差的问题。因此，需要一种结合前沿技术并具有良好自适应能力的飞机大修车间实时调度方法。

发明内容

要解决的技术问题：

为了避免现有技术的不足之处，本发明提出一种基于DQN(Deep Q-Learing，深度Q网络)的飞机大修车间实时调度方法，包括DQN训练阶段和基于DQN的飞机大修实时调度阶段；基于从飞机大修车间获得的实时信息，DQN制定了相应的调度规则，输入是有关车间的实时信息，输出是调度规则。一旦空闲机器出现在车间，缓冲区中的任务就会根据DQN提供的调度规则进行分配。执行相应的调度规则后，系统进入下一个状态，并且此循环继续进行，直到处理完所有任务为止。

本发明的技术方案是：一种基于DQN的飞机大修车间实时调度方法，其特征在于具体步骤如下：

步骤一：利用物联网技术收集飞机大修车间中产生的实时信息，所述实时信息包括加工机器的完好率，任务缓冲区中的任务总数以及机器数量；

步骤二：通过步骤一获取飞机大修车间的实时信息后，将飞机大修实时调度模型构造为马尔科夫决策模型，将实时信息转化为实时状态；构筑所述马尔科夫决策模型包括状态空间设置、动作空间设置和奖励函数设置；

1)状态空间设置：通过3个特征变量μ_t、E_t、B_t来定义飞机大修车间的实时状态；其中，μ_t表示加工机器在时间步t的完好率，E_t表示在时间步t缓冲区中所有任务的预期平均EPT，B_t代表在时间步t处缓冲区的容量比；

2)动作空间设置：采用先进先出、最短处理时间、最长处理时间三种作业车间调度规则作为马尔科夫决策模型的动作；

3)奖励函数设置：奖励函数包括即时奖励和最终奖励，所述即时奖励r1由当前时刻车间所处的环境给定，公式如下：

其中，V是所有机器修理时间的方差，t_m是机器m截止到当前时刻的总的修理时间，是t₁到t_m的平均值，C₁是一个设定的常数；

所述最终奖励r₂是等到所有的任务处理完，根据完工时间计算而得，公式如下：

其中C₂和C₃是常数，T_MS是完工时间；

步骤三：通过步骤一和步骤二得出飞机大修车间实时状态，将所述实时状态信息存储在记忆库中，随机抽取部分状态信息、动作以及奖励进行DQN训练；

步骤四：经过步骤一至步骤三，DQN完成训练；在实际飞机大修车间调度中，将车间实时状态输入到训练完成的DQN中，然后输出调度规则，用于飞机大修车间的动作；以上为一个闭环过程，一直持续直至所有大修任务修理完成。

本发明的进一步技术方案是：所述DQN的训练过程包括Q网络和经验回放，所述Q网络包括主Q网络和目标Q网络。

有益效果

本发明的有益效果在于：本发明提出了一种基于DQN的飞机大修车间实时调度方法，首先，通过物联网技术获取飞机大修车间实时信息。基于这些信息，将飞机大修车间实时调度问题转化为一个马尔科夫决策问题。马尔科夫决策问题的模型定义包括动作空间设置、状态空间设置、奖励函数设置。使用该DQN方法来求解马尔科夫决策问题的最优解。在该方法的训练过程中，利用配置记忆库来降低训练信息之间的关联度，提高方法的训练速度。经过多次训练，得到训练好的DQN方法。和传统的调度方法不同，DQN方式是根据大修车间的实时信息而做出决策的，这使得该方法能够很好的应对飞机大修环境的动态变化，具有较高的稳定性和自适应性。验证还表明，该方法能够有效的缩短飞机大修完工时间。

附图说明

图1为本发明一种基于DQN的飞机大修实时调度方法流程图。

具体实施方式

下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本实施是一种基于DQN的飞机大修实时调度方法。

随着物联网技术在飞机大修工作车间中的快速发展，可以获得大量的实时数据，从而促进了高效的实时调度。但是，车间中的许多不确定性，例如机器故障，不确定的任务处理时间等，都给实时调度带来了严峻的挑战。为了解决这些挑战，针对采用物联网的灵活工作车间，提出了一种使用DQN的高效实时调度方法，以最大程度地缩短完工时间。实时调度问题被表述为马尔可夫决策过程。然后，提出了一种新颖的基于DQN的实时调度方法来确定该问题的最佳策略，通过该方法可以获取合适的规则来执行针对各种车间状态的调度。

参阅图1，本实施基于DQN的飞机大修实时调度方法。主要分为两个方面，分别是马尔科夫决策模型的建立以及DQN的训练过程。包括以下步骤：

第一步，利用物联网技术从飞机大修车间中收集实时信息，所述实时信息包括加工机器的完好率，任务缓冲区中的任务总数以及机器数量；这些信息的收集对于后面的DQN的训练至关重要。

第二步，马尔科夫决策问题模型的建立。

马尔科夫决策问题模型可以很好地描述随机动力学系统。在本文中，我们应用具有离散时间步长的有限马尔科夫决策问题模型来描述实时飞机大修调度。具体而言，任何两台机器空闲的时间间隔是两个相邻时间步t之间的时间间隔。在时间步骤t，我们观察到系统状态s_t，该状态包括有关车间信息，分别是加工机器的完好率，任务缓冲区中的任务总数以及机器数量。有了这些信息，我们将选择适当的操作。执行此操作后，我们可以观察新系统状态s_t+1的状态，并在时间步t+1处选择操作。马尔科夫决策问题模型提供了一种数学体系结构，用于在结果部分随机且部分受决策者控制的情况下对决策过程进行建模。马尔科夫决策问题模型是一个四元组<S，A，T，R>，其中S是包含所有状态的有限集，A是包含所有动作的有限集，T是定义为T：S×A×S→[0，1]的状态转移概率S→[0，1]，R是定义为的奖励方程。考虑到任务的随机到达，EPT不确定性，随机机器故障等，我们定义的飞机大修实时调度的马尔科夫决策问题模型的详细定义如下。

1.状态空间定义

在时间步t，系统状态定义为向量s_t＝(μ_tE_t，B_t)，其中包含三种类型的状态指示符。

1)μ_t表示加工机器在时间步t的完好率，即

其中，m′代表在时间步t的非故障机器的数量。它用于描述时间步t时整个系统的处理能力。m代表车间中所有机器的数量。

2)E_t表示在时间步t缓冲区中所有任务的预期平均EPT(Estimated processingtime，估计处理时间)，即

其中T_i代表任务第i个任务的的预期EPT。它用于描述时间步t的任务总数。N表示任务缓冲区中的任务总数。任务缓冲区用于存储所有要处理的任务。

3)B_t代表在时间步t处缓冲区的容量比，即

其中B代表任务缓冲区的容量。

状态的定义可以充分涉及车间的所有可能条件。因此，可以很好地反映车间的不确定性。

2.动作空间设置：

对于状态s_t，使用作业车间调度规则定义操作。它们是先进先出，最短处理时间，最短处理时间。以下是这些规则的详细说明：

1)先进先出：任务越早到达，优先级越高。

2)最短处理时间：处理时间越短，优先级越高。

3)最短处理时间：处理时间越长，优先级越高。

3.奖励函数设置：

奖励功能是马尔科夫决策过程最重要的部分。这是因为奖励函数隐式定义了学习目标。奖励功能用于控制系统的优化方向。为了获得最小完工时间，我们定义了奖励函数，其中包含当前奖励和最终奖励，如下所示。

1)即时奖励

其中，V是所有机器修理时间的方差，t_m是机器m截止到当前时刻的总的修理时间，

是t₁到t_m的平均值，C₁是一个合适的常数。

2)最终奖励

其中C₂和C₃是常数，T_MS是完工时间。

第三步，经过第二步的状态空间的计算，车间实时信息被转化成实时状态。将转换好的实时状态存储在记忆库中，作为DQN训练的输入。

第四步，DQN的训练。我们使用车间的实时状态作为Q网络的输入。输出训练好的Q网络的参数，并根据贪婪策略选择最合适的动作。执行此操作后，系统进入下一个状态s_t+1。DQN的训练过程主要包括两个部分：Q网络(主Q网络和目标Q网络)和经验回放。

1.Q网络

在以往DQN的训练中，目标Q值的计算使用当前要训练的Q网络参数来计算Q(s_t+1，a；θ)，然后使用同一网络。这在迭代中导致两者之间的过度相关，这不利于算法的收敛。为了使算法的性能更加稳定，我们建立了两个结构相同但参数不同的神经网络：主Q网络和目标Q网络。

在初始时刻，将主Q网络的参数分配给目标Q网络，然后主Q网络继续更新神经网络参数，而目标Q网络的参数是固定的。稍后，将主Q网络的参数分配给目标Q网络。来回循环直到训练完成。这会使目标Q值在一段时间内保持恒定，从而使算法更新更加稳定。

主Q网络和目标Q网络是结构相同的两个Q网络。具体而言，Q(s，a；θ)表示主Q网络的输出，并用于评估与当前状态和操作相对应的值函数。Q(s_t+1，a；θ^-)表示目标Q网络的输出。Q网络由三层网络组成。输入层完全连接到具有v个节点的隐藏层。每个隐藏层的值是

v_t＝g(W₁×x_t+b₁) (6)

其中x_t表示输入向量，g是整流后的激活函数，W₁是权重矩阵，b₁是偏差向量。然后，隐藏层完全连接到输出层。Q网络的输出是系统状态下所有可行调度规则的作用值，即

Q(s_t，a)＝g(W₂×v_t+b₂) (7)

其中W₂是权重矩阵，b₂是阈值矩阵。输出是具有最大操作值的调度规则。

2.经验回放

在飞机大修车间系统中，相邻状态之间的相关性特别高。因此，如果将这些数据用于顺序训练，则神经网络的稳定性不够高。鉴于此，我们使用经验重播的方法来训练Q网络，这可能会破坏数据之间的关联。具体方法是在学习过程中建立“经验回放”。将所有s_t，a_t，s_t+1和r_t存储在内存中一段时间。训练神经网络时，会从内存中随机选择一些数据进行训练，这会破坏原始数据的顺序并削弱数据的相关性。

第五步，飞机大修实时调度

经过第四步的DQN训练后，用于飞机大修车间实时调度的Q网络参数被固定。当输入飞机大修车间实时状态时，DQN输出合适的调度规则，用于当前时刻的飞机大修车间实时调度。在完成本次调度后，飞机大修车间进入下一个状态，直至飞机大修任务全部修理完成。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于DQN的飞机大修车间实时调度方法，其特征在于具体步骤如下：

1)状态空间设置：通过3个特征变量μ_t、E_t、B_t来定义飞机大修车间的实时状态；其中，μ_t表示加工机器在时间步t的完好率，E_t表示在时间步t缓冲区中所有任务的预期平均EPT，B_t代表在时间步t处缓冲区的容量比，N表示任务缓冲区中的任务总数，B代表任务缓冲区的容量；

3)奖励函数设置：奖励函数包括即时奖励和最终奖励，所述即时奖励r₁由当前时刻车间所处的环境给定，公式如下：

其中，V是所有机器修理时间的方差，t_m是机器m截止到当前时刻的总的修理时间，是t₁到t_m的平均值，C₁是一个设定的常数，m代表车间中所有机器的数量；

其中C₂和C₃是常数，T_MS是完工时间；

2.根据权利要求1所述基于DQN的飞机大修车间实时调度方法，其特征在于：所述DQN的训练过程包括Q网络和经验回放，所述Q网络包括主Q网络和目标Q网络。