CN115061436A

CN115061436A - 动态调度方法、系统、电子设备及计算机存储介质

Info

Publication number: CN115061436A
Application number: CN202210653870.3A
Authority: CN
Inventors: 吕雅琼; 张嘉桐; 白玥
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-16

Abstract

本发明涉及一种动态调度方法、系统、电子设备及计算机存储介质，其方法包括：获取智能车间的当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值；将所述当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，输出调度规则；执行所述调度规则，并更新执行所述调度规则之后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值；将更新后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值重新输入至所述预先建立的调度模型中，迭代输出并执行新的调度规则，直至所述待处理工件处理完成。本发明提高了调度效率。

Description

动态调度方法、系统、电子设备及计算机存储介质

技术领域

本发明涉及调度管理技术领域，尤其涉及一种AGV调度系统及方法。

背景技术

随着科学技术的发展，人工智能逐渐应用到各行各业。许多制造业企业的生产车间也开始引进自动化的设备，进行智能化的生产。其中AGV(Automated Guided Vehicle，自动导引运输车)作为工业机器人的一种，它具有可编程、自动导航、网络交互等功能，能够自动进行各种物料的搬运和路径导航，可以说只要有搬运需要的场所，就有应用AGV的需求。

在智能车间中的柔性生产线需要AGV进行原料输送和成品的搬运，所以需要对AGV进行调度，而如何对AGV小车进行动态调度是亟待解决的问题。

发明内容

有鉴于此，有必要提供一种动态调度方法、系统、电子设备及计算机存储介质，用以提高AGV小车的动态调度的效率，增加订单的准点完工率，减少订单的延迟时间。

为了实现上述目的，第一方面，本发明提供了一种动态调度方法，包括：

获取智能车间的当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值；

将所述当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，输出调度规则，其中，所述调度规则包括待处理工件在机器的处理顺序及运输所述待处理工件的AGV的调度顺序；

执行所述调度规则，并更新执行所述调度规则之后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值；

将更新后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值重新输入至所述预先建立的调度模型中，迭代输出并执行新的调度规则，直至所述待处理工件处理完成。

可选的，调度析取图包括机器及工件的状态信息；

所述预设状态特征包括机器平均利用率、机器利用率的标准差、调度动作的平均完成率、工件平均完成率、工件完成率的标准差、估计迟到率和实际迟到率。

可选的，所述预先建立的调度模型是基于改进型DQN网络进行建立的，其中，所述改进型DQN网络的结构包括图神经网络、在线网络、目标网络、经验回放池和损失函数。

可选的，所述预先建立的调度模型的训练过程，包括：

获取历史调度析取图、AGV历史位置信息及预设状态特征的历史状态特征值，并将所述历史调度析取图输入到图神经网络中得到机器与工件的历史状态信息；

将所述历史状态信息、AGV历史位置信息及预设状态特征的历史状态特征值作为历史状态输入到在线网络中进行迭代训练得到历史经验数据，并将所述历史经验数据存储到经验回放池，其中，所述历史经验数据包括历史状态、历史调度动作及下一步历史状态；

选取所述历史经验数据中的历史状态输入到在线网络中，输出历史估计Q值；

选取所述历史经验数据中的下一步历史状态输入到目标网络中，输出历史目标Q值；

利用BP算法计算所述历史估计Q值与所述历史目标Q值的损失函数，并更新所述在线网络的参数；

重复上述步骤，并根据所述在线网络的参数调整所述目标网络的参数，直至损失函数的损失结果在预设范围内。

可选的，所述将所述当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，输出调度规则，包括：

将所述当前调度析取图输入到图神经网络中得到机器与工件的当前状态信息，并将当前状态信息、AGV当前位置信息及预设状态特征的当前状态特征值作为当前状态输入到在线网络中进行计算，输出当前状态下每一候选调度规则的估计Q值；

根据所述每一候选调度规则的估计Q值确定所述调度规则。

可选的，所述将所述当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，还包括：

确定在当前状态执行所述调度规则后进入的下一步状态，其中，所述下一步状态包括机器与工件的下一步状态信息、AGV下一步位置信息及预设状态特征的下一步状态特征值，并将当前状态、所述调度规则与下一步状态输入经验回放池；

将下一步状态输入到目标网络中，输出每一候选调度规则的目标Q值；

计算所述估计Q值与所述目标Q值在所述损失函数中的损失结果；

基于所述损失结果更新所述在线网络的参数，并间隔预设循环步数更新目标网络的参数。

可选的，所述执行所述调度规则，包括：

确定所述调度规则中包括的调度目标，并基于所述调度目标按照待处理工件在机器的处理顺序及运输所述待处理工件的AGV的调度顺序执行相应的调度动作；

所述更新执行所述调度规则之后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值，包括：

确定执行所述调度规则后的AGV下一步位置信息，根据所述AGV下一步位置信息计算工件送达机器的第一时间和机器完成加工的第二时间，基于所述第一时间和所述第二时间更新下一步调度析取图及预设状态特征下一步状态特征值。

第二方面，本发明还提供一种动态调度系统，包括：

获取模块，用于获取智能车间的当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值；

输出模块，用于将所述当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，输出调度规则，其中，所述调度规则包括待处理工件在机器的处理顺序及运输所述待处理工件的AGV的调度顺序；

执行模块，用于执行所述调度规则，并更新执行所述调度规则之后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值；

迭代模块，用于将更新后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值重新输入至所述预先建立的调度模型中，迭代输出并执行新的调度规则，直至所述待处理工件处理完成。

第三方面，本发明还提供一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述动态调度方法中的步骤。

第四方面，本发明还提供一种计算机存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上述动态调度方法中的步骤。

采用上述实施例的有益效果是：本发明通过利用智能车间的当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值，详细反映了生产车间当前的生产环境，并且根据预先建立的调度模型，输出调度规则，由于调度模型和调度规则中涵盖了工件的工序约束和机器约束，使得将调度问题转换成顺序决策问题，提高了调度效率，增加了订单的准点完工率，减少了订单的延迟时间，节省了调度资源。

附图说明

图1为本发明提供的动态调度方法的一实施例的流程示意图；

图2为本发明一实施例提供的预先建立的调度模型训练过程的流程示意图；

图3为本发明一实施例提供的调度模型的具体应用方法的流程示意图；

图4为本发明提供的动态调度系统的一实施例的结构示意图；

图5为本发明提供的一种电子设备的结构框图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本发明一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明提供了一种动态调度方法、系统、电子设备及计算机存储介质，以下分别进行说明。

请参阅图1，图1为本发明提供的动态调度方法的一实施例的流程示意图，本发明的一个具体实施例，公开了一种动态调度方法，包括：

步骤S101：获取智能车间的当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值；

步骤S102：将当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，输出调度规则，其中，调度规则包括待处理工件在机器的处理顺序及运输待处理工件的AGV的调度顺序；

步骤S103：执行调度规则，并更新执行调度规则之后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值；

步骤S104：将更新后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值重新输入至预先建立的调度模型中，迭代输出并执行新的调度规则，直至待处理工件处理完成。

在步骤S101中，智能车间的调度析取图包括了车间内机器及工件的状态信息，智能车间的当前调度析取图包括了车间内机器及工件的当前状态信息即包括了工件的处理工序与机器的处理工件类型信息，举例而言，具体包括了工件当前的处理工序信息、工件当前工序在哪一台机器上被处理；AGV当前位置信息为未进行调度之前各AGV的位置信息；预设状态特征具体包括机器平均利用率、机器利用率的标准差、调度动作的平均完成率、工件平均完成率、工件完成率的标准差、估计迟到率和实际迟到率，预设状态特征的状态特征值具体可以根据公式进行计算。在步骤S102中，可以将当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值作为当前状态输入到预先建立的调度模型中，输出调度规则，其中，预先建立的调度模型是基于改进型DQN网络进行建立的，其中，改进型DQN网络的结构包括图神经网络、在线网络、目标网络、经验回放池和损失函数。

可以理解的是，DQN网络结构中一般不包括图神经网络，本发明中的改进型DQN网络创新地将析取图作为模型的输入用于以识别调度析取图。通过深度强化学习算法来提高AGV的利用率、机器的利用率，有助于提高车间的调度效率，减少人员、资源的消耗。

其中，调度规则包括以哪种方式进行调度，具体的，本发明中的调度规则采用特定的六种复合调度规则，即不仅要选择下一步的可行操作，还得分配适当的加工机器和进行运输的AGV，即调度规则包括待处理工件在机器的处理顺序及运输待处理工件的AGV的调度顺序。

在本发明的一个实施例中，请参阅图2，图2为本发明一实施例提供的预先建立的调度模型训练过程的流程示意图，本发明的一个具体实施例中，预先建立的调度模型的训练过程，包括：

步骤S201：获取历史调度析取图、AGV历史位置信息及预设状态特征的历史状态特征值，并将历史调度析取图输入到图神经网络中得到机器与工件的历史状态信息；

步骤S202：将历史状态信息、AGV历史位置信息及预设状态特征的历史状态特征值作为历史状态输入到在线网络中进行迭代训练得到历史经验数据，并将历史经验数据存储到经验回放池，其中，历史经验数据包括历史状态、历史调度动作及下一步历史状态；

步骤S203：选取历史经验数据中的历史状态输入到在线网络中，输出历史估计Q值；

步骤S204：选取历史经验数据中的下一步历史状态输入到目标网络中，输出历史目标Q值；

步骤S205：利用BP算法计算历史估计Q值与历史目标Q值的损失函数，并更新在线网络的参数；

步骤S206：重复上述步骤，并根据在线网络的参数调整目标网络的参数，直至损失函数的损失结果在预设范围内。

首先需要说明的是，在进行训练之前，首先需要定义调度环境，即根据工序约束和机器约束建立AGV小车调度的马尔可夫决策模型。根据AGV小车的送料过程，结合调度析取图建模来表示。

可以理解的是，因为调度析取图模型的原理不是模拟时钟超前，而是从操作分配的角度来划分离散时间步长，因此可以很方便地添加各种交互约束，从而使得调度过程更加接近实际的生产环境。

其中，马尔可夫决策模型包括状态、动作、奖励及下一步状态。状态可理解为利用调度析取图表示的一个解决方案当前的状态；动作可理解为调度规则中执行的操作，即将工件分配到适当的机器上并调度AGV小车运输；下一步状态可理解为选择好下一步调度的操作及对应的机器，更新调度析取图中对应析取弧的方向，生成新的状态；奖励可理解为两种状态部分解之间的质量差，奖励由生产环境产生，本发明中具体为根据车间内机器与工件的状态产生，当处于最终状态时，获取整个过程的最大完工时间，但处于最初状态时，可获得第一道操作的完成时间。

在进行训练的过程中，首先将历史调度析取图输入到图神经网络，输出机器与工件的历史状态信息，然后将机器与工件的历史状态信息、AGV历史位置信息及预设状态特征的历史状态特征值作为历史状态

输入到在线网络中输出为每一历史调度动作的估计Q值，其中，Q值为状态-动作价值，即候选调度规则的估计Q值，然后选择最大的估计Q值对应的调度动作，或者随机生成一个探索调度动作，执行该历史调度动作，得到下一步历史状态，并且由历史生产环境产生历史奖励。存储历史状态、历史调度动作、历史奖励及下一步历史状态这4个历史经验数据至经验回放池，然后再将下一步状态输入到在线网络，循环迭代训练，直到存储了一定量的历史经验数据，在这个过程中在线网络的参数没有更新。

然后从存储的历史经验数据中抽样出一部分样本，将样本中的多个历史状态批次输入到在线网络，得到每一批次调度动作的第一Q值，然后根据采样出来的调度动作，确定历史估计Q值。

再后从存储的历史经验数据中抽样出一部分样本，将样本中的多个下一步历史状态批次输入到目标网络，在线网络与目标网络有相同的网络结构，得到每一批次调度动作的第二Q值，然后将第二Q值的最大值乘以一个gamma系数，再加上采样出来的奖励，得到历史目标Q值。

最后利用BP算法，即误差反向传播算法，计算历史估计Q值与历史目标Q值的损失函数，即计算在历史估计Q值与历史目标Q值的均方误差，然后更新在线网络的参数。

重复上述步骤，并每过一定的步数后将在线网络的参数更新到目标网络上，直至历史估计Q值与历史目标Q值损失函数的损失结果在预设范围内，完成训练。

相应的，在完成对调度模型的训练后，可以利用该调度模型进行具体的应用。

在本发明的一个实施例中，请参阅图3，图3为本发明一实施例提供的调度模型的具体应用方法的流程示意图，本发明的一个具体实施例，将当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，输出调度规则，包括：

步骤S301：将当前调度析取图输入到图神经网络中得到机器与工件的当前状态信息，并将当前状态信息、AGV当前位置信息及预设状态特征的当前状态特征值作为当前状态输入到在线网络中进行计算，输出当前状态下每一候选调度规则的估计Q值；

步骤S302：根据每一候选调度规则的估计Q值确定调度规则。

可以理解的是，上述调度模型的具体应用方法与上述训练过程相似，本发明不在赘述。

在本发明的一个实施例中，将当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，还包括：

确定在当前状态执行调度规则后进入的下一步状态，其中，下一步状态包括机器与工件的下一步状态信息、AGV下一步位置信息及预设状态特征的下一步状态特征值，并将当前状态、调度规则与下一步状态输入经验回放池；

计算估计Q值与目标Q值在损失函数中的损失结果；

基于损失结果更新在线网络的参数，并间隔预设循环步数更新目标网络的参数。

可以理解的是，调度模型可以经过不断地学习，以适应更复杂的生产环境，具体的，可以在应用过程中通过深度强化学习算法对复合调度策略的不断调整，能够使其针对具体的调度任务进行适当的调整，不断优化生产车间的生产效率。

本发明中的动态调度方法与现有的调度方法相比，首先根据工件的的生产数据和生产约束条件，即包括工序约束和机器约束，建立AGV小车调度模型，有效地对生产线的生产过程进行描述；然后利用调度析取图建模，在得到一个能描述可行解的有向无环图后，通过拓扑排序将有向无环图中的所有顶点排列成一个线性序列，从而将调度问题转换成顺序决策问题，提高了调度效率，增加工件的准点完工率，减少延迟时间，节省了调度资源。

在步骤S103中，在获取调度规则之后，可以基于AGV小车的调度顺序执行该调度规则，在本发明的一个实施例中，执行调度规则，包括：

确定调度规则中包括的调度目标，并基于调度目标按照待处理工件在机器的处理顺序及运输待处理工件的AGV的调度顺序执行相应的调度动作。

其中，调度规则包括调度的操作和对应加工机器，并匹配AGV进行运输；调度目标包括以最小化最大工件完工时间，在特定优先级的前提下，对停放在不同位置的AGV小车进行调度，调度析取图按照调度规则完成生产后会进入新的状态。

具体的，更新执行调度规则之后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值，包括：

确定执行调度规则后的AGV下一步位置信息，根据AGV下一步位置信息计算工件送达机器的第一时间和机器完成加工的第二时间，基于第一时间和第二时间更新下一步调度析取图及预设状态特征下一步状态特征值。

在步骤S104中，可以理解的是，在执行每一步调度规则之后，可以根据操作序列、机器分配和AGV调度顺序得到新的调度析取图，然后更新AGV位置信息，并重新计算七个状态特征，然后重复上述步骤，直到待处理工件全部完成，最后计算工件完工时间。

本发明通过利用智能车间的当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值，详细反映了生产车间的生产环境，并且根据预先建立的调度模型，输出调度规则，由于调度模型和调度规则中涵盖了工件的工序约束和机器约束，使得将调度问题转换成顺序决策问题，提高了调度效率，增加了订单的准点完工率，减少了订单的延迟时间，节省了调度资源。

为了更好实施本发明实施例中的动态调度方法，在动态调度方法基础之上，对应的，请参阅图4，图4为本发明提供的动态调度系统的一实施例的结构示意图，本发明实施例提供了一种动态调度系统400，包括：

获取模块401，用于获取智能车间的当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值；

输出模块402，用于将当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，输出调度规则，其中，调度规则包括待处理工件在机器的处理顺序及运输待处理工件的AGV的调度顺序；

执行模块403，用于执行调度规则，并更新执行调度规则之后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值；

迭代模块404，用于将更新后的下一步调度析取图、AGV下一步位置信息及预设状态特征下一步状态特征值重新输入至预先建立的调度模型中，迭代输出并执行新的调度规则，直至待处理工件处理完成。

这里需要说明的是：上述实施例提供的系统400可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述方法实施例中的相应内容，此处不再赘述。

基于上述动态调度方法，本发明实施例还相应的提供一种电子设备，包括：处理器和存储器以及存储在存储器中并可在处理器上执行的计算机程序；处理器执行计算机程序时实现如上述各实施例的动态调度方法中的步骤。

图5中示出了适于用来实现本发明实施例的电子设备500的结构示意图。本发明实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备包括：存储器以及处理器，其中，这里的处理器可以称为下文的处理装置501，存储器可以包括下文中的只读存储器(ROM)502、随机访问存储器(RAM)503以及存储装置508中的至少一项，具体如下所示：

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM502被安装。在该计算机程序被处理装置501执行时，执行本发明实施例的方法中限定的上述功能。

基于上述动态调度方法，本发明实施例还相应的提供一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如上述各实施例的动态调度方法中的步骤。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种动态调度方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，调度析取图包括机器及工件的状态信息；

3.根据权利要求2所述的方法，其特征在于，所述预先建立的调度模型是基于改进型DQN网络进行建立的，其中，所述改进型DQN网络的结构包括图神经网络、在线网络、目标网络、经验回放池和损失函数。

4.根据权利要求3所述的方法，其特征在于，所述预先建立的调度模型的训练过程，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，输出调度规则，包括：

根据所述每一候选调度规则的估计Q值确定所述调度规则。

6.根据权利要求5所述的方法，其特征在于，所述将所述当前调度析取图、AGV当前位置信息及预设状态特征的当前状态特征值输入到预先建立的调度模型中，还包括：

7.根据权利要求5所述的方法，其特征在于，所述执行所述调度规则，包括：

8.一种动态调度系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，其中，所述存储器，用于存储程序；所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以实现上述权利要求1至7中任一项所述动态调度方法中的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机可读取的程序或指令，所述程序或指令被处理器执行时，能够实现上述权利要求1至7中任一项所述动态调度方法中的步骤。