CN117682429A

CN117682429A - 一种物料控制系统的天车搬运指令调度方法及装置

Info

Publication number: CN117682429A
Application number: CN202410143680.6A
Authority: CN
Inventors: 王瑞骥; 余君山
Original assignee: Huaxin Jiaxing Intelligent Equipment Co ltd
Current assignee: Huaxin Jiaxing Intelligent Equipment Co ltd
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-03-12
Anticipated expiration: 2044-02-01
Also published as: CN117682429B

Abstract

本发明提供一种物料控制系统的天车搬运指令调度方法及装置，通过确定当前系统状态，其中当前系统状态包括当前每个未调度的天车搬运指令的指令信息、当前可用天车数量以及表示了当前各个轨道的繁忙程度的当前轨道热图，然后将当前系统状态输入至指令调度模型，使得指令调度模型综合考虑上述指令状态、天车状态以及轨道状态，并输出当前每个未调度的天车搬运指令的调用分数，并据此确定当前被调用指令，利用指令调度模型在训练阶段基于特殊设计的奖励值学习到的调度策略，结合当前系统的各种状态进行指令调度，即使AMHS系统随着天车搬运指令的执行出现各种复杂情形，也能实现针对当前系统状态的准确的指令调度，实现搬运系统整体性能的最优。

Description

一种物料控制系统的天车搬运指令调度方法及装置

技术领域

本发明涉及调度技术领域，尤其涉及一种物料控制系统的天车搬运指令调度方法及装置。

背景技术

AMHS（Automated Material Handling System，自动物料搬送系统）系统中的物料控制系统（Material Control System，MCS）是该系统中的一个关键组成部分，用于对物料进行控制和管理。其中，物料控制系统的一个重要功能在于接收客户端下发的批量搬运指令并将该批量搬运指令合理的下发给天车控制系统，以控制相应天车执行当前调度的搬运指令。物料控制系统的智能调度算法需要调度整个半导体车间的所有指令，实现每小时20000个指令的需求。如何设计调度算法，使得在客户端下发批量指令且批量指令的数量显著高于可调度天车数量的情况下，调度得到最优解，以实现最终全局的平均搬送时间小于150秒，是提升天车系统运行效率以满足客户需求的重要一环。

目前的调度算法多考虑基于指令创建时间确定指令优先级，通过对各个搬运指令进行优先级排序的方式确定每个时间步调度的搬运指令。然而，随着系统运行，天车系统的情况会变得复杂，例如未调度指令的状态、轨道的状态均会随着时间变化，目前基于指令优先级进行排序的调度方式显然难以适应该复杂环境，导致调度结果难以满足半导体车间的搬运需求，因此需要一个能够实时适应复杂情况变化的调度算法。

发明内容

本发明提供一种物料控制系统的天车搬运指令调度方法及装置，用以解决现有技术中基于指令优先级进行排序的调度方式显然难以适应复杂环境的缺陷。

本发明提供一种物料控制系统的天车搬运指令调度方法，包括：

状态更新步骤：确定当前系统状态；所述当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及当前轨道热图；所述当前轨道热图表示了当前各个轨道的繁忙程度；

指令调度步骤：将所述当前系统状态输入至指令调度模型，得到所述指令调度模型输出的所述当前每个未调度的天车搬运指令的调用分数，并基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，将所述当前被调用指令下发至天车控制系统；

迭代步骤：重复执行所述状态更新步骤以及所述指令调度步骤，直至达到预设调度截止条件。

根据本发明提供的一种物料控制系统的天车搬运指令调度方法，所述指令调度模型是基于如下方式训练的：

样本状态更新步骤：确定当前样本系统状态；所述当前样本系统状态包括当前每个未调度的样本天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前样本可用天车数量以及当前样本轨道热图；

指令模拟调度步骤：将所述当前样本系统状态输入至初始调度模型，得到所述初始调度模型输出的所述当前每个未调度的样本天车搬运指令的调用分数，基于所述当前每个未调度的样本天车搬运指令的调用分数以及所述当前样本可用天车数量确定当前模拟被调用指令，并模拟执行所述当前模拟被调用指令；

模型更新步骤：基于所述当前模拟被调用指令的模拟执行结果计算当轮奖励值，基于所述当轮奖励值更新所述初始调度模型的参数；

迭代训练步骤：重复执行所述样本状态更新步骤、所述指令模拟调度步骤以及所述模型更新步骤，直至达到预设训练截止条件；其中，训练完毕后的所述初始调度模型为所述指令调度模型。

根据本发明提供的一种物料控制系统的天车搬运指令调度方法，所述基于所述当前模拟被调用指令的模拟执行结果计算当轮奖励值，具体包括：

基于所述当前模拟被调用指令的模拟执行结果中包含的指令执行时间，确定各个当前模拟被调用指令的执行时间奖励，并基于所述各个当前模拟被调用指令的执行时间奖励以及所述各个当前模拟被调用指令的平均指令执行时间，确定时间奖励总值；任一当前模拟被调用指令的指令执行时间越长，所述任一当前模拟被调用指令的执行时间奖励越小；

基于所述当前模拟被调用指令的指令等待时间，确定各个当前模拟被调用指令的等待时间奖励，并基于所述各个当前模拟被调用指令的等待时间奖励确定等待奖励总值；任一当前模拟被调用指令的指令等待时间越长，所述任一当前模拟被调用指令的等待时间奖励越小；

基于各个当前模拟被调用指令的指令起始地和指令目的地以及所述当前样本轨道热图，确定系统负载平衡奖励；所述各个当前模拟被调用指令的路径间重叠程度越大，或者所述各个当前模拟被调用指令的路径与繁忙路段的繁忙路段重叠程度越大，所述系统负载平衡奖励越小；

基于所述时间奖励总值、所述等待奖励总值以及所述系统负载平衡奖励，确定所述当轮奖励值。

根据本发明提供的一种物料控制系统的天车搬运指令调度方法，所述基于各个当前模拟被调用指令的指令起始地和指令目的地以及所述当前样本轨道热图，确定系统负载平衡奖励，具体包括：

基于各个当前模拟被调用指令的指令起始地和指令目的地，分别确定各个当前模拟被调用指令的最短可选路径；

基于各个当前模拟被调用指令的最短可选路径，确定各个当前模拟被调用指令的路径间重叠程度；

基于各个当前模拟被调用指令的最短可选路径和所述当前样本轨道热图，分别确定各个当前模拟被调用指令的最短可选路径与繁忙路段的繁忙路段重叠程度；

基于各个当前模拟被调用指令的路径间重叠程度以及各个当前模拟被调用指令的最短可选路径与繁忙路段的繁忙路段重叠程度，确定系统负载平衡奖励。

根据本发明提供的一种物料控制系统的天车搬运指令调度方法，若任一当前模拟被调用指令的指令执行时间大于所述任一当前模拟被调用指令的指令要求执行时间，则所述任一当前模拟被调用指令的执行时间奖励为0。

根据本发明提供的一种物料控制系统的天车搬运指令调度方法，所述基于所述时间奖励总值、所述等待奖励总值以及所述系统负载平衡奖励，确定所述当轮奖励值，具体包括：

基于所述时间奖励总值及其权重、所述等待奖励总值及其权重，和所述系统负载平衡奖励及其权重，确定所述当轮奖励值；

其中，若当前模拟被调用指令的等待时间奖励为0，则减小所述时间奖励总值的权重；若模拟执行当前模拟被调用指令的天车的平均等待时间大于预设等待阈值，则减小所述系统负载平衡奖励的权重。

根据本发明提供的一种物料控制系统的天车搬运指令调度方法，所述基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，具体包括：

获取一个大于0且小于1的随机值；

若所述随机值小于预设选择阈值，则基于所述当前可用天车数量，从所述当前每个未调度的天车搬运指令中随机选择所述当前被调用指令；

若所述随机值大于预设选择阈值，则基于所述当前可用天车数量以及所述当前每个未调度的天车搬运指令的调用分数，确定当前被调用指令。

本发明还提供一种物料控制系统的天车搬运指令调度装置，包括：

状态更新单元，用于执行状态更新步骤：确定当前系统状态；所述当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及当前轨道热图；所述当前轨道热图表示了当前各个轨道的繁忙程度；

指令调度单元，用于执行指令调度步骤：将所述当前系统状态输入至指令调度模型，得到所述指令调度模型输出的所述当前每个未调度的天车搬运指令的调用分数，并基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，将所述当前被调用指令下发至天车控制系统；

迭代控制单元，用于执行迭代步骤：重复执行所述状态更新步骤以及所述指令调度步骤，直至达到预设调度截止条件。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述物料控制系统的天车搬运指令调度方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述物料控制系统的天车搬运指令调度方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述物料控制系统的天车搬运指令调度方法。

本发明提供的一种物料控制系统的天车搬运指令调度方法及装置，通过确定当前系统状态，其中当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及表示了当前各个轨道的繁忙程度的当前轨道热图，然后将当前系统状态输入至指令调度模型，使得指令调度模型综合考虑上述指令状态、天车状态以及轨道状态，并输出当前每个未调度的天车搬运指令的调用分数，从而基于当前每个未调度的天车搬运指令的调用分数以及当前可用天车数量确定当前被调用指令，将当前被调用指令下发至天车控制系统，利用指令调度模型在训练阶段基于特殊设计的奖励值学习到的调度策略，结合当前系统的各种状态进行指令调度，即使AMHS系统中随着天车搬运指令的执行出现各种复杂情形，也能实现针对当前系统状态的准确的指令调度，实现搬运系统整体性能的最优。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种物料控制系统的天车搬运指令调度方法的流程示意图；

图2是本发明提供的当轮奖励值计算方法的流程示意图；

图3是本发明提供的一种物料控制系统的天车搬运指令调度装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的一种物料控制系统的天车搬运指令调度方法的流程示意图，如图1所示，该方法包括：

状态更新步骤110：确定当前系统状态；所述当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及当前轨道热图；所述当前轨道热图表示了当前各个轨道的繁忙程度；

指令调度步骤120：将所述当前系统状态输入至指令调度模型，得到所述指令调度模型输出的所述当前每个未调度的天车搬运指令的调用分数，并基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，将所述当前被调用指令下发至天车控制系统；

迭代步骤130：重复执行所述状态更新步骤以及所述指令调度步骤，直至达到预设调度截止条件。

具体地，物料控制系统会接收来自客户端的批量天车搬运指令，其中每个指令携带各自的指令信息，包括指令等待时间、指令起始地、指令目的地和指令要求执行时间（Q-time）。物料控制系统的调度算法会负责持续调度这些天车搬运指令并下发至天车控制系统以执行相应指令。

在一轮调度过程中，考虑到上一轮调度的指令的执行会改变整个系统的状态（包括空的天车数量、轨道的占用情况等），并且随时可能接收到新的天车搬运指令，因此会首先确定当前系统状态。其中，当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及当前轨道热图。此处，当前可用天车数量即未执行任何指令的天车，当前轨道热图则表示了当前各个轨道的繁忙程度（例如会经过相应轨道的天车数量）。在一种实施例中，当前轨道热图可以利用向量的方式表示，其中每个向量值代表一条轨道的繁忙程度。随后，可以将当前系统状态输入至指令调度模型，得到指令调度模型输出的当前每个未调度的天车搬运指令的调用分数。其中，任一天车搬运指令的调用分数越大，表明该指令越有可能在此轮被调度。通过将包含指令状态、天车状态以及轨道状态的当前系统状态传递至指令调度模型，可以使得指令调度模型综合考虑上述指令状态、天车状态以及轨道状态，从而调度合适的指令实现搬运系统整体性能的最优。

此处，指令调度模型可以基于深度Q网络(Deep Q-network, DQN)构建得到，且指令调度模型的输入层节点数量可以基于预设的最大批处理指令数量确定，而指令调度模型的输出层节点会输出各个指令的调度分数。在将当前系统状态输入至指令调度模型时，各个未调度的天车搬运指令的指令信息（即指令等待时间、指令起始地、指令目的地和指令要求执行时间）、当前可用天车数量以及当前轨道热图分别对应指令调度模型输出层的一个节点。其中，若当前未调度的天车搬运指令数量小于上述最大批处理指令数量时，可以基于当前未调度的天车搬运指令数量与上述最大批处理指令数量之间的差异（假设为N）进行填充，即填充N个随机指令信息（随机指令信息中的指令等待时间、指令起始地、指令目的地和指令要求执行时间均可以设置为0）至相应的输入层节点。经过训练的指令调度模型可以基于已学习的调度策略根据当前系统状态计算各个未调度天车搬运指令的Q值作为调度分数。可见，指令调度模型在训练过程中通过强化学习方式学习到的调度策略是物料控制系统在各种复杂情形下准确调度天车搬运指令的关键所在。

在一些实施例中，指令调度模型是基于如下方式训练的：

模型更新步骤：基于所述当前模拟被调用指令的模拟执行结果计算当轮奖励值，基于所述当轮奖励值更新所述初始调度模型的参数，

具体而言，指令调度模型在训练阶段和实际应用阶段的运行机制是类似的，而区别在于训练阶段会计算奖励值并根据奖励值对模型参数进行调整，而奖励值的设定直接关系到模型的学习效果，即关系到模型是否能学习到最优的调度策略。在训练阶段，每一轮训练过程中，会获取当前样本系统状态，当前样本系统状态包括当前每个未调度的样本天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前样本可用天车数量以及当前样本轨道热图。其中，当前样本可用天车数量以及当前样本轨道热图与上文提及的当前可用天车数量和当前轨道热图的含义是一致的。随后将当前样本系统状态输入至初始调度模型（即DQN模型），得到初始调度模型输出的当前每个未调度的样本天车搬运指令的调用分数。根据当前每个未调度的样本天车搬运指令的调用分数以及当前样本可用天车数量确定当前模拟被调用指令，其中当前模拟被调用指令的数量与当前样本可用天车数量相同，然后在模拟环境中模拟执行各个当前模拟被调用指令。基于当前模拟被调用指令的模拟执行结果可以计算当轮奖励值，并基于当轮奖励值更新初始调度模型的参数。其中，可以确定下一样本系统状态并输入至初始调度模型，使用初始调度模型预测每个未调度样本天车搬运指令的Q值，选择其中最大的Q值与当轮奖励值相加，作为目标Q值，并使用该目标Q值与当前样本系统状态下输出的最大Q值之间的差异作为损失进行反向传播，调整模型参数。

在一些实施例中，如图2所示，可以采用如下方式计算当轮奖励值：

步骤210，基于所述当前模拟被调用指令的模拟执行结果中包含的指令执行时间，确定各个当前模拟被调用指令的执行时间奖励，并基于所述各个当前模拟被调用指令的执行时间奖励以及所述各个当前模拟被调用指令的平均指令执行时间，确定时间奖励总值；任一当前模拟被调用指令的指令执行时间越长，所述任一当前模拟被调用指令的执行时间奖励越小；

步骤220，基于所述当前模拟被调用指令的指令等待时间，确定各个当前模拟被调用指令的等待时间奖励，并基于所述各个当前模拟被调用指令的等待时间奖励确定等待奖励总值；任一当前模拟被调用指令的指令等待时间越长，所述任一当前模拟被调用指令的等待时间奖励越小；

步骤230，基于各个当前模拟被调用指令的指令起始地和指令目的地以及所述当前样本轨道热图，确定系统负载平衡奖励；所述各个当前模拟被调用指令的路径间重叠程度越大，或者所述各个当前模拟被调用指令的路径与繁忙路段的繁忙路段重叠程度越大，所述系统负载平衡奖励越小；

步骤240，基于所述时间奖励总值、所述等待奖励总值以及所述系统负载平衡奖励，确定所述当轮奖励值。

此处，当前模拟被调用指令的模拟执行结果中包含有相应指令的指令执行时间以及模拟相应指令的天车的运行信息，例如该天车的等待时间（即等待其他天车优先通过的时间）。基于各个当前模拟被调用指令的模拟执行结果中包含的指令执行时间，可以分别确定各个当前模拟被调用指令的执行时间奖励。其中，任一当前模拟被调用指令的指令执行时间越长，该当前模拟被调用指令的执行时间奖励越小。在一些实施例中，可以将任一当前模拟被调用指令的指令执行时间的倒数作为该当前模拟被调用指令的执行时间。在另一些实施例中，若任一当前模拟被调用指令的指令执行时间大于该当前模拟被调用指令的指令要求执行时间，则该当前模拟被调用指令的执行时间奖励为0。根据各个当前模拟被调用指令的执行时间奖励以及各个当前模拟被调用指令的平均指令执行时间，确定时间奖励总值。其中，各个当前模拟被调用指令的平均指令执行时间为各个当前模拟被调用指令的指令执行时间的平均值。将各个当前模拟被调用指令的执行时间奖励与各个当前模拟被调用指令的平均指令执行时间的倒数相加，可以得到时间奖励总值。可见，时间奖励总值反映了当前模拟被调用指令在指令执行时间这一维度的优劣。

基于各个当前模拟被调用指令的指令等待时间，可以分别确定各个当前模拟被调用指令的等待时间奖励，并基于各个当前模拟被调用指令的等待时间奖励确定等待奖励总值。其中，任一当前模拟被调用指令的指令等待时间越长，该当前模拟被调用指令的等待时间奖励越小。在一些实施例中，可以将任一当前模拟被调用指令的指令等待时间的倒数作为该当前模拟被调用指令的等待时间奖励。将各个当前模拟被调用指令的等待时间奖励相加，可以得到等待奖励总值。可见，时间奖励总值反映了当前模拟被调用指令在指令等待时间这一维度的优劣。

基于各个当前模拟被调用指令的指令起始地和指令目的地以及当前样本轨道热图，可以确定系统负载平衡奖励。其中，各个当前模拟被调用指令的路径间重叠程度越大，或者各个当前模拟被调用指令的路径与繁忙路段的繁忙路段重叠程度越大，系统负载平衡奖励越小。可见，系统负载平衡奖励反映了当前模拟被调用指令在天车搬运路径这一维度的优劣，系统负载平衡奖励越小表明执行当前模拟被调用指令会导致天车阻塞的情况越严重、整个搬运系统的负载越大。

在一些实施例中，在基于各个当前模拟被调用指令的指令起始地和指令目的地以及当前样本轨道热图，确定系统负载平衡奖励时，可以基于各个当前模拟被调用指令的指令起始地和指令目的地，分别确定各个当前模拟被调用指令的最短可选路径。一方面，可以基于各个当前模拟被调用指令的最短可选路径，确定各个当前模拟被调用指令的路径间重叠程度。其中，可以在整个轨道地图基础上，基于各个当前模拟被调用指令的最短可选路径中包含的轨道编号，确定每条轨道在各个当前模拟被调用指令的最短可选路径中出现的次数，然后取每条轨道在各个当前模拟被调用指令的最短可选路径中出现的次数的中位数作为各个当前模拟被调用指令的路径间重叠程度。另一方面，可以基于各个当前模拟被调用指令的最短可选路径和当前样本轨道热图，分别确定各个当前模拟被调用指令的最短可选路径与繁忙路段之间的繁忙路段重叠程度。其中，可以根据预设繁忙度阈值结合当前样本轨道热图筛选出轨道地图中的繁忙路段，然后根据任一当前模拟被调用指令的最短可选路径中包含的轨道编号以及各条繁忙路段包含的轨道编号，确定该当前模拟被调用指令的最短可选路径与各条繁忙路段的重叠度（该当前模拟被调用指令的最短可选路径与任一条繁忙路段包含相同的轨道编号，则该当前模拟被调用指令的最短可选路径与各条繁忙路段的重叠度为1，否则为0），然后根据该当前模拟被调用指令的最短可选路径与各条繁忙路段的重叠度以及各条繁忙路段的权重（可以设置为相应繁忙路段的繁忙程度）进行加权求和，得到该当前模拟被调用指令的最短可选路径与繁忙路段之间的繁忙路段重叠程度。

随后基于各个当前模拟被调用指令的路径间重叠程度以及各个当前模拟被调用指令的最短可选路径与繁忙路段的繁忙路段重叠程度，确定系统负载平衡奖励。例如，可以基于如下方式计算系统负载平衡奖励：

wl=1/（α×C1+β×C2）

其中，wl为系统负载平衡奖励，α和β为预设权重系数，C1为各个当前模拟被调用指令的路径间重叠程度，C2为各个当前模拟被调用指令的最短可选路径与繁忙路段的繁忙路段重叠程度之和。

基于上述时间奖励总值、等待奖励总值以及系统负载平衡奖励，可以确定当轮奖励值。如此设计的当轮奖励值能够反映当前的调度方式对应的指令执行时间、指令等待时间以及造成的天车阻塞情况，基于该当轮奖励值调整初始调度模型的参数，可以引导模型学习到更佳的调度策略从而选择调度合适的指令组合，以使得在当前系统环境下系统整体的性能最优。在一些实施例中，可以基于时间奖励总值及其权重、等待奖励总值及其权重，和系统负载平衡奖励及其权重进行加权求和处理，得到当轮奖励值。其中，若当前模拟被调用指令的等待时间奖励为0，则减小时间奖励总值的权重；若模拟执行当前模拟被调用指令的天车的平均等待时间大于预设等待阈值，则减小系统负载平衡奖励的权重。通过上述动态权重调整方式使得模型在不同情况下调整各维度奖励值的比重，从而引导模型更关注奖励值较少的维度，提升调度策略的准确性。

通过重复执行上述样本状态更新步骤、指令模拟调度步骤以及模型更新步骤，直至达到预设训练截止条件，实现初始调度模型的训练。其中，训练完毕后的初始调度模型即为指令调度模型。至此，指令调度模型的训练阶段结束。

回到实际应用阶段，当指令调度模型输出当前每个未调度的天车搬运指令的调用分数后，可以基于当前每个未调度的天车搬运指令的调用分数以及当前可用天车数量确定当前被调用指令，并将当前被调用指令下发至天车控制系统，实现当轮的调度。其中，当前被调用指令的数量与当前可用天车数量相同。在一些实施例中，可以获取一个大于0且小于1的随机值；在该随机值小于预设选择阈值的情况下，基于当前可用天车数量，从当前每个未调度的天车搬运指令中随机选择当前被调用指令；在该随机值大于预设选择阈值的情况下，基于当前可用天车数量（假设为M）以及当前每个未调度的天车搬运指令的调用分数，将当前每个未调度的天车搬运指令按照调用分数由大到小的顺序排序，从而选择调用分数在TopM的天车搬运指令作为当前被调用指令。重复上述状态更新步骤以及指令调度步骤，直至达到预设调度截止条件（例如所有天车搬运指令均已被调度）。

综上所述，本发明实施例提供的方法，通过确定当前系统状态，其中当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及表示了当前各个轨道的繁忙程度的当前轨道热图，然后将当前系统状态输入至指令调度模型，使得指令调度模型综合考虑上述指令状态、天车状态以及轨道状态，并输出当前每个未调度的天车搬运指令的调用分数，从而基于当前每个未调度的天车搬运指令的调用分数以及当前可用天车数量确定当前被调用指令，将当前被调用指令下发至天车控制系统，利用指令调度模型在训练阶段基于特殊设计的奖励值学习到的调度策略，结合当前系统的各种状态进行指令调度，即使AMHS系统中随着天车搬运指令的执行出现各种复杂情形，也能实现针对当前系统状态的准确的指令调度，实现搬运系统整体性能的最优。

下面对本发明提供的一种物料控制系统的天车搬运指令调度装置进行描述，下文描述的一种物料控制系统的天车搬运指令调度装置与上文描述的一种物料控制系统的天车搬运指令调度方法可相互对应参照。

基于上述任一实施例，图3是本发明提供的一种物料控制系统的天车搬运指令调度装置的结构示意图，如图3所示，该装置包括：

状态更新单元310，用于执行状态更新步骤：确定当前系统状态；所述当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及当前轨道热图；所述当前轨道热图表示了当前各个轨道的繁忙程度；

指令调度单元320，用于执行指令调度步骤：将所述当前系统状态输入至指令调度模型，得到所述指令调度模型输出的所述当前每个未调度的天车搬运指令的调用分数，并基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，将所述当前被调用指令下发至天车控制系统；

迭代控制单元330，用于执行迭代步骤：重复执行所述状态更新步骤以及所述指令调度步骤，直至达到预设调度截止条件。

本发明实施例提供的装置，通过确定当前系统状态，其中当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及表示了当前各个轨道的繁忙程度的当前轨道热图，然后将当前系统状态输入至指令调度模型，使得指令调度模型综合考虑上述指令状态、天车状态以及轨道状态，并输出当前每个未调度的天车搬运指令的调用分数，从而基于当前每个未调度的天车搬运指令的调用分数以及当前可用天车数量确定当前被调用指令，将当前被调用指令下发至天车控制系统，利用指令调度模型在训练阶段基于特殊设计的奖励值学习到的调度策略，结合当前系统的各种状态进行指令调度，即使AMHS系统中随着天车搬运指令的执行出现各种复杂情形，也能实现针对当前系统状态的准确的指令调度，实现搬运系统整体性能的最优。

基于上述任一实施例，所述指令调度模型是基于如下方式训练的：

基于上述任一实施例，所述基于所述当前模拟被调用指令的模拟执行结果计算当轮奖励值，具体包括：

基于上述任一实施例，所述基于各个当前模拟被调用指令的指令起始地和指令目的地以及所述当前样本轨道热图，确定系统负载平衡奖励，具体包括：

基于上述任一实施例，若任一当前模拟被调用指令的指令执行时间大于所述任一当前模拟被调用指令的指令要求执行时间，则所述任一当前模拟被调用指令的执行时间奖励为0。

基于上述任一实施例，所述基于所述时间奖励总值、所述等待奖励总值以及所述系统负载平衡奖励，确定所述当轮奖励值，具体包括：

基于上述任一实施例，所述基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，具体包括：

获取一个大于0且小于1的随机值；

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440，其中，处理器410，存储器420，通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令，以执行一种物料控制系统的天车搬运指令调度方法，该方法包括：状态更新步骤：确定当前系统状态；所述当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及当前轨道热图；所述当前轨道热图表示了当前各个轨道的繁忙程度；指令调度步骤：将所述当前系统状态输入至指令调度模型，得到所述指令调度模型输出的所述当前每个未调度的天车搬运指令的调用分数，并基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，将所述当前被调用指令下发至天车控制系统；迭代步骤：重复执行所述状态更新步骤以及所述指令调度步骤，直至达到预设调度截止条件。

此外，上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的一种物料控制系统的天车搬运指令调度方法，该方法包括：状态更新步骤：确定当前系统状态；所述当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及当前轨道热图；所述当前轨道热图表示了当前各个轨道的繁忙程度；指令调度步骤：将所述当前系统状态输入至指令调度模型，得到所述指令调度模型输出的所述当前每个未调度的天车搬运指令的调用分数，并基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，将所述当前被调用指令下发至天车控制系统；迭代步骤：重复执行所述状态更新步骤以及所述指令调度步骤，直至达到预设调度截止条件。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的一种物料控制系统的天车搬运指令调度方法，该方法包括：状态更新步骤：确定当前系统状态；所述当前系统状态包括当前每个未调度的天车搬运指令的指令等待时间、指令起始地、指令目的地、指令要求执行时间、当前可用天车数量以及当前轨道热图；所述当前轨道热图表示了当前各个轨道的繁忙程度；指令调度步骤：将所述当前系统状态输入至指令调度模型，得到所述指令调度模型输出的所述当前每个未调度的天车搬运指令的调用分数，并基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，将所述当前被调用指令下发至天车控制系统；迭代步骤：重复执行所述状态更新步骤以及所述指令调度步骤，直至达到预设调度截止条件。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种物料控制系统的天车搬运指令调度方法，其特征在于，包括：

2.根据权利要求1所述的一种物料控制系统的天车搬运指令调度方法，其特征在于，所述指令调度模型是基于如下方式训练的：

3.根据权利要求2所述的一种物料控制系统的天车搬运指令调度方法，其特征在于，所述基于所述当前模拟被调用指令的模拟执行结果计算当轮奖励值，具体包括：

4.根据权利要求3所述的一种物料控制系统的天车搬运指令调度方法，其特征在于，所述基于各个当前模拟被调用指令的指令起始地和指令目的地以及所述当前样本轨道热图，确定系统负载平衡奖励，具体包括：

5.根据权利要求3所述的一种物料控制系统的天车搬运指令调度方法，其特征在于，若任一当前模拟被调用指令的指令执行时间大于所述任一当前模拟被调用指令的指令要求执行时间，则所述任一当前模拟被调用指令的执行时间奖励为0。

6.根据权利要求5所述的一种物料控制系统的天车搬运指令调度方法，其特征在于，所述基于所述时间奖励总值、所述等待奖励总值以及所述系统负载平衡奖励，确定所述当轮奖励值，具体包括：

7.根据权利要求1所述的一种物料控制系统的天车搬运指令调度方法，其特征在于，所述基于所述当前每个未调度的天车搬运指令的调用分数以及所述当前可用天车数量确定当前被调用指令，具体包括：

获取一个大于0且小于1的随机值；

8.一种物料控制系统的天车搬运指令调度装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述一种物料控制系统的天车搬运指令调度方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种物料控制系统的天车搬运指令调度方法。