CN115293623A

CN115293623A - 一种生产调度模型的训练方法、装置、电子设备及介质

Info

Publication number: CN115293623A
Application number: CN202210984220.7A
Authority: CN
Inventors: 谢海琴; 谈晟; 盛国军; 陈录城; 何梁
Original assignee: Haier Digital Technology Qingdao Co Ltd; Haier Digital Technology Shanghai Co Ltd; Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Current assignee: Haier Digital Technology Qingdao Co Ltd; Haier Digital Technology Shanghai Co Ltd; Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-04

Abstract

本申请公开了一种生产调度模型的训练方法、装置、电子设备及介质；该方法包括：基于各个工件在各个工序上的作业时间构建当前时刻对应的析取图；将当前时刻对应的析取图作为当前状态，通过图神经网络在当前状态中提取状态特征；其中，状态特征包括当前时刻对应的析取图中各节点的方向；将状态特征分别输入至评价网络中，通过评价网络输出预先确定的上一个状态转移至当前状态的奖励；基于预先确定的全部工件的完工时间和上一个状态转移至当前状态的奖励对待训练的生产调度模型进行训练。本申请实施例精准度更高，泛化性更强，响应时间更快，能够有效地降低生产制造成本，提高生产效率。

Description

一种生产调度模型的训练方法、装置、电子设备及介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种生产调度模型的训练方法、装置、电子设备及介质。

背景技术

随着生产技术的快速发展和产品市场需求的复杂变化，离散型制造企业生产特征变化显著，由原先大规模单一产品的生产形式向现在的多种类、小规模的柔性离散生产模式转变。这使得生产车间工件种类增多，生产过程复杂多变，发生突变时间的概率大大提高，生产过程的管制变得愈加复杂。而当前离散制造企业使用的高级计划与排程系统（APS）的车间调度方案大多把复杂动态问题假定为静态问题，并且基于动态环境的研究方案也只是对机器故障、紧急插单等单一场景进行应急调整，响应速度较慢，与生产环境实际情况也相差甚远，最后往往需要人工根据经验来进行适应性调整。

但是人工调整取决于计划员的经验和能力，随着调度问题的复杂程度加深，调度方案的质量和稳定性都难以保证，并且人工调整往往需要耗费大量的时间，智能化水平较低、生产效率较差。

发明内容

本申请提供一种生产调度模型的训练方法、装置、电子设备及介质，精准度更高，泛化性更强，响应时间更快，能够有效地降低生产制造成本，提高生产效率。

第一方面，本申请实施例提供了一种生产调度模型的训练，所述方法包括：

基于各个工件在各个工序上的作业时间构建当前时刻对应的析取图；

将所述当前时刻对应的析取图作为当前状态，通过图神经网络在所述当前状态中提取状态特征；其中，所述状态特征包括所述当前时刻对应的析取图中各节点的方向；

将所述状态特征分别输入至评价网络中，通过所述评价网络输出预先确定的上一个状态转移至所述当前状态的奖励；

基于预先确定的全部工件的完工时间和所述上一个状态转移至所述当前状态的奖励对待训练的生产调度模型进行训练。

第二方面，本申请实施例还提供了一种生产调度模型的训练装置，所述装置包括：构建模块、提取模块、评价模块和训练模块；其中，

所述构建模块，用于基于各个工件在各个工序上的作业时间构建当前时刻对应的析取图；

所述提取模块，用于将所述当前时刻对应的析取图作为当前状态，通过图神经网络在所述当前状态中提取状态特征；其中，所述状态特征包括所述当前时刻对应的析取图中各节点的方向；

所述评价模块，用于将所述状态特征分别输入至评价网络中，通过所述评价网络输出预先确定的上一个状态转移至所述当前状态的奖励；

所述训练模块，用于基于预先确定的全部工件的完工时间和所述上一个状态转移至所述当前状态的奖励对待训练的生产调度模型进行训练。

第三方面，本申请实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请任意实施例所述的生产调度模型的训练方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请任意实施例所述的生产调度模型的训练方法。

本申请实施例提出了一种生产调度模型的训练方法、装置、电子设备及介质，先基于各个工件在各个工序上的作业时间构建当前时刻对应的析取图；然后将当前时刻对应的析取图作为当前状态，通过图神经网络在当前状态中提取状态特征；再将状态特征分别输入至评价网络中，通过评价网络输出预先确定的上一个状态转移至当前状态的奖励；最后基于预先确定的全部工件的完工时间和上一个状态转移至当前状态的奖励对待训练的生产调度模型进行训练。也就是说，在本申请的技术方案中，将车间调度问题中的析取图用于模型算法的输入，而不是用一些结构化数据作为输入，并且将析取图和构建马尔科夫决策过程去做结合，使用图神经网络中的图同构网络（GIN）去做状态的特征提取，强化学习算法使用PPO算法，而且PPO中的策略网络和评价网络共享部分参数，简化了模型，提升了模型训练效率。而在现有技术中，通常采用启发式算法和元启发式算法，随着调度问题的复杂程度加深，调度方案的质量和稳定性都难以保证，并且人工调整往往需要耗费大量的时间，智能化水平较低、生产效率较差。因此，和现有技术相比，本申请实施例提出的生产调度模型的训练方法、装置、电子设备及介质，精准度更高，泛化性更强，响应时间更快，能够有效地降低生产制造成本，提高生产效率；并且，本申请实施例的技术方案实现简单方便、便于普及，适用范围更广。

附图说明

图1为本申请实施例提供的生产调度模型的训练方法的第一流程示意图；

图2为本申请实施例提供的生产调度模型的训练方法的第二流程示意图；

图3为本申请实施例提供的生产调度模型的训练装置的结构示意图；

图4为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例提供的生产调度模型的训练方法的第一流程示意图，该方法可以由生产调度模型的训练装置或者电子设备来执行，该装置或者电子设备可以由软件和/或硬件的方式实现，该装置或者电子设备可以集成在任何具有网络通信功能的智能设备中。如图1所示，生产调度模型的训练方法可以包括以下步骤：

S101、基于各个工件在各个工序上的作业时间构建当前时刻对应的析取图。

S102、将当前时刻对应的析取图作为当前状态，通过图神经网络在当前状态中提取状态特征；其中，状态特征包括所述当前时刻对应的析取图中各节点的方向。

S103、将状态特征输入至评价网络中，通过评价网络输出预先确定的上一个状态转移至当前状态的奖励。

S104、基于预先确定的全部工件的完工时间和上一个状态转移至当前状态的奖励对待训练的生产调度模型进行训练。

车间调度通过对生产车间中有限资源的合理分配与调度，实现资源的高效利用，提高工件的生产效率，降低生产成本。车间调度模型作为现实社会中生产、制造、物流等领域中实际问题的抽象模型，在各领域都存在广泛的应用价值。提高车间调度算法的准确度、降低算法的响应时间、提高模型的泛化性，对降低生产制造成本、提高生产效率十分关键。然而，多数的车间调度问题属于NP完全问题，无法在多项式时间内获得全局最优解。目前针对调度问题已经有了很多相关工作，主要是从传统规则方式与元启发式算法触发，给出车间调度问题的局部最优解。但是，这些传统的调度优化算法虽然能够使车间调度问题获得一个较高的精准度，但是在时间响应、算法泛化性上却难以达到实际车间调度场景的要求。

针对车间调度问题的研究方法最开始主要侧重于调度规则、数学规划或者仿真上的研究，这些方法通常只适用于简单调度问题，并且解的质量也不太理想。随着信息技术与人工智能智能技术的发展，许多新的调度算法-智能搜索、机器学习等新的优化算法不断涌现，让车间调度问题的研究迈入新的阶段。下面给出目前主流的车间调度排产的算法：1）调度规则：调度规则是最开始提出的调度方法，它在每个决策点根据预定义的规则为操作任务分配优先级。与基于搜索的算法相比，调度规则可以在可接受的时间范围内产生较优的解，在实际应用中方便使用。但是调度规则是一种无迭代的单遍算法，调度规则是不能保证找到全局最优结果的。并且设计一个好的调度规则是一项很繁琐的任务，需要大量专业业务知识。2）精准解法：精确解算法是业界研究较早的一类用来求解作业调度问题的算法。早期学术界重视组合优化问题的数学理论的可解释性和严谨性，偏重于研究用数学模型求解作业调度问题最优解。求解的问题可以用数学建模的方法被建模成线性规划、整数规划、混合整数规划和二次规划等数学模型，并使用CPLEX、Gurobi等优化求解器求解。传统的运筹学的求解方法由于计算复杂度高，难以求解大规模的作业调度问题，而且对于生产现场的异常情况很难做到较快的响应。3）近似算法：随着对作业调度问题的深度研究和计算复杂度理论的日趋成熟，人们对调度问题，特别是对大规模的复杂的作业调度问题不再局限于求解问题的最优解。随后，近似算法被广泛研究，即不以求精确最优解为优化目标的智能优化算法，包括启发式算法和元启发式算法。a）启发式算法：启发式算法的关键在于基于问题特征根据知识和经验构造的启发式信息来指导解的搜索过程。启发式算法比精确解法能在较快的时间内求得问题的可行解，但是由于可行解和最优解之间的偏离程度难以估计，不能保证解的最优性。Johnson算法、Palmer算法、CDS算法、Gupta算法、NEH算法等都是求解作业车间调度问题经典的启发式算法。b）元启发式算法：元启发式算法是受自然界中的自然现象或生物的某些规律的启发而产生的算法，通常需要提供最少一个初始可行解。元启发式算法是一种改进的启发式算法，包括遗传算法、禁忌搜索、蚁群算法、局部搜索算法、模拟退火算法等。相对于启发式算法，元启发式算法通过一系列的优化算法增加了求解时间，但是可以得到更好的求解效果。相对于精确算法，元启发式算法可以在可接受的时间内求得一个不错的解，因此也是目前工业界最常用的一种方法。

本申请是将图神经网络GIN作为状态的embedding网络和强化学习中的PPO算法组合，提出一种能自动学习鲁棒性的调度规则方法去解决车间调度排程问题。本申请实施例的核心是强化学习算法，先将车间调度问题表达成马尔科夫决策过程，提出使用图神经网络从析取图中提取更有效的状态特征，然后和PPO算法结合训练，使得构建的模型可以更快速高效的学习优先调度规则。

1）构建马尔科夫决策过程表达式：a）状态（state）：当前状态是确定了一个方向的析取图，最终状态是确定了全部方向的析取图，也就是一个调度方案。b）动作（action）：动作集为当前可进行加工的工序集，从中选择一个最为合适的工作作为当前阶段的动作。c）状态转移：一旦确定下一步要调度的操作，首先要找到在所需机器上分配的最早可行时间段；然后，根据当前的时间关系更新该机器的析取弧的方向，并生成一个新的析取图作为新的状态。d）奖励：本申请实施例的目标是学习一步一步地进行调度，以便最大限度地减少完工时间。为此，本申请将奖励函数R（s_t，a_t）设计成两个状态S（t+1）、S（t）对应的部分解之间的质量差，即R（s_t，a_t）=H（s_t）-H（s_t+1），其中函数H（s_t）是质量度量，本申请将其定义成最大完工时间的下界。e）策略：对于状态s_t，随机策略π（a_t|s_t）输出动作为动作集A_t上的分布。如果采用传统的优先调度规则（PDR）作为策略，则分布为one-hot，并且具有最高优先级的动作概率为1。

策略参数化：a）析取图表征学习：析取图包含了车间调度问题的数值和结构信息，如工序在每台机器上的处理时间、优先约束和处理顺序。可以提取嵌入在析取图中的所有状态信息，在本方案中使用基于图神经网络的方法提取状态特征。本申请实施例采用的是同构网络（Graph Isomorphism Network，简称GIN），对给定析取图GIN=（V，E），GIN执行多次更新以计算每个节点

的一维嵌入。b）动作选择：本申请为了在每个状态下选取加工工序的动作，提出一个以提取后的析取图特征作为输入的动作选择网络。该网络首先对每个动作a_t计算一个得分

，接着会使用softmax函数计算得到一个动作概率分布

，训练模型时候从这个概率分布中采样选择动作，模型推理时使用贪心算法，选择最大概率的动作。

3）学习算法：本申请实施例中的强化学习策略网络使用的是PPO（ProximalPolicy Optimization），这是一种actor-critic结构的强化学习算法，其中actor策略网络部分使用的就是上面介绍的GIN特征提取部分和动作选择网络，critic部分包括GIN特征提取网络和新的MLP网络去评估累计奖励。

本申请实施例提出的生产调度模型的训练方法，先基于各个工件在各个工序上的作业时间构建当前时刻对应的析取图；然后将当前时刻对应的析取图作为当前状态，通过图神经网络在当前状态中提取状态特征；再将状态特征分别输入至评价网络中，通过评价网络输出预先确定的上一个状态转移至当前状态的奖励；最后基于预先确定的全部工件的完工时间和上一个状态转移至当前状态的奖励对待训练的生产调度模型进行训练。也就是说，在本申请的技术方案中，将车间调度问题中的析取图用于模型算法的输入，而不是用一些结构化数据作为输入，并且将析取图和构建马尔科夫决策过程去做结合，使用图神经网络中的图同构网络（GIN）去做状态的特征提取，强化学习算法使用PPO算法，而且PPO中的策略网络和评价网络共享部分参数，简化了模型，提升了模型训练效率。而在现有技术中，通常采用启发式算法和元启发式算法，随着调度问题的复杂程度加深，调度方案的质量和稳定性都难以保证，并且人工调整往往需要耗费大量的时间，智能化水平较低、生产效率较差。因此，和现有技术相比，本申请实施例提出的生产调度模型的训练方法，精准度更高，泛化性更强，响应时间更快，能够有效地降低生产制造成本，提高生产效率；并且，本申请实施例的技术方案实现简单方便、便于普及，适用范围更广。

实施例二

图2为本申请实施例提供的生产调度模型的训练方法的第二流程示意图。基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图2所示，生产调度模型的训练方法可以包括以下步骤：

S201、基于各个工件在各个工序上的作业时间构建当前时刻对应的析取图。

S202、将当前时刻对应的析取图作为当前状态，通过图神经网络在当前状态中提取状态特征；其中，状态特征包括所述当前时刻对应的析取图中各节点的方向。

S203、将状态特征输入至评价网络中，通过预先构建的质量度量函数分别计算上一个状态对应的质量度量值和当前状态对应的质量度量值。

S204、将上一个状态对应的质量度量值与当前状态对应的质量度量值的差值作为上一个状态转移至当前状态的奖励。

S205、基于预先确定的全部工件的完工时间和上一个状态转移至当前状态的奖励对待训练的生产调度模型进行训练。

在本申请的具体实施例中，对待训练的生产调度模型进行训练的方法可以包括以下步骤：若待训练的模型不满足预先设置的收敛条件，将当前训练样本输入至待训练的生产调度模型中，使用当前训练样本对待训练的模型进行训练；重复执行上述提取当前训练样本的操作，直到待训练的模型满足预先设置的收敛条件。具体地，将当前训练样本输入至待训练的生产调度模型中的各个模块中，基于当前训练样本对各个模块中的模型参数进行调整。

在本申请的具体实施例中，构建马尔科夫决策过程表达式的方法可以包括：a）状态（state）：当前状态是已经确定方向了的析取图，最终状态就会是一个全部确定了方向的析取图，也就是一个调度方案。b）动作（action）：动作集为当前可进行加工的工序集，从中选择一个最为合适的工作作为当前阶段的动作。c）状态转移：一旦确定下一步要调度的操作，首先要找到在所需机器上分配的最早可行时间段；然后，根据当前的时间关系更新该机器的析取弧的方向，并生成一个新的析取图作为新的状态。d）奖励：本申请的目标是学习一步一步地进行调度，以便最大限度地减少完工时间。为此，本申请将奖励函数R（s_t，a_t）设计成两个状态S（t+1）、S（t）对应的部分解之间的质量差，即R（s_t，a_t）=H（s_t）-H（s_t+1），函数H（s_t）是质量度量，本申请将其定义成最大完工时间的下界。e）策略：对于状态s_t，随机策略π（a_t|s_t）输出动作为动作集A_t上的分布。如果采用传统的优先调度规则（PDR）作为策略，则分布为one-hot，并且具有最高优先级的动作概率为1。

在本申请的具体实施例中，策略参数化的方法可以包括：a）析取图表征学习：析取图包含了车间调度问题的数值和结构信息，如工序在每台机器上的处理时间、优先约束和处理顺序。本申请可以提取嵌入在析取图中的所有状态信息，具体可以使用基于图神经网络的方法提取状态特征。本申请采用的是图同构网络（Graph Isomorphism Network，简称GIN），对给定析取图GIN=（V，E），GIN执行多次更新以计算每个节点

的一维嵌入，并且在迭代时更新。具体在迭代时的更新如下所示：

；其中，

表示节点v为第k次迭代；

是原始的输入特征；

是神经网络的参数；

是一个可学习的任意数值。N（v）表示的是节点

在图上的邻居节点。在经过k次迭代和更新，析取图的全局的表征可以使用一个池化函数去降维，输入是使用

提取每个节点的特征，输出的是

维向量。本申请中使用的是平均池化函数，函数公式可以表示如下：

；由于GIN最初是针对无向图提出的，但是对于车间调度问题，析取图是一个带有弧的混合图，用于描述机器上的优先约束和操作序列等关键特征，本申请提出两种解决方法：方法一：将无向弧换为两条有向弧，这样的话在状态转移的过程中就需要去掉其余的无向图。方法二：忽略未定向的析取弧，通过添加弧的方式来表达状态转移，这样的一个缺点就是得到的状态表示更加稀疏。b）动作选择：本申请中为了在每个状态下选取加工工序的动作，提出一个以提取后的析取图特征作为输入的动作选择网络。该网络首先对每个动作计算一个得分，接着会使用softmax函数计算得到一个动作概率分布，训练模型时候从这个概率分布中采样选择动作，模型推理时使用贪心算法，选择最大概率的动作。

在本申请的具体实施例中，强化学习策略网络使用的是PPO（Proximal PolicyOptimization），这是一种actor-critic结构的强化学习算法，其中actor策略网络部分使用的就是上面介绍的GIN特征提取部分和动作选择网络，critic部分包括GIN特征提取网络和新的MLP网络去评估累计奖励。

本申请将车间调度问题中的析取图用于模型算法的输入，而不是用问题一些结构化数据作为输入，并且将析取图和构建马尔科夫决策过程去做结合。使用图神经网络中的图同构网络（GIN）去做状态的特征提取。因为GIN网络只能解决无向图的问题，车间调度问题的析取图是一个有向图，本申请提出两种方法解决这个问题。本申请中的强化学习算法使用PPO算法，而且PPO中的actor策略网络和critic评价网络共享部分参数，简化了模型，提升了模型训练效率。

实施例三

基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。生产调度模型的训练方法可以包括以下步骤：

第一步、基于各个工件在各个工序上的作业时间构建当前时刻对应的析取图。

第二步、将析取图从有向析取图转换为无向析取图。

本申请实施例提供了两种将析取图从有向析取图转换为无向析取图的方法：第一、将无向弧换为两条有向弧，这样的话在状态转移的过程中就需要去掉其余的无向图；第二、忽略未定向的析取弧，通过添加弧的方式来表达状态转移，该方法一个缺点就是得到的状态表示更加稀疏。

第三步、将当前时刻对应的析取图作为当前状态，将析取图中每个节点的原始特征输入至图神经网络中，通过图神经网络输出每个节点经过当前次迭代的特征；将每个节点经过当前次迭代的特征作为每个节点下一次迭代的输入特征，重复执行上述操作，直到在当前状态中提取出状态特征。

第四步、将状态特征输入至评价网络中，通过预先构建的质量度量函数分别计算上一个状态对应的质量度量值和当前状态对应的质量度量值。

第五步、将上一个状态对应的质量度量值与当前状态对应的质量度量值的差值作为上一个状态转移至当前状态的奖励。

第六步、基于预先确定的全部工件的完工时间和上一个状态转移至当前状态的奖励对待训练的生产调度模型进行训练。

本申请实施例具备如下优点：1）在求解车间调度问题上，本申请相比于精确解法计算速度更快；对于工厂实际过程中一些异常情况，能够做到动态地调整和快速地响应。2）相比于启发式等近似算法，本申请计算速度更快，并且求解的质量不低于启发式算法。3）相比于其他强化学习方案，本申请中模型算法的泛化性更强，对于不同的数量的设备、订单输入，不需要重新训练模型。

实施例四

图3为本申请实施例提供的生产调度模型的训练装置的结构示意图。如图3所示，所述生产调度模型的训练装置包括：构建模块301、提取模块302、评价模块303和训练模块304；其中，

所述构建模块301，用于基于各个工件在各个工序上的作业时间构建当前时刻对应的析取图；

所述提取模块302，用于将所述当前时刻对应的析取图作为当前状态，通过图神经网络在所述当前状态中提取状态特征；其中，所述状态特征包括所述当前时刻对应的析取图中各节点的方向；

所述评价模块303，用于将所述状态特征分别输入至评价网络中，通过所述评价网络输出预先确定的上一个状态转移至所述当前状态的奖励；

所述训练模块304，用于基于预先确定的全部工件的完工时间和所述上一个状态转移至所述当前状态的奖励对待训练的生产调度模型进行训练。

本申请是将图神经网络GIN作为状态的embedding网络和强化学习中的PPO算法组合，提出一种能自动学习鲁棒性的调度规则方法去解决车间调度排程问题。本申请实施例的核心是强化学习算法，先通过构建模块301将车间调度问题表达成马尔科夫决策过程，通过提取模块302使用图神经网络从析取图中提取更有效的状态特征，然后通过评价模块303和训练模块304与PPO算法结合训练，使得构建的模型可以更快速高效的学习优先调度规则。

1）构建模块301构建马尔科夫决策过程表达式：a）状态（state）：当前状态是确定了一个方向的析取图，最终状态是确定了全部方向的析取图，也就是一个调度方案。b）动作（action）：动作集为当前可进行加工的工序集，从中选择一个最为合适的工作作为当前阶段的动作。c）状态转移：一旦确定下一步要调度的操作，首先要找到在所需机器上分配的最早可行时间段；然后，根据当前的时间关系更新该机器的析取弧的方向，并生成一个新的析取图作为新的状态。d）奖励：本申请实施例的目标是学习一步一步地进行调度，以便最大限度地减少完工时间。为此，本申请将奖励函数R（s_t，a_t）设计成两个状态S（t+1）、S（t）对应的部分解之间的质量差，即R（s_t，a_t）=H（s_t）-H（s_t+1），其中函数H（st）是质量度量，本申请将其定义成最大完工时间的下界。e）策略：对于状态s_t，随机策略π（a_t|s_t）输出动作为动作集A_t上的分布。如果采用传统的优先调度规则（PDR）作为策略，则分布为one-hot，并且具有最高优先级的动作概率为1。

2）提取模块302实现策略参数化：a）析取图表征学习：析取图包含了车间调度问题的数值和结构信息，如工序在每台机器上的处理时间、优先约束和处理顺序。可以提取嵌入在析取图中的所有状态信息，在本方案中使用基于图神经网络的方法提取状态特征。本申请实施例采用的是同构网络（Graph Isomorphism Network，简称GIN），对给定析取图GIN=（V，E），GIN执行多次更新以计算每个节点

，接着会使用softmax函数计算得到一个动作概率分布

3）评价模块303和训练模块304的学习算法：本申请实施例中的强化学习策略网络使用的是PPO（Proximal Policy Optimization），这是一种actor-critic结构的强化学习算法，其中actor策略网络部分使用的就是上面介绍的GIN特征提取部分和动作选择网络，critic部分包括GIN特征提取网络和新的MLP网络去评估累计奖励。

进一步的，所述评价模块303，具体用于通过预先构建的质量度量函数分别计算所述上一个状态对应的质量度量值和所述当前状态对应的质量度量值；将所述上一个状态对应的质量度量值与所述当前状态对应的质量度量值的差值作为所述上一个状态转移至所述当前状态的奖励。

进一步的，所述提取模块302，具体用于将所述析取图中每个节点的原始特征输入至所述图神经网络中，通过所述图神经网络输出每个节点经过当前次迭代的特征；将每个节点经过当前次迭代的特征作为每个节点下一次迭代的输入特征，重复执行上述操作，直到在所述当前状态中提取出所述状态特征。

上述生产调度模型的训练装置可执行本申请任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请任意实施例提供的生产调度模型的训练方法。

实施例五

图4为本申请实施例提供的电子设备的结构示意图。图4示出了适于用来实现本申请实施方式的示例性电子设备的框图。图4显示的电子设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图4未显示，通常称为“硬盘驱动器”）。尽管图4中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块42，这些程序模块被配置以执行本申请各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，该程序/实用工具40可以包括一个或者多个程序/实用工具单元46，该程序/实用工具40可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14（图中未示出）（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图4中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例所提供的生产调度模型的训练方法。

实施例六

本申请实施例提供了一种计算机存储介质。

本申请实施例的计算机可读存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种生产调度模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，通过所述评价网络输出预先确定的上一个状态转移至所述当前状态的奖励，包括：

通过预先构建的质量度量函数分别计算所述上一个状态对应的质量度量值和所述当前状态对应的质量度量值；

将所述上一个状态对应的质量度量值与所述当前状态对应的质量度量值的差值作为所述上一个状态转移至所述当前状态的奖励。

3.根据权利要求1所述的方法，其特征在于，通过图神经网络在所述当前状态中提取状态特征，包括：

将所述析取图中每个节点的原始特征输入至所述图神经网络中，通过所述图神经网络输出每个节点经过当前次迭代的特征；将每个节点经过当前次迭代的特征作为每个节点下一次迭代的输入特征，重复执行上述操作，直到在所述当前状态中提取出所述状态特征。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述状态特征输入至预先构建的池化函数中，通过所述池化函数对所述状态特征进行降维操作。

5.根据权利要求3所述的方法，其特征在于，在将所述析取图中每个节点的原始特征输入至所述图神经网络之前，所述方法还包括：

将所述析取图从有向析取图转换为无向析取图；执行所述将所述析取图中每个节点的原始特征输入至所述图神经网络的操作。

6.一种生产调度模型的训练装置，其特征在于，所述装置包括：构建模块、提取模块、评价模块和训练模块；其中，

7.根据权利要求6所述的装置，其特征在于，所述评价模块，具体用于通过预先构建的质量度量函数分别计算所述上一个状态对应的质量度量值和所述当前状态对应的质量度量值；将所述上一个状态对应的质量度量值与所述当前状态对应的质量度量值的差值作为所述上一个状态转移至所述当前状态的奖励。

8.根据权利要求6所述的装置，其特征在于，所述提取模块，具体用于将所述析取图中每个节点的原始特征输入至所述图神经网络中，通过所述图神经网络输出每个节点经过当前次迭代的特征；将每个节点经过当前次迭代的特征作为每个节点下一次迭代的输入特征，重复执行上述操作，直到在所述当前状态中提取出所述状态特征。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的生产调度模型的训练方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的生产调度模型的训练方法。