CN116993028B

CN116993028B - 车间排产方法、装置、存储介质及电子设备

Info

Publication number: CN116993028B
Application number: CN202311257015.1A
Authority: CN
Inventors: 梁礼欣; 王昊; 陈广裕
Original assignee: Meiyun Zhishu Technology Co ltd
Current assignee: Meiyun Zhishu Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-01-23
Anticipated expiration: 2043-09-27
Also published as: CN116993028A

Abstract

本发明涉及计算机技术领域，具体涉及一种车间排产方法、装置、存储介质及电子设备。该方法包括：获取车间内待排产的初始状态信息；根据所述初始状态信息获取所述车间的初始析取图；将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果，所述车间排产模型为多层多智能体近端策略优化模型。本发明能够得到的全局较优的车间排产结果，并且排产速度更快。

Description

车间排产方法、装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，尤其涉及一种车间排产方法、装置、电子设备及计算机可读存储介质。

背景技术

随着制造业的快速发展，车间排产的规模越来越大，工艺也越来越复杂。因此，对车间排产时，约束条件也越来越多，优化目标也越来越多样。而现有的进阶生产规划及排程系统(Advanced Planning and Scheduling，APS)排产软件无法完全满足车间排产的需求，运算速度慢、优化目标单一、无法同时满足多种约束条件，因此亟需一种能快速给出可行解、满足生产排产需求的方法。

目前，对于柔性车间排产，通常采用遗传算法。遗传算法（Genetic Algorithm，GA）最早是由美国的 John holland于20世纪70年代提出，该算法是根据大自然中生物体进化规律而设计提出的。是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，能够通过模拟自然进化过程搜索最优解的方法。该算法通过数学的方式，利用计算机仿真运算，将问题的求解过程转换成类似生物进化中的染色体基因的交叉、变异等过程。但是，遗传算法容易过早收敛，因此，采用遗传算法进行排产时，通常得到的排产结果为局部最优解。另外，遗传算法通常运算效率较低，使得排产速度慢。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种车间排产方法，具有能够得到的全局较优的车间排产结果，并且排产速度更快的优点。

根据本发明实施例的第一方面，提供一种车间排产方法，包括：

获取车间内待排产的初始状态信息；

根据所述初始状态信息获取所述车间的初始析取图；

将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果，所述车间排产模型为多层多智能体近端策略优化模型。

本发明的一种示例性实施例中，所述多层多智能体近端策略优化模型包括演员网络和与所述演员网络连接的评论家网络，所述将所述初始析取图和初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果包括：

将所述初始析取图和所述初始状态信息输入所述演员网络，以获取所述车间内的当前选择动作；

循环执行预设步骤，直至所述车间内待排产的下一状态信息为空时，输出所述车间排产结果，所述预设步骤包括：

将所述当前选择动作输入所述评论家网络，以确定所述车间内待排产的下一状态信息；

将所述下一状态信息作为所述车间的当前状态信息；

根据所述当前状态信息获取所述车间的当前析取图；

将所述当前析取图和所述当前状态信息输入所述演员网络，以获取所述车间内的当前选择动作。

本发明的一种示例性实施例中，所述演员网络包括工件工序演员网络和设备演员网络，所述当前选择动作包括工件工序的当前选择动作和设备的当前选择动作，所述将所述初始析取图和所述初始状态信息输入所述演员网络，以获取所述车间内当前选择动作包括：

将所述初始析取图和所述初始状态信息输入所述工件工序演员网络，以获取所述车间内所述工件工序的当前选择动作；

将所述初始析取图和所述初始状态信息输入所述设备演员网络，以获取所述车间内所述设备的当前选择动作。

本发明的一种示例性实施例中，所述演员网络包括编码器和与所述编码器连接的解码器，所述解码器与所述评论家网络连接，所将所述当前析取图和所述当前状态信息输入所述演员网络，以获所述当前选择动作包括：

将所述当前析取图和所述当前状态信息输入所述编码器，以获取所述当前选择动作的概率分布；

将所述概率分布输入所述解码器，以获取所述当前选择动作。

本发明的一种示例性实施例中，所述将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型前，所述方法还包括：

获取训练集，所述训练集包括多个已排产车间在排产前的初始状态信息以及所述已排产车间在排产过程中每个时间步的状态信息；

采用所述训练集对所述车间排产模型进行训练。

本发明的一种示例性实施例中，所述多层多智能体近端策略优化模型包括演员网络和与所述演员网络连接的评论家网络，所述采用所述训练集对所述车间排产模型进行训练包括：

根据所述演员网络的第一参数和所述训练集确定所述演员网络的总损失函数；

根据所述评论家网络的第二参数和所述训练集确定所述评论家网络的评价损失函数；

采用策略梯度算法分别确定所述总损失函数的最小值和所述评价损失函数的最小值；

根据所述总损失函数的最小值和所述评价损失函数的最小值分别更新所述第一参数和所述第二参数。

本发明的一种示例性实施例中，所述初始状态信息包括车间内待排产的初始工件工序的初始工件工序信息和所述车间内待排产初始工件设备的初始设备信息，所述获取车间内待排产的初始状态信息包括：

获取所述车间内所有的工件工序的工件工序信息以及所述车间内所有设备的设备信息；

获取所述车间内正在排产的目标工件工序的工件工序信息以及目标设备的设备信息；

根据所述目标工件工序的工件工序信息以及所述目标设备的设备信息和所述车间内所有的工件工序的工件工序信息以及所述车间内所有设备的设备信息确定所述初始工件工序信息和所述初始设备信息。

根据本发明的第二方面，提供一种车间排产装置，包括：

状态信息获取模块，用于获取车间内待排产的初始状态信息；

初始析取图获取模块，用于根据所述初始状态信息获取所述车间的初始析取图；

车间排产模块，用于将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果，所述车间排产模型为多层多智能体近端策略优化模型。

根据本发明的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面中任一项所述的车间排产方法。

根据本发明的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面中任一项所述的车间排产方法。

本发明提供的方法，通过获取所述车间的初始析取图，并将所述初始析取图和所述初始状态信息输入预先训练的结构多层多智能体近端策略优化模型的车间排产模型，对所述车间进行排产，能够采用多层多智能体近端策略优化模型配合析取图实现柔性车间排产，能够实现车间排产的全局较优，并且大大提升了车间排产运算速度以及使用场景。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据一示例性实施例提供的一种车间排产方法的流程图；

图2是根据一示例性实施例提供的一种车间排产系统的架构图；

图3是根据一示例性实施例提供的一种析取图的示意图；

图4是根据一示例性实施例提供的一种车间排产模型的结构图；

图5是根据一示例性实施例提供的一种车间排产装置的方框图；

图6是根据一示例性实施例提供的一种存储介质的示意图；

图7是根据一示例性实施例提供的一种电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的车间排产方法进行说明。参考图1所示，上述的车间排产方法可以包括以下步骤：

S1、获取车间内待排产的初始状态信息；

S2、根据所述初始状态信息获取所述车间的初始析取图；

S3、将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果，所述车间排产模型为多层多智能体近端策略优化模型（Multi-level Multi-agent Proximal Policy Optimization，MMPPO）。

综上所述，本发明提供的方法，通过获取所述车间的初始析取图，并将所述初始析取图和所述初始状态信息输入预先训练的结构多层多智能体近端策略优化模型的车间排产模型，对所述车间进行排产，能够采用MMPPO模型配合析取图实现柔性车间排产，能够实现车间排产的全局较优，并且大大提升了车间排产运算速度以及使用场景。

下面结合具体实施例，对图1中的每个步骤进行具体说明：

在步骤S1中，获取车间内待排产的初始状态信息。

在本发明的一种示例性实施例中，参考图2所示的系统架构，可以包括：用户侧移动终端设备201、用户侧智能终端设备204和服务器203等。用户侧移动终端设备201、用户侧智能终端设备204和服务器203之间，均可以通过网络202进行数据传输。网络可以包括各种连接类型，例如有线通信链路、无线通信链路等等。上述的车间排产方法可以执行在服务器端、用户侧的终端设备或者由用户侧的终端设备与服务器端协作执行。以上述的方法执行在服务器端为例进行说明。用户侧终端设备获取车间内待排产的初始状态信息后，将该初始状态信息发送至服务器，服务器根据所述初始状态信息获取所述车间的初始析取图，再将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果，所述车间排产模型为MMPPO模型。进一步地，服务器再将排产结果发送至用户侧的终端设备。

在本发明的一种示例性实施例中，所述初始状态信息包括车间内待排产的初始工件工序的初始工件工序信息和所述车间内待排产初始工件设备的初始设备信息，上述获取车间内待排产的初始状态信息包括：

S11、获取所述车间内所有工件的工件工序信息以及所述车间内所有设备的设备信息。

S12、获取所述车间内正在排产的目标工件的工件工序信息以及目标设备的设备信息；

S13、根据所述目标工件工序的工件工序信息以及所述目标设备的设备信息和所述车间内所有的工件工序的工件工序信息以及所述车间内所有设备的设备信息确定所述初始工件工序信息和所述初始设备信息。

在本发明的一种示例性实施例中，工件工序的工件工序信息包括该工件的标识信息、工件的加工顺序（以下简称工序）、各工序的加工时长以及各工序对应的设备的标识信息等。设备的设备信息包括该设备的标识信息以及该设备是否可用的指示信息等。

例如，车间内所有的工件为O1、O2…ON，N为大于1的整数。工件O1的工序为O11-O12-…，各工序对应的加工时长分别为T11、T12…。工件O2的工序为O21- O22-…，O2的各工序对应的加工时长分别为T21、T22…工件ON的工序为ON1- ON2-…，各工序对应的加工时长分别为TN1、TN2…。车间内所有的设备为M1、M2…ML，L为大于1的整数。车间内正在排产的工件为O1以及O2，工件O1的当前加工工序为O12，O12对应的加工设备为M2，工件O1未加工的工序还剩O13，O2当前加工工序为最后一个工序O24，O24对应的加工设备为M1。

因此，车间内待排产的初始工件为O1、O3…ON，工件O1待排产的初始工序为O13，工件O3的初始待排产工序为工件O3的所有工序…工件ON待排产的初始工序为工件O3的所有工序，车间内待排产的初始设备包括M3、M4…ML。

在步骤S2中，根据所述初始状态信息获取所述车间的初始析取图。

进一步地，获取车间内待排产的初始工件工序信息和初始设备信息后，将该初始工件工序信息和该初始设备信息输入析取图模型，以获取车间的初始析取图。

在本发明的一种示例性实施例中，析取图模型G=（N,A,E）。其中，N是所有工件工序组成的节点集，其中0和*表示两个虚设的起始工序和终止工序。节点集N={0,O11,O12,O13,O21,O22,O23,O31,O32,O33,*}，每个节点的权值为该节点工序在对应设备上的加工时间；A是连接同一个工件的邻接工序间的有向弧集，表示工序之间的先后加工顺序约束。有向弧集A={（O11,O12）（O12,O13）（O21,O22）（O22,O23）（O31,O32）（O32,O33）}。通过析取图模型获取的车间的析取图如图3所示，S表示状态，M1、M2以及M3表示设备。Oij就是工件Oi的第j道工序，i、j均为正整数，J表示终点；E表示时间步。

在步骤S3中，将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果，所述车间排产模型为多层多智能体近端策略优化模型。

进一步地，获取车间的初始析取图后，可以采用图神经网络获取该初始析取图的图像特征，再将该图像特征和该初始状态信息输入该MMPPO模型，以对该车间进行排产，得到车间排产结果。

基于上述内容，在本发明的一种示例性实施例中，如图4所示，所述车间排产模型40包括演员网络41和与所述演员网络连接的评论家网络42，上述将所述析取图和所述设备信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果包括：

S31、将所述初始析取图和所述初始状态信息输入所述演员网络，以获取所述车间内的当前选择动作。

在本发明的一种示例性实施例中，车间排产模型在模拟车间生产环境时，需要在每一时间步，将工件工序安排到可选设备集合中的一台上。因此，车间排产模型需要同时控制多个动作（工件工序选择动作和设备选择动作）。因此，通过车间排产模型可以采用MMPPO模型。该MMPPO模型采用多个演员-评论家架构，并采用近端策略优化（Proximal PolicyOptimization，PPO）算法作为其策略优化方法，以学习工件工序选择动作的子策略和设备选择动作的子策略。PPO算法是一种先进的策略梯度方法，具有单个演员-评论家结构，广泛用于处理离散和连续控制任务。然而，由于PPO算法通常包含一个演员来学习一个子策略，每个时间步只能控制一个动作。因此，PPO算法不能直接用于处理多动作任务。基于此，本发明的MMPPO采用工件工序演员网络和设备演员网络两个演员网络，分别通过工件工序演员网络和设备演员网络学习工件工序选择动作的子策略和设备选择动作的子策略。

在本发明的一种示例性实施例中，可以采用图神经网络获取该初始析取图的图像特征，再将该图像特征和该设备信息输入该演员网络，以获取所述车间内工件工序的当前选择动作和所述车间内所述设备的当前选择动作。

循环执行第一预设步骤，直至所述车间内待排产的下一工件工序信息和/或所述车间内待排产的下一设备信息为空时，输出所述车间排产结果，所述第一预设步骤包括：

S32、将所述当前选择动作输入所述评论家网络，以确定所述车间内待排产的下一状态信息；

S33、将所述下一状态信息作为所述车间的当前状态信息；

S34、根据所述当前状态信息获取所述车间的当前析取图；

S35、将所述当前析取图和所述当前状态信息输入所述演员网络，以获取所述车间内的当前选择动作。

在本发明的一种示例性实施例中，如图4所示，所述演员网络41包括工件工序演员网络411和设备演员网络412，所述当前选择动作包括工件工序的当前选择动作和设备的当前选择动作，所述将所述初始析取图和所述初始状态信息输入所述演员网络，以获取所述车间内当前选择动作包括：

将所述初始析取图和所述初始状态信息输入所述设备演员网络，以获取所述车间内设备的当前选择动作。

在本发明的一种示例性实施例中，可以采用图神经网络获取该初始析取图的图像特征，再将该图像特征和该状态信息输入该工件工序演员网络，以获取所述工件工序的当前选择动作，并将该图像特征和该状态信息输入该设备演员网络，以获取所述设备的当前选择动作。

在本发明的一种示例性实施例中，所述演员网络包括编码器和所述编码器连接的解码器，所述解码器与所述评论家网络连接，所将所述当前析取图和所述当前设备信息输入所述演员网络，以获取所述工件工序的当前选择动作和所述设备的当前选择动作分布包括：

S351、将所述当前析取图和所述当前状态信息输入所述编码器，以获取所述当前选择动作的概率分布；

在本发明的一种示例性实施例中，如图4所示，工件工序演员网络411包括工件工序编码器4111和工件工序编码器4111连接的工件工序解码器4112，可以将所述当前析取图和所述状态信息中的当前工件工序信息输入工件工序编码器4111，以获取工件工序的下一选择动作的第一概率分布。

在本发明的一种示例性实施例中，如图4所示，设备演员网络412包括设备编码器4121和设备编码器4121连接的设备解码器4122，可以将所述当前析取图和所述当前状态信息中的当前工件工序信息输入设备编码器4121，以获取设备下一选择动作的第二概率分布。

S352、将所述概率分布输入所述解码器，以获取所述当前选择动作。

在本发明的一种示例性实施例中，将所述第一概率分布和所述第二概率分布分别输入所述工件工序解码器4112和设备解码器4122，以获取工件工序的当前选择动作和所述设备的当前选择动作。

基于上述内容，在本发明的一种示例性实施例中，所述将所述初始析取图和所述初始设备信息输入预先训练的车间排产模型前，所述方法还包括：

S41、获取训练集，所述训练集包括多个已排产车间在排产前的初始状态信息以及所述已排产车间在排产过程中每个时间步的状态信息。

在本发明的一种示例性实施例中，可以随机抽样算法从数据库中抽取B个样本。B个样本为B个已排产车间在排产前的状态信息以及所述已排产车间排产过程中每个时间步的状态信息。其中，B为大于1的整数。该数据库中存储所有已排产车间在排产前的状态信息以及排产过程中每个时间步的状态信息。该B个已排产车间在数据库中的所有已排产车间中均匀分布。通过采用随机抽样算法从数据库中抽样均匀分布的训练集，能够实现采用小规模数据训练车间排产模型，在大规模的车间的排产上具有很好的泛化性，一次训练便可多次离线使用进行排产，大大节省训练成本。

S42、采用所述训练集对所述车间排产模型进行训练。

在本发明的一种示例性实施例中，所述采用所述训练集对所述车间排产模型进行训练包括：

S421、根据所述演员网络的第一参数和所述训练集确定所述演员网络的总损失函数；

在本发明的一种示例性实施例中，采用演员网络的初始选择策略从训练集中的B个样本中采样在每个时间步的选择动作（包括工件工序选择动作和设备选择动作），初始选择策略由第一参数决定。然后基于该选择动作确定评论家网络对于该选择动作的奖励和与执行该选择动作后下一个时间步对应的车间状态，直至到达最后一个车间的最后一个时间步。然后采用如下公式计算车间排产模型的估计器以及第三参数:

（1）

其中，表示估计器；/>表示第三参数；r表示奖励，奖励包含多种优化目标的加权组合（例如齐套优化、交付率优化、均衡生产优化、最小完工时间优先等优化目标）；b表示当前车间，b的取值区间为【1，P】，P为大于1的整数。T为当前车间的最后一个时间步；t表示当前车间的当前时间步；o表示工序集合；m表示设备集合；a表示选择动作；s表示车间的状态；h表示当前时间步对应的工序集合和设备集合；/>表示演员网络的第一参数；/>表示当前时间步对应的第一参数；/>表示当前选择策略；/>表示初始选择策略；/>表示当前时间步和当前车间对应的评论家网络的状态值函数的近似。

进一步地，得到估计器和第三参数后，采用如下公式分别计算工件工序演员网络的第一损失函数和设备演员网络的第二损失函数：

（2）

（3）

其中，表示第一损失函数；/>表示第二损失函数；/>表示获取期望值运算；/>为小于1的常数；clip表示将第三参数限制在/>到/>之内；/>表示获取熵值运算。

进一步地，确定第一损失函数和第二损失函数后，采用如下公式确定演员网络的总损失函数：

；（4）

其中，表示总损失函数，/>表示演员网络的策略损失系数，/>表示演员网络的熵损失系数。

S422、根据所述评论家网络的第二参数和所述训练集确定所述评论家网络的评价损失函数。

在本发明的一种示例性实施例中，可以采用如下公式确定评论家网络的评价损失函数：

（5）

其中，表示评价损失函数，/>表示评论家网络的第二参数，/>表示当前时间步对应的评论家网络的状态值函数的近似。

S423、采用策略梯度算法分别确定所述总损失函数的最小值和所述评价损失函数的最小值；

S424、根据所述总损失函数的最小值和所述评价损失函数的最小值分别更新所述第一参数和所述第二参数。

在本发明的一种示例性实施例中，可以循环第二执行预设步骤，直至到达预设循环次数，得到更新后的第一参数和第二参数，第二预设步骤包括：

采用策略梯度算法中的PPO算法分别确定总评价损失函数的第一最小值和所述评价损失函数的第二最小值，然后确定与第一最小值对应的演员网络的新的第一参数，并确定与第二最小值对应的评论家网络的新的第二参数；

将新的第一参数和新的第二参数再次代入公式（1）计算估计器和第三参数，并将新的第二参数代入公式（5）再次计算评论家网络的评价损失函数；

将再次计算的估计器和第三参数代入公式（2）至（4）再次计算演员网络总评价损失函数。

采用上述方式训练的车间排产模型在普通机器上运行，5000个工序排产只需10分钟左右的时间，相比其他动辄几个小时智能排产算法极大的提升了车间排产运算速度，极大提升了实用性和用户体验。

综上所述，本发明提供的车间排产方法，车间排产模型能够配合析取图和图神经网络实现柔性车间排产，同时满足柔性车间排产的多种约束条件，大大增加了适用场景，并且车间模型采用小规模数据训练，在大规模的车间排产上具有很好的泛化性，一次训练便可多次离线使用进行排产，大大节省训练成本。

介绍了本发明示例性实施方式的车间排产方法之后，接下来，参考图5对本发明示例性实施方式的车间排产装置进行描述。

参考图5所示，本发明示例性实施方式的车间排产装置50可以包括：

状态信息获取模块501，用于获取车间内待排产的初始状态信息；

析取图获取模块502，用于根据所述初始状态信息获取所述车间的初始析取图；

车间排产模块503，用于将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果，所述车间排产模型为多层多智能体近端策略优化模型。

在本发明的一种示例性实施例中，所述多层多智能体近端策略优化模型包括演员网络和与所述演员网络连接的评论家网络，所述车间排产模块包括：

当前选择动作获取单元，用于将所述初始析取图和所述初始状态信息输入所述演员网络，以获取所述车间内的当前选择动作；

预设步骤执行单元，用于循环执行预设步骤，直至所述车间内待排产的下一状态信息为空时，输出所述车间排产结果，所述预设步骤包括：

将所述下一状态信息作为所述车间的当前状态信息；

根据所述当前状态信息获取所述车间的当前析取图；

在本发明的一种示例性实施例中，所述演员网络包括工件工序演员网络和设备演员网络，所述当前选择动作包括工件工序的当前选择动作和设备的当前选择动作，所述车间排产模块包括：

工件工序当前选择动作获取单元，用于将所述初始析取图和所述初始状态信息输入所述工件工序演员网络，以获取所述工件工序的当前选择动作；

设备当前选择动作获取单元，用于将所述初始析取图和所述初始状态信息输入所述设备演员网络，以获取所述设备的当前选择动作。

在本发明的一种示例性实施例中，所述演员网络包括编码器和与所述编码器连接的解码器，所述解码器与所述评论家网络连接，所将所述当前析取图和所述当前状态信息输入所述演员网络，以获所述当前选择动作包括：

在本发明的一种示例性实施例中，所述装置还包括：

模型训练模块，用于获取训练集，所述训练集包括多个已排产车间在排产前的初始状态信息以及所述已排产车间在排产过程中每个时间步的状态信息；

采用所述训练集对所述车间排产模型进行训练。

在本发明的一种示例性实施例中，所述多层多智能体近端策略优化模型包括演员网络和与所述演员网络连接的评论家网络，所述模型训练模块包括：

总损失函数确定单元，用于根据所述演员网络的第一参数和所述训练集确定所述演员网络的总损失函数；

评价损失函数确定单元，用于根据所述评论家网络的第二参数和所述训练集确定所述评论家网络的评价损失函数；

最小值确定单元，用于采用策略梯度算法分别确定所述总损失函数的最小值和所述评价损失函数的最小值；

参数更新单元，用于根据所述总损失函数的最小值和所述评价损失函数的最小值分别更新所述第一参数和所述第二参数。

在本发明的一种示例性实施例中，所述初始状态信息包括车间内待排产的初始工件工序的初始工件工序信息和所述车间内待排产初始工件设备的初始设备信息，所述状态信息获取模块包括：

第一信息获取单元，用于获取所述车间内所有的工件工序的工件工序信息以及所述车间内所有设备的设备信息；

第二信息获取单元，用于获取所述车间内正在排产的目标工件工序的工件工序信息以及目标设备的设备信息；

第三信息确定单元，用于根据所述目标工件工序的工件工序信息所述以及所述目标设备的设备信息和所述车间内所有的工件工序的工件工序信息以及所述车间内所有设备的设备信息确定所述初始工件工序信息和所述初始设备信息。

由于本发明实施方式的车间排产装置的各个功能模块与上述车间排产方法发明实施方式中相同，因此在此不再赘述。

在介绍了本发明示例性实施方式的车间排产方法、车间排产装置之后，接下来，参考图6对本发明示例性实施方式的存储介质进行说明。参考图6所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在介绍了本发明示例性实施方式的存储介质之后，接下来，参考图7对本发明示例性实施方式的电子设备进行说明。

图7显示的电子设备70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备70以通用计算设备的形式表现。电子设备70的组件可以包括但不限于：至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1中所示的步骤S1至步骤S3。

存储单元720可以包括易失性存储单元，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以包括数据总线、地址总线和控制总线。

电子设备70也可以与一个或多个外部设备80 (例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口750进行。电子设备70还包括显示单元740，其连接到输入/输出(I/O)接口750，用于进行显示。并且，电子设备70还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备70的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。应当注意，尽管在上文详细描述中提及了速率控制装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所发明的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种车间排产方法，其特征在于，包括：

获取车间内待排产的初始状态信息；

根据所述初始状态信息获取所述车间的初始析取图；

将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果，所述车间排产模型为多层多智能体近端策略优化模型；

所述多层多智能体近端策略优化模型包括演员网络和与所述演员网络连接的评论家网络，所述将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果包括：

将所述下一状态信息作为所述车间的当前状态信息；

根据所述当前状态信息获取所述车间的当前析取图；

将所述当前析取图和所述当前状态信息输入所述演员网络，以获取所述车间内的当前选择动作；

所述车间内的当前选择动作包括所述车间内工件工序的当前选择动作和所述车间内设备的当前选择动作，所述将所述初始析取图和所述初始状态信息输入所述演员网络，以获取所述车间内的当前选择动作包括：

2.根据权利要求1所述的方法，其特征在于，所述演员网络包括编码器和与所述编码器连接的解码器，所述解码器与所述评论家网络连接，所述将所述当前析取图和所述当前状态信息输入所述演员网络，以获取所述车间内的当前选择动作包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型前，所述方法还包括：

采用所述训练集对所述车间排产模型进行训练。

4.根据权利要求3所述的方法，其特征在于，所述多层多智能体近端策略优化模型包括演员网络和与所述演员网络连接的评论家网络，所述采用所述训练集对所述车间排产模型进行训练包括：

5.根据权利要求1所述的方法，其特征在于，所述初始状态信息包括车间内待排产的初始工件工序的初始工件工序信息和所述车间内待排产初始工件设备的初始设备信息，所述获取车间内待排产的初始状态信息包括：

6.一种车间排产装置，其特征在于，包括：

车间排产模块，用于将所述初始析取图和所述初始状态信息输入预先训练的车间排产模型，以对所述车间进行排产，得到车间排产结果，所述车间排产模型为多层多智能体近端策略优化模型；

所述多层多智能体近端策略优化模型包括演员网络和与所述演员网络连接的评论家网络，所述车间排产模块包括：

将所述下一状态信息作为所述车间的当前状态信息；

根据所述当前状态信息获取所述车间的当前析取图；

所述演员网络包括工件工序演员网络和设备演员网络，所述车间内的当前选择动作包括所述车间内工件工序的当前选择动作和所述车间内设备的当前选择动作，所述车间排产模块包括：

7.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的车间排产方法。

8.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至5中任一项所述的车间排产方法。