CN113222253B

CN113222253B - 排产优化方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113222253B
Application number: CN202110524903.XA
Authority: CN
Inventors: 肖俊河; 李�杰; 刘斌; 郭宇翔; 傅慧初; 王芳
Original assignee: Zhuhai Exx Intelligent Technology Co ltd
Current assignee: Zhuhai Exx Intelligent Technology Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-09-30
Anticipated expiration: 2041-05-13
Also published as: CN113222253A

Abstract

本发明公开了一种排产优化方法、装置、设备及计算机可读存储介质，本发明排产优化方法包括：根据采集的环境参数确定预设仿真排产模型的所有状态参数；确定各所述状态参数对应的初始策略，并依次运行各所述初始策略中的训练动作，基于运行结果确定目标总策略；根据所述目标总策略进行排产操作，并输出所述排产操作的排产结果。本发明实现了在保障排产效果的同时，提高了排产效率。

Description

排产优化方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及设备自动化技术领域，尤其涉及一种排产优化方法、装置、设备及计算机可读存储介质。

背景技术

排产问题是n个工件在m台机器上流水线加工，每个工件在每个机器上运行花费的时间不同，且每个机器同一时刻只能加工一个工件，调度的目标是确定工件在每台机器上的加工顺序、每个工序的开工时间，使得最大完工时间最小或其他指标达到最优。因此调度问题或排产问题是工厂生产中密切关心的问题。而目前是利用进化规律而构造的例如遗传算法的智能寻优算法进行查询的，但是这种方法需要构造序列种群并在种群中进行寻优迭代，需要对种群中每个个体分别进行计算，当种群越大时，计算量也越大，从而造成求解一次需要耗费大量时间。

发明内容

本发明的主要目的在于提出一种排产优化方法、装置、设备及计算机可读存储介质，旨在解决如何在保障排产效果的同时，提高排产效率的技术问题。

为实现上述目的，本发明提供一种排产优化方法，所述排产优化方法包括如下步骤：

根据采集的环境参数确定预设仿真排产模型的所有状态参数；

确定各所述状态参数对应的初始策略，并依次运行各所述初始策略中的训练动作，基于运行结果确定目标总策略；

根据所述目标总策略进行排产操作，并输出所述排产操作的排产结果。

可选地，依次运行各所述初始策略中的训练动作，基于运行结果确定目标总策略的步骤，包括：

遍历各所述状态参数，基于各所述初始策略确定遍历的状态参数对应的所有遍历初始策略；

运行各所述遍历初始策略中的训练动作，基于各所述训练动作的运行结果确定最优策略，根据各所述状态参数对应的最优策略确定目标总策略。

可选地，运行各所述遍历初始策略中的训练动作，基于各所述训练动作的运行结果确定最优策略的步骤，包括：

确定所述环境参数中的所有训练动作的数量是否大于预设数量；

若大于预设数量，则将各所述遍历初始策略中的训练动作输入至预设的深度回归模型进行模型训练，基于所述模型训练的训练结果确定最优策略。

可选地，确定所述环境参数中的所有训练动作的数量是否大于预设数量的步骤之后，包括：

若小于或等于预设数量，则获取所述目标训练动作运行完成后产生的回报，并根据所述回报对所述初始策略进行更新，以获取更新策略；

确定各所述训练动作对应的更新策略，并确定各所述更新策略中的策略值，将各所述策略值中的最大策略值对应的更新策略作为最优策略。

可选地，根据所述回报值对所述初始策略进行更新，以获取更新策略的步骤，包括：

确定预设的策略更新算法，将所述遍历的状态参数和所述回报输入至所述策略更新算法进行计算，并将所述计算的计算结果作为更新策略。

可选地，根据所述目标总策略进行排产操作的步骤，包括：

确定所述目标总策略中的初始最优策略，并确定所述初始最优策略中的执行动作和最优状态参数；

运行所述执行动作，将所述预设仿真排产模型的初始状态参数更新为所述最优状态参数，根据所述更新后的最优状态参数确定所述排产操作是否成功。

可选地，根据所述更新后的最优状态参数确定所述排产操作是否成功的步骤，包括：

根据所述更新后的最优状态参数检测所目标总策略中的所有执行动作是否运行完成，并基于所述检测所目标总策略中的所有执行动作是否运行完成的检测结果确定所述排产操作是否成功。

此外，为实现上述目的，本发明还提供一种排产优化装置，所述排产优化装置包括：

采集模块，用于根据采集的环境参数确定预设仿真排产模型的所有状态参数；

运行模块，用于确定各所述状态参数对应的初始策略，并依次运行各所述初始策略中的训练动作，基于运行结果确定目标总策略；

排产模块，用于根据所述目标总策略进行排产操作，并输出所述排产操作的排产结果。

此外，为实现上述目的，本发明还提供一种排产优化设备，所述排产优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的排产优化程序，所述排产优化程序被所述处理器执行时实现如上所述的排产优化方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有排产优化程序，所述排产优化程序被处理器执行时实现如上所述的排产优化方法的步骤。

本发明通过根据采集的环境参数确定预设仿真排产模型的所有状态参数，并会确定各个状态参数对应的初始策略，根据运行各个初始策略中的训练动作的运行结果确定目标总策略，并根据目标总策略进行排产操作，从而避免了现有技术中需要提前构造序列种群，对种群中每个个体分别进行计算，导致计算量过大，排产效率低的现象发生，并且通过提前对预设仿真排产模型中所有状态参数进行训练，以目标总策略，再根据目标总策略进行执行的方式可以减少确定排产方案的计算量，在保障排产效果的同时，提高排产效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的排产优化设备结构示意图；

图2为本发明排产优化方法第一实施例的流程示意图；

图3为本发明排产优化装置的装置模块示意图；

图4为本发明排产优化方法中动作设计的场景示意图；

图5为本发明排产优化方法中强化学习的流程示意图；

图6为本发明排产优化方法中排产操作的流程示意图；

图7为本发明排产优化方法中强化学习训练的流程示意图；

图8为本发明排产优化方法中的策略Q值表的示意图；

图9为本发明排产优化方法中深度回归模型训练的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的排产优化设备结构示意图。

本发明实施例排产优化设备可以是搭载了虚拟化平台的PC机或服务器(如X86服务器)等终端设备。

如图1所示，该排产优化设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及排产优化程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的排产优化程序，并执行以下安全组件的权限配置方法实施例中的操作。

基于上述硬件结构，提出本发明排产优化方法实施例，如下所述。

参照图2，图2为本发明排产优化方法第一实施例的流程示意图，所述排产优化方法包括：

步骤S10，根据采集的环境参数确定预设仿真排产模型的所有状态参数；

在本实施例中，排产可以分为静态排产和动态排产。静态排产是所有带安排加工的工作均处于待加工状态，因而进行一次排产后，各作业的加工被确定，在以后的加工过程中就不再改变。动态排产是作业进入待加工状态，各种作业不断进入系统接受加工，同时完成加工的作业又不断离开，而且在动态排产中还需要考虑作业环境中不断出现的动态扰动，如作业的加工超时、设备的损坏等。因此动态排产需要根据系统中作业、设备等的状况不断地进行调度管控。其中排产(即调度)问题可以表达为n个工件在m台机器上流水线加工，每个工件在每个机器上运行花费的时间不同，且每个机器同一时刻只能加工一个工件，排产的目标就是确定工件在每台机器上的加工顺序、每个工序的开工时间，使得最大完工时间最小或其他指标达到最优。但是目前无法高效地寻找到解决排产问题的最优方案。因此在本实施例中，针对运行速度、生产规模、调度方式，提出一个基于强化学习的调度系统，以任意状态下的决策作为调度基础，在保证可行方案和优化效果的同时，形成可实时调度的快速排产方案。即通过合理调度人力、设备等资源，帮助工厂合理进行产能分配、提高资源利用率、降低生产时间、平衡产线、降低企业成本。并且通过改变传统的人工排产方式，轻松面对复杂high-mix(高混合)生产环境。实时对频繁插单、复杂多变的订单情况进行应对，使企业生产更加灵活高效。而且基于真时产能的生产计划，使供应商交货与工厂同步，从而降低提前订购生产原材料导致的库存成本、运输成本。

因此，在本实施例中，会先提前建立好仿真排产模型(即预设仿真排产模型)，并对仿真排产模型所在环境的环境参数进行采集，其采集的环境参数包括设备信息、产品信息、工艺流程和加工时间等，并根据采集的环境参数定义所有状态参数、所有动作参数和标准回报。

需要说明的是，在本实施例中，排产过程中，产品需要在各个缓冲区和机器中游走，走完其工艺流程即为排产结束。而对于排产过程中的机器来说，当该机器对应的缓冲区有产品时，应当选择其中一个产品进行加工。其中，缓冲区是临时放置产品的地方，位于某一机器或同种类型机器之前，机器加工完成后的一个产品加工需要从缓冲区获取。例如，如图4所示，在排产过程中，可用空闲机器在缓冲区中选择一个产品进行加工，并且每一个或多个机器对应有一个或多个缓冲区，如缓冲区1、缓冲区2、缓冲区3等。其中，缓冲区筛选的方式可以如表1所示。

表1而筛选机器类型的方式可以如表2所示。

表2

在本实施例中，动作参数的设置可以是机器类型的数量乘以缓冲区的数量，如表1所示，缓冲区筛选方式存在3个动作，筛选机器类型方式存在3个动作，则动作参数的数量可以为9个，即9个动作参数。

而且，需要说明的是，在本实施例中，状态参数具有唯一性，即生产过程中进行到的每一个阶段(即时刻)都有且仅有一个状态参数与之对应。各个区域各个产品类型的数量是其中一种状态的表示方式，而且状态参数中所包括的内容可以为加工中机器的数量；各类型机器加工产品的类型分布；缓冲区的产品数量；缓冲区的产品类型分布(各类似的数量)；运输中的产品；未发布到车间的原材料(产品)数量；未发布到车间的原材料(产品)类型分布；已完成生产待发运的产品数量；已完成生产待发运的产品类型分布等中的一种或多种。并且标准回报的设置可以是以用时的相反数进行定义，即若排产的总用时(即总时长)最短，则总回报最大。而且在本实施例中，回报可以结合目标和奖励惩罚进行设置定义，而奖励惩罚(即奖惩)的设计可以如下表3所示。

表3

步骤S20，确定各所述状态参数对应的初始策略，并依次运行各所述初始策略中的训练动作，基于运行结果确定目标总策略；

并且在本实施例中，会根据所有状态参数和所有动作参数构建初始策略。其中初始策略至少包括状态参数和动作参数。并且在确定各个状态参数和各个状态参数对应的初始策略后，需要对仿真排产模型进行强化学习训练，即可以先遍历各个状态参数，并确定遍历的状态参数，以及遍历的状态参数对应的初始策略，并根据初始策略确定遍历的状态对应的所有动作(即训练动作)，并在这些动作中选择一个动作作为目标训练动作。然后再通过仿真排产模型运行该目标训练动作(即动作参数)。

当检测发现仿真排产模型已执行完成目标训练动作，即此时目标训练动作已运行完成，则会产生对应的回报。并且在本实施例中，仿真排产模型每执行完一次动作，都会产生一个与之对应的回报。因此在得到目标训练动作对应的回报后，可以根据此回报确定基于此遍历的状态参数的排产学习过程是否已完成，若未完成，则会在所有动作参数中选择一个新的动作参数作为新的训练动作继续执行，直至确定基于此遍历的状态参数的排产学习过程已完成。并且在目标训练动作运行完成后，仿真排产模型的状态会由未排产状态参数转换为遍历的状态参数。若确定遍历的状态参数对应的排产学习过程已完成，则需要所有的状态参数对应的排产学习过程是否已完成，若未完成，则需要继续执行未完成的状态参数对应的排产学习过程，并确定强化学习训练未完成。若所有的状态参数对应的排产学习过程均已完成，则确定强化学习训练已完成。其中确定遍历的状态参数对应的排产学习过程是否已完成的方式，可以是确定遍历的状态参数对应的最佳动作参数，即确定各个动作参数对应的回报，并在各个回报中选择效果最好(即将获取到的回报和提前设置的标准回报进行对比，以确定效果最好的回报)，回报值最大的回报，再将此回报对应的动作参数作为最佳动作参数，并在确定好遍历的状态参数对应的最佳动作参数后，就可以确定遍历的状态参数对应的排产学习过程已完成。此时就可以确定强化学习训练过程中每个状态参数对应的最优动作参数，并将每一组状态参数和该组状态参数对应的最优动作参数作为一组最优策略，再将所有的状态参数对应的最优策略作为目标总策略。其中，回报可以包括用时、交期、设备利用率、机器设备的切换时间和配方切换等中的一种或多种。

步骤S30，根据所述目标总策略进行排产操作，并输出所述排产操作的排产结果。

当获取到目标总策略后，可以根据目标总策略进行实际的排产操作，并在排产操作完成后，会输出排产操作的排产结果。而强化学习训练和实际的排产操作可以如图5-6所示，即可以根据如图5所示，先构建仿真排产模型并采集环境参数，以确定状态参数、动作参数和标准回报，并根据各个状态参数和各个动作参数构建初始策略。然后再对仿真排产模型执行强化学习训练的学习过程，即对仿真排产模型中的状态进行初始化数据，将仿真排产模型中的状态转换为未排产状态。再遍历各个状态参数，并确定遍历的状态参数对应的初始策略，再根据初始策略获取状态(即遍历的状态参数)对应的动作，并执行动作，确定是否排产(即排产学习)完成，若否，则在保持当前遍历的状态不变的情况下，获取新的动作，并继续执行。若是，即排产完成，则需要确定是否结束训练(即强化学习训练)，若否，则需要继续对其他的状态参数进行排产操作，即更新策略。若是，即结束训练，则输出目标总策略，并结束强化学习训练过程。然后再根据如图6所示进行实际排产的排产操作。并且在开始进行排产操作的排产过程中，先获取所有数据，并根据目标总策略获取状态对应的动作，执行动作，在动作执行完成后，确定是否排产完成。若否(即排产未完成)，则继续获取新的动作执行。若是(即排产完成)，则输出排产结果，直至结束。

例如，以某半导体加工实时排产项目为例，若在该排产项目中只需要确定光刻区加工的情况，则可以将真实环境抽象为一个入口、一个出口、一个缓冲区和各个加工机器，并将状态(即状态参数)设计为各个机器等待加工产品数+各个机器正在加工产品数+缓冲去产品数量+缓冲去正在运往机器的数量+入口产品数+出口完成加工产品数。状态表现为一个向量或一个数组，向量的每一个元素代表某一指定形式的数量，如缓冲区1产品数，机器1产品数，...，缓冲区n产品数，机器n产品数，入口产品数和已完成产品数。而动作(即动作参数)可以设计为“缓冲区Lot选择”+“机器选择”的多动作。其中Lot选择可以是优先级最高、先进先出和可选机台最少。机器选择可以是加工时长最短和机器空闲时间最久。回报可以设置为以阶段用时的相反数作为基础，当机器有相同配方连续加工时，加上一个正数作为奖励。并且在确定某个状态对应的最佳车辆时，可以通过深度回归模型进行确定，即可以先构建多层感知器，如：

其中，n为层数，m_k为各层神经元数，D(S，A)为状态S和动作A为输入的函数，输出为Q值。并且根据上述多层感知器可以得到最佳策略，即：

其中，D(S，a)为状态S和状态S对应的最佳动作a的函数。

并且需要说明的是，在本实施例中的强化学习过程中，可以如图7所示，各阶段回报是动态变化的，希望通过不同组合使最终的回报总和最大，进一步提升其他指标。即由于在排产流程中存在多个阶段，因此可以确定不同阶段对应的状态和动作，并确定不同阶段对应的回报，再根据状态、动作、回报来归纳与训练策略。而回报可以是阶段用时(基础)+相同配方连续加工(附加)，动作可以是缓冲区Lot选择”+“机器选择”的多动作。其中Lot选择可以是优先级最高、先进先出和可选机台最少。机器选择可以是加工时长最短和机器空闲时间最久。并且策略可以是构建多层感知器并利用PPO算法进行深度强化学习得到。

在本实施例中，通过根据采集的环境参数确定预设仿真排产模型的所有状态参数，并会确定各个状态参数对应的初始策略，根据运行各个初始策略中的训练动作的运行结果确定目标总策略，并根据目标总策略进行排产操作，从而避免了现有技术中需要提前构造序列种群，对种群中每个个体分别进行计算，导致计算量过大，排产效率低的现象发生，并且通过提前对预设仿真排产模型中所有状态参数进行训练，以确定目标总策略，再根据目标总策略进行执行的方式可以减少确定排产方案的计算量，在保障排产效果的同时，提高排产效率。

进一步地，基于上述本发明的第一实施例，提出本发明排产优化方法的第二实施例，本实施例中，上述实施例中的步骤S20，依次运行各所述初始策略中的训练动作，基于运行结果确定目标总策略的步骤的细化，包括：

步骤a，遍历各所述状态参数，基于各所述初始策略确定遍历的状态参数对应的所有遍历初始策略；

在本实施例中，在确定强化学习过程中产生的目标总策略时，需要先遍历各个状态参数，并在提前设置的各个初始策略中确定当前时刻遍历的状态参数对应的所有遍历初始策略。其中，所有遍历初始策略中均包含有遍历的状态参数，且各个遍历初始策略中的训练动作不相同。

步骤b，运行各所述遍历初始策略中的训练动作，基于各所述训练动作的运行结果确定最优策略，根据各所述状态参数对应的最优策略确定目标总策略。

并在确定所有的遍历初始策略后，会让仿真排产模型依次执行遍历初始策略中的训练动作，并且在运行各个训练动作时，仿真排产模型的状态会保持和遍历的状态参数一致。再根据仿真排产模型对各个训练动作进行训练后，得到的回报值确定各个训练动作中回报效果最好的训练动作，并将其作为最优训练动作，将最优训练动作对应的初始策略作为最优策略，该最优策略包括有遍历的状态参数和遍历的状态参数对应的最优训练动作。然后再确定是否获取到所有状态参数对应的最优策略，若获取到所有状态参数对应的最优策略，则可以确定强化学习训练已完成，并将所有状态参数对应的最优策略作为目标总策略。

并且在本实施例中，最优策略的训练需要建立一个Q值表来保存状态S和将会采取的所有动作A，即Q(S，A)。例如，如图8所示，Q值表包括动作A1、动作A2，...，动作An；状态S1，状态S2，...，状态Sn；qn1，...，qnm。如q11＝Q(S1，A1)，若状态Sn的qn2最大，则确定状态Sn最佳动作为A2。此时，状态Sn对应的最优策略就包括状态Sn和动作A2。

在本实施例中，通过遍历各个状态参数，并运行遍历的状态参数对应的所有遍历初始策略中的训练动作，以确定最优策略，再根据各个状态参数对应的最优策略确定目标总策略，从而保障了获取到的目标总策略的有效性。

具体地，运行各所述遍历初始策略中的训练动作，基于各所述训练动作的运行结果确定最优策略的步骤，包括：

步骤b，确定所述环境参数中的所有训练动作的数量是否大于预设数量；

在本实施例中，当获取到环境参数，且根据环境参数设置好所有的训练动作后，需要确定训练动作的数量，并检测训练动作的数量是否大于提前设置的数量，根据不同的检测结果执行不同的操作。

步骤c，若大于预设数量，则将各所述遍历初始策略中的训练动作输入至预设的深度回归模型进行模型训练，基于所述模型训练的训练结果确定最优策略。

当经过判断发现，所有训练动作的数量大于预设数量，例如若训练动作的数量为100，而预设数量为50，则确定训练动作的数量大于预设数量，此时就可以先确定遍历的状态参数对应的遍历初始策略，确定所有遍历初始策略中的训练动作，并在保持遍历的状态参数不变的情况下，选择合适的训练动作，并将遍历的状态参数和选择的训练动作作为初始策略输入至提前设置的深度回归模型进行模型训练，以获取模型训练结果，并在保持遍历的状态参数不变的情况，选择新的训练动作再次形成初始策略输入至深度回归模型中进行模型训练，以便根据模型训练的训练结果确定最优策略。例如，如图9所示，将状态S和动作A作为初始策略输入至深度神经网络，得到Q值q，q＝D(S，A)，再更新动作A，得到新的Q值q，并在所有Q值q中选择数值最大的Q值q，并将数值最大的Q值q对应的初始策略作为最优策略。

在本实施例中，通过在确定所有训练动作的数量大于预设数量，将各个遍历初始策略中的训练动作输入至深度神经回归模型进行模型训练，根据训练结果确定最优策略，从而保障了获取到的最优策略的有效性。

具体地，确定所述环境参数中的所有训练动作的数量是否大于预设数量的步骤之后，包括：

步骤d，若小于或等于预设数量，则获取各所述训练动作中目标训练动作对应的运行结果，确定所述运行结果对应的回报，并根据所述回报对所述初始策略进行更新，以获取更新策略；

当经过判断发现所有训练动作的数量小于或等于预设数量，则需要获取各个训练动作中目标训练动作在运行完成后的产生的回报，并将回报输入至提前设置的策略更新算法中进行计算，再根据计算结果对初始策略进行更新，以得到新的策略，即更新策略。其中，目标训练动作是仿真排产模型当前准备运行的训练动作。

步骤e，确定各所述训练动作对应的更新策略，并确定各所述更新策略中的策略值，将各所述策略值中的最大策略值对应的更新策略作为最优策略。

并且在本实施例中，会对每个训练动作都进行相同的操作，以得到各个训练动作对应的更新策略Q(S，A)，再确定各个更新策略中的策略值q，并将所有策略值q中的最大策略值q对应的更新策略作为最优策略，也就是此时可以确定遍历的状态参数对应的最优动作参数。

在本实施例中，通过在确定所有训练动作的数量小于或等于预设数量，根据目标训练动作运行完成后产生的回报对初始策略进行更新，得到更新策略，再根据所有训练动作对应的更新策略中的策略值确定最优策略，从而保障了获取到的最优策略的有效性。

具体地，根据所述回报值对所述初始策略进行更新，以获取更新策略的步骤，包括：

步骤f，确定预设的策略更新算法，将所述遍历的状态参数和所述回报输入至所述策略更新算法进行计算，并将所述计算的计算结果作为更新策略。

在本实施例中，需要确定提前设置的策略更新算法，如：

其中，S为状态；A为动作；R为回报；α为学习率；γ为奖励衰减因子；S^/为新的状态，并且由于α和γ会影响到Q值的训练效果，因此可以根据用户的需求进行设置。在本实施例中，可以设置α＝0.5；γ＝1。并在确定策略更新算法后，可以将遍历的状态参数、回报值、训练动作等参数输入至策略更新算法中进行计算，并将计算得到的计算结果作为更新策略。

在本实施例中，通过确定策略更新算法，并将遍历的状态参数和回报输入到策略更新算法中进行计算，以得到更新策略，从而保障了计算得到的更新策略的准确性。

进一步地，根据所述目标总策略进行排产操作的步骤，包括：

步骤g，确定所述目标总策略中的初始最优策略，并确定所述初始最优策略中的执行动作和最优状态参数；

在本实施例中，由于经过强化学习训练输出得到的目标总策略包括有所有状态参数对应的最优策略，因此可以在这些最优策略中选择一个作为初始最优策略，并确定初始最优策略中所包括的训练动作，将此训练动作作为待执行的执行动作，还需要确定初始最优策略中包括的状态参数，并将此状态参数作为最优状态参数。

步骤h，运行所述执行动作，将所述预设仿真排产模型的初始状态参数更新为所述最优状态参数，根据所述更新后的最优状态参数确定所述排产操作是否成功。

在确定执行动作和最优状态参数后，可以运行执行动作，并将仿真排产模型(即预设仿真排产模型)在未运行执行动作时的状态(即初始状态参数)更新为最优状态参数，再根据仿真排产模型中更新后的最优状态参数确定排产操作是否成功。若排产操作成功，则输出相应的排产结果，若未成功则更新初始最优策略，继续进行排产操作。

在本实施例中，通过确定目标总策略中初始最优策略中的执行动作和最优状态参数，并运行执行动作，将仿真排产模型的初始状态参数更新为最优状态参数，根据更新后的最优状态参数确定排产操作是否成功，从而保障了排产操作的有效进行。

进一步地，根据所述更新后的最优状态参数确定所述排产操作是否成功的步骤，包括：

步骤k，根据所述更新后的最优状态参数检测所目标总策略中的所有执行动作是否运行完成，并基于所述检测所目标总策略中的所有执行动作是否运行完成的检测结果确定所述排产操作是否成功。

在本实施例中，需要根据仿真排产模型中更新后的最优状态参数检测目标总策略中的所有执行动作是否运行完成。也就是由于目标总策略包括多个最优策略，每个最优策略至少包括一个执行动作，因此对目标总策略中的所有执行动作进行检测，若所有最优策略中的执行动作均执行(即运行)过，则可以确定排产操作已完成。若存在某个最优策略中的执行动作未执行，则确定排产操作未完成。

在本实施例中，通过检测目标总策略中的所有执行动作是否运行完成，并基于此检测的检测结果确定排产操作是否成功，从而保障了排产操作的有效进行。

参照图3，本发明还提供一种排产优化装置，本实施例中，所述排产优化装置包括：

采集模块A10，用于根据采集的环境参数确定预设仿真排产模型的所有状态参数；

运行模块A20，用于确定各所述状态参数对应的初始策略，并依次运行各所述初始策略中的训练动作，基于运行结果确定目标总策略；

排产模块A30，用于根据所述目标总策略进行排产操作，并输出所述排产操作的排产结果。

可选地，运行模块A20，用于：

若小于或等于预设数量，则获取各所述训练动作中目标训练动作对应的运行结果，确定所述运行结果对应的回报，并根据所述回报对所述初始策略进行更新，以获取更新策略；

可选地，运行模块A20，用于：

可选地，排产模块A30，用于：

上述各功能模块实现的方法可参照本发明排产优化方法实施例，此处不再赘述。

本发明还提供一种排产优化设备，所述排产优化设备包括：存储器、处理器、以及存储在所述存储器上的排产优化程序：所述处理器用于执行所述排产优化程序，以实现上述排产优化方法各实施例的步骤。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有排产优化程序，所述排产优化程序被处理器执行时实现如上所述的排产优化方法的步骤。

其中，在所述处理器上运行的排产优化程序被执行时所实现的方法可参照本发明排产优化方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种排产优化方法，其特征在于，所述排产优化方法包括如下步骤：

确定各所述状态参数对应的初始策略，并依次运行各所述初始策略中的训练动作，基于运行结果确定目标总策略，其中，所述初始策略包括状态参数和动作参数，所述动作参数包括动作设计，所述状态参数包括加工中机器的数量、各类型机器加工产品的类型分布、缓冲区的产品数量、缓冲区的产品类型分布、运输中的产品、未发布到车间的原材料数量、未发布到车间的原材料类型分布、已完成生产待发运的产品数量、已完成生产待发运的产品类型分布中的一种或多种；所述训练动作包括所述动作参数对应的所有动作；

根据所述目标总策略进行排产操作，并输出所述排产操作的排产结果；

其中，所述依次运行各所述初始策略中的训练动作，基于运行结果确定目标总策略的步骤，包括：

运行各所述遍历初始策略中的训练动作，基于各所述训练动作的运行结果确定最优策略，根据各所述状态参数对应的最优策略确定目标总策略；

其中，所述运行各所述遍历初始策略中的训练动作，基于各所述训练动作的运行结果确定最优策略的步骤，包括：

2.如权利要求1所述的排产优化方法，其特征在于，所述确定所述环境参数中的所有训练动作的数量是否大于预设数量的步骤之后，包括：

3.如权利要求2所述的排产优化方法，其特征在于，所述根据所述回报值对所述初始策略进行更新，以获取更新策略的步骤，包括：

4.如权利要求1-3任一项所述的排产优化方法，其特征在于，所述根据所述目标总策略进行排产操作的步骤，包括：

5.如权利要求4所述的排产优化方法，其特征在于，所述根据所述更新后的最优状态参数确定所述排产操作是否成功的步骤，包括：

6.一种排产优化设备，其特征在于，所述排产优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的排产优化程序，所述排产优化程序被所述处理器执行时实现如权利要求1至5中任一项所述的排产优化方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有排产优化程序，所述排产优化程序被处理器执行时实现如权利要求1至5中任一项所述的排产优化方法的步骤。