CN111079974A

CN111079974A - 一种信息处理方法、电子设备和计算机存储介质

Info

Publication number: CN111079974A
Application number: CN201911108018.2A
Authority: CN
Inventors: 梁翼; 宋天恒; 孙赞
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-04-28
Anticipated expiration: 2039-11-13
Also published as: CN111079974B

Abstract

本申请实施例公开了一种信息处理方法，该方法包括：获得与历史订单关联的多个仿真环境；获得多个策略网络；其中，策略网络的个数与仿真环境的个数相同；多个策略网络相同；获取与历史订单关联的目标订单，并在不同的仿真环境与每一策略网络进行交互的过程中对目标订单进行生产计划排程，得到梯度更新值；基于梯度更新值，对策略网络进行更新，得到更新后的策略网络。本申请的实施例同时还公开了一种电子设备和计算机存储介质。

Description

一种信息处理方法、电子设备和计算机存储介质

技术领域

本申请涉及但不限于计算机技术领域，尤其涉及一种信息处理方法、电子设备和计算机存储介质。

背景技术

相关技术中，生产线生产计划排程(简称排产)是指在产能、开工时间有限的生产线上，经过某种优化决策过程得到以提升总产量、改善交货期满足率、平衡各产线占用率等为目标的合理有效的生产计划的过程。现代企业通过优化排产提升生产效率，改善企业效益。

然而，相关技术中采用固定的参数构建一个仿真环境，并基于该唯一的仿真环境与策略网络进行交互，进而基于交互结果更新策略网络，如此，导致得到的更新后的策略网络可用性较差。

发明内容

本申请实施例期望提供一种信息处理方法、电子设备和计算机存储介质。

本申请的技术方案是这样实现的：

一种信息处理方法，所述方法包括：

获得与历史订单关联的多个仿真环境；

获得多个策略网络；其中，所述策略网络的个数与所述仿真环境的个数相同；所述多个策略网络相同；

获取与所述历史订单关联的目标订单，并在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程，得到梯度更新值；

基于所述梯度更新值，对所述策略网络进行更新，得到更新后的策略网络。

可选的，所述获得与历史订单关联的多个仿真环境，包括：

获得所述历史订单；其中，所述历史订单包括订单数据；

基于所述订单数据，生成产能波动函数；

基于所述产能波动函数，构建所述多个仿真环境。

可选的，所述基于所述产能波动函数，构建所述多个仿真环境，包括：

获得生产线参数；

基于所述产能波动函数和所述生产线参数，构建所述多个仿真环境。

可选的，所述在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程，得到梯度更新值，包括：

在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程，得到与不同的所述仿真环境对应的梯度值；

对多个所述梯度值进行加权平均，得到所述梯度更新值。

可选的，所述基于所述梯度更新值，对所述策略网络进行更新，得到更新后的策略网络，包括：

通过梯度下降算法基于所述梯度更新值，对所述策略网络进行更新，得到更新后的策略网络。

可选的，所述方法还包括：

基于所述梯度更新值，更新与所述策略网络关联的价值网络；其中，所述价值网络用于对所述更新后的策略网络进行评估。

一种电子设备，所述电子设备包括：处理器、存储器和通信总线；

所述通信总线用于实现处理器和存储器之间的通信连接；

所述处理器用于执行所述存储器中存储的信息处理程序，以实现如下的步骤：

获得与历史订单关联的多个仿真环境；

可选的，所述处理器还用于执行所述存储器中存储的信息处理程序，以实现如下的步骤：

获得所述历史订单；其中，所述历史订单包括订单数据；

基于所述订单数据，生成产能波动函数；

基于所述产能波动函数，构建所述多个仿真环境。

获得生产线参数；

一种计算机存储介质，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述的信息处理的方法的步骤。

本申请实施例所提供的信息处理方法、电子设备和计算机存储介质，获得与历史订单关联的多个仿真环境，即获得与真实历史订单关联的多个仿真环境，以确保本方案适应真实场景中环境参数的波动；进而，获得多个策略网络；其中，策略网络的个数与仿真环境的个数相同；多个策略网络相同；获取与历史订单关联的目标订单，并在不同的仿真环境与每一策略网络进行交互的过程中对目标订单进行生产计划排程，得到梯度更新值，即在并行训练的过程中得到多个梯度更新值；基于梯度更新值，对策略网络进行更新，得到更新后的策略网络；如此，解决了相关技术中基于唯一的仿真环境与策略网络进行交互，进而基于交互结果更新策略网络所导致的得到的更新后的策略网络可用性较差的问题，从而在实际生产过程中即使参数发生波动依然可获得稳定解，即在参数发生波动时确保更新后的策略网络的可用性较好，并且确保更新后的策略网络具有更好的鲁棒性。

附图说明

图1为本申请的实施例提供的一种信息处理方法的流程示意图；

图2为本申请的实施例提供的另一种信息处理方法的流程示意图；

图3为本申请的实施例提供的又一种信息处理方法的流程示意图；

图4为本申请的另一实施例提供的一种多仿真环境的强化学习架构的流程示意图；

图5为本申请的实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

相关技术中，排产是指在产能、开工时间有限的生产线上，经过某种优化决策过程得到以提升总产量、改善交货期满足率、平衡各产线占用率等为目标的，合理有效的生产计划的过程。现代企业通过优化排产提升生产效率，改善企业效益。

目前制造业中普遍采用的排产方案有人工团队排产、专家系统排产、基于传统启发式算法的排产等。

在传统制造业中，人工团队排产依然占据主流。人工排产具有以下不足：1、排产过程费时费力，每班排产计划的产生都需要消耗大量的工时和人力，对于复杂生产场景该问题尤为严重；2、人工排产难以做到针对某项指标进行优化排产，尤其难以兼顾多个优化目标，由此造成了产能和人力的浪费。而专家系统排产则面临优化效果不显著、优化目标单一等问题。

基于启发式优化算法的排产框架因其开发简便响应迅速，被一些先行引入自动化和智能化生产管理系统的企业采用进而实现排程。启发式优化排产算法将排产定义为数学优化问题，并利用各种启发式算法求解出优化的排产结果。通常，这类排产架构能够以较少的时间和成本，得到各项指标比人工排产结果更优的生产计划表。然而，当生产规模较大或生产流程较复杂时，启发式算法无法兼顾解的质量和计算时效，而这两者在现实生产中都非常重要。

由此，提出了由数据驱动的，基于大数据的深度学习优化算法。一方面，基于深度学习的优化算法虽然可避免上述传统方案的缺点，但受限于较大的数据需求量以及复杂的训练过程，现阶段很难落实到具体工业场景上。另一方面，生产线产能、成本等参数随时间变化较大，基于预训练的机器学习模型泛化性及鲁棒性常常满足不了产线生产的实际需求。由于这些原因，数据驱动机器学习优化算法至今没有在排产中被采用。综上，当面对大规模排产时，无论是基于人工还是基于传统优化算法的排产方案，都无法及时得出优化的排产策略；而且相关技术中仅采用固定的参数构建一个仿真环境，并基于该唯一的仿真环境与策略网络进行交互，进而基于交互结果更新策略网络，如此，导致得到的更新后的策略网络可用性较差。

为了便于理解本申请实施例所提供的信息处理方法，在此，对本申请实施例所涉及的强化学习的相关知识进行简要说明；强化学习任务通常使用马尔可夫决策过程(Markov Decision Process，MDP)来描述。

强化学习包括如下关键要素：智能体(agent)，奖励(reward)，行为(action)，状态(state)，环境(environment)。其中，agent主要涉及到：策略(Policy)，价值函数(ValueFunction)和模型(Model)。Policy，可以理解为行动指南，让agent执行什么动作，在数学上可以理解为从状态state到动作action的映射，可分为确定性策略(Deterministicpolicy)和随机性策略(Stochastic policy)，Deterministic policy是指在某特定状态下执行某个特定动作，Stochastic policy是根据概率来执行某个动作。Value Function，可以理解为对未来总Reward的一个预测。Model，可以理解为一个对环境的认知框架，可以预测采取动作后的下一个状态是什么，有些情况下是没有模型的，agent只能通过与环境互动来提升策略。environment可以分为完全可观测环境(Fully Observable Environment)和部分可观测环境(Partially Observable Environment)。Fully Observable Environment就是agent了解了整个环境，显然是一个理想情况。Partially Observable Environment是agent了解部分环境的情况，剩下的需要靠agent去探索。

智能体(agent)在进行某个任务时，首先与environment进行交互，产生新的状态state，同时环境给出奖励reward，如此循环下去，agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互，产生新的数据，再利用新的数据去修改自身的动作策略，经过数次迭代后，agent就会学习到完成任务所需要的动作策略。

本申请的实施例提供一种信息处理方法，应用于电子设备，参照图1所示，该方法包括以下步骤：

步骤101、获得与历史订单关联的多个仿真环境。

本申请实施例中，历史订单包括有限数量的真实订单；多个仿真环境包括根据历史订单构建的在一定的波动范围内的多个仿真环境。这里，仿真环境可以理解为用于模拟真实世界中动态问题的神经网络。在一个环境environment中，每个状态为电子设备对当前环境的感知；电子设备可以通过动作来影响环境，当电子设备执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。

步骤102、获得多个策略网络。

其中，策略网络的个数与仿真环境的个数相同；多个策略网络相同。

本申请实施例中，电子设备在获得初始的一个策略网络后，可以基于初始的策略网络进行复制，得到多个策略网络。

步骤103、获取与历史订单关联的目标订单，并在不同的仿真环境与每一策略网络进行交互的过程中对目标订单进行生产计划排程，得到梯度更新值。

本申请实施例中，目标订单可以是对历史订单进行分析，得到的一个订单；也可以是对历史订单进行分析，得到的多个订单。这里，对历史订单进行分析所得到的订单，可以是不同于历史订单的订单。进而，在不同的仿真环境与策略网络交互的过程中，可以是对同一订单进行排产，得到梯度更新值；也可以是不同的仿真环境与策略网络交互的过程中，对多个订单进行排产，得到梯度更新值。这里，每一策略网络和不同的环境交互到一定量的数据后，便可以获得不同的环境下的神经网络损失函数的梯度，即梯度更新值。每一策略网络和不同的环境交互的过程是独立的。

步骤104、基于梯度更新值，对策略网络进行更新，得到更新后的策略网络。

本申请实施例中，电子设备在获取到不同环境对应的梯度更新值后，基于多个梯度更新值，对策略网络的网络参数进行调整以实现对策略网络的更新，进而得到更新后的策略网络。

本申请实施例所提供的信息处理方法，获得与历史订单关联的多个仿真环境，即获得与真实历史订单关联的多个仿真环境，以确保本方案适应真实场景中环境参数的波动；进而，获得多个策略网络；其中，策略网络的个数与仿真环境的个数相同；多个策略网络相同；获取与历史订单关联的目标订单，并在不同的仿真环境与每一策略网络进行交互的过程中对目标订单进行生产计划排程，得到梯度更新值，即在并行训练的过程中得到多个梯度更新值；基于梯度更新值，对策略网络进行更新，得到更新后的策略网络；如此，解决了相关技术中基于唯一的仿真环境与策略网络进行交互，进而基于交互结果更新策略网络所导致的得到的更新后的策略网络可用性较差的问题，从而在实际生产过程中即使参数发生波动依然可获得稳定解，即在参数发生波动时确保更新后的策略网络的可用性较好，并且确保更新后的策略网络具有更好的鲁棒性。

基于前述实施例，本申请的实施例提供一种信息处理方法，应用于电子设备，参照图2所示，该方法包括以下步骤：

步骤201、获得与历史订单关联的多个仿真环境。

本申请实施例中，步骤201获得与历史订单关联的多个仿真环境可以通过如下两种方式实现：

方式一，方式一中包括步骤201a1-步骤201a3：

步骤201a1、获得历史订单。

其中，历史订单包括订单数据，这些订单数据是真实的订单数据。

步骤201a2、基于订单数据，生成产能波动函数。

这里，电子设备可以对订单数据进行采样得到第一目标数据，第一目标数据包括产能数据，产能数据是指产线对特定机型单位小时的产出量。电子设备还可以基于订单数据获得历史订单中未包括的第二目标数据，第二目标数据与第一目标数据不同，便于理解的，第二目标数据表征历史订单没有覆盖到的数据；接着，电子设备可以基于第一目标数据和/或第二目标数据，生成产能波动函数；可以理解的，产能波动函数是随时间变化的函数；如此，确保训练得到的网络对排产过程中可能遇到的变化情况的适应能力更强。

步骤201a3、基于产能波动函数，构建多个仿真环境。

方式二，方式二中包括步骤201b1-步骤201b3：

步骤201b1、获得历史订单和生产线参数。

其中，历史订单包括订单数据。生产线参数包括换线成本参数、开线数、并线数以及急单数。这里，生产线参数可以看作随机因子。其中，开线数是指生产车间当班实际开启的产线数量；换线成本指的是产线从一个机型换到另一个机型所需的成本；急单数指的是产线上遇到突发情况而增加的订单数量；开线数指的是产线上新开产线的数量；并线数指的是产线上合并的产线的数量。当然，生产线参数还包括其他参数如人员变动、缺料、坏料等，本申请实施例对生产线参数不做具体限定。

步骤201b2、基于订单数据，生成产能波动函。

步骤201b3、基于产能波动函数和生产线参数，构建多个仿真环境。

如此，电子设备在构建仿真环境的过程中，不仅考虑了产能波动情况，还考虑了生成过程中的多个随机因子，使得构建仿真环境的过程中考虑较多的不同维度的因素，使得构建出的仿真环境覆盖的范围更广，适用性更强，进而，确保基于多个仿真环境，可以得到泛化性较好的网络。

步骤202、获得多个策略网络。

步骤203、获取与历史订单关联的目标订单。

步骤204、在不同的仿真环境与每一策略网络进行交互的过程中对目标订单进行生产计划排程，得到与不同的仿真环境对应的梯度值。

步骤205、对多个梯度值进行加权平均，得到梯度更新值。

这里，电子设备在获取到不同交互过程对应的梯度值之后，对多个梯度值进行加权平均即汇总处理，进而得到梯度更新值，该梯度更新值用于对策略网络和价值网络进行更新；需要说明的是，在获取到不同交互过程对应的梯度值后，并未对每一环境对应的策略网络进行更新，而是等获取到梯度更新值后对公共的策略网络进行更新。

步骤206、通过梯度下降算法基于梯度更新值，对策略网络进行更新，得到更新后的策略网络。

步骤207、基于梯度更新值，更新与策略网络关联的价值网络。

其中，价值网络用于对更新后的策略网络进行评估。

本申请实施例所提供的信息处理方法，将强化学习算法应用在排产策略的学习过程中，基于实际排产任务中产能、换线成本、开线数等参数随时间波动的特点，开发设计了相应的仿真环境。该仿真环境是动态环境，一方面扩充了训练样本模式的丰富程度，使得基于深度强化学习的排产策略学习成为可能。另一方面，它通过模仿各生产参数的波动，使得算法模型对参数高度不稳定的生产环境可稳定的得到优化结果，提升了模型的鲁棒性。

本申请所提供的信息处理方法，可以看作是对异步优势参与者评论员(Asynchronous Advantage Actor-Critic，A3C)的改进，在强化学习训练流程基础上，本申请实施例以有限数量的真实订单和生产线参数为依据，构造大量虚拟环境，从而实现了深度策略网络的异步交互训练，使得算法可以基于小数据量构建深度策略网络。同时，本申请实施例在训练中令虚拟环境的参数模拟真实场景中环境参数的波动，因此训练所得的模型还可以在生产参数发生波动时依然可获得稳定解，从而实现了更好的鲁棒性。

本申请实施例所提供的电子设备具有以下功能特点：使用A3C架构进行强化学习训练，价值网络(Critic)用于降低训练方差，提高训练性能；策略网络(Actor)用于学习排产策略，训练后的策略网络作为排产优化模型使用；环境仿真模块在训练过程中，分批次按照真实的订单和生产线信息如订单产品数量，机型以及换线成本等构造仿真环境。由于不需要样本标注，环境仿真模块可以基于不同的仿真策略同时生成多个仿真环境，以并行训练多个策略网络用于产生不同交互环境下的修正梯度。

基于上述内容可知，采用本申请所提供的信息处理方法，当面对大规模排产问题时，即使现实生产过程中遇到诸如生产线产能波动，生产任务临时调整，生产事故，人员变动，以及缺料、坏料等突发状况，本申请实施例所提供的信息处理方法仍然可以针对这些随突发状况做到实时响应。然而，相关技术中对数据量的依赖，交互时所采用的固定的仿真环境，以及模型训练的困难和鲁棒性不佳等原因无法应对突发状态，无法做到实时响应，从而也不能很好地满足制造业排产需求。可见，本申请实施例所提供的信息处理方法，不仅提高了更新后的策略网络的可用性，而且适应于制造业的排产需求，从而降低了人工和设备成本。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

基于前述实施例，对本申请实施例所提供的信息处理方法作出进一步的说明，该信息处理方法应用于电子设备，参照图3所示，该方法包括以下步骤：

为了便于理解，这里结合图4所示的多仿真环境的强化学习架构示意图，对本申请所提供的信息处理方法进行简要说明；

步骤301、获取历史订单和生产线参数。

这里，历史订单包括订单数据；对历史订单按照交期、数量、机器型号、状态等特征分布进行统计(asynchronous update)；基于历史订单可以确定生产线的产能；生产线参数包括开线和/或并线参数、换线成本以及急单数量。这里历史订单包括真实订单数据(real-world order data)。

步骤302、基于历史订单包括的订单数据生成产能波动函数，并基于产能波动函数和生产线参数构建多个仿真环境。

示例性的，参见图4所示，构建多个仿真环境Env-01、Env-02、Env-03等，需要说明的是构建的多个仿真环境不同。

步骤303、复制相同数量的策略网络，使得每个策略网络的拷贝和一个仿真环境进行交互，每交互一轮完成一次针对目标订单的排产，直到获得完整的排产结果。

示例性的，参见图4所示，电子设备在获取到初始的策略网络Policy Network后，复制与多个仿真环境的个数成同等数量的Policy Network，并且通过不同的Agent执行每个策略网络和对应的一个仿真环境之间的交互，即进行相互作用inter-action，在交互的过程中，对目标订单进行排产，最终将不同交互过程对应的结果进行汇总。

这里，获得完整的排产结果可以理解为针对目标订单分批进行排产，得到关于所有目标订单的排产结果，即得到完整的排产结果。可以理解的，分批进行排产指的是不同的环境与策略网络进行交互的过程中针对同一目标订单进行排产；也可以理解为将目标订单划分为多个部分订单，并在不同的环境与策略网络进行交互的过程中对这些部分订单进行排产。

步骤304、对各策略网络的交互结果进行汇总以更新价值网络。

这里，电子设备对多个策略网络的交互结果进行汇总，可以理解为电子设备对多个交互结果求平均以得到汇总结果，并就汇总结果更新价值网络。

需要说明的是，对各策略网络的交互结果进行汇总后，异步更新(asynchronousupdate)价值网络。

步骤305、通过梯度下降算法更新策略网络，得到更新后的策略网络。

如此循环迭代，直到策略网络在测试集的结果满足优化性和鲁棒性要求，则停止训练，所得策略网络作为模型部署阶段执行排产任务的核心，以实现有效排产。需要说明的是，对各策略网络的交互结果进行汇总后，通过梯度下降算法更新策略网络，得到更新后的策略网络，这一更新也是异步更新实现的。

基于前述实施例，本申请的实施例提供一种电子设备，该电子设备可以应用于图1～2对应的实施例提供的一种信息处理方法中，参照图5所示，该电子设备4包括：处理器41、存储器42和通信总线43，其中：

通信总线43用于实现处理器41和存储器42之间的通信连接。

处理器41用于执行存储器42中存储的信息处理程序，以实现以下步骤：

获得与历史订单关联的多个仿真环境；

获得多个策略网络；其中，策略网络的个数与仿真环境的个数相同；多个策略网络相同；

获取与历史订单关联的目标订单，并在不同的仿真环境与每一策略网络进行交互的过程中对目标订单进行生产计划排程，得到梯度更新值；

基于梯度更新值，对策略网络进行更新，得到更新后的策略网络。

在本申请的其他实施例中，处理器41用于执行存储器42中存储的信息处理程序，以实现以下步骤：

获得历史订单；其中，历史订单包括订单数据；

基于订单数据，生成产能波动函数；

基于产能波动函数，构建多个仿真环境。

获得生产线参数；

基于产能波动函数和生产线参数，构建多个仿真环境。

在不同的仿真环境与每一策略网络进行交互的过程中对目标订单进行生产计划排程，得到与不同的仿真环境对应的梯度值；

对多个梯度值进行加权平均，得到梯度更新值。

通过梯度下降算法基于梯度更新值，对策略网络进行更新，得到更新后的策略网络。

基于梯度更新值，更新与策略网络关联的价值网络；其中，价值网络用于对更新后的策略网络进行评估。

需要说明的是，本实施例中处理器所执行的步骤的具体实现过程，可以参照图1-2对应的实施例提供的信息处理方法中的实现过程，此处不再赘述。

基于前述实施例，本申请的实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如下步骤：

获得与历史订单关联的多个仿真环境；

在本申请的其他实施例中，该一个或者多个程序可被一个或者多个处理器执行，还可以实现以下步骤：

获得历史订单；其中，历史订单包括订单数据；

基于订单数据，生成产能波动函数；

基于产能波动函数，构建多个仿真环境。

获得生产线参数；

基于产能波动函数和生产线参数，构建多个仿真环境。

对多个梯度值进行加权平均，得到梯度更新值。

需要说明的是，本实施例中处理器所执行的步骤的具体实现过程，可以参照图1～2对应的实施例提供的信息处理方法中的实现过程，此处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获得与历史订单关联的多个仿真环境；

2.根据权利要求1所述的方法，其特征在于，所述获得与历史订单关联的多个仿真环境，包括：

获得所述历史订单；其中，所述历史订单包括订单数据；

基于所述订单数据，生成产能波动函数；

基于所述产能波动函数，构建所述多个仿真环境。

3.根据权利要求2所述的方法，其特征在于，所述基于所述产能波动函数，构建所述多个仿真环境，包括：

获得生产线参数；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程，得到梯度更新值，包括：

对多个所述梯度值进行加权平均，得到所述梯度更新值。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述梯度更新值，对所述策略网络进行更新，得到更新后的策略网络，包括：

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

7.一种电子设备，其特征在于，所述电子设备包括：处理器、存储器和通信总线；

所述通信总线用于实现处理器和存储器之间的通信连接；

获得与历史订单关联的多个仿真环境；

8.根据权利要求7所述的电子设备，其特征在于，所述处理器还用于执行所述存储器中存储的信息处理程序，以实现如下的步骤：

获得所述历史订单；其中，所述历史订单包括订单数据；

基于所述订单数据，生成产能波动函数；

基于所述产能波动函数，构建所述多个仿真环境。

9.根据权利要求8所述的电子设备，其特征在于，所述处理器还用于执行所述存储器中存储的信息处理程序，以实现如下的步骤：

获得生产线参数；

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至6中任一项所述的信息处理的方法的步骤。