CN113988627A

CN113988627A - 基于深度强化学习的协同云排产方法及系统

Info

Publication number: CN113988627A
Application number: CN202111263580.XA
Authority: CN
Inventors: 徐雍; 廖俊森; 鲁仁全; 饶红霞; 彭慧
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-28

Abstract

本发明涉及生产计划排程的技术领域，尤其是涉及基于深度强化学习的协同云排产方法及系统,包括：客户端向调度决策模块输入调度需求信息；边缘设备实时获取智能车间内各个生产线的生产状态数据，将生产状态数据上传到边缘云进行数据的初步处理；边缘云将初步处理后的数据上传至核心云，进行数据融合；调度决策模块接收所述融合数据和所述调度需求信息，并利用深度强化学习算法生成对应每个生产线的调度策略；调度决策模块将调度策略信息传输回边缘云，边缘云实现对各生产线的机器的排产控制；在生产过程中，由异常事件监测模块实时监测智能车间生产过程中的异常数据，并作出报警反馈；本发明能够解决当前车间生产排程效率低下的问题。

Description

基于深度强化学习的协同云排产方法及系统

技术领域

本发明涉及生产计划排程(排产)的技术领域，特别是基于深度强化学习的协同云排产方法及系统。

背景技术

生产排程问题的目标为决策出一个订单中各个作业在各个机器的加工顺序，以确定每个作业的加工任务相对应机台处理的开始时间与结束时间，以便优化衡量排产绩效的指标，例如：准时交货率、平均流程时间、在制品数量、机台与工作人员之闲置时间。而在实际工厂中，工程师大多基于他们先前的经验，或依照生产状况采取某些基本排产法则(派工法则)，例如，先进先出法，亦即先到达的订单产品优先加工处理，以决定各种制造过程所产生的优先顺序问题。由于生产线上的排产问题复杂，导致难以求出最佳的排产组合，目前只能通过不同演算法求得较佳绩效的订单排产组合，所以在研究领域我们将生产排程问题视为NP-hard问题。

现有的生产排程技术多为集中式排产，使得在处理排程问题时电脑的计算稳定性和效率面临巨大挑战。

发明内容

针对上述缺陷，本发明的目的在于提出基于深度强化学习的协同云排产方法及系统，解决当前生产排程效率低下的问题。

为达此目的，本发明采用以下技术方案：

基于深度强化学习的协同云排产方法，包括以下步骤：

A.客户端向调度决策模块输入调度需求信息；

B.边缘设备实时获取智能车间内各个生产线的生产状态数据，将生产状态数据上传到边缘云进行数据的初步处理；

C.边缘云将初步处理后的数据上传至核心云，进行数据融合；

D.调度决策模块接收所述融合数据和所述调度需求信息，并利用深度强化学习算法生成对应每个生产线的调度策略；

E.调度决策模块将调度策略信息传输回边缘云，边缘云实现对各生产线的机器的排产控制；

F.在生产过程中，由异常事件监测模块实时监测智能车间生产过程中的异常数据，并作出报警反馈。

优选的，所述D步骤中，所述调度决策模块运用的深度强化学习算法包括如下步骤：

观察：所述机器会在每一个时间点观察环境状态，并从环境状态中提取出神经网络所需的状态数据；

决策：将取得的状态数据读取至神经网络的输入层，并由隐藏层进行前向传递，以得到输出层的输出；此时机器将根据观察环境状态，并通过神经网络进行决策判断，最后将策略施加到环境中；

动作：机器得到决策输出后，将根据策略采取最佳行动，即机器将采取输出层的最大值对应的动作；

回报：采取动作后，将使得环境状态做出改变，并得到一个回报值，其中回报值为判断目前状态与策略的好坏的评判标准。

优选的，在所述回报步骤中，依据不同决策需求而设计不一样的动作价值函数，以符合排产想达成的目标，动作价值函数为：

Q^π(s,a)＝E_s′[r+λQ^π(s′,a′)|s,a]，

公式的意义为在策略π下的动作价值函数，其产生预期未来状态s′、行动a′所得到的期望值，其中λ为学习率，并进行动作价值函数的优化。

优选的，所述D步骤中调度决策模块接收输入的融合数据，生成对应每个生产线的调度策略具体包括以下步骤：

d1.核心云接收订单生产资料作为训练集输入神经网络的输入层；

d2.在通过隐藏层的计算之后，获得神经网络输出层的输出。

优选的，在所述E步骤之后还包括以下步骤：更新Q值，更新系统特征信息，和神经网络的反向传播。

基于深度强化学习的协同云排产系统，其特征在于：包括智能车间模块、云服务模块和调度决策模块；

所述智能车间模块包括不同的生产线，以及运用于所述生产线的边缘设备及机器，所述机器负责不同的制造加工过程，所述机器受边缘设备监视和控制；

所述云服务模块包括边缘云和核心云，所述边缘云用于接收所述边缘设备的信号并进行处理，所述核心云用于接收由边缘云传输的信号并进行决策，所述核心云将决策结果通过边缘云传递至智能车间；

所述调度决策模块部署在核心云上，所述调度决策模块用于完成深度强化学习模块的训练与决策。

优选的，基于深度强化学习的协同云排产系统还包括异常事件监测模块，所述异常事件监测模块用于实时监测智能车间生产过程中的异常数据。

优选的，所述异常事件监测模块运用一种基于GA和SVM的数据监测方案，用于监控工厂的生产线的生产情况，包括输入数据，特征选择，特征加权和参数优化，训练，分类和中断报警的步骤。

一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的基于深度强化学习的协同云排产方法的步骤。

一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度强化学习的协同云排产方法的步骤。

上述技术方案包括以下有益效果：

本发明提出的基于深度强化学习的协同云排产方法及系统，应用云协同技术，边缘云和核心云互相协同，边缘计算面对边缘设备，直接对边缘设备的数据进行处理，核心云对边缘云传递的信息进行统筹决策处理，可以降低计算资源要求，降低带宽使用量，因此有效降低了订单排程的反应时间，使工厂的生产排程效率得以提高；另外，使用深度强化学习算法处理生产排程问题，提高了排程问题的计算效率；提出了一种基于GA(遗传算法)和SVM(支持向量机)的数据监测方案，实现对生产线的实时监控，对其异常数据进行监测，并将异常数据传达至调度决策模块，使其能够迅速调整分配策略，达到根据实际生产情况实时调配订单及生产资源的效果。

附图说明

图1是本发明的云排产系统的示意图；

图2是本发明的深度强化学习算法的流程图；

图3是本发明的异常事件监测模块的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，用于区别描述特征，无顺序之分，无轻重之分。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面结合图1至图3描述本发明实施例的基于深度强化学习的协同云排产方法及系统：

基于深度强化学习的协同云排产方法，包括以下步骤：

A.客户端向调度决策模块输入调度需求信息；

具体的，本发明主要应用于智能车间的排产，智能车间内具有多个生产线，每一生产线都具有多个负责不同加工过程的机器，并且在智能车间中设置多个边缘设备，所述机器受边缘设备的控制和监视，边缘设备可获取对应机器的生产状态信息。

在本实施例中，边缘设备为可以实时读取智能车间生产状态数据的IoT(Internetof Things)传感器设备，并将生产状态数据上传至边缘云，边缘云对不同传感器产生的多元异构数据进行数据清洗与重构。边缘云产生的智能车间数据上传到核心云，核心云对数据进行融合，形成融合状态数据集。

相比于原生数据，进行清洗与重构后的智能车间数据，删除了重复信息并保证了数据的一致性，缩小了数据的体积，降低了车间数据从边缘云传输至核心云时的带宽压力。

调度决策模块将融合状态数据集作为输入，并根据人为设置的调度需求，输出调度策略，最后施加至智能车间，对智能车间生产线的机器进行调整，根据调度策略生成加工顺序。

本发明运用了边云架构的分布式协同云排产技术，边缘云和核心云互相协同，边缘计算面对边缘设备，直接对边缘设备的数据进行处理，核心云对边缘云传递的信息进行统筹决策处理，可以降低计算资源要求，降低带宽使用量，因此有效降低了订单排程的反应时间，使工厂的生产排程效率得以提高。

具体的，深度学习是有深度神经网络的机器学习，强化学习是估计未来的收益，并根据这些收益对当前动作进行强化的算法设计思想，深度强化学习(Deep ReinforcementLearning)则是使用了深度学习神经网络的强化学习。深度神经网络(Neural Network)包括有输入层(Input Layer)、隐藏层(Hidden Layer)和输出层(Output Layer)，数据由输入层进入，由隐藏层进行前向传递(Forward propagation)，最后由输出层输出。

在本发明中，机器作为决策工具，拥有观察环境、收集环境信息并与环境进行交互的功能；在不同的环境下，机器会执行不同的动作。在云排产的任务中，则其环境为智能车间，而其可能的状态为工厂中各机器的运作情况(如：一次订单的总处理时间、利用率)的集合。深度强化学习可以通过训练的模型在不同状态下选择一个最佳的动作，以建立行为策略去适应环境。另外，基于强化学习的调度策略可以基于深度学习任务在不同调度策略下的性能在线反馈进行自适应学习，并自适应更新调度决策，从而最大化任务执行效率和集群资源利用率。

Q^π(s,a)＝E_s′[r+λQ^π(s′,a′)|s,a]，

公式的意义为在策略π下的动作价值函数，其产生预期未来状态(s′)、行动(a′)所得到的期望值，其中λ为学习率，并进行动作价值函数的优化。

强化学习算法的目标是要优化价值函数(Optimal value function)，亦即在最大化所有策略下的动作价值函数：Q′(s,a)＝maxQ^π(s,a)，并通过更新公式Q′(s,a)＝r+λmaxQ^π(s′,a′)来产生新的Q表值，以更新Q表。Q表为纪录状态与采取动作产生的表格，表格内的数值又称为Q值，根据Q值来选取能够获得最大的收益的动作。其中maxQ(s′,a′)为在某个状态下可执行动作的最大Q值。通过以上过程的不断循环学习，找出满足约束条件的最大Q值的行为策略，可以得到云排产资源的最佳协同利用。

d2.在通过隐藏层的计算之后，获得神经网络输出层的输出。

具体的，订单生产资料包括订单特征信息和系统特征信息，其中，订单特征信息(边缘设备的数量、工件数量、订单的总加工时间、订单中最大加工时间、订单中最小加工时间)为每次批量从工厂获得，系统特征信息(平均流程时间、总加工时间、工作的平均等候处理时间、各机器使用率、各机器在制品数量)为上一笔订单排产的系统状态；通过订单与机器的信息提供排产模型的神经网络，以充足的信息构建一个系统决策。

若是初次启动该系统，执行d1步骤时，每个边缘设备都会为每部机器分配随机或者特定的派工法则，再获取每个机器根据这些派工法则表现出的系统特征作为输入。

上述E步骤中调度决策模块将调度策略信息传输回边缘云，边缘云实现对各生产线的机器的控制具体为：

神经网络的输出层接收加工任务的信息，并决定每一个边缘云所控制的机器所使用的派工法则，调度决策模块将派工法则传递至边缘云，由边缘云实现对生产线的排产控制。

其中常见的派工法则有先进先出法(First In First Out，FIFO)、最短加工时间优先法(Shortest Processing Time，SPT)、最长加工时间有限法(Longest ProcessingTime，LPT)、最长后续加工时间优先法(Most Operations Remaining，MOPNR)、最多后续工作数法(Longest Operation Processing Time)、下一个机器加工时间最短优先法(Shortest Next Queue，SQN)和下一个机器加工时间最长优先法(Longest Next Queue，LQN)等。

在输出层中，每一个神经元对应一种派工法则，因此有7M个神经元，M个一组，其中M为边缘云个数或生产线个数。每个神经元的数值可以表示为该生产线选择这种派工法则的概率，最终，每组神经元按照输出层结果，利用ε-greedy策略决定是否采用每组神经元最大值对应的派工法则，若是，则为这条生产线分配这7个神经元中数值最大的神经元代表的派工法则，若否，则随机指派。上述调度策略信息为若干相对应的派工法则的集合。

各个边缘设备根据被指派的派工法则与所有工作在该生产线机器的加工信息(加工时间、预计抵达机器时间)加以排列所有工作，得到该生产线机器处理工作的加工顺序。

基于动作价值函数求最大Q值的公式：Q′(s,a)＝r+λmaxQ^π(s′,a′)，本发明提出公式q′_m＝[q_m+(μ′_m-μ_m)/μ_m]+λ·Max_aQ[s′,a]，其中q_m+(μ′_m-μ_m)/μ_m为回报函数，而μ_m为第m台机器的利用率，Max_aQ[s′,a]为在状态s′下，选取某个动作a可以得到的最高Q值。

其目的是使得机器的利用率变高，进而减少订单的总完工时间。此时得到新的Q值(q′_m)，将同时更新Q表内的Q值，并用于之后的神经网络修正。

根据核心云的排产结果，计算新的系统特征信息(平均流程时间、总加工时间、工作的平均等候处理时间、各机器使用率、各机器在制品数量)，并作为下一批订单输入神经网络的系统特征信息。

利用更新后的Q值，利用反向传播更新神经网路的隐藏层权重。

本发明将深度学习的感知能力和强化学习的决策能力相结合，通过反馈和更新Q值，应用强化学习来实现经验的快速积累，并针对实时情况作出动态规划，再利用反向传播对机器学习的神经网络进行优化，不断以试错的方式与环境进行交互，通过最大化累积奖赏的方式来获得当前环境的最优策略。

本实施例还公开一种基于深度强化学习的协同云排产系统，其特征在于：包括智能车间模块、云服务模块和调度决策模块；

具体的，本发明将针对在云端计算与边缘计算架构下的智慧工厂，该工厂拥有大量的制造机器，每部机器提供的功能不同，例如产品的切割、接合或封装。工厂的边缘设备通过物联网设备进行资料收集和预处理，并即时接收受控机器的信息和控制机器。

边缘云，是基于云计算技术的，构建在边缘设备之上的云计算平台，形成边缘位置的计算、网络、存储、安全等能力全面的弹性云平台，并与核心云形成“云边协同”的技术构架，通过把网络转发、存储、计算，智能化数据分析等工作放在边缘处理，降低响应时延，减轻云端压力、降低带宽成本，并能提供全网调度等云服务，能够最大程度地降低用户开发和运维成本，弥补传统架构的云计算在某些应用场景中的不足之处。

每个智能车间均配备一个边缘云作为该智能车间与核心云的中间设备，边缘云用于实现对机器的控制；另外，边缘云向核心云传输车间信息，具有收集信息和控制机器的功能，并且负责向智能车间传输控制策略；

核心云连接了所有边缘云，并接收所有边缘云下受控机器的信息，边缘计算在此分散式的架构下，它们将受控机器的信息传输到核心云，核心云根据收集到的信息、历史经验以及工厂当前的整体情况做出决策，然后将其决策发送到边缘设备，并根据这些决策进行受控机器的工单排产。

优选的，所述基于深度强化学习的协同云排产系统还包括异常事件监测模块，所述异常事件监测模块用于实时监测智能车间生产过程中的异常数据。

具体的，在生产线进行订单作业时，需要对生产线的生产情况进行实时监控，并对其异常数据进行监测和反馈。异常事件监测模块通过接收来自智能车间的系统特征信息，生成实时的数据，并将处理后获取的异常数据直接上传到核心云，由调度决策模块对异常数据进行处理，生成针对异常数据的实时调度策略。通过在系统中增加异常事件监测模块，实现对生产线进行实时监控，当生产线发生故障等异常时，能够及时地产生异常数据，并传达至调度决策模块，能够迅速调整分配策略，达到根据实际生产情况实时调配订单及生产资源的效果。

优选的，所述异常事件监测模块运用一种基于GA(遗传算法)和SVM(支持向量机)的数据监测方案，用于监控工厂的生产线的生产情况，包括输入数据，特征选择，特征加权和参数优化，训练，分类和中断报警的步骤。

分别对以上所述步骤进行详细描述：

步骤1：输入系统特征信息数据。输入切片带宽、流量等原始数据，必要时，截取原始数据集中的部分样本数据，去除噪声，并对样本数据集进行归一化处理。

步骤2：特征选择。根据步骤1输入的数据，创建特征染色体，然后根据适应度函数评估染色体，选择最大适应度值的染色体为最优染色体，得到最优特征子集。

步骤3：特征加权和参数优化。根据最优特征子集创建特征权重和SVM参数染色体，评估染色体，选择具有最高分类准确度的染色体为最优染色体，得到最优SVM参数和特征权重。

步骤4：训练。原始数据被随机划分成k个大小相等的子部分，分别保留第1个，第2个…第k个子部分，剩余的k-1个子部分作为训练数据用于训练支持向量机。

步骤5：分类。将保留的第1个，第2个…第k个子部分作为测试数据进行分类，合并k个预测结果。

步骤6：中断报警。最终输出的是攻击检测或异常检测与警报信号。若步骤5预测结果中出现异常数据，则在系统上报警并提醒业务人员。

本发明通过GA(遗传算法)和SVM(支持向量机)的数据监测方案实现对生产线的实时监控，当生产线发生故障等异常时，能及时反馈异常数据并传达报警信号，增强系统的安全性。

根据本发明实施例的基于深度强化学习的协同云排产方法及系统的其他构成等以及操作对于本领域普通技术人员而言都是已知的，这里不再详细描述。

上述基于深度强化学习的协同云排产系统中的各模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备的存储器中，以便于处理器调用执行以上各模块对应的操作。

本实施例还公开一种电子设备，该电子设备可以是服务器，包括通过系统总线连接的处理器和存储器，存储器上存储有能够被处理器加载并执行上述基于深度强化学习的协同云排产方法的计算机程序。

本实施例还公开了一种非暂态计算机可读存储介质，存储有能够被处理器加载并执行上述基于深度强化学习的协同云排产方法的计算机程序。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synch link)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上对本发明的具体实施例进行的描述只是为了说明本发明的技术路线和特点，其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施，但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.基于深度强化学习的协同云排产方法，其特征在于，包括以下步骤：

A.客户端向调度决策模块输入调度需求信息；

2.根据权利要求1所述的基于深度强化学习的协同云排产方法，其特征在于：所述D步骤中，所述调度决策模块运用的深度强化学习算法包括如下步骤：

3.根据权利要求2所述的基于深度强化学习的协同云排产方法，其特征在于：在所述回报步骤中，依据不同决策需求而设计不一样的动作价值函数，以符合排产想达成的目标，动作价值函数为Q^π(s,a)＝E_s′[r+λQ^π(s′,a′)|s,a]，公式的意义为在策略π下的动作价值函数，其产生预期未来状态s′、行动a′所得到的期望值，其中λ为学习率，并进行动作价值函数的优化。

4.根据权利要求1所述的基于深度强化学习的协同云排产方法，其特征在于：所述D步骤中调度决策模块接收输入的融合数据，生成对应每个生产线的调度策略具体包括以下步骤：

d2.在通过隐藏层的计算之后，获得神经网络输出层的输出。

5.根据权利要求1所述的基于深度强化学习的协同云排产方法，其特征在于，在所述E步骤之后还包括以下步骤：更新Q值，更新系统特征信息，和神经网络的反向传播。

6.基于深度强化学习的协同云排产系统，其特征在于：包括智能车间模块、云服务模块和调度决策模块；

7.根据权利要求6所述的基于深度强化学习的协同云排产系统，还包括异常事件监测模块，所述异常事件监测模块用于实时监测智能车间生产过程中的异常数据。

8.根据权利要求7所述的基于深度强化学习的协同云排产系统，其特征在于：所述异常事件监测模块运用一种基于GA和SVM的数据监测方案，用于监控工厂的生产线的生产情况，包括输入数据，特征选择，特征加权和参数优化，训练，分类和中断报警的步骤。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述基于深度强化学习的协同云排产方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于深度强化学习的协同云排产方法的步骤。