CN114066232B

CN114066232B - 基于分布式强化学习和边缘计算的工厂调度方法及系统

Info

Publication number: CN114066232B
Application number: CN202111349982.1A
Authority: CN
Inventors: 郭洪飞; 陈世帆; 郭海全; 曾云辉; 伍泓韬; 刘景顺; 何智慧; 任亚平; 张锐
Original assignee: Jinan University; Inner Mongolia North Heavy Industries Group Co Ltd; Inner Mongolia University of Technology
Current assignee: Jinan University; Inner Mongolia North Heavy Industries Group Co Ltd; Inner Mongolia University of Technology
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-07-22
Anticipated expiration: 2041-11-15
Also published as: CN114066232A

Abstract

本发明属于工业物联网技术领域，公开了基于分布式强化学习和边缘计算的工厂调度方法及系统。所述系统包括本地动作模型、边缘设备、云端数据存储器和云端策略模型。方法为：初始化本地动作模型和边缘设备；本地动作模型实时生成适配不同流水线的调度规则；边缘设备对实时产生的生产信息进行编码，生成两参数元组和五参数元组分别发送至本地动作模型和云端数据存储器；云端策略模型对云端存储的数据进行优先级采样、重要性排序和更新；同步云端策略模型和本地动作模型。本发明将边缘计算与分布式强化学习算法结合应用于工业生产，实现了数据实时传输和工业生产实时调度，并通过本地设备与云端设备的交互，不断提高模型准确性，优化工业生产效率。

Description

基于分布式强化学习和边缘计算的工厂调度方法及系统

技术领域

本发明属于工业物联网技术领域，具体涉及基于分布式强化学习和边缘计算的工厂调度方法及系统。

背景技术

在如今的物联网时代，数据需要比以往更快地发送和接收，而直接将智能设备连接到云的方法存在许多缺点，如时延较大、带宽受限等，故此前的云计算技术无法很好地满足物联网应用的多样化需求。近年来，随着物联网设备日益广泛的部署、5G网络基础的逐渐完善，边缘计算得到迅猛发展，由于边缘计算能够进行实时地数据处理和分析，并且具备安全性高、可扩展性强等优势，较好地弥补了当今云计算的不足之处，受到了人们广泛的关注，并且在车辆互联、医疗保健、智能建筑控制等领域取得了很好的效果，将边缘计算应用于工业制造上，也逐渐成为了新的研究热点。

与此同时，随着工业4.0时代的到来，“智能工厂”成为了新时代背景下推动工业生产的一个重要发展方向，而人工智能技术是实现工厂“智能化”的关键技术之一，其能使工厂完成自动的制造、调度、维护等工业生产环节。其中，强化学习作为一种新兴的人工智能算法，可以在没有给定的初始数据或策略的情况下，通过智能体与环境的不断交互，实现策略的进一步优化，从而生成最优策略，因此，将其应用于工业生产调度领域的相关研究也日益增多。同时，近年来提出的分布式强化学习算法能够生成更丰富的供智能体训练的样本，使其能与实际的工业生产领域更好地结合。

现有技术中，将人工智能技术中的强化学习算法运用于工业生产领域中的研究取得了较多的成果，但受数据传输等多方面限制，使得上述的研究难以应用于现实的工业生产中。专利文献CN2021101771444公开了一种基于深度强化学习的流水车间调度方法，将每个工件的嵌入表示作为策略网络的输入，并依次选择概率最高的工件，直到所有工件选择完毕得到完整的调度序列，具有较好的通用性；申请号为CN2020114067483的专利文献提供了基于深度强化学习的动态生产调度方法、装置及电子设备，通过将各作业的静态特征和动态特征以及系统动态特征输入至调度模型，从而输出各作业在每个生产阶段的作业执行顺序或者批次执行顺序，可以在不超过生产设备处理能力的基础上，减少作业整体处理时间。但是，这两者均未涉及将边缘计算与工业生产领域相结合，且均未涉及分布式强化学习在生产调度中的应用，其在数据实时传输、模型输出的准确性等方面还有待进一步提高。

发明内容

针对上述现有技术的不足，本发明提供了基于分布式强化学习和边缘计算的工厂调度方法，将边缘计算与工业生产相结合，更好地实现数据的实时传输；运用分布式强化学习算法，提高模型输出的准确性；并通过本地动作模型与云端策略模型的交互运行、同步更新，实现模型的不断优化，更优地实现工业生产实时调度的效果，进一步促进技术落地，实现工业生产效率的优化。

为实现上述技术目的，本发明采用以下技术方案：

基于分布式强化学习和边缘计算的工厂调度方法，所述方法包括如下步骤：

步骤S1：初始化本地动作模型和边缘设备；

步骤S2：本地动作模型根据不同流水线的ID生成初始调度规则，并分配到相应的流水线上；

步骤S3：边缘设备对当前环境实时产生的生产信息进行编码，生成能够反映当前时刻生产环境所处状态的特征s，并生成两参数元组(s,ID)和五参数元组(s,a,r,s’,ID)，其中的参数分别为：反映当前时刻生产环境状态的特征s，本地动作模型在当前时刻所采取的动作a，生产环境在当前时刻反馈给模型的奖励r，反映下一时刻生产环境的特征s’，流水线的编号ID；

步骤S4：所述边缘设备将两参数元组(s,ID)传输至本地动作模型作为输入，本地动作模型采用分布式强化学习算法，生成适配不同流水线的新的调度规则，然后转入步骤S3；同时，将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储；

步骤S5：云端策略模型将对云端数据存储器所存储的数据进行优先级采样；

步骤S6：对云端数据存储器所存储的特征数据依据其重要性进行排序，以此更新云端数据存储器；

步骤S7：在一定的时间间隔t后，对云端策略模型和本地动作模型进行同步，依据云端策略模型更新本地动作模型。

进一步地，所述步骤S1中，初始化本地动作模型和边缘设备，具体包括：设定本地动作模型的基本参数，预设不同流水线的初始调度规则分配策略，设定边缘设备的基本参数和编码算法。

进一步地，所述步骤S3中，边缘设备对当前环境实时产生的生产信息进行编码，具体包括：在生产过程中，当每一条流水线根据本地动作模型当前分配的调度规则调度工件时，会在各个流水线上得到相应的调度结果，生产环境根据调度结果将会实时地产生新的生产信息并传输至边缘设备中，由边缘设备对实时产生的生产信息进行编码。

进一步地，步所述骤S4中，本地动作模型采用分布式强化学习算法，生成适配不同流水线的新的调度规则，具体包括：本地动作模型采用分布式强化学习算法，根据不同流水线的ID，在每一个流水线上采用不同的ε，以不同的概率选择随机的动作，为不同的流水线采用ε-greedy算法生成适配该流水线的新的调度规则。

更进一步地，所述分布式强化学习算法具体包括如下步骤：

S41：在不同的生产环境中运行智能体，存储智能体与环境交互产生的样本数据；

S42：远程同步云端策略模型与本地动作模型的参数；

S43：从生产环境中获取初始状态；

S44：对于时间t＝1-T，执行以下过程：

利用当前策略选择不同的动作；

将所选的动作运用于当前生产环境中；

利用边缘设备对生产环境状态特征s进行编码，并将数据存储在本地缓存中；

每隔一段时间将本地缓存上传到云端数据存储器样本池中，并将本地缓存清空，同时计算各个样本的优先级；

利用云端数据对策略模型进行更新，并将云端策略模型同步到本地动作模型。

进一步地，所述步骤S5具体包括：部署在云端的云端策略模型将对云端数据存储器所存储的数据进行优先级采样，并将所采样到的数据作为云端策略模型的输入训练云端策略模型，得到更优的云端策略模型参数。

更进一步地，在进行步骤S5和步骤S6时，所述云端策略模型中包含如下算法步骤：

S61：利用从样本池中采样的batch(批量)更新网络；

S62：对于时间t＝1-T，执行以下过程：

在后台线程中对已按优先级排列的batch(批量)进行采样；

执行更新策略；

重新计算并更新云端数据存储器样本池中样本的优先级；

移除云端数据存储器样本池中比较早的样本。

基于分布式强化学习和边缘计算的工厂调度系统，所述系统包括：

本地动作模型：部署在本地，执行当前的调度规则分配策略，具体地，在初始化状态时，根据不同流水线的ID，采用预设的初始调度规则分配策略，生成初始调度规则并分配到相应的流水线上；在生产过程中，根据从边缘设备获取到的生产特征s以及流水线ID所构建的两参数元组(s,ID)作为输入，采用分布式强化学习算法，实时为每个不同的流水线输出适合该流水线所处状态的新的调度规则并分配到相应的流水线上；

边缘设备：部署在本地，所述边缘设备进行过预训练，能够实现将生产环境中的实时生产信息进行编码，转化成能够反映当前时刻生产环境所处状态的特征s，并生成两参数元组(s,ID)和五参数元组(s,a,r,s’,ID)，并将两参数元组(s,ID)发送至本地动作模型作为本地动作模型的输入，将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储；

云端数据存储器：部署在云端，作为缓冲器用以存储边缘设备所传输来的五参数元组(s,a,r,s’,ID)，以供云端策略模型进行训练和更新；

云端策略模型：部署在云端，对云端数据存储器进行优先级采样，并将所采样到的数据作为模型输入，进行云端策略模型的训练，实现对云端策略模型参数的更新及优化，并在一定的时间间隔t后，对云端策略模型和本地动作模型进行同步，依据云端策略模型更新本地动作模型。

进一步地，所述边缘设备为向企业或服务提供商的核心网络提供入口点的编码器设备。

与现有技术相比，本发明所产生的有益效果是：

(1)本申请将边缘计算与工业生产相结合，更好地实现了数据的实时发送与接收；同时，采用分布式强化学习算法，针对工业生产环境中的多条流水线，进行不同的ID编号，通过本地动作模型为不同ID的流水线生成不同的调度规则与工业生产环境进行交互，能够获取更丰富的训练数据，更好地实现模型优化，以提高本地动作模型输出的准确性，更优地实现工业生产实时调度的效果；

(2)本申请通过本地设备与云端设备的交互，将边缘设备根据实时产生的生产信息进行编码生成的五参数元组(s,a,r,s’,ID)发送存储至云端数据存储器中，由云端策略模型将对云端数据存储器中的数据进行优先级采样，并对云端数据存储器存储的特征数据进行重要性排序，以此更新云端数据存储器；由于云端设备与本地设备存在传输时延，难以做到实时同步，故在一定的时间间隔t后，对云端策略模型和本地动作模型进行同步，依据云端策略模型更新本地动作模型，通过这种方式，能够不断优化本地动作模型，获得更优解，使得本地动作模型所求得的实时调度规则更易于运用到实际的工业生产中，从而进一步促进技术落地，实现工业生产效率的优化；

(3)本申请提供的基于分布式强化学习和边缘计算的工厂调度方法及系统，提出了一种将云端设备与本地设备协同工作的框架，分开部署模型的训练模块与应用模块，将模型的训练部署在云端，而模型在本地中得到运用，使得云端策略模型的训练与本地动作模型的应用可分别同步进行，互不干扰，增加了系统模型的响应速度和灵敏度。

附图说明

图1为本发明实施例的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了基于分布式强化学习和边缘计算的工厂调度方法及系统，所述系统包括：本地动作模型、边缘设备Encoder、云端数据存储器和云端策略模型。其中：

所述本地动作模型：部署在本地，执行当前的调度规则分配策略，具体地，在初始状态时，根据不同流水线的ID，采用预设的初始调度规则分配策略，为不同的流水线生成适配该流水线的初始调度规则并分配到相应的流水线上；在生产过程中，根据从边缘设备获取到的生产特征s及流水线ID所构建的两参数元组(s,ID)作为本地动作模型的输入，采用分布式强化学习算法，实时为每个不同的流水线输出适合该流水线所处状态的新的调度规则并分配到相应的流水线上，以实现工业生产的实时调度；

所述边缘设备Encoder：部署在本地，具体可为路由器、路由交换机等向企业或服务提供商的核心网络提供入口点的设备；所述边缘设备Encoder进行过预训练，能够实现对不同的生产环境所产生的生产信息进行实时编码，转化成能够反映当前时刻生产环境所处状态的特征s，并生成作为本地动作模型输入的两参数元组(s,ID)和分布式强化学习框架中所需的五参数元组(s,a,r,s’,ID)，其中的五个参数分别为：反映当前时刻生产环境状态的特征s，本地动作模型在当前时刻所采取的动作a，环境在当前时刻反馈给模型的奖励r，反映下一时刻生产环境的特征s’，流水线的编号ID；

所述云端数据存储器：部署在云端，作为所提出的分布式强化学习框架中的缓冲器buffer，用以存储边缘设备Encoder所传输来的五参数元组(s,a,r,s’,ID)，以供云端策略模型进行训练和更新；

所述云端策略模型：部署在云端，对云端数据存储器进行优先级采样，并将所采样到的数据作为模型输入，进行云端策略模型的训练，实现对云端策略模型参数的更新及优化，并在一定的时间间隔t后，对云端策略模型和本地动作模型进行同步，依据云端策略模型更新本地动作模型。

结合图1所示，本发明提供的基于分布式强化学习和边缘计算的工厂调度方法，具体包括以下步骤：

步骤S1：初始化本地动作模型与边缘设备Encoder，具体包括：设定本地动作模型的基本参数，预设不同流水线的初始调度规则分配策略，设定边缘设备的基本参数和编码算法；

步骤S2：在初始状态时，本地动作模型根据不同流水线的ID，采用预设的初始调度规则分配策略，生成初始调度规则并分配到相应的流水线上；

步骤S3：在生产过程中，当每一条流水线根据本地动作模型当前分配的调度规则调度工件时，会在各个流水线上得到相应的调度结果，生产环境根据调度结果将会实时地产生新的生产信息并传输至边缘设备中；所述调度规则具体可为FIFO(先入先出)，LIFO(后入先出)等动作，所述生产信息具体可包括当前时刻下流水线产能、单位生产时间、设备利用率、单位平均能耗等实时信息；边缘设备Encoder根据当前环境实时产生的生产信息进行编码，形成可处理、可传输的反应当前生产状况的特征s，并生成生产特征s及流水线ID所构建的两参数元组(s,ID)，以及由前生产状态特征s、本地动作模型在当前时刻所输出的各个调度规则a、环境在当前时刻反馈给模型的奖励r(具体可为工件的完成时间)、反映下一时刻生产环境的特征s’、流水线的编号ID所构成的五参数元组(s,a,r,s’,ID)；

步骤S4：边缘设备将两参数元组(s,ID)发送至本地动作模型作为输入，由于不同的流水线所处的环境不同，本地动作模型采用分布式强化学习算法，根据不同流水线的ID，在每一个流水线上采用不同的ε，以不同的概率选择随机的动作(指不同的调度规则)，为不同的流水线采用ε-greedy算法生成适配该流水线的新的调度规则，然后转入步骤S3，继续下一个循环，此过程中无需进行本地设备与云端设备的交互亦可完成工业生产的实时调度；同时，边缘设备将将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储；

其中，所述分布式强化学习算法具体包括如下步骤：

S42：远程同步云端策略模型与本地动作模型的参数；

S43：从生产环境中获取初始状态；

S44：对于时间t＝1-T，执行以下过程：

利用当前策略选择不同的动作；

将所选的动作运用于当前生产环境中；

步骤S5：部署在云端的云端策略模型对云端数据存储器所存储的数据进行优先级采样，并将所采样到的数据作为云端策略模型的输入，训练、优化云端策略模型，得到更优的云端策略模型参数；

步骤S6：云端策略模型依据数据的重要性，对存储在云端数据存储器的特征数据进行排序，以此更新云端数据存储器；

其中，在进行步骤S5和步骤S6时，所述云端策略模型中包含如下算法步骤：

S61：利用从样本池中采样的batch(批量)更新网络；

S62：对于时间t＝1-T，执行以下过程：

在后台线程中对已按优先级排列的batch(批量)进行采样；

执行更新策略；

重新计算并更新云端数据存储器样本池中样本的优先级；

移除云端数据存储器样本池中比较早的样本。

步骤S7：由于云端设备与本地设备存在传输时延，难以做到实时同步，故在一定的时间间隔t后，对云端策略模型和本地动作模型进行同步，依据云端策略模型更新本地动作模型，使得本地动作模型的参数与云端策略模型参数一致，以此优化本地动作模型。

如此循环反复，通过本地设备与云端设备的不断交互，实现所述云端策略模型与本地动作模型的更新与应用，使得本地动作模型在周期性的更新过程中不断优化，从而获得更优解，能够实时地为各个流水线分配更加适配该流水线的新的调度规则，实现工业生产效率的优化；同时，通过云端设备与本地设备的协同工作，分开部署模型的训练模块与应用模块，将模型的训练部署在云端，而模型在本地中得到运用，使得云端策略模型的训练与本地动作模型的应用分别同步进行，互不干扰，增加了系统模型的响应速度和灵敏度。

以上所述仅为本申请的实施例而已，并不用以限制本发明。凡在本发明的申请范围内所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，所述方法包括如下步骤：

步骤S1：初始化本地动作模型和边缘设备；

步骤S7：在一定的时间间隔t后，对云端策略模型和本地动作模型进行同步，依据云端策略模型更新本地动作模型；

所述步骤S4中，本地动作模型采用分布式强化学习算法，生成适配不同流水线的新的调度规则，具体包括：本地动作模型采用分布式强化学习算法，根据不同流水线的ID，在每一个流水线上采用不同的ε，以不同的概率选择随机的动作，为不同的流水线采用ε-greedy算法生成适配该流水线的新的调度规则；

所述分布式强化学习算法具体包括如下步骤：

S42：远程同步云端策略模型与本地动作模型的参数；

S43：从生产环境中获取初始状态；

S44：对于时间t＝1-T，执行以下过程：

利用当前策略选择不同的动作；

将所选的动作运用于当前生产环境中；

2.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，所述步骤S1中，初始化本地动作模型和边缘设备，具体包括：设定本地动作模型的基本参数，预设不同流水线的初始调度规则分配策略，设定边缘设备的基本参数和编码算法。

3.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，所述步骤S3中，边缘设备对当前环境实时产生的生产信息进行编码，具体包括：在生产过程中，当每一条流水线根据本地动作模型当前分配的调度规则调度工件时，会在各个流水线上得到相应的调度结果，生产环境根据调度结果将会实时地产生新的生产信息并传输至边缘设备中，由边缘设备对实时产生的生产信息进行编码。

4.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，所述步骤S5具体包括：部署在云端的云端策略模型将对云端数据存储器所存储的数据进行优先级采样，并将所采样到的数据作为云端策略模型的输入训练云端策略模型，得到更优的云端策略模型参数。

5.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，在进行步骤S5和步骤S6时，所述云端策略模型中包含如下算法步骤：

S61：利用从样本池中采样的batch更新网络；

S62：对于时间t＝1-T，执行以下过程：

在后台线程中对已按优先级排列的batch进行采样；

执行更新策略；

重新计算并更新云端数据存储器样本池中样本的优先级；

移除云端数据存储器样本池中比较早的样本。

6.基于分布式强化学习和边缘计算的工厂调度系统，其特征在于：所述系统包括：

边缘设备：部署在本地，所述边缘设备进行过预训练，能够实现将生产环境中的实时生产信息进行编码，转化成能够反映当前时刻生产环境所处状态的特征s，并生成两参数元组(s,ID)和五参数元组(s,a,r,s’,ID)，其中的参数分别为：反映当前时刻生产环境状态的特征s，本地动作模型在当前时刻所采取的动作a，生产环境在当前时刻反馈给模型的奖励r，反映下一时刻生产环境的特征s’，流水线的编号ID；然后，所述边缘设备将两参数元组(s,ID)发送至本地动作模型作为本地动作模型的输入，将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储；

云端策略模型：部署在云端，对云端数据存储器进行优先级采样，并将所采样到的数据作为模型输入，进行云端策略模型的训练，实现对云端策略模型参数的更新及优化，并在一定的时间间隔t后，对云端策略模型和本地动作模型进行同步，依据云端策略模型更新本地动作模型；

所述本地动作模型中，采用分布式强化学习算法，实时为每个不同的流水线输出适合该流水线所处状态的新的调度规则并分配到相应的流水线上，具体包括：本地动作模型采用分布式强化学习算法，根据不同流水线的ID，在每一个流水线上采用不同的ε，以不同的概率选择随机的动作，为不同的流水线采用ε-greedy算法生成适配该流水线的新的调度规则；

所述分布式强化学习算法具体包括如下步骤：

S42：远程同步云端策略模型与本地动作模型的参数；

S43：从生产环境中获取初始状态；

S44：对于时间t＝1-T，执行以下过程：

利用当前策略选择不同的动作；

将所选的动作运用于当前生产环境中；

7.根据权利要求6所述的工厂调度系统，其特征在于，所述边缘设备为向企业或服务提供商的核心网络提供入口点的编码器设备。