CN115437321A

CN115437321A - 基于深度强化学习网络的微服务-多代理工厂调度模型

Info

Publication number: CN115437321A
Application number: CN202211012046.6A
Authority: CN
Inventors: 马锴; 刘鹏; 杨婕; 杨博; 郭士亮; 袁亚洲; 关新平
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-12-06

Abstract

本发明公开了基于深度强化学习网络的微服务‑多代理工厂调度模型，属于智能制造技术领域；所述调度模型为基于生产任务的静态特征和动态特征、代理层动态特征以及对Actor‑Critic网络进行训练后得到的模型；将生产任务确立为分布式处理的微服务模型和属性模型；针对生产资源的功能区别划分多代理模型；获取各生产任务的静态特征和动态特征以及代理层动态特征，将待调度的各生产任务的静态特征和动态特征以及代理层动态特征输入调度模型，获得各生产任务在每个生产阶段的作业执行顺序。本发明基于多智能体Actor‑Critic的深度强化学习框架，可以在不超过设备负载的基础上，减少作业整体处理时间。

Description

基于深度强化学习网络的微服务-多代理工厂调度模型

技术领域

本发明涉及智能制造技术领域，尤其是基于深度强化学习网络的微服务-多代理工厂调度模型。

背景技术

在工厂生产调度管控方面，国内外学者提出多代理系统、整子制造系统等模型，可实现分散控制。现有研究表明，传统的多代理系统对多目标算法的动态支持不足，调度策略的制定缺乏全局性，而整子制造系统虽然具备快速适应环境变化的能力，但是离实际应用还有一定的距离。基于微服务架构对各代理功能进行细粒度服务划分，能够促进制造过程去中心化，去总线化。

目前应用比较广泛的调度方法是启发式规则方法，其关键在于为待加工工件分配优先级。但是启发式规则不具有泛化性，不同的启发式规则是适用于特定的加工场景。而且，启发式规则具有短视性，即调度结果会随着决策步数的增加远远差于最优解。深度强化学习模型(DRL)在智能排产动态调度问题上的研究已经有了较大进展，深度强化学习被广泛应用于解决各种动态调度问题。这类模型比传统的优先调度规则启发式更灵活，但是上述处理方法大多还处于理论研究的阶段，还不能面向工厂真实需求的复杂约束建模，对于工厂出现的某些随机问题，无法提供满足工厂真实需求的智能排产动态调度方法。

因此，有必要研发一种基于多智能体的Actor-Critic模型，使得工件智能体之间相互影响，能够为求解智能工厂调度问题提供较优调度方案。

发明内容

本发明的目的是提供一种基于深度强化学习网络的微服务-多代理工厂调度模型，以实现在不超过设备负载的基础上，减少作业整体处理时间。

为了实现上述目的，本发明采用的技术方案是：

一种基于深度强化学习网络的微服务-多代理工厂调度模型，所述调度模型是基于多个样本生产任务的静态特征和动态特征、代理层动态特征以及Critic网络，对Actor网络进行训练后得到的模型；

所述Critic网络用于基于各样本生产任务对应的完工时长，评价Actor网络的输出结果，针对每个样本生产任务，该样本生产任务对应的完工时长为该样本生产任务在第一个生产阶段的开始执行时刻与该样本生产任务在最后一个生产阶段的完成执行时刻之间的时间差；

所述代理层为面向生产任务所利用制造资源的多代理模型；所述代理层存储各种代理信息，并在微服务层的控制策略下完成生产任务；

所述微服务层为根据多智能体Actor-Critic的深度强化学习框架构建本地知识库和算法库中微服务的匹配规则，接受业务管理下发的定制化服务，并将其确立为包含分布式处理的微服务模型、属性模型的生产任务，并将生产任务传递给业务管理，并接受业务管理下发的生产任务控制策略；

根据车间调度问题的目标函数确定出车间仿真环境，获取待调度的各生产任务的静态特征和动态特征以及代理层动态特征；生产任务的静态特征包括任务量和完成所需时长；生产任务的动态特征包括接收时刻；代理层动态特征包括每个生产阶段的设备能够执行的剩余任务量；

将生产任务的静态特征和生产任务动态特征以及代理层动态特征输入调度模型，获得所述调度模型输出的各生产任务在每个生产阶段的作业执行顺序或者批次执行顺序；每个批次包括多个生产任务。

本发明技术方案的进一步改进在于：所述代理层包括生产任务所使用物料的物料代理、生产线上所利用操作机器的机器代理以及完成生产任务中物流活动的运输代理。

本发明技术方案的进一步改进在于：所述物料代理包括原材料、粗加工产品；物料代理信息包括物料的种类、数量、存储仓库位置与剩余容量。

本发明技术方案的进一步改进在于：所述机器代理包括生产线上所有的操作机器；机器代理信息包括机器的种类、数量、功能、工作状态和当前已排产订单数量。

本发明技术方案的进一步改进在于：所述运输代理包括自动导引车和传送带；运输代理信息包括代理的状态、位置、运输速率和已排产订单数量。

本发明技术方案的进一步改进在于：所述微服务模型是完成生产任务中相应工序或功能的一个基本单元微服务；所述属性模型是生产任务和定制化服务要求对生产过程的约束条件；生产任务能够通过多个微服务在时间与空间上的编排实现，同一个微服务能够由代理层中不同代理协作的代理路径完成；本地知识库用于代理层与微服务层历史数据以及生产任务控制策略的存储，以通过代理层和微服务层的状态更新完成自学习。

本发明技术方案的进一步改进在于：所述算法库采用多智能体Actor-Critic的深度强化学习框架，其基于生产任务的各种属性特征，完成微服务与代理层时空上的匹配关系，完成生产任务的制定。

本发明技术方案的进一步改进在于：所述调度模型通过以下步骤训练获得：

步骤1，将多个样本生产任务的静态特征和动态特征以及代理层动态特征输入Actor网络，得到多个样本生产任务在每个生产阶段的作业执行顺序或者批次执行顺序；

步骤2，基于多个样本生产任务的动态特征，获得多个样本生产任务对应的完工时长中最长的完工时长，并基于所述最长的完工时长计算累计回报；

步骤3，将多个样本生产任务的静态特征和动态特征、所述累计回报以及代理层动态特征输入Critic网络，得到回报差异值；

步骤4，利用所述回报差异值，调整所述Actor网络和所述Critic网络的网络参数；

步骤5，若当前训练周期不为最后一个训练周期，则返回执行所述步骤1；其中，步骤1至步骤4为一个训练周期；

步骤6，若当前训练周期为最后一个训练周期，则将当前训练得到的Actor网络作为所述调度模型。

由于采用了上述技术方案，本发明取得的技术进步是：

1、本发明通过基于数据驱动的科学决策，决策效率高，实现了待加工工件的优先级分配，同时适用于各种加工场景，兼容性强。

2、本发明基于多智能体Actor-Critic的深度强化学习框架，可以在不超过生产设备处理能力的基础上，减少作业整体处理时间。

附图说明

图1为本发明实施例提供的一种调度模型确定调度方案的流程示意图。

具体实施方式

本申请实施例通过提供一种基于深度强化学习网络的微服务-多代理工厂调度模型，解决了现有作业车间的动态调度方法效率低、兼容性差的技术问题。大致思路：将生产任务确立为分布式处理的微服务模型和属性模型；针对生产资源的功能区别划分多代理模型；获取各生产任务的静态特征和动态特征以及代理层动态特征，将待调度的各生产任务的静态特征和动态特征以及代理层动态特征输入调度模型，获得各生产任务在每个生产阶段的作业执行顺序。本申请实现了工厂实时化、自主化、无人化的智能排产调度。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图及具体实施例对本发明做进一步详细说明：

一种基于深度强化学习网络的微服务-多代理工厂调度模型，包括：

代理层为面向生产任务所利用制造资源的多代理模型，其包括生产任务所使用物料的物料代理，生产线上所利用操作机器的机器代理，以及完成生产任务中物流活动的运输代理；其存储各种代理信息，并在微服务层的控制策略下完成生产任务；

在本发明实施例中，所述物料代理包括原材料、粗加工产品，物料代理信息包括物料的种类、数量、存储仓库位置与剩余容量；所述机器代理包括生产线上所有的操作机器，机器代理信息包括机器的种类，数量，功能、工作状态和当前已排产订单数量；所述运输代理包括自动导引车和传送带，运输代理信息包括代理的状态，位置、运输速率和已排产订单数量。

所述微服务层为根据多智能体Actor-Critic的深度强化学习框架构建本地知识库和算法库中微服务的匹配规则，接受业务管理下发的定制化服务，并将其确立为包含分布式处理的微服务模型、属性模型的生产任务，并将生产任务传递给业务管理，并接受业务管理下发的生产任务控制策略；微服务模型是完成生产任务中相应工序或功能的一个基本单元微服务，属性模型是生产任务和定制化服务要求对生产过程的约束条件；生产任务可以通过多个微服务在时间与空间上的编排实现，同一个微服务可以由代理层中不同代理协作的代理路径完成；本地知识库用于代理层与微服务层历史数据以及生产任务控制策略的存储，以通过代理层和微服务层的状态更新完成自学习；

在本发明实施例中，所述算法库采用多智能体Actor-Critic的深度强化学习框架，其基于生产任务的各种属性特征，完成微服务与代理层时空上的匹配关系，完成生产任务的制定。

根据车间调度问题的目标函数确定出车间仿真环境，获取待调度的各生产任务的静态特征和动态特征以及代理层动态特征，所述生产任务的静态特征包括任务量和完成所需时长，所述生产任务的动态特征包括接收时刻，所述代理层动态特征包括每个生产阶段的设备能够执行的剩余任务量；

其中，每个生产任务的静态特征包括任务量和完成所需时长，每个生产任务的动态特征包括接收时刻，代理层动态特征包括每个生产阶段的设备能够执行的剩余任务量。

其中，生产任务的接收时刻指的是代理层接收到生产任务的时刻。例如生产任务的生成时刻，用户发送制定的生产任务的时刻。生产任务在一个生产阶段的加工时长为生产任务在该生成阶段的开始执行时刻与执行完成时刻之间的时间差。生产任务对应的完工时长为生产任务在第一个生产阶段的开始执行时刻与生产任务在最后一个生产阶段的完成执行时刻之间的时间差。整体完工时长为生产任务对应的完工时长中最长的完工时长。

在本发明实施例中，每个生产阶段的设备能够执行的剩余任务量的初始值为预设的额定任务量，当设备未执行作业时，输入调度模型的代理层动态特征为设备的能够执行的额定任务量，在将作业分配到设备后，设备能够执行的任务量减少，系统的动态特征更新为设备能够执行的剩余任务量。

生产任务的动态特征随着各生产阶段调度方式的确定不断更新，例如生产任务的初始动态特征包括生产任务的接收时刻，生产任务更新后的动态特征还可以包括：生产任务在多个生产阶段的开始执行时刻和执行完成时刻。

将所述生产任务的静态特征和动态特征以及所述代理层动态特征输入调度模型，获得所述调度模型输出的所述各生产任务在每个生产阶段的作业执行顺序或者批次执行顺序；每个批次包括多个生产任务；

其中，每个批次包括多个生产任务，相同批次的生产任务被同时处理。调度模型输出的各生产任务在每个生产阶段的作业执行顺序或者批次执行顺序也可称为调度方案。调度方案中还可以包括每个生产阶段的生产任务或者批次对应的设备编号。生产任务或批次处理时在对应的设备编号的设备上加工。

所述调度模型为：基于多个样本生产任务的静态特征和动态特征、代理层动态特征以及Critic网络，对Actor网络进行训练后得到的模型，所述Critic网络用于基于各样本生产任务对应的完工时长，评价Actor网络的输出结果，针对每个样本生产任务，该样本生产任务对应的完工时长为该样本生产任务在第一个生产阶段的开始执行时刻与该样本生产任务在最后一个生产阶段的完成执行时刻之间的时间差。

Critic网络和Actor网络组成了深度强化学习(Deep Reinforcement Learning，DRL)网络，在训练过程中，Actor网络用于基于对当前环境选择动作，Critic网络用于对基于训练目标评价Actor网络的决策。Critic网络的评价结果用于调整Critic网络和Actor网络的网络参数，在训练完成后，利用Actor网络可以在训练目标上决策出较好的动作。

调度模型根据生产任务的静态特征和动态特征以及代理层动态特征，针对每个顺序处理阶段，分别确定各生产任务在每个顺序处理机上的加工顺序，计算选择每个生产任务的概率，并选择概率最大的生产任务。并针对每个生产任务，根据该生产任务的动态特征及执行顺序，计算该生产任务在该生产阶段的开始执行时刻和执行完成时刻，并更新该作业的动态特征以及代理层的动态特征。

在本发明实施例中，每个生产任务在一个生产阶段被处理一次，因此，每次输入调度模型的特征对应的生产任务为未被选择过的生产任务。

在本发明实施例中，一个顺序处理阶段可以包括一个顺序处理机。一种实施方式中，可以将未被选择过的各生产任务的静态特征和动态特征以及代理层动态特征输入调度模型，若调度模型输出选择每个生产任务的概率均为空，则本次不选择生产任务；若调度模型计算选择每个生产任务的概率不均为空，并输出概率最大的生产任务，则本次选择概率最大的生产任务，直至各生产任务均被选择，或者直至调度模型选择生产任务的次数达到预设次数。

在一个顺序处理阶段包括一个顺序处理机的情况下，各生产任务被选择的顺序为各生产任务在该生产阶段的该顺序处理机上的加工顺序，即为生产任务执行顺序。

在本发明实施例中，一个顺序处理生产阶段可以包括多个顺序处理机，另一种实施方式中，可以按照各顺序处理机的顺序循环执行：针对一个顺序处理机，将未被选择过的各生产任务的静态特征和动态特征以及代理层动态特征输入调度模型，若调度模型输出选择每个生产任务的概率均为空，则本次不选择生产任务；若调度模型计算选择每个生产任务的概率不均为空，并输出概率最大的生产任务，则本次选择概率最大的生产任务，直至各生产任务均被选择，或者直至调度模型选择生产任务的次数达到预设次数。

在一个顺序处理阶段包括多个顺序处理机的情况下，针对每个顺序处理机时选择的生产任务顺序为选择的生产任务在该顺序处理机上的加工顺序，即生产任务执行顺序包括每个生产任务在一个顺序处理机上的加工顺序。

本发明实施例中，所述调度模型通过以下步骤训练获得：

在本发明实施例中，各作业的完工时长越小，得到的累计回报越大。

在本发明实施例中，Critic网络根据输入数据，计算当前状态的期望累计回报，然后基于实际得到的累计回报与期望累计回报之间的差值，确定回报差异值。

通过公式(1)计算回报差异值：

σ＝∑(r+γQ(S′)-Q(S)) (1)

其中，σ为回报差异值，r为累计回报，γ为回报因子，Q(S′)为期望累计回报，Q(S)为实际得到的累计回报。γ是在模型训练过程中可学习的参数。

通过公式(2)调整Actor网络的模型参数：

其中，θ′为Actor网络更新后的模型参数，θ为Actor网络更新前的模型参数，α为调整因子，

为预设梯度，π_θ(s,a)为逻辑回归(Softmax)策略函数，σ为回报差异值，a是在模型训练过程中可学习的参数。

通过公式(3)调整Critic网络的模型参数：

其中，ω′为Critic网络更新后的模型参数，ω为Critic网络更新前的模型参数，β为调整因子，σ为回报差异值，

为特征向量，β是在模型训练过程中可学习的参数。特征向量为输入的生产任务的动态特征和静态特征以及代理层动态特征的向量。

调度模型的处理过程如图1所示，图1中实心箭头表示数据传输方向，空心箭头下方的方框表示调度模型的调度过程。其中，调度模型为基于Actor-Critic的深度强化学习网络。参见图1，生产任务的静态特征和动态特征以及代理层动态特征输入调度模型，调度模型的Actor网络基于生产任务分批子模型根据环境的当前状态，计算每个动作的概率，然后选择概率最大的动作。其中，环境的当前状态指的是生产任务的静态特征、生产任务当前的动态特征和代理层当前动态特征，动作概率指的是生产任务或批次被选择的概率。动作选择后环境的当前状态改变，Critic网络根据环境当前状态和累计回报，计算回报差异值，并基于回报差异值，调整Critic网络和Actor网络的网络参数。直到最后一个训练周期完成，将当前训练得到的Actor网络作为调度模型。其中，图1中由Critic网络指向Actor网络的弯曲箭头表示基于回报差异值，调整Actor网络的网络参数。图1中由Critic网络指向Critic网络的弯曲箭头表示基于回报差异值，调整Critic网络的网络参数。

从本发明实施例的上述技术方案可知，本发明实施例提供的基于Actor-Critic网络的“微服务-多代理”智能工厂调度模型的目标是最小化整体完工时长C_max，对作业的调度需要满足以下约束条件：

以上各公式中涉及符号含义说明详见表一。

表一：涉及符号含义说明

符号	含义
		N	生产任务数量
M	一个生产阶段的设备数量
		K	生产阶段数量
T	训练周期数量
		pt<sub>ikm</sub>	生产任务i在生产阶段k的设备m上的加工时长
pt<sub>ik</sub>	生产任务i在生产阶段k的加工时长
		st<sub>ikm</sub>	生产任务i在生产阶段k的设备m上的开始执行时刻
st<sub>ik</sub>	生产任务i在生产阶段k的开始执行时刻
		ct<sub>ik</sub>	生产任务i在生产阶段k的执行完成时刻
rt<sub>i</sub>	生产任务i的接收时刻
		d<sub>i</sub>	生产任务i的任务量
X<sub>ikm</sub>＝1	生产任务i在生产阶段k的设备m上加工
		X<sub>ikm</sub>＝0	其它
st<sub>ikt</sub>＝1	生产任务i在生产阶段k的时刻开始加工
		st<sub>ikt</sub>＝0	其它
TO<sub>ik</sub>＝0	生产任务i在顺序执行阶段k处理
		TM<sub>m</sub>＝0	设备m是顺序处理机
C<sub>max</sub>	整体完工时长

其中，公式(4)表示生产任务只有在接收之后才能被处理。公式(5)表示生产任务在顺序处理阶段的加工时长为生产任务在每个顺序处理机上的加工时长总和。公式(6)表示生产任务在一个生产阶段的完成执行时刻为生产任务在该生产阶段的开始执行时刻与生产任务在该生产阶段的加工时长的和。公式(7)表示生产任务只有在前一个阶段完成之后，才能开始下一个阶段的处理。公式(8)表示生产任务在每个生产阶段只能被加工一次。公式(9)表示生产任务在每道工序只能由一台机器加工。公式(10)表示顺序处理机一次只能处理一个生产任务。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于深度强化学习网络的微服务-多代理工厂调度模型，其特征在于：所述调度模型是基于多个样本生产任务的静态特征和动态特征、代理层动态特征以及Critic网络，对Actor网络进行训练后得到的模型；

2.根据权利要求1所述的一种基于深度强化学习网络的微服务-多代理工厂调度模型，其特征在于：所述代理层包括生产任务所使用物料的物料代理、生产线上所利用操作机器的机器代理以及完成生产任务中物流活动的运输代理。

3.根据权利要求2所述的一种基于深度强化学习网络的微服务-多代理工厂调度模型，其特征在于：所述物料代理包括原材料、粗加工产品；物料代理信息包括物料的种类、数量、存储仓库位置与剩余容量。

4.根据权利要求2所述的一种基于深度强化学习网络的微服务-多代理工厂调度模型，其特征在于：所述机器代理包括生产线上所有的操作机器；机器代理信息包括机器的种类、数量、功能、工作状态和当前已排产订单数量。

5.根据权利要求2所述的一种基于深度强化学习网络的微服务-多代理工厂调度模型，其特征在于：所述运输代理包括自动导引车和传送带；运输代理信息包括代理的状态、位置、运输速率和已排产订单数量。

6.根据权利要求1所述的一种基于深度强化学习网络的微服务-多代理工厂调度模型，其特征在于：所述微服务模型是完成生产任务中相应工序或功能的一个基本单元微服务；所述属性模型是生产任务和定制化服务要求对生产过程的约束条件；生产任务能够通过多个微服务在时间与空间上的编排实现，同一个微服务能够由代理层中不同代理协作的代理路径完成；本地知识库用于代理层与微服务层历史数据以及生产任务控制策略的存储，以通过代理层和微服务层的状态更新完成自学习。

7.根据权利要求1所述的一种基于深度强化学习网络的微服务-多代理工厂调度模型，其特征在于：所述算法库采用多智能体Actor-Critic的深度强化学习框架，其基于生产任务的各种属性特征，完成微服务与代理层时空上的匹配关系，完成生产任务的制定。

8.根据权利要求1所述的一种基于深度强化学习网络的微服务-多代理工厂调度模型，其特征在于：所述调度模型通过以下步骤训练获得：

步骤5，若当前训练周期不为最后一个训练周期，则返回执行所述步骤1；

其中，步骤1至步骤4为一个训练周期；