CN112990584B

CN112990584B - 一种基于深度强化学习的自动生产决策系统及方法

Info

Publication number: CN112990584B
Application number: CN202110295387.8A
Authority: CN
Inventors: 李歧强; 米楠; 宋文
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-08-02
Anticipated expiration: 2041-03-19
Also published as: CN112990584A

Abstract

本发明公开了一种基于深度强化学习的自动生产决策系统及方法，该系统包括数据采集单元，决策评价单元，记忆库，信息提取单元，产品特征编码单元，特征提取单元，学习单元、模型保存单元和生产决策单元。本发明所公开的系统及方法能够解决在决策过程中待生产产品数量和种类不断变化的问题，提高生产决策的自动化和智能化水平，较大程度地提高生产效益。

Description

一种基于深度强化学习的自动生产决策系统及方法

技术领域

本发明涉及一种基于深度强化学习的自动生产决策系统及方法。

背景技术

对于从事制造生产的企业，提前生产和库存成本的平衡是一个影响利润的关键点，如果不提前生产，会导致订单积压，进而导致延迟交货惩罚、撤单甚至违约，最终导致企业利润下降；如果提前生产，若生产量少了，对上述问题不能有效解决，若生产量多了则会导致库存成本增加、过期浪费等问题，同样会导致企业利润下降。

对于上述问题，目前已经有很多种解决方案，如：基于专家经验的决策规则、元启发式方法、超启发式方法和强化学习方法。其中决策规则基于专家经验，对规则制定人员的水平要求较高，并且不同的规则适用于不同的问题，这样的规则适用范围较窄。元启发式方法虽然适用范围广，但它的搜索范围很大，求解时间长，求解效果差，没有应用潜力。超启发式方法结合了元启发式方法和决策规则，但仍然无法摆脱决策规则的局限性。强化学习方法特别是深度强化学习方法，是最有潜力的一种方法，它不依赖于决策规则，且求解时间短，求解效果相较前面提到的方法都有较大提升。

此外，上面提到的方法都无法解决一种很常见的问题：在排产时可能会出现某些产品暂不生产或需要生产新产品的情况。面对这样的情况，上述几种方法都无能为力，因为无法提前预知哪种产品将停产，更无法预知将来会有何种新产品出现。即便是在潜力巨大的深度强化学习领域，也没有人使用该方法解决过这种待生产产品数量和种类不断变化的问题。

发明内容

为解决上述技术问题，本发明提供了一种基于深度强化学习的自动生产决策系统及方法，以解决在决策过程中待生产产品数量和种类不断变化的问题，提高生产决策的自动化和智能化水平，较大程度地提高了生产效益。

为达到上述目的，本发明的技术方案如下：

一种基于深度强化学习的自动生产决策系统，包括数据采集单元，决策评价单元，记忆库，信息提取单元，产品特征编码单元，特征提取单元，学习单元、模型保存单元和生产决策单元；

所述数据采集单元，用于采集工厂的生产状态，生产状态包括生产线的工作状态、仓库的库存情况、工厂接收到的订单情况；所述数据采集单元连接生产线和工厂数据库，收集生产状态，并传递给决策评价单元和记忆库；

所述决策评价单元，用于根据数据采集单元提供的生产状态和取得的生产效益对当前采用的决策进行评价；

所述记忆库，用于分条保存记忆，所述记忆指生产状态和决策评价；

所述信息提取单元，用于从记忆库中抽取若干条记忆，然后将生产状态中的各个产品信息和生产信息分别提取；

所述产品特征编码单元，基于自注意力机制将一组长度不一致的产品信息转换为一个长度一致的产品特征编码；

所述特征提取单元，用于从产品特征编码和生产信息中提取特征矩阵；

所述学习单元，根据特征提取单元提取的特征矩阵，学习如何决策并更新模型；

所述模型保存单元，用于保存上述模型的参数；

所述生产决策单元，根据保存的模型，做出能够提高工厂效益的决策，该单元的输入是特征提取单元提取到的特征矩阵，输出是当前决策时间段内选择生产各种产品的概率分布，最后把由此概率分布抽样得到的产品，或者使用贪婪策略选择的产品，作为在当前决策时间段内生产的产品。

上述方案中，所述学习单元中的模型包括：

产品特征编码学习单元，用于更新产品特征编码单元的模型；

特征提取学习单元，用于更新特征提取单元的模型；

生产决策学习单元，用于更新生产决策单元的模型；

上述三种模型都是多层感知机。

上述方案中，学习和更新模型的方法包括DQN算法、PPO算法。

本发明还公开了一种基于深度强化学习的自动生产决策方法，采用上述的一种基于深度强化学习的自动生产决策系统，包括如下步骤：

步骤1、将自动生产决策系统接入由生产线测控系统、数据库及生产线组成的生产系统；

步骤2、通过生产线测控系统收集工厂的实时生产状态，包括产品信息和生产信息；

步骤3、利用自动生产决策系统中的决策评价单元，结合生产状态对当前采用的决策进行评价，然后与生产状态一起作为一条记忆保存在自动生产决策系统中的记忆库中；

步骤4、通过自动生产决策系统中的信息提取单元，从记忆库中抽取若干条记忆，然后分别提取产品信息和生产信息，当前决策时间段内不需要生产的产品信息，在步骤2或该步骤中剔除；

步骤5、利用自动生产决策系统中的产品特征编码单元，将提取到的长度不一致的产品信息转化为长度一致的产品特征编码；

步骤6、利用自动生产决策系统中的特征提取单元，先将产品特征编码和生产信息拼接成生产状态编码，再使用生产状态编码提取出行数可变、列数固定的特征矩阵；

步骤7、利用自动生产决策系统中的学习单元，根据特征矩阵和决策评价，优化决策策略并更新模型，并在更新之后使用自动生产决策系统中的模型保存单元保存模型参数；

步骤8、将特征提取单元提取到的特征矩阵输入到更新后的模型中，利用自动生产决策系统中的生产决策单元，根据生产状态做出生产决策；

步骤9、生产线测控系统接收生产决策并执行生产决策，并反馈到生产线，生产线完成生产。

上述方案中，步骤5中的产品特征编码过程使用Set Transformer完成，具体方法如下：

E′＝Set Transformer(X′)，E′∈R^n×K×s

E＝flatten(E′)，E∈R^n×N，N＝K×S

其中，Set Transformer是基于深度神经网络的集合转换器，K为输出特征行数，S为特征扩增倍数，X′是由输入X转换得到的列表，X是一个有n个元素的列表，它所包含的元素以X_i表示，X_i∈R^δ，将X_i转置得到X_i ^T∈R^δ×1，所有的X_i ^T组合成一个新的列表X′∈R^n×δ×1；E′为未压扁的产品特征的编码；E为产品特征的编码，它是一个行向量长度相同的矩阵。flatten是一个压扁函数，它的作用是将一个矩阵压扁成一个向量；N为产品特征编码的长度。

上述方案中，步骤6中特征提取方法如下：

设特征提取单元的输入矩阵为F_i∈R^L×I，特征提取模型选用输出神经元维数为S的多层感知机Projection，特征提取所用公式为：

EN＝softmax(Projection(F_i))，EN∈R^L×S

F′＝flatten(F_i ^T·W)，F′∈R^O，O＝I×S

EN′＝mean(EN，dim＝1)，EN′∈R^L×1

F_o＝EN′·F′^T，F_o∈R^L×O

其中，F_i∈R^L×I是输入矩阵，L为当前决策时间段内待生产产品数，I为特征提取单元输出的特征列数；Projection是一个输入维度为I输出维度为S的多层感知机，EN∈R^L×S是能量强度矩阵，S为特征扩增倍数；softmax是一种神经网络中常用的激活函数；flatten是一个压扁函数，它的作用是将一个矩阵压扁成一个向量；F_i ^T是F_i的转置矩阵；F′是特征张量；mean是一个求均值函数，dim＝1指对第二个维度降维；EN′是能量强度张量；F_o∈R^L×O是输出的特征矩阵。

上述方案中，步骤8中做出生产决策的方法如下：

将特征提取单元提取到的特征矩阵输入到生产决策单元，输出当前决策时间段内选择生产各种产品的概率分布，最后把由此概率分布抽样得到的产品，或者使用贪婪策略选择的产品，作为在当前决策时间段内生产的产品。

A＝actor_net(F_o)，A∈R^L×1

A_i＝A[i]，A_i∈R，i∈Z，0≤i＜L

a＝argmax(A_i)，i∈Z

其中，F_o∈R^L×O是特征提取单元的输出矩阵，即生产决策单元的输入，actor-net是一个输入维度为O输出维度为1的多层感知机，A是产品选择概率向量，A_i是向量A的第i项，表示选择产品i的概率，argmax是一种运算符，它的结果是使A_i取得最大值时i的取值，a是输出的生产决策。

通过上述技术方案，本发明提供的一种基于深度强化学习的自动生产决策系统及方法具有如下有益效果：

1、本发明创新性地提出了一套新型的注意力机制，该注意力机制在保证了生产决策效果相似的前提下，减少了计算时间、降低了内存占用。以I＝6、S＝4为例，在标准的多头自注意力机制中，需要用到I×S＝24个多层感知机，而如果使用该注意力机制，将可以只使用一个多层感知机，降低了95％的内存占用，并且能够减少60％的计算时间。

2、本发明提出的产品特征编码单元，创新性地使用了基于自注意力机制的特征编码，该编码方式可以将长度不一致的产品信息转换为长度一致的产品编码，扩大了该系统的适用范围。如果不使用这种编码方式，当新增的产品比较特殊，需要添加额外的产品信息时，之前学习好的系统将无法使用。

3、本发明公开的基于深度强化学习的自动生产决策系统，能够解决现有生产决策系统难以解决的问题，即在决策过程中由于订单不断变化和生产设备故障等引起的待生产产品数量和种类不断变化的问题，有效提高了生产决策的自动化和智能化水平，较大程度地提高了生产效益。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于深度强化学习的自动生产决策系统组成示意图；

图2为本发明实施例所公开的编码过程示意图；

图3为本发明实施例所公开的整体描述信息拼接过程示意图；

图4为本发明实施例所公开的特征提取过程示意图；

图5为自动生产决策系统结构图；

图6为本发明实施例所公开的一种基于深度强化学习的自动生产决策方法仿真流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于深度强化学习的自动生产决策系统，如图1所示，包括数据采集单元，决策评价单元，记忆库，信息提取单元，产品特征编码单元，特征提取单元，学习单元、模型保存单元和生产决策单元。

1、数据采集单元，用于采集工厂的生产状态，生产状态包括生产线的工作状态、仓库的库存情况、工厂接收到的订单情况；数据采集单元可以是一个自动化的采集装置，它连接生产线和工厂数据库，收集生产状态，并传递给决策评价单元和记忆库；

2、决策评价单元，用于根据数据采集单元提供的生产状态和取得的生产效益对当前采用的决策进行评价；评价的结果是一个数值，正相关于生产效益，数值为正，说明在当前状态下采用这种决策是有益的，数值为负，说明在当前状态下采用这种决策是不利的，而它的绝对值大小则反映这种有益/不利的程度。

3、记忆库，用于分条保存记忆，记忆指生产状态和决策评价；在系统运行过程中，每做一次决策，都会产生新的生产状态和决策评价，该单元作用就是将这两项数据以一条记忆的形式保存起来。

4、信息提取单元，用于从记忆库中抽取若干条记忆，然后将生产状态中的各个产品信息(产品编号、单价、产量、库存量、订单积压量)和生产信息(原料存量、产能、在制品、设备状态、总库存量、总订单积压量)分别提取；提取后的产品信息是分组的，每一组都与一种产品对应，当前决策时间段内不需要生产的产品对应的产品信息，可以在数据采集环节选择不采集，或者采集后在此环节将之剔除。

5、产品特征编码单元，基于自注意力机制将一组长度不一致的产品信息转换为一个长度一致的产品特征编码，如图2所示；之所以要使用该单元，是因为对每种产品的信息长度可能是不一致的，而在后面的单元中需要将这些长度不一致的信息编码为长度一致的信息。

6、特征提取单元，用于从产品特征编码和生产信息中提取特征矩阵。首先将生产信息复制n份(n为产品特征编码的个数，亦即待生产产品的种类数)，拼接到n个产品特征编码上，得到n个生产状态编码，作为一组使用，拼接过程示意图如图3所示，然后对得到的n个生产状态编码进行特征提取，特征提取过程如图4所示。

7、学习单元，根据特征提取单元提取的特征矩阵，学习如何决策并更新模型。

学习单元中的模型包括：

特征提取学习单元，用于更新特征提取单元的模型；

生产决策学习单元，用于更新生产决策单元的模型；

上述三种模型都是多层感知机，学习和更新模型的方法有很多方法，如DQN算法、PPO算法等深度强化学习算法。

8、模型保存单元，用于保存上述三种模型的参数。

9、生产决策单元，根据保存的模型，做出能够提高工厂效益的决策，该单元的输入是特征提取单元提取到的特征矩阵，输出是当前决策时间段内选择生产各种产品的概率分布，最后把由此概率分布抽样得到的产品，或者使用贪婪策略选择的产品，作为在当前决策时间段内生产的产品。

步骤1、如图5所示，将自动生产决策系统接入由生产线测控系统、数据库及生产线组成的生产系统；当前决策时间段内不需要生产的产品信息，可以在该步骤中剔除。

步骤2、通过生产线测控系统收集工厂的实时生产状态(产品信息和生产信息)，包括产品信息和生产信息。

步骤3、利用自动生产决策系统中的决策评价单元，结合生产状态对当前采用的决策进行评价，然后与生产状态一起作为一条记忆保存在自动生产决策系统中的记忆库中。

步骤4、通过自动生产决策系统中的信息提取单元，从记忆库中抽取若干条记忆，然后分别提取产品信息和生产信息，当前决策时间段内不需要生产的产品信息，必须在该步骤中剔除。

步骤5、利用自动生产决策系统中的产品特征编码单元，将提取到的长度不一致的产品信息转化为长度一致的产品特征编码。

产品特征编码过程使用Set Transformer完成，具体方法如下：

E′＝Set Transformer(X′)，E′∈R^n×K×s

E＝flatten(E′)，E∈R^n×N，N＝K×S

其中，Set Transformer是基于深度神经网络的集合转换器，K为输出特征行数，S为特征扩增倍数，X′是由输入X转换得到的列表，X是一个有n个元素的列表，它所包含的元素以X_i表示，X_i∈R^δ，将X_i转置得到X_i ^T∈R^δ×1，所有的X_i ^T组合成一个新的列表X′∈R^n×δ×1；E′为未压扁的产品特征的编码；E为产品特征的编码，它是一个行向量长度相同的矩阵；flatten是一个压扁函数，它的作用是将一个矩阵压扁成一个向量；N为产品特征编码的长度。

步骤6、利用自动生产决策系统中的特征提取单元，先将产品特征编码和生产信息拼接成生产状态编码，再使用生产状态编码提取出行数可变、列数固定的特征矩阵；行数为当前决策时间段内待生产产品数，列数为O＝I×S，I为特征提取单元输出的特征列数，S为特征扩增倍数。

特征提取方法如下：

EN＝softmax(Projection(F_i))，EN∈R^L×S

F′＝flatten(F_i ^T·W)，F′∈R^O，O＝I×S

EN′＝mean(EN，dim＝1)，EN′∈R^L×1

F_o＝EN′·F′^T，F_o∈R^L×O

做出生产决策的方法如下：

A＝actor_net(F_o)，A∈R^L×1

A_i＝A[i]，A_i∈R，i∈Z，0≤i＜L

a＝argmax(A_i)，i∈Z

其中，F_o∈R^L×O是特征提取单元的输出矩阵，即生产决策单元的输入，actor_net是一个输入维度为O输出维度为1的多层感知机，A是产品选择概率向量，A_i是向量A的第i项，表示选择产品i的概率，argmax是一种运算符，它的结果是使A_i取得最大值时i的取值，a是输出的生产决策。

本发明实施例按照上述方法进行仿真，对比例使用标准注意力机制进行仿真，使用的仿真模型基于一个生物制药厂的订单、生产和销售数据。包括四个过程：接受订单、安排生产、存储产品、销售产品，仿真流程图如图6所示，仿真参数如表1所示。仿真结果见表2所示。

表1仿真参数

表2仿真结果

项目	本发明提出的注意力机制	标准注意力机制
			优化目标(利润)	326159	325007
单次决策所用时间	2ms	5ms

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度强化学习的自动生产决策系统，其特征在于，包括数据采集单元，决策评价单元，记忆库，信息提取单元，产品特征编码单元，特征提取单元，学习单元、模型保存单元和生产决策单元；

所述模型保存单元，用于保存上述模型的参数；

所述生产决策单元，根据保存的模型，做出能够提高工厂效益的决策，该单元的输入是特征提取单元提取到的特征矩阵，输出是当前决策时间段内选择生产各种产品的概率分布，最后把由此概率分布抽样得到的产品，或者使用贪婪策略选择的产品，作为在当前决策时间段内生产的产品；

所述学习单元中的模型包括：

特征提取学习单元，用于更新特征提取单元的模型；

生产决策学习单元，用于更新生产决策单元的模型；

上述三种模型都是多层感知机；

所述产品特征编码单元的模型在产品特征编码过程使用Set Transformer完成，具体方法如下：

E′＝Set Transformer(X′),E′∈R^n×K×S

E＝flatten(E′),E∈R^n×N,N＝K×S

其中，Set Transformer是基于深度神经网络的集合转换器，K为输出特征行数，S为特征扩增倍数，X′是由输入X转换得到的列表，X是一个有n个元素的列表，它所包含的元素以X_i表示，X_i∈R^δ，将X_i转置得到X_i ^T∈R^δ×1，所有的X_i ^T组合成一个新的列表X′∈R^n×δ×1；E′为未压扁的产品特征的编码；E为产品特征的编码，它是一个行向量长度相同的矩阵；flatten是一个压扁函数，它的作用是将一个矩阵压扁成一个向量；N为产品特征编码的长度；

所述特征提取单元的模型的特征提取方法如下：

EN＝softmax(Projection(F_i)),EN∈R^L×S

F′＝flatten(F_i ^T·W),F′∈R^O,O＝I×S

EN′＝mean(EN,dim＝1),EN′∈R^L×1

F_o＝EN′·F′^T,F_o∈R^L×O

其中，F_i∈R^L×I是输入矩阵，L为当前决策时间段内待生产产品数，I为特征提取单元输出的特征列数；Projection是一个输入维度为I输出维度为S的多层感知机，EN∈R^L×S是能量强度矩阵，S为特征扩增倍数；softmax是一种神经网络中常用的激活函数；flatten是一个压扁函数，它的作用是将一个矩阵压扁成一个向量；F_i ^T是F_i的转置矩阵；F′是特征张量；mean是一个求均值函数，dim＝1指对第二个维度降维；EN′是能量强度张量；F_o∈R^L×O是输出的特征矩阵；

所述生产决策单元的模型做出生产决策的方法如下：

A＝actor_net(F_o),A∈R^L×1

A_i＝A[i],A_i∈R,i∈Z,0≤i<L

a＝argmax(A_i),i∈Z

2.根据权利要求1所述的一种基于深度强化学习的自动生产决策系统，其特征在于，学习和更新模型的方法包括DQN算法、PPO算法。

3.一种基于深度强化学习的自动生产决策方法，采用如权利要求1所述的一种基于深度强化学习的自动生产决策系统，其特征在于，包括如下步骤：