CN112990584B - 一种基于深度强化学习的自动生产决策系统及方法 - Google Patents
一种基于深度强化学习的自动生产决策系统及方法 Download PDFInfo
- Publication number
- CN112990584B CN112990584B CN202110295387.8A CN202110295387A CN112990584B CN 112990584 B CN112990584 B CN 112990584B CN 202110295387 A CN202110295387 A CN 202110295387A CN 112990584 B CN112990584 B CN 112990584B
- Authority
- CN
- China
- Prior art keywords
- production
- decision
- unit
- product
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 200
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002787 reinforcement Effects 0.000 title claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000008901 benefit Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 58
- 239000011159 matrix material Substances 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 36
- 238000011156 evaluation Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000003321 amplification Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 101100063432 Caenorhabditis elegans dim-1 gene Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 210000004205 output neuron Anatomy 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 238000004088 simulation Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Manufacturing & Machinery (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度强化学习的自动生产决策系统及方法,该系统包括数据采集单元,决策评价单元,记忆库,信息提取单元,产品特征编码单元,特征提取单元,学习单元、模型保存单元和生产决策单元。本发明所公开的系统及方法能够解决在决策过程中待生产产品数量和种类不断变化的问题,提高生产决策的自动化和智能化水平,较大程度地提高生产效益。
Description
技术领域
本发明涉及一种基于深度强化学习的自动生产决策系统及方法。
背景技术
对于从事制造生产的企业,提前生产和库存成本的平衡是一个影响利润的关键点,如果不提前生产,会导致订单积压,进而导致延迟交货惩罚、撤单甚至违约,最终导致企业利润下降;如果提前生产,若生产量少了,对上述问题不能有效解决,若生产量多了则会导致库存成本增加、过期浪费等问题,同样会导致企业利润下降。
对于上述问题,目前已经有很多种解决方案,如:基于专家经验的决策规则、元启发式方法、超启发式方法和强化学习方法。其中决策规则基于专家经验,对规则制定人员的水平要求较高,并且不同的规则适用于不同的问题,这样的规则适用范围较窄。元启发式方法虽然适用范围广,但它的搜索范围很大,求解时间长,求解效果差,没有应用潜力。超启发式方法结合了元启发式方法和决策规则,但仍然无法摆脱决策规则的局限性。强化学习方法特别是深度强化学习方法,是最有潜力的一种方法,它不依赖于决策规则,且求解时间短,求解效果相较前面提到的方法都有较大提升。
此外,上面提到的方法都无法解决一种很常见的问题:在排产时可能会出现某些产品暂不生产或需要生产新产品的情况。面对这样的情况,上述几种方法都无能为力,因为无法提前预知哪种产品将停产,更无法预知将来会有何种新产品出现。即便是在潜力巨大的深度强化学习领域,也没有人使用该方法解决过这种待生产产品数量和种类不断变化的问题。
发明内容
为解决上述技术问题,本发明提供了一种基于深度强化学习的自动生产决策系统及方法,以解决在决策过程中待生产产品数量和种类不断变化的问题,提高生产决策的自动化和智能化水平,较大程度地提高了生产效益。
为达到上述目的,本发明的技术方案如下:
一种基于深度强化学习的自动生产决策系统,包括数据采集单元,决策评价单元,记忆库,信息提取单元,产品特征编码单元,特征提取单元,学习单元、模型保存单元和生产决策单元;
所述数据采集单元,用于采集工厂的生产状态,生产状态包括生产线的工作状态、仓库的库存情况、工厂接收到的订单情况;所述数据采集单元连接生产线和工厂数据库,收集生产状态,并传递给决策评价单元和记忆库;
所述决策评价单元,用于根据数据采集单元提供的生产状态和取得的生产效益对当前采用的决策进行评价;
所述记忆库,用于分条保存记忆,所述记忆指生产状态和决策评价;
所述信息提取单元,用于从记忆库中抽取若干条记忆,然后将生产状态中的各个产品信息和生产信息分别提取;
所述产品特征编码单元,基于自注意力机制将一组长度不一致的产品信息转换为一个长度一致的产品特征编码;
所述特征提取单元,用于从产品特征编码和生产信息中提取特征矩阵;
所述学习单元,根据特征提取单元提取的特征矩阵,学习如何决策并更新模型;
所述模型保存单元,用于保存上述模型的参数;
所述生产决策单元,根据保存的模型,做出能够提高工厂效益的决策,该单元的输入是特征提取单元提取到的特征矩阵,输出是当前决策时间段内选择生产各种产品的概率分布,最后把由此概率分布抽样得到的产品,或者使用贪婪策略选择的产品,作为在当前决策时间段内生产的产品。
上述方案中,所述学习单元中的模型包括:
产品特征编码学习单元,用于更新产品特征编码单元的模型;
特征提取学习单元,用于更新特征提取单元的模型;
生产决策学习单元,用于更新生产决策单元的模型;
上述三种模型都是多层感知机。
上述方案中,学习和更新模型的方法包括DQN算法、PPO算法。
本发明还公开了一种基于深度强化学习的自动生产决策方法,采用上述的一种基于深度强化学习的自动生产决策系统,包括如下步骤:
步骤1、将自动生产决策系统接入由生产线测控系统、数据库及生产线组成的生产系统;
步骤2、通过生产线测控系统收集工厂的实时生产状态,包括产品信息和生产信息;
步骤3、利用自动生产决策系统中的决策评价单元,结合生产状态对当前采用的决策进行评价,然后与生产状态一起作为一条记忆保存在自动生产决策系统中的记忆库中;
步骤4、通过自动生产决策系统中的信息提取单元,从记忆库中抽取若干条记忆,然后分别提取产品信息和生产信息,当前决策时间段内不需要生产的产品信息,在步骤2或该步骤中剔除;
步骤5、利用自动生产决策系统中的产品特征编码单元,将提取到的长度不一致的产品信息转化为长度一致的产品特征编码;
步骤6、利用自动生产决策系统中的特征提取单元,先将产品特征编码和生产信息拼接成生产状态编码,再使用生产状态编码提取出行数可变、列数固定的特征矩阵;
步骤7、利用自动生产决策系统中的学习单元,根据特征矩阵和决策评价,优化决策策略并更新模型,并在更新之后使用自动生产决策系统中的模型保存单元保存模型参数;
步骤8、将特征提取单元提取到的特征矩阵输入到更新后的模型中,利用自动生产决策系统中的生产决策单元,根据生产状态做出生产决策;
步骤9、生产线测控系统接收生产决策并执行生产决策,并反馈到生产线,生产线完成生产。
上述方案中,步骤5中的产品特征编码过程使用Set Transformer完成,具体方法如下:
E′=Set Transformer(X′),E′∈Rn×K×s
E=flatten(E′),E∈Rn×N,N=K×S
其中,Set Transformer是基于深度神经网络的集合转换器,K为输出特征行数,S为特征扩增倍数,X′是由输入X转换得到的列表,X是一个有n个元素的列表,它所包含的元素以Xi表示,Xi∈Rδ,将Xi转置得到Xi T∈Rδ×1,所有的Xi T组合成一个新的列表X′∈Rn×δ×1;E′为未压扁的产品特征的编码;E为产品特征的编码,它是一个行向量长度相同的矩阵。flatten是一个压扁函数,它的作用是将一个矩阵压扁成一个向量;N为产品特征编码的长度。
上述方案中,步骤6中特征提取方法如下:
设特征提取单元的输入矩阵为Fi∈RL×I,特征提取模型选用输出神经元维数为S的多层感知机Projection,特征提取所用公式为:
EN=softmax(Projection(Fi)),EN∈RL×S
F′=flatten(Fi T·W),F′∈RO,O=I×S
EN′=mean(EN,dim=1),EN′∈RL×1
Fo=EN′·F′T,Fo∈RL×O
其中,Fi∈RL×I是输入矩阵,L为当前决策时间段内待生产产品数,I为特征提取单元输出的特征列数;Projection是一个输入维度为I输出维度为S的多层感知机,EN∈RL×S是能量强度矩阵,S为特征扩增倍数;softmax是一种神经网络中常用的激活函数;flatten是一个压扁函数,它的作用是将一个矩阵压扁成一个向量;Fi T是Fi的转置矩阵;F′是特征张量;mean是一个求均值函数,dim=1指对第二个维度降维;EN′是能量强度张量;Fo∈RL×O是输出的特征矩阵。
上述方案中,步骤8中做出生产决策的方法如下:
将特征提取单元提取到的特征矩阵输入到生产决策单元,输出当前决策时间段内选择生产各种产品的概率分布,最后把由此概率分布抽样得到的产品,或者使用贪婪策略选择的产品,作为在当前决策时间段内生产的产品。
A=actor_net(Fo),A∈RL×1
Ai=A[i],Ai∈R,i∈Z,0≤i<L
a=argmax(Ai),i∈Z
其中,Fo∈RL×O是特征提取单元的输出矩阵,即生产决策单元的输入,actor-net是一个输入维度为O输出维度为1的多层感知机,A是产品选择概率向量,Ai是向量A的第i项,表示选择产品i的概率,argmax是一种运算符,它的结果是使Ai取得最大值时i的取值,a是输出的生产决策。
通过上述技术方案,本发明提供的一种基于深度强化学习的自动生产决策系统及方法具有如下有益效果:
1、本发明创新性地提出了一套新型的注意力机制,该注意力机制在保证了生产决策效果相似的前提下,减少了计算时间、降低了内存占用。以I=6、S=4为例,在标准的多头自注意力机制中,需要用到I×S=24个多层感知机,而如果使用该注意力机制,将可以只使用一个多层感知机,降低了95%的内存占用,并且能够减少60%的计算时间。
2、本发明提出的产品特征编码单元,创新性地使用了基于自注意力机制的特征编码,该编码方式可以将长度不一致的产品信息转换为长度一致的产品编码,扩大了该系统的适用范围。如果不使用这种编码方式,当新增的产品比较特殊,需要添加额外的产品信息时,之前学习好的系统将无法使用。
3、本发明公开的基于深度强化学习的自动生产决策系统,能够解决现有生产决策系统难以解决的问题,即在决策过程中由于订单不断变化和生产设备故障等引起的待生产产品数量和种类不断变化的问题,有效提高了生产决策的自动化和智能化水平,较大程度地提高了生产效益。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的一种基于深度强化学习的自动生产决策系统组成示意图;
图2为本发明实施例所公开的编码过程示意图;
图3为本发明实施例所公开的整体描述信息拼接过程示意图;
图4为本发明实施例所公开的特征提取过程示意图;
图5为自动生产决策系统结构图;
图6为本发明实施例所公开的一种基于深度强化学习的自动生产决策方法仿真流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种基于深度强化学习的自动生产决策系统,如图1所示,包括数据采集单元,决策评价单元,记忆库,信息提取单元,产品特征编码单元,特征提取单元,学习单元、模型保存单元和生产决策单元。
1、数据采集单元,用于采集工厂的生产状态,生产状态包括生产线的工作状态、仓库的库存情况、工厂接收到的订单情况;数据采集单元可以是一个自动化的采集装置,它连接生产线和工厂数据库,收集生产状态,并传递给决策评价单元和记忆库;
2、决策评价单元,用于根据数据采集单元提供的生产状态和取得的生产效益对当前采用的决策进行评价;评价的结果是一个数值,正相关于生产效益,数值为正,说明在当前状态下采用这种决策是有益的,数值为负,说明在当前状态下采用这种决策是不利的,而它的绝对值大小则反映这种有益/不利的程度。
3、记忆库,用于分条保存记忆,记忆指生产状态和决策评价;在系统运行过程中,每做一次决策,都会产生新的生产状态和决策评价,该单元作用就是将这两项数据以一条记忆的形式保存起来。
4、信息提取单元,用于从记忆库中抽取若干条记忆,然后将生产状态中的各个产品信息(产品编号、单价、产量、库存量、订单积压量)和生产信息(原料存量、产能、在制品、设备状态、总库存量、总订单积压量)分别提取;提取后的产品信息是分组的,每一组都与一种产品对应,当前决策时间段内不需要生产的产品对应的产品信息,可以在数据采集环节选择不采集,或者采集后在此环节将之剔除。
5、产品特征编码单元,基于自注意力机制将一组长度不一致的产品信息转换为一个长度一致的产品特征编码,如图2所示;之所以要使用该单元,是因为对每种产品的信息长度可能是不一致的,而在后面的单元中需要将这些长度不一致的信息编码为长度一致的信息。
6、特征提取单元,用于从产品特征编码和生产信息中提取特征矩阵。首先将生产信息复制n份(n为产品特征编码的个数,亦即待生产产品的种类数),拼接到n个产品特征编码上,得到n个生产状态编码,作为一组使用,拼接过程示意图如图3所示,然后对得到的n个生产状态编码进行特征提取,特征提取过程如图4所示。
7、学习单元,根据特征提取单元提取的特征矩阵,学习如何决策并更新模型。
学习单元中的模型包括:
产品特征编码学习单元,用于更新产品特征编码单元的模型;
特征提取学习单元,用于更新特征提取单元的模型;
生产决策学习单元,用于更新生产决策单元的模型;
上述三种模型都是多层感知机,学习和更新模型的方法有很多方法,如DQN算法、PPO算法等深度强化学习算法。
8、模型保存单元,用于保存上述三种模型的参数。
9、生产决策单元,根据保存的模型,做出能够提高工厂效益的决策,该单元的输入是特征提取单元提取到的特征矩阵,输出是当前决策时间段内选择生产各种产品的概率分布,最后把由此概率分布抽样得到的产品,或者使用贪婪策略选择的产品,作为在当前决策时间段内生产的产品。
本发明还公开了一种基于深度强化学习的自动生产决策方法,采用上述的一种基于深度强化学习的自动生产决策系统,包括如下步骤:
步骤1、如图5所示,将自动生产决策系统接入由生产线测控系统、数据库及生产线组成的生产系统;当前决策时间段内不需要生产的产品信息,可以在该步骤中剔除。
步骤2、通过生产线测控系统收集工厂的实时生产状态(产品信息和生产信息),包括产品信息和生产信息。
步骤3、利用自动生产决策系统中的决策评价单元,结合生产状态对当前采用的决策进行评价,然后与生产状态一起作为一条记忆保存在自动生产决策系统中的记忆库中。
步骤4、通过自动生产决策系统中的信息提取单元,从记忆库中抽取若干条记忆,然后分别提取产品信息和生产信息,当前决策时间段内不需要生产的产品信息,必须在该步骤中剔除。
步骤5、利用自动生产决策系统中的产品特征编码单元,将提取到的长度不一致的产品信息转化为长度一致的产品特征编码。
产品特征编码过程使用Set Transformer完成,具体方法如下:
E′=Set Transformer(X′),E′∈Rn×K×s
E=flatten(E′),E∈Rn×N,N=K×S
其中,Set Transformer是基于深度神经网络的集合转换器,K为输出特征行数,S为特征扩增倍数,X′是由输入X转换得到的列表,X是一个有n个元素的列表,它所包含的元素以Xi表示,Xi∈Rδ,将Xi转置得到Xi T∈Rδ×1,所有的Xi T组合成一个新的列表X′∈Rn×δ×1;E′为未压扁的产品特征的编码;E为产品特征的编码,它是一个行向量长度相同的矩阵;flatten是一个压扁函数,它的作用是将一个矩阵压扁成一个向量;N为产品特征编码的长度。
步骤6、利用自动生产决策系统中的特征提取单元,先将产品特征编码和生产信息拼接成生产状态编码,再使用生产状态编码提取出行数可变、列数固定的特征矩阵;行数为当前决策时间段内待生产产品数,列数为O=I×S,I为特征提取单元输出的特征列数,S为特征扩增倍数。
特征提取方法如下:
设特征提取单元的输入矩阵为Fi∈RL×I,特征提取模型选用输出神经元维数为S的多层感知机Projection,特征提取所用公式为:
EN=softmax(Projection(Fi)),EN∈RL×S
F′=flatten(Fi T·W),F′∈RO,O=I×S
EN′=mean(EN,dim=1),EN′∈RL×1
Fo=EN′·F′T,Fo∈RL×O
其中,Fi∈RL×I是输入矩阵,L为当前决策时间段内待生产产品数,I为特征提取单元输出的特征列数;Projection是一个输入维度为I输出维度为S的多层感知机,EN∈RL×S是能量强度矩阵,S为特征扩增倍数;softmax是一种神经网络中常用的激活函数;flatten是一个压扁函数,它的作用是将一个矩阵压扁成一个向量;Fi T是Fi的转置矩阵;F′是特征张量;mean是一个求均值函数,dim=1指对第二个维度降维;EN′是能量强度张量;Fo∈RL×O是输出的特征矩阵。
步骤7、利用自动生产决策系统中的学习单元,根据特征矩阵和决策评价,优化决策策略并更新模型,并在更新之后使用自动生产决策系统中的模型保存单元保存模型参数;
步骤8、将特征提取单元提取到的特征矩阵输入到更新后的模型中,利用自动生产决策系统中的生产决策单元,根据生产状态做出生产决策;
做出生产决策的方法如下:
将特征提取单元提取到的特征矩阵输入到生产决策单元,输出当前决策时间段内选择生产各种产品的概率分布,最后把由此概率分布抽样得到的产品,或者使用贪婪策略选择的产品,作为在当前决策时间段内生产的产品。
A=actor_net(Fo),A∈RL×1
Ai=A[i],Ai∈R,i∈Z,0≤i<L
a=argmax(Ai),i∈Z
其中,Fo∈RL×O是特征提取单元的输出矩阵,即生产决策单元的输入,actor_net是一个输入维度为O输出维度为1的多层感知机,A是产品选择概率向量,Ai是向量A的第i项,表示选择产品i的概率,argmax是一种运算符,它的结果是使Ai取得最大值时i的取值,a是输出的生产决策。
步骤9、生产线测控系统接收生产决策并执行生产决策,并反馈到生产线,生产线完成生产。
本发明实施例按照上述方法进行仿真,对比例使用标准注意力机制进行仿真,使用的仿真模型基于一个生物制药厂的订单、生产和销售数据。包括四个过程:接受订单、安排生产、存储产品、销售产品,仿真流程图如图6所示,仿真参数如表1所示。仿真结果见表2所示。
表1仿真参数
表2仿真结果
项目 | 本发明提出的注意力机制 | 标准注意力机制 |
优化目标(利润) | 326159 | 325007 |
单次决策所用时间 | 2ms | 5ms |
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (3)
1.一种基于深度强化学习的自动生产决策系统,其特征在于,包括数据采集单元,决策评价单元,记忆库,信息提取单元,产品特征编码单元,特征提取单元,学习单元、模型保存单元和生产决策单元;
所述数据采集单元,用于采集工厂的生产状态,生产状态包括生产线的工作状态、仓库的库存情况、工厂接收到的订单情况;所述数据采集单元连接生产线和工厂数据库,收集生产状态,并传递给决策评价单元和记忆库;
所述决策评价单元,用于根据数据采集单元提供的生产状态和取得的生产效益对当前采用的决策进行评价;
所述记忆库,用于分条保存记忆,所述记忆指生产状态和决策评价;
所述信息提取单元,用于从记忆库中抽取若干条记忆,然后将生产状态中的各个产品信息和生产信息分别提取;
所述产品特征编码单元,基于自注意力机制将一组长度不一致的产品信息转换为一个长度一致的产品特征编码;
所述特征提取单元,用于从产品特征编码和生产信息中提取特征矩阵;
所述学习单元,根据特征提取单元提取的特征矩阵,学习如何决策并更新模型;
所述模型保存单元,用于保存上述模型的参数;
所述生产决策单元,根据保存的模型,做出能够提高工厂效益的决策,该单元的输入是特征提取单元提取到的特征矩阵,输出是当前决策时间段内选择生产各种产品的概率分布,最后把由此概率分布抽样得到的产品,或者使用贪婪策略选择的产品,作为在当前决策时间段内生产的产品;
所述学习单元中的模型包括:
产品特征编码学习单元,用于更新产品特征编码单元的模型;
特征提取学习单元,用于更新特征提取单元的模型;
生产决策学习单元,用于更新生产决策单元的模型;
上述三种模型都是多层感知机;
所述产品特征编码单元的模型在产品特征编码过程使用Set Transformer完成,具体方法如下:
E′=Set Transformer(X′),E′∈Rn×K×S
E=flatten(E′),E∈Rn×N,N=K×S
其中,Set Transformer是基于深度神经网络的集合转换器,K为输出特征行数,S为特征扩增倍数,X′是由输入X转换得到的列表,X是一个有n个元素的列表,它所包含的元素以Xi表示,Xi∈Rδ,将Xi转置得到Xi T∈Rδ×1,所有的Xi T组合成一个新的列表X′∈Rn×δ×1;E′为未压扁的产品特征的编码;E为产品特征的编码,它是一个行向量长度相同的矩阵;flatten是一个压扁函数,它的作用是将一个矩阵压扁成一个向量;N为产品特征编码的长度;
所述特征提取单元的模型的特征提取方法如下:
设特征提取单元的输入矩阵为Fi∈RL×I,特征提取模型选用输出神经元维数为S的多层感知机Projection,特征提取所用公式为:
EN=softmax(Projection(Fi)),EN∈RL×S
F′=flatten(Fi T·W),F′∈RO,O=I×S
EN′=mean(EN,dim=1),EN′∈RL×1
Fo=EN′·F′T,Fo∈RL×O
其中,Fi∈RL×I是输入矩阵,L为当前决策时间段内待生产产品数,I为特征提取单元输出的特征列数;Projection是一个输入维度为I输出维度为S的多层感知机,EN∈RL×S是能量强度矩阵,S为特征扩增倍数;softmax是一种神经网络中常用的激活函数;flatten是一个压扁函数,它的作用是将一个矩阵压扁成一个向量;Fi T是Fi的转置矩阵;F′是特征张量;mean是一个求均值函数,dim=1指对第二个维度降维;EN′是能量强度张量;Fo∈RL×O是输出的特征矩阵;
所述生产决策单元的模型做出生产决策的方法如下:
A=actor_net(Fo),A∈RL×1
Ai=A[i],Ai∈R,i∈Z,0≤i<L
a=argmax(Ai),i∈Z
其中,Fo∈RL×O是特征提取单元的输出矩阵,即生产决策单元的输入,actor_net是一个输入维度为O输出维度为1的多层感知机,A是产品选择概率向量,Ai是向量A的第i项,表示选择产品i的概率,argmax是一种运算符,它的结果是使Ai取得最大值时i的取值,a是输出的生产决策。
2.根据权利要求1所述的一种基于深度强化学习的自动生产决策系统,其特征在于,学习和更新模型的方法包括DQN算法、PPO算法。
3.一种基于深度强化学习的自动生产决策方法,采用如权利要求1所述的一种基于深度强化学习的自动生产决策系统,其特征在于,包括如下步骤:
步骤1、将自动生产决策系统接入由生产线测控系统、数据库及生产线组成的生产系统;
步骤2、通过生产线测控系统收集工厂的实时生产状态,包括产品信息和生产信息;
步骤3、利用自动生产决策系统中的决策评价单元,结合生产状态对当前采用的决策进行评价,然后与生产状态一起作为一条记忆保存在自动生产决策系统中的记忆库中;
步骤4、通过自动生产决策系统中的信息提取单元,从记忆库中抽取若干条记忆,然后分别提取产品信息和生产信息,当前决策时间段内不需要生产的产品信息,在步骤2或该步骤中剔除;
步骤5、利用自动生产决策系统中的产品特征编码单元,将提取到的长度不一致的产品信息转化为长度一致的产品特征编码;
步骤6、利用自动生产决策系统中的特征提取单元,先将产品特征编码和生产信息拼接成生产状态编码,再使用生产状态编码提取出行数可变、列数固定的特征矩阵;
步骤7、利用自动生产决策系统中的学习单元,根据特征矩阵和决策评价,优化决策策略并更新模型,并在更新之后使用自动生产决策系统中的模型保存单元保存模型参数;
步骤8、将特征提取单元提取到的特征矩阵输入到更新后的模型中,利用自动生产决策系统中的生产决策单元,根据生产状态做出生产决策;
步骤9、生产线测控系统接收生产决策并执行生产决策,并反馈到生产线,生产线完成生产。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110295387.8A CN112990584B (zh) | 2021-03-19 | 2021-03-19 | 一种基于深度强化学习的自动生产决策系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110295387.8A CN112990584B (zh) | 2021-03-19 | 2021-03-19 | 一种基于深度强化学习的自动生产决策系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990584A CN112990584A (zh) | 2021-06-18 |
CN112990584B true CN112990584B (zh) | 2022-08-02 |
Family
ID=76333368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110295387.8A Active CN112990584B (zh) | 2021-03-19 | 2021-03-19 | 一种基于深度强化学习的自动生产决策系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990584B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239639B (zh) * | 2021-06-29 | 2022-08-26 | 暨南大学 | 策略信息生成方法、装置、电子装置和存储介质 |
CN115913989B (zh) * | 2022-11-08 | 2023-09-19 | 广州鲁邦通物联网科技股份有限公司 | 一种云管理平台的资源保护方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194536A (zh) * | 2017-04-12 | 2017-09-22 | 中国电力科学研究院 | 一种项目投资的供电可靠性负效益评估方法及装置 |
CN111352977A (zh) * | 2020-03-10 | 2020-06-30 | 浙江大学 | 基于自注意力双向长短期记忆网络的时序数据监测方法 |
CN113343591A (zh) * | 2021-07-16 | 2021-09-03 | 浙江大学 | 基于自注意力网络的产品关键零件寿命端到端预测方法 |
CN113592240A (zh) * | 2021-07-02 | 2021-11-02 | 中国人民解放军国防科技大学 | 一种mto企业订单处理方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7953632B2 (en) * | 2008-06-09 | 2011-05-31 | Mark Salerno | Method and apparatus for managing food products in quick serve restaurants |
CN110188926B (zh) * | 2019-05-10 | 2020-11-13 | 重庆天蓬网络有限公司 | 一种订单信息预测系统和方法 |
CN110517002B (zh) * | 2019-08-29 | 2022-11-15 | 烟台大学 | 基于强化学习的生产控制方法 |
CN110969304A (zh) * | 2019-12-04 | 2020-04-07 | 汇鼎数据科技(上海)有限公司 | 数字工厂生产产能预测方法、系统、装置 |
CN111191823B (zh) * | 2019-12-20 | 2023-06-27 | 西北工业大学 | 一种基于深度学习的生产物流预测方法 |
CN111553759A (zh) * | 2020-03-25 | 2020-08-18 | 平安科技(深圳)有限公司 | 一种产品信息推送方法、装置、设备及存储介质 |
CN112116465B (zh) * | 2020-06-04 | 2023-09-29 | 上海金融期货信息技术有限公司 | 基于深度学习模型的成交持仓比预测方法和系统 |
-
2021
- 2021-03-19 CN CN202110295387.8A patent/CN112990584B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194536A (zh) * | 2017-04-12 | 2017-09-22 | 中国电力科学研究院 | 一种项目投资的供电可靠性负效益评估方法及装置 |
CN111352977A (zh) * | 2020-03-10 | 2020-06-30 | 浙江大学 | 基于自注意力双向长短期记忆网络的时序数据监测方法 |
CN113592240A (zh) * | 2021-07-02 | 2021-11-02 | 中国人民解放军国防科技大学 | 一种mto企业订单处理方法及系统 |
CN113343591A (zh) * | 2021-07-16 | 2021-09-03 | 浙江大学 | 基于自注意力网络的产品关键零件寿命端到端预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112990584A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178624B (zh) | 一种新产品需求预测的方法 | |
CN112990584B (zh) | 一种基于深度强化学习的自动生产决策系统及方法 | |
CN102402716B (zh) | 智能生产决策支持系统 | |
CN110689162B (zh) | 一种基于用户侧分类的母线负荷预测方法、装置及系统 | |
CN108694470A (zh) | 一种基于人工智能的数据预测方法及装置 | |
CN110826237B (zh) | 基于贝叶斯信念网络的风电设备可靠性分析方法及装置 | |
Kai et al. | Training neural network with genetic algorithms for forecasting the stock price index | |
CN114897379A (zh) | 一种基于信息反馈的动态生产计划排程系统及方法 | |
CN107146039A (zh) | 一种多目标协同控制的定制式混流装配生产方法及装置 | |
Paul et al. | A disruption recovery model in a production-inventory system with demand uncertainty and process reliability | |
CN109657851A (zh) | 事件驱动型的股价预测方法、装置、设备及存储介质 | |
CN115409563A (zh) | 一种多因素影响的农业装备库存需求预测方法 | |
CN117407681B (zh) | 一种基于向量聚类的时序数据预测模型建立方法 | |
CN114091776A (zh) | 一种基于K-means的多分支AGCNN短期电力负荷预测方法 | |
Zhou et al. | [Retracted] Research on Intelligent Solution of Service Industry Supply Chain Network Optimization Based on Genetic Algorithm | |
CN117217804A (zh) | 一种智能定价与库存管理方法及系统 | |
CN104077231A (zh) | 基于符号动力学和ls-svm的变压器维护优化方法 | |
CN112184007A (zh) | 一种基于数字孪生的车间设备远程诊断方法 | |
CN115145899B (zh) | 一种基于制造企业数据空间的时空数据异常检测方法 | |
CN116308494A (zh) | 供应链需求预测方法 | |
CN116088455A (zh) | 基于强化学习与数字孪生的复杂重型装备工艺优化方法 | |
CN115719194A (zh) | 一种基于大数据预测物资采购方法和系统 | |
CN114004530A (zh) | 基于排序支撑向量机的企业电力信用分建模方法及系统 | |
CN114004513A (zh) | 一种需求预测方法、系统及存储介质 | |
Cheng et al. | Inventory demand forecast based on gray correlation analysis and time series neural network hybrid model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |