CN113487165A - 基于深度强化学习的智能工厂生产作业调度方法及系统 - Google Patents
基于深度强化学习的智能工厂生产作业调度方法及系统 Download PDFInfo
- Publication number
- CN113487165A CN113487165A CN202110741641.2A CN202110741641A CN113487165A CN 113487165 A CN113487165 A CN 113487165A CN 202110741641 A CN202110741641 A CN 202110741641A CN 113487165 A CN113487165 A CN 113487165A
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- deep reinforcement
- production
- value
- dqn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000002787 reinforcement Effects 0.000 title claims abstract description 66
- 230000008569 process Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000013135 deep learning Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000005457 optimization Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 235000009508 confectionery Nutrition 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 235000006350 Ipomoea batatas var. batatas Nutrition 0.000 description 1
- 241000072953 Kumara Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Biophysics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Manufacturing & Machinery (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Primary Health Care (AREA)
- General Factory Administration (AREA)
Abstract
本发明涉及一种基于深度强化学习的智能工厂生产作业调度方法,包括以下步骤:步骤S1:获取每个任务各个工序在对应机器上的处理数据,并预处理后构成训练集;步骤S2:构建深度强化学习DQN模型,所述深度强化学习DQN模型包括DQN深度学习网络结构和DQN强化学习模块;步骤S3:训练深度强化学习DQN模型,得到训练后的深度强化学习DQN模型;步骤S4:将待生产任务调度数据进行预处理后输入训练后的深度强化学习DQN模型,得到生产任务工序的调度安排。本发明能够实现对当前生产作业快速且高效的调度。
Description
技术领域
本发明涉及智能工厂生产调度领域,具体涉及一种基于深度强化学习的智能工厂生产作业调度方法及系统。
背景技术
作为工业4.0的核心,智能工厂旨在构建面向制造业的信息物理系统,通过集成信息系统与物理实体,实现工厂中机器、原料、产品的自组织生产,其中,生产作业的智能调度是提升工厂生产效率、节约生产成本的关键之一,在传统的工程生产作业调度中,调度往往需要工作人员凭借以往的经验手动选择一种或几种固定调度规则,这对于人员的经验有着较高的要求,调度质量也无法保证始终高效和稳健。随着软、硬件方面的不断成熟,AI辅助的智能技术开始被集成在智能制造中以提高盈利能力和竞争力,在过去的几年里,在输运、装配搬运、生产预测、设备预防性维护中已经出现了成功的应用,很自然的会考虑将机器学习用于生产作业的智能调度中以缩短最大完成时间,提升机器利用率。
目前智能工厂中的生产作业调度方法研究主要可分为三类:
基于知识的生产作业调度方法,基于知识的方法(如专家系统)其本质是通过专业从业人员的经验累积提出决策建议,来模拟一种原始的人工智能的调度决策系统。Kumara等人引入了一个框架来开发了一个工作车间调度和故障诊断的专家系统,可以给出调度以及故障诊断的决策与建议;Wang等人提出了一种将知识推理和语义数据集成的智能糖果包装方案,设计了推理引擎用于同时处理存在模型与来自生产过程的实时语义数据;同时为智能糖果包装应用程序构建了基准测试系统,能够直接支持客户定制和灵活的混合生产。
基于数学优化方法的生产作业调度方法,经典的生产调度问题常使用基于数学规划的方法来寻找调度解决方案,将生产调度问题描述为一个受限制的优化问题,目标是找到满足约束条件下的最优调度。Ivan等人提出了短期供应链调度的动态模型和算法,同时考虑了机器结构与作业分配,提出一种基于作业执行非平稳解释与调度问题的时间分解的调度方法,通过连续最大原则的修改形式与数学优化混合,提供了一个多项式时间的调度解决方案。基于数学优化的生产作业调度方法通常能够寻找到问题的最优解,但是原始的优化模型面对调度问题时常会受限于各种变量以及多重的条件约束,在寻找最优解的过程中会产生较高的时间与计算成本,难以满足生产调度的及时性要求,需要进一步进行改进才能用于实际的生产调度问题。
基于群智能的启发式调度方法,Law等人提出了使用调度规则来实现更高的效率,它集成了一个专家系统和启发式算法,用于解决在约束条件下的供应链调度问题;秦新立等提出的改进蚁群算法,实现了发电厂清洁机器人对太阳能电池板清洁工作的任务分配。基于群智能的启发式算法具有较强的寻优能力,能够探索各种调度可能方案,但是通常会面临陷入局部最优的问题,且调度执行时间会随着调度问题规模的增大而产生明显的增长。
伴随着深度学习在声音、视觉、医药、工业各领域的成功应用,人工智能激发了越来越多的兴趣用于解决现实环境中的问题,深度强化学习作为深度学习和强化学习的结合,具有强化学习的优秀决策与深度学习的良好感知能力,能够自动提取各图像特征并通过强化学习训练给出明智的决策,在过往的工作中,深度强化学习主要用于游戏闯关训练以及棋类博弈,更多人期待它能够在实践领域中展现出实际应用,而智能工厂下的动态生产作业调度就是一个极好的实践环境。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习的智能工厂生产作业调度方法及系统,能够实现对当前生产作业快速且高效的调度。
为实现上述目的,本发明采用如下技术方案:
一种基于深度强化学习的智能工厂生产作业调度方法,包括以下步骤:
步骤S1:获取每个任务各个工序在对应机器上的处理数据,并预处理后构成训练集;
步骤S2:构建深度强化学习DQN模型,所述深度强化学习DQN模型包括DQN深度学习网络结构和DQN强化学习模块;
步骤S3:训练深度强化学习DQN模型,得到训练后的深度强化学习DQN模型;
步骤S4:将待生产任务调度数据进行预处理后输入训练后的深度强化学习DQN模型,得到生产任务工序的调度安排。
进一步的,所述预处理具体为:将生产任务调度数据转换成三维矩阵,包括处理时间矩阵、完成时间矩阵和任务执行矩阵。
进一步的,所述任务执行矩阵是一个布尔矩阵,初始化为全0,用于反应当前工序在是否执行,若执行,则矩阵对应位置置为1,反正则为0,所述三维矩阵大小为3×N×O其中N代表生产任务数量,O表示生产任务工序数量,对于生产工序小于O的任务,超出工序的部分处理时间设为0。
进一步的,所述DQN深度学习网络的卷积层采用大小不同的若干个卷积核进行,用于提取输入状态的特征;所述卷积核采用方形卷积核,卷积计算公式表示如下:
y=g(w·x+b)
其中w表示代表卷积核的权重向量,x表示当前卷积位置的矩阵向量,b属于偏置,g是激活函数。
进一步的,所述DQN强化学习模块包括动作决策单元、回报设定单元和算法更新单元。
进一步的,所述动作决策单元在深度学习网络得到所有可能输出调度动作对应的价值估计Q后,采用ε-greedy策略进行动作选择,用ε表示探索概率,生成一个0到1的随机数,当该随机数小于ε时随机选择任意一合法动作,反之选择具有最大Q值的调度动作,探索率ε随着神经网络训练次数的增加而逐渐减低,直至0.05时保持不变持续到训练结束。
进一步的,所述回报设定单元,具体如下:
生产作业调度目的是最大化机器的平均利用率的同时最小化最大完成时间,机器平均利用率具体公式表示如下:
其中M、N、O分别表示生产线、生产任务、生产任务工序的数量,m、n、o表示生产线、生产任务以及工序对应的序号,Pnom表示任务n的第o道工序在机器m上的执行时间;P表示所有工序的处理总时间,Makespan表示所有工序的最晚结束时间,即最大完成时间;
由上式可知,因为P、M值为常数,目标最小化最大完成时间等同于最大化机器平均利用率,将回报设定为动作选择前后利用率的差值,具体公式表示如下:
进一步的,所述算法更新单元,具体为:使用当前动作选择得到的立即回报与下一状态的最大动作价值估计Q估计来更新Q值,网具体公式表示如下:
Q(s,a)←Q(s,a)+α[r+γmaxaQ(s′,a′)-Q(s,a)]
其中,s表示当前的状态,a表示当前的动作选择,Q(s,a)表示当前状态动作选择的价值估计,r是当前动作选择得到的立即回报,s′表示下一状态,a′表示下一状态的动作选择,maxaQ(s′,a′)表示下一状态的最大状态动作选择的价值估计,γ∈(0,1]代表对未来状态价值估计的衰减,α∈(0,1]代表了算法更新的学习率。
进一步的,所述训练深度强化学习DQN模型,具体如下:
步骤S31:采用经验回放池进行采样,建立一个容量大小为D的经验回放池,存储由强化学习决策得到的过往状态经历序列(s,a,r,s′,done),用于神经网络的训练,其中done作为信号用于反应所有生产工序是否执行完毕,若执行完毕则重置调度模拟环境;
步骤S32:从经验回放池中进行随机采样,训练深度强化学习DQN模型中的神经网络,使用Adam优化器通过梯度下降来更新权重、偏置等参数,用于训练神经网络的损失函数由目标Q值与当前Q值的差值构成,具体公式为:
L(w)=E[(r+γmaxa′Q(s′,a′,w-)-Q(s,a,w))2]
其中,maxa′Q(s′,a′,w-)是下一状态的最大状态动作价值估计,由网络结构完全相同但是参数更新更为缓慢的目标Q网络计算得到,r+γmaxa′Q(s′,a′,w-)构成了目标Q值,γ∈(0,1]代表对未来状态价值估计的衰减。
步骤S33:每隔一定训练时间步,将当前DQN神经网络参数传入目标Q网络,返回步骤S31直到当前训练轮数达到训练预设要求。
一种基于深度强化学习的智能工厂生产作业调度系统,包括处理器、存储器以及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时,具体执行如权利要求上述基于深度强化学习的智能工厂生产作业调度方法中的步骤。
本发明与现有技术相比具有以下有益效果:
本发明利用深度学习来自动理解并提取各生产任务的工序特征,再通过设定的回报奖励辅助强化学习进行学习决策,最后通过使用训练完成深度强化学习DQN模型,实现对当前生产作业快速且高效的调度,来达成最小化最大完成时间以及最大化生产线平均利用率的目标。
附图说明
图1是本发明一实施例中的方法流程;
图2是本发明一实施例中DQN模型Q值网络更新示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于深度强化学习的智能工厂生产作业调度方法,包括以下步骤:
步骤S1:在云端计算分解往期或模拟产生的生产任务数据,得到每个任务各个工序在对应机器上的处理时间,并预处理后构成训练集;
步骤S2:构建深度强化学习DQN模型,所述深度强化学习DQN模型包括DQN深度学习网络结构和DQN强化学习模块;
步骤S3:训练深度强化学习DQN模型,得到训练后的深度强化学习DQN模型;
步骤S4:将待生产任务调度数据进行预处理后输入训练后的深度强化学习DQN模型,得到生产任务工序的调度安排。
在本实施例中,DQN深度学习网络结构包括输入层,卷积层和全连接层;
输入层:状态输入是模拟图像的RGB三通道输入的三个二维矩阵的叠加,由处理时间矩阵(用于反应各生产任务各工序在机器上的执行时间)、完成时间矩阵(即生产任务各工序在机器上的完成时间)、任务执行矩阵构成。任务执行矩阵是一个布尔矩阵,初始化为全0,用于反应当前工序在是否执行,若执行,则矩阵对应位置置为1,反正则为0。最终的状态输入是大小为3×N×O的三维矩阵,其中N代表生产任务数量,O表示生产任务工序数量,对于生产工序小于O的任务,超出工序的部分处理时间设为0。
卷积层:多层卷积采用大小不同的多个卷积核进行,用于提取输入状态的特征,此处采用方形卷积核,不同于图像卷积,为了首先尽可能理解每个工序的特征,而后再挖掘全局特征,卷积核大小设置随着卷积层数的增加而减少,步长随着层数的增加从1逐步增大,且网络不采取池化操作,卷积计算公式表示如下:
y=g(w·x+b)
其中w表示代表卷积核的权重向量,x表示当前卷积位置的矩阵向量,b属于偏置,g是激活函数,在此处采用非线性激活函数relu。
全连接层:在全连接层将卷积层的三维输出转换成同等大小的一维输入,经过隐藏层的权重调整、偏置加入、relu函数激活后,最终输出是所有可能的调度动作选择的估计值。
在本实施例中,优选的,DQN强化学习模块包括动作决策单元、回报设定单元和算法更新单元。
动作决策单元:在深度学习网络得到所有可能输出调度动作对应的价值估计Q后,采用ε-greedy策略进行动作选择,用ε表示探索概率,生成一个0到1的随机数,当该随机数小于ε时随机选择任意一合法动作,反之选择具有最大Q值的调度动作,探索率ε随着神经网络训练次数的增加而逐渐减低,直至0.05时保持不变持续到训练结束。
回报设定单元:生产作业调度目的是最大化机器的平均利用率的同时最小化最大完成时间,机器平均利用率具体公式表示如下:
其中M、N、O分别表示生产线、生产任务、生产任务工序的数量,m、n、o表示生产线、生产任务以及工序对应的序号,Pnom表示任务n的第o道工序在机器m上的执行时间;P表示所有工序的处理总时间,Makespan表示所有工序的最晚结束时间,即最大完成时间;
由上式可知,因为P、M值为常数,目标最小化最大完成时间等同于最大化机器平均利用率,将回报设定为动作选择前后利用率的差值,具体公式表示如下:
算法更新单元:使用当前动作选择得到的立即回报与下一状态的最大动作价值估计Q估计来更新Q值,网具体公式表示如下:
Q(s,a)←Q(s,a)+α[r+γmaxaQ(s′,a′)-Q(s,a)]
其中,s表示当前的状态,a表示当前的动作选择,Q(s,a)表示当前状态动作选择的价值估计,r是当前动作选择得到的立即回报,s′表示下一状态,a′表示下一状态的动作选择,maxaQ(s′,a′)表示下一状态的最大状态动作选择的价值估计,γ∈(0,1]代表对未来状态价值估计的衰减,α∈(0,1]代表了算法更新的学习率。
在本实施例中,训练深度强化学习DQN模型,具体如下:
步骤S31:采用经验回放池进行采样,建立一个容量大小为D的经验回放池,存储由强化学习决策得到的过往状态经历序列(s,a,r,s′,done),用于神经网络的训练,其中done作为信号用于反应所有生产工序是否执行完毕,若执行完毕则重置调度模拟环境;
步骤S32:从经验回放池中进行随机采样,训练深度强化学习DQN模型中的神经网络,使用Adam优化器通过梯度下降来更新权重、偏置等参数,用于训练神经网络的损失函数由目标Q值与当前Q值的差值构成,具体公式为:
L(w)=E[(r+γmaxa′Q(s′,a′,w-)-Q(s,a,w))2]
其中,maxa′Q(s′,a′,w-)是下一状态的最大状态动作价值估计,由网络结构完全相同但是参数更新更为缓慢的目标Q网络计算得到,r+γmaxa′Q(s′,a′,w-)构成了目标Q值,γ∈(0,1]代表对未来状态价值估计的衰减。
步骤S33:每隔一定训练时间步,将当前DQN神经网络参数传入目标Q网络,返回步骤S31直到当前训练轮数达到训练预设要求。
一种基于深度强化学习的智能工厂生产作业调度系统,包括处理器、存储器以及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时,具体执行如权利要求上述基于深度强化学习的智能工厂生产作业调度方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (10)
1.一种基于深度强化学习的智能工厂生产作业调度方法,其特征在于,包括以下步骤:
步骤S1:获取每个任务各个工序在对应机器上的处理数据,并预处理后构成训练集;
步骤S2:构建深度强化学习DQN模型,所述深度强化学习DQN模型包括DQN深度学习网络结构和DQN强化学习模块;
步骤S3:训练深度强化学习DQN模型,得到训练后的深度强化学习DQN模型;
步骤S4:将待生产任务调度数据进行预处理后输入训练后的深度强化学习DQN模型,得到生产任务工序的调度安排。
2.根据权利要求1所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述预处理具体为:将生产任务调度数据转换成三维矩阵,包括处理时间矩阵、完成时间矩阵和任务执行矩阵。
3.根据权利要求2所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述任务执行矩阵是一个布尔矩阵,初始化为全0,用于反应当前工序在是否执行,若执行,则矩阵对应位置置为1,反正则为0,所述三维矩阵大小为3×N×O其中N代表生产任务数量,O表示生产任务工序数量,对于生产工序小于O的任务,超出工序的部分处理时间设为0。
4.根据权利要求1所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述DQN深度学习网络的卷积层采用大小不同的若干个卷积核进行,用于提取输入状态的特征;所述卷积核采用方形卷积核,卷积计算公式表示如下:
y=g(w·x+b)
其中w表示代表卷积核的权重向量,x表示当前卷积位置的矩阵向量,b属于偏置,g是激活函数。
5.根据权利要求1所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述DQN强化学习模块包括动作决策单元、回报设定单元和算法更新单元。
6.根据权利要求5所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述动作决策单元在深度学习网络得到所有可能输出调度动作对应的价值估计Q后,采用ε-greedy策略进行动作选择,用ε表示探索概率,生成一个0到1的随机数,当该随机数小于ε时随机选择任意一合法动作,反之选择具有最大Q值的调度动作,探索率ε随着神经网络训练次数的增加而逐渐减低,直至0.05时保持不变持续到训练结束。
7.根据权利要求5所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述回报设定单元,具体如下:
生产作业调度目的是最大化机器的平均利用率的同时最小化最大完成时间,机器平均利用率具体公式表示如下:
其中M、N、O分别表示生产线、生产任务、生产任务工序的数量,m、n、o表示生产线、生产任务以及工序对应的序号,Pnom表示任务n的第o道工序在机器m上的执行时间;P表示所有工序的处理总时间,Makespan表示所有工序的最晚结束时间,即最大完成时间;
由上式可知,因为P、M值为常数,目标最小化最大完成时间等同于最大化机器平均利用率,将回报设定为动作选择前后利用率的差值,具体公式表示如下:
8.根据权利要求5所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述算法更新单元,具体为:使用当前动作选择得到的立即回报与下一状态的最大动作价值估计Q估计来更新Q值,网具体公式表示如下:
Q(s,a)←Q(s,a)+α[r+γmaxaQ(s′,a′)-Q(s,a)]
其中,s表示当前的状态,a表示当前的动作选择,Q(s,a)表示当前状态动作选择的价值估计,r是当前动作选择得到的立即回报,s′表示下一状态,a′表示下一状态的动作选择,maxaQ(s′,a′)表示下一状态的最大状态动作选择的价值估计,γ∈(0,1]代表对未来状态价值估计的衰减,α∈(0,1]代表了算法更新的学习率。
9.根据权利要求1所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述训练深度强化学习DQN模型,具体如下:
步骤S31:采用经验回放池进行采样,建立一个容量大小为D的经验回放池,存储由强化学习决策得到的过往状态经历序列(s,a,r,s′,done),用于神经网络的训练,其中done作为信号用于反应所有生产工序是否执行完毕,若执行完毕则重置调度模拟环境;
步骤S32:从经验回放池中进行随机采样,训练深度强化学习DQN模型中的神经网络,使用Adam优化器通过梯度下降来更新权重、偏置等参数,用于训练神经网络的损失函数由目标Q值与当前Q值的差值构成,具体公式为:
L(w)=E[(r+γmaxa′Q(s′,a′,w-)-Q(s,a,w))2]
其中,maxa′Q(s′,a′,w-)是下一状态的最大状态动作价值估计,由网络结构完全相同但是参数更新更为缓慢的目标Q网络计算得到,r+γmaxa′Q(s′,a′,w-)构成了目标Q值,γ∈(0,1]代表对未来状态价值估计的衰减。
步骤S33:每隔一定训练时间步,将当前DQN神经网络参数传入目标Q网络,返回步骤S31直到当前训练轮数达到训练预设要求。
10.一种基于深度强化学习的智能工厂生产作业调度系统,其特征在于,包括处理器、存储器以及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时,具体执行如权利要求1-9任一项所述的基于深度强化学习的智能工厂生产作业调度方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110741641.2A CN113487165B (zh) | 2021-07-01 | 2021-07-01 | 基于深度强化学习的智能工厂生产作业调度方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110741641.2A CN113487165B (zh) | 2021-07-01 | 2021-07-01 | 基于深度强化学习的智能工厂生产作业调度方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113487165A true CN113487165A (zh) | 2021-10-08 |
CN113487165B CN113487165B (zh) | 2024-05-03 |
Family
ID=77937317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110741641.2A Active CN113487165B (zh) | 2021-07-01 | 2021-07-01 | 基于深度强化学习的智能工厂生产作业调度方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113487165B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113835405A (zh) * | 2021-11-26 | 2021-12-24 | 阿里巴巴(中国)有限公司 | 用于服装车缝产线平衡决策模型的生成方法、设备及介质 |
CN113988627A (zh) * | 2021-10-28 | 2022-01-28 | 广东工业大学 | 基于深度强化学习的协同云排产方法及系统 |
CN114066232A (zh) * | 2021-11-15 | 2022-02-18 | 内蒙古北方重工业集团有限公司 | 基于分布式强化学习和边缘计算的工厂调度方法及系统 |
CN114580937A (zh) * | 2022-03-10 | 2022-06-03 | 暨南大学 | 基于强化学习和注意力机制的智能作业调度系统 |
CN116562599A (zh) * | 2023-07-10 | 2023-08-08 | 深圳凯升联合科技有限公司 | 基于深度学习的高效智能工厂调度系统 |
CN117631633A (zh) * | 2024-01-26 | 2024-03-01 | 四川琪达实业集团有限公司 | 一种服装定制产线柔性控制系统及方法 |
CN117950832A (zh) * | 2024-01-05 | 2024-04-30 | 国网冀北电力有限公司信息通信分公司 | 作业调度方法、装置、存储介质及电子设备 |
WO2024152471A1 (zh) * | 2023-01-18 | 2024-07-25 | 中联重科股份有限公司 | 施工任务智能调度方法、装置、存储介质和处理器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228314A (zh) * | 2016-08-11 | 2016-12-14 | 电子科技大学 | 基于深度增强学习的工作流调度方法 |
CN111506405A (zh) * | 2020-04-08 | 2020-08-07 | 北京交通大学 | 一种基于深度强化学习的边缘计算时间片调度方法 |
CN112598309A (zh) * | 2020-12-29 | 2021-04-02 | 浙江工业大学 | 基于Keras的作业车间调度方法 |
CN112884239A (zh) * | 2021-03-12 | 2021-06-01 | 重庆大学 | 一种基于深度强化学习的航天起爆器生产调度方法 |
-
2021
- 2021-07-01 CN CN202110741641.2A patent/CN113487165B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228314A (zh) * | 2016-08-11 | 2016-12-14 | 电子科技大学 | 基于深度增强学习的工作流调度方法 |
CN111506405A (zh) * | 2020-04-08 | 2020-08-07 | 北京交通大学 | 一种基于深度强化学习的边缘计算时间片调度方法 |
CN112598309A (zh) * | 2020-12-29 | 2021-04-02 | 浙江工业大学 | 基于Keras的作业车间调度方法 |
CN112884239A (zh) * | 2021-03-12 | 2021-06-01 | 重庆大学 | 一种基于深度强化学习的航天起爆器生产调度方法 |
Non-Patent Citations (1)
Title |
---|
B.-A. HAN, J.-J. YANG: "Research on Adaptive Job Shop Scheduling Problems Based on Dueling Double DQN", ACCESS, pages 5 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113988627A (zh) * | 2021-10-28 | 2022-01-28 | 广东工业大学 | 基于深度强化学习的协同云排产方法及系统 |
CN114066232A (zh) * | 2021-11-15 | 2022-02-18 | 内蒙古北方重工业集团有限公司 | 基于分布式强化学习和边缘计算的工厂调度方法及系统 |
CN114066232B (zh) * | 2021-11-15 | 2022-07-22 | 内蒙古北方重工业集团有限公司 | 基于分布式强化学习和边缘计算的工厂调度方法及系统 |
CN113835405A (zh) * | 2021-11-26 | 2021-12-24 | 阿里巴巴(中国)有限公司 | 用于服装车缝产线平衡决策模型的生成方法、设备及介质 |
CN113835405B (zh) * | 2021-11-26 | 2022-04-12 | 阿里巴巴(中国)有限公司 | 用于服装车缝产线平衡决策模型的生成方法、设备及介质 |
CN114580937A (zh) * | 2022-03-10 | 2022-06-03 | 暨南大学 | 基于强化学习和注意力机制的智能作业调度系统 |
WO2024152471A1 (zh) * | 2023-01-18 | 2024-07-25 | 中联重科股份有限公司 | 施工任务智能调度方法、装置、存储介质和处理器 |
CN116562599A (zh) * | 2023-07-10 | 2023-08-08 | 深圳凯升联合科技有限公司 | 基于深度学习的高效智能工厂调度系统 |
CN117950832A (zh) * | 2024-01-05 | 2024-04-30 | 国网冀北电力有限公司信息通信分公司 | 作业调度方法、装置、存储介质及电子设备 |
CN117631633A (zh) * | 2024-01-26 | 2024-03-01 | 四川琪达实业集团有限公司 | 一种服装定制产线柔性控制系统及方法 |
CN117631633B (zh) * | 2024-01-26 | 2024-04-19 | 四川琪达实业集团有限公司 | 一种服装定制产线柔性控制系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113487165B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113487165B (zh) | 基于深度强化学习的智能工厂生产作业调度方法及系统 | |
Ewees et al. | Enhanced salp swarm algorithm based on firefly algorithm for unrelated parallel machine scheduling with setup times | |
CN103577694B (zh) | 一种基于多尺度分析的水产养殖水质短期组合预测方法 | |
Yu et al. | Unit commitment using Lagrangian relaxation and particle swarm optimization | |
He et al. | Optimising the job-shop scheduling problem using a multi-objective Jaya algorithm | |
CN112052948B (zh) | 一种网络模型压缩方法、装置、存储介质和电子设备 | |
Oroojlooyjadid et al. | A deep q-network for the beer game: A reinforcement learning algorithm to solve inventory optimization problems | |
CN108614422B (zh) | 陆基工厂循环水养殖中溶解氧优化控制方法、装置及系统 | |
Gu et al. | A discrete particle swarm optimization algorithm with adaptive inertia weight for solving multiobjective flexible job-shop scheduling problem | |
CN103778482A (zh) | 基于多尺度分析的水产养殖溶解氧短期预测方法 | |
CN110751355A (zh) | 一种科技成果评估方法和装置 | |
CN113469491B (zh) | 一种基于强化学习和图神经网络的柔性车间作业调度方法 | |
CN112700057B (zh) | 一种基于模块化循环神经网络的电力负荷预测方法 | |
CN112163671A (zh) | 一种新能源场景生成方法及系统 | |
Khanum et al. | Two new improved variants of grey wolf optimizer for unconstrained optimization | |
CN112525194A (zh) | 一种基于海马-纹状体内源性和外源性信息的认知导航方法 | |
CN117236650B (zh) | 一种水肥一体化智慧泵房控制方法 | |
CN113743784A (zh) | 一种基于深度强化学习的生产时序表智能生成方法 | |
CN112488543B (zh) | 基于机器学习的智慧工地智能排班方法及系统 | |
CN109086941A (zh) | 一种能源消费预测方法 | |
CN112070200B (zh) | 一种谐波群优化方法及其应用 | |
CN112669186A (zh) | 人群疏散中积极情绪和消极情绪的最优化干预方法及系统 | |
Akyol et al. | Multi-machine earliness and tardiness scheduling problem: an interconnected neural network approach | |
CN114037341B (zh) | 一种基于ddqn的智能车间动态自适应调度方法及系统 | |
Savsani et al. | Optimal aggregate production planning by using genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |