CN114565247A - 一种基于深度强化学习的车间调度方法、装置和系统 - Google Patents
一种基于深度强化学习的车间调度方法、装置和系统 Download PDFInfo
- Publication number
- CN114565247A CN114565247A CN202210147308.3A CN202210147308A CN114565247A CN 114565247 A CN114565247 A CN 114565247A CN 202210147308 A CN202210147308 A CN 202210147308A CN 114565247 A CN114565247 A CN 114565247A
- Authority
- CN
- China
- Prior art keywords
- agent
- workshop
- workpiece
- scheduling
- actor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 230000002787 reinforcement Effects 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 75
- 230000006870 function Effects 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000004088 simulation Methods 0.000 claims abstract description 35
- 238000003754 machining Methods 0.000 claims abstract description 26
- 230000002452 interceptive effect Effects 0.000 claims abstract description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 111
- 230000008569 process Effects 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims 1
- 239000010410 layer Substances 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06316—Sequencing of tasks or work
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41865—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41885—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Manufacturing & Machinery (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Optimization (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Automation & Control Theory (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Algebra (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度强化学习的车间调度方法、装置和系统,属于作业车间调度领域,所述方法包括:S1:根据车间调度问题的目标函数确定出车间仿真环境;S2:利用深度强化学习DRL智能体与车间仿真环境获取交互三元组<s,a,r>;S3:将多个三元组作为训练数据集训练智能体Actor和智能体Critic;智能体Actor用于选取加工工件,智能体Critic用于评价当前加工状态的期望奖励值;S4:利用执行智能体继承训练后的智能体Actor的网络参数,控制执行智能体在线对车间加工工序中的调度实例进行决策,以确定出下一个待加工工件。本发明为基于数据驱动的科学决策,决策效率高,能够准确为待加工工件分配优先级,同时适用于各种加工场景,兼容性强。
Description
技术领域
本发明属于车间调度领域,更具体地,涉及一种基于深度强化学习的车间调度方法、装置和系统。
背景技术
作业车间调度问题(Job Shop Scheduling Problem,JSSP)是智能制造中典型的调度问题,即通过合理安排工件在各机器上的加工顺序以达到预定的目标函数,比如最小化最大完工时间、最小化拖期等。好的车间调度方法可以帮助企业提高生产效率、资源利用率,因此车间调度问题受到广泛的关注。随着互联网的普及,制造业逐渐转变为多品种小批量的生产模式,客户的线上订单逐渐占据了一些企业的业务核心。这类调度问题也被称为在线调度问题,因其固有的不确定性和复杂性使得传统的静态调度方法难以适用。
而目前应用比较广泛的动态在线调度方法是启发式规则方法,其关键在于为待加工工件分配优先级。但是启发式规则不具有泛化性,不同的启发式规则是适用于特定的加工场景。而且,启发式规则具有短视性,即调度结果会随着决策步数的增加远远差于最优解。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度强化学习的车间调度方法、装置和系统,其目的在于,通过智能体与加工环境交互得到训练数据,利用近端策略优化算法和训练数据对智能体进行训练;再控制执行智能体直接继承离线训练中智能体的调度知识,从而对加工环境新的调度实例进行决策;由此解决现有作业车间的动态在线调度方法效率低、兼容性差的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度强化学习的车间调度方法,包括:
S1:根据车间调度问题的目标函数确定出车间仿真环境;其中,所述车间仿真环境以每台机器对应的当前加工工序结束和新工件到达为动态事件,触发实施调度策略以从待加工工件中选取一个加工工件;当一个加工工件的所有工序被选择完后将其移除所述车间仿真环境,直到所有工件均被移除,从而完成车间调度过程;
S2:利用深度强化学习DRL智能体与所述车间仿真环境获取交互三元组<s,a,r>;s为当前加工状态,a为所述DRL智能体针对所述当前加工状态s做出加工动作,r为所述车间仿真环境针对所述加工动作a反馈的奖励;
S3:将多个所述三元组<s,a,r>作为训练数据集训练智能体Actor和智能体Critic;所述智能体Actor和所述智能体Critic均基于深度强化学习算法架构;所述智能体Actor用于选取加工工件,所述智能体Critic用于评价当前加工状态的期望奖励值;
S4:利用执行智能体继承训练后的智能体Actor的网络参数,控制所述执行智能体在线对车间加工工序中的调度实例进行决策,以确定出下一个待加工工件。
在其中一个实施例中,Actor的损失函数和Critic的损失函数的表达式为:
Lcritic(s,a,θ)=mse(Apθ(s,a));
其中,θ和θk分别指构成新旧策略对应神经网络的网络权重,新策略为当前时刻对应的神经网络参数,旧策略为当前时刻之前若干迭代步数对应的神经网络参数,是优势函数,st为t时刻加工状态,a为t时刻加工动作,rt为t时刻反馈的奖励,γ是折扣因子,Vθ(st)是Critic输出的期望奖励值;r(θ)为新策略对应神经网络的输出结果pθ(a|s)和旧策略对应神经网络的输出结果pθk(a|s)的比值,用于描述新旧策略的变化,并采用Clip裁剪函数限制r(θ)的变动量,ε为超参数,Critic的损失函数采用均方误差mse优化预测的期望奖励值和真实奖励值的差值。
在其中一个实施例中,离线训练的损失函数为:
LPPO=Lactor-c1Lcritic+c2S[pθ](s);
其中,Lactor为Actor的损失函数,Lcritic是Critic的损失函数,c1,c2是常数系数,S[pθ](s)交叉熵,pθ是网络学习到的策略,即网络参数。
在其中一个实施例中,所述智能体Actor和所述智能体Critic均基于近端策略优化算法架构。
在其中一个实施例中,所述智能体Actor的网络结构包括Transformer结构;
所述Transformer结构包括:若干个相互串联的相同的注意力层;其输入为以单个工件信息为单位的工件序列,输出为下一加工工件在所述工件序列中的位置,以为输入的各个工件分配注意力,即确定出各个工件被选择的优先级。
在其中一个实施例中,所述为输入的各个工件分配注意力的过程包括:
将所述Transformer结构针对第j个工件Ji的输出ej输入注意力机制uj=vT tanh(Wej+d),aj=softmax(uj),j∈(1,···,n),进而得到注意力向量W,v,d是在此次训练中进行学习的网络参数;
将ej和d'通过Act_Net机制防止信息退化,则各个工件的注意力分配表示为:
uj=qTtanh(W1ej+W2d'),j∈(1,···,n);
P=softmax(u);
W1,W2,q是在此次训练中进行学习的网络参数,u即输入的各个工件的注意力分配;再通过softmax函数进行注意力归一化得到注意力分布P。
在其中一个实施例中,所述S4包括:
利用执行智能体继承训练后的智能体Actor的网络参数;
控制所述执行智能体根据所述注意力分布P对应的argmax(P)在线对车间加工工序中的调度实例进行决策,确定出下一个待加工工件。
按照本发明的另一方面,提供了一种基于深度强化学习的车间调度装置,包括:
初始化模块,用于根据车间调度问题的目标函数确定出车间仿真环境;其中,所述车间仿真环境以每台机器对应的当前加工工序结束和新工件到达为动态事件,触发调度策略以从待加工工件中选取一个加工工件;当一个加工工件的所有工序被选择完后将其移除所述车间仿真环境,直到所有工件均被移除从而完成车间调度过程;
构建模块,用于利用深度强化学习DRL智能体与所述车间仿真环境获取交互三元组<s,a,r>;s为当前加工状态,a为所述DRL智能体针对所述当前加工状态s做出加工动作,r为所述车间仿真环境针对所述加工动作a反馈的奖励;
训练模块,用于多个所述三元组<s,a,r>作为训练数据集训练智能体Actor和智能体Critic;所述智能体Actor和所述智能体Critic均基于深度强化学习算法架构;所述智能体Actor用于选取加工工件,所述智能体Critic用于评价当前加工状态的期望奖励值;
调度模块,用于利用执行智能体继承训练后的智能体Actor的网络参数,控制所述执行智能体在线对车间加工工序中的调度实例进行决策,以确定出下一个待加工工件。
按照本发明的另一方面,提供了一种基于深度强化学习的车间调度系统,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述车间调度方法的步骤。
按照本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述车间调度方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
第一、本发明公开了基于深度强化学习的车间调度方法包括模拟加工环境、离线训练和在线应用三部分组成,离线训练中的深度强化学习智能体通过与环境交互得到训练数据,并通过基于策略的近端策略优化算法训练智能体从交互得到的训练数据学习调度知识;在线应用中的执行智能体直接继承离线训练中的智能体的调度知识,并对来自于加工环境的新调度实例进行快速在线决策。基于深度强化学习的调度方法实现了基于数据驱动的科学决策,决策效率高,能够准确为待加工工件分配优先级,同时适用于各种加工场景,兼容性强,在工业互联网时代有着巨大的应用前景。
第二、设计了基于Transformer和注意力机制的动作网络,该网络的输出可以直接指向下一加工工件,其对应于输入工件序列中该工件的位置。
附图说明
图1为本发明一实施例中基于深度强化学习的车间调度方法的流程图;
图2为本发明一实施例中基于深度强化学习的车间调度方法的框架示意图;
图3为本发明一实施例中Transformer的单层内部结构图;
图4为本发明一实施例中基于Transformer结构和注意力机制选择工件的Actor网络示意图;
图5为关于图3选出的工件进行评价的智能体Critic的网络结构图;
图6为本发明一实施例中基于深度强化学习的车间调度方法中S4的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
深度强化学习(Deep Reinforcement Learning,DRL)在强化学习的基础上加入神经网络去近似求解值函数,使强化学习可以解决大规模以及连续状态空间的问题。DRL是一种不需要建立数学模型仅通过与环境交互进行问题求解的一种方法。DRL可以看作为一个智能体Agent,与环境交互的过程可以定义为一个三元组。Agent根据从环境中观测到的状态S做出动作A,然后环境反馈一个奖励值R去评价动作的好坏,Agent根据得到的奖励值R去调整自己的策略,从而可以在未来的决策中收获更大的奖励值。目前,DRL方法可以分为两类:基于值的DRL和基于策略的DRL。基于值得DRL更侧重当前决策的好坏,基于策略的DRL则是从一轮的总奖励值去进行优化,更有助智能体学习全局性能。
如图1所示,本发明提供一种基于深度强化学习的车间调度方法,包括:
S1:根据车间调度问题的目标函数确定出车间仿真环境;其中,所述车间仿真环境以每台机器对应的当前加工工序结束和新工件到达为动态事件,触发实施调度策略以从待加工工件中选取一个加工工件;当一个加工工件的所有工序被选择完后将其移除所述车间仿真环境,直到所有工件均被移除,从而完成车间调度过程。
S2:利用深度强化学习DRL智能体与所述车间仿真环境获取交互三元组<s,a,r>;s为当前加工状态,a为所述DRL智能体针对所述当前加工状态s做出加工动作,r为所述车间仿真环境针对所述加工动作a反馈的奖励。
具体的,本发明中的加工环境是通过仿真建立的,<s,a,r>是加工环境和DRL智能体进行交互的三元组,智能体通过从仿真环境中观测当前的加工状态s,做出动作a,所作的动作会改变当前的加工状态,加工环境的状态矩阵也会相应的转移到下一状态矩阵,加工环境会反馈一个奖励r来评价智能体所作的动作,奖励是智能体调整以后调度策略的依据。该仿真加工环境以每台机器上当前加工工序加工完成和新工件到达为动态事件,触发智能体进行调度,从待加工工件中选取即将要加工的工件,当一个工件的所有工序被选择完后,将该工件移除加工环境,直到所有的工件被移除加工环境,即没有待加工工件在车间环境时,整个调度过程完成。
S3:将多个所述三元组<s,a,r>作为训练数据集训练智能体Actor和智能体Critic;所述智能体Actor和所述智能体Critic均基于深度强化学习算法架构;所述智能体Actor用于选取加工工件,所述智能体Critic用于评价当前加工状态的期望奖励值。
具体的,本发明中采用的深度强化学习(Deep Reinforcement Learning,DRL)算法为近端策略优化算法(Proximal Policy Optimization,PPO),PPO是基于策略的DRL算法,其主旨在于训练智能体学习一轮中总奖励最大的调度策略。PPO是基于Actor和Critic架构的,因此需要训练两个智能体:Actor和Critic,Actor的作用是选取下一加工工件,Critic的作用是评价当前加工状态的期望奖励值。
S4:利用执行智能体继承训练后的智能体Actor的网络参数,控制所述执行智能体在线对车间加工工序中的调度实例进行决策,以确定出下一个待加工工件。
在其中一个实施例中,Actor的损失函数和Critic的损失函数的表达式为:
Lcritic(s,a,θ)=mse(Apθ(s,a));
其中,θ和θk分别指构成新旧策略对应神经网络的网络权重,新策略为当前时刻对应的神经网络参数,旧策略为当前时刻之前若干迭代步数对应的神经网络参数,是优势函数,st为t时刻加工状态,a为t时刻加工动作,rt为t时刻反馈的奖励,γ是折扣因子,Vθ(st)是Critic输出的期望奖励值;r(θ)为新策略对应神经网络的输出结果pθ(a|s)和旧策略对应神经网络的输出结果pθk(a|s)的比值,用于描述新旧策略的变化,并采用Clip裁剪函数限制r(θ)的变动量,ε为超参数,Critic的损失函数采用均方误差mse优化预测的期望奖励值和真实奖励值的差值。
在其中一个实施例中,离线训练的损失函数为:
LPPO=Lactor-c1Lcritic+c2S[pθ](s);
其中,Lactor为Actor的损失函数,Lcritic是Critic的损失函数,c1,c2是常数系数,S[pθ](s)是交叉熵,用来衡量新旧策略分布的差异性,pθ是网络学习到的策略,即网络参数。
具体的,Actor和Critic的损失函数定义如下:
Lcritic(s,a,θ)=mse(Apθ(s,a))
LPPO=Lactor-c1Lcritic+c2S[pθ](s)
Lactor是Actor的损失函数,Lcritic是Critic的损失函数,S[pθ](s)是交叉熵,是优势函数,Vθ(st)是Critic输出的期望奖励值,γ是折扣因子,用来把未来的奖励折扣到当下的奖励。优势函数可以反映从当前动作获得的奖励值相对于平均期望奖励的优势。ε是一个非常小的超参数,是为了限制r(θ)的变动量,是新旧策略的比值,用来描述新旧策略的变化。c1,c2是常数系数,S是交叉熵。当Actor和Critic网络共享网络参数的时候,可以采用一个损失函数进行训练,损失函数形式见LPPO。定义好网络的损失函数之将执行梯度上升去优化调度策略。
在其中一个实施例中,所述智能体Actor和所述智能体Critic均基于近端策略优化算法架构。
在其中一个实施例中,所述智能体Actor的网络结构包括Transformer结构;
所述Transformer结构包括:若干个相互串联的相同的注意力层;其输入为以单个工件信息为单位的工件序列,输出为下一加工工件在所述工件序列中的位置,以为输入的各个工件分配注意力,即确定出各个工件被选择的优先级。
本发明中Actor的动作空间设计为输入的待加工工件,因此,网络的输入是以单个工件信息为单位的工件序列,输出则是对应输入中下一加工工件在输入序列中的位置。在本方法中,Transformer被用来处理以工件为单位的序列输入,从而提取整个当前加工环境的特征。Transformer结构是由若干个相同的注意力层串联组成,单个的注意力层的网络结构如图3所示,单层注意力网络由两个子层串联组成,依次是多头注意力层和前馈神经网络层,每个子层的连接正则化对输出进行处理,并通过残差连接两个子层。Transformer的输出将经过注意力机制(Attention Mechanism,AM),从而为输入的各个工件分配注意力,即每个工件被选择的优先级。AM分配注意力的过程如下:
uj=vTtanh(Wej+d),j∈(1,···,n)
aj=softmax(uj),j∈(1,···,n)
ej是Transformer对应工件Ji的输出,W,v,d是可以在训练中进行学习的网络参数,d'是注意力向量,辅助接下来的机制计算注意力,接下来的机制采用Act_Net表示:
uj=vTtanh(W1ej+W2d'),j∈(1,···,n)
P=softmax(u)
u即输入的各个工件的注意力分配,最后通过softmax函数讲注意力归一化。离线训练的智能体根据计算的注意力分布P进行采样对策略进行探索,在线训练中的智能体根据argmax(P)选出下一加工的工件。
在其中一个实施例中,所述为输入的各个工件分配注意力的过程包括:
将所述Transformer结构针对第j个工件Ji的输出ej输入注意力机制uj=vTtanh(Wej+d),aj=softmax(uj),j∈(1,···,n),进而得到注意力向量W,v,d是在此次训练中进行学习的网络参数;
将ej和d'通过Act_Net机制防止信息退化,则各个工件的注意力分配表示为:
uj=qTtanh(W1ej+W2d'),j∈(1,···,n);
P=softmax(u);
W1,W2,q在此次训练中进行学习的网络参数,u即输入的各个工件的注意力分配;再通过softmax函数进行注意力归一化得到注意力分布P。
在其中一个实施例中,所述S4包括:
利用执行智能体继承训练后的智能体Actor的网络参数;
控制所述执行智能体根据所述注意力分布P对应的argmax(P)在线对车间加工工序中的调度实例进行决策,确定出下一个待加工工件。
按照本发明的另一方面,提供了一种基于深度强化学习的车间调度装置,包括:
初始化模块,用于根据车间调度问题的目标函数确定出车间仿真环境;其中,所述车间仿真环境以每台机器对应的当前加工工序结束和新工件到达为动态事件,触发调度策略以从待加工工件中选取一个加工工件;当一个加工工件的所有工序被选择完后将其移除所述车间仿真环境,直到所有工件均被移除从而完成车间调度过程;
构建模块,用于利用深度强化学习DRL智能体与所述车间仿真环境获取交互三元组<s,a,r>;s为当前加工状态,a为所述DRL智能体针对所述当前加工状态s做出加工动作,r为所述车间仿真环境针对所述加工动作a反馈的奖励;
训练模块,用于多个所述三元组<s,a,r>作为训练数据集训练智能体Actor和智能体Critic;所述智能体Actor和所述智能体Critic均基于深度强化学习算法架构;所述智能体Actor用于选取加工工件,所述智能体Critic用于评价当前加工状态的期望奖励值;
调度模块,用于利用执行智能体继承训练后的智能体Actor的网络参数,控制所述执行智能体在线对车间加工工序中的调度实例进行决策,以确定出下一个待加工工件。
按照本发明的另一方面,提供了一种基于深度强化学习的车间调度系统,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述车间调度方法的步骤。
按照本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述车间调度方法的步骤。
下文对本发明提供的车间在线调度方法解决最小化总拖期问题进行描述,需要说明的是,最小化总拖期问题是在线调度的经典问题,但本发明不仅限于解决最小化总拖期的问题,本发明是为解决在线调度问题提出了一个通用的框架。下面将结合最小化总拖期问题详细讲述一下本方法的实施过程,其他调度问题可以根据需要解决的目标函数改变加工环境中的状态矩阵和奖励函数,即可学习到相应的调度策略。整个框架如附图2所示。针对作业车间在线调度的最小化总拖期问题,具体的实施步骤如下:
(1)对以总拖期最小为目标函数的动态在线作业车间调度问题进行描述。作业车间在线调度可以描述为:有n个连续到来的工件J={J1,J2,···,Ji,···Jn}被安在m台机器M={M1,M2,···,Mi,···Mm}上进行加工,每个工件有m个工序Ji={Oi1,Oi2,···,Oii,···Oim}。工序Oi,j的加工时间pi,j和被分配的加工机器mi,j在工件Ji到达后才确定。作业车间调度问题需要满足如下约束和假设:
1)同一个工件的所有工序有一个固定的加工顺序,只有在前一道工序加工完成后才能进行下一道工序的加工,不同工件的工序没有加工顺序约束;
2)一台机器一次只能加工一道工序,只有在当前工序加工完成后才能开始下一道工序的加工;
3)机器故障、资源短缺、工件运输时间等不进行考虑。
为了更符合当前的生产制造模式,本发明以总拖期为目标函数,定义如下:
ci,j是工序Oi,j的完工时间,Ai是工件Ji到达车间的时间,Di是工件Ji的交货日期。DDT在某种程度上代表的工件的紧急程度,DDT越小,工件约紧急。
(2)建立作业车间的仿真加工环境,加工环境可以用矩阵进行描述,即状态矩阵。DRL智能体可以根据当前观测到的状态矩阵进行决策,加工环境的状态矩阵也会根据决策转移到下一状态。因为本发明解决的是最小拖期问题,所以观测到的状态需要包括两部分,一是可以反应当前待加工工件的加工信息的特征,包括加工时间和被分配的机器;二是可以放映当前待加工工件关于延期情况的特征。本发明设计以每个工件为网络的输入单元,所有工件的信息即反映当前加工环境的状态。为此,本发明为每个工件设计了5个特征,表示为:
特征Pi,Mi是代加工工件的加工信息,分别是加工时间和加工机器。RSTi是机器允许的可开始加工时间,反映的已加工完的工件信息。特征RJTi,RDi分别表示工件下一工序允许的相对可开始加工时间和工件的相对交货期,反映了工件的延期情况。
(3)设计DRL智能体的动作A。图3显示了单层注意力层的结构。图4中Transformer部分是三层串联的相同的注意力层,图5详细描绘了选取动作的过程。当前决策点的动作空间可以表示如下:at={J1,J2,...,Jn},即为选择对应的工件。
(4)设计DRL的奖励函数r。奖励函数是用来修改网络的策略以实现目标函数的。如上所述动态作业车间的目标函数是最小化总拖期,工件的拖期只有在该工件的全部工序完成以后才可以确定。因此,本发明将调度每一个工件最后一个工序的动作的奖励值设置为该工件拖期的负值。当所有的工作被调度完,一个回合的总奖励是总拖期的负值。近端优化算法是为了提高一个回合的总奖励,因此,总拖期的负值随着训练增加的过程就是总拖期随着训练减少的过程。基于以上叙述,奖励函数可以定义如下。
(5)PPO训练是基于Actor和Critic框架的,Critic网络是用来评价动作的,Critic网络与Actor网络共享Transformer的特征提取网络,在选择工件时采用带有一个输出节点的全连接网络,具体的网络结构如附图5。基于上述各个部分的设计和发明内容中PPO定义的损失函数。
(6)执行智能体将直接继承离线训练中Actor的调度知识,对新的调度实例进行快速决策。在线应用的整个过程如图6所示;而且离线训练中的智能体也可以对新的调度实例进行学习,进而不断更新调度策略,提高决策性能。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度强化学习的车间调度方法,其特征在于,包括:
S1:根据车间调度问题的目标函数确定出车间仿真环境;其中,所述车间仿真环境以每台机器对应的当前加工工序结束和新工件到达为动态事件,触发实施调度策略以从待加工工件中选取一个加工工件;当一个加工工件的所有工序被选择完后将其移除所述车间仿真环境,直到所有工件均被移除,从而完成车间调度过程;
S2:利用深度强化学习DRL智能体与所述车间仿真环境获取交互三元组<s,a,r>;s为当前加工状态,a为所述DRL智能体针对所述当前加工状态s做出加工动作,r为所述车间仿真环境针对所述加工动作a反馈的奖励;
S3:将多个所述三元组<s,a,r>作为训练数据集训练智能体Actor和智能体Critic;所述智能体Actor和所述智能体Critic均基于深度强化学习算法架构;所述智能体Actor用于选取加工工件,所述智能体Critic用于评价当前加工状态的期望奖励值;
S4:利用执行智能体继承训练后的智能体Actor的网络参数,控制所述执行智能体在线对车间加工工序中的调度实例进行决策,以确定出下一个待加工工件。
2.如权利要求1所述的基于深度强化学习的车间调度方法,其特征在于,Actor的损失函数和Critic的损失函数的表达式为:
3.如权利要求2所述的基于深度强化学习的车间调度方法,其特征在于,离线训练的损失函数为:
LPPO=Lactor-c1Lcritic+c2S[pθ](s);
其中,Lactor为Actor的损失函数,Lcritic是Critic的损失函数,c1,c2是常数系数,S[pθ](s)交叉熵。
4.如权利要求2所述的基于深度强化学习的车间调度方法,其特征在于,所述智能体Actor和所述智能体Critic均基于近端策略优化算法架构。
5.如权利要求1所述的基于深度强化学习的车间调度方法,其特征在于,所述智能体Actor的网络结构包括Transformer结构;
所述Transformer结构包括:若干个相互串联的相同的注意力层;其输入为以单个工件信息为单位的工件序列,输出为下一加工工件在所述工件序列中的位置,以为输入的各个工件分配注意力,即确定出各个工件被选择的优先级。
6.如权利要求5所述的基于深度强化学习的车间调度方法,其特征在于,所述为输入的各个工件分配注意力的过程包括:
将所述Transformer结构针对第j个工件Ji的输出ej输入注意力机制uj=vTtanh(Wej+d),aj=softmax(uj),j∈(1,…,n),进而得到注意力向量W,v,d是在此次训练中进行学习的网络参数;
将ej和d'通过Act_Net机制防止信息退化,则各个工件的注意力分配表示为:
uj=qTtanh(W1ej+W2d'),j∈(1,…,n);
P=softmax(u);
W1,W2,q是在此次训练中进行学习的网络参数,u即输入的各个工件的注意力分配;再通过softmax函数进行注意力归一化得到注意力分布P。
7.如权利要求6所述的基于深度强化学习的车间调度方法,其特征在于,所述S4包括:
利用执行智能体继承训练后的智能体Actor的网络参数;
控制所述执行智能体根据所述注意力分布P对应的argmax(P)在线对车间加工工序中的调度实例进行决策,确定出下一个待加工工件。
8.一种基于深度强化学习的车间调度装置,其特征在于,包括:
初始化模块,用于根据车间调度问题的目标函数确定出车间仿真环境;其中,所述车间仿真环境以每台机器对应的当前加工工序结束和新工件到达为动态事件,触发调度策略以从待加工工件中选取一个加工工件;当一个加工工件的所有工序被选择完后将其移除所述车间仿真环境,直到所有工件均被移除从而完成车间调度过程;
构建模块,用于利用深度强化学习DRL智能体与所述车间仿真环境获取交互三元组<s,a,r>;s为当前加工状态,a为所述DRL智能体针对所述当前加工状态s做出加工动作,r为所述车间仿真环境针对所述加工动作a反馈的奖励;
训练模块,用于多个所述三元组<s,a,r>作为训练数据集训练智能体Actor和智能体Critic;所述智能体Actor和所述智能体Critic均基于深度强化学习算法架构;所述智能体Actor用于选取加工工件,所述智能体Critic用于评价当前加工状态的期望奖励值;
调度模块,用于利用执行智能体继承训练后的智能体Actor的网络参数控制所述执行智能体在线对车间加工工序中的调度实例进行决策,以确定下一个待加工工件。
9.一种基于深度强化学习的车间调度系统,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210147308.3A CN114565247A (zh) | 2022-02-17 | 2022-02-17 | 一种基于深度强化学习的车间调度方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210147308.3A CN114565247A (zh) | 2022-02-17 | 2022-02-17 | 一种基于深度强化学习的车间调度方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114565247A true CN114565247A (zh) | 2022-05-31 |
Family
ID=81714186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210147308.3A Pending CN114565247A (zh) | 2022-02-17 | 2022-02-17 | 一种基于深度强化学习的车间调度方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114565247A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330095A (zh) * | 2022-10-14 | 2022-11-11 | 青岛慧拓智能机器有限公司 | 矿车调度模型训练方法、装置、芯片、终端、设备及介质 |
CN116307440A (zh) * | 2022-11-21 | 2023-06-23 | 暨南大学 | 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 |
CN116993028A (zh) * | 2023-09-27 | 2023-11-03 | 美云智数科技有限公司 | 车间排产方法、装置、存储介质及电子设备 |
-
2022
- 2022-02-17 CN CN202210147308.3A patent/CN114565247A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330095A (zh) * | 2022-10-14 | 2022-11-11 | 青岛慧拓智能机器有限公司 | 矿车调度模型训练方法、装置、芯片、终端、设备及介质 |
CN115330095B (zh) * | 2022-10-14 | 2023-07-07 | 青岛慧拓智能机器有限公司 | 矿车调度模型训练方法、装置、芯片、终端、设备及介质 |
CN116307440A (zh) * | 2022-11-21 | 2023-06-23 | 暨南大学 | 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 |
CN116307440B (zh) * | 2022-11-21 | 2023-11-17 | 暨南大学 | 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 |
CN116993028A (zh) * | 2023-09-27 | 2023-11-03 | 美云智数科技有限公司 | 车间排产方法、装置、存储介质及电子设备 |
CN116993028B (zh) * | 2023-09-27 | 2024-01-23 | 美云智数科技有限公司 | 车间排产方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114565247A (zh) | 一种基于深度强化学习的车间调度方法、装置和系统 | |
CN107767022B (zh) | 一种生产数据驱动的动态作业车间调度规则智能选择方法 | |
CN112734172B (zh) | 一种基于时序差分的混合流水车间调度方法 | |
CN109388484B (zh) | 一种基于Deep Q-network算法的多资源云作业调度方法 | |
CN112149987A (zh) | 基于深度强化学习的多目标柔性作业车间调度方法和装置 | |
CN113792924A (zh) | 一种基于Deep Q-network深度强化学习的单件作业车间调度方法 | |
CN115168027A (zh) | 一种基于深度强化学习的算力资源度量方法 | |
CN116500986A (zh) | 一种分布式作业车间的优先调度规则生成方法及系统 | |
CN114707881A (zh) | 一种基于深度强化学习的作业车间自适应调度方法 | |
CN114912826A (zh) | 一种基于多层深度强化学习的柔性作业车间调度方法 | |
CN114611897A (zh) | 一种智能产线自适应动态调度策略选择方法 | |
Zhang et al. | Dynamic scheduling for flexible job shop with insufficient transportation resources via graph neural network and deep reinforcement learning | |
Qu et al. | Dynamic scheduling in modern processing systems using expert-guided distributed reinforcement learning | |
CN113139747A (zh) | 基于深度强化学习的带返工汽车涂装重排序方法 | |
CN113506048A (zh) | 一种柔性作业车间的调度方法 | |
CN117314055A (zh) | 基于强化学习的智能制造车间生产-运输联合调度方法 | |
CN116151581A (zh) | 一种柔性车间调度方法、系统及电子设备 | |
CN117361013A (zh) | 一种基于深度强化学习的多机货架仓储调度方法 | |
Zhang et al. | Counterfactual-attention multi-agent reinforcement learning for joint condition-based maintenance and production scheduling | |
CN113657742B (zh) | 车间调度方法、装置、电子设备及存储介质 | |
CN115827225A (zh) | 异构运算的分配方法、模型训练方法、装置、芯片、设备及介质 | |
Ding et al. | Multi-policy deep reinforcement learning for multi-objective multiplicity flexible job shop scheduling | |
CN114219274A (zh) | 一种基于深度强化学习适应机器状态的车间调度方法 | |
CN114819273A (zh) | 基于多Agent全局与局部优化结合的车间调度方法 | |
CN117892969A (zh) | 一种基于深度强化学习的柔性车间作业动态调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |