CN114580937B - 基于强化学习和注意力机制的智能作业调度系统 - Google Patents
基于强化学习和注意力机制的智能作业调度系统 Download PDFInfo
- Publication number
- CN114580937B CN114580937B CN202210237299.7A CN202210237299A CN114580937B CN 114580937 B CN114580937 B CN 114580937B CN 202210237299 A CN202210237299 A CN 202210237299A CN 114580937 B CN114580937 B CN 114580937B
- Authority
- CN
- China
- Prior art keywords
- scheduling
- matrix
- job
- network
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及用于数据处理方法技术领域,具体涉及一种基于强化学习和注意力机制的智能作业调度系统;包括:从给定的由机器矩阵MO和工时矩阵TO描述的调度实例,生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例,并将其作为当前交互环境;调度系统与环境进行交互,收集经验并训练;提取特征,输入D3QPN得到当前状态下不同动作的Q值;根据Q值表进行作业调度。本发明通过注意力机制有效提取出关键信息,并使用强化学习算法选择最优的调度策略解决动态作业车间问题,以此解决实际智能制造中作业的动态变化问题,让智能调度作业系统在动态作业调度环境下依然拥有不错的性能。
Description
技术领域
本发明涉及数据处理方法技术领域,具体涉及基于强化学习和注意力机制的智能作业调度系统。
背景技术
作业车间调度问题(JSP)是最重要的生产调度问题,具有多目标性、动态随机性、计算复杂性等特点,并已被证明是NP难问题。经过几十年的发展,研究人员己经提出许多用于解决作业车间调度问题的算法,包括基于分支定界、数学规划等运筹学理论的调度方法,基于调度规则的调度方法,基于瓶颈的调度方法,基于人工神经网络、遗传算法、群体智能等智能计算理论的调度方法。
随着实际生产调度问题越来越复杂,制造工艺越来越多样化,从而导致制造车间存在众多不确定因素。例如机器故障、工件返工、缺料、紧急插单、加工时间变化等扰动因素,影响了生产系统的稳定运行,甚至使计划变得不可行。因此为了满足实时动态变化的生产环境,对传统动态作业车间调度问题的解决方法提出了更高的要求。
发明内容
针对上述文献中存在的问题,本发明提供一种基于强化学习和注意力机制的智能作业调度系统。
一种基于强化学习和注意力机制的智能作业调度系统,包括,
S1:从给定的由机器矩阵MO和工时矩阵TO描述的调度实例,生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例,并将其作为交互环境;
S2:调度系统与环境进行交互,收集经验的同时进行训练;
S3:环境给出的析取图输入由注意力机制构成的GRL模块后得到提取后的特征;
S4:提取后的特征输入D3QPN得到当前状态下不同动作的Q值;
S5:根据得到的累积回报值确定不同状态下的启发式规则作业调度策略,并从中选择最优的作业调度策略。
特别地,在S1中包括:
S11:每个实例总共由n个作业J={J1,J2,…,Jn}和m个机器M={M1,M2,…,Mm}组成;
S12:每个作业由m个工序Oi={Oi1,Oi2,…,Oim}组成;
S13:机器矩阵MO={Mil|Mil=M1,M2,…,Mm}(i=1,2,…,n and l=1,2,…,m),规定了工序Oil需要在机器Mil上加工;
S14:工时矩阵TO={Til|Til≥0}(i=1,2,…,n and l=1,2,…,m),规定了工序Oil的加工用时为Til个时间步。
特别地,动态事件包括:
S15:工时矩阵按如下公式更新:
其中r∈[0,1)为随机数,random_rate∈[0,1]为可控超参数;
S16:机器矩阵中每个作业有random_rate的概率,随机调换max(2,m·random_rate))个工序的加工顺序。
特别地,在S2中包括:
策略函数π(s,a):在当前状态s下,执行动作a的概率;
S22:调度系统使用D3QPN(double dueling deep Q-network with prioritizedreplay and noisy networks)强化学习算法训练、学习。
进一步地,所述D3QPN算法的训练过程如下:
S23:初始化行为网络权重θ,价值网络权重θ′,步长η,和目标网络更新频率N-;
S24:重复S25-S210步骤τ次,j=1,2,…,τ:
S28:计算TD-error:δj=(yj-Q(sj,aj;ξ;θ))2;
S29:更新传递优先级pj←|δj|;
S211:更新网络权重θ←θ+η·Δ,重置Δ=0;
S212:每N-次,更新目标网络:θ′←θ。
进一步地,采用Double DQN的损失函数计算公式:
采用Dueling DQN的Q值计算公式为:q(st,at)=v(st)+A(st,at),其中函数v计算状态的价值,函数A计算动作的优势。
采用Noisy DQN的神经网络的权重计算公式为:
w=μw+σw⊙εw
b=μb+σb⊙εb
其中μw,μb,σw和σb为单层神经网络的参数,εw,εb为符合高斯噪声的随机变量,⊙为元素积,单层神经网络的输出为y=wx+b;
特别地,所述的GRL模块通过注意力机制、多头注意力、残差链接、层归一化和前馈神经网络组合实现。
S31:重复S32-S8步骤L次,l=1,2,...,L;
S32:重复S33-S34步骤H次,h=1,2,...,H;
S38:计算本层输出Xl=LN(Xl′+Fl);
特别地,所用的启发式规则作业调度策略包括:先进先出、先进后出、剩余工序数最多优先、剩余工序数最少优先、加工时间最长优先、加工时间最短优先、总加工时间最长优先和总加工时间最短优先。
本发明根据实验结果,选择性能最好的D3QPN强化学习算法;使用注意力机制作为图表征学习模块,提取析取图的特征信息。将强化学习应用到动态作业车间调度问题。动态作业车间调度问题中,下一时刻的状态只与当前状态下做的调度有关,因此适合使用强化学习进行调度。
通过注意力机制有效提取出关键信息,并使用强化学习算法选择最优的调度策略解决动态作业车间问题,以此解决实际智能制造中作业的动态变化问题,让智能调度作业系统在动态作业调度环境下依然拥有不错的性能。
附图说明
图1为本发明整体流程。
具体实施方式
下面结合具体实施例,对本发明作进一步详细的阐述,下述实施例不用于限制本发明,仅用于说明本发明。以下实施例中所使用的实验方法如无特殊说明,实施例中未注明具体条件的实验方法,通常按照常规条件,下述实施例中所使用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1
包括以下步骤:
S1、输入由机器矩阵MO和工时矩阵TO描述的调度实例,并在每一局训练时生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例并作为环境。具体表示为:每个实例总共由n个作业J={J1,J2,...,Jn}和m个机器M={M1,M2,...,Mm}组成;每个作业由m个工序Oi={Oi1,Oi2,...,Oim}组成;机器矩阵MO={Mil|Mil=M1,M2,...,Mm}(i=1,2,...,n and l=1,2,...,m),规定了工序Oil需要在机器Mil上加工;工时矩阵TO={Til|Til≥0}(i=1,2,...,n and l=1,2,...,m),规定了工序Oil的加工用时为Til个时间步。发送动态事件时工,时矩阵按如下公式更新:
其中r∈[0,1)为随机数,random_rate∈[0,1]为可控超参数;
机器矩阵中则每个作业有random_rate的概率,随机调换max(2,m·random_rate))个工序的加工顺序。
策略函数π(s,a):在当前状态s下,执行动作a的概率;
D3QPN算法的具体训练过程为:
S21、初始化行为网络权重θ,价值网络权重θ′,步长η,和目标网络更新频率N-;
S22、重复S25-S210步骤τ次,j=1,2,...,τ:
S24、计算采样重要性权重:
其中N为经验池大小;
S25、设
S26、计算:
TD-error:δj=(yj-Q(sj,aj;ξ;θ))2;
S27、更新传递优先级pj←|δj|;
S29、更新网络权重θ←θ+η·Δ,重置Δ=0;
S210、每N-次,更新目标网络:θ′←θ。
S31、重复S32-S8步骤L次,l=1,2,...,L;
S32、重复S33-S34步骤H次,h=1,2,...,H;
S34、计算:
其中dfeature是特征向量的维度;
S36、计算本层中间值:
S37、计算本层前馈神经网络:
S38、计算本层输出:
Xl=LN(Xl′+Fl);
S39、得到输出为提取后特征向量:
S4、提取后的特征输入D3QPN(double dueling deep Q-network withprioritized replay andnoisy networks)算法的Q网络得到当前状态下不同动作的Q值。计算过程中的细节包括:
S41、损失函数计算公式:
S42、Q值计算公式为:q(st,at)=v(st)+A(st,at),其中函数v计算状态的价值,函数A计算动作的优势;
S43、单层神经网络的输出为y=wx+b。其中神经网络的权重计算公式为:
w=μw+σw⊙εw
b=μb+σb⊙εb
μw,μb,σw和σb为单层神经网络的参数,εw,εb为符合高斯噪声的随机变量,⊙为元素积。
最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。
Claims (2)
1.一种基于强化学习和注意力机制的智能作业调度系统,其特征在于,包括,
S1:从给定的由机器矩阵MO和工时矩阵TO描述的调度实例,生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例,并将其作为交互环境;
S2:调度系统与环境进行交互,收集经验的同时进行训练;
S3:环境给出的析取图输入由注意力机制构成的GRL模块后得到提取后的特征;
S4:提取后的特征输入D3QPN得到当前状态下不同动作的Q值;
S5:根据得到的累积回报值确定不同状态下的启发式规则作业调度策略,并从中选择最优的作业调度策略;
在S1中包括;
S11:每个实例总共由n个作业J={J1,J2,…,Jn}和m个机器M={M1,M2,…,Mm}组成;
S12:每个作业由m个工序Oi={Oi1,Oi2,…,Oim}组成;
S13:机器矩阵MO={Mil|Mil=M1,M2,…,Mm}(i=1,2,…,n and l=
1,2,…,m),规定了工序Oil需要在机器Mil上加工;
S14:工时矩阵TO={Til|Til≥0}(i=1,2,…,n and l=1,2,…,m),规定了工序Oil的加工用时为Til个时间步;
动态事件包括:
S15:工时矩阵按如下公式更新:
其中r∈[0,1)为随机数,random_rate∈[0,1]为可控超参数;
S16:机器矩阵中每个作业有random_rate的概率,随机调换max(2,m·random_rate))个工序的加工顺序;
在S2中包括:
策略函数π(s,a):在当前状态s下,执行动作a的概率;
S22:调度系统使用D3QPN(double dueling deep Q-network with prioritizedreplay and noisy networks)强化学习算法训练、学习;
所述D3QPN算法的训练过程如下:
S23:初始化行为网络权重θ,价值网络权重θ′,步长η,和目标网络更新频率N-;
S24:重复S25-S210步骤τ次,j=1,2,…,τ:
S28:计算TD-error:δj=(yj-Q(sj,aj;ξ;θ))2;
S29:更新传递优先级pj←|δj|;
S211:更新网络权重θ←θ+η·Δ,重置Δ=0;
S212:每N-次,更新目标网络:θ′←θ;
采用Dueling DQN的Q值计算公式为:q(st,at)=v(st)+A(st,at),其中函数v计算状态的价值,函数A计算动作的优势;
采用Noisy DQN的神经网络的权重计算公式为:
w=μw+σw⊙εw
b=μb+σb⊙εb
其中μw,μb,σw和σb为单层神经网络的参数,εw,εb为符合高斯噪声的随机变量,⊙为元素积,单层神经网络的输出为y=wx+b;
所述的GRL模块通过注意力机制、多头注意力、残差链接、层归一化和前馈神经网络组合实现;
S31:重复S32-S8步骤L次,l=1,2,…,L;
S32:重复S33-S34步骤H次,h=1,2,…,H;
S38:计算本层输出Xl=LN(Xl′+Fl);
2.根据权利要求1所述基于强化学习和注意力机制的智能作业调度系统,其特征在于,
所用的启发式规则作业调度策略包括:先进先出、先进后出、剩余工序数最多优先、剩余工序数最少优先、加工时间最长优先、加工时间最短优先、总加工时间最长优先和总加工时间最短优先。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210237299.7A CN114580937B (zh) | 2022-03-10 | 2022-03-10 | 基于强化学习和注意力机制的智能作业调度系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210237299.7A CN114580937B (zh) | 2022-03-10 | 2022-03-10 | 基于强化学习和注意力机制的智能作业调度系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114580937A CN114580937A (zh) | 2022-06-03 |
CN114580937B true CN114580937B (zh) | 2023-04-28 |
Family
ID=81780943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210237299.7A Active CN114580937B (zh) | 2022-03-10 | 2022-03-10 | 基于强化学习和注意力机制的智能作业调度系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580937B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115034653B (zh) * | 2022-06-27 | 2023-07-11 | 暨南大学 | 一种基于transformer的端到端动态作业车间调度系统 |
CN116307440B (zh) * | 2022-11-21 | 2023-11-17 | 暨南大学 | 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112186811A (zh) * | 2020-09-16 | 2021-01-05 | 北京交通大学 | 一种基于深度强化学习的agc机组动态优化方法 |
CN112734172A (zh) * | 2020-12-25 | 2021-04-30 | 南京理工大学 | 一种基于时序差分的混合流水车间调度方法 |
CN113254362A (zh) * | 2020-02-11 | 2021-08-13 | 三星电子株式会社 | 存储设备和存储器控制器的操作方法 |
CN113792924A (zh) * | 2021-09-16 | 2021-12-14 | 郑州轻工业大学 | 一种基于Deep Q-network深度强化学习的单件作业车间调度方法 |
WO2021248607A1 (zh) * | 2020-06-10 | 2021-12-16 | 深圳大学 | 一种基于深度强化学习的出租车调度方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
CN113487165B (zh) * | 2021-07-01 | 2024-05-03 | 福州大学 | 基于深度强化学习的智能工厂生产作业调度方法及系统 |
CN113515097B (zh) * | 2021-07-23 | 2022-08-19 | 合肥工业大学 | 一种基于深度强化学习的两目标单机批调度方法 |
CN113743784A (zh) * | 2021-09-06 | 2021-12-03 | 山东大学 | 一种基于深度强化学习的生产时序表智能生成方法 |
CN113821323B (zh) * | 2021-09-16 | 2023-09-19 | 中山大学 | 一种面向混合部署数据中心场景的离线作业任务调度算法 |
-
2022
- 2022-03-10 CN CN202210237299.7A patent/CN114580937B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254362A (zh) * | 2020-02-11 | 2021-08-13 | 三星电子株式会社 | 存储设备和存储器控制器的操作方法 |
WO2021248607A1 (zh) * | 2020-06-10 | 2021-12-16 | 深圳大学 | 一种基于深度强化学习的出租车调度方法及系统 |
CN112186811A (zh) * | 2020-09-16 | 2021-01-05 | 北京交通大学 | 一种基于深度强化学习的agc机组动态优化方法 |
CN112734172A (zh) * | 2020-12-25 | 2021-04-30 | 南京理工大学 | 一种基于时序差分的混合流水车间调度方法 |
CN113792924A (zh) * | 2021-09-16 | 2021-12-14 | 郑州轻工业大学 | 一种基于Deep Q-network深度强化学习的单件作业车间调度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114580937A (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114580937B (zh) | 基于强化学习和注意力机制的智能作业调度系统 | |
US11755976B2 (en) | Method for predicting oxygen load in iron and steel enterprises based on production plan | |
Chang et al. | Evolving fuzzy rules for due-date assignment problem in semiconductor manufacturing factory | |
CN111199272B (zh) | 一种面向智能车间的自适应调度方法 | |
Daneshyari et al. | Constrained multiple-swarm particle swarm optimization within a cultural framework | |
CN104468413B (zh) | 一种网络服务方法及系统 | |
CN106845681A (zh) | 一种应用深度学习技术的股票趋势预测方法 | |
CN112987664A (zh) | 一种基于深度强化学习的流水车间调度方法 | |
Li | Neural network models for intelligent support of mark‐up estimation | |
Fuji et al. | Deep multi-agent reinforcement learning using dnn-weight evolution to optimize supply chain performance | |
Zhang et al. | Brain-inspired experience reinforcement model for bin packing in varying environments | |
Aliev et al. | Soft computing based multi-agent marketing decision support system | |
CN113743784A (zh) | 一种基于深度强化学习的生产时序表智能生成方法 | |
Panchariya et al. | Nonlinear system identification using Takagi-Sugeno type neuro-fuzzy model | |
CN109993271A (zh) | 基于博弈理论的灰色神经网络预测方法 | |
CN114819273A (zh) | 基于多Agent全局与局部优化结合的车间调度方法 | |
Lee et al. | Design optimization with back-propagation neural networks | |
Alihodzic et al. | An effective integrated metaheuristic algorithm for solving engineering problems | |
Bonfatti et al. | A fuzzy model for load-oriented manufacturing control | |
Xu et al. | Synergism of neural networks and expert systems for system identification | |
Pappala | Application of PSO for optimization of power systems under uncertainty | |
CN114020861B (zh) | 基于调度知识自学习更新的智能车间生产控制方法及设备 | |
CN117634859B (zh) | 基于深度强化学习的资源均衡施工排程方法、装置及设备 | |
Baboli et al. | Financial time series prediction by a hybrid memetic computation-based support vector regression (MA-SVR) method | |
CN113050567B (zh) | 一种智能制造系统动态调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |