CN114580937B - 基于强化学习和注意力机制的智能作业调度系统 - Google Patents

基于强化学习和注意力机制的智能作业调度系统 Download PDF

Info

Publication number
CN114580937B
CN114580937B CN202210237299.7A CN202210237299A CN114580937B CN 114580937 B CN114580937 B CN 114580937B CN 202210237299 A CN202210237299 A CN 202210237299A CN 114580937 B CN114580937 B CN 114580937B
Authority
CN
China
Prior art keywords
scheduling
matrix
job
network
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210237299.7A
Other languages
English (en)
Other versions
CN114580937A (zh
Inventor
郭洪飞
黄祖艺
曾云辉
李秀
袁博
何智慧
李建庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202210237299.7A priority Critical patent/CN114580937B/zh
Publication of CN114580937A publication Critical patent/CN114580937A/zh
Application granted granted Critical
Publication of CN114580937B publication Critical patent/CN114580937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及用于数据处理方法技术领域,具体涉及一种基于强化学习和注意力机制的智能作业调度系统;包括:从给定的由机器矩阵MO和工时矩阵TO描述的调度实例,生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例,并将其作为当前交互环境;调度系统与环境进行交互,收集经验并训练;提取特征,输入D3QPN得到当前状态下不同动作的Q值;根据Q值表进行作业调度。本发明通过注意力机制有效提取出关键信息,并使用强化学习算法选择最优的调度策略解决动态作业车间问题,以此解决实际智能制造中作业的动态变化问题,让智能调度作业系统在动态作业调度环境下依然拥有不错的性能。

Description

基于强化学习和注意力机制的智能作业调度系统
技术领域
本发明涉及数据处理方法技术领域,具体涉及基于强化学习和注意力机制的智能作业调度系统。
背景技术
作业车间调度问题(JSP)是最重要的生产调度问题,具有多目标性、动态随机性、计算复杂性等特点,并已被证明是NP难问题。经过几十年的发展,研究人员己经提出许多用于解决作业车间调度问题的算法,包括基于分支定界、数学规划等运筹学理论的调度方法,基于调度规则的调度方法,基于瓶颈的调度方法,基于人工神经网络、遗传算法、群体智能等智能计算理论的调度方法。
随着实际生产调度问题越来越复杂,制造工艺越来越多样化,从而导致制造车间存在众多不确定因素。例如机器故障、工件返工、缺料、紧急插单、加工时间变化等扰动因素,影响了生产系统的稳定运行,甚至使计划变得不可行。因此为了满足实时动态变化的生产环境,对传统动态作业车间调度问题的解决方法提出了更高的要求。
发明内容
针对上述文献中存在的问题,本发明提供一种基于强化学习和注意力机制的智能作业调度系统。
一种基于强化学习和注意力机制的智能作业调度系统,包括,
S1:从给定的由机器矩阵MO和工时矩阵TO描述的调度实例,生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例,并将其作为交互环境;
S2:调度系统与环境进行交互,收集经验的同时进行训练;
S3:环境给出的析取图输入由注意力机制构成的GRL模块后得到提取后的特征;
S4:提取后的特征输入D3QPN得到当前状态下不同动作的Q值;
S5:根据得到的累积回报值确定不同状态下的启发式规则作业调度策略,并从中选择最优的作业调度策略。
特别地,在S1中包括:
S11:每个实例总共由n个作业J={J1,J2,…,Jn}和m个机器M={M1,M2,…,Mm}组成;
S12:每个作业由m个工序Oi={Oi1,Oi2,…,Oim}组成;
S13:机器矩阵MO={Mil|Mil=M1,M2,…,Mm}(i=1,2,…,n and l=1,2,…,m),规定了工序Oil需要在机器Mil上加工;
S14:工时矩阵TO={Til|Til≥0}(i=1,2,…,n and l=1,2,…,m),规定了工序Oil的加工用时为Til个时间步。
特别地,动态事件包括:
S15:工时矩阵按如下公式更新:
Figure GDA0004132675660000021
其中r∈[0,1)为随机数,random_rate∈[0,1]为可控超参数;
S16:机器矩阵中每个作业有random_rate的概率,随机调换max(2,m·random_rate))个工序的加工顺序。
特别地,在S2中包括:
S21:构建的马尔科夫过程
Figure GDA0004132675660000022
为:
状态
Figure GDA0004132675660000023
包含当前时刻的每个工序的相关信息的析取图的特征向量;
动作
Figure GDA0004132675660000024
启发式调度规则;
转移函数
Figure GDA0004132675660000025
根据选择的启发式规则a在当前状态s下调度k步,其中k为可调超参数;
奖励函数
Figure GDA0004132675660000026
Figure GDA0004132675660000027
策略函数π(s,a):在当前状态s下,执行动作a的概率;
S22:调度系统使用D3QPN(double dueling deep Q-network with prioritizedreplay and noisy networks)强化学习算法训练、学习。
进一步地,所述D3QPN算法的训练过程如下:
S23:初始化行为网络权重θ,价值网络权重θ′,步长η,和目标网络更新频率N-
S24:重复S25-S210步骤τ次,j=1,2,…,τ:
S25:为目标网络采样噪声
Figure GDA0004132675660000028
为行为网络采样噪声
Figure GDA0004132675660000029
其中
Figure GDA00041326756600000210
表示标准正态分布;
S26:计算采样重要性权重
Figure GDA00041326756600000211
其中N为经验池大小;
S27:设
Figure GDA00041326756600000212
S28:计算TD-error:δj=(yj-Q(sj,aj;ξ;θ))2
S29:更新传递优先级pj←|δj|;
S210:累计权重改变量
Figure GDA0004132675660000031
S211:更新网络权重θ←θ+η·Δ,重置Δ=0;
S212:每N-次,更新目标网络:θ′←θ。
进一步地,采用Double DQN的损失函数计算公式:
Figure GDA0004132675660000032
采用Dueling DQN的Q值计算公式为:q(st,at)=v(st)+A(st,at),其中函数v计算状态的价值,函数A计算动作的优势。
采用Noisy DQN的神经网络的权重计算公式为:
w=μww⊙εw
b=μbb⊙εb
其中μw,μb,σw和σb为单层神经网络的参数,εw,εb为符合高斯噪声的随机变量,⊙为元素积,单层神经网络的输出为y=wx+b;
特别地,所述的GRL模块通过注意力机制、多头注意力、残差链接、层归一化和前馈神经网络组合实现。
进一步地,所述GRL模块,对于输入的析取图特征向量
Figure GDA0004132675660000033
有计算过程如下:
S31:重复S32-S8步骤L次,l=1,2,...,L;
S32:重复S33-S34步骤H次,h=1,2,...,H;
S33:计算
Figure GDA0004132675660000034
S34:计算
Figure GDA0004132675660000035
其中dfeature是特征向量的维度;
S35:计算本层多头注意力
Figure GDA0004132675660000036
S36:计算本层中间值
Figure GDA0004132675660000037
S37:计算本层前馈神经网络
Figure GDA0004132675660000038
S38:计算本层输出Xl=LN(Xl′+Fl);
S39:得到输出为提取后特征向量
Figure GDA0004132675660000039
特别地,所用的启发式规则作业调度策略包括:先进先出、先进后出、剩余工序数最多优先、剩余工序数最少优先、加工时间最长优先、加工时间最短优先、总加工时间最长优先和总加工时间最短优先。
本发明根据实验结果,选择性能最好的D3QPN强化学习算法;使用注意力机制作为图表征学习模块,提取析取图的特征信息。将强化学习应用到动态作业车间调度问题。动态作业车间调度问题中,下一时刻的状态只与当前状态下做的调度有关,因此适合使用强化学习进行调度。
通过注意力机制有效提取出关键信息,并使用强化学习算法选择最优的调度策略解决动态作业车间问题,以此解决实际智能制造中作业的动态变化问题,让智能调度作业系统在动态作业调度环境下依然拥有不错的性能。
附图说明
图1为本发明整体流程。
具体实施方式
下面结合具体实施例,对本发明作进一步详细的阐述,下述实施例不用于限制本发明,仅用于说明本发明。以下实施例中所使用的实验方法如无特殊说明,实施例中未注明具体条件的实验方法,通常按照常规条件,下述实施例中所使用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1
包括以下步骤:
S1、输入由机器矩阵MO和工时矩阵TO描述的调度实例,并在每一局训练时生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例并作为环境。具体表示为:每个实例总共由n个作业J={J1,J2,...,Jn}和m个机器M={M1,M2,...,Mm}组成;每个作业由m个工序Oi={Oi1,Oi2,...,Oim}组成;机器矩阵MO={Mil|Mil=M1,M2,...,Mm}(i=1,2,...,n and l=1,2,...,m),规定了工序Oil需要在机器Mil上加工;工时矩阵TO={Til|Til≥0}(i=1,2,...,n and l=1,2,...,m),规定了工序Oil的加工用时为Til个时间步。发送动态事件时工,时矩阵按如下公式更新:
Figure GDA0004132675660000041
其中r∈[0,1)为随机数,random_rate∈[0,1]为可控超参数;
机器矩阵中则每个作业有random_rate的概率,随机调换max(2,m·random_rate))个工序的加工顺序。
S2、调度系统与环境进行交互,收集经验的同时进行训练。其中D3QPN强化学习构建的马尔科夫过程
Figure GDA0004132675660000051
为:
状态
Figure GDA0004132675660000052
包含当前时刻的每个工序的相关信息的析取图特征向量;
动作
Figure GDA0004132675660000053
启发式调度规则;
转移函数
Figure GDA0004132675660000054
根据选择的启发式规则a在当前状态s下调度k步,其中k为可调超参数;
奖励函数
Figure GDA0004132675660000055
Figure GDA0004132675660000056
策略函数π(s,a):在当前状态s下,执行动作a的概率;
D3QPN算法的具体训练过程为:
S21、初始化行为网络权重θ,价值网络权重θ′,步长η,和目标网络更新频率N-
S22、重复S25-S210步骤τ次,j=1,2,...,τ:
S23、为目标网络采样噪声
Figure GDA0004132675660000057
为行为网络采样噪声
Figure GDA0004132675660000058
其中
Figure GDA0004132675660000059
表示标准正态分布;
S24、计算采样重要性权重:
Figure GDA00041326756600000510
其中N为经验池大小;
S25、设
Figure GDA00041326756600000511
S26、计算:
TD-error:δj=(yj-Q(sj,aj;ξ;θ))2
S27、更新传递优先级pj←|δj|;
S28、累计权重改变量
Figure GDA00041326756600000512
S29、更新网络权重θ←θ+η·Δ,重置Δ=0;
S210、每N-次,更新目标网络:θ′←θ。
S3、环境给出的析取图经过由注意力机制构成的GRL模块后得到提取后的特征。对于输入的析取图特征向量
Figure GDA0004132675660000061
具体的计算过程如下:
S31、重复S32-S8步骤L次,l=1,2,...,L;
S32、重复S33-S34步骤H次,h=1,2,...,H;
S33、计算
Figure GDA0004132675660000062
S34、计算:
Figure GDA0004132675660000063
其中dfeature是特征向量的维度;
S35、计算本层多头注意力
Figure GDA0004132675660000064
S36、计算本层中间值:
Figure GDA0004132675660000065
S37、计算本层前馈神经网络:
Figure GDA0004132675660000066
S38、计算本层输出:
Xl=LN(Xl′+Fl);
S39、得到输出为提取后特征向量:
Figure GDA0004132675660000067
S4、提取后的特征输入D3QPN(double dueling deep Q-network withprioritized replay andnoisy networks)算法的Q网络得到当前状态下不同动作的Q值。计算过程中的细节包括:
S41、损失函数计算公式:
Figure GDA0004132675660000068
S42、Q值计算公式为:q(st,at)=v(st)+A(st,at),其中函数v计算状态的价值,函数A计算动作的优势;
S43、单层神经网络的输出为y=wx+b。其中神经网络的权重计算公式为:
w=μww⊙εw
b=μbb⊙εb
μw,μb,σw和σb为单层神经网络的参数,εw,εb为符合高斯噪声的随机变量,⊙为元素积。
最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。

Claims (2)

1.一种基于强化学习和注意力机制的智能作业调度系统,其特征在于,包括,
S1:从给定的由机器矩阵MO和工时矩阵TO描述的调度实例,生成包含动态事件的由新的机器矩阵MO和新的工时矩阵TO描述的调度实例,并将其作为交互环境;
S2:调度系统与环境进行交互,收集经验的同时进行训练;
S3:环境给出的析取图输入由注意力机制构成的GRL模块后得到提取后的特征;
S4:提取后的特征输入D3QPN得到当前状态下不同动作的Q值;
S5:根据得到的累积回报值确定不同状态下的启发式规则作业调度策略,并从中选择最优的作业调度策略;
在S1中包括;
S11:每个实例总共由n个作业J={J1,J2,…,Jn}和m个机器M={M1,M2,…,Mm}组成;
S12:每个作业由m个工序Oi={Oi1,Oi2,…,Oim}组成;
S13:机器矩阵MO={Mil|Mil=M1,M2,…,Mm}(i=1,2,…,n and l=
1,2,…,m),规定了工序Oil需要在机器Mil上加工;
S14:工时矩阵TO={Til|Til≥0}(i=1,2,…,n and l=1,2,…,m),规定了工序Oil的加工用时为Til个时间步;
动态事件包括:
S15:工时矩阵按如下公式更新:
Figure FDA0004132675650000011
其中r∈[0,1)为随机数,random_rate∈[0,1]为可控超参数;
S16:机器矩阵中每个作业有random_rate的概率,随机调换max(2,m·random_rate))个工序的加工顺序;
在S2中包括:
S21:构建的马尔科夫过程
Figure FDA0004132675650000012
为:
状态
Figure FDA0004132675650000013
包含当前时刻的每个工序的相关信息的析取图的特征向量;
动作
Figure FDA0004132675650000014
启发式调度规则;
转移函数
Figure FDA0004132675650000021
根据选择的启发式规则a在当前状态s下调度k步,其中k为可调超参数;
奖励函数
Figure FDA0004132675650000022
Figure FDA0004132675650000023
策略函数π(s,a):在当前状态s下,执行动作a的概率;
S22:调度系统使用D3QPN(double dueling deep Q-network with prioritizedreplay and noisy networks)强化学习算法训练、学习;
所述D3QPN算法的训练过程如下:
S23:初始化行为网络权重θ,价值网络权重θ′,步长η,和目标网络更新频率N-
S24:重复S25-S210步骤τ次,j=1,2,…,τ:
S25:为目标网络采样噪声
Figure FDA0004132675650000024
为行为网络采样噪声
Figure FDA0004132675650000025
其中
Figure FDA0004132675650000026
表示标准正态分布;
S26:计算采样重要性权重
Figure FDA0004132675650000027
其中N为经验池大小;
S27:设
Figure FDA0004132675650000028
S28:计算TD-error:δj=(yj-Q(sj,aj;ξ;θ))2
S29:更新传递优先级pj←|δj|;
S210:累计权重改变量
Figure FDA0004132675650000029
S211:更新网络权重θ←θ+η·Δ,重置Δ=0;
S212:每N-次,更新目标网络:θ′←θ;
采用Double DQN的损失函数计算公式:
Figure FDA00041326756500000210
采用Dueling DQN的Q值计算公式为:q(st,at)=v(st)+A(st,at),其中函数v计算状态的价值,函数A计算动作的优势;
采用Noisy DQN的神经网络的权重计算公式为:
w=μww⊙εw
b=μbb⊙εb
其中μwbw和σb为单层神经网络的参数,εwb为符合高斯噪声的随机变量,⊙为元素积,单层神经网络的输出为y=wx+b;
所述的GRL模块通过注意力机制、多头注意力、残差链接、层归一化和前馈神经网络组合实现;
所述GRL模块,对于输入的析取图特征向量
Figure FDA0004132675650000031
有计算过程如下:
S31:重复S32-S8步骤L次,l=1,2,…,L;
S32:重复S33-S34步骤H次,h=1,2,…,H;
S33:计算
Figure FDA0004132675650000032
S34:计算
Figure FDA0004132675650000033
其中dfeature是特征向量的维度;
S35:计算本层多头注意力
Figure FDA0004132675650000034
S36:计算本层中间值
Figure FDA0004132675650000035
S37:计算本层前馈神经网络
Figure FDA0004132675650000036
S38:计算本层输出Xl=LN(Xl′+Fl);
S39:得到输出为提取后特征向量
Figure FDA0004132675650000037
2.根据权利要求1所述基于强化学习和注意力机制的智能作业调度系统,其特征在于,
所用的启发式规则作业调度策略包括:先进先出、先进后出、剩余工序数最多优先、剩余工序数最少优先、加工时间最长优先、加工时间最短优先、总加工时间最长优先和总加工时间最短优先。
CN202210237299.7A 2022-03-10 2022-03-10 基于强化学习和注意力机制的智能作业调度系统 Active CN114580937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210237299.7A CN114580937B (zh) 2022-03-10 2022-03-10 基于强化学习和注意力机制的智能作业调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210237299.7A CN114580937B (zh) 2022-03-10 2022-03-10 基于强化学习和注意力机制的智能作业调度系统

Publications (2)

Publication Number Publication Date
CN114580937A CN114580937A (zh) 2022-06-03
CN114580937B true CN114580937B (zh) 2023-04-28

Family

ID=81780943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210237299.7A Active CN114580937B (zh) 2022-03-10 2022-03-10 基于强化学习和注意力机制的智能作业调度系统

Country Status (1)

Country Link
CN (1) CN114580937B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034653B (zh) * 2022-06-27 2023-07-11 暨南大学 一种基于transformer的端到端动态作业车间调度系统
CN116307440B (zh) * 2022-11-21 2023-11-17 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112186811A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的agc机组动态优化方法
CN112734172A (zh) * 2020-12-25 2021-04-30 南京理工大学 一种基于时序差分的混合流水车间调度方法
CN113254362A (zh) * 2020-02-11 2021-08-13 三星电子株式会社 存储设备和存储器控制器的操作方法
CN113792924A (zh) * 2021-09-16 2021-12-14 郑州轻工业大学 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
WO2021248607A1 (zh) * 2020-06-10 2021-12-16 深圳大学 一种基于深度强化学习的出租车调度方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635917B (zh) * 2018-10-17 2020-08-25 北京大学 一种多智能体合作决策及训练方法
CN113487165B (zh) * 2021-07-01 2024-05-03 福州大学 基于深度强化学习的智能工厂生产作业调度方法及系统
CN113515097B (zh) * 2021-07-23 2022-08-19 合肥工业大学 一种基于深度强化学习的两目标单机批调度方法
CN113743784A (zh) * 2021-09-06 2021-12-03 山东大学 一种基于深度强化学习的生产时序表智能生成方法
CN113821323B (zh) * 2021-09-16 2023-09-19 中山大学 一种面向混合部署数据中心场景的离线作业任务调度算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254362A (zh) * 2020-02-11 2021-08-13 三星电子株式会社 存储设备和存储器控制器的操作方法
WO2021248607A1 (zh) * 2020-06-10 2021-12-16 深圳大学 一种基于深度强化学习的出租车调度方法及系统
CN112186811A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的agc机组动态优化方法
CN112734172A (zh) * 2020-12-25 2021-04-30 南京理工大学 一种基于时序差分的混合流水车间调度方法
CN113792924A (zh) * 2021-09-16 2021-12-14 郑州轻工业大学 一种基于Deep Q-network深度强化学习的单件作业车间调度方法

Also Published As

Publication number Publication date
CN114580937A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN114580937B (zh) 基于强化学习和注意力机制的智能作业调度系统
US11755976B2 (en) Method for predicting oxygen load in iron and steel enterprises based on production plan
Chang et al. Evolving fuzzy rules for due-date assignment problem in semiconductor manufacturing factory
CN111199272B (zh) 一种面向智能车间的自适应调度方法
Daneshyari et al. Constrained multiple-swarm particle swarm optimization within a cultural framework
CN104468413B (zh) 一种网络服务方法及系统
CN106845681A (zh) 一种应用深度学习技术的股票趋势预测方法
CN112987664A (zh) 一种基于深度强化学习的流水车间调度方法
Li Neural network models for intelligent support of mark‐up estimation
Fuji et al. Deep multi-agent reinforcement learning using dnn-weight evolution to optimize supply chain performance
Zhang et al. Brain-inspired experience reinforcement model for bin packing in varying environments
Aliev et al. Soft computing based multi-agent marketing decision support system
CN113743784A (zh) 一种基于深度强化学习的生产时序表智能生成方法
Panchariya et al. Nonlinear system identification using Takagi-Sugeno type neuro-fuzzy model
CN109993271A (zh) 基于博弈理论的灰色神经网络预测方法
CN114819273A (zh) 基于多Agent全局与局部优化结合的车间调度方法
Lee et al. Design optimization with back-propagation neural networks
Alihodzic et al. An effective integrated metaheuristic algorithm for solving engineering problems
Bonfatti et al. A fuzzy model for load-oriented manufacturing control
Xu et al. Synergism of neural networks and expert systems for system identification
Pappala Application of PSO for optimization of power systems under uncertainty
CN114020861B (zh) 基于调度知识自学习更新的智能车间生产控制方法及设备
CN117634859B (zh) 基于深度强化学习的资源均衡施工排程方法、装置及设备
Baboli et al. Financial time series prediction by a hybrid memetic computation-based support vector regression (MA-SVR) method
CN113050567B (zh) 一种智能制造系统动态调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant