CN112734286B - 一种基于多策略深度强化学习的车间调度方法 - Google Patents

一种基于多策略深度强化学习的车间调度方法 Download PDF

Info

Publication number
CN112734286B
CN112734286B CN202110087655.7A CN202110087655A CN112734286B CN 112734286 B CN112734286 B CN 112734286B CN 202110087655 A CN202110087655 A CN 202110087655A CN 112734286 B CN112734286 B CN 112734286B
Authority
CN
China
Prior art keywords
critic
strategy
actor
stage
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110087655.7A
Other languages
English (en)
Other versions
CN112734286A (zh
Inventor
吕佑龙
谭远良
程辉
张洁
左丽玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN202110087655.7A priority Critical patent/CN112734286B/zh
Publication of CN112734286A publication Critical patent/CN112734286A/zh
Application granted granted Critical
Publication of CN112734286B publication Critical patent/CN112734286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • General Factory Administration (AREA)

Abstract

本发明公开了一种基于多策略深度强化学习的车间调度方法,其特征在于,包括以下步骤,步骤一、导入随机算例;步骤二、输入MPS,确定各产品所需加工数量;步骤三、根据算例规模大小和MPS设定BAC方法参数;步骤四、进一步改变BAC方法参数进行正交实验,根据实验结果对BAC方法参数进行设置;步骤五、导入和读取目标算例和MPS,循环迭代更新网络;步骤六、通过Actor阶段与Critic阶段之间的循环迭代,输出合理的产品投产序列。

Description

一种基于多策略深度强化学习的车间调度方法
技术领域
本发明涉及一种基于多策略深度强化学习的车间调度方法,用于混流装配线等车间的生产计划优化,属于生产计划领域。
背景技术
随着大规模定制产品需求的日益增加,混流装配线因其以大批量生产的成本和速度同时生产多种产品模型而得到广泛的应用。混流装配线的排序问题,旨在合理安排多种类型产品的生产顺序,实现站间负载均衡和物料稳定消耗的目标,对提高效率水平、保证订单及时交付具有重要意义。因此,生成合理的混流装配线生产排序策略是提高车间生产效率的重要环节。
传统的基于人工规划生产计划的方法对经验依赖过大,生产计划缺乏科学的依据,从而造成资源浪费和成本增加,已不满足实际生产需求。为了能制定更加科学合理的生产计划,需要转向数字化和智能化的生产计划规划方法,利用大数据技术、机器学习技术构建具有自主判断能力的规划模型,合理规划生产计划,以应对复杂多变的市场需求。
针对混流装配线的排序问题,前人通过基于智能方法提出了许多解决方法,但是所提出智能方法对产品投产序列的初始化和方法的参数设定具有很高的要求,特别是,产品投产序列决方案的初始化经常需要足够的随机性,以确保第一代种群的多样性,这很难保持在不同实例时的稳定收敛。
发明内容
本发明要解决的技术问题是以手工装配为主的混流装配线工位过载最小化的问题。
为了解决上述技术问题,本发明的技术方案是提供了一种基于多策略深度强化学习的车间调度方法,包括以下步骤:
步骤一、导入随机算例。
步骤二、输入最小生产集合(Minimum Part Set,MPS),确定各产品所需加工数量。
步骤三、根据算例规模大小和MPS假设双层策略驱动的演员-评论家(Bi-policy-driven Actor-Critic,BAC)方法参数,包括演员1(Actor1)、演员2(Actor2)以及评论家(Critic)的学习率、遗传代数和种群规模;然后,改变Actor1、Actor2以及Critic网络的隐藏层数和节点数进行网络结构参数实验,根据实验结果对BAC网络结构参数进行设置。
步骤四、在步骤三的基础上,进一步改变BAC方法参数进行正交实验,根据实验结果对BAC方法参数进行设置。
步骤五、导入和读取目标算例和MPS,BAC方法的Actor阶段根据当前工位状态选择合理的产品投产动作,Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态,并对局部排序策略和全局排序策略进行评价更新,一代接着一代循环迭代更新网络。
步骤六、通过Actor阶段与Critic阶段之间的循环迭代,输出合理的产品投产序列。
所述步骤一中的随机算例作为参数实验的算例,为寻找较优的方法参数。
所述步骤二中的MPS根据产品比例变化而改变。
所述步骤三和步骤四中的重要参数是影响计算时间和寻优能力的因素。根据算例规模大小和MPS假设重要因素的水平,并进行参数实验,从而选择影响计算时间和寻优能力的因素水平,提高方法的寻优性能,缩短方法的计算时间。
所述步骤五中的BAC方法是在演员-评论家(Actor-Critic)方法基础上进行改进的,Actor阶段综合考虑局部排序策略和全局排序策略选择投产动作,Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态,并对局部排序策略和全局排序策略进行评价更新。通过Actor阶段与Critic阶段之间的循环迭代,最终生成合理的产品投产序列。综合考虑双层策略选择投产动作,避免方法陷入局部最优。
有益效果:该双层策略驱动的Actor-Critic方法可以更好实现装配线上工位负载分布的全局优化。在产品投产序列中,既以个体为对象,对每一步动作选择的优劣评价进行在线学习,形成局部排序策略,也考虑以种群为对象,在每一代种群结束后,对较优个体的整体动作优劣情况进行周期性学习,形成全局排序策略,通过一代接着一代更新网络以获得合理的产品投产序列,该方法有效避免了陷入局部最优。
附图说明
图1是Actor-Critic方法的结构图一;
图2是Actor-Critic方法的结构图二;
图3是Actor-Critic方法的流程图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
本发明方法为基于多策略深度强化学习的车间调度方法,主要包括以下步骤:
步骤一、导入随机算例。
步骤二、输入最小生产集合(Minimum Part Set,MPS),确定各产品所需加工数量。
步骤三、根据算例规模大小和MPS假设双层策略驱动的演员-评论家(Bi-policy-driven Actor-Critic,BAC)方法参数,包括演员1(Actor1)、演员2(Actor2)以及评论家(Critic)的学习率、遗传代数和种群规模;然后,改变Actor1、Actor2以及Critic网络的隐藏层数和节点数进行网络结构参数实验,根据实验结果对BAC网络结构参数进行设置。
步骤四、在步骤三的基础上,进一步改变BAC方法参数进行正交实验,根据实验结果对BAC方法参数进行设置。
步骤五、导入和读取目标算例和MPS,BAC方法的Actor阶段根据当前工位状态选择合理的产品投产动作,Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态,并对局部排序策略和全局排序策略进行评价更新,一代接着一代循环迭代更新网络。
步骤六、通过Actor阶段与Critic阶段之间的循环迭代,输出合理的产品投产序列。
其中,步骤一中的随机算例作为参数实验的算例,为寻找较优的方法参数。
其中,步骤二中的MPS根据产品比例变化而改变。
步骤三和四中的重要参数是影响计算时间和寻优能力的因素。根据算例规模大小和MPS假设重要因素的水平,并进行参数实验,从而选择影响计算时间和寻优能力的因素水平,提高方法的寻优性能,缩短方法的计算时间。
步骤五中的BAC方法是在演员-评论家(Actor-Critic)方法基础上进行改进的,Actor阶段综合考虑局部排序策略和全局排序策略选择投产动作,Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态,并对局部排序策略和全局排序策略进行评价更新。通过Actor阶段与Critic阶段之间的循环迭代,最终生成合理的产品投产序列。综合考虑双层策略选择投产动作,避免方法陷入局部最优。
图1给出了Actor-Critic方法的基本结构,该方法中Actor和Critic交互迭代,形成由N个阶段组成的马尔可夫决策过程(Markov Decision Process,MDP),以对环境做出恰当的反应。在每个阶段,Actor部分基于策略梯度的动作选择网络针对环境状态sn选择行动an。Critic部分基于来自环境的动作奖励反馈,利用策略评价网络对特定环境状态下的动作选择进行定量分析。在每个Actor-Critic周期结束时,策略评估网络产生的时序差分误差(Temporal-Difference error,TD error)驱动动作选择网络和策略评估网络的加权参数调整,目的是为更新的环境状态sn+1选择回报最高的行动an+1。在产品模型排序过程中,通过Actor和Critic的循环迭代,生成合理的产品投产序列,以避免工作站的负荷过载,并重复这种交互,直到产品投产序列选完MPS中的所有产品为止。然而,由于Actor的行为取决于Critic的评价值,而Critic以当前状态为主要评价依据,使得传统Actor-Critic方法往往容易陷入局部最优,导致了调度问题收敛结果较差。因此,本发明提出一种双层策略驱动的Actor-Critic方法。
如图2所示,双层策略驱动的Actor-Critic方法设计了考虑个体与种群的双层Actor网络结构,第一层Actor1网络以个体为对象,对每一步动作选择的优劣评价进行在线学习,形成局部排序策略,并针对当前状态给出单步动作策略;第二层Actor2网络以种群为对象,在每一代种群结束后,对较优个体的整体动作优劣情况进行周期性学习,形成全局排序策略,并针对当前状态给出单步动作策略。局部排序策略能不断探索新的动作策略,并为改善全局排序策略提供较优的个体信息;而全局排序策略借鉴遗传方法中的优秀个体信息保留方法,通过全局记忆功能将较优的历史记忆赋值给Actor2网络,增强方法的全局搜索能力以及加快方法收敛速度。从而综合Actor1和Actor2给出的动作策略,选择产品投产动作。
本发明的目的在于解决以手工装配为主的混流装配线工位过载最小化的问题,针对现有技术中存在的技术问题,提供一种基于多策略深度强化学习的车间调度方法,以便对多种产品模型进行合理生产,提高效率水平和产品质量。该车间调度方法的核心是基于深度强化学习设计的双层策略驱动的Actor-Critic方法,该方法从属于车间调度方法的步骤五和六,以生成合理的产品投产序列,如图3所示为双层策略驱动的Actor-Critic方法的流程图,由图2可知,Actor-Critic方法包括12个步骤,是车间调度方法生成产品投产序列的具体算法流程;车间调度方法的步骤五-六根据Actor-Critic方法的12个步骤生成目标算例和目标MPS时的较优产品投产序列:
步骤1、设置Critic网络学习率LR_C、Actor1网络学习率LR_A1和Actor2网络学习率LR_A2
步骤2、第g阶段的初始化,
Figure BDA0002911311730000051
步骤3、初始化第i个产品投产序列方案,
Figure BDA0002911311730000052
步骤4、针对环境状态sn,
Figure BDA0002911311730000053
选择动作an,Actor1和Actor2分别输出选择产品模型m对应动作an的概率G_Pnm和概率L_Pnm
Figure BDA0002911311730000054
Figure BDA0002911311730000055
其中T_Pnm表示选择产品模型m对应动作an的综合概率,
Figure BDA0002911311730000056
动作an的选择基于T_Pnm,m=1,2,…,M。
步骤5、基于动作an,环境产生新的状态sn+1和奖励rn,其中奖励rn基于最小化工作过载时间的目标。
Figure BDA0002911311730000057
步骤6、Critic网络根据输入的状态sn和sn+1,输出基于值函数的状态值V和V′,并且评价所选动作an输出TD error。
TDerror=rn+γ*V′-V   (3)
其中,V′代表对当前状态sn+1的期望奖励;V代表对过去状态sn的期望奖励;γ是折扣率,0<γ<1,表示奖励随着时间的增加而减少。
步骤7、为了使由TD error产生的损失函数最小化,Actor1网络和Critic网络分别以学习率LR_A1和LR_C更新其加权参数。
步骤8、如果n≥N,全局记忆功能收集解,否则该MDP返回步骤4,并且n=n+1。
步骤9、如果i≥I,全局记忆功能输出第j个产品投产序列的TD error,
Figure BDA0002911311730000061
Figure BDA0002911311730000062
其中,Rgj代表第g个阶段的第j个产品投产序列的总工作过载时间;MinRg代表前g个阶段所有产品投产序列的总工作过载时间最小值;否则该MDP返回步骤3,并且i=i+1。
步骤10、Actor2网络根据学习率LR_A2更新加权参数,使全局记忆功能提供的TDerror产生的损失函数最小化。
步骤11、如果MinRg=MinRg-1,则全局记忆功能输出工作过载时间为MinRg的产品投产序列解,并且g=G+1;否则g=g+1。
步骤12、如果g≤G,该MDP返回步骤2;否则方法结束。
为检验本发明方法的效果,使用python语言对方法进行编程实现,并针对不同规模算例的多组MPS进行实验,以验证方法的性能。其中,实验部分的对比方法采用传统Actor-Critic方法、深度Q网络(Deep Q-Network,DQN)方法、双层深度Q网络(Double DeepQ-Network,doubleDQN)方法以及遗传方法。
首先,针对算例规模大小和MPS,假设网络结构参数和方法参数水平;然后,进行参数实验,并根据实验结果对BAC网络结构参数和BAC方法参数进行设置,以便提高方法的寻优性能和缩短计算时间。
最后,在同一调度环境中,分别用本发明(BAC方法)、传统Actor-Critic方法、DQN方法、double DQN方法以及遗传方法进行产品投产排序,通过对比从小规模到大规模算例的多组MPS实验结果,本发明均具有较优的排序优化性能。

Claims (5)

1.一种基于多策略深度强化学习的车间调度方法,其特征在于,包括以下步骤:
步骤一、导入随机算例;
步骤二、输入最小生产集合MPS,确定各产品所需加工数量;
步骤三、根据算例规模大小和MPS设定双层策略驱动的演员-评论家BAC方法参数,包括Actor1、Actor2以及Critic的学习率、遗传代数和种群规模;然后,改变Actor1、Actor2以及Critic网络的隐藏层数和节点数进行网络结构参数实验,根据实验结果对BAC网络结构参数进行设置;
步骤四、在步骤三的基础上,进一步改变BAC方法参数进行正交实验,根据实验结果对BAC方法参数进行设置;
步骤五、导入和读取目标算例和MPS,BAC方法的Actor阶段根据当前工位状态选择合理的产品投产动作,Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态,并对局部排序策略和全局排序策略进行评价更新,一代接着一代循环迭代更新网络;
步骤六、通过Actor阶段与Critic阶段之间的循环迭代,输出合理的产品投产序列;
所述步骤五和步骤六根据Actor-Critic方法的12个步骤生成目标算例和目标MPS时的较优产品投产序列,具体包括以下子步骤:
步骤ss1、设置Critic网络学习率LR_C、Actor1网络学习率LR_A1和Actor2网络学习率LR_A2
步骤ss2、第g阶段的初始化,
Figure FDA0004053753490000011
步骤ss3、初始化第i个产品投产序列方案,
Figure FDA0004053753490000012
步骤ss4、针对环境状态sn
Figure FDA0004053753490000013
选择动作an,Actor1和Actor2分别输出选择产品模型m对应动作an的概率G_Pnm和概率L_Pnm
Figure FDA0004053753490000014
Figure FDA0004053753490000015
其中T_Pnm表示选择产品模型m对应动作an的综合概率,
Figure FDA0004053753490000016
动作an的选择基于T_Pnm,m=1,2,…,M;
步骤ss5、基于动作an,环境产生新的状态sn+1和奖励rn,其中奖励rn基于最小化工作过载时间的目标;
Figure FDA0004053753490000021
步骤ss6、Critic网络根据输入的状态sn和sn+1,输出基于值函数的状态值V和V′,并且评价所选动作an输出时序差分误差TD error;
TDerror=rn+γ*V′-V          (3)
其中,V′代表对当前状态sn+1的期望奖励;V代表对过去状态sn的期望奖励;γ是折扣率,0<γ<1,表示奖励随着时间的增加而减少;
步骤ss7、为了使由TD error产生的损失函数最小化,Actor1网络和Critic网络分别以学习率LR_A1和LR_C更新其加权参数;
步骤ss8、如果n≥N,全局记忆功能收集解,否则该马尔可夫决策过程MDP返回步骤ss4,并且n=n+1;
步骤ss9、如果i≥I,全局记忆功能输出第j个产品投产序列的TD error,
Figure FDA0004053753490000022
Figure FDA0004053753490000023
其中,Rgj代表第g个阶段的第j个产品投产序列的总工作过载时间;MinRg代表前g个阶段所有产品投产序列的总工作过载时间最小值;否则该MDP返回步骤ss3,并且i=i+1;
步骤ss10、Actor2网络根据学习率LR_A2更新加权参数,使全局记忆功能提供的TDerror产生的损失函数最小化;
步骤ss11、如果MinRg=MinRg-1,则全局记忆功能输出工作过载时间为MinRg的产品投产序列解,并且g=G+1;否则g=g+1;
步骤ss12、如果g≤G,该MDP返回步骤ss2;否则方法结束。
2.根据权利要求1所述的基于多策略深度强化学习的车间调度方法,其特征在于,所述步骤一中的随机算例作为参数实验的算例,为寻找较优的方法参数。
3.根据权利要求1所述的基于多策略深度强化学习的车间调度方法,其特征在于,所述步骤二中的MPS根据产品比例变化而改变。
4.根据权利要求1所述的基于多策略深度强化学习的车间调度方法,其特征在于,所述步骤三和步骤四中的BAC方法参数是影响计算时间和寻优能力的因素;根据算例规模大小和MPS设定BAC方法参数的水平,并进行参数实验,从而选择影响计算时间和寻优能力的因素水平,提高方法的寻优性能,缩短方法的计算时间。
5.根据权利要求1所述的基于多策略深度强化学习的车间调度方法,其特征在于,所述步骤五中的BAC方法基于Actor-Critic方法,Actor阶段综合考虑局部排序策略和全局排序策略选择投产动作,Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态,并对局部排序策略和全局排序策略进行评价更新;通过Actor阶段与Critic阶段之间的循环迭代,最终生成合理的产品投产序列;综合考虑双层策略选择投产动作,避免方法陷入局部最优。
CN202110087655.7A 2021-01-22 2021-01-22 一种基于多策略深度强化学习的车间调度方法 Active CN112734286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110087655.7A CN112734286B (zh) 2021-01-22 2021-01-22 一种基于多策略深度强化学习的车间调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110087655.7A CN112734286B (zh) 2021-01-22 2021-01-22 一种基于多策略深度强化学习的车间调度方法

Publications (2)

Publication Number Publication Date
CN112734286A CN112734286A (zh) 2021-04-30
CN112734286B true CN112734286B (zh) 2023-04-07

Family

ID=75595175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110087655.7A Active CN112734286B (zh) 2021-01-22 2021-01-22 一种基于多策略深度强化学习的车间调度方法

Country Status (1)

Country Link
CN (1) CN112734286B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506866A (zh) * 2017-08-31 2017-12-22 景德镇陶瓷大学 一种求解置换流水车间调度的多策略粒子群优化方法及系统
CN110533540A (zh) * 2019-09-06 2019-12-03 北京神州同道智能科技有限公司 一种基于智能维元策略平台的全市场多品种金融资管系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407644A (zh) * 2019-01-07 2019-03-01 齐鲁工业大学 一种用于制造企业多Agent协同控制方法及系统
CN110443412B (zh) * 2019-07-18 2021-11-02 华中科技大学 动态优化加工过程中物流调度及路径规划的强化学习方法
CN111211987B (zh) * 2019-11-29 2021-07-27 清华大学 网络中流量动态调整方法、系统、电子设备及存储介质
CN111766782B (zh) * 2020-06-28 2021-07-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法
CN111858009B (zh) * 2020-07-30 2022-06-17 西北工业大学 基于迁移和强化学习的移动边缘计算系统任务调度方法
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506866A (zh) * 2017-08-31 2017-12-22 景德镇陶瓷大学 一种求解置换流水车间调度的多策略粒子群优化方法及系统
CN110533540A (zh) * 2019-09-06 2019-12-03 北京神州同道智能科技有限公司 一种基于智能维元策略平台的全市场多品种金融资管系统

Also Published As

Publication number Publication date
CN112734286A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN111080408B (zh) 一种基于深度强化学习的订单信息处理方法
CN113792924A (zh) 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
CN104636871B (zh) 一种基于数据的单阶段多产品批处理的控制方法
CN101901425A (zh) 一种基于多种群协同进化的柔性作业车间调度方法
CN112907150B (zh) 一种基于遗传算法的生产排程方法
CN107146039A (zh) 一种多目标协同控制的定制式混流装配生产方法及装置
Yi et al. Soft computing for scheduling with batch setup times and earliness-tardiness penalties on parallel machines
Wang et al. Solving task scheduling problems in cloud manufacturing via attention mechanism and deep reinforcement learning
Sun et al. A teaching-learning-based optimization with feedback for LR fuzzy flexible assembly job shop scheduling problem with batch splitting
Zeng et al. Multi-skilled worker assignment in seru production system for the trade-off between production efficiency and workload fairness
Yimer et al. Fuzzy scheduling of job orders in a two-stage flowshop with batch-processing machines
CN116307008A (zh) 一种mto和mts混合生产模式下aps排产方法
CN112734286B (zh) 一种基于多策略深度强化学习的车间调度方法
Napalkova et al. Multi-objective stochastic simulation-based optimisation applied to supply chain planning
Li et al. An improved whale optimisation algorithm for distributed assembly flow shop with crane transportation
Feyzbakhsh et al. Adam–Eve-like genetic algorithm: a methodology for optimal design of a simple flexible assembly system
CN113485278B (zh) 优化两生产指标的柔性作业车间调度多目标分布估计方法
Nugraheni et al. Hybrid Metaheuristics for Job Shop Scheduling Problems.
Wu et al. Design and application of workshop production scheduling strategy based on manufacturing big data
Wang et al. Investigation on distributed rescheduling with cutting tool maintenance based on NSGA-III in large-scale panel furniture intelligent manufacturing
Quan et al. Multi-objective evolutionary scheduling based on collaborative virtual workflow model and adaptive rules for flexible production process with operation reworking
CN116757396A (zh) 基于深度强化学习的多品种小批量生产车间调度方法
Bagheri Verkiani et al. Energy-conscious Flexible Job Shop Scheduling Using Metaheuristic Algorithms
CN117540990A (zh) 一种基于深度强化学习与多目标优化的生产线调度方法
CN118192446A (zh) 面向动态柔性车间调度的深度q网络训练方法及调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant