CN113344332A - 一种带运输过程和机器状态的车间调度方法及系统 - Google Patents

一种带运输过程和机器状态的车间调度方法及系统 Download PDF

Info

Publication number
CN113344332A
CN113344332A CN202110506250.2A CN202110506250A CN113344332A CN 113344332 A CN113344332 A CN 113344332A CN 202110506250 A CN202110506250 A CN 202110506250A CN 113344332 A CN113344332 A CN 113344332A
Authority
CN
China
Prior art keywords
machine
strategy
network
scheduling
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110506250.2A
Other languages
English (en)
Inventor
杜宇
李俊青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202110506250.2A priority Critical patent/CN113344332A/zh
Publication of CN113344332A publication Critical patent/CN113344332A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Manufacturing & Machinery (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种带运输过程和机器状态的车间调度方法及系统,其技术方案为:包括获取工件参数、机器全过程运输参数;以最大完工时间和总能耗最小为优化目标,利用强化学习方法构建深度Q网络模型;采用双重深度Q网络和软目标权重更新策略训练深度Q网络,并采用softmax选择策略通过概率选择调度规则提高解的质量,得到柔性车间调度最优解决方案。本发明基于深度神经网络的强化学习模型来解决考虑起重机全过程运输、机器准备时间、机器空闲时间的柔性车间调度问题,降低了总能耗,缩短了最大完工时间,提高了工作效率。

Description

一种带运输过程和机器状态的车间调度方法及系统
技术领域
本发明涉及柔性车间调度领域,尤其涉及一种带运输过程和机器状态的车间调度方法及系统。
背景技术
柔性车间调度问题(FJSP)是组合优化领域中的一个重要分支,是车间调度问题(JSP)的一个扩展NP-hard问题。在FJSP中,需要完成所有工序加工的顺序和每个工序加工机器分配这两个任务。FJSP在设备制造、半导体制造、化学材料加工以及手机装配领域中广泛存在。在FJSP中,工件依靠起重机在机器之间运输,起重机运输过程的时间和能量消耗不能被忽略。
FJSP通常通过进化算法(EAs)求得满意解。然而,对于中大规模的FJSP,模型的探索和挖掘能力对于EAs的随机搜索策略来说并不明显。发明人发现,目前关于柔性车间调度的研究存在以下问题:
(1)借助进化算法优化结果,而进化算法依靠随机调整调度方案提高优化的效果,所以进化算法在调度的优化效果较为有限;
(2)起重机在运动过程中没有考虑全部的运动过程,特别是忽略了起重机在竖直方向(z方向)上的移动过程,而在实际的生产过程中,起重机在竖直方向上的运动时间不可忽略;
(3)忽略了机器的准备时间、空闲时间及其能耗问题,但实际生产过程中,同一台机器生产不同的工件往往伴随着调整机器参数等过程,同样消耗时间,与此同时,机器在整个调度过程中不可关闭,空闲状态的机器同样消耗电能,这两部分的时间和能量消耗不可忽略。
上述问题的存在导致柔性车间调度能好较高、工作效率较低。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种带运输过程和机器状态的车间调度方法及系统,基于深度神经网络的强化学习模型来解决考虑起重机全过程运输、机器准备时间、机器空闲时间的柔性车间调度问题,降低了总能耗,缩短了最大完工时间,提高了工作效率。
为了实现上述目的,本发明是通过如下的技术方案来实现:
第一方面,本发明的实施例提供了一种带运输过程和机器状态的车间调度方法,包括:
获取工件参数、机器全过程运输参数;
以最大完工时间和总能耗最小为优化目标,利用强化学习方法构建深度Q网络模型;
采用双重深度Q网络和软目标权重更新策略训练深度Q网络,并采用softmax选择策略通过概率选择调度规则提高解的质量,得到柔性车间调度最优解决方案。
作为进一步的实现方式,在深度Q网络中,首先观测初始状态s0并计算初始状态特征值;之后利用ε贪婪规则增强在线网络在柔性车间调度中的泛化能力;
根据变化的环境计算得到奖赏,根据计算误差通过梯度下降法训练在线网络Q;观测得到新的状态和新的状态特征。
作为进一步的实现方式,当在线网络更新时,目标网络通过软目标权重更新策略同步更新。
作为进一步的实现方式,采用多个状态特征描述柔性车间调度的环境,根据优化目标,将多个状态特征分为若干组,同组的状态特征在深度Q网络中共享设定层网络节点,不同组的状态特征在深度Q网络中互不链接。
作为进一步的实现方式,所述状态特征划分为关于调度过程的状态特征、关于最大完工时间的状态特征、关于总能耗的状态特征、关于能量效率的状态特征;所有的状态特征通过特征向量Φ管理。
作为进一步的实现方式,以概率ε利用softmax策略选择动作ai,其中i为自然数;根据插入策略完成其中的一个动作,插入策略的步骤为:
在插入新工序之前记录所有已安排工序的机器安排;
选择一个未完成的工件插入到加工向量中;
在机器向量中,更新已安排工序的机器安排;
计算插入后的新解的适应度值,选择适应度值最优的点为插入点;
检查是否所有未完成工件在所有可插入位置上都已尝试;
根据最优适应度值对应的工件和插入点进行插入操作。
作为进一步的实现方式,采用GTHS策略提高解的质量,在GTHS策略基础上添加基于对最大完工时间和总能耗的优化策略;调整后的GTHS策略包括策略1-载重搬运能耗优化、策略2-等待过程能耗优化、策略3-最大完工时间优化;每一次对机器向量按照“策略1→策略2→策略3”的顺序执行。
第二方面,本发明实施例还提供了一种带运输过程和机器状态的车间调度系统,包括:
参数获取模块,被配置为:获取工件参数、机器全过程运输参数;
深度Q网络模型构建模块,被配置为:以最大完工时间和总能耗最小为优化目标,利用强化学习方法构建深度Q网络模型;
寻优模块,被配置为:采用双重深度Q网络和软目标权重更新策略训练深度Q网络,并采用softmax选择策略通过概率选择调度规则提高解的质量,得到柔性车间调度最优解决方案。
第三方面,本发明实施例还提供了一种介质,其上存储有程序,该程序被处理器执行时实现所述的一种带运输过程和机器状态的车间调度方法中的步骤。
第四方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现所述的一种带运输过程和机器状态的车间调度方法中的步骤。
上述本发明的实施例的有益效果如下:
(1)本发明的一个或多个实施方式采用强化学习模型进行优化,该模型选用一个深度神经网络完成强化学习的过程,深度神经网络具有非常强的模型拟合能力和学习能力,在预测和模拟各种实际问题中的能力在目前最强,因此利用以深度神经网络为内核的强化学习来解决柔性车间调度问题,能够基于数据的角度对调度结果进行优化,从而规避之前进化算法的盲目性,提升优化效果。
(2)本发明的一个或多个实施方式考虑了包括起重机在竖直方向上的八种运输状态,模拟出了车间内起重机的所有运动过程,在时间消耗和能量消耗上接近实际的生产状态;并将机器的准备时间、空闲时间以及二者的能耗考虑进模型中,更加符合实际的车间生产状态。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明根据一个或多个实施方式的流程图;
图2是本发明根据一个或多个实施方式的起重机状态的判别规则;
图3是本发明根据一个或多个实施方式的DQN模型框架;
图4是本发明根据一个或多个实施方式的FJSP-CS解的编码;
图5是本发明根据一个或多个实施方式的DQN结构;
图6(a)-图6(c)是本发明根据一个或多个实施方式的参数校正实验结果图;
图7是本发明根据一个或多个实施方式的调度规则性能比较图;
图8是本发明根据一个或多个实施方式的调度规则ANOVA结果图;
图9是本发明根据一个或多个实施方式的其他调度规则和算法性能比较图;
图10是本发明根据一个或多个实施方式的其他调度规则和算法ANOVA结果图;
图11是本发明根据一个或多个实施方式的DPR-5性能对比的ANOVA结果图;
图12是本发明根据一个或多个实施方式的DQN网络结构比较ANOVA结果图;
图13是本发明根据一个或多个实施方式的权重分析结果图。
具体实施方式
实施例一:
本实施例提供了一种带运输过程和机器状态的车间调度方法,包括:
获取工件参数、机器全过程运输参数;
以最大完工时间和总能耗最小为优化目标,利用强化学习方法构建深度Q网络模型;
采用双重深度Q网络和软目标权重更新策略训练深度Q网络,并采用softmax选择策略通过概率选择调度规则提高解的质量,得到柔性车间调度最优解决方案。
在FJSP-CS(柔性车间调度问题)中需要完成I个工件的加工,每个工件i有OPi个工序,每个工件的工序必须按照一定的顺序在一个机器集合中加工。每个工件只能同时被一台机器加工,且每台机器同时只能加工一个工件。机器间工件的运输通过起重机完成,起重机在同一时间只能搬运一个工件。
在本实施例中,涉及的符号及参数含义为:
i:工件编号;j:工序编号;k:机器编号;pr:加工顺序编号。
Oi,j:工件i的第j个工序;I:工件数;OPi:工件i的工序数;PR:所有工件的总工序数;K:机器数;Ki,j:工序Oi,j的可加工机器集合;Vx,Vy,Vz:起重机横向、纵向和竖向的运行速度;h:起重机竖向高度;Wx,Wy,Wz:起重机横向、纵向和竖向的设备重量;Wj:抬升工件的重量;Qn:起重机可抬升重量;Tsi,j,Tci,j:Oi,j的开始和结束时间;STsi,j,STci,j:Oi,j机器准备过程的开始和结束时间;MIsi,j,MIci,j:Oi,j机器空闲状态的开始和结束时间;noSi,j,nsSi,j,nlSi,j,luSi,j,lsSi,j,loSi,j,llSi,j,nuSi,j:空载运输、空载等待、空载下降、载重抬升、载重等待、载重运输、载重下降和空载抬升过程的开始时间;noCi,j,nsCi,j,nlCi,j,luCi,j,lsCi,j,loCi,j,llCi,j,nuCi,j:空载运输、空载等待、空载下降、载重抬升、载重等待、载重运输、载重下降和空载抬升过程的结束时间;axs,axb:起重机横向运动开始和结束加速度;ays,ayb:起重机纵向运动开始和结束加速度;ays,ayb:起重机竖向运动开始和结束加速度;Px,Pxs:起重机横向额定功率和启动功率;Py,Pys:起重机纵向额定功率和启动功率;Pz,Pzs:起重机竖向额定功率和启动功率;Ps:起重机空闲状态功率;xop,xcp,xpp:加工位置、起重机位置和同工件前序工序位置的横坐标;yop,ycp,ypp:加工位置、起重机位置和同工件前序工序位置的纵坐标;Txnos(Oi,j),Txnob(Oi,j),Txnod(Oi,j):工序Oi,j在空载运输状态的横向开始、减速和匀速时间;Tynos(Oi,j),Tynob(Oi,j),Tynod(Oi,j):工序Oi,j在空载运输状态的纵向开始、减速和匀速时间;Tznls(Oi,j),Tznlb(Oi,j),Tznld(Oi,j):工序Oi,j在空载下降状态的竖向开始、减速和匀速时间;Tzlus(Oi,j),Tzlub(Oi,j),Tzlud(Oi,j):工序Oi,j在载重上升状态的竖向开始、减速和匀速时间;Txlos(Oi,j),Txlob(Oi,j),Txlod(Oi,j):工序Oi,j在载重运输状态的横向开始、减速和匀速时间;Tylos(Oi,j),Tylob(Oi,j),Tylod(Oi,j):工序Oi,j在载重运输状态的纵向开始、减速和匀速时间;Tzlls(Oi,j),Tzllb(Oi,j),Tzlld(Oi,j):工序Oi,j在载重下降状态的竖向开始、减速和匀速时间;Tznus(Oi,j),Tznub(Oi,j),Tznud(Oi,j):工序Oi,j在空载上升状态的竖向开始、减速和匀速时间;Wx,Wy,Wz:横向、纵向和竖向设备的重量;Ψ<Oi1,j1,Oi2,j2>:在同一台机器上,工序Oi2,j2是Oi1,j1加工后的下一个加工工序。
假设:
在FJSP-CS中,所有的工序必须严格按照加工顺序和机器安排进行加工;
起重机和机器的工作过程是一个连续的过程,中途不可被打断;
每一个工序只能在一台机器上加工,不可同时被别的机器加工;
每台机器一次只能加工一个工件;
起重机同一时间只能搬运一台工件;
起重机的初始位置位于第一个加工的工序机器位置上;
处于安全因素,加工机器处于空闲时才可进行工件运输步骤;
所有工件的第一个工序无需起重机搬运;
当工件的加工位置和前序加工位置相同,不需要起重机搬运。
本实施例考虑的机器状态包括机器加工状态、机器准备状态和机器空闲状态。
(1)机器加工状态:
工序Oi,j的机器加工状态能耗Emp(Oi,j)为,由式(1)计算。
Figure BDA0003058513290000051
其中,
Figure BDA0003058513290000052
和Tmp(Oi,j)分别为工序的单位能耗和机器加工时间。
机器加工状态的总能耗由式(2)计算。
Figure BDA0003058513290000053
(2)机器准备状态
工序Oi,j的机器准备状态能耗Est(Oi,j)为,由式(3)计算。
Figure BDA0003058513290000061
其中,
Figure BDA0003058513290000062
和Tst(Oi,j)分别为工序的单位能耗和机器加工时间。
机器准备状态的总能耗由式(4)计算。
Figure BDA0003058513290000063
(3)机器空闲状态
工序Oi,j的机器空闲状态能耗Emi(Oi,j)为,由式(5)计算。
Figure BDA0003058513290000064
其中,
Figure BDA0003058513290000065
和Tmi(Oi,j)分别为工序的单位能耗和机器加工时间。
机器空闲状态的总能耗由式(6)计算。
Figure BDA0003058513290000066
本实施例的起重机运输包括水平方向运输和垂直于地面的竖向运输。水平方向运输包括空载运输、空载等待、载重等待和载重运输。竖向运输包括空载下降、载重抬升、载重下降和空载抬升。
起重机系统安装于车间内,起重机包括横向运输设备、纵向运输设备和抬升设备。横向运输设备控制起重机沿x轴方向运动,纵向运输设备控制起重机沿y方向运输,抬升设备控制挂钩沿z轴方向运动。
本实施例提出的判别规则清楚地描述了八种起重机状态的关系,即空载运输、空载等待、空载下降、载重抬升、载重等待、载重运输、载重下降、空载抬升;如图2所示,判别规则根据当前操作的位置、同工件前序工序操作位置以及起重机位置的关系来确定起重机接下来需要执行的动作。
进一步的,工序Oi,j的空载运输x和y方向的移动时间分别由式(7)-(10)和(11)-(14)计算,空载运输过程的时间和能量消耗分别由(15)和(16)计算,空载运输过程的总能耗由(17)计算。
Figure BDA0003058513290000067
Figure BDA0003058513290000071
Figure BDA0003058513290000072
Figure BDA0003058513290000073
Figure BDA0003058513290000074
Figure BDA0003058513290000075
Figure BDA0003058513290000076
Figure BDA0003058513290000077
Tno(Oi,j)=Txnos(Oi,j)+Txnob(Oi,j)+Txnod(Oi,j)+Tynos(Oi,j)+Tynob(Oi,j)+Tynod(Oi,j)(15)
Figure BDA0003058513290000078
Figure BDA0003058513290000079
进一步的,工序Oi,j的空载等待过程的时间和能量消耗分别由(18)和(19)计算,空载等待过程的总能耗由(20)计算。
Tns(Oi,j)=max{Tc(Oi,j-1)-Tno(Oi,j),0} (18)
Ens(Oi,j)=Tns(Oi,j)·Ps (19)
Figure BDA00030585132900000710
进一步的,工序Oi,j的空载下降z方向的移动时间由式(21)-(24)计算,空载下降过程的时间和能量消耗分别由(25)和(26)计算,空载下降过程的总能耗由(27)计算。
Figure BDA00030585132900000711
Figure BDA00030585132900000712
Figure BDA00030585132900000713
Figure BDA0003058513290000081
Tnl(Oi,j)=Tznls(Oi,j)+Tznlb(Oi,j)+Tznld(Oi,j) (25)
Figure BDA0003058513290000082
Figure BDA0003058513290000083
进一步的,工序Oi,j的载重抬升z方向的移动时间由式(28)-(31)计算,载重抬升过程的时间和能量消耗分别由(32)和(33)计算,载重抬升过程的总能耗由(34)计算。
Figure BDA0003058513290000084
Figure BDA0003058513290000085
Figure BDA0003058513290000086
Figure BDA0003058513290000087
Tlu(Oi,j)=Tzlus(Oi,j)+Tzlub(Oi,j)+Tzlud(Oi,j) (32)
Figure BDA0003058513290000088
Figure BDA0003058513290000089
进一步的,工序Oi,j的载重等待过程的时间和能量消耗分别由(35)和(36)计算,载重等待过程的总能耗由(37)计算。
Tls(Oi,j)=max{Tc(Oi,j-1)-Tst(Oi,j),0} (35)
Els(Oi,j)=Tls(Oi,j)·Ps (36)
Figure BDA00030585132900000810
进一步的,工序Oi,j的载重运输x和y方向的移动时间分别由式(38)-(41)和(42)-(45)计算,载重运输过程的时间和能量消耗分别由(46)和(47)计算,载重运输过程的总能耗由(48)计算。
Figure BDA0003058513290000091
Figure BDA0003058513290000092
Figure BDA0003058513290000093
Figure BDA0003058513290000094
Figure BDA0003058513290000095
Figure BDA0003058513290000096
Figure BDA0003058513290000097
Figure BDA0003058513290000098
Tlo(Oi,j)=Txlos(Oi,j)+Txlob(Oi,j)+Txlod(Oi,j)+Tylos(Oi,j)+Tylob(Oi,j)+Tylod(Oi,j)(46)
Figure BDA0003058513290000099
Figure BDA00030585132900000910
进一步的,工序Oi,j的载重下降z方向的移动时间由式(49)-(51)计算,载重下降过程的时间和能量消耗分别由(52)和(53)计算,载重下降过程的总能耗由(54)计算。
Figure BDA00030585132900000911
Figure BDA00030585132900000912
Figure BDA00030585132900000913
Tll(Oi,j)=Tzlls(Oi,j)+Tzllb(Oi,j)+Tzlld(Oi,j) (52)
Ell(Oi,j)=δ·Tzlld(Oi,j)·Pzd-Tzlls(Oi,j)·Pzs (53)
Figure BDA00030585132900000914
进一步的,工序Oi,j的载重抬升z方向的移动时间由式(55)-(57)计算,载重抬升过程的时间和能量消耗分别由(58)和(59)计算,载重抬升过程的总能耗由(60)计算。
Figure BDA0003058513290000101
Figure BDA0003058513290000102
Figure BDA0003058513290000103
Tnu(Oi,j)=Tznus(Oi,j)+Tznub(Oi,j)+Tznud(Oi,j) (58)
Enu(Oi,j)=Tznus(Oi,j)·Pzs+γ·Tznud(Oi,j)·Pzd (59)
Figure BDA0003058513290000104
进一步的,所有机器状态的总能耗由式(61)计算,所有起重机状态的总能耗由式(62)计算,FJSP-CS的总能耗由式(63)计算。
TECmc=TECmp+TECst+TECmi (61)
TECct=Eno+Ens+Enl+Elu+Els+Elo+Ell+Enu (62)
TEC=TECmc+TECct (63)
FJSP-CS模型表示为:
minf=w·f1+(1-w)·f2 (64)
Figure BDA0003058513290000105
f2=TEC (66)
Figure BDA0003058513290000106
Figure BDA0003058513290000107
Figure BDA0003058513290000108
Figure BDA0003058513290000109
Figure BDA00030585132900001010
Figure BDA00030585132900001011
Figure BDA0003058513290000111
Figure BDA0003058513290000112
Figure BDA0003058513290000113
Figure BDA0003058513290000114
Figure BDA0003058513290000115
Figure BDA0003058513290000116
Figure BDA0003058513290000117
FJSP-CS模型的加权适应度值由式(64)计算。权重w将式(65)的最大完工时间和式(66)的总能耗相连接。约束(67)保证每个工序只由一台机器加工。约束(68)描述每个加工次序上只有一个工序。约束(69)保证工序按照调度次序进行加工。约束(70)保证了机器上各个顺序至多只能有一个工序。约束(71)保证了机器的加工时间与输入数据吻合。约束(72)描述了起重机运输各个过程的时间关系。约束(73)保证了当目标机器为空闲状态时,起重机才可进入运输状态。约束(74)保证了当机器加工结束后工件才可被起重机运输。约束(75)表示所有工件的第一个工序无需起重机运输。约束(76)表示如果一个工序的前序工序和当前工序加工机器一致时无需起重机运输。约束(77)表示机器准备阶段的开始时间不能晚于该机器前序工序的加工完成时间。约束(78)描述了机器准备时间、空闲时间和机器加工的时间关系。约束(79)为FJSP-CS的决策变量。
进一步的,RL可被看做一个马尔科夫决策过程模型,其中一个agent通过规则π做出动作a给环境,环境发生改变,agent得到奖赏r。在每一个决策时间点t,agent观测环境的状态st,从动作集A中根据规则π做出动作at。当做出at后,观测到新的状态st+1,环境反馈这个动作得到奖赏rt+1。DQN是RL和DL的结合,其中agent的动作由一个深度神经网络决定。本实施例通过DQN模型来解决FJSP-CS。
针对FJSP-CS的DQN模型框架由图3所示。在DQN中,在线网络Q由训练算例的数据训练。首先,agent观测初始状态s0并计算初始状态特征值。然后,应用ε贪婪规则增强在线网络在FJSP-CS中的泛化能力。接下来,根据变化的环境计算得到奖赏,根据计算误差通过梯度下降法训练在线网络Q。最后,观测得到新的状态和新的状态特征。
当在线网络更新时,目标网络
Figure BDA0003058513290000118
通过软目标权重更新策略同步更新,这保证了目标网络的稳定性。目标网络与在线网络结构相同。目标网络更新之后,测试算例的数据输入到目标网络计算输出结果。最后,所有生成的解通过绿色运输启发式策略(GTHS)来精炼得到最终结果。
进一步的,FJSP-CS的解包括一个加工向量和一个机器向量,每个向量的长度为所有工件工序的数量之和。在加工向量{ω12,...,ωn}中,每个元素ωi由一个工件编号代表。在机器向量{ρ12,...,ρn}中,每个元素ρi代表加工机器编号。图4给出了一个解的编码,其中加工向量的第一个“3”表示工件3的第一个工序,第二个“3”表示工件3的第二个工序,其他工件按照同样的规则进行编排。图4中解的加工顺序为O3,1、O1,1、O2,1、O3,2、O1,2、O2,2、O1,3、O2,3、O2,4。在机器向量中,工序O3,1由机器M2加工,工序O1,1由机器M2加工,后续工序的加工机器安排以此类推。
FJSP-CS的适应度值可根据对应的解计算得到。机器加工时间和准备时间由输入数据确定。具体的解码过程可参照起重机的判别规则。
进一步的,本实施例提出了12个状态特征来描述调度的环境。根据优化的目标,12个状态特征分为四组,即关于调度过程的状态特征、关于最大完工时间的状态特征、关于总能耗的状态特征、关于能量效率的状态特征。为了更好的优化效果,同组的状态特征在DQN中共享三层网络节点,不同组的状态特征在DQN中互不链接。
更进一步的,关于调度过程的状态特征包括:
进度百分比PR(t):
Figure BDA0003058513290000121
PR(t)由式(80)定义,其中Cop(t)为时间t时已安排的工序数。
平均进度百分比PRave(t):
Figure BDA0003058513290000122
PRave(t)由式(81)定义,其中Cop,i(t)为工件i在时间t时已安排的工序数。
进度百分比标准差PRstd(t):
Figure BDA0003058513290000123
PRstd(t)由式(82)定义。
关于最大完工时间的状态特征包括:
当前最大完工时间CT(t):
Figure BDA0003058513290000131
CT(t)由式(83)定义,其中CTi,j(t)是工序Oi,j在时间t时的完工时间。
平均最大完工时间CTave(t)包括:
Figure BDA0003058513290000132
CTave(t)由式(84)定义,其中CTk(t)是机器k在时间t时的完工时间。
最大完工时间标准差CTstd(t)包括:
Figure BDA0003058513290000133
CTstd(t)由式(85)定义。
关于总能耗的状态特征包括:
当前总能耗TEC(t):
Figure BDA0003058513290000134
TEC(t)由式(86)定义,其中TECi,j(t)是工序Oi,j在时间t时的总能耗。
平均总能耗TECave(t):
Figure BDA0003058513290000135
TECave(t)由式(87)定义,其中TECk(t)是机器k在时间t时上所有加工工序的总能耗。总能耗标准差TECstd(t):
Figure BDA0003058513290000136
TECstd(t)由式(88)定义。
关于能量效率的状态特征包括:
机器能耗比ER(t):
Figure BDA0003058513290000137
ER(t)由式(89)定义,其中TECmp(t)是FJSP-CS在时间t时机器加工的总能耗。
平均机器能耗比ERave(t):
Figure BDA0003058513290000138
ERave(t)由式(90)定义,其中ERk(t)是机器k在时间t时上所有加工工序的能耗比。
机器能耗比标准差ERstd(t):
Figure BDA0003058513290000141
ERstd(t)由式(91)定义。
以上所有的状态特征通过特征向量Φ管理。特征向量表示为Φt=(PR(t),PRave(t),PRstd(t),CT(t),CTave(t),CTstd(t),TEC(t),TECave(t),TECstd(t),ER(t),ERave(t),ERstd(t))。Φ是DQN的输入。为了更好地训练DQN,所有的输入参数通过式(92)归一化为[0,1]。
Figure BDA0003058513290000142
其中,Φi′是第i个归一化的状态特征,Φi是第i个归一化前的状态特征,Φmax和Φmin分别是特征向量的最大和最小特征值。
进一步的,本实施例涉及六种调度规则和插入策略,每一种方法为DQN的一个输出节点。
(1)调度规则1(DPR-1):
加工向量接下来安排的工序来自未完成工序最多的工件,如果有超过一个工件满足上述情况,随机选择一个。机器安排由式
Figure BDA0003058513290000143
决定。根据DPR-1完成的动作为a1
(2)调度规则2(DPR-2):
加工向量接下来安排的工序来自各机器加工时间最短的工件,如果有超过一个工件满足上述情况,随机选择一个。指派加工时间最短的机器进行加工。根据DPR-2完成的动作为a2
(3)调度规则3(DPR-3):
加工向量接下来安排的工序来自各机器平均加工时间最短的工件,如果有超过一个工件满足上述情况,随机选择一个。机器安排由式
Figure BDA0003058513290000144
决定。根据DPR-3完成的动作为a3
(4)调度规则4(DPR-4):
加工向量接下来安排的工序随机从未完成加工的工件里选择,机器安排由式
Figure BDA0003058513290000145
决定。根据DPR-4完成的动作为a4
(5)调度规则5(DPR-5):
加工向量接下来安排的工序来自未完成的前序工件,机器安排也与前序工件工序的机器安排一致。如果所有的前序工件均已完成加工,则随机选择一个未完成工件,机器安排由式
Figure BDA0003058513290000151
决定。根据DPR-5完成的动作为a5
(6)调度规则6(DPR-6):
加工向量接下来安排的工序来自各机器加工时间最长的工件,如果有超过一个工件满足上述情况,随机选择一个。机器安排由式
Figure BDA0003058513290000152
决定。根据DPR-6完成的动作为a6
(7)插入策略(IS):
以上所有的调度规则都是通过在加工向量最后添加工序来完成动作。然而,这样的方式会限制调度规则的优化能力。本实施例受到迭代贪婪(IG)算法启发,提出了IS策略,IS通过将新的工序插入到加工向量的位置来完成动作。根据IS完成的动作为a7
IS的主要步骤如下:
步骤1:在插入新工序之前记录所有已安排工序的机器安排。
步骤2:选择一个未完成的工件插入到加工向量中。
步骤3:在机器向量中,更新已安排工序的机器安排。
步骤4:计算插入后的新解的适应度值,选择适应度值最优的点为插入点。
步骤5:检查是否所有的未完成工件在所有可插入位置上都已尝试,如果没有,返回到步骤2。
步骤6:根据最优适应度值对应的工件和插入点进行插入操作。
进一步的,在每个调度时点,只选择一个动作来完成FJSP-CS。在动作的选择上利用ε策略平衡探索能力和挖掘能力。DQN模型有(1-ε)的概率根据计算的最高Q值选择动作,为了避免陷入局部最优,本实施例以概率ε利用softmax策略选择动作。
选择动作ai的概率公示计算如下:
Figure BDA0003058513290000153
其中,参数μ控制不同动作的区分程度。
算法1描述了在每个调度时点的动作选择过程。
Figure BDA0003058513290000154
Figure BDA0003058513290000161
在每次动作执行之后,DQN对应的奖赏由算法2描述,奖赏的设计目的是为了最小化最大完工时间和总能耗。
Figure BDA0003058513290000162
进一步的,DQN包括一个输入层、三个隐含层和一个输出层,输入层和输出层节点数分别与状态特征数和动作数相同,每个隐含层有20个节点。
本实施例的DQN不是全连接结构,如图5所示,12个状态特征分为四组,每组的状态特征在DQN中为全连接,但不同组的状态特征在前两层隐含层中互不相连。在第二层隐含层到输出层之间,节点为全连接。输入层和隐含层的激活函数为ReLU,输出层的激活函数为pure l in。与全连接的神经网络相比,DQN模型减少了权重和偏置,节省了计算时间和资源。更为重要的是,不同组的状态特征在训练过程中不会互相干扰。
DQN中的在线网络根据误差
Figure BDA0003058513290000171
的梯度下降方法训练,目标网络根据
Figure BDA0003058513290000172
更新。
进一步的,为了得到更好的调度结果,参考GTHS策略来提高解的质量。在此基础上添加了基于对最大完工时间和总能耗的优化策略。调整后的GTHS包括三种策略,所有的策略只对机器向量进行调整。在GTHS过程中,每一次对机器向量按照“策略1→策略2→策略3”的顺序执行。
策略1:载重搬运能耗优化:
此策略在机器向量上从左至右调整机器安排来获得载重搬运过程和机器加工过程能耗最低的解。
策略2:等待过程能耗优化:
此策略在机器向量上从左至右调整机器安排来获得载重等待过程和空载等待过程能耗最低的解。
策略3:最大完工时间优化
此策略在机器向量上从左至右调整机器安排来获得最大完工时间最小的解。
进一步的,本实施例通过RPI值对DQN的模型性能进行评价,计算过程如下:
Figure BDA0003058513290000173
其中fc是给定算法的平均适应度值,fb是所有对比算法中fc的最优适应度值。
实验算例:
算例命名格式为“aJbM”,表明该算例包括a个工件和b台机器。本实施例包括三类算例。第一类包括四个的小算例,其中工件数I={7,9,10},机器数为6。第二类包括30个通过代码生成的算例,其中工件数I={10,20,30,40,50,80,100},机器数M={6,7,8,9,10}加工时间在区间[5,30]内平均分布。第三类算例为第二类算例子集,包括10个算例,其中工件数I={20,30,40,50,80},工序数M={6,10}。第一类和第二类算例用来评价DQN与其他算法的性能。算例“20J6M”用于参数校正。第三类算例用于权重讨论。
进一步的,DQN通过算例20J6M训练。训练之后,DQN在算例20J7M上进行测试。
本实施例包括三个重要参数,softmax策略参数μ、软目标权重更新参数τ和ε策略的参数εmax。每个参数的水平值如下:
μ:{1.0,1.2,1.4,1.6,1.8,2.0};
τ:{0.01,0.05,0.10};
εmax:{0.2,0.5,0.8}.
三个参数共包括6*3*3=54个组合。在算例20J6M上对所有的组合进行参数校正实验,每一个组合重复30次取平均值。图6(a)-6(c)图为不同水平下的结果,根据图6,设定参数值为μ=1.2,τ=0.05,εmax=0.5。
本实施例将DQN与DPR1-6和IS进行性能对比。每组实验重复30次,取平均值。各算例的RPI值如图7所示。
由图7可得以下结论:(1)DQN相比其他的DPR和IS均更优,说明训练后的DQN已习得在不同状态下选择适合动作的知识;(2)DPR-5能在起重机方面减少时间和能量消耗,同时节省准备时间;(3)尽管DPR-5比其他的调度规则性能都最优,但是单个的DPR无法获得满意的解。因此,DQN能够有效地解决FJSP-CS。
采用多因素变量分析(ANOVA)来比较不同的策略之间是否显著。图8显示了不同比较算法RPI值的均值和95%置信区间,其中p值小于0.05,说明不同策略之间的比较结果是显著的。
进一步的,为了比较所提算法的性能,将其与其他广泛应用的调度规则和EAs进行比较。
参与比较的调度规则包括FIFO规则、MRT规则、SSU规则、SPTSSU规则。其中,FIFO规则优先选择选择具有各机器最小的最大完工时间的工序;MRT规则优先选择剩余加工时间最长的工序;SSU规则优先选择准备时间最长的工序;SPTSSU规则优先选择准备时间和剩余加工时间最长的工序。参与比较的算法包括遗传算法(GA)和变邻域搜索(VNS)。在GA和VNS中,种群数量为100,其余参数与现有技术记载一致,算法运行时间为(0.6*PR)。每个比较策略的RPI值如图9所示,结果为重复30次运行得到的平均值。
由图9可得以下结论:(1)DQN在性能方便优于其他调度规则和算法,说明DQN能够在有限时间内得到满意解;(2)除DQN外,VNS的结果最好,说明VNS具有强大的挖掘能力;(3)DQN和基于知识的调度规则优化结果比基于随机尝试的VNS更优秀。
采用多因素变量分析(ANOVA)来比较不同的策略之间是否显著。图10显示了不同比较算法RPI值的均值和95%置信区间,其中p值小于0.05,说明不同策略之间的比较结果是显著的。
进一步的,为了验证DPR-5的效果,将DQN与不含DPR-5的DQN进行比较,两种算法的其他部分都保持一致。两种算法均在所有算例中重复运行30次,取平均值。图11为两种算法的均值和95%置信区间,其中p值小于0.05,说明基于知识的DPR-5能够显著提高模型的优化能力。
进一步的,为了研究DQN结构对优化性能的影响,将DQN与全连接结构的DQN进行比较,两种算法的其他部分都保持一致。两种算法均在所有算例中重复运行30次,取平均值。图12为两种算法的均值和95%置信区间,其中p值小于0.05,说明本文提出DQN的结构通过节省计算资源得到了相比经典全连接DQN结构更好的结果。
本实施例利用权重w通过最大完工时间和总能耗计算适应度值,w设为0.8。实际上,权重表明了对两个优化目标的偏好。本实施例将权重依次设为{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}来研究两个优化目标之间的关系。选择第三类算例对权重进行研究,每个算例单独运行10次取平均值。
图13为权重实验的结果,其中每个点表示对应权重和算例的两个目标的RPI值。从图13可得以下结论:(1)最大完工时间和总能耗可由权重w影响,较小的w更偏好对总能耗的优化,较大的w更偏好对最大完工时间的优化;(2)在不同的权重当中,适应度值相比总能耗对最大完工时间更敏感;(3)对于FJSP-CS,当w介于0.3到0.9时,算法对两个目标的优化效果都可得到较为满意的结果。
根据上述实验,DQN相比其他对比方法具有更好的表现,主要原因可总结如下:(1)DQN学会了在各种状态下挑选合适的调度规则;(2)将模型的参数调整到了最优;(3)分别与其他调度规则和算法的角度进行对比,证明了本实施例模型的性能;(4)基于知识的调度规则改善了DQN的性能;(5)通过对比实验说明了相比全连接结构的DQN,DQN的结构能够得到更优解。
本实施例提出的FJSP-CS包括起重机运输全过程、机器准备时间、机器空闲时间,相比普通的FJSP有更大的复杂度。本实施例通过基于RL方法的DQN模型解决FJSP-CS,其中最大完工时间和总能耗为优化目标。12个状态特征和7个基于知识的调度规则分别代表调度特征和动作。DQN通过双重深度Q网络和软目标权重更新在不同的情况下选择适宜的调度规则。应用softmax选择策略通过概率选择调度规则来提升DQN的柔性。数值实验对模型的效果、网络结构、调度规则进行了测试,结果表明DQN能在FJSP-CS得到较优解。
实施例二:
本发明实施例还提供了一种带运输过程和机器状态的车间调度系统,包括:
参数获取模块,被配置为:获取工件参数、机器全过程运输参数;
深度Q网络模型构建模块,被配置为:以最大完工时间和总能耗最小为优化目标,利用强化学习方法构建深度Q网络模型;
寻优模块,被配置为:采用双重深度Q网络和软目标权重更新策略训练深度Q网络,并采用softmax选择策略通过概率选择调度规则提高解的质量,得到柔性车间调度最优解决方案。
具体的车间调度系统的工作方法与实施例一中的调度方法相同,这里不再赘述。
实施例三:
本发明实施例还提供了一种介质,其上存储有程序,该程序被处理器执行时实现实施例一所述的一种带运输过程和机器状态的车间调度方法中的步骤。
实施例四:
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现实施例一所述的一种带运输过程和机器状态的车间调度方法中的步骤。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种带运输过程和机器状态的车间调度方法,其特征在于,包括:
获取工件参数、机器全过程运输参数;
以最大完工时间和总能耗最小为优化目标,利用强化学习方法构建深度Q网络模型;
采用双重深度Q网络和软目标权重更新策略训练深度Q网络,并采用softmax选择策略通过概率选择调度规则提高解的质量,得到柔性车间调度最优解决方案。
2.根据权利要求1所述的一种带运输过程和机器状态的车间调度方法,其特征在于,在深度Q网络中,首先观测初始状态s0并计算初始状态特征值;之后利用ε贪婪规则增强在线网络在柔性车间调度中的泛化能力;
根据变化的环境计算得到奖赏,根据计算误差通过梯度下降法训练在线网络Q;观测得到新的状态和新的状态特征。
3.根据权利要求2所述的一种带运输过程和机器状态的车间调度方法,其特征在于,当在线网络更新时,目标网络
Figure FDA0003058513280000011
通过软目标权重更新策略同步更新。
4.根据权利要求1所述的一种带运输过程和机器状态的车间调度方法,其特征在于,采用多个状态特征描述柔性车间调度的环境,根据优化目标,将多个状态特征分为若干组,同组的状态特征在深度Q网络中共享设定层网络节点,不同组的状态特征在深度Q网络中互不链接。
5.根据权利要求4所述的一种带运输过程和机器状态的车间调度方法,其特征在于,所述状态特征划分为关于调度过程的状态特征、关于最大完工时间的状态特征、关于总能耗的状态特征、关于能量效率的状态特征;所有的状态特征通过特征向量Φ管理。
6.根据权利要求1所述的一种带运输过程和机器状态的车间调度方法,其特征在于,以概率ε利用softmax策略选择动作ai,其中i为自然数;根据插入策略完成其中的一个动作,插入策略的步骤为:
在插入新工序之前记录所有已安排工序的机器安排;
选择一个未完成的工件插入到加工向量中;
在机器向量中,更新已安排工序的机器安排;
计算插入后的新解的适应度值,选择适应度值最优的点为插入点;
检查是否所有未完成工件在所有可插入位置上都已尝试;
根据最优适应度值对应的工件和插入点进行插入操作。
7.根据权利要求1所述的一种带运输过程和机器状态的车间调度方法,其特征在于,采用GTHS策略提高解的质量,在GTHS策略基础上添加基于对最大完工时间和总能耗的优化策略;调整后的GTHS策略包括策略1-载重搬运能耗优化、策略2-等待过程能耗优化、策略3-最大完工时间优化;每一次对机器向量按照“策略1→策略2→策略3”的顺序执行。
8.一种带运输过程和机器状态的车间调度系统,其特征在于,包括:
参数获取模块,被配置为:获取工件参数、机器全过程运输参数;
深度Q网络模型构建模块,被配置为:以最大完工时间和总能耗最小为优化目标,利用强化学习方法构建深度Q网络模型;
寻优模块,被配置为:采用双重深度Q网络和软目标权重更新策略训练深度Q网络,并采用softmax选择策略通过概率选择调度规则提高解的质量,得到柔性车间调度最优解决方案。
9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种带运输过程和机器状态的车间调度方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种带运输过程和机器状态的车间调度方法中的步骤。
CN202110506250.2A 2021-05-10 2021-05-10 一种带运输过程和机器状态的车间调度方法及系统 Pending CN113344332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110506250.2A CN113344332A (zh) 2021-05-10 2021-05-10 一种带运输过程和机器状态的车间调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110506250.2A CN113344332A (zh) 2021-05-10 2021-05-10 一种带运输过程和机器状态的车间调度方法及系统

Publications (1)

Publication Number Publication Date
CN113344332A true CN113344332A (zh) 2021-09-03

Family

ID=77470389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110506250.2A Pending CN113344332A (zh) 2021-05-10 2021-05-10 一种带运输过程和机器状态的车间调度方法及系统

Country Status (1)

Country Link
CN (1) CN113344332A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037341A (zh) * 2021-11-19 2022-02-11 广东工业大学 一种基于ddqn的智能车间动态自适应调度方法及系统
CN114386843A (zh) * 2022-01-10 2022-04-22 四川大学 一种基于改进深度强化学习算法的柔性车间调度方法
CN116151599A (zh) * 2023-04-21 2023-05-23 湖南维胜科技有限公司 一种基于深度强化学习的排产数据处理方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390195A (zh) * 2013-05-28 2013-11-13 重庆大学 一种基于强化学习的机械车间任务调度节能优化系统
CN110764416A (zh) * 2019-11-11 2020-02-07 河海大学 基于深度q网络的仿人机器人步态优化控制方法
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN110874697A (zh) * 2019-11-19 2020-03-10 山东师范大学 一种带起重机的柔性车间调度方法及系统
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法
CN111275186A (zh) * 2020-01-17 2020-06-12 四川大学 一种基于分组分层机制的可微结构搜索方法
CN111766782A (zh) * 2020-06-28 2020-10-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法
CN111881772A (zh) * 2020-07-06 2020-11-03 上海交通大学 基于深度强化学习的多机械臂协同装配方法和系统
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN111948989A (zh) * 2020-07-14 2020-11-17 武汉理工大学 一种柔性制造车间优化调度方法及设备
CN112149987A (zh) * 2020-09-17 2020-12-29 清华大学 基于深度强化学习的多目标柔性作业车间调度方法和装置
CN112286149A (zh) * 2020-10-15 2021-01-29 山东师范大学 一种考虑起重机运输过程的柔性车间调度优化方法及系统
CN112348314A (zh) * 2020-10-12 2021-02-09 山东师范大学 一种带起重机的分布式柔性车间调度方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390195A (zh) * 2013-05-28 2013-11-13 重庆大学 一种基于强化学习的机械车间任务调度节能优化系统
CN110764416A (zh) * 2019-11-11 2020-02-07 河海大学 基于深度q网络的仿人机器人步态优化控制方法
CN110874697A (zh) * 2019-11-19 2020-03-10 山东师范大学 一种带起重机的柔性车间调度方法及系统
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN111275186A (zh) * 2020-01-17 2020-06-12 四川大学 一种基于分组分层机制的可微结构搜索方法
CN111766782A (zh) * 2020-06-28 2020-10-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法
CN111881772A (zh) * 2020-07-06 2020-11-03 上海交通大学 基于深度强化学习的多机械臂协同装配方法和系统
CN111948989A (zh) * 2020-07-14 2020-11-17 武汉理工大学 一种柔性制造车间优化调度方法及设备
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112149987A (zh) * 2020-09-17 2020-12-29 清华大学 基于深度强化学习的多目标柔性作业车间调度方法和装置
CN112348314A (zh) * 2020-10-12 2021-02-09 山东师范大学 一种带起重机的分布式柔性车间调度方法及系统
CN112286149A (zh) * 2020-10-15 2021-01-29 山东师范大学 一种考虑起重机运输过程的柔性车间调度优化方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037341A (zh) * 2021-11-19 2022-02-11 广东工业大学 一种基于ddqn的智能车间动态自适应调度方法及系统
CN114386843A (zh) * 2022-01-10 2022-04-22 四川大学 一种基于改进深度强化学习算法的柔性车间调度方法
CN116151599A (zh) * 2023-04-21 2023-05-23 湖南维胜科技有限公司 一种基于深度强化学习的排产数据处理方法

Similar Documents

Publication Publication Date Title
CN113344332A (zh) 一种带运输过程和机器状态的车间调度方法及系统
CN111966050B (zh) 基于ammas-ga嵌套算法的双资源模具作业车间调度优化方法
Du et al. A reinforcement learning approach for flexible job shop scheduling problem with crane transportation and setup times
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
Fattahi et al. Dynamic scheduling in flexible job shop systems by considering simultaneously efficiency and stability
CN112668235A (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN111985672B (zh) 一种多Agent深度强化学习的单件作业车间调度方法
CN111753468B (zh) 基于深度强化学习的电梯系统自学习最优控制方法及系统
CN110000781B (zh) 基于发育网络的移动机器人运动方向预先决策方法
CN112286149A (zh) 一种考虑起重机运输过程的柔性车间调度优化方法及系统
CN113703472A (zh) 多无人机与车辆协同巡检的路径优化方法和装置
CN114237222B (zh) 一种基于强化学习的取送货车辆路径规划方法
CN112348314A (zh) 一种带起重机的分布式柔性车间调度方法及系统
CN110389556A (zh) 控制装置以及控制方法
CN115454005A (zh) 一种面向有限运输资源场景的制造车间动态智能调度方法及装置
CN115983423A (zh) 一种考虑双资源约束的上下料场景调度优化方法
Cao et al. An adaptive multi-strategy artificial bee colony algorithm for integrated process planning and scheduling
CN113960971B (zh) 一种基于行为决策网络粒子群优化的柔性车间调度方法
Zhao et al. A drl-based reactive scheduling policy for flexible job shops with random job arrivals
CN110765267A (zh) 一种基于多任务学习的动态不完整数据分类方法
CN117666495A (zh) 一种拣货路径规划方法、系统及电子设备
CN117314055A (zh) 基于强化学习的智能制造车间生产-运输联合调度方法
CN115865914A (zh) 车辆边缘计算中基于联邦深度强化学习的任务卸载方法
Gholizadeh et al. Optimal design of truss structures by improved multi-objective firefly and bat algorithms
CN113807005A (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination