CN115249121A - 一种基于深度强化学习的离散制造车间鲁棒调度优化方法 - Google Patents

一种基于深度强化学习的离散制造车间鲁棒调度优化方法 Download PDF

Info

Publication number
CN115249121A
CN115249121A CN202210749705.8A CN202210749705A CN115249121A CN 115249121 A CN115249121 A CN 115249121A CN 202210749705 A CN202210749705 A CN 202210749705A CN 115249121 A CN115249121 A CN 115249121A
Authority
CN
China
Prior art keywords
time
processing
workpiece
discrete manufacturing
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210749705.8A
Other languages
English (en)
Inventor
郭方洪
姜滨
姚晗
刘师硕
吴祥
董辉
俞立
陈积明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210749705.8A priority Critical patent/CN115249121A/zh
Publication of CN115249121A publication Critical patent/CN115249121A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • G06Q10/0875Itemisation or classification of parts, supplies or services, e.g. bill of materials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Manufacturing & Machinery (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • General Factory Administration (AREA)

Abstract

本发明公开了一种基于深度强化学习的离散制造车间鲁棒调度优化方法,包括:取历史加工数据,利用神经网络拟合工序加工时长关于设备、操作员以及生产初始时刻的函数;建立工厂车间的加工环境模型,加工环境模型包括可运行设备数量、在岗操作员以及中间产品的库存数;获取当天需要加工的产品数量;根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,该离散制造车间鲁棒调度问题的目标函数为最小化最大完工时间与最小化完工时间同交付时间的差值;对离散制造车间鲁棒调度问题进行求解。本发明能够得到更加符合实际、更具鲁棒性的生产方案。

Description

一种基于深度强化学习的离散制造车间鲁棒调度优化方法
技术领域
本发明属于车间调度领域,具体涉及一种基于深度强化学习的离散制造车间鲁棒调度优化方法,应用于加工时间存在不确定性的离散制造车间,该类车间不确定性因素较多,为了提高调度方案的干扰能力,本发明考虑典型因素加工时间,得到具有权衡鲁棒性与优化目标的调度方法。
背景技术
生产调度,作为制造业生产管理关键一环,直接影响企业生产加工的效率与产品的交付时间。良好的调度方案能为企业提升生产能力等核心竞争力,通常传统工厂车间的调度功能是由持有丰富经验的调度员在获取所有车间设备的加工状态、订单信息、设备操作员等车间状态后,根据自身经验合理安排调度方案。受自身经验不足、生产车间不可测事件等因素影响,人为设计的调度方案难以对生产车间的突发性事件及时响应。
目前计算机技术的迅速发展与大量智能算法涌现,元启发式算法、人工智能等算法在生产调度领域得到大量成功应用。实践表明,智能算法得到的结果相比人工设计方案具有响应速度更快、方案质量更高等优势。
智能算法计算速度快,但智能算法在生产调度实施过程中,存在各种不确定因素。实际的工业现场环境复杂,不可控事件众多,在模型建立的时候难以将所有短期及长期不确定因素进行前摄性预测。目前调度理论研究主要集中在完全信息和静态确定性环境下,研究风险性和不确定性环境下项目调度的文献较少,因此在不确定条件下展开对调度理论的研究,提高方调度案的鲁棒性与稳定性,避免环境不确定的客观因造成原调度计划无法继续执行或执行存在较大偏移是该领域面临的挑战与值得有待进一步研究的问题。
发明内容
本发明的目的在于提供一种基于深度强化学习的离散制造车间鲁棒调度优化方法,得到更加符合实际、更具鲁棒性的生产方案。
为实现上述目的,本发明所采取的技术方案为:
一种基于深度强化学习的离散制造车间鲁棒调度优化方法,所述基于深度强化学习的离散制造车间鲁棒调度优化方法,包括:
步骤1、取历史加工数据,利用神经网络拟合工序加工时长关于设备、操作员以及生产初始时刻的函数;
步骤2、建立工厂车间的加工环境模型,所述加工环境模型包括可运行设备数量、在岗操作员以及中间产品的库存数;
步骤3、获取当天需要加工的产品数量;
步骤4、根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,该离散制造车间鲁棒调度问题的目标函数为最小化最大完工时间与最小化完工时间和交付时间的差值;
步骤5、对离散制造车间鲁棒调度问题进行求解,包括:
步骤51、选定特征,包括工序加工时长、工序的结束时间、设备利用率和工序离交付剩余时间这四个二维矩阵;
步骤52、根据四个二维矩阵基于实时加工数据将生产规程状态描述为四通道图像,基于四通道图像利用深度卷积神经网络逼近状态动作值;
步骤53、以启发式规则作为动作空间,基于深度卷积神经网络输出的状态动作值,利用Double DQN算法输出调度优化方案。
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
作为优选,所述当天需要加工的产品数量,包括:当天订单中的产品数量,以及当天之前的订单中未完成加工的产品数量。
作为优选,所述根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,包括:
令工厂车间可运行的设备数为m,当天需要加工的产品数量为n,设备集记为M=(M1,M2,...,Mm),当天订单中的工件集记为J=(J1,J2,...,Jn),第i个工件Ji共有Pi道加工工序,i=1,2,...,n,Oij为工件Ji的第j道工序,j=1,2,...,Pi,中间产品的库存数记为工件集L=(L1,L2,...,LP-1),其中P为该车间产品加工的最大工序数,Sijk为工件Ji的第j道工序Oij在第k台设备Mk上的开工时间,k=1,2,...,m,Tijk为工序Oij在机器Mk上的工序加工时长,其中Tijk数值由步骤1训练得到的拟合函数输出;
令Cij为工序Oij的完工时间,则最大完工时间Cmax=Max(Cij),因此目标函数中的最小化最大完工时间可描述为函数f1=minMax(Cij),并且令
Figure BDA0003717852610000031
其中RT为报工需要消耗的时间,Si为工件Ji的第首个待加工工序的开工时间;
令订单中工件Ji的交付时间为Doi,工件Ji加工过程中预测交付时间为Dpi
Figure BDA0003717852610000032
则目标函数中的最小化完工时间和交付时间的差值可描述为函数f2=minD,
Figure BDA0003717852610000033
因此目标函数最终描述为:F=min(α·Cmax+β·D);
其中,约束条件为:
xi,j,k∈{0,1}
Figure BDA0003717852610000034
Figure BDA0003717852610000035
Ci,j≥0
α+β=1
Figure BDA0003717852610000036
Figure BDA0003717852610000037
式中,xi,j,k为决策变量,当工序Oi,j在设备Mk上加工时取值为1;否则取值为0,α、β为加权权重,Si,j+1表示第i个工件的第j+1道工序的开工时间。
作为优选,所述特征中的工序加工时长的计算方式如下:
若当前产品为中间产品,则将当前产品已完成的工序的加工时长设置为0;
若当前产品的工序已经分配至设备,则将已分配的工序的加工时长设置为0;
若当前工序未完成且未分配,则根据步骤1中训练得到的拟合函数得到该工序的加工时长。
作为优选,所述特征中的设备利用率的计算方式如下:
设备利用率为每次加工工序所用设备的利用率,初始状态为0,所述利用率计算方式如下:利用率=设备工作时间/(当前时间-所有工件的第一个工序的开工时间)。
作为优选,所述特征中的工序离交付剩余时间的计算方式如下:
工序离交付剩余时间为该工件的交付时间与工件加工过程中预测交付时间的差值,初始状态下同一产品的所有差值相同,初始化为交付时间与生产初始时刻的差值,在工件分配过程中,若该工序已经完成,则工序离交付剩余时间保持不变,否则未完成的工序的工序离交付剩余时间更新为工件的交付时间减去该工件目前最近工序的完工时间。
本发明提供的基于深度强化学习的离散制造车间鲁棒调度优化方法,与现有技术相比,具有以下有益效果:
1)相比现有加工时间确定的调度模型,本发明关于工序的加工时长是根据以往大量关于时间、人员、设备的加工历史数据进行预测及选择,计算得出的调度方案权衡调度优化目标与方案的鲁棒性,使计算得到的方案更符合实际。
2)本发明在计算调度方案时将车间加工过程中中间产品的库存数纳入生产环境中,使该方案符合工厂的加工环境,缓解中间产品库存。
3)相比与单目标调度方法,本发明的优化目标为最小化最大加工时间与最小化交付时间,在提高加工效率的同时,根据产品的交付日期判断任务的优先度,避免仅考虑加工效率而使订单拖期。
4)本方法结合了深度卷积神经网络和强化学习的实时响应和灵活性的优势,将生产过程状态描述为4通道图像,使用深度卷积神经网络逼近状态动作值,强化学习智能体采用Double Q网络缓解Q值的过渡估计,以多种启发式规则作为动作空间,克服单一规则的短视性。
附图说明
图1为本发明的基于深度强化学习的离散制造车间鲁棒调度优化方法的流程图;
图2为本发明利用Double DQN算法输出调度优化方案的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。
为了权衡调度方案优化目标与方案的鲁棒性,使计算得到的方案更符合实际,本实施例提出一种基于深度强化学习的离散制造车间鲁棒调度优化方法。该方法面对不同工人、不同设备、不同时间段等因素影响下,同一工序加工时间存在不确定性,利用车间大量以往的加工数据,根据工人、设备、时间段通过神经网络进行函数拟合。方法后续深度强化学习训练时,以得到的拟合函数关于该时间点前后相邻时间段时间最长的加工时长为输入时长,该方法可根据当天运行设备、操作人员等因素,得到更符合实际、更具有鲁棒性的生产方案,将当天的加工订单更合理分配。
本实施例的基于深度强化学习的离散制造车间鲁棒调度优化方法,通过深度强化学习方法,将生产过程状态描述为关于工序的加工时长、工序的结束时间、设备的利用率、工序离交付剩余时间4通道图像,其中工序的加工时长根据以往大量关于时间、人员、设备的加工历史数据进行预测及选择,得到生产方案并进一步提高其鲁棒性,如图1所示,方法具体包括以下步骤:
步骤1、取历史加工数据,利用神经网络拟合工序加工时长关于设备、操作员以及生产初始时刻的函数。
以某钢柜家具工厂A为例,工厂生产线存在大量的加工数据,以过去生产过程中不同设备足量的加工数据,把设备序号、操作员编号、生产初始时刻和该工序的加工时长作为输入和输出,利用神经网络拟合工序加工时长关于设备、操作员、生产初始时刻的函数。
步骤2、建立工厂车间的加工环境模型,所述加工环境模型包括可运行设备数量、在岗操作员以及中间产品的库存数。
A家具厂理化板加工车间加工过程可以归类为下料、雕刻、贴边、磨边、打包、入库六道工序,一道工序完成后将工件入中间库,入库工序为最后工序,完成入库工序代表将该工件入成品库,该工件加工完成。在进行加工任务排产前获取实际车间的可运行设备数量,在岗设备操作员,中间产品的库存数。
步骤3、获取当天需要加工的产品数量。
从A工厂ERP系统同步当天订单,统计需要加工的产品数量,当天加工产品数量包括当天订单中的产品数量,以及当天之前的订单中未完成加工的产品(即工件)数量。
步骤4、根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,该离散制造车间鲁棒调度问题的目标函数为最小化最大完工时间与最小化完工时间和交付时间的差值。
根据A工厂生产环境及加工任务特点建立方案优化目标,A工厂生产要求为在尽量不延误订单交付期的前提下,提高生产效率,因此确立A厂生产计划的优化目标为最小化最大完工时间f1与最小化完工时间与交付时间差值f2:
f1=minCmax
f2=minD
式中,Cmax为最大完工时间,D为完工时间与交付时间差值。
A工厂理化板加工车间可以归类为柔性离散加工车间,离散制造车间鲁棒调度问题可以描述为n个工件在m台机器上加工,按照工件的工艺路线要求,每个工件由一道或多道有顺序约束的工序组成,每道工序可能有多台可以选择的机器进行加工。A工厂理化板加工车间共有下料、雕刻、贴边、磨边、打包、入库六道工序,其中磨边与贴边可共用两台设备。
加工过程中需要满足条件:同一时刻,每道工序最多只能选择一台机器进行加工,一旦开始加工不能中断,直至加工完成;同一时刻,每台机器最多只能加工一道工序;同一工件的工序之间存在先后顺序约束,不同工件的工序之间不存在顺序约束。
令工厂车间可运行的设备数为m,当天需要加工的产品数量为n,设备集记为M=(M1,M2,...,Mm),当天订单中的工件集记为J=(J1,J2,...,Jn),第i个工件Ji共有Pi道加工工序,i=1,2,...,n。
工序Oij可以在一组可选机器中的任意机器Mk上进行加工,实际情况下相同车间的工件具有相同的工序,因此根据A工厂理化板车间加工环境可以将上述定义简化为每个工件共有6道工序需要加工,Oij为工件Ji的第j道工序,j=1,2,...,Pi,中间产品的库存数记为工件集L=(L1,L2,...,LP-1),其中P为该车间产品加工的最大工序数,Sijk为工件Ji的第j道工序Oij在第k台设备Mk上的开工时间,k=1,2,...,m,Tijk为工序Oij在机器Mk上的工序加工时长,其中Tijk数值由步骤1训练得到的拟合函数输出,由拟合函数拟合输出时,设备的操作员根据需要指定或者随机分配即可。
车间需要加工的工序为订单中需要加工的工件数(即产品数)减去相应中间产品的工件,若一个车间加工相同的产品,则可以将加工任务描述成:
Figure BDA0003717852610000071
其中La表示一个原加工任务减去中间产品后的工序数,括号内的数据表示该加工任务第几道工序实际需要加工的次数。若原加工任务中不存在中间产品,则每个工序的加工次数是一样的,若存在中间产品则需要减去中间产品已经加工完的工序。
令Cij为工序Oij的完工时间,则最大完工时间Cmax=Max(Cij),因此目标函数中的最小化最大完工时间可描述为函数f1=minMax(Cij),并且令
Figure BDA0003717852610000072
其中RT为报工需要消耗的时间,报工时间RT理解为一个松弛度,需要消耗的时间为一个固定值,Si为工件Ji的第首个待加工工序的开工时间,也就是该加工任务的生产初始时刻。
令订单中工件Ji的交付时间为Doi,工件Ji加工过程中预测交付时间为Dpi
Figure BDA0003717852610000073
则目标函数中的最小化完工时间和交付时间的差值可描述为函数f2=minD,
Figure BDA0003717852610000074
因此目标函数最终描述为:F=min(α·Cmax+β·D)。
其中,约束条件为:
1)当工序Oi,j在设备Mk上加工时决策变量xi,j,k取值为1;否则取值为0:
xi,j,k∈{0,1}
2)确保一个机器同一时刻只能加工一道工序:
Figure BDA0003717852610000075
3)确保为同一时刻工件只允许一道工序处于加工状态:
Figure BDA0003717852610000081
4)确保工件的加工时间正常:
Ci,j≥0
5)对加权权重的约束:
α+β=1
6)表示第i个工件第j道工序的完工时间与该道工序在第k台机器上的加工时间及该工序初始加工时间之差大于0,确保该工序作业的顺利加工,满足其加工过程的合理性:
Figure BDA0003717852610000082
7)表示第i个工件的第j+1道工序的开工时间Si,j+1大于第j道工序在第k台机器上的开工时间与加工时间之和,保证工件工序的加工顺序:
Figure BDA0003717852610000083
式中,xi,j,k为决策变量,α、β为加权权重,Si,j+1表示第i个工件的第j+1道工序的开工时间。
步骤5、对离散制造车间鲁棒调度问题进行求解。
步骤51、首先是模型特征的提取,选择的特征需体现全局状态和局部状态,将特征选定为工序加工时长、工序的结束时间、设备利用率、工序离交付剩余时间四个二维矩阵。
针对工序加工时长的二维矩阵:矩阵的工件数与需要加工的工序数参考一个原加工任务减去中间产品后的工序数La,若该产品为中间产品,则将之前已经完成工序的加工时长置为0;若工序已经分配给设备,也将该工序的加工时长置为0。每个工序的加工时长数值来自步骤1神经网络训练完成的拟合函数,为了增强后续计算得出方案的鲁棒性,在计算加工时间时,以当前时刻取前后三个时间段中加工时间最长的数值。
针对工序的结束时间的二维矩阵:工序结束时间矩阵为每道工序完成的时刻。
针对设备利用率的二维矩阵:设备利用率为每次加工工序所用设备的利用率,初始状态为0,后续利用率计算方式如下:利用率=设备工作时间/(当前时间-所有工件的第一个工序的开工时间)。
针对工序离交付剩余时间的二维矩阵:工序离交付剩余时间为该工件的交付时间与工件加工过程中预测交付时间的差值,初始状态下同一产品的所有差值相同,初始化为交付时间与生产初始时刻的差值,在工件分配过程中,若该工序已经完成,则工序离交付剩余时间保持不变(例如当前需要分配工件1的第二道工序,也就是说第一道工序已经完成分配了,那在分配第二道工序的时候第一道工序的数值不改变,只改变当前工序及之后的工序),否则未完成的工序的工序离交付剩余时间更新为工件的交付时间减去该工件目前最近工序的完工时间。
如表1所示为四个二维矩阵初始状态,表2为基于表1的初始状态经过2次派遣工序后的状态。
表1四个二维矩阵初始状态
Figure BDA0003717852610000091
表2经过2次派遣工序后的状态
Figure BDA0003717852610000092
四个二维矩阵中,矩阵的每一行表示一个工件,矩阵的每一列表示一道工序,四个二维矩阵的行表示的工件的序号相同,列表示的工序相同。例如所有二维矩阵的第3行第4列均表示工件3的第四道工序。2次派遣为派工了工件1的第一道与第二道工序,结束时间矩阵随着工序加工完成而更新,设备利用率矩阵为加工该工序的设备在目前加工过程的利用率,需要注意的是状态储存与计算时需要进行归一化处理,矩阵一与矩阵二除以当前时间步的最大数值,矩阵四工件的各道工序加工时间除以初始值。
步骤52、根据四个二维矩阵基于实时加工数据将生产规程状态描述为四通道图像,基于四通道图像利用深度卷积神经网络逼近状态动作值。
搭建CNN网络进行特征的提取,CNN主要有输入层、卷积层、ReLU层、池化层和全连接层构成,实际应用中将卷积层与ReLU层共同称为卷积层。
四个二维特征矩阵可以描述为一张深度4,长是加工产品工件数,宽为最大产品工序数的图像,卷积层设置为输入通道4,输出通道为6,经过0填充后,卷积层的输出为长宽不变,深度为6的图像。
池化层的作用是逐渐降低数据空间尺寸,减少网络中参数的数量,减少计算资源耗费,控制过拟合。池化层使用MAX操作,对输入数据体的每一个深度切片独立进行操作,设置核尺寸为2。
步骤53、以启发式规则作为动作空间,基于深度卷积神经网络输出的状态动作值(深度卷积神经网络是q_net的一部分,q_net输出的是状态动作值),利用Double DQN算法输出调度优化方案。具体流程如图2所示:
初始化DQN智能体记忆库,随机权重初始化当前价值函数Q与目标动作价值函数*
智能体作为DQN决策的主体,在环境中进行动作决策。
为了权衡开发与探索采取为∈-贪心为动作决策策略,该策略表示智能体在选择动作时有∈的概率会从动作空间集中随机选择动作,1-∈的概率选择历史动作中动作价值最高的动作。
奖励函数设置为加工当前工序的设备的利用率与上次该设备运行的利用率的差值加上离交付剩余时间矩阵中所有工件最后一道工序值的和。
动作空间作为智能体在决策过程中可选取动作集合,方法以调度规则作为动作空间。具体启发式规则如附表3所示,为生产调度领域常见的调度规则,其中OOD(latest)与OOD(farthest)规则与交货期相关,分别是选择当前工序离交付时间最近和最远的工件。
表3启发式规则
序号 调度规则 规则描述
1 LWKR 选择剩余加工时间最短的工件
2 MWKR 选择剩余加工时间最长的工件
3 SPT 选择工序加工时间最短的工件
4 LPT 选择工序加工时间最长的工件
5 SPT/TWK 工序加工时间与总加工时间比值最小的工件
6 LPT/TWK 工序加工时间与总加工时间比值最大的工件
7 SPT/TWKR 工序加工时间与剩余加工时间比值最小的工件
8 LPT*TWKR 工序加工时间与剩余加工时间乘积最大的工件
9 SPT*TWK 工序加工时间与总加工时间乘积最小的工件
10 LPT*TWK 工序加工时间与总加工时问乘积最大的工件
11 SPT*TWKR 工序加工时间与剩余加工时间乘积最小的工件
12 LPT*TWKR 工序加工时间与剩余加工时间乘积最大的工件
13 SRM 除当前工序外所剩加工时间最短的工件
14 LRM 除当前工序外所剩加工时间最长的工件
15 SSO 后继工序加工时间最短的工件
16 LSO 后继工序加工时间最长的工件
17 SPT+SSO 当前工序加工时间与后继工序加工时间最长工件
18 LPT+SSO 当前工序加工时间与后继工序加工时间最长工件
19 SPT/LSO 当前工序加工时间与后继工序加工时间比值最小工件
20 LPT/SSO 当前工序加工时间与后继工序加工时间比值最大工件
21 OOD(latest) 选择当前工序离交付时间最近的工件
22 OOD(farthest) 选择当前工序离交付时间最远的工件
调度规则选择完毕之后,计算具体需要执行的动作。
执行具体动作,计算执行动作后的回报、下一个状态。将智能体当次执行动作时状态、回报、下一个动作进行储存。
若智能体的memory counter数值大于等于batch size,则智能体达到学习条件,智能体从记忆库中随机选择记忆数据进行Q网络的训练,计算当前目标Q值,以均方差损失函数通过神经网络的梯度反向传播来更新Q网络的所有参数,若当前状态为终止状态,当前轮迭代完毕。
每隔一定训练步数,使Q*与Q网络的参数进行同步。
为了缓解Q值的过渡估计,本方法使用Double DQN进行解耦目标Q*值动作的选择和目标Q值的计算,不再直接在目标Q*网络中取最大Q值的动作,而是取当前Q网络中最大Q值对应的动作,然后利用这个选择出来的动作在目标网络Q*里面去计算目标为Q值。
当前目标Q值的计算方式为
Figure BDA0003717852610000121
式中,Q(sj+1,a,w)表示当前Q网络在sj+1状态,执行a动作的Q值;
Q*(sj+1,argmaxaQ(sj+1,a,w),w*)
表示目标网络Q*执行当前Q网络中最大Q值对应的动作后,目标网络Q*的Q值;a表示当前状态所采取的动作;sj+1表示执行a动作后的下一个状态,γ表示折扣因子,表示未来奖励的重要程度。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述基于深度强化学习的离散制造车间鲁棒调度优化方法,包括:
步骤1、取历史加工数据,利用神经网络拟合工序加工时长关于设备、操作员以及生产初始时刻的函数;
步骤2、建立工厂车间的加工环境模型,所述加工环境模型包括可运行设备数量、在岗操作员以及中间产品的库存数;
步骤3、获取当天需要加工的产品数量;
步骤4、根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,该离散制造车间鲁棒调度问题的目标函数为最小化最大完工时间与最小化完工时间和交付时间的差值;
步骤5、对离散制造车间鲁棒调度问题进行求解,包括:
步骤51、选定特征,包括工序加工时长、工序的结束时间、设备利用率和工序离交付剩余时间这四个二维矩阵;
步骤52、根据四个二维矩阵基于实时加工数据将生产规程状态描述为四通道图像,基于四通道图像利用深度卷积神经网络逼近状态动作值;
步骤53、以启发式规则作为动作空间,基于深度卷积神经网络输出的状态动作值,利用Double DQN算法输出调度优化方案。
2.如权利要求1所述的基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述当天需要加工的产品数量,包括:当天订单中的产品数量,以及当天之前的订单中未完成加工的产品数量。
3.如权利要求1所述的基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,包括:
令工厂车间可运行的设备数为m,当天需要加工的产品数量为n,设备集记为M=(M1,M2,...,Mm),当天订单中的工件集记为J=(J1,J2,...,Jn),第i个工件Ji共有Pi道加工工序,i=1,2,...,n,Oij为工件Ji的第j道工序,j=1,2,...,Pi,中间产品的库存数记为工件集L=(L1,L2,...,LP-1),其中P为该车间产品加工的最大工序数,Sijk为工件Ji的第j道工序Oij在第k台设备Mk上的开工时间,k=1,2,...,m,Tijk为工序Oij在机器Mk上的工序加工时长,其中Tijk数值由步骤1训练得到的拟合函数输出;
令Cij为工序Oij的完工时间,则最大完工时间Cmax=Max(Cij),因此目标函数中的最小化最大完工时间可描述为函数f1=minMax(Cij),并且令
Figure FDA0003717852600000021
其中RT为报工需要消耗的时间,Si为工件Ji的第首个待加工工序的开工时间;
令订单中工件Ji的交付时间为Doi,工件Ji加工过程中预测交付时间为Dpi
Figure FDA0003717852600000022
则目标函数中的最小化完工时间同交付时间的差值可描述为函数f2=minD,
Figure FDA0003717852600000023
因此目标函数最终描述为:F=min(α·Cmax+β·D);
其中,约束条件为:
xi,j,k∈{0,1}
Figure FDA0003717852600000024
Figure FDA0003717852600000025
Ci,j≥0
α+β=1
Figure FDA0003717852600000026
Figure FDA0003717852600000027
式中,xi,j,k为决策变量,当工序Oi,j在设备Mk上加工时取值为1;否则取值为0,α、β为加权权重,Si,j+1表示第i个工件的第j+1道工序的开工时间。
4.如权利要求1所述的基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述特征中的工序加工时长的计算方式如下:
若当前产品为中间产品,则将当前产品已完成的工序的加工时长设置为0;
若当前产品的工序已经分配至设备,则将已分配的工序的加工时长设置为0;
若当前工序未完成且未分配,则根据步骤1中训练得到的拟合函数得到该工序的加工时长。
5.如权利要求1所述的基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述特征中的设备利用率的计算方式如下:
设备利用率为每次加工工序所用设备的利用率,初始状态为0,所述利用率计算方式如下:利用率=设备工作时间/(当前时间-所有工件的第一个工序的开工时间)。
6.如权利要求1所述的基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述特征中的工序离交付剩余时间的计算方式如下:
工序离交付剩余时间为该工件的交付时间与工件加工过程中预测交付时间的差值,初始状态下同一产品的所有差值相同,初始化为交付时间与生产初始时刻的差值,在工件分配过程中,若该工序已经完成,则工序离交付剩余时间保持不变,否则未完成的工序的工序离交付剩余时间更新为工件的交付时间减去该工件目前最近工序的完工时间。
CN202210749705.8A 2022-06-28 2022-06-28 一种基于深度强化学习的离散制造车间鲁棒调度优化方法 Pending CN115249121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210749705.8A CN115249121A (zh) 2022-06-28 2022-06-28 一种基于深度强化学习的离散制造车间鲁棒调度优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210749705.8A CN115249121A (zh) 2022-06-28 2022-06-28 一种基于深度强化学习的离散制造车间鲁棒调度优化方法

Publications (1)

Publication Number Publication Date
CN115249121A true CN115249121A (zh) 2022-10-28

Family

ID=83700268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210749705.8A Pending CN115249121A (zh) 2022-06-28 2022-06-28 一种基于深度强化学习的离散制造车间鲁棒调度优化方法

Country Status (1)

Country Link
CN (1) CN115249121A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793583A (zh) * 2022-12-02 2023-03-14 福州大学 基于深度强化学习的流水车间新订单插入优化方法
CN117787520A (zh) * 2023-12-21 2024-03-29 广州市河涌监测中心 基于提质增效模型的水利工程巡查方法、系统及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793583A (zh) * 2022-12-02 2023-03-14 福州大学 基于深度强化学习的流水车间新订单插入优化方法
CN117787520A (zh) * 2023-12-21 2024-03-29 广州市河涌监测中心 基于提质增效模型的水利工程巡查方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN115249121A (zh) 一种基于深度强化学习的离散制造车间鲁棒调度优化方法
CN111966050B (zh) 基于ammas-ga嵌套算法的双资源模具作业车间调度优化方法
CN107168267B (zh) 基于改进粒子群与启发式策略的生产排产方法及系统
CN110046865B (zh) 分布式库存调度方法
US20210073695A1 (en) Production scheduling system and method
CN104636871B (zh) 一种基于数据的单阶段多产品批处理的控制方法
CN108846502A (zh) 车间生产线布局优化方法及装置
CN110414863A (zh) 一种智能制造车间资源调度方法
CN116933939A (zh) 基于改进浣熊优化算法的柔性车间协同生产方法及系统
CN110956371A (zh) 面向复杂人机耦合的智能制造车间的绿色调度优化方法
CN115358578A (zh) 用于分段装焊线混流生产的绿色调度方法、系统及装置
CN117952553A (zh) 排产方案确定方法、装置、电子设备和存储介质
CN117331700B (zh) 一种算力网络资源调度系统及方法
CN113050644A (zh) 基于迭代贪婪进化的agv调度方法
CN113485278B (zh) 优化两生产指标的柔性作业车间调度多目标分布估计方法
WO2020062047A1 (zh) 更新调度规则的方法、设备、系统、存储介质和终端
CN113657742B (zh) 车间调度方法、装置、电子设备及存储介质
CN115437321A (zh) 基于深度强化学习网络的微服务-多代理工厂调度模型
CN115629584A (zh) 一种基于改进乌鸦搜索算法的订单排产优化方法
CN115549204A (zh) 一种微电网群双层分布式集群调峰方法及装置
Asadi-Zonouz et al. A hybrid unconscious search algorithm for mixed-model assembly line balancing problem with SDST, parallel workstation and learning effect
CN110716522B (zh) 基于任意时间a*启发式搜索的制造企业车间调度优化方法
Xiao et al. Learning task allocation for multiple flows in multi-agent systems
CN117973811B (zh) 一种基于深度强化学习的生产调度方法
CN113011785B (zh) 基于自适应调整参数的多订单混合调度优化方法、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination