CN113506048A - 一种柔性作业车间的调度方法 - Google Patents

一种柔性作业车间的调度方法 Download PDF

Info

Publication number
CN113506048A
CN113506048A CN202111055211.1A CN202111055211A CN113506048A CN 113506048 A CN113506048 A CN 113506048A CN 202111055211 A CN202111055211 A CN 202111055211A CN 113506048 A CN113506048 A CN 113506048A
Authority
CN
China
Prior art keywords
time
scheduling
job shop
workpiece
workpieces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111055211.1A
Other languages
English (en)
Inventor
励春林
刘永奎
王立献
王富龙
张海浪
崔岚岚
陈高平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Ningbo Shuaitelong Group Co Ltd
Original Assignee
Xidian University
Ningbo Shuaitelong Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Ningbo Shuaitelong Group Co Ltd filed Critical Xidian University
Priority to CN202111055211.1A priority Critical patent/CN113506048A/zh
Publication of CN113506048A publication Critical patent/CN113506048A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • General Factory Administration (AREA)

Abstract

本发明提供了一种柔性作业车间的调度方法,属于动态调度技术领域,包括步骤:S1:根据柔性作业车间调度中的预设加工信息建立相应的数学模型;S2:以每道工序的加工完成的时间点作为调度的决策时间点进行时间离散型马尔科夫决策模型的建立;S3:根据数学模型和马尔科夫决策模型建立相应的柔性车间调度环境;S4:根据机器数量和工件数量构建神经网络模型,并训练神经网络模型。本发明将柔性车间调度问题转换为马尔科夫决策模型,且构建神经网络模型对柔性车间进行调度决策,具有很强的自适应性和实时性,能够在秒级以内的时间内根据环境变化生成合理的调度方案,减少车间环境中不确定扰动对生产过程的影响,大大提高产线生产效率。

Description

一种柔性作业车间的调度方法
技术领域
本发明属于动态调度技术领域,尤其涉及一种柔性作业车间的调度方法。
背景技术
柔性作业车间调度问题(FJSP)在许多实际工业领域中都有应用和发展。FJSP可以认为是作业车间调度问题的延伸。在经典的FJSP中,有n个工件需要在m台机器上加工,每一个工件都需要经历若干个加工步骤,每一个加工步骤都对应一个能够加工的机器集合,加工步骤都需要选定一台机器完成,每台机器在同一时刻只能加工一个工件,每个工件在同一时刻也只能被一台机器加工,通常情况下允许抢占。
过去的几十年里,许多优化方法被设计出来并应用到作业车间调度问题中以寻找最优解。对于作业车间调度的很多研究致力于不变的静态环境下。而在大多数现实环境中,调度是一个持续的反应过程,其中各种意外中断的出现通常是不可避免的,如机器故障,生产人员的缺席,紧急订单,质量问题返工,交货日期改变以及订单取消等问题,并且不断地迫使系统重新考虑和修改预先建立的调度。这时为解决静态调度问题所提出的传统方法则得不到充分的发挥,不能处理实际生产过程中的不确定事件(如机器故障,加工时间的改变等)。另外,研究人员目前主要使用数学规划(整数规划,动态规划等)或者各种元启发式(遗传算法,进化算法,各种混合算法等)的方法解决柔性作业车间调度问题,在求解大规模的柔性作业车间调度问题时,上述方法求解时间太长,不能满足大规模生产下实时调度的需求。
发明内容
本发明的目的是针对现有的技术存在上述问题,提出了一种自适应性强,实时性高,计算速度快且可靠性高的柔性车间调度方法。
为了实现上述目的,本发明采用的技术方案为:
一种柔性作业车间的调度方法,包括步骤:
S1:根据柔性作业车间调度中的预设加工信息建立相应的数学模型,所述预设加工信息包括机器数量,工件数量,各工序的加工时间,工件的运输时间以及功能转换所需的准备时间;
S2:根据柔性作业车间调度中的预设加工信息,以每道工序的加工完成的时间点作为调度的决策时间点进行时间离散型马尔科夫决策模型的建立;
S3:根据数学模型和马尔科夫决策模型建立相应的柔性车间调度环境,并构建相关环境预设条件;
S4:根据机器数量和工件数量构建神经网络模型,并通过预设算法训练神经网络模型;
S5:根据训练后的神经网络模型文件和当前加工信息进行柔性作业车间的调度决策。
在上述的一种柔性作业车间的调度方法中,步骤S1具体包括:
S11:获取柔性作业车间中的工件数量n,机器数量m,加工时间
Figure 943630DEST_PATH_IMAGE001
,运输时间
Figure 156044DEST_PATH_IMAGE002
以及准备时间
Figure 670202DEST_PATH_IMAGE003
S12:建立工件完工时间计算方法;
S13:建立最小化最大完工时间数学模型。
在上述的一种柔性作业车间的调度方法中,步骤S12中工件完工时间计算方法具体为:
Figure 862149DEST_PATH_IMAGE004
其中,
Figure 535575DEST_PATH_IMAGE005
为工件i的第k道工序在机器j上的加工时间,
Figure 420355DEST_PATH_IMAGE006
为工件从第1道工序到第k-1道工序之间的运输时间,
Figure 985591DEST_PATH_IMAGE007
为机器j从加工上一个工件xy道工序到加工工件i的第k道工序所需要的准备时间,k=1,2,…m
在上述的一种柔性作业车间的调度方法中,步骤S13中最小化最大完工时间的数学模型具体为:
Figure 653332DEST_PATH_IMAGE008
在上述的一种柔性作业车间的调度方法中,步骤S2中马尔科夫决策模型具体包括定义系统状态空间,定义系统动作以及设置奖励函数,其中,系统状态空间包括工件的状态信息和机器的运行状态信息。
在上述的一种柔性作业车间的调度方法中,奖励函数具体为:
Figure 181266DEST_PATH_IMAGE009
当工件正在机器上加工或机器正在运行,奖励函数
Figure 971367DEST_PATH_IMAGE010
;当所有工件完工时,奖励函数
Figure 460117DEST_PATH_IMAGE011
式中,oldtime是上一次的完成时间,thistime是在时间当前t时刻下的完成时间。其中,αβ是两个常量,根据不同规模的问题取不同的值,α的取值范围为0.5-1.5,β的取值为所有工件中所有工序的加工时间的平均值。
在上述的一种柔性作业车间的调度方法中,所述预设条件应满足不同工件或机器之间互不干扰且满足加工要求。
在上述的一种柔性作业车间的调度方法中,步骤S4具体为:
S41:根据工件构建与工件数量一致的多个子网络;
S42:设置一个总体网络输出层;
S43:将多个子网络的输出层与总体网络输出层进行连接构成一个总体网络,得到神经网络模型;
S44:通过预设算法训练神经网络模型。
在上述的一种柔性作业车间的调度方法中,步骤S41中子网络包括输入层,隐藏层以及输出层,其中,输入层,隐藏层以及输出层中均设置有多个神经元,且输出层中的神经元数量与机器数量一致。
在上述的一种柔性作业车间的调度方法中,步骤S44具体包括:
S441:根据构建的神经网络模型搭建目标网络和估值网络,并对目标网络和估值网络进行初始化;
S442:通过智能体获取车间状态信息,并将状态信息归一化处理后输入到估值网络,且通过估值网络向前传输当前动作的收益值;
S443:根据收益值并通过贪婪策略选取要执行的动作,并根据选取的动作确定要加工的工件和分配的机器;
S444:重复步骤S442至步骤S443,直至所有工件的所有工序全部被分配在机器上加工;
S445:对估值网络和目标网络进行优化更新;
S446:判断神经网络的损失函数是否收敛到0,若是,则停止训练并保存神经网络模型,若否,则至步骤S441。
与现有技术相比,本发明具有以下有益效果:
1、本发明提供的一种柔性作业车间的调度方法,将柔性车间调度问题转换为马尔科夫决策模型,且构建神经网络模型,并使用训练后的神经网络模型对柔性车间进行调度决策,该方法具有很强的自适应性和实时性,能够在秒级以内的时间内根据环境变化生成合理的调度方案,在应对生产过程中出现的突发事件时可以快速响应生成新的调度方案来及时恢复生产,减少车间环境中不确定扰动对生产过程的影响,大大提高产线生产效率;
2、本发明提供的一种神经网络模型,根据工件的数量构建了同等数量的子网络,再将这些子网络连接在一起构成一个大的网络,使得神经网络能够更好的学习到工件的加工信息,利用该神经网络生成的调度结果中,工件的完工时间更短,大幅提高了工件的完工效率;
3、本发明中将深度强化学习算法与柔性车间生产调度相结合,形成一种柔性作业车间的调度方法,为生产车间提供合理的调度方案,在环境变换时,可以快速进行计算,得到新的调度结果,解决了产线加工中计划不合理和机器故障引起的生产停滞等问题。
附图说明
图1是本发明一种柔性作业车间的调度方法中的步骤图。
图2是本发明一种柔性作业车间的调度方法中S1具体步骤图。
图3是本发明一种柔性作业车间的调度方法中S4具体步骤图。
图4是本发明一种柔性作业车间的调度方法中S44具体步骤图。
图5是本发明一种柔性作业车间的调度方法中的系统框架图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
需要说明,本发明实施例中所有方向性指示(诸如上,下,左,右,前,后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系,运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
如图1至图5所示,本发明提供了一种柔性作业车间的调度方法,包括步骤:
S1:根据柔性作业车间调度中的预设加工信息建立相应的数学模型,所述预设加工信息包括机器数量,工件数量,各工序的加工时间,工件的运输时间以及功能转换所需的准备时间;
S2:根据柔性作业车间调度中的预设加工信息,以每道工序的加工完成的时间点作为调度的决策时间点进行时间离散型马尔科夫决策模型的建立;
S3:根据数学模型和马尔科夫决策模型建立相应的柔性车间调度环境,并构建相关环境预设条件;
S4:根据机器数量和工件数量构建神经网络模型,并通过预设算法训练神经网络模型;
S5:根据训练后的神经网络模型文件和当前加工信息进行柔性作业车间的调度决策。
本发明提供的一种柔性作业车间的调度方法,为一种基于深度强化学习的柔性车间调度方法,将柔性车间调度问题转换为马尔科夫决策模型,且构建神经网络模型,并使用训练后的神经网络模型对柔性车间进行调度决策,该调度方法具有很强的自适应性和实时性,能够在秒级以内的时间内根据环境变化生成合理的调度方案,在应对生产过程中出现的突发事件时可以快速响应生成新的调度方案来及时恢复生产,减少车间环境中不确定扰动对生产过程的影响,大大提高了产线生产效率。
优选地,如图2所示,步骤S1具体包括:
S11:获取柔性作业车间中的工件数量n,机器数量m,加工时间
Figure 993867DEST_PATH_IMAGE005
,运输时间
Figure 874842DEST_PATH_IMAGE012
以及准备时间
Figure 101424DEST_PATH_IMAGE007
S12:建立工件完工时间计算方法;
S13:建立最小化最大完工时间数学模型。
进一步优选地,步骤S12中工件完工时间计算方法具体为:
Figure 77470DEST_PATH_IMAGE013
步骤S13中的数学模型具体为:
Figure 946069DEST_PATH_IMAGE008
其中,
Figure 651857DEST_PATH_IMAGE005
为工件i的第k道工序在机器j上的加工时间,
Figure 285226DEST_PATH_IMAGE012
为工件从第1道工序到第k-1道工序之间的运输时间,
Figure 482989DEST_PATH_IMAGE007
为机器j从加工上一个工件xy道工序到加工工件i的第k道工序所需要的准备时间,k=1,2,…m
Figure 420858DEST_PATH_IMAGE014
代表最小化最大完工时间。
在本实施例中,柔性作业车间调度问题是将n个工件分配到m台机器上加工的过程,其中每个工件包含多道工序,每道工序可以在多台机器上进行加工,不同工序在不同机器上的加工时间不同。根据不同规模的柔性作业车间,以及生产过程中的各种加工信息,如工件的物流时间,机器的多功能性及其各个功能转换所需要的时间,工件的交期时间等,以最小化最大完工时间为目标,建立相应的数学模型,具体如下:
Figure 715573DEST_PATH_IMAGE013
k = 1,2,3,…m
目标函数:
Figure 221640DEST_PATH_IMAGE008
其中,各符号及其含义如下:
T i :工件i的完工时间;
工件集:J={J 1 ,J 2 ,J 3 ,…,J n },表示n个工件的集合;
机器集:M={M 1 ,M 2 ,M 3 ,…,M m },表示m台机器的集合;
工序集:O i ={O i1 ,O i2 ,…,O ik, …},表示工件J i 的所有工序
Figure 765754DEST_PATH_IMAGE015
的集合;
Figure 232549DEST_PATH_IMAGE005
:工件i的第k道工序在机器j上的加工时间;
Figure 381771DEST_PATH_IMAGE006
:工件从第1道工序到第k-1道工序之间的运输时间,k = 1,2,…m
Figure 793161DEST_PATH_IMAGE007
:机器j从加工上一个工件到加工工件i的第k道工序所需要的准备时间。
使用本方法解决不同规模的柔性作业车间的调度问题时,通过DQN智能体获取柔性作业车间的加工信息,并定义相关加工信息的计算方法,为后续的调度提供基础数学模型以及加工信息,使得后续的调度可以在短时间内根据环境变化生成新的调度方案,大大减少了生产调度所需的时间,避免了因长时间停滞造成的产品积压和交期延误等问题。具体的加工信息包括:机器数量,工件数量,各工序的加工时间,工件的运输时间,机器的启动时间和功能转换所需的准备时间,工件的交期时间,将这些加工信息以文本数据的方式保存到计算机的存储介质内,供计算机程序本地读取,大大提高了计算机读取数据的效率。
优选地,如图1至图5所示,步骤S2中马尔科夫决策模型具体包括定义系统状态空间,定义系统动作以及设置奖励函数,其中,系统状态空间包括工件的状态信息和机器的运行状态信息。
进一步优选地,奖励函数具体为:
Figure 981828DEST_PATH_IMAGE009
当工件正在机器上加工或机器正在运行,奖励函数
Figure 261499DEST_PATH_IMAGE010
;当所有工件完工时,奖励函数
Figure 530806DEST_PATH_IMAGE011
式中,oldtime是上一次的完成时间,thistime是在时间当前t时刻下的完成时间。其中,αβ是两个常量,根据不同规模的问题取不同的值,α的取值范围为0.5-1.5,β的取值为所有工件中所有工序的加工时间的平均值。
在本实施例中,将柔性作业车间调度问题转换为马尔科夫决策过程,以每道工序的完成时间作为调度的决策时间点,即有机器空闲并且有待加工的工件时才进行决策。在零时刻,所有机器和工件处于就绪状态,每次决策只分配一个工件到指定的机器上,直到所有工件的所有工序全部分配到指定的机器上进行加工才完成一次调度过程。将这个顺序决策过程转换为一个时间离散的马尔科夫决策过程,建立相应的马尔科夫决策模型。
具体步骤如下:
(1)定义系统状态S
工件的状态:
Figure 113098DEST_PATH_IMAGE016
机器的状态:
Figure 599180DEST_PATH_IMAGE017
其中,S j 表示第j个工件的状态,O ji 表示第j个工件的第i道工序,O j 表示第j个工件的总工序数;S m 表示第m个机器的状态,T m 是第m台机器的运行时间,n为机器总数。
(2)定义系统动作:
a t ={1,2,3,… ,D}
job ID=a t /m
machine ID=a t /m
动作空间的维度为D=n*m。智能体会根据a t 来选择要加工的工件和指定加工机器,式中job IDmachine ID即为选择的工件和机器编号。
(3)设置奖励函数:
Figure 682543DEST_PATH_IMAGE009
当工件正在机器上加工或机器正在运行,奖励函数
Figure 540777DEST_PATH_IMAGE010
;当所有工件完工时,奖励函数
Figure 293970DEST_PATH_IMAGE011
式中,oldtime是上一次的完成时间,thistime是在时间当前t时刻下的完成时间。其中,αβ是两个常量,根据不同规模的问题取不同的值,α的取值范围为0.5-1.5,β的取值为所有工件中所有工序的加工时间的平均值。
通过将柔性作业车间调度问题转换为离散时间型马尔科夫决策过程,使得本柔性作业车间调度方法可以在深度强化学习中得到最优调度方案,且能够在环境变化时以最短时间生成最新的调度方案,极大的提高了本柔性作业车间调度方法的实时性和可靠性。
优选地,如图1至图5所示,所述预设条件应满足不同工件或机器之间互不干扰且满足加工要求,预设条件具体包括:机器之间是相互独立的,工件之间是相互独立的,同一工件的不同工序之间的优先关系不可改变,一台机器同一时刻只能加工一个工件,机器在加工过程中,不可以被打断,若工件加工不符合标准,则直接抛弃,不再返工。
在本实施例中,通过提前设置各预设条件,使得在调度过程中,各工件,机器以及各工序之间均为独立工作,不受其他因素影响,能最大程度的保证系统在最短时间内实现新的调度方法。
优选地,如图3所示,步骤S4具体为:
S41:根据工件构建与工件数量一致的多个子网络;
S42:设置一个总体网络输出层;
S43:将多个子网络的输出层与总体网络输出层进行连接构成一个总体网络,得到神经网络模型;
S44:通过预设算法训练神经网络模型。
进一步优选地,步骤S41中子网络包括输入层,隐藏层以及输出层,其中,输入层和隐藏层均使用relu激活函数,输出层使用lieaner激活函数。
在本实施例中,根据工件数量n和机器数量m构建不同规模大小的全连接神经网络模型。首先根据工件数量n,构建n个结构相同的子网络。其中每个子网络由1个输入层,4个隐藏层,1个输出层组成。输入层设置2个神经元,使用relu激活函数;隐藏层每层设置24个神经元,使用relu激活函数;输出层设置m个神经元,使用lieaner激活函数;各层之间全连接构成n个独立的子网络。然后设置一个总体网络的输出层,设置n*m个神经元,采用lieaner激活函数。最后将n个子网络的输出层与总体网络的输出层进行全连接构成一个总体网络。具体实施中,可以使用pytorch,tensorflow,keras等一些机器学习库来搭建神经网络模型。通过设置由多个子网络连接构建的神经网络模型,使得神经网络能够更好的学习到工件的加工信息,利用该神经网络生成的调度结果中,工件的完工时间更短,大幅提高了工件的完工效率。
优选地,如图4所示,步骤S44具体包括:
S441:根据构建的神经网络模型搭建目标网络和估值网络,并对目标网络和估值网络进行初始化;
S442:通过智能体获取车间状态信息,并将状态信息归一化处理后输入到估值网络,且通过估值网络向前传输当前动作的收益值;
S443:根据收益值并通过贪婪策略选取要执行的动作,并根据选取的动作确定要加工的工件和分配的机器;
S444:重复步骤S442至步骤S443,直至所有工件的所有工序全部被分配在机器上加工;
S445:对估值网络和目标网络进行优化更新;
S446:判断神经网络的损失函数是否收敛到0,若是,则停止训练并保存神经网络模型,若否,则至步骤S441。
在本实施例中,使用DoubleDQN算法训练神经网络模型,本柔性车间调度方法所依赖的调度系统包括柔性作业车间模块和DQN智能体,DQN智能体从车间中感知状态信息,通过神经网络的前向传播输出每个动作的Q(s t ,a)值,DQN智能体会根据ε贪婪策略进行动作选择:以ε概率进行随机选择,以(1-ε)概率选择Q(s t , a)值最大的动作a t 。然后根据所选择的动作a t 来确定要加工的工件和指定的机器,进行加工。环境中的一些动态事件(机器故障,紧急订单的插入,交货时间的改变等)的加入会使环境状态产生一些不确定的变化。加工完成后,车间的状态会发生改变并给智能体反馈一定的奖励信号。智能体根据新的车间状态和奖励继续选择动作,同时会将每次的车间状态信息,动作,奖励等信息存入记忆池中并从中抽取一定的样本来进行神经网络的反向传播,并不断更新网络的参数θ。在正常的情况下按这个过程不断循环训练,直到神经网络的损失函数逼近于0。
具体步骤如下:
(1)首先初始化目标网络和估值网络,目标网络和估值网络均使用上述搭建的神经网络模型,将权重随机初始化,偏置初始化为0。
(2)提取系统的状态信息,将状态信息归一化处理后展开成一维向量输入给估值网络,估值网络前向传播输出当前状态-行动对的Q(s, a t )值。
(3)根据贪婪策略选取要执行的动作。以ε概率进行随机选择,以(1-ε)概率选择Q (s, a t )值最大的动作a t 。其中ε代表智能体进行探索的概率,设置初始值为ε 0 = 0.9,即训练开始时,智能体以90%的概率进行随机探索行动,以10%的概率利用智能体已经学到的知识进行选择行动。ε值依据迭代公式进行更新,公式随着神经网络的迭代次数的增加而减小,最小值限制在0.01,迭代公式具体为:
Figure 768813DEST_PATH_IMAGE018
其中,n为神经网络迭代次数。
(4)根据选取的动作a t ,解析出要分配的工件和机器。将工件分配到指定的机器上后,记录操作工件工序的开始时间和结束时间,更新系统的状态信息s t+1 ,并计算执行这次动作所获得的奖励r t ,系统返回r t ,s t+1以及done。将这一次的状态转换过程<s t , a t ,r t ,s t+1 , done>存储到一个容量为2000队列容器D中。
(5)重复上述步骤(2)-(4),直到所有工件的所有工序全部被分配在指定机器上加工。从队列容器D中根据重要性采样一批mini-batch数量的数据来对估值网络和目标网络参数的优化。
(6)估值网络和目标网络参数的优化过程如下:
使用从队列容器D中采样来的mini-batch个样本数据<s t , a t ,r t ,s t+1 ,done>,t=1, 2,3,4,...m计算t时刻的目标Qy t
Figure 157332DEST_PATH_IMAGE019
式中,θ为估值网络参数,
Figure 135652DEST_PATH_IMAGE020
为目标值网络参数,γ为折扣因子。
使用目标值y t 与估计值Q(s t ,a t ,θ)的均方差作为损失函数:
Figure 59746DEST_PATH_IMAGE021
使用自适应估计(Adam)优化器对损失函数求导,根据学习率u更新估值网络参数θ
Figure 21885DEST_PATH_IMAGE022
(7)以固定频率更新目标值网络参数。在实际操作中,我们设置估值网络每迭代10次,就将估值网络的参数赋值给目标值网络
Figure 384734DEST_PATH_IMAGE023
(8)上述步骤(1)-(7)为完整的一次训练过程,每次训练开始,先加载柔性作业车间的各项加工数据,使系统初始化。然后不断重复(1)-(7)的训练过程,直到神经网络的损失函数逐渐收敛到0附近,则停止训练保存神经网络模型。
在实际训练过程中,算法的参数设置如下:
Figure 43992DEST_PATH_IMAGE024
需要说明的是,在本发明中如涉及“第一”,“第二”,“一”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”,“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。术语“连接”,“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种柔性作业车间的调度方法,其特征在于,包括步骤:
S1:根据柔性作业车间调度中的预设加工信息建立相应的数学模型,所述预设加工信息包括机器数量,工件数量,各工序的加工时间,工件的运输时间以及功能转换所需的准备时间;
S2:根据柔性作业车间调度中的预设加工信息,以每道工序的加工完成的时间点作为调度的决策时间点进行时间离散型马尔科夫决策模型的建立;
S3:根据数学模型和马尔科夫决策模型建立相应的柔性车间调度环境,并构建相关环境预设条件;
S4:根据机器数量和工件数量构建神经网络模型,并通过预设算法训练神经网络模型;
S5:根据训练后的神经网络模型文件和当前加工信息进行柔性作业车间的调度决策。
2.根据权利要求1所述的一种柔性作业车间的调度方法,其特征在于,步骤S1具体包括:
S11:获取柔性作业车间中的工件数量n,机器数量m,加工时间
Figure 277323DEST_PATH_IMAGE001
,运输时间
Figure 523496DEST_PATH_IMAGE002
以及准备时间
Figure 690036DEST_PATH_IMAGE003
S12:建立工件完工时间计算方法;
S13:建立最小化最大完工时间数学模型。
3.根据权利要求2所述的一种柔性作业车间的调度方法,其特征在于,步骤S12中工件完工时间计算方法具体为:
Figure 315052DEST_PATH_IMAGE004
其中,
Figure 407380DEST_PATH_IMAGE001
为工件i的第k道工序在机器j上的加工时间,
Figure 875270DEST_PATH_IMAGE002
为工件从第1道工序到第k-1道工序之间的运输时间,
Figure 845500DEST_PATH_IMAGE003
为机器j从加工上一个工件xy道工序到加工工件i的第i道工序所需要的准备时间,k=1,2,…m
4.根据权利要求3所述的一种柔性作业车间的调度方法,其特征在于,步骤S13中最小化最大完工时间的数学模型具体为:
Figure 918498DEST_PATH_IMAGE005
5.根据权利要求1所述的一种柔性作业车间的调度方法,其特征在于,步骤S2中马尔科夫决策模型具体包括定义系统状态空间,定义系统动作以及设置奖励函数,其中,系统状态空间包括工件的状态信息和机器的运行状态信息。
6.根据权利要求5所述的一种柔性作业车间的调度方法,其特征在于,奖励函数具体为:
Figure 355296DEST_PATH_IMAGE006
当工件正在机器上加工或机器正在运行,奖励函数
Figure 811947DEST_PATH_IMAGE007
;当所有工件完工时,奖励函数
Figure 320289DEST_PATH_IMAGE008
式中,oldtime 是上一次的完成时间,thistime是在当前t时刻下的完成时间,αβ是两个常量,α的取值范围为0.5-1.5,β的取值为所有工件中所有工序的加工时间的平均值。
7.根据权利要求1所述的一种柔性作业车间的调度方法,其特征在于,所述预设条件应满足不同工件或机器之间互不干扰且满足加工要求。
8.根据权利要求1所述的一种柔性作业车间的调度方法,其特征在于,步骤S4具体为:
S41:根据工件构建与工件数量一致的多个子网络;
S42:设置一个总体网络输出层;
S43:将多个子网络的输出层与总体网络输出层进行连接构成一个总体网络,得到神经网络模型;
S44:通过预设算法训练神经网络模型。
9.根据权利要求8所述的一种柔性作业车间的调度方法,其特征在于,步骤S41中子网络包括输入层,隐藏层以及输出层,其中,输入层,隐藏层以及输出层中均设置有多个神经元,且输出层中的神经元数量与机器数量一致。
10.根据权利要求8所述的一种柔性作业车间的调度方法,其特征在于,步骤S44具体包括:
S441:根据构建的神经网络模型搭建目标网络和估值网络,并对目标网络和估值网络进行初始化;
S442:通过智能体获取车间状态信息,并将状态信息归一化处理后输入到估值网络,且通过估值网络向前传输当前动作的收益值;
S443:根据收益值并通过贪婪策略选取要执行的动作,并根据选取的动作确定要加工的工件和分配的机器;
S444:重复步骤S442至步骤S443,直至所有工件的所有工序全部被分配在机器上加工;
S445:对估值网络和目标网络进行优化更新;
S446:判断神经网络的损失函数是否收敛到0,若是,则停止训练并保存神经网络模型,若否,则至步骤S441。
CN202111055211.1A 2021-09-09 2021-09-09 一种柔性作业车间的调度方法 Pending CN113506048A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111055211.1A CN113506048A (zh) 2021-09-09 2021-09-09 一种柔性作业车间的调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111055211.1A CN113506048A (zh) 2021-09-09 2021-09-09 一种柔性作业车间的调度方法

Publications (1)

Publication Number Publication Date
CN113506048A true CN113506048A (zh) 2021-10-15

Family

ID=78017184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111055211.1A Pending CN113506048A (zh) 2021-09-09 2021-09-09 一种柔性作业车间的调度方法

Country Status (1)

Country Link
CN (1) CN113506048A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186749A (zh) * 2021-12-16 2022-03-15 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型
CN115034653A (zh) * 2022-06-27 2022-09-09 暨南大学 一种基于transformer的端到端动态作业车间调度模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
CN111160755A (zh) * 2019-12-26 2020-05-15 西北工业大学 一种基于dqn的飞机大修车间实时调度方法
CN112884239A (zh) * 2021-03-12 2021-06-01 重庆大学 一种基于深度强化学习的航天起爆器生产调度方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
CN111160755A (zh) * 2019-12-26 2020-05-15 西北工业大学 一种基于dqn的飞机大修车间实时调度方法
CN112884239A (zh) * 2021-03-12 2021-06-01 重庆大学 一种基于深度强化学习的航天起爆器生产调度方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186749A (zh) * 2021-12-16 2022-03-15 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型
CN114186749B (zh) * 2021-12-16 2022-06-28 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型
CN115034653A (zh) * 2022-06-27 2022-09-09 暨南大学 一种基于transformer的端到端动态作业车间调度模型

Similar Documents

Publication Publication Date Title
CN112734172B (zh) 一种基于时序差分的混合流水车间调度方法
US11036191B2 (en) Machine learning device, industrial machine cell, manufacturing system, and machine learning method for learning task sharing among plurality of industrial machines
Wang et al. Learning scheduling policies for multi-robot coordination with graph attention networks
KR102251316B1 (ko) 강화 학습 및 시뮬레이션 기반의 공장 내 디스패칭 방법 및 그 장치
Dittrich et al. Cooperative multi-agent system for production control using reinforcement learning
CN113506048A (zh) 一种柔性作业车间的调度方法
Khalouli et al. A meta-heuristic approach to solve a JIT scheduling problem in hybrid flow shop
CN101216710A (zh) 一种由计算机实现的自适应选择动态生产调度控制系统
Samsonov et al. Manufacturing Control in Job Shop Environments with Reinforcement Learning.
CN113792924A (zh) 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
CN112147960B (zh) 一种柔性制造系统优化调度方法及装置
JP2018142199A (ja) 学習システムおよび学習方法
CN111798097B (zh) 一种基于市场机制的自主移动机器人任务分配处理方法
Zhang et al. Real-time batching in job shops based on simulation and reinforcement learning
CN114239989A (zh) 一种物料需求计划的计算方法、系统、设备及存储介质
Paul et al. Efficient planning of multi-robot collective transport using graph reinforcement learning with higher order topological abstraction
Julaiti et al. Stochastic parallel machine scheduling using reinforcement learning
Vasilis et al. A toolbox of agents for scheduling the paint shop in bicycle industry
Beeks et al. Deep reinforcement learning for a multi-objective online order batching problem
Riesener et al. Applying supervised and reinforcement learning to design product portfolios in accordance with corporate goals
CN116703104A (zh) 一种基于决策大模型的料箱机器人订单拣选方法及装置
CN116151581A (zh) 一种柔性车间调度方法、系统及电子设备
CN112508478B (zh) 一种基于自组织自动导引车的柔性物流配送任务分配方法
CN112514352A (zh) 更新调度规则的方法、设备、系统、存储介质和终端
CN115685912A (zh) 基于大数据的制造企业生产与物流协同优化调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211015