CN113093673A - 一种使用平均场动作价值学习优化车间作业排程的方法 - Google Patents

一种使用平均场动作价值学习优化车间作业排程的方法 Download PDF

Info

Publication number
CN113093673A
CN113093673A CN202110350151.XA CN202110350151A CN113093673A CN 113093673 A CN113093673 A CN 113093673A CN 202110350151 A CN202110350151 A CN 202110350151A CN 113093673 A CN113093673 A CN 113093673A
Authority
CN
China
Prior art keywords
equipment
agent
time
job
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110350151.XA
Other languages
English (en)
Other versions
CN113093673B (zh
Inventor
朱枝睿
高阳
陈子璇
王健琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing University
Original Assignee
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd, Nanjing University filed Critical Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Priority to CN202110350151.XA priority Critical patent/CN113093673B/zh
Publication of CN113093673A publication Critical patent/CN113093673A/zh
Application granted granted Critical
Publication of CN113093673B publication Critical patent/CN113093673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32339Object oriented modeling, design, analysis, implementation, simulation language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • General Factory Administration (AREA)

Abstract

本发明提供了一种使用平均场动作价值学习优化车间作业排程的方法,属于人工智能和运筹优化交叉领域。本专利使用多智能体马尔科夫决策过程建模车间作业排程的一次求解过程,在此过程中设备作为智能体根据本地观测选择作业进行加工,而且每个作业按生产的时长被动态划分为子作业。本方法使用模拟器处理对应现实条件的复杂约束,由多分类平均场强化学习算法进行多目标优化,从而对车间作业排程问题的痛点进行解耦,专注优化订单出货代价时能将生产周期整体时间压缩约30%,每个订单平均等待时间压缩约35%。

Description

一种使用平均场动作价值学习优化车间作业排程的方法
技术领域
本发明使用平均场动作价值学习优化车间作业排程方案,属于人工智能和运筹优化交叉领域。柔性车间作业优化问题一直以来都是运筹学中的难题,本专利将此问题建模成多智能体多步决策问题进行求解,通过平均场强化学习的方式优化求解器的参数达到对解的快速求解搜索。
背景技术
柔性作业车间调度问题研究自上世纪以来就成为组合优化的经典领域。它有多个优化目标,包括每个订单的完成时间,每台机器的服务效率,以及调度过程中的库存。此外,在投射到真实场景时,不同的制造工厂面临着各种各样的限制。这样的问题难以使用纯数学计算最优解,而是需要启发式的算法,例如遗传算法,贪婪随机自适应搜索算法,或混合搜索算法。现有研究一般基于单线程处理订单的简单建模,或针对某个特殊的生产场景而形成。因此难以形成可以被实际应用的通用求解方法。
基于智能体的建模和仿真通过分解动态的智能体和交互在分析复杂系统和问题求解上具有计算优势。为对复杂多变制造环境进行更好的分析求解,本专利提出了新的建模方法和一个作业车间模拟器,它们不再局限于一个高度抽象的模型,而包含了相当多的实际细节来满足不同的制造业约束。其中我们将每台设备对应一个自治的智能体,而订单对应被动智能体,此外为了辅助求解,我们还应用了其他的工具型智能体与环境交互,如检查器和可视化工具。
多智能体深度强化学习是通过强化学习算法解决多智能体决策问题,由深度神经网络实现其中的状态动作值函数近似或策略函数近似。在具有多个自治智能体的环境中,智能体可以在局部观察环境并独自进行决策。近年来,多智能体深度强化学习方法在大量游戏环境中取得超人的成就,包括捉迷藏游戏、多智能体房间导航、星际争霸等。
发明内容
发明目的:提出一种使用平均场动作价值学习优化车间作业排程的方法,以解决柔性车间作业优化问题。
技术方案:一种使用平均场动作价值学习优化车间作业排程的方法,包括如下步骤:
步骤1、建立和验证作业车间调度问题模型:此模型建立数据包括车间设备的产能,需要被生产的作业和订单,车间的其他特殊约束;
步骤2、生成设备的特征,并进行自动聚类,并为每类计算对应的平均场网络模型的超参数;
步骤3、为每类设备初始化一个经验池和一个神经网络;
步骤4、进行若干轮多智能体马尔科夫决策过程对作业车间调度问题进行求解:每轮首先使用关键步骤1中的问题模型初始化模拟器环境,然后循环过程,依次激活模拟事件直到有空闲设备,取一个设备进行观测,利用状态动作价值选择作业,将选择的作业解码为模拟事件,当环境中没有还需要求解的问题后结束此轮求解,评估本轮解的各个方面的代价,记录解和解的代价;
步骤5、对所有求得解按代价排序,返回关于本次求解结果总的报告和若干个代价极小的解。
根据本发明的一个方面,所述步骤1中的问题模型,具体的表示为一个三元组<M,O,T>的形式:
M表示车间设备的集合:每个设备m有一个可行的工艺集合,对集合中的每个工艺类型,设备还具有一些特殊的属性,包括生产效率,所需的准备时间,所需的开关时间和离散生产的特性,即
Figure BDA0003002174890000021
有时还会休眠等特殊约束;
O是所有订单的集合:每个订单o都对应了一系列作业配方,包括此作业的目标产品,需要的工艺类型,若干个原材料和原材料的配比,订单的最终需求是其中的一个特殊作业,工艺类型为出货,对应的原材料和原材料的配比就是此订单目标产品和量;
T表示周转:用来描述半成品的相关动态特性,包括库存控制和运输,我们使用一个车间内的最大的延迟时间tdelay来等待物料的运输。
根据本发明的一个方面,所述步骤2中,设备特征的生成方法如下:
设备的特征是其可执行工艺的01向量表示,向量长度为车间的总体工艺集大小
Figure BDA0003002174890000022
利用曼哈顿距离进行4次独立k-means聚类,选择分数最高的一次聚类结果,作为对设备的分类结果;
聚类数量默认为设备数量的开方:
Figure BDA0003002174890000023
对于一次聚类的结果,其分数通过
Figure BDA0003002174890000024
计算,其中ci表示聚类的中心的特征表示,通过此分数,我们限制每类与尽量少的作业相关,并且类之间的作业数量尽量均衡。
根据本发明的一个方面,所述步骤4中:利用多智能体马尔科夫决策过程求解作业车间调度问题,其中设备为自主决策的智能体,动作和作业对应,通过马尔科夫决策接口获得本地观测,使用深度神经网络推理动作价值,利用ε-Greedy策略进行动作选择,再返回马尔科夫决策接口解码动作为模拟器事件。
所述多智能体马尔科夫决策过程动作和作业对应方法为:
按生产时长动态划分作业:对于每个设备而言,其每次只需要在长度为T的时隙中安排子作业生产,在此时隙中,设备需要通过时隙前和时隙后的相邻子作业考虑换线和准备时间,实际可工作时间twork≤=T,对于设备m和生产类型为op的作业,设备的本次子作业的产量为α=twork×km,op
所述多智能体马尔科夫决策过程本地观测编码方法为:
从全局观测中编码本地观测,在决策中使用部分可观测的方式取代全局状态以减少模型获得的冗余信息:对一个设备而言,其本地观测围绕所处设备类的相关作业形成,对每个相关作业我们考虑以下4个性质,从而形成规模为(|A|-1)×4的张量:当前设备对此作业的子最大生产能力T×km,op;考虑约束后的实际生产能力twork×tm,op;此作业的剩余需求量;此作业目前的存量。
所述多智能体马尔科夫决策过程涉及了一系列动作蒙版:
蒙版是一个长度为的01向量,每位对应一个动作,当蒙版位为0时,此作业不可选择,为1时可选择;该方法包含设计了5条可自由组合的蒙版规则:
当一个作业不是当前设备的相关作业时,对应位为0;
当一个作业在当前时刻不可被生产时,对应位为0;
当任何一个作业可被选择时,等待动作对应位为0;
当此生产时隙前的同生产类型作业可被生产时,其他作业对应位为0;
当此生产时隙前生产的作业可被继续生产时,其他作业对应位为0。
所述多智能体马尔科夫决策过程建立了全面的的代价评估体系,具体方法如下:
出货代价:设备提前于其最早/最迟出货时间而生产导致的代价,方法如下:
Figure BDA0003002174890000031
Figure BDA0003002174890000041
总的出货代价是每个订单的出货代价
Figure BDA0003002174890000042
的和,其中
Figure BDA0003002174890000043
为实际完工时间,当
Figure BDA0003002174890000044
时不受惩罚,否则受到系数为
Figure BDA0003002174890000045
的惩罚;
空等率:设备状态为空等的时间比总开机时间的比例,方法如下:
Figure BDA0003002174890000046
其中
Figure BDA0003002174890000047
为一个设备的总工作时间,而
Figure BDA0003002174890000048
其空等时间的集合;
换线率:设备换线的次数比其总工艺类型的比例,方法如下:
Figure BDA0003002174890000049
根据本发明的一个方面,一种使用平均场动作价值学习优化作业排程的方法的具体算法如下:
步骤1、取得各种参数包括求解的目标回合数Nepoch和目标轮次Nepisode,期待的聚类数量Nclass
步骤2、初始化记录参数当前回合数额epo和当前轮次eps都记为0;
步骤3、初始化问题模型<M,O,T>;
步骤4、检查问题模型,判断当前模拟器条件下是否存在解,如果存在则继续求解,否则返回求解不可能的原因;
步骤5、计算聚类和每类对应的神经网络模型的部分超参数;
步骤6、(可选)初始化绘图工具;
步骤7、初始化平均场强化学习智能体和网络:根据步骤5得到超参术初始化为每个平均场算法智能体类的初始化共享经验池和共享网络;
步骤8、回溯模拟器到初始问题模型;
步骤9、模拟车间时序动态,直到车间有可工作的空闲设备,取得此空闲设备,利用专利设计的车间调度问题的马尔可夫决策接口编码观测和可行动作,利用瞬时奖赏计算这个设备上一步的代价;
步骤10、(可选)绘制当前模拟器状态,设备本地观测和可选动作;
步骤11、多分类平均场强化学习智能体根据观测和可行动作根据ε-Greedy策略选择一个动作;
步骤12、(可选)绘制当前模拟器状态和智能体的选择;
步骤13马尔可夫决策接口接口将被选择的动作解码为对应作业,再解码为模拟器事件返回模拟器;
步骤14、如果模拟器还有订单未完成,则回到步骤9;否则本轮求解完成,计算最终代价,保存解和解的代价;
步骤15、从经验池随机抽取经验训练平均场强化学习智能体,eps加1;
步骤16、如果eps<Nepisode,则回到步骤8;否则eps归0,epo加1;
步骤17、如果epo<Nepoch,则回到步骤7;否则继续;
步骤18、对保存的解进行统计,返回求解报告和推荐的解。
有益效果:本发明对于小批量定制化生产的生产场景,能够处理真实工厂环境中特殊的约束,并形式化了车间环境中从不同角度出发的多个优化目标,强化学习算法优化提高设备选择动作时的决策能力,优化了求得的解的效率。
附图说明
图1是利用平均场动作价值学习优化求解作业排程方法过程的可视化图。
图2a是对设备和工艺关系的可视化图。
图2b是对每个订单的生产路径,和每个生产节点上生产规模的可视化图。
图3是是对一台设备在时序上状态切换的可视化图。
图4是一个自动聚类的结果。
图5是对前后继作业安排的可视化图。
图6是一种使用平均场动作价值学习优化作业排程的算法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。一种使用平均场动作价值学习优化车间作业排程的方法,包括以下步骤:
步骤1、建立和验证作业车间调度问题模型:此模型建立数据包括车间设备的产能,需要被生产的作业和订单,车间的其他特殊约束;
步骤2、生成设备的特征,并进行自动聚类,并为每类计算对应的平均场网络模型的超参数;
步骤3、为每类设备初始化一个经验池和一个神经网络;
步骤4、进行若干轮多智能体马尔科夫决策过程对作业车间调度问题进行求解:每轮首先使用步骤1中的问题模型初始化模拟器环境,然后循环过程,依次激活模拟事件直到有空闲设备,取一个设备进行观测,利用状态动作价值选择作业,将选择的作业解码为模拟事件,当环境中没有还需要求解的问题后结束此轮求解,评估本轮解的各个方面的代价,记录解和解的代价;
步骤5、对所有求得解按代价排序,返回关于本次求解结果总的报告和若干个代价极小的解。
在进一步实施例中,所述步骤1中的问题作业车间调度问题模型包括三元组<M,O,T>,在图2中可视化了车间作业中的设备和订单,这里进行补充说明:图2a可视化了设备和工艺之间存在的多对多的复杂关系,其中左侧节点对应一台设备,右侧节点对应一类加工工艺;图2b右侧可视化了各个订单的作业关系,不同订单的作业没有前后项关系,在一个订单中,三角形表示原材料节点,圆形为半成品或成品节点,用颜色浓淡区分前后继作业,用节点大小区分生产规模。可以看到订单内的作业具有线性和树形两种关系,而一般的数学方法和遗传算法等启发式算法无法处理这种树型关系,另外订单之间和订单内作业之间在生产规模上都存在差异性。
在进一步实施例中,所述步骤2中,对设备进行聚类,专利在图4中展示设备的聚类结果,在这里进行补充说明:因为此环境中有7台设备,所以本方法默认将其分为3类。图4以热力图的形式展示聚类结果,x轴对应了6个工艺,热力图第一行为聚类中心,下面每行依次对应此类中的一个设备。可以看到三个类中各有2,3,2个设备,因此每类中设备数量均衡。不同聚类之间的交集也很少,只有前两个聚类在工艺0上有交集。
在进一步实施例中,所述步骤3中,每个聚类使用的网络模型如图6所示,其中包含:网络的输入:本地观测和平均场;网络主体:首先分别编码观测和平均场再连接,网络可以使用循环神经网络提取时序特征,在实际实验中我们发现循环神经网络能够提高算法对解对优化性能,但可能受计算能力影响导致求解时间时间变长。本专利使用ε-Greedy策略探索动作,其中ε指设备以此概率选择一个随机动作,通过线性衰减此项,设备策略趋于稳定选择最优动作,设备动作选择只能在蒙版所限制的范围内进行。
在进一步实施例中,所述步骤4中,利用多智能体马尔科夫决策过程求解作业车间调度问题。如图1设备为自主决策的智能体,动作和作业对应,通过马尔科夫决策接口获得本地观测,使用深度神经网络推理动作价值,利用策略进行动作选择,再返回马尔科夫决策接口解码动作为模拟器事件。
此外本专利提出按生产时长动态划分作业。如图2,订单之间和订单内作业之间在生产规模上都存在较大的差异,因此直接一次生产会导致较长的等待时间,需要一种方法对作业进行划分。如图5是对前后继作业安排的可视化,其中图5a是一趟完全生产形式的排程方案的可视化,需要消耗最长的时间;图5b是将作业划分4份进行排程的可视化,能够缩短一些等待时间;图5c是作业按份数划分并并行排程的可视化,通过并行工作大量节约了时间;图5d是使用本专利提出的按时间灵活划分方法的可视化,不仅能节约时间,用到的设备也更少。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。

Claims (9)

1.一种使用平均场动作价值学习优化作业排程的方法,其特征在于,包括如下步骤:
步骤1、建立和验证作业车间调度问题模型:此模型建立数据包括车间设备的产能,需要被生产的作业和订单,车间的其他特殊约束;
步骤2、生成设备的特征,并进行自动聚类,并为每类计算对应的平均场网络模型的超参数;
步骤3、为每类设备初始化一个经验池和一个神经网络;
步骤4、进行若干轮多智能体马尔科夫决策过程对作业车间调度问题进行求解:每轮首先使用步骤1中的问题模型初始化模拟器环境,然后循环过程,依次激活模拟事件直到有空闲设备,取一个设备进行观测,利用状态动作价值选择作业,将选择的作业解码为模拟事件,当环境中没有还需要求解的问题后结束此轮求解,评估本轮解的各个方面的代价,记录解和解的代价;
步骤5、对所有求得解按代价排序,返回关于本次求解结果总的报告和若干个代价极小的解。
2.根据权利要求1所述的一种使用平均场动作价值学习优化作业排程的方法,所述步骤1中的问题模型,具体的表示为一个三元组<M,O,T>的形式:
M表示车间设备的集合:每个设备m有一个可行的工艺集合,对集合中的每个工艺类型,设备还具有一些特殊的属性,包括生产效率,所需的准备时间,所需的开关时间和离散生产的特性,即km,op,
Figure FDA0003002174880000011
nm,op,有时还会休眠等特殊约束;
O是所有订单的集合:每个订单o都对应了一系列作业配方,包括此作业的目标产品,需要的工艺类型,若干个原材料和原材料的配比,订单的最终需求是其中的一个特殊作业,工艺类型为出货,对应的原材料和原材料的配比就是此订单目标产品和量;
T表示周转:用来描述半成品的相关动态特性,包括库存控制和运输,我们使用一个车间内的最大的延迟时间tdelay来等待物料的运输。
3.根据权利要求1所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述步骤2中,设备特征的生成方法如下:
设备的特征是其可执行工艺的01向量表示,向量长度为车间的总体工艺集大小
Figure FDA0003002174880000012
利用曼哈顿距离进行4次独立k-means聚类,选择分数最高的一次聚类结果,作为对设备的分类结果;
聚类数量默认为设备数量的开方:
Figure FDA0003002174880000021
对于一次聚类的结果,其分数通过
Figure FDA0003002174880000022
计算,其中ci表示聚类的中心的特征表示,通过此分数,我们限制每类与尽量少的作业相关,并且类之间的作业数量尽量均衡。
4.根据权利要求1所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述步骤4中:利用多智能体马尔科夫决策过程求解作业车间调度问题,其中设备为自主决策的智能体,动作和作业对应,通过马尔科夫决策接口获得本地观测,使用深度神经网络推理动作价值,利用ε-Greedy策略进行动作选择,再返回马尔科夫决策接口解码动作为模拟器事件。
5.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述多智能体马尔科夫决策过程动作和作业对应方法为:
按生产时长动态划分作业:对于每个设备而言,其每次只需要在长度为T的时隙中安排子作业生产,在此时隙中,设备需要通过时隙前和时隙后的相邻子作业考虑换线和准备时间,实际可工作时间twork≤=T,对于设备m和生产类型为op的作业,设备的本次子作业的产量为α=twork×km,op
6.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述多智能体马尔科夫决策过程本地观测编码方法为:
从全局观测中编码本地观测,在决策中使用部分可观测的方式取代全局状态以减少模型获得的冗余信息:对一个设备而言,其本地观测围绕所处设备类的相关作业形成,对每个相关作业我们考虑以下4个性质,从而形成规模为(|A|-1)×4的张量:当前设备对此作业的子最大生产能力T×km,op;考虑约束后的实际生产能力twork×tm,op;此作业的剩余需求量;此作业目前的存量。
7.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述多智能体马尔科夫决策过程涉及了一系列动作蒙版:
蒙版是一个长度为的01向量,每位对应一个动作,当蒙版位为0时,此作业不可选择,为1时可选择;该方法包含设计了5条可自由组合的蒙版规则:
当一个作业不是当前设备的相关作业时,对应位为0;
当一个作业在当前时刻不可被生产时,对应位为0;
当任何一个作业可被选择时,等待动作对应位为0;
当此生产时隙前的同生产类型作业可被生产时,其他作业对应位为0;
当此生产时隙前生产的作业可被继续生产时,其他作业对应位为0。
8.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述多智能体马尔科夫决策过程建立了全面的的代价评估体系,具体方法如下:
出货代价:设备提前于其最早/最迟出货时间而生产导致的代价,方法如下:
Figure FDA0003002174880000031
Figure FDA0003002174880000032
总的出货代价是每个订单的出货代价
Figure FDA0003002174880000033
的和,其中
Figure FDA0003002174880000034
为实际完工时间,当
Figure FDA0003002174880000035
时不受惩罚,否则受到系数为
Figure FDA0003002174880000036
的惩罚;
空等率:设备状态为空等的时间比总开机时间的比例,方法如下:
Figure FDA0003002174880000037
其中
Figure FDA0003002174880000038
为一个设备的总工作时间,而
Figure FDA0003002174880000039
其空等时间的集合;
换线率:设备换线的次数比其总工艺类型的比例,方法如下:
Figure FDA00030021748800000310
9.一种使用平均场动作价值学习优化作业排程的方法,其特征在于,具体算法如下:
步骤1、取得各种参数包括求解的目标回合数Nepoch和目标轮次Nepisode,期待的聚类数量Nclass
步骤2、初始化记录参数当前回合数额epo和当前轮次eps都记为0;
步骤3、初始化问题模型<M,O,T>;
步骤4、检查问题模型,判断当前模拟器条件下是否存在解,如果存在则继续求解,否则返回求解不可能的原因;
步骤5、计算聚类和每类对应的神经网络模型的部分超参数;
步骤6、(可选)初始化绘图工具;
步骤7、初始化平均场强化学习智能体和网络:根据步骤5得到超参术初始化为每个平均场算法智能体类的初始化共享经验池和共享网络;
步骤8、回溯模拟器到初始问题模型;
步骤9、模拟车间时序动态,直到车间有可工作的空闲设备,取得此空闲设备,利用专利设计的车间调度问题的马尔可夫决策接口编码观测和可行动作,利用瞬时奖赏计算这个设备上一步的代价;
步骤10、(可选)绘制当前模拟器状态,设备本地观测和可选动作;
步骤11、多分类平均场强化学习智能体根据观测和可行动作根据ε-Greedy策略选择一个动作;
步骤12、(可选)绘制当前模拟器状态和智能体的选择;
步骤13马尔可夫决策接口接口将被选择的动作解码为对应作业,再解码为模拟器事件返回模拟器;
步骤14、如果模拟器还有订单未完成,则回到步骤9;否则本轮求解完成,计算最终代价,保存解和解的代价;
步骤15、从经验池随机抽取经验训练平均场强化学习智能体,eps加1;
步骤16、如果eps<Nepisode,则回到步骤8;否则eps归0,epo加1;
步骤17、如果epo<Nepoch,则回到步骤7;否则继续;
步骤18、对保存的解进行统计,返回求解报告和推荐的解。
CN202110350151.XA 2021-03-31 2021-03-31 一种使用平均场动作价值学习优化车间作业排程的方法 Active CN113093673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110350151.XA CN113093673B (zh) 2021-03-31 2021-03-31 一种使用平均场动作价值学习优化车间作业排程的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110350151.XA CN113093673B (zh) 2021-03-31 2021-03-31 一种使用平均场动作价值学习优化车间作业排程的方法

Publications (2)

Publication Number Publication Date
CN113093673A true CN113093673A (zh) 2021-07-09
CN113093673B CN113093673B (zh) 2022-03-29

Family

ID=76672048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110350151.XA Active CN113093673B (zh) 2021-03-31 2021-03-31 一种使用平均场动作价值学习优化车间作业排程的方法

Country Status (1)

Country Link
CN (1) CN113093673B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015597A (ja) * 2007-07-04 2009-01-22 Nagaoka Univ Of Technology スケジュール作成方法,スケジュール作成装置,およびコンピュータプログラム
WO2010043629A1 (de) * 2008-10-13 2010-04-22 Schneider Electric Automation Gmbh Verfahren zur entwicklung eines multi-agenten-systems sowie multi-agenten-system
CN101944201A (zh) * 2010-07-27 2011-01-12 昆明理工大学 一种基于多智能体的炼钢车间天车调度仿真方法
CN102081388A (zh) * 2010-11-17 2011-06-01 昆明理工大学 一种基于Agent和Agent UML的钢厂生产调度系统建模方法
CN104376382A (zh) * 2014-11-18 2015-02-25 重庆大学 面向大规模多Agent系统的非对称分布式约束优化算法及系统
CN104914835A (zh) * 2015-05-22 2015-09-16 齐鲁工业大学 一种柔性作业车间调度多目标的方法
WO2016169286A1 (zh) * 2015-04-20 2016-10-27 海安县申菱电器制造有限公司 一种离散制造系统的车间布局方法
CN106527373A (zh) * 2016-12-05 2017-03-22 中国科学院自动化研究所 基于多智能体的车间自主调度系统和方法
CN106611232A (zh) * 2016-02-04 2017-05-03 四川用联信息技术有限公司 一种求解多工艺路线作业车间调度的分层优化算法
CN107122857A (zh) * 2017-04-26 2017-09-01 南京航空航天大学 基于多智能体的车间多目标协同优化调度方法
CN110597213A (zh) * 2019-09-29 2019-12-20 山东师范大学 一种分布式混合流水车间的生产调度方法及系统
CN111694656A (zh) * 2020-04-22 2020-09-22 北京大学 基于多智能体深度强化学习的集群资源调度方法及系统
CN111985672A (zh) * 2020-05-08 2020-11-24 东华大学 一种多Agent深度强化学习的单件作业车间调度方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015597A (ja) * 2007-07-04 2009-01-22 Nagaoka Univ Of Technology スケジュール作成方法,スケジュール作成装置,およびコンピュータプログラム
WO2010043629A1 (de) * 2008-10-13 2010-04-22 Schneider Electric Automation Gmbh Verfahren zur entwicklung eines multi-agenten-systems sowie multi-agenten-system
CN101944201A (zh) * 2010-07-27 2011-01-12 昆明理工大学 一种基于多智能体的炼钢车间天车调度仿真方法
CN102081388A (zh) * 2010-11-17 2011-06-01 昆明理工大学 一种基于Agent和Agent UML的钢厂生产调度系统建模方法
CN104376382A (zh) * 2014-11-18 2015-02-25 重庆大学 面向大规模多Agent系统的非对称分布式约束优化算法及系统
WO2016169286A1 (zh) * 2015-04-20 2016-10-27 海安县申菱电器制造有限公司 一种离散制造系统的车间布局方法
CN104914835A (zh) * 2015-05-22 2015-09-16 齐鲁工业大学 一种柔性作业车间调度多目标的方法
CN106611232A (zh) * 2016-02-04 2017-05-03 四川用联信息技术有限公司 一种求解多工艺路线作业车间调度的分层优化算法
CN106527373A (zh) * 2016-12-05 2017-03-22 中国科学院自动化研究所 基于多智能体的车间自主调度系统和方法
CN107122857A (zh) * 2017-04-26 2017-09-01 南京航空航天大学 基于多智能体的车间多目标协同优化调度方法
CN110597213A (zh) * 2019-09-29 2019-12-20 山东师范大学 一种分布式混合流水车间的生产调度方法及系统
CN111694656A (zh) * 2020-04-22 2020-09-22 北京大学 基于多智能体深度强化学习的集群资源调度方法及系统
CN111985672A (zh) * 2020-05-08 2020-11-24 东华大学 一种多Agent深度强化学习的单件作业车间调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUHUA SHI: "An Exploring Coevolution Multi-Agent System for Multimodal Function Optimization", 《2009 INTERNATIONAL WORKSHOP ON INTELLIGENT SYSTEMS AND APPLICATIONS》 *
刘轩: "基于混合集合规划的作业车间生产排程模型研究", 《制造业自动化》 *

Also Published As

Publication number Publication date
CN113093673B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
Zhang et al. Correlation coefficient-based recombinative guidance for genetic programming hyperheuristics in dynamic flexible job shop scheduling
Zhao et al. Learning practically feasible policies for online 3D bin packing
Jones et al. Survey of job shop scheduling techniques
Cho et al. A robust adaptive scheduler for an intelligent workstation controller
CN101788819B (zh) 大规模生产过程一种基于迭代式分解和流松弛的调度方法
Chen et al. A deep reinforcement learning framework based on an attention mechanism and disjunctive graph embedding for the job-shop scheduling problem
Chen A hybrid SOM-BPN approach to lot output time prediction in a wafer fab
Rodzin et al. Theory of bioinspired search for optimal solutions and its application for the processing of problem-oriented knowledge
Liu et al. An improved genetic algorithm for robust permutation flowshop scheduling
Tarkesh et al. Facility layout design using virtual multi-agent system
Ramzan et al. Project scheduling conflict identification and resolution using genetic algorithms (GA)
Jang et al. Offline-online reinforcement learning for energy pricing in office demand response: lowering energy and data costs
Zhang et al. Q-learning-based hyper-heuristic evolutionary algorithm for the distributed assembly blocking flowshop scheduling problem
Azevedo et al. Bio-inspired multi-objective algorithms applied on production scheduling problems
CN113093673B (zh) 一种使用平均场动作价值学习优化车间作业排程的方法
Chaudhry Job shop scheduling problem with alternative machines using genetic algorithms
Yuan et al. A multi-agent double Deep-Q-network based on state machine and event stream for flexible job shop scheduling problem
Varghese et al. Dynamic spatial block arrangement scheduling in shipbuilding industry using genetic algorithm
Peng et al. Simulation Optimization in the New Era of AI
Yan et al. A job shop scheduling approach based on simulation optimization
Harrath et al. A multi-objective genetic algorithm to solve a single machine scheduling problem with setup-times
Tambuskar et al. A novel algorithm for virtual cellular manufacturing considering real life production factors
Turgay et al. Digital Twin Based Flexible Manufacturing System Modelling with Fuzzy Approach
Chen A hybrid fuzzy-neural approach to job completion time prediction in a semiconductor fabrication factory
Chang et al. Evolving CBR and data segmentation by SOM for flow time prediction in semiconductor manufacturing factory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant