CN113093673B - 一种使用平均场动作价值学习优化车间作业排程的方法 - Google Patents
一种使用平均场动作价值学习优化车间作业排程的方法 Download PDFInfo
- Publication number
- CN113093673B CN113093673B CN202110350151.XA CN202110350151A CN113093673B CN 113093673 B CN113093673 B CN 113093673B CN 202110350151 A CN202110350151 A CN 202110350151A CN 113093673 B CN113093673 B CN 113093673B
- Authority
- CN
- China
- Prior art keywords
- equipment
- time
- agent
- job
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000009471 action Effects 0.000 title claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 46
- 238000004519 manufacturing process Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 239000003795 chemical substances by application Substances 0.000 claims description 39
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 239000002994 raw material Substances 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 7
- 239000000047 product Substances 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 239000011265 semifinished product Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000003064 k means clustering Methods 0.000 claims description 2
- 239000000463 material Substances 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 230000007306 turnover Effects 0.000 claims description 2
- 239000011800 void material Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 11
- 238000011160 research Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 abstract 1
- 230000018109 developmental process Effects 0.000 abstract 1
- 238000012800 visualization Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41885—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32339—Object oriented modeling, design, analysis, implementation, simulation language
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Manufacturing & Machinery (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- General Factory Administration (AREA)
Abstract
本发明提供了一种使用平均场动作价值学习优化车间作业排程的方法,属于人工智能和运筹优化交叉领域。本专利使用多智能体马尔科夫决策过程建模车间作业排程的一次求解过程,在此过程中设备作为智能体根据本地观测选择作业进行加工,而且每个作业按生产的时长被动态划分为子作业。本方法使用模拟器处理对应现实条件的复杂约束,由多分类平均场强化学习算法进行多目标优化,从而对车间作业排程问题的痛点进行解耦,专注优化订单出货代价时能将生产周期整体时间压缩约30%,每个订单平均等待时间压缩约35%。
Description
技术领域
本发明使用平均场动作价值学习优化车间作业排程方案,属于人工智能和运筹优化交叉领域。柔性车间作业优化问题一直以来都是运筹学中的难题,本专利将此问题建模成多智能体多步决策问题进行求解,通过平均场强化学习的方式优化求解器的参数达到对解的快速求解搜索。
背景技术
柔性作业车间调度问题研究自上世纪以来就成为组合优化的经典领域。它有多个优化目标,包括每个订单的完成时间,每台机器的服务效率,以及调度过程中的库存。此外,在投射到真实场景时,不同的制造工厂面临着各种各样的限制。这样的问题难以使用纯数学计算最优解,而是需要启发式的算法,例如遗传算法,贪婪随机自适应搜索算法,或混合搜索算法。现有研究一般基于单线程处理订单的简单建模,或针对某个特殊的生产场景而形成。因此难以形成可以被实际应用的通用求解方法。
基于智能体的建模和仿真通过分解动态的智能体和交互在分析复杂系统和问题求解上具有计算优势。为对复杂多变制造环境进行更好的分析求解,本专利提出了新的建模方法和一个作业车间模拟器,它们不再局限于一个高度抽象的模型,而包含了相当多的实际细节来满足不同的制造业约束。其中我们将每台设备对应一个自治的智能体,而订单对应被动智能体,此外为了辅助求解,我们还应用了其他的工具型智能体与环境交互,如检查器和可视化工具。
多智能体深度强化学习是通过强化学习算法解决多智能体决策问题,由深度神经网络实现其中的状态动作值函数近似或策略函数近似。在具有多个自治智能体的环境中,智能体可以在局部观察环境并独自进行决策。近年来,多智能体深度强化学习方法在大量游戏环境中取得超人的成就,包括捉迷藏游戏、多智能体房间导航、星际争霸等。
发明内容
发明目的:提出一种使用平均场动作价值学习优化车间作业排程的方法,以解决柔性车间作业优化问题。
技术方案:一种使用平均场动作价值学习优化车间作业排程的方法,包括如下步骤:
步骤1、建立和验证作业车间调度问题模型:此模型建立数据包括车间设备的产能,需要被生产的作业和订单,车间的其他特殊约束;
步骤2、生成设备的特征,并进行自动聚类,并为每类计算对应的平均场网络模型的超参数;
步骤3、为每类设备初始化一个经验池和一个神经网络;
步骤4、进行若干轮多智能体马尔科夫决策过程对作业车间调度问题进行求解:每轮首先使用关键步骤1中的问题模型初始化模拟器环境,然后循环过程,依次激活模拟事件直到有空闲设备,取一个设备进行观测,利用状态动作价值选择作业,将选择的作业解码为模拟事件,当环境中没有还需要求解的问题后结束此轮求解,评估本轮解的各个方面的代价,记录解和解的代价;
步骤5、对所有求得解按代价排序,返回关于本次求解结果总的报告和若干个代价极小的解。
根据本发明的一个方面,所述步骤1中的问题模型,具体的表示为一个三元组<M,O,T>的形式:
M表示车间设备的集合:每个设备m有一个可行的工艺集合,对集合中的每个工艺类型,设备还具有一些特殊的属性,包括生产效率,所需的准备时间,所需的开关时间和离散生产的特性,即km,op,nm,op,有时还会休眠等特殊约束;
O是所有订单的集合:每个订单o都对应了一系列作业配方,包括此作业的目标产品,需要的工艺类型,若干个原材料和原材料的配比,订单的最终需求是其中的一个特殊作业,工艺类型为出货,对应的原材料和原材料的配比就是此订单目标产品和量;
T表示周转:用来描述半成品的相关动态特性,包括库存控制和运输,我们使用一个车间内的最大的延迟时间tdelay来等待物料的运输。
根据本发明的一个方面,所述步骤2中,设备特征的生成方法如下:
根据本发明的一个方面,所述步骤4中:利用多智能体马尔科夫决策过程求解作业车间调度问题,其中设备为自主决策的智能体,动作和作业对应,通过马尔科夫决策接口获得本地观测,使用深度神经网络推理动作价值,利用ε-Greedy策略进行动作选择,再返回马尔科夫决策接口解码动作为模拟器事件。
所述多智能体马尔科夫决策过程动作和作业对应方法为:
按生产时长动态划分作业:对于每个设备而言,其每次只需要在长度为T的时隙中安排子作业生产,在此时隙中,设备需要通过时隙前和时隙后的相邻子作业考虑换线和准备时间,实际可工作时间twork≤T,对于设备m和生产类型为op的作业,设备的本次子作业的产量为α=twork×km,op。
所述多智能体马尔科夫决策过程本地观测编码方法为:
从全局观测中编码本地观测,在决策中使用部分可观测的方式取代全局状态以减少模型获得的冗余信息:对一个设备而言,其本地观测围绕所处设备类的相关作业形成,对每个相关作业我们考虑以下4个性质,从而形成规模为(|A|-1)×4的张量:当前设备对此作业的子最大生产能力T×km,op;考虑约束后的实际生产能力twork×tm,op;此作业的剩余需求量;此作业目前的存量。
所述多智能体马尔科夫决策过程涉及了一系列动作蒙版:
蒙版是一个长度为的01向量,每位对应一个动作,当蒙版位为0时,此作业不可选择,为1时可选择;该方法包含设计了5条可自由组合的蒙版规则:
当一个作业不是当前设备的相关作业时,对应位为0;
当一个作业在当前时刻不可被生产时,对应位为0;
当任何一个作业可被选择时,等待动作对应位为0;
当此生产时隙前的同生产类型作业可被生产时,其他作业对应位为0;
当此生产时隙前生产的作业可被继续生产时,其他作业对应位为0。
所述多智能体马尔科夫决策过程建立了全面的的代价评估体系,具体方法如下:
出货代价:设备提前于其最早/最迟出货时间而生产导致的代价,方法如下:
空等率:设备状态为空等的时间比总开机时间的比例,方法如下:
换线率:设备换线的次数比其总工艺类型的比例,方法如下:
根据本发明的一个方面,一种使用平均场动作价值学习优化作业排程的方法的具体算法如下:
步骤1、取得各种参数包括求解的目标回合数Nepoch和目标轮次Nepisode,期待的聚类数量Nclass;
步骤2、初始化记录参数当前回合数额epo和当前轮次eps都记为0;
步骤3、初始化问题模型<M,O,T>;
步骤4、检查问题模型,判断当前模拟器条件下是否存在解,如果存在则继续求解,否则返回求解不可能的原因;
步骤5、计算聚类和每类对应的神经网络模型的部分超参数;
步骤6、(可选)初始化绘图工具;
步骤7、初始化平均场强化学习智能体和网络:根据步骤5得到超参术初始化为每个平均场算法智能体类的初始化共享经验池和共享网络;
步骤8、回溯模拟器到初始问题模型;
步骤9、模拟车间时序动态,直到车间有可工作的空闲设备,取得此空闲设备,利用专利设计的车间调度问题的马尔可夫决策接口编码观测和可行动作,利用瞬时奖赏计算这个设备上一步的代价;
步骤10、(可选)绘制当前模拟器状态,设备本地观测和可选动作;
步骤11、多分类平均场强化学习智能体根据观测和可行动作根据ε-Greedy策略选择一个动作;
步骤12、(可选)绘制当前模拟器状态和智能体的选择;
步骤13马尔可夫决策接口接口将被选择的动作解码为对应作业,再解码为模拟器事件返回模拟器;
步骤14、如果模拟器还有订单未完成,则回到步骤9;否则本轮求解完成,计算最终代价,保存解和解的代价;
步骤15、从经验池随机抽取经验训练平均场强化学习智能体,eps加1;
步骤16、如果eps<Nepisode,则回到步骤8;否则eps归0,epo加1;
步骤17、如果epo<Nepoch,则回到步骤7;否则继续;
步骤18、对保存的解进行统计,返回求解报告和推荐的解。
有益效果:本发明对于小批量定制化生产的生产场景,能够处理真实工厂环境中特殊的约束,并形式化了车间环境中从不同角度出发的多个优化目标,强化学习算法优化提高设备选择动作时的决策能力,优化了求得的解的效率。
附图说明
图1是利用平均场动作价值学习优化求解作业排程方法过程的可视化图。
图2a是对设备和工艺关系的可视化图。
图2b是对每个订单的生产路径,和每个生产节点上生产规模的可视化图。
图3是是对一台设备在时序上状态切换的可视化图。
图4是一个自动聚类的结果。
图5是对前后继作业安排的可视化图。
图6是一种使用平均场动作价值学习优化作业排程的算法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。一种使用平均场动作价值学习优化车间作业排程的方法,包括以下步骤:
步骤1、建立和验证作业车间调度问题模型:此模型建立数据包括车间设备的产能,需要被生产的作业和订单,车间的其他特殊约束;
步骤2、生成设备的特征,并进行自动聚类,并为每类计算对应的平均场网络模型的超参数;
步骤3、为每类设备初始化一个经验池和一个神经网络;
步骤4、进行若干轮多智能体马尔科夫决策过程对作业车间调度问题进行求解:每轮首先使用步骤1中的问题模型初始化模拟器环境,然后循环过程,依次激活模拟事件直到有空闲设备,取一个设备进行观测,利用状态动作价值选择作业,将选择的作业解码为模拟事件,当环境中没有还需要求解的问题后结束此轮求解,评估本轮解的各个方面的代价,记录解和解的代价;
步骤5、对所有求得解按代价排序,返回关于本次求解结果总的报告和若干个代价极小的解。
在进一步实施例中,所述步骤1中的问题作业车间调度问题模型包括三元组<M,O,T>,在图2中可视化了车间作业中的设备和订单,这里进行补充说明:图2a可视化了设备和工艺之间存在的多对多的复杂关系,其中左侧节点对应一台设备,右侧节点对应一类加工工艺;图2b右侧可视化了各个订单的作业关系,不同订单的作业没有前后项关系,在一个订单中,三角形表示原材料节点,圆形为半成品或成品节点,用颜色浓淡区分前后继作业,用节点大小区分生产规模。可以看到订单内的作业具有线性和树形两种关系,而一般的数学方法和遗传算法等启发式算法无法处理这种树型关系,另外订单之间和订单内作业之间在生产规模上都存在差异性。
在进一步实施例中,所述步骤2中,对设备进行聚类,专利在图4中展示设备的聚类结果,在这里进行补充说明:因为此环境中有7台设备,所以本方法默认将其分为3类。图4以热力图的形式展示聚类结果,x轴对应了6个工艺,热力图第一行为聚类中心,下面每行依次对应此类中的一个设备。可以看到三个类中各有2,3,2个设备,因此每类中设备数量均衡。不同聚类之间的交集也很少,只有前两个聚类在工艺0上有交集。
在进一步实施例中,所述步骤3中,每个聚类使用的网络模型如图6所示,其中包含:网络的输入:本地观测和平均场;网络主体:首先分别编码观测和平均场再连接,网络可以使用循环神经网络提取时序特征,在实际实验中我们发现循环神经网络能够提高算法对解对优化性能,但可能受计算能力影响导致求解时间时间变长。本专利使用ε-Greedy策略探索动作,其中ε指设备以此概率选择一个随机动作,通过线性衰减此项,设备策略趋于稳定选择最优动作,设备动作选择只能在蒙版所限制的范围内进行。
在进一步实施例中,所述步骤4中,利用多智能体马尔科夫决策过程求解作业车间调度问题。如图1设备为自主决策的智能体,动作和作业对应,通过马尔科夫决策接口获得本地观测,使用深度神经网络推理动作价值,利用策略进行动作选择,再返回马尔科夫决策接口解码动作为模拟器事件。
此外本专利提出按生产时长动态划分作业。如图2,订单之间和订单内作业之间在生产规模上都存在较大的差异,因此直接一次生产会导致较长的等待时间,需要一种方法对作业进行划分。如图5是对前后继作业安排的可视化,其中图5a是一趟完全生产形式的排程方案的可视化,需要消耗最长的时间;图5b是将作业划分4份进行排程的可视化,能够缩短一些等待时间;图5c是作业按份数划分并并行排程的可视化,通过并行工作大量节约了时间;图5d是使用本专利提出的按时间灵活划分方法的可视化,不仅能节约时间,用到的设备也更少。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
Claims (9)
1.一种使用平均场动作价值学习优化作业排程的方法,其特征在于,包括如下步骤:
步骤1、建立和验证作业车间调度问题模型:此模型建立数据包括车间设备的产能,需要被生产的作业和订单,车间的其他特殊约束;
步骤2、生成设备的特征,并进行自动聚类,并为每类计算对应的平均场网络模型的超参数;
步骤3、为每类设备初始化一个经验池和一个神经网络;
步骤4、进行若干轮多智能体马尔科夫决策过程对作业车间调度问题进行求解:每轮首先使用步骤1中的问题模型初始化模拟器环境,然后循环过程,依次激活模拟事件直到有空闲设备,取一个设备进行观测,利用状态动作价值选择作业,将选择的作业解码为模拟事件,当环境中没有还需要求解的问题后结束此轮求解,评估本轮解的各个方面的代价,记录解和解的代价;
步骤5、对所有求得解按代价排序,返回关于本次求解结果总的报告和若干个代价极小的解。
2.根据权利要求1所述的一种使用平均场动作价值学习优化作业排程的方法,所述步骤1中的问题模型,具体的表示为一个三元组<M,O,T>的形式:
O是所有订单的集合:每个订单o都对应了一系列作业配方,包括此作业的目标产品,需要的工艺类型,若干个原材料和原材料的配比,订单的最终需求是其中的一个特殊作业,工艺类型为出货,对应的原材料和原材料的配比就是此订单目标产品和量;
T表示周转:用来描述半成品的相关动态特性,包括库存控制和运输,我们使用一个车间内的最大的延迟时间tdelay来等待物料的运输。
4.根据权利要求1所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述步骤4中:利用多智能体马尔科夫决策过程求解作业车间调度问题,其中设备为自主决策的智能体,动作和作业对应,通过马尔科夫决策接口获得本地观测,使用深度神经网络推理动作价值,利用ε-Greedy策略进行动作选择,再返回马尔科夫决策接口解码动作为模拟器事件。
5.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述多智能体马尔科夫决策过程动作和作业对应方法为:
按生产时长动态划分作业:对于每个设备而言,其每次只需要在长度为T的时隙中安排子作业生产,在此时隙中,设备需要通过时隙前和时隙后的相邻子作业考虑换线和准备时间,实际可工作时间twork≤T,对于设备m和生产类型为op的作业,设备的本次子作业的产量为α=twork×km,op。
6.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述多智能体马尔科夫决策过程本地观测编码方法为:
从全局观测中编码本地观测,在决策中使用部分可观测的方式取代全局状态以减少模型获得的冗余信息:对一个设备而言,其本地观测围绕所处设备类的相关作业形成,对每个相关作业我们考虑以下4个性质,从而形成规模为(|A|-1)×4的张量:当前设备对此作业的子最大生产能力T×km,op;考虑约束后的实际生产能力twork×tm,op;此作业的剩余需求量;此作业目前的存量。
7.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法,其特征在于,所述多智能体马尔科夫决策过程涉及了一系列动作蒙版:
蒙版是一个长度为当前作业数量的01向量,每位对应一个动作,当蒙版位为0时,此作业不可选择,为1时可选择;该方法包含设计了5条可自由组合的蒙版规则:
当一个作业不是当前设备的相关作业时,对应位为0;
当一个作业在当前时刻不可被生产时,对应位为0;
当任何一个作业可被选择时,等待动作对应位为0;
当此生产时隙前的同生产类型作业可被生产时,其他作业对应位为0;
当此生产时隙前生产的作业可被继续生产时,其他作业对应位为0。
9.一种使用平均场动作价值学习优化作业排程的方法,其特征在于,具体算法如下:
步骤1、取得各种参数包括求解的目标回合数Nepoch和目标轮次Nepisode,期待的聚类数量Nclass;
步骤2、初始化记录参数当前回合数额epo和当前轮次eps都记为0;
步骤3、初始化问题模型<M,O,T>;
步骤4、检查问题模型,判断当前模拟器条件下是否存在解,如果存在则继续求解,否则返回求解不可能的原因;
步骤5、计算聚类和每类对应的神经网络模型的部分超参数;
步骤6、初始化绘图工具;
步骤7、初始化平均场强化学习智能体和网络:根据步骤5得到超参数初始化为每个平均场算法智能体类的初始化共享经验池和共享网络;
步骤8、回溯模拟器到初始问题模型;
步骤9、模拟车间时序动态,直到车间有可工作的空闲设备,取得此空闲设备,利用设计的车间调度问题的马尔可夫决策接口编码观测和可行动作,利用瞬时奖赏计算这个设备上一步的代价;
步骤10、绘制当前模拟器状态,设备本地观测和可选动作;
步骤11、多分类平均场强化学习智能体根据观测和可行动作根据ε-Greedy策略选择一个动作;
步骤12、绘制当前模拟器状态和智能体的选择;
步骤13马尔可夫决策接口将被选择的动作解码为对应作业,再解码为模拟器事件返回模拟器;
步骤14、如果模拟器还有订单未完成,则回到步骤9;否则本轮求解完成,计算最终代价,保存解和解的代价;
步骤15、从经验池随机抽取经验训练平均场强化学习智能体,eps加1;
步骤16、如果eps<Nepisode,则回到步骤8;否则eps归0,epo加1;
步骤17、如果epo<Nepoch,则回到步骤7;否则继续;
步骤18、对保存的解进行统计,返回求解报告和推荐的解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110350151.XA CN113093673B (zh) | 2021-03-31 | 2021-03-31 | 一种使用平均场动作价值学习优化车间作业排程的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110350151.XA CN113093673B (zh) | 2021-03-31 | 2021-03-31 | 一种使用平均场动作价值学习优化车间作业排程的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113093673A CN113093673A (zh) | 2021-07-09 |
CN113093673B true CN113093673B (zh) | 2022-03-29 |
Family
ID=76672048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110350151.XA Active CN113093673B (zh) | 2021-03-31 | 2021-03-31 | 一种使用平均场动作价值学习优化车间作业排程的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113093673B (zh) |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015597A (ja) * | 2007-07-04 | 2009-01-22 | Nagaoka Univ Of Technology | スケジュール作成方法,スケジュール作成装置,およびコンピュータプログラム |
DE102008037446A1 (de) * | 2008-10-13 | 2010-05-06 | Schneider Electric Automation Gmbh | Referenz Model für service-orientierte Multi-Agenten-Systeme in der industriellen Automation und Produktion |
CN101944201A (zh) * | 2010-07-27 | 2011-01-12 | 昆明理工大学 | 一种基于多智能体的炼钢车间天车调度仿真方法 |
CN102081388A (zh) * | 2010-11-17 | 2011-06-01 | 昆明理工大学 | 一种基于Agent和Agent UML的钢厂生产调度系统建模方法 |
CN104376382B (zh) * | 2014-11-18 | 2017-10-24 | 重庆大学 | 面向大规模多Agent系统的非对称分布式约束优化算法及系统 |
CN104808627A (zh) * | 2015-04-20 | 2015-07-29 | 海安县申菱电器制造有限公司 | 一种离散制造系统的车间布局方法 |
CN104914835A (zh) * | 2015-05-22 | 2015-09-16 | 齐鲁工业大学 | 一种柔性作业车间调度多目标的方法 |
CN106611232A (zh) * | 2016-02-04 | 2017-05-03 | 四川用联信息技术有限公司 | 一种求解多工艺路线作业车间调度的分层优化算法 |
CN106527373B (zh) * | 2016-12-05 | 2019-02-01 | 中国科学院自动化研究所 | 基于多智能体的车间自主调度系统和方法 |
CN107122857B (zh) * | 2017-04-26 | 2021-01-22 | 南京航空航天大学 | 基于多智能体的车间多目标协同优化调度方法 |
CN110597213A (zh) * | 2019-09-29 | 2019-12-20 | 山东师范大学 | 一种分布式混合流水车间的生产调度方法及系统 |
CN111694656B (zh) * | 2020-04-22 | 2022-08-05 | 北京大学 | 基于多智能体深度强化学习的集群资源调度方法及系统 |
CN111985672B (zh) * | 2020-05-08 | 2021-08-27 | 东华大学 | 一种多Agent深度强化学习的单件作业车间调度方法 |
-
2021
- 2021-03-31 CN CN202110350151.XA patent/CN113093673B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113093673A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Learning practically feasible policies for online 3D bin packing | |
Zhang et al. | Correlation coefficient-based recombinative guidance for genetic programming hyperheuristics in dynamic flexible job shop scheduling | |
Tan et al. | A hybrid multiobjective evolutionary algorithm for solving vehicle routing problem with time windows | |
Russell et al. | Q-decomposition for reinforcement learning agents | |
Cho et al. | A robust adaptive scheduler for an intelligent workstation controller | |
WO2020040763A1 (en) | Real-time production scheduling with deep reinforcement learning and monte carlo tree search | |
Chen et al. | A deep reinforcement learning framework based on an attention mechanism and disjunctive graph embedding for the job-shop scheduling problem | |
CN112907150B (zh) | 一种基于遗传算法的生产排程方法 | |
Rodzin et al. | Theory of bioinspired search for optimal solutions and its application for the processing of problem-oriented knowledge | |
Chen | A hybrid SOM-BPN approach to lot output time prediction in a wafer fab | |
Liu et al. | An improved genetic algorithm for robust permutation flowshop scheduling | |
Tarkesh et al. | Facility layout design using virtual multi-agent system | |
Samarghandi et al. | Metaheuristics for fuzzy dynamic facility layout problem with unequal area constraints and closeness ratings | |
Ramzan et al. | Project scheduling conflict identification and resolution using genetic algorithms (GA) | |
Zhang et al. | Q-learning-based hyper-heuristic evolutionary algorithm for the distributed assembly blocking flowshop scheduling problem | |
Kamali et al. | An immune-based multi-agent system for flexible job shop scheduling problem in dynamic and multi-objective environments | |
CN113093673B (zh) | 一种使用平均场动作价值学习优化车间作业排程的方法 | |
Yuan et al. | A multi-agent double deep-Q-network based on state machine and event stream for flexible job shop scheduling problem | |
Chaudhry | Job shop scheduling problem with alternative machines using genetic algorithms | |
Varghese et al. | Dynamic spatial block arrangement scheduling in shipbuilding industry using genetic algorithm | |
Peng et al. | Simulation optimization in the new era of AI | |
Zhang et al. | An imperialist competitive algorithm incorporating remaining cycle time prediction for photolithography machines scheduling | |
Harrath et al. | A multi-objective genetic algorithm to solve a single machine scheduling problem with setup-times | |
Yan et al. | A job shop scheduling approach based on simulation optimization | |
Miloradovic et al. | A genetic planner for mission planning of cooperative agents in an underwater environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |