CN117369378A - 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统 - Google Patents

基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统 Download PDF

Info

Publication number
CN117369378A
CN117369378A CN202311296594.0A CN202311296594A CN117369378A CN 117369378 A CN117369378 A CN 117369378A CN 202311296594 A CN202311296594 A CN 202311296594A CN 117369378 A CN117369378 A CN 117369378A
Authority
CN
China
Prior art keywords
data
scheduling
monte carlo
state
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311296594.0A
Other languages
English (en)
Inventor
王美林
梁凯晴
胡凯航
李俊煜
杨国立
谢兴
宋烨兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202311296594.0A priority Critical patent/CN117369378A/zh
Publication of CN117369378A publication Critical patent/CN117369378A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41865Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32252Scheduling production, machining, job shop
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • Manufacturing & Machinery (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于蒙特卡洛树搜索算法在混流制造车间调度方法,先采集车间作业数据,将其处理成马尔可夫决策链数据,构建一个多输入通道的卷积神经网络,根据多输入通道的卷积神经网络出的预测价值和预测概率,使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法,对各节点进行扩展、选择、模拟、反向更新与训练,获得知识模型,调用知识模型,根据制造车间各资源信息的实时数据,输出最优调度决策。本发明通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法获得的知识模型来输出调度决策,提高车间生产效率。

Description

基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统
技术领域
本发明涉及作业车间调度和人工智能算法的技术领域,更具体地,涉及一种基于蒙特卡洛树搜索算法在混流制造车间调度方法及系统。
背景技术
车间调度是混流制造(Hybrid Flow-shop,HFS)车间生产中产生的需求。HFS是一种可满足客户定制需求的大规模生产组织形式,广泛运用于各重点制造业领域。混流制造的生产系统由不同的加工步骤组成,这些步骤的顺序一般是固定的。但生产过程存在许多不确定的动态事件,如设备故障,紧急插单,质量事故等,导致生产过程不能按照预设的流程进行。因此为了消除动态事件对生产过程计划执行的影响,保持生产制造过程的稳定,要对混流制造采取合适的动态调度机制。HFS的自适应调度是非确定性多项式(Non-Deterministic Polynomial,NP)难题。为了优化HFS问题,提出了许多离线或在线解决方案,以实现更高的生产效率。在线调度取决于来自车间的实时反馈。随着智能制造的快速发展,物联网、CPS、AGV等技术被广泛应用,为在线动态调度提供了关键条件。在线调度解决方案以其对动态事件快速响应的优势,已成为主流研究领域。许多学者对此问题进行了深入研究,过往文献多对于自适应车间调度运用DDQN算法解决。而DDQN算法的价值网络在解决制造系统优化调度问题时存在难以收敛的现象,主要原因在于奖励函数为人为设计的,而奖励函数是对某一时刻状态变迁行为的即时评价,是只依靠当前时刻状态信息,无法借鉴未来发展走势的评估,故人为设计的奖励函数不可避免地存在一定的“短视性”和“奖励值设置不准确”的问题,难以引导DDQN智能体向调度优化目标训练。
现有技术公开了一种基于DDQN算法的大规模柔性作业车间调度方法,具体为:首先对大规模调度问题进行形式化表达,包括定义状态特征、动作集、奖励函数;其次为了保证框架有效训练模型,将问题进行分解,并提出动作集及奖励函数反哺特征的方法设计状态特征;选用对完工时间最小化灵敏度高的复合调度规则作为动作集,并设计启发式奖励方法引导算法收敛;最后利用DDQN算法求解大规模柔性作业车间调度问题。该发明能够高效高质地解决大规模柔性作业车间调度问题。然而其依旧存在奖励函数只能依靠当前时刻状态信息,存在一定的“短视性”和“奖励值设置不准确”的问题。
发明内容
本发明的目的在于公开一种更高效的基于蒙特卡洛树搜索算法在混流制造车间调度方法及系统。
为了实现上述目的,本发明的技术方案如下:
S1:采集并记录从智能车间一次订单下放起至成品加工完毕的作业数据;
S2:将步骤S1采集的作业数据分类处理成马尔可夫决策数据链;
S3:构建多通道输入的卷积神经网络A;
S4:将步骤S2中的得到的马尔可夫决策数据链随机抽取k条,将抽取到的数据链中的数据,根据资源属性整合成多通道资源视图状态si,将多通道资源视图状态si输入多通道输入的卷积神经网络A,获得预测价值以及预测概率;
S5:构建卷积神经网络B,根据预测价值以及预测概率,使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法,通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型以及最终结果价值FV;
S6:判断最终结果价值FV是否收敛,若未收敛则执行步骤S4,若收敛则执行步骤S7;
S7:调用知识模型,根据制造车间各资源信息的实时数据,匹配车间的实时多通道状态s,对当前任务输出当前最优调度决策。
S8:根据制造车间各资源信息的实时数据判断当前任务是否执行完成,若还未执行完成,则返回执行步骤S7,若已完成当前任务则结束运行。
进一步地,步骤S1中的作业数据,具体为:
在生产过程中通过多种方法采集到的多种资源类型数据,生产过程包括车间物料订单下放、车间工件工艺排产、车间完工结果;作业数据囊括了车间内“人、机、物、法、环”各类资源信息变化;包括物联网实时采集的生产设备的工作状态数据、待加工工件的信息数据、工件排产转移数,也包括其它生产系统导入车间的生产订单数据,物料数据和加工工艺数据。
进一步地,在步骤S2中将步骤S1采集的作业数据分类处理成马尔可夫决策数据链,具体为:
车间从订单下放状态s0开始至完工状态sn结束,按n次调度排产顺序形成逐条马尔可夫决策链数据
其中si为按车间资源类别分类并构建多通道资源视图状态,包括多个状态试图;为基于车间工件在设备间的流转动作;r为在状态si下执行动作/>进入新状态si+1相应的奖励;
一个状态视图包含所有纳入考虑的资源维度状态信息,每个资源维度状态信息以一个矩阵形式的通道状态视图表征,表达式如下:
si=<Pm×c,Mm×c,Wm×c,Fm×c,……,Em×c>,i∈(0,1,2…,n-1)
动作为具体某工件从某道工序设备转移至下道工序设备,以工件θH和加工设备之间的有向流转TrK为表征,表达式如下:
根据调度目标tar和完工结果T契合程度,赋予相应的奖励r。
进一步地,在步骤S3中,构建多通道输入的卷积神经网络A,具体为:
网络具备两个输出端以及隐藏层,其中估值网络OUT-V输出端负责预测状态视图si的预测价值;策略网络OUT-P输出端负责预测状态视图下各动作的预测概率;隐藏层将由卷积层,全连接层,激活层组合而成。
进一步地,在步骤S4中,将多通道资源试图状态输入神经网络的INPUY_LAY端。
进一步地,在步骤S5中,扩展:从某一叶节点出发,根据该叶节点所有使能动作,扩展出对应的子节点;同时,将该叶节点状态S输入卷积神经网络A,根据预测概率,初始化各子节点信息;
选择:根据UCB公式:
选择UCB值最大的子节点进入,同时将子节点状态S_next输入卷积神经网络,由估值网络端OUT-V给出该子节点的预测价值,加载入该子节点的信息中,同时对选择路径上的所有节点进行信息更新,将各节点的模拟收益值V=V(S_next),访问次数N加1。
进一步地,在步骤S5中,模拟:根据预测概率,结合UCB公式,从此叶节点出发,反复模拟扩展选择子状态节点,模拟推进蒙特卡洛树的搜索,直至调度结束,得到最终结果价值FV;同时记录下模拟执行过程中的历史数据。
进一步地,在步骤S5中,反向更新与训练:将预计完工时间沿着选择路径反向传递至各个节点为反向更新过程;训练过程中,从模拟过程产生的历史数据中,根据各子节点访问次数计算出选择子节点的实际遍历概率Real_P,对策略网络OUT-P给出的预测概率和蒙特卡罗树搜索的实际遍历概率Real_P使用交叉信息熵误差,最终结果价值FV与预测价值使用均方和误差,两者一起构成损失函数,训练卷积神经网络B,使其权值得到优化;损失函数公式为:
Loss=(FV-V)2-(JobP)T×log(RealP)+c‖θ‖2
进一步地,在步骤S6中,最终结果价值FV为130-140即为收敛。
此外本发明还提供一种基于蒙特卡洛树搜索算法在混流制造车间调度系统,其特征在于,包括:
采集模块:采集并记录从智能车间一次订单下放起至成品加工完毕的作业数据;
分类处理模块:将采集模块采集的作业数据分类处理成马尔可夫决策数据链;
构建模块:构建多通道输入的卷积神经网络A;
抽取输入模块:将步骤S2中的得到的马尔可夫决策数据链随机抽取k条,将抽取到的数据链中的数据,根据资源属性整合成多通道资源视图状态si,将多通道资源视图状态si输入多通道输入的卷积神经网络A,获得预测价值以及预测概率;
训练模块:构建卷积神经网络B,根据预测价值以及预测概率,使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法,通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型以及最终结果价值FV;
收敛判断模块:判断最终结果价值FV是否收敛,若未收敛则执行抽取输入模块,若收敛则执行调度输出模块;
调度输出模块:调用知识模型,根据制造车间各资源信息的实时数据,匹配车间的实时多通道状态s,对当前任务输出当前最优调度决策。
执行判断模块:根据制造车间各资源信息的实时数据判断当前任务是否执行完成,若还未执行完成,则返回执行调度输出模块,若已完成当前任务则结束运行。
与现有技术相比,本发明技术方案的有益效果是:
本发明使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型。蒙特卡洛搜索树算法是一种基于二叉树结构的算法,随机进行扩展,根据UCB公式,选择继续进入的点进行模拟,再回馈,反向更新,继续下一轮迭代。全程过程随机,只根据自身的自学习来进行博弈运算。不需要人类的数据进行训练,且能通过它自身的自学习机制对未来发展的走势进行评估,于是通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法获得的知识模型,可以解决“短视性”和“奖励值设置不准确”问题。从而达到更高效的解决在混流制造车间调度问题。
附图说明
图1为实施例1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法的流程图;
图2为实施例3所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法的框架图;
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例一:
如图1所示,本发明优选实施例的一种基于蒙特卡洛树搜索算法在混流制造车间调度方法,包括以下步骤:
S1:采集并记录从智能车间一次订单下放起至成品加工完毕的作业数据;
S2:将步骤S1采集的作业数据分类处理成马尔可夫决策数据链;
S3:构建多通道输入的卷积神经网络A;
S4:将步骤S2中的得到的马尔可夫决策数据链随机抽取k条,将抽取到的数据链中的数据,根据资源属性整合成多通道资源视图状态si,将多通道资源视图状态si输入多通道输入的卷积神经网络A,获得预测价值以及预测概率;
S5:构建卷积神经网络B,根据预测价值以及预测概率,使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法,通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型以及最终结果价值FV;
S6:判断最终结果价值FV是否收敛,若未收敛则执行步骤S4,若收敛则执行步骤S7;
S7:调用知识模型,根据制造车间各资源信息的实时数据,匹配车间的实时多通道状态s,对当前任务输出当前最优调度决策。
S8:根据制造车间各资源信息的实时数据判断当前任务是否执行完成,若还未执行完成,则返回执行步骤S7,若已完成当前任务则结束运行。
本实施例使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型。蒙特卡洛搜索树算法是一种基于二叉树结构的算法,随机进行扩展,根据UCB公式,选择继续进入的点进行模拟,再回馈,反向更新,继续下一轮迭代。全程过程随机,只根据自身的自学习来进行博弈运算。不需要人类的数据进行训练,且能通过它自身的自学习机制对未来发展的走势进行评估,于是通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法获得的知识模型,可以解决“短视性”和“奖励值设置不准确”问题。从而达到更高效的解决在混流制造车间调度问题。
实施例二:
本实施例在实施例一的基础上,继续公开以下内容:
步骤S1中的作业数据,具体为:
在生产过程中通过多种方法采集到的多种资源类型数据,生产过程包括车间物料订单下放、车间工件工艺排产、车间完工结果;作业数据囊括了车间内“人、机、物、法、环”各类资源信息变化;包括物联网实时采集的生产设备的工作状态数据、待加工工件的信息数据、工件排产转移数,也包括其它生产系统导入车间的生产订单数据,物料数据和加工工艺数据。
在步骤S2中将步骤S1采集的作业数据分类处理成马尔可夫决策数据链,具体为:
车间从订单下放状态s0开始至完工状态sn结束,按n次调度排产顺序形成逐条马尔可夫决策链数据
其中si为按车间资源类别分类并构建多通道资源视图状态,包括多个状态试图;为基于车间工件在设备间的流转动作;r为在状态si下执行动作/>进入新状态si+1相应的奖励;
一个状态视图包含所有纳入考虑的资源维度状态信息,每个资源维度状态信息以一个矩阵形式的通道状态视图表征,表达式如下:
si=<Pm×c,Mm×c,Wm×c,Fm×c,……,Em×c>,i∈(0,1,2…,n-1)
动作为具体某工件从某道工序设备转移至下道工序设备,以工件θH和加工设备之间的有向流转TrK为表征,表达式如下:
根据调度目标tar和完工结果T契合程度,赋予相应的奖励r。
在步骤S3中,构建多通道输入的卷积神经网络A,具体为:
网络具备两个输出端以及隐藏层,其中估值网络OUT-V输出端负责预测状态视图si的预测价值;策略网络OUT-P输出端负责预测状态视图下各动作的预测概率;隐藏层将由卷积层,全连接层,激活层组合而成。
在步骤S4中,将多通道资源试图状态输入神经网络的INPUY_LAY端。
在步骤S5中,扩展:从某一叶节点出发,根据该叶节点所有使能动作,扩展出对应的子节点;同时,将该叶节点状态S输入卷积神经网络A,根据预测概率,初始化各子节点信息;
选择:根据UCB公式:
选择UCB值最大的子节点进入,同时将子节点状态S_next输入卷积神经网络,由估值网络端OUT-V给出该子节点的预测价值,加载入该子节点的信息中,同时对选择路径上的所有节点进行信息更新,将各节点的模拟收益值V=V(S_next),访问次数N加1。
在步骤S5中,模拟:根据预测概率,结合UCB公式,从此叶节点出发,反复模拟扩展选择子状态节点,模拟推进蒙特卡洛树的搜索,直至调度结束,得到最终结果价值FV;同时记录下模拟执行过程中的历史数据。
在步骤S5中,反向更新与训练:将预计完工时间沿着选择路径反向传递至各个节点为反向更新过程;训练过程中,从模拟过程产生的历史数据中,根据各子节点访问次数计算出选择子节点的实际遍历概率Real_P,对策略网络OUT-P给出的预测概率和蒙特卡罗树搜索的实际遍历概率Real_P使用交叉信息熵误差,最终结果价值FV与预测价值使用均方和误差,两者一起构成损失函数,训练卷积神经网络B,使其权值得到优化;损失函数公式为:
Loss=(FV-V)2-(JobP)T×log(RealP)+c‖θ‖2
在步骤S6中,最终结果价值FV为130-140即为收敛。
本实施例将数据分类处理成马尔可夫决策数据链(Markov Decision Process,MDP),这个过程可以描述具有不确定性的序列决策问题,并通过决策优化方法实现最优决策策略。MDP适用于序列决策问题的求解,能够考虑当前决策对未来状态和奖励的影响,同时通过模型学习和算法求解来实现模型泛化和问题求解。通过将数据分类处理成MDP,可以利用MDP的丰富理论和应用算法来解决复杂决策问题,以实现智能化、有效率的决策过程。
实施例三:
如图2所示,本发明优选实施例的一种基于蒙特卡洛树搜索算法在混流制造车间调度系统,包括:
采集模块:采集并记录从智能车间一次订单下放起至成品加工完毕的作业数据;
分类处理模块:将采集模块采集的作业数据分类处理成马尔可夫决策数据链;
构建模块:构建多通道输入的卷积神经网络A;
抽取输入模块:将步骤S2中的得到的马尔可夫决策数据链随机抽取k条,将抽取到的数据链中的数据,根据资源属性整合成多通道资源视图状态si,将多通道资源视图状态si输入多通道输入的卷积神经网络A,获得预测价值以及预测概率;
训练模块:构建卷积神经网络B,根据预测价值以及预测概率,使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法,通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型以及最终结果价值FV;
收敛判断模块:判断最终结果价值FV是否收敛,若未收敛则执行抽取输入模块,若收敛则执行调度输出模块;
调度输出模块:调用知识模型,根据制造车间各资源信息的实时数据,匹配车间的实时多通道状态s,对当前任务输出当前最优调度决策。
执行判断模块:根据制造车间各资源信息的实时数据判断当前任务是否执行完成,若还未执行完成,则返回执行调度输出模块,若已完成当前任务则结束运行。
本实施例使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型。蒙特卡洛搜索树算法是一种基于二叉树结构的算法,随机进行扩展,根据UCB公式,选择继续进入的点进行模拟,再回馈,反向更新,继续下一轮迭代。全程过程随机,只根据自身的自学习来进行博弈运算。不需要人类的数据进行训练,且能通过它自身的自学习机制对未来发展的走势进行评估,于是通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法获得的知识模型,可以解决“短视性”和“奖励值设置不准确”问题。从而达到更高效的解决在混流制造车间调度问题。
综上所述本发明实施例提供一种基于蒙特卡洛树搜索算法在混流制造车间调度方法及系统,先采集车间作业数据,将其处理成马尔可夫决策链数据,构建一个多输入通道的卷积神经网络,根据多输入通道的卷积神经网络出的预测价值和预测概率,使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法,对各节点进行扩展、选择、模拟、反向更新与训练,获得知识模型,调用知识模型,根据制造车间各资源信息的实时数据,输出最优调度决策。通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型。蒙特卡洛搜索树算法是一种基于二叉树结构的算法,随机进行扩展,根据UCB公式,选择继续进入的点进行模拟,再回馈,反向更新,继续下一轮迭代。全程过程随机,只根据自身的自学习来进行博弈运算。不需要人类的数据进行训练,且能通过它自身的自学习机制对未来发展的走势进行评估,于是通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法获得的知识模型,可以解决“短视性”和“奖励值设置不准确”问题。从而达到更高效的解决在混流制造车间调度问题。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.基于蒙特卡洛树搜索算法在混流制造车间调度方法,其特征在于,包括以下步骤:
S1:采集并记录从智能车间一次订单下放起至成品加工完毕的作业数据;
S2:将步骤S1采集的作业数据分类处理成马尔可夫决策数据链;
S3:构建多通道输入的卷积神经网络A;
S4:将步骤S2中的得到的马尔可夫决策数据链随机抽取k条,将抽取到的数据链中的数据,根据资源属性整合成多通道资源视图状态si,将多通道资源视图状态si输入多通道输入的卷积神经网络A,获得预测价值以及预测概率;
S5:构建卷积神经网络B,根据预测价值以及预测概率,使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法,通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型以及最终结果价值FV;
S6:判断最终结果价值FV是否收敛,若未收敛则执行步骤S4,若收敛则执行步骤S7;
S7:调用知识模型,根据制造车间各资源信息的实时数据,匹配车间的实时多通道状态s,对当前任务输出当前最优调度决策。
S8:根据制造车间各资源信息的实时数据判断当前任务是否执行完成,若还未执行完成,则返回执行步骤S7,若已完成当前任务则结束运行。
2.根据权利要求1所述基于蒙特卡洛树搜索算法在混流制造车间调度方法,其特征在于,步骤S1中的作业数据,具体为:
在生产过程中通过多种方法采集到的多种资源类型数据,生产过程包括车间物料订单下放、车间工件工艺排产、车间完工结果;作业数据囊括了车间内“人、机、物、法、环”各类资源信息变化;包括物联网实时采集的生产设备的工作状态数据、待加工工件的信息数据、工件排产转移数,也包括其它生产系统导入车间的生产订单数据,物料数据和加工工艺数据。
3.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法,其特征在于,在步骤S2中将步骤S1采集的作业数据分类处理成马尔可夫决策数据链,具体为:
车间从订单下放状态s0开始至完工状态sn结束,按n次调度排产顺序形成逐条马尔可夫决策链数据
其中si为按车间资源类别分类并构建多通道资源视图状态,包括多个状态试图;为基于车间工件在设备间的流转动作;r为在状态si下执行动作/>进入新状态si+1相应的奖励;
一个状态视图包含所有纳入考虑的资源维度状态信息,每个资源维度状态信息以一个矩阵形式的通道状态视图表征,表达式如下:
si=<Pm×c,Mm×c,Wm×c,Fm×c,……,Em×c>,i∈(0,1,2…,n-1)
动作为具体某工件从某道工序设备转移至下道工序设备,以工件θH和加工设备之间的有向流转TrK为表征,表达式如下:
根据调度目标tar和完工结果T契合程度,赋予相应的奖励r。
4.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法,其特征在于,在步骤S3中,构建多通道输入的卷积神经网络A,具体为:
网络具备两个输出端以及隐藏层,其中估值网络OUT-V输出端负责预测状态视图si的预测价值;策略网络OUT-P输出端负责预测状态视图下各动作的预测概率;隐藏层将由卷积层,全连接层,激活层组合而成。
5.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法,其特征在于,在步骤S4中,将多通道资源试图状态输入神经网络的INPUY_LAY端。
6.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法,其特征在于,在步骤S5中,扩展:从某一叶节点出发,根据该叶节点所有使能动作,扩展出对应的子节点;同时,将该叶节点状态S输入卷积神经网络A,根据预测概率,初始化各子节点信息;
选择:根据UCB公式:
选择UCB值最大的子节点进入,同时将子节点状态S_next输入卷积神经网络,由估值网络端OUT-V给出该子节点的预测价值,加载入该子节点的信息中,同时对选择路径上的所有节点进行信息更新,将各节点的模拟收益值V=V(S_next),访问次数N加1。
7.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法,其特征在于,在步骤S5中,模拟:根据预测概率,结合UCB公式,从此叶节点出发,反复模拟扩展选择子状态节点,模拟推进蒙特卡洛树的搜索,直至调度结束,得到最终结果价值FV;同时记录下模拟执行过程中的历史数据。
8.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法,其特征在于,在步骤S5中,反向更新与训练:将预计完工时间沿着选择路径反向传递至各个节点为反向更新过程;训练过程中,从模拟过程产生的历史数据中,根据各子节点访问次数计算出选择子节点的实际遍历概率Real_P,对策略网络OUT-P给出的预测概率和蒙特卡罗树搜索的实际遍历概率Real_P使用交叉信息熵误差,最终结果价值FV与预测价值使用均方和误差,两者一起构成损失函数,训练卷积神经网络B,使其权值得到优化;损失函数公式为:
Loss=(FV-V)2-(JobP)T×log(RealP)+c‖θ‖2
9.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法,其特征在于,在步骤S6中,最终结果价值FV为130-140即为收敛。
10.基于蒙特卡洛树搜索算法在混流制造车间调度系统,其特征在于,包括:
采集模块:采集并记录从智能车间一次订单下放起至成品加工完毕的作业数据;
分类处理模块:将采集模块采集的作业数据分类处理成马尔可夫决策数据链;
构建模块:构建多通道输入的卷积神经网络A;
抽取输入模块:将步骤S2中的得到的马尔可夫决策数据链随机抽取k条,将抽取到的数据链中的数据,根据资源属性整合成多通道资源视图状态si,将多通道资源视图状态si输入多通道输入的卷积神经网络A,获得预测价值以及预测概率;
训练模块:构建卷积神经网络B,根据预测价值以及预测概率,使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法,通过扩展、选择、模拟和反向更新与训练卷积神经网络B,获得知识模型以及最终结果价值FV;
收敛判断模块:判断最终结果价值FV是否收敛,若未收敛则执行抽取输入模块,若收敛则执行调度输出模块;
调度输出模块:调用知识模型,根据制造车间各资源信息的实时数据,匹配车间的实时多通道状态s,对当前任务输出当前最优调度决策。
执行判断模块:根据制造车间各资源信息的实时数据判断当前任务是否执行完成,若还未执行完成,则返回执行调度输出模块,若已完成当前任务则结束运行。
CN202311296594.0A 2023-10-08 2023-10-08 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统 Pending CN117369378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311296594.0A CN117369378A (zh) 2023-10-08 2023-10-08 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311296594.0A CN117369378A (zh) 2023-10-08 2023-10-08 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统

Publications (1)

Publication Number Publication Date
CN117369378A true CN117369378A (zh) 2024-01-09

Family

ID=89403355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311296594.0A Pending CN117369378A (zh) 2023-10-08 2023-10-08 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统

Country Status (1)

Country Link
CN (1) CN117369378A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575287A (zh) * 2024-01-15 2024-02-20 北京家音顺达数据技术有限公司 面向地铁站点的共享式图书借阅流转方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575287A (zh) * 2024-01-15 2024-02-20 北京家音顺达数据技术有限公司 面向地铁站点的共享式图书借阅流转方法及系统
CN117575287B (zh) * 2024-01-15 2024-03-26 北京家音顺达数据技术有限公司 面向地铁站点的共享式图书借阅流转方法及系统

Similar Documents

Publication Publication Date Title
Abdullah et al. Generating university course timetable using genetic algorithms and local search
Chawdhry et al. Soft computing in engineering design and manufacturing
CN111079931A (zh) 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN106897268A (zh) 文本语义理解方法、装置和系统
CN113792924A (zh) 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
Sun et al. A cooperative coevolution algorithm for the seru production with minimizing makespan
CN115099519B (zh) 一种基于多机器学习模型融合的油井产量预测方法
CN117369378A (zh) 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统
Delgado et al. A multiobjective genetic algorithm for obtaining the optimal size of a recurrent neural network for grammatical inference
CN110110447B (zh) 一种混合蛙跳反馈极限学习机带钢厚度预测方法
Wang et al. A cluster-based scheduling model using SPT and SA for dynamic hybrid flow shop problems
MirRokni Applying genetic algorithm in architecture and neural network training
Ettaouil et al. A new architecture optimization model for the Kohonen networks and clustering
Singh et al. A two-warehouse model for deteriorating items with holding cost under inflation and soft computing techniques
Wang et al. A tailored NSGA-III for multi-objective flexible job shop scheduling
CN115906959A (zh) 基于de-bp算法的神经网络模型的参数训练方法
CN116796964A (zh) 一种基于生成对抗模仿学习解决作业车间调度问题的方法
Li et al. An improved whale optimisation algorithm for distributed assembly flow shop with crane transportation
Feyzbakhsh et al. Adam–Eve-like genetic algorithm: a methodology for optimal design of a simple flexible assembly system
CN115220477A (zh) 一种基于量子遗传算法的异构无人机联盟形成方法
Masehian et al. Solving the n-Queens Problem Using a Tuned Hybrid Imperialist Competitive Algorithm.
Zhou et al. Decentralized adaptive optimal control for massive multi-agent systems using mean field game with self-organizing neural networks
CN110298538B (zh) 一种智能车间组合调度控制方法
Ali et al. Balancing search direction in cultural algorithm for enhanced global numerical optimization
Li-li et al. An interactive integrated MCDM based on FANN and application in the selection of logistic center location

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination