CN117369378A

CN117369378A - 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统

Info

Publication number: CN117369378A
Application number: CN202311296594.0A
Authority: CN
Inventors: 王美林; 梁凯晴; 胡凯航; 李俊煜; 杨国立; 谢兴; 宋烨兴
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-01-09

Abstract

本发明公开一种基于蒙特卡洛树搜索算法在混流制造车间调度方法，先采集车间作业数据，将其处理成马尔可夫决策链数据，构建一个多输入通道的卷积神经网络，根据多输入通道的卷积神经网络出的预测价值和预测概率，使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法，对各节点进行扩展、选择、模拟、反向更新与训练，获得知识模型，调用知识模型，根据制造车间各资源信息的实时数据，输出最优调度决策。本发明通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法获得的知识模型来输出调度决策，提高车间生产效率。

Description

基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统

技术领域

本发明涉及作业车间调度和人工智能算法的技术领域，更具体地，涉及一种基于蒙特卡洛树搜索算法在混流制造车间调度方法及系统。

背景技术

车间调度是混流制造(Hybrid Flow-shop,HFS)车间生产中产生的需求。HFS是一种可满足客户定制需求的大规模生产组织形式，广泛运用于各重点制造业领域。混流制造的生产系统由不同的加工步骤组成，这些步骤的顺序一般是固定的。但生产过程存在许多不确定的动态事件，如设备故障，紧急插单，质量事故等，导致生产过程不能按照预设的流程进行。因此为了消除动态事件对生产过程计划执行的影响，保持生产制造过程的稳定，要对混流制造采取合适的动态调度机制。HFS的自适应调度是非确定性多项式(Non-Deterministic Polynomial,NP)难题。为了优化HFS问题，提出了许多离线或在线解决方案，以实现更高的生产效率。在线调度取决于来自车间的实时反馈。随着智能制造的快速发展，物联网、CPS、AGV等技术被广泛应用，为在线动态调度提供了关键条件。在线调度解决方案以其对动态事件快速响应的优势，已成为主流研究领域。许多学者对此问题进行了深入研究，过往文献多对于自适应车间调度运用DDQN算法解决。而DDQN算法的价值网络在解决制造系统优化调度问题时存在难以收敛的现象，主要原因在于奖励函数为人为设计的，而奖励函数是对某一时刻状态变迁行为的即时评价，是只依靠当前时刻状态信息，无法借鉴未来发展走势的评估，故人为设计的奖励函数不可避免地存在一定的“短视性”和“奖励值设置不准确”的问题，难以引导DDQN智能体向调度优化目标训练。

现有技术公开了一种基于DDQN算法的大规模柔性作业车间调度方法，具体为：首先对大规模调度问题进行形式化表达，包括定义状态特征、动作集、奖励函数；其次为了保证框架有效训练模型，将问题进行分解，并提出动作集及奖励函数反哺特征的方法设计状态特征；选用对完工时间最小化灵敏度高的复合调度规则作为动作集，并设计启发式奖励方法引导算法收敛；最后利用DDQN算法求解大规模柔性作业车间调度问题。该发明能够高效高质地解决大规模柔性作业车间调度问题。然而其依旧存在奖励函数只能依靠当前时刻状态信息，存在一定的“短视性”和“奖励值设置不准确”的问题。

发明内容

本发明的目的在于公开一种更高效的基于蒙特卡洛树搜索算法在混流制造车间调度方法及系统。

为了实现上述目的，本发明的技术方案如下：

S1：采集并记录从智能车间一次订单下放起至成品加工完毕的作业数据；

S2：将步骤S1采集的作业数据分类处理成马尔可夫决策数据链；

S3：构建多通道输入的卷积神经网络A；

S4：将步骤S2中的得到的马尔可夫决策数据链随机抽取k条，将抽取到的数据链中的数据，根据资源属性整合成多通道资源视图状态s_i，将多通道资源视图状态s_i输入多通道输入的卷积神经网络A，获得预测价值以及预测概率；

S5：构建卷积神经网络B，根据预测价值以及预测概率，使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法，通过扩展、选择、模拟和反向更新与训练卷积神经网络B，获得知识模型以及最终结果价值FV；

S6：判断最终结果价值FV是否收敛，若未收敛则执行步骤S4，若收敛则执行步骤S7；

S7：调用知识模型，根据制造车间各资源信息的实时数据，匹配车间的实时多通道状态s，对当前任务输出当前最优调度决策。

S8:根据制造车间各资源信息的实时数据判断当前任务是否执行完成，若还未执行完成，则返回执行步骤S7，若已完成当前任务则结束运行。

进一步地，步骤S1中的作业数据，具体为：

在生产过程中通过多种方法采集到的多种资源类型数据，生产过程包括车间物料订单下放、车间工件工艺排产、车间完工结果；作业数据囊括了车间内“人、机、物、法、环”各类资源信息变化；包括物联网实时采集的生产设备的工作状态数据、待加工工件的信息数据、工件排产转移数，也包括其它生产系统导入车间的生产订单数据，物料数据和加工工艺数据。

进一步地，在步骤S2中将步骤S1采集的作业数据分类处理成马尔可夫决策数据链，具体为：

车间从订单下放状态s₀开始至完工状态s_n结束，按n次调度排产顺序形成逐条马尔可夫决策链数据

其中s_i为按车间资源类别分类并构建多通道资源视图状态，包括多个状态试图；为基于车间工件在设备间的流转动作；r为在状态s_i下执行动作/>进入新状态s_i+1相应的奖励；

一个状态视图包含所有纳入考虑的资源维度状态信息，每个资源维度状态信息以一个矩阵形式的通道状态视图表征，表达式如下：

s_i＝<P_m×c,M_m×c,W_m×c,F_m×c,……,E_m×c＞,i∈(0,1,2…,n-1)

动作为具体某工件从某道工序设备转移至下道工序设备，以工件θ_H和加工设备之间的有向流转Tr_K为表征，表达式如下：

根据调度目标tar和完工结果T契合程度，赋予相应的奖励r。

进一步地，在步骤S3中，构建多通道输入的卷积神经网络A，具体为：

网络具备两个输出端以及隐藏层，其中估值网络OUT-V输出端负责预测状态视图s_i的预测价值；策略网络OUT-P输出端负责预测状态视图下各动作的预测概率；隐藏层将由卷积层，全连接层，激活层组合而成。

进一步地，在步骤S4中，将多通道资源试图状态输入神经网络的INPUY_LAY端。

进一步地，在步骤S5中，扩展：从某一叶节点出发，根据该叶节点所有使能动作，扩展出对应的子节点；同时，将该叶节点状态S输入卷积神经网络A，根据预测概率，初始化各子节点信息；

选择：根据UCB公式：

选择UCB值最大的子节点进入，同时将子节点状态S_next输入卷积神经网络，由估值网络端OUT-V给出该子节点的预测价值，加载入该子节点的信息中，同时对选择路径上的所有节点进行信息更新，将各节点的模拟收益值V＝V(S_next),访问次数N加1。

进一步地，在步骤S5中，模拟：根据预测概率，结合UCB公式，从此叶节点出发，反复模拟扩展选择子状态节点，模拟推进蒙特卡洛树的搜索，直至调度结束，得到最终结果价值FV；同时记录下模拟执行过程中的历史数据。

进一步地，在步骤S5中，反向更新与训练：将预计完工时间沿着选择路径反向传递至各个节点为反向更新过程；训练过程中，从模拟过程产生的历史数据中，根据各子节点访问次数计算出选择子节点的实际遍历概率Real_P，对策略网络OUT-P给出的预测概率和蒙特卡罗树搜索的实际遍历概率Real_P使用交叉信息熵误差，最终结果价值FV与预测价值使用均方和误差，两者一起构成损失函数，训练卷积神经网络B，使其权值得到优化；损失函数公式为：

Loss＝(FV-V)²-(Job_P)^T×log(Real_P)+c‖θ‖²

进一步地，在步骤S6中，最终结果价值FV为130-140即为收敛。

此外本发明还提供一种基于蒙特卡洛树搜索算法在混流制造车间调度系统，其特征在于，包括：

采集模块：采集并记录从智能车间一次订单下放起至成品加工完毕的作业数据；

分类处理模块：将采集模块采集的作业数据分类处理成马尔可夫决策数据链；

构建模块：构建多通道输入的卷积神经网络A；

抽取输入模块：将步骤S2中的得到的马尔可夫决策数据链随机抽取k条，将抽取到的数据链中的数据，根据资源属性整合成多通道资源视图状态s_i，将多通道资源视图状态s_i输入多通道输入的卷积神经网络A，获得预测价值以及预测概率；

训练模块：构建卷积神经网络B，根据预测价值以及预测概率，使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法，通过扩展、选择、模拟和反向更新与训练卷积神经网络B，获得知识模型以及最终结果价值FV；

收敛判断模块：判断最终结果价值FV是否收敛，若未收敛则执行抽取输入模块，若收敛则执行调度输出模块；

调度输出模块：调用知识模型，根据制造车间各资源信息的实时数据，匹配车间的实时多通道状态s，对当前任务输出当前最优调度决策。

执行判断模块:根据制造车间各资源信息的实时数据判断当前任务是否执行完成，若还未执行完成，则返回执行调度输出模块，若已完成当前任务则结束运行。

与现有技术相比，本发明技术方案的有益效果是：

本发明使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法通过扩展、选择、模拟和反向更新与训练卷积神经网络B，获得知识模型。蒙特卡洛搜索树算法是一种基于二叉树结构的算法，随机进行扩展，根据UCB公式，选择继续进入的点进行模拟，再回馈，反向更新，继续下一轮迭代。全程过程随机，只根据自身的自学习来进行博弈运算。不需要人类的数据进行训练，且能通过它自身的自学习机制对未来发展的走势进行评估，于是通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法获得的知识模型，可以解决“短视性”和“奖励值设置不准确”问题。从而达到更高效的解决在混流制造车间调度问题。

附图说明

图1为实施例1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法的流程图；

图2为实施例3所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法的框架图；

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例一：

如图1所示，本发明优选实施例的一种基于蒙特卡洛树搜索算法在混流制造车间调度方法，包括以下步骤：

S3：构建多通道输入的卷积神经网络A；

本实施例使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法通过扩展、选择、模拟和反向更新与训练卷积神经网络B，获得知识模型。蒙特卡洛搜索树算法是一种基于二叉树结构的算法，随机进行扩展，根据UCB公式，选择继续进入的点进行模拟，再回馈，反向更新，继续下一轮迭代。全程过程随机，只根据自身的自学习来进行博弈运算。不需要人类的数据进行训练，且能通过它自身的自学习机制对未来发展的走势进行评估，于是通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法获得的知识模型，可以解决“短视性”和“奖励值设置不准确”问题。从而达到更高效的解决在混流制造车间调度问题。

实施例二：

本实施例在实施例一的基础上，继续公开以下内容：

步骤S1中的作业数据，具体为：

在步骤S2中将步骤S1采集的作业数据分类处理成马尔可夫决策数据链，具体为：

s_i＝<P_m×c,M_m×c,W_m×c,F_m×c,……,E_m×c＞,i∈(0,1,2…,n-1)

根据调度目标tar和完工结果T契合程度，赋予相应的奖励r。

在步骤S3中，构建多通道输入的卷积神经网络A，具体为：

在步骤S4中，将多通道资源试图状态输入神经网络的INPUY_LAY端。

在步骤S5中，扩展：从某一叶节点出发，根据该叶节点所有使能动作，扩展出对应的子节点；同时，将该叶节点状态S输入卷积神经网络A，根据预测概率，初始化各子节点信息；

选择：根据UCB公式：

在步骤S5中，模拟：根据预测概率，结合UCB公式，从此叶节点出发，反复模拟扩展选择子状态节点，模拟推进蒙特卡洛树的搜索，直至调度结束，得到最终结果价值FV；同时记录下模拟执行过程中的历史数据。

在步骤S5中，反向更新与训练：将预计完工时间沿着选择路径反向传递至各个节点为反向更新过程；训练过程中，从模拟过程产生的历史数据中，根据各子节点访问次数计算出选择子节点的实际遍历概率Real_P，对策略网络OUT-P给出的预测概率和蒙特卡罗树搜索的实际遍历概率Real_P使用交叉信息熵误差，最终结果价值FV与预测价值使用均方和误差，两者一起构成损失函数，训练卷积神经网络B，使其权值得到优化；损失函数公式为：

Loss＝(FV-V)²-(Job_P)^T×log(Real_P)+c‖θ‖²

在步骤S6中，最终结果价值FV为130-140即为收敛。

本实施例将数据分类处理成马尔可夫决策数据链(Markov Decision Process,MDP)，这个过程可以描述具有不确定性的序列决策问题，并通过决策优化方法实现最优决策策略。MDP适用于序列决策问题的求解，能够考虑当前决策对未来状态和奖励的影响，同时通过模型学习和算法求解来实现模型泛化和问题求解。通过将数据分类处理成MDP，可以利用MDP的丰富理论和应用算法来解决复杂决策问题，以实现智能化、有效率的决策过程。

实施例三：

如图2所示，本发明优选实施例的一种基于蒙特卡洛树搜索算法在混流制造车间调度系统，包括:

构建模块：构建多通道输入的卷积神经网络A；

综上所述本发明实施例提供一种基于蒙特卡洛树搜索算法在混流制造车间调度方法及系统，先采集车间作业数据，将其处理成马尔可夫决策链数据，构建一个多输入通道的卷积神经网络，根据多输入通道的卷积神经网络出的预测价值和预测概率，使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法，对各节点进行扩展、选择、模拟、反向更新与训练，获得知识模型，调用知识模型，根据制造车间各资源信息的实时数据，输出最优调度决策。通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法通过扩展、选择、模拟和反向更新与训练卷积神经网络B，获得知识模型。蒙特卡洛搜索树算法是一种基于二叉树结构的算法，随机进行扩展，根据UCB公式，选择继续进入的点进行模拟，再回馈，反向更新，继续下一轮迭代。全程过程随机，只根据自身的自学习来进行博弈运算。不需要人类的数据进行训练，且能通过它自身的自学习机制对未来发展的走势进行评估，于是通过使用以蒙特卡洛搜索树算法为奖励函数的DDQN算法获得的知识模型，可以解决“短视性”和“奖励值设置不准确”问题。从而达到更高效的解决在混流制造车间调度问题。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于蒙特卡洛树搜索算法在混流制造车间调度方法，其特征在于，包括以下步骤：

S3：构建多通道输入的卷积神经网络A；

2.根据权利要求1所述基于蒙特卡洛树搜索算法在混流制造车间调度方法，其特征在于，步骤S1中的作业数据，具体为：

3.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法，其特征在于，在步骤S2中将步骤S1采集的作业数据分类处理成马尔可夫决策数据链，具体为：

s_i＝<P_m×c,M_m×c,W_m×c,F_m×c,……,E_m×c>,i∈(0,1,2…,n-1)

根据调度目标tar和完工结果T契合程度，赋予相应的奖励r。

4.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法，其特征在于，在步骤S3中，构建多通道输入的卷积神经网络A，具体为：

5.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法，其特征在于，在步骤S4中，将多通道资源试图状态输入神经网络的INPUY_LAY端。

6.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法，其特征在于，在步骤S5中，扩展：从某一叶节点出发，根据该叶节点所有使能动作，扩展出对应的子节点；同时，将该叶节点状态S输入卷积神经网络A，根据预测概率，初始化各子节点信息；

选择：根据UCB公式：

7.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法，其特征在于，在步骤S5中，模拟：根据预测概率，结合UCB公式，从此叶节点出发，反复模拟扩展选择子状态节点，模拟推进蒙特卡洛树的搜索，直至调度结束，得到最终结果价值FV；同时记录下模拟执行过程中的历史数据。

8.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法，其特征在于，在步骤S5中，反向更新与训练：将预计完工时间沿着选择路径反向传递至各个节点为反向更新过程；训练过程中，从模拟过程产生的历史数据中，根据各子节点访问次数计算出选择子节点的实际遍历概率Real_P，对策略网络OUT-P给出的预测概率和蒙特卡罗树搜索的实际遍历概率Real_P使用交叉信息熵误差，最终结果价值FV与预测价值使用均方和误差，两者一起构成损失函数，训练卷积神经网络B，使其权值得到优化；损失函数公式为：

Loss＝(FV-V)²-(Job_P)^T×log(Real_P)+c‖θ‖²。

9.根据权利要求1所述的基于蒙特卡洛树搜索算法在混流制造车间调度方法，其特征在于，在步骤S6中，最终结果价值FV为130-140即为收敛。

10.基于蒙特卡洛树搜索算法在混流制造车间调度系统，其特征在于，包括：

构建模块：构建多通道输入的卷积神经网络A；