CN112734286B

CN112734286B - 一种基于多策略深度强化学习的车间调度方法

Info

Publication number: CN112734286B
Application number: CN202110087655.7A
Authority: CN
Inventors: 吕佑龙; 谭远良; 程辉; 张洁; 左丽玲
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2023-04-07
Anticipated expiration: 2041-01-22
Also published as: CN112734286A

Abstract

本发明公开了一种基于多策略深度强化学习的车间调度方法，其特征在于，包括以下步骤，步骤一、导入随机算例；步骤二、输入MPS，确定各产品所需加工数量；步骤三、根据算例规模大小和MPS设定BAC方法参数；步骤四、进一步改变BAC方法参数进行正交实验，根据实验结果对BAC方法参数进行设置；步骤五、导入和读取目标算例和MPS，循环迭代更新网络；步骤六、通过Actor阶段与Critic阶段之间的循环迭代，输出合理的产品投产序列。

Description

一种基于多策略深度强化学习的车间调度方法

技术领域

本发明涉及一种基于多策略深度强化学习的车间调度方法，用于混流装配线等车间的生产计划优化，属于生产计划领域。

背景技术

随着大规模定制产品需求的日益增加，混流装配线因其以大批量生产的成本和速度同时生产多种产品模型而得到广泛的应用。混流装配线的排序问题，旨在合理安排多种类型产品的生产顺序，实现站间负载均衡和物料稳定消耗的目标，对提高效率水平、保证订单及时交付具有重要意义。因此，生成合理的混流装配线生产排序策略是提高车间生产效率的重要环节。

传统的基于人工规划生产计划的方法对经验依赖过大，生产计划缺乏科学的依据，从而造成资源浪费和成本增加，已不满足实际生产需求。为了能制定更加科学合理的生产计划，需要转向数字化和智能化的生产计划规划方法，利用大数据技术、机器学习技术构建具有自主判断能力的规划模型，合理规划生产计划，以应对复杂多变的市场需求。

针对混流装配线的排序问题，前人通过基于智能方法提出了许多解决方法，但是所提出智能方法对产品投产序列的初始化和方法的参数设定具有很高的要求，特别是，产品投产序列决方案的初始化经常需要足够的随机性，以确保第一代种群的多样性，这很难保持在不同实例时的稳定收敛。

发明内容

本发明要解决的技术问题是以手工装配为主的混流装配线工位过载最小化的问题。

为了解决上述技术问题，本发明的技术方案是提供了一种基于多策略深度强化学习的车间调度方法，包括以下步骤：

步骤一、导入随机算例。

步骤二、输入最小生产集合(Minimum Part Set，MPS)，确定各产品所需加工数量。

步骤三、根据算例规模大小和MPS假设双层策略驱动的演员-评论家(Bi-policy-driven Actor-Critic,BAC)方法参数，包括演员1(Actor1)、演员2(Actor2)以及评论家(Critic)的学习率、遗传代数和种群规模；然后，改变Actor1、Actor2以及Critic网络的隐藏层数和节点数进行网络结构参数实验，根据实验结果对BAC网络结构参数进行设置。

步骤四、在步骤三的基础上，进一步改变BAC方法参数进行正交实验，根据实验结果对BAC方法参数进行设置。

步骤五、导入和读取目标算例和MPS，BAC方法的Actor阶段根据当前工位状态选择合理的产品投产动作，Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态，并对局部排序策略和全局排序策略进行评价更新，一代接着一代循环迭代更新网络。

步骤六、通过Actor阶段与Critic阶段之间的循环迭代，输出合理的产品投产序列。

所述步骤一中的随机算例作为参数实验的算例，为寻找较优的方法参数。

所述步骤二中的MPS根据产品比例变化而改变。

所述步骤三和步骤四中的重要参数是影响计算时间和寻优能力的因素。根据算例规模大小和MPS假设重要因素的水平，并进行参数实验，从而选择影响计算时间和寻优能力的因素水平，提高方法的寻优性能，缩短方法的计算时间。

所述步骤五中的BAC方法是在演员-评论家(Actor-Critic)方法基础上进行改进的，Actor阶段综合考虑局部排序策略和全局排序策略选择投产动作，Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态，并对局部排序策略和全局排序策略进行评价更新。通过Actor阶段与Critic阶段之间的循环迭代，最终生成合理的产品投产序列。综合考虑双层策略选择投产动作，避免方法陷入局部最优。

有益效果：该双层策略驱动的Actor-Critic方法可以更好实现装配线上工位负载分布的全局优化。在产品投产序列中，既以个体为对象，对每一步动作选择的优劣评价进行在线学习，形成局部排序策略，也考虑以种群为对象，在每一代种群结束后，对较优个体的整体动作优劣情况进行周期性学习，形成全局排序策略，通过一代接着一代更新网络以获得合理的产品投产序列，该方法有效避免了陷入局部最优。

附图说明

图1是Actor-Critic方法的结构图一；

图2是Actor-Critic方法的结构图二；

图3是Actor-Critic方法的流程图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

本发明方法为基于多策略深度强化学习的车间调度方法，主要包括以下步骤：

步骤一、导入随机算例。

其中，步骤一中的随机算例作为参数实验的算例，为寻找较优的方法参数。

其中，步骤二中的MPS根据产品比例变化而改变。

步骤三和四中的重要参数是影响计算时间和寻优能力的因素。根据算例规模大小和MPS假设重要因素的水平，并进行参数实验，从而选择影响计算时间和寻优能力的因素水平，提高方法的寻优性能，缩短方法的计算时间。

步骤五中的BAC方法是在演员-评论家(Actor-Critic)方法基础上进行改进的，Actor阶段综合考虑局部排序策略和全局排序策略选择投产动作，Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态，并对局部排序策略和全局排序策略进行评价更新。通过Actor阶段与Critic阶段之间的循环迭代，最终生成合理的产品投产序列。综合考虑双层策略选择投产动作，避免方法陷入局部最优。

图1给出了Actor-Critic方法的基本结构，该方法中Actor和Critic交互迭代，形成由N个阶段组成的马尔可夫决策过程(Markov Decision Process，MDP)，以对环境做出恰当的反应。在每个阶段，Actor部分基于策略梯度的动作选择网络针对环境状态s_n选择行动a_n。Critic部分基于来自环境的动作奖励反馈，利用策略评价网络对特定环境状态下的动作选择进行定量分析。在每个Actor-Critic周期结束时，策略评估网络产生的时序差分误差(Temporal-Difference error，TD error)驱动动作选择网络和策略评估网络的加权参数调整，目的是为更新的环境状态s_n+1选择回报最高的行动a_n+1。在产品模型排序过程中，通过Actor和Critic的循环迭代，生成合理的产品投产序列，以避免工作站的负荷过载，并重复这种交互，直到产品投产序列选完MPS中的所有产品为止。然而，由于Actor的行为取决于Critic的评价值，而Critic以当前状态为主要评价依据，使得传统Actor-Critic方法往往容易陷入局部最优，导致了调度问题收敛结果较差。因此，本发明提出一种双层策略驱动的Actor-Critic方法。

如图2所示，双层策略驱动的Actor-Critic方法设计了考虑个体与种群的双层Actor网络结构，第一层Actor1网络以个体为对象，对每一步动作选择的优劣评价进行在线学习，形成局部排序策略，并针对当前状态给出单步动作策略；第二层Actor2网络以种群为对象，在每一代种群结束后，对较优个体的整体动作优劣情况进行周期性学习，形成全局排序策略，并针对当前状态给出单步动作策略。局部排序策略能不断探索新的动作策略，并为改善全局排序策略提供较优的个体信息；而全局排序策略借鉴遗传方法中的优秀个体信息保留方法，通过全局记忆功能将较优的历史记忆赋值给Actor2网络，增强方法的全局搜索能力以及加快方法收敛速度。从而综合Actor1和Actor2给出的动作策略，选择产品投产动作。

本发明的目的在于解决以手工装配为主的混流装配线工位过载最小化的问题，针对现有技术中存在的技术问题，提供一种基于多策略深度强化学习的车间调度方法，以便对多种产品模型进行合理生产，提高效率水平和产品质量。该车间调度方法的核心是基于深度强化学习设计的双层策略驱动的Actor-Critic方法，该方法从属于车间调度方法的步骤五和六，以生成合理的产品投产序列，如图3所示为双层策略驱动的Actor-Critic方法的流程图，由图2可知，Actor-Critic方法包括12个步骤，是车间调度方法生成产品投产序列的具体算法流程；车间调度方法的步骤五-六根据Actor-Critic方法的12个步骤生成目标算例和目标MPS时的较优产品投产序列：

步骤1、设置Critic网络学习率LR_C、Actor1网络学习率LR_A₁和Actor2网络学习率LR_A₂。

步骤2、第g阶段的初始化,

步骤3、初始化第i个产品投产序列方案，

步骤4、针对环境状态s_n,

选择动作a_n，Actor1和Actor2分别输出选择产品模型m对应动作a_n的概率G_P_nm和概率L_P_nm，

其中T_P_nm表示选择产品模型m对应动作a_n的综合概率，

动作a_n的选择基于T_P_nm，m＝1，2，…，M。

步骤5、基于动作a_n，环境产生新的状态s_n+1和奖励r_n，其中奖励r_n基于最小化工作过载时间的目标。

步骤6、Critic网络根据输入的状态s_n和s_n+1，输出基于值函数的状态值V和V′，并且评价所选动作a_n输出TD error。

TD_error＝r_n+γ*V′-V (3)

其中，V′代表对当前状态s_n+1的期望奖励；V代表对过去状态s_n的期望奖励；γ是折扣率，0<γ<1，表示奖励随着时间的增加而减少。

步骤7、为了使由TD error产生的损失函数最小化，Actor1网络和Critic网络分别以学习率LR_A₁和LR_C更新其加权参数。

步骤8、如果n≥N，全局记忆功能收集解，否则该MDP返回步骤4，并且n＝n+1。

步骤9、如果i≥I，全局记忆功能输出第j个产品投产序列的TD error，

其中，R_gj代表第g个阶段的第j个产品投产序列的总工作过载时间；MinR_g代表前g个阶段所有产品投产序列的总工作过载时间最小值；否则该MDP返回步骤3，并且i＝i+1。

步骤10、Actor2网络根据学习率LR_A₂更新加权参数，使全局记忆功能提供的TDerror产生的损失函数最小化。

步骤11、如果MinR_g＝MinR_g-1，则全局记忆功能输出工作过载时间为MinR_g的产品投产序列解，并且g＝G+1；否则g＝g+1。

步骤12、如果g≤G，该MDP返回步骤2；否则方法结束。

为检验本发明方法的效果，使用python语言对方法进行编程实现，并针对不同规模算例的多组MPS进行实验，以验证方法的性能。其中，实验部分的对比方法采用传统Actor-Critic方法、深度Q网络(Deep Q-Network,DQN)方法、双层深度Q网络(Double DeepQ-Network,doubleDQN)方法以及遗传方法。

首先，针对算例规模大小和MPS，假设网络结构参数和方法参数水平；然后，进行参数实验，并根据实验结果对BAC网络结构参数和BAC方法参数进行设置，以便提高方法的寻优性能和缩短计算时间。

最后，在同一调度环境中，分别用本发明(BAC方法)、传统Actor-Critic方法、DQN方法、double DQN方法以及遗传方法进行产品投产排序，通过对比从小规模到大规模算例的多组MPS实验结果，本发明均具有较优的排序优化性能。

Claims

1.一种基于多策略深度强化学习的车间调度方法，其特征在于，包括以下步骤：

步骤一、导入随机算例；

步骤二、输入最小生产集合MPS，确定各产品所需加工数量；

步骤三、根据算例规模大小和MPS设定双层策略驱动的演员-评论家BAC方法参数，包括Actor1、Actor2以及Critic的学习率、遗传代数和种群规模；然后，改变Actor1、Actor2以及Critic网络的隐藏层数和节点数进行网络结构参数实验，根据实验结果对BAC网络结构参数进行设置；

步骤四、在步骤三的基础上，进一步改变BAC方法参数进行正交实验，根据实验结果对BAC方法参数进行设置；

步骤五、导入和读取目标算例和MPS，BAC方法的Actor阶段根据当前工位状态选择合理的产品投产动作，Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态，并对局部排序策略和全局排序策略进行评价更新，一代接着一代循环迭代更新网络；

步骤六、通过Actor阶段与Critic阶段之间的循环迭代，输出合理的产品投产序列；

所述步骤五和步骤六根据Actor-Critic方法的12个步骤生成目标算例和目标MPS时的较优产品投产序列，具体包括以下子步骤：

步骤ss1、设置Critic网络学习率LR_C、Actor1网络学习率LR_A₁和Actor2网络学习率LR_A₂；

步骤ss2、第g阶段的初始化，

步骤ss3、初始化第i个产品投产序列方案，

步骤ss4、针对环境状态s_n，

其中T_P_nm表示选择产品模型m对应动作a_n的综合概率，

动作a_n的选择基于T_P_nm，m＝1，2，…，M；

步骤ss5、基于动作a_n，环境产生新的状态s_n+1和奖励r_n，其中奖励r_n基于最小化工作过载时间的目标；

步骤ss6、Critic网络根据输入的状态s_n和s_n+1，输出基于值函数的状态值V和V′，并且评价所选动作a_n输出时序差分误差TD error；

TD_error＝r_n+γ*V′-V (3)

其中，V′代表对当前状态s_n+1的期望奖励；V代表对过去状态s_n的期望奖励；γ是折扣率，0＜γ＜1，表示奖励随着时间的增加而减少；

步骤ss7、为了使由TD error产生的损失函数最小化，Actor1网络和Critic网络分别以学习率LR_A₁和LR_C更新其加权参数；

步骤ss8、如果n≥N，全局记忆功能收集解，否则该马尔可夫决策过程MDP返回步骤ss4，并且n＝n+1；

步骤ss9、如果i≥I，全局记忆功能输出第j个产品投产序列的TD error，

其中，R_gj代表第g个阶段的第j个产品投产序列的总工作过载时间；MinR_g代表前g个阶段所有产品投产序列的总工作过载时间最小值；否则该MDP返回步骤ss3，并且i＝i+1；

步骤ss10、Actor2网络根据学习率LR_A₂更新加权参数，使全局记忆功能提供的TDerror产生的损失函数最小化；

步骤ss11、如果MinR_g＝MinR_g-1，则全局记忆功能输出工作过载时间为MinR_g的产品投产序列解，并且g＝G+1；否则g＝g+1；

步骤ss12、如果g≤G，该MDP返回步骤ss2；否则方法结束。

2.根据权利要求1所述的基于多策略深度强化学习的车间调度方法，其特征在于，所述步骤一中的随机算例作为参数实验的算例，为寻找较优的方法参数。

3.根据权利要求1所述的基于多策略深度强化学习的车间调度方法，其特征在于，所述步骤二中的MPS根据产品比例变化而改变。

4.根据权利要求1所述的基于多策略深度强化学习的车间调度方法，其特征在于，所述步骤三和步骤四中的BAC方法参数是影响计算时间和寻优能力的因素；根据算例规模大小和MPS设定BAC方法参数的水平，并进行参数实验，从而选择影响计算时间和寻优能力的因素水平，提高方法的寻优性能，缩短方法的计算时间。

5.根据权利要求1所述的基于多策略深度强化学习的车间调度方法，其特征在于，所述步骤五中的BAC方法基于Actor-Critic方法，Actor阶段综合考虑局部排序策略和全局排序策略选择投产动作，Critic阶段根据工位负载的当前分布与未来期望值分析装配线状态，并对局部排序策略和全局排序策略进行评价更新；通过Actor阶段与Critic阶段之间的循环迭代，最终生成合理的产品投产序列；综合考虑双层策略选择投产动作，避免方法陷入局部最优。