CN112734172B

CN112734172B - 一种基于时序差分的混合流水车间调度方法

Info

Publication number: CN112734172B
Application number: CN202011568657.XA
Authority: CN
Inventors: 陆宝春; 陈志峰; 顾钱; 翁朝阳; 张卫; 张哲�
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-04-01
Anticipated expiration: 2040-12-25
Also published as: CN112734172A; WO2022135066A1

Abstract

本发明公开了一种基于时序差分的深度强化学习算法，用以求解相关并行机的混合流水车间调度问题，该算法将卷积神经网络与强化学习中的TD学习进行结合，依据输入的状态特征进行行为选取，更加符合实际订单响应式生产制造系统的调度决策过程。通过把调度问题转化为多阶段决策问题，用卷积神经网络模型拟合状态价值函数，把制造系统加工状态特征数据输入模型，采用时序差分法训练模型，将启发式算法或分配规则作为调度决策候选行为，结合强化学习奖惩机制，为每次调度决策选取最优组合行为策略。与现有技术相比，本发明提出的算法具有实时性强、灵活性高等优势。

Description

一种基于时序差分的混合流水车间调度方法

技术领域

本发明属于混合流水车间调度控制技术，具体涉及一种基于时序差分的混合流水车间调度方法。

背景技术

混合流水车间调度问题(Hybrid flow-shop scheduling problem，HFSP)，又称柔性流水车间调度问题，由Salvador在1973年首先提出，该问题可以看作是经典流水车间调度问题与并行机调度问题的结合，其特征是工件在加工过程中存在并行机阶段，在确定工件加工顺序的同时进行机器分配。在HFSP问题中，至少有一个阶段中处理机的个数大于1，这大大增加了HFSP的求解难度，已证明处理机数分别为2和1的两阶段的HFSP是NP-hard问题。

目前，精确算法、启发式和元启发式算法是求解流水车间调度问题的三类经典方法。精确算法包括数学建模、分支定界法，能获得小规模问题的最优解；对于大规模实际调度问题，启发式算法或元启发式算法因能在较短的时间获得近优解而受到研究者的关注。然而，启发式算法或元启发式算法是针对具体实例设计相应的规则和算法，不适应于复杂多变的实际生产环境。强化学习算法可以产生适应实际生产状态的调度策略。Wei Y,ZhaoM通过定义“生产压力”特征值和两步调度规则，将Q学习用于作业车间的组合分配规则选取，但该方法采用的表格型强化学习模型并不能描述实际复杂加工过程。张志聪、郑力给每台机器定义15个状态特征，利用TD法训练线性状值函数泛化器求解NPFS问题，但线性函数泛化器拟合和泛化能力有限。

总结分析现有的研究成果，有关混合流水车间调度问题的研究主要存在以下问题：

(1)传统调度算法不能有效利用历史数据进行学习，且实时性较差而难以应对大规模复杂多变的实际生产调度环境。

(2)目前，虽然传统的HFSP的研究已经很成熟，但对于运用强化学习求解混合流水车间问题的研究很少且存在难以表征加工环境以及函数泛化器功能有限等问题。

(3)深度强化学习算法可以解决函数泛化器功能有限的问题，卷积神经网络的权重共享策略减少了需要训练的参数，相同的权值可以让滤波器不受信号位置的影响来检测信号的特性，使得训练出来的模型的泛化能力更强，但是国内外有关深度强化学习算法解决车间调度问题的研究较少。

发明内容

本发明的目的在于提供一种基于时序差分的混合流水车间调度方法，用以解决相关并行机的混合流水车间调度问题。

实现本发明目的的技术解决方案为：本发明所述的一种基于时序差分的混合流水车间调度方法，以最小化加权平均完工时间为调度目标，结合神经网络和强化学习，采用时序差分法训练模型，利用已有的调度知识和经验规则提炼调度决策候选行为，结合强化学习在线评价-执行机制，从而为调度系统的每次调度决策选取最优组合行为策略，具体包括如下步骤：

步骤1：根据混合流水车间的生产特征获得生产约束和目标函数，并引入机器状态特征，构建混合流水车间调度环境，并进行初始化设置，初始化容量为N的经验记忆库D，随机初始化状态价值深度神经网络V(θ)及目标网络V(θ^-)，以实现与智能体的交互，转入步骤2；

步骤2：智能体以ε的概率随机选择一个行为a_t或是根据执行行为后的状态价值选择当前最优行为a_t，执行最优行为后得到奖励r_t+1和下一个状态s_t+1，将当前状态的状态特征、执行该行为得到奖励r_t+1和下一个状态s_t+1的状态特征，以及是否到达终止状态记为单步状态转移(φ_t,r_t+1,φ_t+1,is_end)，将得到的单步状态转移存储至记忆库D中，根据TD-error计算比例存至优先级队列P，转入步骤3；

步骤3：判断记忆库D中的单步状态转移数量是否达到设定的阈值Batch_Size：

若达到设定的阈值Batch_Size，则转入步骤4；

若没有达到设定的阈值Batch_Size，则重复步骤2；

步骤4：随机从D中提取一定数量的单步状态转移，用下一状态和执行对应行为获得的奖励来计算当前状态的目标价值，计算目标价值与网络输出价值之间的均方差代价，使用小批量梯度下降算法更新参数，进入步骤5；

步骤5：判断当前智能体是否到达结束状态，若达到，进入步骤6；若没有，重复步骤2；

步骤6：判断调度系统是否经历过Max_Episode个完整的状态转移序列：

若达到，则进行步骤7；

若没有达到，初始化调度环境，重置机器与工件的状态，重复步骤2；

步骤7：输出最优状态序列对应的行为策略组合a₁,a₂,…。

本发明与现有技术相比，其显著优点在于：

(1)本发明提出一种基于TD学习的深度强化学习算法，采用双网络结构的卷积神经网络，将动作选择和价值估计分开，利用CNN的深层卷积计算的优势，可以有效避免过高估计。

(2)由于将强化学习应用于混合流水车间调度问题后，其行为空间为多维离散空间，不适合继续采用基于一维离散行为值函数的Q学习。因此，本发明设计基于状态值更新的算法模型来求解多维离散空间，使得其可以求解混合流水车间调度问题。采取浅层采样的TD学习求解状态价值，其不依赖于完整的状态序列，通过前探式的尝试选择最优动作，其从原理上更加符合实际调度过程，在解决大规模问题或是动态问题上更加合适。

(3)本发明在选择样本训练时引入随机优先级采样方法，可以有效解决算法由于贪心优先级造成的在函数逼近过程中频繁的有一个较高的error以及过拟合的问题。

附图说明

图1是本发明提出算法CTDN与DQN网络结构及拟合函数对比图。

图2是规模4×4×3的混合流水车间CTDN算法运行模型图。

图3是本发明所使用的卷积神经网络结构图。

图4是小规模问题的最优调度甘特图。

图5是实例tai_20_10_2甘特图。

图6是实例tai_20_10_2运行迭代图。

图7是本发明的基于时序差分的混合流水车间调度方法流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图7，本发明所述的一种基于时序差分的混合流水车间调度方法，步骤如下：

步骤1：根据混合流水车间的生产特征获得生产约束和目标函数，并引入机器状态特征，构建混合流水车间调度环境，并进行初始化设置，初始化容量为N的经验记忆库D，随机初始化状态价值深度神经网络V(θ)及目标网络V(θ^-)，以实现与智能体的交互，转入步骤2。

进一步地，步骤1所述的调度系统目标函数为最小化加权平均完工时间，其最小加权平均完工时间目标函数

其中w_j为工件j的权重值，即订单的优先级，c_j为工件j的完工时间。平均完工时间指标可以用来衡量中间品库存水平和一批次工件的加工周期，对企业具有重要的实际意义。

进一步地，步骤1所述的机器状态特征定义如表1所示，通过引入适当的参数，选取恰当描述状态的特征，构建一定的函数来近似计算得到状态，其表征了某状态下的机器和工件信息。混合流水车间中第i台机器M_i的第k个特征记作f_i,k，l表示工序总数，对于前l-1道工序的所属机器，共定义13个实值特征f_i,k，其中1≤k≤13，对于第l道工序所属机器共定义9个实值特征f_i,k，其中1≤k≤9，所定义的状态特征集共同了揭示环境所处的全局和局部信息，如表1所示。

状态特征的定义如表1所示：

表1机器状态特征定义表

在此对表1中使用到的参数做统一说明：i表示第i台机器，q表示第q道工序，m表示机器总数，l表示工序总数，Q_q表示第q道工序的等待队列，n表示第q道工序共有n件待加工工件，p_q表示第q道工序所有待加工工件的平均加工时间，p_q,j表示第q道工序的第j件工件的加工时间。

状态特征1表征了工件在生产流水线上每道工序的分布情况；状态特征2表征了当前时刻下每道工序设备的工作负载；状态特征3表征了从当前时刻起每道工序机器要完成的工作总量；状态特征4，5描述了当前各个等待队列中工序加工时间的最值；状态特征6表示设备中在制品的已加工时间，从而表征设备的运行或空闲，以及工件加工进度；状态特征7，8表示工件等待队列中剩余完工时间的最值；状态特征9表征了从开始加工到当前时刻各机器的利用率；状态特征10，11表示工件等待队列中工件在当前工序的加工时间与在下一道工序的加工时间之比的最值；状态特征12，13表示工件后继工序所需加工时间的最值。

进一步地，所述步骤2具体步骤如下：

步骤21：为保证能做到持续的探索，采用ε-贪婪策略，通过设置一个较小的ε值，使用1-ε的概率贪婪的选择在当前可选行为集下，选择根据状态价值卷积神经网络所求得的下一状态的状态价值与执行该行为所获奖励之和最大值对应的行为

其中A(s)为可选行为集，γ为衰减系数，

为智能体执行行为a获得的奖励，φ_i+1表示执行行为a到达状态θ^-的状态特征，V(φ_i+1)表示根据状态价值网络求得的下一状态的状态价值，而用ε的概率随机从所有可选行为集中选择行为；

步骤22：若当前时刻调度系统需要为多个工序指定工件加工，根据步骤21为某一工序选择行为

后，调度系统前探式的执行行为

则调度系统状态转移到临时状态

重复步骤21，为机器选择行为，直至全部选择完毕；那么此时，调度系统在当前状态下所执行的行为为多维行为；

步骤23：获得多维行为后，调度系统执行此多维行为，智能体得到奖励r_t+1和下一个状态s_t+1，将单步状态转移存入记忆库D中，而后先计算TD-error，其计算公式为ξ_i＝R_t+1+γV(S_t+1)-V(S_t)，其中γ为衰减系数，R_t+1为单步状态转移内的奖励、V(S_t+1)为下一状态的状态价值、V(S_t)为当前状态价值，然后按照p_i＝|ξ_i|+β计算优先级概率存至优先级队列P，其中ξ_i为上文计算的TD-error，β是一个很小的正常数，这是为了使有一些TD-error为0的特殊边缘例子也能够被抽取。

其中步骤21的奖励R的定义与调度系统目标函数直接或间接相关。为了使调度系统能对订单的紧急程度做出响应，本发明采取的调度目标是最小化加权平均完工时间，智能体能因为更短的加权平均完工时间而获得更大的奖励。

考虑到加权平均完工时间与工件状态紧密相关，定义表示工件状态的示性函数δ_j(τ)如下：

报酬函数定义如下：

式中num为工件总数，w_j为工件j的权重值，t为调度系统的时刻节点。r_u表示相邻两个决策点(第u-1个决策点与第u个决策点)之间各工件的加权完工时间(等待时间与加工时间之和之和)。报酬函数具备此性质：最小化目标函数等价于最大化一个完整的状态序列所获取的累积奖励R。证明过程如下：

式中：C_j表示第j个工件的总完工时间，由式可知，平均加权完工时间越小，总奖励越大。因此上述定义的报酬函数能够将报酬函数和调度目标直接联系起来，直接反映行为对目标函数的长期影响。

其中步骤21中机器可选行为集的定义如表2所示。依据简单构造启发式算法给每台机器定义候选行为集，优先分配规则用于强化学习可以克服短视的天性。与状态相关或无关的行为都应该被采纳，以充分利用现有调度规则、理论和智能体从经验中学习的能力。因此，本发明选取了最小化加权完工时间目标中常用的13种行为，如表2所示。

表2每台机器的候选行为集

由于生产过程中部分工序存在并行机，因此，行为的定义不仅要考虑选择哪个工件，还要考虑把选取的工件分配给哪台空闲机器加工。本发明研究的调度问题为相同并行机调度问题，即此并行机工序下所有机器对于同一工件的加工时间相同，故对于空闲机器的选择在理想状态下并不会对工件的加工周期产生影响，为了平衡机器利用率，因此根据瓶颈工序机器负荷最小原则选取空闲机器。

行为14，选择并行机中机器总加工时长最短的机器加工工件。

式中I为工序中的空闲机器集合，J为机器M_i已加工的工件集合。对于只有一台加工机器的工序，前l-1道工序的所属机器能够采取的行为集合是{a_k|1≤k≤13}，第l道工序所属机器能够采取的行为集合是{a_k|1≤k≤8,13}。对于存在并行机的工序，若其非最后一道工序，调度系统采取的行为集合是{(a₁₄,a_k)|1≤k≤13}，若为最后一道工序，调度系统采取的行为集合是{(a₁₄,a_k)|1≤k≤8,13}，对于未被选择的空闲机器则继续采取行为a₁₃。

若达到设定的阈值Batch_Size，则转入步骤4；

若没有达到设定的阈值Batch_Size，则重复步骤2；

进一步地，步骤4具体步骤如下：

步骤41：根据TD-error计算的比例权重从D中提取一定数量的单步状态转移，采用公式

计算当前的目标价值，其中y_i表示求得的当前状态价值，γ表示衰减系数，r_i+1表示单步状态转移内行为的奖励，φ_i+1表示单步状态转移内下一个状态s_t+1的状态特征，V(φ_i+1；θ^-)表示根据目标网络求得的下一状态的状态价值；

步骤42：再计算目标价值与网络输出价值之间的均方差代价，

其中loss为所求的均方差代价，h为Batch_Size，y_i表示上面求得的当前状态价值，φ_i+1表示单步状态转移内下一个状态s_t+1的状态特征，V(φ_i+1；θ)表示根据状态价值网络求得的下一状态的状态价值，使用小批量梯度下降算法更新网络参数与优先级队列；

步骤43：使用小批量梯度下降算法更新状态价值网络参数，每T步更换目标网络价值。

其中步骤41采用优先回放的概率分布采样时，首先根据公式

计算比例，其中p_i表示样本的优先级概率，h为Batch_Size，然后根据比例权重随机从D中选取Batch_Size个样本。

若达到，则进行步骤7；

步骤7：输出最优状态序列对应的行为策略组合a₁,a₂,…。

下面结合附图对本发明做进一步的介绍：

如图1所示，DQN算法在深度神经网络输出层有若干个节点，每个节点直接对应某个行为值，而一维的行为动作不能表达多维行为空间，且采用异策略的Q学习在评价行为值时用最优值替代实际交互值容易造成了过高估计。因此，提出采用TD学习代替Q学习，基于状态值间接计算行为值，适用于多维行为空间。并且采用卷积神经网络替换深度BP神经网络，利用CNN权重共享策略减少了需要训练的参数，池化运算可以降低网络的空间分辨率，从而消除信号的微小偏移和扭曲，从而对输入数据的平移不变性要求不高。二者不同之处体现在网络结构和其拟合的价值函数不同。

为了能更好的理解状态转移机制，本发明以规模为n＝4，m＝4，l＝3的混合流水车间调度问题为例说明算法的运行过程。如图2所示，图中三角形表示工件，长方体表示机器，矩形表示每道工序前的等待队列。

在系统开始阶段，初始状态为s₀，此时所有机器处于空闲状态，并且所有工件位于第一道工序的等待队列Q₁。系统运行后，第一道工序的机器选择一个动作a_k，即选择此工序等待队列中某个工件进行加工，其他工序的机器由于等候加工队列为空，选择行为a₁₃。当有机器完成工件的加工，系统转移到一个新的状态s_t，状态转移触发，系统为每台机器选择一个可行行为，之后当又有机器完成加工时，系统转移到下一个状态s_t+1，智能体获得奖励r_t+1。当工件进入并行机工序，系统根据当前状态从等待队列选取工件，并从工序空闲机器队列中选择机器加工。由于在每个决策点每台机器同时选择一个行为执行，实际上系统在状态实施了一次由m个子行为组合而成的多维行为(a₁,a₂,...a_m)。当系统到达终止状态时，代表每个等待队列都为空，即所有工件全部加工完成，系统获得一个调度方案。

实施例

参数选择可能影响求解质量，有一般性原则可以遵循。折扣因子γ衡量后续状态值对总回报的权重，因此一般取值接近1，设γ＝0.95；ε-贪心策略中应先让ε从大变小，以便在初始阶段充分探索策略空间，结束阶段利用所得最优策略，因此初始ε＝1，并以0.995的折扣率指数衰减；设学习率α＝0.02，最大交互次数MAX_EPISODE＝1000；记忆体D容量N＝6000，采样批量BATCH_SIZE＝256；智能体卷积神经网络结构如图3所示，网络参数采取随机初始化策略。

(1)小规模问题

小规模问题以某10×8×6的调度问题为例检验算法的可行性。实例中包含10个工件、8台机器，每个工件需经过6道生产工序，在第三道、第五道工序存在并行机，各有相同的两台设备可供调度。该实例具体数据如表3所示。其中，工件优先级基准为1，为了测试设置的工件优先级对调度方案的影响，考虑对Job3、Job5、Job8的优先级权重系数随机取不同数值，分别为1.2、1.5、1.3，以测试权重对调度结果的影响效果。

表3 10×8×6的调度问题实例数据

机器的分布情况为{1,2,[3,4],5,[6,7],8}。采用本发明算法与部分传统算法求解实例的结果如表4所示，表中的较优解加粗表示。由表4可见，本发明算法相较于传统算法能够获得较优解，其解对应的甘特图如图4所示，图中红色竖直线表示调度系统的各个决策节点。本算法最优解相较于IDE算法和HOMA算法效率分别提升4.3％和3.9％。

表4小规模测试实例结果对比图

由图可知，工件优先级高的Job5、Job8、Job3先被加工，工件优先级越高的工件，将会优先进行加工，可见上文设定的报酬函数能够反映目标函数。

(2)大规模问题

本发明随机从[OR_Library]实例集中选取15个示例用于实验测试，并与候鸟优化算法(MBO)及比较算法进行对比，如表5所示，表中较优结果用加粗字体表示。

表5大规模实例对比结果

由表5可知，相比与其它算法，本算法提出的CTDN算法可以获得较优的解，某些实例的解已经低于原实例的上界。深度神经网络需要花费一定时间进行训练，但训练完成的网络可以快速根据输入的状态价值在极短时间内得出最优行为。

图5为实例tai_20_10_2在本发明算法下求得最优策略对应的甘特图。图中红色竖直虚线代表调度决策点，即工件完成每道工序的时间点。

图6为实例tai_20_10_2下加权平均完工时间随着训练进行的变化图。从图中趋势可以看出，调度目标值随着episode的不断循环逐渐减小。一开始，智能体处于完全陌生的环境，通过自主的随机行为选择不断的进行学习试错，随着ε值不断地衰减，智能体倾向于采取模型给出的最优选择，从而使得系统不断向目标方向迈进，在900次迭代内，能获得较优解。

Claims

1.一种基于时序差分的混合流水车间调度方法，其特征在于：以最小化加权平均完工时间为调度目标，结合神经网络和强化学习，采用时序差分法训练模型，利用已有的调度知识和经验规则提炼调度决策候选行为，结合强化学习在线评价-执行机制，从而为调度系统的每次调度决策选取最优组合行为策略，具体包括如下步骤：

步骤2：智能体以ε的概率随机选择一个行为a_t或是根据执行行为后的状态价值选择当前最优行为a_t，执行最优行为后得到奖励r_t+1和下一个状态s_t+1，将当前状态的状态特征、执行该行为得到奖励r_t+1、下一个状态s_t+1的状态特征，以及是否到达终止状态共同记为单步状态转移(φ_t,r_t+1,φ_t+1,is_end)，将得到的单步状态转移存储至记忆库D中，根据TD-error计算比例存至优先级队列P，转入步骤3；

若达到设定的阈值Batch_Size，则转入步骤4；

若没有达到设定的阈值Batch_Size，则重复步骤2；

步骤4：随机从记忆库D中提取一定数量的单步状态转移，用下一状态和执行对应行为获得的奖励来计算当前状态的目标价值，计算目标价值与网络输出价值之间的均方差代价，使用小批量梯度下降算法更新参数，进入步骤5；

若达到，则进行步骤7；

步骤7：输出最优状态序列对应的行为策略组合a₁,a₂,…。

2.根据权利要求1所述的基于时序差分的混合流水车间调度方法，其特征在于：所述步骤1中，机器状态特征如下：

混合流水车间中第i台机器M_i的第k个特征记作f_i,k，l表示工序总数，对于前l-1道工序的所属机器，共定义13个实值特征f_i,k，其中1≤k≤13，对于第l道工序所属机器共定义9个实值特征f_i,k，其中1≤k≤9，所定义的状态特征集共同了揭示环境所处的全局和局部信息；

状态特征的定义如表1所示：

表1机器状态特征定义表

在此对表中使用到的参数做统一说明：q表示第q道工序，m表示机器总数，l表示工序总数，Q_q表示第q道工序的等待队列，n表示第q道工序共有n件待加工工件，p_q表示第q道工序所有待加工工件的平均加工时间，p_q,j表示第q道工序的第j件工件的加工时间，J_j表示等待队列Q_q中的工件。

3.根据权利要求1所述的基于时序差分的混合流水车间调度方法，其特征在于：步骤2中，智能体以ε的概率随机选择一个行为a_t或是根据执行行为后的状态价值选择当前最优行为a_t，执行最优行为后得到奖励r_t+1和下一个状态s_t+1，将当前状态的状态特征、执行该行为得到奖励r_t+1和下一个状态s_t+1的状态特征，以及是否到达终止状态记为单步状态转移(φ_t,r_t+1,φ_t+1,is_end)，将得到的单步状态转移存储至记忆库D中，根据TD-error计算比例存至优先级队列P，具体如下：

步骤21：采用ε-贪婪策略，通过设置一个较小的ε值，使用1-ε的概率贪婪的选择在当前可选行为集下，选择根据状态价值卷积神经网络所求得的下一状态的状态价值与执行该行为所获奖励之和最大值对应的行为

其中A(s)为可选行为集，γ为衰减系数，

后，调度系统前探式的执行行为

则调度系统状态转移到临时状态

步骤23：获得多维行为后，调度系统执行此多维行为，智能体得到奖励r_t+1和下一个状态s_t+1，将单步状态转移存入记忆库D中，计算TD-errorξ_i＝R_t+1+γV(S_t+1)-V(S_t)，其中γ为衰减系数，R_t+1为单步状态转移内的奖励，V(S_t+1)为下一状态的状态价值，V(S_t)为当前状态价值，计算优先级概率p_i＝|ξ_i|+β，并存至优先级队列P，其中β是一个很小的正常数。

4.根据权利要求3所述的基于时序差分的混合流水车间调度方法，其特征在于：上述可选行为集，具体行为定义如表2：

表2每台机器的候选行为集

由于生产过程中部分工序存在并行机，为了平衡机器利用率，因此根据瓶颈工序机器负荷最小原则选取空闲机器；

行为14，选择并行机中机器总加工时长最短的机器加工工件；

式中I为工序中的空闲机器集合，J为机器M_i已加工的工件集合，p_i,j为工件j在机器i上的加工时间。

5.根据权利要求1所述的基于时序差分的混合流水车间调度方法，其特征在于，步骤4中，随机从D中提取一定数量的单步状态转移，用下一状态和执行对应行为获得的奖励来计算当前状态的目标价值，计算目标价值与网络输出价值之间的均方差代价，使用小批量梯度下降算法更新参数，具体如下：

步骤41：根据TD-error计算的比例权重从D中提取一定数量的单步状态转移，采用以下公式计算当前的目标价值y_i

其中γ表示衰减系数，r_i+1表示单步状态转移内行为的奖励，φ_i+1表示单步状态转移内下一个状态s_t+1的状态特征，V(φ_i+1；θ^-)表示根据目标网络求得的下一状态的状态价值；

步骤42：再计算目标价值与网络输出价值之间的均方差代价loss

其中h为Batch_Size，

步骤43：使用小批量梯度下降算法更新状态价值网络θ参数，每T步更换目标网络价值。