CN114186749B

CN114186749B - 基于强化学习及遗传算法的柔性车间调度方法及模型

Info

Publication number: CN114186749B
Application number: CN202111546245.0A
Authority: CN
Inventors: 郭洪飞; 陈世帆; 曾云辉; 杨博文; 伍泓韬; 何智慧; 任亚平; 李建庆
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-06-28
Anticipated expiration: 2041-12-16
Also published as: CN114186749A

Abstract

本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法及模型，属于人工智能技术领域。根据柔性作业车间的特点，建立柔性作业车间调度模型；对遗传算法和基于熵的置信域优化强化学习算法中的基本参数进行初始化；利用基于熵的置信域优化算法更新遗传算法中的参数，并分别对参与交叉和变异的染色体种群进行交叉和变异操作，生成参与交叉和变异的新染色体种群；计算新种群中每个个体的适应度，确定基于熵的置信域优化算法中的状态参数，对新染色体种群执行遗传算法操作；反复执行上述迭代至截止，并输出结果。本发明将基于熵的置信域优化强化学习算法与遗传算法相结合，提高了柔性车间调度的性能，增强车间生产的鲁棒性，提高生产效率。

Description

基于强化学习及遗传算法的柔性车间调度方法及模型

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于强化学习及遗传算法的柔性车间调度方法及模型。

背景技术

近年来，工业互联网、机器学习等技术的进步，为企业实现转型提供了更多可能性。这些利用新的技术进行生产的方式，也被称为“智能制造”。“智能制造”在工业生产中占有十分重要的地位。

调度问题是指在交通运输到工业制造等生产和生活领域中，如何通过合理分配资源以达到效率最大化。在绝大多数的制造环境中，由于工业生产的动态性，进行合理有效的调度是提高生产效率的关键。作业车间调度问题是对工业生产中出现的调度问题的统称，由于它是影响生产性能的关键环节，其日益受到研究界的关注。

传统的工厂调度主要依靠人的决策能力，而“智能制造”使得通过智能技术解决车间作业的调度成为可能。但当作业车间动态变化时，如一些意外的事件发生(包括加工超时或提前，一个紧急的订单加入等)，则普通的作业车间调度问题无法满足此类生产情况。实际上，机器能够完成多个不同的操作，而每种操作也可以在多个不同的机器上完成，这比普通的作业车间调度问题更为灵活，通常被称为柔性作业车间调度问题，而实际的车间生产中，柔性作业车间调度问题更为常见，对其进行研究意义重大。

鉴于作业车间调度问题可以看作是一个组合优化问题，故也可使用启发式算法，包括遗传算法(遗传算法)、模拟退火(SA)等对这类问题进行处理。但在环境变化时，此类算法需要进行重新的调度，因此启发式方法在动态的车间生产中表现很差，无法很好地处理柔性作业车间调度问题。

强化学习作为一种新兴的人工智能技术，也开始被应用于解决车间生产调度问题。强化学习近年来发展迅速，在多个领域取得了较高成就。强化学习的自适应能力强，能较好地处理动态调度问题。

在中国专利申请文献CN111967654A中，公开了一种基于混合遗传算法求解柔性作业车间调度的方法，将鲸鱼群算法和遗传算法相结合，进一步提加深了算法的搜索深度，增强了求解精度与求解稳定性，提高了车间生产效率。在中国专利申请文献CN110009235A中，公开了一种基于改进遗传算法的柔性作业车间调度方法，其中提供的融合Powell搜索法的遗传算法方案，增强了算法的局部搜索能力，解决了算法早熟问题。但现有方法均未将强化学习技术与启发式算法相结合用于柔性作业车间调度，模型求解速度慢，消耗资源更多。

现有技术至少存在以下不足：

1.未将强化学习技术与启发式算法相结合用于柔性作业车间调度，以一种预定的方式对算法的参数的进行固定或更新，算法的性能较低。

发明内容

为解决现有技术中存在的问题，本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法及模型，该方法采用基于熵的置信域优化强化学习算法和遗传算法相结合，根据柔性作业车间的特点，建立柔性作业车间调度模型并确定其约束条件；对所建立的模型的解进行编码，实现解和染色体之间的相互转换；对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数；利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm；在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新，所述目标函数中加入策略的熵，并在目标函数中引入对价值函数的值的估计；根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作，生成参与交叉和变异的新染色体种群；计算新种群中每个个体的适应度，确定基于熵的置信域优化强化学习算法中的状态参数，对新染色体种群执行遗传算法操作；判断种群迭代次数是否达到上限，若未达到上限，继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm；若已达到上限，则直接输出结果。本发明将基于熵的置信域优化强化学习算法与遗传算法相结合，解决了传统的参数寻优方法耗时长、效率低的问题，使得遗传算法的最优参数的获取更为快捷，用其求解柔性车间调度问题，能够促进车间生产的效率。

本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法，所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合，包括如下步骤：

根据柔性作业车间的特点，建立柔性作业车间调度模型并确定其约束条件；

对柔性作业车间调度模型的解进行编码，实现解和染色体之间的相互转换；

对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数；

利用基于熵的置信域优化强化学习算法更新遗传算法中的参数；

在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新，所述目标函数中加入策略的熵，并在目标函数中引入对价值函数的值的估计；

根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作，生成参与遗传的新染色体种群；

计算新种群中每个个体的适应度，确定基于熵的置信域优化强化学习算法中的状态参数，对新染色体种群执行遗传算法操作；

判断种群迭代次数是否达到上限，若未达到上限，继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm；若已达到上限，则直接输出结果。

优选地，利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm，根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作，生成参与交叉和变异的新染色体种群。

优选地，根据柔性作业车间的特点，建立柔性作业车间调度模型，具体包括：

将柔性作业车间调度模型定义为：n个工件{J₁,Λ,J_n}要在m台机器{M₁,Λ,M_n}上加工；

每个工件J_i(i＝1,2,3,Λn)包含一道或多道工序，预先确定工序顺序，每道工序可以在多台不同加工机器上进行加工，每道工序的加工时间随加工机器M_k(k＝1,2,3,Λn)的不同而变化；

调度目标为使整个系统的如下性能指标达到最优,具体为：最大完工时间最小、最大负荷机器负荷最小和所有机器的总负荷最小，

性能指标的目标函数分别如下：

最大完工时间C_M:minC_M＝min(max(C_K)),1≤k≤m；

其中，C_K为机器M_K的完工时间；

最大负荷机器负荷W_M:minW_M＝min(max(W_K)),1≤k≤m；

其中，W_K为机器M_K的工作负荷；

所有机器的总负荷W_T:

优选地，确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值C_K≥0。

优选地，柔性作业车间调度编码包括两部分：机器染色体和工序染色体，机器染色体基于机器分配的编码，确定所选择的加工机器，对应机器选择子问题；工序染色体基于工序的编码，确定工序间的加工顺序，对应工序加工排序子问题，将这两种编码方法融合形成一条染色体，该染色体即为柔性作业车间调度模型的一个可行解。

优选地，解码时，先根据机器染色体的基因串确定每道工序的加工机器，再依据工序染色体的基因串确定每台加工机器上的加工工序的顺序，将各机器的加工顺序转换为一个工序表，最后根据该工序表对各工序以最早允许的加工时间逐一进行加工。

优选地，对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数，具体为对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的状态集和动作集，具体包括：

对遗传算法的基本参数进行初始化时，采用全局搜索和局部搜索，使各个被选择的机器的工作负荷均衡，同时满足最大完工时间最小；

对基于熵的置信域优化强化学习算法中的基本参数进行初始化，具体包括：

对学习率α和学习折扣率γ进行设置；

对动作action、状态state、奖励reward进行定义，其中，动作定义为交叉概率Pc与变异概率Pm的值，状态定义为当前调度环境的析取图，奖励定义为机器利用率以及最大完工时间的结合。

优选地，在基于熵的置信域优化强化学习算法中，利用Adam优化器对如下目标函数进行更新：

其中，

J^θ'(θ)是目标函数，反映的是优化的目标

θ为所训练的智能体的现在的网络参数；

θ′为所训练的智能体的更新后的网络参数；

s_t是t时刻的状态，a_t是t时刻的动作；

p_θ(a_t|s_t)是当前网络参数下的策略；

p_θ'(a_t|s_t)是更新后的网络参数的策略；

A^θ'(s_t,a_t)是优势函数，用来衡量在状态s_t下，采取动作a_t的好坏；

ε是超参数，用来调节我们能接受的策略更新后差异的最大值，ε越小，表示我们能容忍的策略更新的差异越小，也可以保证策略更新更加稳定；

α∑log(π_θ(a_t))π_θ(a_t)表示的是策略的熵值，反映的是策略的多样性，其中α是超参数，表示我们想要控制的策略多样性的程度；

β(V(θ)-V_target)表示的是实际的价值函数V_target和我们训练得到的价值函数V(θ)的差异，β是超参数，表示我们能接受的价值函数估计差的范围。

优选地，基于遗传算法，在染色体种群进行迭代后，计算新染色体种群中每个个体的适应度，并将选择算子作用于新染色体种群。

本发明提供了一种基于熵的置信域优化和遗传算法的柔性车间调度模型，使用上述的基于强化学习及遗传算法的柔性车间调度方法。

与现有技术相对比，本发明的有益效果如下：

(1)本发明将基于熵的置信域优化和遗传算法相结合，采用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm，模型求解速度更快，消耗资源更少。

(2)本发明找出遗传算法中的关键参数中的Pm与Pc进行调优，强化学习进行参数的调优，使得所求的参数更优、耗时更少；

(3)本发明针对现实的车间调度问题，根据车间特点，建立了有效且准确的数学模型，使得模型的解能够与车间调度方案紧密联系；

(4)本发明确定了每台机器的完工时间为非负值，使得所建立的模型更符合真实的车间调度场景，使模型的解更准确；

(5)本发明提出了一种有效的对模型的解进行编码的方法，将编码分为机器染色体和工序染色体两部分，分别编码后融合为一条染色体，实现了模型的解与车间调度方案之间的关联；

(6)本发明提出了一种有效的解码方法，先根据机器染色体的基因串确定每道工序的加工机器，再依据工序染色体的基因串确定每台加工机器上的该加工工序的顺序，将各机器上的各工序的加工顺序转换为一个工序表，最后根据该工序表对各工序以最早允许的加工时间逐一进行加工，使得利用遗传算法所求得的最优解能够被有效转化成一种车间调度方案；

(7)本发明对现有PPO算法进行改进，在目标函数中加入策略的熵，来鼓励策略有更强的多样性；并引入了对价值函数V值估计的部分，希望策略对V值的估计越准越好。

(8)本发明提出利用强化学习中的基于熵的置信域优化算法进行模型的优化，可有效解决模型特征的状态空间过于庞大问题。

附图说明

图1是本发明的一个实施例的基于强化学习及遗传算法的柔性车间调度方法流程图。

图2是本发明的又一个实施例的基于强化学习及遗传算法的柔性车间调度方法流程图。

图3是本发明的一个实施例的柔性车间调度模型示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式作详细的说明。

对柔性作业车间调度模型的解进行编码，实现解和染色体之间的相互转换；将车间调度问题进行建模后，即得到一个数学模型，进行车间调度优化问题，可转化为求该数学模型的最优解。通过遗传算法对该模型的初始解进行不断优化(初始解可随机设置)，则可求得最优解。解的编码方式不唯一，例如可通过对工件的加工操作O的选择顺序和机器M的选择顺序作为一种解，如：(O2,M1)→(O1,M2)→...为一种解，表示工件先在第一台机器上执行第二个加工操作，再在第二台机器上执行第一个加工操作。

计算新种群中每个个体的适应度，确定基于熵的置信域优化强化学习中的状态参数，对新染色体种群执行遗传算法操作；

根据本发明的一个具体实施方案，利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm，根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作，生成参与交叉和变异的新染色体种群。

根据本发明的一个具体实施方案，根据柔性作业车间的特点，建立柔性作业车间调度模型，具体包括：

性能指标的目标函数分别如下：

最大完工时间C_M:minC_M＝min(max(C_K)),1≤k≤m；

其中，C_K为机器M_K的完工时间；

最大负荷机器负荷W_M:minW_M＝min(max(W_K)),1≤k≤m；

其中，W_K为机器M_K的工作负荷；

所有机器的总负荷W_T:

最大完工时间是工业调度里面的一个标准概念，英文对应为makespan，中文翻译就是最大完工时间，因为一次排程或者调度中，不同工件有不同的完工时间，其中最大的就是最大完工时间，实际上也就是一批工件的完工时间；最大负荷机器也是一样的逻辑，指的是所有机器里面负荷最大的机器的负荷。

根据本发明的一个具体实施方案，确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值C_K≥0。

根据本发明的一个具体实施方案，柔性作业车间调度编码包括两部分：机器染色体和工序染色体，机器染色体基于机器分配的编码，确定所选择的加工机器，对应机器选择子问题；工序染色体基于工序的编码，确定工序间的加工顺序，对应工序加工排序子问题，将这两种编码方法融合形成一条染色体，该染色体即为柔性作业车间调度模型的一个可行解。比如，先对工序编码为3，再对机器编码为5，然后将二者融合，就是表明第3到工序在第5个机器上加工。

根据本发明的一个具体实施方案，解码时，先根据机器染色体的基因串确定每道工序的加工机器，再依据工序染色体的基因串确定每台加工机器上的加工工序的顺序，将各机器的加工顺序转换为一个工序表，最后根据该工序表对各工序以最早允许的加工时间逐一进行加工。

根据本发明的一个具体实施方案，对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数，具体为对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的状态集和动作集，具体包括：

对学习率α和学习折扣率γ进行设置；

根据本发明的一个具体实施方案，在基于熵的置信域优化强化学习算法中，利用Adam优化器对如下目标函数进行更新：

其中，

J^θ'(θ)是目标函数，反映的是优化的目标；

θ为所训练的智能体的现在的网络参数；

θ′为所训练的智能体的更新后的网络参数；

s_t是t时刻的状态，a_t是t时刻的动作；

p_θ(a_t|s_t)是当前网络参数下的策略；

p_θ'(a_t|s_t)是更新后的网络参数的策略；

根据本发明的一个具体实施方案，基于遗传算法，在染色体种群进行迭代后，计算新染色体种群中每个个体的适应度，并将选择算子作用于新染色体种群。

实施例1

根据本发明的一个具体实施方案，结合附图，对本发明的基于强化学习及遗传算法的柔性车间调度方法进行详细说明。

实施例2

根据柔性作业车间的特点，建立柔性作业车间调度模型并确定其约束条件，具体包括：

性能指标的目标函数分别如下：

最大完工时间C_M:minC_M＝min(max(C_K)),1≤k≤m；

其中，C_K为机器M_K的完工时间；

最大负荷机器负荷W_M:minW_M＝min(max(W_K)),1≤k≤m；

其中，W_K为机器M_K的工作负荷；

所有机器的总负荷W_T:

确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值C_K≥0。

其中，柔性作业车间调度编码包括两部分：机器染色体和工序染色体，机器染色体基于机器分配的编码，确定所选择的加工机器，对应机器选择子问题；工序染色体基于工序的编码，确定工序间的加工顺序，对应工序加工排序子问题，将这两种编码方法融合形成一条染色体，该染色体即为柔性作业车间调度模型的一个可行解。

解码时，先根据机器染色体的基因串确定每道工序的加工机器，再依据工序染色体的基因串确定每台加工机器上的加工工序的顺序，将各机器的加工顺序转换为一个工序表，最后根据该工序表对各工序以最早允许的加工时间逐一进行加工。

对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数，具体为对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的状态集和动作集，具体包括：

对学习率α和学习折扣率γ进行设置；

对动作action、状态state、奖励reward的定义，其中，动作定义为交叉概率Pc与变异概率Pm的值，状态定义为当前调度环境的析取图，奖励定义为机器利用率以及最大完工时间的结合。

利用基于熵的置信域优化强化学习算法更新遗传算法中的参数，具体为利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm；

在基于熵的置信域优化强化学习算法中，利用Adam优化器对如下目标函数进行更新：

其中，

J^θ'(θ)是目标函数，反映的是优化的目标

θ为所训练的智能体的现在的网络参数；

θ′为所训练的智能体的更新后的网络参数；

s_t是t时刻的状态，a_t是t时刻的动作；

p_θ(a_t|s_t)是当前网络参数下的策略；

p_θ'(a_t|s_t)是更新后的网络参数的策略；

根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作，生成参与遗传的新染色体种群；具体为根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作，生成参与交叉和变异的新染色体种群；

计算新种群中每个个体的适应度，确定基于熵的置信域优化强化学习中的状态参数，基于遗传算法，在染色体种群进行迭代后，计算新染色体种群中每个个体的适应度，并将选择算子作用于新染色体种群，对新染色体种群执行遗传算法操作；

实施例3

根据柔性作业车间的特点，建立柔性作业车间调度模型并确定其约束条件，具体包括：将柔性作业车间调度模型定义为：n个工件{J₁,Λ,J_n}要在m台机器{M₁,Λ,M_n}上加工。每个工件J_i(i＝1,2,3,Λn)包含一道或多道工序，工序顺序是预先已确定的，每道工序可以在多台不同加工机器上进行加工，每道工序的加工时间随加工机器M_k(k＝1,2,3,Λn)的不同而变化。调度目标是为每道工序选择最合适的机器、确定每台机器上各个工件工序的最佳加工顺序以及开工时间，使整个系统的某些性能指标达到最优,具体可为：最大完工时间最小、最大负荷机器负荷最小和所有机器上的总负荷最小，

这三种性能指标的目标函数分别如下：

最大完工时间C_M:minC_M＝min(max(C_K)),1≤k≤m；

其中，C_K为机器M_K的完工时间；

最大负荷机器负荷W_M:minW_M＝min(max(W_K)),1≤k≤m；

其中，W_K为机器M_K的工作负荷；

所有机器的总负荷W_T:

约束条件为每台机器的完工时间为非负值C_K≥0。

对柔性作业车间调度模型解进行编码，实现解和染色体之间的相互转换。

柔性作业车间调度问题需要为每道工序在可加工机器集中选择一台加工机器并对所有的工序进行排序。为此，柔性作业车间调度编码由两部分组成：一部分是机器染色体，基于机器分配的编码，确定所选择的加工机器，对应机器选择子问题；另一部分是工序染色体，基于工序的编码，确定工序间的加工顺序，对应工序加工排序子问题。融合这两种编码方法，形成一条染色体，即为柔性作业车间调度模型的一个可行解。设工序总数为L，依次从时间表中对应的第一个工件第一道工序直到最后一个工件最后一道工序为止，工序号分别用1,2,...,L表示。对于L道工序，形成L个可选择机器的子集分别为{S₁,Λ,S_L}，其中第i道工序的可加工机器集合表示为S_i。S_i中，可选加工机器的个数为r_i，表示为

第一部分基因串的为L，表示为g₁g₂Λg_iΛg_L；其中第i个基因g_i为[1,ri]内的整数，表示第i个工序的加工机器号为集合S_i中的第g_i个元素

第二部分基因串的长度也为L，对应于一串工件号的排列，其中每个工件号出现的次数为此工件包括的工序总数。从左到右扫描染色体，对于第j次出现的工件序号，表示该工件的第j道工序。

解码时，先根据第一部分基因串确定每道工序的加工机器，然后依据第二部分基因串确定每台加工机器上的加工工序的顺序，即转换为一个有序的工序表，最后根据此工序表对各工序以最早允许的加工时间逐一进行加工，将所有工序都安排在适当的加工位置，从而产生可行的调度方案。

对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化，得到初始的染色体种群以及合适的状态集和动作集。具体包括：

(1)对遗传算法的基本参数进行初始化时，采用全局搜索(Global search,GS)和局部搜索(Local search,LS)，使各个被选择的机器的工作负荷尽量平衡，充分提高机器的利用率，同时考虑最大完工时间最小。

全局搜索GS以深度优先进行搜索，所有工件的工序的加工机器选择完毕时，进行下一次循环时数组中各元素的值重置为0；LS是以广度优先进行搜索，每一个工件的工序选择加工机器完毕时，进行下一个工件工序的加工机器选择前,将数组各元素的值重置为0。初始化种群时仍有一定比例的个体采用随机产生，例如：种群的70％采用全局搜索，20％采用局部搜索，10％采用随机产生的方法。

对于全局搜索GS：设置一个数组，长度和机器数相等，数组的顺序依次对应加工机器的顺序，每一位上的值对应相应机器上的加工时间。随机在工件集中选择一个工件，从当前工件的第一道工序开始，将当前工序的可选加工机器的加工时间加上数组中对应的时间，从中选择最短的时间作为当前工序的加工机器，并且将数组更新，即把被选择的加工机器的加工时间加到数组中相应的位置上，依次类推直到当前工件的所有工序的加工机器选择完毕，然后再随机选择一个工件开始，直到所有工件的工序选择完毕。这样保证了最短加工机器先被选到而且保证了加工机器上的工作负荷平衡。具体执行步骤如下:

步骤1：设置一个整型数组，长度等于所有机器的总数，并且依次对应机器{M₁,Λ,M_n}上的加工时间总负荷。同时初始化数组中每一个元素值为0。

步骤2：随机从工件集中选择一个工件，同时选择当前工件的第一道工序。

步骤3：将当前工序的可选加工机器的加工时间和数组中相应机器位置的时间数值相加，但不更新数组。

步骤4:从相加后的时间值中，选择最小的那台机器作为当前工序的加工机器。

步骤5：将当前被选择的加工机器的加工时间相加到数组中相应位置机器的加工负荷中，同时更新数组作为下一次选择的依据。

步骤6：选择当前工件的下一道工序，重复执行步骤3～5，直到当前工件的所有工序的加工机器选择完毕。

步骤7：从工件集中除去已被选择的工件，从剩下的工件集中随机选择一个工件，同时选择当前工件的第一道工序，重复执行步骤3～6，直到工件集中的所有工件被选择完毕。

对于局部搜索LS：同全局搜索原理上基本一致，但是每次对一个工件选择完毕时，数组需要重新设置为0，并且不存在随机选择工件。设置一个数组，长度和机数相等，选择工件集中第一个工件，选择当前工件的第一道工序开始，将当前工序的可选加工机器的加工时间加上数组中对应的时间，从中选择最短的时间作为当前工序的加工机器，并且将数组更新，即把被选择的加工机器的加工时间加到数组中相应的位置上，依此类推直到当前工件的所有工序的加工机器选择完毕，然后数组每一位重新设置为0，选择下一个工件，直到所有工件选择完毕。这样保证了一个工件的工序中优先加工时间最短或者说选择机器负荷最小的加工机器进行加工。

具体执行步骤如下：

步骤10：设置一个整型数组，长度等于所有机器的总数，并且依次对应机器{M₁,Λ,M_n}上的加工时间总负荷。同时初始化数组中每一个元素值为0。

步骤20：选择工件集中的第一个工件，同时选择当前工件的第一道工序。

步骤30：将当前工序的可选加工机器集中的加工机器的加工时间和数组中相应机器位置的时间数值相加，但不更新数组。

步骤40：从相加后的时间值中，选择最小的那台机器作为当前工序的加工机器。

步骤50：将当前被选择的加工机器的加工时间相加到数组中相应位置机器的加工负荷中，同时更新数组作为下一次选择的依据。

步骤60：选择当前工件的下一道工序，重复执行步骤30～50，直到当前工件的所有工序的加工机器选择完毕。

步骤70：将数组中的每一位元素的值重新设置为0。

步骤80：从工件集中除去已被选择的工件，选择工件集中下一个工件，同时选择当前工件的第一道工序，重复执行步骤30～70，直到工件集中的所有工件被选择完毕。

对基于熵的置信域优化强化学习算法中的基本参数进行初始化,具体包括：对action、state、reward的定义，学习率α，学习折扣率γ。其中，动作定义为交叉概率Pc与变异概率Pm的值，状态定义为当前调度环境的析取图，奖励定义为机器利用率以及最大完工时间的结合。state、reward、action的定义具体描述如下：

State反映的是当前柔性车间的所有和调度有关的情况，具体表示为一个析取图，本申请创造性地用一个图数据结构来表示state，既可以反映工序本身的状态，又可以从中获取工序之间的关系信息；

Reward反映的是做出动作后对智能体的评判，具体表示为当前车间中的机器的利用率与归一化后的最大完工时间的差；

Action表示的是待优化的更新交叉概率Pc与变异概率Pm的值；

判断种群迭代次数是否达到上限，若未达到上限，利用强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm；若已达到上限，则直接输出结果。

具体包括：初始化迭代次数MAX，使其为一个定值。在迭代次数未到达上限时，在每一次迭代的过程中，通过计算种群中每个个体的适应度以确定强化学习中的状态参数(state)，并利用基于熵的置信域优化强化学习算法更新交叉概率Pc与变异概率Pm。其中，基于熵的置信域优化算法强化学习具体描述如下：

PPO(Proximal Policy Optimization，近端策略优化)是基于Actor-Critic架构实现的一种策略算法，属于TRPO的进阶版本，且基于off-policy情况下提出。off-policy能够实现使用同一批数据来对模型参数进行多次更新，其中所使用的方法为importantsampling，而PPO算法能够弥补important sampling中新参数和旧参数可能相差过大的缺陷，具体实现为：

在PPO算法中，规则policy的更新公式为：

上述公式是需要优化的目标函数，它有两个部分，J^θ'(θ)是用于保证累计奖励能够最大化，比如较长时间内机器的利用率都比较高；βKL(θ,θ')是为了保障网络更新后的模型和前一次更新的模型相差比较小，从而保障模型的稳定性。

通过J^θ'(θ)来保证累计奖励最大化的具体的形式如下式：

本发明采用的基于熵的置信域优化算法，对PPO算法进行了改进，利用Adam优化器对如下目标函数进行更新：

其中，

J^θ'(θ)是目标函数，反映的是优化的目标

θ为所训练的智能体的现在的网络参数；

θ′为所训练的智能体的更新后的网络参数；

s_t是t时刻的状态，a_t是t时刻的动作；

p_θ(a_t|s_t)是当前网络参数下的策略；

p_θ'(a_t|s_t)是更新后的网络参数的策略；

因为在生产线优化策略的问题中，PPO算法中的βKL(θ,θ')计算过于复杂，所以采用Clip函数替代KL散度，从而提高了本实施例进行生产线优化策略的效率。其中，βKL(θ,θ')为惩罚项，A^θ(s_t,a_t)用以衡量在状态s_t下，采取动作a_t所取得的回报，p_θ(a_t|s_t)代表确定网络参数θ的情况时，在状态s_t下采取动作a_t的概率。

根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作，生成参与交叉和变异新的染色体种群。

交叉操作，即将交叉算子作用于群体，指对两个相互配对的染色体按某种方式相互交换其部分基因，从而形成两个新的个体。此操作在遗传算法中起核心作用，其主要包括：单点交叉、两点交叉与多点交叉、均匀交叉、算术交叉等方式。

变异操作，即对群体中的个体串的某些基因座上的基因值作变动。其基本步骤为：①对种群中的所有个体以事先设定的变异概率判断是否进行变异。②对进行变异的个体随机选择变异位进行变异。

计算新种群中每个个体的适应度，并对新种群执行遗传操作，继续迭代。基于遗传算法，在染色体种群进行迭代后，计算群体中每个个体的适应度，并将选择算子作用于群体。选择的目的是把更优的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代，从而实现解的优化。

实施例4

根据本发明的一个具体实施方案，结合附图，对本发明的柔性车间调度模型进行详细说明。

如图3，有六个工件(J1、J2、J3、J4、J5、J6)需要加工，且每个工件分别含有多道工序，每道工序需要在不同的机器(M1、M2、M3、M4、M5、M6)上进行加工，箭头指向表示工件在机器上的传递顺序(即工件不同机器上进行加工的先后顺序)。

按照所述方法，首先对上述问题进行建模，确定目标函数及约束条件为：

最大完工时间C_M:minC_M＝min(max(C_K)),1≤k≤m；

其中，C_K为机器M_K的完工时间；

最大负荷机器负荷W_M:minW_M＝min(max(W_K)),1≤k≤m；

其中，W_K为机器M_K的工作负荷；

所有机器的总负荷W_T:

约束条件为每台机器的完工时间为非负值C_K≥0。

对上述模型进行求解，并运用所述编码方法，将可行解进行编码，得到染色体种群。之后，全局搜索(GS)相局部搜索(LS)，对所产生的染色体种群进行初始化，具体可为：种群的70％采用全局搜索，20％采用局部搜索，10％采用随机产生的方法。同时，对强化学习算法中的基本参数进行初始化，得到合适的action、reward、state，其中，动作定义为交叉概率Pc与变异概率Pm的值，状态定义为当前调度环境的析取图，奖励定义为机器利用率以及最大完工时间的结合。学习率α＝0.1，学习折扣率γ＝0.2。

基于遗传算法，设置初始化后的染色体种群的迭代次数上限，令迭代次数上限MAX＝500，并利用i5-9400的CPU处理器进行种群的迭代，在迭代的过程中，利用基于熵的置信域优化强化学习算法，在每一次的迭代后，求得最优的交叉概率Pc与变异概率Pm，并对遗传算法的交叉概率Pc与变异概率Pm进行更新，同时计算每个染色体的适应度，保留适应度更优的染色体，依此重复，继续迭代，直至达到迭代次数上限，此时，染色体种群中的染色体即为本次调度问题的最优解，将其进行解码，解码所得即为本次调度问题的最优方案。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于强化学习及遗传算法的柔性车间调度方法，其特征在于，所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合，包括如下步骤：

对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法的相关参数；

利用基于熵的置信域优化强化学习算法更新遗传算法中的参数，在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新，所述目标函数中加入策略的熵，并在目标函数中引入对价值函数的值的估计；目标函数具体如下：

其中，

是目标函数，反映的是优化的目标；

为所训练的智能体的现在的网络参数；

为所训练的智能体的更新后的网络参数；

是t时刻的状态，

是t时刻的动作；

是当前网络参数下的策略；

是更新后的网络参数的策略；

是优势函数，用来衡量在状态

下，采取动作

的好坏；

是超参数，用来调节能接受的策略更新后差异的最大值，

越小，表示能容忍的策略更新的差异越小，也可以保证策略更新更加稳定；

表示的是策略的熵值，反映的是策略的多样性，其中

是超参数，表示想要控制的策略多样性的程度；

表示的是实际的价值函数V_target和训练得到的价值函数

的差异，

是超参数，表示能接受的价值函数估计差的范围；

2.根据权利要求1所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm，根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作，生成参与交叉和变异的新染色体种群。

3.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，根据柔性作业车间的特点，建立柔性作业车间调度模型，具体包括：

将柔性作业车间调度模型定义为：n个工件

要在m台机器

上加工；

每个工件

包含一道或多道工序，预先确定工序顺序，每道工序可以在多台不同加工机器上进行加工，每道工序的加工时间随加工机器

的不同而变化；

性能指标的目标函数分别如下：

最大完工时间

；

其中，

为机器

的完工时间；

最大负荷机器负荷

；

其中，

为机器

的工作负荷；

所有机器的总负荷

。

4.根据权利要求3所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值

。

5.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，柔性作业车间调度编码包括两部分：机器染色体和工序染色体，机器染色体基于机器分配的编码，确定所选择的加工机器，对应机器选择子问题；工序染色体基于工序的编码，确定工序间的加工顺序，对应工序加工排序子问题，将这两种编码方法融合形成一条染色体，该染色体即为柔性作业车间调度模型的一个可行解。

6.根据权利要求5所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，解码时，先根据机器染色体的基因串确定每道工序的加工机器，再依据工序染色体的基因串确定每台加工机器上的加工工序的顺序，将各机器上的各工序的加工顺序转换为一个工序表，最后根据该工序表对各工序以最早允许的加工时间逐一进行加工。

7.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数，具体为对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的状态集和动作集，具体包括：

对学习率α和学习折扣率γ进行设置；

8.根据权利要求7所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，基于遗传算法，在染色体种群进行迭代后，计算新染色体种群中每个个体的适应度，并将选择算子作用于新染色体种群。

9.一种柔性车间调度模型，其特征在于，使用权利要求1-8中任一项所述的基于强化学习及遗传算法的柔性车间调度方法。