CN113034026A

CN113034026A - 基于Q-learning和GA的多目标柔性作业车间调度自学习方法

Info

Publication number: CN113034026A
Application number: CN202110383136.5A
Authority: CN
Inventors: 常镜洳; 康玲; 张明会; 石冬凌; 彭钰莹; 邱谦
Original assignee: Dalian Neusoft University of Information
Current assignee: Dalian Neusoft University of Information
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-06-25
Anticipated expiration: 2041-04-09
Also published as: CN113034026B

Abstract

本发明公开了基于Q‑learning和GA的多目标柔性作业车间调度自学习方法，采用分段编码规则，全局、局部和随机结合的机器选择方式初始化种群，采用基于Pareto支配关系的非劣解快速排序方法分配染色体解的适应度值，然后设计锦标赛和精英策略结合选择算子，设计对应的交叉和变异算子；在GA算法基础上结合增强机器学习中Q‑learning算法构建自学习模型，设计状态集、行动集、奖励方法、行动选择策略等，在染色体种群迭代间动态调整交叉概率Pc和变异概率Pm，从而，提高算法时间复杂度和解的精准度，进而提高车间生产的自适应性、可靠性以及智能化水平。

Description

基于Q-learning和GA的多目标柔性作业车间调度自学习方法

技术领域

本发明涉及制造生产车间的调度技术领域，尤其涉及一种基于Q-learning和GA的多目标柔性作业车间调度自学习方法。

背景技术

随着客户需求定制化和加工设备的多功能发展，传统作业车间调度(JSP)很难达到最优化排产调度，造成生产率较低、资源浪费、成本增加，因此设计并实现柔性作业车间调度的自学习智能化方法成为生产调度的关键任务，以满足制造企业的实际需求。

柔性作业车间调度(FJSP)在1990年由Bruker和Schlic首次提出，具有显著的离散性、计算复杂性、多约束性、不确定性和多目标性特征作为经典作业车间调度(JSP)问题的扩展，突破生产资源唯一性限制，每道生产工序可在不同机器上加工，更迎合实际生产环境，增加了调度的灵活性、可靠性和自适应性，且是一种公认的强NP-hard问题；实际生产中调度问题常常多目标的，有效的调度优化方案不仅能提高生产效率、设备利用率，保证按时交货，降低企业成本，而且还节能减排实现绿色生产。

目前，FJSP常用解决方法有遗传算法、禁忌搜索、蚁群算法、模拟退火、粒子群算法、蜂群算法等；遗传算法是一种隐含并行搜索的随机全局搜索算法，优越的全局搜索和较强的鲁棒性使得遗传算法非常适合求解多目标优化FJSP问题。但遗传算法中的交叉概率和变异概率等关键参数不能被动态精准调整，从而影响算法的效率和解的质量。

发明内容

本发明提供基于Q-learning和GA的多目标柔性作业车间调度自学习方法，以克服上述技术问题。

本发明基于Q-learning和GA的多目标柔性作业车间调度自学习方法，包括：

S1、建立柔性作业车间调度模型及其约束条件；

S2、初始化遗传算法基本参数；根据所述遗传算法的分段编码规则，并根据所述基本参数进行染色体种群初始化；

S3、对各染色体支配关系进行分类划定帕累托阶层，计算同一帕累托阶层内各染色体之间的拥挤距离，根据染色体所在的帕累托阶层及所述拥挤距离计算适应度值；

S4、判断种群迭代次数是否达到预设上限，若达到，则输出最优解；否则，利用增强学习算法，并根据所述适应度值优化所述遗传算法中的交叉概率P_c和变异概率P_m；

S5、选择参与交叉的染色体种群，根据所述交叉概率P_c对所述参与交叉的染色体种群进行交叉操作，生成参与变异的染色体种群；

S6、根据所述变异概率P_m对所述参与变异的染色体种群进行变异操作，生成新染色体种群；返回S3，基于所述新染色体种群进行计算。

进一步地，所述建立柔性作业车间调度模型及其约束条件，包括：所述柔性作业车间调度模型描述为：

n种独立工件J＝{J₁,J₂,J₃…J_n}，m台独立机器M＝{M₁,M₂,M₃…M_m}，每个工件J_i有工序数为h_j,O_ij表示工件J_i的第j个工序，j＝1,2,3…,h_i，工序O_ij可被多台机器加工，O_ij在机器M_k上的加工时间t_ijk，k＝1,2,3…,m；并按照一定工艺先后顺序进行加工，调度目标为最大完工时间最小、最大机器负荷最小及总机器负荷最小中一项或多项性能指标达到最优；其中，

最大完工时间最小C_max目标函数如式(1)：

minf₁＝C_max＝min{max(C_i)1≤i≤n} (1)

最大机器负荷最小W_m目标函数如式(2)：

总机器负荷最小W_t目标函数如式(3)：

所述柔性作业车间调度模型的约束条件为：

s_ij≥0，c_ij≥0，i＝1,2,3...n；j＝1,2,3...h_i表示工序的加工时间和完工时间必须是非负数；

c_ij≤s_i(j+1)，i＝1,2,3···n；j＝1,2,3···h_i表示每一个工件的工序间遵循工艺先后顺序；

表示同一台机器在同一时刻只能加工一个工件的一个工序；

表示同一工件在同一时刻只能被一台机器加工；

其中，C_i表示工件J_i加工完成时间；s_ij表示工序O_ij加工开始时间；c_ij表示工序O_ij加工完成时间；m_ij表示工序O_ij的可选加工机器数；U表示正数；

进一步地，所述遗传算法基本参数，包括：全局机器选择概率P_gs、局部机器选择概率P_ls、随机选择机器概率P_rs、种群规模Popsize和迭代次数Iteration；

所述根据所述遗传算法的分段编码规则，并根据所述基本参数进行种群初始化，包括：

S21、构建初始种群染色体的机器选择MS部分编码，并存入存储数据数量为Popsize*T_o的二维数组machSelect[][]中；

其中，T_o等于所有工件的工序数之和；机器选择MS部分的染色体长度为T_o，每个基因位用整数表示，代表当前工序选择的加工机器号，并依次按照工件号和每个工件工序号递增排列；

S22、构建初始种群染色体的工序排序OS部分编码，所述工序排序OS部分编码采用随机排序方式，并存入存储数据数量为Popsize*T_o的二维数组OpeSort[][]中；

其中，工序排序OS部分的染色体基于工序进行编码，长度等于所有工件的工序数之和T_o,每个基因位用工件号代表的整数表示，工件i第j次出现表示J_i的第j道工序O_ij,且工件i出现的次数等于J_i的工序总数；OS部分从左至右的工件号的先后顺序表示工件工序间的先后加工顺序；

S23、构建初始种群Population；依次按行组合machSelect[]和OpeSort[]，存入存储数据数量为Popsize*2T_o的数组Population[][]中，数组Population[][]中每一行元素代表一条染色体。

进一步地，所述依次按照工件号和每个工件工序号递增排列，包括：

S211、按照全局机器选择概率P_gs，以所有机器负荷均衡化的角度，使用贪心算法设计策略为每个工序选择加工机器；

S212、按照局部机器选择概率P_ls，以所有机器负荷均衡化的角度，使用贪心算法设计策略为每个工件工序选择加工机器；当下一个工件的第一个工序选择机器时，每台机器负荷重新设置为0；

S213、按照随机机器选择概率P_rs，为每个工序在可加工机器集中随机选择一个加工机器。

进一步地，所述步骤S3，包括：

S31、通过对染色体中机器选择MS部分信息解码，结合已知每个工件的工序在每台机器上加工时间信息，转换成每个工件工序选择机器矩阵ML、每个工件工序在所选机器上加工时间矩阵PT和每台机器负荷向量MT；

S32、根据每个工序选择的加工机器和加工时间，读取染色体中工序排序OS部分，得到调度结果；

S33、利用快速非支配排序法对染色体支配关系进行分类划定帕累托阶层，将初始种群Population划分成互不相交的且具有支配关系的子群体Population₁＜Population₂＜…＜Population_n；

S34、通过式(4)、(5)计算同一帕累托阶层内每个染色体的拥挤距离；

d_pq＝|C_max(p)-C_max(q)|+|W_m(p)-W_m(q)|+|W_t(p)-W_t(q)|(p≠q)(4)

C_d(p)＝min{d_p1,d_p2,…d_pk…d_pn}(p≠k)(5)

式中，d_pq表示同一帕累托阶层内两个染色体之间的距离，则染色体p到同层染色体距离的最小值为p的拥挤距离C_d(p)；

S35、根据染色体p所在的帕累托阶层和其拥挤距离，通过式(6)计算适应度值；

进一步地，所述步骤S33，包括：

S331、对于所述初始种群Population中任一个染色体p,令染色体p支配的集合

染色体p的个体数n_p＝0；对所述初始种群Population中任一个体q(p≠q)，若p＜q，则S_p←S_p∪{q}；若q＜p，则n_p＝n_p+1；若n_p＝0，则染色体p的阶层p_rank＝1，第一阶层染色体集合Population₁←Population₁∪{p}；令i←1；

S332、若

时，定义集合

对于每个染色体q∈S_p，令n_q←n_q-1，若n_q＝0，则p_rank←i+1，且Q←Q∪{q}，i←i+1，Population_i←Q；

S333、若

则i←i+1，转入步骤S332。

进一步地，所述利用增强学习算法，并根据所述适应度值优化所述遗传算法中的交叉概率P_c和变异概率P_m，包括：

S41、初始化所述增强学习算法基本参数；所述基本参数包括：GA环境状态集S、行为集合A、Q值表、当前行动a、奖励函数r、策略贪心率ε、学习率α、学习折扣率γ；

其中，Q值表记录和存储学习模型的学习经验，初始Q值表是一个0值矩阵，矩阵行数等于GA状态数，列数等于行动数；从行动集合A中随机选择一个行动a_t,且a←a_t，t为种群迭代次数；

S42、通过式(7)计算GA算法的环境状态s_t,令s←s_t；

s_t＝w₁fit*+w₂div*+w₃best*(w₁+w₂+w₃＝1)(7)

其中，

式中，fit^*表示种群平均适应度，div^*表示种群的多样性，best^*表示种群最优适应度，x_i ^t表示第t代种群Population中第i个染色体，fit(x_i ^t)表示染色体x_i ^t的适应度值，Bestf(x_i ^t)表示第t代种群Population中最优适应度；

S43、通过奖励函数r_c调整交叉概率P_c，通过奖励函数r_m调整变异概率P_m，表示为：

S44、根据贪心策略选择行动a_t+1，使得Q(s,a_t+1)＝max{Q(s,a)}，a∈A；

S45、通过式(13)计算并更新Q(s_t,a_t)值；

Q(s_t,a_t)＝(1-α)Q(s_t,a_t)+α(r_t+1+γmaxQ(s_t+1,a_t+1)) (13)；

S46、根据ε-greedy策略选择行动a_t+1，表示为：

其中，ε-greedy为一种综合exploitation和exploration的行动选择策略；r_0-1表示生成0至1的随机数，a_random表示从行动集合A中随机选择的一个行动；

S47、通过式(7)计算GA算法的环境状态s_t+1,令s←s_t+1，并更新当前行动a←a_t+1；

S48、将Q(s_t,a_t)值更新至Q值表，并根据当前行动a优化所述交叉概率P_c和变异概率P_m。

进一步地，步骤S5，包括：利用二路锦标赛方式选择排序靠前的popSize-1个染色体；利用精英策略选择适应度值最优Bestfit(x_i)的染色体；所述根据所述交叉概率P_c对所述参与交叉的染色体种群进行交叉操作，生成参与变异的染色体种群，包括：

S51、随机选择两个父代染色体Parent1和Parent2交叉产生两个子代染色体Child1和Child2，计算Parent1、Parent2、Child1、Child2的适应度值，并选择适应度值最优的染色体放入参与变异操作的种群中；

S52、执行步骤S51popSize-1次；

S53、将第popSize个染色体设置为交叉前的选择算子父代种群中适应度值最高的染色体；

所述交叉操作的方式为：MS部分多点交叉，OS部分基于工件优先顺序进行交叉；

所述MS部分多点交叉，包括：定义长度等于T₀的数组a，并初始化数组a为0；随机生成一个0至1的数r，如果r>0.5,数组a元素为1，并循环执行操作T0次；如果数组a[i]为1，将Parent1_MS[i]和Parent2_MS[i]基因分别复制到Child1_MS[i]和Child2_MS[i]基因位上，并保证位置和顺序的一致性；将Parent1_MS和Parent2_MS的其余基因分别复制到Child2 _MS和Child1_MS基因位上，并保证位置和顺序的一致性；所述OS部分基于工件优先顺序进行交叉，包括：原工件集J＝{J1,J2…Jn}随机划分两个工件集JSet1和JSet2；将Parent1中包含在JSet1中基因复制到Child1中，并保持基因的位置和顺序的一致；将Parent2中包含在JSet2中基因复制到Child2中，并保持基因的位置和顺序的一致；将Parent1中包含在JSet1中基因复制到Child2中，并保持基因的顺序的一致；将Parent2中包含在JSet2中基因复制到Child1中，并保持基因的顺序的一致。

进一步地，所述步骤S6，包括：根据MS部分多点随机变异和OS部分三邻域搜索变异方式，生成新染色体种群；所述MS部分多点随机变异，包括：随机选择一个工件号Ji，随机选择该工件的工序O_ij，在工序O_ij的可加工机器中随机选择一个机器M_k；将O_ij在机器选择MS中的值更换为k；重复执行上述操作k次；所述OS部分三邻域搜索变异，包括：OS部分随机生成三个1-T₀的整数基因位，生成六个排列的邻域；求六个邻域变异染色体的适应度值，并选择适应度最优的染色体作为子代。

本发明采用分段编码规则，全局、局部和随机结合的机器选择初始化种群，采用基于Pareto支配关系的非劣解快速排序方法分配染色体解的适应度值，然后设计锦标赛和精英策略结合选择算子，设计对应的交叉和变异算子；在GA算法基础上结合增强机器学习中Q-learning算法构建自学习模型，设计状态集、行动集、奖励方法、行动选择策略等，在染色体种群迭代间动态调整交叉概率Pc和变异概率Pm，从而，提高算法时间复杂度和解的精准度，进而提高车间生产的适应性、鲁棒性以及智能化水平。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明遗传算法与增强学习融合模型；

图3为本发明FJSP染色体编码示意图；

图4a为本发明半活动调度甘特图；

图4b为本发明半活动调度的工序左移后获得的活动调度甘特图；

图5为本发明GA选择算子示意图；

图6为本发明MS多点交叉示意图；

图7为本发明OS基于工件优先顺序交叉示意图；

图8为仿真验证中8*8问题的最优解(14,12,77)甘特图；

图9为仿真验证中8*8问题的最优解(15,12,75)甘特图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例提供了基于Q-learning和GA的多目标柔性作业车间调度自学习方法，包括：

本算法的目的在于基于增强学习中Q-learning算法和遗传算法(GA)设计一种自学习方法求解最大完工时间最小C_max、最大负荷机器最小W_m、总机器负荷最小W_t的多目标FJSP问题，两个算法融合模型如图2所示。

S1、建立柔性作业车间调度模型及其约束条件；

具体而言，n*m的FJSP问题描述如下：n种独立工件J＝{J₁,J₂,J₃…J_n}，m台独立机器M＝{M₁,M₂,M₃…M_m}，每个工件J_i有工序数为h_j,O_ij表示工件J_i的第j个工序，j＝1,2,3…,h_i，工序O_ij可被多台机器加工，O_ij在机器M_k上的加工时间t_ijk，k＝1,2,3…,m；并按照一定工艺先后顺序进行加工，调度目标为最大完工时间最小、最大机器负荷最小及总机器负荷最小中一项或多项性能指标达到最优；约束条件如下：

(1)同一台机器在同一时刻只能加工一个工件。

(2)同一工件在同一时刻只能被一台机器加工，且不可中断。

(3)不同工件之间工序无先后顺序约束，优先级相同。

(4)同一工件的工序间有先后顺序。

(5)机器安装时间和工序间传输时间忽略不计。

(6)工件和机器加工开始时间允许在零时刻。

柔性作业车间调度模型描述为：

最大完工时间最小C_max目标函数如式(1)：

minf₁＝C_max＝min{max(C_i)1≤i≤n} (1)

最大机器负荷最小W_m目标函数如式(2)：

总机器负荷最小W_t目标函数如式(3)：

柔性作业车间调度模型的约束条件为：

c_ij≤s_i(j+1)，i＝1,2,3…n；j＝1,2,3…h_i表示每一个工件的工序间遵循工艺先后顺序；

表示同一台机器在同一时刻只能加工一个工件的一个工序；

表示同一工件在同一时刻只能被一台机器加工；

S2、初始化遗传算法基本参数；根据遗传算法的分段编码规则，并根据基本参数进行染色体种群初始化；

具体而言，根据机器资源选择限制条件和柔性程度，通常分为完全柔性作业车间调度(T-FJSP)和部分柔性作业车间调度(P-FJSP)。因为P-FJSP更符合实际生产且更复杂，研究P-FJSP问题更有实际意义。如下表1为一个部分柔性车间调度实例。表1对应的一条染色体如图3所示。

表1

遗传算法基本参数，包括：全局机器选择概率P_gs＝0.7，局部机器选择概率P_ls＝0.2，随机选择机器概率P_rs＝0.1，种群规模Popsize＝100，迭代次数Iteration＝100。

根据遗传算法的A/B分段编码规则，并根据全局、局部和随机结合的机器选择策略进行种群初始化，具体步骤是：

S21、构建初始种群染色体的机器选择部分编码，并存入Popsize*T_o(T_o等于所有工件的工序数之和)大小二维数组machSelect[][]。

机器选择(MS)部分的染色体长度为T_o，每个基因位用整数表示，代表当前工序选择的加工机器号，并依次按照工件号和每个工件工序号递增排列；具体步骤如下：

S211、按照全局机器选择概率P_gs，以所有机器负荷均衡化的角度，使用贪心算法设计策略为每个工序选择加工机器。

S212、按照局部机器选择概率P_ls，以所有机器负荷均衡化的角度，使用贪心算法设计策略为每个工件工序选择加工机器；当下一个工件的第一个工序选择机器时，每台机器负荷重新设置为0。

S22、构建初始种群染色体的工序排序部分编码，工序排序部分编码采用随机排序方式，并存入Popsize*T_o大小二维数组OpeSort[][]。

工序排序(OS)部分的染色体基于工序进行编码，其长度等于所有工件的工序数之和T_o,每个基因位用工件号代表的整数表示，工件i第j次出现表示J_i的第j道工序O_ij,且工件i出现的次数等于J_i的工序总数；OS部分从左至右的工件号的先后顺序表示工件工序间的先后加工顺序。

S23、构建初始种群Population。依次按行组合machSelect[]和OpeSort[]，放入Popsize*2T_o大小数组Population[][]中，数组中每一行元素代表一条染色体。

S3、计算染色体种群中各染色体的适应度目标值，并对各染色体支配关系进行分类划定帕累托阶层；计算同一帕累托阶层内各染色体之间的拥挤距离，根据染色体所在的帕累托阶层及所述拥挤距离计算适应度值；

具体而言，计算各染色体的每个适应度目标值，并使用快速非支配排序法对染色体支配关系进行分类划定帕累托阶层，计算拥挤距离，基于阶层和距离生成适应度。具体步骤为：

其中ML矩阵的第i行ML(i,*)表示工件Ji所有工序选择机器号的排列，ML(i,j)表示工件Ji的工序Oij所选的机器号；PT矩阵的第i行PT(i,*)表示工件Ji所有工序在所选机器上加工时间排列，PT(i,j)表示工件Ji的工序Oij所选的机器上加工时间；列向量MT中MT[h]表示第h个机器加工这批工件的加工时间。三个适应度函数值如下：

C_max＝min(max{C_j|1<＝j<＝n})

W_m＝min{max{ET(i,j)}}

W_t＝min{Sum(MT[h])|1<＝h<＝m}}

其中，根据step1解码算子，求每个工序0_ij在所选机器上加工时间的PT(i,j)，以及工序0_ij的开始加工时间ST(i,j)；那么工序0_ij的完工时间ET(i,j)＝ST(i,j)+PT(i,j)。

为了生成一种活动调度方案或者绘制其调度甘特图，关键在于求每个工序加工的开始时间，其取决于其先序工序完成时间和所选机器空闲时间，因此根据工序O_ij是否是工件J_i的1号工序和其加工机器M_h是否为本批加工任务首次加工这两个维度，分成以下四种情况：

定义工序0_ij的开始加工时间为ST_ij，结束时间为ET_ij；机器M_h当前加工任务结束时间为ME_h；

(1)如果O_ij为首个工序，且M_h为首加工，那么O_ij的加工开始时间ST_ij＝0；

(2)如果O_ij为首个工序，但M_h不是首加工，那么ST_ij←ME_h；

(3)如果O_ij不是1号工序，但Mh为首加工，那么ST_ij等于其先序工序O_i(j-1)加工结束时间ET_(i,j-1),即：ST_(i,j)＝ET_(i,j-1)；

(4)如果O_ij不是1号工序，且M_h不是首加工，那么ST_ij等于ET_(i,j-1)和ME_h两者中较大者；即：ST_ij＝Max{ET_(i,j-1),ME_h}。

表1实例和图3中染色体对应的一个半活动调度甘特图如图4a所示,在不改变每台加工机器上工序的顺序前提下，没有工序可提前，最大完工时间为24；根据本算法中解码规则，不延迟其他工序和破坏优先顺序前提下，左移工序O22和工序O13获得上图4b中活动调度甘特图，最大完工时间从24缩减至21。

S331、对于初始种群Population中任一个染色体p,令染色体p支配的集合

染色体p的个体数n_p＝0；对初始种群Population中任一个体q(p≠q)，若p＜q，则S_p←S_p∪{q}；若q＜p，则n_p＝n_p+1；若n_p＝0，则染色体p的阶层p_rank＝1，第一阶层染色体集合Population₁←Population₁∪{p}；令i←1；

S332、若

时，定义集合

S333、若

则i←i+1，转入步骤S332；

d_pq＝|C_max(p)-C_max(q)|+|W_m(p)-W_m(q)|+|W_t(p)-W_t(q)|(p≠q) (4)

C_d(p)＝min{d_p1,d_p2,…d_pk…d_pn}(p≠k) (5)

S4、判断种群迭代次数是否达到预设上限，若达到，则输出最优解；否则，利用增强学习算法，并根据适应度值优化遗传算法中的交叉概率P_c和变异概率P_m；

具体而言，优化遗传算法中的交叉概率P_c和变异概率P_m的具体步骤为：

S41、初始化增强学习算法基本参数；基本参数包括：GA环境状态集S、行为集合A、Q值表、当前行动a、奖励函数r、策略贪心率ε、学习率α、学习折扣率γ；其中，Q值表记录和存储学习模型的学习经验，初始Q值表是一个0值矩阵，矩阵行数等于GA状态数，列数等于行动数；从行动集合A中随机选择一个行动a_t,且a←a_t，t为种群迭代次数；

GA环境状态集S：将S分割20个状态，即S＝{S₁，S₂，…S₁₉，S₂₀}，S∈[0，1)，每个状态的取值范围为0.05。若状态s∈[0，0.05)，则s＝S₁；依此类推，若s∈[0.95，1)，则s＝S₂₀。

行为集合A：将A分割10个行动，即：A＝{a₁，a₂，…a₉，a₁₀}；P_c∈[0.4，0.9]，每个交叉概率取值范围为0.05，例如选择行动a₂，那么P_c∈[0.45，0.5]，从[0.45，0.5]中选取一随机数；和P_c一样，P_m∈[0.01，0.21]，每个变异概率取值范围为0.02，例如选择行动a₁，那么P_m∈[0.01，0.03]，从[0.01，0.03]中选取一随机数。

初始Q值表：一个20行10列的0值矩阵。

初始化随机选取行动a，奖励函数r＝1、策略贪心率ε＝0.8、学习率α＝0.7、学习折扣率γ＝0.2。

S42、通过式(7)计算GA算法的环境状态s_t,令s←s_t；该实例中，因为三个生产目标地位一致，因此w1＝w2＝w3＝1/3；

s_t＝w₁fit*+w₂div*+w₃best*(w₁+w₂+w₃＝1) (7)

其中，

S45、通过式(13)计算并更新Q(s_t,a_t)值；

Q(s_t,a_t)＝(1-α)Q(s_t,a_t)+α(r_t+1+γmaxQ(s_t+1,a_t+1)) (13)；

S46、根据ε-greedy策略选择行动a_t+1，表示为：

S5、选择参与交叉的染色体种群，根据交叉概率P_c对参与交叉的染色体种群进行交叉操作，生成参与变异的染色体种群；

具体而言，如图5所示，利用二路锦标赛方式选择排序靠前的popSize-1个染色体；利用精英策略选择适应度值最优Bestfit(x_i)的染色体；

根据交叉概率P_c对参与交叉的染色体种群进行交叉操作，生成参与变异的染色体种群，包括：

S52、执行步骤S51popSize-1次；

对应本实例，如图6所示，表1中FJSP实例中对应的两个染色体的MS部分的多点交叉，随机产生3个位置的1，Parent1黄色对应位置的基因复制到Child1中，Parent2黄色对应位置的基因复制到Child2中。

交叉操作的方式为：MS部分多点交叉，OS部分基于工件优先顺序进行交叉；

MS部分多点交叉，包括：定义长度等于T₀的数组a，并初始化数组a为0；随机生成一个0至1的数r，如果r>0.5,数组a元素为1，并循环执行操作T₀次；如果数组a[i]为1，将Parent1_MS[i]和Parent2_MS[i]基因分别复制到Child1_MS[i]和Child2_MS[i]基因位上，并保证位置和顺序的一致性；将Parent1_MS和Parent2_MS的其余基因分别复制到Child2 _MS和Child1_MS基因位上，并保证位置和顺序的一致性；

OS部分基于工件优先顺序进行交叉，包括：原工件集J＝{J1,J2…Jn}随机划分两个工件集JSet1和JSet2；将Parent1中包含在JSet1中基因复制到Child1中，并保持基因的位置和顺序的一致；将Parent2中包含在JSet2中基因复制到Child2中，并保持基因的位置和顺序的一致；将Parent1中包含在JSet1中基因复制到Child2中，并保持基因的顺序的一致；将Parent2中包含在JSet2中基因复制到Child1中，并保持基因的顺序的一致。

OS基于工件优先顺序交叉示例如图7所示，工件集J包含5个工件,两个子工件集分别包含工件号为JSet1＝{2，4}、JSet2＝{1,3,5}，将Parent1包含JSet1中黄色基因位复制到Child1中，Parent2中包含JSet2中基因复制到Child1中剩余基因位。

S6、根据变异概率P_m对参与变异的染色体种群进行变异操作，生成新染色体种群；返回S3，基于新染色体种群进行计算。

具体而言，根据MS部分多点随机变异和OS部分三邻域搜索变异方式，生成新染色体种群；

MS部分多点随机变异，包括：随机选择一个工件号Ji，随机选择该工件的工序O_ij，在工序O_ij的可加工机器中随机选择一个机器M_k；将O_ij在机器选择MS中的值更换为k；重复执行上述操作k次；

OS部分三邻域搜索变异，包括：OS部分随机生成三个1-T₀的整数基因位，生成六个排列的邻域；求六个邻域变异染色体的适应度值，并选择适应度最优的染色体作为子代。

迭代次数加1，令t←t+1,转至步骤S3。

方法有效性验证：

为验证本发明方法解决多目标FJSP的帕累托解集有效性和精准度，采用Python3.9.0开发，算法程序在处理器Intel CoreIi5-1135G7，主频2.4GHz，内存32G的PC机上运行10次，相关参数按照本发明的具体实施方式部分设置，并选用Kacem et al.设计的8*8、10*10、15*10实例测试，执行时间取10次的平均值，本发明方法与其他算法对比如表2所示：

表2

MOEA-Ho:主频2GHz，内存512M的个人PC上运行的CPU时间；

MOGV:P4主频1.8GHz,内存512M个人PC上运行的CPU时间，VC++开发，迭代次数200，种群规模200；

由表2所示，8*8、10*10、15*10测试实例问题本发明和其他算法相比，帕累托最优解都找到了，且运行时间较优。8*8实例的最优解(14,12,77)和(15,12,75)的调度方案如图8和图9所示。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于Q-learning和GA的多目标柔性作业车间调度自学习方法，其特征在于，包括：

S1、建立柔性作业车间调度模型及其约束条件；

2.根据权利要求1所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法，其特征在于，所述建立柔性作业车间调度模型及其约束条件，包括：所述柔性作业车间调度模型描述为：

最大完工时间最小C_max目标函数如式(1)：

min f₁＝C_max＝min{max(C_i)1≤i≤n} (1)

最大机器负荷最小W_m目标函数如式(2)：

总机器负荷最小W_t目标函数如式(3)：

所述柔性作业车间调度模型的约束条件为：

表示同一台机器在同一时刻只能加工一个工件的一个工序；

i＝1,2,3···n；j＝1,2,3···h_i表示同一工件在同一时刻只能被一台机器加工；

3.根据权利要求2所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法，其特征在于，所述遗传算法基本参数，包括：全局机器选择概率P_gs、局部机器选择概率P_ls、随机选择机器概率P_rs、种群规模Popsize和迭代次数Iteration；

4.根据权利要求3所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法，其特征在于，所述依次按照工件号和每个工件工序号递增排列，包括：

5.根据权利要求4所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法，其特征在于，所述步骤S3，包括：

d_pq＝|C_max(p)-C_max(q)|+|W_m(p)-W_m(q)|+|W_t(p)-W_t(q)|(p≠q) (4)

C_d(p)＝min{d_p1,d_p2,…d_pk…d_pn}(p≠k) (5)

6.根据权利要求5所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法，其特征在于，所述步骤S33，包括：

染色体p的个体数n_p＝0；对所述初始种群Population中任一个体q(p≠q)，若

则S_p←S_p∪{q}；若

则n_p＝n_p+1；若n_p＝0，则染色体p的阶层p_rank＝1，第一阶层染色体集合Population₁←Population₁∪{p}；令i←1；

S332、若

时，定义集合

S333、若

则i←i+1，转入步骤S332。

7.根据权利要求6所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法，其特征在于，所述利用增强学习算法，并根据所述适应度值优化所述遗传算法中的交叉概率P_c和变异概率P_m，包括：

S42、通过式(7)计算GA算法的环境状态s_t,令s←s_t；

s_t＝w₁fit^*+w₂div^*+w₃best^*(w₁+w₂+w₃＝1) (7)

其中，

式中，fit^*表示种群平均适应度，div^*表示种群的多样性，best^*表示种群最优适应度，x_i ^t表示第t代种群Population中第i个染色体，fit(x_i ^t)表示染色体x_i ^t的适应度值，Best f(x_i ^t)表示第t代种群Population中最优适应度；

S45、通过式(13)计算并更新Q(s_t,a_t)值；

Q(s_t,a_t)＝(1-α)Q(s_t,a_t)+α(r_t+1+γmaxQ(s_t+1,a_t+1)) (13)；

S46、根据ε-greedy策略选择行动a_t+1，表示为：

8.根据权利要求7所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法，其特征在于，步骤S5，包括：

利用二路锦标赛方式选择排序靠前的popSize-1个染色体；利用精英策略选择适应度值最优Bestfit(x_i)的染色体；

所述根据所述交叉概率P_c对所述参与交叉的染色体种群进行交叉操作，生成参与变异的染色体种群，包括：

S52、执行步骤S51popSize-1次；

所述MS部分多点交叉，包括：

定义长度等于T₀的数组a，并初始化数组a为0；随机生成一个0至1的数r，如果r>0.5,数组a元素为1，并循环执行操作T0次；如果数组a[i]为1，将Parent1_MS[i]和Parent2_MS[i]基因分别复制到Child1_MS[i]和Child2_MS[i]基因位上，并保证位置和顺序的一致性；将Parent1_MS和Parent2_MS的其余基因分别复制到Child2_MS和Child1_MS基因位上，并保证位置和顺序的一致性；

所述OS部分基于工件优先顺序进行交叉，包括：

原工件集J＝{J1,J2…Jn}随机划分两个工件集JSet1和JSet2；将Parent1中包含在JSet1中基因复制到Child1中，并保持基因的位置和顺序的一致；将Parent2中包含在JSet2中基因复制到Child2中，并保持基因的位置和顺序的一致；将Parent1中包含在JSet1中基因复制到Child2中，并保持基因的顺序的一致；将Parent2中包含在JSet2中基因复制到Child1中，并保持基因的顺序的一致。

9.根据权利要求8所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法，其特征在于，所述步骤S6，包括：

根据MS部分多点随机变异和OS部分三邻域搜索变异方式，生成新染色体种群；

所述MS部分多点随机变异，包括：随机选择一个工件号Ji，随机选择该工件的工序O_ij，在工序O_ij的可加工机器中随机选择一个机器M_k；将O_ij在机器选择MS中的值更换为k；重复执行上述操作k次；

所述OS部分三邻域搜索变异，包括：OS部分随机生成三个1-T₀的整数基因位，生成六个排列的邻域；求六个邻域变异染色体的适应度值，并选择适应度最优的染色体作为子代。