CN113034026A - 基于Q-learning和GA的多目标柔性作业车间调度自学习方法 - Google Patents

基于Q-learning和GA的多目标柔性作业车间调度自学习方法 Download PDF

Info

Publication number
CN113034026A
CN113034026A CN202110383136.5A CN202110383136A CN113034026A CN 113034026 A CN113034026 A CN 113034026A CN 202110383136 A CN202110383136 A CN 202110383136A CN 113034026 A CN113034026 A CN 113034026A
Authority
CN
China
Prior art keywords
chromosome
population
machine
learning
workpiece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110383136.5A
Other languages
English (en)
Other versions
CN113034026B (zh
Inventor
常镜洳
康玲
张明会
石冬凌
彭钰莹
邱谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Neusoft University of Information
Original Assignee
Dalian Neusoft University of Information
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Neusoft University of Information filed Critical Dalian Neusoft University of Information
Priority to CN202110383136.5A priority Critical patent/CN113034026B/zh
Publication of CN113034026A publication Critical patent/CN113034026A/zh
Application granted granted Critical
Publication of CN113034026B publication Critical patent/CN113034026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了基于Q‑learning和GA的多目标柔性作业车间调度自学习方法,采用分段编码规则,全局、局部和随机结合的机器选择方式初始化种群,采用基于Pareto支配关系的非劣解快速排序方法分配染色体解的适应度值,然后设计锦标赛和精英策略结合选择算子,设计对应的交叉和变异算子;在GA算法基础上结合增强机器学习中Q‑learning算法构建自学习模型,设计状态集、行动集、奖励方法、行动选择策略等,在染色体种群迭代间动态调整交叉概率Pc和变异概率Pm,从而,提高算法时间复杂度和解的精准度,进而提高车间生产的自适应性、可靠性以及智能化水平。

Description

基于Q-learning和GA的多目标柔性作业车间调度自学习方法
技术领域
本发明涉及制造生产车间的调度技术领域,尤其涉及一种基于Q-learning和GA的多目标柔性作业车间调度自学习方法。
背景技术
随着客户需求定制化和加工设备的多功能发展,传统作业车间调度(JSP)很难达到最优化排产调度,造成生产率较低、资源浪费、成本增加,因此设计并实现柔性作业车间调度的自学习智能化方法成为生产调度的关键任务,以满足制造企业的实际需求。
柔性作业车间调度(FJSP)在1990年由Bruker和Schlic首次提出,具有显著的离散性、计算复杂性、多约束性、不确定性和多目标性特征作为经典作业车间调度(JSP)问题的扩展,突破生产资源唯一性限制,每道生产工序可在不同机器上加工,更迎合实际生产环境,增加了调度的灵活性、可靠性和自适应性,且是一种公认的强NP-hard问题;实际生产中调度问题常常多目标的,有效的调度优化方案不仅能提高生产效率、设备利用率,保证按时交货,降低企业成本,而且还节能减排实现绿色生产。
目前,FJSP常用解决方法有遗传算法、禁忌搜索、蚁群算法、模拟退火、粒子群算法、蜂群算法等;遗传算法是一种隐含并行搜索的随机全局搜索算法,优越的全局搜索和较强的鲁棒性使得遗传算法非常适合求解多目标优化FJSP问题。但遗传算法中的交叉概率和变异概率等关键参数不能被动态精准调整,从而影响算法的效率和解的质量。
发明内容
本发明提供基于Q-learning和GA的多目标柔性作业车间调度自学习方法,以克服上述技术问题。
本发明基于Q-learning和GA的多目标柔性作业车间调度自学习方法,包括:
S1、建立柔性作业车间调度模型及其约束条件;
S2、初始化遗传算法基本参数;根据所述遗传算法的分段编码规则,并根据所述基本参数进行染色体种群初始化;
S3、对各染色体支配关系进行分类划定帕累托阶层,计算同一帕累托阶层内各染色体之间的拥挤距离,根据染色体所在的帕累托阶层及所述拥挤距离计算适应度值;
S4、判断种群迭代次数是否达到预设上限,若达到,则输出最优解;否则,利用增强学习算法,并根据所述适应度值优化所述遗传算法中的交叉概率Pc和变异概率Pm
S5、选择参与交叉的染色体种群,根据所述交叉概率Pc对所述参与交叉的染色体种群进行交叉操作,生成参与变异的染色体种群;
S6、根据所述变异概率Pm对所述参与变异的染色体种群进行变异操作,生成新染色体种群;返回S3,基于所述新染色体种群进行计算。
进一步地,所述建立柔性作业车间调度模型及其约束条件,包括:所述柔性作业车间调度模型描述为:
n种独立工件J={J1,J2,J3…Jn},m台独立机器M={M1,M2,M3…Mm},每个工件Ji有工序数为hj,Oij表示工件Ji的第j个工序,j=1,2,3…,hi,工序Oij可被多台机器加工,Oij在机器Mk上的加工时间tijk,k=1,2,3…,m;并按照一定工艺先后顺序进行加工,调度目标为最大完工时间最小、最大机器负荷最小及总机器负荷最小中一项或多项性能指标达到最优;其中,
最大完工时间最小Cmax目标函数如式(1):
minf1=Cmax=min{max(Ci)1≤i≤n} (1)
最大机器负荷最小Wm目标函数如式(2):
Figure BDA0003013813160000021
总机器负荷最小Wt目标函数如式(3):
Figure BDA0003013813160000022
所述柔性作业车间调度模型的约束条件为:
sij≥0,cij≥0,i=1,2,3...n;j=1,2,3...hi表示工序的加工时间和完工时间必须是非负数;
cij≤si(j+1),i=1,2,3···n;j=1,2,3···hi表示每一个工件的工序间遵循工艺先后顺序;
Figure BDA0003013813160000031
表示同一台机器在同一时刻只能加工一个工件的一个工序;
Figure BDA0003013813160000032
表示同一工件在同一时刻只能被一台机器加工;
其中,Ci表示工件Ji加工完成时间;sij表示工序Oij加工开始时间;cij表示工序Oij加工完成时间;mij表示工序Oij的可选加工机器数;U表示正数;
Figure BDA0003013813160000033
进一步地,所述遗传算法基本参数,包括:全局机器选择概率Pgs、局部机器选择概率Pls、随机选择机器概率Prs、种群规模Popsize和迭代次数Iteration;
所述根据所述遗传算法的分段编码规则,并根据所述基本参数进行种群初始化,包括:
S21、构建初始种群染色体的机器选择MS部分编码,并存入存储数据数量为Popsize*To的二维数组machSelect[][]中;
其中,To等于所有工件的工序数之和;机器选择MS部分的染色体长度为To,每个基因位用整数表示,代表当前工序选择的加工机器号,并依次按照工件号和每个工件工序号递增排列;
S22、构建初始种群染色体的工序排序OS部分编码,所述工序排序OS部分编码采用随机排序方式,并存入存储数据数量为Popsize*To的二维数组OpeSort[][]中;
其中,工序排序OS部分的染色体基于工序进行编码,长度等于所有工件的工序数之和To,每个基因位用工件号代表的整数表示,工件i第j次出现表示Ji的第j道工序Oij,且工件i出现的次数等于Ji的工序总数;OS部分从左至右的工件号的先后顺序表示工件工序间的先后加工顺序;
S23、构建初始种群Population;依次按行组合machSelect[]和OpeSort[],存入存储数据数量为Popsize*2To的数组Population[][]中,数组Population[][]中每一行元素代表一条染色体。
进一步地,所述依次按照工件号和每个工件工序号递增排列,包括:
S211、按照全局机器选择概率Pgs,以所有机器负荷均衡化的角度,使用贪心算法设计策略为每个工序选择加工机器;
S212、按照局部机器选择概率Pls,以所有机器负荷均衡化的角度,使用贪心算法设计策略为每个工件工序选择加工机器;当下一个工件的第一个工序选择机器时,每台机器负荷重新设置为0;
S213、按照随机机器选择概率Prs,为每个工序在可加工机器集中随机选择一个加工机器。
进一步地,所述步骤S3,包括:
S31、通过对染色体中机器选择MS部分信息解码,结合已知每个工件的工序在每台机器上加工时间信息,转换成每个工件工序选择机器矩阵ML、每个工件工序在所选机器上加工时间矩阵PT和每台机器负荷向量MT;
S32、根据每个工序选择的加工机器和加工时间,读取染色体中工序排序OS部分,得到调度结果;
S33、利用快速非支配排序法对染色体支配关系进行分类划定帕累托阶层,将初始种群Population划分成互不相交的且具有支配关系的子群体Population1<Population2<…<Populationn
S34、通过式(4)、(5)计算同一帕累托阶层内每个染色体的拥挤距离;
dpq=|Cmax(p)-Cmax(q)|+|Wm(p)-Wm(q)|+|Wt(p)-Wt(q)|(p≠q)(4)
Cd(p)=min{dp1,dp2,…dpk…dpn}(p≠k)(5)
式中,dpq表示同一帕累托阶层内两个染色体之间的距离,则染色体p到同层染色体距离的最小值为p的拥挤距离Cd(p);
S35、根据染色体p所在的帕累托阶层和其拥挤距离,通过式(6)计算适应度值;
Figure BDA0003013813160000041
进一步地,所述步骤S33,包括:
S331、对于所述初始种群Population中任一个染色体p,令染色体p支配的集合
Figure BDA0003013813160000042
染色体p的个体数np=0;对所述初始种群Population中任一个体q(p≠q),若p<q,则Sp←Sp∪{q};若q<p,则np=np+1;若np=0,则染色体p的阶层prank=1,第一阶层染色体集合Population1←Population1∪{p};令i←1;
S332、若
Figure BDA0003013813160000051
时,定义集合
Figure BDA0003013813160000052
对于每个染色体q∈Sp,令nq←nq-1,若nq=0,则prank←i+1,且Q←Q∪{q},i←i+1,Populationi←Q;
S333、若
Figure BDA0003013813160000053
则i←i+1,转入步骤S332。
进一步地,所述利用增强学习算法,并根据所述适应度值优化所述遗传算法中的交叉概率Pc和变异概率Pm,包括:
S41、初始化所述增强学习算法基本参数;所述基本参数包括:GA环境状态集S、行为集合A、Q值表、当前行动a、奖励函数r、策略贪心率ε、学习率α、学习折扣率γ;
其中,Q值表记录和存储学习模型的学习经验,初始Q值表是一个0值矩阵,矩阵行数等于GA状态数,列数等于行动数;从行动集合A中随机选择一个行动at,且a←at,t为种群迭代次数;
S42、通过式(7)计算GA算法的环境状态st,令s←st
st=w1fit*+w2div*+w3best*(w1+w2+w3=1)(7)
其中,
Figure BDA0003013813160000054
Figure BDA0003013813160000055
Figure BDA0003013813160000056
式中,fit*表示种群平均适应度,div*表示种群的多样性,best*表示种群最优适应度,xi t表示第t代种群Population中第i个染色体,fit(xi t)表示染色体xi t的适应度值,Bestf(xi t)表示第t代种群Population中最优适应度;
S43、通过奖励函数rc调整交叉概率Pc,通过奖励函数rm调整变异概率Pm,表示为:
Figure BDA0003013813160000061
Figure BDA0003013813160000062
S44、根据贪心策略选择行动at+1,使得Q(s,at+1)=max{Q(s,a)},a∈A;
S45、通过式(13)计算并更新Q(st,at)值;
Q(st,at)=(1-α)Q(st,at)+α(rt+1+γmaxQ(st+1,at+1)) (13);
S46、根据ε-greedy策略选择行动at+1,表示为:
Figure BDA0003013813160000063
其中,ε-greedy为一种综合exploitation和exploration的行动选择策略;r0-1表示生成0至1的随机数,arandom表示从行动集合A中随机选择的一个行动;
S47、通过式(7)计算GA算法的环境状态st+1,令s←st+1,并更新当前行动a←at+1
S48、将Q(st,at)值更新至Q值表,并根据当前行动a优化所述交叉概率Pc和变异概率Pm
进一步地,步骤S5,包括:利用二路锦标赛方式选择排序靠前的popSize-1个染色体;利用精英策略选择适应度值最优Bestfit(xi)的染色体;所述根据所述交叉概率Pc对所述参与交叉的染色体种群进行交叉操作,生成参与变异的染色体种群,包括:
S51、随机选择两个父代染色体Parent1和Parent2交叉产生两个子代染色体Child1和Child2,计算Parent1、Parent2、Child1、Child2的适应度值,并选择适应度值最优的染色体放入参与变异操作的种群中;
S52、执行步骤S51popSize-1次;
S53、将第popSize个染色体设置为交叉前的选择算子父代种群中适应度值最高的染色体;
所述交叉操作的方式为:MS部分多点交叉,OS部分基于工件优先顺序进行交叉;
所述MS部分多点交叉,包括:定义长度等于T0的数组a,并初始化数组a为0;随机生成一个0至1的数r,如果r>0.5,数组a元素为1,并循环执行操作T0次;如果数组a[i]为1,将Parent1MS[i]和Parent2MS[i]基因分别复制到Child1MS[i]和Child2MS[i]基因位上,并保证位置和顺序的一致性;将Parent1MS和Parent2MS的其余基因分别复制到Child2 MS和Child1MS基因位上,并保证位置和顺序的一致性;所述OS部分基于工件优先顺序进行交叉,包括:原工件集J={J1,J2…Jn}随机划分两个工件集JSet1和JSet2;将Parent1中包含在JSet1中基因复制到Child1中,并保持基因的位置和顺序的一致;将Parent2中包含在JSet2中基因复制到Child2中,并保持基因的位置和顺序的一致;将Parent1中包含在JSet1中基因复制到Child2中,并保持基因的顺序的一致;将Parent2中包含在JSet2中基因复制到Child1中,并保持基因的顺序的一致。
进一步地,所述步骤S6,包括:根据MS部分多点随机变异和OS部分三邻域搜索变异方式,生成新染色体种群;所述MS部分多点随机变异,包括:随机选择一个工件号Ji,随机选择该工件的工序Oij,在工序Oij的可加工机器中随机选择一个机器Mk;将Oij在机器选择MS中的值更换为k;重复执行上述操作k次;所述OS部分三邻域搜索变异,包括:OS部分随机生成三个1-T0的整数基因位,生成六个排列的邻域;求六个邻域变异染色体的适应度值,并选择适应度最优的染色体作为子代。
本发明采用分段编码规则,全局、局部和随机结合的机器选择初始化种群,采用基于Pareto支配关系的非劣解快速排序方法分配染色体解的适应度值,然后设计锦标赛和精英策略结合选择算子,设计对应的交叉和变异算子;在GA算法基础上结合增强机器学习中Q-learning算法构建自学习模型,设计状态集、行动集、奖励方法、行动选择策略等,在染色体种群迭代间动态调整交叉概率Pc和变异概率Pm,从而,提高算法时间复杂度和解的精准度,进而提高车间生产的适应性、鲁棒性以及智能化水平。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明遗传算法与增强学习融合模型;
图3为本发明FJSP染色体编码示意图;
图4a为本发明半活动调度甘特图;
图4b为本发明半活动调度的工序左移后获得的活动调度甘特图;
图5为本发明GA选择算子示意图;
图6为本发明MS多点交叉示意图;
图7为本发明OS基于工件优先顺序交叉示意图;
图8为仿真验证中8*8问题的最优解(14,12,77)甘特图;
图9为仿真验证中8*8问题的最优解(15,12,75)甘特图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供了基于Q-learning和GA的多目标柔性作业车间调度自学习方法,包括:
本算法的目的在于基于增强学习中Q-learning算法和遗传算法(GA)设计一种自学习方法求解最大完工时间最小Cmax、最大负荷机器最小Wm、总机器负荷最小Wt的多目标FJSP问题,两个算法融合模型如图2所示。
S1、建立柔性作业车间调度模型及其约束条件;
具体而言,n*m的FJSP问题描述如下:n种独立工件J={J1,J2,J3…Jn},m台独立机器M={M1,M2,M3…Mm},每个工件Ji有工序数为hj,Oij表示工件Ji的第j个工序,j=1,2,3…,hi,工序Oij可被多台机器加工,Oij在机器Mk上的加工时间tijk,k=1,2,3…,m;并按照一定工艺先后顺序进行加工,调度目标为最大完工时间最小、最大机器负荷最小及总机器负荷最小中一项或多项性能指标达到最优;约束条件如下:
(1)同一台机器在同一时刻只能加工一个工件。
(2)同一工件在同一时刻只能被一台机器加工,且不可中断。
(3)不同工件之间工序无先后顺序约束,优先级相同。
(4)同一工件的工序间有先后顺序。
(5)机器安装时间和工序间传输时间忽略不计。
(6)工件和机器加工开始时间允许在零时刻。
柔性作业车间调度模型描述为:
最大完工时间最小Cmax目标函数如式(1):
minf1=Cmax=min{max(Ci)1≤i≤n} (1)
最大机器负荷最小Wm目标函数如式(2):
Figure BDA0003013813160000091
总机器负荷最小Wt目标函数如式(3):
Figure BDA0003013813160000092
柔性作业车间调度模型的约束条件为:
sij≥0,cij≥0,i=1,2,3...n;j=1,2,3...hi表示工序的加工时间和完工时间必须是非负数;
cij≤si(j+1),i=1,2,3…n;j=1,2,3…hi表示每一个工件的工序间遵循工艺先后顺序;
Figure BDA0003013813160000093
表示同一台机器在同一时刻只能加工一个工件的一个工序;
Figure BDA0003013813160000094
表示同一工件在同一时刻只能被一台机器加工;
其中,Ci表示工件Ji加工完成时间;sij表示工序Oij加工开始时间;cij表示工序Oij加工完成时间;mij表示工序Oij的可选加工机器数;U表示正数;
Figure BDA0003013813160000095
S2、初始化遗传算法基本参数;根据遗传算法的分段编码规则,并根据基本参数进行染色体种群初始化;
具体而言,根据机器资源选择限制条件和柔性程度,通常分为完全柔性作业车间调度(T-FJSP)和部分柔性作业车间调度(P-FJSP)。因为P-FJSP更符合实际生产且更复杂,研究P-FJSP问题更有实际意义。如下表1为一个部分柔性车间调度实例。表1对应的一条染色体如图3所示。
表1
Figure BDA0003013813160000101
遗传算法基本参数,包括:全局机器选择概率Pgs=0.7,局部机器选择概率Pls=0.2,随机选择机器概率Prs=0.1,种群规模Popsize=100,迭代次数Iteration=100。
根据遗传算法的A/B分段编码规则,并根据全局、局部和随机结合的机器选择策略进行种群初始化,具体步骤是:
S21、构建初始种群染色体的机器选择部分编码,并存入Popsize*To(To等于所有工件的工序数之和)大小二维数组machSelect[][]。
机器选择(MS)部分的染色体长度为To,每个基因位用整数表示,代表当前工序选择的加工机器号,并依次按照工件号和每个工件工序号递增排列;具体步骤如下:
S211、按照全局机器选择概率Pgs,以所有机器负荷均衡化的角度,使用贪心算法设计策略为每个工序选择加工机器。
S212、按照局部机器选择概率Pls,以所有机器负荷均衡化的角度,使用贪心算法设计策略为每个工件工序选择加工机器;当下一个工件的第一个工序选择机器时,每台机器负荷重新设置为0。
S213、按照随机机器选择概率Prs,为每个工序在可加工机器集中随机选择一个加工机器。
S22、构建初始种群染色体的工序排序部分编码,工序排序部分编码采用随机排序方式,并存入Popsize*To大小二维数组OpeSort[][]。
工序排序(OS)部分的染色体基于工序进行编码,其长度等于所有工件的工序数之和To,每个基因位用工件号代表的整数表示,工件i第j次出现表示Ji的第j道工序Oij,且工件i出现的次数等于Ji的工序总数;OS部分从左至右的工件号的先后顺序表示工件工序间的先后加工顺序。
S23、构建初始种群Population。依次按行组合machSelect[]和OpeSort[],放入Popsize*2To大小数组Population[][]中,数组中每一行元素代表一条染色体。
S3、计算染色体种群中各染色体的适应度目标值,并对各染色体支配关系进行分类划定帕累托阶层;计算同一帕累托阶层内各染色体之间的拥挤距离,根据染色体所在的帕累托阶层及所述拥挤距离计算适应度值;
具体而言,计算各染色体的每个适应度目标值,并使用快速非支配排序法对染色体支配关系进行分类划定帕累托阶层,计算拥挤距离,基于阶层和距离生成适应度。具体步骤为:
S31、通过对染色体中机器选择MS部分信息解码,结合已知每个工件的工序在每台机器上加工时间信息,转换成每个工件工序选择机器矩阵ML、每个工件工序在所选机器上加工时间矩阵PT和每台机器负荷向量MT;
其中ML矩阵的第i行ML(i,*)表示工件Ji所有工序选择机器号的排列,ML(i,j)表示工件Ji的工序Oij所选的机器号;PT矩阵的第i行PT(i,*)表示工件Ji所有工序在所选机器上加工时间排列,PT(i,j)表示工件Ji的工序Oij所选的机器上加工时间;列向量MT中MT[h]表示第h个机器加工这批工件的加工时间。三个适应度函数值如下:
Cmax=min(max{Cj|1<=j<=n})
Wm=min{max{ET(i,j)}}
Wt=min{Sum(MT[h])|1<=h<=m}}
其中,根据step1解码算子,求每个工序0ij在所选机器上加工时间的PT(i,j),以及工序0ij的开始加工时间ST(i,j);那么工序0ij的完工时间ET(i,j)=ST(i,j)+PT(i,j)。
S32、根据每个工序选择的加工机器和加工时间,读取染色体中工序排序OS部分,得到调度结果;
为了生成一种活动调度方案或者绘制其调度甘特图,关键在于求每个工序加工的开始时间,其取决于其先序工序完成时间和所选机器空闲时间,因此根据工序Oij是否是工件Ji的1号工序和其加工机器Mh是否为本批加工任务首次加工这两个维度,分成以下四种情况:
定义工序0ij的开始加工时间为STij,结束时间为ETij;机器Mh当前加工任务结束时间为MEh
(1)如果Oij为首个工序,且Mh为首加工,那么Oij的加工开始时间STij=0;
(2)如果Oij为首个工序,但Mh不是首加工,那么STij←MEh
(3)如果Oij不是1号工序,但Mh为首加工,那么STij等于其先序工序Oi(j-1)加工结束时间ET(i,j-1),即:ST(i,j)=ET(i,j-1)
(4)如果Oij不是1号工序,且Mh不是首加工,那么STij等于ET(i,j-1)和MEh两者中较大者;即:STij=Max{ET(i,j-1),MEh}。
表1实例和图3中染色体对应的一个半活动调度甘特图如图4a所示,在不改变每台加工机器上工序的顺序前提下,没有工序可提前,最大完工时间为24;根据本算法中解码规则,不延迟其他工序和破坏优先顺序前提下,左移工序O22和工序O13获得上图4b中活动调度甘特图,最大完工时间从24缩减至21。
S33、利用快速非支配排序法对染色体支配关系进行分类划定帕累托阶层,将初始种群Population划分成互不相交的且具有支配关系的子群体Population1<Population2<…<Populationn
S331、对于初始种群Population中任一个染色体p,令染色体p支配的集合
Figure BDA0003013813160000121
染色体p的个体数np=0;对初始种群Population中任一个体q(p≠q),若p<q,则Sp←Sp∪{q};若q<p,则np=np+1;若np=0,则染色体p的阶层prank=1,第一阶层染色体集合Population1←Population1∪{p};令i←1;
S332、若
Figure BDA0003013813160000122
时,定义集合
Figure BDA0003013813160000123
对于每个染色体q∈Sp,令nq←nq-1,若nq=0,则prank←i+1,且Q←Q∪{q},i←i+1,Populationi←Q;
S333、若
Figure BDA0003013813160000124
则i←i+1,转入步骤S332;
S34、通过式(4)、(5)计算同一帕累托阶层内每个染色体的拥挤距离;
dpq=|Cmax(p)-Cmax(q)|+|Wm(p)-Wm(q)|+|Wt(p)-Wt(q)|(p≠q) (4)
Cd(p)=min{dp1,dp2,…dpk…dpn}(p≠k) (5)
式中,dpq表示同一帕累托阶层内两个染色体之间的距离,则染色体p到同层染色体距离的最小值为p的拥挤距离Cd(p);
S35、根据染色体p所在的帕累托阶层和其拥挤距离,通过式(6)计算适应度值;
Figure BDA0003013813160000125
S4、判断种群迭代次数是否达到预设上限,若达到,则输出最优解;否则,利用增强学习算法,并根据适应度值优化遗传算法中的交叉概率Pc和变异概率Pm
具体而言,优化遗传算法中的交叉概率Pc和变异概率Pm的具体步骤为:
S41、初始化增强学习算法基本参数;基本参数包括:GA环境状态集S、行为集合A、Q值表、当前行动a、奖励函数r、策略贪心率ε、学习率α、学习折扣率γ;其中,Q值表记录和存储学习模型的学习经验,初始Q值表是一个0值矩阵,矩阵行数等于GA状态数,列数等于行动数;从行动集合A中随机选择一个行动at,且a←at,t为种群迭代次数;
GA环境状态集S:将S分割20个状态,即S={S1,S2,…S19,S20},S∈[0,1),每个状态的取值范围为0.05。若状态s∈[0,0.05),则s=S1;依此类推,若s∈[0.95,1),则s=S20
行为集合A:将A分割10个行动,即:A={a1,a2,…a9,a10};Pc∈[0.4,0.9],每个交叉概率取值范围为0.05,例如选择行动a2,那么Pc∈[0.45,0.5],从[0.45,0.5]中选取一随机数;和Pc一样,Pm∈[0.01,0.21],每个变异概率取值范围为0.02,例如选择行动a1,那么Pm∈[0.01,0.03],从[0.01,0.03]中选取一随机数。
初始Q值表:一个20行10列的0值矩阵。
初始化随机选取行动a,奖励函数r=1、策略贪心率ε=0.8、学习率α=0.7、学习折扣率γ=0.2。
S42、通过式(7)计算GA算法的环境状态st,令s←st;该实例中,因为三个生产目标地位一致,因此w1=w2=w3=1/3;
st=w1fit*+w2div*+w3best*(w1+w2+w3=1) (7)
其中,
Figure BDA0003013813160000131
Figure BDA0003013813160000141
Figure BDA0003013813160000142
式中,fit*表示种群平均适应度,div*表示种群的多样性,best*表示种群最优适应度,xi t表示第t代种群Population中第i个染色体,fit(xi t)表示染色体xi t的适应度值,Bestf(xi t)表示第t代种群Population中最优适应度;
S43、通过奖励函数rc调整交叉概率Pc,通过奖励函数rm调整变异概率Pm,表示为:
Figure BDA0003013813160000143
Figure BDA0003013813160000144
S44、根据贪心策略选择行动at+1,使得Q(s,at+1)=max{Q(s,a)},a∈A;
S45、通过式(13)计算并更新Q(st,at)值;
Q(st,at)=(1-α)Q(st,at)+α(rt+1+γmaxQ(st+1,at+1)) (13);
S46、根据ε-greedy策略选择行动at+1,表示为:
Figure BDA0003013813160000145
其中,ε-greedy为一种综合exploitation和exploration的行动选择策略;r0-1表示生成0至1的随机数,arandom表示从行动集合A中随机选择的一个行动;
S47、通过式(7)计算GA算法的环境状态st+1,令s←st+1,并更新当前行动a←at+1
S48、将Q(st,at)值更新至Q值表,并根据当前行动a优化所述交叉概率Pc和变异概率Pm
S5、选择参与交叉的染色体种群,根据交叉概率Pc对参与交叉的染色体种群进行交叉操作,生成参与变异的染色体种群;
具体而言,如图5所示,利用二路锦标赛方式选择排序靠前的popSize-1个染色体;利用精英策略选择适应度值最优Bestfit(xi)的染色体;
根据交叉概率Pc对参与交叉的染色体种群进行交叉操作,生成参与变异的染色体种群,包括:
S51、随机选择两个父代染色体Parent1和Parent2交叉产生两个子代染色体Child1和Child2,计算Parent1、Parent2、Child1、Child2的适应度值,并选择适应度值最优的染色体放入参与变异操作的种群中;
S52、执行步骤S51popSize-1次;
S53、将第popSize个染色体设置为交叉前的选择算子父代种群中适应度值最高的染色体;
对应本实例,如图6所示,表1中FJSP实例中对应的两个染色体的MS部分的多点交叉,随机产生3个位置的1,Parent1黄色对应位置的基因复制到Child1中,Parent2黄色对应位置的基因复制到Child2中。
交叉操作的方式为:MS部分多点交叉,OS部分基于工件优先顺序进行交叉;
MS部分多点交叉,包括:定义长度等于T0的数组a,并初始化数组a为0;随机生成一个0至1的数r,如果r>0.5,数组a元素为1,并循环执行操作T0次;如果数组a[i]为1,将Parent1MS[i]和Parent2MS[i]基因分别复制到Child1MS[i]和Child2MS[i]基因位上,并保证位置和顺序的一致性;将Parent1MS和Parent2MS的其余基因分别复制到Child2 MS和Child1MS基因位上,并保证位置和顺序的一致性;
OS部分基于工件优先顺序进行交叉,包括:原工件集J={J1,J2…Jn}随机划分两个工件集JSet1和JSet2;将Parent1中包含在JSet1中基因复制到Child1中,并保持基因的位置和顺序的一致;将Parent2中包含在JSet2中基因复制到Child2中,并保持基因的位置和顺序的一致;将Parent1中包含在JSet1中基因复制到Child2中,并保持基因的顺序的一致;将Parent2中包含在JSet2中基因复制到Child1中,并保持基因的顺序的一致。
OS基于工件优先顺序交叉示例如图7所示,工件集J包含5个工件,两个子工件集分别包含工件号为JSet1={2,4}、JSet2={1,3,5},将Parent1包含JSet1中黄色基因位复制到Child1中,Parent2中包含JSet2中基因复制到Child1中剩余基因位。
S6、根据变异概率Pm对参与变异的染色体种群进行变异操作,生成新染色体种群;返回S3,基于新染色体种群进行计算。
具体而言,根据MS部分多点随机变异和OS部分三邻域搜索变异方式,生成新染色体种群;
MS部分多点随机变异,包括:随机选择一个工件号Ji,随机选择该工件的工序Oij,在工序Oij的可加工机器中随机选择一个机器Mk;将Oij在机器选择MS中的值更换为k;重复执行上述操作k次;
OS部分三邻域搜索变异,包括:OS部分随机生成三个1-T0的整数基因位,生成六个排列的邻域;求六个邻域变异染色体的适应度值,并选择适应度最优的染色体作为子代。
迭代次数加1,令t←t+1,转至步骤S3。
方法有效性验证:
为验证本发明方法解决多目标FJSP的帕累托解集有效性和精准度,采用Python3.9.0开发,算法程序在处理器Intel CoreIi5-1135G7,主频2.4GHz,内存32G的PC机上运行10次,相关参数按照本发明的具体实施方式部分设置,并选用Kacem et al.设计的8*8、10*10、15*10实例测试,执行时间取10次的平均值,本发明方法与其他算法对比如表2所示:
表2
Figure BDA0003013813160000161
Figure BDA0003013813160000171
MOEA-Ho:主频2GHz,内存512M的个人PC上运行的CPU时间;
MOGV:P4主频1.8GHz,内存512M个人PC上运行的CPU时间,VC++开发,迭代次数200,种群规模200;
由表2所示,8*8、10*10、15*10测试实例问题本发明和其他算法相比,帕累托最优解都找到了,且运行时间较优。8*8实例的最优解(14,12,77)和(15,12,75)的调度方案如图8和图9所示。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.基于Q-learning和GA的多目标柔性作业车间调度自学习方法,其特征在于,包括:
S1、建立柔性作业车间调度模型及其约束条件;
S2、初始化遗传算法基本参数;根据所述遗传算法的分段编码规则,并根据所述基本参数进行染色体种群初始化;
S3、对各染色体支配关系进行分类划定帕累托阶层,计算同一帕累托阶层内各染色体之间的拥挤距离,根据染色体所在的帕累托阶层及所述拥挤距离计算适应度值;
S4、判断种群迭代次数是否达到预设上限,若达到,则输出最优解;否则,利用增强学习算法,并根据所述适应度值优化所述遗传算法中的交叉概率Pc和变异概率Pm
S5、选择参与交叉的染色体种群,根据所述交叉概率Pc对所述参与交叉的染色体种群进行交叉操作,生成参与变异的染色体种群;
S6、根据所述变异概率Pm对所述参与变异的染色体种群进行变异操作,生成新染色体种群;返回S3,基于所述新染色体种群进行计算。
2.根据权利要求1所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法,其特征在于,所述建立柔性作业车间调度模型及其约束条件,包括:所述柔性作业车间调度模型描述为:
n种独立工件J={J1,J2,J3…Jn},m台独立机器M={M1,M2,M3…Mm},每个工件Ji有工序数为hj,Oij表示工件Ji的第j个工序,j=1,2,3…,hi,工序Oij可被多台机器加工,Oij在机器Mk上的加工时间tijk,k=1,2,3…,m;并按照一定工艺先后顺序进行加工,调度目标为最大完工时间最小、最大机器负荷最小及总机器负荷最小中一项或多项性能指标达到最优;其中,
最大完工时间最小Cmax目标函数如式(1):
min f1=Cmax=min{max(Ci)1≤i≤n} (1)
最大机器负荷最小Wm目标函数如式(2):
Figure FDA0003013813150000011
总机器负荷最小Wt目标函数如式(3):
Figure FDA0003013813150000012
所述柔性作业车间调度模型的约束条件为:
sij≥0,cij≥0,i=1,2,3...n;j=1,2,3...hi表示工序的加工时间和完工时间必须是非负数;
cij≤si(j+1),i=1,2,3···n;j=1,2,3···hi表示每一个工件的工序间遵循工艺先后顺序;
Figure FDA0003013813150000021
表示同一台机器在同一时刻只能加工一个工件的一个工序;
Figure FDA0003013813150000022
i=1,2,3···n;j=1,2,3···hi表示同一工件在同一时刻只能被一台机器加工;
其中,Ci表示工件Ji加工完成时间;sij表示工序Oij加工开始时间;cij表示工序Oij加工完成时间;mij表示工序Oij的可选加工机器数;U表示正数;
Figure FDA0003013813150000023
3.根据权利要求2所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法,其特征在于,所述遗传算法基本参数,包括:全局机器选择概率Pgs、局部机器选择概率Pls、随机选择机器概率Prs、种群规模Popsize和迭代次数Iteration;
所述根据所述遗传算法的分段编码规则,并根据所述基本参数进行种群初始化,包括:
S21、构建初始种群染色体的机器选择MS部分编码,并存入存储数据数量为Popsize*To的二维数组machSelect[][]中;
其中,To等于所有工件的工序数之和;机器选择MS部分的染色体长度为To,每个基因位用整数表示,代表当前工序选择的加工机器号,并依次按照工件号和每个工件工序号递增排列;
S22、构建初始种群染色体的工序排序OS部分编码,所述工序排序OS部分编码采用随机排序方式,并存入存储数据数量为Popsize*To的二维数组OpeSort[][]中;
其中,工序排序OS部分的染色体基于工序进行编码,长度等于所有工件的工序数之和To,每个基因位用工件号代表的整数表示,工件i第j次出现表示Ji的第j道工序Oij,且工件i出现的次数等于Ji的工序总数;OS部分从左至右的工件号的先后顺序表示工件工序间的先后加工顺序;
S23、构建初始种群Population;依次按行组合machSelect[]和OpeSort[],存入存储数据数量为Popsize*2To的数组Population[][]中,数组Population[][]中每一行元素代表一条染色体。
4.根据权利要求3所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法,其特征在于,所述依次按照工件号和每个工件工序号递增排列,包括:
S211、按照全局机器选择概率Pgs,以所有机器负荷均衡化的角度,使用贪心算法设计策略为每个工序选择加工机器;
S212、按照局部机器选择概率Pls,以所有机器负荷均衡化的角度,使用贪心算法设计策略为每个工件工序选择加工机器;当下一个工件的第一个工序选择机器时,每台机器负荷重新设置为0;
S213、按照随机机器选择概率Prs,为每个工序在可加工机器集中随机选择一个加工机器。
5.根据权利要求4所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法,其特征在于,所述步骤S3,包括:
S31、通过对染色体中机器选择MS部分信息解码,结合已知每个工件的工序在每台机器上加工时间信息,转换成每个工件工序选择机器矩阵ML、每个工件工序在所选机器上加工时间矩阵PT和每台机器负荷向量MT;
S32、根据每个工序选择的加工机器和加工时间,读取染色体中工序排序OS部分,得到调度结果;
S33、利用快速非支配排序法对染色体支配关系进行分类划定帕累托阶层,将初始种群Population划分成互不相交的且具有支配关系的子群体Population1<Population2<…<Populationn
S34、通过式(4)、(5)计算同一帕累托阶层内每个染色体的拥挤距离;
dpq=|Cmax(p)-Cmax(q)|+|Wm(p)-Wm(q)|+|Wt(p)-Wt(q)|(p≠q) (4)
Cd(p)=min{dp1,dp2,…dpk…dpn}(p≠k) (5)
式中,dpq表示同一帕累托阶层内两个染色体之间的距离,则染色体p到同层染色体距离的最小值为p的拥挤距离Cd(p);
S35、根据染色体p所在的帕累托阶层和其拥挤距离,通过式(6)计算适应度值;
Figure FDA0003013813150000041
6.根据权利要求5所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法,其特征在于,所述步骤S33,包括:
S331、对于所述初始种群Population中任一个染色体p,令染色体p支配的集合
Figure FDA0003013813150000042
染色体p的个体数np=0;对所述初始种群Population中任一个体q(p≠q),若
Figure FDA0003013813150000043
则Sp←Sp∪{q};若
Figure FDA0003013813150000044
则np=np+1;若np=0,则染色体p的阶层prank=1,第一阶层染色体集合Population1←Population1∪{p};令i←1;
S332、若
Figure FDA0003013813150000045
时,定义集合
Figure FDA0003013813150000046
对于每个染色体q∈Sp,令nq←nq-1,若nq=0,则prank←i+1,且Q←Q∪{q},i←i+1,Populationi←Q;
S333、若
Figure FDA0003013813150000047
则i←i+1,转入步骤S332。
7.根据权利要求6所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法,其特征在于,所述利用增强学习算法,并根据所述适应度值优化所述遗传算法中的交叉概率Pc和变异概率Pm,包括:
S41、初始化所述增强学习算法基本参数;所述基本参数包括:GA环境状态集S、行为集合A、Q值表、当前行动a、奖励函数r、策略贪心率ε、学习率α、学习折扣率γ;
其中,Q值表记录和存储学习模型的学习经验,初始Q值表是一个0值矩阵,矩阵行数等于GA状态数,列数等于行动数;从行动集合A中随机选择一个行动at,且a←at,t为种群迭代次数;
S42、通过式(7)计算GA算法的环境状态st,令s←st
st=w1fit*+w2div*+w3best*(w1+w2+w3=1) (7)
其中,
Figure FDA0003013813150000048
Figure FDA0003013813150000051
式中,fit*表示种群平均适应度,div*表示种群的多样性,best*表示种群最优适应度,xi t表示第t代种群Population中第i个染色体,fit(xi t)表示染色体xi t的适应度值,Best f(xi t)表示第t代种群Population中最优适应度;
S43、通过奖励函数rc调整交叉概率Pc,通过奖励函数rm调整变异概率Pm,表示为:
Figure FDA0003013813150000052
S44、根据贪心策略选择行动at+1,使得Q(s,at+1)=max{Q(s,a)},a∈A;
S45、通过式(13)计算并更新Q(st,at)值;
Q(st,at)=(1-α)Q(st,at)+α(rt+1+γmaxQ(st+1,at+1)) (13);
S46、根据ε-greedy策略选择行动at+1,表示为:
Figure FDA0003013813150000053
其中,ε-greedy为一种综合exploitation和exploration的行动选择策略;r0-1表示生成0至1的随机数,arandom表示从行动集合A中随机选择的一个行动;
S47、通过式(7)计算GA算法的环境状态st+1,令s←st+1,并更新当前行动a←at+1
S48、将Q(st,at)值更新至Q值表,并根据当前行动a优化所述交叉概率Pc和变异概率Pm
8.根据权利要求7所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法,其特征在于,步骤S5,包括:
利用二路锦标赛方式选择排序靠前的popSize-1个染色体;利用精英策略选择适应度值最优Bestfit(xi)的染色体;
所述根据所述交叉概率Pc对所述参与交叉的染色体种群进行交叉操作,生成参与变异的染色体种群,包括:
S51、随机选择两个父代染色体Parent1和Parent2交叉产生两个子代染色体Child1和Child2,计算Parent1、Parent2、Child1、Child2的适应度值,并选择适应度值最优的染色体放入参与变异操作的种群中;
S52、执行步骤S51popSize-1次;
S53、将第popSize个染色体设置为交叉前的选择算子父代种群中适应度值最高的染色体;
所述交叉操作的方式为:MS部分多点交叉,OS部分基于工件优先顺序进行交叉;
所述MS部分多点交叉,包括:
定义长度等于T0的数组a,并初始化数组a为0;随机生成一个0至1的数r,如果r>0.5,数组a元素为1,并循环执行操作T0次;如果数组a[i]为1,将Parent1MS[i]和Parent2MS[i]基因分别复制到Child1MS[i]和Child2MS[i]基因位上,并保证位置和顺序的一致性;将Parent1MS和Parent2MS的其余基因分别复制到Child2MS和Child1MS基因位上,并保证位置和顺序的一致性;
所述OS部分基于工件优先顺序进行交叉,包括:
原工件集J={J1,J2…Jn}随机划分两个工件集JSet1和JSet2;将Parent1中包含在JSet1中基因复制到Child1中,并保持基因的位置和顺序的一致;将Parent2中包含在JSet2中基因复制到Child2中,并保持基因的位置和顺序的一致;将Parent1中包含在JSet1中基因复制到Child2中,并保持基因的顺序的一致;将Parent2中包含在JSet2中基因复制到Child1中,并保持基因的顺序的一致。
9.根据权利要求8所述的基于Q-learning和GA的多目标柔性作业车间调度自学习方法,其特征在于,所述步骤S6,包括:
根据MS部分多点随机变异和OS部分三邻域搜索变异方式,生成新染色体种群;
所述MS部分多点随机变异,包括:随机选择一个工件号Ji,随机选择该工件的工序Oij,在工序Oij的可加工机器中随机选择一个机器Mk;将Oij在机器选择MS中的值更换为k;重复执行上述操作k次;
所述OS部分三邻域搜索变异,包括:OS部分随机生成三个1-T0的整数基因位,生成六个排列的邻域;求六个邻域变异染色体的适应度值,并选择适应度最优的染色体作为子代。
CN202110383136.5A 2021-04-09 2021-04-09 基于Q-learning和GA的多目标柔性作业车间调度自学习方法 Active CN113034026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110383136.5A CN113034026B (zh) 2021-04-09 2021-04-09 基于Q-learning和GA的多目标柔性作业车间调度自学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110383136.5A CN113034026B (zh) 2021-04-09 2021-04-09 基于Q-learning和GA的多目标柔性作业车间调度自学习方法

Publications (2)

Publication Number Publication Date
CN113034026A true CN113034026A (zh) 2021-06-25
CN113034026B CN113034026B (zh) 2023-10-24

Family

ID=76456233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110383136.5A Active CN113034026B (zh) 2021-04-09 2021-04-09 基于Q-learning和GA的多目标柔性作业车间调度自学习方法

Country Status (1)

Country Link
CN (1) CN113034026B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569483A (zh) * 2021-07-30 2021-10-29 南京信息工程大学 基于人工蜂群算法求解多目标柔性作业车间调度的方法
CN113627078A (zh) * 2021-07-26 2021-11-09 北京理工大学 一种d-rms构型设计多目标优化方法
CN113792494A (zh) * 2021-09-23 2021-12-14 哈尔滨工业大学(威海) 基于迁徙鸟群算法和交叉融合的多目标柔性作业车间调度方法
CN113960964A (zh) * 2021-09-22 2022-01-21 哈尔滨工业大学 基于仿真优化的柔性流水车间生产调度系统
CN114186749A (zh) * 2021-12-16 2022-03-15 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型
CN114386843A (zh) * 2022-01-10 2022-04-22 四川大学 一种基于改进深度强化学习算法的柔性车间调度方法
CN115857451A (zh) * 2022-12-02 2023-03-28 武汉纺织大学 一种基于强化学习的流水车间加工调度方法
CN115981262A (zh) * 2023-01-31 2023-04-18 武汉理工大学 基于imoea的液压缸零部件车间生产调度方法
CN117555305A (zh) * 2024-01-11 2024-02-13 吉林大学 一种基于nsgaii的多目标可变子批柔性车间作业调度方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610654A (zh) * 2015-12-29 2017-05-03 四川用联信息技术有限公司 针对柔性作业车间调度的改进遗传算法
CN109034633A (zh) * 2018-08-04 2018-12-18 郑州航空工业管理学院 改进遗传算法求解带移动时间的柔性作业车间调度方法
US20200026264A1 (en) * 2018-02-07 2020-01-23 Jiangnan University Flexible job-shop scheduling method based on limited stable matching strategy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610654A (zh) * 2015-12-29 2017-05-03 四川用联信息技术有限公司 针对柔性作业车间调度的改进遗传算法
US20200026264A1 (en) * 2018-02-07 2020-01-23 Jiangnan University Flexible job-shop scheduling method based on limited stable matching strategy
CN109034633A (zh) * 2018-08-04 2018-12-18 郑州航空工业管理学院 改进遗传算法求解带移动时间的柔性作业车间调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
方水良 等: "基于遗传算法的柔性车间多目标优化调度", 机电工程, vol. 28, no. 03, pages 269 - 274 *
欧阳森山 等: "基于多群体协同进化混合算法的FJSP研究", 组合机床与自动化加工技术, no. 01, pages 23 - 27 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627078A (zh) * 2021-07-26 2021-11-09 北京理工大学 一种d-rms构型设计多目标优化方法
CN113569483A (zh) * 2021-07-30 2021-10-29 南京信息工程大学 基于人工蜂群算法求解多目标柔性作业车间调度的方法
CN113960964A (zh) * 2021-09-22 2022-01-21 哈尔滨工业大学 基于仿真优化的柔性流水车间生产调度系统
CN113792494A (zh) * 2021-09-23 2021-12-14 哈尔滨工业大学(威海) 基于迁徙鸟群算法和交叉融合的多目标柔性作业车间调度方法
CN113792494B (zh) * 2021-09-23 2023-11-17 哈尔滨工业大学(威海) 基于迁徙鸟群算法和交叉融合的多目标柔性作业车间调度方法
CN114186749B (zh) * 2021-12-16 2022-06-28 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型
CN114186749A (zh) * 2021-12-16 2022-03-15 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型
CN114386843A (zh) * 2022-01-10 2022-04-22 四川大学 一种基于改进深度强化学习算法的柔性车间调度方法
CN115857451A (zh) * 2022-12-02 2023-03-28 武汉纺织大学 一种基于强化学习的流水车间加工调度方法
CN115857451B (zh) * 2022-12-02 2023-08-25 武汉纺织大学 一种基于强化学习的流水车间加工调度方法
CN115981262A (zh) * 2023-01-31 2023-04-18 武汉理工大学 基于imoea的液压缸零部件车间生产调度方法
CN115981262B (zh) * 2023-01-31 2023-12-12 武汉理工大学 基于imoea的液压缸零部件车间生产调度方法
CN117555305A (zh) * 2024-01-11 2024-02-13 吉林大学 一种基于nsgaii的多目标可变子批柔性车间作业调度方法
CN117555305B (zh) * 2024-01-11 2024-03-29 吉林大学 一种基于nsgaii的多目标可变子批柔性车间作业调度方法

Also Published As

Publication number Publication date
CN113034026B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN113034026B (zh) 基于Q-learning和GA的多目标柔性作业车间调度自学习方法
Zandieh et al. An adaptive multi-population genetic algorithm to solve the multi-objective group scheduling problem in hybrid flexible flowshop with sequence-dependent setup times
CN110543151B (zh) 基于改进nsga-ⅱ求解车间节能调度问题的方法
CN112488315B (zh) 一种基于深度强化学习和遗传算法的分批调度优化方法
CN105629927A (zh) 一种基于混合遗传算法的mes生产计划排产方法
CN101901425A (zh) 一种基于多种群协同进化的柔性作业车间调度方法
CN112381273B (zh) 一种基于u-nsga-iii算法的多目标作业车间节能优化方法
Mahmudy et al. Optimization of part type selection and loading problem with alternative production plans in flexible manufacturing system using hybrid genetic algorithms-part 1: Modelling and representation
CN114186749A (zh) 基于强化学习及遗传算法的柔性车间调度方法及模型
CN108460463A (zh) 基于改进遗传算法的高端装备流水线生产调度方法
CN106611275A (zh) 针对作业车间生产问题的排产算法
CN113610233A (zh) 一种基于改进遗传算法的柔性作业车间调度方法
CN107831740A (zh) 一种应用于笔记本零件的分布式生产制造过程中的优化调度方法
Sun et al. A teaching-learning-based optimization with feedback for LR fuzzy flexible assembly job shop scheduling problem with batch splitting
CN114021934A (zh) 基于改进spea2求解车间节能调度问题的方法
CN114580678A (zh) 一种产品维修资源调度方法和系统
CN112699544A (zh) 一种多目标柔性作业车间调度方法
Liang et al. Hybrid algorithm based on genetic simulated annealing algorithm for complex multiproduct scheduling problem with zero-wait constraint
CN113792494B (zh) 基于迁徙鸟群算法和交叉融合的多目标柔性作业车间调度方法
CN114066312A (zh) 基于离散制造的生产调度方法、系统、设备及存储介质
Wu et al. Optimizing job release and scheduling jointly in a reentrant hybrid flow shop
Mou et al. An improved genetic algorithm for single-machine inverse scheduling problem
CN108153254B (zh) 一种基于萤火虫算法的零件群集成工艺路线规划方法
CN108960509B (zh) 一种制造系统智能排产方法与系统
Cao et al. Hybrid estimation of distribution based on knowledge transfer for flexible job-shop scheduling problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant