CN114186749B - 基于强化学习及遗传算法的柔性车间调度方法及模型 - Google Patents

基于强化学习及遗传算法的柔性车间调度方法及模型 Download PDF

Info

Publication number
CN114186749B
CN114186749B CN202111546245.0A CN202111546245A CN114186749B CN 114186749 B CN114186749 B CN 114186749B CN 202111546245 A CN202111546245 A CN 202111546245A CN 114186749 B CN114186749 B CN 114186749B
Authority
CN
China
Prior art keywords
reinforcement learning
genetic algorithm
entropy
machine
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111546245.0A
Other languages
English (en)
Other versions
CN114186749A (zh
Inventor
郭洪飞
陈世帆
曾云辉
杨博文
伍泓韬
何智慧
任亚平
李建庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202111546245.0A priority Critical patent/CN114186749B/zh
Publication of CN114186749A publication Critical patent/CN114186749A/zh
Application granted granted Critical
Publication of CN114186749B publication Critical patent/CN114186749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法及模型,属于人工智能技术领域。根据柔性作业车间的特点,建立柔性作业车间调度模型;对遗传算法和基于熵的置信域优化强化学习算法中的基本参数进行初始化;利用基于熵的置信域优化算法更新遗传算法中的参数,并分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群;计算新种群中每个个体的适应度,确定基于熵的置信域优化算法中的状态参数,对新染色体种群执行遗传算法操作;反复执行上述迭代至截止,并输出结果。本发明将基于熵的置信域优化强化学习算法与遗传算法相结合,提高了柔性车间调度的性能,增强车间生产的鲁棒性,提高生产效率。

Description

基于强化学习及遗传算法的柔性车间调度方法及模型
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于强化学习及遗传算法的柔性车间调度方法及模型。
背景技术
近年来,工业互联网、机器学习等技术的进步,为企业实现转型提供了更多可能性。这些利用新的技术进行生产的方式,也被称为“智能制造”。“智能制造”在工业生产中占有十分重要的地位。
调度问题是指在交通运输到工业制造等生产和生活领域中,如何通过合理分配资源以达到效率最大化。在绝大多数的制造环境中,由于工业生产的动态性,进行合理有效的调度是提高生产效率的关键。作业车间调度问题是对工业生产中出现的调度问题的统称,由于它是影响生产性能的关键环节,其日益受到研究界的关注。
传统的工厂调度主要依靠人的决策能力,而“智能制造”使得通过智能技术解决车间作业的调度成为可能。但当作业车间动态变化时,如一些意外的事件发生(包括加工超时或提前,一个紧急的订单加入等),则普通的作业车间调度问题无法满足此类生产情况。实际上,机器能够完成多个不同的操作,而每种操作也可以在多个不同的机器上完成,这比普通的作业车间调度问题更为灵活,通常被称为柔性作业车间调度问题,而实际的车间生产中,柔性作业车间调度问题更为常见,对其进行研究意义重大。
鉴于作业车间调度问题可以看作是一个组合优化问题,故也可使用启发式算法,包括遗传算法(遗传算法)、模拟退火(SA)等对这类问题进行处理。但在环境变化时,此类算法需要进行重新的调度,因此启发式方法在动态的车间生产中表现很差,无法很好地处理柔性作业车间调度问题。
强化学习作为一种新兴的人工智能技术,也开始被应用于解决车间生产调度问题。强化学习近年来发展迅速,在多个领域取得了较高成就。强化学习的自适应能力强,能较好地处理动态调度问题。
在中国专利申请文献CN111967654A中,公开了一种基于混合遗传算法求解柔性作业车间调度的方法,将鲸鱼群算法和遗传算法相结合,进一步提加深了算法的搜索深度,增强了求解精度与求解稳定性,提高了车间生产效率。在中国专利申请文献CN110009235A中,公开了一种基于改进遗传算法的柔性作业车间调度方法,其中提供的融合Powell搜索法的遗传算法方案,增强了算法的局部搜索能力,解决了算法早熟问题。但现有方法均未将强化学习技术与启发式算法相结合用于柔性作业车间调度,模型求解速度慢,消耗资源更多。
现有技术至少存在以下不足:
1.未将强化学习技术与启发式算法相结合用于柔性作业车间调度,以一种预定的方式对算法的参数的进行固定或更新,算法的性能较低。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法及模型,该方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件;对所建立的模型的解进行编码,实现解和染色体之间的相互转换;对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数;利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新,所述目标函数中加入策略的熵,并在目标函数中引入对价值函数的值的估计;根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群;计算新种群中每个个体的适应度,确定基于熵的置信域优化强化学习算法中的状态参数,对新染色体种群执行遗传算法操作;判断种群迭代次数是否达到上限,若未达到上限,继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。本发明将基于熵的置信域优化强化学习算法与遗传算法相结合,解决了传统的参数寻优方法耗时长、效率低的问题,使得遗传算法的最优参数的获取更为快捷,用其求解柔性车间调度问题,能够促进车间生产的效率。
本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法,所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,包括如下步骤:
根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件;
对柔性作业车间调度模型的解进行编码,实现解和染色体之间的相互转换;
对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数;
利用基于熵的置信域优化强化学习算法更新遗传算法中的参数;
在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新,所述目标函数中加入策略的熵,并在目标函数中引入对价值函数的值的估计;
根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作,生成参与遗传的新染色体种群;
计算新种群中每个个体的适应度,确定基于熵的置信域优化强化学习算法中的状态参数,对新染色体种群执行遗传算法操作;
判断种群迭代次数是否达到上限,若未达到上限,继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。
优选地,利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm,根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群。
优选地,根据柔性作业车间的特点,建立柔性作业车间调度模型,具体包括:
将柔性作业车间调度模型定义为:n个工件{J1,Λ,Jn}要在m台机器{M1,Λ,Mn}上加工;
每个工件Ji(i=1,2,3,Λn)包含一道或多道工序,预先确定工序顺序,每道工序可以在多台不同加工机器上进行加工,每道工序的加工时间随加工机器Mk(k=1,2,3,Λn)的不同而变化;
调度目标为使整个系统的如下性能指标达到最优,具体为:最大完工时间最小、最大负荷机器负荷最小和所有机器的总负荷最小,
性能指标的目标函数分别如下:
最大完工时间CM:minCM=min(max(CK)),1≤k≤m;
其中,CK为机器MK的完工时间;
最大负荷机器负荷WM:minWM=min(max(WK)),1≤k≤m;
其中,WK为机器MK的工作负荷;
所有机器的总负荷WT:
Figure GDA0003606895950000031
优选地,确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值CK≥0。
优选地,柔性作业车间调度编码包括两部分:机器染色体和工序染色体,机器染色体基于机器分配的编码,确定所选择的加工机器,对应机器选择子问题;工序染色体基于工序的编码,确定工序间的加工顺序,对应工序加工排序子问题,将这两种编码方法融合形成一条染色体,该染色体即为柔性作业车间调度模型的一个可行解。
优选地,解码时,先根据机器染色体的基因串确定每道工序的加工机器,再依据工序染色体的基因串确定每台加工机器上的加工工序的顺序,将各机器的加工顺序转换为一个工序表,最后根据该工序表对各工序以最早允许的加工时间逐一进行加工。
优选地,对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数,具体为对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的状态集和动作集,具体包括:
对遗传算法的基本参数进行初始化时,采用全局搜索和局部搜索,使各个被选择的机器的工作负荷均衡,同时满足最大完工时间最小;
对基于熵的置信域优化强化学习算法中的基本参数进行初始化,具体包括:
对学习率α和学习折扣率γ进行设置;
对动作action、状态state、奖励reward进行定义,其中,动作定义为交叉概率Pc与变异概率Pm的值,状态定义为当前调度环境的析取图,奖励定义为机器利用率以及最大完工时间的结合。
优选地,在基于熵的置信域优化强化学习算法中,利用Adam优化器对如下目标函数进行更新:
Figure GDA0003606895950000041
其中,
Jθ'(θ)是目标函数,反映的是优化的目标
θ为所训练的智能体的现在的网络参数;
θ′为所训练的智能体的更新后的网络参数;
st是t时刻的状态,at是t时刻的动作;
pθ(at|st)是当前网络参数下的策略;
pθ'(at|st)是更新后的网络参数的策略;
Aθ'(st,at)是优势函数,用来衡量在状态st下,采取动作at的好坏;
ε是超参数,用来调节我们能接受的策略更新后差异的最大值,ε越小,表示我们能容忍的策略更新的差异越小,也可以保证策略更新更加稳定;
α∑log(πθ(at))πθ(at)表示的是策略的熵值,反映的是策略的多样性,其中α是超参数,表示我们想要控制的策略多样性的程度;
β(V(θ)-Vtarget)表示的是实际的价值函数Vtarget和我们训练得到的价值函数V(θ)的差异,β是超参数,表示我们能接受的价值函数估计差的范围。
优选地,基于遗传算法,在染色体种群进行迭代后,计算新染色体种群中每个个体的适应度,并将选择算子作用于新染色体种群。
本发明提供了一种基于熵的置信域优化和遗传算法的柔性车间调度模型,使用上述的基于强化学习及遗传算法的柔性车间调度方法。
与现有技术相对比,本发明的有益效果如下:
(1)本发明将基于熵的置信域优化和遗传算法相结合,采用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm,模型求解速度更快,消耗资源更少。
(2)本发明找出遗传算法中的关键参数中的Pm与Pc进行调优,强化学习进行参数的调优,使得所求的参数更优、耗时更少;
(3)本发明针对现实的车间调度问题,根据车间特点,建立了有效且准确的数学模型,使得模型的解能够与车间调度方案紧密联系;
(4)本发明确定了每台机器的完工时间为非负值,使得所建立的模型更符合真实的车间调度场景,使模型的解更准确;
(5)本发明提出了一种有效的对模型的解进行编码的方法,将编码分为机器染色体和工序染色体两部分,分别编码后融合为一条染色体,实现了模型的解与车间调度方案之间的关联;
(6)本发明提出了一种有效的解码方法,先根据机器染色体的基因串确定每道工序的加工机器,再依据工序染色体的基因串确定每台加工机器上的该加工工序的顺序,将各机器上的各工序的加工顺序转换为一个工序表,最后根据该工序表对各工序以最早允许的加工时间逐一进行加工,使得利用遗传算法所求得的最优解能够被有效转化成一种车间调度方案;
(7)本发明对现有PPO算法进行改进,在目标函数中加入策略的熵,来鼓励策略有更强的多样性;并引入了对价值函数V值估计的部分,希望策略对V值的估计越准越好。
(8)本发明提出利用强化学习中的基于熵的置信域优化算法进行模型的优化,可有效解决模型特征的状态空间过于庞大问题。
附图说明
图1是本发明的一个实施例的基于强化学习及遗传算法的柔性车间调度方法流程图。
图2是本发明的又一个实施例的基于强化学习及遗传算法的柔性车间调度方法流程图。
图3是本发明的一个实施例的柔性车间调度模型示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式作详细的说明。
本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法,所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,包括如下步骤:
根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件;
对柔性作业车间调度模型的解进行编码,实现解和染色体之间的相互转换;将车间调度问题进行建模后,即得到一个数学模型,进行车间调度优化问题,可转化为求该数学模型的最优解。通过遗传算法对该模型的初始解进行不断优化(初始解可随机设置),则可求得最优解。解的编码方式不唯一,例如可通过对工件的加工操作O的选择顺序和机器M的选择顺序作为一种解,如:(O2,M1)→(O1,M2)→...为一种解,表示工件先在第一台机器上执行第二个加工操作,再在第二台机器上执行第一个加工操作。
对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数;
利用基于熵的置信域优化强化学习算法更新遗传算法中的参数;
在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新,所述目标函数中加入策略的熵,并在目标函数中引入对价值函数的值的估计;
根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作,生成参与遗传的新染色体种群;
计算新种群中每个个体的适应度,确定基于熵的置信域优化强化学习中的状态参数,对新染色体种群执行遗传算法操作;
判断种群迭代次数是否达到上限,若未达到上限,继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。
根据本发明的一个具体实施方案,利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm,根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群。
根据本发明的一个具体实施方案,根据柔性作业车间的特点,建立柔性作业车间调度模型,具体包括:
将柔性作业车间调度模型定义为:n个工件{J1,Λ,Jn}要在m台机器{M1,Λ,Mn}上加工;
每个工件Ji(i=1,2,3,Λn)包含一道或多道工序,预先确定工序顺序,每道工序可以在多台不同加工机器上进行加工,每道工序的加工时间随加工机器Mk(k=1,2,3,Λn)的不同而变化;
调度目标为使整个系统的如下性能指标达到最优,具体为:最大完工时间最小、最大负荷机器负荷最小和所有机器的总负荷最小,
性能指标的目标函数分别如下:
最大完工时间CM:minCM=min(max(CK)),1≤k≤m;
其中,CK为机器MK的完工时间;
最大负荷机器负荷WM:minWM=min(max(WK)),1≤k≤m;
其中,WK为机器MK的工作负荷;
所有机器的总负荷WT:
Figure GDA0003606895950000071
最大完工时间是工业调度里面的一个标准概念,英文对应为makespan,中文翻译就是最大完工时间,因为一次排程或者调度中,不同工件有不同的完工时间,其中最大的就是最大完工时间,实际上也就是一批工件的完工时间;最大负荷机器也是一样的逻辑,指的是所有机器里面负荷最大的机器的负荷。
根据本发明的一个具体实施方案,确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值CK≥0。
根据本发明的一个具体实施方案,柔性作业车间调度编码包括两部分:机器染色体和工序染色体,机器染色体基于机器分配的编码,确定所选择的加工机器,对应机器选择子问题;工序染色体基于工序的编码,确定工序间的加工顺序,对应工序加工排序子问题,将这两种编码方法融合形成一条染色体,该染色体即为柔性作业车间调度模型的一个可行解。比如,先对工序编码为3,再对机器编码为5,然后将二者融合,就是表明第3到工序在第5个机器上加工。
根据本发明的一个具体实施方案,解码时,先根据机器染色体的基因串确定每道工序的加工机器,再依据工序染色体的基因串确定每台加工机器上的加工工序的顺序,将各机器的加工顺序转换为一个工序表,最后根据该工序表对各工序以最早允许的加工时间逐一进行加工。
根据本发明的一个具体实施方案,对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数,具体为对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的状态集和动作集,具体包括:
对遗传算法的基本参数进行初始化时,采用全局搜索和局部搜索,使各个被选择的机器的工作负荷均衡,同时满足最大完工时间最小;
对基于熵的置信域优化强化学习算法中的基本参数进行初始化,具体包括:
对学习率α和学习折扣率γ进行设置;
对动作action、状态state、奖励reward进行定义,其中,动作定义为交叉概率Pc与变异概率Pm的值,状态定义为当前调度环境的析取图,奖励定义为机器利用率以及最大完工时间的结合。
根据本发明的一个具体实施方案,在基于熵的置信域优化强化学习算法中,利用Adam优化器对如下目标函数进行更新:
Figure GDA0003606895950000081
其中,
Jθ'(θ)是目标函数,反映的是优化的目标;
θ为所训练的智能体的现在的网络参数;
θ′为所训练的智能体的更新后的网络参数;
st是t时刻的状态,at是t时刻的动作;
pθ(at|st)是当前网络参数下的策略;
pθ'(at|st)是更新后的网络参数的策略;
Aθ'(st,at)是优势函数,用来衡量在状态st下,采取动作at的好坏;
ε是超参数,用来调节我们能接受的策略更新后差异的最大值,ε越小,表示我们能容忍的策略更新的差异越小,也可以保证策略更新更加稳定;
α∑log(πθ(at))πθ(at)表示的是策略的熵值,反映的是策略的多样性,其中α是超参数,表示我们想要控制的策略多样性的程度;
β(V(θ)-Vtarget)表示的是实际的价值函数Vtarget和我们训练得到的价值函数V(θ)的差异,β是超参数,表示我们能接受的价值函数估计差的范围。
根据本发明的一个具体实施方案,基于遗传算法,在染色体种群进行迭代后,计算新染色体种群中每个个体的适应度,并将选择算子作用于新染色体种群。
本发明提供了一种基于熵的置信域优化和遗传算法的柔性车间调度模型,使用上述的基于强化学习及遗传算法的柔性车间调度方法。
实施例1
根据本发明的一个具体实施方案,结合附图,对本发明的基于强化学习及遗传算法的柔性车间调度方法进行详细说明。
本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法,所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,包括如下步骤:
根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件;
对柔性作业车间调度模型的解进行编码,实现解和染色体之间的相互转换;
对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数;
利用基于熵的置信域优化强化学习算法更新遗传算法中的参数;
在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新,所述目标函数中加入策略的熵,并在目标函数中引入对价值函数的值的估计;
根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作,生成参与遗传的新染色体种群;
计算新种群中每个个体的适应度,确定基于熵的置信域优化强化学习中的状态参数,对新染色体种群执行遗传算法操作;
判断种群迭代次数是否达到上限,若未达到上限,继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。
实施例2
根据本发明的一个具体实施方案,结合附图,对本发明的基于强化学习及遗传算法的柔性车间调度方法进行详细说明。
本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法,所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,包括如下步骤:
根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件,具体包括:
将柔性作业车间调度模型定义为:n个工件{J1,Λ,Jn}要在m台机器{M1,Λ,Mn}上加工;
每个工件Ji(i=1,2,3,Λn)包含一道或多道工序,预先确定工序顺序,每道工序可以在多台不同加工机器上进行加工,每道工序的加工时间随加工机器Mk(k=1,2,3,Λn)的不同而变化;
调度目标为使整个系统的如下性能指标达到最优,具体为:最大完工时间最小、最大负荷机器负荷最小和所有机器的总负荷最小,
性能指标的目标函数分别如下:
最大完工时间CM:minCM=min(max(CK)),1≤k≤m;
其中,CK为机器MK的完工时间;
最大负荷机器负荷WM:minWM=min(max(WK)),1≤k≤m;
其中,WK为机器MK的工作负荷;
所有机器的总负荷WT:
Figure GDA0003606895950000101
确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值CK≥0。
对柔性作业车间调度模型的解进行编码,实现解和染色体之间的相互转换;
其中,柔性作业车间调度编码包括两部分:机器染色体和工序染色体,机器染色体基于机器分配的编码,确定所选择的加工机器,对应机器选择子问题;工序染色体基于工序的编码,确定工序间的加工顺序,对应工序加工排序子问题,将这两种编码方法融合形成一条染色体,该染色体即为柔性作业车间调度模型的一个可行解。
解码时,先根据机器染色体的基因串确定每道工序的加工机器,再依据工序染色体的基因串确定每台加工机器上的加工工序的顺序,将各机器的加工顺序转换为一个工序表,最后根据该工序表对各工序以最早允许的加工时间逐一进行加工。
对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数,具体为对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的状态集和动作集,具体包括:
对遗传算法的基本参数进行初始化时,采用全局搜索和局部搜索,使各个被选择的机器的工作负荷均衡,同时满足最大完工时间最小;
对基于熵的置信域优化强化学习算法中的基本参数进行初始化,具体包括:
对学习率α和学习折扣率γ进行设置;
对动作action、状态state、奖励reward的定义,其中,动作定义为交叉概率Pc与变异概率Pm的值,状态定义为当前调度环境的析取图,奖励定义为机器利用率以及最大完工时间的结合。
利用基于熵的置信域优化强化学习算法更新遗传算法中的参数,具体为利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;
在基于熵的置信域优化强化学习算法中,利用Adam优化器对如下目标函数进行更新:
Figure GDA0003606895950000111
其中,
Jθ'(θ)是目标函数,反映的是优化的目标
θ为所训练的智能体的现在的网络参数;
θ′为所训练的智能体的更新后的网络参数;
st是t时刻的状态,at是t时刻的动作;
pθ(at|st)是当前网络参数下的策略;
pθ'(at|st)是更新后的网络参数的策略;
Aθ'(st,at)是优势函数,用来衡量在状态st下,采取动作at的好坏;
ε是超参数,用来调节我们能接受的策略更新后差异的最大值,ε越小,表示我们能容忍的策略更新的差异越小,也可以保证策略更新更加稳定;
α∑log(πθ(at))πθ(at)表示的是策略的熵值,反映的是策略的多样性,其中α是超参数,表示我们想要控制的策略多样性的程度;
β(V(θ)-Vtarget)表示的是实际的价值函数Vtarget和我们训练得到的价值函数V(θ)的差异,β是超参数,表示我们能接受的价值函数估计差的范围。
根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作,生成参与遗传的新染色体种群;具体为根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群;
计算新种群中每个个体的适应度,确定基于熵的置信域优化强化学习中的状态参数,基于遗传算法,在染色体种群进行迭代后,计算新染色体种群中每个个体的适应度,并将选择算子作用于新染色体种群,对新染色体种群执行遗传算法操作;
判断种群迭代次数是否达到上限,若未达到上限,继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。
实施例3
根据本发明的一个具体实施方案,结合附图,对本发明的基于强化学习及遗传算法的柔性车间调度方法进行详细说明。
本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法,所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,包括如下步骤:
根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件,具体包括:将柔性作业车间调度模型定义为:n个工件{J1,Λ,Jn}要在m台机器{M1,Λ,Mn}上加工。每个工件Ji(i=1,2,3,Λn)包含一道或多道工序,工序顺序是预先已确定的,每道工序可以在多台不同加工机器上进行加工,每道工序的加工时间随加工机器Mk(k=1,2,3,Λn)的不同而变化。调度目标是为每道工序选择最合适的机器、确定每台机器上各个工件工序的最佳加工顺序以及开工时间,使整个系统的某些性能指标达到最优,具体可为:最大完工时间最小、最大负荷机器负荷最小和所有机器上的总负荷最小,
这三种性能指标的目标函数分别如下:
最大完工时间CM:minCM=min(max(CK)),1≤k≤m;
其中,CK为机器MK的完工时间;
最大负荷机器负荷WM:minWM=min(max(WK)),1≤k≤m;
其中,WK为机器MK的工作负荷;
所有机器的总负荷WT:
Figure GDA0003606895950000131
约束条件为每台机器的完工时间为非负值CK≥0。
对柔性作业车间调度模型解进行编码,实现解和染色体之间的相互转换。
柔性作业车间调度问题需要为每道工序在可加工机器集中选择一台加工机器并对所有的工序进行排序。为此,柔性作业车间调度编码由两部分组成:一部分是机器染色体,基于机器分配的编码,确定所选择的加工机器,对应机器选择子问题;另一部分是工序染色体,基于工序的编码,确定工序间的加工顺序,对应工序加工排序子问题。融合这两种编码方法,形成一条染色体,即为柔性作业车间调度模型的一个可行解。设工序总数为L,依次从时间表中对应的第一个工件第一道工序直到最后一个工件最后一道工序为止,工序号分别用1,2,...,L表示。对于L道工序,形成L个可选择机器的子集分别为{S1,Λ,SL},其中第i道工序的可加工机器集合表示为Si。Si中,可选加工机器的个数为ri,表示为
Figure GDA0003606895950000132
第一部分基因串的为L,表示为g1g2ΛgiΛgL;其中第i个基因gi为[1,ri]内的整数,表示第i个工序的加工机器号为集合Si中的第gi个元素
Figure GDA0003606895950000133
第二部分基因串的长度也为L,对应于一串工件号的排列,其中每个工件号出现的次数为此工件包括的工序总数。从左到右扫描染色体,对于第j次出现的工件序号,表示该工件的第j道工序。
解码时,先根据第一部分基因串确定每道工序的加工机器,然后依据第二部分基因串确定每台加工机器上的加工工序的顺序,即转换为一个有序的工序表,最后根据此工序表对各工序以最早允许的加工时间逐一进行加工,将所有工序都安排在适当的加工位置,从而产生可行的调度方案。
对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化,得到初始的染色体种群以及合适的状态集和动作集。具体包括:
(1)对遗传算法的基本参数进行初始化时,采用全局搜索(Global search,GS)和局部搜索(Local search,LS),使各个被选择的机器的工作负荷尽量平衡,充分提高机器的利用率,同时考虑最大完工时间最小。
全局搜索GS以深度优先进行搜索,所有工件的工序的加工机器选择完毕时,进行下一次循环时数组中各元素的值重置为0;LS是以广度优先进行搜索,每一个工件的工序选择加工机器完毕时,进行下一个工件工序的加工机器选择前,将数组各元素的值重置为0。初始化种群时仍有一定比例的个体采用随机产生,例如:种群的70%采用全局搜索,20%采用局部搜索,10%采用随机产生的方法。
对于全局搜索GS:设置一个数组,长度和机器数相等,数组的顺序依次对应加工机器的顺序,每一位上的值对应相应机器上的加工时间。随机在工件集中选择一个工件,从当前工件的第一道工序开始,将当前工序的可选加工机器的加工时间加上数组中对应的时间,从中选择最短的时间作为当前工序的加工机器,并且将数组更新,即把被选择的加工机器的加工时间加到数组中相应的位置上,依次类推直到当前工件的所有工序的加工机器选择完毕,然后再随机选择一个工件开始,直到所有工件的工序选择完毕。这样保证了最短加工机器先被选到而且保证了加工机器上的工作负荷平衡。具体执行步骤如下:
步骤1:设置一个整型数组,长度等于所有机器的总数,并且依次对应机器{M1,Λ,Mn}上的加工时间总负荷。同时初始化数组中每一个元素值为0。
步骤2:随机从工件集中选择一个工件,同时选择当前工件的第一道工序。
步骤3:将当前工序的可选加工机器的加工时间和数组中相应机器位置的时间数值相加,但不更新数组。
步骤4:从相加后的时间值中,选择最小的那台机器作为当前工序的加工机器。
步骤5:将当前被选择的加工机器的加工时间相加到数组中相应位置机器的加工负荷中,同时更新数组作为下一次选择的依据。
步骤6:选择当前工件的下一道工序,重复执行步骤3~5,直到当前工件的所有工序的加工机器选择完毕。
步骤7:从工件集中除去已被选择的工件,从剩下的工件集中随机选择一个工件,同时选择当前工件的第一道工序,重复执行步骤3~6,直到工件集中的所有工件被选择完毕。
对于局部搜索LS:同全局搜索原理上基本一致,但是每次对一个工件选择完毕时,数组需要重新设置为0,并且不存在随机选择工件。设置一个数组,长度和机数相等,选择工件集中第一个工件,选择当前工件的第一道工序开始,将当前工序的可选加工机器的加工时间加上数组中对应的时间,从中选择最短的时间作为当前工序的加工机器,并且将数组更新,即把被选择的加工机器的加工时间加到数组中相应的位置上,依此类推直到当前工件的所有工序的加工机器选择完毕,然后数组每一位重新设置为0,选择下一个工件,直到所有工件选择完毕。这样保证了一个工件的工序中优先加工时间最短或者说选择机器负荷最小的加工机器进行加工。
具体执行步骤如下:
步骤10:设置一个整型数组,长度等于所有机器的总数,并且依次对应机器{M1,Λ,Mn}上的加工时间总负荷。同时初始化数组中每一个元素值为0。
步骤20:选择工件集中的第一个工件,同时选择当前工件的第一道工序。
步骤30:将当前工序的可选加工机器集中的加工机器的加工时间和数组中相应机器位置的时间数值相加,但不更新数组。
步骤40:从相加后的时间值中,选择最小的那台机器作为当前工序的加工机器。
步骤50:将当前被选择的加工机器的加工时间相加到数组中相应位置机器的加工负荷中,同时更新数组作为下一次选择的依据。
步骤60:选择当前工件的下一道工序,重复执行步骤30~50,直到当前工件的所有工序的加工机器选择完毕。
步骤70:将数组中的每一位元素的值重新设置为0。
步骤80:从工件集中除去已被选择的工件,选择工件集中下一个工件,同时选择当前工件的第一道工序,重复执行步骤30~70,直到工件集中的所有工件被选择完毕。
对基于熵的置信域优化强化学习算法中的基本参数进行初始化,具体包括:对action、state、reward的定义,学习率α,学习折扣率γ。其中,动作定义为交叉概率Pc与变异概率Pm的值,状态定义为当前调度环境的析取图,奖励定义为机器利用率以及最大完工时间的结合。state、reward、action的定义具体描述如下:
State反映的是当前柔性车间的所有和调度有关的情况,具体表示为一个析取图,本申请创造性地用一个图数据结构来表示state,既可以反映工序本身的状态,又可以从中获取工序之间的关系信息;
Reward反映的是做出动作后对智能体的评判,具体表示为当前车间中的机器的利用率与归一化后的最大完工时间的差;
Action表示的是待优化的更新交叉概率Pc与变异概率Pm的值;
判断种群迭代次数是否达到上限,若未达到上限,利用强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。
具体包括:初始化迭代次数MAX,使其为一个定值。在迭代次数未到达上限时,在每一次迭代的过程中,通过计算种群中每个个体的适应度以确定强化学习中的状态参数(state),并利用基于熵的置信域优化强化学习算法更新交叉概率Pc与变异概率Pm。其中,基于熵的置信域优化算法强化学习具体描述如下:
PPO(Proximal Policy Optimization,近端策略优化)是基于Actor-Critic架构实现的一种策略算法,属于TRPO的进阶版本,且基于off-policy情况下提出。off-policy能够实现使用同一批数据来对模型参数进行多次更新,其中所使用的方法为importantsampling,而PPO算法能够弥补important sampling中新参数和旧参数可能相差过大的缺陷,具体实现为:
在PPO算法中,规则policy的更新公式为:
Figure GDA0003606895950000161
上述公式是需要优化的目标函数,它有两个部分,Jθ'(θ)是用于保证累计奖励能够最大化,比如较长时间内机器的利用率都比较高;βKL(θ,θ')是为了保障网络更新后的模型和前一次更新的模型相差比较小,从而保障模型的稳定性。
通过Jθ'(θ)来保证累计奖励最大化的具体的形式如下式:
Figure GDA0003606895950000162
本发明采用的基于熵的置信域优化算法,对PPO算法进行了改进,利用Adam优化器对如下目标函数进行更新:
Figure GDA0003606895950000163
其中,
Jθ'(θ)是目标函数,反映的是优化的目标
θ为所训练的智能体的现在的网络参数;
θ′为所训练的智能体的更新后的网络参数;
st是t时刻的状态,at是t时刻的动作;
pθ(at|st)是当前网络参数下的策略;
pθ'(at|st)是更新后的网络参数的策略;
Aθ'(st,at)是优势函数,用来衡量在状态st下,采取动作at的好坏;
ε是超参数,用来调节我们能接受的策略更新后差异的最大值,ε越小,表示我们能容忍的策略更新的差异越小,也可以保证策略更新更加稳定;
α∑log(πθ(at))πθ(at)表示的是策略的熵值,反映的是策略的多样性,其中α是超参数,表示我们想要控制的策略多样性的程度;
β(V(θ)-Vtarget)表示的是实际的价值函数Vtarget和我们训练得到的价值函数V(θ)的差异,β是超参数,表示我们能接受的价值函数估计差的范围。
因为在生产线优化策略的问题中,PPO算法中的βKL(θ,θ')计算过于复杂,所以采用Clip函数替代KL散度,从而提高了本实施例进行生产线优化策略的效率。其中,βKL(θ,θ')为惩罚项,Aθ(st,at)用以衡量在状态st下,采取动作at所取得的回报,pθ(at|st)代表确定网络参数θ的情况时,在状态st下采取动作at的概率。
根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异新的染色体种群。
交叉操作,即将交叉算子作用于群体,指对两个相互配对的染色体按某种方式相互交换其部分基因,从而形成两个新的个体。此操作在遗传算法中起核心作用,其主要包括:单点交叉、两点交叉与多点交叉、均匀交叉、算术交叉等方式。
变异操作,即对群体中的个体串的某些基因座上的基因值作变动。其基本步骤为:①对种群中的所有个体以事先设定的变异概率判断是否进行变异。②对进行变异的个体随机选择变异位进行变异。
计算新种群中每个个体的适应度,并对新种群执行遗传操作,继续迭代。基于遗传算法,在染色体种群进行迭代后,计算群体中每个个体的适应度,并将选择算子作用于群体。选择的目的是把更优的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代,从而实现解的优化。
实施例4
根据本发明的一个具体实施方案,结合附图,对本发明的柔性车间调度模型进行详细说明。
如图3,有六个工件(J1、J2、J3、J4、J5、J6)需要加工,且每个工件分别含有多道工序,每道工序需要在不同的机器(M1、M2、M3、M4、M5、M6)上进行加工,箭头指向表示工件在机器上的传递顺序(即工件不同机器上进行加工的先后顺序)。
按照所述方法,首先对上述问题进行建模,确定目标函数及约束条件为:
最大完工时间CM:minCM=min(max(CK)),1≤k≤m;
其中,CK为机器MK的完工时间;
最大负荷机器负荷WM:minWM=min(max(WK)),1≤k≤m;
其中,WK为机器MK的工作负荷;
所有机器的总负荷WT:
Figure GDA0003606895950000181
约束条件为每台机器的完工时间为非负值CK≥0。
对上述模型进行求解,并运用所述编码方法,将可行解进行编码,得到染色体种群。之后,全局搜索(GS)相局部搜索(LS),对所产生的染色体种群进行初始化,具体可为:种群的70%采用全局搜索,20%采用局部搜索,10%采用随机产生的方法。同时,对强化学习算法中的基本参数进行初始化,得到合适的action、reward、state,其中,动作定义为交叉概率Pc与变异概率Pm的值,状态定义为当前调度环境的析取图,奖励定义为机器利用率以及最大完工时间的结合。学习率α=0.1,学习折扣率γ=0.2。
基于遗传算法,设置初始化后的染色体种群的迭代次数上限,令迭代次数上限MAX=500,并利用i5-9400的CPU处理器进行种群的迭代,在迭代的过程中,利用基于熵的置信域优化强化学习算法,在每一次的迭代后,求得最优的交叉概率Pc与变异概率Pm,并对遗传算法的交叉概率Pc与变异概率Pm进行更新,同时计算每个染色体的适应度,保留适应度更优的染色体,依此重复,继续迭代,直至达到迭代次数上限,此时,染色体种群中的染色体即为本次调度问题的最优解,将其进行解码,解码所得即为本次调度问题的最优方案。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。

Claims (9)

1.一种基于强化学习及遗传算法的柔性车间调度方法,其特征在于,所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,包括如下步骤:
根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件;
对柔性作业车间调度模型的解进行编码,实现解和染色体之间的相互转换;
对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法的相关参数;
利用基于熵的置信域优化强化学习算法更新遗传算法中的参数,在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新,所述目标函数中加入策略的熵,并在目标函数中引入对价值函数的值的估计;目标函数具体如下:
Figure 941097DEST_PATH_IMAGE001
Figure 451713DEST_PATH_IMAGE002
其中,
Figure 434713DEST_PATH_IMAGE003
是目标函数,反映的是优化的目标;
Figure 423397DEST_PATH_IMAGE004
为所训练的智能体的现在的网络参数;
Figure 706611DEST_PATH_IMAGE005
为所训练的智能体的更新后的网络参数;
Figure 794653DEST_PATH_IMAGE006
是t时刻的状态,
Figure 858424DEST_PATH_IMAGE007
是t时刻的动作;
Figure 647870DEST_PATH_IMAGE008
是当前网络参数下的策略;
Figure 785590DEST_PATH_IMAGE009
是更新后的网络参数的策略;
Figure 44533DEST_PATH_IMAGE010
是优势函数,用来衡量在状态
Figure 595600DEST_PATH_IMAGE011
下,采取动作
Figure 926087DEST_PATH_IMAGE012
的好坏;
Figure 918314DEST_PATH_IMAGE013
是超参数,用来调节能接受的策略更新后差异的最大值,
Figure 941634DEST_PATH_IMAGE013
越小,表示能容忍的策略更新的差异越小,也可以保证策略更新更加稳定;
Figure 652101DEST_PATH_IMAGE014
表示的是策略的熵值,反映的是策略的多样性,其中
Figure 192803DEST_PATH_IMAGE015
是超参数,表示想要控制的策略多样性的程度;
Figure 633012DEST_PATH_IMAGE016
表示的是实际的价值函数V target 和训练得到的价值函数
Figure 233758DEST_PATH_IMAGE017
的差异,
Figure 759417DEST_PATH_IMAGE018
是超参数,表示能接受的价值函数估计差的范围;
根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作,生成参与遗传的新染色体种群;
计算新种群中每个个体的适应度,确定基于熵的置信域优化强化学习算法中的状态参数,对新染色体种群执行遗传算法操作;
判断种群迭代次数是否达到上限,若未达到上限,继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。
2.根据权利要求1所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm,根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群。
3.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,根据柔性作业车间的特点,建立柔性作业车间调度模型,具体包括:
将柔性作业车间调度模型定义为:n个工件
Figure 103811DEST_PATH_IMAGE019
要在m台机器
Figure 195263DEST_PATH_IMAGE020
上加工;
每个工件
Figure 435752DEST_PATH_IMAGE021
包含一道或多道工序,预先确定工序顺序,每道工序可以在多台不同加工机器上进行加工,每道工序的加工时间随加工机器
Figure 979866DEST_PATH_IMAGE022
的不同而变化;
调度目标为使整个系统的如下性能指标达到最优,具体为:最大完工时间最小、最大负荷机器负荷最小和所有机器的总负荷最小,
性能指标的目标函数分别如下:
最大完工时间
Figure 331213DEST_PATH_IMAGE023
其中,
Figure 14522DEST_PATH_IMAGE024
为机器
Figure 425912DEST_PATH_IMAGE025
的完工时间;
最大负荷机器负荷
Figure 129426DEST_PATH_IMAGE026
其中,
Figure 143518DEST_PATH_IMAGE027
为机器
Figure 84929DEST_PATH_IMAGE028
的工作负荷;
所有机器的总负荷
Figure 526275DEST_PATH_IMAGE029
4.根据权利要求3所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值
Figure 185926DEST_PATH_IMAGE030
5.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,柔性作业车间调度编码包括两部分:机器染色体和工序染色体,机器染色体基于机器分配的编码,确定所选择的加工机器,对应机器选择子问题;工序染色体基于工序的编码,确定工序间的加工顺序,对应工序加工排序子问题,将这两种编码方法融合形成一条染色体,该染色体即为柔性作业车间调度模型的一个可行解。
6.根据权利要求5所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,解码时,先根据机器染色体的基因串确定每道工序的加工机器,再依据工序染色体的基因串确定每台加工机器上的加工工序的顺序,将各机器上的各工序的加工顺序转换为一个工序表,最后根据该工序表对各工序以最早允许的加工时间逐一进行加工。
7.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数,具体为对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的状态集和动作集进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的状态集和动作集,具体包括:
对遗传算法的基本参数进行初始化时,采用全局搜索和局部搜索,使各个被选择的机器的工作负荷均衡,同时满足最大完工时间最小;
对基于熵的置信域优化强化学习算法中的基本参数进行初始化,具体包括:
对学习率α和学习折扣率γ进行设置;
对动作action、状态state、奖励reward进行定义,其中,动作定义为交叉概率Pc与变异概率Pm的值,状态定义为当前调度环境的析取图,奖励定义为机器利用率以及最大完工时间的结合。
8.根据权利要求7所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,基于遗传算法,在染色体种群进行迭代后,计算新染色体种群中每个个体的适应度,并将选择算子作用于新染色体种群。
9.一种柔性车间调度模型,其特征在于,使用权利要求1-8中任一项所述的基于强化学习及遗传算法的柔性车间调度方法。
CN202111546245.0A 2021-12-16 2021-12-16 基于强化学习及遗传算法的柔性车间调度方法及模型 Active CN114186749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111546245.0A CN114186749B (zh) 2021-12-16 2021-12-16 基于强化学习及遗传算法的柔性车间调度方法及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111546245.0A CN114186749B (zh) 2021-12-16 2021-12-16 基于强化学习及遗传算法的柔性车间调度方法及模型

Publications (2)

Publication Number Publication Date
CN114186749A CN114186749A (zh) 2022-03-15
CN114186749B true CN114186749B (zh) 2022-06-28

Family

ID=80605441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111546245.0A Active CN114186749B (zh) 2021-12-16 2021-12-16 基于强化学习及遗传算法的柔性车间调度方法及模型

Country Status (1)

Country Link
CN (1) CN114186749B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034653B (zh) * 2022-06-27 2023-07-11 暨南大学 一种基于transformer的端到端动态作业车间调度系统
CN115271568B (zh) * 2022-09-30 2023-01-20 暨南大学 基于强化学习-群体进化混合算法的双边拆解线设计方法
CN115471142B (zh) * 2022-11-02 2023-04-07 武汉理工大学 一种基于人机协同的港口拖轮作业智能调度方法
CN116307440B (zh) * 2022-11-21 2023-11-17 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
CN116594358B (zh) * 2023-04-20 2024-01-02 暨南大学 基于强化学习的多层工厂车间调度方法
CN116227890A (zh) * 2023-05-05 2023-06-06 安元科技股份有限公司 一种支持换产的排程调度方法及系统
CN117010671B (zh) * 2023-10-07 2023-12-05 中国信息通信研究院 基于区块链的分布式柔性车间调度方法和装置
CN117114370B (zh) * 2023-10-23 2023-12-26 泉州装备制造研究所 一种适配设备故障的小产品生产车间调度方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488315A (zh) * 2020-11-30 2021-03-12 合肥工业大学 一种基于深度强化学习和遗传算法的分批调度优化方法
CN112987664A (zh) * 2021-02-09 2021-06-18 东北大学 一种基于深度强化学习的流水车间调度方法
CN113034026A (zh) * 2021-04-09 2021-06-25 大连东软信息学院 基于Q-learning和GA的多目标柔性作业车间调度自学习方法
CN113506048A (zh) * 2021-09-09 2021-10-15 宁波帅特龙集团有限公司 一种柔性作业车间的调度方法
CN113610233A (zh) * 2021-01-12 2021-11-05 南京信息工程大学 一种基于改进遗传算法的柔性作业车间调度方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102711266B (zh) * 2012-05-17 2014-08-13 北京邮电大学 基于遗传算法的调度与资源分配联合优化方法
CN106610654A (zh) * 2015-12-29 2017-05-03 四川用联信息技术有限公司 针对柔性作业车间调度的改进遗传算法
CN111325443B (zh) * 2020-01-21 2023-04-18 南京航空航天大学 一种基于灾变机制的改进遗传算法求解柔性作业车间调度的方法
CN111967654A (zh) * 2020-07-27 2020-11-20 西安工程大学 一种基于混合遗传算法求解柔性作业车间调度的方法
CN112987665B (zh) * 2021-02-09 2022-04-12 东北大学 一种基于强化学习的流水车间调度方法
CN113326581B (zh) * 2021-05-28 2022-07-19 江麓机电集团有限公司 一种基于组合生产和设备故障约束的遗传调度方法
CN113792494B (zh) * 2021-09-23 2023-11-17 哈尔滨工业大学(威海) 基于迁徙鸟群算法和交叉融合的多目标柔性作业车间调度方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488315A (zh) * 2020-11-30 2021-03-12 合肥工业大学 一种基于深度强化学习和遗传算法的分批调度优化方法
CN113610233A (zh) * 2021-01-12 2021-11-05 南京信息工程大学 一种基于改进遗传算法的柔性作业车间调度方法
CN112987664A (zh) * 2021-02-09 2021-06-18 东北大学 一种基于深度强化学习的流水车间调度方法
CN113034026A (zh) * 2021-04-09 2021-06-25 大连东软信息学院 基于Q-learning和GA的多目标柔性作业车间调度自学习方法
CN113506048A (zh) * 2021-09-09 2021-10-15 宁波帅特龙集团有限公司 一种柔性作业车间的调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于性能预测的遗传强化学习动态调度方法;魏英姿等;《系统仿真学报》;20101208(第12期);第2809-2820页 *
基于智能强化学习的遗传算法研究;叶婉秋;《电脑学习》;20100401(第02期);第112-114页 *

Also Published As

Publication number Publication date
CN114186749A (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN114186749B (zh) 基于强化学习及遗传算法的柔性车间调度方法及模型
Zhang et al. An improved genetic algorithm for the flexible job shop scheduling problem with multiple time constraints
Li et al. An improved artificial bee colony algorithm for distributed heterogeneous hybrid flowshop scheduling problem with sequence-dependent setup times
Gong et al. A novel hybrid multi-objective artificial bee colony algorithm for blocking lot-streaming flow shop scheduling problems
Lu et al. A hybrid metaheuristic algorithm for a profit-oriented and energy-efficient disassembly sequencing problem
Li et al. An elitist nondominated sorting hybrid algorithm for multi-objective flexible job-shop scheduling problem with sequence-dependent setups
Li et al. Two-stage knowledge-driven evolutionary algorithm for distributed green flexible job shop scheduling with type-2 fuzzy processing time
Pan et al. Improved meta-heuristics for solving distributed lot-streaming permutation flow shop scheduling problems
Sun et al. Hybrid genetic algorithm with variable neighborhood search for flexible job shop scheduling problem in a machining system
CN112488315B (zh) 一种基于深度强化学习和遗传算法的分批调度优化方法
Zhang et al. Efficient and merged biogeography-based optimization algorithm for global optimization problems
Zhang et al. A combinatorial evolutionary algorithm for unrelated parallel machine scheduling problem with sequence and machine-dependent setup times, limited worker resources and learning effect
CN111832101A (zh) 一种水泥强度预测模型的构建方法及水泥强度预测方法
Zhang et al. An integer-coded differential evolution algorithm for simple assembly line balancing problem of type 2
CN107831740A (zh) 一种应用于笔记本零件的分布式生产制造过程中的优化调度方法
CN113569483A (zh) 基于人工蜂群算法求解多目标柔性作业车间调度的方法
Rad et al. GP-RVM: Genetic programing-based symbolic regression using relevance vector machine
Zhou et al. Multi-mechanism-based modified bi-objective Harris Hawks optimization for sustainable robotic disassembly line balancing problems
Yang A modified biogeography-based optimization for the flexible job shop scheduling problem
JP7137074B2 (ja) 最適化計算方法、最適化計算装置及び最適化計算プログラム
CN114819728A (zh) 一种自适应局部搜索的柔性车间生产调度方法
CN114021934A (zh) 基于改进spea2求解车间节能调度问题的方法
CN116985146B (zh) 退役电子产品的机器人并行拆解规划方法
CN117148796A (zh) 一种求解多目标柔性作业车间调度问题的优化方法
Li et al. An improved whale optimisation algorithm for distributed assembly flow shop with crane transportation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant