CN114219274A - 一种基于深度强化学习适应机器状态的车间调度方法 - Google Patents

一种基于深度强化学习适应机器状态的车间调度方法 Download PDF

Info

Publication number
CN114219274A
CN114219274A CN202111517699.5A CN202111517699A CN114219274A CN 114219274 A CN114219274 A CN 114219274A CN 202111517699 A CN202111517699 A CN 202111517699A CN 114219274 A CN114219274 A CN 114219274A
Authority
CN
China
Prior art keywords
workpiece
machine
state
value
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111517699.5A
Other languages
English (en)
Inventor
陆宝春
张哲�
葛超
张卫
孙子昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111517699.5A priority Critical patent/CN114219274A/zh
Publication of CN114219274A publication Critical patent/CN114219274A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063114Status monitoring or status determination for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习适应机器状态的车间调度方法,该方法基于多智能体Actor Critic的深度强化学习框架,结合机器运行效率值获取单步动作的奖惩值,经验池记录全部工件智能体状态、动作、即时奖励以及各机器的实时效率值,指导Actor网络进行网络参数修正,最终获得考虑机器运载情况下的最优车间调度方案。相比于现有技术,本方法能够快速建立机器故障情况下的调度策略,减少出现机器状态变化时引起的重调度时间,更具有灵活性,符合实际车间生产情况,提高车间生产效率。

Description

一种基于深度强化学习适应机器状态的车间调度方法
技术领域
本发明属于混合流水车间调度领域,特别是一种基于深度强化学习适应机器状态的车间调度方法。
背景技术
混合流水车间调度问题(Hybrid flow-shop scheduling problem,HFSP)是在多任务同时加工、并且存在并行机的情况下根据实际生产情况对生产计划进行合理的调度分配,提升车间生产效率,并被公认是经典的NP-hard问题。调度的主要目标一、确定加工过程中同一批次下的工件的执行顺序,二、为加工过程中毛坯分配加工机器。
上世纪50年代,便开始了对调度技术的研究,在随后的几十年,学者们提出的优化方案如泉水般络绎不绝,对于车间调度的复杂度也逐渐上升。1973年,Salvador首次提出了将车间调度问题与并行机调度问题相结合的混合流水车间调度问题,也使得调度问题上升到了另外的一道台阶。
近年来,机器学习领域里的一个理论强化学习,得到了广泛的重视,但是目前,应用到混合流水车间调度并不多,基于价值的强化学习算法如Q-Learning无法对连续的动作做出即时响应,而基于概率的强化学习算法如Policy Gradients则是基于回合更新,降低了学习效率。集成了值函数估计算法和策略搜索算法的Actor-Critic模型能够有效的统筹学习速度以及单步响应之间的平衡,并被验证解决混合流水车间调度问题的可行性。
对于复杂的流水车间调度问题,由于将强化学习应用于混合流水车间调度问题后,其行为空间为多维离散空间,不适合继续采用基于一维离散行为算法。因此,学者建立基于多agent的Actor-Critic模型,使得工件智能体之间相互影响,能够为求解混合流水车间调度问题提供较优调度方案。
在真实的车间生产环境中难免会出现机器状态不佳,或者并行机中的一台暂时无法参与加工,甚至未来也不再参与加工的情况。传统的多agent的Actor-Critic模型虽然能够保证动态车间调度的高效性及可靠性,但难以对车间机器状态的变化做出实时的响应,不能够结合车间机器状态给出最优的调度方案,降低了实际生产效率。因此让所训练的多agent的Actor-Critic模型能够针对机器的状态做出不同的调度策略有着重要的现实意义和应用价值。
发明内容
本发明的目的在于提供一种基于深度强化学习适应机器状态的车间调度方法,以最小化最大完工时间以及最大化车间利用率为调度目标函数,将实际机器运行状态作为了模型参数值之一,实现能够根据不同的机器状态给出相应的调度方案。
实现本发明目的的技术解决方案为:
一种基于深度强化学习适应机器状态的车间调度方法,包括以下步骤:
步骤1、以混合流水车间调度问题作为研究对象,根据车间存在并行机且机器状态动态变化的生产特征建立目标函数以及约束条件,将原始的组合优化问题转变为工件智能体的连续决策问题,初始化混合流水车间调度模型,初始化工件智能体初始状态s0
步骤2、在一个状态序列中,工件智能体当前状态st,基于Softmax策略概率性选择行为at,获得奖励rt并且进入下一个状态st+1,所有工件智能体将经验以统一的形式放入到经验池中;经验池记录全部工件智能体以及机器效率值的集合,包括工件智能体在t时刻的状态、所有机器在t时刻的效率值、工件智能体在t时刻做出的行为决策、工件智能体做出行为决策后此次获取到的奖惩值、工件智能体执行动作at进入下一时刻后所处的状态;
步骤3、判断当前经验池样本容量D是否达到单批次样本需求数Batch_Size,若达到,进入步骤4;若没有达到,不进行此次学习,进入步骤6。
步骤4、Critic从经验池中提取Batch_Size个数的经验记录,对Critic网络进行训练;根据Critic网络输出价值函数值,计算出的均方损失误差loss对Critic网络参数w的梯度进行更新,输出平均奖励的时序差分误差TD_Error指导Actor进行策略梯度参数修正;
步骤5:Actor基于平均奖励的时序差分误差TD_Error,采用小梯度下降算法更新策略梯度目标网络的参数θ;
步骤6:判断是否终止学习过程:若出现终止信号,任务终止;若没有出现终止信号,返回步骤2,进行下一回合的训练;
步骤7:工件智能体进行下一回合训练任务之前,判断当前训练片段数是否达到最大训练片段数,若达到最大训练片段数,输出工件智能体最优状态序列对应的行为策略组合B,终止任务;若未达到最大训练片段数,则继续执行训练任务,执行步骤2。
本发明与现有技术相比,其显著优点是:
(1)本方法基于多智能体Actor-Critic深度强化学习框架解决机器运行状态动态变化情况下的混合流水车间调度问题,对深度强化学习在解决混合流水车间调度问题领域的应用做出了横向扩充。
(2)相比于现有技术,本方法能够快速建立机器故障情况下的调度策略,减少出现机器状态变化时引起的重调度时间,更具有灵活性,符合实际车间生产情况,提高车间生产效率。
附图说明
图1是本发明基于深度强化学习适应机器状态的车间调度方法的流程图;
图2是Actor Critic深度学习算法原理图;
图3是本发明实施例的10×8×6问题模型最优调度甘特图;
图4是本发明实施例的三号机器效率值在t=300s时刻变为0时最优调度甘特图;
图5是本发明实施例的训练过程奖惩值变化曲线。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的介绍。
本实施例的一种基于多智能体Actor Critic适应机器状态的车间调度方法,结合多agent技术,建立多智能体Actor-Critic模型并将机器的状态考虑进模型的训练条件中,实现能够根据不同的机器状态进行处理的调度模型,将每一个工件看做为一个工件智能体,具体包括如下步骤:
步骤1、以混合流水车间调度问题作为研究对象,根据车间存在并行机且机器状态动态变化的生产特征建立目标函数以及约束条件,将原始的组合优化问题转变为工件智能体的连续决策问题,初始化混合流水车间调度模型,Critic行为价值函数为Qw(s,a),初始化工件智能体初始状态s0、最大训练片段数Max_Eqisode、单批次数据大小Batch_Size、奖励折损γ,网络学习速率α等。构建混合流水车间调度环境,以实现与智能体的交互,以期最终获得工件智能体最佳行为策略组合B,进入步骤2。
步骤1中调度系统目标函数为最小化最大加权平均完工时间以及最大化车间利用率,
其中最大完工时间H的目标函数为:
Figure BDA0003407353880000031
车间利用率γ1的目标函数为:
Figure BDA0003407353880000041
具体符号含义如表1所示。最大完工时间是一批工件完成加工的最终时间,是衡量一批工件调度优化程度的重要指标,在实际车间生产中有着重要意义。车间利用率能够有效的结合机器状态因素反映出设备整体的利用情况。
包含的约束条件如下
Figure BDA0003407353880000042
Figure BDA0003407353880000043
Silk≥Ei′l′k′ (3)
上述为调度模型约束条件,其中式(1)为限制工序只能由一台设备独立加工;式(2)为限制前一道工序结束才能开始下一道的加工;式(3)为限制一个机器不能同时加工多道工序。
表1调度模型中涉及的符号及含义如下表表示所示
Figure BDA0003407353880000044
Figure BDA0003407353880000051
步骤2:在一个状态序列中,工件智能体当前状态st,基于Softmax策略概率性选择行为at,获得奖励rt并且进入下一个状态st+1,所有工件智能体将经验以统一的形式放入到经验池中,单个工件智能体的存储形式为
Figure BDA0003407353880000052
其中
Figure BDA0003407353880000053
表示第i个工件智能体在t时刻的状态;
Figure BDA0003407353880000054
表示在t时刻第k个机器的效率值;
Figure BDA0003407353880000055
表示第i个工件智能体在t时刻做出的行为决策;
Figure BDA0003407353880000056
表示第i个工件智能体做出行为决策后此次获取到的奖惩值;
Figure BDA0003407353880000057
表示第i个工件智能体执行动作a进入下一时刻t+1时刻后所处的状态。经验池记录全部工件智能体以及机器效率值的集合,存储形式为<st,smt,at,rt,st+1,t>,其中st代表
Figure BDA0003407353880000058
即全部工件智能体在t时刻状态的合集,同理at,rt分别代表工件智能体在t时刻的动作及奖励合集,smt代表
Figure BDA0003407353880000059
代表机器在t时刻效率值的合集,进入步骤3。
其中步骤2中将机器效率值信息加入到经验池中,Actor执行动作获得的奖惩情况也和机器状态相关,初步建立机器状态动态变化下混合流水车间调度问题的多智能体Actor-Critic模型,具体方式如下述步骤。
步骤21:采用Softmax策略对于当前每个动作的平均奖励值转换为发生下一个动作的概率。
步骤22:工件智能体会根据计算出的概率值,尝试进行下一步动作,并根据奖惩规则获得本次行为的奖惩值rt。Critic经验池将记录工件智能体本次状态变化、执行动作、现有机器效率值及获得奖惩值情况。
其中所述步骤22中奖惩规则为:最终设置奖惩规则为:1.工件正常完成某道工序,获得加工该道工序的机器的奖励值,最终奖励值与完成时间相关;2.工件智能体选择了不能对其现有状态进行加工的机器,获得较大的惩罚值,进入缓冲区;3.工件智能体选择机器的奖励值会在原有的基础上乘以机器当前状态的效率值,获得当前机器状态下的最终奖励值;4.工件选择了正在加工状态的机器,则进入缓冲区,并获得对应的惩罚值,惩罚值会随着缓冲时间的延长而变大;5.出现机器智能体无工件加工,随时间的延长获得相应的惩罚值。奖励函数基于机器状态进行重新定义,使得在状态更优的设备上进行加工获取的奖励值更高。
Figure BDA0003407353880000061
其中rt为全部工件智能体在tu-1到tu决策时刻获得的最终奖惩值;δk(t)表示t时刻第k个机器的效率值;其中c为工件等待状态下的惩罚值常量、p为工件智能体选择无法进行加工的机器时的惩罚值常量、qk为第k个机器出现空闲时的惩罚值常量,取值c=1、p=10、qk=1,δi(t)表示t时刻第i个工件智能体所处的状态;sk表示第k个机器当前的运行状态,当机器处于空闲状态时取值为-1,工作状态取值为1;rlk代表在第l道工序上选择第k个机器完成加工所获得的奖励值。
Figure BDA0003407353880000062
步骤3:判断当前经验池样本容量D是否达到单批次样本需求数Batch_Size,若达到,进入步骤4;若没有达到,不进行此次学习,进入步骤6。
步骤4:Critic从经验池中提取Batch_Size个数的经验记录,依据全部工件智能体的状态、动作、平均奖励以及机器智能体的状态对Critic网络进行训练。根据Critic网络输出价值函数值,计算出的均方损失误差loss对Critic网络参数w的梯度进行缓慢更新,输出平均奖励的时序差分误差TD_Error指导Actor进行策略梯度修正,进入步骤5。
其中所述步骤4中输出平均奖励时序差分误差TD_Error指导Actor网络行为修正,时序差分误差TD_Error基础计算公式为:
TD_Error=rt+γ*f(st+1)-f(st)
其中f(st)代表将st状态输入到Critic神经网络中得到的Q值,γ为奖励折损值。
其中所述步骤4计算使用均方损失函数loss作Critic网络参数w的梯度更新,均方损失误差为多个工件智能体的目标价值与Critic的神经网络输出价值的权重,其中智能体的目标价值计算分成两种情况:
(1)若工件智能体未达到最后一个状态用下一状态的价值+执行动作
Figure BDA0003407353880000063
获得的奖励值
Figure BDA0003407353880000071
此时均方损失误差遵循公式:
Figure BDA0003407353880000072
(2)若工件智能体达到最后一个状态,当前价值则由执行动作获得的奖励值
Figure BDA0003407353880000073
确定,此时均方损失误差遵循公式:
Figure BDA0003407353880000074
其中各参数的含义如表2所示。
表2参数及参数含义
Figure BDA0003407353880000075
步骤5:Actor基于平均奖励的时序差分误差TD_Error,采用小梯度下降算法更新策略函数的参数θ,进入步骤6。
所述步骤5中Actor获取平均奖励的时序差分误差TD_Error,更新策略梯度参数θ,获得θ更新后的结果θ‘,公式为:
Figure BDA0003407353880000076
其中α为Actor网络学习率,
Figure BDA0003407353880000077
为Actor网络的分值函数,采用Softmax函数。为了避免数据样本的随机关联性,对网络参数采用缓慢更新的策略,对θ’进行再次处理,得到此次更新最终的策略梯度参数θ‘’。
θ‘’=τAθ+(1-τA)θ′
其中τA为Actor网络更新速度参数。最终网络参数的修正方向与平均奖励的时序差分误差值TD_Error正相关,若TD_Error值大于0,表明本次执行的行为策略向着好的方向发展,使θ的修正方向与平均奖励的时序差分信号方向保持一致,否则则相反。
步骤6:判断是否终止学习过程:若出现终止信号,任务终止;若没有出现终止信号,返回步骤2,进行下一回合的训练;
步骤7:工件智能体进行下一回合训练任务之前,判断当前训练片段数是否达到最大训练片段数,若达到最大训练片段数,输出工件智能体最优状态序列对应的行为策略组合B,终止任务;若未达到最大训练片段数,则继续执行训练任务,执行步骤2。
为了说明本发明的技术方案及技术目的,下面结合附图及具体实施例对本发明做进一步的介绍。
实施例
以木门家具生产车间实际生产情况为例,规模为任务个数为n=10,每个工件的加工工序数l=6,车间总机器个数为m=8,在第三道工序以及第四道工序存在并行机,车间经过上料、四边锯、封边、铰链加工、门锁加工、雕刻六道主要工序,生产模式以流水式生产并存在并行机,符合混合流水车间模型。实施例主要验证多智能体Actor-Critic框架在解决基础混合流水车间问题的同时,结合机器状态动态变化的因素实现机器状态变化情况下的动态调度。在系统开始阶段,初始状态为s0。初始参数设置如表3所示。
19.表3模型参数设置
Figure BDA0003407353880000081
表4为10×8×6车间调度模型。
Figure BDA0003407353880000082
Figure BDA0003407353880000091
机器分布情况为{1,2,[3,4],[5,6],7,8}。
十个工件从系统时刻0开始至全部任务终止为一个片段,学习过程为8000个片段。工件智能体每行动一次,产生一条经验记录,当经过所有片段训练后,得到最优片段结果甘特图,结束训练。每20个片段记录最小平均加权时间、最小最大完工时间、奖惩值等信息,图3为任务调度甘特图。
当t=300s时刻车间机器3出现故障,工序3仅机器4可完成当前工序作业任务,任务调度甘特图如图4所示,模型能够对机器状态变化情况下做出重调度响应,得到最优的调度结果。如图5所示为总奖励值训练变化曲线。从图中可以发现,初始阶段行动倾向于探索,获取奖惩值处于较低的水平,大多行为无法完成正常的作业任务。但是随着训练过程的推进,处于等待队列的工件智能体以及工件智能体之间的冲突行为开始减少,错误选择逐渐消失,最后的平均完工时间降低到1040左右、奖励值维持在98左右。实验结果说明工件智能体能够在机器状态发生变化的情况下通过自学习,实现协作生产以扩大总体奖励。验证了本文方法与模型在求解适应机器状态的混合流水车间调度问题上的可行性和有效性。

Claims (7)

1.一种基于深度强化学习适应机器状态的车间调度方法,其特征在于,包括以下步骤:
步骤1:以混合流水车间调度问题作为研究对象,根据车间存在并行机且机器状态动态变化的生产特征建立目标函数以及约束条件,将原始的组合优化问题转变为工件智能体的连续决策问题,初始化混合流水车间调度模型,初始化工件智能体初始状态s0
步骤2:在一个状态序列中,工件智能体当前状态st,基于Softmax策略概率性选择行为at,获得奖励rt并且进入下一个状态st+1,所有工件智能体将经验以统一的形式放入到经验池中;经验池记录全部工件智能体以及机器效率值的集合,包括工件智能体在t时刻的状态、所有机器在t时刻的效率值、工件智能体在t时刻做出的行为决策、工件智能体做出行为决策后此次获取到的奖惩值、工件智能体执行动作at进入下一时刻后所处的状态;
步骤3:判断当前经验池样本容量D是否达到单批次样本需求数Batch_Size,若达到,进入步骤4;若没有达到,不进行此次学习,进入步骤6。
步骤4:Critic从经验池中提取Batch_Size个数的经验记录,对Critic网络进行训练;根据Critic网络输出价值函数值,计算出的均方损失误差loss对Critic网络参数w的梯度进行更新,输出平均奖励的时序差分误差TD_Error指导Actor进行策略梯度修正;
步骤5:Actor基于平均奖励的时序差分误差TD_Error,采用小梯度下降算法更新策略梯度目标网络的参数θ;
步骤6:判断是否终止学习过程:若出现终止信号,任务终止;若没有出现终止信号,返回步骤2,进行下一回合的训练;
步骤7:工件智能体进行下一回合训练任务之前,判断当前训练片段数是否达到最大训练片段数,若达到最大训练片段数,输出工件智能体最优状态序列对应的行为策略组合B,终止任务;若未达到最大训练片段数,则继续执行训练任务,执行步骤2。
2.根据权利要求1所述的基于深度强化学习适应机器状态的车间调度方法,其特征在于,步骤1中,目标函数为:
(1)基于最大完工时间H的目标函数为:
Figure FDA0003407353870000011
(2)基于车间利用率γ1的目标函数为:
Figure FDA0003407353870000021
约束条件为:
(1)限制工序只能由一台设备独立加工:
Figure FDA0003407353870000022
(2)限制前一道工序结束才能开始下一道的加工:
Figure FDA0003407353870000023
(3)限制一个机器不能同时加工多道工序:
Silk≥Ei′l′k′
其中i代表工件的序号,n为总工件数;k代表机器的序号,m为总机器数;l代表工序的序号,其oi代表第i个工件的总工序数;oil代表第i个工件的第l道工序;Ail代表可对第i个工件的第l道工序加工的机器集合;Silk代表第i个工件在第l道工序选择第k个机器进行加工的开始加工时间;Ci代表第i个工件的完工时间;tilk代表第i个工件在第l道工序选择第k个机器进行加工的加工时间;δk代表第k个机器当前的加工状态;Xilk代表第i个工件在第l道工序是否选择第k个机器进行加工;Ei′l′k′代表第k个机器上前一个加工子批任务的结束时间。
3.根据权利要求1所述的一种基于深度强化学习适应机器状态的车间调度方法,其特征在于,所述步骤2过程如下:
步骤21:采用Softmax策略对于当前每个动作的平均奖励值转换为发生下一个动作的概率;
步骤22:工件智能体会根据计算出的概率值,尝试进行下一步动作,并获取到奖惩值;根据奖惩规则获得本次行为的奖惩情况,Critic经验池将记录本次工件智能体状态变化、行为选择、现有机器效率值以及获取的奖惩值情况。
4.根据权利要求3所述的一种基于深度强化学习适应机器状态的车间调度方法,其特征在于,步骤22中奖惩规则的设定为:
(1)工件正常完成某道工序,获得该道工序的奖励值,最终奖励值与完成时间相关;(2)工件智能体选择了不能对其现有状态进行加工的机器,获得相应的惩罚值,进入缓冲区;(3)工件智能体选择机器的奖励值会在原有的基础上乘以机器当前状态的效率值,获得当前机器状态下的最终奖励值;(4)工件选择了正在加工状态的机器,则进入缓冲区,并获得对应的惩罚值,惩罚值会随着缓冲时间的延长而变大;(5)出现机器智能体无工件加工,随时间的延长获得相应的惩罚值。
5.根据权利要求4所述的一种基于深度强化学习适应机器状态的车间调度方法,其特征在于,奖励值的计算公式为:
Figure FDA0003407353870000031
Figure FDA0003407353870000032
其中rt为全部工件智能体在tu-1到tu决策时刻获得的最终奖惩值;δk(t)表示t时刻第k个机器的效率值;其中c、p、
Figure FDA0003407353870000033
均为常量;δi(t)表示t时刻第i个工件所处的状态;sk表征第k个机器当前的运行状态;rlk代表在第l道工序上选择第k个机器完成加工所获得的奖励值。
6.根据权利要求1所述的基于深度强化学习适应机器状态的车间调度方法,其特征在于,步骤4中基于均方损失误差对Critic网络参数w梯度更新,均方损失误差为多个工件智能体的目标价值与Critic的神经网络输出价值的权重,其中智能体的目标价值计算分成两种情况:
(1)如果工件智能体未达到最后一个状态用下一状态的价值+执行动作
Figure FDA0003407353870000034
获得的奖励值
Figure FDA0003407353870000035
此时均方损失误差遵循公式:
Figure FDA0003407353870000036
(2)若工件智能体达到最后一个状态,当前价值则由执行动作获得的奖励值
Figure FDA0003407353870000037
确定,此时均方损失误差遵循公式:
Figure FDA0003407353870000038
其中
Figure FDA0003407353870000039
代表第i个工件智能体到下一个状态
Figure FDA00034073538700000310
的状态特征;
Figure FDA00034073538700000311
代表第i个工件智能体在状态
Figure FDA0003407353870000041
下Critic目标网络求出的下一状态的价值。
7.根据权利要求1所述的基于深度强化学习适应机器状态的车间调度方法,其特征在于,步骤5中Actor获取平均奖励的时序差分误差TD_Error,更新策略梯度参数θ,获得θ更新后的结果θ‘,公式为:
Figure FDA0003407353870000042
其中α为Actor网络学习率,
Figure FDA0003407353870000043
为Actor网络的分值函数,采用Softmax函数;对θ’进行再次处理,得到此次更新最终的梯度参数θ‘’。
θ‘’=τAθ+(1-τA)θ′
其中τA为Actor网络更新速度参数;若TD_Error值大于0,表明本次执行的行为策略向着好的方向发展,使θ的修正方向与平均奖励的时序差分信号方向保持一致,否则则相反。
CN202111517699.5A 2021-12-13 2021-12-13 一种基于深度强化学习适应机器状态的车间调度方法 Pending CN114219274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111517699.5A CN114219274A (zh) 2021-12-13 2021-12-13 一种基于深度强化学习适应机器状态的车间调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111517699.5A CN114219274A (zh) 2021-12-13 2021-12-13 一种基于深度强化学习适应机器状态的车间调度方法

Publications (1)

Publication Number Publication Date
CN114219274A true CN114219274A (zh) 2022-03-22

Family

ID=80701370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111517699.5A Pending CN114219274A (zh) 2021-12-13 2021-12-13 一种基于深度强化学习适应机器状态的车间调度方法

Country Status (1)

Country Link
CN (1) CN114219274A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307440A (zh) * 2022-11-21 2023-06-23 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307440A (zh) * 2022-11-21 2023-06-23 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
CN116307440B (zh) * 2022-11-21 2023-11-17 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用

Similar Documents

Publication Publication Date Title
CN112734172B (zh) 一种基于时序差分的混合流水车间调度方法
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN111199272B (zh) 一种面向智能车间的自适应调度方法
CN111767896B (zh) 一种清扫车底盘上装协同控制方法及感知识别实现装置
CN111985672B (zh) 一种多Agent深度强化学习的单件作业车间调度方法
CN110109358B (zh) 一种基于反馈的混合多智能体协同控制方法
CN113792924A (zh) 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
CN111160755B (zh) 一种基于dqn的飞机大修车间实时调度方法
CN112836974B (zh) 一种基于dqn和mcts的箱区间多场桥动态调度方法
CN116542445A (zh) 基于深度强化学习的装备制造车间智能调度方法和系统
CN114565247A (zh) 一种基于深度强化学习的车间调度方法、装置和系统
CN115759552A (zh) 一种基于多智能体架构的面向智慧工厂的实时调度方法
CN116500986A (zh) 一种分布式作业车间的优先调度规则生成方法及系统
CN114219274A (zh) 一种基于深度强化学习适应机器状态的车间调度方法
CN113406939A (zh) 一种基于深度q网络的无关并行机动态混合流水车间调度方法
CN116562584A (zh) 一种基于Conv-Dueling与泛化表征的动态车间调度方法
CN111401611B (zh) 一种化工厂设备巡检点路线优化方法
CN116307251B (zh) 一种基于强化学习的工作排程优化方法
CN110245809B (zh) 一种用于多机器人多任务协作工作的智能优化方法和系统
CN113657742B (zh) 车间调度方法、装置、电子设备及存储介质
CN116300428A (zh) 一种基于数字孪生的铣削参数优化方法
CN114819273A (zh) 基于多Agent全局与局部优化结合的车间调度方法
CN114386843A (zh) 一种基于改进深度强化学习算法的柔性车间调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination