CN114757512A - 一种基于图神经网络的作业车间调度方法 - Google Patents

一种基于图神经网络的作业车间调度方法 Download PDF

Info

Publication number
CN114757512A
CN114757512A CN202210346683.0A CN202210346683A CN114757512A CN 114757512 A CN114757512 A CN 114757512A CN 202210346683 A CN202210346683 A CN 202210346683A CN 114757512 A CN114757512 A CN 114757512A
Authority
CN
China
Prior art keywords
scheduling
neural network
graph
job shop
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210346683.0A
Other languages
English (en)
Other versions
CN114757512B (zh
Inventor
吕雅琼
杨格格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202210346683.0A priority Critical patent/CN114757512B/zh
Publication of CN114757512A publication Critical patent/CN114757512A/zh
Application granted granted Critical
Publication of CN114757512B publication Critical patent/CN114757512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Manufacturing & Machinery (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于生产计划技术领域,公开了一种基于图神经网络的作业车间调度方法,基于图神经网络的作业车间调度方法包括:可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况;设计奖励函数对调度决策进行评估;对析取图节点特征信息进行嵌入提取;进行调度策略网络学习及图神经网络参数调整。本发明提高了制造系统作业车间调度方法的泛化能力,可以应用于同一系统内不同网络规模的作业车间调度问题。本发明将作业调度问题网络拓扑化,提高调度算法的泛化能力,可以有效处理作业车间调度问题,具有通用性强和自适应性高的特点。

Description

一种基于图神经网络的作业车间调度方法
技术领域
本发明属于生产计划技术领域,尤其涉及一种基于图神经网络的作业车间 调度方法。
背景技术
目前,生产计划与调度是智能工厂的管理核心。大规模、不确定、强耦合 的复杂生产制造系统给作业车间生产调度带来了较大的挑战。
现有的调度算法主要分为两类:精确求解与近似求解。精确求解如分支定 界法,数学规划法等会因问题规模的扩大而导致维度灾难,使得调度结果不能 很好地应用于规模较大的调度问题。近似求解,主要由启发式算法与监督学习 组成,典型方法有分派规则法,领域搜索法以及神经网络。现有近似求解法的 运行效果主要取决于人为设定的规则以及历史调度数据。当制造系统环境改变 时,需要耗费大量精力重新决定调度规则,难以较好地适用于不确定性较强, 动态变化的作业车间调度场景。
通过上述分析,现有技术存在的问题及缺陷为:现有的调度方法可扩展性 不强,适用场景具备一定限制,通用性不强、自适应性不高,无法应用于同一 系统内不同网络规模的作业车间调度。
发明内容
针对现有技术存在的问题,本发明提供了一种基于图神经网络的作业车间 调度方法。
本发明是这样实现的,一种基于图神经网络的作业车间调度方法,所述基 于图神经网络的作业车间调度方法包括:
可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况;设 置奖励函数对调度决策进行评估;对析取图节点特征信息进行嵌入提取;进行 调度策略网络学习及图神经网络参数调整。
进一步,所述基于图神经网络的作业车间调度方法包括以下步骤:
步骤一,构建作业车间调度的析取图模型,并获取作业车间工件加工数据; 基于构建的作业车间调度的析取图模型,建立马尔可夫决策模型;
步骤二,利用图神经网络提取不同节点之间的特征信息,并通过聚合函数 组合消息;
步骤三,利用Actor网络进行调度决策,利用Critic网络评价Actor决策效 果,利用图神经网络更新节点状态;
步骤四,判断调度结果是否满足预设标准,若满足,则输出调度方案;否 则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数,并返回步 骤二。
进一步,所述构建作业车间调度的析取图模型,并获取作业车间工件加工 数据包括:
(1)构建作业车间调度的析取图模型如下:
g=((V,C)∪D);
其中,V表示工序集,所述工序集包含作业车间的工序,所述工序在V中表 示为节点;C表示合取边集;所述合取边集包含合取边,每个合取边表示同一工 件上两个连续工序之间的优先约束;D表示析取边集,所述析取边集包含析取边, 每个析取边表示两个节点之间的机器共享约束,当两个工序可由同一台机器处 理时,相应的工序节点与析取边连接;
(2)获取作业车间工件加工数据,利用作业车间工件加工数据表示作业车 间动态调度实时状态,同时利用作业车间工件加工数据作为节点V的特征信息;
所述节点V的特征信息包括:节点状态、处理时间、后续工序数、工序开 始时间;
所述节点状态包含[1,0,0]、[0,1,0]和[0,0,1];所述[1,0,0]、[0,1,0]和[0,0,1]分别 表示工序尚未开始、工序正在处理和工序已完成;
所述处理时间为工序的处理时间;所述后续工序数为同一工件工序V的后 续工序数;所述工序开始时间为工序V的开始处理时间。
进一步,所述马尔可夫决策模型如下:
马尔可夫元组(G,A,P,R,γ);
其中,G表示作业车间调度状态,A表示调度动作,γ表示折扣因子,P表 示状态转移概率,R表示每次动作获得的回报,以最小化完工时间为调度目标; 所以动作回报公式为:R=1/(makespan(g’)-makespan(g));其中,makespan表示工 件序列加工时间总和,g表示当前状态,g’表示下一状态。
进一步,所述利用图神经网络提取不同节点之间的特征信息,并通过聚合 函数组合消息包括:
(1)通过节点嵌入,提取不同节点之间的特征信息:
Figure RE-GDA0003694283060000031
其中,fp(.;θ1)表示前序节点更新函数;fs(.;θ2)表示后序节点更新函数; fd(.;θ3)表示析取节点更新函数,fn(.;θ4)表示目标节点更新函数fn(.;θ4);ReLU(x) =max(0,x),||表示向量串联,
Figure BDA0003580945080000032
Figure BDA0003580945080000033
分别表示前序和后序节点集,
Figure BDA0003580945080000034
表示析取邻居节点,
Figure BDA0003580945080000035
表示第k代节点嵌入;
(2)当相应的工序节点完成或不存在时,将所述节点嵌入设置为零向量, 其维数与H相同,不再参与图状态更新;
(3)通过多层感知机训练图神经网络的输入层、隐藏层、输出层的参数。
进一步,所述利用Actor网络进行调度决策,利用Critic网络评价Actor决 策效果,利用图神经网络更新节点状态包括:
(1)采用softmax函数基于下式生成目标机器选择可操作工序的概率分布:
Figure BDA0003580945080000041
其中,fl(.;θ5)是一个可微函数,将节点嵌入信息映射到每个节点的logit值,
Figure BDA0003580945080000042
表示在τ时刻可供选择的工序集;
(2)采用随机策略选择执行工序;并利用critic基于下式近似析取图状态 值;
Figure BDA0003580945080000043
其中,
Figure BDA0003580945080000044
表示图嵌入,fv(.;θ6)为一个可微函数;
(3)随机生成包括加工机器数,加工工件,加工工序及对应加工时间的初 始图;对样本数据进行调度,收集状态转换样本。
进一步,所述利用近端策略优化算法训练图神经网络、Actor以及Critic的 参数包括:
1)采用近端策略优化算法,对图神经网络和Actor-critic中的参数 Θ={θ123456}进行更新,当且仅当图节点嵌入信息以及调度动作可提高调 度效果时更新参数,目标函数公式如下:
Figure RE-GDA0003694283060000045
其中
Figure BDA0003580945080000046
Θ={θ123456};
Figure BDA0003580945080000047
表示总体优势函数,公式 如下:
Figure BDA0003580945080000048
δτ=rτ+γV(gτ+1;Θ)-V(gτ;Θ),
Figure BDA0003580945080000049
函数中的T表示训练集的最后一步;
2)在目标函数中加入值函数误差和熵加成项:
Figure BDA0003580945080000051
其中,
Figure BDA0003580945080000052
表示当前τ时刻πΘ策略下的熵,
Figure BDA0003580945080000053
表示实现的总回报,α和β表示相应系数;
3)不断朝
Figure BDA0003580945080000054
梯度下降的方向更新Θ,直至收敛。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器 和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行 时,使得所述处理器执行所述基于图神经网络的作业车间调度方法如下步骤:
步骤一,构建作业车间调度的析取图模型,并获取作业车间工件加工数据; 基于构建的作业车间调度的析取图模型,建立马尔可夫决策模型;
步骤二,利用图神经网络提取不同节点之间的特征信息,并通过聚合函数 组合消息;
步骤三,利用Actor网络进行调度决策,利用Critic网络评价Actor决策效 果,利用图神经网络更新节点状态;
步骤四,判断调度结果是否满足预设标准,若满足,则输出调度方案;否 则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数,并返回步 骤二。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序, 所述计算机程序被处理器执行时,使得所述处理器执行所述基于图神经网络的 作业车间调度方法如下步骤:
步骤一,构建作业车间调度的析取图模型,并获取作业车间工件加工数据; 基于构建的作业车间调度的析取图模型,建立马尔可夫决策模型;
步骤二,利用图神经网络提取提取不同节点之间的特征信息,并通过聚合 函数组合消息;
步骤三,利用Actor网络进行调度决策,利用Critic网络评价Actor决策效 果,利用图神经网络更新节点状态;
步骤四,判断调度结果是否满足预设标准,若满足,则输出调度方案;否 则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数,并返回步 骤二。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终 端用于执行所述基于图神经网络的作业车间调度方法。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要 保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结 合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地 分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造 性的技术效果。具体描述如下:
本发明采用析取图对作业车间调度问题进行特征描述,将调度问题转换为 序贯决策问题,基于马尔可夫决策过程进行建模,可以适用于不同网络规模的 作业车间调度问题,无需重复训练,泛化性能强。本发明引入了近端策略优化 算法对神经网络进行训练,可以稳定提高参数效果。本发明适用于动态调度场 景,若某道工序出现问题,可直接将该节点及其后续节点设置为0向量节点, 不影响其他工件调度。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技 术方案具备的技术效果和优点,具体描述如下:
本发明提高了制造系统作业车间调度问题算法的泛化能力,可以应用于同 一系统内不同网络规模的作业车间调度问题。本发明将作业调度问题网络拓扑 化,提高调度算法的泛化能力,可以有效处理作业车间调度问题,具有通用性 强和自适应性高的特点。
附图说明
图1是本发明实施例提供的基于图神经网络的作业车间调度方法原理图;
图2是本发明实施例提供的基于图神经网络的作业车间调度方法流程图;
图3是本发明实施例提供的析取图特征表示示意图;
图4是本发明实施例提供的节点特征信息一阶聚合更新示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例, 对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以 解释本发明,并不用于限定本发明。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实 现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的基于图神经网络的作业车间调度方法包 括:
可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况;设 计奖励函数对调度决策进行评估;对析取图节点特征信息进行嵌入提取;进行 调度策略网络学习及图神经网络参数调整。
如图2所示,本发明实施例提供的基于图神经网络的作业车间调度方法包 括以下步骤:
S101,构建作业车间调度的析取图模型,并获取作业车间工件加工数据; 基于构建的作业车间调度的析取图模型,建立马尔可夫决策模型;
S102,利用图神经网络提取不同节点之间的特征信息,并通过聚合函数组 合消息;
S103,利用Actor网络进行调度决策,利用Critic网络评价Actor决策效果, 利用图神经网络更新节点状态;
S104,判断调度结果是否满足预设标准,若满足,则输出调度方案;否则 利用近端策略优化算法训练图神经网络、Actor以及Critic的参数,并返回步骤 S102。
本发明实施例提供的构建作业车间调度的析取图模型,并获取作业车间工 件加工数据包括:
(1)构建作业车间调度的析取图模型如下:
g=((V,C)∪D);
其中,V表示工序集,所述工序集包含作业车间的工序,所述工序在V中表 示为节点;C表示合取边集;所述合取边集包含合取边,每个合取边表示同一工 件上两个连续工序之间的优先约束;D表示析取边集,所述析取边集包含析取边, 每个析取边表示两个节点之间的机器共享约束,当两个工序可由同一台机器处 理时,相应的工序节点与析取边连接;
(2)获取作业车间工件加工数据,利用作业车间工件加工数据表示作业车 间动态调度实时状态,同时利用作业车间工件加工数据作为节点V的特征信息。
本发明实施例提供的节点V的特征信息包括:节点状态、处理时间、后续 工序数、工序开始时间;
节点状态包含[1,0,0]、[0,1,0]和[0,0,1];[1,0,0]、[0,1,0]和[0,0,1]分别表示工序 尚未开始、工序正在处理和工序已完成;
处理时间为工序的处理时间;后续工序数为同一工件工序V的后续工序数; 工序开始时间为工序V的开始处理时间。
本发明实施例提供的马尔可夫决策模型如下:
马尔科夫元组(G,A,P,R,γ);
其中,G表示作业车间调度状态,A表示调度动作,γ表示折扣因子,P表 示状态转移概率,R表示每次动作获得的回报,以最小化完工时间为调度目标; 所以动作回报公式为:R=1/(makespan(g’)-makespan(g));其中,makespan表示 工件序列加工时间总和,g表示当前状态,g’表示下一状态。
本发明实施例提供的利用图神经网络提取不同节点之间的特征信息,并通 过聚合函数组合消息包括:
(1)通过节点嵌入,提取不同节点之间的特征信息:
Figure RE-GDA0003694283060000091
其中,fp(.;θ1)表示前序节点更新函数;fs(.;θ2)表示后序节点更新函数; fd(.;θ3)表示析取节点更新函数,fn(.;θ4)表示目标节点更新函数fn(.;θ4);ReLU(x) =max(0,x),||表示向量串联,
Figure BDA0003580945080000092
Figure BDA0003580945080000093
分别表示前序和后序节点集,
Figure BDA0003580945080000094
表示析取邻居节点,
Figure BDA0003580945080000095
表示第k代节点嵌入;
(2)当相应的工序节点完成或不存在时,将所述节点嵌入设置为零向量, 其维数与H相同,不再参与图状态更新;
(3)通过多层感知机训练图神经网络的输入层、隐藏层、输出层的参数。
本发明实施例提供的利用Actor网络进行调度决策,利用Critic网络评价 Actor决策效果,利用图神经网络更新节点状态包括:
(1)采用softmax函数基于下式生成目标机器选择可操作工序的概率分布:
Figure BDA0003580945080000096
其中,fl(.;θ5)是一个可微函数,将节点嵌入信息映射到每个节点的logit值,
Figure BDA0003580945080000097
表示在τ时刻可供选择的工序集;
(2)采用随机策略选择执行工序;并利用critic基于下式近似析取图状态 值;
Figure BDA0003580945080000101
其中,
Figure BDA0003580945080000102
表示图嵌入,fv(.;θ6)为一个可微函数;
(3)随机生成包括加工机器数,加工工件,加工工序及对应加工时间的初 始图;对样本数据进行调度,收集状态转换样本。
本发明实施例提供的利用近端策略优化算法训练图神经网络、Actor以及 Critic的参数包括:
1)采用近端策略优化算法,对图神经网络和Actor-critic中的参数 Θ={θ123456}进行更新,当且仅当图节点嵌入信息以及调度动作可提高调 度效果时更新参数,目标函数公式如下:
Figure RE-GDA0003694283060000102
其中
Figure BDA0003580945080000104
Θ={θ123456};
Figure BDA0003580945080000105
表示总体优势函数,公式 如下:
Figure BDA0003580945080000106
δτ=rτ+γV(gτ+1;Θ)-V(gτ;Θ),
Figure BDA0003580945080000107
函数中的T表示训练集的最后一步;
2)在目标函数中加入值函数误差和熵加成项:
Figure BDA0003580945080000108
其中,
Figure BDA0003580945080000109
表示当前τ时刻πΘ策略下的熵,
Figure BDA00035809450800001010
表示实现的总回报,α和β表示相应系数;
3)不断朝
Figure BDA00035809450800001011
梯度下降的方向更新Θ,直至收敛。
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例1:
结合图1,本发明实施例提供的基于图神经网络的作业车间调度方法包括:
首先根据作业车间调度问题进行析取图建模。析取图g=((V,C)∪D), 图神经网络训练过程,可随机生成初始图g0,指定加工机器数服从均匀分布(5, 9),处理工件数量及对应工序数量服从均匀分布(1,9),工序加工时间服从 均匀分布(1,99);
基于作业车间工件加工数据,表示作业车间动态调度实时状况,同时作为 节点V的特征信息,其中包括:
节点状态:[1,0,0]、[0,1,0]和[0,0,1]分别表示工序尚未开始、工序正在处理和工序已完成,结合图2可知,节点1工序已完成,节点2正在处理,节点3尚 未开始;
处理时间:工序的处理时间;
后续工序数:同一工件工序V的后续工序数;
工序开始时间:工序V的开始处理时间。
基于析取图建模信息,建立马尔可夫决策过程,将作业调度问题转换为序 贯决策问题。马尔科夫元组(G,A,P,R,γ),其中G表示作业车间调度状 态,A表示调度动作,γ表示折扣因子,即当前动作对未来回报的影响程度,P 表示状态转移概率,R表示每次动作获得的回报,以最小化完工时间为调度目标, 所以动作回报公式如下所示:
R=1/(makespan(g’)-makespan(g))
其中,makespan表示工件序列加工时间总和,g表示当前状态,g’表示下 一状态。
通过节点嵌入,提取不同节点之间的特征信息,通过聚合函数组合消息, 结合图3,聚合邻居结点信息后,再加上本身结点信息进行嵌入更新。嵌入层主 要考虑4个可微函数:前序节点更新函数fp(.;θ1),后序节点更新函数fs(.;θ2), 析取节点更新函数fd(.;θ3)以及目标节点更新函数fn(.;θ4),公式如下所示:
Figure RE-GDA0003694283060000121
其中ReLU(x)=max(0,x),||表示向量串联,
Figure BDA0003580945080000122
Figure BDA0003580945080000123
分别代表前序和后 序节点集,
Figure BDA0003580945080000124
代表析取邻居节点,
Figure BDA0003580945080000125
表示第k代节点嵌入;
GNN可以计算节点之间的高阶交互,设置嵌入层K=3;
当相应的工序节点完成或不存在时,将该节点嵌入设置为零向量,其维数 与H相同,不再参与图状态更新;
采用多层感知机训练图神经网络参数,包括输入层,2层隐藏层,输出层;
输入层由前序节点、后序节点、析取节点以及本身节点的6维特征信息串 联而成,共24维;
激活函数采用“ReLU”函数;
输出层生成6维的节点嵌入。
引入actor使用softmax函数生成目标机器选择可操作工序的概率分布,公 式如下:
Figure BDA0003580945080000126
其中,fl(.;θ5)是一个可微函数,将节点嵌入信息映射到每个节点的logit值,
Figure BDA0003580945080000127
为可供选择的工序集;
采用随机策略选择执行工序;
引入critic近似析取图状态值,公式如下:
Figure BDA0003580945080000131
其中
Figure BDA0003580945080000132
代表图嵌入,fv(.;θ6)是一个可微函数。
actor和critic网络均通过多层感知机进行更新,actor输入层为6维节点嵌 入信息,输出返回各调度动作的logit值。
从随机生成的作业车间调度实例每20个训练集中,收集状态转换样本;
采用近端策略优化算法,对图神经网络和Actor-critic中的参数 Θ={θ12345,}θ进行更新;
参数优化器类型:“Adam”;
学习率(η):2.5*10-4;
折扣率(γ):1;
GAE参数(λ):0.95;
修剪参数(∈):0.2;
值函数系数(α):0.5;
熵加成系数(β):0.01;
每次更新所训练集数(n):20;
当且仅当图节点嵌入信息以及调度动作可以提高调度效果时更新参数,目 标函数公式如下:
Figure RE-GDA0003694283060000133
其中
Figure BDA0003580945080000134
Θ={θ123456};
Figure BDA0003580945080000135
为总体优势函数,公式如下:
Figure BDA0003580945080000136
其中,δτ=rτ+γV(gτ+1;Θ)-V(gτ;Θ),T为训练集的最后一步;
在目标函数中加入值函数误差和熵加成项,公式如下:
Figure BDA0003580945080000141
其中
Figure BDA0003580945080000142
代表当前τ时刻πΘ策略下的熵,
Figure BDA0003580945080000143
代表实现的总回报,α和β为相应系数;
不断朝
Figure BDA0003580945080000144
梯度下降的方向更新Θ,直至收敛。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部 分是对权利要求技术方案进行具体产品上或相关技术上的应用的应用实施例。
本发明的应用实施例提供了一种计算机设备,所述计算机设备包括存储器 和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行 时,使得所述处理器执行所述基于图神经网络的作业车间调度方法。
本发明的应用实施例提供了一种计算机可读存储介质,存储有计算机程序, 所述计算机程序被处理器执行时,使得所述处理器执行所述基于图神经网络的 作业车间调度方法。
本发明的应用实施例提供了一种信息数据处理终端,所述信息数据处理终 端用于执行基于图神经网络的作业车间调度方法。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了 一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程 的数据、图表等进行描述。
实验设计:
一、基于公共数据集(DMU Benchmark)进行算法性能测试
(1)将本方法与分派规则进行效果比对
选取对比的分派规则有:处理时间最短;交付期最早;随机选择等
(1)将本方法与邻域搜索算法进行效果比对
领域搜索算法包括:遗传算法;粒子群算法等
二、基于作业车间历史调度数据情况进行效果分析
实验预期效果:在大规模作业车间调度问题上,运行良好;遇到机器故障, 订单临时取消等动态变化情况时,本方法鲁棒性较好,可顺利求解。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合 来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中, 由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普 通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在 处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸 如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载 体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路 或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、 可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的 处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明 的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的 保护范围之内。

Claims (10)

1.一种基于图神经网络的作业车间调度方法,其特征在于,所述基于图神经网络的作业车间调度方法包括:
可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况;设计奖励函数对调度决策进行评估;对析取图节点特征信息进行嵌入提取;进行调度策略网络学习及图神经网络参数调整。
2.如权利要求1所述基于图神经网络的作业车间调度方法,其特征在于,所述基于图神经网络的作业车间调度方法包括以下步骤:
步骤一,构建作业车间调度的析取图模型,并获取作业车间工件加工数据;基于构建的作业车间调度的析取图模型,建立马尔可夫决策模型;
步骤二,利用图神经网络提取不同节点之间的特征信息,并通过聚合函数组合消息;
步骤三,利用Actor网络进行调度决策,利用Critic网络评价Actor决策效果,利用图神经网络更新节点状态;
步骤四,判断调度结果是否满足预设标准,若满足,则输出调度方案;否则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数,并返回步骤二。
3.如权利要求2所述基于图神经网络的作业车间调度方法,其特征在于,所述构建作业车间调度的析取图模型,并获取作业车间工件加工数据包括:
(1)构建作业车间调度的析取图模型如下:
g=((V,C)∪D);
其中,V表示工序集,所述工序集包含作业车间的工序,所述工序在V中表示为节点;C表示合取边集;所述合取边集包含合取边,每个合取边表示同一工件上两个连续工序之间的优先约束;D表示析取边集,所述析取边集包含析取边,每个析取边表示两个节点之间的机器共享约束,当两个工序可由同一台机器处理时,相应的工序节点与析取边连接;
(2)获取作业车间工件加工数据,利用作业车间工件加工数据表示作业车间动态调度实时状态,同时利用作业车间工件加工数据作为节点V的特征信息;
所述节点V的特征信息包括:节点状态、处理时间、后续工序数、工序开始时间;
所述节点状态包含[1,0,0]、[0,1,0]和[0,0,1];所述[1,0,0]、[0,1,0]和[0,0,1]分别表示工序尚未开始、工序正在处理和工序已完成;
所述处理时间为工序的处理时间;所述后续工序数为同一工件工序V的后续工序数;所述工序开始时间为工序V的开始处理时间。
4.如权利要求2所述基于图神经网络的作业车间调度方法,其特征在于,所述马尔可夫决策模型如下:
马尔科夫元组(G,A,P,R,γ);
其中,G表示作业车间调度状态,A表示调度动作,γ表示折扣因子,为当前动作对未来回报的影响程度,P表示状态转移概率,R表示每次动作获得的回报,以最小化完工时间为调度目标;所以动作回报公式为:R=1/(makespan(g’)-makespan(g));其中,makespan表示工件序列加工时间总和,g表示当前状态,g’表示下一状态。
5.如权利要求2所述基于图神经网络的作业车间调度方法,其特征在于,所述利用图神经网络提取不同节点之间的特征信息,并通过聚合函数组合消息包括:
(1)通过节点嵌入,提取不同节点之间的特征信息:
Figure RE-FDA0003694283050000021
其中,fp(.;θ1)表示前序节点更新函数;fs(.;θ2)表示后序节点更新函数;fd(.;θ3)表示析取节点更新函数,fn(.;θ4)表示目标节点更新函数fn(.;θ4);ReLU(x)=max(0,x),||表示向量串联,
Figure RE-FDA0003694283050000031
Figure RE-FDA0003694283050000032
分别表示前序和后序节点集,
Figure RE-FDA0003694283050000033
表示析取邻居节点,
Figure RE-FDA0003694283050000034
表示第k代节点嵌入;
(2)当相应的工序节点完成或不存在时,将所述节点嵌入设置为零向量,其维数与H相同,不再参与图状态更新;
(3)通过多层感知机训练图神经网络的输入层、隐藏层、输出层的参数。
6.如权利要求2所述基于图神经网络的作业车间调度方法,其特征在于,所述利用Actor网络进行调度决策,利用Critic网络评价Actor决策效果,利用图神经网络更新节点状态包括:
(1)采用softmax函数基于下式生成目标机器选择可操作工序的概率分布:
Figure RE-FDA0003694283050000035
其中,fl(.;θ5)是一个可微函数,将节点嵌入信息映射到每个节点的logit值,
Figure RE-FDA0003694283050000036
表示在τ时刻可供选择的工序集;
(2)采用随机策略选择执行工序;并利用critic基于下式近似析取图状态值;
Figure RE-FDA0003694283050000037
其中,
Figure RE-FDA0003694283050000038
表示图嵌入,fv(.;θ6)为一个可微函数;
(3)随机生成包括加工机器数,加工工件,加工工序及对应加工时间的初始图;对样本数据进行调度,收集状态转换样本。
7.如权利要求2所述基于图神经网络的作业车间调度方法,其特征在于,所述利用近端策略优化算法训练图神经网络、Actor以及Critic的参数包括:
1)采用近端策略优化算法,对图神经网络和Actor-critic中的参数Θ={θ123456}进行更新,当且仅当图节点嵌入信息以及调度动作可提高调度效果时更新参数,目标函数公式如下:
Figure RE-FDA0003694283050000041
其中
Figure RE-FDA0003694283050000042
Θ={θ123456};
Figure RE-FDA0003694283050000043
表示总体优势函数,公式如下:
Figure RE-FDA0003694283050000044
δτ=rτ+γV(gτ+1;Θ)-V(gτ;Θ),T表示训练集的最后一步;
2)在目标函数中加入值函数误差和熵加成项:
Figure RE-FDA0003694283050000045
其中,
Figure RE-FDA0003694283050000046
表示当前τ时刻πΘ策略下的熵,
Figure RE-FDA0003694283050000047
表示实现的总回报,α和β表示相应系数;
3)不断朝
Figure RE-FDA0003694283050000048
梯度下降的方向更新Θ,直至收敛。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任意一项所述基于图神经网络的作业车间调度方法如下步骤:
步骤一,构建作业车间调度的析取图模型,并获取作业车间工件加工数据;基于构建的作业车间调度的析取图模型,建立马尔可夫决策模型;
步骤二,利用图神经网络提取提取不同节点之间的特征信息,并通过聚合函数组合消息;
步骤三,利用Actor网络进行调度决策,利用Critic网络评价Actor决策效果,利用图神经网络更新节点状态;
步骤四,判断调度结果是否满足预设标准,若满足,则输出调度方案;否则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数,并返回步骤二。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-7任意一项所述基于图神经网络的作业车间调度方法如下步骤:
步骤一,构建作业车间调度的析取图模型,并获取作业车间工件加工数据;基于构建的作业车间调度的析取图模型,建立马尔可夫决策模型;
步骤二,利用图神经网络提取不同节点之间的特征信息,并通过聚合函数组合消息;
步骤三,利用Actor网络进行调度决策,利用Critic网络评价Actor决策效果,利用图神经网络更新节点状态;
步骤四,判断调度结果是否满足预设标准,若满足,则输出调度方案;否则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数,并返回步骤二。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于执行如权利要求1-7任意一项所述基于图神经网络的作业车间调度方法。
CN202210346683.0A 2022-04-02 2022-04-02 一种基于图神经网络的作业车间调度方法 Active CN114757512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210346683.0A CN114757512B (zh) 2022-04-02 2022-04-02 一种基于图神经网络的作业车间调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210346683.0A CN114757512B (zh) 2022-04-02 2022-04-02 一种基于图神经网络的作业车间调度方法

Publications (2)

Publication Number Publication Date
CN114757512A true CN114757512A (zh) 2022-07-15
CN114757512B CN114757512B (zh) 2024-06-18

Family

ID=82329624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210346683.0A Active CN114757512B (zh) 2022-04-02 2022-04-02 一种基于图神经网络的作业车间调度方法

Country Status (1)

Country Link
CN (1) CN114757512B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293623A (zh) * 2022-08-17 2022-11-04 海尔数字科技(青岛)有限公司 一种生产调度模型的训练方法、装置、电子设备及介质
CN115903653A (zh) * 2022-11-10 2023-04-04 上海数忆科技有限公司 一种基于扩展析取图模型的车间调度建模的方法及装置
CN116500901A (zh) * 2023-05-29 2023-07-28 同济大学 数字孪生驱动的用户意图不明下人机协作任务规划方法
CN117057569A (zh) * 2023-08-21 2023-11-14 重庆大学 基于神经网络的非置换流水车间调度方法以及装置
CN117555306A (zh) * 2024-01-11 2024-02-13 天津斯巴克斯机电有限公司 一种基于数字孪生的多生产线任务自适应调度方法及系统
CN118521130A (zh) * 2024-07-22 2024-08-20 中国海洋大学 基于深度强化学习与图神经网络的模糊车间调度方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486641A (zh) * 2020-11-18 2021-03-12 鹏城实验室 一种基于图神经网络的任务调度方法
CN113469491A (zh) * 2021-05-14 2021-10-01 南京大学 一种基于强化学习和图神经网络的柔性车间作业调度方法
CN113792924A (zh) * 2021-09-16 2021-12-14 郑州轻工业大学 一种基于Deep Q-network深度强化学习的单件作业车间调度方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486641A (zh) * 2020-11-18 2021-03-12 鹏城实验室 一种基于图神经网络的任务调度方法
CN113469491A (zh) * 2021-05-14 2021-10-01 南京大学 一种基于强化学习和图神经网络的柔性车间作业调度方法
CN113792924A (zh) * 2021-09-16 2021-12-14 郑州轻工业大学 一种基于Deep Q-network深度强化学习的单件作业车间调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王霄汉等: "基于强化学习的车间调度问题研究简述", 《系统仿真学报》, vol. 33, no. 12, 18 December 2021 (2021-12-18), pages 2782 - 2791 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293623A (zh) * 2022-08-17 2022-11-04 海尔数字科技(青岛)有限公司 一种生产调度模型的训练方法、装置、电子设备及介质
CN115903653A (zh) * 2022-11-10 2023-04-04 上海数忆科技有限公司 一种基于扩展析取图模型的车间调度建模的方法及装置
CN116500901A (zh) * 2023-05-29 2023-07-28 同济大学 数字孪生驱动的用户意图不明下人机协作任务规划方法
CN117057569A (zh) * 2023-08-21 2023-11-14 重庆大学 基于神经网络的非置换流水车间调度方法以及装置
CN117555306A (zh) * 2024-01-11 2024-02-13 天津斯巴克斯机电有限公司 一种基于数字孪生的多生产线任务自适应调度方法及系统
CN117555306B (zh) * 2024-01-11 2024-04-05 天津斯巴克斯机电有限公司 一种基于数字孪生的多生产线任务自适应调度方法及系统
CN118521130A (zh) * 2024-07-22 2024-08-20 中国海洋大学 基于深度强化学习与图神经网络的模糊车间调度方法和系统

Also Published As

Publication number Publication date
CN114757512B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN114757512A (zh) 一种基于图神经网络的作业车间调度方法
Wang et al. A digital twin-based big data virtual and real fusion learning reference framework supported by industrial internet towards smart manufacturing
Lugaresi et al. Automated manufacturing system discovery and digital twin generation
Pfrommer et al. PPRS: Production skills and their relation to product, process, and resource
Ng et al. Factory flow design and analysis using internet-enabled simulation-based optimization and automatic model generation
Bodendorf et al. A machine learning approach to estimate product costs in the early product design phase: a use case from the automotive industry
Lechevalier et al. A neural network meta-model and its application for manufacturing
Zhu et al. An adaptive real-time scheduling method for flexible job shop scheduling problem with combined processing constraint
Shiue et al. A reinforcement learning approach to dynamic scheduling in a product-mix flexibility environment
CN111722539A (zh) 一种基于时间自动机的数字孪生制造单元行为建模方法
Huang et al. A novel priority dispatch rule generation method based on graph neural network and reinforcement learning for distributed job-shop scheduling
CN116339145A (zh) 机台参数调控方法、设备及存储介质
Müller et al. Enhancing an intelligent digital twin with a self-organized reconfiguration management based on adaptive process models
Bakaev et al. Application of evolutionary algorithms in interaction design: From requirements and ontology to optimized web interface
Yuan et al. A multi-agent double deep-Q-network based on state machine and event stream for flexible job shop scheduling problem
Sugisawa et al. Machining sequence learning via inverse reinforcement learning
CN113592064A (zh) 环抛机工艺参数预测方法、系统、应用、终端及介质
CN111414680B (zh) 知识约束下变型产品设计任务动态生成方法及系统
Schuh et al. Databased prediction and planning of order-specific transition times
Philip et al. A stochastic reward net approach for reliability analysis of a flexible manufacturing module
Kuftinova et al. Road construction enterprise management model based on hyperautomation technologies
CN113805541B (zh) 一种零件装配体的装配方法及系统
Turgay et al. Digital Twin Based Flexible Manufacturing System Modelling with Fuzzy Approach
Kluska-Nawarecka et al. Practical aspects of knowledge integration using attribute tables generated from relational databases
Wang et al. Discrete-time mean field games in multi-agent systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant