CN113344317A - 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法 - Google Patents

一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法 Download PDF

Info

Publication number
CN113344317A
CN113344317A CN202110383688.6A CN202110383688A CN113344317A CN 113344317 A CN113344317 A CN 113344317A CN 202110383688 A CN202110383688 A CN 202110383688A CN 113344317 A CN113344317 A CN 113344317A
Authority
CN
China
Prior art keywords
supply chain
order
neural network
processing time
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110383688.6A
Other languages
English (en)
Inventor
吕赐兴
鲁巍
胡耀华
周梓荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202110383688.6A priority Critical patent/CN113344317A/zh
Publication of CN113344317A publication Critical patent/CN113344317A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,包括以下步骤:S1:定义紧密协作型供应链任务的调度优化目标、约束条件、供应商的忙闲状态指示函数、奖励函数、状态特征和动作特征;S2:构建双深度时序差分神经网络;S3:利用步骤S1定义的状态特征、动作特征、调度的优化目标及约束条件训练所述双深度时序差分神经网络,得到训练好的双深度时序差分神经网络;S4:利用训练好的双深度时序差分神经网络进行供应链任务调度问题处理。本发明提出了基于改进双深度时序差分神经网络,在仅给定的待完成供应链子订单处理时间的情况下,优化紧密协作型供应链任务调度过程,并最终得到最优动作策略组。

Description

一种基于双深度时序差分神经网络的紧密协作型供应链任务 调度方法
技术领域
本发明涉及供应链调度领域,更具体地,涉及一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法。
背景技术
供应链调度,其目的是能够找到一条优化的方案与策略,从而使整条供应链利益最优化,无论是对于供应商还是生产商,供应链调度都是至关重要的。与传统供应链系统相比,开放式供应链系统在任务、服务、资源、优化目标、不确定性等方面都存在较大差异。从制造任务的角度,开放式供应链系统中的任务具有个性化、大规模以及供应商协作更加紧密的特点;从制造服务的角度,开放式供应链是一种面向服务的制造模式,开放式供应链调度问题不再是简单的任务与资源的匹配,而要考虑制造服务的柔性、关联性、可组合性以及任务与服务的映射关系。开放式供应链系统中的动态性、不确定性更加凸显,干扰事件更加普遍,导致解决开放式供应链环境下的调度问题更加困难。就目前而言,我国制造业在生产能力利用效率方面仍然处于比较低的水平,这主要是因为传统制造业的调度模式已无法适应开放式供应链任务的快速变化,制造企业所使用的供应链任务调度系统,同生产实际情况相差甚远,在复杂的动态开放式场合很难应用,通常需要人工对调度方案进行适应性调整。但是人工调整的优劣取决于调度员的经验和知识水平,而且往往需要耗费大量的时间和劳动力,调度方案的稳定性及供应链任务调度效率难以保证。
因此,要对紧密协作型供应链任务调度模式进行深入研究,将传统的供应链任务调度模式向智能化和高效化的方向发展。目前,使用运筹学、强化学习等优化方法的车间调度系统在生产中有所应用,例如采用神经网络拟合车间调度方案近优解,将Q学习等强化学习方法用于车间调度任务的组合分配规则选取等,这些方法一定程度上缓解了车间调度任务对人工调整的依赖,但是尚未见这些方法应用于供应链任务的调度中。
基于运筹学的优化方法求解效率低,尤其是在大规模问题的应用中,而且运筹学在应用过程中往往对调度问题进行了简化,得到的求解方案难以直接运用于实际生产调度中。以Q学习为代表的强化学习方法采用的是表格型强化学习模型,其在解决调度问题上具有一定的优势。但实际的紧密协作型供应链任务调度过程十分复杂,具有很多扰动,单一的Q学习方法并不能描述实际复杂加工过程。
作为深度神经网络与Q学习算法相结合的DQN算法,解决了传统Q学习算法中的维数灾难问题,但是DQN算法又会存在过估计问题,在实际应用过程中,过估计问题会导致系统输出的Q值不断增大,从而导致模型所获得的奖励值并非最优,直接影响了最优动作策略组的选择。
公日为2020年07月10日,公开号为CN111401616A的中国专利公开了一种供应链环境下预制混凝土构件的双层调度方法,采集生产数据并建立调度问题对应的数学规划模型;将所有的订单进行实数编码随机产生Size个初始解;从初始种群的解中选出目标函数值最大的解作为初始解;对初始解进行订单子集选择;局部搜索初始解,更新局部最优解;满足终止条件后,对当前最优解进行判断和检查检查并更新当前最优解及其对应的目标值;计算得到最优解的总完工时间,重新安排所有已接受的订单,在不影响TNRI值的情况下,对TCT值进行最小化得到最优解;对最优解进行解码,获得调度方案。但是上述方法不能用于紧密协作型供应链任务调度。
发明内容
本发明提供一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,优化紧密协作型供应链任务调度过程,并最终得到最优动作策略组。
为解决上述技术问题,本发明的技术方案如下:
一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,包括以下步骤:
S1:定义紧密协作型供应链任务的调度优化目标、约束条件、供应商的忙闲状态指示函数、奖励函数、状态特征和动作特征;
S2:构建双深度时序差分神经网络;
S3:利用步骤S1定义的状态特征、动作特征、调度的优化目标及约束条件训练所述双深度时序差分神经网络,得到训练好的双深度时序差分神经网络;
S4:利用训练好的双深度时序差分神经网络进行供应链任务调度问题处理。
优选地,步骤S1中所述调度优化目标为:
将待完成供应链订单j(j=1,2,…,n),合理分配于m个供应商组成的加工序列中,尽量减少每个供应商的等待时间,以期达到最小化总供应链订单完成时间;
所述约束条件为:
每个供应链订单的整体加工流程固定,但每个供应商的订单队列的加工顺序可以改变;
每个供应商在每个时刻只能加工一个供应链子订单且不允许中断;
每个供应链订单j都有对应于供应商i(i=1,2,…,m)的供应链子订单加工时间,准备时间包含在加工时间内或忽略不计;
供应商的忙闲状态指示函数σi(t)为:
Figure BDA0003013987090000031
奖励函数定义为:
Figure BDA0003013987090000032
式中,r表示系统在决策时刻tk-1执行行为后转移到tk时刻状态获得的奖励。显然,r等于时间间隔[tk-1,tk]机器总空闲时间的相反数。
优选地,步骤S1中所述状态特征定义如下:
fi,1=|Qi|/n,1≤i≤m,为队列Qi中作业个数与总订单个数之比;
Figure BDA0003013987090000033
1≤i≤m且
Figure BDA0003013987090000034
为队列Qi中所用供应链订单的平均加工时间与pi之比,其中
Figure BDA0003013987090000035
Figure BDA0003013987090000036
1≤i≤m且
Figure BDA0003013987090000037
为队列Qk中所有供应链订单在供应商Mi的加工时间的最小值与pi之比,1≤k≤i;
Figure BDA0003013987090000038
1≤i≤m且
Figure BDA0003013987090000039
为队列Qi中所有供应链订单在供应商Mi的加工时间的最大值与pi之比;
Figure BDA0003013987090000041
1≤i≤m且
Figure BDA0003013987090000042
为队列Qi中所有供应链订单在供应商Mi的加工时间的最小值与pi之比;
Figure BDA0003013987090000043
1≤i≤m,为供应商Mi的在制品WIP剩余加工时间与pi之比,pti,WIP表示WIP在供应商Mi上已加工时间;
Figure BDA0003013987090000044
1≤i≤m且
Figure BDA0003013987090000045
为队列Qi中所有供应链订单剩余加工时间的最大值的归一化表示;
Figure BDA0003013987090000046
1≤i≤m且
Figure BDA0003013987090000047
为队列Qi中所有供应链订单剩余加工时间的最小值的归一化表示;
Figure BDA0003013987090000048
1≤i≤m-1且
Figure BDA0003013987090000049
为队列Qi中所有供应链订单在供应商Mi的与在下一个供应商的加工时间比值最大值的归一化表示;
Figure BDA00030139870900000410
1≤i≤m-1且
Figure BDA00030139870900000411
为队列Qi中所有供应链订单在供应商Mi的与在下一个供应商的加工时间比值最小值的归一化表示。
优选地,步骤S1所述动作特征:
SPT,为选择供应链子订单加工时间最短的供应链订单;
LPT,为选择供应链子订单加工时间最长的供应链订单;
LWKR,为选择剩余加工时间最短的供应链订单;
MWKR,为选择剩余加工时间最长的供应链订单;
SPT/TWK,为选择供应链子订单加工时间与总加工时间比值最小的供应链订单;
LPT/TWK,为选择供应链子订单加工时间与总加工时间比值最大的供应链订单;
SPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最小的供应链订单;
LPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最大的供应链订单;
SPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最小的供应链订单;
LPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最大的供应链订单;
SPT*TWK,为选择供应链子订单加工时间与总加工时间乘积最小的供应链订单;
LPT*TWK,为选择供应链子订单加工时间与总加工时间乘积最大的供应链订单;
SPT*TWKR,为选择供应链子订单加工时间与剩余加工时间乘积最小的供应链订单;
LPT*TWKR,为选择供应链子订单加工时间与剩余加工时间乘积最大的供应链订单;
SRM,为选择除当前考虑供应链子订单外剩余加工时间最短的供应链订单;
LRM,为选择除当前考虑供应链子订单外剩余加工时间最长的供应链订单;
SSO,为选择后继供应链子订单加工时间最短的供应链订单;
LSO,为选择后继供应链子订单加工时间最长的供应链订单;
FCFS,为在队列中仅有一个供应链订单时,采取先到先加工规则,供应链任务的最优调度仅少数供应链子订单顺序的颠倒,因此FCFS是一种常用规则。
优选地,步骤S2中所述双深度时序差分神经网络具体为:
所述双深度时序差分神经网络分为当前神经网络与目标神经网络,将当前状态值输入至当前神经网络中先找出最大价值函数值对应的动作amax,再利用这个选择出来的动作amax在目标网络里面计算目标价值函数值;
每L步触发一次学习标志位,L为人为设定值,进行学习并更新当前神经网络参数,并在每个完整供应链订单结束时更新目标神经网络参数,当前神经网络与目标神经网络拥有相同的网络结构,包括输入层、5层隐藏层和输出层,其loss 计算方式为方差计算,优化器选用RMSPropOptimizer,双深度时序差分神经网络所求的是与下一状态St+1的价值函数V(st+1)相关的一种迭代形式的收获函数,即进行强化学习时只需要获取当前状态的价值函数V(st)以及下一个状态的价值函数V(st+1)即可,无需获取一个完整的周期。
优选地,步骤S3中训练所述双深度时序差分神经网络具体为:
S3.1:初始化记忆体内存,输入数据集;
S3.2:设定episode=0;
S3.3:初始化双深度时序差分神经网络参数;
S3.4:模拟供应链任务调度开始tn状态工作,计算得到该状态系统状态值
Figure BDA0003013987090000061
S3.5:根据ε-贪婪策略通过当前神经网络选择动作a,执行动作将状态切换为tn+1并计算状态见奖励值R;
S3.6:依据动作a,通过目标神经网络计算出tn+1时刻状态值
Figure BDA0003013987090000062
S3.7:将单步样本(
Figure BDA0003013987090000063
a,R,
Figure BDA0003013987090000064
)存入记忆体中;
S3.8:判断是否触发学习标志位,若是,进入步骤S3.9,若不是,进入步骤 S3.10;
S3.9:从记忆体中取出batch_size组样本数据输入至双深度时序差分神经网络,学习并更新当前网络参数;
S3.10:判断是否达到终止状态,若是,进入步骤S3.11,若不是,令n=n+1 后返回步骤S3.4;
S3.11:每个供应链订单结束进行状态转移,替换目标神经网络参数;
S3.12:判断episode是否等于设定的Max_episode,若是,进入步骤S3.13,若不是,返回步骤S3.3;
S3.13:输出最优生产周期对应策略组合,并记录当前神经网络参数。
优选地,步骤S3.1中所述数据集包括供应商个数m、待完成供应链订单数量n及待完成供应链子订单处理时间数据,采集企业历史供应数据,面向产品制造的供应需求定义供应链任务:将供应链任务分解为多个供应链订单,每个供应链订单下包含多个子订单,每个子订单由一个供应商完成,从而完成数据集的构建。
优选地,所述数据集采用参照企业历史供应数据随机生成的方法构建仿真数据集,具体为:
首先以均匀分布的方式随机生成多个供应链订单,并在每个供应链订单下再以均匀分布的方式随机生成多个子订单,之后参照企业历史供应数据,以拟合历史待完成供应链子订单处理时间曲线的方式随机生成对应的子订单处理时间数据集。
优选地,步骤S3中训练双深度时序差分神经网络时,参数更新过程使用 RMSProp优化器和squared_difference loss损失函数,初始学习率为0.001,迭代 1000回合,每隔100回合,学习率变为原来的0.1倍,得到已训练的检测模型。
优选地,步骤S4中利用训练好的双深度时序差分神经网络进行供应链任务调度问题处理,具体为:
针对新的、需要调度的供应链任务,首先进行供应链任务的数据标准化处理,即将新到的供应链任务的供应商个数m、待完成供应链订单数量n及待完成供应链子订单处理时间提取出来,完成标准化供应链调度任务数据的构建,并将构建好的标准化数据输入到已训练好的双深度时序差分神经网络中,利用已训练的双深度时序差分神经网络进行动作选择,得出最优动作策略组;并按照最优动作策略,确定每个供应链订单/子订单的完成时间,从而得到整个供应链任务的总供应商等待时间。
与现有技术相比,本发明技术方案的有益效果是:
本发明针对紧密协作型供应链任务调度问题,提出了基于改进的双深度时序差分神经网络(DDTDN),实现对状态特征和动作特征的半马尔科夫决策过程建模,在仅给定的待完成供应链子订单处理时间的情况下,优化紧密协作型供应链任务调度过程,在只给出待完成供应链子订单处理时间的情况下,利用给定的待完成供应链子订单处理时间,优化供应链任务调度过程,并最终得到最优动作策略组。
附图说明
图1为本发明的方法流程示意图。
图2为实施例中双深度时序差分神经网络模型示意图。
图3为实施例中训练所述双深度时序差分神经网络的流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,如图1,包括以下步骤:
S1:定义紧密协作型供应链任务的调度优化目标、约束条件、供应商的忙闲状态指示函数、奖励函数、状态特征和动作特征;
S2:构建双深度时序差分神经网络;
S3:利用步骤S1定义的状态特征、动作特征、调度的优化目标及约束条件训练所述双深度时序差分神经网络,得到训练好的双深度时序差分神经网络;
S4:利用训练好的双深度时序差分神经网络进行供应链任务调度问题处理。
步骤S1中所述调度优化目标为:
将待完成供应链订单j(j=1,2,…,n),合理分配于m个供应商组成的加工序列中,尽量减少每个供应商的等待时间,以期达到最小化总供应链订单完成时间;
所述约束条件为:
每个供应链订单的整体加工流程固定,但每个供应商的订单队列的加工顺序可以改变;
每个供应商在每个时刻只能加工一个供应链子订单且不允许中断;
每个供应链订单j都有对应于供应商i(i=1,2,…,m)的供应链子订单加工时间,准备时间包含在加工时间内或忽略不计;
注意到生产周期与供应商忙闲程度紧密相关,供应商的忙闲状态指示函数σi(t)为:
Figure BDA0003013987090000081
奖励函数定义为:
Figure BDA0003013987090000082
式中,r表示系统在决策时刻tk-1执行行为后转移到tk时刻状态获得的奖励。显然,r等于时间间隔[tk-1,tk]机器总空闲时间的相反数。
步骤S1中所述状态特征定义如下:
fi,1=|Qi|/n,1≤i≤m,为队列Qi中作业个数与总订单个数之比;
Figure BDA0003013987090000091
1≤i≤m且
Figure BDA0003013987090000092
为队列Qi中所用供应链订单的平均加工时间与pi之比,其中
Figure BDA0003013987090000093
Figure BDA0003013987090000094
1≤i≤m且
Figure BDA0003013987090000095
为队列Qk中所有供应链订单在供应商Mi的加工时间的最小值与pi之比,1≤k≤i;
Figure BDA0003013987090000096
1≤i≤m且
Figure BDA0003013987090000097
为队列Qi中所有供应链订单在供应商Mi的加工时间的最大值与pi之比;
Figure BDA0003013987090000098
1≤i≤m且
Figure BDA0003013987090000099
为队列Qi中所有供应链订单在供应商Mi的加工时间的最小值与pi之比;
Figure BDA00030139870900000910
1≤i≤m,为供应商Mi的在制品WIP剩余加工时间与pi之比,pti,WIP表示WIP在供应商Mi上已加工时间;
Figure BDA00030139870900000911
1≤i≤m且
Figure BDA00030139870900000912
为队列Qi中所有供应链订单剩余加工时间的最大值的归一化表示;
Figure BDA00030139870900000913
1≤i≤m且
Figure BDA00030139870900000914
为队列Qi中所有供应链订单剩余加工时间的最小值的归一化表示;
Figure BDA00030139870900000915
1≤i≤m-1且
Figure BDA00030139870900000916
为队列Qi中所有供应链订单在供应商Mi的与在下一个供应商的加工时间比值最大值的归一化表示;
Figure BDA0003013987090000101
1≤i≤m-1且
Figure BDA0003013987090000102
为队列Qi中所有供应链订单在供应商Mi的与在下一个供应商的加工时间比值最小值的归一化表示。
将紧密协作型供应链任务的10种状态特征公式化表示,形成每个供应商繁忙程度的判断依据。采用多种特征可以让机器学习效率更优而具有优势。其中,状态特征fi,1描述了不同供应商的供应链订单数量的分布;状态特征fi,2描述了当前分配在各供应商上的工作负荷;状态特征fi,3描述了各供应商从当前状态开始须要完成的总工作负荷;状态特征fi,4,fi,5描述了当前在各个等待队列中供应链订单的最长或最短加工时间;状态特征fi,6表示正在加工作业的剩余加工时间,进而表征供应商的忙/闲状态;状态特征fi,7,fi,8表示供应商等待完成供应链子订单的最长或最短剩余加工时间;状态特征fi,9,fi,10描述工件在某供应商处的加工时间与其在下一个供应商处的加工时间的比值情况。
步骤S1所述动作特征:
SPT,为选择供应链子订单加工时间最短的供应链订单;
LPT,为选择供应链子订单加工时间最长的供应链订单;
LWKR,为选择剩余加工时间最短的供应链订单;
MWKR,为选择剩余加工时间最长的供应链订单;
SPT/TWK,为选择供应链子订单加工时间与总加工时间比值最小的供应链订单;
LPT/TWK,为选择供应链子订单加工时间与总加工时间比值最大的供应链订单;
SPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最小的供应链订单;
LPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最大的供应链订单;
SPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最小的供应链订单;
LPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最大的供应链订单;
SPT*TWK,为选择供应链子订单加工时间与总加工时间乘积最小的供应链订单;
LPT*TWK,为选择供应链子订单加工时间与总加工时间乘积最大的供应链订单;
SPT*TWKR,为选择供应链子订单加工时间与剩余加工时间乘积最小的供应链订单;
LPT*TWKR,为选择供应链子订单加工时间与剩余加工时间乘积最大的供应链订单;
SRM,为选择除当前考虑供应链子订单外剩余加工时间最短的供应链订单;
LRM,为选择除当前考虑供应链子订单外剩余加工时间最长的供应链订单;
SSO,为选择后继供应链子订单加工时间最短的供应链订单;
LSO,为选择后继供应链子订单加工时间最长的供应链订单;
FCFS,为在队列中仅有一个供应链订单时,采取先到先加工规则,供应链任务的最优调度仅少数供应链子订单顺序的颠倒,因此FCFS是一种常用规则。
构建19个候选行为作为紧密协作型供应链任务的动作特征,后续DDTDN 工作时即依据每个供应商的状态值输入,选择适合当前供应链子订单的行为,以 对供应链订单进行加工
步骤S2中所述双深度时序差分神经网络如图2,它是基于深度强化学习与 TD算法的神经网络模型,具体为:
所述双深度时序差分神经网络分为当前神经网络与目标神经网络,将当前状态值输入至当前神经网络中先找出最大价值函数值对应的动作amax,再利用这个选择出来的动作amax在目标网络里面计算目标价值函数值,这样便很好的解决了 DQN算法所带来的过估计问题;
每L步触发一次学习标志位,L为人为设定值,进行学习并更新当前神经网络参数,并在每个完整供应链订单结束时更新目标神经网络参数,当前神经网络与目标神经网络拥有相同的网络结构,包括输入层、5层隐藏层和输出层,具体参数见表1,其loss计算方式为方差计算,优化器选用RMSPropOptimizer,双深度时序差分神经网络所求的是与下一状态St+1的价值函数V(st+1)相关的一种迭代形式的收获函数,即进行强化学习时只需要获取当前状态的价值函数V(st)以及下一个状态的价值函数V(st+1)即可,无需获取一个完整的周期。以紧密协作型供应链任务调度为例,以单个供应商加工完成作为触发状态发生转移的标志位,那么只需获取三个触发标志位之间的两个状态的状态值即可进行一次针对紧密协作型供应链任务调度的强化学习。
表1
层数 类型 输入维数 输出维数 激活函数
1 输入层 (None,状态维数) (None,200) ReLU
2 隐藏层1 (None,200) (None,300) ReLU
3 隐藏层2 (None,300) (None,400) ReLU
4 隐藏层3 (None,400) (None,300) ReLU
5 隐藏层4 (None,300) (None,200) ReLU
6 隐藏层5 (None,200) (None,100) ReLU
7 输出层 (None,100) (None,1) ReLU
步骤S3中训练所述双深度时序差分神经网络如图3,具体为:
S3.1:初始化记忆体内存,输入数据集;
S3.2:设定episode=0;
S3.3:初始化双深度时序差分神经网络参数;
S3.4:模拟供应链任务调度开始tn状态工作,计算得到该状态系统状态值
Figure BDA0003013987090000121
S3.5:根据ε-贪婪策略通过当前神经网络选择动作a,执行动作将状态切换为tn+1并计算状态见奖励值R;
S3.6:依据动作a,通过目标神经网络计算出tn+1时刻状态值
Figure BDA0003013987090000122
S3.7:将单步样本(
Figure BDA0003013987090000123
a,R,
Figure BDA0003013987090000124
)存入记忆体中;
S3.8:判断是否触发学习标志位,若是,进入步骤S3.9,若不是,进入步骤 S3.10;
S3.9:从记忆体中取出batch_size组样本数据输入至双深度时序差分神经网络,学习并更新当前网络参数;
S3.10:判断是否达到终止状态,若是,进入步骤S3.11,若不是,令n=n+1 后返回步骤S3.4;
S3.11:每个供应链订单结束进行状态转移,替换目标神经网络参数;
S3.12:判断episode是否等于设定的Max_episode,若是,进入步骤S3.13,若不是,返回步骤S3.3;
S3.13:输出最优生产周期对应策略组合,并记录当前神经网络参数。
主要包含两层循环,内层循环模拟供应链子订单加工过程,将所得单步样本存入记忆体中,并在学习标志位触发时更新当前神经网络参数;外层循环用来重复执行内层循环,并在每个episode结束时更新进行状态转移,替换目标神经网络参数,并在episode达到设定值Max_Episode时输出最优生产周期对应策略组合,并记录其当前神经网络参数。
步骤S3.1中所述数据集包括供应商个数m、待完成供应链订单数量n及待完成供应链子订单处理时间数据,采集企业历史供应数据,面向产品制造的供应需求定义供应链任务:将供应链任务分解为多个供应链订单,每个供应链订单下包含多个子订单,每个子订单由一个供应商完成,从而完成数据集的构建。
所述数据集采用参照企业历史供应数据随机生成的方法构建仿真数据集,具体为:
首先以均匀分布的方式随机生成多个供应链订单,并在每个供应链订单下再以均匀分布的方式随机生成多个子订单,之后参照企业历史供应数据,以拟合历史待完成供应链子订单处理时间曲线的方式随机生成对应的子订单处理时间数据集。
步骤S3中训练双深度时序差分神经网络时,参数更新过程使用RMSProp 优化器和squared_difference loss损失函数,初始学习率为0.001,迭代1000回合,每隔100回合,学习率变为原来的0.1倍,得到已训练的检测模型。根据验证集的生产流程总供应商等待时间长短选取最合适的模型作为紧密协作型供应链任务调度模型。
步骤S4中利用训练好的双深度时序差分神经网络进行供应链任务调度问题处理,具体为:
针对新的、需要调度的供应链任务,首先进行供应链任务的数据标准化处理,即将新到的供应链任务的供应商个数m、待完成供应链订单数量n及待完成供应链子订单处理时间提取出来,完成标准化供应链调度任务数据的构建,并将构建好的标准化数据输入到已训练好的双深度时序差分神经网络中,利用已训练的双深度时序差分神经网络进行动作选择,得出最优动作策略组;并按照最优动作策略,确定每个供应链订单/子订单的完成时间,从而得到整个供应链任务的总供应商等待时间。
采用双深度时序差分神经网络(DDTDN)算法可以很好的解决DQN算法所带来的过估计问题。在实验中,DQN算法的网络模型输出的估计值比真实函数值大,而且对于不同的状态,过估计幅度还会有所不同,这就直接导致了最优动作策略选择发生改变。在DDTDN中,不再是直接从目标神经网络里面找各个动作中最大特征值,而是先在当前神经网络中先找出最大特征值对应的动作,然后利用这个选择出来的动作在目标神经网络中去计算目标的特征值,这样便很好的解决了DQN算法所带来的过估计问题,提升训练效果与模型的稳定性。
同时,采用带有记忆体的神经网络结构,可以在仅给出待完成供应链子订单处理时间的情况下,预先多次模拟供应链任务加工流程,并将所得单步结果存入记忆体中,当记忆体内存达到一定数量,再一次性取出batch_size组数据用于进行网络训练,提高神经网络学习效率。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,包括以下步骤:
S1:定义紧密协作型供应链任务的调度优化目标、约束条件、供应商的忙闲状态指示函数、奖励函数、状态特征和动作特征;
S2:构建双深度时序差分神经网络;
S3:利用步骤S1定义的状态特征、动作特征、调度的优化目标及约束条件训练所述双深度时序差分神经网络,得到训练好的双深度时序差分神经网络;
S4:利用训练好的双深度时序差分神经网络进行供应链任务调度问题处理。
2.根据权利要求1所述的基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,步骤S1中所述调度优化目标为:
将待完成供应链订单j(j=1,2,…,n),合理分配于m个供应商组成的加工序列中,尽量减少每个供应商的等待时间,以期达到最小化总供应链订单完成时间;
所述约束条件为:
每个供应链订单的整体加工流程固定,但每个供应商的订单队列的加工顺序可以改变;
每个供应商在每个时刻只能加工一个供应链子订单且不允许中断;
每个供应链订单j都有对应于供应商i(i=1,2,…,m)的供应链子订单加工时间,准备时间包含在加工时间内或忽略不计;
供应商的忙闲状态指示函数σi(t)为:
Figure FDA0003013987080000011
奖励函数定义为:
Figure FDA0003013987080000012
式中,r表示系统在决策时刻tk-1执行行为后转移到tk时刻状态获得的奖励。显然,r等于时间间隔[tk-1,tk]机器总空闲时间的相反数。
3.根据权利要求2所述的基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,步骤S1中所述状态特征定义如下:
fi,1=|Qi|/n,1≤i≤m,为队列Qi中作业个数与总订单个数之比;
Figure FDA0003013987080000021
1≤i≤m且
Figure FDA0003013987080000022
为队列Qi中所用供应链订单的平均加工时间与pi之比,其中
Figure FDA0003013987080000023
Figure FDA0003013987080000024
1≤i≤m且
Figure FDA0003013987080000025
为队列Qk中所有供应链订单在供应商Mi的加工时间的最小值与pi之比,1≤k≤i;
Figure FDA0003013987080000026
1≤i≤m且
Figure FDA0003013987080000027
为队列Qi中所有供应链订单在供应商Mi的加工时间的最大值与pi之比;
Figure FDA0003013987080000028
1≤i≤m且
Figure FDA0003013987080000029
为队列Qi中所有供应链订单在供应商Mi的加工时间的最小值与pi之比;
Figure FDA00030139870800000210
1≤i≤m,为供应商Mi的在制品WIP剩余加工时间与pi之比,pti,WIP表示WIP在供应商Mi上已加工时间;
Figure FDA00030139870800000211
1≤i≤m且
Figure FDA00030139870800000212
为队列Qi中所有供应链订单剩余加工时间的最大值的归一化表示;
Figure FDA00030139870800000213
1≤i≤m且
Figure FDA00030139870800000214
为队列Qi中所有供应链订单剩余加工时间的最小值的归一化表示;
Figure FDA00030139870800000215
1≤i≤m-1且
Figure FDA00030139870800000216
为队列Qi中所有供应链订单在供应商Mi的与在下一个供应商的加工时间比值最大值的归一化表示;
Figure FDA0003013987080000031
1≤i≤m-1且
Figure FDA0003013987080000032
为队列Qi中所有供应链订单在供应商Mi的与在下一个供应商的加工时间比值最小值的归一化表示。
4.根据权利要求3所述的基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,步骤S1所述动作特征:
SPT,为选择供应链子订单加工时间最短的供应链订单;
LPT,为选择供应链子订单加工时间最长的供应链订单;
LWKR,为选择剩余加工时间最短的供应链订单;
MWKR,为选择剩余加工时间最长的供应链订单;
SPT/TWK,为选择供应链子订单加工时间与总加工时间比值最小的供应链订单;
LPT/TWK,为选择供应链子订单加工时间与总加工时间比值最大的供应链订单;
SPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最小的供应链订单;
LPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最大的供应链订单;
SPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最小的供应链订单;
LPT/TWKR,为选择供应链子订单加工时间与剩余加工时间比值最大的供应链订单;
SPT*TWK,为选择供应链子订单加工时间与总加工时间乘积最小的供应链订单;
LPT*TWK,为选择供应链子订单加工时间与总加工时间乘积最大的供应链订单;
SPT*TWKR,为选择供应链子订单加工时间与剩余加工时间乘积最小的供应链订单;
LPT*TWKR,为选择供应链子订单加工时间与剩余加工时间乘积最大的供应链订单;
SRM,为选择除当前考虑供应链子订单外剩余加工时间最短的供应链订单;
LRM,为选择除当前考虑供应链子订单外剩余加工时间最长的供应链订单;
SSO,为选择后继供应链子订单加工时间最短的供应链订单;
LSO,为选择后继供应链子订单加工时间最长的供应链订单;
FCFS,为在队列中仅有一个供应链订单时,采取先到先加工规则,供应链任务的最优调度仅少数供应链子订单顺序的颠倒,因此FCFS是一种常用规则。
5.根据权利要求4所述的基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,步骤S2中所述双深度时序差分神经网络具体为:
所述双深度时序差分神经网络分为当前神经网络与目标神经网络,将当前状态值输入至当前神经网络中先找出最大价值函数值对应的动作amax,再利用这个选择出来的动作amax在目标网络里面计算目标价值函数值;
每L步触发一次学习标志位,L为人为设定值,进行学习并更新当前神经网络参数,并在每个完整供应链订单结束时更新目标神经网络参数,当前神经网络与目标神经网络拥有相同的网络结构,包括输入层、5层隐藏层和输出层,其loss计算方式为方差计算,优化器选用RMSPropOptimizer,双深度时序差分神经网络所求的是与下一状态St+1的价值函数V(st+1)相关的一种迭代形式的收获函数,即进行强化学习时只需要获取当前状态的价值函数V(st)以及下一个状态的价值函数V(st+1)即可,无需获取一个完整的周期。
6.根据权利要求5所述的基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,步骤S3中训练所述双深度时序差分神经网络具体为:
S3.1:初始化记忆体内存,输入数据集;
S3.2:设定episode=0;
S3.3:初始化双深度时序差分神经网络参数;
S3.4:模拟供应链任务调度开始tn状态工作,计算得到该状态系统状态值Stn
S3.5:根据ε-贪婪策略通过当前神经网络选择动作a,执行动作将状态切换为tn+1并计算状态见奖励值R;
S3.6:依据动作a,通过目标神经网络计算出tn+1时刻状态值
Figure FDA0003013987080000041
S3.7:将单步样本
Figure FDA0003013987080000042
存入记忆体中;
S3.8:判断是否触发学习标志位,若是,进入步骤S3.9,若不是,进入步骤S3.10;
S3.9:从记忆体中取出batch_size组样本数据输入至双深度时序差分神经网络,学习并更新当前网络参数;
S3.10:判断是否达到终止状态,若是,进入步骤S3.11,若不是,令n=n+1后返回步骤S3.4;
S3.11:每个供应链订单结束进行状态转移,替换目标神经网络参数;
S3.12:判断episode是否等于设定的Max_episode,若是,进入步骤S3.13,若不是,返回步骤S3.3;
S3.13:输出最优生产周期对应策略组合,并记录当前神经网络参数。
7.根据权利要求6所述的基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,步骤S3.1中所述数据集包括供应商个数m、待完成供应链订单数量n及待完成供应链子订单处理时间数据,采集企业历史供应数据,面向产品制造的供应需求定义供应链任务:将供应链任务分解为多个供应链订单,每个供应链订单下包含多个子订单,每个子订单由一个供应商完成,从而完成数据集的构建。
8.根据权利要求7所述的基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,所述数据集采用参照企业历史供应数据随机生成的方法构建仿真数据集,具体为:
首先以均匀分布的方式随机生成多个供应链订单,并在每个供应链订单下再以均匀分布的方式随机生成多个子订单,之后参照企业历史供应数据,以拟合历史待完成供应链子订单处理时间曲线的方式随机生成对应的子订单处理时间数据集。
9.根据权利要求8所述的基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,步骤S3中训练双深度时序差分神经网络时,参数更新过程使用RMSProp优化器和squared_difference loss损失函数,初始学习率为0.001,迭代1000回合,每隔100回合,学习率变为原来的0.1倍,得到已训练的检测模型。
10.根据权利要求9所述的基于双深度时序差分神经网络的紧密协作型供应链任务调度方法,其特征在于,步骤S4中利用训练好的双深度时序差分神经网络进行供应链任务调度问题处理,具体为:
针对新的、需要调度的供应链任务,首先进行供应链任务的数据标准化处理,即将新到的供应链任务的供应商个数m、待完成供应链订单数量n及待完成供应链子订单处理时间提取出来,完成标准化供应链调度任务数据的构建,并将构建好的标准化数据输入到已训练好的双深度时序差分神经网络中,利用已训练的双深度时序差分神经网络进行动作选择,得出最优动作策略组;并按照最优动作策略,确定每个供应链订单/子订单的完成时间,从而得到整个供应链任务的总供应商等待时间。
CN202110383688.6A 2021-04-09 2021-04-09 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法 Pending CN113344317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110383688.6A CN113344317A (zh) 2021-04-09 2021-04-09 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110383688.6A CN113344317A (zh) 2021-04-09 2021-04-09 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法

Publications (1)

Publication Number Publication Date
CN113344317A true CN113344317A (zh) 2021-09-03

Family

ID=77467978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110383688.6A Pending CN113344317A (zh) 2021-04-09 2021-04-09 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法

Country Status (1)

Country Link
CN (1) CN113344317A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649164A (zh) * 2024-01-30 2024-03-05 四川宽窄智慧物流有限责任公司 一种货物统筹管理的梯度分配方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080159419A1 (en) * 2006-12-27 2008-07-03 Adrian Smith Method and system for diversity using orthogonal frequency/division multiplexing
CN107767022A (zh) * 2017-09-12 2018-03-06 重庆邮电大学 一种生产数据驱动的动态作业车间调度规则智能选择方法
CN111047917A (zh) * 2019-12-18 2020-04-21 四川大学 一种基于改进dqn算法的航班着陆调度方法
CN111506405A (zh) * 2020-04-08 2020-08-07 北京交通大学 一种基于深度强化学习的边缘计算时间片调度方法
CN111862579A (zh) * 2020-06-10 2020-10-30 深圳大学 一种基于深度强化学习的出租车调度方法及系统
CN112149987A (zh) * 2020-09-17 2020-12-29 清华大学 基于深度强化学习的多目标柔性作业车间调度方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080159419A1 (en) * 2006-12-27 2008-07-03 Adrian Smith Method and system for diversity using orthogonal frequency/division multiplexing
CN107767022A (zh) * 2017-09-12 2018-03-06 重庆邮电大学 一种生产数据驱动的动态作业车间调度规则智能选择方法
CN111047917A (zh) * 2019-12-18 2020-04-21 四川大学 一种基于改进dqn算法的航班着陆调度方法
CN111506405A (zh) * 2020-04-08 2020-08-07 北京交通大学 一种基于深度强化学习的边缘计算时间片调度方法
CN111862579A (zh) * 2020-06-10 2020-10-30 深圳大学 一种基于深度强化学习的出租车调度方法及系统
CN112149987A (zh) * 2020-09-17 2020-12-29 清华大学 基于深度强化学习的多目标柔性作业车间调度方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖鹏飞: "基于深度时序差分强化学习的非置换流水车间调度问题研究", 《中国优秀硕博士学位论文全文数据库(硕士)基础科学辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649164A (zh) * 2024-01-30 2024-03-05 四川宽窄智慧物流有限责任公司 一种货物统筹管理的梯度分配方法及系统
CN117649164B (zh) * 2024-01-30 2024-04-16 四川宽窄智慧物流有限责任公司 一种货物统筹管理的梯度分配方法及系统

Similar Documents

Publication Publication Date Title
CN112734172B (zh) 一种基于时序差分的混合流水车间调度方法
CN107888669B (zh) 一种基于深度学习神经网络的大规模资源调度系统及方法
CN107544251B (zh) 一种基于分布式鲁棒模型的最小化总拖期的单机调度方法
CN109946965B (zh) 一种基于改进的多目标Jaya算法的离散制造车间排产方法
CN113792924A (zh) 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
CN111079989B (zh) 一种基于dwt-pca-lstm的供水公司供水量预测装置
CN102624865B (zh) 集群负载预测方法及分布式集群管理系统
CN115600774B (zh) 一种装配式建筑构件产线的多目标生产调度优化方法
CN112131206B (zh) 一种多模型数据库OrientDB参数配置自动调优方法
CN111027732A (zh) 一种多风电场出力场景的生成方法及系统
Gu et al. A discrete particle swarm optimization algorithm with adaptive inertia weight for solving multiobjective flexible job-shop scheduling problem
CN111898867A (zh) 一种基于深度神经网络的飞机总装生产线产能预测方法
CN113344317A (zh) 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法
CN115640898A (zh) 一种基于ddqn算法的大规模柔性作业车间调度方法
CN113918727A (zh) 一种基于知识图谱和迁移学习的施工项目知识转移方法
CN111524023A (zh) 温室调节方法及系统
CN115271130B (zh) 面向船舶主动力设备维修订单的动态调度方法及系统
CN115238583B (zh) 一种支持增量日志的业务流程剩余时间预测方法与系统
CN116151581A (zh) 一种柔性车间调度方法、系统及电子设备
CN108134687B (zh) 一种基于马尔可夫链的灰色模型局域网峰值流量预测方法
CN112514352A (zh) 更新调度规则的方法、设备、系统、存储介质和终端
CN113743784A (zh) 一种基于深度强化学习的生产时序表智能生成方法
CN112488543A (zh) 基于机器学习的智慧工地智能排班方法及系统
Turgay et al. Digital Twin Based Flexible Manufacturing System Modelling with Fuzzy Approach
CN112734286B (zh) 一种基于多策略深度强化学习的车间调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903

RJ01 Rejection of invention patent application after publication