CN113128770B - 基于dqn的不确定车间环境下物料配送实时优化方法 - Google Patents

基于dqn的不确定车间环境下物料配送实时优化方法 Download PDF

Info

Publication number
CN113128770B
CN113128770B CN202110439428.6A CN202110439428A CN113128770B CN 113128770 B CN113128770 B CN 113128770B CN 202110439428 A CN202110439428 A CN 202110439428A CN 113128770 B CN113128770 B CN 113128770B
Authority
CN
China
Prior art keywords
time
station
path
real
agv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110439428.6A
Other languages
English (en)
Other versions
CN113128770A (zh
Inventor
袁逸萍
任年鲁
巴智勇
熊攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202110439428.6A priority Critical patent/CN113128770B/zh
Publication of CN113128770A publication Critical patent/CN113128770A/zh
Application granted granted Critical
Publication of CN113128770B publication Critical patent/CN113128770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种基于DQN的不确定车间环境下物料配送实时优化方法,包括以下步骤:对不确定车间环境进行建模,建立物料需求动态时间窗方程及路径实时路阻系数方程;将不确定车间环境下物料配送实时决策优化问题转化为半马尔科夫决策问题,设计状态空间、全局动作空间、局部动作空间和奖励函数等关键模型要素;使用全连接神经网络来设计DQN的两个Q网络;DQN不断与环境交互进行试错学习直到Q值网络训练稳定;将实时感知到的车间关键状态数据和环境模型计算得到的扰动数据传输到训练稳定的DQN中;DQN计算出当前状态下的最佳的安全动作,然后传输给AGV,指导AGV在不确定车间环境下实时响应扰动并做出合适的动作选择,以较小的成本快速完成物料配送任务。

Description

基于DQN的不确定车间环境下物料配送实时优化方法
技术领域
本发明涉及一种离散制造车间物料配送技术领域,具体来说涉及一种基于 DQN的不确定车间环境下物料配送实时优化方法。
背景技术
通过改善企业车间内部生产物流来提升生产效益,已经成为企业发展的一个重要竞争要素。随着工业物联网(Industrial Internet of Things,IoT)和人工智能(Artificial Intelligence,AI)的快速发展,制造企业的生产方式开始向信息化、智能化方向转变。车间物料配送(Material Delivery,MD)优化问题是生产物流 (ProductionLogistics,PL)优化问题中的一个重要研究分支,物料准时配送是保障车间生产活动顺利进行的关键。然而离散型制造车间在生产过程中经常存在各种不确定因素,比如设备故障、工件返工、路径临时堵塞和AGV失效等。这些不确定因素导致物料需求时间和配送时间难以精确控制,进而增加了企业生产的时间成本。在实际生产过程中,生产系统的不确定因素导致物料需求时间的不确定,车间环境和AGV的不确定因素导致物料配送时间的不确定,难以保证物料在合适的时间、以合适的数量、配送到正确的工位。当车间生产过程、设备和环境发生动态变化时,原始物料配送计划难以对各类不确定性事件进行及时响应。
目前众多学者对车间物料配送优化问题进行了深入研究,通常将其简化或抽象为一个数学模型,并设计了相应的解决算法,为解决物料配送优化问题提供了理论参考。目前解决物料配送优化问题的主要算法有遗传算法、模拟退火算法、蚁群算法、粒子群算法和混合多目标算法等。然而,传统的静态物料配送优化算法难以完全适应动态的生产状况,在设备故障、工件返工、路径临时堵塞等动态扰动下,预定的配送时间窗和路由失去了最优性,甚至变得不可执行,这意味着静态优化算法对于减少实际生产环境中的物料配送成本几乎没有贡献。
随着工业物联网的迅速发展,自动识别技术(射频识别(Radio FrequencyIdentification,RFID)、超宽带(Ultra-Wideband,UWB)、条形码和传感器等) 人工智能、虚拟仿真等物联网技术在制造车间广泛应用。因此,车间实时制造数据已经变得更容易获取,为不确定环境下车间物料配送动态优化提供了新的解决思路,越来越受到学者们的关注。近年来,基于机器学习的方法由于其优异的学习能力在许多研究领域得到应用。强化学习(Reinforcement learning,RL) 和深度强化学习(Deep Reinforcement learning,DRL)方法为动态环境中的优化决策提供了一个通用的框架,可以帮助解决组合优化问题。为了实时响应车间环境的变化,采用强化学习(RL)和深度强化学习(DRL)方法来实现物料配送的实时决策优化。
发明内容
本发明所要解决的技术问题是:提供一种能有效解决不确定车间环境下物料配送存在的动态响应能力弱、配送准确度低和决策实时性不足问题的基于 DQN的不确定车间环境下物料配送实时优化方法。
为解决上述技术问题,本发明所采用的技术方案为:一种基于DQN(深度 Q网络)的不确定车间环境下物料配送实时优化方法,包括以下步骤:
S1:不确定车间环境建模
考虑到物料需求和配送阶段的动态扰动,以动态时间窗表征物料需求阶段的扰动,以路径实时路阻系数表征物料配送阶段的扰动,以提高物料配送的准确性:
S11:建立物料需求动态时间窗计算模块;
在物料需求阶段,考虑直接影响工位i的加工时间的扰动因素,包括设备故障、设备疲劳程度、工件返工和工人操作熟练程度,缓存区的传感设备实时感知工位i物料消耗率mvi的波动范围和实时物料量realni,根据工位i物料消耗率mvi波动数据,结合加权平均法求得工位i加权平均物料消耗率
Figure GDA0003702690600000031
具体表达式如公式(1)所示;工位i物料需求动态时间窗上限tib为工位i物料缓存区实时物料量realni达到其安全物料量safeni的时刻;工位i物料需求动态时间窗下限tie等于工位i物料需求动态时间窗上限tib加上工位i物料缓存区安全物料量safeni除工位i加权平均物料消耗率
Figure GDA0003702690600000032
的数值,具体表示式如公式(2)所示;当工位i设备发生故障时,工位i物料消耗率mvi等于0,因此,工位i新的物料需求动态时间窗(tib,tie)等于其旧的时间窗加上工位i设备的修复时间rti,具体表达式如公式(3)所示:
Figure GDA0003702690600000033
式中:wj为工位i实时物料消耗率等于mvi,j的数量;
Figure GDA0003702690600000034
(tib+Δt,tie+Δt)=(tib+rti,tie+rti) (3)
式中:Δt表示时间变化量;
S12:建立路径实时路阻系数计算模块;
在离散制造车间物料配送过程中出现的不同AGV的旅行速度不同造成的追击冲突、单向路径下AGV旅行方向不同造成的对向冲突和多辆AGV要同时通过路口造成的路口冲突,造成AGV不能在预期时间将物料配送至相应工位;
为了对车间路径路阻系数进行量化,建立了离散制造车间路径路阻函数,具体表达式如公式(4)所示:
Figure GDA0003702690600000035
式中:
Figure GDA0003702690600000041
为某一自动导引运输车AGVi在路径i上实际旅行时间,在历史数据中获取;
Figure GDA0003702690600000042
为AGVi在路径i上理想旅行时间,等于路径i长度pdi除AGVi的速度 avi;qi为路径i上的AGVi和其他移动设备的数量,在历史和实时数据中获取; ci为路径i的通行能力,考虑工位数量、单双向路径和路口类型对路径通行能力的影响;α和β为阻滞系数,均为代标定参数;
标定路径i的通行能力ci,考虑途中工位数量stni、单双向路径ptni和路口类型mtni三种影响因素,标定的数值越大表示路径通行能力越好;路径i的通行能力ci的具体表达式如公式(5)所示:
ci=0.5·ptni+0.3·mtni+0. 2·stni (5)
式中,路径i为单向路径ptni取数值为1,双向路径ptni取数值为2;
路口类型为路径i两端是两个十字路口时mtni取数值为1;路口类型由一个丁字路口和一个直角路口组成时mtni取数值为5;路口类型由一个十字路口和一个丁字路口组成时mtni取数值为2;路口类型由一个十字路口和一个直角路口组成时mtni取数值为4;路口类型由两个丁字路口组成时mtni取数值为3;
maxst为一条路径i途中所能设立的最大工位数,st为一条路径途中设立的工位数,一条路径的通行能力stni与工位数st的关系如公式(a)所示:
Figure GDA0003702690600000043
对参数α和β进行标定,首先对离散制造车间路径路阻函数进行线性化处理,过程如下所示:
Figure GDA0003702690600000044
令:
Figure GDA0003702690600000051
lnα=b,β=a (8)
Figure GDA0003702690600000052
将式(7)、(8)、(9)带入式(6)可得:y=b+ax,即可进行一元线性回归分析,采用最小二乘法对参数α和β进行标定;
Figure GDA0003702690600000053
Figure GDA0003702690600000054
式中:xh和yh表示在历史数据提取的h组数据,
Figure GDA0003702690600000055
Figure GDA0003702690600000056
表示在历史数据提取的h组数据的平均值;
将式(10)和(11)带入式(8)可标定参数α和β;参数α和β标定后,就可求得每条路径的实时路阻系数realbi,具体表示式如公式(12)所示:
Figure GDA0003702690600000057
式中:路径i的通行能力ci由公式(5)求得;路径i上的AGVi和其他移动设备数量qi在实时数据中获取;
S2:半马尔可夫决策过程建模
S21:状态空间表示;
不确定环境下离散制造车间状态空间主要包括工位状态、任务状态、AGVi 状态和路径状态四要素,由向量s=[sw,sm,sa,sp]表示;
工位状态用向量sw=[realni,t(i,n=0)]表示;
其中,realni为工位i的物料缓存区实时物料量,用于当AGVi到达工位i时奖励的判断条件;t(i,n=0)为工位i物料缓存量为0的时刻,用于当AGVi到达工位i时计算惩罚成本的条件;
任务状态用向量sm=[(sxi,syi),tpi,n(tp,i),(tib,tie)]表示;
其中,(sxi,syi)表示目标工位i的位置坐标,用来判断是否为本回合终止状态;tpi表示目标工位i所需的物料类型,确保物料配送到正确工位;n(tp,i)表示目标工位i所需物料的数量,等于工位i物料缓存区最大容量减去工位i的物料缓存区实时物料量;
AGVi状态用向量sa=[asi,avi,(axi,ayi),realai,tis]表示;
其中,asi表示AGV i的工作状态,0表示“空闲”,1表示“工作”;avi表示AGV i的旅行速度,计算奖励值的条件之一;(axi,ayi)表示AGV i实时位置坐标,axi表示AGV i实时位置的x坐标,ayi表示AGV i实时位置的y坐标;realai表示AGVi实时容载量,需满足确保每次物料配送不超过其自身最大容载量;tis表示AGV i完成工位s配送任务的时刻,是计算AGV i到达工位s时的惩罚成本的条件;
路径状态用向量sp=[dcd,pbi,realbi]表示;
其中,dcd表示相邻决策点c到d之间的距离,用于计算每次决策的时间成本;pbi表示路径i的堵塞状态,1表示“通畅”,∞表示“堵塞”;为了使AGVi 旅行时间最小化,在AGVi走线前应计算考虑障碍物的最短路径;AGVi失效、 AGVi死锁、其他设备占用车道和其他人为因素都会造成AGVi配送路径的临时阻塞;
S22:全局动作空间表示;
在物料配送过程中,AGVi的动作是从等待和各条路径之间做出选择,是离散的;全局动作空间表示为:a=[0,1,2,3,…,n];0表示AGVi停止运行原地等待,1到n表示路径1到路径n;
S23:局部动作空间表示;
当AGVi处于路径i时,部分路径与路径i是没有相连接的,所以只有部分动作是合法的;路径i下合法的局部动作空间表示为:
ai=[0,…,g,…,h],Q<g and h<n,ai∈a;
S24:奖励函数设计;
不确定车间环境下路径的路阻系数不断变化,不同时段的物料配送时间成本不同,及时作出决策响应扰动可降低时间成本;不确定车间环境下物料不能准时送至相应工位会造成工位停工等待,停工等待时间越久惩罚成本越高; AGVi从相邻决策点j到k的时间成本
Figure GDA0003702690600000071
AGV i完成工位s配送任务总的时间成本
Figure GDA0003702690600000072
和AGV i完成工位s配送任务的惩罚成本
Figure GDA0003702690600000073
定义如下所示:
Figure GDA0003702690600000074
Figure GDA0003702690600000075
式中:c0表示单位时间固定配送成本,realbjk表示相邻决策点j到k之间的路阻系数,avi表示AGVi的旅行速度,
Figure GDA0003702690600000076
表示AGV i从决策点j到k的行驶时间,m表示完成工位s配送任务AGV i总的决策次数,
Figure GDA00037026906000000710
表示AGV i完成工位 s配送任务的总行驶时间;
Figure GDA0003702690600000077
式中:realns表示工位s的物料缓存区的实时物料量,c1表示单位时间等待成本,tisn表示AGVi完成工位s配送任务的延迟时间;具体如下:
tisn=(tis-t(s,n=0)) (16)
式中,tis表示AGVi完成工位s配送任务的时刻,t(s,n=0)表示工位s物料缓存区物料量为0的时刻,
AGV i完成工位s配送任务的总成本
Figure GDA0003702690600000078
计算公式如下:
Figure GDA0003702690600000079
另外,根据AGV i完成工位s配送任务总的时间成本
Figure GDA0003702690600000081
和AGV i完成工位s 配送任务的惩罚成本
Figure GDA0003702690600000082
定义总奖励,总奖励r包括DQN与环境交互的主线奖励,具体如公式(18)所示:
Figure GDA0003702690600000083
其中:σ表示惩罚成本系数;
S3:基于DQN的实时决策模型的建立
S31:两个Q值网络的建立;
采用两个具有相同神经网络结构的全连接神经网络即评价Q网络和目标 Q网络作为深度Q网络DQN的Q值函数的逼近器Q(s,a,θ)≈Qπ(s,a),其中θ表示相应神经网络的所有参数;通过不断迭代更新神经网络的参数来改进动作状态函数;评价Q网络和目标Q网络都包括一个输入层、两个隐藏层、一个输出层;
S32:DQN实时决策模型的训练
在训练过程中,评价Q网络负责与环境交互,获取交互数据样本,具体过程如下:
在状态s下,AGVi代理在每一步行动a后获得的环境反馈的总奖励r,并到达下一个状态s′,AGVi代理将其探索制造车间环境得到的数据以(s,a,r,s′)的统一形式存储到回放记忆库中;然后每次学习时从回放记忆库中随机采样数据样本以打破数据之间的相关性;采样数据将分别传输到具有相同网络结构的评价Q网络和目标Q网络,评价Q网络的参数表示为θ,目标Q网络的参数表示为θ′;在学习过程中,通过评价Q网络计算当前动作值函数Q(s,a;θ),通过目标Q网络预测下一状态最优动作值函数maxa′Q(s′,a′;θ′),然后根据贝尔曼方程计算出目标Q网络参数下的当前动作值函数Q(s,a;θ′),再根据两个Q网络的误差计算损失函数L(θ),如下所示:
Figure GDA0003702690600000091
L(θ)=E(r+γmaxa′Q(s′,a′;θ′)-Q(s,a;θ))2 (20)
然后使用随机梯度下降SGD算法更新评价Q网络的参数θ,通过不断迭代从而得到最优的Q值;
Figure GDA0003702690600000092
最后,每隔N步迭代后目标Q网络的参数θ′更新为评价Q网络的参数θ,即可进行下一阶段的学习;
S4:基于DQN的物料配送实时决策优化过程
基于DQN的物料配送实时优化方法训练稳定后,指导各个AGV在不确定车间环境下实时响应扰动并做出合适的动作选择,以较小的成本快速完成物料配送任务:
首先,根据公式(3)计算当前所有任务的物料需求动态时间窗,根据物料需求动态时间窗的下限确定物料配送任务的优先级,优先级高的配送任务被触发;然后根据公式(12)计算当前时刻所有路径的路阻系数;最后,将实时感知到的离散车间所有关键状态数据传输到训练稳定的DQN中;DQN计算出当前状态下的最佳动作,然后传输给各个AGV,各个AGV接受到命令执行相应动作,直到完成当前选定的物料配送任务;
重复以上步骤,直到完成车间所有物料配送任务。
作为一种优选的方案,所述步骤S24奖励函数设计中,DQN与环境交互的总奖励还包括辅助奖励,具体如公式(18-2)所示:
Figure GDA0003702690600000101
其中:ε表示时间成本系数,ω表示实时直线距离系数,σ表示惩罚成本系数;realdis表示AGVi距离其目标工位s的实时直线距离,具体如公式(b)所示:
Figure GDA0003702690600000102
式中:(axi,ayi)表示AGV i的实时位置坐标;(sxs,sys)表示目标工位s的位置坐标。
作为一种优选的方案,所述评价Q网络和所述目标Q网络还都包括一个设置在相应输出层之后的对全局动作空间中的非法动作进行删除处理的遮掩层。
本发明的有益效果是:
(1)为了量化车间不确定环境,考虑到物料需求阶段和配送阶段的动态扰动,本发明以动态时间窗表征物料需求阶段的扰动,以路径实时路阻系数表征物料配送阶段的扰动,从而提高不确定车间环境下物料配送的准确性;
(2)将深度强化学习应用于车间物料配送领域的关键是将物料配送实时优化问题转化为半马尔可夫决策问题(Semi-Markov Decision Process,SMDP),详细设计了状态空间、全局动作空间、局部动作空间和奖励函数等关键模型要素,为不确定车间环境下物料配送问题相关状态特征提取提供了参考;
(3)通过使用由一个输入层、两个隐藏层、一个输出层和一个遮掩层组成的全连接神经网络来设计DQN的两个Q网络,在此基础上提出了基于DQN 的车间物料配送实时优化方法。此方法在动作输出层后添加动作遮掩层,保证 DQN每次输出的动作都是安全的,提高DQN的训练速度、稳定性和实际应用过程中的安全性。该方法训练稳定后,可以在不确定车间环境状态下快速响应扰动并做出合适的动作选择,为不确定车间环境下物料配送的实时决策优化提供了一个通用的框架。
附图说明
图1是本发明的实施例的具体流程图。
图2是车间典型路口类型示意图。
图3是路径示意图。
图4是DQN训练中总奖励的演图。
图5是不同规模配送下各优化方法的比较结果图。
图6是遮掩层遮掩过程示意图。
具体实施方式
下面结合附图1,详细描述本发明的具体实施方案。
本发明提出的一种基于DQN的不确定车间环境下物料配送实时优化方法,实施的具体流程图如附图1所示,包括以下步骤:
S1:不确定车间环境建模
考虑到物料需求和配送阶段的动态扰动,以动态时间窗表征物料需求阶段的扰动,以路径实时路阻系数表征物料配送阶段的扰动,从而提高物料配送的准确性。
S11:建立物料需求动态时间窗计算模块;
物料需求模糊时间窗(Etib,tib,tie,Etie)包含可容忍时间范围(Etib,Etie)和期望配送时间窗范围(tib,tie)。模糊时间窗中的期望配送时间窗范围(tib,tie)是根据工位实际状态计算得出的固定时间范围,但在物料需求阶段出现各种扰动时,期望配送时间窗发生变化,固定的时间范围变得不准确甚至不可用。因此,根据出现的各扰动,及时的调整期望配送时间窗范围,即物料需求动态时间窗,从而提高物料配送准确度。物料需求动态时间窗详细计算过程如下所示:
在物料需求阶段,主要考虑的扰动因素有设备故障、设备疲劳程度、工件返工和工人操作熟练程度。以上扰动因素直接影响工位i的加工时间,而加工时间波动直接影响工位i物料消耗率mvi,是引起物料需求时间不确定的重要因素。缓存区的传感设备可以实时感知工位i物料消耗率mvi的波动范围和实时物料量realni,根据工位i物料消耗率mvi波动数据,结合加权平均法求得工位i加权平均物料消耗率
Figure GDA0003702690600000121
具体表达式如公式(1)所示;工位i物料需求动态时间窗上限tib为工位i物料缓存区实时物料量realni达到其安全物料量safeni的时刻;工位i物料需求动态时间窗下限tie等于工位i物料需求动态时间窗上限tib加上工位i物料缓存区安全物料量safeni除工位i加权平均物料消耗率
Figure GDA0003702690600000122
的数值,具体表示式如公式(2)所示;当工位i设备发生故障时,工位i物料消耗率 mvi等于0,因此,工位i新的物料需求动态时间窗(tib,tie)等于其旧的时间窗加上工位i设备的修复时间rti,具体表达式如公式(3)所示。
Figure GDA0003702690600000123
式中:wj为工位i实时物料消耗率等于mvi,j的数量。
Figure GDA0003702690600000124
(tib+Δt,tie+Δt)=(tib+rti,tie+rti) (3)
式中:Δt表示时间变化量。
S12:建立路径实时路阻系数计算模块;
在离散制造车间物料配送过程中通常会出现追击冲突(不同AGV的旅行速度不同造成的)、对向冲突(单向路径下AGV旅行方向不同造成的)和路口冲突(多辆AGV要同时通过路口造成的),造成AGV不能在预期时间将物料配送至相应工位。为了对车间路径路阻系数进行量化,建立了离散制造车间路径路阻函数,具体表达式如公式(4)所示。
Figure GDA0003702690600000131
式中:
Figure GDA0003702690600000132
为AGV在路径i上实际旅行时间,可在历史数据中获取;
Figure GDA0003702690600000133
为AGV 在路径i上理想旅行时间,等于路径i长度pdi除AGV的速度avi;qi为路径i上的AGV和其他移动设备的数量,可在历史和实时数据中获取;ci为路径i的通行能力,本文主要考虑工位数量、单双向路径和路口类型对路径通行能力的影响;α和β为阻滞系数,均为代标定参数。
标定路径i的通行能力ci,主要考虑工位数量、单双向路径和路口类型三种影响因素,标定的数值越大表示路径通行能力越好。maxst为一条路径途中所能设立的最大工位数,st为一条路径途中设立的工位数,一条路径的通行能力与工位数的关系如公式(a)所示。
Figure GDA0003702690600000134
路径i为单向路径取数值ptni为1,双向路径取数值ptni为2。路口类型是一个相对复杂的情况,5种典型的路口类型如附图2所示。附图2(a)所示的路口类型是最复杂的,路径i两端是两个十字路口,这种情况下取数值mtni为1。附图2(b)所示的路口类型由一个丁字路口和一个直角路口组成,这种情况下取数值mtni为5。附图2(c)所示的路口类型由一个十字路口和一个丁字路口组成,这种情况下取数值mtni为2。附图2(d)所示的路口类型由一个十字路口和一个直角路口组成,这种情况下取数值mtni为4。附图2(e)所示的路口类型由两个丁字路口组成,这种情况下取数值mtni为3。综上所述,路径i的通行能力ci的具体表达式如公式(5)所示。
ci=0.5·ptni+0.3·mtni+0.2·stni (5)
式中:单双向路径对路径通行能力的影响较大,单向路径的情况下会经常造成对向冲突,进而造成AGV死锁堵塞路径,所以其影响权重系数取值为0.5。路口类型越复杂,交通管制时间越多,AGV通过路口的时间越久,所以其影响权重系数取值为0.3。路径i上工位数量越多,AGV配送越频繁,造成AGV等待的可能越大,但在离散制造车间规划时,一条没有路口的路径上一般只规划一个到两个工位,因此,工位数量对路径通行能力的影响较小,所以其影响权重系数取值为0.2。
对参数α和β进行标定,首先对离散制造车间路径路阻函数进行线性化处理,过程如下所示:
Figure GDA0003702690600000141
令:
Figure GDA0003702690600000142
lnα=b,β=a (8)
Figure GDA0003702690600000143
将式子(7)、(8)、(9)带入式子(6)可得:y=b+ax,即可进行一元线性回归分析,采用最小二乘法对参数α和β进行标定。
Figure GDA0003702690600000151
Figure GDA0003702690600000152
式中:xh和yh表示在历史数据提取的h组数据,
Figure GDA0003702690600000153
Figure GDA0003702690600000154
表示在历史数据提取的h组数据的平均值。将式子(10)和(11)带入式子(8)可标定参数α和β。参数α和β标定后,就可求得每条路径的实时路阻系数,具体表示式如公式(12) 所示:
Figure GDA0003702690600000155
式中:路径i的通行能力ci由公式(5)求得;路径i上的AGV和其他移动设备数量qi可在实时数据中获取。
S2:半马尔可夫决策过程建模
S21:状态空间表示;
不确定环境下离散制造车间状态空间主要包括工位状态、任务状态、AGV 状态和路径状态四要素,可由向量s=[sw,sm,sa,sp]表示。
工位状态可以用向量sw=[realni,t(i,n=0)]表示。
(1)realni为工位i的物料缓存区实时物料量,用于当AGV到达工位i时主线奖励的判断条件;
(2)t(i,n=0)为工位i物料缓存量为0的时刻,用于当AGV到达工位i时计算惩罚成本的条件。
任务状态可以用向量sm=[(sxi,syi),tpi,n(tp,i),(tib,tie)]表示。
(1)(sxi,syi)表示目标工位i的位置坐标,用来判断是否为本回合终止状态;
(2)tpi表示目标工位i所需的物料类型,确保物料配送到正确工位;
(3)n(tp,i)表示目标工位i所需物料的数量,等于工位i物料缓存区最大容量减去工位i的物料缓存区实时物料量。
AGV状态可以用向量sa=[asi,avi,(axi,ayi),realai,tis]表示。
(1)asi表示AGV i的工作状态,0表示“空闲”,1表示“工作”;
(2)avi表示AGV i的旅行速度,计算辅助奖励值的条件之一;
(3)(axi,ayi)表示AGV i实时位置坐标,axi表示AGV i实时位置的x 坐标,ayi表示AGV i实时位置的y坐标;
(4)realai表示AGV i实时容载量,确保每次物料配送不超过其自身最大容载量;
(5)tis表示AGV i完成工位s配送任务的时刻,是计算AGV i到达工位s 时的惩罚成本的条件。
路径状态可以用向量sp=[dcd,pbi,realbi]表示。
(1)dcd表示相邻决策点c到d之间的距离,用于计算每次决策的时间成本;
(2)pbi表示路径i的堵塞状态,1表示“通畅”,∞表示“堵塞”。为了使AGV 旅行时间最小化,在AGV走线前应计算考虑障碍物的最短路径。AGV失效、 AGV死锁、其他设备占用车道和其他人为因素都会造成AGV配送路径的临时阻塞。
S22:全局动作空间表示;
在物料配送过程中,AGV的动作是从等待和各条路径之间做出选择,是离散的。全局动作空间可以表示为:a=[0,1,2,3,…,n]。0表示AGV停止运行原地等待,1到n表示路径1到路径n。
S23:局部动作空间表示;
当AGV处于路径i时,部分路径与路径i是没有相连接的,所以只有部分动作是合法的。如附图3所示,路径1的合法动作为路径2、路径3、路径4、路径5、路径6和路径7,而路径8、路径9属于非法动作。路径i下合法的局部动作空间可以表示为:ai=[0,…,g,…,h],0<gand h<n,ai∈a。
S24:奖励函数设计;
在强化学习中,奖励函数必须要使智能体在最大化自身奖励的同时也要实现相应的优化目标。本发明旨在最小化物料配送成本和惩罚成本。不确定车间环境下路径的路阻系数不断变化,不同时段的物料配送时间成本不同,及时作出决策响应扰动可降低时间成本。不确定车间环境下物料不能准时送至相应工位会造成工位停工等待,停工等待时间越久惩罚成本越高。时间成本和惩罚成本定义如下所示:
Figure GDA0003702690600000171
Figure GDA0003702690600000172
式中:
Figure GDA0003702690600000173
表示相邻决策点j到k的时间成本,c0表示单位时间固定配送成本,djk是相邻决策点j到k之间的距离,realbjk表示相邻决策点j到k之间的路阻系数, avi表示AGV i的旅行速度,
Figure GDA0003702690600000174
表示AGV i从决策点j到k的行驶时间,m表示完成工位s配送任务AGV i总的决策次数,
Figure GDA0003702690600000175
表示AGV i完成工位s配送任务总的时间成本,
Figure GDA0003702690600000176
表示AGV i完成工位s配送任务的总行驶时间。
Figure GDA0003702690600000177
tisn=(tis-t(s,n=0)) (16)
Figure GDA0003702690600000178
式中:
Figure GDA0003702690600000181
表示AGV i完成工位s配送任务的惩罚成本,realns表示工位s的物料缓存区的实时物料量,c1表示单位时间等待成本,tisn表示AGV i完成工位s 配送任务的延迟时间。tis表示AGV i完成工位s配送任务的时刻,t(s,n=0)表示工位s物料缓存区物料量为0的时刻,σ表示惩罚成本系数,
Figure GDA0003702690600000182
表示AGV i完成工位s配送任务的总成本,为用于验证本发明所提方法的优越性的指标之一。因此,根据时间成本和惩罚成本定义了奖励函数,总奖励r包含DQN与环境交互获得的主线奖励和辅助奖励,具体如公式(18-2)所示:
Figure GDA0003702690600000183
其中:
Figure GDA0003702690600000184
式中:r用于评估AGV当前动作的奖励函数,ε表示时间成本系数,realdis表示AGV i距离其目标工位s的实时直线距离,avi表示AGV i的旅行速度,ω表示实时直线距离系数,σ表示惩罚成本系数。(axi,ayi)表示AGV i的实时位置坐标;(sxs,sys)表示目标工位s的位置坐标。
为了解决稀疏奖励问题,提高数据利用率,加快AGV的训练学习速度,本发明设计了辅助奖励,AGV没有到达目标工位前,每次动作的辅助奖励是其决策时间成本加实时直线距离的负折扣值,每次选择的动作使AGV旅行时间越短和距离目标工位越近得到的辅助奖励就越大。如果物料配送路径被临时堵塞,并且AGV选择了等待,其辅助奖励是0,但是AGV等待越久,最终的主线奖励越小。主线奖励分两类,一类是AGV在规定时间内成功到达目标工位,一类是AGV成功到达目标工位。AGV在规定时间内成功到达目标工位,即AGV到达目标工位时其缓存区物料量大于0,AGV会得到100的主线奖励。 AGV成功到达目标工位,即AGV到达目标工位时其缓存区物料已消耗殆尽, AGV会得到100减去惩罚成本的主线奖励。在主线奖励和辅助奖励下AGV为了获得更高奖励就会以最短的时间到达目标工位,从而达到快速响应车间动态扰动的目的。
S3:基于DQN的实时决策模型的建立
S31:两个Q值网络的建立;
在DRL领域神经网络和深度神经网络(DNNs)已被证明是有效的函数逼近器。在此基础上,利用神经网络作为DQN的Q值函数的逼近器 Q(s,a,θ)≈Qπ(s,a),其中θ表示相应神经网络的所有参数。通过不断迭代更新神经网络的参数来改进动作状态函数。本发明设计了两个具有相同神经网络结构的神经网络,即评价Q网络和目标Q网络。本发明详细的设计了状态空间,状态特征已经明确界定,状态信息是一组一维的标量并且很容易获取。因此,所设计的神经网络不需要卷积层和池化层对状态输入进行特征提取。通过使用由一个输入层、两个隐藏层、一个输出层和一个遮掩层组成的全连接神经网络来设计两个Q网络。由于在局部车间状态下,全局动作At中有许多动作是不合法的,因此,通过加入遮掩层对不合法的动作进行遮掩。更多Q网络结构参数如附表1所示。遮掩过程如附图6所示,神经网络的输出层输出全局动作的Q值,局部动作空间表示的是当前环境状态下合法的动作集合,遮掩层结合局部动作空间对全局动作空间中的非法动作进行删除处理,遮掩层处理过后的输出全部为合法动作的Q值,利用softmax函数,输出Q值最大的合法动作,从而提高DQN的训练速度、稳定性和实际应用过程中的安全性。
表1 Q网络结构参数
Figure GDA0003702690600000201
S32:DQN实时决策模型的训练
在训练过程中,评价Q网络负责与环境交互,获取交互数据样本,具体过程如下。在状态s下,AGV代理在每一步行动a后都将获得环境反馈的辅助奖励,并到达下一个状态s′,直到终止状态AGV代理会获得主线奖励。但是AGV 代理并不立刻进行学习,而是将其探索制造车间环境得到的数据以(s,a,r,s′)的统一形式存储到回放记忆库中。然后每次学习时从回放记忆库中随机采样数据样本,打破数据之间的相关性,提高训练学习效率和数据样本利用率。采样数据将分别传输到具有相同网络结构的评价Q网络和目标Q网络,但是两个Q网络参数不同,评价Q网络的参数表示为θ,目标Q网络的参数表示为θ′。在学习过程中,通过评价Q网络计算当前动作值函数Q(s,a;θ),通过目标Q网络预测下一状态最优动作值函数maxa′Q(s′,a′;θ′),然后根据贝尔曼(Bellman) 方程计算出目标Q网络参数下的当前动作值函数Q(s,a;θ′),再根据两个Q网络的误差计算损失函数L(θ),如下所示。
Figure GDA0003702690600000202
L(θ)=E(r+γmaxa′Q(s′,a′;θ′)-Q(s,a;θ))2 (20)
然后使用随机梯度下降(Stochastic Gradient Descent,SGD)算法更新评价Q 网络的参数θ,通过不断迭代从而得到最优的Q值。
Figure GDA0003702690600000211
最后,每隔N步迭代后目标Q网络的参数θ′更新为评价Q网络的参数θ,即可进行下一阶段的学习。
S4:基于DQN的物料配送实时决策优化过程
基于DQN的物料配送实时优化方法训练稳定后,指导AGV在不确定车间环境下实时响应扰动并做出合适的动作选择,以较小的成本快速完成物料配送任务。首先,根据公式(3)计算当前所有任务的物料需求动态时间窗,根据物料需求动态时间窗的下限确定物料配送任务的优先级,优先级高的配送任务被触发。然后根据公式(12)计算当前时刻所有路径的路阻系数。最后,将实时感知到的离散车间所有关键状态数据传输到训练稳定的DQN中。DQN计算出当前状态下的最佳动作,然后传输给AGV,AGV接受到命令执行相应动作,直到完成当前选定的物料配送任务。重复以上步骤,直到完成车间所有物料配送任务。
DQN每集累积总奖励的演变如附图4所示,训练的前1600集表现相当糟糕,AGV代理每集的损失奖励大约为80。然而,AGV代理很快就学会了一个有效策略,总的的奖励在1600集到2300集之间快速增长,之后逐渐达到稳定状态,这也意味着AGV代理实现了最优动作策略。
在400次配送实例中,将本发明所提出的方法与常用的几种方法:传统强化学习算法Q-Learning和Sarsa、结合动态时间窗的两阶段蚁群算法DTACO、结合动态时间窗的蚁群算法DACO、结合动态时间窗的遗传算法DGA、结合模糊时间窗的两阶段蚁群算法TACO、结合模糊时间窗的蚁群算法ACO、结合模糊时间窗的遗传算法GA进行对比分析,结果如附表2所示。
从物料配送及时性和成本的角度对这些方法进行综合评价,建立了三个评价指标,即工位设备平均利用率
Figure GDA0003702690600000221
配送总成本Ct和AGV总旅行距离Dt。工位设备利用率的计算方式如下所示:
Figure GDA0003702690600000222
Figure GDA0003702690600000223
式中:Ui表示工位i设备利用率,tni表示工位i设备的正常工作时长,tai表示工位i设备的停机等待时长,p表示总工位数。配送总成本的计算方式如下所示:
Figure GDA0003702690600000224
式中:
Figure GDA0003702690600000225
表示AGVi完成第s次配送任务的总成本,n为总配送任务数,
Figure GDA0003702690600000226
由公式(17)计算所得。
Figure GDA0003702690600000227
式中:
Figure GDA0003702690600000228
表示AGV i完成第s次配送任务的旅行距离。
表2本发明所提方法与其他方法各指标的对比结果
Figure GDA0003702690600000229
Figure GDA0003702690600000231
由表2可知:(1)采用动态时间窗的优化方法DTACO、DACO和DGA 与采用模糊时间窗的优化方法TACO、ACO和GA比较,工位设备平均利用率提高了1.91%、1.72%和2.09%,配送总成本降低了1182.9、768.9和1085.8 个单位。可以看出,本发明提出的动态时间窗与模糊时间窗相比,可以大大降低配送成本。
(2)所提方法与统强化学习算法Q-Learning和Sarsa比较,工位设备平均利用率分别提高了3.43%和2.59%,配送总成本分别降低了1081.3和682 个单位,AGV总旅行距离分别减少了67.3m和173m。
(3)所提方法与采用动态时间窗的动态优化方法DTACO比较,工位设备平均利用率提高了6.16%,配送总成本降低了1897.2个单位,AGV总旅行距离增加了222.1m。
(4)该方法与传统的动态优化方法TACO比较,工位设备平均利用率提高了8.07%,配送总成本降低了3080.1个单位,AGV总旅行距离增加了98.6m。
(5)所提方法与采用动态时间窗的静态优化方法DACO和DGA比较,工位设备平均利用率分别提高了15.53%和16.32%,配送总成本分别降低了 9475.4和11165.9个单位,AGV总旅行距离分别增加了5277.9m和5571.7m。
(6)所提方法与传统的静态优化方法ACO和GA比较,工位设备平均利用率分别提高了17.25%和18.41%,配送总成本分别降低了6043.8和6657.5 个单位,AGV总旅行距离分别增加了1208m和1121.3m。
(7)以上对比结果表明了该方法在对车间动态扰动实时响应和决策方面的优越性,可以有效的提高物料配送准确率,提高设备利用率,降低物料配送成本。
如附图5(a)所示,随着配送规模的增加,所提方法与两种经典的RL 方法的性能变化不大,而传统的动态优化方法和静态优化方法的性能变化较大。如图5(b)所示,随着配送规模的增加,传统的动态优化方法和静态优化方法的总成本的增幅较大。原因是传统的各优化方法不能及时响应车间的扰动变化,随着任务的不断进行与原计划的偏差不断累积。如图5(c)所示,所提方法与两种经典的RL方法虽然在AGV旅行距离上略有增加,但可以取得更优的整体性能,这也揭示了在不确定车间环境下以最短路径为优化目标的物料配送方法并不能取得较好的优化结果。在不确定的车间环境下,应实时规划出旅行时间最短的配送路径,才能有效的提高物料配送准确率,降低物料配送成本。以上实验结果证明了所提出的方法在不确定环境下的离散制造车间物料配送实时优化中的可行性与有效性。
上述的实施例仅例示性说明本发明创造的原理及其功效,以及部分运用的实施例,而非用于限制本发明;应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (3)

1.一种基于DQN的不确定车间环境下物料配送实时优化方法,包括以下步骤:
S1:不确定车间环境建模
考虑到物料需求和配送阶段的动态扰动,以动态时间窗表征物料需求阶段的扰动,以路径实时路阻系数表征物料配送阶段的扰动,以提高物料配送的准确性:
S11:建立物料需求动态时间窗计算模块;
在物料需求阶段,考虑直接影响工位i的加工时间的扰动因素,包括设备故障、设备疲劳程度、工件返工和工人操作熟练程度,缓存区的传感设备实时感知工位i物料消耗率mvi的波动范围和实时物料量realni,根据工位i物料消耗率mvi波动数据,结合加权平均法求得工位i加权平均物料消耗率
Figure FDA0003702690590000011
具体表达式如公式(1)所示;工位i物料需求动态时间窗上限tib为工位i物料缓存区实时物料量realni达到其安全物料量safeni的时刻;工位i物料需求动态时间窗下限tie等于工位i物料需求动态时间窗上限tib加上工位i物料缓存区安全物料量safeni除工位i加权平均物料消耗率
Figure FDA0003702690590000012
的数值,具体表示式如公式(2)所示;当工位i设备发生故障时,工位i物料消耗率mvi等于0,因此,工位i新的物料需求动态时间窗(tib,tie)等于其旧的时间窗加上工位i设备的修复时间rti,具体表达式如公式(3)所示:
Figure FDA0003702690590000013
式中:wj为工位i实时物料消耗率等于mvi,j的数量;
Figure FDA0003702690590000014
(tib+Δt,tie+Δt)=(tib+rti,tie+rti) (3)
式中:Δt表示时间变化量;
S12:建立路径实时路阻系数计算模块;
在离散制造车间物料配送过程中出现的不同AGV的旅行速度不同造成的追击冲突、单向路径下AGV旅行方向不同造成的对向冲突和多辆AGV要同时通过路口造成的路口冲突,造成AGV不能在预期时间将物料配送至相应工位;
为了对车间路径路阻系数进行量化,建立了离散制造车间路径路阻函数,具体表达式如公式(4)所示:
Figure FDA0003702690590000021
式中:
Figure FDA0003702690590000022
为某一自动导引运输车AGVi在路径i上实际旅行时间,在历史数据中获取;
Figure FDA0003702690590000023
为AGVi在路径i上理想旅行时间,等于路径i长度pdi除AGVi的速度avi;qi为路径i上的AGVi和其他移动设备的数量,在历史和实时数据中获取;ci为路径i的通行能力,考虑工位数量、单双向路径和路口类型对路径通行能力的影响;α和β为阻滞系数,均为代标定参数;
标定路径i的通行能力ci,考虑途中工位数量stni、单双向路径ptni和路口类型mtni三种影响因素,标定的数值越大表示路径通行能力越好;路径i的通行能力ci的具体表达式如公式(5)所示:
ci=0.5·ptni+0.3·mtni+0.2·stni (5)
式中,路径i为单向路径ptni取数值为1,双向路径ptni取数值为2;
路口类型为路径i两端是两个十字路口时mtni取数值为1;路口类型由一个丁字路口和一个直角路口组成时mtni取数值为5;路口类型由一个十字路口和一个丁字路口组成时mtni取数值为2;路口类型由一个十字路口和一个直角路口组成时mtni取数值为4;路口类型由两个丁字路口组成时mtni取数值为3;
maxst为一条路径i途中所能设立的最大工位数,st为一条路径途中设立的工位数,一条路径的通行能力stni与工位数st的关系如公式(a)所示:
Figure FDA0003702690590000031
对参数α和β进行标定,首先对离散制造车间路径路阻函数进行线性化处理,过程如下所示:
Figure FDA0003702690590000032
令:
Figure FDA0003702690590000033
ln α=b,β=a (8)
Figure FDA0003702690590000034
将式(7)、(8)、(9)带入式(6)可得:y=b+ax,即可进行一元线性回归分析,采用最小二乘法对参数α和β进行标定;
Figure FDA0003702690590000035
Figure FDA0003702690590000036
式中:xh和yh表示在历史数据提取的h组数据,
Figure FDA0003702690590000037
Figure FDA0003702690590000038
表示在历史数据提取的h组数据的平均值;
将式(10)和(11)带入式(8)可标定参数α和β;参数α和β标定后,就可求得每条路径的实时路阻系数realbi,具体表示式如公式(12)所示:
Figure FDA0003702690590000039
式中:路径i的通行能力ci由公式(5)求得;路径i上的AGVi和其他移动设备数量qi在实时数据中获取;
S2:半马尔可夫决策过程建模
S21:状态空间表示;
不确定环境下离散制造车间状态空间主要包括工位状态、任务状态、AGVi状态和路径状态四要素,由向量s=[sw,sm,sa,sp]表示;
工位状态用向量sw=[realni,t(i,n=0)]表示;
其中,realni为工位i的物料缓存区实时物料量,用于当AGVi到达工位i时奖励的判断条件;t(i,n=0)为工位i物料缓存量为0的时刻,用于当AGVi到达工位i时计算惩罚成本的条件;
任务状态用向量sm=[(sxi,syi),tpi,n(tp,i),(tib,tie)]表示;
其中,(sxi,syi)表示目标工位i的位置坐标,用来判断是否为本回合终止状态;tpi表示目标工位i所需的物料类型,确保物料配送到正确工位;n(tp,i)表示目标工位i所需物料的数量,等于工位i物料缓存区最大容量减去工位i的物料缓存区实时物料量;
AGVi状态用向量sa=[asi,avi,(axi,ayi),realai,tis]表示;
其中,asi表示AGV i的工作状态,0表示“空闲”,1表示“工作”;avi表示AGV i的旅行速度,计算奖励值的条件之一;(axi,ayi)表示AGV i实时位置坐标,axi表示AGV i实时位置的x坐标,ayi表示AGV i实时位置的y坐标;realai表示AGV i实时容载量,需满足确保每次物料配送不超过其自身最大容载量;tis表示AGV i完成工位s配送任务的时刻,是计算AGV i到达工位s时的惩罚成本的条件;
路径状态用向量sp=[dcd,pbi,realbi]表示;
其中,dcd表示相邻决策点c到d之间的距离,用于计算每次决策的时间成本;pbi表示路径i的堵塞状态,1表示“通畅”,∞表示“堵塞”;为了使AGVi旅行时间最小化,在AGVi走线前应计算考虑障碍物的最短路径;AGVi失效、AGVi死锁、其他设备占用车道和其他人为因素都会造成AGVi配送路径的临时阻塞;
S22:全局动作空间表示;
在物料配送过程中,AGVi的动作是从等待和各条路径之间做出选择,是离散的;全局动作空间表示为:a=[0,1,2,3,…,n];0表示AGVi停止运行原地等待,1到n表示路径1到路径n;
S23:局部动作空间表示;
当AGVi处于路径i时,部分路径与路径i是没有相连接的,所以只有部分动作是合法的;路径i下合法的局部动作空间表示为:
ai=[0,…,g,…,h],0<g and h<n,ai∈a;
S24:奖励函数设计;
不确定车间环境下路径的路阻系数不断变化,不同时段的物料配送时间成本不同,及时作出决策响应扰动可降低时间成本;不确定车间环境下物料不能准时送至相应工位会造成工位停工等待,停工等待时间越久惩罚成本越高;AGVi从相邻决策点j到k的时间成本
Figure FDA0003702690590000051
AGV i完成工位s配送任务总的时间成本
Figure FDA0003702690590000052
和AGV i完成工位s配送任务的惩罚成本
Figure FDA0003702690590000053
定义如下所示:
Figure FDA0003702690590000054
Figure FDA0003702690590000055
式中:c0表示单位时间固定配送成本,realbjk表示相邻决策点j到k之间的路阻系数,avi表示AGV i的旅行速度,
Figure FDA0003702690590000061
表示AGV i从决策点j到k的行驶时间,m表示完成工位s配送任务AGV i总的决策次数,
Figure FDA0003702690590000062
表示AGV i完成工位s配送任务的总行驶时间;
Figure FDA0003702690590000063
式中:realns表示工位s的物料缓存区的实时物料量,c1表示单位时间等待成本,tisn表示AGV i完成工位s配送任务的延迟时间;具体如下:
tisn=(tis-t(s,n=0)) (16)
式中,tis表示AGV i完成工位s配送任务的时刻,t(s,n=0)表示工位s物料缓存区物料量为0的时刻,
AGV i完成工位s配送任务的总成本
Figure FDA0003702690590000064
计算公式如下:
Figure FDA0003702690590000065
另外,根据AGV i完成工位s配送任务总的时间成本
Figure FDA0003702690590000066
和AGV i完成工位s配送任务的惩罚成本
Figure FDA0003702690590000067
定义总奖励,总奖励r包括DQN与环境交互的主线奖励,具体如公式(18)所示:
Figure FDA0003702690590000068
其中:σ表示惩罚成本系数;
S3:基于DQN的实时决策模型的建立
S31:两个Q值网络的建立;
采用两个具有相同神经网络结构的全连接神经网络即评价Q网络和目标Q网络作为深度Q网络DQN的Q值函数的逼近器Q(s,a,θ)≈Qπ(s,a),其中θ表示相应神经网络的所有参数;通过不断迭代更新神经网络的参数来改进动作状态函数;评价Q网络和目标Q网络都包括一个输入层、两个隐藏层、一个输出层;
S32:DQN实时决策模型的训练
在训练过程中,评价Q网络负责与环境交互,获取交互数据样本,具体过程如下:
在状态s下,AGVi代理在每一步行动a后获得的环境反馈的总奖励r,并到达下一个状态s′,AGVi代理将其探索制造车间环境得到的数据以(s,a,r,s′)的统一形式存储到回放记忆库中;然后每次学习时从回放记忆库中随机采样数据样本以打破数据之间的相关性;采样数据将分别传输到具有相同网络结构的评价Q网络和目标Q网络,评价Q网络的参数表示为θ,目标Q网络的参数表示为θ′;在学习过程中,通过评价Q网络计算当前动作值函数Q(s,a;θ),通过目标Q网络预测下一状态最优动作值函数maxa′Q(s′,a′;θ′),然后根据贝尔曼方程计算出目标Q网络参数下的当前动作值函数Q(s,a;θ′),再根据两个Q网络的误差计算损失函数L(θ),如下所示:
Figure FDA0003702690590000071
L(θ)=E(r+γmaxa′Q(s′,a′;θ′)-Q(s,a;θ))2 (20)
然后使用随机梯度下降SGD算法更新评价Q网络的参数θ,通过不断迭代从而得到最优的Q值;
Figure FDA0003702690590000072
最后,每隔N步迭代后目标Q网络的参数θ′更新为评价Q网络的参数θ,即可进行下一阶段的学习;
S4:基于DQN的物料配送实时决策优化过程
基于DQN的物料配送实时优化方法训练稳定后,指导各个AGV在不确定车间环境下实时响应扰动并做出合适的动作选择,以较小的成本快速完成物料配送任务:
首先,根据公式(3)计算当前所有任务的物料需求动态时间窗,根据物料需求动态时间窗的下限确定物料配送任务的优先级,优先级高的配送任务被触发;然后根据公式(12)计算当前时刻所有路径的路阻系数;最后,将实时感知到的离散车间所有关键状态数据传输到训练稳定的DQN中;DQN计算出当前状态下的最佳动作,然后传输给各个AGV,各个AGV接受到命令执行相应动作,直到完成当前选定的物料配送任务;
重复以上步骤,直到完成车间所有物料配送任务。
2.如权利要求1所述的一种基于DQN的不确定车间环境下物料配送实时优化方法,其特征在于:所述步骤S24奖励函数设计中,DQN与环境交互的总奖励还包括辅助奖励,具体如公式(18-2)所示:
Figure FDA0003702690590000081
其中:ε表示时间成本系数,ω表示实时直线距离系数,σ表示惩罚成本系数;realdis表示AGV i距离其目标工位s的实时直线距离,具体如公式(b)所示:
Figure FDA0003702690590000082
式中:(axi,ayi)表示AGV i的实时位置坐标;(sxs,sys)表示目标工位s的位置坐标。
3.如权利要求1或2所述的一种基于DQN的不确定车间环境下物料配送实时优化方法,其特征在于:所述评价Q网络和所述目标Q网络还都包括一个设置在相应输出层之后的对全局动作空间中的非法动作进行删除处理的遮掩层。
CN202110439428.6A 2021-04-23 2021-04-23 基于dqn的不确定车间环境下物料配送实时优化方法 Active CN113128770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110439428.6A CN113128770B (zh) 2021-04-23 2021-04-23 基于dqn的不确定车间环境下物料配送实时优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110439428.6A CN113128770B (zh) 2021-04-23 2021-04-23 基于dqn的不确定车间环境下物料配送实时优化方法

Publications (2)

Publication Number Publication Date
CN113128770A CN113128770A (zh) 2021-07-16
CN113128770B true CN113128770B (zh) 2022-08-09

Family

ID=76779547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110439428.6A Active CN113128770B (zh) 2021-04-23 2021-04-23 基于dqn的不确定车间环境下物料配送实时优化方法

Country Status (1)

Country Link
CN (1) CN113128770B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420942B (zh) * 2021-07-19 2023-04-25 郑州大学 一种基于深度q学习的环卫车实时路线规划方法
CN113589695B (zh) * 2021-08-02 2023-11-10 郑州大学 基于记忆序列回放机制的机器人行为决策方法及设备
CN113905606B (zh) * 2021-09-13 2022-09-30 中国地质大学(武汉) 基于深度强化学习的贴片机贴装调度模型训练方法
CN116362407B (zh) * 2023-04-06 2024-01-16 湘南学院 一种考虑制造系统运行性能的设施布局优化方法
CN117236649B (zh) * 2023-11-10 2024-01-26 天津麦旺生物技术有限公司 一种用于宠物饲料加工原料需求量的调度方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107336962A (zh) * 2017-08-10 2017-11-10 深圳市海能达通信有限公司 一种物料的自动化配送系统
CN107727099A (zh) * 2017-09-29 2018-02-23 山东大学 一种工厂内物料运输多agv调度及路径规划方法
CN110443412A (zh) * 2019-07-18 2019-11-12 华中科技大学 动态优化加工过程中物流调度及路径规划的强化学习方法
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN111596658A (zh) * 2020-05-11 2020-08-28 东莞理工学院 一种多agv无碰撞运行的路径规划方法及调度系统
CN112015174A (zh) * 2020-07-10 2020-12-01 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN112418497A (zh) * 2020-11-10 2021-02-26 河南科技大学 一种面向制造物联的物料配送路径优化方法
CN112406867A (zh) * 2020-11-19 2021-02-26 清华大学 基于强化学习和避让策略的应急车辆混合换道决策方法
CN112488542A (zh) * 2020-12-04 2021-03-12 深圳先进技术研究院 基于机器学习的智慧工地智能物料调度方法及系统
CN112665581A (zh) * 2020-12-04 2021-04-16 山东省计算中心(国家超级计算济南中心) 基于bp神经网络辅助卡尔曼滤波的组合导航方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107336962A (zh) * 2017-08-10 2017-11-10 深圳市海能达通信有限公司 一种物料的自动化配送系统
CN107727099A (zh) * 2017-09-29 2018-02-23 山东大学 一种工厂内物料运输多agv调度及路径规划方法
CN110443412A (zh) * 2019-07-18 2019-11-12 华中科技大学 动态优化加工过程中物流调度及路径规划的强化学习方法
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN111596658A (zh) * 2020-05-11 2020-08-28 东莞理工学院 一种多agv无碰撞运行的路径规划方法及调度系统
CN112015174A (zh) * 2020-07-10 2020-12-01 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN112418497A (zh) * 2020-11-10 2021-02-26 河南科技大学 一种面向制造物联的物料配送路径优化方法
CN112406867A (zh) * 2020-11-19 2021-02-26 清华大学 基于强化学习和避让策略的应急车辆混合换道决策方法
CN112488542A (zh) * 2020-12-04 2021-03-12 深圳先进技术研究院 基于机器学习的智慧工地智能物料调度方法及系统
CN112665581A (zh) * 2020-12-04 2021-04-16 山东省计算中心(国家超级计算济南中心) 基于bp神经网络辅助卡尔曼滤波的组合导航方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"A reinforcement learning based approach for a multiple-load carrier scheduling problem";Chen C;《Journal of Intelligent Manufacturing》;20151231;1233-1245 *
"基于实时定位的离散制造车间物料配送方法研究";张世文;《机械设计与制造》;20201108;18-20+25 *
"基于智能感知网的物料配送动态优化方法";葛妍娇;《计算机工程与应用》;20181227;212-218+230 *
"多区域协调调度架构下的农机服务资源优化配置方法";马军岩;《中国农业大学学报》;20200415;113-122 *
基于B-W交叉模式遗传算法的多AGV轨迹优化;韩增亮等;《青岛大学学报(工程技术版)》;20170612(第02期);46-51 *
带时间窗的车间搬运机器人路径优化建模及算法研究;任剑锋等;《运筹与管理》;20200525(第05期);52-60 *

Also Published As

Publication number Publication date
CN113128770A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113128770B (zh) 基于dqn的不确定车间环境下物料配送实时优化方法
Aslani et al. Traffic signal optimization through discrete and continuous reinforcement learning with robustness analysis in downtown Tehran
Lee et al. Integrated scheduling of flexible manufacturing systems employing automated guided vehicles
El-Tantawy et al. Towards multi-agent reinforcement learning for integrated network of optimal traffic controllers (MARLIN-OTC)
CN108827311B (zh) 一种制造车间无人搬运系统路径规划方法
CN107895225A (zh) 一种多Agent无冲突的合作型任务分配方法
CN113625716B (zh) 一种多智能体动态路径规划方法
CN110471417B (zh) 一种基于负载均衡的多agv避碰方法
CN114399095A (zh) 基于云边端协同的动态车辆配送路径优化方法及装置
Finke et al. Stable task load balancing strategies for cooperative control of networked autonomous air vehicles
Biswas et al. Multiobjective mission route planning problem: a neural network-based forecasting model for mission planning
Du et al. Research on multi-load AGV path planning of weaving workshop based on time priority
US6922593B2 (en) Control of items in a complex system by using fluid models and solving continuous linear programs
Zhang et al. Reinforcement learning and digital twin-based real-time scheduling method in intelligent manufacturing systems
Tian et al. Real-time shop floor scheduling method based on virtual queue adaptive control: Algorithm and experimental results
Li et al. A deep adaptive traffic signal controller with long-term planning horizon and spatial-temporal state definition under dynamic traffic fluctuations
Ng et al. A brief survey on advances of control and intelligent systems methods for traffic-responsive control of urban networks
CN114595607A (zh) 一种数字孪生纺织条桶输送方法及系统
US7433742B2 (en) Control of items in a complex system by using fluid models and solving continuous linear programs
Löcklin et al. Trajectory prediction of workers to improve AGV and AMR operation based on the manufacturing schedule
Spatharis et al. Multiagent reinforcement learning for autonomous driving in traffic zones with unsignalized intersections
Klaas et al. Simulation aided, knowledge based routing for AGVs in a distribution warehouse
Jimoh et al. Towards application of automated planning in urban traffic control
Bohács et al. Development of an intelligent path planning method for materials handling machinery at construction sites
Wu et al. Two-level vehicle path planning model for multi-warehouse robots with conflict solution strategies and improved ACO

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant