CN114936783A - 一种基于mmddpg算法的rgv小车调度方法及系统 - Google Patents

一种基于mmddpg算法的rgv小车调度方法及系统 Download PDF

Info

Publication number
CN114936783A
CN114936783A CN202210620696.2A CN202210620696A CN114936783A CN 114936783 A CN114936783 A CN 114936783A CN 202210620696 A CN202210620696 A CN 202210620696A CN 114936783 A CN114936783 A CN 114936783A
Authority
CN
China
Prior art keywords
rgv
algorithm
mmddpg
scheduling
car
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210620696.2A
Other languages
English (en)
Other versions
CN114936783B (zh
Inventor
郭洪飞
马向东
曾云辉
贾宇擎
何智慧
李建庆
韩世林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202210620696.2A priority Critical patent/CN114936783B/zh
Publication of CN114936783A publication Critical patent/CN114936783A/zh
Application granted granted Critical
Publication of CN114936783B publication Critical patent/CN114936783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于MMDDPG算法的RGV小车调度方法及系统,属于人工智能技术领域。本发明基于银行家算法,并利用结合熵正则化器的MMDDPG算法对生产过程中的多辆RGV小车进行协同调度,其中对每个RGV小车的调度都考虑其他RGV小车的调度策略,同时,引入不可抢占式最低松弛度优先算法,以最大限度缩短任务等待响应的时间。本发明所提出的基于MMDDPG算法的RGV小车调度方法及系统考虑了多RGV小车存在时的RGV小车的协作关系,对多个RGV小车进行统一调度,保证了多个RGV小车整体效率的最大化。

Description

一种基于MMDDPG算法的RGV小车调度方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于MMDDPG算法的RGV小车调度方法及系统。
背景技术
随着我国科学技术的发展和WTO的加入,现代物流观念深入人心,广大用户对物流仓储系统在推动各行业发展中有共同的认识,继之而来的就是自动化物流系统和自动化仓库。随着自动化物流系统和自动化仓库在中国乃至世界的发展,一般的自动化系统和仓库的很多缺点就暴漏了出来,为了能够弥补这些缺点,RGV(有轨穿梭小车)随之产生了,它可以十分方便地与其他物流系统实现自动连接,如出/入库站台、各种缓冲站、输送机、升降机和机器人等,按照计划进行物料的输送。另外,它无需人员操作,运行速度快。因而显著降低了仓库管理人员的工作量,提高了劳动生产率,同时穿梭车的应用可使物流系统变得非常简捷。RGV的动态调度问题也成为物流行业的热门问题。
强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能。
将机器学习算法引入RGV的动态调度问题中解决了诸多效率,分配方面的问题。利用强化学习,凭借定义奖励函数、状态、过程等可有效解决RGV动态调度问题。但是市面上的研究大部分是关于单一智能体的策略,路径规划。而如果可以研究多个智能体的协同工作可以进一部分提高RGC的动态调度绩效。
在中国专利申请文献202110324157.X中,公开了一种环形RGV的调度方法、装置、电子设备及存储介质,该方法确定线边物流系统中待排产任务和可用RGV的配对组合,每一配对组合中包括k个可用RGV和待排产任务的配对结果,该任意两个配对结果中的可用RGV和待排产任务互不相同;其中,k为待排产任务数量和可用RGV数量中的最小值;针对每一配对组合,计算该配对组合的每一配对结果中的可用RGV执行该配对结果中的待排产任务的成本,累加每一配对结果中的可用RGV执行该配对结果中的待排产任务的成本,得到该配对组合的总成本;确定总成本最小的配对组合,将该配对组合的每一配对结果中的待排产任务分派给该配对结果中的可用RGV,以使该配对结果中的可用RGV执行该配对结果中的待排产任务。该方案根据总成本最小的配对组合进行环形RGV的任务分派,可以有效降低成本。
现有技术至少存在以下不足:
1.目前RGV小车调度没有考虑到智能体之间的相互协作来保证最终收益最大化;
2.现实环境中多个智能体代表的所在的环境的数据存在差异,直接全部传回buffer将会导致难以训练,且统一的模型参数传回给每一个智能体是不合理的。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于MMDDPG(Multi-moduleDeep Deterministic Policy Gradient多模块深度确定性策略梯度)算法的RGV小车调度方法及系统,基于银行家算法,并利用结合熵正则化器的MMDDPG算法对生产过程中的多辆RGV小车进行协同调度,其中对每个RGV小车的调度都考虑其他RGV小车的调度策略,同时,引入不可抢占式最低松弛度优先算法,以最大限度缩短任务等待响应的时间。调度系统根据各台RGV小车的状态,及所利用的强行学习中的MMDDPG算法所输出的结果,得到输出动作,并发出相应的动作指令。基于MMDDPG算法的RGV小车调度系统,采用上述RGV小车调度方法。RGV物流分拣系统包括RGV小车调度系统,根据路网负载表,获取各RGV小车的路径规划及位置信息。本发明适用于多智能体RGV小车调度,实现综合多种奖励策略下多智能体的最优调度。本发明所提出的基于MMDDPG算法的RGV小车调度方法及系统考虑了多RGV小车存在时的RGV小车的协作关系,对多个RGV小车进行统一调度,保证了多个RGV小车整体效率的最大化。
本发明提供了一种基于MMDDPG算法的RGV小车调度方法,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法;
将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度;RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
优选地,采用银行家算法对单独的一个RGV小车提供调度参考,同时,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度,具体包括:
利用银行家算法为单独的RGV小车提供调度策略πbank
利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的调度策略,并为每一个RGV小车提供考虑了其他RGV小车调度的策略πMMDDPG
构建每一个RGV小车最终采取的策略πfinal如下式:
πfinal=απbank+(1-α)πMMDDPG
其中,a为可调超参数,取值范围在(0,1)。
优选地,在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,具体为:根据每台加工机器的任务松弛程度确定任务的优先级,任务的紧急程度越高,任务的执行优先级越高。
优选地,加工机器在完成一个任务后随即发出新任务的需求,该台加工机器完成任务的时间=该台加工机器发出新任务需求的时间。
优选地,不可抢占式最低松弛度优先算法的评判标准为每台加工机器任务的需求紧急程度,将其量化为:
某台加工机器任务松弛度=该台加工机器完成任务的时间-RGV到达加工机器所在位置的时间;
相当于:某台加工机器任务松弛度=该台加工机器发出新任务需求的时间-RGV到达加工机器所在位置的时间;
使用数学语言描述如下:
Sn=Tnew_n-Tarrived
其中,Sn为第n号CNC任务需求的松弛度,Tnew_n为第n号加工机器发出新任务需求的时间,Tarrived为RGV到达指定加工机器所在位置花费的路程时间;
其中,
Tnew_n包括开始工作之后所接受到的任务执行时间、任务等待响应被搁置的总时间和上下料时间,数学语言表示如下:
Figure BDA0003676565680000041
其中,Ttask_n为第n个任务发出需求信号的时间,Twait_n为第n个任务等待响应而被搁置的时间,Ttop为任务的上料时间,Tdown为任务的下料时间。
Tarrived包括RGV提前到达指定位置后所需等待的时间、RGV对熟料进行清洗的时间、为CNC数控机床上下料的时间以及RGV的移动时间,用数学语言表示如下:
Figure BDA0003676565680000042
其中,
Tmove_n为RGV到达第n个任务的指定CNC所在位置花费的路程时间,Twait_RGV_n为执行第n个任务时RGV提前到达指定位置等待的时间,Ttop为任务的上料时间,Tdown为任务的下料时间,Twash为RGV对熟料进行清洗的时间。
优选地,训练多个不同的子策略的集合,将策略之间的差异作为目标函数,该多个策略的集成目标函数为:
Figure BDA0003676565680000043
其中,
J(ui)为多个策略的集成目标函数;
Ri(s,a)为奖励函数;
s为智能体的状态输入;
a为智能体将采取的动作;
μi策略集中的第i个策略;
H(μi)是策略分布的熵;
pu为所有状态的集合;
E表示概率论中的期望;
λ是超参数,用来控制目标函数中熵的目标比例,值越大,说明越希望多个策略之间的差异性越大。
优选地,MMDDPG算法强化学习中采用如下公式更新计算目标函数的梯度:
Figure BDA0003676565680000051
其中,
D为智能体体验重放缓冲区,包括元组(x,x',a1,...,aN,r1,...,rN);
ui为第i个策略;
J(ui)为第i个策略的目标函数;
θi为第i个策略ui的参数;
Figure BDA0003676565680000052
为一个集中式动作值函数,函数的输入为a1,…,aN,为N个智能体的动作,(r1,…,rN)为第i个智能体所获得的奖励;函数的输出为智能体i的动作价值;
x为状态信息,x=(o1,…,oN),包括N个智能体的观察值,Oi为第i个智能体的观察值;
优选地,强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
本发明提供了一种基于MMDDPG算法的RGV小车调度系统,使用上述的任一基于MMDDPG算法的RGV小车调度方法,包括多台RGV小车和控制调度模块;
控制调度模块采用基于MMDDPG算法,根据各台RGV小车的状态,及强化学习的结果,得到输出动作,并发出相应的动作指令;
RGV小车收到控制调度模块发出的动作指令后执行相应的操作,多台RGV协同完成任务。
本发明提供了一种RGV物流分拣系统,包括上述的基于MMDDPG算法的RGV小车调度系统;
RGV物流分拣系统路网模型采用双向随机出入口路网模型;
路网区域划分为x×x个子区域,RGV小车可以到达任意子区域进行分拣作业,然后离开路网;
采用随机生成出入口位置的方式,当RGV入口位置生成时,在对面一侧随机生成出口位置;
根据随机生成的出入口位置进行路径规划。
优选地,在每一次RGV的路径规划完成后,更新路网负载表,路网负载表描述了路网中每一个子区域的路网负载,各子区域的路网负载为RGV路径规划经过该区域的路径数。
优选地,根据更新后的路网负载表,获取各RGV小车的路径规划及位置信息。
与现有技术相对比,本发明的有益效果如下:
(1)本发明所提出的基于MMDDPG算法的RGV小车调度方法及系统考虑了多RGV小车存在时的RGV小车的协作关系,对多个RGV小车进行统一调度,保证了多个RGV小车整体效率的最大化。
(2)本发明融合了MMDDPG及银行家算法两种策略,在保证多个RGV小车整体效率的最大化的同时,也保证了任意一个单一的RGV小车的调度策略。
(3)本发明在对RGV小车进行调度时利用熵函数考虑了RGV小车之间的差异性,使得RGV小车之间的调度策略不会过于相似,避免了最终的策略陷入局部最优。
(4)本发明采用双向随机出入口的RGV分拣路网模型,根据随机生成的出入口位置进行路径规划,在每一次RGV的路径规划完成后,更新路网负载表,RGV小车调度系统根据路网负载表,获取各RGV小车的路径规划及位置信息,实现了高效的多智能体RGV调度。
附图说明
图1是本发明的一个实施例的基于MMDDPG算法的RGV小车调度方法流程图。
具体实施方式
下面结合附图,对本发明的具体实施方式作详细的说明。
本发明提供了一种基于MMDDPG算法的RGV小车调度方法,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;银行家算法在进行资源分配的过程中对事态发展的演进过程进行了动态预测,能够有效地避开死锁问题;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,可以更好地提高加工机器的使用率,最大限度地缩短任务等待响应的时间。
将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度;RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
本发明提出的MMDDPG算法是对MADDPG算法的改进,MADDPG是一种多智能体是算法,相当于多个智能体采集到原始数据后将数据传回buffer统一训练,这样存在两个问题:
1、没有考虑到智能体之间的相互协作来保证最终收益最大化;
2、现实环境中多个智能体代表的所在的环境的数据存在差异,直接全部传回buffer将会导致难以训练,且统一的模型参数传回给每一个智能体是不合理的。
基于上述问题,本发明将每一个RGV小车作为一个单独的module,每一个module的内部存在一个银行家算法对RGV小车进行调度,而MMDDPG算法结合熵正则化器来使单独的智能体RGV小车了解到其他智能体RGV小车的策略,从而实现对多智能体的有效协同调度,解决了上述问题。
根据本发明的一个具体实施方案,采用银行家算法对单独的一个RGV小车提供调度参考,同时,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度,具体包括:
利用银行家算法为单独的RGV小车提供调度策略πbank
利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的调度策略,并为每一个RGV小车提供考虑了其他RGV小车调度的策略πMMDDPG
构建每一个RGV小车最终采取的策略πfinal如下式:
πfinal=απbank+(1-α)πMMDDPG
其中,a为可调超参数,取值范围在(0,1)。
根据本发明的一个具体实施方案,在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,具体为:根据每台加工机器的任务松弛程度确定任务的优先级,任务的紧急程度越高,任务的执行优先级越高。
根据本发明的一个具体实施方案,在实际的生产过程中,为了达到更高的产量,加工机器在完成一个任务后应随即发出新任务的需求,即该台加工机器完成任务的时间=该台加工机器发出新任务需求的时间,以减少加工机器的闲置时间,使生产资源利用程度达到最大。
根据本发明的一个具体实施方案,在此基础上,不可抢占式最低松弛度优先概念的评判标准即为每台加工机器任务的需求紧急程度,将其量化为:
某台加工机器任务松弛度=该台加工机器完成任务的时间-RGV到达加工机器所在位置的时间
相当于:某台加工机器任务松弛度=该台加工机器发出新任务需求的时间-RGV到达加工机器所在位置的时间
使用数学语言进行描述如下:
Sn=Tnew_n-Tarrived
其中,Sn为n号CNC任务需求的松弛度,Tnew_n为n号加工机器发出新任务需求的时间,Tarrived为RGV到达指定加工机器所在位置花费的路程时间。
例如,假设RGV小车任务为给加工机器上下料,以及清洗加工好的熟料。在RGV对一道工序的执行过程中,RGV为某加工机器完成一次上下料作业后,就会转动机械臂,将一只机械手上的熟料移动到清洗槽上方,进行清洗作业,分析该加工执行过程。
某台加工机器完成旧任务的时间,即发出新任务需求的时间,是一个累加的过程,包括开始工作之后所接受到的任务执行时间、任务等待响应被搁置的总时间和上下料时间,数学语言表示如下:
Figure BDA0003676565680000081
其中,Ttask_n为第n个任务发出需求信号的时间,Twait_n为第n个任务等待响应而被搁置的时间,Ttop为任务的上料时间,Tdown为任务的下料时间。
RGV到达指定加工机器所在位置的时间,也是一个累加的过程,包括RGV提前到达指定位置后所需等待的时间、RGV对熟料进行清洗的时间、为CNC数控机床上下料的时间以及RGV的移动时间,用数学语言表示如下:
Figure BDA0003676565680000091
其中,Tmove_n为RGV到达第n个任务的指定CNC所在位置花费的路程时间,Twait_RGV_n为执行第n个任务时RGV提前到达指定位置等待的时间,Ttop为任务的上料时间,Tdown为任务的下料时间,Twash为RGV对熟料进行清洗的时间。
根据本发明的一个具体实施方案,训练多个不同的子策略的集合,将策略之间的差异作为目标函数,该多个策略的集成目标函数为:
Figure BDA0003676565680000092
其中,
J(ui)为多个策略的集成目标函数;
Ri(s,a)为奖励函数;
s为智能体的状态输入;
a为智能体将采取的动作;
μi策略集中的第i个策略;
H(μi)是策略分布的熵;
pu为所有状态的集合;
E表示概率论中的期望;
λ是超参数,用来控制目标函数中熵的目标比例,值越大,说明越希望多个策略之间的差异性越大。
根据本发明的一个具体实施方案,MMDDPG算法强化学习中采用如下公式更新计算目标函数的梯度:
Figure BDA0003676565680000093
其中,
D为智能体体验重放缓冲区,包括元组(x,x',a1,...,aN,r1,...,rN);
ui为第i个策略;
J(ui)为第i个策略的目标函数;
θi为第i个策略ui的参数;
Figure BDA0003676565680000101
为一个集中式动作值函数,函数的输入为a1,…,aN,为N个智能体的动作,(r1,…,rN)为第i个智能体所获得的奖励;函数的输出为智能体i的动作价值;
x为状态信息,x=(o1,…,oN),包括N个智能体的观察值,oi为第i个智能体的观察值;
根据本发明的一个具体实施方案,强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
本发明提供了一种基于MMDDPG算法的RGV小车调度系统,使用上述的任一基于MMDDPG算法的RGV小车调度方法,包括多台RGV小车和控制调度模块;
控制调度模块采用基于MMDDPG算法,根据各台RGV小车的状态,及强化学习的结果,得到输出动作,并发出相应的动作指令;
RGV小车收到控制调度模块发出的动作指令后执行相应的操作,多台RGV协同完成任务。
本发明提供了一种RGV物流分拣系统,包括上述的基于MMDDPG算法的RGV小车调度系统;
RGV物流分拣系统路网模型采用双向随机出入口路网模型;
路网区域划分为x×x个子区域,RGV小车可以到达任意子区域进行分拣作业,然后离开路网;
采用随机生成出入口位置的方式,当RGV入口位置生成时,在对面一侧随机生成出口位置;
根据随机生成的出入口位置进行路径规划。
根据本发明的一个具体实施方案,在每一次RGV的路径规划完成后,更新路网负载表,路网负载表描述了路网中每一个子区域的路网负载,各子区域的路网负载为RGV路径规划经过该区域的路径数。
根据本发明的一个具体实施方案,根据更新后的路网负载表,获取各RGV小车的路径规划及位置信息。
实施例1
根据本发明的一个具体实施方案,结合附图,对本发明的基于MMDDPG算法的RGV小车调度方法进行详细说明。
本发明提供了一种基于MMDDPG算法的RGV小车调度方法,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法;
将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度;RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
实施例2
根据本发明的一个具体实施方案,结合附图,对本发明的基于MMDDPG算法的RGV小车调度方法进行详细说明。
本发明提供了一种基于MMDDPG算法的RGV小车调度方法,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,具体为:根据每台加工机器的任务松弛程度确定任务的优先级,任务的紧急程度越高,任务的执行优先级越高;加工机器在完成一个任务后随即发出新任务的需求,该台加工机器完成任务的时间=该台加工机器发出新任务需求的时间;不可抢占式最低松弛度优先算法的评判标准为每台加工机器任务的需求紧急程度,将其量化为:
某台加工机器任务松弛度=该台加工机器完成任务的时间-RGV到达加工机器所在位置的时间;
相当于:某台加工机器任务松弛度=该台加工机器发出新任务需求的时间-RGV到达加工机器所在位置的时间;
使用数学语言描述如下:
Sn=Tnew_n-Tarrived
其中,Sn为第n号CNC任务需求的松弛度,Tnew_n为第n号加工机器发出新任务需求的时间,Tarrived为RGV到达指定加工机器所在位置花费的路程时间;
其中,
Tnew_n包括开始工作之后所接受到的任务执行时间、任务等待响应被搁置的总时间和上下料时间,数学语言表示如下:
Figure BDA0003676565680000121
其中,Ttask_n为第n个任务发出需求信号的时间,Twait_n为第n个任务等待响应而被搁置的时间,Ttop为任务的上料时间,Tdown为任务的下料时间。
Tarrived包括RGV提前到达指定位置后所需等待的时间、RGV对熟料进行清洗的时间、为CNC数控机床上下料的时间以及RGV的移动时间,用数学语言表示如下:
Figure BDA0003676565680000122
其中,
Tmove_n为RGV到达第n个任务的指定CNC所在位置花费的路程时间,Twait_RGV_n为执行第n个任务时RGV提前到达指定位置等待的时间,Ttop为任务的上料时间,Tdown为任务的下料时间,Twash为RGV对熟料进行清洗的时间;
将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度,具体包括:
利用银行家算法为单独的RGV小车提供调度策略πbank
利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的调度策略,并为每一个RGV小车提供考虑了其他RGV小车调度的策略πMMDDPG
构建每一个RGV小车最终采取的策略πfinal如下式:
πfinal=απbank+(1-α)πMMDDPG
其中,a为可调超参数,取值范围在(0,1);
RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
训练多个不同的子策略的集合,将策略之间的差异作为目标函数,该多个策略的集成目标函数为:
Figure BDA0003676565680000131
其中,
J(ui)为多个策略的集成目标函数;
Ri(s,a)为奖励函数;
s为智能体的状态输入;
a为智能体将采取的动作;
μi策略集中的第i个策略;
H(μi)是策略分布的熵;
pu为所有状态的集合;
E表示概率论中的期望;
λ是超参数,用来控制目标函数中熵的目标比例,值越大,说明越希望多个策略之间的差异性越大。
MMDDPG算法强化学习中采用如下公式更新计算目标函数的梯度:
Figure BDA0003676565680000132
其中,
D为智能体体验重放缓冲区,包括元组(x,x',a1,...,aN,r1,...,rN);
ui为第i个策略;
J(ui)为第i个策略的目标函数;
θi为第i个策略ui的参数;
Figure BDA0003676565680000141
为一个集中式动作值函数,函数的输入为a1,…,aN,为N个智能体的动作,(r1,…,rN)为第i个智能体所获得的奖励;函数的输出为智能体i的动作价值;
x为状态信息,x=(o1,…,oN),包括N个智能体的观察值,oi为第i个智能体的观察值;
强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
实施例3
根据本发明的一个具体实施方案,结合附图,对本发明的基于MMDDPG算法的RGV小车调度系统进行详细说明。
本发明提供了一种基于MMDDPG算法的RGV小车调度系统,使用本发明的基于MMDDPG算法的RGV小车调度方法,包括多台RGV小车和控制调度模块;
控制调度模块采用基于MMDDPG算法,根据各台RGV小车的状态,及强化学习的结果,得到输出动作,并发出相应的动作指令;
RGV小车收到控制调度模块发出的动作指令后执行相应的操作,多台RGV协同完成任务。
在本实施例中,强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
实施例4
根据本发明的一个具体实施方案,结合附图,对本发明的RGV物流分拣系统进行详细说明。
本发明提供了一种RGV物流分拣系统,包括上述的基于MMDDPG算法的RGV小车调度系统;
RGV物流分拣系统路网模型采用双向随机出入口路网模型;
路网区域划分为x×x个子区域,RGV小车可以到达任意子区域进行分拣作业,然后离开路网;
采用随机生成出入口位置的方式,当RGV入口位置生成时,在对面一侧随机生成出口位置;
根据随机生成的出入口位置进行路径规划。
在每一次RGV的路径规划完成后,更新路网负载表,路网负载表描述了路网中每一个子区域的路网负载,各子区域的路网负载为RGV路径规划经过该区域的路径数。
根据更新后的路网负载表,获取各RGV小车的路径规划及位置信息。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。

Claims (10)

1.一种基于MMDDPG算法的RGV小车调度方法,其特征在于,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法;
将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度;
RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
2.根据权利要求1所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,采用银行家算法对单独的一个RGV小车提供调度参考,同时,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度,具体包括:
利用银行家算法为单独的RGV小车提供调度策略πbank
利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的调度策略,并为每一个RGV小车提供考虑了其他RGV小车调度的策略πMMDDPG
构建每一个RGV小车最终采取的策略πfinal如下式:
πfinal=απbank+(1-α)πMMDDPG
其中,a为可调超参数,取值范围在(0,1)。
3.根据权利要求2所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,具体为:根据每台加工机器的任务松弛程度确定任务的优先级,任务的紧急程度越高,任务的执行优先级越高。
4.根据权利要求3所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,训练多个不同的子策略的集合,将策略之间的差异作为集成目标函数,该多个策略的集成目标函数为:
Figure FDA0003676565670000021
其中,
J(ui)为多个策略的集成目标函数;
Ri(s,a)为奖励函数;
s为智能体的状态输入;
a为智能体将采取的动作;
μi策略集中的第i个策略;
H(μi)是策略分布的熵;
pu为所有状态的集合;
E表示概率论中的期望;
λ是超参数,用来控制目标函数中熵的目标比例,值越大,说明越希望多个策略之间的差异性越大。
5.根据权利要求4所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,MMDDPG算法强化学习中采用如下公式更新计算目标函数的梯度:
Figure FDA0003676565670000022
其中,
D为智能体体验重放缓冲区,包括元组(x,x',a1,...,aN,r1,...,rN);
ui为第i个策略;
J(ui)为第i个策略的目标函数;
θi为第i个策略ui的参数;
Figure FDA0003676565670000023
为一个集中式动作值函数,函数的输入为a1,…,aN,为N个智能体的动作,(r1,…,rN)为第i个智能体所获得的奖励;函数的输出为智能体i的动作价值;
x为状态信息,x=(o1,…,oN),包括N个智能体的观察值,Oi为第i个智能体的观察值。
6.根据权利要求1所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
7.一种基于MMDDPG算法的RGV小车调度系统,其特征在于,使用权利要求1-6所述的基于MMDDPG算法的RGV小车调度方法,包括多台RGV小车和控制调度模块;
控制调度模块采用基于MMDDPG算法,根据各台RGV小车的状态,及强化学习的结果,得到输出动作,并发出相应的动作指令;
RGV小车收到控制调度模块发出的动作指令后执行相应的操作,多台RGV协同完成任务。
8.一种RGV物流分拣系统,其特征在于,包括权利要求7所述的基于MMDDPG算法的RGV小车调度系统;
RGV物流分拣系统路网模型采用双向随机出入口路网模型;
路网区域划分为x×x个子区域,RGV小车可以到达任意子区域进行分拣作业,然后离开路网;
采用随机生成出入口位置的方式,当RGV入口位置生成时,在对面一侧随机生成出口位置;
根据随机生成的出入口位置进行路径规划。
9.根据权利要求8所述的RGV物流分拣系统,其特征在于,在每一次RGV的路径规划完成后,更新路网负载表,路网负载表描述了路网中每一个子区域的路网负载,各子区域的路网负载为RGV路径规划经过该区域的路径数。
10.根据权利要求9所述的RGV物流分拣系统,其特征在于,根据更新后的路网负载表,获取各RGV小车的路径规划及位置信息。
CN202210620696.2A 2022-06-02 2022-06-02 一种基于mmddpg算法的rgv小车调度方法及系统 Active CN114936783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210620696.2A CN114936783B (zh) 2022-06-02 2022-06-02 一种基于mmddpg算法的rgv小车调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210620696.2A CN114936783B (zh) 2022-06-02 2022-06-02 一种基于mmddpg算法的rgv小车调度方法及系统

Publications (2)

Publication Number Publication Date
CN114936783A true CN114936783A (zh) 2022-08-23
CN114936783B CN114936783B (zh) 2023-01-17

Family

ID=82866665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210620696.2A Active CN114936783B (zh) 2022-06-02 2022-06-02 一种基于mmddpg算法的rgv小车调度方法及系统

Country Status (1)

Country Link
CN (1) CN114936783B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116027670A (zh) * 2023-02-14 2023-04-28 东北大学 一种多Agent协作粉体能源物料传输控制系统、方法及介质
CN116307646A (zh) * 2023-05-23 2023-06-23 科大智能物联技术股份有限公司 一种基于两阶段动态分区算法的一轨双车调度方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327011A1 (en) * 2008-06-30 2009-12-31 Autonomous Solutions, Inc. Vehicle dispatching method and system
CN110472765A (zh) * 2019-06-25 2019-11-19 浙江工业大学 一种车间布局调度的低熵协同优化方法
US20200090048A1 (en) * 2017-05-19 2020-03-19 Deepmind Technologies Limited Multi-task neural network systems with task-specific policies and a shared policy
CN112486187A (zh) * 2020-12-18 2021-03-12 长沙长泰智能装备有限公司 直线往复式双rgv任务调度系统及调度算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327011A1 (en) * 2008-06-30 2009-12-31 Autonomous Solutions, Inc. Vehicle dispatching method and system
US20200090048A1 (en) * 2017-05-19 2020-03-19 Deepmind Technologies Limited Multi-task neural network systems with task-specific policies and a shared policy
CN110472765A (zh) * 2019-06-25 2019-11-19 浙江工业大学 一种车间布局调度的低熵协同优化方法
CN112486187A (zh) * 2020-12-18 2021-03-12 长沙长泰智能装备有限公司 直线往复式双rgv任务调度系统及调度算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUANYAN LIU: ""\QDPLF6FKHGXOLQJ6WUDWHJ\RI6LQJOH3URFHVV,QWHOOLJHQW5*9", 《2020 7TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING (ICISCE)》 *
李一 等: "基于 DP-FCFS 算法的智能 RGV 动态调度策略", 《成都工业学院学报》 *
罗欣等: "优化的模糊决策算法在多自动引导车调度问题中的应用", 《科学技术与工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116027670A (zh) * 2023-02-14 2023-04-28 东北大学 一种多Agent协作粉体能源物料传输控制系统、方法及介质
CN116307646A (zh) * 2023-05-23 2023-06-23 科大智能物联技术股份有限公司 一种基于两阶段动态分区算法的一轨双车调度方法
CN116307646B (zh) * 2023-05-23 2023-09-01 科大智能物联技术股份有限公司 一种基于两阶段动态分区算法的一轨双车调度方法

Also Published As

Publication number Publication date
CN114936783B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
Yoshitake et al. New automated guided vehicle system using real-time holonic scheduling for warehouse picking
CN114936783B (zh) 一种基于mmddpg算法的rgv小车调度方法及系统
CN105974891B (zh) 一种基于动态看板的模具生产过程自适应控制方法
Cho et al. Intelligent workstation controller for computer-integrated manufacturing: problems and models
CN112184053B (zh) 一种任务调度的方法、装置及其设备
CN112465192B (zh) 任务调度的方法、装置、设备及介质
Blesing et al. Concept of a multi-agent based decentralized production system for the automotive industry
Tang et al. A deep reinforcement learning based scheduling policy for reconfigurable manufacturing systems
Wang et al. A neural network based multi-state scheduling algorithm for multi-AGV system in FMS
CN116400651A (zh) 智慧工厂数字孪生平台的多agv协同调度方法及装置
Hussain et al. A multi-agent based dynamic scheduling of flexible manufacturing systems
Takahashi et al. Online optimization of AGV transport systems using deep reinforcement learning
Liu et al. Holonic manufacturing system for distributed control of automated guided vehicles
CN118195471A (zh) 一种机器人运输任务调动优化管理方法及系统
De Sousa et al. Distributed mas with leaderless consensus to job-shop scheduler in a virtual smart factory with modular conveyors
Xia et al. A multi-AGV optimal scheduling algorithm based on particle swarm optimization
Monfared et al. Design of integrated manufacturing planning, scheduling and control systems: a new framework for automation
Homayouni et al. A MILP model for energy-efficient job shop scheduling problem and transport resources
Jungbluth et al. Reinforcement Learning-based Scheduling of a Job-Shop Process with Distributedly Controlled Robotic Manipulators for Transport Operations
Gu et al. Dynamic scheduling mechanism for intelligent workshop with deep reinforcement learning method based on multi-agent system architecture
Kaoud et al. Scheduling of automated guided vehicles and machines in flexible manufacturing systems: a simulation study
Yasuda et al. A Method of Distributed Production Management for Highly-Distributed Flexible Job Shops
Ham Transfer robot task scheduling in semiconductor manufacturing
Zhang et al. Dynamic scheduling model of intelligent rail-guided vehicles based on dynamic programming
Mezgebe et al. A negotiation-based control approach for disturbed industrial context

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant