CN114936783A

CN114936783A - 一种基于mmddpg算法的rgv小车调度方法及系统

Info

Publication number: CN114936783A
Application number: CN202210620696.2A
Authority: CN
Inventors: 郭洪飞; 马向东; 曾云辉; 贾宇擎; 何智慧; 李建庆; 韩世林
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-08-23
Anticipated expiration: 2042-06-02
Also published as: CN114936783B

Abstract

本发明提供了一种基于MMDDPG算法的RGV小车调度方法及系统，属于人工智能技术领域。本发明基于银行家算法，并利用结合熵正则化器的MMDDPG算法对生产过程中的多辆RGV小车进行协同调度，其中对每个RGV小车的调度都考虑其他RGV小车的调度策略，同时，引入不可抢占式最低松弛度优先算法，以最大限度缩短任务等待响应的时间。本发明所提出的基于MMDDPG算法的RGV小车调度方法及系统考虑了多RGV小车存在时的RGV小车的协作关系，对多个RGV小车进行统一调度，保证了多个RGV小车整体效率的最大化。

Description

一种基于MMDDPG算法的RGV小车调度方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于MMDDPG算法的RGV小车调度方法及系统。

背景技术

随着我国科学技术的发展和WTO的加入，现代物流观念深入人心，广大用户对物流仓储系统在推动各行业发展中有共同的认识，继之而来的就是自动化物流系统和自动化仓库。随着自动化物流系统和自动化仓库在中国乃至世界的发展，一般的自动化系统和仓库的很多缺点就暴漏了出来，为了能够弥补这些缺点，RGV(有轨穿梭小车)随之产生了，它可以十分方便地与其他物流系统实现自动连接，如出/入库站台、各种缓冲站、输送机、升降机和机器人等，按照计划进行物料的输送。另外，它无需人员操作，运行速度快。因而显著降低了仓库管理人员的工作量，提高了劳动生产率，同时穿梭车的应用可使物流系统变得非常简捷。RGV的动态调度问题也成为物流行业的热门问题。

强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在自动控制等领域有得到讨论，被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能。

将机器学习算法引入RGV的动态调度问题中解决了诸多效率，分配方面的问题。利用强化学习，凭借定义奖励函数、状态、过程等可有效解决RGV动态调度问题。但是市面上的研究大部分是关于单一智能体的策略，路径规划。而如果可以研究多个智能体的协同工作可以进一部分提高RGC的动态调度绩效。

在中国专利申请文献202110324157.X中，公开了一种环形RGV的调度方法、装置、电子设备及存储介质，该方法确定线边物流系统中待排产任务和可用RGV的配对组合，每一配对组合中包括k个可用RGV和待排产任务的配对结果，该任意两个配对结果中的可用RGV和待排产任务互不相同；其中，k为待排产任务数量和可用RGV数量中的最小值；针对每一配对组合，计算该配对组合的每一配对结果中的可用RGV执行该配对结果中的待排产任务的成本，累加每一配对结果中的可用RGV执行该配对结果中的待排产任务的成本，得到该配对组合的总成本；确定总成本最小的配对组合，将该配对组合的每一配对结果中的待排产任务分派给该配对结果中的可用RGV，以使该配对结果中的可用RGV执行该配对结果中的待排产任务。该方案根据总成本最小的配对组合进行环形RGV的任务分派，可以有效降低成本。

现有技术至少存在以下不足：

1.目前RGV小车调度没有考虑到智能体之间的相互协作来保证最终收益最大化；

2.现实环境中多个智能体代表的所在的环境的数据存在差异，直接全部传回buffer将会导致难以训练，且统一的模型参数传回给每一个智能体是不合理的。

发明内容

为解决现有技术中存在的问题，本发明提供了一种基于MMDDPG(Multi-moduleDeep Deterministic Policy Gradient多模块深度确定性策略梯度)算法的RGV小车调度方法及系统，基于银行家算法，并利用结合熵正则化器的MMDDPG算法对生产过程中的多辆RGV小车进行协同调度，其中对每个RGV小车的调度都考虑其他RGV小车的调度策略，同时，引入不可抢占式最低松弛度优先算法，以最大限度缩短任务等待响应的时间。调度系统根据各台RGV小车的状态，及所利用的强行学习中的MMDDPG算法所输出的结果，得到输出动作，并发出相应的动作指令。基于MMDDPG算法的RGV小车调度系统，采用上述RGV小车调度方法。RGV物流分拣系统包括RGV小车调度系统，根据路网负载表，获取各RGV小车的路径规划及位置信息。本发明适用于多智能体RGV小车调度，实现综合多种奖励策略下多智能体的最优调度。本发明所提出的基于MMDDPG算法的RGV小车调度方法及系统考虑了多RGV小车存在时的RGV小车的协作关系，对多个RGV小车进行统一调度，保证了多个RGV小车整体效率的最大化。

本发明提供了一种基于MMDDPG算法的RGV小车调度方法，包括：

根据生产车间的特点，建立车间调度模型，具体包括：将RGV小车在生产车间中的调度建模为直线流水调度模型，调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短，使得加工机器达到最高的利用率；

利用银行家算法为单独的一个RGV小车提供调度策略，决定加工机器的执行次序；

在直线流水调度模型中，采用不可抢占式最低松弛度优先算法；

将每个RGV小车视作一个模块，利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略，实现对多RGV小车的有效协同调度；RGV小车调度基于MMDDPG算法强化学习的结果进行，MMDDPG算法进行强化学习时，对每个RGV小车的强化学习都考虑其他RGV小车的动作策略，进行中心化训练和非中心化执行；所述中心化训练指所有的RGV小车的数据进行统一训练，所述非中心化执行指每个RGV小车按各自规则执行。

优选地，采用银行家算法对单独的一个RGV小车提供调度参考，同时，利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略，实现对多RGV小车的有效协同调度，具体包括：

利用银行家算法为单独的RGV小车提供调度策略π_bank；

利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的调度策略，并为每一个RGV小车提供考虑了其他RGV小车调度的策略π_MMDDPG；

构建每一个RGV小车最终采取的策略π_final如下式：

π_final＝απ_bank+(1-α)π_MMDDPG；

其中，a为可调超参数，取值范围在(0,1)。

优选地，在直线流水调度模型中，采用不可抢占式最低松弛度优先算法，具体为：根据每台加工机器的任务松弛程度确定任务的优先级，任务的紧急程度越高，任务的执行优先级越高。

优选地，加工机器在完成一个任务后随即发出新任务的需求，该台加工机器完成任务的时间＝该台加工机器发出新任务需求的时间。

优选地，不可抢占式最低松弛度优先算法的评判标准为每台加工机器任务的需求紧急程度，将其量化为：

某台加工机器任务松弛度＝该台加工机器完成任务的时间-RGV到达加工机器所在位置的时间；

相当于：某台加工机器任务松弛度＝该台加工机器发出新任务需求的时间-RGV到达加工机器所在位置的时间；

使用数学语言描述如下：

S_n＝T_{new_n}-T_arrived

其中，S_n为第n号CNC任务需求的松弛度，T_{new_n}为第n号加工机器发出新任务需求的时间，T_arrived为RGV到达指定加工机器所在位置花费的路程时间；

其中，

T_{new_n}包括开始工作之后所接受到的任务执行时间、任务等待响应被搁置的总时间和上下料时间，数学语言表示如下：

其中，T_{task_n}为第n个任务发出需求信号的时间，T_{wait_n}为第n个任务等待响应而被搁置的时间，T_top为任务的上料时间，T_down为任务的下料时间。

T_arrived包括RGV提前到达指定位置后所需等待的时间、RGV对熟料进行清洗的时间、为CNC数控机床上下料的时间以及RGV的移动时间，用数学语言表示如下：

其中，

T_{move_n}为RGV到达第n个任务的指定CNC所在位置花费的路程时间，T_{wait_RGV_n}为执行第n个任务时RGV提前到达指定位置等待的时间，T_top为任务的上料时间，T_down为任务的下料时间，T_wash为RGV对熟料进行清洗的时间。

优选地，训练多个不同的子策略的集合，将策略之间的差异作为目标函数，该多个策略的集成目标函数为：

其中，

J(u_i)为多个策略的集成目标函数；

R_i(s，a)为奖励函数；

s为智能体的状态输入；

a为智能体将采取的动作；

μ_i策略集中的第i个策略；

H(μ_i)是策略分布的熵；

p^u为所有状态的集合；

E表示概率论中的期望；

λ是超参数，用来控制目标函数中熵的目标比例，值越大，说明越希望多个策略之间的差异性越大。

优选地，MMDDPG算法强化学习中采用如下公式更新计算目标函数的梯度：

其中，

D为智能体体验重放缓冲区，包括元组(x,x',a₁,...,a_N,r₁,...,r_N)；

u_i为第i个策略；

J(u_i)为第i个策略的目标函数；

θ_i为第i个策略u_i的参数；

为一个集中式动作值函数，函数的输入为a₁,…,a_N，为N个智能体的动作，(r₁,…,r_N)为第i个智能体所获得的奖励；函数的输出为智能体i的动作价值；

x为状态信息，x＝(o₁,…,o_N)，包括N个智能体的观察值，O_i为第i个智能体的观察值；

优选地，强化学习奖励为单位时间的RGV小车运输总量，动作为RGV小车上料、下料以及RGV小车发生位移，状态为各RGV小车的位置。

本发明提供了一种基于MMDDPG算法的RGV小车调度系统，使用上述的任一基于MMDDPG算法的RGV小车调度方法，包括多台RGV小车和控制调度模块；

控制调度模块采用基于MMDDPG算法，根据各台RGV小车的状态，及强化学习的结果，得到输出动作，并发出相应的动作指令；

RGV小车收到控制调度模块发出的动作指令后执行相应的操作，多台RGV协同完成任务。

本发明提供了一种RGV物流分拣系统，包括上述的基于MMDDPG算法的RGV小车调度系统；

RGV物流分拣系统路网模型采用双向随机出入口路网模型；

路网区域划分为x×x个子区域，RGV小车可以到达任意子区域进行分拣作业，然后离开路网；

采用随机生成出入口位置的方式，当RGV入口位置生成时，在对面一侧随机生成出口位置；

根据随机生成的出入口位置进行路径规划。

优选地，在每一次RGV的路径规划完成后，更新路网负载表，路网负载表描述了路网中每一个子区域的路网负载，各子区域的路网负载为RGV路径规划经过该区域的路径数。

优选地，根据更新后的路网负载表，获取各RGV小车的路径规划及位置信息。

与现有技术相对比，本发明的有益效果如下：

(1)本发明所提出的基于MMDDPG算法的RGV小车调度方法及系统考虑了多RGV小车存在时的RGV小车的协作关系，对多个RGV小车进行统一调度，保证了多个RGV小车整体效率的最大化。

(2)本发明融合了MMDDPG及银行家算法两种策略，在保证多个RGV小车整体效率的最大化的同时，也保证了任意一个单一的RGV小车的调度策略。

(3)本发明在对RGV小车进行调度时利用熵函数考虑了RGV小车之间的差异性，使得RGV小车之间的调度策略不会过于相似，避免了最终的策略陷入局部最优。

(4)本发明采用双向随机出入口的RGV分拣路网模型，根据随机生成的出入口位置进行路径规划，在每一次RGV的路径规划完成后，更新路网负载表，RGV小车调度系统根据路网负载表，获取各RGV小车的路径规划及位置信息，实现了高效的多智能体RGV调度。

附图说明

图1是本发明的一个实施例的基于MMDDPG算法的RGV小车调度方法流程图。

具体实施方式

下面结合附图，对本发明的具体实施方式作详细的说明。

本发明提供了一种基于MMDDPG算法的RGV小车调度方法，包括：

利用银行家算法为单独的一个RGV小车提供调度策略，决定加工机器的执行次序；银行家算法在进行资源分配的过程中对事态发展的演进过程进行了动态预测，能够有效地避开死锁问题；

在直线流水调度模型中，采用不可抢占式最低松弛度优先算法，可以更好地提高加工机器的使用率，最大限度地缩短任务等待响应的时间。

本发明提出的MMDDPG算法是对MADDPG算法的改进，MADDPG是一种多智能体是算法，相当于多个智能体采集到原始数据后将数据传回buffer统一训练，这样存在两个问题：

1、没有考虑到智能体之间的相互协作来保证最终收益最大化；

2、现实环境中多个智能体代表的所在的环境的数据存在差异，直接全部传回buffer将会导致难以训练，且统一的模型参数传回给每一个智能体是不合理的。

基于上述问题，本发明将每一个RGV小车作为一个单独的module，每一个module的内部存在一个银行家算法对RGV小车进行调度，而MMDDPG算法结合熵正则化器来使单独的智能体RGV小车了解到其他智能体RGV小车的策略，从而实现对多智能体的有效协同调度，解决了上述问题。

根据本发明的一个具体实施方案，采用银行家算法对单独的一个RGV小车提供调度参考，同时，利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略，实现对多RGV小车的有效协同调度，具体包括：

利用银行家算法为单独的RGV小车提供调度策略π_bank；

构建每一个RGV小车最终采取的策略π_final如下式：

π_final＝απ_bank+(1-α)π_MMDDPG；

其中，a为可调超参数，取值范围在(0,1)。

根据本发明的一个具体实施方案，在直线流水调度模型中，采用不可抢占式最低松弛度优先算法，具体为：根据每台加工机器的任务松弛程度确定任务的优先级，任务的紧急程度越高，任务的执行优先级越高。

根据本发明的一个具体实施方案，在实际的生产过程中，为了达到更高的产量，加工机器在完成一个任务后应随即发出新任务的需求，即该台加工机器完成任务的时间＝该台加工机器发出新任务需求的时间，以减少加工机器的闲置时间，使生产资源利用程度达到最大。

根据本发明的一个具体实施方案，在此基础上，不可抢占式最低松弛度优先概念的评判标准即为每台加工机器任务的需求紧急程度，将其量化为：

某台加工机器任务松弛度＝该台加工机器完成任务的时间-RGV到达加工机器所在位置的时间

相当于：某台加工机器任务松弛度＝该台加工机器发出新任务需求的时间-RGV到达加工机器所在位置的时间

使用数学语言进行描述如下：

S_n＝T_{new_n}-T_arrived

其中，S_n为n号CNC任务需求的松弛度，T_{new_n}为n号加工机器发出新任务需求的时间，T_arrived为RGV到达指定加工机器所在位置花费的路程时间。

例如，假设RGV小车任务为给加工机器上下料，以及清洗加工好的熟料。在RGV对一道工序的执行过程中，RGV为某加工机器完成一次上下料作业后，就会转动机械臂，将一只机械手上的熟料移动到清洗槽上方，进行清洗作业，分析该加工执行过程。

某台加工机器完成旧任务的时间，即发出新任务需求的时间，是一个累加的过程，包括开始工作之后所接受到的任务执行时间、任务等待响应被搁置的总时间和上下料时间，数学语言表示如下：

RGV到达指定加工机器所在位置的时间，也是一个累加的过程，包括RGV提前到达指定位置后所需等待的时间、RGV对熟料进行清洗的时间、为CNC数控机床上下料的时间以及RGV的移动时间，用数学语言表示如下：

其中，T_{move_n}为RGV到达第n个任务的指定CNC所在位置花费的路程时间，T_{wait_RGV_n}为执行第n个任务时RGV提前到达指定位置等待的时间，T_top为任务的上料时间，T_down为任务的下料时间，T_wash为RGV对熟料进行清洗的时间。

根据本发明的一个具体实施方案，训练多个不同的子策略的集合，将策略之间的差异作为目标函数，该多个策略的集成目标函数为：

其中，

J(u_i)为多个策略的集成目标函数；

R_i(s，a)为奖励函数；

s为智能体的状态输入；

a为智能体将采取的动作；

μ_i策略集中的第i个策略；

H(μ_i)是策略分布的熵；

p^u为所有状态的集合；

E表示概率论中的期望；

根据本发明的一个具体实施方案，MMDDPG算法强化学习中采用如下公式更新计算目标函数的梯度：

其中，

u_i为第i个策略；

J(u_i)为第i个策略的目标函数；

θ_i为第i个策略u_i的参数；

根据本发明的一个具体实施方案，强化学习奖励为单位时间的RGV小车运输总量，动作为RGV小车上料、下料以及RGV小车发生位移，状态为各RGV小车的位置。

RGV物流分拣系统路网模型采用双向随机出入口路网模型；

根据随机生成的出入口位置进行路径规划。

根据本发明的一个具体实施方案，在每一次RGV的路径规划完成后，更新路网负载表，路网负载表描述了路网中每一个子区域的路网负载，各子区域的路网负载为RGV路径规划经过该区域的路径数。

根据本发明的一个具体实施方案，根据更新后的路网负载表，获取各RGV小车的路径规划及位置信息。

实施例1

根据本发明的一个具体实施方案，结合附图，对本发明的基于MMDDPG算法的RGV小车调度方法进行详细说明。

本发明提供了一种基于MMDDPG算法的RGV小车调度方法，包括：

实施例2

本发明提供了一种基于MMDDPG算法的RGV小车调度方法，包括：

在直线流水调度模型中，采用不可抢占式最低松弛度优先算法，具体为：根据每台加工机器的任务松弛程度确定任务的优先级，任务的紧急程度越高，任务的执行优先级越高；加工机器在完成一个任务后随即发出新任务的需求，该台加工机器完成任务的时间＝该台加工机器发出新任务需求的时间；不可抢占式最低松弛度优先算法的评判标准为每台加工机器任务的需求紧急程度，将其量化为：

使用数学语言描述如下：

S_n＝T_{new_n}-T_arrived

其中，

其中，

T_{move_n}为RGV到达第n个任务的指定CNC所在位置花费的路程时间，T_{wait_RGV_n}为执行第n个任务时RGV提前到达指定位置等待的时间，T_top为任务的上料时间，T_down为任务的下料时间，T_wash为RGV对熟料进行清洗的时间；

将每个RGV小车视作一个模块，利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略，实现对多RGV小车的有效协同调度，具体包括：

利用银行家算法为单独的RGV小车提供调度策略π_bank；

构建每一个RGV小车最终采取的策略π_final如下式：

π_final＝απ_bank+(1-α)π_MMDDPG；

其中，a为可调超参数，取值范围在(0,1)；

RGV小车调度基于MMDDPG算法强化学习的结果进行，MMDDPG算法进行强化学习时，对每个RGV小车的强化学习都考虑其他RGV小车的动作策略，进行中心化训练和非中心化执行；所述中心化训练指所有的RGV小车的数据进行统一训练，所述非中心化执行指每个RGV小车按各自规则执行。

训练多个不同的子策略的集合，将策略之间的差异作为目标函数，该多个策略的集成目标函数为：

其中，

J(u_i)为多个策略的集成目标函数；

R_i(s，a)为奖励函数；

s为智能体的状态输入；

a为智能体将采取的动作；

μ_i策略集中的第i个策略；

H(μ_i)是策略分布的熵；

p^u为所有状态的集合；

E表示概率论中的期望；

MMDDPG算法强化学习中采用如下公式更新计算目标函数的梯度：

其中，

u_i为第i个策略；

J(u_i)为第i个策略的目标函数；

θ_i为第i个策略u_i的参数；

强化学习奖励为单位时间的RGV小车运输总量，动作为RGV小车上料、下料以及RGV小车发生位移，状态为各RGV小车的位置。

实施例3

根据本发明的一个具体实施方案，结合附图，对本发明的基于MMDDPG算法的RGV小车调度系统进行详细说明。

本发明提供了一种基于MMDDPG算法的RGV小车调度系统，使用本发明的基于MMDDPG算法的RGV小车调度方法，包括多台RGV小车和控制调度模块；

在本实施例中，强化学习奖励为单位时间的RGV小车运输总量，动作为RGV小车上料、下料以及RGV小车发生位移，状态为各RGV小车的位置。

实施例4

根据本发明的一个具体实施方案，结合附图，对本发明的RGV物流分拣系统进行详细说明。

RGV物流分拣系统路网模型采用双向随机出入口路网模型；

根据随机生成的出入口位置进行路径规划。

在每一次RGV的路径规划完成后，更新路网负载表，路网负载表描述了路网中每一个子区域的路网负载，各子区域的路网负载为RGV路径规划经过该区域的路径数。

根据更新后的路网负载表，获取各RGV小车的路径规划及位置信息。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于MMDDPG算法的RGV小车调度方法，其特征在于，包括：

将每个RGV小车视作一个模块，利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略，实现对多RGV小车的有效协同调度；

2.根据权利要求1所述的基于MMDDPG算法的RGV小车调度方法，其特征在于，采用银行家算法对单独的一个RGV小车提供调度参考，同时，利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略，实现对多RGV小车的有效协同调度，具体包括：

利用银行家算法为单独的RGV小车提供调度策略π_bank；

构建每一个RGV小车最终采取的策略π_final如下式：

π_final＝απ_bank+(1-α)π_MMDDPG；

其中，a为可调超参数，取值范围在(0,1)。

3.根据权利要求2所述的基于MMDDPG算法的RGV小车调度方法，其特征在于，在直线流水调度模型中，采用不可抢占式最低松弛度优先算法，具体为：根据每台加工机器的任务松弛程度确定任务的优先级，任务的紧急程度越高，任务的执行优先级越高。

4.根据权利要求3所述的基于MMDDPG算法的RGV小车调度方法，其特征在于，训练多个不同的子策略的集合，将策略之间的差异作为集成目标函数，该多个策略的集成目标函数为：

其中，

J(u_i)为多个策略的集成目标函数；

R_i(s，a)为奖励函数；

s为智能体的状态输入；

a为智能体将采取的动作；

μ_i策略集中的第i个策略；

H(μ_i)是策略分布的熵；

p^u为所有状态的集合；

E表示概率论中的期望；

5.根据权利要求4所述的基于MMDDPG算法的RGV小车调度方法，其特征在于，MMDDPG算法强化学习中采用如下公式更新计算目标函数的梯度：

其中，

u_i为第i个策略；

J(u_i)为第i个策略的目标函数；

θ_i为第i个策略u_i的参数；

x为状态信息，x＝(o₁,…,o_N)，包括N个智能体的观察值，O_i为第i个智能体的观察值。

6.根据权利要求1所述的基于MMDDPG算法的RGV小车调度方法，其特征在于，强化学习奖励为单位时间的RGV小车运输总量，动作为RGV小车上料、下料以及RGV小车发生位移，状态为各RGV小车的位置。

7.一种基于MMDDPG算法的RGV小车调度系统，其特征在于，使用权利要求1-6所述的基于MMDDPG算法的RGV小车调度方法，包括多台RGV小车和控制调度模块；

8.一种RGV物流分拣系统，其特征在于，包括权利要求7所述的基于MMDDPG算法的RGV小车调度系统；

RGV物流分拣系统路网模型采用双向随机出入口路网模型；

根据随机生成的出入口位置进行路径规划。

9.根据权利要求8所述的RGV物流分拣系统，其特征在于，在每一次RGV的路径规划完成后，更新路网负载表，路网负载表描述了路网中每一个子区域的路网负载，各子区域的路网负载为RGV路径规划经过该区域的路径数。

10.根据权利要求9所述的RGV物流分拣系统，其特征在于，根据更新后的路网负载表，获取各RGV小车的路径规划及位置信息。