CN112835333A

CN112835333A - 一种基于深度强化学习多agv避障与路径规划方法及系统

Info

Publication number: CN112835333A
Application number: CN202011641338.7A
Authority: CN
Inventors: 李海生; 孙宇; 李楠; 曹健; 吴晓群
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-25
Anticipated expiration: 2040-12-31
Also published as: CN112835333B

Abstract

本发明涉及一种基于深度强化学习多AGV避障与路径规划方法及系统，其方法包括：步骤S1：每个AGV进行数据采集以及预处理，得到输入图片；步骤S2：将输入图片输入避障神经网络并进行训练，得到障碍物特征图；步骤S3：将每个AGV的障碍物特征图，输入路径规划决策模型，得到每个AGV的路径规划策略；步骤S4：每个AGV根据中央控制器所获取的所有AGV的状态‑动作对，以获取全局路径规划策略，并根据全局路径规划策略更新每个所述AGV的路径规划策略，以获得最优的全局路径规划策略。本发明采取一种多AGV的Actor‑Critic深度强化学习方法，通过分散执行‑集中学习的框架方式解决多AGV的路径规划与冲突协调的问题，同时，规避了通信协议的引入，避免了通信延迟所带来的弊端。

Description

一种基于深度强化学习多AGV避障与路径规划方法及系统

技术领域

本发明属于多AGV控制技术领域，特别涉及了一种基于深度强化学习多AGV避障与路径规划方法及系统。

背景技术

传统制造工厂需要向智能工厂转型，其中的首要任务即实现车间的无人化。计算机集成制造系统技术和工业自动化的逐步发展，自动引导车(Automated Guided Vehicle，简称AGV) 作为一种运输工具，被广泛应用于制造设施、仓库和配送等环节中移动原材料或工具，是实现无人车间的重要环节，并逐渐发展成为现代物流加工自动化的有效手段。AGV系统由计算机控制，能自主导航，自动规划路径和执行任务，相比传统的运输工具，具有方便调度与管理，安全可靠，自动化程度高等优点，是当前国际机器人应用研究领域的热点之一。

在多AGV协同任务调度方面，多AGV智能自动运输系统对提升轨道交通的运转稳定性、工作效率、降低生产作业成本有着重要意义，是企业优化自身管理运行机制、实现装备自动化与管理信息化以及提升效益的必由之路。但是，随着任务量级的扩大以及可用AGV数量的增多，任务分配、AGV多车调度等问题的复杂度也提升，如何在固定场景中，为多个AGV规划无碰撞的最优任务调度是AGV的难点问题。

多AGV协同运输是在学习地图建立、环境特征的基础上，结合机器视觉，利用强化学习、场景理解等技术，对任务进行分析和分配，准确规划各个小车的路径，实现最优调度，以最低成本完成物料运输任务。多AGV协同任务调度、多AGV路径规划和自主导航、智能避障、仿真验证是协调多个AGV完成物料工具自动运输的研究重点。虽然已经取得了一定的成果，但仍存在多AGV间任务冲突，行为不协调，信息不共享等问题。

公开号为CN110989570A的发明专利公开了一种多AGV防碰撞协同路径规划方法，该方法为仓储环境建立格栅地图，将仓储等比缩放划分为格栅图，为每个格栅图赋予权值，即路过该格栅的次数；同时为AGV小车赋予优先级以避免冲突的发生；对于碰撞冲突的处理，该方法明确了多AGV可能存在的各种冲突类型，并设计了判断方式与解决办法；采用了稀疏算法的思想，使AGV的行驶路线尽量均衡，减少了冲突发生的概率。

现有技术在处理多AGV避障与路径规划问题中，多采取格栅法进行地图建模，利用地图的先验知识，线下根据经验对碰撞冲突进行处理；但是，由于智能仓储环境的不确定性和非平稳行的动态特点，这些方法不足以适应于智能仓库中AGV作业环境：货物作为仓储中的静态障碍物由于搬运需求情况下，位置是不固定的、变化的；仓库管理员以及多AGV作为动态障碍物，在没有先验知识的情形下很难预估它们的移动路线从而避免碰撞。针对多AGV避障与路径规划问题中，为了使得AGV间信息共享，通过引入通信协议引入可以解决信息共享问题，但随着AGV集群规模增大，通信延迟因素，带宽的影响成为导航的阻碍。

发明内容

为了解决上述技术问题，本发明提供一种基于深度强化学习多AGV避障与路径规划方法及系统。

本发明技术解决方案为：一种基于深度强化学习多AGV避障与路径规划方法，包括：

步骤S1：每个AGV进行数据采集以及预处理，得到输入图片；

步骤S2：将所述输入图片输入避障神经网络并进行训练，得到障碍物特征图；

步骤S3：将每个所述AGV的所述障碍物特征图，输入路径规划决策模型，得到每个所述AGV的路径规划策略；

步骤S4：每个AGV根据中央控制器所获取的所有AGV的状态-动作对，以获取全局路径规划策略，并根据所述全局路径规划策略更新每个所述AGV的所述路径规划策略，以获得最优的所述全局路径规划策略。

本发明与现有技术相比，具有以下优点：

1、本发明采取一种多AGV的Actor-Critic深度强化学习方法，能够有效地学习多AGV 系统的分散策略。通过采用集中训练与学习，分散采样与执行的框架，每个AGV个体分别通过Actor对环境进行观测与执行，并通过Critic作为中央控制器接收整体AGV集群的环境观测数据并对整体策略进行优化与控制，并对每个AGV的策略进行集中的控制与更新，优化多AGV运输系统整体性能。这种分散执行-集中学习的框架方式可以有效解决多AGV系统的路径规划与冲突协调的问题。

2、本发明针对智能仓储环境的动态性与部分未知性特点以及AGV运输作业所需求的实时避障的特点，采取基于深度强化学习与机器视觉相结合的方法对AGV进行导航与避障。本发明能够实现多AGV分布式的运输任务，能够有效减少多个AGV的路径规划的计算量与所需的存储空间，规避了通信协议的引入，不依赖于任何通信的引入，大大减少了通信开销，避免了通信延迟所带来的弊端。

附图说明

图1为本发明实施例中一种基于深度强化学习多AGV避障与路径规划方法的流程图；

图2为本发明实施例中AGV动作设置俯视图；

图3为本发明实施例中一种基于深度强化学习多AGV避障与路径规划方法中步骤S2：将输入图片输入避障神经网络并进行训练，得到障碍物特征图的流程图；

图4为本发明实施例中一种基于深度强化学习多AGV避障与路径规划方法中步骤S3：将每个AGV的障碍物特征图，输入路径规划决策模型，得到每个AGV的路径规划策略的流程图；

图5为本发明实施例中一种基于深度强化学习多AGV避障与路径规划方法中步骤S4：每个AGV根据中央控制器所获取的所有AGV的状态-动作对，以获取全局路径规划策略，并根据全局路径规划策略更新每个AGV的路径规划策略，以获得最优的全局路径规划策略的流程图；

图6为本发明实施例中一种基于深度强化学习多AGV避障与路径规划方法的架构图；

图7为本发明实施例中一种基于深度强化学习多AGV避障与路径规划系统的结构框图。

具体实施方式

本发明提供了一种基于深度强化学习多AGV避障与路径规划方法，通过采用集中训练与学习，分散采样与执行的框架，每个AGV个体分别通过Actor对环境进行观测与执行，并通过Critic作为中央控制器接收整体AGV集群的环境观测数据并对整体策略进行优化与控制，并对每个AGV的策略进行集中的控制与更新，优化多AGV运输系统整体性能。这种分散执行-集中学习的框架方式可以有效解决多AGV系统的路径规划与冲突协调的问题。同时，采取基于深度强化学习与机器视觉相结合的方法对AGV进行导航与避障。本发明能够实现多AGV分布式的运输任务，能够有效减少多个AGV的路径规划的计算量与所需的存储空间，规避了通信协议的引入，不依赖于任何通信的引入，大大减少了通信开销，避免了通信延迟所带来的弊端。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

在本发明实施例中，使用仿真平台ROS Gazebo中进行仿真实验。ROS Gazebo提供了开源物理仿真环境、机器人以及各种传感器接口来创建实验环境。同时，仿真三维环境相较于传统的格栅地图模型更贴近于现实环境，可设置多种形状的障碍物进行模型的灵活构建，更加贴合真实环境中物体形状以及对AGV小车的运动控制，以验证本发明提供得方法的可行性与鲁棒性。

实施例一

如图1所示，本发明实施例提供的一种基于深度强化学习多AGV避障与路径规划方法，包括下述步骤：

步骤S1：每个AGV进行数据采集以及预处理，得到输入图片；

步骤S2：将输入图片输入避障神经网络并进行训练，得到障碍物特征图；

步骤S3：将每个AGV的障碍物特征图，输入路径规划决策模型，得到每个AGV的路径规划策略；

步骤S4：每个AGV根据中央控制器所获取的所有AGV的状态-动作对，以获取全局路径规划策略，并根据全局路径规划策略更新每个AGV的路径规划策略，以获得最优的全局路径规划策略。

在一个实施例中，步骤S1中，每个AGV进行数据采集以及预处理，包括：

首先，如图2所示，为AGV小车进行坐标系建立与AGV小车状态和动作设置。本发明采用不同大小的速度v来控制AGV小车前进快慢与原地怠速，速度v取值范围是 v∈[0m/s,1m/s]，以及不同大小角速度ω来控制小车的转向，角速度取值范围是ω∈[-1rad/s,1rad/s]。

其次，依据仿真环境中的障碍物形状与位置，设置不同形状的静态障碍物，以及动态障碍物的多条移动路线，在仿真平台中构建三维场景，并建立坐标系。为AGV小车配置运输任务，赋予AGV小车行车路径的起点与目标终点的位置的任务信息。

同时，还为每个AGV小车装备双目摄像机，对周边环境信息进行实时摄像捕捉，获取周边环境的图像信息，并对拍摄到的图像进行尺寸缩放，灰度化的预处理操作以减少后续计算量。经过上述预处理后，得到可适用于避障神经网络的输入图像。

如图3所示，在一个实施例中，上述步骤S2：将输入图片输入避障神经网络并进行训练，得到障碍物特征图，包括：

步骤S21：将输入图片输入避障神经网络，进行如下述公式(1)所示的至少一层的卷积操作，输出特征图；

y_ijk＝(W_i*x)_jk+b_i (1)

其中，y_ijk表示第i个所述特征图坐标(j,k)处的像素值，W_i为第i个卷积核，x是输入， b_i是偏置向量的第i个元素，它对应于第i个卷积核。

在本发明实施例中，避障神经网络是由三层不同大小的卷积神经网络构成，第一层卷积神经网络使用8*8大小的卷积核，步长为4；第二层卷积神经网络使用4*4大小卷积核，步长为2；第三层卷积层使用3*3大小卷积核，步长为1。

本发明对于卷积神经网络的选取不做具体限制，可根据实际需要，选取不同层级，不同尺寸的卷积核以及不同大小的步长。

步骤S22：使用线性整流函数ReLU对特征图，进行非线性激活；

本发明实施例中，采用线性整流函数(ReLU)进行非线性激活，相较于sigmod激活函数使得梯度不会消失，以保证避障神经网络整体的鲁棒性。

步骤S23：采用池化操作，获取障碍物特征图。

池化操作取一个图像区域中的最大值或平均值，从而提高网络的鲁棒性和降低噪声观测的影响获，最终可获取每个AGV周围环境的障碍物特征图。

此外，针对AGV小车自身状态信息，本发明采用长短期记忆网络(LSTM，LongShort-Term Memory)进行处理，利用LSTM网络可以从这些静态序列信息中自动提取出动态信息，例如动态障碍的速度和方向，在传统的路径规划方法中这些信息通常只能通过增加昂贵的传感器设备获取，本发明的采用LSTM方法大大减少了设备的费用投入。

如图4所示，在一个实施例中，上述步骤S3：将每个AGV的障碍物特征图，输入路径规划决策模型，得到每个AGV的路径规划策略，包括：

步骤S31：对每个AGV构建一个七元组(S,A,P,R,Ω,O,γ)；

其中，S是AGV的状态；A是一组有限动作集合；P是状态转移矩阵；R是收益函数， R(s,a)表示在状态s执行动作a带来的收益；Ω是条件观察概率；O＝(o)是一组观察结果集；γ是折扣因子。

在本发明实施例中，所构建的路径规划策略模型采用部分观测的马尔科夫决策过程(Partially Observable Markov Decision Process，缩写：POMDP)。该模型更加贴近于真实环境中AGV通过部分观测确定自己身状态，其目标是寻找一个获得最大累积奖励的策略。对于多AGV路径规划任务设置n个AGV，(AGV₁,AGV₂,…,AGV_n)，每个AGV对应一个七元组(S,A,P,R,Ω,O,γ)。

其中，S是一组AGV的有限状态集S＝(s₁,…,s_i,…s_n)，包括AGV小车自身状态信息：AGV当前位置、车头方向和尺寸、AGV当前速度、目标位置和目标方向，表达式为

其中，在基于周围环境的全局坐标系下，(p_x,p_y)表示AGV的当前位置，θ表示AGV车头所指方向，r表示AGV车体半径尺寸，(p_gx,p_gy)表示目标位置，在基于AGV车的本体坐标系下，v表示线速度，ω表示角速度。

A是一组AGV的有限动作集A＝(a₁,…,a_i,…a_n)；对于AGV小车的动作集设置，本发明实施例将AGV动作设置由速度v与角速度ω组成，不同大小的速度来控制AGV小车运行快慢与原地怠速，角速度的不同来控制小车的转向。不同于现有技术中只设置了小车向前、左前、右前和后退的动作，本发明实施例中的AGV小车的动作更加全面灵活，同时在路径规划时路线更加的平滑，考虑到实际运输环境的动态性。本发明实施例中AGV采取线速度上限为0.5m/s，最大角速度上限为1rad/s。

P是状态转移矩阵，P_a(s′∣s)＝P(s′∣s,a)，表示AGV在时间t，在状态s下，采取动作a可以在时间t+1转换到状态s'的概率。

R:S×A→R是收益函数，R(s,a)表示AGV在状态s时，执行动作a所带来的收益。

O＝(o)是一组观察结果集，通过AGV的传感器获得的周围环境数据。

Ω是条件观察概率，由于本发明采取部分观测机制以及多AGV环境的不确定性，使得 AGV无法确定当前观测到的环境与真实状态是否相符，于是，引入条件观察概率Ω(o|s)，就是AGV在观察到周围环境数据o时，有多大概率确定自己处于状态。

步骤S32：AGV根据障碍物特征图和其当前所处状态，通过随机策略选择动作，并根据动作的执行结果计算收益R；

在本步骤中，每个AGV通过Actor与环境进行交互获取观测向量o_i，随后将观测向量与自身向量结合组成状态s_i，每个AGV依据当前状态由随机策略π_i选择相应的动作a_i,根据动作执行的结果反馈给AGV对应的奖惩，AGV因任务不同，奖惩函数会有一定程度的差异，通用的奖惩函数如下述公式(2)所示：

其中r_reach与r_collision表示执行动作后到达目标点与发生碰撞所产生的奖惩，训练中当AGV 执行动作后驶离目标点后给予一定的惩罚，d_t表示当前AGV与目的地的距离，d_t-1表示上一步长AGV与目的地的距离，当AGV小车执行动作后靠近目标点给予相应奖励。上述的奖励函数有利于最佳路径的选择，也使得模型训练能够更快收敛，x₁表示常数系数，可根据实际需求调整相应大小；训练的目的是使得AGV选择最优路径，除非必要希望发生更少次数的转向与速度变化，所以给予较小的惩罚当动作发生变化时，x₂为较小的常数系数，可根据实际情况进行调整。

步骤S33：重复上述步骤S32，直到AGV达到目标点或发生碰撞，计算使得累计收益函数的值达到最大的路径，即为该AGV的路径规划策略。

每个AGV不断重复上述步骤S32，根据测状态与AGV自身状态，执行策略π_i的动作a_t后获取奖励r_i，并转移到下个状态；循环往复直至AGV到达目标点完成任务或发生碰撞结束回合，以获取最大的累计奖励。累计收益函数如下述公式(3)所示：

其中，E是时间变量t的从t0时刻到训练回合结束时累计的收益和，r_t是第i个AGV小车在时刻t的的收益；γ∈[0,1]是折扣因子，γ决定了最近的收益和未来的收益哪个对AGV 影响更大，当γ＝0，表示AVG考虑选择哪个动作可以获得下一次行动中最大收益，因为之后的动作收益均为0；当γ＝1，表示AGV考虑选择哪个动作可以使得所有动作的收益总和最大；π为路径规划策略。

对于每个单一AGV的最终目标是寻找使得累计奖励最大化的路径规划策略，举例来说，可以是行驶时间最短、距离最短、或者转向最少的路径。

本发明实施例中的多AGV系统，即要保证每个AGV收益最大，也要避免AGV间碰撞与冲突的发生，甚至多个AGV为了选择最优路径而产生的死锁发生。多AGV系统整体与个体，个体与个体之间都存在着一定的竞争关系。所以为了保证整个多AGV系统的稳定有序运行，本发明公开了Actor-Critic架构，Critic作为中央控制器，除了获取AGV自身Actor 的状态-动作对的信息，还可以获取其他AGV的Actor的状态-动作对的信息，通过然后通过观察到的其他AGV的动作来拟合出对方的策略，进行整体策略调整与优化使得AGV集群能够独立地采样，统一的学习。

如图5所示，在一个实施例中，上述步骤S4：每个AGV根据中央控制器所获取的所有AGV的状态-动作对，以获取全局路径规划策略，并根据全局路径规划策略更新每个 AGV的路径规划策略，以获得最优的全局路径规划策略，包括：

步骤S41：每个AGV通过Actor收集路径规划策略，并存入缓存池；

步骤S42：当缓存池中路径规划策略的数量大于预设阈值时，开始策略学习；

步骤S43：每个Actor分别根据各自当前的状态-动作对来更新AGV的路径规划策略；

步骤S44：每个AGV根据中央控制器所获取的所有AGV的状态-动作对，以得到全局路径规划策略，并根据全局路径规划策略，更新每个AGV的动作值函数参数，以使得每个AGV的路径规划策略对全局路径规划策略的贡献最大；

如图6所示，中央控制器Critic对每个AGV建立动作状态值函数：

集中式的Critic的更新方法采用如下述公式(4)所示，以DQN中的目标网络思想来稳定动作函数和评价函数的学习过程：

其中，缓存池D中的每一个元素的都是一个四元组(s,a,r,s')，其中，s表示当前状态， s’表示下一状态。缓存池D记录了所有AGV的路径规划策略，动作函数的学习可以通过梯度下降算法来实现，中心化的动作值函数可以通过反向传播算法进行更新。公式(4)中

表示第i个AGV评价函数，θ_i对应第i个目标网络中的动作函数参数，μ'为目标策略具有滞后更新的参数，其他AGV的策略可以采用拟合逼近的方式得到，因此不需要各个AGV之间进行通信交互。

步骤S45：重复步骤S42～S44，每个中央控制器更新全局路径规划策略，以获取最大全局累计奖励，得到最优的全局路径规划策略。

在本步骤中，每个中央控制器更新全局路径规划策略，并调整每个AGV的动作，以获取最大全局累计奖励，重复步骤S42～S44，直至所有AGV到达目标点，此时得到最优的全局路径规划策略。

本发明实施例通过深度强化学习并结合多AGV的Actor-Critic架构，根据周围环境的动态性与局部未知性的特点解决了多AGV的避障与路径规划问题；不再依赖于人工构建格栅地图，通过训练能够自主对场景进行视觉识别，从而顺利避障，由速度与角速度构成的动作通过对AGV的车轮控制，使规划的路线更加平滑。同时，多AGV的Actor-Critic架构的集中式训练分布式执行的特点，更加贴切于真实环境中多AGV的实际运输需求，使得在执行时各个AGV只通过自身摄像机的观测进行动作执行，不依赖于其他AGV的观测信息以及全局信息；Critic作为AGV集群优化控制器,协调各个AGV之间避免碰撞发生，不依赖于任何通信的引入，大大减少了通信开销，避免了通信延迟所带来的弊端。

实施例二

如图7所示，本发明实施例提供了一种基于深度强化学习多AGV避障与路径规划系统，包括下述模块：

数据预处理模块51，用于每个AGV进行数据采集以及预处理，得到输入图片；

避障神经网络训练模块52，用于将输入图片输入避障神经网络并进行训练，得到障碍物特征图；

路径规划决策模块53，用于将每个AGV的所述障碍物特征图，输入路径规划决策模型，得到每个AGV的路径规划策略；

全局路径规划决策模块54，用于将每个AGV根据中央控制器所获取的所有AGV的状态-动作对，以获取全局路径规划策略，并根据全局路径规划策略更新每个所述AGV的路径规划策略，以获得最优的所述全局路径规划策略。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于深度强化学习多AGV避障与路径规划方法，其特征在于，包括：

步骤S1：每个AGV进行数据采集以及预处理，得到输入图片；

步骤S4：每个AGV根据中央控制器所获取的所有AGV的状态-动作对，以获取全局路径规划策略，并根据所述全局路径规划策略更新每个AGV的所述路径规划策略，以获得最优的所述全局路径规划策略。

2.根据权利要求1所述的基于深度强化学习多AGV避障与路径规划方法，其特征在于，所述步骤S2：将所述输入图片输入避障神经网络并进行训练，得到障碍物特征图，包括：

步骤S21：将所述输入图片输入避障神经网络，进行如下述公式(1)所示的至少一层的卷积操作，输出特征图；

y_ijk＝(W_i*x)_jk+b_i (1)

其中，y_ijk表示第i个所述特征图坐标(j,k)处的像素值，W_i为第i个卷积核，x是输入，b_i是偏置向量的第i个元素，它对应于第i个卷积核；

步骤S22：使用线性整流函数ReLU对所述特征图，进行非线性激活；

步骤S23：采用池化操作，获取所述障碍物特征图。

3.根据权利要求1所述的基于深度强化学习多AGV避障与路径规划方法，其特征在于，所述步骤S3：将所述障碍物特征图，输入路径规划决策模型，得到所述每个AGV的路径规划策略，包括：

步骤S31：对每个AGV构建一个七元组(S,A,P,R,Ω,O,γ)；

其中，S是AGV的状态；A是一组有限动作集A＝(a₁,…,a_i,…a_n)；P是状态转移矩阵；R是收益函数，R(s,a)表示在状态s执行动作a带来的收益；Ω是条件观察概率；O＝(o)是一组观察结果集；γ是折扣因子；

步骤S32：AGV根据所述障碍物特征图和其当前所处状态，通过随机策略选择动作，并根据所述动作的执行结果计算收益R；

步骤S33：重复步骤S32，直到AGV达到目标点或发生碰撞，计算使得累计收益函数的值达到最大的路径，即为该AGV的路径规划策略。

4.根据权利要求1所述的基于深度强化学习多AGV避障与路径规划方法，其特征在于，所述步骤S4：每个AGV根据中央控制器所获取的所有AGV的状态-动作对，以获取全局路径规划策略，并根据所述全局路径规划策略更新每个AGV的所述路径规划策略，以获得最优的所述全局路径规划策略，包括：

步骤S41：每个所述AGV通过Actor收集所述路径规划策略，并存入缓存池；

步骤S42：当所述缓存池中所述路径规划策略的数量大于预设阈值时，开始策略学习；

步骤S43：每个Actor分别根据各自当前的状态-动作对来更新AGV的所述路径规划策略；

步骤S44：每个AGV根据中央控制器所获取的所有AGV的所述状态-动作对，以获取全局路径规划策略，并根据所述全局路径规划策略，更新每个AGV的动作值函数参数，以使得每个AGV的所述路径规划策略对所述全局路径规划策略的贡献最大；

步骤S45：重复步骤S42～S44，每个所述中央控制器更新所述全局路径规划策略，以获取最大全局累计奖励，得到最优的全局路径规划策略。

5.一种基于深度强化学习多AGV避障与路径规划系统，其特征在于，包括下述模块：

数据预处理模块，用于每个AGV进行数据采集以及预处理，得到输入图片；

避障神经网络训练模块，用于将所述输入图片输入避障神经网络并进行训练，得到障碍物特征图；

路径规划决策模块，用于将每个AGV的所述障碍物特征图，输入路径规划决策模型，得到每个所述AGV的路径规划策略；

全局路径规划决策模块，用于将每个AGV根据中央控制器所获取的所有AGV的状态-动作对，以获取全局路径规划策略，并根据所述全局路径规划策略更新每个所述AGV的所述路径规划策略，以获得最优的所述全局路径规划策略。