CN108776483A

CN108776483A - 基于蚁群算法和多智能体q学习的agv路径规划方法和系统

Info

Publication number: CN108776483A
Application number: CN201810935222.0A
Authority: CN
Inventors: 英春; 谭书华; 李娜; 雷蕾; 孙知信; 孙哲
Original assignee: Tact Day Day Express Ltd
Current assignee: Tact Day Day Express Ltd
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2018-11-09
Anticipated expiration: 2038-08-16
Also published as: CN108776483B

Abstract

本发明公开了一种基于蚁群算法和多智能体Q学习的AGV路径规划方法和系统，提高了全局优化的能力，将多智能体Q学习引入AGV的路径规划研究中可以实现AGV在交互中学习如何避障，并且能够更好地发挥出AGV的自主性和学习能力。其技术方案为：根据静态环境利用栅格法对AGV作业环境进行建模，设置起始点和目标点；根据AGV的起始点和目标点坐标通过蚁群算法生成全局最优路径；AGV根据全局优化路径向目标点移动，当探测到最小距离内存在动态障碍物时，通过多智能体Q学习对应环境状态进行避障策略的选择，据此作出相应的避障动作，避障结束再返回原来的路径上继续运动。

Description

基于蚁群算法和多智能体Q学习的AGV路径规划方法和系统

技术领域

本发明涉及一种AGV路径规划技术，具体涉及动态环境下基于改进的蚁群算法和优化的多智能体Q学习的AGV(Automated Guided Vehicle，自动导引运输车)路径规划方法和系统。

背景技术

路径规划是AGV规划调度中的重要问题，随着越来越多的AGV投入使用，带来了很多新的问题，比如动态变化的环境模型建立的问题；多AGV的路径规划以及避障的问题；多AGV系统的学习性、智能性的发挥问题。已有的AGV路径规划方法有群智能仿生算法，A*、D*算法等，这类单一的全局规划方法往往达不到全局最优，对环境的先验知识要求较高，需要占用较大的存储空间，遇到复杂的动态的环境，这类规划方法的效率会大幅下降。而且这些算法不能体现和发挥AGV系统的智能性和学习能力，缺乏AGV与动态环境的交互和AGV之间的联系。

蚁群算法具有强大的鲁棒性，良好的分布式计算，且它的机制是蚂蚁找到巢与食源之间可行的最短路径，与路径规划的物理过程相吻合，这使得蚁群算法很适合应用在路径规划中，然而典型的蚁群算法容易陷入局部最优解，收敛速度慢。目前对于蚁群算法的改进主要有两个方面，第一个策略集中在蚁群算法本身，例如，重新定义转移概率并建立新的信息素更新方法。第二个策略是将传统的蚁群算法与其他智能算法相结合。例如，遗传算法可以用于获得基于蚁群算法执行优化的初始解。或者将混沌机制加入蚁群算法，提高多样性，跳出局部最优。而后者需要更大的时间空间代价。

人工智能的一个重要目标就是让agent能够拥有自主学习的能力，能够通过与复杂的未知环境交互来获得经验，作为基于行为的移动机器人路径规划，强化学习在路径规划中的应用得到了广泛的关注。其中Q学习算法作为一种强化学习算法，是从环境状态到动作映射的学习，Agent根据最大奖励值采取最优的策略，Q学习算法原理易懂，便于结合实际，适合用于未知环境下的AGV路径规划研究，但是在一个多智能体系统下的智能体不只一个，所以在应用Q学习时需要区别于单智能体Q学习，多智能体需要考虑其他智能体的决策和影响，当环境复杂未知，智能体数量过多时，整个状态空间的维数会迅速增长，出现维度灾难。因此如何提高多智能体Q学习学习效率，降低状态空间的复杂性需要得到解决。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种基于蚁群算法和多智能体Q学习的AGV路径规划方法和系统，提高了全局优化的能力，将多智能体Q学习引入AGV的路径规划研究中可以实现AGV在交互中学习如何避障，并且能够更好地发挥出AGV的自主性和学习能力。

本发明的技术方案为：本发明揭示了一种基于蚁群算法和多智能体Q学习的AGV路径规划方法，包括：

步骤一：根据静态环境利用栅格法对AGV作业环境进行建模，根据AGV作业任务设置起始点和目标点；

步骤二：根据AGV的起始点和目标点坐标通过蚁群算法生成AGV的全局最优路径；

步骤三：AGV根据全局优化路径向目标点移动，当探测到最小距离内存在包括其他AGV在内的动态障碍物时，通过多智能体Q学习对应环境状态进行避障策略的选择，据此作出相应的避障动作，避障结束再返回原来的路径上继续运动。

根据本发明的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例，在步骤二中，蚁群算法中的适应度函数为其中num为AGV走过的栅格数，D为AGV所走路径长度，k表示第k只蚂蚁。

根据本发明的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例，在步骤二中，在蚂蚁k发生位置转移时，蚁群算法中的启发式因子为

其中η_ij为位置点i上的蚂蚁选择下一步到相邻位置点j的启发式因子，d_ij是相邻两位置点i和位置点j的距离，d_je是位置点j到目标点的距离；

其中i和j表示栅格位置，x_j是位置点j的横坐标，y_j是位置点j的纵坐标，(x_end，y_end)是终点坐标。

根据本发明的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例，在步骤二中，蚁群算法中的信息素更新策略为：

τ_ij(t+n)＝(1-ρ)Δτ_ij(t)+Δτ_ij(t)

其中τ_ij(t+n)是t+n时刻(i，j)处的信息素量，Δτ_ij(t)是t时刻(i，j)处的信息素增量，1-ρ表示残留因子，是蚂蚁k在t时刻经过路径(i，j)留下的信息素，m是指蚁群种群数量。

根据本发明的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例，在步骤二中，蚁群算法中的信息素挥发系数随着迭代次数的增加而自适应的改变，自适应信息素挥发系数的更新规则为：

ρ^*＝[1-e^(n-N)/N]ρ

其中ρ是信息素挥发系数，n是当前的迭代次数，N是迭代的总数。

根据本发明的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例，步骤二中通过蚁群算法获得当前AGV的全局最优路径的步骤进一步包括：

步骤1：根据蚁群系统的转移概率公式计算每只蚂蚁到达每个节点的概率；

步骤2：一次迭代后更新信息素剩余信息，更新t+n时刻路径path(i，j)上的信息素τ_ij(t+n)和信息素增量θ是用于调整每条路径上的信息素量的衰减系数以表示每条路径上的信息素递减，是调整后的信息素增量，是蚂蚁k经过路径(i，j)时留下的信息素，在一轮循环过后所有的路径长度都被记录在矩阵中，计算这一轮每条路径的平均值

步骤3：判断这一轮的每条路径是否大于平均值若存在比平均值小的路径则调整最优路径，否则跳转到步骤4；

步骤4：输出这一轮的最优解，更新全局最优路径；

步骤5：判断当前的最优路径迭代次数n是否在最大迭代次数N之内，若是则跳转到步骤6，否则自适应调整信息素挥发速率ρ^*＝[1-e^(n-N)/N]ρ，ρ是信息素挥发系数；

步骤6：判断循环是否结束，若是则跳转到步骤7，若否则跳转到步骤1；

步骤7：得到当前AGV的全局最优路径。

根据本发明的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例，步骤三的多智能体Q学习的过程包括：

初始化每一智能体的状态集、动作集，初始化Q(s，a)表，设置参数，其中Q(s，a)表示智能体的状态和动作的矩阵；

通过决策公式对应状态来选择执行动作策略，观察下一状态的任何阶段和环境信息，选择适当的回报模式获得回报值，同时留下该智能体的信息素；

更新Q值和信息素，考察是否达到结束标准。

根据本发明的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例，决策公式为：其中P_ss′为从状态s到s′的转移概率，γ表示折扣因子。

本发明还揭示了一种基于蚁群算法和多智能体Q学习的AGV路径规划系统，包括：

建模模块，根据静态环境利用栅格法对AGV作业环境进行建模，根据AGV作业任务设置起始点和目标点；

路径生成模块，根据AGV的起始点和目标点坐标通过蚁群算法生成AGV的全局最优路径；

避障控制模块，AGV根据全局优化路径向目标点移动，当探测到最小距离内存在包括其他AGV在内的动态障碍物时，通过多智能体Q学习对应环境状态进行避障策略的选择，据此作出相应的避障动作，避障结束再返回原来的路径上继续运动。

处理器；以及

存储器，所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据，

其中，当所述一系列计算机可执行的指令被所述处理器执行时，使得所述处理器进行前述的方法。

本发明对比现有技术有如下的有益效果：本发明改进了传统蚁群算法的启发因子，提出了自适应信息素挥发速率，给出了新的信息素更新规则，避免陷入局部最优，优化了算法的全局搜索能力，并且提高了算法的收敛速度。针对AGV作业环境的复杂情况，在通过蚁群算法生成AGV全局最优路径的基础上，考虑到AGV之间的冲突问题，提出了通过多智能体Q学习进行动态避障，结合多智能体系统的思想，引入信息素的概念加强智能体之间的沟通联系，利用改进的多智能体Q学习对AGV之间的冲突问题做出了避碰策略的研究，这样AGV不仅和环境之间进行交互，还可以从其他AGV的知识中获取经验，提高了Q学习的学习速度和收敛速度，更好的体现了AGV系统的自主性和学习能力。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例的流程图。

图2示出了本发明的改进的蚁群算法的流程图。

图3示出了本发明的AGV避障的流程图。

图4示出了本发明的优化的多智能体Q学习算法的流程图。

图5示出了本发明的基于蚁群算法和多智能体Q学习的AGV路径规划系统的一实施例的原理图。

图6示出了本发明实施例中矩阵记录对应的地图的示例。

图7示出了本发明实施例中得到的全局最优路径的示例。

图8示出了本发明实施例中AGV探测范围的示例。

图9示出了本发明实施例中AGV移动的示例。

图10示出了本发明实施例中AGV方位角的示例。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例的流程。请参见图1，下面是对本实施例的AGV路径规划方法的实施步骤的详述。

步骤S1：根据已知的静态环境利用栅格法在二维平面上对AGV作业环境进行建模，初始化栅格信息。

本步骤的处理包括对每个小栅格进行二维坐标的对应，对静态障碍物所在栅格进行标识，由作业任务设置蚁群算法中蚂蚁的起始点和目标点，设置AGV运动的步长。

首先是栅格法建模的过程，AGV的运行环境为二维平面0-XY上的栅格区域，设定AGV的运动步长StepLength为AGV的外接圆直径，将该二维区域划分成若干以步长为边长c的相同大小的方格，如果某一栅格中存在障碍物，则定义此栅格为障碍栅格，反之为自由栅格，采用序号表示法对栅格进行编码，用0和1分别表示障碍栅格和自由栅格，并对栅格依次进行从左到右，从下到上坐标对应。

例如，建立一个3*3，存储栅格信息的矩阵记录为生成地图为图6所示。

以图6所示为例，根据作业任务确定起始点和目标点，例如设置AGV的起始点为(0，4)(左上角)，目标点为(4，0)(右下角)。

步骤S2：根据步骤S1中设置的AGV的起始点和目标点坐标通过蚁群算法生成AGV全局最优路径。

本步骤的处理包括设置快速收敛的蚁群算法中的包括蚂蚁数量、算法最大迭代次数、初始信息素矩阵在内的基本参数，将蚂蚁放在起始点上，以是否最短路径评价蚁群，通过数次信息素的更新和全局最优路径的迭代，生成全局最优路径作为当前AGV的全局优化路径。

如图2所示，改进的蚁群算法生成全局最优路径的具体步骤如下。

S20：首先，初始化蚁群算法参数，包括蚂蚁数量、算法最大迭代次数、信息素权值、信息素衰减系数、每条路径的初始信息素强度、迭代次数等。

例如，初始化蚁群算法参数如下：蚂蚁数量m＝30、算法最大迭代次数N＝50、α＝1、β＝6、ρ＝0.2、Q＝12，(α是信息启发因子，β是期望启发因子，ρ是信息素挥发因子，Q是初始每条路径信息素的量)将蚁群放在起始点上，初始化栅格地图上每条边的信息素强度，以是否最短路径评价蚁群，适应度函数为其中num为AGV走过的栅格数，D为AGV所走路径长度，k表示第k只蚂蚁。

然后就进行下面循环体的迭代(步骤S21～S)，迭代更新全局最优路径，当跳出循环体后即为最终的AGV的全局最优路径。

S21：根据蚁群系统的转移概率公式计算每只蚂蚁到达每个节点的概率。

蚂蚁K的转移概率公式

其中allowed表示蚂蚁k下一步允许选择的位置，α叫做信息启发式因子，反映了路径上信息素的积累对蚂蚁路径选择的影响，β是期望中的启发式因子，表示能见度的相对重要性也就是环境信息对蚂蚁影响力的大小，τ_ij(t)表示t时刻路径path(i，j)上的信息素，τ_is(t)表示t时刻路径path(i，s)上的信息素。η_ij和η_is代表启发因子，为了在转移位置时既要考虑到下一点的距离又要考虑到目标点的距离。本实施例中的启发因子η_ij改进为：

其中d_ij是相邻两点的距离大小，d_je是下一点j到目标点的距离，蚂蚁k在选择下一点转移位置时考虑离目标点最近的位置，提高了搜索速度，避免陷入局部最优。其中i和j表示栅格位置，x_j是位置点j的横坐标，y_j是位置点j的纵坐标，(x_end，y_end)是终点坐标。

S22：一次迭代后更新信息素剩余信息，更新t+n时刻路径path(i，j)上的信息素量τ_ij(t+n)和改进的信息素增量其中θ为衰减系数，衰减系数用于调整每条路径上的信息素量，表示每条路径上的信息素递减。在一轮循环过后所有的路径长度都被记录在矩阵中，计算这一轮每条路径的平均值

信息素量的调整规则为：

τ_ij(t+n)＝(1-ρ)Δτ_ij(t)+Δr_ij(t)

其中Δτ_ij(t)是t时刻在path(i，j)处的信息素增量，1-ρ表示残留因子，是蚂蚁k在t时刻在位置path(i，j)处留下的信息素。m是指蚁群种群数量。

S23：(这一步是为了选取最优路径)判断这一轮的每条路径是否大于平均值若存在比平均值小的路径则调整最优路径，否则跳转到步骤S24。

S24：输出这一轮的最优解，更新全局最优路径。

S25：判断产生最优路径的迭代次数n是否在设置的最大迭代次数N之内，若是则跳转到步骤S26，若否则自适应调整信息素挥发速率ρ^*＝[1-e^(n-N)/N]ρ，其中ρ是信息素挥发系数，为了防止信息的无限积累，ρ区间设为(0，1)，n是当前的迭代次数，N是迭代的总数，这一公式表示蚁群算法的信息素挥发速率可以随着迭代次数的增加而自适应的改变，通过自适应更新信息素挥发系数，避免了信息素均分导致的收敛速度慢的问题。

S26：判断这一轮循环是否结束，若是则跳转到步骤S27，若否则跳转到步骤S21。

S27：得到AGV的全局最优路径。

经过数次迭代后，蚁群收敛到一条路径上，本实施例中由改进的蚁群算法得到的全局路径如图7所示。

步骤S3：AGV根据全局优化路径向目标点移动，亦即，AGV到达目标点(全局最优点)后则退出避障，如果没有到达目标点则继续移动。

步骤S3至后续的S6除了在图1中示出，在图3中也有示出。

步骤S4：在移动过程中，判断设置的最小距离内是否存在动态障碍物(比如其他AGV，本实施例将其他AGV视为方向、速度已知的动态障碍物)。如果没有则继续原始路径，如果有动态障碍物则继续步骤S5。

步骤S5：判断是否会发生碰撞。如果不会碰撞则继续原始路径，如果会发生碰撞则继续步骤S6。

步骤S6：通过多智能体Q学习对应环境状态选择相应的避障动作，通过执行避障动作来进行避让。避障结束后继续原始路径。

在本步骤中，通过多智能体Q学习选择相应的避障动作，比如通过向左、向右、向前一个步长这样的动作设计来进行避让。在多智能体Q学习避障结束后，要返回原始路径，从当前位置到原始路径的最近点设为局部最优路径，利用前述的改进的蚁群算法进行局部的再规划，然后继续原始路径。

Q学习算法作为一种基于环境强化学习算法，是从环境状态到动作映射的学习，AGV作为新型的自动化智能分拣设备，具有一定的自主学习能力，目前可以通过传感器、摄像头等探测设备可以感知障碍物，并且一个AGV系统下所有AGV的运动状态是已知的。为了在复杂的作业环境中，让AGV具备自主避障的能力，本实施例采用了优化的多智能体Q学习来实现AGV的避障。并且为了提高Q学习的学习效率和可靠性，考虑到蚂蚁蚁群和多智能体系统的共性，该方法在多智能体系统中引入了蚁群算法中信息素的概念，将Q学习和蚁群算法结合起来，让系统中的智能体在进行行为决策的时候，不单单依靠环境信息，还需要考虑信息素的综合效应来选择行动。由此，本发明的优化的多智能体Q学习的基本步骤如图4所示：

S61：初始化每一个智能体的状态集、动作集，初始化Q(s,a)表，设置各项参数。其中s是智能体t时刻的状态，a是动作策略。

Q(s,a)是表示智能体的状态和动作的矩阵，在具体实施例中比如a(动作左右前后)，s是状态表示避障情况。在基于当前的Q值估计得出的状态s下选择一个动作a。Q-table(「Q」代表动作的「质量」)可以把Q函数视为一个在Q-table上滚动的读取器，用于寻找与当前状态关联的行以及与动作关联的列。它会从相匹配的单元格中返回Q值。这就是未来奖励的期望。

S62：观察t时刻的状态s。

S63：按照决策公式执行动作a。

决策公式为：其中P_ss′为从状态s到s′的转移概率，γ表示折扣因子，决策公式通过计算得到目前的状态。在决策时需要考虑Q值和信息素的综合影响来选择动作执行。

S64：执行所选择的动作，并且观察下一时刻的状态，判断所处的任务阶段和所处的周围环境选择适合当前状态的回报模式得到回报值r，同时在这种状态下遗留该智能体的信息素。

S65：依据决策公式更新Q(s，a)值，更新信息素。

S66：考察是否满足结束条件，若满足则结束学习，若没有满足则回到步骤S62继续重复执行。

举例来说，由于在一个AGV系统中所有AGV速度和方向都是已知的，假设AGV能够探测障碍物的范围是以2c为半径的圆。当AGV位于位置(2，2)时能够探测到的范围如图8所示。

根据图9示出的情形，描述AGV避障过程：在t时刻，AGV1沿全局路径运动到(2，2)处，此位置还未达到全局目标点，并且AGV1探测到位置(4，2)处有AGV2，其运动方向向左，运动路径如图9虚线所示。首先根据障碍物的运动状态判断是否将发生碰撞，判断将在t+1时刻于(3，2)处发生碰撞，于是利用多智能体Q学习选择避障动作。由于此时的环境左右均为障碍格，可以选择的动作策略是后退一步或者原地等待，做出相应的避障动作后，根据环境状态设计相应的奖励值，AGV留下这种环境状态下的信息素。更新Q表更新信息素，然后再次判断当前位置是否还有障碍物可能会发生碰撞，若有则继续避障，若无则返回原始路径最短的位置，继续向目标点移动。

下面列举在本实施例中可能发生的几种情况以及相应的避障过程：

(1)AGV1在t+1时刻执行的避障动作是原地等待，则在t+1时刻AGV1在(2，2)处等待，AGV2移动到(3，2)，而下一时刻t+3仍有可能发生碰撞，需要再次避障，此时的策略可以是AGV1沿原始路径后退到(1，3)或者后退到(1，2)。

(2)AGV1在t+1时刻执行的避障动作是后退到(1，3)，AGV2移动到(3，2)，而判断出下一时刻t+3在(2，2)处仍会发生碰撞，需要再次避障，AGV1若选择继续在(1，3)等待，下一时刻AGV2移动到(2，2)，此时再进行障碍判断时不会发生碰撞了，AGV1就沿原始路径向目标点移动。

(3)AGV1在t+1时刻执行的避障动作是后退到(1，2)，而判断出下一时刻t+3在(2，2)处仍会发生碰撞，AGV1可以选择原地等待或者退回(1，3)或者移动到(0，2)，进行再次避障判断…

不同的避障动作的选择需要耗费的避障时间是不同的，避障移动的步长以及返回原始路径所需要的步长也是不同的，根据下一时刻的状态，设计Q学习的奖励值，从而训练AGV自主选择合适的避障动作的能力。

基于多智能体Q学习的避障动作设计是通过调节AGV的左右轮角速度来控制其运动，考虑到时间问题，设计按照时间-动作的Q表，并将时间进行离散化，离散化后将时刻记为T，由于避障时间有限，设上限为200。

奖励值R的设计要考虑下一状态，下一状态无碰撞可能则视为目标状态，R受到三个条件的限制分别是AGV与动态障碍物的距离d，AGV的方位角θ以及时刻T。

AGV的运动通过左右轮的角速度控制，AGV的方位角如图10所示。

AGV的避障动作设为4个值分别为：a1(左转)、a2(右转)、a3(后退)、a4(原地等待)。

动作选择策略：采用随机策略和贪婪策略。

贪婪策略：Q(s，a)＝maxQ(s，a)，其中s表示状态，a表示动作策略。

随机动作采用玻尔兹曼分布方法，任一动作被选择的概率为：其中q是环境参数。

将二者结合起来，作为新的搜索策略，每一时刻系统选择一个随机数，然后采用轮盘赌选择动作，这样选择每个动作的可能性与动作所对应的概率相同.当AGV在安全范围内则直接按照静态路径向目标前进；如果不是，则前6次学习中采取随机动作，后4次学习中采取贪婪动作。

AGV完成避障后要返回原始路径，将当前位置到原始路径上的最近点看作局部目标点，规划路径，回到原始路径上继续行进直到到达全局目标点。

图5示出了本发明的基于蚁群算法和多智能体Q学习的AGV路径规划系统。请参见图5，本实施例的AGV路径规划系统包括：建模模块、路径生成模块、避障控制模块。

建模模块用于根据静态环境利用栅格法对AGV作业环境进行建模，根据AGV作业任务设置起始点和目标点。

路径生成模块用于根据AGV的起始点和目标点坐标通过蚁群算法生成AGV的全局最优路径。

避障控制模块用于AGV根据全局优化路径向目标点移动，当探测到最小距离内存在包括其他AGV在内的动态障碍物时，通过多智能体Q学习对应环境状态进行避障策略的选择，据此作为相应的避障动作，避障结束再返回原来的路径上继续运动。

此外，本发明还揭示了一种基于蚁群算法和多智能体Q学习的AGV路径规划系统。本实施例的系统包括：处理器和存储器。存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据。当这一系列计算机可执行的指令被处理器执行时，使得处理器进行如前述实施例的基于蚁群算法和多智能体Q学习的AGV路径规划方法。方法的具体步骤已经在前述实施例中详述，在此不再赘述。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种基于蚁群算法和多智能体Q学习的AGV路径规划方法，其特征在于，包括：

2.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法，其特征在于，在步骤二中，蚁群算法中的适应度函数为其中num为AGV走过的栅格数，D为AGV所走路径长度，k表示第k只蚂蚁。

3.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法，其特征在于，在步骤二中，在蚂蚁k发生位置转移时，蚁群算法中的启发式因子为

4.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法，其特征在于，在步骤二中，蚁群算法中的信息素更新策略为：

τ_ij(t+n)＝(1-ρ)Δτ_ij(t)+Δτ_ij(t)

5.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法，其特征在于，在步骤二中，蚁群算法中的信息素挥发系数随着迭代次数的增加而自适应的改变，自适应信息素挥发系数的更新规则为：

ρ^*＝[1-e^(n-N)/N]ρ

6.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法，其特征在于，步骤二中通过蚁群算法获得当前AGV的全局最优路径的步骤进一步包括：

步骤4：输出这一轮的最优解，更新全局最优路径；

步骤7：得到当前AGV的全局最优路径。

7.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法，其特征在于，步骤三的多智能体Q学习的过程包括：

更新Q值和信息素，考察是否达到结束标准。

8.根据权利要求7所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法，其特征在于，决策公式为：其中P_ss′为从状态s到s′的转移概率，γ表示折扣因子。

9.一种基于蚁群算法和多智能体Q学习的AGV路径规划系统，其特征在于，包括：

10.一种基于蚁群算法和多智能体Q学习的AGV路径规划系统，其特征在于，包括：

处理器；以及

其中，当所述一系列计算机可执行的指令被所述处理器执行时，使得所述处理器进行如权利要求1至8中任一项所述的方法。