CN115145285A

CN115145285A - 一种仓储agv多点取送货最优路径规划方法及系统

Info

Publication number: CN115145285A
Application number: CN202210907780.2A
Authority: CN
Inventors: 何舟; 张喆; 施威杰; 马子玥
Original assignee: Shaanxi University of Science and Technology
Current assignee: Shaanxi University of Science and Technology
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-04

Abstract

本发明公开了一种仓储AGV多点取送货最优路径规划方法及系统，将全局地图作为环境使用栅格法进行分解，以AGV为代理，以代理位置信息与任务完成信息为状态，以代理可选的移动行为为动作，建模成为一个马尔可夫决策过程模型；基于马尔可夫决策过程模型大小为状态总数×动作总数的Q表，对Q表设定探索策略与迭代次数，然后进行迭代，达到迭代次数上限后，根据迭代完成的Q表得出相应的任务顺序和移动路径，本发明具有良好的通用性，完成运算后，AGV从任意位置开始，均能找到完成任务要求的最佳任务执行顺序与最优路径，较大程度的降低了时间成本与移动成本，提高了AGV对环境的适应性，代替人完成复杂的任务决策，提高仓储中的智能化水平，具有良好的应用前景。

Description

一种仓储AGV多点取送货最优路径规划方法及系统

技术领域

本发明涉及物流仓储领域，具体涉及一种仓储AGV多点取送货最优路径规划方法及系统。

背景技术

随着电子商务的迅速发展，网络购物比例年年增大，对于物流技术产生了巨大的压力。为解决传统物流的低效问题，智慧物流这一新型概念诞生。智慧物流主要体现在将物流作业中大量需要运筹与决策的工作智能化。该模式使用AGV来进行货物的拣选和运送，这种基于AGV的订单拣选系统(Robotic Mobile Fulfillment System,RMFS)，颠覆了传统的“人到商品”的拣选模式。在该模式下，AGV负责将货物从对应货架取下并送到拣货台，不再需要人员在仓库中流动，大大提高了系统效率。这种模式已经成为物流仓储发展的大趋势。

该模式的核心技术是移动机器人的任务调度与路径规划问题。机器人路径最优规划是指：在其工作环境中找到一条从起始状态到目标状态的能完成任务要求并避开所有障碍物的路径，且移动路径最短。经过近些年的研究，对于一般任务要求的点对点最优路径规划方法已经比较成熟。但随着对仓储系统的智能化程度要求越来越高(在实际场景中，仓库的多个货架都有相同货物、最终可前往的拣货台也有多个可选择，期间需进行避障)。点对点的路径规划方法已经无法满足在仓储中的智能化决策需求，无法有效提高多点取送货的效率。

发明内容

本发明的目的在于提供一种仓储AGV多点取送货最优路径规划方法及系统，以克服现有技术的不足,能够在待访问区域具有选择性的同时，移动总路程最短，从而减少时间成本，提高智能化决策水平。

一种仓储AGV多点取送货最优路径规划方法，包括以下步骤：

S1，将全局地图作为环境使用栅格法进行分解，以AGV为代理，以代理位置信息与任务完成信息为状态，以代理可选的移动行为为动作，根据任务需求设置奖励函数，同时建模成为一个马尔可夫决策过程模型；

S2，基于马尔可夫决策过程模型大小为状态总数×动作总数的Q表，表格行索引为对应状态，列索引为动作；

S3，对Q表设定探索策略与迭代次数，然后进行迭代；

S4，达到迭代次数上限后，根据迭代完成的Q表得出相应的任务顺序和移动路径。

优选的，马尔可夫决策过程模型中代理与环境进行交互，使用栅格法将全局地图划分为m×n个栅格，每个栅格从左至右，从上到下，将数字1到数字m×n定义为每个区域的位置编号。

优选的，将代理的位置与任务完成情况定义为状态空间S＝{s₁，s₂，…，s_n}，每个s_i包含代理的位置信息与货物取送情况的信息{Position，Job₁，Job₂，…，Job_n}，其中1≤Position≤m×n，表示代理目前所处的区域位置的编号，Job_i＝0或1，当Job_i＝0时表示未完成第i个货物的取货，Job_i＝1时表示完成第i个货物的取货，代理进入到达拣货台的状态定义为终止状态，即s_f：{p_f，Job₁，Job₂，…，Job_n}。

优选的，动作空间为A＝{a₁，a₂，…，a_n}，其中a_i表示在当前状态下代理可采取的动作。

优选的，根据任务要求，当代理从完成取货操作的状态进入完成所有取货任务并到达拣货点的状态，例如代理从中间状态s_m：{p_m，1，1，…，1}(代理位于位置编号为p_m区域、完成了所有取货任务)，进入最终状态之一

(代理完成了所有任务，并到达拣货点位置p_f的状态)，给予正奖励；

当代理进入未完成所有取货任务就到达拣货点的状态，例如，代理从中间状态s_q：{p_m，0，1，…，0}(代理处于位置p_m、只完成了货物1的取货任务)，进入最终状态之一

(代理到达任意一个拣货点，未完成全部取货任务)，或，代理从除到达拣货点的其他任意状态进入位置为障碍区域的状态，例如，代理从中间状态s_s：{p_m，Job₁，Job₂，…，Job_i}(代理处于位置p_m)，进入障碍状态s₀：{p_o，Job₁，Job₂，…，Job_i}(代理进入位置为障碍区域的状态)，给予负奖励；

当代理从位置为非拣货台的其他任意状态进入处于其他非任务、非障碍区域的状态时，给予0奖励。

优选的，使用全0数字对Q表进行初始化填充。

优选的，使用Q-leaming算法进行迭代，使用动态ε-greedy策略进行动作选择。

优选的，设定总迭代次数为K次，使用动态ε-greedy策略进行动作选择：

设定探索因子

其中k为当前迭代次数，K为总迭代次数。初始ε＝1，随着迭代次数的增加，ε逐渐减小；

确认当前状态s_i，查询当前Q表，获得当前状态的各个状态-动作对的Q值。代理在状态s_i将以1-ε的概率选择Q值最大的动作a_i，

以ε的概率选择随机动作a_i。

优选的，选择动作与环境交互：

在当前状态s_i，代理根据探索策略选择要执行的动作，代理执行动作后，环境给出代理下一状态s_i+1，根据奖励函数，获得当前状态转移的即时奖励ri；

2)更新Q表中对应的状态-动作对的Q值：

其中α∈[0，1]为学习率，其中γ∈[0，1]为折扣系数，将更新后的Q值存入Q表中。从初始状态开始，当代理进入终止状态时结束一轮迭代；

当迭代次数达到上限时，即k＝K，算法结束迭代，输出Q表，查询每个状态的Q值，选择对应Q值最大的动作执行，根据状态与执行的动作，得出最优移动路径Path_best。

一种仓储AGV多点取送货最优路径规划系统，包括初始化模块和规划模块；

初始化模块，用于将全局地图作为环境使用栅格法进行分解，以AGV为代理，以代理位置信息与任务完成信息为状态，以代理可选的移动行为为动作，根据任务需求设置奖励函数，同时建模成为一个马尔可夫决策过程模型；

规划模块，基于马尔可夫决策过程模型大小为状态总数×动作总数的Q表，表格行索引为对应状态，列索引为动作；对Q表设定探索策略与迭代次数，然后进行迭代；达到迭代次数上限后，根据迭代完成的Q表得出相应的任务顺序和移动路径。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种仓储AGV多点取送货最优路径规划方法，通过将全局地图作为环境使用栅格法进行分解，以AGV为代理，以代理位置信息与任务完成信息为状态，以代理可选的移动行为为动作，根据任务需求设置奖励函数，同时建模成为一个马尔可夫决策过程模型；基于马尔可夫决策过程模型大小为状态总数×动作总数的Q表，表格行索引为对应状态，列索引为动作，对Q表设定探索策略与迭代次数，然后进行迭代，达到迭代次数上限后，根据迭代完成的Q表得出相应的任务顺序和移动路径，本发明具有良好的通用性，完成运算后，AGV从任意位置开始，均能找到完成任务要求的最佳任务执行顺序与最优路径，较大程度的降低了时间成本与移动成本，提高了AGV对环境的适应性，代替人完成复杂的任务决策，提高仓储中的智能化水平，具有良好的应用前景。

优选的，利用优化后的Q-learning算法，使用合适的奖励函数描述任务要求，最终找到最优的任务序列、最短移动距离及其对应的路径。

附图说明

图1是本发明实施例中方法流程框图。

图2是本发明实施例中AGV的全局环境图。

图3是本发明实施例中Q-learning算法的流程框图。

图4是本发明实施例中AGV的最优路径规划图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

参照图1，一种仓储AGV多点取送货最优路径规划方法，具体包括以下步骤：

S1：将全局地图作为环境(Environment)使用栅格法进行分解，以AGV为代理(Agent)，以代理位置信息与任务完成信息为状态，以代理可选的移动行为为动作，根据任务需求设置奖励函数，同时建模成为一个马尔可夫决策过程模型；

将AGV定义为与环境交互的代理，将全局地图定义为与代理交互的环境；使用栅格法将全局地图划分为m×n个栅格，每个栅格从左至右，从上到下，将数字1到数字m×n定义为每个区域的位置编号(Position)；

本实施例AGV的全局地图环境如图2所示，将全局地图环境划分为100个空间，分别用集合P＝{1，2，…，100}表示，其中起始点p_start＝{1}，货物1的取货点为

货物2的取货点为

障碍物所在区域为p_o＝{6，9，11，12，13，14,19,24,26,29,35,36,44,48,52,54,58,62,64,65,66,67,68}，拣货台所在区域为p_final＝{10,55,91，100}；

将代理位置信息与任务完成信息定义为状态(State)，代理可选的移动行为定义为动作(Action)，根据任务需求，设置奖励函数(Reward Function)，将系统建模成为一个马尔可夫决策过程模型(MDP)；

由设定的两种货物的取送任务，将状态用集合S＝{s₁，s₂，…，s₃₉₉}表示，其中s_i＝{p，job₁，job₂}，状态与其内容对照如表1所示。其中，p∈P，表示代理所处的全局位置，job₁＝0时表示未完成货物1的取货，job₁＝1时表示完成货物1的取货，job₂同理；

将动作定义为A＝{‘U’，‘D’，‘L’，‘R’}，其中‘U’表示代理向上运动，‘D’表示代理向下运动，‘L’表示代理向左运动，‘R’表示代理向右运动；

对奖励函数(Reward Function)做如下设定：

当代理从完成任务1、任务2的取货状态，进入完成所有取货任务，并到达拣货点其中之一的状态，例如，从s₃₈₀＝{81，1，1}，采取动作‘D’，进入s₃₉₀＝{91，1，1}，给予+10的奖励；

当代理从未完成所有取货任务，进入到达拣货点其中之一的状态，例如，从s₂₈₀＝{81，0，1}采取动作‘D’，进入，s₂₉₀＝{91，0，1}，给予-10的奖励；

当代理从其他状态进入位置包含障碍物的状态，例如，从s₀＝{1，0，0}采取‘D’动作，进入s₁₀＝{11,0,0}，给予-100的奖励；

当代理从位置为分拣货台的其他任意位置的状态，进入其他非障碍、非拣货台区域的状态，例如，从s₀＝{1，0，0}，采取动作‘R’进入，s₁＝{2，0，0}，给予0奖励。

表1

S2：基于马尔可夫决策过程模型大小为状态总数×动作总数的Q表，表格行索引为对应状态，列索引为动作；

Q表用于存储状态-动作对Q值，大小为状态数×动作数，初始化Q表；

使用行索引为状态s_i，列索引为动作‘U’、‘D’、‘L’、‘R’，使用全0填充Q表，结果如表2所示；

表2

s<sub>i</sub>	U	D	L	R
					s<sub>0</sub>	0	0	0	0
s<sub>1</sub>	0	0	0	0
					s<sub>2</sub>	0	0	0	0
s<sub>3</sub>	0	0	0	0
					s<sub>4</sub>	0	0	0	0
s<sub>5</sub>	0	0	0	0
					…	…	…	…	…
s<sub>395</sub>	0	0	0	0
					s<sub>396</sub>	0	0	0	0
s<sub>397</sub>	0	0	0	0
					s<sub>398</sub>	0	0	0	0
s<sub>399</sub>	0	0	0	0

S3：对Q表设定探索策略与迭代次数，使用Q-learning算法进行迭代；

使用动态ε-greedy策略：

ε为探索因子(ε∈[0，1])，σ为算法在每步中随机生成的数字(σ∈[0，1])，当探索因子较大时，代理倾向于选择随机动作，当探索因子较小时，代理倾向于选择使当前状态Q值最大的动作。在本实施例中，

其中k为当前迭代次数，K为总迭代次数。根据该ε算子，本实施例中代理在迭代前期拥有较大的探索能力，可以保证解空间的全面性，在迭代后期，代理已经进行了大量的探索，较高的利用已经学习到的策略概率将提高整体算法的收敛性与运算效率；

在本实施例中设定总迭代次数为750轮。

使用Q-learning算法进行迭代；

1)选择动作与环境交互：

在当前状态s_i，代理根据探索策略选择要执行的动作，代理执行动作后，环境给出代理下一状态s_i+1，根据奖励函数，获得当前状态转移的即时奖励r_i；

2)更新Q表中对应的状态-动作对的Q值：

其中α为学习率，在本实施例中取0.1，γ为折扣系数，在本实施例中取0.8。根据该式，将更新后的Q值存入Q表中。从初始状态开始，当代理进入终止状态时结束一轮迭代。

S4：达到迭代次数上限后，根据迭代完成的Q表得出相应的任务顺序和移动路径。

在本实施例中，当迭代次数达到上限时，即k＝750，算法结束迭代，输出Q表，通过Python编写程序，查询每个状态的Q值，选择对应Q值最大的动作执行，根据状态与执行的动作，得出最优移动路径Path_best＝{1，2，3，4，5，15，16，17，27，37，38，39，49，59，69，79，78，77，76，75，74，73，63，73，72，71，81，91}，如图4所示。

在本实施例中，共有两个取货任务，每个取货任务均有两个可访问区域，共有四个可用拣货台；对于此类多点取送问题，如何选择任务顺序以及如何选择任务访问区域，同时考虑避开所有障碍物的最优路径是十分有必要的。本实施例采用动态ε算子的Q-learning算法，快速找到最优任务序列以及对应的路径，较大程度的降低了移动成本和时间成本，提高了仓储的智能化决策水平。针对更大规模的该类问题，本发明所提出的方法使用机器学习算法依然能够快速高效的求解，具有良好的通用性。

Claims

1.一种仓储AGV多点取送货最优路径规划方法，其特征在于，包括以下步骤：

S3，对Q表设定探索策略与迭代次数，然后进行迭代；

2.根据权利要求1所述的一种仓储AGV多点取送货最优路径规划方法，其特征在于，马尔可夫决策过程模型中代理与环境进行交互，使用栅格法将全局地图划分为m×n个栅格，每个栅格从左至右，从上到下，将数字1到数字m×n定义为每个区域的位置编号。

3.根据权利要求1所述的一种仓储AGV多点取送货最优路径规划方法，其特征在于，将代理的位置与任务完成情况定义为状态空间S＝{s₁,s₂,…,s_n}，每个s_i包含代理的位置信息与货物取送情况的信息{Position，Job₁,Job₂,…,Job_n}，其中1≤Position≤m×n，表示代理目前所处的区域位置的编号，Job_i＝0或1，当Job_i＝0时表示未完成第i个货物的取货，Job_i＝1时表示完成第i个货物的取货，代理进入到达拣货台的状态定义为终止状态，即s_f：{p_f,Job₁,Job₂,…,Job_n}。

4.根据权利要求3所述的一种仓储AGV多点取送货最优路径规划方法，其特征在于，动作空间为A＝{a₁,a₂,…,a_n}，其中a_i表示在当前状态下代理可采取的动作。

5.根据权利要求1所述的一种仓储AGV多点取送货最优路径规划方法，其特征在于，根据任务要求，当代理从完成取货操作的状态进入完成所有取货任务并到达拣货点的状态，给予正奖励；

当代理进入未完成所有取货任务就到达拣货点的状态，给予负奖励；

6.根据权利要求1所述的一种仓储AGV多点取送货最优路径规划方法，其特征在于，使用全0数字对Q表进行初始化填充。

7.根据权利要求1所述的一种仓储AGV多点取送货最优路径规划方法，其特征在于，使用动态ε-greedy策略进行动作选择。

8.根据权利要求7所述的一种仓储AGV多点取送货最优路径规划方法，其特征在于，设定总迭代次数为K次，使用动态ε-greedy策略进行动作选择：

设定探索因子

其中k为当前迭代次数，K为总迭代次数，初始ε＝1，随着迭代次数的增加，ε逐渐减小；

确认当前状态s_i，查询当前Q表，获得当前状态的各个状态-动作对的Q值，代理在状态s_i将以1-ε的概率选择Q值最大的动作a_i，

以ε的概率选择随机动作a_i。

9.根据权利要求7所述的一种仓储AGV多点取送货最优路径规划方法，其特征在于，使用Q-learning算法进行迭代，选择动作与环境交互：

更新Q表中对应的状态-动作对的Q值：

其中α∈[0,1]为学习率，其中γ∈[0,1]为折扣系数，将更新后的Q值存入Q表中，从初始状态开始，当代理进入终止状态时结束一轮迭代。

10.一种仓储AGV多点取送货最优路径规划系统，其特征在于，包括初始化模块和规划模块；