CN113253684B

CN113253684B - 基于图卷积神经网络的多agv调度方法及装置、电子设备

Info

Publication number: CN113253684B
Application number: CN202110599262.4A
Authority: CN
Inventors: 张易学; 周玄昊
Original assignee: Hangzhou Lanxin Technology Co ltd
Current assignee: Hangzhou Lanxin Technology Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-21
Anticipated expiration: 2041-05-31
Also published as: CN113253684A

Abstract

本申请公开了一种基于图卷积神经网络的多AGV调度方法及装置、电子设备，包括：根据路径拓扑地图，为每辆AGV分配不同的移动任务，所述移动任务用于触发AGV从起始位置向目标位置移动；获取AGV执行移动任务的运行日志数据集；针对所有AGV的当前位置和目标位置均相同的那些样本，保留其中所有AGV移动到各自目标位置所花费时间之和最少的样本；将剩余样本的所有AGV的所处的当前位置和所有AGV的目标位置作为图卷积神经网络的训练输入，将该样本的下一个时刻所有AGV的所处的当前位置作为图卷积神经网络的训练输出，对图卷积神经网络进行反向传播训练；将运行状态输入到训练好的图卷积神经网络中，选取图卷积神经网络的输出作为最优调度决策方案。

Description

基于图卷积神经网络的多AGV调度方法及装置、电子设备

技术领域

本申请涉及AGV调度技术领域，尤其涉及一种基于图卷积神经网络的多AGV调度方法及装置、电子设备。

背景技术

在多AGV运行的场景中（如大规模仓库物流自动化场景），AGV调度系统的主要目标是通过对所有AGV均衡调度和利用，最小化所有搬运任务的执行时间，提升运行效率，同时需避免发生相向冲突、同向冲突、转向冲突及多车死锁等问题，因为上述问题会产生拥堵，会造成设备资源的浪费，甚至AGV小车停止作业，使整个调度系统停滞。

然而，多AGV调度系统在实际运行过程中面临许多动态的随机因素的影响，比如AGV车辆故障，搬运任务的临时添加或取消，车辆在路径上运行时间的不确定性等等，因此，静态生成的最优的调度计划是无法满足实际系统运行的需要的，需要实时的动态调度算法对系统中的不确定性因素进行实时响应与调整，但是动态调度的计算复杂度较大，本领域的工程师往往采用启发式或者基于规则的动态调度策略（比如分区域策略，基于时间窗策略，基于AGV或任务优先级策略等等），上述动态调度策略虽然在一定程度上能够解决/缓解车辆死锁等问题，并维持多AGV运行的连续性，但是启发式或规则式的算法是非全局最优的，属于局部优化策略，往往是以牺牲多AGV之间的协调性与全局运行效率最优为代价的，且无法避免潜在多AGV互相死锁问题。

发明内容

本申请实施例的目的是提供一种基于图卷积神经网络的多AGV调度方法及装置、电子设备，以解决相关技术中存在的多AGV调度运行效率不高且容易存在死锁的问题。

根据本申请实施例的第一方面，提供一种基于图卷积神经网络的多AGV调度方法，包括：

根据路径拓扑地图，为每辆AGV分配不同的移动任务，所述移动任务用于触发AGV从起始位置向目标位置移动；

获取AGV执行移动任务的运行日志数据集，所述运行日志数据集由多组样本构成，每个样本由所有AGV在某一时刻的运行状态组成，所述运行状态包括所有AGV所处的当前位置、所有AGV的目标位置、所有AGV的正在执行的移动任务以及完成正在执行的移动任务的实际完成时间；

针对所有AGV的当前位置和目标位置均相同的那些样本，保留其中所有AGV移动到各自目标位置所花费时间之和最少的样本；

将剩余样本的所有AGV的所处的当前位置和所有AGV的目标位置作为图卷积神经网络的训练输入，将该样本的下一个时刻所有AGV的所处的当前位置作为图卷积神经网络的训练输出，对图卷积神经网络进行反向传播训练；

将运行状态输入到训练好的图卷积神经网络中，选取图卷积神经网络的输出作为最优调度决策方案。

进一步地，在AGV从起始位置向目标位置移动后，还包括：

随机给到达所述目标位置的AGV分配新的移动任务；

继续获取AGV执行新的移动任务的运行日志数据集。

进一步地，所述AGV以最大行驶速度从所述起始位置运行到所述目标位置。

进一步地，所述目标位置为当AGV运行到某一位置后，在路径拓扑地图中随机指定一个作为目标位置。

进一步地，在获取AGV执行移动任务的运行日志数据集的过程中，还包括：

随机停用一辆或多辆AGV，以模拟现场车辆出现故障停用的情况，且停用时间长度随机确定。

进一步地，针对所有AGV的当前位置和目标位置均相同的那些样本，保留其中所有AGV移动到各自目标位置所花费时间之和最少的样本，包括：

对于某一

时刻

，计算各个AGV从当前位置

移动到目标位置

实际完成时间

，计算所有AGV完成各自当前移动任务所花时间总和

，其中

，

为完成正在执行的移动任务的实际完成时间，

为AGV正在执行的移动任务，

，n为AGV 数量；

遍历运行日志数据集中的所有样本，若存在某两个或两个以上的时刻所有AGV的当前位置与目标位置均完全相同的样本，仅保留

值最小的样本。

进一步地，所述图卷积神经网络主要由多个图卷积层、多层感知机以及SOFTMAX层构成。

根据本申请实施例的第二方面，提供一种基于图卷积神经网络的多AGV调度装置，包括：

分配模块，用于根据路径拓扑地图，为每辆AGV分配不同的移动任务，所述移动任务用于触发AGV从起始位置向目标位置移动；

获取模块，用于获取AGV执行移动任务的运行日志数据集，所述运行日志数据集由多组样本构成，每个样本由所有AGV在某一时刻的运行状态组成，所述运行状态包括所有AGV所处的当前位置、所有AGV的目标位置、所有AGV的正在执行的移动任务以及完成正在执行的移动任务的实际完成时间；

重复剔除模块，用于针对所有AGV的当前位置和目标位置均相同的那些样本，保留其中所有AGV移动到各自目标位置所花费时间之和最少的样本；

训练模块，用于将剩余样本的所有AGV的所处的当前位置和所有AGV的目标位置作为图卷积神经网络的训练输入，将该样本的下一个时刻所有AGV的所处的当前位置图卷积神经网络的训练输出，对图卷积神经网络进行反向传播训练；

选取模块，用于将运行状态输入到训练好的图卷积神经网络中，选取图卷积神经网络的输出作为最优调度决策方案。

根据本申请实施例的第三方面，提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请实施例采用图卷积神经网络通过运行日志数据集不仅可以学会两点间最短路径等浅层次的拓扑特征，亦可学会蕴含于网络拓扑与车辆状态信息下深层次的系统特征（如潜在的路径冲突，多车等待，多车死锁等），因此相较于传统的基于启发式或者基于规则的动态调度策略，本发明实施例的方法具备从整个全局网络、长时间窗口进行优化计算的优点，能够得到更佳的调度效果。

本发明实施例的调度方法采用端对端的神经网络计算，只要将当前运行状态输入神经网络经过一次正向计算即可生成调度决策，与传统的基于遗传算法或其他人工智能算法相比，其所需的计算时间时间与复杂度均较小，满足实时动态调度需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种基于图卷积神经网络的多AGV调度方法的流程图。

图2是根据一示例性实施例示出的某多AGV调度网络结构图。

图3是根据一示例性实施例示出的一种基于图卷积神经网络的多AGV调度装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

图1是根据一示例性实施例示出的一种基于图卷积神经网络的多AGV调度方法的流程图。参考图1，本发明实施例提供一种基于图卷积神经网络的多AGV调度方法，该方法可应用于服务器端，该方法可以包括以下步骤：

步骤S11，根据路径拓扑地图，为每辆AGV分配不同的移动任务，所述移动任务用于触发AGV从起始位置向目标位置移动；

步骤S12，获取AGV执行移动任务的运行日志数据集，所述运行日志数据集由多组样本构成，每个样本由所有AGV在某一时刻的运行状态组成，所述运行状态包括所有AGV所处的当前位置、所有AGV的目标位置、所有AGV的正在执行的移动任务以及完成正在执行的移动任务的实际完成时间；

步骤S13，针对所有AGV的当前位置和目标位置均相同的那些样本，保留其中所有AGV移动到各自目标位置所花费时间之和最少的样本；

步骤S14，将剩余样本的所有AGV的所处的当前位置和所有AGV的目标位置作为图卷积神经网络的训练输入，将该样本的下一个时刻所有AGV的所处的当前位置作为图卷积神经网络的训练输出，对图卷积神经网络进行反向传播训练；

步骤S15，将运行状态输入到训练好的图卷积神经网络中，选取图卷积神经网络的输出作为最优调度决策方案。

在步骤S11的具体实施中，根据路径拓扑地图，为每辆AGV分配不同的移动任务，所述移动任务用于触发AGV从起始位置向目标位置移动；

具体地，为了以较低代价且较快的速度获得训练数据集，本发明实施例采用仿真模拟的形式来获取数据，详细步骤可包括：

1、设置参与本次模拟的AGV数量，该数量应与实际场景部署的AGV数量相同。

2、根据路径拓扑地图，为每辆AGV分配不同的移动任务，如果一个位置已经被某虚拟AGV占用，则其他虚拟AGV无法往该位置移动。同时，只有一辆AGV移动到路径中的下一个节点时，其原来所占用的当前节点才会被释放。

3、为了达到最小化移动任务执行时间的目标，所述AGV以最大行驶速度从所述起始位置运行到所述目标位置。

4、自动初始化对应数量的虚拟AGV，并为每辆虚拟AGV分配不同的起始位置与目标位置，并将初始时间设为零时刻。其中，每个起始节点仅允许创建一辆AGV。

5、当AGV运行到某一位置后，在路径拓扑地图中随机指定一个作为目标点。

6、当AGV抵达任务的目标位置后，可在目标位置等待一段时间，该时间长度随机生成，而后将会收到新移动任务，新移动任务的目标位置也是随机生成的。

7、仿真运行过程中随机停用一台或几台虚拟AGV，以模拟现场车辆出现故障停用的情况。

8、当完成的任务数量达到预先给定的阈值后，仿真运行结束。

更佳的，针对上述第5点，亦可采用某种启发式或规则式的算法快速生成下一个目标点，这样可以有效的提升仿真模块产生较佳调度决策的概率，有利于训练更佳的图卷积神经网络。

本发明实施例中，在AGV从起始位置向目标位置移动后，还可包括：随机给到达所述目标位置的AGV分配新的移动任务；继续获取AGV执行新的移动任务的运行日志数据集。

具体的，本实施例通过下达足够数量的移动任务使AGV执行，有效的确保的图卷积神经网络训练数据样本量与样本的覆盖面，可以有效避免卷积神经网络训练过拟合等问题，特别的，对于异常故障的运行日志的加入，可以使图卷积神经网络学习这些异常场景的数据，提升卷积神经网络应对各种情况的鲁棒性和效率。

在步骤S13的具体实施中，针对所有AGV的当前位置和目标位置均相同的那些样本，保留其中所有AGV移动到各自目标位置所花费时间之和最少的样本；

具体地，对于某一

时刻

，计算各个AGV从当前位置

移动到目标位置

实际完成时间

，计算所有AGV完成各自当前移动任务所花时间总和

，其中

，

为完成正在执行的移动任务的实际完成时间，

为AGV正在执行的移动任务，

，n 为AGV数量；

值最小的样本。

不失一般性，假设存在这样一组时刻

, 其所有AGV的当前位置与目标位置均完全相同，则在

，

，

，…中找到最小的值, 将其对应时刻的样本保存下来，且删除这组数据中其他时刻的样本。

在步骤S14的具体实施中，将剩余样本的所有AGV的所处的当前位置和所有AGV的目标位置作为图卷积神经网络的训练输入，将该样本的下一个时刻所有AGV的所处的当前位置作为图卷积神经网络的训练输出，对图卷积神经网络进行反向传播训练；

具体地，本发明实施例中，所述图卷积神经网络采用GCN（图卷积神经网络）和NN（神经网络）的常用架构，即主要由多个GCNConv（图卷积层）、MLP（多层感知机）以及SOFTMAX层构成，其中GCNConv（图卷积层）、MLP（多层感知机）激活层的具体层数、每层中的卷积核大小等网络参数需根据场景特点具体设计确定。其中，GCNConv(图卷积层)的作用主要为提取输入图的特征，并将不同的层相互整合，将地图拓扑信息，AGV当前位置，AGV目标位置等信息融合；其中，MLP（多重感知机）的主要作用是进一步提取特征，并整理特征至合适的输出维度。在这些层之后，添加一个SOFTMAX层进行归一化，输出结果。

所述的图卷积神经网络与普通的卷积神经网络相比，更擅于非欧式空间数据的图数据类型特征的分析与提取（如包括节点，边等拓扑结构的网络）。

对于剩余的样本中某一

时刻

，AGV的所处的当前位置和所有AGV的目标位置作为图卷积神经网络的训练输入，

时刻所有AGV的所处的位置作为图卷积神经网络的训练输出。

下面以某具体多AGV调度问题说明对本实施例进行说明，如示意图2所示，图中的拓扑结构为一个简单的调度网络结构图，有两辆AGV，即AGV1，AGV2，有ABCDEF六个节点，节点间有连线说明存在路径，路径上的数字表明通过该路径所需的时间，旗帜标志表示AGV的目标点，在当前状态AGV1有三个可能路径选择，通过仿真运行，其产生的三个样本如下：

样本1：

AGV1到A，AGV1到B，AGV2到A，AGV2到E，共耗时间2+2+2+3 = 9

样本2：

AGV1到F and AGV2同时到A，AGV2同时到E， AGV1到A，AGV1到B，共耗时间2+3+3+2= 10

样本3：

AGV1到E and AGV2同时到A，AGV1到B，AGV2同时到E，共耗时间2+2+3 = 7

由此，仅保留样本3训练图卷积神经网络，从上例中可见，样本1中由于AGV1和AGV2争夺节点A，导致耗时较多，而样本2中，由于AGV1一开始选择节点F已经严重偏离了其到目标点B的最短路径，所以耗时也较多。因此，采用本发明的样本选择对图卷积神经网络进行训练，可以有效的使图卷积神经网络学会拓扑结构特征与车辆资源竞争，死锁等特征，使其输出较佳的调度策略。

与前述的一种基于图卷积神经网络的多AGV调度方法的实施例相对应，本申请还提供了一种基于图卷积神经网络的多AGV调度装置的实施例。

图3是根据一示例性实施例示出的一种基于图卷积神经网络的多AGV调度装置框图。参照图3，该装置包括：

分配模块31，用于根据路径拓扑地图，为每辆AGV分配不同的移动任务，所述移动任务用于触发AGV从起始位置向目标位置移动；

获取模块32，用于获取AGV执行移动任务的运行日志数据集，所述运行日志数据集由多组样本构成，每个样本由所有AGV在某一时刻的运行状态组成，所述运行状态包括所有AGV所处的当前位置、所有AGV的目标位置、所有AGV的正在执行的移动任务以及完成正在执行的移动任务的实际完成时间；

重复剔除模块33，用于针对所有AGV的当前位置和目标位置均相同的那些样本，保留其中所有AGV移动到各自目标位置所花费时间之和最少的样本；

训练模块34，用于将剩余样本的所有AGV的所处的当前位置和所有AGV的目标位置作为图卷积神经网络的训练输入，将该样本的下一个时刻所有AGV的所处的当前位置作为图卷积神经网络的训练输出，对图卷积神经网络进行反向传播训练；

选取模块35，用于将运行状态输入到训练好的图卷积神经网络中，选取图卷积神经网络的输出作为最优调度决策方案。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的一种基于图卷积神经网络的多AGV调度方法。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如上述的一种基于图卷积神经网络的多AGV调度方法。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。