CN112016811A

CN112016811A - 一种基于强化学习的agv智能调度系统及方法

Info

Publication number: CN112016811A
Application number: CN202010771362.6A
Authority: CN
Inventors: 钟华刚; 陈愉彬
Original assignee: Siyecao Suzhou Intelligent Technology Co ltd
Current assignee: Siyecao Suzhou Intelligent Technology Co ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-12-01

Abstract

本发明涉及的一种基于强化学习的AGV智能调度系统，包括调度模块和深入强化学习模型，其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数，其中，所述调度模块的输入为AGV小车使用需求，输出连接所述评估网络，评估网络输出Q估计值至所述经验回放池；所述经验回放池输出Q估计值至所述目标网络，所述目标网络输出Q目标值，Q目标值与Q估计值均输入至所述损失函数，损失函数的输出再反馈给评估网络。本发明的有益之处在于，过调度模块对AGV小车的停放位置和停放数量进行优化，使得在使用AGV小车时，能够不断的缩短AGV小车的调整时间，提高对AGV小车的利用效率，减少人员、资源和时间的消耗。

Description

一种基于强化学习的AGV智能调度系统及方法

技术领域

本发明涉及了一种AGV小车调度技术领域，特别涉及一种基于强化学习的AGV智能调度系统及方法。

背景技术

在生产环境下，一般情况是根据“先到先服务”的原则处理任务，将先接收到的任务分发给AGV，然后再处理后接收到的任务；根据就近原则，将任务分配给距离任务点最近的AGV来执行。仓库中原材料的使用频率是不同的，即便按照就近原则分配任务，还是会造成一些时间开销，例如距离任务点最近的AGV实际距离也很长，在前往任务点的过程中，如果遇到正在执行任务的AGV，就会延长本次任务的完成时间，通过设置停放点位置和AGV数量的方法能够解决上述问题。但是每个公司的仓库都有属于自己的一种工作规律，并且随着需求的改变这种规律会发生变化，如果采用现有方式，需要阶段性地修改停放点和AGV数量的设置，而且规律的发现、总结以及规则的设置都需要人员的参与、资源和时间的消耗；除此之外，这种调度算法并不适用于所有的公司、所有的应用场景，都需要手动进行调整。

发明内容

为了克服现有技术中的缺陷，本发明实施例提供了一种基于强化学习的AGV智能调度系统及方法，它能够在使用过程中不断优化AGV小车的停放位置和停放数量，提高AGV小车的调度效率。

本申请实施例公开了：一种基于强化学习的AGV智能调度系统，包括调度模块和深入强化学习模型，其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数，其中，

所述调度模块的输入为AGV小车使用需求，输出连接所述评估网络，评估网络输出Q估计值至所述经验回放池；所述经验回放池输出Q估计值至所述目标网络，所述目标网络输出Q目标值，Q目标值与Q估计值均输入至所述损失函数，损失函数的输出再反馈给评估网络。

进一步地，所述调度模块输出AGV小车的停放位置和AGV小车的数量，AGV小车的停放位置作为输入状态，AGV小车数量的调整作为输出动作。

进一步地，所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。

进一步地，所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。

进一步地，所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV小车的数量，并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。

一种采用上述的基于强化学习的AGV智能调度系统的方法，包括以下步骤：

S1、以符合AGV小车的需求指令为目标，利用调度模块对停放在各个停放位置的AGV小车进行调度，所得结果为各个停放位置的AGV小车数量的调整动作；

S2、根据各个停放位置的AGV小车数量的调整来计算AGV的总体动作时间和平均动作时间，目标动作时间为平均动作时间至少再减少1秒；

S3、将目标动作时间作为输入状态，各个停放位置的AGV小车的调整为输入动作，输入到深度强化学习模型中；

S4、以目标动作时间为目标，各个停放位置的AGV小车的调整动作，所得结果在目标动作时间的前提下，得到所有停放位置的AGV小车的最佳调整动作；

S5、根据目标动作时间和AGV小车的需求指令得到新的目标动作时间和AGV小车的停放位置；按照新的AGV小车的停放位置和目标动作时间重新利用调度模块所有停放位置的AGV小车的调整动作，重复S1-S4，根据目标动作时间得到AGV小车的最佳调整动作，最后根据新的调度函数重新所有停放位置的AGV小车的调整动作。

进一步地，在所述步骤S4中，AGV小车的停放位置K和数量作为输入状态s，AGV小车位置和数量的调整作为输入动作a，输入到深度强化学习模型的评估网络中，评估网络自主学习得到达到下一状态的预估奖励，并将Q估计值输入损失函数，将输入状态s，输入动作a，预估奖励r和下一状态s’组合并存输入经验回放池中，以下一状态s’作为输入调度到目标网络中得到实际可得的奖励，即为Q目标值，将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络，提升学习性能。

进一步地，在所述步骤s1中，所述各个停放位置的AGV小车数量的调整动作的选择采用ε-greedy决策，采用经验回放的DQN算法实现策略评估，并通过神经网络近似求得值函数。

进一步地，所述Q目标值根据任务完成的时间配合权重计算得到，任务完成时间越短奖励值越高，反之奖励值越低。

本发明的有益之处在于：本发明涉及的基于强化学习的AGV智能调度系统及方法，通过调度模块对AGV小车的停放位置和停放数量进行优化，使得在使用AGV小车时，能够不断的缩短AGV小车的调整时间，提高对AGV小车的利用效率，减少人员、资源和时间的消耗；另外采用深度学习算法模型对调度策略进行不断的调整，能够使其针对具体的环境进行快速调整，不断优化AGV小车的调度效率。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于强化学习的AGV智能调度系统的整体结构示意图；

图2是深入强化学习模型的建立的步骤构示意图。

图3是利用深入强化学习模型对AGV小车进行调度的方法的步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，在本发明一较佳实施例中的基于强化学习的AGV智能调度系统，包括包括调度模块和深入强化学习模型，其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数，其中，

在上述实施例中，所述调度模块输出AGV小车的停放位置和AGV小车的数量，AGV小车的停放位置作为输入状态，AGV小车数量的调整作为输出动作。

在上述实施例中，所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。

在上述实施例中，所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。

在上述实施例中，所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV小车的数量，并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。

在本发明一较佳实施例中涉及的一种基于强化学习的AGV智能调度系统的使用方法，包括对深入强化学习模型的建立和利用深入强化学习模型对AGV小车进行调度。

参照图2，深入强化学习模型的建立包括以下步骤：

1、设置初始参数，初始参数包括学习次数计数器、记忆库容量、目标网络更新频率、网络学习的样本数量、贪婪度；

2、获取一段时间的工作任务数据；

3、对深入强化学习模型进行训练；

4、训练获得最优的AGV小车的调整动作对应的参数；

5、将现场中AGV小车的停放位置和停放数量的状态输入训练好的强化学习模型中，然后判断是否需要对AGV小车的位置进行调整。使用保存的算法模型时，先读取保存的模型参数，输入给定的状态，根据模型的输出的Q值选择最优的动作，重复执行，直到状态收敛，则说明当前状态是最优的，即当前停放点和AGV的数量是目前场景下最好的。

参照图3，利用深入强化学习模型对AGV小车进行调度的方法，包括以下步骤：

1、建立DQN评估网络和目标网络，设置第一个全连接层，状态数个神经元到50个神经元，定义forward函数，连接输入层到隐藏层，输入层到隐藏层之间通过第一个全连接层进行，且使用激励函数ReLu来处理经过隐藏层后的值，设置第二个全连接层来连接隐藏层和输出层，50个神经元到动作数个神经元；

2、初始化数据库和初始参数，遍历AGV小车的状态序列即所有AGV小车的停放位置和停放数量，不断更新AGV小车的停放位置和停放数量的数据，如果状态序列没有变化，则直接结束，否则，获取状态序列的初始状态，并判断调度动作是否终止，如果终止，从新对AGV小车的状态序列进行遍历，否则，进入下一步；

3、定义动作选择函数，输入为状态s，采用ε-greedy决策，如果随机生成值小于贪婪度，则贪婪，选择最优动作，如果随机生成值大于等于贪婪度，则探索，随机选择动作，函数返回所选择的动作；

4、定义记忆存储函数，然后将步骤三种中相关参数(状态s,动作a,奖励r,下一个状态s’)储存到记忆库中，如果学习次数计数器达到目标网络更新频率值的倍数，更新目标网络参数；抽取记忆库中的批数据，获取评估值和目标值，并利用损失函数和优化器进行评估网络参数更新；状态定义为(X，Y，K)，X，Y为停放点的坐标值，K为该停放点的AGV数量；动作定义为对停放点和AGV数量改变的操作(增加、减少和保持不变)；奖励r根据任务完成的时间配合权重计算得到，任务完成时间越短奖励值越高，反之奖励值越低。

5、初始化最初状态，利用历史数据，执行相同的工作任务，任务执行完成后，更新评估网络，储存信息到记忆库，然后进入下一个状态，再次执行相同的工作任务，当记忆库储存满后，开始学习，从记忆库中抽取给定样本数量的数据进行评估，计算损失误差，并更新评估网络，当学习次数达到目标网络更新频率的倍数时，将评估网络的参数更新到目标网络中，重复执行，直到训练完毕，并将模型参数进行保存。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于强化学习的AGV智能调度系统，其特征在于，包括调度模块和深入强化学习模型，其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数，其中，

2.根据权利要求1所述的基于强化学习的AGV智能调度系统，其特征在于，所述调度模块输出AGV小车的停放位置和AGV小车的数量，AGV小车的停放位置作为输入状态，AGV小车数量的调整作为输出动作。

3.根据权利要求1所述的基于强化学习的AGV智能调度系统，其特征在于，所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。

4.根据权利要求1所述的基于强化学习的AGV智能调度系统，其特征在于，所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。

5.根据权利要求1所述的基于强化学习的AGV智能调度系统，其特征在于，所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV小车的数量，并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。

6.一种采用权利要求1-5任一项所述的基于强化学习的AGV智能调度系统的方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的方法，在特征在于：在所述步骤S4中，AGV小车的停放位置K和数量作为输入状态s，AGV小车位置和数量的调整作为输入动作a，输入到深度强化学习模型的评估网络中，评估网络自主学习得到达到下一状态的预估奖励，并将Q估计值输入损失函数，将输入状态s，输入动作a，预估奖励r和下一状态s’组合并存输入经验回放池中，以下一状态s’作为输入调度到目标网络中得到实际可得的奖励，即为Q目标值，将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络，提升学习性能。

8.根据权利要求6所述的方法，在特征在于：在所述步骤s1中，所述各个停放位置的AGV小车数量的调整动作的选择采用ε-greedy决策，采用经验回放的DQN算法实现策略评估，并通过神经网络近似求得值函数。

9.根据权利要求7所述的方法，在特征在于：所述Q目标值根据任务完成的时间配合权重计算得到，任务完成时间越短奖励值越高，反之奖励值越低。