CN112016811A - 一种基于强化学习的agv智能调度系统及方法 - Google Patents
一种基于强化学习的agv智能调度系统及方法 Download PDFInfo
- Publication number
- CN112016811A CN112016811A CN202010771362.6A CN202010771362A CN112016811A CN 112016811 A CN112016811 A CN 112016811A CN 202010771362 A CN202010771362 A CN 202010771362A CN 112016811 A CN112016811 A CN 112016811A
- Authority
- CN
- China
- Prior art keywords
- agv
- target
- reinforcement learning
- parking position
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 25
- 230000009471 action Effects 0.000 claims description 55
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000007786 learning performance Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及的一种基于强化学习的AGV智能调度系统,包括调度模块和深入强化学习模型,其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数,其中,所述调度模块的输入为AGV小车使用需求,输出连接所述评估网络,评估网络输出Q估计值至所述经验回放池;所述经验回放池输出Q估计值至所述目标网络,所述目标网络输出Q目标值,Q目标值与Q估计值均输入至所述损失函数,损失函数的输出再反馈给评估网络。本发明的有益之处在于,过调度模块对AGV小车的停放位置和停放数量进行优化,使得在使用AGV小车时,能够不断的缩短AGV小车的调整时间,提高对AGV小车的利用效率,减少人员、资源和时间的消耗。
Description
技术领域
本发明涉及了一种AGV小车调度技术领域,特别涉及一种基于强化学习的AGV智能调度系统及方法。
背景技术
在生产环境下,一般情况是根据“先到先服务”的原则处理任务,将先接收到的任务分发给AGV,然后再处理后接收到的任务;根据就近原则,将任务分配给距离任务点最近的AGV来执行。仓库中原材料的使用频率是不同的,即便按照就近原则分配任务,还是会造成一些时间开销,例如距离任务点最近的AGV实际距离也很长,在前往任务点的过程中,如果遇到正在执行任务的AGV,就会延长本次任务的完成时间,通过设置停放点位置和AGV数量的方法能够解决上述问题。但是每个公司的仓库都有属于自己的一种工作规律,并且随着需求的改变这种规律会发生变化,如果采用现有方式,需要阶段性地修改停放点和AGV数量的设置,而且规律的发现、总结以及规则的设置都需要人员的参与、资源和时间的消耗;除此之外,这种调度算法并不适用于所有的公司、所有的应用场景,都需要手动进行调整。
发明内容
为了克服现有技术中的缺陷,本发明实施例提供了一种基于强化学习的AGV智能调度系统及方法,它能够在使用过程中不断优化AGV小车的停放位置和停放数量,提高AGV小车的调度效率。
本申请实施例公开了:一种基于强化学习的AGV智能调度系统,包括调度模块和深入强化学习模型,其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数,其中,
所述调度模块的输入为AGV小车使用需求,输出连接所述评估网络,评估网络输出Q估计值至所述经验回放池;所述经验回放池输出Q估计值至所述目标网络,所述目标网络输出Q目标值,Q目标值与Q估计值均输入至所述损失函数,损失函数的输出再反馈给评估网络。
进一步地,所述调度模块输出AGV小车的停放位置和AGV小车的数量,AGV小车的停放位置作为输入状态,AGV小车数量的调整作为输出动作。
进一步地,所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。
进一步地,所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。
进一步地,所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV小车的数量,并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。
一种采用上述的基于强化学习的AGV智能调度系统的方法,包括以下步骤:
S1、以符合AGV小车的需求指令为目标,利用调度模块对停放在各个停放位置的AGV小车进行调度,所得结果为各个停放位置的AGV小车数量的调整动作;
S2、根据各个停放位置的AGV小车数量的调整来计算AGV的总体动作时间和平均动作时间,目标动作时间为平均动作时间至少再减少1秒;
S3、将目标动作时间作为输入状态,各个停放位置的AGV小车的调整为输入动作,输入到深度强化学习模型中;
S4、以目标动作时间为目标,各个停放位置的AGV小车的调整动作,所得结果在目标动作时间的前提下,得到所有停放位置的AGV小车的最佳调整动作;
S5、根据目标动作时间和AGV小车的需求指令得到新的目标动作时间和AGV小车的停放位置;按照新的AGV小车的停放位置和目标动作时间重新利用调度模块所有停放位置的AGV小车的调整动作,重复S1-S4,根据目标动作时间得到AGV小车的最佳调整动作,最后根据新的调度函数重新所有停放位置的AGV小车的调整动作。
进一步地,在所述步骤S4中,AGV小车的停放位置K和数量作为输入状态s,AGV小车位置和数量的调整作为输入动作a,输入到深度强化学习模型的评估网络中,评估网络自主学习得到达到下一状态的预估奖励,并将Q估计值输入损失函数,将输入状态s,输入动作a,预估奖励r和下一状态s’组合并存输入经验回放池中,以下一状态s’作为输入调度到目标网络中得到实际可得的奖励,即为Q目标值,将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络,提升学习性能。
进一步地,在所述步骤s1中,所述各个停放位置的AGV小车数量的调整动作的选择采用ε-greedy决策,采用经验回放的DQN算法实现策略评估,并通过神经网络近似求得值函数。
进一步地,所述Q目标值根据任务完成的时间配合权重计算得到,任务完成时间越短奖励值越高,反之奖励值越低。
本发明的有益之处在于:本发明涉及的基于强化学习的AGV智能调度系统及方法,通过调度模块对AGV小车的停放位置和停放数量进行优化,使得在使用AGV小车时,能够不断的缩短AGV小车的调整时间,提高对AGV小车的利用效率,减少人员、资源和时间的消耗;另外采用深度学习算法模型对调度策略进行不断的调整,能够使其针对具体的环境进行快速调整,不断优化AGV小车的调度效率。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于强化学习的AGV智能调度系统的整体结构示意图;
图2是深入强化学习模型的建立的步骤构示意图。
图3是利用深入强化学习模型对AGV小车进行调度的方法的步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,在本发明一较佳实施例中的基于强化学习的AGV智能调度系统,包括包括调度模块和深入强化学习模型,其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数,其中,
所述调度模块的输入为AGV小车使用需求,输出连接所述评估网络,评估网络输出Q估计值至所述经验回放池;所述经验回放池输出Q估计值至所述目标网络,所述目标网络输出Q目标值,Q目标值与Q估计值均输入至所述损失函数,损失函数的输出再反馈给评估网络。
在上述实施例中,所述调度模块输出AGV小车的停放位置和AGV小车的数量,AGV小车的停放位置作为输入状态,AGV小车数量的调整作为输出动作。
在上述实施例中,所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。
在上述实施例中,所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。
在上述实施例中,所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV小车的数量,并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。
在本发明一较佳实施例中涉及的一种基于强化学习的AGV智能调度系统的使用方法,包括对深入强化学习模型的建立和利用深入强化学习模型对AGV小车进行调度。
参照图2,深入强化学习模型的建立包括以下步骤:
1、设置初始参数,初始参数包括学习次数计数器、记忆库容量、目标网络更新频率、网络学习的样本数量、贪婪度;
2、获取一段时间的工作任务数据;
3、对深入强化学习模型进行训练;
4、训练获得最优的AGV小车的调整动作对应的参数;
5、将现场中AGV小车的停放位置和停放数量的状态输入训练好的强化学习模型中,然后判断是否需要对AGV小车的位置进行调整。使用保存的算法模型时,先读取保存的模型参数,输入给定的状态,根据模型的输出的Q值选择最优的动作,重复执行,直到状态收敛,则说明当前状态是最优的,即当前停放点和AGV的数量是目前场景下最好的。
参照图3,利用深入强化学习模型对AGV小车进行调度的方法,包括以下步骤:
1、建立DQN评估网络和目标网络,设置第一个全连接层,状态数个神经元到50个神经元,定义forward函数,连接输入层到隐藏层,输入层到隐藏层之间通过第一个全连接层进行,且使用激励函数ReLu来处理经过隐藏层后的值,设置第二个全连接层来连接隐藏层和输出层,50个神经元到动作数个神经元;
2、初始化数据库和初始参数,遍历AGV小车的状态序列即所有AGV小车的停放位置和停放数量,不断更新AGV小车的停放位置和停放数量的数据,如果状态序列没有变化,则直接结束,否则,获取状态序列的初始状态,并判断调度动作是否终止,如果终止,从新对AGV小车的状态序列进行遍历,否则,进入下一步;
3、定义动作选择函数,输入为状态s,采用ε-greedy决策,如果随机生成值小于贪婪度,则贪婪,选择最优动作,如果随机生成值大于等于贪婪度,则探索,随机选择动作,函数返回所选择的动作;
4、定义记忆存储函数,然后将步骤三种中相关参数(状态s,动作a,奖励r,下一个状态s’)储存到记忆库中,如果学习次数计数器达到目标网络更新频率值的倍数,更新目标网络参数;抽取记忆库中的批数据,获取评估值和目标值,并利用损失函数和优化器进行评估网络参数更新;状态定义为(X,Y,K),X,Y为停放点的坐标值,K为该停放点的AGV数量;动作定义为对停放点和AGV数量改变的操作(增加、减少和保持不变);奖励r根据任务完成的时间配合权重计算得到,任务完成时间越短奖励值越高,反之奖励值越低。
5、初始化最初状态,利用历史数据,执行相同的工作任务,任务执行完成后,更新评估网络,储存信息到记忆库,然后进入下一个状态,再次执行相同的工作任务,当记忆库储存满后,开始学习,从记忆库中抽取给定样本数量的数据进行评估,计算损失误差,并更新评估网络,当学习次数达到目标网络更新频率的倍数时,将评估网络的参数更新到目标网络中,重复执行,直到训练完毕,并将模型参数进行保存。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种基于强化学习的AGV智能调度系统,其特征在于,包括调度模块和深入强化学习模型,其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数,其中,
所述调度模块的输入为AGV小车使用需求,输出连接所述评估网络,评估网络输出Q估计值至所述经验回放池;所述经验回放池输出Q估计值至所述目标网络,所述目标网络输出Q目标值,Q目标值与Q估计值均输入至所述损失函数,损失函数的输出再反馈给评估网络。
2.根据权利要求1所述的基于强化学习的AGV智能调度系统,其特征在于,所述调度模块输出AGV小车的停放位置和AGV小车的数量,AGV小车的停放位置作为输入状态,AGV小车数量的调整作为输出动作。
3.根据权利要求1所述的基于强化学习的AGV智能调度系统,其特征在于,所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。
4.根据权利要求1所述的基于强化学习的AGV智能调度系统,其特征在于,所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。
5.根据权利要求1所述的基于强化学习的AGV智能调度系统,其特征在于,所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV小车的数量,并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。
6.一种采用权利要求1-5任一项所述的基于强化学习的AGV智能调度系统的方法,其特征在于,包括以下步骤:
S1、以符合AGV小车的需求指令为目标,利用调度模块对停放在各个停放位置的AGV小车进行调度,所得结果为各个停放位置的AGV小车数量的调整动作;
S2、根据各个停放位置的AGV小车数量的调整来计算AGV的总体动作时间和平均动作时间,目标动作时间为平均动作时间至少再减少1秒;
S3、将目标动作时间作为输入状态,各个停放位置的AGV小车的调整为输入动作,输入到深度强化学习模型中;
S4、以目标动作时间为目标,各个停放位置的AGV小车的调整动作,所得结果在目标动作时间的前提下,得到所有停放位置的AGV小车的最佳调整动作;
S5、根据目标动作时间和AGV小车的需求指令得到新的目标动作时间和AGV小车的停放位置;按照新的AGV小车的停放位置和目标动作时间重新利用调度模块所有停放位置的AGV小车的调整动作,重复S1-S4,根据目标动作时间得到AGV小车的最佳调整动作,最后根据新的调度函数重新所有停放位置的AGV小车的调整动作。
7.根据权利要求6所述的方法,在特征在于:在所述步骤S4中,AGV小车的停放位置K和数量作为输入状态s,AGV小车位置和数量的调整作为输入动作a,输入到深度强化学习模型的评估网络中,评估网络自主学习得到达到下一状态的预估奖励,并将Q估计值输入损失函数,将输入状态s,输入动作a,预估奖励r和下一状态s’组合并存输入经验回放池中,以下一状态s’作为输入调度到目标网络中得到实际可得的奖励,即为Q目标值,将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络,提升学习性能。
8.根据权利要求6所述的方法,在特征在于:在所述步骤s1中,所述各个停放位置的AGV小车数量的调整动作的选择采用ε-greedy决策,采用经验回放的DQN算法实现策略评估,并通过神经网络近似求得值函数。
9.根据权利要求7所述的方法,在特征在于:所述Q目标值根据任务完成的时间配合权重计算得到,任务完成时间越短奖励值越高,反之奖励值越低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010771362.6A CN112016811A (zh) | 2020-08-04 | 2020-08-04 | 一种基于强化学习的agv智能调度系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010771362.6A CN112016811A (zh) | 2020-08-04 | 2020-08-04 | 一种基于强化学习的agv智能调度系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112016811A true CN112016811A (zh) | 2020-12-01 |
Family
ID=73499463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010771362.6A Pending CN112016811A (zh) | 2020-08-04 | 2020-08-04 | 一种基于强化学习的agv智能调度系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016811A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112835333A (zh) * | 2020-12-31 | 2021-05-25 | 北京工商大学 | 一种基于深度强化学习多agv避障与路径规划方法及系统 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN113050644A (zh) * | 2021-03-22 | 2021-06-29 | 聊城大学 | 基于迭代贪婪进化的agv调度方法 |
CN113535365A (zh) * | 2021-07-30 | 2021-10-22 | 中科计算技术西部研究院 | 基于强化学习的深度学习训练作业资源放置系统及方法 |
CN113762687A (zh) * | 2021-01-04 | 2021-12-07 | 北京京东振世信息技术有限公司 | 一种仓库内的人员排班调度方法和装置 |
CN114527642A (zh) * | 2022-03-03 | 2022-05-24 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443412A (zh) * | 2019-07-18 | 2019-11-12 | 华中科技大学 | 动态优化加工过程中物流调度及路径规划的强化学习方法 |
CN110488781A (zh) * | 2019-08-26 | 2019-11-22 | 华南理工大学 | 一种基于迁移强化学习的生产系统调度方法 |
CN110543171A (zh) * | 2019-08-27 | 2019-12-06 | 华中科技大学 | 一种基于改进bp神经网络的仓储多agv路径规划方法 |
CN111275572A (zh) * | 2020-01-15 | 2020-06-12 | 杭州电子科技大学 | 一种基于粒子群和深度强化学习的机组调度系统及方法 |
-
2020
- 2020-08-04 CN CN202010771362.6A patent/CN112016811A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443412A (zh) * | 2019-07-18 | 2019-11-12 | 华中科技大学 | 动态优化加工过程中物流调度及路径规划的强化学习方法 |
CN110488781A (zh) * | 2019-08-26 | 2019-11-22 | 华南理工大学 | 一种基于迁移强化学习的生产系统调度方法 |
CN110543171A (zh) * | 2019-08-27 | 2019-12-06 | 华中科技大学 | 一种基于改进bp神经网络的仓储多agv路径规划方法 |
CN111275572A (zh) * | 2020-01-15 | 2020-06-12 | 杭州电子科技大学 | 一种基于粒子群和深度强化学习的机组调度系统及方法 |
Non-Patent Citations (1)
Title |
---|
刘辉 等: "基于多智能体强化学习的多AGV路径规划方法", 自动化与仪表, vol. 35, no. 02, pages 84 - 89 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112835333A (zh) * | 2020-12-31 | 2021-05-25 | 北京工商大学 | 一种基于深度强化学习多agv避障与路径规划方法及系统 |
CN113762687A (zh) * | 2021-01-04 | 2021-12-07 | 北京京东振世信息技术有限公司 | 一种仓库内的人员排班调度方法和装置 |
CN113762687B (zh) * | 2021-01-04 | 2024-03-01 | 北京京东振世信息技术有限公司 | 一种仓库内的人员排班调度方法和装置 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN112904848B (zh) * | 2021-01-18 | 2022-08-12 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN113050644A (zh) * | 2021-03-22 | 2021-06-29 | 聊城大学 | 基于迭代贪婪进化的agv调度方法 |
CN113050644B (zh) * | 2021-03-22 | 2024-02-27 | 聊城大学 | 基于迭代贪婪进化的agv调度方法 |
CN113535365A (zh) * | 2021-07-30 | 2021-10-22 | 中科计算技术西部研究院 | 基于强化学习的深度学习训练作业资源放置系统及方法 |
CN114527642A (zh) * | 2022-03-03 | 2022-05-24 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
CN114527642B (zh) * | 2022-03-03 | 2024-04-02 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016811A (zh) | 一种基于强化学习的agv智能调度系统及方法 | |
Yang et al. | Multi‐robot path planning based on a deep reinforcement learning DQN algorithm | |
CN112833905B (zh) | 基于改进a*算法的分布式多agv无碰撞路径规划方法 | |
CN112418497B (zh) | 一种面向制造物联的物料配送路径优化方法 | |
CN111596658A (zh) | 一种多agv无碰撞运行的路径规划方法及调度系统 | |
CN107831685B (zh) | 一种群体机器人的控制方法和系统 | |
CN113919543B (zh) | 一种基于5g物联网的agv调度路径优化方法 | |
CN111882215A (zh) | 一种含有agv的个性化定制柔性作业车间调度方法 | |
CN117093009B (zh) | 一种基于机器视觉的物流agv小车导航控制方法及系统 | |
CN112184053B (zh) | 一种任务调度的方法、装置及其设备 | |
CN116523165B (zh) | 柔性作业车间amr路径规划与生产调度的协同优化方法 | |
CN115061436B (zh) | 动态调度方法、系统、电子设备及计算机存储介质 | |
CN108897316A (zh) | 一种基于信息素导航的集群仓储机器人系统控制方法 | |
CN114936783B (zh) | 一种基于mmddpg算法的rgv小车调度方法及系统 | |
CN115981264A (zh) | 一种考虑冲突的agv调度与数量联合优化方法 | |
CN116224926A (zh) | 面向单件小批柔性制造车间的动态调度优化方法及装置 | |
CN114358233A (zh) | 基于双混合粒子群的多agv路径规划问题优化方法及系统 | |
Takahashi et al. | Online optimization of AGV transport systems using deep reinforcement learning | |
CN114201303A (zh) | 工业物联网环境下固定路径agv的任务卸载优化方法 | |
Singh et al. | Dispatching AGVs with battery constraints using deep reinforcement learning | |
CN112561166A (zh) | 车辆的调度方法和装置、存储介质、电子装置 | |
Xia et al. | A multi-AGV optimal scheduling algorithm based on particle swarm optimization | |
CN117361013A (zh) | 一种基于深度强化学习的多机货架仓储调度方法 | |
Xu et al. | An efficient recharging task planning method for multi-robot autonomous recharging problem | |
CN113627646B (zh) | 一种基于神经网络的路径规划方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201201 |