CN116187611A - 一种多智能体路径规划方法及终端 - Google Patents

一种多智能体路径规划方法及终端 Download PDF

Info

Publication number
CN116187611A
CN116187611A CN202310452118.7A CN202310452118A CN116187611A CN 116187611 A CN116187611 A CN 116187611A CN 202310452118 A CN202310452118 A CN 202310452118A CN 116187611 A CN116187611 A CN 116187611A
Authority
CN
China
Prior art keywords
agent
reinforcement learning
deep reinforcement
order
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310452118.7A
Other languages
English (en)
Other versions
CN116187611B (zh
Inventor
宋轩
宋歌
张浩然
谢洪彬
舒家阳
赵奕丞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202310452118.7A priority Critical patent/CN116187611B/zh
Publication of CN116187611A publication Critical patent/CN116187611A/zh
Application granted granted Critical
Publication of CN116187611B publication Critical patent/CN116187611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0835Relationships between shipper or supplier and carriers
    • G06Q10/08355Routing methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种多智能体路径规划方法及终端,建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划,能够使各个智能体之间的数据相互通信,并自动进行任务分配和路径规划,单个智能体出现宕机后,不影响整个仓储管理系统的运行,即使订单变化或智能体数量变动也能够及时重新分配任务和路径规划,从而提高了路径规划的实时性,并确保仓储管理的高效运行。

Description

一种多智能体路径规划方法及终端
技术领域
本发明涉及路径规划技术领域,尤其涉及一种多智能体路径规划方法及终端。
背景技术
传统路径规划算法实时性差,规划得到的是一条长时间内没有新运货车加入的路径,并且仅在检测到可能发生碰撞时,进行重新规划避免碰撞发生。实际情况当中,仓储管理常常有较大订单变动,运货车数量也会有不同的变更,如果运货车无法针对实时订单及环境信息做出变更,往往就会导致效率降低,甚至死锁等问题。
发明内容
本发明所要解决的技术问题是:提供一种多智能体路径规划方法及终端,能够提高路径规划的实时性,并确保仓储管理的高效运行。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种多智能体路径规划方法,包括步骤:
建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;
根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;
对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;
使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种多智能体路径规划终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;
根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;
对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;
使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。
本发明的有益效果在于:建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络,根据图神经网络和深度强化学习神经网络得到深度强化学习网络,对深度强化学习网络进行训练,得到权值更新后的深度强化学习网络,使用其对智能体进行订单任务分配以及路径规划,基于图神经网络的深度强化学习网络能够使各个智能体之间的数据相互通信,并自动进行任务分配和路径规划,单个智能体出现宕机后,深度强化学习网络中的数据也能够进行实时更新,并不影响整个仓储管理系统的运行,即使订单变化或智能体数量变动也能够及时重新分配任务和路径规划,从而提高了路径规划的实时性,并确保仓储管理的高效运行。
附图说明
图1为本发明实施例的一种多智能体路径规划方法的步骤流程图;
图2为本发明实施例的一种多智能体路径规划终端的结构示意图;
图3为本发明实施例的一种多智能体路径规划方法的深度强化学习网络结构示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,本发明实施例提供了一种多智能体路径规划方法,包括步骤:
建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;
根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;
对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;
使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。
从上述描述可知,本发明的有益效果在于:建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络,根据图神经网络和深度强化学习神经网络得到深度强化学习网络,对深度强化学习网络进行训练,得到权值更新后的深度强化学习网络,使用其对智能体进行订单任务分配以及路径规划,基于图神经网络的深度强化学习网络能够使各个智能体之间的数据相互通信,并自动进行任务分配和路径规划,单个智能体出现宕机后,深度强化学习网络中的数据也能够进行实时更新,并不影响整个仓储管理系统的运行,即使订单变化或智能体数量变动也能够及时重新分配任务和路径规划,从而提高了路径规划的实时性,并确保仓储管理的高效运行。
进一步地,所述建立智能体与订单的图神经网络包括:
获取订单信息和智能体信息;
根据所述订单信息和智能体信息生成订单顶点和智能体顶点,并对应生成订单与智能体之间的边以及智能体之间的边;
根据所述订单顶点、所述智能体顶点、所述订单与智能体之间的边以及所述智能体之间的边构建智能体与订单的图神经网络。
由上述描述可知,根据订单顶点、智能体顶点、订单与智能体之间的边以及智能体之间的边构建智能体与订单的图神经网络,该图神经网络能够根据边的权重来确定智能体所承接的订单以及智能体之间通行的优先级,且根据订单信息和智能体信息生成顶点和边,能够实时根据订单和智能体的最新情况完成订单任务分配,从而提高了仓储管理的运行效率。
进一步地,所述对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络包括:
确定所述深度强化学习网络的迭代轮数、最大步数、衰减因子以及探索率;
基于所述迭代轮数、最大步数、衰减因子以及探索率对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络。
由上述描述可知,通过对深度强化学习网络进行共同训练,避免了单个智能体训练过程中收敛性差且整体上难以达到全局优化的问题,训练后的网络的权值得到了更新,此时即可根据边的权重确定订单任务分配以及路径规划,从而提高路径规划的可靠性。
进一步地,所述使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划包括:
根据所述权值更新后的深度强化学习网络中的所述订单与智能体之间的边的权重作为第一Q值生成智能体与订单的第一Q值表,所述第一Q值为所述智能体选取不同动作的奖励;
根据所述第一Q值确定所述智能体的订单任务分配,并使用时序差分方式增量式更新所述第一Q值;
将时序差分误差作为目标函数更新所述图神经网络;
基于所述权值更新后的深度强化学习网络中的所述智能体之间的边的权重作为第二Q值生成智能体与智能体之间的第二Q值表;
根据所述第二Q值确定经过同一路段时智能体的优先级;
获取当前环境信息,并将所述当前环境信息和所述订单任务分配输入至所述深度强化学习神经网络,输出路径规划结果。
由上述描述可知,根据第一Q值可将不同订单分配给不同的智能体,根据第二Q值可决定通过同一路段时运货车的优先级,最后,将当前环境信息和订单任务分配输入至深度强化学习网络,输出路径规划,即可完成订单任务分配以及路径规划,提高了路径规划的实时性,并确保仓储管理的高效运行。
进一步地,所述建立智能体与订单的图神经网络之前包括:
将仓库地图进行栅格化处理,得到处理后的仓库地图;
获取障碍物信息,并根据所述障碍物信息对所述处理后的仓库地图进行标记,得到标记后的仓库地图;
将所述标记后的仓库地图输入至智能体中。
由上述描述可知,将标记后的仓库地图输入至智能体中,后续即可根据智能体中的标记后的仓库地图来规划路径,避开障碍物,实现可靠地路径规划。
进一步地,所述使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划之后包括:
获取与所述订单任务分配对应的所述智能体的订单完成时间;
根据订单完成时间确定所述智能体的奖励值。
由上述描述可知,根据订单完成时间确定智能体的奖励值,在规定时间完成,则奖励值更高,未在规定时间完成,则降低奖励值,能够有效地根据智能体完成订单的情况来调整订单分配,提高仓储管理的运行效率。
进一步地,所述使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划之后包括:
将所述订单任务分配中的任务目标地点、所述当前环境信息和所述智能体信息作为状态值输入至所述权值更新后的深度强化学习网络,得到动作值函数;
确定随机数,并判断所述随机数是否小于预设探索因子,若是,则随机选择待执行动作,否则,将所述动作值函数最大的动作确定为待执行动作;
根据所述智能体的动作确定所述智能体的奖励值。
由上述描述可知,还根据智能体的动作确定智能体的奖励值,以便根据奖励值确定要选择的动作,从而提高智能体的处理效率。
进一步地,还包括:
使用Q值更新规则对所述Q值进行更新,所述Q值包括所述第一Q值和/或所述第二Q值;
计算损失函数,并根据所述损失函数对所述权值更新后的深度强化学习网络的网络参数进行更新。
进一步地,所述使用Q值更新规则对Q值进行更新包括:
Figure SMS_1
式中,s表示状态,a表示动作,α表示对价值更新的步长,r表示奖励值,γ表示衰减因子,A表示智能体的动作空间,s′表示下一时刻状态,a′表示下一时刻动作;
所述损失函数Loss为:
Figure SMS_2
式中,N表示训练步数。
由上述描述可知,使用Q值更新规则对Q值进行更新,能够使智能体更倾向于选择更高奖励的动作,达到提高智能体处理效率的目的,计算损失函数,并根据损失函数对权值更新后的深度强化学习网络的网络参数进行更新,能够不断地优化网络,提高网络的精确度,从而提高路径规划的可靠性。
请参照图2,本发明另一实施例提供了一种多智能体路径规划终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多智能体路径规划方法中的各个步骤。
本发明上述的多智能体路径规划方法及终端能够适用于仓储管理系统,以下通过具体实施方式进行说明:
实施例一
请参照图1和图3,本实施例的一种多智能体路径规划方法,包括步骤:
S1、将仓库地图进行栅格化处理,得到处理后的仓库地图;
具体的,将仓库地图进行栅格化处理,分为m×n的网格,得到处理后的仓库地图。
S2、获取障碍物信息,并根据所述障碍物信息对所述处理后的仓库地图进行标记,得到标记后的仓库地图;
具体的,根据障碍物信息若网格内存在障碍物,则记为1,若无障碍物,可以通行,则记为0,另外,若某一个货位没有货架,但被预定,也记为1,视作有障碍物。
S3、将所述标记后的仓库地图输入至智能体中。
其中,所述智能体包括运货车或机器人,本实施例中,所述智能体为运货车。
S4、建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络,具体包括:
S41、获取订单信息和智能体信息;
在一种可选的实施方式中,所述订单信息包括起点、终点以及订单状态,所述订单状态包括未被承接、执行中、已完成或已超时,所述智能体信息包括运货车位置和运货车状态,所述运货车状态包括空载、满载或闲置。
S42、根据所述订单信息和智能体信息生成订单顶点和智能体顶点,并对应生成订单与智能体之间的边以及智能体之间的边;
S43、根据所述订单顶点、所述智能体顶点、所述订单与智能体之间的边以及所述智能体之间的边构建智能体与订单的图神经网络。
其中,订单与智能体之间的边的权重作为运货车争取订单的权值,该值越大,其承接订单的概率越高,该边的权重为运货车到订单起点位置的曼哈顿距离的倒数,运货车之间的边的权重作为运货车之间通行同一路段的优先级,以二元组
Figure SMS_3
作为运货车之间的边的权值,其中,/>
Figure SMS_4
为重合路段的长度,/>
Figure SMS_5
表示其中一运货车的当前整个规划路径长度,/>
Figure SMS_6
表示另一运货车的当前整个规划路径长度。
S44、建立智能体自身的深度强化学习神经网络,用于承接订单后对运货车的行驶路径做出规划。
S5、根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;
S6、对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络,具体包括:
S61、确定所述深度强化学习网络的迭代轮数、最大步数、衰减因子以及探索率;
S62、基于所述迭代轮数、最大步数、衰减因子以及探索率对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络。
S7、使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划,具体包括:
S71、根据所述权值更新后的深度强化学习网络中的所述订单与智能体之间的边的权重作为第一Q值生成智能体与订单的第一Q值表,所述第一Q值为所述智能体选取不同动作的奖励;
S72、根据所述第一Q值确定所述智能体的订单任务分配,并使用时序差分方式增量式更新所述第一Q值;
S73、将时序差分误差作为目标函数更新所述图神经网络;
S74、基于所述权值更新后的深度强化学习网络中的所述智能体之间的边的权重作为第二Q值生成智能体与智能体之间的第二Q值表;
S75、根据所述第二Q值确定经过同一路段时智能体的优先级;
S76、获取当前环境信息,并将所述当前环境信息和所述订单任务分配输入至所述深度强化学习神经网络,输出路径规划结果。
在一种可选的实施方式,使用激光传感器获取当前环境信息以及相较于整个仓库环境的SLAM(Simultaneous localization and mapping,同步定位与地图构建)定位信息,并将当前环境信息和订单任务分配输入至深度强化学习神经网络,输出路径规划结果,该路径规划结果规划了从当前位置抵达目标地点的路径以及运货车各车轮差速。
运货车从当前位置出发,到达指定起点货架正下方,通过抬起整个货架,将货架运送到指定终点并卸运视为完成整个任务的流程,运货车的动作空间定义为集合
Figure SMS_7
,分别代表运货车向前,向后,向左,向右移动和停在当前位置,运货车采用动作a∈A。
对于图神经网络的强化学习训练,考虑将订单完成时间作为奖励值,因此,在一种可选的实施方式中,还包括:
获取与所述订单任务分配对应的所述智能体的订单完成时间;
根据订单完成时间确定所述智能体的奖励值,比如,订单在规定时长
Figure SMS_8
内由运货车完成,其奖励值为ra,若其未在规定时长内完成,其奖励值随超出时长/>
Figure SMS_9
增加而下降
Figure SMS_10
,直到降为0;
将所述订单任务分配中的任务目标地点、所述当前环境信息和所述智能体信息作为状态值输入至所述权值更新后的深度强化学习网络,得到动作值函数;
确定随机数,并判断所述随机数是否小于预设探索因子,若是,则随机选择待执行动作a(a∈A),否则,将所述动作值函数最大的动作确定为待执行动作;
根据所述智能体的动作确定所述智能体的奖励值。
其中,所述随机数为0-1之间的随机数,如果运货车的动作为停在原地不动,给予奖励值rs
如果运货车的动作为抵达目的地,给予奖励值rg
如果运货车与目标地点间曼哈顿距离减小
Figure SMS_11
,给予奖励值rp
如果运货车与目标地点间曼哈顿距离减小
Figure SMS_12
,给予惩罚值rn
如果运货车的动作不可行或发生碰撞,则给予惩罚值rc
如果运货车在最大时长期间仍旧未完成任务,给予惩罚值ru,若当前运货车状态为空载,则取消该运货车承接订单请求,并将订单重新设置为未被承接状态,若当前运货车状态为满载,则运货车将货架就近存放至空闲货位,并重新生成新的未被承接的订单。
S8、使用Q值更新规则对Q值进行更新,所述Q值包括所述第一Q值和/或所述第二Q值,具体为:
Figure SMS_13
式中,s表示状态,a表示动作,α表示对价值更新的步长,为常数,r表示奖励值,γ表示衰减因子,A表示智能体的动作空间,s′表示下一时刻状态,a′表示下一时刻动作;
S9、计算损失函数,并根据所述损失函数对所述权值更新后的深度强化学习网络的网络参数进行更新。
所述损失函数Loss为:
Figure SMS_14
式中,N表示训练步数,用于计算其平均的损失值,Q()表示Q值表,需要使其接近后面的时序差分方程
Figure SMS_15
在一种可选的实施方式中,每个agent(智能体)保存一个Mixing Network(混合网络)模型副本,并根据自身周围的运货车数据作为总数据的子集,通过异步随机梯度下降的方式进行更新,以此可以由agent的硬件设备支持训练,实现分布式的多智能体结构。
如图3所示,图3展示了深度强化学习网络结构示意图,MLP为多层感知器,GRU为循环神经网络,实心圆点表示运货车,与实心圆点相连的矩形图标表示订单信息,W1和W2表示网络的一层中的参数,通过更改这些参数来提高网络质量,Oj t表示t时刻的智能体观察到的环境状态,如读入的摄像机信息或激光信息,其作为智能体的状态信息的一部分,aj t-1表示t-1时刻智能体采用的action(动作),如其转向及速度,Q()表示函数,该函数根据当前状态
Figure SMS_16
,输出其下一步应该采取的动作a的概率,根据概率判断动作a的好坏,进而选取不同的动作。
实施例二
请参照图2,本实施例的一种多智能体路径规划终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例一中的多智能体路径规划方法中的各个步骤。
综上所述,本发明提供的一种多智能体路径规划方法及终端,建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划,通过对深度强化学习网络进行共同训练,避免了单个智能体训练过程中收敛性差且整体上难以达到全局优化的问题,训练后的网络的权值得到了更新,此时即可根据边的权重确定订单任务分配以及路径规划,提高路径规划的可靠性;基于图神经网络的深度强化学习网络能够使各个智能体之间的数据相互通信,并自动进行任务分配和路径规划,单个智能体出现宕机后,深度强化学习网络中的数据也能够进行实时更新,并不影响整个仓储管理系统的运行,即使订单变化或智能体数量变动也能够及时重新分配任务和路径规划,从而提高了路径规划的实时性,并确保仓储管理的高效运行。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种多智能体路径规划方法,其特征在于,包括步骤:
建立智能体与订单的图神经网络,并建立智能体自身的深度强化学习神经网络;
根据所述图神经网络和所述深度强化学习神经网络得到深度强化学习网络;
对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络;
使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划。
2.根据权利要求1所述的一种多智能体路径规划方法,其特征在于,所述建立智能体与订单的图神经网络包括:
获取订单信息和智能体信息;
根据所述订单信息和智能体信息生成订单顶点和智能体顶点,并对应生成订单与智能体之间的边以及智能体之间的边;
根据所述订单顶点、所述智能体顶点、所述订单与智能体之间的边以及所述智能体之间的边构建智能体与订单的图神经网络。
3.根据权利要求1所述的一种多智能体路径规划方法,其特征在于,所述对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络包括:
确定所述深度强化学习网络的迭代轮数、最大步数、衰减因子以及探索率;
基于所述迭代轮数、最大步数、衰减因子以及探索率对所述深度强化学习网络进行训练,得到权值更新后的深度强化学习网络。
4.根据权利要求2所述的一种多智能体路径规划方法,其特征在于,所述使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划包括:
根据所述权值更新后的深度强化学习网络中的所述订单与智能体之间的边的权重作为第一Q值生成智能体与订单的第一Q值表,所述第一Q值为所述智能体选取不同动作的奖励;
根据所述第一Q值确定所述智能体的订单任务分配,并使用时序差分方式增量式更新所述第一Q值;
将时序差分误差作为目标函数更新所述图神经网络;
基于所述权值更新后的深度强化学习网络中的所述智能体之间的边的权重作为第二Q值生成智能体与智能体之间的第二Q值表;
根据所述第二Q值确定经过同一路段时智能体的优先级;
获取当前环境信息,并将所述当前环境信息和所述订单任务分配输入至所述深度强化学习神经网络,输出路径规划结果。
5.根据权利要求1所述的一种多智能体路径规划方法,其特征在于,所述建立智能体与订单的图神经网络之前包括:
将仓库地图进行栅格化处理,得到处理后的仓库地图;
获取障碍物信息,并根据所述障碍物信息对所述处理后的仓库地图进行标记,得到标记后的仓库地图;
将所述标记后的仓库地图输入至智能体中。
6.根据权利要求1所述的一种多智能体路径规划方法,其特征在于,所述使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划之后包括:
获取与所述订单任务分配对应的所述智能体的订单完成时间;
根据订单完成时间确定所述智能体的奖励值。
7.根据权利要求4所述的一种多智能体路径规划方法,其特征在于,所述使用所述权值更新后的深度强化学习网络对所述智能体进行订单任务分配以及路径规划之后包括:
将所述订单任务分配中的任务目标地点、所述当前环境信息和所述智能体信息作为状态值输入至所述权值更新后的深度强化学习网络,得到动作值函数;
确定随机数,并判断所述随机数是否小于预设探索因子,若是,则随机选择待执行动作,否则,将所述动作值函数最大的动作确定为待执行动作;
根据所述智能体的动作确定所述智能体的奖励值。
8.根据权利要求4所述的一种多智能体路径规划方法,其特征在于,还包括:
使用Q值更新规则对Q值进行更新,所述Q值包括所述第一Q值和/或所述第二Q值;
计算损失函数,并根据所述损失函数对所述权值更新后的深度强化学习网络的网络参数进行更新。
9.根据权利要求8所述的一种多智能体路径规划方法,其特征在于,所述使用Q值更新规则对Q值进行更新包括:
Figure QLYQS_1
式中,s表示状态,a表示动作,α表示对价值更新的步长,r表示奖励值,γ表示衰减因子,A表示智能体的动作空间,s′表示下一时刻状态,a′表示下一时刻动作;
所述损失函数Loss为:
Figure QLYQS_2
式中,N表示训练步数。
10.一种多智能体路径规划终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的一种多智能体路径规划方法中的各个步骤。
CN202310452118.7A 2023-04-25 2023-04-25 一种多智能体路径规划方法及终端 Active CN116187611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310452118.7A CN116187611B (zh) 2023-04-25 2023-04-25 一种多智能体路径规划方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310452118.7A CN116187611B (zh) 2023-04-25 2023-04-25 一种多智能体路径规划方法及终端

Publications (2)

Publication Number Publication Date
CN116187611A true CN116187611A (zh) 2023-05-30
CN116187611B CN116187611B (zh) 2023-07-25

Family

ID=86444655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310452118.7A Active CN116187611B (zh) 2023-04-25 2023-04-25 一种多智能体路径规划方法及终端

Country Status (1)

Country Link
CN (1) CN116187611B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117893243A (zh) * 2024-03-13 2024-04-16 南方科技大学 基于强化学习的价值链优化管控方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储系统多机器人路径规划方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113850414A (zh) * 2021-08-20 2021-12-28 天津大学 基于图神经网络和强化学习的物流调度规划方法
CN113947348A (zh) * 2021-09-27 2022-01-18 华为技术有限公司 一种订单分配方法及装置
CN114372830A (zh) * 2022-01-13 2022-04-19 长安大学 一种基于时空多图神经网络的网约车需求预测方法
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及系统
US20220226994A1 (en) * 2020-07-20 2022-07-21 Georgia Tech Research Corporation Heterogeneous graph attention networks for scalable multi-robot scheduling
WO2022240362A1 (en) * 2021-05-14 2022-11-17 Grabtaxi Holdings Pte. Ltd Method and device for controlling vehicles to perform
CN115496287A (zh) * 2022-11-15 2022-12-20 哈尔滨工业大学(深圳) 基于仓储环境的多智能通信强化学习体路径规划方法及系统
CN115993831A (zh) * 2023-03-23 2023-04-21 安徽大学 基于深度强化学习的机器人无目标网络的路径规划方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
US20220226994A1 (en) * 2020-07-20 2022-07-21 Georgia Tech Research Corporation Heterogeneous graph attention networks for scalable multi-robot scheduling
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
WO2022240362A1 (en) * 2021-05-14 2022-11-17 Grabtaxi Holdings Pte. Ltd Method and device for controlling vehicles to perform
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储系统多机器人路径规划方法
CN113850414A (zh) * 2021-08-20 2021-12-28 天津大学 基于图神经网络和强化学习的物流调度规划方法
CN113947348A (zh) * 2021-09-27 2022-01-18 华为技术有限公司 一种订单分配方法及装置
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及系统
CN114372830A (zh) * 2022-01-13 2022-04-19 长安大学 一种基于时空多图神经网络的网约车需求预测方法
CN115496287A (zh) * 2022-11-15 2022-12-20 哈尔滨工业大学(深圳) 基于仓储环境的多智能通信强化学习体路径规划方法及系统
CN115993831A (zh) * 2023-03-23 2023-04-21 安徽大学 基于深度强化学习的机器人无目标网络的路径规划方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117893243A (zh) * 2024-03-13 2024-04-16 南方科技大学 基于强化学习的价值链优化管控方法

Also Published As

Publication number Publication date
CN116187611B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
EP3384360B1 (en) Simultaneous mapping and planning by a robot
CN109839935B (zh) 多agv的路径规划方法及设备
CN113110509B (zh) 一种基于深度强化学习的仓储系统多机器人路径规划方法
US11886191B2 (en) Scheduling method and system for fully autonomous waterborne inter terminal transportation
CN112596515B (zh) 一种多物流机器人移动控制方法及装置
CN112015174A (zh) 一种多agv运动规划方法、装置和系统
CN116187611B (zh) 一种多智能体路径规划方法及终端
CN112256037B (zh) 应用于自动驾驶的控制方法、装置、电子设备及介质
JP7047576B2 (ja) 地図作成装置
CN115330095A (zh) 矿车调度模型训练方法、装置、芯片、终端、设备及介质
CN114926809A (zh) 可通行区域检测方法及装置、移动工具、存储介质
Kawabe et al. Path planning to expedite the complete transfer of distributed gravel piles with an automated wheel loader
US11537977B1 (en) Method and system for optimizing delivery of consignments
Zhang et al. Vehicle dynamic dispatching using curriculum-driven reinforcement learning
CN112241177B (zh) 基于时间线状态路标的启发式航天器任务规划方法
CN114021996A (zh) 车辆调度策略的评估方法、装置、电子设备和存储介质
CN117109574A (zh) 一种农用运输机械覆盖路径规划方法
CN110989602A (zh) 医学病理检验实验室内自主引导车路径规划方法及系统
US20220300002A1 (en) Methods and systems for path planning in a known environment
Edelkamp et al. Monte-carlo search for prize-collecting robot motion planning with time windows, capacities, pickups, and deliveries
CN113959446A (zh) 一种基于神经网络的机器人自主物流运输导航方法
CN111580508A (zh) 机器人的定位方法、装置、电子设备及存储介质
CN113110493B (zh) 一种基于光子神经网络的路径规划设备及路径规划方法
Matsui et al. Real-time Dispatching for Autonomous Vehicles in Open-pit Mining Deployments using Deep Reinforcement Learning
Tomljenovic Reinforcement Learning and Heuristic Approach to solving the Container Delivering Problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant