CN113625716A - 一种多智能体动态路径规划方法 - Google Patents

一种多智能体动态路径规划方法 Download PDF

Info

Publication number
CN113625716A
CN113625716A CN202110924688.2A CN202110924688A CN113625716A CN 113625716 A CN113625716 A CN 113625716A CN 202110924688 A CN202110924688 A CN 202110924688A CN 113625716 A CN113625716 A CN 113625716A
Authority
CN
China
Prior art keywords
agent
agents
intelligent
path
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110924688.2A
Other languages
English (en)
Other versions
CN113625716B (zh
Inventor
蔡雪莲
郑静
付晓
谭子航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110924688.2A priority Critical patent/CN113625716B/zh
Publication of CN113625716A publication Critical patent/CN113625716A/zh
Priority to AU2022204569A priority patent/AU2022204569B2/en
Priority to GB2209423.9A priority patent/GB2610276A/en
Application granted granted Critical
Publication of CN113625716B publication Critical patent/CN113625716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0219Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory ensuring the processing of the whole working surface
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0289Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Human Resources & Organizations (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Control Of Non-Electrical Variables (AREA)

Abstract

本发明公开了一种多智能体动态路径规划方法,其实现步骤为:(1)构建含有安全区的栅格地图;(2)利用A*算法,在栅格地图的笛卡尔直角坐标系中对每个智能体的行驶路径进行粗规划;(3)利用双智能体Q学习协同避障算法重新规划发生冲突后两个智能体的行驶路径;(4)判断更新后的起始位置是否为智能体设定的目标位置,若是,执行步骤(5),否则,执行步骤(3);(5)将智能体起点至终点的路径点顺序连接得到两个智能体的最优无冲突行驶路径。本发明与现有路径规划算法对比,具有行驶时间少,总行驶路程短,行驶效率高,能够避免再次发生相向冲突的优点。

Description

一种多智能体动态路径规划方法
技术领域
本发明属于路径规划技术领域,更进一步涉及动态路径规划技术领域中的一种多智能体动态路径规划方法。本发明可以高效规避动态障碍物,从而规划出智能体在运动过程中前往目的地的最优路径。
背景技术
多智能体是由一系列相互作用的智能体构成,内部的各个智能体遵循相应的组织规完成特定任务,其中智能体指具有自组织性与社会性基本特性的实体,可以看作是相应的软件程序或者一个实体(如人、车辆、机器人等),它嵌入到环境中,通过传感器感知环境,通过效应器自治地作用于环境并满足设计要求。对多智能体的路径规划广泛应用于智能巡检、飞行器航迹规划、自动驾驶等领域。多智能体路径规划是指在存在障碍物的空间中,对地图等先验信息和传感器所感知的数据进行分析处理,感知智能体周围环境状态。在对周围环境完成感知后,通过设计好的策略寻找到一条从起始点到目标点的符合某种评价指标的最优无冲突路径,确保按照该路径进行行驶时可以绕过障碍物,顺利到达目的地。多智能体的路径规划中,主要实现三个目标:规划一条从起点到目标点的路径;在沿着该路径行驶的过程中智能体遇到能够成功规避障碍物;在满足以上两个目标的基础上,尽量使规划路径满足全局最优性。目前,解决这类问题的方法通常有:启发式的随机搜索算法与智能优化算法。
启发式的随机搜索算法是一种基于启发式信息的路径规划方法,利用问题自身所携带的启发式信息引导算法朝着最有希望的方向搜索,从而寻找到最优路径。例如:
电子科技大学在其申请的专利文献“一种基于改进RRT算法的无人机路径规划方法”(申请号:CN202110409420.5,申请公布号:CN112987799A)中公开了一种基于启发式多方向快速探索树的机器人路径规划优化方法。该方法在高维配置空间中,借鉴快速扩展随机树RRT(Rapidly exploring Random Tree)算法的思想。首先在随机树在扩展过程中没有遇到障碍时,会逐渐增强其向目标点方向快速靠拢的倾向,然后一旦遇到障碍,将会立即降低这种倾向,最大化生长的随机性,从而使得随机树更高效地避开障碍物,最终生成成功规避障碍物的一条局部最优路径。该方法能够以较小的代价会选择父节点,而不是简单地选择最近节点,最大限度地提高了规划效率和速度。但是,该方法仍然存在的不足之处是:改进的RRT算法规划的路径没有考虑动态障碍物,即其他智能体,则只能等待来规避或者沿原路返回,增加了无效行驶路径的长度,严重影响移动智能体的行驶速度。
通过智能优化算法进行多智能体动态路径规划的方法多为在强化学习方法等基础上进行的研究,例如Q-learning算法、SARSA(State Action Reward State Action)算法,即通过智能体与环境的不断交互,统一障碍物构建环境建模,快速实现路径与所有障碍物的碰撞检测,为智能体规划一条最优路径,例如:
大连理工大学在其申请的专利文献“一种基于蚁群算法的多智能体强化学习路径规划方法”(申请号:CN202011257321.1,申请公布号:CN112286203A)中公开了一种基于蚁群算法的多智能体强化学习路径规划方法。该方法包括两个阶段,第一阶段获取智能体集群当前环境信息。首先,利用蚁群算法中的信息素作为启发式信息,探测环境中的障碍物,并存储其极坐标信息,其次按照传感器信息、目标位置信息、信息素信息、自身序号的顺序,将收集到的状态信息抽象为一个多元组,作为当前的状态描述初始化环境中的信息素地图。第二阶段训练多智能体路径规划深度强化学习模型,首先初始化共享经验池D,设置共享经验池大小为N,初始化蚁群信息素地图,设置信息素的扩散速率η和衰减率ρ,智能体集群中智能体数量Ω,采用基于Q-learning的改进DQN深度强化学习方法及蚁群“信息素”协同机制,然后利用智能体集群历史信息对神经网络进行训练更新,最终得到智能体集群中各智能体的最优路径规划策略。该方法虽然同样可以用于多智能体的路径规划,但是,该方法仍然存在的不足之处是:只考虑了非相向冲突,忽略了由移动智能体本身带来的相向冲突,导致智能体实际行驶过程中需要不断规避,无法重规划智能体的最优规避路径,严重影响智能体的行驶效率。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种多智能体动态路径规划方法,旨在解决智能体在动态路径规划中由其它移动智能体本身带来的相向冲突,导致智能体实际行驶过程中需要不断规避,严重影响智能体行驶效率的问题。
为实现上述目的,本发明的思路是:当两个智能体行驶发生相向冲突时,采用双智能体Q学习协同避障算法规划冲突智能体的行驶路径,两个智能体以可通行栅格位置的组合为起始位置实现全局动态路径规划,并对智能体给予奖励值,指引智能体选择可搜索范围内使行驶路径最短的移动方向作为下一个移动方向,解决了不能重新规划找到两个智能体的最优规避路径的问题。本发明通过在栅格地图中引入安全区,使两个行驶方向相对的智能体只有一个能进入该区域,另一个停留在此区域入口处,摆脱现有动态路径规划方法中障碍物固定的束缚,解决了智能体动态路径规划中行驶重复路段的问题。
实现本发明目的的具体步骤如下:
步骤1,构建含有安全区的栅格地图:
(1a)利用栅格法,构建一个宽度、长度为X、Y的栅格地图;
(1b)在栅格地图中将同一时刻为其它智能体的避让相向行驶智能体的区域,设置为该单向车道中的安全区;
(1c)以栅格地图左上角为原点,向右延伸为横轴正方向,向下延伸为纵轴正方向,建立栅格地图的笛卡尔直角坐标系,在该坐标系中标注智能体的起始位置与目标位置;
步骤2,利用A*算法,在栅格地图的笛卡尔直角坐标系中对每个智能体的行驶路径进行粗规划;
步骤3,利用双智能体Q学习协同避障算法规划冲突智能体的行驶路径:
(3a)每个智能体按照为其粗规划的路径行驶,若单向车道中两个智能体发生相向冲突时,为两个智能体同时规划无冲突的行驶路径;
(3b)创建一个用于存储两个智能体信息的Q值表,将Q值初始值设置为-2×10-9,其中,Q值表的横坐标表示两个智能体可通行栅格位置的组合,纵坐标表示两个智能体移动方向的组合;
(3c)当两个智能体同时检测到同一个安全区时,使两个行驶方向相对的智能体只有一个能进入该区域,另一个停留在此区域入口处,将当前位置各自作为两个智能体的起始位置;
(3d)按照ε-greedy策略,两个智能体利用探索率ε分别在上行、下行、左行、右行,停止中随机选择一个移动方向,其中,将探索率ε的值设置为0.5;
(3e)两个智能体按照所选方向更新位置,将更新后的位置作为起始位置;
(3f)将起始位置的类型为目标位置的两个智能体各奖励1分,将两个智能体中至少有一个遇到障碍物或者起始位置的类型属于安全区的智能体惩罚1分,将至少一个智能体到达可通行的位置,但此位置不是目标位置的,则奖励该智能体1分;
(3g)利用更新公式,更新Q值表中的所有Q值并选出更新后的最大Q值;
(3h)判断更新后的起始位置是否为步骤(1c)设定的目标位置,若是,则执行步骤4,否则,执行步骤(3d);
步骤4,将智能体起始位置至目标位置经过的路径点顺序连接得到智能体的无冲突行驶路径。
与现有技术相比,本发明具有以下优点:
第一,本发明采用双智能体Q学习协同避障算法规划冲突智能体的行驶路径,以两个智能体可通行栅格位置的组合为起始位置实现全局动态路径规划,并对智能体给予奖励值,指引智能体选择可搜索范围内使行驶路径最短的移动方向作为下一个移动方向,克服了现有技术不能重规划找到两个智能体的最优规避路径,严重影响移动智能体行驶效率的问题,使得本发明规划的路径提高了智能体的行驶效率,减少了智能体的行驶时间,有效的避免再次发生冲突。
第二,本发明通过在栅格地图中引入安全区,使两个行驶方向相对的智能体只有一个能进入该区域,另一个停留在此区域入口处,直接触发相向冲突规避算法,克服了现有技术规划动态路径中存在动态障碍物时,则只能等待或者沿原路返回来规避,严重影响移动智能体行驶速度的问题,使得本发明规划的路径提高了智能体的行驶速度,提升了相向冲突规避算法的效率,减少了智能体无效行驶的路程。
附图说明
图1是本发明的流程图;
图2是本发明的含有安全区的栅格地图示意图;
图3是本发明的智能体发生冲突的示意图;
图4是本发明的仿真图。
具体实施方式
下面结合附图和实施例对本发明做进一步的详细描述。
参照图1,对本发明的实现步骤做进一步的详细描述。
步骤1,构建含有安全区的栅格地图。
利用栅格法,构建一个宽度、长度为X、Y的栅格地图。
在栅格地图中将同一时刻为其它智能体的避让相向行驶智能体的区域,设置为该单向车道中的安全区。
以栅格地图左上角为原点,向右延伸为横轴正方向,向下延伸为纵轴正方向,建立栅格地图的笛卡尔直角坐标系,在该坐标系中标注智能体的起始位置与目标位置。
参照图2,对本发明构建的含有安全区的栅格地图做进一步的详细描述。
图2为本发明构建的含有安全区的栅格地图,栅格地图的左上角为原点O,x轴表示栅格地图的宽度,单位为米,y轴表示栅格地图的长度,单位为米。图2中的白色小方块表示可通行栅格,深色小方块表示不可通行栅格。图2中的数字1表示智能体1,2表示智能体2,斜线表示的区域为安全区。
步骤2,利用A*算法,在栅格地图的笛卡尔直角坐标系中对每个智能体的行驶路径进行粗规划。
步骤3,利用Q学习算法规划冲突智能体的行驶路径。
第一步,每个智能体按照为其粗规划的路径行驶,若单向车道中两个智能体发生相向冲突时,为两个智能体同时规划无冲突的行驶路径。
第二步,创建一个用于存储两个智能体信息的Q值表,将Q值初始值设置为-2×10-9,其中,Q值表的横坐标表示两个智能体可通行栅格位置的组合,纵坐标表示两个智能体移动方向的组合。
第三步,当两个智能体同时检测到同一个安全区时,将当前位置各自作为两个智能体的起始位置。
第四步,按照ε-greedy策略,两个智能体利用探索率ε分别在上行、下行、左行、右行,停止中随机选择一个移动方向,其中,将探索率ε的值设置为0.5。
第五步,两个智能体按照所选方向更新位置,将更新后的位置作为起始位置。
第六步,将起始位置的类型为目标位置的两个智能体各奖励1分,将两个智能体中至少有一个遇到障碍物或者起始位置的类型属于安全区的智能体惩罚1分,将至少一个智能体到达可通行的位置,但此位置不是目标位置的,则奖励该智能体1分。
第七步,利用更新公式,更新Q值表中的所有Q值并选出更新后的最大Q值。
第八步,判断更新后的起始位置是否为步骤1设定的目标位置,若是,则执行步骤4,否则,执行本步骤的第四步。
参照图3,对本发明规划无冲突路径的相向冲突类型做进一步的详细描述。
图3是发生相向冲突的两种类型的示意图,图3(a)为第一类两个智能体发生的相向冲突类型的示意图,其中黑色圆点表示智能体1与智能体2的可能碰撞发生在栅格的中间位置,此时两个智能体在栅格地图中的发生相向冲突后的起始位置坐标相同。图3(b)为第二类两个智能体发生的相向冲突类型的示意图,其中黑色表示智能体1与智能体2在栅格的交接处碰撞,此时两个智能体在栅格地图中的发生相向冲突后的起始位置坐标不相同。
步骤4,将智能体起始位置至目标位置经过的路径点顺序连接得到智能体的无冲突行驶路径。
下面结合仿真实验,对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明仿真实验的硬件平台为:处理器为Intel(R)Core(TM)i7-9700 CPU,主频为3.00GHz,内存16.0GB。
本发明仿真实验的软件平台为:Windows10操作系统和Java11。
本发明仿真实验主要验证相向冲突规避以及最短路径规划算法的完成度,为了能够更加清楚地展示出智能体的移动轨迹,选择在15m*29m的小规模栅格地图中对两个智能体的行驶路径进行规划。其中,每个栅格边长为1m,地图中的可通行栅格与不可通行栅格的分布为手动设定。
2.仿真实验内容及结果分析:
本发明的仿真实验采用本发明的方法和一个现有技术基于A*算法的路径规划方法分别对预先设定完成的栅格地图的路径规划进行仿真。
仿真实验的具体参数如表1所示:
表1:仿真实验参数表
参数名称 参数值
智能体的数目number 100个
任务的到达率λ 1个每秒
智能体的行驶速度v<sub>rob</sub> 1m/s
智能体的转弯耗时t<sub>turn</sub> 1s
学习率α 0.5
在仿真实验中,采用的一个现有技术是指:
现有A*技术基于算法的路径规划方法是指,Gelperin等人在“On the optimalityof A*[J].Artificial Intelligence,1977,8(1):69-76.”中提出的路径规划方法,简称基于A*算法的路径规划方法。
下面结合图4的仿真图对本发明的效果做进一步的描述。
图4是本发明的仿真图,其中黑色圆点表示智能体1,以黑色实线表示智能体1的行驶路径,灰色圆点表示智能体2,以黑色虚线表示智能体2的行驶路径,箭头表示其行驶方向。图4中的菱形栅格即为卸载任务的目标位置。
图4(a)为进行路径规划前智能体行驶的原始路径的仿真结果图;图4(b)表示若按照原定路线行驶,两个智能体将在黑色三角形标注处发生相向冲突的仿真结果图;图4(c)表示两个智能体将分别在黑色圆点色与灰色圆点处,即碰撞的前一步,进行动态避障的仿真结果图;图4(d)中为本发明的路径规划方法进行路径规划的仿真结果图,黑色实线为智能体1重新规划的路径,黑色虚线表示智能体2重新规划的路径。
从仿真实验结果可以看出,双智能体Q学习协同避障算法可以成功规避相向冲突,并实现最短路径到达目标位置。当图4(c)中当两个智能体发生相向冲突时,采用动态路径规划算法进行规避,通过对比图4(c)与图4(d),可看出采用双智能体Q学习协同避障算法后,相较于规划前原始行驶路径,智能体的行驶路程明显减少。程序里面直接记录输出。
表2:仿真实验中本发明和现有技术路径规划结果的定量分析表
Figure BDA0003208819670000071
为了对本发明仿真实验中三种方法的行驶效率进行比较,采用Java软件中的多线程中的计时器,在程序里面直接记录输出对智能体完成一个任务数目的行驶时间,其统计记录结果如表2所示。其中,智能体数目固定在100个,任务数目从200到2000之间变化,间隔为200,即选取10个不同的任务数对行驶时间进行统计,每次任务数都进行了5次实验取平均值,并且计算了行驶时间的提升比例。
结合表2可以看出,随着任务数目的逐渐增加,本发明的路径规划方法,较于基于A*算法与Q学习算法的路径规划方法行驶时间减少的多,行驶效率的比例也有所提升。可见本发明在规划相向冲突的路径时所需的行驶时间少于现有技术的方法,证明采用本发明的方法可以得到更优的规划路径。
为了对本发明仿真实验中在栅格地图中引入的安全区进行验证,分别计算智能体完成一定的任务数量的总行驶路程与路径差值,其统计结果如表3所示。同样,智能体数目、任务数与统计方法与计算行驶时间的方法一致。
表3:仿真实验中在栅格地图中引入安区的路径规划结果的定量分析表
Figure BDA0003208819670000081
结合表3可以看出,随着任务数目的逐渐增加,本发明的路径规划方法由于在栅格地图中引入安全区后智能体的总行驶路程减少,减少比例平均可达16%,行驶效率的比例也有所提升。可见本发明在规划相向冲突的路径时引入安全区后智能体所需的总行驶路程减少,证明采用本发明的方法可以得到更优的规划路径。
以上仿真实验表明:本发明通过采用双智能体Q学习协同避障算法,结合在栅格地图中引入安全区的方法,为发生相向冲突的两个智能体重新规划出两条无冲突的最优路径,减少了动态路径规划中的行驶时间与总行驶路程,提高了智能体的行驶效率。

Claims (3)

1.一种多智能体动态路径规划方法,其特征在于,在单向车道中两个智能体行驶路径中发生相向冲突时,结合在栅格地图中引入安全区,采用双智能体Q学习协同避障算法实现多智能体协同避障动态路径规划;该规划方法的步骤包括如下:
步骤1,构建含有安全区的栅格地图:
(1a)利用栅格法,构建一个宽长度、长度为X、Y的栅格地图;
(1b)在栅格地图中将同一时刻为其它智能体的避让相向行驶智能体的区域,设置为该单向车道中的安全区;
(1c)以栅格地图左上角为原点,向右延伸为横轴正方向,向下延伸为纵轴正方向,建立栅格地图的笛卡尔直角坐标系,在该坐标系中标注智能体的起始位置与目标位置;
步骤2,利用A*算法,在栅格地图的笛卡尔直角坐标系中对每个智能体的行驶路径进行粗规划;
步骤3,利用双智能体Q学习协同避障算法规划冲突智能体的行驶路径:
(3a)每个智能体按照为其粗规划的路径行驶,若单向车道中两个智能体发生相向冲突时,为两个智能体同时规划无冲突的行驶路径;
(3b)创建一个用于存储两个智能体信息的Q值表,将Q值初始值设置为-2×10-9,其中,Q值表的横坐标表示两个智能体可通行栅格位置的组合,纵坐标表示两个智能体移动方向的组合;
(3c)当两个智能体同时检测到同一个安全区时,使两个行驶方向相对的智能体只有一个能进入该区域,另一个停留在此区域入口处,将当前位置各自作为两个智能体的起始位置;
(3d)按照ε-greedy策略,两个智能体利用探索率ε分别在上行、下行、左行、右行,停止中随机选择一个移动方向,其中,将探索率ε的值设置为0.5;
(3e)两个智能体按照所选方向更新位置,将更新后的位置作为起始位置;
(3f)将起始位置的类型为目标位置的两个智能体各奖励1分,将两个智能体中至少有一个遇到障碍物或者起始位置的类型属于安全区的智能体惩罚1分,将至少一个智能体到达可通行的位置,但此位置不是目标位置的,则奖励该智能体1分;
(3g)利用更新公式,更新Q值表中的所有Q值并选出更新后的最大Q值;
(3h)判断更新后的起始位置是否为步骤(1c)设定的目标位置,若是,则执行步骤4,否则,执行步骤(3d);
步骤4,将智能体起始位置至目标位置经过的路径点顺序连接得到智能体的无冲突行驶路径。
2.根据权利要求1所述的一种多智能体动态路径规划方法,其特征在于,步骤(3b)中所述的两个智能体可通行栅格位置的组合如下:
state=XY2x1+XYy1+Yx2+y2
其中,state表示两个智能体可通行栅格位置的组合,x1、y1表示一个智能体当前位置的坐标值,x2、y2表示另一个智能体当前位置的坐标值。
3.根据权利要求1所述的一种多智能体动态路径规划方法,其特征在于,步骤(3g)中所述的更新公式如下:
newQ←(1-α)Q+α(R+γmaxQ)
其中,newQ表示更新后的Q值,α表示取值为0.5的学习率,R表示奖励值,γ表示取值为0或1的折扣系数,max表示取最大值操作。
CN202110924688.2A 2021-08-12 2021-08-12 一种多智能体动态路径规划方法 Active CN113625716B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110924688.2A CN113625716B (zh) 2021-08-12 2021-08-12 一种多智能体动态路径规划方法
AU2022204569A AU2022204569B2 (en) 2021-08-12 2022-06-28 Method for multi-agent dynamic path planning
GB2209423.9A GB2610276A (en) 2021-08-12 2022-06-28 Method for multi-agent dynamic path planning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110924688.2A CN113625716B (zh) 2021-08-12 2021-08-12 一种多智能体动态路径规划方法

Publications (2)

Publication Number Publication Date
CN113625716A true CN113625716A (zh) 2021-11-09
CN113625716B CN113625716B (zh) 2023-06-16

Family

ID=78384864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110924688.2A Active CN113625716B (zh) 2021-08-12 2021-08-12 一种多智能体动态路径规划方法

Country Status (3)

Country Link
CN (1) CN113625716B (zh)
AU (1) AU2022204569B2 (zh)
GB (1) GB2610276A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578827A (zh) * 2022-03-22 2022-06-03 北京理工大学 一种分布式多智能体协同全覆盖路径规划方法
CN116483086A (zh) * 2023-04-26 2023-07-25 西安电子科技大学广州研究院 一种边冲突和点冲突解耦的长期多智能体路径规划方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069023B (zh) * 2022-12-20 2024-02-23 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和系统
CN116382304B (zh) * 2023-05-26 2023-09-15 国网江苏省电力有限公司南京供电分公司 基于dqn模型的多巡检机器人协同路径规划方法及系统
CN117572876B (zh) * 2024-01-15 2024-04-12 湖南大学 一种基于依赖关系的多智能体避碰控制方法
CN117933673B (zh) * 2024-03-22 2024-06-21 广东电网有限责任公司湛江供电局 线路巡视的规划方法、装置和线路巡视规划系统
CN117970935B (zh) * 2024-04-02 2024-06-11 博创联动科技股份有限公司 一种基于数字乡村的农机自动避障方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN108776483A (zh) * 2018-08-16 2018-11-09 圆通速递有限公司 基于蚁群算法和多智能体q学习的agv路径规划方法和系统
CN109765896A (zh) * 2019-01-29 2019-05-17 重庆大学 一种基于智能停车场多agv的动态路径规划方法
CN111413980A (zh) * 2020-04-07 2020-07-14 苏州哈工吉乐优智能装备科技有限公司 一种用于巡检的自动导引车路径规划方法
CN111566583A (zh) * 2019-10-04 2020-08-21 香港应用科技研究院有限公司 自适应路径规划的系统和方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112987799A (zh) * 2021-04-16 2021-06-18 电子科技大学 一种基于改进rrt算法的无人机路径规划方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN108776483A (zh) * 2018-08-16 2018-11-09 圆通速递有限公司 基于蚁群算法和多智能体q学习的agv路径规划方法和系统
CN109765896A (zh) * 2019-01-29 2019-05-17 重庆大学 一种基于智能停车场多agv的动态路径规划方法
CN111566583A (zh) * 2019-10-04 2020-08-21 香港应用科技研究院有限公司 自适应路径规划的系统和方法
CN111413980A (zh) * 2020-04-07 2020-07-14 苏州哈工吉乐优智能装备科技有限公司 一种用于巡检的自动导引车路径规划方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112987799A (zh) * 2021-04-16 2021-06-18 电子科技大学 一种基于改进rrt算法的无人机路径规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAO FU 等: "Space-time Map based Path Planning Scheme in Large-scale Intelligent Warehouse System", 《2020 IEEE 23RD INTERNATIONAL CONFERENCE ON INTELLIGENCE TRANSPORTATION SYSTEMS (ITSC)》 *
刘辉 等: "基于多智能体强化学习的多AGV路径规划方法", 《系统建模、仿真与分析》 *
袁洋: "基于强化学习的多 AGV路径规划及调度技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578827A (zh) * 2022-03-22 2022-06-03 北京理工大学 一种分布式多智能体协同全覆盖路径规划方法
CN114578827B (zh) * 2022-03-22 2023-03-24 北京理工大学 一种分布式多智能体协同全覆盖路径规划方法
CN116483086A (zh) * 2023-04-26 2023-07-25 西安电子科技大学广州研究院 一种边冲突和点冲突解耦的长期多智能体路径规划方法
CN116483086B (zh) * 2023-04-26 2024-03-26 西安电子科技大学广州研究院 一种边冲突和点冲突解耦的长期多智能体路径规划方法

Also Published As

Publication number Publication date
GB202209423D0 (en) 2022-08-10
AU2022204569A1 (en) 2023-03-02
GB2610276A (en) 2023-03-01
CN113625716B (zh) 2023-06-16
AU2022204569B2 (en) 2023-07-20

Similar Documents

Publication Publication Date Title
CN113625716A (zh) 一种多智能体动态路径规划方法
CN113110509B (zh) 一种基于深度强化学习的仓储系统多机器人路径规划方法
Gul et al. Meta-heuristic approach for solving multi-objective path planning for autonomous guided robot using PSO–GWO optimization algorithm with evolutionary programming
Hu et al. Anti-conflict AGV path planning in automated container terminals based on multi-agent reinforcement learning
WO2021062891A1 (en) Systems and methods for adaptive path planning
CN103823466B (zh) 一种动态环境下移动机器人路径规划方法
CN112835333B (zh) 一种基于深度强化学习多agv避障与路径规划方法及系统
CN110136481A (zh) 一种基于深度强化学习的停车策略
CN108764579B (zh) 一种基于拥塞控制的仓储多机器人任务调度方法
Fulgenzi et al. Probabilistic motion planning among moving obstacles following typical motion patterns
Kanezaki et al. Goselo: Goal-directed obstacle and self-location map for robot navigation using reactive neural networks
Kala et al. Planning of multiple autonomous vehicles using rrt
CN110471417B (zh) 一种基于负载均衡的多agv避碰方法
CN113128770B (zh) 基于dqn的不确定车间环境下物料配送实时优化方法
CN113532443B (zh) 路径规划方法、装置、电子设备及介质
Kyprianou et al. Towards the achievement of path planning with multi-robot systems in dynamic environments
Li et al. Simulation analysis of a deep reinforcement learning approach for task selection by autonomous material handling vehicles
CN114169628B (zh) 基于a*算法和遗传算法的舰载机调度优化方法及系统
Li et al. Simulation analysis of robotic mobile fulfilment system based on cellular automata
CN110412990A (zh) 一种用于工厂环境下的agv避碰方法
CN117636661A (zh) 一种无信号交叉口完全自主交通流通行控制方法
CN116551703B (zh) 一种复杂环境下基于机器学习的运动规划方法
Liu et al. Intelligent robot motion trajectory planning based on machine vision
CN112721948A (zh) 基于预测和搜索框架的自动驾驶汽车变道调度的实现方法
Hubmann Belief state planning for autonomous driving: Planning with interaction, uncertain prediction and uncertain perception

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant