CN111896006A - 一种基于强化学习和启发式搜索的路径规划方法及系统 - Google Patents

一种基于强化学习和启发式搜索的路径规划方法及系统 Download PDF

Info

Publication number
CN111896006A
CN111896006A CN202010800070.0A CN202010800070A CN111896006A CN 111896006 A CN111896006 A CN 111896006A CN 202010800070 A CN202010800070 A CN 202010800070A CN 111896006 A CN111896006 A CN 111896006A
Authority
CN
China
Prior art keywords
action
state
path
target point
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010800070.0A
Other languages
English (en)
Other versions
CN111896006B (zh
Inventor
张秀玲
康学楠
李金祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202010800070.0A priority Critical patent/CN111896006B/zh
Publication of CN111896006A publication Critical patent/CN111896006A/zh
Application granted granted Critical
Publication of CN111896006B publication Critical patent/CN111896006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习和启发式搜索的路径规划方法及系统。该方法包括:S1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;S2:通过Dyna‑Q算法对所述环境模型进行采样更新,对每个状态‑动作对进行评估并确定目标点;S3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;S4:对所述初始路径中每个状态‑动作对进行赋值;S5:根据每个状态‑动作对的评估值以及赋值,确定最优动作;S6:根据最优动作确定最优路径。本发明能够有效的加速强化学习的收敛速度,同时克服启发式搜索规划出次最优解等问题,从而更加快速、准确的规划路径。

Description

一种基于强化学习和启发式搜索的路径规划方法及系统
技术领域
本发明涉及路径规划领域,特别是涉及一种基于强化学习和启发式搜索的路径规划方法及系统。
背景技术
路径规划是指从起始点到目标点规划一条可行的无障碍路径。传统的路径规划算法分为三类:基于势场的算法,基于采样的算法和启发式搜索算法。最经典的势场算法是由Khatib提出的人工势场法,它假定在一个构型空间中,目标点产生引力场,障碍物产生斥力场,通过合理控制智能体的行走。当斥力过高时,智能体可能会被困在角落,停滞不前。在此基础上Orozco-Rosas等人提出将膜计算与遗传算法和人工势场法相结合,寻找参数来生成可行且安全的路径。基于采样的路径规划算法主要是由LaValle等人提出的快速探索随机树(RRTs)算法,该算法允许移动机器人通过在未知环境中随机采样的方法进行路径规划,但是规划出的路径可能是不平滑的甚至是不可行的。Karaman和Frazzoli对RRT算法进行了改进,提出了RRT*算法。Jeong等人利用三角不等式,改进ChooseParent和Rewire过程,提出了Quick-RRT*算法。在启发式搜索算法中,A*算法被广泛研究。A*算法是在Dijikstra基础上通过计算代价搜索和启发式搜索计算最佳优先搜索,当存在多个最小启发式函数值时,不能保证找到最优解。
强化学习是一种机器学习方法,通过不断的和环境进行交互进行学习。智能体的目的是通过评估每个状态-动作对的值使得在每个状态都能选择最合适的动作。强化学习已经成功应用于路径规划问题,但是强化学习和神经网络结合在学习过程中很不稳定并且容易手链到局部最优解的情况。相反,表格强化学习通过对地图的充分探索后能够保成收敛到最优解。然而,对于大型离散空间或者连续空间来说,大量的数据需要被存储,同时也需要大量的内存,导致效率低下。在强化学习中,Dyna-Q算法通过对采样数据建立模型加以利用,一定程度上加快了学习速度。但是由于缺乏地图的先验知识并且采样效率比较低,导致收敛速度较慢。
发明内容
本发明的目的是提供一种基于强化学习和启发式搜索的路径规划方法及系统,能够有效的加速强化学习的收敛速度,同时克服启发式搜索规划出此最优解的等问题,从而更加快速、准确的规划路径。
为实现上述目的,本发明提供了如下方案:
一种基于强化学习和启发式搜索的路径规划方法,包括:
S1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;
S2:通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;
S3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;
S4:对所述初始路径中每个状态-动作对进行赋值;
S5:根据每个状态-动作对的评估值以及赋值,确定最优动作;
S6:根据最优动作确定最优路径。
进一步,所述步骤S1具体包括:
S11:利用环境的坐标对状态S进行表征;
S12:智能体所能行走的方向表征为环境的动作空间A;行走方向包括上、下、左以及右;
S13:当智能体碰到障碍物时,获得的奖励为-100,当到达目标点时,获得的奖励为1000,其余情况均为-1;
S14:当智能体在同一状态采取同一动作时,进入的状态是唯一的,所以转移概率函数P=1。
进一步,所述步骤S2具体包括:
S21:当时间t时,状态为st∈S下,根据上置信边界策略选择动作at∈A,进入下一时刻状态st+1∈S,并得到奖励rt+1;所述上置信边界策略为:
Figure BDA0002627066070000031
其中,Q(st,at)为在状态s下动作a的评估值,c为比例因子,Nt(a)表示在状态s下动作a被访问的次数,t表示从开始到现在所经历的时间步;
S22:采样得到的经验序列<st,at,st+1,at+1>,通过状态-动作对函数进行更新,公式为:
Figure BDA0002627066070000032
其中,α∈(0,1)表示学习率,γ∈(0,1)表示折损因子;
S23:采样得到的<st,at,st+1,at+1>存储到模型M(S,A)中,同时随机对模型M(S,A)中的元素进行抽取并利用状态-动作对进行训练。
进一步,所述步骤S3具体包括:
S31:利用A*算法的启发函数计算当前节点的启发值F(x,y),表示为:
F(x,y)=G(x,y)+H(x,y)
Figure BDA0002627066070000033
Figure BDA0002627066070000034
G(x,y)表示起始点到当前位置的欧式距离,H(x,y)表示目标点到当前位置的欧式距离;(x,y)表示当前点坐标,(ox,oy)表示起始点坐标,(gx,gy)表示目标点坐标;
S32:将开放列表中启发值F(x,y)最小的节点X(x,y),加入到关闭列表,然后检查节点X(x,y)周围的点是否在开放列表当中,若否,则将X(x,y)周围的点加入开放列表;重复步骤S3确定初始路径。
进一步,所述最优动作at′的计算公式为:
Figure BDA0002627066070000041
其中,η和c为比例因子。
本发明还提供了一种基于强化学习和启发式搜索的路径规划系统,包括:
环境模型构建模块,用于在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;
更新模块,通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;
初始路径确定模块,基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;
赋值模块,用于对所述初始路径中每个状态-动作对进行赋值;
最优动作确定模块,用于根据每个状态-动作对的评估值以及赋值,确定最优动作;
最优路径确定模块,用于根据最优动作确定最优路径。
进一步,起始点到当前位置的欧式距离的计算公式如下:
Figure BDA0002627066070000042
目标点到当前位置的欧式距离的计算公式如下:
Figure BDA0002627066070000043
(x,y)表示当前点坐标,(ox,oy)表示起始点坐标,(gx,gy)表示目标点坐标。
进一步,所述最优动作at′的计算公式为:
Figure BDA0002627066070000051
其中,η和c为比例因子。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
1)将强化学习与启发式搜索结合用于路径规划,在不需要任何环境先验知识的情况下能够进行路径规划,并且有效的加速了Dyna-Q的收敛速度,增强了算法的鲁棒性。
2)当启发式搜索规划出一条次最优路径时,通过Dyna-Q的构建的模型不断的对采集的状态-动作对更新,最终收敛到最优路径。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于强化学习和启发式搜索的路径规划方法的流程图;
图2为本发明实施例环境的地图;
图3为本发明实施例启发式搜索在地图中所规划的路径图;
图4为本发明与Dyna-Q算法在不同环境中到达目标点的次数和消耗的步数的对比图;
图5为η不同时,克服启发式搜索规划出的次最优路径所花费的时间步;
图6为本发明实施例基于强化学习和启发式搜索的路径规划系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于强化学习和启发式搜索的路径规划方法及系统,能够有效的加速强化学习的收敛速度,同时克服启发式搜索规划出此最优解的等问题,从而更加快速、准确的规划路径。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,基于强化学习和启发式搜索的路径规划方法包括以下步骤:
S1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P。
S2:通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点。
S3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径。
S4:对所述初始路径中每个状态-动作对进行赋值。
S5:根据每个状态-动作对的评估值以及赋值,确定最优动作。
S6:根据最优动作确定最优路径。
步骤S1具体包括:
S11:利用环境的坐标对状态S进行表征。
S12:智能体所能行走的方向表征为环境的动作空间A;行走方向包括上、下、左以及右。
S13:当智能体碰到障碍物时,获得的奖励为-100,当到达目标点时,获得的奖励为1000,其余情况均为-1。
S14:当智能体在同一状态采取同一动作时,进入的状态是唯一的,所以转移概率函数P=1。
步骤S2具体包括:
S21:当时间t时,状态为st∈S下,根据上置信边界策略选择动作at∈A,进入下一时刻状态st+1∈S,并得到奖励rt+1;所述上置信边界策略为:
Figure BDA0002627066070000071
其中,Q(st,at)为在状态s下动作a的评估值,c为比例因子,Nt(a)表示在状态s下动作a被访问的次数,t表示从开始到现在所经历的时间步。
S22:采样得到的经验序列<st,at,st+1,at+1>,通过状态-动作对函数进行更新,公式为:
Figure BDA0002627066070000072
其中,α∈(0,1)表示学习率,γ∈(0,1)表示折损因子;
S23:采样得到的<st,at,st+1,at+1>存储到模型M(S,A)中,同时随机对模型M(S,A)中的元素进行抽取并利用状态-动作对进行训练。使得每个状态-动作对尽可能的近似真实的Q*(st,at)。
步骤S3具体包括:
S31:利用A*算法的启发函数计算当前节点的启发值F(x,y),表示为:
F(x,y)=G(x,y)+H(x,y) (3)
Figure BDA0002627066070000073
Figure BDA0002627066070000074
G(x,y)表示起始点到当前位置的欧式距离,H(x,y)表示目标点到当前位置的欧式距离;(x,y)表示当前点坐标,(ox,oy)表示起始点坐标,(gx,gy)表示目标点坐标;
S32:将开放列表中启发值F(x,y)最小的节点X(x,y),加入到关闭列表,然后检查节点X(x,y)周围的点是否在开放列表当中,若否,则将X(x,y)周围的点加入开放列表;重复步骤S3确定初始路径。
步骤S5具体包括:将A*算法规划出的路径对应的状态-动作对赋予一定的值P(s,a),通过一定比例与Q(st,at)结合,得到公式:
Figure BDA0002627066070000081
其中,η和c为比例因子。
具体实施例:
1)在状态st下,根据其当前的状态-动作值利用上置信边界策略结合A*算法规划出的路径利用公式(4)选择一个合适的动作at
其中
Figure BDA0002627066070000082
其最优动作价值函数表示为q*,并定义为
Figure BDA0002627066070000083
执行动作at,进入下一个状态st+1并获得奖励rt+1,将采样得到的<st,at,st+1,at+1>作为与环境交互所获得的经验,利用公式(2)直接进行学习,并更新Q表中的状态-动作值。同时对采样的状态和状态动作对的访问次数加一。
Figure BDA0002627066070000084
N(st,at)=N(st,at)+1 (8)
3)将采样得到的<st,at,st+1,at+1>同时存入M(S,A)模型当中,构建起经验模型。当直接学习更新完后,通过随机抽样的方式从M(S,A)抽取10组经验用于训练。
r,s′←M(s,a) (9)
更新状态-动作值来改善策略,每更新一次对采样的状态和状态动作对的访问次数加一。
4)当经验中包含目标值时,利用公式(3)分别计算当前位置同起始点和目标点的欧式距离,找到开放列表中启发值F(x,y)最小的节点X(x,y),把它加入到关闭列表,然后检查节点X(x,y)周围的点是否在开放列表当中,若不在,则将其加入开放列表,若存在,则忽略它。重复上述过程,直到目标点包含在开放列表当中,通过关闭列表中的点反向连接,找到最优路径。本发明利用这条最优路径,用于缩小路径的范围并把这条路径对应的状态动作对赋予一定的数值对P(s,a)进行更新,并以一定的比例加入到状态-动作值当中。
按上述方案,环境的地图如图2所示,图2-a,2-b,2-c分别表示环境1,环境2和环境3。图中图中三角形代表智能体,圆形代表目标点,黑色方格代表障碍物,白色方格代表可行路径。当智能体行走在白色方格上,每次获得的奖励为-1,当智能体碰撞到黑色方格时,获得奖励-100并返回起始点,当智能体到达目标点时,获得奖励为1000并返回目标点。
按上述方案,A*算法在地图中所规划的路径图如图3所示,图3-a,3-b,3-c分别表示A*算法在环境1,环境2,环境3中所规划出的路径。由图3-a所示,A*算法规划出一条最优路径,而图3-b和图3-c表明A*算法规划出一条次最优路径。
图4为本发明与Dyna-Q算法做对比,在不同环境中到达目标点所消耗的步数。图4-a,4-b,4-c分别表示在环境1,环境2和环境3中达目标点所消耗的步数及到达目标点的次数。图4-a所示,总回合数为300,当A*算法直接规划出最优路径时,本发明会直接收敛到最优解并且到达目标点的次数为250次,而Dyna-Q算法则震荡逐渐收敛,到达目标点的次数为160次。图4-b表示,总回合数为500,当A*算法规划出次最优路径时,本发明会先收敛到次最优路径,随着训练次数的增加,在到达目标点134次时收敛到最优路径,到达目标点的次数为435次,而Dyna-Q算法到达目标点的次数为250次。图4-c表示,总回合数为4000,在相对较大的环境下,相较于Dyna-Q算法本发明的优势更加明显,到达目标点的次数为3452次,且克服了A*算法所规划出的次最优路径。由此可以看出,本发明相比于Dyna-Q算法收敛速度更高,且能够克服A*算法的缺点,有更强的鲁棒性。
图5表示当η不同时,克服启发式搜索规划出的次最优路径所花费的时间步。在环境2中,当η=8时到达目标点130次后智能体找到最优路。随着η的增大,到达最优路径所花费的时间也越来越长。表明过大的η不利于克服启发式搜索规划出的次最优路径。
如图6所示,本发明还提供了一种基于强化学习和启发式搜索的路径规划系统,包括:
环境模型构建模块601,用于在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P。
更新模块602,通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点。
初始路径确定模块603,基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径。
起始点到当前位置的欧式距离的计算公式如下:
Figure BDA0002627066070000101
目标点到当前位置的欧式距离的计算公式如下:
Figure BDA0002627066070000102
赋值模块604,用于对所述初始路径中每个状态-动作对进行赋值。
最优动作确定模块605,用于根据每个状态-动作对的评估值以及赋值,确定最优动作。
最优路径确定模块606,用于根据最优动作确定最优路径。
所述最优动作的计算公式为:
Figure BDA0002627066070000111
其中,η和c为比例因子。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于强化学习和启发式搜索的路径规划方法,其特征在于,包括:
S1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;
S2:通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;
S3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;
S4:对所述初始路径中每个状态-动作对进行赋值;
S5:根据每个状态-动作对的评估值以及赋值,确定最优动作;
S6:根据最优动作确定最优路径。
2.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S1具体包括:
S11:利用环境的坐标对状态S进行表征。
S12:智能体所能行走的方向表征为环境的动作空间A;行走方向包括上、下、左以及右。
S13:当智能体碰到障碍物时,获得的奖励为-100,当到达目标点时,获得的奖励为1000,其余情况均为-1。
S14:当智能体在同一状态采取同一动作时,进入的状态是唯一的,所以转移概率函数P=1。
3.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S2具体包括:
S21:当时间t时,状态为st∈S下,根据上置信边界策略选择动作at∈A,进入下一时刻状态st+1∈S,并得到奖励rt+1;所述上置信边界策略为:
Figure FDA0002627066060000011
其中,Q(st,at)为在状态s下动作a的评估值,c为比例因子,Nt(a)表示在状态s下动作a被访问的次数,t表示从开始到现在所经历的时间步。
S22:采样得到的经验序列<st,at,st+1,at+1>,通过状态-动作对函数进行更新,公式为:
Figure FDA0002627066060000021
其中,α∈(0,1)表示学习率,γ∈(0,1)表示折损因子;
S23:采样得到的<st,at,st+1,at+1>存储到模型M(S,A)中,同时随机对模型M(S,A)中的元素进行抽取并利用状态-动作对进行训练。
4.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S3具体包括:
S31:利用A*算法的启发函数计算当前节点的启发值F(x,y),表示为:
F(x,y)=G(x,y)+H(x,y)
Figure FDA0002627066060000022
Figure FDA0002627066060000023
G(x,y)表示起始点到当前位置的欧式距离,H(x,y)表示目标点到当前位置的欧式距离;(x,y)表示当前点坐标,(ox,oy)表示起始点坐标,(gx,gy)表示目标点坐标;
S32:将开放列表中启发值F(x,y)最小的节点X(x,y),加入到关闭列表,然后检查节点X(x,y)周围的点是否在开放列表当中,若否,则将X(x,y)周围的点加入开放列表;重复步骤S3确定初始路径。
5.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述最优动作at′的计算公式为:
Figure FDA0002627066060000031
其中,η和c为比例因子。
6.一种基于强化学习和启发式搜索的路径规划系统,其特征在于,包括:
环境模型构建模块,用于在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;
更新模块,通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;
初始路径确定模块,基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;
赋值模块,用于对所述初始路径中每个状态-动作对进行赋值;
最优动作确定模块,用于根据每个状态-动作对的评估值以及赋值,确定最优动作;
最优路径确定模块,用于根据最优动作确定最优路径。
7.根据权利要求6所述的基于强化学习和启发式搜索的路径规划系统,其特征在于,起始点到当前位置的欧式距离的计算公式如下:
Figure FDA0002627066060000032
目标点到当前位置的欧式距离的计算公式如下:
Figure FDA0002627066060000033
(x,y)表示当前点坐标,(ox,oy)表示起始点坐标,(gx,gy)表示目标点坐标。
8.根据权利要求6所述的基于强化学习和启发式搜索的路径规划系统,其特征在于,所述最优动作at′的计算公式为:
Figure FDA0002627066060000041
其中,η和c为比例因子。
CN202010800070.0A 2020-08-11 2020-08-11 一种基于强化学习和启发式搜索的路径规划方法及系统 Active CN111896006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010800070.0A CN111896006B (zh) 2020-08-11 2020-08-11 一种基于强化学习和启发式搜索的路径规划方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010800070.0A CN111896006B (zh) 2020-08-11 2020-08-11 一种基于强化学习和启发式搜索的路径规划方法及系统

Publications (2)

Publication Number Publication Date
CN111896006A true CN111896006A (zh) 2020-11-06
CN111896006B CN111896006B (zh) 2022-10-04

Family

ID=73246642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010800070.0A Active CN111896006B (zh) 2020-08-11 2020-08-11 一种基于强化学习和启发式搜索的路径规划方法及系统

Country Status (1)

Country Link
CN (1) CN111896006B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112484733A (zh) * 2020-12-04 2021-03-12 东南大学 一种基于拓扑图的强化学习室内导航方法
CN112762957A (zh) * 2020-12-29 2021-05-07 西北工业大学 一种基于多传感器融合的环境建模及路径规划方法
CN112829797A (zh) * 2021-01-05 2021-05-25 北京全路通信信号研究设计院集团有限公司 一种线路点的参数获取方法、装置、设备及存储介质
CN112964272A (zh) * 2021-03-16 2021-06-15 湖北汽车工业学院 一种改进的Dyna-Q学习路径规划算法
CN113037648A (zh) * 2021-03-10 2021-06-25 首都师范大学 数据传输方法及装置
CN113074738A (zh) * 2021-04-06 2021-07-06 武汉理工大学 一种基于Dyna框架的混合智能路径规划方法及装置
CN113296500A (zh) * 2021-04-30 2021-08-24 浙江吉利控股集团有限公司 一种局部路径规划方法及系统
CN113433937A (zh) * 2021-06-08 2021-09-24 杭州未名信科科技有限公司 基于启发式探索的分层导航避障系统、分层导航避障方法
CN113720346A (zh) * 2021-09-02 2021-11-30 重庆邮电大学 基于势能场和隐马尔可夫模型的车辆路径规划方法及系统
CN114531647A (zh) * 2022-01-13 2022-05-24 江苏大学 一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法
CN114625167A (zh) * 2022-03-22 2022-06-14 山东新一代信息产业技术研究院有限公司 基于启发式Q-learning算法的无人机协同搜索方法及系统
CN117032247A (zh) * 2023-08-22 2023-11-10 中国人民解放军国防科技大学 海上救援搜索路径规划方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130253827A1 (en) * 2012-03-26 2013-09-26 Electronics And Telecommunications Research Institute Apparatus for fast path search by learning heuristic function and method thereof
WO2017161632A1 (zh) * 2016-03-24 2017-09-28 苏州大学张家港工业技术研究院 一种基于模型学习的清洁机器人最优目标路径规划方法
CN108680155A (zh) * 2018-02-01 2018-10-19 苏州大学 基于部分感知马氏决策过程的机器人最优路径规划方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN110632922A (zh) * 2019-09-10 2019-12-31 青岛理工大学 一种基于蝙蝠算法与强化学习的路径规划方法
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN110794832A (zh) * 2019-10-21 2020-02-14 同济大学 一种基于强化学习的移动机器人路径规划方法
CN110941268A (zh) * 2019-11-20 2020-03-31 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130253827A1 (en) * 2012-03-26 2013-09-26 Electronics And Telecommunications Research Institute Apparatus for fast path search by learning heuristic function and method thereof
WO2017161632A1 (zh) * 2016-03-24 2017-09-28 苏州大学张家港工业技术研究院 一种基于模型学习的清洁机器人最优目标路径规划方法
CN108680155A (zh) * 2018-02-01 2018-10-19 苏州大学 基于部分感知马氏决策过程的机器人最优路径规划方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN110632922A (zh) * 2019-09-10 2019-12-31 青岛理工大学 一种基于蝙蝠算法与强化学习的路径规划方法
CN110794832A (zh) * 2019-10-21 2020-02-14 同济大学 一种基于强化学习的移动机器人路径规划方法
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN110941268A (zh) * 2019-11-20 2020-03-31 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112344944B (zh) * 2020-11-24 2022-08-05 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112484733A (zh) * 2020-12-04 2021-03-12 东南大学 一种基于拓扑图的强化学习室内导航方法
CN112762957A (zh) * 2020-12-29 2021-05-07 西北工业大学 一种基于多传感器融合的环境建模及路径规划方法
CN112829797A (zh) * 2021-01-05 2021-05-25 北京全路通信信号研究设计院集团有限公司 一种线路点的参数获取方法、装置、设备及存储介质
CN113037648B (zh) * 2021-03-10 2022-07-12 首都师范大学 数据传输方法及装置
CN113037648A (zh) * 2021-03-10 2021-06-25 首都师范大学 数据传输方法及装置
CN112964272A (zh) * 2021-03-16 2021-06-15 湖北汽车工业学院 一种改进的Dyna-Q学习路径规划算法
CN113074738A (zh) * 2021-04-06 2021-07-06 武汉理工大学 一种基于Dyna框架的混合智能路径规划方法及装置
CN113296500A (zh) * 2021-04-30 2021-08-24 浙江吉利控股集团有限公司 一种局部路径规划方法及系统
CN113433937A (zh) * 2021-06-08 2021-09-24 杭州未名信科科技有限公司 基于启发式探索的分层导航避障系统、分层导航避障方法
CN113433937B (zh) * 2021-06-08 2023-05-16 杭州未名信科科技有限公司 基于启发式探索的分层导航避障系统、分层导航避障方法
CN113720346A (zh) * 2021-09-02 2021-11-30 重庆邮电大学 基于势能场和隐马尔可夫模型的车辆路径规划方法及系统
CN113720346B (zh) * 2021-09-02 2023-07-04 重庆邮电大学 基于势能场和隐马尔可夫模型的车辆路径规划方法及系统
CN114531647A (zh) * 2022-01-13 2022-05-24 江苏大学 一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法
CN114531647B (zh) * 2022-01-13 2024-03-22 江苏大学 一种扩散分子通信环境下的多层自适应奖励目标溯源方法
CN114625167A (zh) * 2022-03-22 2022-06-14 山东新一代信息产业技术研究院有限公司 基于启发式Q-learning算法的无人机协同搜索方法及系统
CN117032247A (zh) * 2023-08-22 2023-11-10 中国人民解放军国防科技大学 海上救援搜索路径规划方法、装置及设备
CN117032247B (zh) * 2023-08-22 2024-05-28 中国人民解放军国防科技大学 海上救援搜索路径规划方法、装置及设备

Also Published As

Publication number Publication date
CN111896006B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN111896006B (zh) 一种基于强化学习和启发式搜索的路径规划方法及系统
CN110794832B (zh) 一种基于强化学习的移动机器人路径规划方法
CN110989612A (zh) 一种基于蚁群算法的机器人路径规划方法及装置
CN107272679A (zh) 基于改进的蚁群算法的路径规划方法
CN109214498A (zh) 基于搜索集中度和动态信息素更新的蚁群算法优化方法
CN110883776B (zh) 一种快速搜索机制下改进dqn的机器人路径规划算法
CN112344944B (zh) 一种引入人工势场的强化学习路径规划方法
CN113885536B (zh) 一种基于全局海鸥算法的移动机器人路径规划方法
CN113867368A (zh) 一种基于改进海鸥算法的机器人路径规划方法
CN102521391B (zh) 交通路径搜索系统及方法
CN113867369B (zh) 一种基于交流学习的海鸥算法的机器人路径规划方法
CN108413963A (zh) 基于自学习蚁群算法的条形机器人路径规划方法
CN116859903A (zh) 基于改进哈里斯鹰优化算法的机器人平滑路径规划方法
CN115454070A (zh) 一种K-Means蚁群算法多机器人路径规划方法
CN115454067A (zh) 一种基于融合算法的路径规划方法
CN115270506A (zh) 一种人群沿楼梯上行的通行时间预测方法及系统
CN117350175B (zh) 人工智能生态因子空气环境质量监测方法及系统
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN113218400B (zh) 一种基于深度强化学习的多智能体导航算法
CN114815801A (zh) 一种基于策略-价值网络及mcts的自适应环境路径规划方法
CN113778090A (zh) 基于蚁群优化和prm算法的移动机器人路径规划方法
CN113687654A (zh) 一种基于进化算法的神经网络训练方法及路径规划方法
CN113219991A (zh) 一种基于改进acs算法的移动机器人路径规划方法
CN108227718A (zh) 一种自适应切换的自动搬运小车路径规划方法
CN112561160A (zh) 一种动态目标遍历访问序列规划方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant