CN110794832B - 一种基于强化学习的移动机器人路径规划方法 - Google Patents

一种基于强化学习的移动机器人路径规划方法 Download PDF

Info

Publication number
CN110794832B
CN110794832B CN201911001136.3A CN201911001136A CN110794832B CN 110794832 B CN110794832 B CN 110794832B CN 201911001136 A CN201911001136 A CN 201911001136A CN 110794832 B CN110794832 B CN 110794832B
Authority
CN
China
Prior art keywords
algorithm
reinforcement learning
search
path
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911001136.3A
Other languages
English (en)
Other versions
CN110794832A (zh
Inventor
刘成菊
孙晓娴
姚陈鹏
陈启军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911001136.3A priority Critical patent/CN110794832B/zh
Publication of CN110794832A publication Critical patent/CN110794832A/zh
Application granted granted Critical
Publication of CN110794832B publication Critical patent/CN110794832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于强化学习的移动机器人路径规划方法,该方法采用预训练后的改进A*算法,在任意环境中进行路径规划,所述改进A*算法的预训练过程包括以下步骤:S1:获取路径的起点、目标点和路径所在的已知环境,初始化改进A*算法;S2:采用改进A*算法进行路径规划,计算并保存路径规划过程中的搜索点和奖励值;S3:基于每个搜索点及其与目标点间所有搜索点的奖励值,计算每个搜索点对应的长期回报,获取训练数据;S4:基于训练数据,更新强化学习算法,获取每个搜索点的修正值,更新改进A*算法中的引导函数;S5:重复步骤S2至S4,直到满足预设的停止条件。与现有技术相比,本发明具有路径规划速度快、规划结果更优,且稳定性高的优点。

Description

一种基于强化学习的移动机器人路径规划方法
技术领域
本发明涉及移动机器人路径规划领域,尤其是涉及一种基于强化学习的移动机器人路径规划方法。
背景技术
在移动机器人领域,路径规划一直是一大研究热点。机器人需要在已知环境的情况下,利用路径规划算法,在两点之间寻找一条可以到达的且最优的路径。其中Dijkstra算法是经典的寻路算法之一,该算法中,每个搜索节点被赋予一个属性g(n),用以表示该节点距离起点的距离,通过不断的搜寻具有最小g(n)值的节点并更新其周围节点g(n)值的方式,Dijkstra算法能够找到两点之间的最短路径。该方法虽被广泛应用,但是该方法以搜索空间为代价,搜索耗费时间,不适合地图较大的场景,存在一定的局限性。如图2所示为Dijkstra算法寻找得到的路径,该搜寻路径是最优的,然而搜索耗费了较大的时间,不能满足机器人应用的实时性。针对Dijkstra算法耗时的缺点,A*算法通过引入引导函数的方式极大的减少了搜索空间,能够更快速的搜索到机器人的可行路径。如公式(1)所示,A*在g(n)的基础上,添加了当前节点到目标节点的引导函数h(n),以二者的和f(n)作为各个节点的属性进行搜索和更新,使得搜索在考虑与起始节点距离的同时兼顾了向目标节点方向的引导。
f(n)=g(n)+h(n) (1)
A*算法虽然通过引入引导函数的方式缩短了搜索时间,但由于其引导函数往往是人为设定的距离,例如曼哈顿距离,欧式距离等,因此对于两点之间存在障碍物的情况,A*算法往往会产生错误的引导,使得所得到的路径非最优,如图3所示为采用欧式距离的A*算法所得到的路径,对比图2中Dijkstra算法的路径可以发现其有一个向目标节点方向的凹陷,因而产生了不必要的路径。
A*算法与Dijkstra算法作为目前最为常见的规划算法,有其各自的优势,但同时也有其局限。Dijkstra算法可获得最优路径,却不适用于大型场景;A*算法在Dijkstra算法的基础上提升了搜索速度,却以路径为代价,使得所得并非最优解。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种兼顾A*算法搜索速度与Dijkstra算法最优路径的基于强化学习的移动机器人路径规划方法。
本发明的目的可以通过以下技术方案来实现:
一种基于强化学习的移动机器人路径规划方法,该方法采用预训练后的改进A*算法,在任意环境中进行路径规划,所述改进A*算法采用预建立的强化学习算法更新引导函数,所述改进A*算法的预训练过程包括以下步骤:
S1:获取路径的起点、目标点和路径所在的已知环境,初始化改进A*算法;
S2:基于路径的起点、目标点和路径所在的已知环境,采用当前的改进A*算法进行路径规划,计算并保存路径规划过程中每一次的搜索点和该搜索点的奖励值;
S3:基于每个搜索点及其与目标点间所有搜索点的奖励值,计算每个搜索点对应的长期回报,获取训练数据;
S4:基于训练数据,更新强化学习算法,并通过更新后的强化学习算法,获取每个搜索点对应的修正值,更新改进A*算法中的引导函数;
S5:重复步骤S2至S4,直到满足预设的停止条件,获取预训练后的改进A*算法。
进一步地,所述改进A*算法中引导函数的表达式为:
h(n)*=h(n)+π(n)
式中,h(n)*为改进A*算法下搜索点n的引导函数,n=1,2,3,…,N,N为搜索点的总数,h(n)为传统A*算法下搜索点n的引导函数,π(n)为强化学习算法输出的搜索点n的修正值,其初始值通过对强化学习算法初始化设定。通过强化学习算法获取A*算法中引导函数的修正值,将A*算法的搜索能力和强化学习的学习能力进行结合,改善了在搜索点和目标点存在障碍物的情况下A*引导能力不足的情况。
进一步地,所述奖励值的计算表达式为:
Figure BDA0002241352750000021
式中,r(n)为搜索点n的奖励值,n=1,2,3,…,N,N为搜索点的总数,path(Djisktra)为采用Dijkstra算法获得的最短路径的长度,path(A*(π))为采用当前的改进A*算法获得的路径长度,const为常数。在搜索到最后的搜索点,即搜索完成时,利用Dijkstra路径规划算法得到的最短路径与本次搜索的结果对比,并加入搜索空间的变化作为强化学习的奖励函数,较好的平衡了搜索能力与搜索空间,使得新算法同时具有A*算法的搜索速度与Dijkstra算法的最优路径。
进一步地,所述长期回报的计算表达式为:
Figure BDA0002241352750000031
式中,v(n)为搜索数据中搜索点n对应的长期回报,n=1,2,3,…,N,N为搜索点的总数,goal为目标点,r(m)为节点m对应的奖励值,γ为预设的长期回报衰减系数,保存的每个搜索点均依照搜索顺序进行排序,依照该排序依次计算出每个搜索点的长期回报值。
进一步地,所述强化学习算法为基于策略梯度的强化学习算法。由于基于值函数的强化学习算法如DQN等算法无法解决动作空间过大或者连续的情况,因而选取基于策略梯度的强化学习算法,可以采用其策略函数的输出作为修正值。
进一步地,所述强化学习算法的更新过程具体为,基于策略价值梯度更新强化学习算法中策略函数的权重参数,所述权重参数的更新表达式为:
Figure BDA0002241352750000032
Figure BDA0002241352750000033
式中,θ为策略函数的权重参数,权重参数的初始值由预先设定,
Figure BDA0002241352750000034
为权重参数为θ的策略价值梯度,α为策略价值梯度系数。
进一步地,所述策略价值梯度的计算表达式为:
Figure BDA0002241352750000035
式中,N为搜索点的总数,π(i)为节点i的修正值,其初始值通过对强化学习算法初始化设定,v(i)为节点i对应的长期回报。
进一步地,所述步骤S5中预设的停止条件为循环次数达到预设的循环值,或修正值开始收敛。
进一步地,采用神经网络拟合所述强化学习算法,通过训练所述神经网络,获取修正值。当采用基于策略梯度的强化学习算法时,采用神经网络拟合强化学习算法中的策略函数,在每次循环中对该神经网络进行训练,更新策略函数的权重参数,获取修正值。
与现有技术相比,本发明具有以下优点:
(1)本发明采用改进A*算法进行路径规划,并通过强化学习算法获取A*算法中引导函数的修正值,通过循环训练,更新改进A*算法中的引导函数,将A*算法的搜索能力和强化学习的学习能力进行结合,改善了在搜索点和目标点存在障碍物的情况下A*引导能力不足的情况。
(2)本发明在预训练过程中,采用当前改进A*算法获取路径规划结果后,基于采用Dijkstra算法获得的最短路径的长度和本发明改进A*算法获得的路径长度计算搜索点的奖励值,从而对强化学习算法输出的修正值进行调整,使得采用本发明预训练后的改进A*算法得到的路径尽可能接近最短路径,同时保留了A*算法和Dijkstra算法的优点,较好的平衡了搜索能力与搜索空间,并克服各自的缺点,以达到又快又好的获得路径的目的。
(3)本发明考虑到基于值函数的强化学习算法如DQN等算法无法解决动作空间过大或者连续的情况,因而选取基于策略梯度的强化学习算法,使用策略函数的输出作为修正值,使得本发明路径规划方法具有更高的稳定性。
(4)本发明通过神经网络拟合强化学习算法,通过神经网络进行学习,获取修正值,提高了修正值的准确性、可靠性和本发明方法的运算速度。
附图说明
图1为本发明移动机器人路径规划方法示意图;
图2为采用Dijkstra算法的路径规划结果;
图3为以欧氏距离为引导函数的A*算法的路径规划结果;
图4为采用本发明改进A*算法的路径规划结果;
图5为训练过程中搜索空间的变化示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
强化学习算法是agent(能自主活动的软件或者硬件实体)通过学习,得到环境状态到动作空间映射关系的奖惩式的学习方法。近年来,逐渐广泛的应用于人工智能和机器人领域。
强化学习是直接从环境映射到agent动作的学习方法,目标是使得agent在与环境的交互过程中获得最大的累积奖赏。通常强化学习问题可以描述为一个马尔科夫决策过程。将马尔科夫决策过程定义为一个四元组(S,A,R,P),S为所有环境状态的集合;A为agent采取的动作集合;R为奖励函数,表示在s状态时采取动作a所获得的奖赏值;P为状态转移函数。在强化学习中,策略π是状态空间到动作空间的映射,表示在状态s下采取动作a的概率。
本实施例将利用强化学习的学习能力去修正依靠几何距离作为引导函数的传统方法,进而寻找得到一个更加合适的引导函数,在保证A*算法搜索速度的同时,尽可能的使其接近Dijkstra算法获取的最优路径。
本实施例为一种基于强化学习的移动机器人路径规划方法,该方法采用预训练后的改进A*算法,可以在任意环境中进行路径规划。
如图1所示,改进A*算法的预训练过程包括以下步骤
S1:用神经网络拟合基于策略梯度的强化学习算法中的策略函数,初始化其网络参数;获取路径的起点、目标点和路径所在的已知环境。
网络参数包括学习率lr,学习回合数MAX_EPSOID,神经网络的层数,神经元数目以及神经元初始化权重θ,长期回报衰减系数γ。
S2:基于路径的起点、目标点和路径所在的已知环境,采用当前的改进A*算法进行路径规划,计算并保存路径规划过程中每一次的搜索点和该搜索点的奖励值。
下面对该步骤进行详细描述:
1)改进A*算法
A*算法在每个搜索节点的属性g(n)的基础上,添加了当前搜索节点到目标节点的引导函数h(n),以二者的和f(n)作为各个节点的属性进行搜索和更新。
本实施例在A*算法的引导函数进行了改进,得到改进A*算法,改进A*算法的中引导函数的表达式为:
h(n)*=h(n)+π(n)
式中,h(n)*为改进A*算法下搜索点n的引导函数,n=1,2,3,…,N,N为搜索点的总数,h(n)为传统A*算法下搜索点n的引导函数,π(n)为强化学习算法输出的搜索点n的修正值,其初始值通过对强化学习算法初始化设定。
2)采用当前的改进A*算法进行路径规划
当前的改进A*算法进行路径规划包括以下步骤:
S201:初始化路径规划的起点,目标节点以及路径所在的已知环境:建立当前的改进A*算法中的开启列表与关闭列表,首先利用当前的改进A*算法的启发函数更新起始点的启发函数值f(n)。开启列表用来存放待搜索的节点,关闭列表存放已经搜索过的节点,保证搜索过的节点之后将不会再次被搜索更新。其中启发函数的计算公式为:
f(n)=g(n)+h(n)*
式中,g(n)为已知环境中从起始点到搜索点n的实际代价,其计算方法为已有技术,本实施例中不作详细描述。
S202:将开启列表中启发函数数值最小的节点作为扩展节点,先将该节点加入关闭列表中,然后更新该节点邻近节点的启发函数f(n),并将邻近节点的父节点更新为该节点。
S203:保存路径规划过程中每一次的搜索点,同时计算每个搜索点的奖励值。
在本实施例中,保存的搜索点的数据为(s,a,r):状态s=(n,goal);经过策略模型选取的行动a=π(n,goal);采取行动获得的奖励r(n)。
奖励值的计算公式为:
Figure BDA0002241352750000061
其中,r(n)为搜索点n的奖励值,n=1,2,3,…,N,N为搜索点的总数,path(Djisktra)为采用Dijkstra算法获得的最短路径的长度,path(A*(π))为采用当前的改进A*算法获得的路径长度,其目的在于使改进A*算法得到的路径尽可能接近最短路径;N的数值越小奖励越大,即搜索时间越小奖励越大;const为一常数,可选为初始的改进A*算法搜索的节点数。通过该奖励函数的设置,使得学习到的引导函数同时保留A*和Dijkstra的优点,并克服各自的缺点,以达到又快又好的获得路径的目的。
S204:判断步骤S202中的扩展节点是否为目标节点,若不是目标节点,返回步骤S202;若是目标节点,则由目标节点开始追溯父节点直到起点,得到一条规划的路径。
S3:基于每个搜索点及其与目标点间所有搜索点的奖励值,计算每个搜索点对应的长期回报,获取训练数据。
具体为,依据长期回报衰减系数γ计算每个搜索点对应的长期回报v,v的计算公式如下:
Figure BDA0002241352750000071
式中,v(n)为搜索数据中搜索点n对应的长期回报,n=1,2,3,…,N,N为搜索点的总数,goal为目标点,r(m)为节点m对应的奖励值,γ为预设的长期回报衰减系数,保存的每个搜索点均依照搜索顺序进行排序,依照该排序依次计算出每个搜索点的长期回报值。
S4:基于训练数据,更新基于策略梯度的强化学习算法,并通过更新后的强化学习算法,获取路径规划过程中每个搜索点对应的修正值,更新当前的改进A*算法中的引导函数。
强化学习算法的更新过程具体为,基于策略价值梯度更新强化学习算法中策略函数的权重参数,权重参数的更新表达式为:
Figure BDA0002241352750000072
Figure BDA0002241352750000073
式中,θ为策略函数的权重参数,权重参数的初始值由预先设定,
Figure BDA0002241352750000074
为权重参数为θ的策略价值梯度,α为策略价值梯度系数。
策略价值梯度的计算表达式为:
Figure BDA0002241352750000075
式中,N为搜索点的总数,π(i)为节点i的修正值,其初始值通过对强化学习算法初始化设定,v(i)为节点i对应的长期回报。
S5:重复步骤S2至S4,直到基于策略梯度的强化学习算法输出的修正值开始收敛,或者回合数大于最大训练回合数MAX_EPSOID,获取预训练后的改进A*算法。
本实施例对改进A*算法的预训练阶段中,输入的已知环境越复杂,或者训练的已知环境越多,获取的预训练后的改进A*算法,在任意环境中进行路径规划的结果就越准确。
图4为本实施例中采用预训练后的改进A*算法在一环境中进行路径规划的结果,图5为训练过程中搜索空间随训练次数的变化过程。从图中可以看出本发明改进A*算法的搜索空间随着训练的次数有了明显的下降,逐渐靠近传统A*算法的搜索速度,规划的路径逐渐趋于最优路径,较好的平衡了A*算法的搜索能力和搜索空间。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (5)

1.一种基于强化学习的移动机器人路径规划方法,其特征在于,该方法采用预训练后的改进A*算法,在任意环境中进行路径规划,所述改进A*算法采用预建立的强化学习算法更新引导函数,所述改进A*算法的预训练过程包括以下步骤:
S1:获取路径的起点、目标点和路径所在的已知环境,初始化改进A*算法;
S2:基于路径的起点、目标点和路径所在的已知环境,采用当前的改进A*算法进行路径规划,计算并保存路径规划过程中每一次的搜索点和该搜索点的奖励值;
S3:基于每个搜索点及其与目标点间所有搜索点的奖励值,计算每个搜索点对应的长期回报,获取训练数据;
S4:基于训练数据,更新强化学习算法,并通过更新后的强化学习算法,获取每个搜索点对应的修正值,更新改进A*算法中的引导函数;
S5:重复步骤S2至S4,直到满足预设的停止条件,获取预训练后的改进A*算法;
所述奖励值的计算表达式为:
Figure FDA0003225058290000011
式中,r(n)为搜索点n的奖励值,n=1,2,3,···,N,N为搜索点的总数,path(Djisktra)为采用Dijkstra算法获得的最短路径的长度,path(A*(π))为采用当前的改进A*算法获得的路径长度,const为常数;
所述强化学习算法为基于策略梯度的强化学习算法;
所述强化学习算法的更新过程具体为,基于策略价值梯度更新强化学习算法中策略函数的权重参数,所述权重参数的更新表达式为:
Figure FDA0003225058290000012
Figure FDA0003225058290000013
式中,θ为策略函数的权重参数,权重参数的初始值由预先设定,
Figure FDA0003225058290000014
为权重参数为θ的策略价值梯度,α为策略价值梯度系数;
所述策略价值梯度的计算表达式为:
Figure FDA0003225058290000015
式中,N为搜索点的总数,π(i)为节点i的修正值,其初始值通过对强化学习算法初始化设定,v(i)为节点i对应的长期回报。
2.根据权利要求1所述的一种基于强化学习的移动机器人路径规划方法,其特征在于,所述改进A*算法中引导函数的表达式为:
h(n)*=h(n)+π(n)
式中,h(n)*为改进A*算法下搜索点n的引导函数,n=1,2,3,···,N,N为搜索点的总数,h(n)为传统A*算法下搜索点n的引导函数,π(n)为强化学习算法输出的搜索点n的修正值,其初始值通过对强化学习算法初始化设定。
3.根据权利要求1所述的一种基于强化学习的移动机器人路径规划方法,其特征在于,所述长期回报的计算表达式为:
Figure FDA0003225058290000021
式中,v(n)为搜索数据中搜索点n对应的长期回报,n=1,2,3,···,N,N为搜索点的总数,goal为目标点,r(m)为节点m对应的奖励值,γ为预设的长期回报衰减系数。
4.根据权利要求1所述的一种基于强化学习的移动机器人路径规划方法,其特征在于,所述步骤S5中预设的停止条件为循环次数达到预设的循环值,或修正值开始收敛。
5.根据权利要求1所述的一种基于强化学习的移动机器人路径规划方法,其特征在于,采用神经网络拟合所述强化学习算法,通过训练所述神经网络,获取修正值。
CN201911001136.3A 2019-10-21 2019-10-21 一种基于强化学习的移动机器人路径规划方法 Active CN110794832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911001136.3A CN110794832B (zh) 2019-10-21 2019-10-21 一种基于强化学习的移动机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911001136.3A CN110794832B (zh) 2019-10-21 2019-10-21 一种基于强化学习的移动机器人路径规划方法

Publications (2)

Publication Number Publication Date
CN110794832A CN110794832A (zh) 2020-02-14
CN110794832B true CN110794832B (zh) 2021-11-09

Family

ID=69440505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911001136.3A Active CN110794832B (zh) 2019-10-21 2019-10-21 一种基于强化学习的移动机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN110794832B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353260B (zh) * 2020-03-08 2023-01-10 苏州浪潮智能科技有限公司 一种基于强化学习的计算网格并行区域划分方法和装置
CN111473794B (zh) * 2020-04-01 2022-02-11 北京理工大学 一种基于强化学习的结构化道路无人驾驶决策规划方法
CN111896006B (zh) * 2020-08-11 2022-10-04 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN111949032A (zh) * 2020-08-18 2020-11-17 中国科学技术大学 一种基于强化学习的3d避障导航系统及方法
CN112161630B (zh) * 2020-10-12 2022-07-15 北京化工大学 适用于大型仓储系统的agv在线无碰撞路径规划方法
CN112257872B (zh) * 2020-10-30 2022-09-13 周世海 一种强化学习的目标规划方法
CN112325897B (zh) * 2020-11-19 2022-08-16 东北大学 基于启发式深度强化学习的路径规划方法
CN112633591A (zh) * 2020-12-30 2021-04-09 成都艾特能电气科技有限责任公司 一种基于深度强化学习的空间搜索方法及设备
CN113029145B (zh) * 2021-03-01 2022-08-09 西安交通大学 一种基于强化学习的视觉拓扑导航方法
CN114047745B (zh) * 2021-10-13 2023-04-07 广州城建职业学院 机器人运动控制方法、机器人、计算机装置和存储介质
CN114153213A (zh) * 2021-12-01 2022-03-08 吉林大学 一种基于路径规划的深度强化学习智能车行为决策方法
CN114996278B (zh) * 2022-06-27 2023-05-23 华中科技大学 一种基于强化学习的路网最短路径距离查询方法
CN115494844A (zh) * 2022-09-26 2022-12-20 成都朴为科技有限公司 一种多机器人搜索方法及系统
CN117040146A (zh) * 2023-10-10 2023-11-10 深圳市索菱通信技术有限公司 基于无线充电的agv智能充电系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445444A (zh) * 2018-12-25 2019-03-08 同济大学 一种障碍物集中环境下的机器人路径生成方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN110070239A (zh) * 2019-03-29 2019-07-30 北京航空航天大学 一种基于a星搜索和深度学习的个性化路线推荐方法
CN110174111A (zh) * 2019-05-31 2019-08-27 山东华锐智能技术有限公司 基于时间窗的任务分段式的多agv路径规划算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150206069A1 (en) * 2014-01-17 2015-07-23 Matthew BEERS Machine learning-based patent quality metric
CN107703945A (zh) * 2017-10-30 2018-02-16 洛阳中科龙网创新科技有限公司 一种多目标融合的智能农用机械路径规划方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445444A (zh) * 2018-12-25 2019-03-08 同济大学 一种障碍物集中环境下的机器人路径生成方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN110070239A (zh) * 2019-03-29 2019-07-30 北京航空航天大学 一种基于a星搜索和深度学习的个性化路线推荐方法
CN110174111A (zh) * 2019-05-31 2019-08-27 山东华锐智能技术有限公司 基于时间窗的任务分段式的多agv路径规划算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
改进A*算法的移动机器人最短路径规划;王维 等;《计算机应用》;20180510;第38卷(第5期);全文 *

Also Published As

Publication number Publication date
CN110794832A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110794832B (zh) 一种基于强化学习的移动机器人路径规划方法
CN111896006B (zh) 一种基于强化学习和启发式搜索的路径规划方法及系统
CN107272679B (zh) 基于改进的蚁群算法的路径规划方法
CN109945881B (zh) 一种蚁群算法的移动机器人路径规划方法
CN111142522A (zh) 一种分层强化学习的智能体控制方法
CN110378439B (zh) 基于Q-Learning算法的单机器人路径规划方法
CN112985445B (zh) 基于高精地图的车道级精度实时性运动规划方法
CN109597425B (zh) 基于强化学习的无人机导航和避障方法
CN107169557A (zh) 一种对布谷鸟优化算法进行改进的方法
CN112327876B (zh) 一种基于终距指数的机器人路径规划方法
CN114460941B (zh) 一种基于改进麻雀搜索算法的机器人路径规划方法及系统
CN116242383B (zh) 一种基于增强哈里斯鹰算法的无人车路径规划方法
Bai et al. Adversarial examples construction towards white-box Q table variation in DQN pathfinding training
CN111880561A (zh) 城市环境下基于改进鲸鱼算法的无人机三维路径规划方法
CN111189455B (zh) 一种无人机航路规划方法、系统及存储介质
Kantasewi et al. Multi Q-table Q-learning
CN112859855A (zh) 一种基于蝗虫优化算法的机器人多目标路径规划
CN114756027A (zh) 一种基于改进蚁群算法与贝塞尔曲线的移动机器人路径规划方法
CN115167398A (zh) 一种基于改进a星算法的无人船路径规划方法
CN115373384A (zh) 一种基于改进rrt的车辆动态路径规划方法及系统
CN114815801A (zh) 一种基于策略-价值网络及mcts的自适应环境路径规划方法
CN113821025A (zh) 一种神经网络优化启发函数的移动机器人路径规划方法
CN116494247A (zh) 基于深度确定性策略梯度的机械臂路径规划方法及系统
CN116048071A (zh) 基于粒子群和差分进化算法的移动机器人路径规划方法
CN112484733B (zh) 一种基于拓扑图的强化学习室内导航方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant