CN112629542B - 基于ddpg和lstm的无地图机器人路径导航方法及系统 - Google Patents

基于ddpg和lstm的无地图机器人路径导航方法及系统 Download PDF

Info

Publication number
CN112629542B
CN112629542B CN202011633712.9A CN202011633712A CN112629542B CN 112629542 B CN112629542 B CN 112629542B CN 202011633712 A CN202011633712 A CN 202011633712A CN 112629542 B CN112629542 B CN 112629542B
Authority
CN
China
Prior art keywords
robot
ddpg
lstm
network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011633712.9A
Other languages
English (en)
Other versions
CN112629542A (zh
Inventor
吕蕾
周青林
庞辰
吕晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202011633712.9A priority Critical patent/CN112629542B/zh
Publication of CN112629542A publication Critical patent/CN112629542A/zh
Application granted granted Critical
Publication of CN112629542B publication Critical patent/CN112629542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Abstract

本公开提出了基于DDPG和LSTM的无地图机器人路径导航方法及系统,包括如下步骤:获取机器人的当前的状态信息及目标位置信息;将状态信息及目标相对位置输入至训练好的DDPG‑LSTM模型中输出最优可执行动作数据,使得机器人完成无碰撞的路径导航;将深度确定性策略梯度算法和长短期记忆网络融合应用于机器人路径导航,基于DDPG的神经网络结构进行改进,提出了将卷积神经网络(CNN)及LSTM相结合的网络结构作为DDPG网络结构的一部分,使得该网络结构能够根据输入直接输出动作,使得机器人可以直接接受具体指令实现移动,实现端到端的学习,完成机器人的无地图路径导航。

Description

基于DDPG和LSTM的无地图机器人路径导航方法及系统
技术领域
本公开涉及路径规划相关技术领域,具体的说,是涉及基于DDPG和LSTM的无地图机器人路径导航方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,并不必然构成在先技术。
近年来,机器人技术有了突飞猛进的发展,平面移动机器人是其中一种应用广泛的机器人分支。移动机器人已广泛用于工业、农业、安全检测和日常生活中。路径规划作为移动机器人的一项必不可少的技术,一直是研究人员关注的焦点。它旨在找到从起点到目标点的最佳无碰撞路径。
受益于人工智能和计算机视觉的发展,智能机器人技术已取得了巨大的进步。但是,使机器人能够自动在现实世界中导航仍然是一项艰巨的任务。传统的导航方法包括定位、地图构建和路径规划。迄今为止,大多数方法都依赖于以人为基础的雷达或摄像机信息设计的度量或拓扑图。但是像雷达这样的测距传感器通常只能捕获有限的信息,而且价格昂贵。
为了简化路径规划的步骤,并使机器人能够智能地感知和做出决策,越来越多的研究人员尝试将机器学习(ML)方法应用于路径规划问题。强化学习(RL)作为ML的主要分支,擅长决策制定,并且在机器人控制方面表现出色。但是,基于RL的方法通常在具有固定目标的固定环境模型中实现。训练RL代理需要大量的试验,这对于实际应用是不切实际的。如果在模拟环境中进行训练,则无法将代理直接应用于新环境,即使在类似情况下也需要对其进行微调。对新目标和环境的泛化能力仍然是RL方法的挑战。
深度学习(DL)具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题却束手无策。深度强化学习(DRL)将两者结合,优势互补,为复杂系统的感知决策问题提供了解决思路。但是目前存在的DRL方法对于拥有连续运动空间的任务无法输出平滑的动作,因为普通神经网络的输出相对于机器人移动的连续动作是独立的,两个指令之间的跳跃可能比较大,就会产生机器人移动不平稳的问题。
发明内容
本公开为了解决上述问题,提出了基于DDPG和LSTM的无地图机器人路径导航方法及系统,深度确定性策略梯度算法(DDPG)和长短期记忆网络(LSTM)融合应用于机器人路径导航,基于DDPG的神经网络结构进行改进,提出了将卷积神经网络(CNN)及LSTM相结合的网络结构作为DDPG网络结构的一部分,使得该网络结构能够根据输入直接输出动作,使得机器人可以直接接受具体指令实现移动,实现端到端的学习,完成机器人的无地图路径导航。
为了实现上述目的,本公开采用如下技术方案:
本公开的第一方面提供基于DDPG和LSTM的无地图机器人路径导航方法,包括如下步骤:
获取机器人的当前的状态信息及目标位置信息;
将状态信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行动作数据,使得机器人完成无碰撞的路径导航;
所述DDPG-LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,使得模型输出机器人最优可执行动作数据。
本公开的第二方面提供基于DDPG和LSTM的无地图机器人路径导航系统,包括:机器人状态检测装置和机器人,所述机器人上述的基于DDPG和LSTM的无地图机器人路径导航方法。
本公开的第三方面提供基于DDPG和LSTM的无地图机器人路径导航系统,包括:
数据获取模块:被配置为用于获取机器人的当前的状态信息及目标位置信息;
导航模块:被配置为用于将状态信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行动作数据,使得机器人完成无碰撞的路径导航;
所述DDPG-LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,使得模型输出机器人最优可执行动作数据。
本公开的第四方面提供一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
本公开的第五方面提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。
与现有技术相比,本公开的有益效果为:
(1)本公开将DDPG算法应用于机器人路径导航,在仅依靠机器人自身传感器和目标相对位置的情况下,即可实现机器人的无碰撞路径导航,无需参照先验障碍物地图或人为操作,模型的泛化能力显著提高。
(2)本公开在DDPG原始网络结构的基础上,将CNN和LSTM与之结合,提出一种新的网络结构,提高特征提取能力的同时使其具备长期预测能力,可以更平缓的输出角速度和线速度,更加符合实际需求应用。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。
图1是本公开实施例1的方法流程图;
图2是本公开实施例1的DDPG算法网络框架图;
图3是本公开的DDPG算法网络中的Actor网络架构图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
实施例1
在一个或多个实施方式中公开的技术方案中,如图1所示,基于DDPG和LSTM的无地图机器人路径导航方法,包括如下步骤:
步骤1、获取机器人的当前的状态信息及目标位置信息;
步骤2、将状态信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行动作数据,使得机器人完成无碰撞的路径导航;
所述DDPG-LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,使得模型输出机器人最优可执行动作数据。
其中,所述机器人的可执行动作数据可以包括:机器人动作的角速度和线速度。
本实施例中将深度增强算法应用至机器人的导航,同时将DDPG网络的网络进行了改进,将CNN和LSTM级联后的网络与DDPG网络结合,提出一种新的网络结构,提高特征提取能力的同时使其具备长期预测能力,可以更平缓的输出角速度和线速度,更加符合机器人的动作要求,符合实际需求应用。
步骤1中,可以利用机器人的激光测距传感器采集当前的状态信息,所述当前状态信息包括环境信息,环境信息包括机器人传感器从多个固定角度扫描的距离信息。
本实施例中,如图2-3所示,DDPG-LSTM模型具体如下:
DDPG算法具有四个网络,其中包括两个Actor网络和两个Critic网络,可选的,其中两个Actor网络的结构完全相同,两个Critic网络的结构也完全相同。
DDPG算法网络的输入端分别连接两个Actor网络和两个Critic网络,其中一个Actor网络和一个Critic网络构成主网络(main net),另外的一个Actor网络和一个Critic网络构成目标网络(Target Net)。
改进前DDPG的Actor网络和Critic网络都是普通的神经网络,本实施例对Actor网络进行了改进,Critic网络并未改动,具体的,Actor网络训练采用SGA的更新方式,Critic网络训练采用SGD方法。
主网络(main net)以及目标网络(Target Net)中,Actor网络的执行SGA算法,Critic网络执行SGD算法更新主网络的参数。
改进后的Actor网络结构,可以如图3所示,包括CNN模型和LSTM模型,CNN模型输出层连接LSTM模型的输入端。
可实现的,CNN模型包括依次连接的输入层、隐藏层以及输出层;所述输入层用于接收机器人的当前状态信息及目标位置数据;隐藏层卷积神经网络层和全连接网络层,卷积神经网络层用于处理激光测距传感器检测的当前状态信息,提取环境特征信息,全连接网络层用于根据接收的环境特征信息以及目标位置信息,通过输出层输出角速度和线速度。
具体的,本实施例中的CNN模型设置了5个卷积神经网络层和1个全连接网络层。
LSTM模型包括多个神经网络单元,其中一个神经网络单元用于接收CNN模型的当前输出速度及LSTM模型之前输出的多个最终速度,按照时间序列采用长短期记忆算法输出最终速度作为机器人执行的角速度和线速度。
可设置的,本实施例的LSTM模型,该模块可以设置有8个神经网络单元,其输入包括CNN模型的输出X7以及前7个回合的速度(X0-X6),按照顺序依次输入LSTM模型,根据长短期记忆算法输出最终速度。图中H是隐藏层,通过隐藏层实现8个神经网络单元的循环传递,Y是本单元的输出。
训练DDPG-LSTM模型的步骤,可以具体为:
步骤A1:初始化机器人的导航环境、起始坐标设置以及目标点;
步骤A2:获取机器人的当前状态信息,将当前状态信息和目标位置信息作为输入到DDPG-LSTM模型中,模型输出线速度和角速度,机器人执行动作,到达下一个状态,得到动作的奖励值,完成一个回合的操作;
可选的,可以利用机器人的激光测距传感器收集环境信息,将传感器数据和目标位置信息作为输入。机器人角速度和线速度共同作用于机器人,机器人会向某一具体角度以某一具体速度运动,达到另一个位置,这个位置的状态信息又是全新的,故为下一个状态
步骤A3:将本回合的数据包括当前状态信息、机器人执行的动作、动作奖励值、下一状态存储到经验回放池(Replay memory D)中,作为训练数据;
步骤A4:当经验回放池(Replay memory D)的数据达到设定的数量要求,采用经验回放机制对DDPG-LSTM模型进行训练;
训练完成的DDPG-LSTM模型可以仅根据传感器的信息和目标位置信息输出当前状态下的最优可执行动作数据,指导机器人完成无碰撞的路径导航。
其中,步骤A1中,使用GAZEBO环境仿真平台和机器人操作系统(ROS),建立仿真环境,同时设置障碍物;
可选的,可以将机器人起始坐标设置为(0,0),目标点可以采用随机生成的方法,随机生成一个目标点;
本实施例将DDPG算法应用于机器人路径导航,在仅依靠机器人自身传感器和目标相对位置的情况下,即可实现机器人的无碰撞路径导航,无需参照先验障碍物地图或人为操作,模型的泛化能力显著提高。
实施例2
基于实施例1的方法,本实施例提供基于DDPG和LSTM的无地图机器人路径导航系统,包括:机器人状态检测装置和机器人,所述机器人执行实施例1的路径导航方法。
进一步的,所述机器人状态检测装置设置在机器人上,所述机器人状态检测装置包括激光测距传感器。
实施例3
基于实施例1的方法,本实施例提供基于DDPG和LSTM的无地图机器人路径导航系统,包括:
数据获取模块:被配置为用于获取机器人的当前的状态信息及目标位置信息;
导航模块:被配置为用于将状态信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行动作数据,使得机器人完成无碰撞的路径导航;
所述DDPG-LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,使得模型输出机器人最优可执行动作数据。
其中,所述机器人的可执行动作数据可以为:机器人动作的角速度和线速度。
进一步地,还包括训练DDPG-LSTM模型的模块,包括:
初始化模块:用于初始化机器人的导航环境、起始坐标设置以及目标点;
导航数据生成模块:利用机器人的激光测距传感器收集环境信息,将传感器数据和目标位置信息作为输入,输入到DDPG-LSTM模型中,模型输出线速度和角速度,使得机器人按照输出执行动作,到达下一个状态,得到动作的奖励值,完成一个回合的操作;
数据收集模块:用于将本回合的数据即当前状态信息、机器人执行的动作、动作奖励值、下一状态存储到经验回放池(Replay memory D)中,作为训练数据;
训练执行模块:用于当经验回放池(Replay memory D)的数据达到数量要求,采用经验回放机制对DDPG-LSTM模型进行训练;
训练完成的DDPG-LSTM模型可以仅根据传感器的信息和目标位置信息输出当前状态下的最优可执行动作数据,指导机器人完成无碰撞的路径导航。
其中,初始化模块中,使用GAZEBO环境仿真平台和机器人操作系统(ROS),建立仿真环境,同时设置障碍物;
可选的,可以将机器人起始坐标设置为(0,0),目标点可以采用随机生成的方法,随机生成一个目标点;
本实施例将DDPG算法应用于机器人路径导航,在仅依靠机器人自身传感器和目标相对位置的情况下,即可实现机器人的无碰撞路径导航,无需参照先验障碍物地图或人为操作,模型的泛化能力显著提高。
实施例4
本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1的方法所述的步骤。
实施例5
本实施例提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1的方法所述的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (9)

1.基于DDPG和LSTM的无地图机器人路径导航方法,其特征是,包括如下步骤:
获取机器人传感器从多个固定角度扫描的距离信息及目标位置信息;
将机器人传感器从多个固定角度扫描的距离信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行的角速度和线速度动作数据,使得机器人完成无碰撞的路径导航;
所述DDPG-LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,使得模型输出机器人最优可执行的角速度和线速度动作数据。
2.如权利要求1所述的基于DDPG和LSTM的无地图机器人路径导航方法,其特征是:DDPG-LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,具体为:DDPG算法网络包括Actor网络和Critic网络,其中Actor网络包括CNN模型和LSTM模型,CNN模型输出层连接LSTM模型的输入端。
3.如权利要求2所述的基于DDPG和LSTM的无地图机器人路径导航方法,其特征是:CNN模型包括依次连接的输入层、隐藏层以及输出层,所述输入层用于接收机器人传感器从多个固定角度扫描的距离数据及目标位置数据;隐藏层卷积神经网络层和全连接网络层,卷积神经网络层用于处理激光测距传感器检测的距离信息,全连接网络层用于根据接收的距离信息以及目标位置信息,通过输出层输出角速度和线速度。
4.如权利要求2所述的基于DDPG和LSTM的无地图机器人路径导航方法,其特征是:LSTM模型包括多个神经网络单元,其中一个神经网络单元用于接收CNN模型的当前输出速度及LSTM模型之前输出的多个最终速度,按照时间序列采用长短期记忆算法输出最终速度作为机器人执行的角速度和线速度。
5.如权利要求1所述的基于DDPG和LSTM的无地图机器人路径导航方法,其特征是:训练DDPG-LSTM模型的方法,包括如下步骤:
初始化机器人的导航环境、起始坐标设置以及目标点;
获取机器人传感器从多个固定角度扫描的距离信息,将距离信息和目标位置信息作为输入,输入到DDPG-LSTM模型中,模型输出线速度和角速度,以使机器人根据该线速度和角速度执行动作,到达下一个状态,得到动作的奖励值,完成一个回合的操作;
将本回合的数据存储到经验回放池中,作为训练数据;
当经验回放池的数据达到设定的数量要求,采用经验回放机制对DDPG-LSTM模型进行训练。
6.基于DDPG和LSTM的无地图机器人路径导航系统,其特征是:包括:机器人状态检测装置和机器人,所述机器人执行权利要求1-5任一项所述的基于DDPG和LSTM的无地图机器人路径导航方法。
7.基于DDPG和LSTM的无地图机器人路径导航系统,包括:
数据获取模块:被配置为用于获取机器人传感器从多个固定角度扫描的距离信息及目标位置信息;
导航模块:被配置为用于将机器人传感器从多个固定角度扫描的距离信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行的角速度和线速度动作数据,使得机器人完成无碰撞的路径导航;
所述DDPG-LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,使得模型输出机器人最优可执行的角速度和线速度动作数据。
8.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5任一项方法所述的步骤。
9.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项方法所述的步骤。
CN202011633712.9A 2020-12-31 2020-12-31 基于ddpg和lstm的无地图机器人路径导航方法及系统 Active CN112629542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011633712.9A CN112629542B (zh) 2020-12-31 2020-12-31 基于ddpg和lstm的无地图机器人路径导航方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011633712.9A CN112629542B (zh) 2020-12-31 2020-12-31 基于ddpg和lstm的无地图机器人路径导航方法及系统

Publications (2)

Publication Number Publication Date
CN112629542A CN112629542A (zh) 2021-04-09
CN112629542B true CN112629542B (zh) 2022-08-30

Family

ID=75289924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011633712.9A Active CN112629542B (zh) 2020-12-31 2020-12-31 基于ddpg和lstm的无地图机器人路径导航方法及系统

Country Status (1)

Country Link
CN (1) CN112629542B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113503885B (zh) * 2021-04-30 2024-02-20 山东师范大学 一种基于采样优化ddpg算法的机器人路径导航方法及系统
CN113408782B (zh) * 2021-05-11 2023-01-31 山东师范大学 基于改进的ddpg算法的机器人路径导航方法及系统
CN113532457B (zh) * 2021-06-07 2024-02-02 山东师范大学 机器人路径导航方法、系统、设备及存储介质
CN113219997B (zh) * 2021-06-08 2022-08-30 河北师范大学 一种基于tpr-ddpg的移动机器人路径规划方法
CN113627424B (zh) * 2021-07-14 2023-09-12 重庆师范大学 一种协同门控循环融合lstm图像标注方法
CN114396949B (zh) * 2022-01-18 2023-11-10 重庆邮电大学 一种基于ddpg的移动机器人无先验地图导航决策方法
CN114815813B (zh) * 2022-03-29 2024-05-07 山东交通学院 一种基于改进ddpg算法的高效路径规划方法、装置及介质
CN117539266B (zh) * 2024-01-04 2024-04-19 珠海市格努科技有限公司 基于视觉的物流系统中路径规划方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN111487864A (zh) * 2020-05-14 2020-08-04 山东师范大学 一种基于深度强化学习的机器人路径导航方法及系统
CN112119404A (zh) * 2018-05-18 2020-12-22 谷歌有限责任公司 样本高效的强化学习

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992917A (zh) * 2016-10-10 2023-11-03 渊慧科技有限公司 用于选择动作的系统和方法
WO2019219969A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Graph neural network systems for behavior prediction and reinforcement learning in multple agent environments
US10940863B2 (en) * 2018-11-01 2021-03-09 GM Global Technology Operations LLC Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112119404A (zh) * 2018-05-18 2020-12-22 谷歌有限责任公司 样本高效的强化学习
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN111487864A (zh) * 2020-05-14 2020-08-04 山东师范大学 一种基于深度强化学习的机器人路径导航方法及系统

Also Published As

Publication number Publication date
CN112629542A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112629542B (zh) 基于ddpg和lstm的无地图机器人路径导航方法及系统
Wang et al. Learning to navigate through complex dynamic environment with modular deep reinforcement learning
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及系统
Lei et al. Dynamic path planning of unknown environment based on deep reinforcement learning
Tai et al. A survey of deep network solutions for learning control in robotics: From reinforcement to imitation
Lobos-Tsunekawa et al. Visual navigation for biped humanoid robots using deep reinforcement learning
CN109917818B (zh) 基于地面机器人的协同搜索围堵方法
Bruce et al. One-shot reinforcement learning for robot navigation with interactive replay
CN112362066B (zh) 一种基于改进的深度强化学习的路径规划方法
Kelchtermans et al. How hard is it to cross the room?--Training (Recurrent) Neural Networks to steer a UAV
Xie et al. Learning with stochastic guidance for robot navigation
CN111795700A (zh) 一种无人车强化学习训练环境构建方法及其训练系统
Jiang et al. A brief survey: Deep reinforcement learning in mobile robot navigation
Xiao et al. Multigoal visual navigation with collision avoidance via deep reinforcement learning
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
CN112857370A (zh) 一种基于时序信息建模的机器人无地图导航方法
Ma et al. Learning to navigate in indoor environments: From memorizing to reasoning
CN115877869A (zh) 一种无人机路径规划方法及系统
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
Malayjerdi et al. Mobile robot navigation based on fuzzy cognitive map optimized with grey wolf optimization algorithm used in augmented reality
Mavsar et al. Simulation-aided handover prediction from video using recurrent image-to-motion networks
Hsu Obstacle avoidance path scheme of snake robot based on bidirectional fast expanding random tree algorithm
Li et al. End-to-end autonomous exploration for mobile robots in unknown environments through deep reinforcement learning
Zhang et al. Visual navigation of mobile robots in complex environments based on distributed deep reinforcement learning
Tran et al. Mobile robot planner with low-cost cameras using deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant