CN116540731B - 融合堆叠lstm与sac算法的路径规划方法及系统 - Google Patents

融合堆叠lstm与sac算法的路径规划方法及系统 Download PDF

Info

Publication number
CN116540731B
CN116540731B CN202310649008.XA CN202310649008A CN116540731B CN 116540731 B CN116540731 B CN 116540731B CN 202310649008 A CN202310649008 A CN 202310649008A CN 116540731 B CN116540731 B CN 116540731B
Authority
CN
China
Prior art keywords
mobile robot
sac
target
distance
path planning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310649008.XA
Other languages
English (en)
Other versions
CN116540731A (zh
Inventor
任子良
闫皎洁
张锲石
秦勇
张福勇
洪小宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202310649008.XA priority Critical patent/CN116540731B/zh
Publication of CN116540731A publication Critical patent/CN116540731A/zh
Application granted granted Critical
Publication of CN116540731B publication Critical patent/CN116540731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及路径规划技术领域,涉及一种融合堆叠LSTM与SAC算法的路径规划方法及系统,方法包括:一、收集常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;三、构建堆叠LSTM网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠LSTM网络中;四、构建路径规划的SAC深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,进行的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。本发明能提高对未知目标的泛化能力及规划到指定目标成功率。

Description

融合堆叠LSTM与SAC算法的路径规划方法及系统
技术领域
本发明涉及路径规划技术领域,具体地说,涉及一种融合堆叠LSTM与SAC算法的路径规划方法及系统。
背景技术
传统的路径规划方法,即基于地图的方法,主要依赖同步定位与建图(Simultaneous Localization and Mapping,SLAM)和导航。一个突出的问题是,这些方法易受到传感器噪声累积的影响,这些噪声沿着从映射、定位到导航的过程传播,导致这些方法累积误差较大。
为了减少累计误差,越来越多的研究人员将时间精力投入到基于深度强化学习(Deep Reinforcement Learning,DRL)的端到端方法上,以人工智能体学习策略时产生的最大化奖励来评估规划路径的性能。深度强化学习的路径规划方法是一种新的端到端方法,它基于第一人称视觉信息帮助智能体规划一条从起点到达特定目标位置的无碰最优路径。
有文献提出了一种新的基于近端策略优化(Proximal Policy Optimization,PPO)算法的室内路径规划方法,它可以在室内环境中仅使用RGB图像和里程计来到达之前没有训练过的新目标。堆叠的LSTM结构旨在帮助记忆环境,并学习建立内部表征。该模型以RGB图像作为视觉输入,以里程计作为目标参考最后一个时间步中的速度和回报有助于理解路径规划的任务。最后,在模拟环境和真实环境下进行了实验,到达新目标的成功率为60%。
有文献提出了一种新的基于视觉的路径规划注意力概率模型,该模型以ResNet18最顶卷积层的空间位置为子窗口,编码了观测对象的语义信息,以及它们所在位置的空间信息。注意力概率模型由三个部分组成:目标、动作和记忆。“什么”和“哪里”的这种组合使智能体有效地规划到目标对象的最优路径。
有文献提出了一种多目标协作的基于视觉的路径规划模型。引入了两种新的路径规划辅助任务:逆动力学模型和多目标协同学习。逆动力学模型在给定智能体的上一状态和当前状态的情况下,预测上一动作。通过预测动作和真实动作的比较,可以确定顺序状态之间的关键差异,充分捕获观测与目标之间的线索,这可以解决深度强化学习中的奖励稀疏问题。多目标协同学习可以将一个已成功到达目标生成的样本用于另一个相关目标的路径规划,显著提高了样本利用率。
但是,现有的技术没有充分理解环境中的信息,对未知新目标的泛化性能差、动态避障能力差,且对深度强化学习的奖励函数设计较简单,没有充分利用移动机器人本身的运动信息,因此会出现奖励稀疏的问题与推理不充分的问题,进而使得训练收敛速度变慢,到达目标的成功率变低,规划的路径不是最短最优。
发明内容
本发明的内容是提供一种融合堆叠LSTM与SAC算法的路径规划方法及系统,其能够提高了对未知目标的泛化能力及规划到指定目标成功率。
根据本发明的一种融合堆叠LSTM与SAC算法的路径规划方法,其包括以下步骤:
一、收集移动机器人第一视角观测到的常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;
二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;
三、构建堆叠LSTM网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠LSTM网络中;
四、构建路径规划的SAC深度强化学习模型,将堆叠LSTM网络输出的结果馈送到SAC深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,通过改进的奖励函数进行SAC深度强化学习模型的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。
作为优选,常规场景图像尺寸为224×224×1,深度场景图像尺寸为64×64×1。
作为优选,卷积神经网络包括4个卷积层,每层分别有128、64、16、16个滤波器、3×3的内核,跨距为1,每一层之间用ReLU作为激活函数。
作为优选,堆叠LSTM网络包括2层LSTM网络和全连接层,卷积特征和目标点的位置输入到第1层LSTM网络中,然后上一时刻的速度vt-1及上一时刻的奖励rt-1输入到第2层LSTM网络中,再输入到包含256个神经元的全连接层中。
作为优选,改进的奖励函数为:
其中,rc为碰撞奖励,dt-1为上一时刻t-1下移动机器人与目标位置的距离,dt为当前时刻t下移动机器人与目标位置的距离,若该距离小于常量阈值T,移动机器人则获得到达奖励ra,dd为移动机器人到动态障碍物的距离,D为以动态障碍物为中心的警戒区半径阈值,cd为警戒区参数,cr为距离参数,cl为线速度参数,ca为角速度参数,为移动机器人在t时刻下的线速度,/>为移动机器人在t时刻下的角速度。
作为优选,改进的奖励函数训练流程如下:
1)收集目标点、障碍物的位置信息,计算移动机器人与目标点、障码物的距离;
2)判断移动机器人到目标点间的距离是否小于常量闽值T,若是,则获得到达目标的正奖励,训练结束;若否,进行下一步;
3)判断移动机器人到动态障碍物间的距高是否小于阀值D,若是,获得警戒区负奖励,训练结束;若否,进行下一步;
4)判断是否发生碰撞,若是,获得碰撞的负奖励;若否,获得目标距离、角速度、线速度及时间相关的综合奖励,训练结束。
本发明提供了一种融合堆叠LSTM与SAC算法的路径规划系统,其采用上述的融合堆叠LSTM与SAC算法的路径规划方法,并包括:
环境感知模块:通过传感器收集周围环境的信息,用于确定机器人的位置和状态;
状态特征提取模块:将环境感知模块获取到的图像数据作为状态输入,通过深度卷积神经网络提取特征,获取机器人在当前状态下的关键特征;
记忆推理模块:以环境感知模块获取到的运动数据及位置数据作为参考,使用堆叠LSTM网络对环境及目标进行学习与记忆;
行为决策模块:根据移动机器人的观测图像和目标位置等,运用SAC深度强化学习模型训练移动机器人,确定移动机器人在当前状态下的角速度与线速度,以此指导移动机器人运动直到到达目标。
本发明提出一种新的融合堆叠长短期记忆神经网络(Long Short Term Memory,LSTM)和柔性演员-评论家(Soft Actor-Critic,SAC)算法的端到端路径规划模型,根据移动机器人第一人称视角观测到的RGB-D图像以及目标点在的极坐标,通过改进框架结构,并针对奖励稀疏、动态避障及对未知新目标的泛化性能的问题,引入移动机器人本身的运动信息及动态障碍物警戒区信息来改进奖励函数,训练过程能够以较快速度收敛,提高了对未知目标的泛化能力及规划到指定目标成功率。
附图说明
图1为实施例中一种融合堆叠LSTM与SAC算法的路径规划方法的流程图;
图2为实施例中融合堆叠LSTM与SAC算法的路径规划框架示意图;
图3为实施例中改进的奖励函数训练流程图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例
如图1所示,本实施例提供了一种融合堆叠LSTM与SAC算法的路径规划方法,其包括以下步骤:
一、收集移动机器人第一视角观测到的常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;
二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;
三、构建堆叠LSTM网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠LSTM网络中;
四、构建路径规划的SAC深度强化学习模型,将堆叠LSTM网络输出的结果馈送到SAC深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,通过改进的奖励函数进行SAC深度强化学习模型的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。
本实施例的主要任务是实现移动机器人在无地图环境下,以移动机器人当前时刻第一人称视角观测到的RGB-D图像及目标点在移动机器人坐标系中的极坐标为输入,融合堆叠LSTM和SAC算法改进路径规划框架与奖励函数来训练移动机器人从起点到达指定目标位置,输出移动机器人当前时刻的角速度与线速度,实现的端到端的路径规划任务,使移动机器人可以无碰安全地到达目标位置,并通过堆叠LSTM推理移动机器人到达未知新目标,提高泛化性能。因此,该问题可被定义为:
vt=f(it,ot,vt-1)
其中,it为移动机器人以第一人称视角观测到的RGB-D图像进行特征提取后的特征值,ot为当前时刻移动机器人与目标位置的相对极坐标位置,vt-1为移动机器人上一时刻输出的速度,包括角速度与线速度。
融合堆叠LSTM与SAC算法的路径规划框架
融合堆叠LSTM与SAC算法的路径规划框架以当前时刻移动机器人第一人称视角观测到的RGB-D图像及与目标点有关的距离和角度的极坐标为输入,输出移动机器人的角速度与线速度,实现端到端的路径规划任务,通过对不同的目标进行训练,更新路径规划框架中的相关参数,再对未知的新目标进行推理,通过到达新目标的规划成功率来决定路径规划框架是否继续需要进行下一步更新,到达新目标的规划成功率越高,该路径规划框架对环境信息的理解程度越高。
融合堆叠LSTM与SAC算法的路径规划框架如图2所示,RGB-D图像尺寸为224×224×1,深度图像尺寸为64×64×1,然后分别馈送到卷积神经网络的4个卷积层中,每层分别有128、64、16、16个滤波器、3×3的内核,跨距为1,每一层之间用ReLU作为激活函数。将得到的输出与目标信息输入到堆叠LSTM网络的第1层LSTM网络中,再与上一时刻的速度vt-1及上一时刻的奖励rt-1输入到第2层LSTM网络中,再输入到包含256个神经元的全连接层中,最后基于SAC深度强化学习模型确定移动机器人当前时刻的速度vt,其中包含线速度和角速度/>
改进的奖励函数
在三维环境中,移动机器人的线速度范围为0~0.3m/s,角速度范围为0~1rad/s,移动机器人通过与环境的交互累积经验来训练路径规划框架,得到从起点到指定目标位置的无碰最优路径,并基于堆叠的LSTM网络推理到达未训练过的未知新目标,实现端到端的路径规划任务。
深度强化学习中的奖励函数设计十分关键,奖励函数的好坏决定了移动机器人能否有效的学习环境,能否快速完成任务。在路径规划框架中,移动机器人能否安全快速到达目标,取决于移动机器人是否发生碰撞,是否速度够快,是否路径最短。因此,若想使移动机器人安全无碰地到达目标位置,需要在移动机器人发生碰撞时给予负奖励rc;在靠近动态障碍物时,若与动态障碍物的距离dd小于以动态障碍物为中心的警戒区半径阈值D,为鼓励移动机器人逃逸动态障碍物,加入相应的警戒区负奖励;在与目标位置的距离dt小于规定常量阈值T时,认定移动机器人已经到达目标位置,给予正奖励ra;在其他情况下,为了鼓励移动机器人高效探索环境,加入移动机器人线速度的作为正奖励;为了使移动机器人从起到目标的路径更平滑,加入移动机器人角速度的负奖励;为了使移动机器人朝着目标所在方向移动,加入移动机器人与目标距离的作为正奖励;为了使移动机器人快速接近目标,给与-0.01/s的有关时间的负奖励。改进的奖励函数为:
其中,rc为碰撞奖励,dt-1为上一时刻t-1下移动机器人与目标位置的距离,dt为当前时刻t下移动机器人与目标位置的距离,若该距离小于常量阈值T,移动机器人则获得到达奖励ra,dd为移动机器人到动态障碍物的距离,D为以动态障碍物为中心的警戒区半径阈值,cd为警戒区参数,cr为距离参数,cl为线速度参数,ca为角速度参数,为移动机器人在t时刻下的线速度,/>为移动机器人在t时刻下的角速度。
如图3所示,改进的奖励函数训练流程如下:
1)收集目标点、障碍物的位置信息,计算移动机器人与目标点、障码物的距离;
2)判断移动机器人到目标点间的距离是否小于常量闽值T,若是,则获得到达目标的正奖励,训练结束;若否,进行下一步;
3)判断移动机器人到动态障碍物间的距高是否小于阀值D,若是,获得警戒区负奖励,训练结束;若否,进行下一步;
4)判断是否发生碰撞,若是,获得碰撞的负奖励;若否,获得目标距离、角速度、线速度及时间相关的综合奖励,训练结束。
本实施例提供了一种融合堆叠LSTM与SAC算法的路径规划系统,其采用上述的融合堆叠LSTM与SAC算法的路径规划方法,并包括:
环境感知模块:通过传感器收集周围环境的信息,用于确定机器人的位置和状态;
状态特征提取模块:将环境感知模块获取到的图像数据作为状态输入,通过深度卷积神经网络提取特征,获取机器人在当前状态下的关键特征;
记忆推理模块:以环境感知模块获取到的运动数据及位置数据作为参考,使用堆叠LSTM网络对环境及目标进行学习与记忆;
行为决策模块:根据移动机器人的观测图像和目标位置等,运用SAC深度强化学习模型训练移动机器人,确定移动机器人在当前状态下的角速度与线速度,以此指导移动机器人运动直到到达目标。
本实施例经过与其他基于深度强化学习的端到端路径规划方法进行多组实验对比,在gazebo仿真框架中取得了很好的效果,泛化能力和到达目标的成功率都有所提升。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (5)

1.融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:包括以下步骤:
一、收集移动机器人第一视角观测到的常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;
二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;
三、构建堆叠LSTM网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠LSTM网络中;
四、构建路径规划的SAC深度强化学习模型,将堆叠LSTM网络输出的结果馈送到SAC深度强化学习模型,并引入动态障碍物的位置信息改进的奖励函数,通过改进的奖励函数进行SAC深度强化学习模型的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点;
改进的奖励函数为:
其中,rc为碰撞奖励,dt-1为上一时刻t-1下移动机器人与目标位置的距离,dt为当前时刻t下移动机器人与目标位置的距离,若该距离小于常量阈值T,移动机器人则获得到达奖励ra,dd为移动机器人到动态障碍物的距离,D为以动态障碍物为中心的警戒区半径阈值,cd为警戒区参数,cr为距离参数,cl为线速度参数,ca为角速度参数,νt l为移动机器人在t时刻下的线速度,vt a为移动机器人在t时刻下的角速度;
改进的奖励函数训练流程如下:
1)收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;
2)判断移动机器人到目标点间的距离是否小于常量阈值T,若是,则获得到达目标的正奖励,训练结束;若否,进行下一步;
3)判断移动机器人到动态障碍物间的距高是否小于阈值D,若是,获得警戒区负奖励,训练结束;若否,进行下一步;
4)判断是否发生碰撞,若是,获得碰撞的负奖励;若否,获得目标距离、角速度、线速度及时间相关的综合奖励,训练结束。
2.根据权利要求1所述的融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:常规场景图像尺寸为224×224×1,深度场景图像尺寸为64×64×1。
3.根据权利要求2所述的融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:卷积神经网络包括4个卷积层,每层分别有128、64、16、16个滤波器、3×3的内核,跨距为1,每一层之间用ReLU作为激活函数。
4.根据权利要求3所述的融合堆叠LSTM与SAC算法的路径规划方法,其特征在于:堆叠LSTM网络包括2层LSTM网络和全连接层,卷积特征和目标点的位置输入到第1层LSTM网络中,然后上一时刻的速度vt-1及上一时刻的奖励rt-1输入到第2层LSTM网络中,再输入到包含256个神经元的全连接层中。
5.融合堆叠LSTM与SAC算法的路径规划系统,其特征在于:其采用如权利要求1-4中任一所述的融合堆叠LSTM与SAC算法的路径规划方法,并包括:
环境感知模块:通过传感器收集周围环境的信息,用于确定机器人的位置和状态;
状态特征提取模块:将环境感知模块获取到的图像数据作为状态输入,通过深度卷积神经网络提取特征,获取机器人在当前状态下的关键特征;
记忆推理模块:以环境感知模块获取到的运动数据及位置数据作为参考,使用堆叠LSTM网络对环境及目标进行学习与记忆;
行为决策模块:根据移动机器人的观测图像和目标位置,运用SAC深度强化学习模型训练移动机器人,确定移动机器人在当前状态下的角速度与线速度,以此指导移动机器人运动直到到达目标。
CN202310649008.XA 2023-06-02 2023-06-02 融合堆叠lstm与sac算法的路径规划方法及系统 Active CN116540731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310649008.XA CN116540731B (zh) 2023-06-02 2023-06-02 融合堆叠lstm与sac算法的路径规划方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310649008.XA CN116540731B (zh) 2023-06-02 2023-06-02 融合堆叠lstm与sac算法的路径规划方法及系统

Publications (2)

Publication Number Publication Date
CN116540731A CN116540731A (zh) 2023-08-04
CN116540731B true CN116540731B (zh) 2024-03-26

Family

ID=87445336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310649008.XA Active CN116540731B (zh) 2023-06-02 2023-06-02 融合堆叠lstm与sac算法的路径规划方法及系统

Country Status (1)

Country Link
CN (1) CN116540731B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116690588B (zh) * 2023-08-07 2023-10-10 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质
CN117539266B (zh) * 2024-01-04 2024-04-19 珠海市格努科技有限公司 基于视觉的物流系统中路径规划方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020056875A1 (zh) * 2018-09-20 2020-03-26 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN113156980A (zh) * 2021-05-28 2021-07-23 山东大学 一种基于深度强化学习的塔式起重机路径规划方法及系统
CN114185339A (zh) * 2021-11-15 2022-03-15 哈尔滨工程大学 一种动态环境下的移动机器人路径规划方法
CN114740868A (zh) * 2022-05-12 2022-07-12 华中科技大学 一种基于深度强化学习的移动机器人路径规划方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020056875A1 (zh) * 2018-09-20 2020-03-26 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN113156980A (zh) * 2021-05-28 2021-07-23 山东大学 一种基于深度强化学习的塔式起重机路径规划方法及系统
CN114185339A (zh) * 2021-11-15 2022-03-15 哈尔滨工程大学 一种动态环境下的移动机器人路径规划方法
CN114740868A (zh) * 2022-05-12 2022-07-12 华中科技大学 一种基于深度强化学习的移动机器人路径规划方法

Also Published As

Publication number Publication date
CN116540731A (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN116540731B (zh) 融合堆叠lstm与sac算法的路径规划方法及系统
Zhang et al. Robot navigation of environments with unknown rough terrain using deep reinforcement learning
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN107168324B (zh) 一种基于anfis模糊神经网络的机器人路径规划方法
Zhang et al. Integrating kinematics and environment context into deep inverse reinforcement learning for predicting off-road vehicle trajectories
CN114384920A (zh) 一种基于局部栅格地图实时构建的动态避障方法
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
US20070100780A1 (en) Hybrid control device
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
Ma et al. Learning to navigate in indoor environments: From memorizing to reasoning
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
Zhao et al. Path planning for mobile robots based on TPR-DDPG
Mun et al. Occlusion-aware crowd navigation using people as sensors
Hamad et al. Path Planning of Mobile Robot Based on Modification of Vector Field Histogram using Neuro-Fuzzy Algorithm.
Qin et al. Deep imitation learning for autonomous navigation in dynamic pedestrian environments
Xu et al. Avoidance of manual labeling in robotic autonomous navigation through multi-sensory semi-supervised learning
US20220269948A1 (en) Training of a convolutional neural network
CN113232016A (zh) 一种强化学习与模糊避障融合的机械臂路径规划方法
Hoshino et al. End-to-end discrete motion planner based on deep neural network for autonomous mobile robots
Wang et al. Vision-Based Autonomous Driving: A Hierarchical Reinforcement Learning Approach
CN116718190A (zh) 一种长距离密集人群场景下的移动机器人路径规划方法
CN114326826B (zh) 多无人机队形变换方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant