CN112433525A - 基于模仿学习及深度强化学习的移动机器人导航方法 - Google Patents

基于模仿学习及深度强化学习的移动机器人导航方法 Download PDF

Info

Publication number
CN112433525A
CN112433525A CN202011275117.2A CN202011275117A CN112433525A CN 112433525 A CN112433525 A CN 112433525A CN 202011275117 A CN202011275117 A CN 202011275117A CN 112433525 A CN112433525 A CN 112433525A
Authority
CN
China
Prior art keywords
mobile robot
learning
model
experience
navigation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011275117.2A
Other languages
English (en)
Inventor
陈飞
王海梅
朱倩梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202011275117.2A priority Critical patent/CN112433525A/zh
Publication of CN112433525A publication Critical patent/CN112433525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Electromagnetism (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于模仿学习及深度强化学习的移动机器人导航方法包括如下步骤:步骤1,建立移动机器人的环境模型;步骤2,构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用耦合的导航框架对移动机器人模型进行训练;步骤3,利用训练好的模型实现导航任务。

Description

基于模仿学习及深度强化学习的移动机器人导航方法
技术领域
本发明涉及一种移动机器人导航技术,特别是一种基于模仿学习及深度强化学习的移动机器人导航方法。
背景技术
随着移动机器人技术的飞速发展,越来越多的移动机器人进入人们的生活、服务和生产领域。在机器人应用中,导航起着重要的作用,为进一步执行其他任务奠定了基础。传统导航框架主要由感知模块、地图模块和规划模块组成,但是在选择环境代表性特征值中的工程量、特征计算和规划过程中的计算复杂度以及维护地图所需要的大量存储资源和传输带宽都进一步限制了传统导航方式的应用。
机器学习在决策问题上取得了巨大的成功,将机器学习应用到机器人领域得到了广泛关注。近年来许多基于学习的导航方法被提出,其中包括模仿学习和强化学习,但每种方法都存在一定的弊端。模仿学习需要大量的成功示范来完成学习任务,训练的性能无法超越示范经验,且示范经验也不一定总是最优的;强化学习方法由于其初始探索过程中的随机性和稀疏奖励,导致需要大量的时间来与环境进行交互,并且在探索过程中的某些过度探索经验被学习会导致学习效率和性能的下降。
发明内容
本发明的目的在于提供一种基于模仿学习及深度强化学习的移动机器人导航方法,包括如下步骤:
步骤1,建立移动机器人的环境模型;
步骤2,构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用耦合的导航框架对移动机器人模型进行训练;
步骤3,利用训练好的模型实现导航任务。
进一步地,步骤1具体包括:
步骤1.1,布置训练环境场地及障碍物,移动机器人通过与环境交互来学习无地图导航策略;
步骤1.2,编写移动机器人模型,设置运动控制方式,添加扫描激光测距仪用于感知环境,设置扫描激光测距仪的传感器类型、扫描精度、以及检测范围。
进一步地,步骤2具体包括:
步骤2.1,获取人类的演示经验并存储到离线经验回放池,再利用模仿学习算法学习人类的演示经验并保存为先验知识模型;
步骤2.2,采用DDPG算法作为是年度强化学习模型,利用模仿学习的先验知识模型和离线经验回放池作为DDPG算法的初始化,使用Actor-Critic框架的神经网络来对Q函数和确定性策略a进行近似拟合并更新网络参数;
步骤2.3,利用人类演示经验初始化深度强化学习的经验回放池,深度强化学习网络预先训练N次,再与环境交互;
步骤2.4,移动机器人与环境的交互采取回合制;
步骤2.5,在移动机器人与环境交互的过程中,每一步运动后,DDPG模型从环境中得到反馈奖励,奖励信号的公式为:
Figure BDA0002778821690000021
其中,c1、c2为常数,d碰撞为最小碰撞距离,d达到为达到目标点的最小距离, d读取表示扫描激光测距仪的原始读数,d当前表示机器人与目标位置当前的距离, d先前表示机器人与目标位置前一时间步的距离;奖励值将指导移动机器人选择动作策略,组成新的经验数据元组来训练模型,并采取梯度下降法来更新网络参数;
步骤2.6,DDPG算法学习到的移动机器人探索经验将储存到在线经验池,通过计算其与离线经验的相似性对探索经验进行筛选,过滤掉过度探索经验,仅存储优质探索经验,当经验池满的时候,按照经验质量依次覆盖掉旧经验来保证模型的收敛性;
步骤2.7,训练过程中朝着累计奖励值最大的方向训练移动机器人,将累计奖励值较高时,保留此时的网络模型参数作为最终的训练结果。
进一步地,所述步骤3具体包括如下步骤:
步骤3.1,在Gazebo仿真环境中通过给定目标点,将训练好的决策模型作为导航控制器,在每一个时间步接收扫描激光测距仪的距离数据,输出角速度与线速度指令来控制移动机器人的运动;
步骤3.2,为了验证该学习框架的有效性,我们将仿真训练的模型移植到实际的硬件平台上,结合扫描激光测距仪和Husky移动机器人系统组成完整的导航控制系统完成了导航任务。
本发明与现有技术相比,具有以下优点:(1)相比现有的传统导航方法及基于学习的导航控制方法,本发明提出的控制框架基于模仿学习及深度强化学习的耦合实现导航控制,能够利用较少的数据集学习到较好的控制策略,减少对于数据集的依赖;(2)利用近似最优策略,人类演示经验作为深度强化学习框架的基线,过滤掉移动机器人与环境交互中产生的过度探索经验,将更好的经验存储到经验回放池中,进一步提高学习效率。
下面结合说明书附图对本发明作发明作进一步描述。
附图说明
图1为本发明方法流程图;
图2为本发明方法构建的模仿学习-深度强化学习耦合导航控制框架;
图3为本发明方法中Actor-Critic神经网络框架图;
图4为本发明方法的经验回放池更新流程图;
图5为本发明方法在仿真环境中的导航结果示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请进行进一步详细说明。本发明实施例提供一种基于模仿学习与深度强化学习耦合框架的移动机器人无图导航方法,如图1所示,其主要包括如下步骤:
步骤S100建立移动机器人和环境模型,初始化移动机器人和扫描激光测距仪,并设置参数;
步骤S101,利用Ubuntu kinetic操作系统,ROS操作平台及其集成的动力学仿真软件Gazebo作为仿真训练环境,布置训练环境场地为20×20m的正方形区域,障碍物为规则放置的圆柱形柱子,移动机器人在正方形区域内通过与环境交互来学习无地图导航策略;
步骤S102,利用urdf文件编写移动机器人模型,尺寸为990*670mm,前后共四轮,最大前进速度为1m/s,驱动方式为二轮差分驱动;添加扫描激光测距仪用于感知环境信息,激光测距仪的扫描范围为270°,扫描精度为0.25°,探测范围为100-30000mm。
步骤S200,构建基于模仿学习及深度强化学习算法耦合的导航控制框架。
步骤S201,如图2所示,基于模仿学习和深度强化学习提出一种耦合算法。如图2上半部分所示,在模仿学习模块,专家对移动机器人进行操作,提供最优化的演示经验,存储到离线经验回放池,模仿学习算法将学习演示经验,保存为先验知识模型;
步骤S202,如图2下半部分所示,本发明所使用的深度强化学习算法为 DDPG算法,基于Actor-Critic架构实现导航控制,本实例所设计的Actor-Critic 网络如图3所示,Actor网络的输入为状态,状态空间为
Figure BDA0002778821690000041
其中,l,x,y,yaω是二维测距,位置和方位信息的简称,i是指示信号,下标r代表移动机器人,上标d代表的是期望目标(目标位置),下标t表示当前的时间步。移动机器人的导航控制命令是线速度vx和角速度ωx,由于物理平台的限制,对速度输出有一个界限,vx在(0.0, 1.0)m/s内,ωx在(-1.0,1.0)rad/s内,用Actor网络的sigmoid()和tanh()激活函数来实现输出。
Actor和Critic网络均使用三层全连接层实现,层间激活函数为ReLU函数,利用神经网络来近似拟合Q(s,aω)函数和确定性策略a=μ(s;θ),并使用梯度下降法来更新网络参数。
步骤S300,利用耦合的导航框架对移动机器人模型进行训练;
步骤S301,在训练过程中,根据Actor-Critic神经网络的结构,只需向移动机器人提供5条人类演示的成功导航轨迹,通过模仿学习将人类演示经验存储到离线经验回放池Eoff中;
用离线经验回放池初始化深度强化学习网络,先预先训练m次,再应用于与环境交互,在探索中产生新的经验;
步骤S302,移动机器人与环境的交互采取回合制,本实施例中,在每一幕开始时,移动机器人初始位置都是固定的,目标位置也固定,当移动机器人在移动过程中成功到达目标位置、与障碍发生碰撞或超出1000步仍未到达目标位置,则认定该幕结束;
步骤S303,在移动机器人与环境交互的过程中,每一步运动后,DDPG模型从环境中得到反馈奖励,奖励信号的公式为:
Figure BDA0002778821690000051
其中,c1、c2为常数,d碰撞为最小碰撞距离,d达到为达到目标点的最小距离, d读取表示扫描激光测距仪的原始读数,d当前表示机器人与目标位置当前的距离, d先前表示机器人与目标位置前一时间步的距离。本实例中c1、c2、d碰撞和d达到的取值分别为-0.1,-0.004,0.5和0.5;
奖励函数将指导移动机器人选择动作策略,组成新的经验数据元组来训练模型,并采取梯度下降法来更新网络参数;
本实施例中Critic网络的损失函数为:
Figure BDA0002778821690000052
其中st为当前输入状态,st+1为下一步输入状态,at为当前动作,γ为奖励折扣因子,N为随机噪声过程,防止动作探索陷入局部最小。
通过梯度下降法最小化损失函数,更新Critic网络参数;
Actor网络通过采样策略梯度来更新:
Figure BDA0002778821690000053
步骤S304,DDPG算法学习到的移动机器人探索经验将储存到在线经验池 Eon中,对于离线和在线两个经验回放池里的经验,可以分别给定一个用(Φ,∑) 参数化的多变量高斯分布Pon和Poff,其中Φ是平均向量,∑是多变量的协方差矩阵。然后针对状态和动作的联合概率Pon和Poff,用Kullback-Leibler散度DKL(Pon丨Poff)计算它们之间的相似性,并与相似性阈值ξ作比较,过滤掉过度探索经验,仅存储优质探索经验,当经验池满的时候,按照相似性指标DKL(Pon丨Poff)可对探索到的经验进行排序,相似性较低的经验退出离线经验回放池以保持经验池总长度不变。具体流程如图4所示,本实施例中的ξ取值为2000;
步骤S305,训练过程中朝着累计奖励值最大的方向训练移动机器人,当累计奖励值较高时,保留此时的网络模型参数作为最终的训练结果。
步骤S400,利用训练好的模型实现导航任务。
步骤S401,在Gazebo仿真环境中通过给定目标点,将训练好的决策模型作为导航控制器,在每一个时间步接收扫描激光测距仪的距离数据,输出角速度与线速度指令来控制移动机器人的运动。实验结果如图5所示,由此可知该方法可以成功地在位置环境中控制移动机器人实现无地图导航;
步骤S402,为了验证该学习框架的有效性,且仿真实验中利用urdf文件实现的移动机器人模型与传感器数据与真实实物差异较小,因此忽略在移植过程中产生的真实误差,将仿真训练好的模型迁移到实际的硬件平台上,结合扫描激光测距仪和Husky移动机器人系统组成完整的导航控制系统完成了导航任务。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于模仿学习及深度强化学习的移动机器人导航方法,其特征在于,包括如下步骤:
步骤1,建立移动机器人的环境模型;
步骤2,构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用耦合的导航框架对移动机器人模型进行训练;
步骤3,利用训练好的模型实现导航任务。
2.根据权利要求1所述的方法,其特征在于,步骤1具体包括:
步骤1.1,布置训练环境场地及障碍物,移动机器人通过与环境交互来学习无地图导航策略;
步骤1.2,编写移动机器人模型,设置运动控制方式,添加扫描激光测距仪用于感知环境,设置扫描激光测距仪的传感器类型、扫描精度、以及检测范围。
3.根据权利要求1所述的方法,其特征在于,步骤2具体包括:
步骤2.1,获取人类的演示经验并存储到离线经验回放池,再利用模仿学习算法学习人类的演示经验并保存为先验知识模型;
步骤2.2,采用DDPG算法作为是年度强化学习模型,利用模仿学习的先验知识模型和离线经验回放池作为DDPG算法的初始化,使用Actor-Critic框架的神经网络来对Q函数和确定性策略a进行近似拟合并更新网络参数;
步骤2.3,利用人类演示经验初始化深度强化学习的经验回放池,深度强化学习网络预先训练N次,再与环境交互;
步骤2.4,移动机器人与环境的交互采取回合制;
步骤2.5,在移动机器人与环境交互的过程中,每一步运动后,DDPG模型从环境中得到反馈奖励,奖励信号的公式为:
Figure FDA0002778821680000011
其中,c1、c2为常数,d碰撞为最小碰撞距离,d达到为达到目标点的最小距离,d读取表示扫描激光测距仪的原始读数,d当前表示机器人与目标位置当前的距离,d先前表示机器人与目标位置前一时间步的距离;奖励值将指导移动机器人选择动作策略,组成新的经验数据元组来训练模型,并采取梯度下降法来更新网络参数;
步骤2.6,DDPG算法学习到的移动机器人探索经验将储存到在线经验池,通过计算其与离线经验的相似性对探索经验进行筛选,过滤掉过度探索经验,仅存储优质探索经验,当经验池满的时候,按照经验质量依次覆盖掉旧经验来保证模型的收敛性;
步骤2.7,训练过程中朝着累计奖励值最大的方向训练移动机器人,将累计奖励值较高时,保留此时的网络模型参数作为最终的训练结果。
4.根据权利要求1所述的方法,其特征在于,所述步骤3具体包括如下步骤:
步骤3.1,在Gazebo仿真环境中通过给定目标点,将训练好的决策模型作为导航控制器,在每一个时间步接收扫描激光测距仪的距离数据,输出角速度与线速度指令来控制移动机器人的运动;
步骤3.2,为了验证该学习框架的有效性,我们将仿真训练的模型移植到实际的硬件平台上,结合扫描激光测距仪和Husky移动机器人系统组成完整的导航控制系统完成了导航任务。
CN202011275117.2A 2020-11-16 2020-11-16 基于模仿学习及深度强化学习的移动机器人导航方法 Pending CN112433525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011275117.2A CN112433525A (zh) 2020-11-16 2020-11-16 基于模仿学习及深度强化学习的移动机器人导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011275117.2A CN112433525A (zh) 2020-11-16 2020-11-16 基于模仿学习及深度强化学习的移动机器人导航方法

Publications (1)

Publication Number Publication Date
CN112433525A true CN112433525A (zh) 2021-03-02

Family

ID=74700091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011275117.2A Pending CN112433525A (zh) 2020-11-16 2020-11-16 基于模仿学习及深度强化学习的移动机器人导航方法

Country Status (1)

Country Link
CN (1) CN112433525A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111830971A (zh) * 2020-06-15 2020-10-27 中山大学 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法
CN113255143A (zh) * 2021-06-02 2021-08-13 南京航空航天大学 一种分布式混合电推进飞行器能量管理系统
CN113408641A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 资源生成模型的训练与服务资源的生成方法、装置
CN113406957A (zh) * 2021-05-19 2021-09-17 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113642243A (zh) * 2021-08-23 2021-11-12 香港中文大学(深圳) 多机器人的深度强化学习系统、训练方法、设备及介质
CN113843802A (zh) * 2021-10-18 2021-12-28 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN113967909A (zh) * 2021-09-13 2022-01-25 中国人民解放军军事科学院国防科技创新研究院 基于方向奖励的机械臂智能控制方法
CN114217524A (zh) * 2021-11-18 2022-03-22 国网天津市电力公司电力科学研究院 一种基于深度强化学习的电网实时自适应决策方法
CN114396949A (zh) * 2022-01-18 2022-04-26 重庆邮电大学 一种基于ddpg的移动机器人无先验地图导航决策方法
CN114526738A (zh) * 2022-01-25 2022-05-24 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN114800515A (zh) * 2022-05-12 2022-07-29 四川大学 一种基于演示轨迹的机器人装配运动规划方法
CN114905505A (zh) * 2022-04-13 2022-08-16 南京邮电大学 一种移动机器人的导航控制方法、系统及存储介质
CN115113618A (zh) * 2021-03-23 2022-09-27 华东师范大学 Agv小车深度视觉导航控制系统以及控制方法
CN116824303A (zh) * 2023-07-06 2023-09-29 哈尔滨工业大学 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109835375A (zh) * 2019-01-29 2019-06-04 中国铁道科学研究院集团有限公司通信信号研究所 基于人工智能技术的高速铁路列车自动驾驶系统
CN110045740A (zh) * 2019-05-15 2019-07-23 长春师范大学 一种基于人类行为模拟的移动机器人实时运动规划方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110926470A (zh) * 2019-09-25 2020-03-27 吉林大学珠海学院 一种agv导航控制方法及系统
US20200348664A1 (en) * 2020-07-22 2020-11-05 Intel Corporation Mobile communication terminal device operation of robot terminal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109835375A (zh) * 2019-01-29 2019-06-04 中国铁道科学研究院集团有限公司通信信号研究所 基于人工智能技术的高速铁路列车自动驾驶系统
CN110045740A (zh) * 2019-05-15 2019-07-23 长春师范大学 一种基于人类行为模拟的移动机器人实时运动规划方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110926470A (zh) * 2019-09-25 2020-03-27 吉林大学珠海学院 一种agv导航控制方法及系统
US20200348664A1 (en) * 2020-07-22 2020-11-05 Intel Corporation Mobile communication terminal device operation of robot terminal

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111830971A (zh) * 2020-06-15 2020-10-27 中山大学 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法
CN115113618A (zh) * 2021-03-23 2022-09-27 华东师范大学 Agv小车深度视觉导航控制系统以及控制方法
CN113406957B (zh) * 2021-05-19 2022-07-08 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113406957A (zh) * 2021-05-19 2021-09-17 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113255143A (zh) * 2021-06-02 2021-08-13 南京航空航天大学 一种分布式混合电推进飞行器能量管理系统
CN113255143B (zh) * 2021-06-02 2021-11-16 南京航空航天大学 一种分布式混合电推进飞行器能量管理系统
CN113408641A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 资源生成模型的训练与服务资源的生成方法、装置
CN113408641B (zh) * 2021-06-30 2024-04-26 北京百度网讯科技有限公司 资源生成模型的训练与服务资源的生成方法、装置
CN113642243A (zh) * 2021-08-23 2021-11-12 香港中文大学(深圳) 多机器人的深度强化学习系统、训练方法、设备及介质
CN113967909A (zh) * 2021-09-13 2022-01-25 中国人民解放军军事科学院国防科技创新研究院 基于方向奖励的机械臂智能控制方法
CN113843802B (zh) * 2021-10-18 2023-09-05 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN113843802A (zh) * 2021-10-18 2021-12-28 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN114217524B (zh) * 2021-11-18 2024-03-19 国网天津市电力公司电力科学研究院 一种基于深度强化学习的电网实时自适应决策方法
CN114217524A (zh) * 2021-11-18 2022-03-22 国网天津市电力公司电力科学研究院 一种基于深度强化学习的电网实时自适应决策方法
CN114396949A (zh) * 2022-01-18 2022-04-26 重庆邮电大学 一种基于ddpg的移动机器人无先验地图导航决策方法
CN114396949B (zh) * 2022-01-18 2023-11-10 重庆邮电大学 一种基于ddpg的移动机器人无先验地图导航决策方法
CN114526738B (zh) * 2022-01-25 2023-06-16 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置
CN114526738A (zh) * 2022-01-25 2022-05-24 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置
CN114905505A (zh) * 2022-04-13 2022-08-16 南京邮电大学 一种移动机器人的导航控制方法、系统及存储介质
CN114905505B (zh) * 2022-04-13 2024-04-19 南京邮电大学 一种移动机器人的导航控制方法、系统及存储介质
CN114800515A (zh) * 2022-05-12 2022-07-29 四川大学 一种基于演示轨迹的机器人装配运动规划方法
CN114800515B (zh) * 2022-05-12 2024-08-02 四川大学 一种基于演示轨迹的机器人装配运动规划方法
CN114779792B (zh) * 2022-06-20 2022-09-09 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN116824303A (zh) * 2023-07-06 2023-09-29 哈尔滨工业大学 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法
CN116824303B (zh) * 2023-07-06 2024-01-26 哈尔滨工业大学 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法

Similar Documents

Publication Publication Date Title
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN111061277B (zh) 一种无人车全局路径规划方法和装置
CN110989576B (zh) 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
Liu et al. A lifelong learning approach to mobile robot navigation
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN112162555A (zh) 混合车队中基于强化学习控制策略的车辆控制方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN115469663B (zh) 面向自动驾驶的基于深度强化学习的端到端导航避障方法
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN114396949B (zh) 一种基于ddpg的移动机器人无先验地图导航决策方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
CN114089776A (zh) 一种基于深度强化学习的无人机避障方法
CN115542733A (zh) 基于深度强化学习的自适应动态窗口法
Quek et al. Deep Q‐network implementation for simulated autonomous vehicle control
CN117908565A (zh) 基于最大熵多智能体强化学习的无人机安全路径规划方法
CN117873092A (zh) 一种基于生物神经策略的移动机器人动态避障方法
Xu et al. Automated labeling for robotic autonomous navigation through multi-sensory semi-supervised learning on big data
CN117872800A (zh) 一种基于离散状态空间下强化学习的决策规划方法
CN113110101A (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN117553798A (zh) 复杂人群场景中移动机器人的安全导航方法、设备及介质
CN117371895A (zh) 未知环境下多地面无人车路径规划方法、系统及介质
CN117109574A (zh) 一种农用运输机械覆盖路径规划方法
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
Albilani et al. Dynamic Adjustment of Reward Function for Proximal Policy Optimization with Imitation Learning: Application to Automated Parking Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210302

WD01 Invention patent application deemed withdrawn after publication