CN112433525A

CN112433525A - 基于模仿学习及深度强化学习的移动机器人导航方法

Info

Publication number: CN112433525A
Application number: CN202011275117.2A
Authority: CN
Inventors: 陈飞; 王海梅; 朱倩梅
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-02

Abstract

本发明提供了一种基于模仿学习及深度强化学习的移动机器人导航方法包括如下步骤：步骤1，建立移动机器人的环境模型；步骤2，构建基于模仿学习及深度强化学习算法耦合的导航控制框架，利用耦合的导航框架对移动机器人模型进行训练；步骤3，利用训练好的模型实现导航任务。

Description

基于模仿学习及深度强化学习的移动机器人导航方法

技术领域

本发明涉及一种移动机器人导航技术，特别是一种基于模仿学习及深度强化学习的移动机器人导航方法。

背景技术

随着移动机器人技术的飞速发展，越来越多的移动机器人进入人们的生活、服务和生产领域。在机器人应用中，导航起着重要的作用，为进一步执行其他任务奠定了基础。传统导航框架主要由感知模块、地图模块和规划模块组成，但是在选择环境代表性特征值中的工程量、特征计算和规划过程中的计算复杂度以及维护地图所需要的大量存储资源和传输带宽都进一步限制了传统导航方式的应用。

机器学习在决策问题上取得了巨大的成功，将机器学习应用到机器人领域得到了广泛关注。近年来许多基于学习的导航方法被提出，其中包括模仿学习和强化学习，但每种方法都存在一定的弊端。模仿学习需要大量的成功示范来完成学习任务，训练的性能无法超越示范经验，且示范经验也不一定总是最优的；强化学习方法由于其初始探索过程中的随机性和稀疏奖励，导致需要大量的时间来与环境进行交互，并且在探索过程中的某些过度探索经验被学习会导致学习效率和性能的下降。

发明内容

本发明的目的在于提供一种基于模仿学习及深度强化学习的移动机器人导航方法，包括如下步骤：

步骤1，建立移动机器人的环境模型；

步骤2，构建基于模仿学习及深度强化学习算法耦合的导航控制框架，利用耦合的导航框架对移动机器人模型进行训练；

步骤3，利用训练好的模型实现导航任务。

进一步地，步骤1具体包括：

步骤1.1，布置训练环境场地及障碍物，移动机器人通过与环境交互来学习无地图导航策略；

步骤1.2，编写移动机器人模型，设置运动控制方式，添加扫描激光测距仪用于感知环境，设置扫描激光测距仪的传感器类型、扫描精度、以及检测范围。

进一步地，步骤2具体包括：

步骤2.1，获取人类的演示经验并存储到离线经验回放池，再利用模仿学习算法学习人类的演示经验并保存为先验知识模型；

步骤2.2，采用DDPG算法作为是年度强化学习模型，利用模仿学习的先验知识模型和离线经验回放池作为DDPG算法的初始化，使用Actor-Critic框架的神经网络来对Q函数和确定性策略a进行近似拟合并更新网络参数；

步骤2.3，利用人类演示经验初始化深度强化学习的经验回放池，深度强化学习网络预先训练N次，再与环境交互；

步骤2.4，移动机器人与环境的交互采取回合制；

步骤2.5，在移动机器人与环境交互的过程中，每一步运动后，DDPG模型从环境中得到反馈奖励，奖励信号的公式为：

其中，c₁、c₂为常数，d_碰撞为最小碰撞距离，d_达到为达到目标点的最小距离， d_读取表示扫描激光测距仪的原始读数，d_当前表示机器人与目标位置当前的距离， d_先前表示机器人与目标位置前一时间步的距离；奖励值将指导移动机器人选择动作策略，组成新的经验数据元组来训练模型，并采取梯度下降法来更新网络参数；

步骤2.6，DDPG算法学习到的移动机器人探索经验将储存到在线经验池，通过计算其与离线经验的相似性对探索经验进行筛选，过滤掉过度探索经验，仅存储优质探索经验，当经验池满的时候，按照经验质量依次覆盖掉旧经验来保证模型的收敛性；

步骤2.7，训练过程中朝着累计奖励值最大的方向训练移动机器人，将累计奖励值较高时，保留此时的网络模型参数作为最终的训练结果。

进一步地，所述步骤3具体包括如下步骤：

步骤3.1，在Gazebo仿真环境中通过给定目标点，将训练好的决策模型作为导航控制器，在每一个时间步接收扫描激光测距仪的距离数据，输出角速度与线速度指令来控制移动机器人的运动；

步骤3.2，为了验证该学习框架的有效性，我们将仿真训练的模型移植到实际的硬件平台上，结合扫描激光测距仪和Husky移动机器人系统组成完整的导航控制系统完成了导航任务。

本发明与现有技术相比，具有以下优点：(1)相比现有的传统导航方法及基于学习的导航控制方法，本发明提出的控制框架基于模仿学习及深度强化学习的耦合实现导航控制，能够利用较少的数据集学习到较好的控制策略，减少对于数据集的依赖；(2)利用近似最优策略，人类演示经验作为深度强化学习框架的基线，过滤掉移动机器人与环境交互中产生的过度探索经验，将更好的经验存储到经验回放池中，进一步提高学习效率。

下面结合说明书附图对本发明作发明作进一步描述。

附图说明

图1为本发明方法流程图；

图2为本发明方法构建的模仿学习-深度强化学习耦合导航控制框架；

图3为本发明方法中Actor-Critic神经网络框架图；

图4为本发明方法的经验回放池更新流程图；

图5为本发明方法在仿真环境中的导航结果示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请进行进一步详细说明。本发明实施例提供一种基于模仿学习与深度强化学习耦合框架的移动机器人无图导航方法，如图1所示，其主要包括如下步骤：

步骤S100建立移动机器人和环境模型，初始化移动机器人和扫描激光测距仪，并设置参数；

步骤S101，利用Ubuntu kinetic操作系统，ROS操作平台及其集成的动力学仿真软件Gazebo作为仿真训练环境，布置训练环境场地为20×20m的正方形区域，障碍物为规则放置的圆柱形柱子，移动机器人在正方形区域内通过与环境交互来学习无地图导航策略；

步骤S102，利用urdf文件编写移动机器人模型，尺寸为990*670mm，前后共四轮，最大前进速度为1m/s，驱动方式为二轮差分驱动；添加扫描激光测距仪用于感知环境信息，激光测距仪的扫描范围为270°，扫描精度为0.25°，探测范围为100-30000mm。

步骤S200，构建基于模仿学习及深度强化学习算法耦合的导航控制框架。

步骤S201，如图2所示，基于模仿学习和深度强化学习提出一种耦合算法。如图2上半部分所示，在模仿学习模块，专家对移动机器人进行操作，提供最优化的演示经验，存储到离线经验回放池，模仿学习算法将学习演示经验，保存为先验知识模型；

步骤S202，如图2下半部分所示，本发明所使用的深度强化学习算法为 DDPG算法，基于Actor-Critic架构实现导航控制，本实例所设计的Actor-Critic 网络如图3所示，Actor网络的输入为状态，状态空间为

其中，l，x，y，yaω是二维测距，位置和方位信息的简称，i是指示信号，下标r代表移动机器人，上标d代表的是期望目标(目标位置)，下标t表示当前的时间步。移动机器人的导航控制命令是线速度v_x和角速度ω_x，由于物理平台的限制，对速度输出有一个界限，v_x在(0.0， 1.0)m/s内，ω_x在(-1.0，1.0)rad/s内，用Actor网络的sigmoid()和tanh()激活函数来实现输出。

Actor和Critic网络均使用三层全连接层实现，层间激活函数为ReLU函数，利用神经网络来近似拟合Q(s,aω)函数和确定性策略a＝μ(s；θ)，并使用梯度下降法来更新网络参数。

步骤S300，利用耦合的导航框架对移动机器人模型进行训练；

步骤S301，在训练过程中，根据Actor-Critic神经网络的结构，只需向移动机器人提供5条人类演示的成功导航轨迹，通过模仿学习将人类演示经验存储到离线经验回放池E_off中；

用离线经验回放池初始化深度强化学习网络，先预先训练m次，再应用于与环境交互，在探索中产生新的经验；

步骤S302，移动机器人与环境的交互采取回合制，本实施例中，在每一幕开始时，移动机器人初始位置都是固定的，目标位置也固定，当移动机器人在移动过程中成功到达目标位置、与障碍发生碰撞或超出1000步仍未到达目标位置，则认定该幕结束；

步骤S303，在移动机器人与环境交互的过程中，每一步运动后，DDPG模型从环境中得到反馈奖励，奖励信号的公式为：

其中，c₁、c₂为常数，d_碰撞为最小碰撞距离，d_达到为达到目标点的最小距离， d_读取表示扫描激光测距仪的原始读数，d_当前表示机器人与目标位置当前的距离， d_先前表示机器人与目标位置前一时间步的距离。本实例中c₁、c₂、d_碰撞和d_达到的取值分别为-0.1，-0.004，0.5和0.5；

奖励函数将指导移动机器人选择动作策略，组成新的经验数据元组来训练模型，并采取梯度下降法来更新网络参数；

本实施例中Critic网络的损失函数为：

其中s_t为当前输入状态，s_t+1为下一步输入状态，a_t为当前动作，γ为奖励折扣因子，N为随机噪声过程，防止动作探索陷入局部最小。

通过梯度下降法最小化损失函数，更新Critic网络参数；

Actor网络通过采样策略梯度来更新：

步骤S304，DDPG算法学习到的移动机器人探索经验将储存到在线经验池 E_on中，对于离线和在线两个经验回放池里的经验，可以分别给定一个用(Φ，∑) 参数化的多变量高斯分布P_on和P_off，其中Φ是平均向量，∑是多变量的协方差矩阵。然后针对状态和动作的联合概率P_on和P_off，用Kullback-Leibler散度D_KL(P_on丨P_off)计算它们之间的相似性，并与相似性阈值ξ作比较，过滤掉过度探索经验，仅存储优质探索经验，当经验池满的时候，按照相似性指标D_KL(P_on丨P_off)可对探索到的经验进行排序，相似性较低的经验退出离线经验回放池以保持经验池总长度不变。具体流程如图4所示，本实施例中的ξ取值为2000；

步骤S305，训练过程中朝着累计奖励值最大的方向训练移动机器人，当累计奖励值较高时，保留此时的网络模型参数作为最终的训练结果。

步骤S400，利用训练好的模型实现导航任务。

步骤S401，在Gazebo仿真环境中通过给定目标点，将训练好的决策模型作为导航控制器，在每一个时间步接收扫描激光测距仪的距离数据，输出角速度与线速度指令来控制移动机器人的运动。实验结果如图5所示，由此可知该方法可以成功地在位置环境中控制移动机器人实现无地图导航；

步骤S402，为了验证该学习框架的有效性，且仿真实验中利用urdf文件实现的移动机器人模型与传感器数据与真实实物差异较小，因此忽略在移植过程中产生的真实误差，将仿真训练好的模型迁移到实际的硬件平台上，结合扫描激光测距仪和Husky移动机器人系统组成完整的导航控制系统完成了导航任务。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于模仿学习及深度强化学习的移动机器人导航方法，其特征在于，包括如下步骤：

步骤1，建立移动机器人的环境模型；

步骤3，利用训练好的模型实现导航任务。

2.根据权利要求1所述的方法，其特征在于，步骤1具体包括：

3.根据权利要求1所述的方法，其特征在于，步骤2具体包括：

步骤2.4，移动机器人与环境的交互采取回合制；

其中，c₁、c₂为常数，d_碰撞为最小碰撞距离，d_达到为达到目标点的最小距离，d_读取表示扫描激光测距仪的原始读数，d_当前表示机器人与目标位置当前的距离，d_先前表示机器人与目标位置前一时间步的距离；奖励值将指导移动机器人选择动作策略，组成新的经验数据元组来训练模型，并采取梯度下降法来更新网络参数；

4.根据权利要求1所述的方法，其特征在于，所述步骤3具体包括如下步骤：