CN111506063A

CN111506063A - 一种基于分层强化学习框架的移动机器人无图导航方法

Info

Publication number: CN111506063A
Application number: CN202010283116.6A
Authority: CN
Inventors: 李骜; 王童; 王明会
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-07
Anticipated expiration: 2040-04-13
Also published as: CN111506063B

Abstract

本发明提出一种基于分层强化学习框架的移动机器人无图导航方法，包括如下步骤：步骤1、配置交互式训练环境，设置移动机器人参数；步骤2、构建基于分层强化学习模型的导航控制框架；步骤3、采用联合辅助训练方案对网络模型进行训练；步骤4、利用训练好的模型实现导航任务。相比现有基于深度强化学习的分层控制方法，本发明提出的控制框架通过高层决策自动调控不同低层决策输出行为策略来实现导航控制；在模型训练过程中采用联合辅助训练方案，提升低层避障模型性能的同时又加速高层模型收敛，使得模型更适用于未知复杂环境，提高了无图导航性能。

Description

一种基于分层强化学习框架的移动机器人无图导航方法

技术领域

本发明涉及一种基于分层强化学习框架的移动机器人无图导航方法，属于机器人导航控制领域。

背景技术

导航是指通过实时规划运动方向，实现引导移动机器人无碰撞地移动到目标位置的技术，是移动机器人最基本功能之一，也是机器人控制领域核心研究内容之一。传统导航方法依赖全局高精度地图，计算效率也会随着环境复杂性的增加急剧降低，给移动机器人在复杂环境中顺利完成导航任务带来了困难。基于深度强化学习(Deep ReinforcementLearning，DRL)的无图导航方法通过感知环境进行局部运动规划，受环境复杂程度影响较小，具有较强的适应能力。

DRL无图导航方法的基本框架均是将传感器数据作为状态信息输入到DRL网络模型中，输出控制动作对机器人进行移动控制。为了得到导航控制策略，决策模型在训练过程中要学习避障与接近目标位置两种行为策略相结合的复杂移动策略。由于这两种基础行为策略结合后的奖励函数难以设计，直接学习导航策略具有较高的难度，从而导致模型在复杂环境中难以收敛。

分层导航控制框架的方法则是将导航动作决策过程分解为高层次与低层次两种决策过程，其中低层决策包含两种低级行为策略，分别用于实现避障与接近目标位置两种子任务，而高层决策用于调控低层决策的行为策略输出，由此影响机器人最终的运动策略。由于不同子任务由不同决策模型独立实现，并在高层决策的调控下间接实现导航控制，从而降低了单个决策模型直接学习导航策略的难度。但现有方法中，高层决策过程均是通过手动设计的控制器来实现，难以保证较高的成功率来应对复杂任务环境。除此之外，由于子任务与主(导航)任务在任务奖励上不完全一致，使用固定的预先训练的低层行为策略而不进行进一步的调整，无法完美适用于最终的导航任务，从而影响导航控制的性能。

发明内容

本发明的目的是为了解决移动机器人难以在复杂未知环境下进行无图导航的问题，提供了一种基于分层强化学习控制框架，可以自动将高层策略与低层策略结合起来实现主任务的无图导航方法，提高移动机器人在复杂环境下的导航性能。

本发明提出的技术方案如下：一种基于分层强化学习框架的移动机器人无图导航方法，包括如下步骤：

步骤1、配置交互式训练环境，设置移动机器人参数；

步骤2、构建基于分层强化学习模型的导航控制框架；

步骤3、采用联合辅助训练方案对网络模型进行训练；

步骤4、利用训练好的模型实现导航任务。

进一步的，所述步骤1具体包括如下步骤：

1.1)移动机器人通过与环境交互的方式学习无图导航策略，采用Stage二维模拟器作为训练环境，调整训练环境中的障碍物布局，增加导航难度；

1.2)在模拟器中设置移动机器人的运动方式，添加激光雷达传感器用于感知环境，并设置激光雷达的传感器类型、扫描精度、以及检测范围。

进一步的，所述步骤2具体包括如下步骤：

2.1)基于分层强化学习搭建一种包含高层次与低层次的决策模型，低层决策模型由低层DRL模型与朝向控制器两个部分组成，其中低层DRL模型用于实现避障策略，朝向控制器用于实现目标接近策略，且两者输出的动作均能够对机器人运动进行直接控制；高层决策模型仅由一种高层DRL模型构成，用于选择不同的低层行为策略作为每一步移动的实际控制策略；

所述高层DRL模型与低层DRL模型均采用Dueling-DDQN算法实现，朝向控制器由手动设计实现，根据机器人的相对偏转方向来输出与之相反的控制动作，使得移动机器人的朝向始终趋向于目标点方向；

2.2)实时采集到的传感器数据经过预处理与融合操作后用于输入到不同决策模型中，其中激光雷达扫描数据作为低层DRL模型的输入状态s_l；目标点的相对坐标[x,y]作为朝向控制器的输入；机器人的移动线速度和角速度[ν,ω]再与[x,y]、s_l进行拼接作为高层DRL模型的状态输入s_h；

2.3)对于移动机器人的每一步运动，首先高层决策模型根据当前状态s_h选择两种低层行为策略之一作为最终的控制策略，然后激活相应的低层决策模型输出控制动作，使得移动机器人以相应的行为策略进行移动；为减小移动机器人在行进过程中由于频繁切换行为策略造成的抖动，不同低层行为策略执行动作的持续时间不同。

进一步的，所述步骤3具体包括如下步骤：

3.1)移动机器人与环境的交互采用回合制；

3.2)在移动机器人与环境交互的过程中，每一步运动后，两种决策模型都将分别从环境中得到各自的反馈奖励，高层模型与低层模型计算奖励的公式分别为：

其中，η、ε、β和δ为常数，DistObstacle为最小障碍物距离，DistGoal为到目标位置的直线距离，v为线速度大小，P_time为时间惩罚项，P_crash为碰撞惩罚项，P_success为任务完成奖励；

这些奖励值分别用于组成各自的经验数据来训练模型，并采用不同时间尺度的更新方式对两种DRL模型的网络参数分别进行更新；

3.3)在训练初期，联合训练辅助器代替高层决策模型进行决策，完成对低层行为策略的选择，并激活相应的低层决策模型控制机器人移动；与环境交互产生的经验数据同样用于更新高层DRL模型，辅助器的决策过程表示为：

其中，a_h为输出的选择动作，0代表选择避障策略，1代表选择接近策略，D为目标方向左右15°范围内的最小障碍物距离，DistGoal为到目标位置的直线距离；

3.4)训练过程中计算每一回合的累积奖励，当累积奖励稳定在预定值以上时，保留此时的网络模型参数作为最终的训练结果。

进一步的，所述步骤4具体包括如下步骤：

4.1)在模拟器环境中通过随机生成坐标点设置移动机器人的起始位置与导航目标点位置，将训练好的决策模型作为导航控制器，在每一时间步接收传感器数据，输出角速度与线速度指令来控制移动机器人的运动；

4.2)将在模拟器中训练好的导航控制模型迁移到真实机器人上使用，结合传感器系统与机器人底座驱动系统组成完整的导航控制系统进行导航。

本发明的有益效果是：

相比现有基于深度强化学习的分层控制方法，本发明提出的控制框架基于分层强化学习，使得高层决策能够自动调控不同低层决策的控制执行顺序，并且输出不同时间尺度的行为策略来实现导航控制；另外，在模型训练阶段采用联合辅助训练方案，提升低层避障模型性能的同时又加速高层模型收敛，使得模型更适用于未知复杂环境，提高了无图导航性能。

附图说明

图1为本发明方法流程图；

图2为本发明方法构建的分层控制框架的结构示意图；

图3为本发明方法的导航控制实现流程图；

图4为本发明方法在虚拟复杂环境中的导航结果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本发明实施例提供一种基于分层强化学习框架的移动机器人无图导航方法，如图1所示，其主要包括如下步骤：

步骤1、配置交互式训练环境，设置移动机器人参数。

1.1)移动机器人通过与环境交互的方式学习无图导航策略，采用Stage二维模拟器作为训练环境，调整训练环境中的障碍物布局，如包含长走廊、死角与大凹形区域等结构，使其具有较高的导航难度；

1.2)在模拟器中设置移动机器人的运动方式为二轮差速式，并添加单线激光雷达传感器用于感知环境，本实施例中，激光雷达的水平扫描范围设置为240°，扫描精度为1°，距离检测范围为0.05～5.6米。

步骤2、构建基于分层强化学习模型的导航控制框架。

2.1)如图2所示，基于分层强化学习搭建一种包含高层次(high level)与低层次(low level)的决策模型，低层决策模型由低层深度强化学习(DRL)模型与朝向控制器(orientation controller)两个部分组成，其中低层DRL模型用于实现避障策略，朝向控制器用于实现目标接近策略，且两者输出的动作均可对机器人运动进行直接控制；高层决策模型仅由一种高层DRL模型构成，主要用于选择不同的低层行为策略作为每一步移动的实际控制策略；

如图2左半部分内容所示，高层DRL模型基于Dueling-DDQN算法，模型网络结构包括1层参数共享的全连接层、2层参数不共享的全连接层，输出层长度为2，对应两种低层行为策略的选择动作；

如图2右半部分内容所示，上方的低层DRL模型同样基于Dueling-DDQN算法，模型网络结构包括1层参数共享的全连接层、2层参数不共享的全连接层，输出层长度为7，对应7种移动(线速度m/s、角速度rad/s)控制动作，在本实施例中分别为[0.2,0.79]，[0.4,0.63]，[0.4,0.35]，[0.4,0.0]，[0.4,-0.35]，[0.4,-0.63]，[0.2,-0.79]。下方的朝向控制器参数直接由手动进行设定，具体实现过程包括以下操作：根据目标点相对坐标，计算出移动机器人当前朝向相对于目标点方向的累积偏转角度θ，并通过设定阈值对θ进行限定，公式表示为：

限定后的取值范围[-1.5π,1.5π]划分为7个区间，分别对应与低层DRL模型相同的7种控制动作，θ所在区间对应的动作即为朝向控制器输出的控制动作，采用该动作进行移动控制能够减小θ，从而使得移动机器人始终趋向于目标点方向移动；

2.2)实时采集到的传感器数据经过处理后作为决策模型的输入状态，本实施例中操作如下：首先对采集到的每一帧原始激光雷达扫描数据进行均匀采样、添加高斯噪声、归一化处理，得到长度为40的一维序列，然后再与其他模态的传感器数据进行融合操作，用于输入到不同决策模型中。其中连续三帧处理后的激光雷达扫描数据平展(flatten)成120维的向量作为低层DRL模型的输入状态s_l；目标点的相对坐标[x,y]作为朝向控制器的输入；机器人的运动线速度和角速度[ν,ω]再与[x,y]、s_l进行拼接(merge)得到124维的向量，作为高层DRL模型的状态输入s_h；

2.3)移动机器人的控制频率设为5Hz，对于每一步的移动控制，实现过程如下：首先高层决策模型输入状态s_h，得到对两种低层行为策略估计的优势值，然后选择优势值较高的低层行为策略，并激活相应的低层决策模型输出控制动作，即线速度与角速度控制指令，紧接着移动机器人以相应的行为策略(避障或接近目标)进行移动，最终通过两种层次的模型的联合实现导航控制；

特别地，高层模型每次完成决策后，根据被激活的低层行为策略的种类，确定下一次高层决策时刻到来时是否更新高层决策的选择动作，具体流程如图3所示，目标接近策略每次被激活后只进行单步控制，该步动作执行结束后，高层模型继续根据当前状态s_h选择性激活行为策略；避障策略每次被激活后则进行连续5步控制，即5步之内高层模型不进行新的决策，移动控制策略依然保持为避障策略，5步移动完成之后，高层模型再继续根据s_h选择下一步的行为策略。

步骤3、采用联合辅助训练方案对网络模型进行训练。

3.1)移动机器人与环境的交互采用回合制，本实施例中，在每一回合开始时，移动机器人的初始姿态与目标位置在一定区域内随机设置；当机器人在移动过程中成功到达目标位置、与障碍发生碰撞或超出300步仍未到达目标位置，该回合结束；

3.2)在移动机器人与环境交互的过程中，每一步运动后，两种决策模型都将分别从环境中得到反馈奖励，高层模型与低层模型计算奖励的公式分别为：

其中，η、ε、β和δ为常数，DistObstacle为最小障碍物距离，DistGoal为到目标位置的直线距离，v为线速度大小，P_time为时间惩罚项，P_crash为碰撞惩罚项，P_success为任务完成奖励；本实施例中，η、ε、β和δ取值分别为0.04、0.2、0.01和-0.01，P_time、P_crash和P_success取值分别为-0.02、-10和10；

高层模型的奖励r_h通过结合当前步的选择动作a_h与始末经历的两种状态s_h、s_h'组成了本次交互产生的经验数据[s_h,a_h,s_h',r_h]，并储存到高层经验库中用于更新高层DRL模型的参数；类似的，低层决策模型有[s_l,a_l,s_l',r_l]储存到低层经验库中，特别地，低层经验库中的交互经验是在导航任务下通过两种行为策略产生的，将其全部用于更新低层DRL模型的参数，使得学习到的避障策略更适合导航任务；

采用不同时间尺度的更新方式对两种DRL模型的网络参数分别进行更新；

本实施例中，用于更新网络参数的公式为：

其中，s_t为当前输入状态，s_t+k为第k步的输入状态，a_t为当前动作，a_t+k为第k步的动作，r_t+τ为第τ步的奖励，Q为状态-动作对的价值估计，α为学习率，γ为奖励折扣因子，k为时间尺度，特别的，当用于更新高层DRL决策模型时，k取值为5；当用于更新低层DRL决策模型时，k取值为1；

3.3)在训练初期，联合训练辅助器代替高层决策模型进行决策，完成对低层行为策略的选择并激活相应的低层决策模型，控制机器人移动与环境进行交互，交互产生的经验数据同样存入高层经验库中，用于更新高层DRL模型，辅助器公式如下：

3.4)训练过程中计算每一回合的累积奖励，当累积奖励稳定在8以上时，保留此时的网络模型参数作为最终的训练结果。

步骤4、利用训练好的模型实现导航任务。

4.1)在虚拟环境中通过随机生成坐标点设置移动机器人的起始位置与导航目标点位置，将训练好的决策模型作为导航控制器，在每一时间步接收传感器数据，输出角速度与线速度指令来控制移动机器人的运动。实现结果如图4所示，图中三角形为机器人起始点，五角星为导航目标位置，之间的曲线为机器人移动轨迹，由此可知该方法可以避免陷入局部极小等复杂区域，成功地在复杂环境中控制移动机器人实现无图导航；

4.2)模拟器中仿真的激光雷达数据与真实激光雷达传感器所采集到的数据差异较小，因此忽略输入状态在分布上的差异，直接将在模拟器中训练好的导航控制模型迁移到真实机器人上使用，结合传感器系统与机器人底座驱动系统组成完整的导航控制系统，从而进行导航。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于分层强化学习框架的移动机器人无图导航方法，其特征在于，包括如下步骤：

步骤1、配置交互式训练环境，设置移动机器人参数；

步骤2、构建基于分层强化学习模型的导航控制框架；

步骤3、采用联合辅助训练方案对网络模型进行训练；

步骤4、利用训练好的模型实现导航任务。

2.根据权利要求1所述的一种基于分层强化学习框架的移动机器人无图导航方法，其特征在于，所述步骤1具体包括如下步骤：

3.根据权利要求1所述的一种基于分层强化学习框架的移动机器人无图导航方法，其特征在于，所述步骤2具体包括如下步骤：

4.根据权利要求1所述的一种基于分层强化学习框架的移动机器人无图导航方法，其特征在于，所述步骤3具体包括如下步骤：

3.1)移动机器人与环境的交互采用回合制；

5.根据权利要求1所述的一种基于分层强化学习框架的移动机器人无图导航方法，其特征在于，所述步骤4具体包括如下步骤：