CN115265547A

CN115265547A - 一种未知环境下基于强化学习的机器人主动导航方法

Info

Publication number: CN115265547A
Application number: CN202211015078.1A
Authority: CN
Inventors: 姜入文; 周庆澳; 李根宇; 方逸仙
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-01

Abstract

本发明公开了一种未知环境下基于强化学习的机器人主动导航方法，所述方法包括：创建仿真机器人模型；所述仿真机器人模型采用cartographer算法完成地图构建；构建强化学习决策网络，设计强化学习决策网络的目标函数；在仿真机器人模型上进行强化学习决策网络训练，当目标函数值最小时，停止训练，得到训练好的强化学习决策网络；将训练好的强化学习决策网络的网络参数及cartographer算法参数移植到实体机器人中，将实体机器人放置到未知环境中，设置行走任务，机器人自主进行导航并避障；本发明的优点在于：适用无人机及地面小车不平坦区域，大范围建图消耗计算资源和内存较少，且训练效率及算法精度较高。

Description

一种未知环境下基于强化学习的机器人主动导航方法

技术领域

本发明涉及构图(Simultaneous Localization and Mapping,SLAM)处理技术和移动机器人导航技术领域，更具体涉及一种未知环境下基于强化学习的机器人主动导航方法。

背景技术

近年来，随着人工智能技术的高速发展，移动机器人得到了广泛的应用，尤其是复杂的环境更需要移动机器人的辅助。目前，移动机器人的应用场景主要是一些简单的环境，例如：扫地机器人，搬运机器人等，这些场景中的机器人大部分都是需要人工干预的。但是在实际的应用中，人们更期望移动机器人能够在复杂未知的环境下实现自主导航和避障，并建立完整环境地图。

SLAM技术是指：在未知环境中，利用移动机器人通过运动时产生的数据并结合自身传感器得到的实时数据，对其本身进行定位，并逐步构建出环境地图。SLAM技术具有非常重要的理论意义和应用价值。例如：在无人驾驶汽车领域，SLAM可以通过激光雷达建立3D环境模型和定位导航。在军事方面，SLAM可以让移动机器人到达许多人类无法到达的恶劣环境。它可以帮助实现机器人的智能侦察和作战。它还可用于搜索和清除危险炸药。

根据国内外已发表的论文，目前的SLAM技术大多基于单个传感器，例如激光雷达SLAM和视觉SLAM。激光雷达SLAM已有成熟的算法和解决方案。随着硬件设备的发展，同时为了尽可能地满足不同场景的要求，视觉SLAM也得到了飞速发展。因此，目前成熟的SLAM技术主要分为两大类，激光雷达SLAM(LIDAR SLAM)和视觉SLAM(VSLAM)。相对于视觉SLAM，激光雷达可靠性高、技术成熟，能见度范围广，能够高精度地探测障碍点的角度和距离，实现避障，且不受环境光的影响，即便在暗处也可以正常工作。

而主动SLAM是指在未知环境下，机器人能够自主的进行路径规划和避障，同时完成周围地图的构建。由于环境的复杂性和不确定性，主动SLAM的首要任务就是躲避障碍物，包括静态和动态障碍物。因此，核心的两大问题就是避障和构建地图。一个好的避障和导航算法可以使机器人适应更复杂的工作场景和更广泛的领域，解除环境和空间对机器人能力的限制，极大地提高移动机器人的可操作性。

强化学习(Reinforcement learning，RL)是除有监督学习和无监督学习之外的三种机器学习模式之一。它使用智能体(强化学习中的智能体实际是一个行为的决定者，能够与环境进行交互抉择下一步要执行的动作，后面均用agent代替)作为领域中的人类专家来采取行动。RL不需要带标签的数据；相反，它通过与环境互动、观察和响应结果来学习经验。

强化学习可以用马尔可夫决策过程(Markov Decision Process MDP)表示，如图1所示。每个环境都用反映环境中发生的情况的状态来表示。强化学习agent在环境中采取行动，导致环境当前状态发生变化，生成新状态，并根据结果获得奖励。agent因好的行为而获得积极奖励，因差的行为而获得消极奖励，这有助于agent在给定状态下评估已执行的行为，并从经验中学习。

虽然大多数强化学习算法使用深度神经网络，但不同的算法适用于不同的环境类型。强化学习分类有很多，包括无模型强化学习和基于模型的强化学习，还有一种分类可分为基于策略的强化学习和基于值的强化学习等等，如图2所示。对于模型的理解就是强化学习中的环境。根据是否去学习环境来进行分类。无模型强化学习就是不去学习和理解环境，环境给出什么信息就是什么信息，常见的方法有policy optimization和Q-learning。

燕山大学袁枭于2019年5月发表的硕士论文《复杂环境下基于深度强化学习的主动SLAM算法研究》提出Dueling DQN路径规划算法与FastSLAM相融合的主动SLAM方法，解决移动机器人在复杂环境中的自主航行问题。基于FCRN算法对障碍物进行深度预测图像，采用Dueling DQN算法进行路径规划，并将路径规划方法与FastSLAM融合。实验表明所提算法能够避开不同数量静态、动态障碍物，实现移动机器人的自主航行和无碰撞行走，完成对复杂环境的地图构建。但是该文献采用FastSLAM进行建图，FastSLAM使用粒子滤波，无法适用无人机及地面小车不平坦区域，无回环检测，大范围建图消耗计算资源和内存较多。Dueling DQN路径规划算法输入的是深度学习预测的深度信息，预测精度直接影响整个模型的训练效率以及路径规划的结果，导致算法精度不够高。

发明内容

本发明所要解决的技术问题在于现有技术机器人主动导航方法无法适用无人机及地面小车不平坦区域，大范围建图消耗计算资源和内存较多，且训练效率及算法精度不高的问题。

本发明通过以下技术手段实现解决上述技术问题的：一种未知环境下基于强化学习的机器人主动导航方法，所述方法包括：

步骤一：创建仿真机器人模型；

步骤二：所述仿真机器人模型采用cartographer算法完成地图构建；

步骤三：构建强化学习决策网络，设计强化学习决策网络的目标函数，所述强化学习决策网络的输入为机器人的激光雷达扫描周围环境的数据、机器人到目标位置的相对距离、机器人的前进速度和旋转速度；

步骤四：在仿真机器人模型上进行强化学习决策网络训练，当目标函数值最小时，停止训练，得到训练好的强化学习决策网络；

步骤五：将训练好的强化学习决策网络的网络参数及cartographer算法参数移植到实体机器人中，将实体机器人放置到未知环境中，设置行走任务，机器人自主进行导航并避障。

本发明采用cartographer算法完成地图构建，适用无人机及地面小车不平坦区域，算法本身具有回环检测，大范围建图消耗计算资源和内存较少，通过构建强化学习决策网络并训练该网络进行机器人避障，且强化学习决策网络的输入值为实时采集的环境数据、距离以及速度等，并非预测的数据，输入的数据准确度高，模型精度高，并且本发明先采用仿真机器人模型进行模型参数训练，训练完成之后将参数移植到实体机器人，有效提高训练效率，解决现有强化学习训练时间长的问题。

进一步地，所述仿真机器人模型为Turtlebot3-Burger。

进一步地，所述强化学习决策网络包括4层网络，第一层卷积神经网络的输入为三个采样时间的激光数据，第二层卷积神经网络的输入连接第一层卷积神经网络的输出，第三层网络为和第四层网络均为全连接层，第三层网络的输入连接第二层卷积神经网络的输出，第四层网络的输入包括第三层网络的输出、相对目标位置和机器人的当前速度，第四层网络的输出为机器人的输出动作a_t。

更进一步地，所述三个采样时间的激光数据大小为512*3，第一层卷积神经网络包含32个内核大小为5，步长为2的一维滤波器，第二层卷积神经网络包含32个内核大小为3，步长为2的一维滤波器，第一层卷积神经网络和第二层卷积神经网络均使用ReLU函数作为激活函数，第四层网络使用两个激活函数，分别是sigmoid函数和tanh函数，分别将平均线速度和旋转角速度限制在(0.0，1.0)之间和(-1.0，1.0)之间，机器人的输出动作a_t是从正太分布

中随机采样得到，其中，

表示通过神经网络计算得到的速度均值，

是对数标准差向量，是一组单独的参数。

进一步地，所述设计强化学习决策网络的目标函数的过程为：

通过公式

构建强化学习决策网络的目标函数；

其中，s_t表示强化学习决策网络的状态且

表示三个单位时间内观测到的激光雷达数据；

表示目标点在机器人所在坐标系中的相对位置；

表示观测到的机器人当前的速度信息，v为线速度，ω为角速度；

表示π_θ′从(s_t，a_t)中采样，并将其代入到min函数所得到期望值，p_θ(a_t|s_t)表示状态s_t和动作a_t用θ采样得到的概率，p_θ′(a_t|s_t)表示状态s_t和动作a_t用θ′采样得到的概率，

表示优势函数，是用来比较当前状态s_t下执行动作a_t相对于其他动作有多好，clip剪切函数，可以将

限制在(1-ε，1+ε)范围内。ε为第一超参数，设为0.2。

更进一步地，所述优势函数

更进一步地，所述奖励函数为R＝R_g+R_c+R_ω，其中，R_g表示目标奖励，R_c表示避障奖励，R_ω表示稳定奖励。

更进一步地，所述目标奖励的计算过程为：

通过公式

计算目标奖励，其中，dis_curr表示移动机器人当前到达目标位置的距离，dis_pre表示移动机器人以前到达目标位置的距离，距离的计算方式为

表示目标位置的x轴坐标，

表示目标位置的y轴坐标，

表示机器人的x轴坐标，

表示机器人的y轴坐标。

更进一步地，所述避障奖励的计算过程为：

通过公式

计算避障奖励，其中，ifCollision表示当机器人与障碍物发生碰撞时。

更进一步地，所述稳定奖励的计算过程为：

通过公式

计算稳定奖励，其中，ω表示机器人旋转角速度，r_t为到达目标点所用的时间的奖励，w_t为时间权重，w_t＝0.01。

本发明的优点在于：

(1)本发明采用cartographer算法完成地图构建，适用无人机及地面小车不平坦区域，算法本身具有回环检测，大范围建图消耗计算资源和内存较少，通过构建强化学习决策网络并训练该网络进行机器人避障，且强化学习决策网络的输入值为实时采集的环境数据、距离以及速度等，并非预测的数据，输入的数据准确度高，模型精度高，并且本发明先采用仿真机器人模型进行模型参数训练，训练完成之后将参数移植到实体机器人，有效提高训练效率，解决现有强化学习训练时间长的问题。

(2)本发明在优势函数A^θ′中加入高斯噪声干扰优势值，通过引入权重α，与优势函数A^θ′混合干扰优势值，避免强化学习算法陷入过度拟合的状态，提高算法精度，从而提升机器人主动导航和避障的精确性。

附图说明

图1为现有技术用马尔可夫决策过程表示的强化学习示意图；

图2为现有技术强化学习算法分类示意图；

图3为本发明实施例所公开的一种未知环境下基于强化学习的机器人主动导航方法的流程图；

图4为本发明实施例所公开的一种未知环境下基于强化学习的机器人主动导航方法中机器人的整体结构示意图；

图5为本发明实施例所公开的一种未知环境下基于强化学习的机器人主动导航方法中强化学习决策网络的结构示意图；

图6为本发明实施例所公开的一种未知环境下基于强化学习的机器人主动导航方法中机器人在Gazebo中的训练环境示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图3所示，一种未知环境下基于强化学习的机器人主动导航方法，所述方法包括：

S1：创建仿真机器人模型；仿真机器人模型可以采用现有的Turtlebot3-Burger，其PC端装有Ubuntu16.04和ROSKinetic操作系统，机器人顶部装有激光雷达。Turtlebot3-Burger是继Turtlebot2之后，又一款ROS官方打造的基于kinetic的软硬件学习平台，体积更小，性价比更优。最大运动速度为0.22m/s，最大角速度为2.84rad/s，最大负载15kg。需要说明的是，仿真机器人模型除了上述Turtlebot3-Burger还可以采用自行设计的具有行走功能的机器人小车，该机器人小车上安装PCB电路板，PCB电路板中主控模块记载机器人需要执行的cartographer算法以及强化学习算法等。如图4所示，为本发明提供的一种机器人小车结构，该小车具有行走功能，且小车内部设置电路板，电路板上加载各种算法，前期可将该机器人小车放置在Gazebo环境中进行强化学习避障训练，后期可将该机器人小车制作成实体结构，通过加载训练好的算法或者模型，实现在现实场景中进行SLAM导航并且避障。

S2：所述仿真机器人模型采用cartographer算法完成地图构建。cartographer算法是现有成熟算法，属于Google开源的激光雷达SLAM算法，使用的是图优化方法，主要分为前端和后端两部分：前端主要负责创建子图和局部回环检测，每当扫描到一次激光雷达数据，便于当前最近建立的子图匹配，使得这一帧雷达扫描数据插入到子图最优位置，在不断插入新数据帧的同时子图得到更新，当不再有新的扫描数据插入时，子图创建成功。

短时间内创建的子图准确性是可靠的，但长时间会存在累积误差，为了消除累积误差，需要通过回环检测来构建回环，最终优化所有子图的位姿。并进行局部回环检测。后端主要负责位姿优化，采用分支定界法实现全局闭环检测，减小误差。

S3：机器人SLAM导航任务开始时，首先进行强化学习避障测试。如果有障碍物，则采用基于干扰优势值的PPO算法躲避障碍物；如果没有障碍物则继续前行。采用基于cartographer算法进行定位和构图，直至完成任务，完成整个环境地图的构建。

S3.1：强化学习避障测试，由强化学习模块控制，主要包括强化学习决策网络，使用的是干扰优势值的PPO算法，输入s_t包括三个部分，激光雷达扫描的数据

相对目标位置

和机器人的当前速度

这三个部分结合为一个整体作为强化学习模块中机器人的状态s_t，以此状态为输入，经过强化学习决策网络，输出动作，动作即为机器人的线速度和角速度。

S3.2：构建强化学习决策网络，该强化学习决策网络包括4层网络，用来近似策略网络π_θ，架构如图5所示，第一层卷积网络的输入为三个采样时间的激光数据512*3，该网络包含32个kemelsize为5，stride为2的一维滤波器。第二层卷积网络包含32个kernelsize为3，stride为2的一维滤波器，前两层均使用ReLU函数作为激活函数。第三层为全连接层，第四层是全连接层，输入包括第三层的输出、相对目标位置和机器人的当前速度，第四层网络使用两个激活函数，分别是sigmoid函数和tanh函数，分别将平均线速度和旋转叫速度限制在(0.0，1.0)之间和(-1.0，1.0)之间。最后的输出动作a_t是从正太分布

中随机采样得到。其中

表示通过神经网络计算得到的速度均值，

是对数标准差向量，是一组单独的参数。

S3.2.1：强化学习决策网络的算法为近端策略优化算法(Proximal PolicyOptimization，PPO)，PPO算法提出了新的目标函数可以在多个训练步骤实现小批量的更新，解决了策略梯度算法(Policy Gradient，PG)中步长难以确定的问题，是一种on-policy算法。如果步长太小，训练时间就会过长。如果步长过大，有用信息会被噪音掩盖，或者令性能灾难性的下降，难以收敛。

机器人使用PPO算法与环境进行交互，同时获得观测数据，动作标签以及奖励函数作为一次轨迹序列存入到经验缓存器中，存取一定数量的轨迹序列后，计算目标函数

得到梯度，用于更新策略网络，使得期望收益最大。目标函数如下：

其中，s_t表示强化学习决策网络的状态且

表示三个单位时间内观测到的激光雷达数据；

表示目标点在机器人所在坐标系中的相对位置；

表示π_θ′从(s_t，a_t)中采样，并将其代入到min函数所得到期望值，p_θ(a_t|s_t)表示状态s_t和动作a_t用θ采样得到的概率，p_θ′(a_t|s_t)表示状态s_t和动作a_t用θ′采样得到的概率，动作a_t＝[v，ω]，式中，v，ω均为连续值，其中v∈[0.00，0.20]，ω∈[-0.60，0.60]。min主要是选出两项之中比较小的一项，clip函数是一个比较函数，计算的规则为：括号中一共有三项，如果第一项小于第二项，则输出1-ε；如果第一项大于第三项，则输出1+ε。ε为第一超参数，一般设为0.2。

S3.2.2：上述目标函数中的A^θ′为优势函数，用来评价在状态s_t下，执行动作a_t相对于平均而言的优势，从数量上来看，就是随机变量相对均值的偏差。使用优势函数的意义为：提高算法学习效率，使学习更加稳定，同时有助于减小方差，防止过拟合。A^θ′是A^θ′(a_t|s_t)的简写，A^θ′(a_t|s_t)计算公式为：A^θ′(a_t|s_t)＝E_θ，[R_t|s_t，a_t]-V^θ′(s_t)，E_θ′[R_t|s_t，a_t]表示在(s_t，a_t)后获得的累积期望折扣奖励，R_t表示当前时刻的奖励函数值，是强化学习中的参数，当智能体做出动作

时，智能体与环境互动，环境会给智能体一个奖励也即R_t，可能是正值，也可能是负值，如果是正值就促使智能体多做动作

如果是负值就促使智能体少做动作

V^θ′(s_t)表示从当前状态s_t开始获得的累积期望折扣奖励。

S3.2.3：上述S3.2.2中奖励函数为R＝R_g+R_c+R_ω，R_g表示目标奖励，R_c表示避障奖励，R_ω表示稳定奖励。在本发明中，机器人的目标是到达目标位置(P_x，P_y)。为了达到目标位置，需要在不与障碍物碰撞的情况下，通过强化学习进行避障驾驶，并保持在性能极限内。因此，这部分奖励也要考虑进去。总奖励函数是这三个奖励函数的总和。其中，

1)R_g为目标奖励，如果移动机器人到达目标位置，agent将获得10的高额奖励。此外，当移动到目标位置时，如果到目标的距离比以前短，那么当机器人朝正确的方向移动时，也会给予奖励。

discurr表示移动机器人当前到达目标位置的距离，dis_pre表示移动机器人以前到达目标位置的距离，距离的计算方式为

表示目标位置的x轴坐标，

表示目标位置的y轴坐标，

表示机器人的x轴坐标，

表示机器人的y轴坐标。

2)R_c为避障奖励，当机器人与障碍物发生碰撞时，机器人会得到-10的巨额罚款，这个奖励会极大地鼓励机器人避免与障碍物发生碰撞。

其中，ifCollision表示当机器人与障碍物发生碰撞时。

3)R_ω为稳定奖励，为了鼓励机器人平稳移动，引入了一个平稳奖励函数R_ω来抑制大的旋转速度。

其中，ω表示机器人旋转角速度，r_t为到达目标点所用的时间的奖励，每过一分钟，奖励值加1，w_t为时间权重，w_t＝0.01。

S3.2.4：上述已经计算了优势函数A^θ′的情况下，在优势函数A^θ′中加入高斯噪声干扰优势值。为agent采样高斯噪声，x～N(0，1)，通过引入权重α，与优势函数A^θ′混合干扰优势值。α为第二超参数，取值为0.975。则新的优势函数为：

所以相应的新的目标函数为：

本发明强化学习算法训练过程中采用的目标函数为上述新的目标函数。

S4：强化学习的优势在于能够通过与环境互动收集和学习经验信息来编码相当复杂的行为。但是强化学习训练时间长，收敛慢，奖励稀疏，需要时刻与环境交互，因此将机器人放到真实环境中训练并不现实。为避免器材消耗，同时减少训练时间，本发明中先将机器人模型放到Gazebo仿真环境中训练，待训练完成后移植到实体机器人中。Gazebo仿真环境考虑了动力学因素，如惯性和摩擦力等。因此本发明首先在仿真机器人模型上进行强化学习决策网络训练，当S3.2.4中新的目标函数值最小时，停止训练，得到训练好的强化学习决策网络。如图6所示为机器人在Gazebo中的训练环境。

S5：将训练好的强化学习决策网络的网络参数及cartographer算法参数移植到实体机器人中，将实体机器人放置到未知环境中，设置行走任务，机器人自主进行导航并避障。

通过以上技术方案，本发明实现了机器人在未知环境下自主导航，研究了基于干扰优势值PPO的强化学习避障算法进行避障和主动cartographer算法的地图构建。采用cartographer算法完成地图构建，适用无人机及地面小车不平坦区域，算法本身具有回环检测，大范围建图消耗计算资源和内存较少，通过构建强化学习决策网络并训练该网络进行机器人避障，且强化学习决策网络的输入值为实时采集的环境数据、距离以及速度等，并非预测的数据，输入的数据准确度高，模型精度高，并且本发明先采用仿真机器人模型进行模型参数训练，训练完成之后将参数移植到实体机器人，有效提高训练效率，解决现有强化学习训练时间长的问题。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种未知环境下基于强化学习的机器人主动导航方法，其特征在于，所述方法包括：

步骤一：创建仿真机器人模型；

2.根据权利要求1所述的一种未知环境下基于强化学习的机器人主动导航方法，其特征在于，所述仿真机器人模型为Turtlebot3-Burger。

3.根据权利要求1所述的一种未知环境下基于强化学习的机器人主动导航方法，其特征在于，所述强化学习决策网络包括4层网络，第一层卷积神经网络的输入为三个采样时间的激光数据，第二层卷积神经网络的输入连接第一层卷积神经网络的输出，第三层网络为和第四层网络均为全连接层，第三层网络的输入连接第二层卷积神经网络的输出，第四层网络的输入包括第三层网络的输出、相对目标位置和机器人的当前速度，第四层网络的输出为机器人的输出动作a_t。

4.根据权利要求3所述的一种未知环境下基于强化学习的机器人主动导航方法，其特征在于，所述三个采样时间的激光数据大小为512*3，第一层卷积神经网络包含32个内核大小为5，步长为2的一维滤波器，第二层卷积神经网络包含32个内核大小为3，步长为2的一维滤波器，第一层卷积神经网络和第二层卷积神经网络均使用ReLU函数作为激活函数，第四层网络使用两个激活函数，分别是sigmoid函数和tanh函数，分别将平均线速度和旋转角速度限制在(0.0,1.0)之间和(-1.0,1.0)之间，机器人的输出动作a_t是从正太分布