CN112033410A

CN112033410A - 移动机器人环境地图构建方法、系统及存储介质

Info

Publication number: CN112033410A
Application number: CN202010915072.4A
Authority: CN
Inventors: 陈白帆; 宋晓婷
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-04

Abstract

本发明公开了一种移动机器人环境地图构建方法、系统及存储介质，属于移动机器人自主建图技术领域，涉及到机器人建图的自主性问题。设计了一种强化学习方法与基于边界的探索方法项结合的移动机器人自主建图方法，移动机器人通过其自身搭载的激光雷达获取环境信息，然后通过基于边界的探索方法找到当前环境中的所有边界点，再基于移动机器人在边界点的预期收益和机器人移动到边界点的成本来选择一个最佳的边界点，机器人使用强化学习的方法避障导航移动到边界点，获取奖励信号。本发明中的机器人建图的自主性能使机器人适应更为复杂陌生的环境。

Description

移动机器人环境地图构建方法、系统及存储介质

技术领域

本发明属于移动机器人自主建图技术领域，特别是一种移动机器人环境地图构建方法、系统及存储介质。

背景技术

近些年，从面向家庭服务到救灾侦察再到外星勘探任务，机器人的发展为人类的生活、工业制造、科研探索以及军事活动提供极大便利。移动机器人顺利完成特定任务的基本要素是对环境的准确感知，这就包括了构建完整、精确的地图。传统建图的研究注重地图表征、地图融合及高效的地图存储方法，而很少关注机器人建图的自主性。环境地图往往是通过遥控机器人运动或者让机器人在环境中随机运动来采集构建。某些具有自主运动的机器人则是针对环境人为的设计一些规则，使机器人在特定场景下做相应的运动。机器人建图的自主性问题，就是机器人根据传感器获取的数据自主决定在未知环境下如何运动，从而使其能够更快、更准确地建出未知环境的地图。机器人建图的自主性能使机器人适应更为复杂的环境和普适的任务。

目前在移动机器人建图的问题中，机器人通常是跟踪预先指定的路径，在人的控制下移动，对环境进行建图。然而现实环境大多是未知且复杂的，人难以提前获取环境的地图知识，因而需要移动机器人能够自主在未知环境中进行建图。现有的基于边界的探索技术采用深度优先搜索算法，每次选择距离机器人最近的边界点，这样探索环境空间慢，而且没有平衡收益和成本之间的关系，会出现冗余覆盖的问题。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于强化学习的移动机器人环境地图构建方法，提高移动机器人探索环境、建图的主动性。

为解决上述技术问题，本发明所采用的技术方案是：一种基于强化学习的移动机器人环境地图构建方法，包括以下步骤：

S1、移动机器人在初始位置获取当前的可视化环境空间区域Cur Re gion(x)，初始化局部环境栅格地图；

S2、在已经构建的局部环境栅格地图中找到开放区域和未探索空间之间的边界区域，找出目前环境中所有的边界点，基于移动机器人在边界点的预期收益以及移动机器人从当前位置移动到边界位置需耗费的成本选择最佳边界点Best(e)；

S3、将最佳边界点Best(e)作为目标位置，移动机器人自主避障，避开障碍物区域，导航移动到目标位置，并感知未探索区域的环境信息；

S4、判断当前环境中是否存在边界点，若存在，则重复步骤S2～S4，若不存在，则结束探索。

S1到S4的建图方法在移动机器人基于边界的探索建图方法之上融入强化学习，进一步提高移动机器人探索未知环境、建图的自主性。使用强化学习方法来实现移动机器人移动避障和每回合中探索建图目标点的选择，平衡移动机器人去往目标点所耗费的成本和到达目标点后的预期收益，这样可以降低机器人机器人建图的冗余覆盖问题，同时可以一定程度上避免因深度优先搜索算法而产生的次优解问题。

步骤S1中，初始化局部环境栅格地图的具体实现过程包括：为每个环境栅格单元赋予初始概率，按照初始概率将环境栅格单元划分为开放栅格单元、未知栅格单元以及占用栅格单元；根据环境栅格单元的类别，对环境空间进行分类，将环境空间分为开放区域、未探索区域以及障碍物区域。所述环境栅格单元的划分方法为：

所述占用概率是指当前栅格单元被障碍物占用的概率。通过概率的方法来判断每个单元格的状态，从而中对空间区域进行划分，简单明了，让移动机器人在探索环境时目标性更强。

步骤S2中，移动机器人从当前位置移动到边界位置需耗费的成本 TotalCost(e_i)的计算公式为：

其中，gain(e_i)＝num(e_unknow)，gain(e_i)是预期收益，指当移动机器人移动到边界点时，激光雷达传感器所能覆盖的未知栅格单元的数量num(e_unknow)，代表了移动机器人在该位置能获取的新信息量；cost(e_i)＝dist(x,e_i)，cost(e_i)是指是指移动机器人从当前位置移动到边界位置e_i需耗费的成本，定义为当前位置 x到边界位置e_i之间的移动距离dist(x,e_i)；

和

是正则化之后的成本与预期收益；

最佳边界点Best(e)则为：

式中的N为目前环境中的边界点总数。最佳边界点是对移动机器人移动至目标位置所需耗费的成本和在目标位置的预期收益的平衡，移动机器人把最佳边界点作为每回合中移动的目标位置，这样可以使得移动机器人可以在回合中尽快的获取关于环境空间的信息，以较少的步骤遍历环境空间，实现对环境空间高效的探索建图。

步骤S3中，移动机器人使用强化学习方法A3C自主避障导航移动到目标位置，具体实现过程包括：移动机器人每次从环境中的随机位置出发，探索环境空间并建图，在每个时间步，移动机器人根据当前的状态s_i和策略函数π(a_i|s_i；θ)选择一个动作a_i执行，获得一个奖励值r_i，并过渡到新的状态s_i+1，移动机器人的状态包括栅格地图、机器人当前位置以及目标位置；其中，θ为策略参数，所述策略参数θ以及A3C网络中的值函数参数θ_v的梯度更新公式分别为：

dθ＝▽_θlogπ(a_i|s_i；θ)A(s_i,a_i；θ_v)；

dθ_v＝A(s_i,a_i；θ_v)▽_θvV(s_i；θ_v)；

通过上述两个公式分别对参数θ和θ_v求导数▽_θ

从而更新参数θ和θ_v；，

k指在每个探索回合中，从当前步i到最后一步的总步数，r_i+j是指从当前步i起，每增加j步所获得的奖励值，γ是折扣因子；γ^kV(s_i+k；θ_v)-V(s_i；θ_v)中的V(s_i；θ_v)是估值函数，二者的差值表示移动机器人在每个探索回合中，在特定的状态s_i下执行动作，至状态s_i+k后所获取的额外收益。

奖励值r_i的计算公式为：

N为目前环境中的边界点总数；D_h是由环境决定的移动机器人最大可移动距离。

本发明的强化学习方法A3C可以让移动机器人在与环境的不断交互中，通过环境反馈的奖励信号值来不断调整策略和行为，从而达到最佳。同时，强化学习的奖励函数设定时，既考虑到是否与障碍物发生碰撞，也兼顾了预期收益和成本，使得强化学习不仅用于普通的移动机器人避障导航，也应用在边界点的选择中。

本发明还提供了一种移动机器人环境地图构建系统，包括计算机设备；所述计算机设备被配置或编程为用于执行本发明上述方法的步骤。

作为一个发明构思，本发明还提供了一种计算机可读存储介质，其存储有程序；所述程序被配置为用于执行本发明上述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：本发明以移动机器人如何在未知环境中自主建图为研究对象，设计了一种基于强化学习的移动机器人自主建图方法，将基于边界的探索与强化学习方法相结合，在实现机器人自主探索未知环境的同时，平衡了机器人探索环境、建图中的收益与成本问题，降低了对环境的冗余覆盖。。

附图说明

图1为基于强化学习的移动机器人自主建图设计框架。

图2为移动机器人自主建图算法流程。

图3为移动机器人探索未知环境的A3C算法结构。

图4为移动机器人在仿真环境中自主建图结果。

具体实施方式

本发明的目的是提供一种移动机器人在未知环境中使用深度强化学习自主建图的方法，如图2所示，其通过自身搭载的激光雷达传感器从环境中获取感知数据，然后从已知的传感器数据构建环境的二维栅格地图，使用基于边界的方法探测到自由空间和未探索空间之间的边界点，然后基于收益和成本从当前所有的边界点中选取一个最佳边界点，该最佳边界点即为机器人移动的目标位置，再使用深度强化学习方法控制机器人，实现移动机器人自主避障导航移动到边界点，获取新环境信息，进行新一轮的建图。重复此过程直至环境中没有边界点，即构建出整个环境空间的地图为止。

本发明提供的一种机器人在未知环境下使用深度强化学习自主建图的方法，发明的技术方案如下，流程如图2所示：

S1：移动机器人上搭载了360°激光雷达，可感知一定范围内的环境信息，在初始位置时，通过自身搭载的激光雷达传感器获取当前的可视化环境空间区域 CurRegion(x)，初始化环境栅格地图。其中，在初始化环境栅格地图时，给每个栅格单元赋予0.5的概率，并依据每个栅格单元的概率值将栅格单元划分为开放栅格单元、未知栅格单元以及占用栅格单元。划分依据如下：

其中的占用概率是指当前栅格单元被障碍物等占用的概率。所有的开放栅格单元组成开放区域，机器人可在开放区域内自由移动；所有的未知栅格单元组成未探索区域即未知区域，该区域对移动机器人而言是未知的，包含许多新信息，也是机器人要探索的主要区域。而边界点则是指由开放空间和未探索空间之间的栅格单元组成的一个小区域。

S2：找出目前环境中的边界点总数N，然后基于移动机器人在边界点的预期收益以及移动机器人从当前位置移动到边界位置需耗费的成本来选择一个最的边界点Best(e)。

其中移动机器人在边界点的预期收益是指当移动机器人移动在边界点时，激光雷达传感器所能覆盖的未知栅格单元的数量，代表了移动机器人在该位置能获取的新信息量；而移动机器人从当前位置移动到边界位置需耗费的成本则定义为当前位置到边界点之间移动距离，如下公式所示：

gain(e_i)＝num(e_unknow)

cost(e_i)＝dist(x,e_i)

然后使用一个总的成本函数TotalCost(e_i)来平衡收益与成本之间的关系，寻找一个最佳的边界点。

式中的

是由深度强化学习网络A3C训练得到的参数，

和

是正则化之后的成本与预期收益。

而最佳边界点的选取则按照如下公式：

S3：将最佳边界点Best(e)作为目标位置，移动机器人使用强化学习方法A3C自主避障导航移动到目标位置，A3C的具体过程如图3所示。移动机器人每次从环境中的随机位置出发，探索环境空间并建图，在每个时间步，移动机器人会根据当前的状态s_i和策略函数π(a_i|s_i；θ)选择一个动作a_i执行，然后获得一个奖励值r_i，并过渡到新的状态s_i+1。移动机器人的状态由栅格地图、机器人当前位置以及目标位置组成。其中策略参数θ以及A3C网络中的值函数参数θ_v的更新过程如下：

dθ＝▽_θlogπ(a_i|s_i；θ)A(s_i,a_i；θ_v)

dθ_v＝A(s_i,a_i；θ_v)▽_θvV(s_i；θ_v)

式中

k是指在每个探索回合中，从当前步i到最后一步的总步数，γ是参数，V是估值函数，可量化在特定状态下执行动作所获得的额外收益。

而机器人的奖励取决于每个探索回合中的信息增益以及移动机器人的移动距离，则设计为：

式中的D_h是由环境所决定的最大可移动距离，遍历完当前环境中的所有边界点即为一个探索回合。在每个探索回合内，若机器人与障碍物发生碰撞，则给其一个负的奖励值，若尚存边界点但是没有继续探索，奖励值为0，若机器人避开障碍物且成功探索完环境空间内所有的边界点，则给其一个正的奖励值。强化学习的最终目标是最大化奖励函数值，网络的权重也会根据机器人采取的动作、选择的边界点进行调整，因此，这样设定奖励函数可以让移动机器人在不断的训练中学会先去往距离较近、信息增益较大的边界点，以在最短的距离内获取最大化的总信息增益。

S4：将感知到的新信息加入到已有的环境栅格地图中，更新地图信息；S5：判断当前环境中还有没有边界点，若有，则继续S2至S4的步骤过程，若没有，则表环境空间已经探索完毕，可结束探索。不断重复此过程，直至构建出整个环境空间地图。

基于上述所述方法，我们在ROS平台下通过Gazebo构建了一个仿真环境，该环境是一个六边形环境空间，空间中包含9根柱子，移动机器人在运动时需要避开这9根柱子。仿真机器人采用的是ROS中的Turtlebot3，,机器人自身携带 360°激光雷达，可无死角扫描环境。

初始时，机器人通过激光雷达获得周围360°环境信息，并将已知的环境区域标记为开放区域，通过程序判断开放区域和未探索区域之间的边界，通过平衡各边界点处的成本和预期收益，选择一个最佳边界点，将该边界点作为机器人移动的目标位置。然后通过强化学习导航移动到目标位置，获取新的环境信息，机器人在移动期间要避开障碍物区域。重复此过程，直至完成对整个环境空间的建图工作。仿真建图如图4所示。

Claims

1.一种移动机器人环境地图构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的移动机器人环境地图构建方法，其特征在于，步骤S1中，初始化局部环境栅格地图的具体实现过程包括：为每个环境栅格单元赋予初始概率，按照初始概率将环境栅格单元划分为开放栅格单元、未知栅格单元以及占用栅格单元；根据环境栅格单元的类别，对环境空间进行分类，将环境空间分为开放区域、未探索区域以及障碍物区域。

3.根据权利要求2所述的移动机器人环境地图构建方法，其特征在于，所述环境栅格单元的划分方法为：

所述占用概率是指当前栅格单元被障碍物占用的概率。

4.根据权利要求1所述的移动机器人环境地图构建方法，其特征在于，步骤S2中，移动机器人从当前位置移动到边界位置需耗费的成本TotalCost(e_i)的计算公式为：

其中，gain(e_i)＝num(e_unknow)，gain(e_i)是预期收益，指当移动机器人移动到边界点时，激光雷达传感器所能覆盖的未知栅格单元的数量num(e_unknow)，代表了移动机器人在该位置能获取的新信息量；cost(e_i)＝dist(x,e_i)，cost(e_i)是指是指移动机器人从当前位置移动到边界位置e_i需耗费的成本，定义为当前位置x到边界位置e_i之间的移动距离dist(x,e_i)；

和

是正则化之后的成本与预期收益；

5.根据权利要求4所述的移动机器人环境地图构建方法，其特征在于，最佳边界点

N为目前环境中的边界点总数。

6.根据权利要求1～5之一所述的移动机器人环境地图构建方法，其特征在于，步骤S3中，移动机器人使用强化学习方法A3C自主避障导航移动到目标位置，具体实现过程包括：移动机器人每次从环境中的随机位置出发，探索环境空间并建图，在每个时间步，移动机器人根据当前的状态s_i和策略函数π(a_i|s_i；θ)选择一个动作a_i执行，获得一个奖励值r_i，并过渡到新的状态s_i+1，移动机器人的状态包括栅格地图、机器人当前位置以及目标位置；其中，θ为策略参数，所述策略参数θ以及A3C网络中的值函数参数θ_v的更新公式分别为：

dθ＝▽_θlogπ(a_i|s_i；θ)A(s_i,a_i；θ_v)；

通过上述两个公式分别对参数θ和θ_v求梯度▽_θ、

从而更新参数θ和θ_v；，

k指在每个探索回合中，从当前步i到最后一步的总步数，r_i+j是指从当前步i起，每增加j步所获得的奖励值，γ是折扣因子；γ^kV(s_i+k；θ_v)-V(s_i；θ_v)中的V(s_i；θ_v)是估值函数，二者的差值表示移动机器人在每个探索回合中，在特定的状态s_i下执行动作，至状态s_i+k后所获取的额外收益；dθ、dθ_v分别为θ和θ_v的导数。

7.根据权利要求6所述的移动机器人环境地图构建方法，其特征在于，奖励值r_i的计算公式为：

；N为目前环境中的边界点总数；D_h是由环境决定的移动机器人最大可移动距离。

8.一种移动机器人环境地图构建系统，其特征在于，包括计算机设备；所述计算机设备被配置或编程为用于执行权利要求1～7之一所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，其存储有程序；所述程序被配置为用于执行权利要求1～7之一所述方法的步骤。