CN111949032A

CN111949032A - 一种基于强化学习的3d避障导航系统及方法

Info

Publication number: CN111949032A
Application number: CN202010829113.8A
Authority: CN
Inventors: 陈宇铵; 吉建民
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-17

Abstract

本发明提出一种基于强化学习的3D避障导航系统及方法，包括：感知模块，用于获取多种传感器数据；SLAM同步定位与建图模块，用于建造增量式地图，生成格子地图和环境感知数据；全局路径规划模块，输出机器人当前在地图中的位姿与速度，规划出一条全局路径，为3D避障模块提供了局部目标点；数据预处理模块，局部地图生成模块，使用局部代价地图来表示由传感器感知的局部环境，并且将局部地图作为避障模块的神经网络输入的一部分；基于DRL的局部3D避障模块，其输入包括局部代价地图，局部目标点，以及速度信息，作为一个整体作为机器人的状态，经过决策网络的处理以后输出动作；底盘控制模块，让机器人按照规划的线速度与角速度运动，从而完成导航避障任务。

Description

一种基于强化学习的3D避障导航系统及方法

技术领域

本发明涉及机器人导航技术和3D避障技术领域，尤其是一种基于强化学习(DRL，Deep Reinforcement Learning)的3D避障方法及导航系统。

背景技术

虽然经典的移动机器人避障技术在实际场景中已有大量应用，但是大部分都存在计算量大，场景泛化性差的问题，为了解决这些问题，现有技术提出了用监督学习的方法训练出一个将传感器的数据直接映射成机器人控制速度的决策网络。然而训练基于监督学习的决策网络需要大量人工标签的数据，由于对数据的高度依赖，监督学习的方法同样存在泛化性较差的问题。也有提出用深度强化学习的方法，使机器人在与环境交互的过程中，通过奖励函数对成功与失败经验的自动标签，从而学会避障策略。现有的基于深度强化学习的避障技术大多数都以价格昂贵的激光雷达作为传感器，且只能在2D场景中完成避障任务，很少有使用廉价传感器进行3D避障的技术。

发明内容

为了解决上述技术问题，本发明使用比2D激光更廉价的RGB-D相机，采用深度强化学习的方法来解决机器人导航中的局部避障问题，且RGB-D相机的输出中包含环境的3D信息，可以在更为复杂的环境中进行3D避障，提升了机器人避障能力的全面性与泛化性。

本发明的技术方案为：一种基于强化学习的3D避障导航系统，包括：

感知模块，用于获取多种传感器数据，包括里程计数据，RGB-D相机的点云数据，用于定位的传感器数据；

SLAM同步定位与建图模块，用于为机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位，同时在自身定位的基础上建造增量式地图，生成格子地图和环境感知数据，用于机器人的自主定位和导航；

全局路径规划模块，使用ROS的AMCL自适应蒙特卡洛定位包来进行实时的定位，AMCL接收里程计的数据与定位传感器的数据，采用基于粒子滤波的定位算法，输出机器人当前在地图中的位姿与速度，提供给DRL局部避障模块作为输入的一部分；基于SLAM同步定位与建图模块生成的格子地图和环境感知数据，用A*算法规划出一条从机器人当前位置到目标点的全局路径，这条路径指引着机器人前进的大体方向，为基于DRL的局部3D避障模块提供了局部目标点；

数据预处理模块，用于对感知模块采集的多传感器数据进行预处理；

局部地图生成模块，使用局部代价地图来表示由传感器感知的局部环境，并且将局部地图作为基于DRL的局部3D避障模块的神经网络输入的一部分；

基于DRL的局部3D避障模块，其输入包括三个部分：局部地图生成模块输出的局部代价地图，全局路径规划模块输出的局部目标点，以及SLAM同步定位与建图模块输出的速度信息；这三个部分作为一个整体作为基于DRL的局部3D避障模块中机器人的状态，以状态作为输入，经过决策网络的处理以后，输出动作，所述动作是机器人的线速度与角速度；

底盘控制模块，用于将局部3D避障模块输出的线速度与角速度转换成差动底盘每个车轮的转速，并且控制车轮以该转速转动，让机器人按照规划的线速度与角速度运动，从而完成导航避障任务。

进一步的，所述基于DRL的局部3D避障模块包括决策网络，该网络首先使用3个卷积层将局部代价地图转化成厚度为64的特征地图，同时将目标点位置和机器人速度的值组合成的4维向量转换成64维的特征向量；然后，网络将这些特征值相加并展开，将结果输入LSTM(Long Short-Term Memory)长短期记忆单元；最后，该网络用两个全连接层和Dueling结构的网络来产生28个离散动作的Q值，选取Q值最大的离散动作作为最终输出的控制速度；其中Q值用来评估在一个特定状态s下，采用某个动作a以后一直用当前网络习得的策略π所能获得的总收益：

式中γ表示单步奖励R的衰减系数，R表示在某个状态s下采用动作a的单步收益，当机器人靠近或者到达目标点时R的单步收益较大，当机器人与障碍物发生碰撞时R的数值为负，作为碰撞的惩罚。

进一步的，所述决策网络，通过让机器人与环境进行交互，收集历次导航避障经验，机器人为了最大化Q值，会逐渐学会朝目标点移动同时不与障碍物发生碰撞的导航避障策略。

进一步的，所述感知模块，使用RGB-D相机作为环境感知传感器，其输出的点云数据需要经过下采样滤波器，稀疏离群值滤波器，高度滤波器的处理以后才能用来生成局部代价地图。

进一步的，所述下采样滤波器，将点云转换为边长为5cm的三维体素网格，并使用所有体素的中心进行点云下采样。

进一步的，所述稀疏离群值滤波器：基于计算输入数据集中点到邻居距离的分布，对于每个点，计算它到所有50个相邻点的平均距离，假设结果分布为具有平均值和标准差的高斯分布，所有平均距离的分布与高斯分布差异大于阈值的点，认为是离群点并从点云集中剔除。

进一步的，所述高度滤波器，为了避免将高于机器人的物体当做障碍物，高度滤波器过滤了高于机器人高度的点。

进一步的，所述的局部地图生成模块，其中的局部代价地图以预定的权值表示未知区域、可行驶区域和障碍物，或将不同传感器探测到的障碍物以不同的权值叠加在地图上，从而更全面地描述局部环境，能够融合多种传感器数据。

根据本发明的另一方面，提出一种基于强化学习的3D避障导航方法，包括如下步骤：

步骤1、感知模块获取多种传感器数据，包括里程计数据，RGB-D相机的点云数据，用于定位的传感器数据；

步骤2、SLAM同步定位与建图模块，根据感知模块获取的数据，用于为机器人在未知环境中从一个未知位置开始移动，在移动过程中根据位置估计和地图进行自身定位，同时在自身定位的基础上建造增量式地图，生成格子地图和环境感知数据，用于机器人的自主定位和导航；

步骤3、全局路径规划模块使用ROS的AMCL自适应蒙特卡洛定位包来进行实时的定位，AMCL接收感知模块中里程计的数据与定位传感器的数据，采用基于粒子滤波的定位算法，输出机器人当前在地图中的位姿与速度，提供给DRL局部避障模块作为输入的一部分；基于SLAM同步定位与建图模块生成的格子地图和环境感知数据，用A*算法规划出一条从机器人当前位置到目标点的全局路径，这条路径指引着机器人前进的大体方向，为局部3D避障模块提供了局部目标点；

步骤4，数据预处理模块对感知模块采集的多传感器数据进行预处理，输入到局部地图生成模块；

步骤5、对于数据预处理模块预处理后的数据，局部地图生成模块使用局部代价地图来表示由传感器感知的局部环境，并且将局部地图作为基于DRL的局部3D避障模块中的神经网络输入的一部分；

步骤6、基于DRL的局部3D避障模块接收如下三部分输入：局部地图生成模块输出的局部代价地图，全局路径规划模块输出的局部目标点，以及SLAM同步定位与建图模块输出的速度信息；这三个部分作为一个整体作为基于DRL的局部3D避障模块中机器人的状态，以状态作为输入，经过决策网络的处理以后，输出动作，所述动作是机器人的线速度与角速度；

步骤7、底盘控制模块，将局部3D避障模块输出的线速度与角速度转换成差动底盘每个车轮的转速，并且控制车轮以该转速转动，让机器人按照规划的线速度与角速度运动，从而完成导航避障任务。

有益效果：

本发明设计了一种基于强化学习的3D避障方法，以及对应的导航系统框架。不仅使用强化学习技术避免了传统局部避障方法计算量过大且场景泛化能力差的问题，而且创新性地使用远比激光传感器廉价的RGB-D相机作为环境感知传感器，实现了3D避障的功能。为室内机器人导航提供了一种崭新的方案。

附图说明

图1：本发明的系统结构图；

图2：本发明的局部地图示例；

图3：本发明的决策神经网络结构图；

图4：本发明的随机障碍物仿真训练场景；

图5：本发明的类办公室仿真测试场景；

图6：本发明的类咖啡厅仿真测试场景；

图7：本发明的实体机器人测试场景；

图8：本发明的实体机器人监控界面。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

根据本发明的一个实施例，提出一种基于强化学习的3D避障导航系统，所述系统包括感知模块，SLAM同步定位与建图模块，全局路径规划模块，数据预处理模块，局部地图生成模块，基于DRL(Deep Reinforcement Learning)深度强化学习的局部3D避障模块，底盘控制模块。

所述的感知模块用于获取多种传感器数据，机器人完成导航与避障的任务，需要获取多种传感器数据，其中包括里程计数据，RGB-D相机的点云数据，用于定位的传感器数据(基于2D激光，单目相机和RGB-D相机都有相应的定位算法)。

同步定位与建图SLAM是机器导航中的一个基础任务，可以描述为机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位，同时在自身定位的基础上建造增量式地图，从而实现机器人的自主定位和导航。

本发明使用ROS(机器人操作系统)的cartographer包提前绘制好环境地图，提供给全局路径规划模块，本实例中所建的地图如图8所示。本发明用ROS的AMCL(adaptiveMonte Carlo Localization)自适应蒙特卡洛定位包来进行实时的定位，AMCL接收里程计的数据与定位传感器的数据，采用基于粒子滤波的定位算法，输出机器人当前在地图中的位姿与速度，提供给DRL局部避障模块作为输入的一部分。

所述全局路径规划模块，基于SLAM模块生成的格子地图和环境感知数据，用A*算法规划出一条从机器人当前位置到目标点的全局路径，这条路径指引着机器人前进的大体方向，为局部3D避障模块提供了局部目标点。

所述数据预处理模块用于对采集的多传感器数据进行预处理；根据本发明的一个实施例，使用RGB-D相机作为环境感知传感器，它输出的点云数据需要经过下采样滤波器，稀疏离群值滤波器，高度滤波器的处理以后才能用来生成局部代价地图。

所述下采样滤波器具体如下：

为了保证系统的实时性，本发明需要减少点云数据的计算处理量，所以将点云转换为边长为5cm的三维体素网格，并使用所有体素的中心进行点云下采样。

所述稀疏离群值滤波器具体如下：

稀疏离群值滤波器是基于计算输入数据集中点到邻居距离的分布。对于每个点，本发明计算它到所有50个相邻点的平均距离，假设结果分布为具有平均值和标准差的高斯分布，所有平均距离的分布与高斯分布差异较大的点，可以认为是离群点并从点云集中剔除。

所述高度滤波器具体如下：

为了避免将天花板等高于机器人的物体当做障碍物，高度滤波器过滤了高于本发明的机器人高度1.35m的点。

所述局部地图生成模块如下：

本发明使用局部代价地图来表示由传感器感知的局部环境并且将局部地图作为DRL神经网络输入的一部分。本发明中的局部代价地图以特定的权值表示未知区域、可行驶区域和障碍物，可以将不同传感器探测到的障碍物以不同的权值叠加在地图上，从而更全面地描述局部环境，有融合多种传感器数据的潜力，本实施例中只采用了来自RGB-D相机的点云数据。

由于只考虑机器人在水平地面上移动的情况，所以将经过数据预处理的三维点云转换为2D的俯视图。如图2所示，局部地图初始化时假设周围都是未知区域(即深灰色区域)，过滤后的点云数据会实时更新在局部代价地图上，其中高于5cm的点被视为障碍物，低于5cm的点被视为可行驶区域(即浅灰色区域)。机器人自身的形状(图中为中间的方形)也显示在局部代价地图上，通过判断机器人的像素点与障碍物的像素点是否有重合，就能判断机器人是否发生碰撞。

本发明的基于DRL的局部3D避障模块的输入包括三个部分：局部地图生成模块输出的局部代价地图，全局路径规划模块输出的局部目标点，以及SLAM模块输出的速度信息。这三个部分作为一个整体可以看做基于DRL的局部3D避障模块中机器人的state(状态)，以state作为输入，经过决策网络的处理以后，输出DRL的action(动作)，在此避障问题中action是机器人的线速度与角速度，线速度有0,0.2,0.4,0.6m/s共4个可选值，角速度有-0.9，-0.6，-0.3,0,0.3,0.6,0.9rad/m共7个可选值，所以可以组合出28种离散的控制速度。

决策网络的结构如图3所示，该网络首先使用3个卷积层将局部代价地图转化成厚度为64的特征地图，同时将目标点位置和机器人速度的值组合成的4维向量转换成64维的特征向量。然后，网络将这些特征值相加并展开，将结果输入LSTM(Long Short-TermMemory)长短期记忆单元。最后，该网络用两个全连接层和Dueling结构的网络来产生28个离散动作的Q值，选取Q值最大的离散动作作为最终输出的控制速度。其中Q值用来评估在一个特定状态s下，采用某个动作a以后一直用当前网络习得的策略π所能获得的总收益。

式中γ表示单步奖励R的衰减系数，本实例中γ＝0.95。R表示在某个状态s下采用动作a的单步收益，当机器人靠近或者到达目标点时R的单步收益较大，当机器人与障碍物发生碰撞时R的数值为负，作为碰撞的惩罚。

本实例在如图4所示的仿真环境中训练DRL决策网络，通过让机器人与环境进行交互，收集大量导航避障经验，机器人为了最大化Q值，会逐渐学会朝目标点移动同时不与障碍物发生碰撞的导航避障策略。在图4所示的随机障碍物仿真场景中训练出收敛的导航避障策略以后，将该策略应用于如图5所示的类办公室仿真场景和图6所示的类咖啡厅仿真场景，均能成功地避开不同形状的3D障碍物并到达终点，证实了本发明的决策网络具有较强的泛化性。

然后将仿真中的训练结果迁移到实体机器人，如图7所示，实体机器人能够准确的避开高矮不一的纸箱和桌椅，实现3D避障，同时到达如图8所示的监控界面中黑色箭头所指的目标点，完成导航任务。

所述底盘控制模块

底盘控制模块负责将局部3D避障模块输出的线速度与角速度转换成差动底盘每个车轮的转速，并且控制车轮以该转速转动，让机器人按照规划的线速度与角速度运动，从而完成导航避障任务。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于强化学习的3D避障导航系统，其特征在于，包括：

SLAM同步定位与建图模块，用于为机器人在未知环境中从一个未知位置开始移动，在移动过程中根据位置估计和地图进行自身定位，同时在自身定位的基础上建造增量式地图，生成格子地图和环境感知数据，用于机器人的自主定位和导航；

2.根据权利要求1所述的一种基于强化学习的3D避障导航系统，其特征在于：

所述基于DRL的局部3D避障模块包括决策网络，该网络首先使用3个卷积层将局部代价地图转化成厚度为64的特征地图，同时将目标点位置和机器人速度的值组合成的4维向量转换成64维的特征向量；然后，网络将这些特征值相加并展开，将结果输入LSTM(LongShort-Term Memory)长短期记忆单元；最后，该网络用两个全连接层和Dueling结构的网络来产生28个离散动作的Q值，选取Q值最大的离散动作作为最终输出的控制速度；其中Q值用来评估在一个特定状态s下，采用某个动作a以后一直用当前网络习得的策略π所能获得的总收益：

3.根据权利要求2所述的一种基于强化学习的3D避障导航系统，其特征在于：

所述决策网络，通过让机器人与环境进行交互，收集历次导航避障经验，机器人为了最大化Q值，会逐渐学会朝目标点移动同时不与障碍物发生碰撞的导航避障策略。

4.根据权利要求1所述的一种基于强化学习的3D避障导航系统，其特征在于：

所述感知模块，使用RGB-D相机作为环境感知传感器，其输出的点云数据需要经过下采样滤波器，稀疏离群值滤波器，高度滤波器的处理以后才能用来生成局部代价地图。

5.根据权利要求4所述的一种基于强化学习的3D避障导航系统，其特征在于：

所述下采样滤波器，将点云转换为边长为5cm的三维体素网格，并使用所有体素的中心进行点云下采样。

6.根据权利要求4所述的一种基于强化学习的3D避障导航系统，其特征在于：

所述稀疏离群值滤波器：基于计算输入数据集中点到邻居距离的分布，对于每个点，计算它到所有50个相邻点的平均距离，假设结果分布为具有平均值和标准差的高斯分布，所有平均距离的分布与高斯分布差异大于阈值的点，认为是离群点并从点云集中剔除。

7.根据权利要求4所述的一种基于强化学习的3D避障导航系统，其特征在于：

所述高度滤波器，为了避免将高于机器人的物体当做障碍物，高度滤波器过滤了高于机器人高度的点。

8.根据权利要求1所述的一种基于强化学习的3D避障导航系统，其特征在于：

所述的局部地图生成模块，其中的局部代价地图以预定的权值表示未知区域、可行驶区域和障碍物，或将不同传感器探测到的障碍物以不同的权值叠加在地图上，从而更全面地描述局部环境，能够融合多种传感器数据。

9.一种基于强化学习的3D避障导航方法，其特征在于，包括如下步骤：