CN111949032A - 一种基于强化学习的3d避障导航系统及方法 - Google Patents
一种基于强化学习的3d避障导航系统及方法 Download PDFInfo
- Publication number
- CN111949032A CN111949032A CN202010829113.8A CN202010829113A CN111949032A CN 111949032 A CN111949032 A CN 111949032A CN 202010829113 A CN202010829113 A CN 202010829113A CN 111949032 A CN111949032 A CN 111949032A
- Authority
- CN
- China
- Prior art keywords
- local
- module
- robot
- obstacle avoidance
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000001360 synchronised effect Effects 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000008447 perception Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 230000004807 localization Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 230000008901 benefit Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 239000002245 particle Substances 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000004888 barrier function Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 description 19
- 238000004088 simulation Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0251—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Abstract
本发明提出一种基于强化学习的3D避障导航系统及方法,包括:感知模块,用于获取多种传感器数据;SLAM同步定位与建图模块,用于建造增量式地图,生成格子地图和环境感知数据;全局路径规划模块,输出机器人当前在地图中的位姿与速度,规划出一条全局路径,为3D避障模块提供了局部目标点;数据预处理模块,局部地图生成模块,使用局部代价地图来表示由传感器感知的局部环境,并且将局部地图作为避障模块的神经网络输入的一部分;基于DRL的局部3D避障模块,其输入包括局部代价地图,局部目标点,以及速度信息,作为一个整体作为机器人的状态,经过决策网络的处理以后输出动作;底盘控制模块,让机器人按照规划的线速度与角速度运动,从而完成导航避障任务。
Description
技术领域
本发明涉及机器人导航技术和3D避障技术领域,尤其是一种基于强化学习(DRL,Deep Reinforcement Learning)的3D避障方法及导航系统。
背景技术
虽然经典的移动机器人避障技术在实际场景中已有大量应用,但是大部分都存在计算量大,场景泛化性差的问题,为了解决这些问题,现有技术提出了用监督学习的方法训练出一个将传感器的数据直接映射成机器人控制速度的决策网络。然而训练基于监督学习的决策网络需要大量人工标签的数据,由于对数据的高度依赖,监督学习的方法同样存在泛化性较差的问题。也有提出用深度强化学习的方法,使机器人在与环境交互的过程中,通过奖励函数对成功与失败经验的自动标签,从而学会避障策略。现有的基于深度强化学习的避障技术大多数都以价格昂贵的激光雷达作为传感器,且只能在2D场景中完成避障任务,很少有使用廉价传感器进行3D避障的技术。
发明内容
为了解决上述技术问题,本发明使用比2D激光更廉价的RGB-D相机,采用深度强化学习的方法来解决机器人导航中的局部避障问题,且RGB-D相机的输出中包含环境的3D信息,可以在更为复杂的环境中进行3D避障,提升了机器人避障能力的全面性与泛化性。
本发明的技术方案为:一种基于强化学习的3D避障导航系统,包括:
感知模块,用于获取多种传感器数据,包括里程计数据,RGB-D相机的点云数据,用于定位的传感器数据;
SLAM同步定位与建图模块,用于为机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,生成格子地图和环境感知数据,用于机器人的自主定位和导航;
全局路径规划模块,使用ROS的AMCL自适应蒙特卡洛定位包来进行实时的定位,AMCL接收里程计的数据与定位传感器的数据,采用基于粒子滤波的定位算法,输出机器人当前在地图中的位姿与速度,提供给DRL局部避障模块作为输入的一部分;基于SLAM同步定位与建图模块生成的格子地图和环境感知数据,用A*算法规划出一条从机器人当前位置到目标点的全局路径,这条路径指引着机器人前进的大体方向,为基于DRL的局部3D避障模块提供了局部目标点;
数据预处理模块,用于对感知模块采集的多传感器数据进行预处理;
局部地图生成模块,使用局部代价地图来表示由传感器感知的局部环境,并且将局部地图作为基于DRL的局部3D避障模块的神经网络输入的一部分;
基于DRL的局部3D避障模块,其输入包括三个部分:局部地图生成模块输出的局部代价地图,全局路径规划模块输出的局部目标点,以及SLAM同步定位与建图模块输出的速度信息;这三个部分作为一个整体作为基于DRL的局部3D避障模块中机器人的状态,以状态作为输入,经过决策网络的处理以后,输出动作,所述动作是机器人的线速度与角速度;
底盘控制模块,用于将局部3D避障模块输出的线速度与角速度转换成差动底盘每个车轮的转速,并且控制车轮以该转速转动,让机器人按照规划的线速度与角速度运动,从而完成导航避障任务。
进一步的,所述基于DRL的局部3D避障模块包括决策网络,该网络首先使用3个卷积层将局部代价地图转化成厚度为64的特征地图,同时将目标点位置和机器人速度的值组合成的4维向量转换成64维的特征向量;然后,网络将这些特征值相加并展开,将结果输入LSTM(Long Short-Term Memory)长短期记忆单元;最后,该网络用两个全连接层和Dueling结构的网络来产生28个离散动作的Q值,选取Q值最大的离散动作作为最终输出的控制速度;其中Q值用来评估在一个特定状态s下,采用某个动作a以后一直用当前网络习得的策略π所能获得的总收益:
式中γ表示单步奖励R的衰减系数,R表示在某个状态s下采用动作a的单步收益,当机器人靠近或者到达目标点时R的单步收益较大,当机器人与障碍物发生碰撞时R的数值为负,作为碰撞的惩罚。
进一步的,所述决策网络,通过让机器人与环境进行交互,收集历次导航避障经验,机器人为了最大化Q值,会逐渐学会朝目标点移动同时不与障碍物发生碰撞的导航避障策略。
进一步的,所述感知模块,使用RGB-D相机作为环境感知传感器,其输出的点云数据需要经过下采样滤波器,稀疏离群值滤波器,高度滤波器的处理以后才能用来生成局部代价地图。
进一步的,所述下采样滤波器,将点云转换为边长为5cm的三维体素网格,并使用所有体素的中心进行点云下采样。
进一步的,所述稀疏离群值滤波器:基于计算输入数据集中点到邻居距离的分布,对于每个点,计算它到所有50个相邻点的平均距离,假设结果分布为具有平均值和标准差的高斯分布,所有平均距离的分布与高斯分布差异大于阈值的点,认为是离群点并从点云集中剔除。
进一步的,所述高度滤波器,为了避免将高于机器人的物体当做障碍物,高度滤波器过滤了高于机器人高度的点。
进一步的,所述的局部地图生成模块,其中的局部代价地图以预定的权值表示未知区域、可行驶区域和障碍物,或将不同传感器探测到的障碍物以不同的权值叠加在地图上,从而更全面地描述局部环境,能够融合多种传感器数据。
根据本发明的另一方面,提出一种基于强化学习的3D避障导航方法,包括如下步骤:
步骤1、感知模块获取多种传感器数据,包括里程计数据,RGB-D相机的点云数据,用于定位的传感器数据;
步骤2、SLAM同步定位与建图模块,根据感知模块获取的数据,用于为机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,生成格子地图和环境感知数据,用于机器人的自主定位和导航;
步骤3、全局路径规划模块使用ROS的AMCL自适应蒙特卡洛定位包来进行实时的定位,AMCL接收感知模块中里程计的数据与定位传感器的数据,采用基于粒子滤波的定位算法,输出机器人当前在地图中的位姿与速度,提供给DRL局部避障模块作为输入的一部分;基于SLAM同步定位与建图模块生成的格子地图和环境感知数据,用A*算法规划出一条从机器人当前位置到目标点的全局路径,这条路径指引着机器人前进的大体方向,为局部3D避障模块提供了局部目标点;
步骤4,数据预处理模块对感知模块采集的多传感器数据进行预处理,输入到局部地图生成模块;
步骤5、对于数据预处理模块预处理后的数据,局部地图生成模块使用局部代价地图来表示由传感器感知的局部环境,并且将局部地图作为基于DRL的局部3D避障模块中的神经网络输入的一部分;
步骤6、基于DRL的局部3D避障模块接收如下三部分输入:局部地图生成模块输出的局部代价地图,全局路径规划模块输出的局部目标点,以及SLAM同步定位与建图模块输出的速度信息;这三个部分作为一个整体作为基于DRL的局部3D避障模块中机器人的状态,以状态作为输入,经过决策网络的处理以后,输出动作,所述动作是机器人的线速度与角速度;
步骤7、底盘控制模块,将局部3D避障模块输出的线速度与角速度转换成差动底盘每个车轮的转速,并且控制车轮以该转速转动,让机器人按照规划的线速度与角速度运动,从而完成导航避障任务。
有益效果:
本发明设计了一种基于强化学习的3D避障方法,以及对应的导航系统框架。不仅使用强化学习技术避免了传统局部避障方法计算量过大且场景泛化能力差的问题,而且创新性地使用远比激光传感器廉价的RGB-D相机作为环境感知传感器,实现了3D避障的功能。为室内机器人导航提供了一种崭新的方案。
附图说明
图1:本发明的系统结构图;
图2:本发明的局部地图示例;
图3:本发明的决策神经网络结构图;
图4:本发明的随机障碍物仿真训练场景;
图5:本发明的类办公室仿真测试场景;
图6:本发明的类咖啡厅仿真测试场景;
图7:本发明的实体机器人测试场景;
图8:本发明的实体机器人监控界面。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本发明的一个实施例,提出一种基于强化学习的3D避障导航系统,所述系统包括感知模块,SLAM同步定位与建图模块,全局路径规划模块,数据预处理模块,局部地图生成模块,基于DRL(Deep Reinforcement Learning)深度强化学习的局部3D避障模块,底盘控制模块。
所述的感知模块用于获取多种传感器数据,机器人完成导航与避障的任务,需要获取多种传感器数据,其中包括里程计数据,RGB-D相机的点云数据,用于定位的传感器数据(基于2D激光,单目相机和RGB-D相机都有相应的定位算法)。
同步定位与建图SLAM是机器导航中的一个基础任务,可以描述为机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,从而实现机器人的自主定位和导航。
本发明使用ROS(机器人操作系统)的cartographer包提前绘制好环境地图,提供给全局路径规划模块,本实例中所建的地图如图8所示。本发明用ROS的AMCL(adaptiveMonte Carlo Localization)自适应蒙特卡洛定位包来进行实时的定位,AMCL接收里程计的数据与定位传感器的数据,采用基于粒子滤波的定位算法,输出机器人当前在地图中的位姿与速度,提供给DRL局部避障模块作为输入的一部分。
所述全局路径规划模块,基于SLAM模块生成的格子地图和环境感知数据,用A*算法规划出一条从机器人当前位置到目标点的全局路径,这条路径指引着机器人前进的大体方向,为局部3D避障模块提供了局部目标点。
所述数据预处理模块用于对采集的多传感器数据进行预处理;根据本发明的一个实施例,使用RGB-D相机作为环境感知传感器,它输出的点云数据需要经过下采样滤波器,稀疏离群值滤波器,高度滤波器的处理以后才能用来生成局部代价地图。
所述下采样滤波器具体如下:
为了保证系统的实时性,本发明需要减少点云数据的计算处理量,所以将点云转换为边长为5cm的三维体素网格,并使用所有体素的中心进行点云下采样。
所述稀疏离群值滤波器具体如下:
稀疏离群值滤波器是基于计算输入数据集中点到邻居距离的分布。对于每个点,本发明计算它到所有50个相邻点的平均距离,假设结果分布为具有平均值和标准差的高斯分布,所有平均距离的分布与高斯分布差异较大的点,可以认为是离群点并从点云集中剔除。
所述高度滤波器具体如下:
为了避免将天花板等高于机器人的物体当做障碍物,高度滤波器过滤了高于本发明的机器人高度1.35m的点。
所述局部地图生成模块如下:
本发明使用局部代价地图来表示由传感器感知的局部环境并且将局部地图作为DRL神经网络输入的一部分。本发明中的局部代价地图以特定的权值表示未知区域、可行驶区域和障碍物,可以将不同传感器探测到的障碍物以不同的权值叠加在地图上,从而更全面地描述局部环境,有融合多种传感器数据的潜力,本实施例中只采用了来自RGB-D相机的点云数据。
由于只考虑机器人在水平地面上移动的情况,所以将经过数据预处理的三维点云转换为2D的俯视图。如图2所示,局部地图初始化时假设周围都是未知区域(即深灰色区域),过滤后的点云数据会实时更新在局部代价地图上,其中高于5cm的点被视为障碍物,低于5cm的点被视为可行驶区域(即浅灰色区域)。机器人自身的形状(图中为中间的方形)也显示在局部代价地图上,通过判断机器人的像素点与障碍物的像素点是否有重合,就能判断机器人是否发生碰撞。
本发明的基于DRL的局部3D避障模块的输入包括三个部分:局部地图生成模块输出的局部代价地图,全局路径规划模块输出的局部目标点,以及SLAM模块输出的速度信息。这三个部分作为一个整体可以看做基于DRL的局部3D避障模块中机器人的state(状态),以state作为输入,经过决策网络的处理以后,输出DRL的action(动作),在此避障问题中action是机器人的线速度与角速度,线速度有0,0.2,0.4,0.6m/s共4个可选值,角速度有-0.9,-0.6,-0.3,0,0.3,0.6,0.9rad/m共7个可选值,所以可以组合出28种离散的控制速度。
决策网络的结构如图3所示,该网络首先使用3个卷积层将局部代价地图转化成厚度为64的特征地图,同时将目标点位置和机器人速度的值组合成的4维向量转换成64维的特征向量。然后,网络将这些特征值相加并展开,将结果输入LSTM(Long Short-TermMemory)长短期记忆单元。最后,该网络用两个全连接层和Dueling结构的网络来产生28个离散动作的Q值,选取Q值最大的离散动作作为最终输出的控制速度。其中Q值用来评估在一个特定状态s下,采用某个动作a以后一直用当前网络习得的策略π所能获得的总收益。
式中γ表示单步奖励R的衰减系数,本实例中γ=0.95。R表示在某个状态s下采用动作a的单步收益,当机器人靠近或者到达目标点时R的单步收益较大,当机器人与障碍物发生碰撞时R的数值为负,作为碰撞的惩罚。
本实例在如图4所示的仿真环境中训练DRL决策网络,通过让机器人与环境进行交互,收集大量导航避障经验,机器人为了最大化Q值,会逐渐学会朝目标点移动同时不与障碍物发生碰撞的导航避障策略。在图4所示的随机障碍物仿真场景中训练出收敛的导航避障策略以后,将该策略应用于如图5所示的类办公室仿真场景和图6所示的类咖啡厅仿真场景,均能成功地避开不同形状的3D障碍物并到达终点,证实了本发明的决策网络具有较强的泛化性。
然后将仿真中的训练结果迁移到实体机器人,如图7所示,实体机器人能够准确的避开高矮不一的纸箱和桌椅,实现3D避障,同时到达如图8所示的监控界面中黑色箭头所指的目标点,完成导航任务。
所述底盘控制模块
底盘控制模块负责将局部3D避障模块输出的线速度与角速度转换成差动底盘每个车轮的转速,并且控制车轮以该转速转动,让机器人按照规划的线速度与角速度运动,从而完成导航避障任务。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (9)
1.一种基于强化学习的3D避障导航系统,其特征在于,包括:
感知模块,用于获取多种传感器数据,包括里程计数据,RGB-D相机的点云数据,用于定位的传感器数据;
SLAM同步定位与建图模块,用于为机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,生成格子地图和环境感知数据,用于机器人的自主定位和导航;
全局路径规划模块,使用ROS的AMCL自适应蒙特卡洛定位包来进行实时的定位,AMCL接收里程计的数据与定位传感器的数据,采用基于粒子滤波的定位算法,输出机器人当前在地图中的位姿与速度,提供给DRL局部避障模块作为输入的一部分;基于SLAM同步定位与建图模块生成的格子地图和环境感知数据,用A*算法规划出一条从机器人当前位置到目标点的全局路径,这条路径指引着机器人前进的大体方向,为基于DRL的局部3D避障模块提供了局部目标点;
数据预处理模块,用于对感知模块采集的多传感器数据进行预处理;
局部地图生成模块,使用局部代价地图来表示由传感器感知的局部环境,并且将局部地图作为基于DRL的局部3D避障模块的神经网络输入的一部分;
基于DRL的局部3D避障模块,其输入包括三个部分:局部地图生成模块输出的局部代价地图,全局路径规划模块输出的局部目标点,以及SLAM同步定位与建图模块输出的速度信息;这三个部分作为一个整体作为基于DRL的局部3D避障模块中机器人的状态,以状态作为输入,经过决策网络的处理以后,输出动作,所述动作是机器人的线速度与角速度;
底盘控制模块,用于将局部3D避障模块输出的线速度与角速度转换成差动底盘每个车轮的转速,并且控制车轮以该转速转动,让机器人按照规划的线速度与角速度运动,从而完成导航避障任务。
2.根据权利要求1所述的一种基于强化学习的3D避障导航系统,其特征在于:
所述基于DRL的局部3D避障模块包括决策网络,该网络首先使用3个卷积层将局部代价地图转化成厚度为64的特征地图,同时将目标点位置和机器人速度的值组合成的4维向量转换成64维的特征向量;然后,网络将这些特征值相加并展开,将结果输入LSTM(LongShort-Term Memory)长短期记忆单元;最后,该网络用两个全连接层和Dueling结构的网络来产生28个离散动作的Q值,选取Q值最大的离散动作作为最终输出的控制速度;其中Q值用来评估在一个特定状态s下,采用某个动作a以后一直用当前网络习得的策略π所能获得的总收益:
式中γ表示单步奖励R的衰减系数,R表示在某个状态s下采用动作a的单步收益,当机器人靠近或者到达目标点时R的单步收益较大,当机器人与障碍物发生碰撞时R的数值为负,作为碰撞的惩罚。
3.根据权利要求2所述的一种基于强化学习的3D避障导航系统,其特征在于:
所述决策网络,通过让机器人与环境进行交互,收集历次导航避障经验,机器人为了最大化Q值,会逐渐学会朝目标点移动同时不与障碍物发生碰撞的导航避障策略。
4.根据权利要求1所述的一种基于强化学习的3D避障导航系统,其特征在于:
所述感知模块,使用RGB-D相机作为环境感知传感器,其输出的点云数据需要经过下采样滤波器,稀疏离群值滤波器,高度滤波器的处理以后才能用来生成局部代价地图。
5.根据权利要求4所述的一种基于强化学习的3D避障导航系统,其特征在于:
所述下采样滤波器,将点云转换为边长为5cm的三维体素网格,并使用所有体素的中心进行点云下采样。
6.根据权利要求4所述的一种基于强化学习的3D避障导航系统,其特征在于:
所述稀疏离群值滤波器:基于计算输入数据集中点到邻居距离的分布,对于每个点,计算它到所有50个相邻点的平均距离,假设结果分布为具有平均值和标准差的高斯分布,所有平均距离的分布与高斯分布差异大于阈值的点,认为是离群点并从点云集中剔除。
7.根据权利要求4所述的一种基于强化学习的3D避障导航系统,其特征在于:
所述高度滤波器,为了避免将高于机器人的物体当做障碍物,高度滤波器过滤了高于机器人高度的点。
8.根据权利要求1所述的一种基于强化学习的3D避障导航系统,其特征在于:
所述的局部地图生成模块,其中的局部代价地图以预定的权值表示未知区域、可行驶区域和障碍物,或将不同传感器探测到的障碍物以不同的权值叠加在地图上,从而更全面地描述局部环境,能够融合多种传感器数据。
9.一种基于强化学习的3D避障导航方法,其特征在于,包括如下步骤:
步骤1、感知模块获取多种传感器数据,包括里程计数据,RGB-D相机的点云数据,用于定位的传感器数据;
步骤2、SLAM同步定位与建图模块,根据感知模块获取的数据,用于为机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,生成格子地图和环境感知数据,用于机器人的自主定位和导航;
步骤3、全局路径规划模块使用ROS的AMCL自适应蒙特卡洛定位包来进行实时的定位,AMCL接收感知模块中里程计的数据与定位传感器的数据,采用基于粒子滤波的定位算法,输出机器人当前在地图中的位姿与速度,提供给DRL局部避障模块作为输入的一部分;基于SLAM同步定位与建图模块生成的格子地图和环境感知数据,用A*算法规划出一条从机器人当前位置到目标点的全局路径,这条路径指引着机器人前进的大体方向,为局部3D避障模块提供了局部目标点;
步骤4,数据预处理模块对感知模块采集的多传感器数据进行预处理,输入到局部地图生成模块;
步骤5、对于数据预处理模块预处理后的数据,局部地图生成模块使用局部代价地图来表示由传感器感知的局部环境,并且将局部地图作为基于DRL的局部3D避障模块中的神经网络输入的一部分;
步骤6、基于DRL的局部3D避障模块接收如下三部分输入:局部地图生成模块输出的局部代价地图,全局路径规划模块输出的局部目标点,以及SLAM同步定位与建图模块输出的速度信息;这三个部分作为一个整体作为基于DRL的局部3D避障模块中机器人的状态,以状态作为输入,经过决策网络的处理以后,输出动作,所述动作是机器人的线速度与角速度;
步骤7、底盘控制模块,将局部3D避障模块输出的线速度与角速度转换成差动底盘每个车轮的转速,并且控制车轮以该转速转动,让机器人按照规划的线速度与角速度运动,从而完成导航避障任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829113.8A CN111949032A (zh) | 2020-08-18 | 2020-08-18 | 一种基于强化学习的3d避障导航系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829113.8A CN111949032A (zh) | 2020-08-18 | 2020-08-18 | 一种基于强化学习的3d避障导航系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111949032A true CN111949032A (zh) | 2020-11-17 |
Family
ID=73342673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010829113.8A Pending CN111949032A (zh) | 2020-08-18 | 2020-08-18 | 一种基于强化学习的3d避障导航系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111949032A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767373A (zh) * | 2021-01-27 | 2021-05-07 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
CN112947484A (zh) * | 2021-03-31 | 2021-06-11 | 哈尔滨工业大学(深圳) | 一种密集行人环境下移动机器人的视觉导航方法及装置 |
CN112965081A (zh) * | 2021-02-05 | 2021-06-15 | 浙江大学 | 基于融合行人信息的特征地图的模仿学习社交导航方法 |
CN113108796A (zh) * | 2021-04-19 | 2021-07-13 | 北京有竹居网络技术有限公司 | 导航方法、装置、存储介质及设备 |
CN113189977A (zh) * | 2021-03-10 | 2021-07-30 | 新兴际华集团有限公司 | 一种用于机器人的智能导航路径规划系统及方法 |
CN113647262A (zh) * | 2021-07-23 | 2021-11-16 | 华南农业大学 | 一种树木几何整形修剪机器人系统及其作业方法 |
CN113848984A (zh) * | 2021-10-29 | 2021-12-28 | 哈尔滨工业大学 | 一种无人机集群控制方法及系统 |
CN114003035A (zh) * | 2021-10-28 | 2022-02-01 | 山东新一代信息产业技术研究院有限公司 | 一种机器人自主导航的方法、装置、设备及介质 |
CN116540747A (zh) * | 2023-07-06 | 2023-08-04 | 中国科学技术大学 | 一种避停优先的移动机器人运动规划与避障决策方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005293154A (ja) * | 2004-03-31 | 2005-10-20 | Hiroshima Univ | 障害物回避装置および移動体 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
KR20150097049A (ko) * | 2014-02-17 | 2015-08-26 | 경북대학교 산학협력단 | 네추럴 ui를 이용한 자율서빙 로봇 시스템 |
CN104932502A (zh) * | 2015-06-04 | 2015-09-23 | 福建天晴数码有限公司 | 基于三维深度摄像机的近距离避障方法及近距离避障系统 |
CN105843223A (zh) * | 2016-03-23 | 2016-08-10 | 东南大学 | 一种基于空间词袋模型的移动机器人三维建图与避障方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107065881A (zh) * | 2017-05-17 | 2017-08-18 | 清华大学 | 一种基于深度强化学习的机器人全局路径规划方法 |
CN108780154A (zh) * | 2016-03-14 | 2018-11-09 | 亿目朗欧洲股份有限公司 | 3d点云的处理方法 |
CN109900280A (zh) * | 2019-03-27 | 2019-06-18 | 浙江大学 | 一种基于自主导航的畜禽信息感知机器人与地图构建方法 |
WO2019137464A1 (en) * | 2018-01-12 | 2019-07-18 | Huawei Technologies Co., Ltd. | Robot navigation and object tracking |
CN110794832A (zh) * | 2019-10-21 | 2020-02-14 | 同济大学 | 一种基于强化学习的移动机器人路径规划方法 |
CN110908377A (zh) * | 2019-11-26 | 2020-03-24 | 南京大学 | 一种机器人导航空间约简方法 |
-
2020
- 2020-08-18 CN CN202010829113.8A patent/CN111949032A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005293154A (ja) * | 2004-03-31 | 2005-10-20 | Hiroshima Univ | 障害物回避装置および移動体 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
KR20150097049A (ko) * | 2014-02-17 | 2015-08-26 | 경북대학교 산학협력단 | 네추럴 ui를 이용한 자율서빙 로봇 시스템 |
CN104932502A (zh) * | 2015-06-04 | 2015-09-23 | 福建天晴数码有限公司 | 基于三维深度摄像机的近距离避障方法及近距离避障系统 |
CN108780154A (zh) * | 2016-03-14 | 2018-11-09 | 亿目朗欧洲股份有限公司 | 3d点云的处理方法 |
CN105843223A (zh) * | 2016-03-23 | 2016-08-10 | 东南大学 | 一种基于空间词袋模型的移动机器人三维建图与避障方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107065881A (zh) * | 2017-05-17 | 2017-08-18 | 清华大学 | 一种基于深度强化学习的机器人全局路径规划方法 |
WO2019137464A1 (en) * | 2018-01-12 | 2019-07-18 | Huawei Technologies Co., Ltd. | Robot navigation and object tracking |
CN109900280A (zh) * | 2019-03-27 | 2019-06-18 | 浙江大学 | 一种基于自主导航的畜禽信息感知机器人与地图构建方法 |
CN110794832A (zh) * | 2019-10-21 | 2020-02-14 | 同济大学 | 一种基于强化学习的移动机器人路径规划方法 |
CN110908377A (zh) * | 2019-11-26 | 2020-03-24 | 南京大学 | 一种机器人导航空间约简方法 |
Non-Patent Citations (3)
Title |
---|
GUANGDA CHEN,等: "Robot Navigation with Map-Based Deep Reinforcement Learning", 《ARXIV:2002.04349V1》 * |
刘国良: "ROS机器人导航", 《ROBOTDREAMSKY HTTPS://WENKU.BAIDU.COM/VIEW/B70E5289B7360B4C2F3F6497.HTML?FROM=SEARCH》 * |
王朝文: "室内移动机器人视觉定位导航系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767373B (zh) * | 2021-01-27 | 2022-09-02 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
CN112767373A (zh) * | 2021-01-27 | 2021-05-07 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
CN112965081A (zh) * | 2021-02-05 | 2021-06-15 | 浙江大学 | 基于融合行人信息的特征地图的模仿学习社交导航方法 |
CN112965081B (zh) * | 2021-02-05 | 2023-08-01 | 浙江大学 | 基于融合行人信息的特征地图的模仿学习社交导航方法 |
CN113189977A (zh) * | 2021-03-10 | 2021-07-30 | 新兴际华集团有限公司 | 一种用于机器人的智能导航路径规划系统及方法 |
CN112947484A (zh) * | 2021-03-31 | 2021-06-11 | 哈尔滨工业大学(深圳) | 一种密集行人环境下移动机器人的视觉导航方法及装置 |
CN113108796A (zh) * | 2021-04-19 | 2021-07-13 | 北京有竹居网络技术有限公司 | 导航方法、装置、存储介质及设备 |
WO2022222718A1 (zh) * | 2021-04-19 | 2022-10-27 | 北京有竹居网络技术有限公司 | 导航方法、装置、存储介质及设备 |
CN113108796B (zh) * | 2021-04-19 | 2023-10-20 | 北京有竹居网络技术有限公司 | 导航方法、装置、存储介质及设备 |
CN113647262A (zh) * | 2021-07-23 | 2021-11-16 | 华南农业大学 | 一种树木几何整形修剪机器人系统及其作业方法 |
CN114003035A (zh) * | 2021-10-28 | 2022-02-01 | 山东新一代信息产业技术研究院有限公司 | 一种机器人自主导航的方法、装置、设备及介质 |
CN113848984B (zh) * | 2021-10-29 | 2022-06-10 | 哈尔滨工业大学 | 一种无人机集群控制方法及系统 |
CN113848984A (zh) * | 2021-10-29 | 2021-12-28 | 哈尔滨工业大学 | 一种无人机集群控制方法及系统 |
CN116540747A (zh) * | 2023-07-06 | 2023-08-04 | 中国科学技术大学 | 一种避停优先的移动机器人运动规划与避障决策方法 |
CN116540747B (zh) * | 2023-07-06 | 2023-10-20 | 中国科学技术大学 | 一种避停优先的移动机器人运动规划与避障决策方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111949032A (zh) | 一种基于强化学习的3d避障导航系统及方法 | |
Gao et al. | Review of wheeled mobile robots’ navigation problems and application prospects in agriculture | |
Weerakoon et al. | Terp: Reliable planning in uneven outdoor environments using deep reinforcement learning | |
Cheng et al. | Topological indoor localization and navigation for autonomous mobile robot | |
Kim et al. | End-to-end deep learning for autonomous navigation of mobile robot | |
CN111308490B (zh) | 基于单线激光雷达的平衡车室内定位与导航系统 | |
CN107643752A (zh) | 基于行人轨迹预测的全向移动机器人路径规划算法 | |
Yang et al. | Mobile robot motion control and autonomous navigation in GPS-denied outdoor environments using 3D laser scanning | |
Zeng et al. | Mobile robot exploration based on rapidly-exploring random trees and dynamic window approach | |
Gajjar et al. | A comprehensive study on lane detecting autonomous car using computer vision | |
CN114488185A (zh) | 基于多线激光雷达的机器人导航系统方法及系统 | |
Zhou et al. | An autonomous navigation approach for unmanned vehicle in outdoor unstructured terrain with dynamic and negative obstacles | |
Dandurand et al. | All-weather autonomous inspection robot for electrical substations | |
CN116718190A (zh) | 一种长距离密集人群场景下的移动机器人路径规划方法 | |
CN116352722A (zh) | 多传感器融合的矿山巡检救援机器人及其控制方法 | |
Han et al. | Mobile robot navigation by circular path planning algorithm using camera and ultrasonic sensor | |
Niijima et al. | Autonomous navigation of electric wheelchairs in urban areas on the basis of self-generated 2D drivable maps | |
Li et al. | Object-Aware View Planning for Autonomous 3D Model Reconstruction of Buildings Using a Mobile Robot | |
Ebert et al. | Robust long-range teach-and-repeat in non-urban environments | |
Klaser et al. | Vision-based autonomous navigation with a probabilistic occupancy map on unstructured scenarios | |
Liu et al. | A robot obstacle avoidance approach with lidar and rgb camera data combined | |
Souza et al. | Path planning based on traversability evaluation from occupancy-elevation grid maps | |
Choi et al. | Robust modeling and prediction in dynamic environments using recurrent flow networks | |
Sun et al. | Personal Care Robot Navigation System Based on Multi-sensor Fusion | |
Gu et al. | A Review on Different Methods of Dynamic Obstacles Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201117 |
|
RJ01 | Rejection of invention patent application after publication |