CN116263335A - 一种基于视觉与雷达信息融合与强化学习的室内导航方法 - Google Patents

一种基于视觉与雷达信息融合与强化学习的室内导航方法 Download PDF

Info

Publication number
CN116263335A
CN116263335A CN202310111079.4A CN202310111079A CN116263335A CN 116263335 A CN116263335 A CN 116263335A CN 202310111079 A CN202310111079 A CN 202310111079A CN 116263335 A CN116263335 A CN 116263335A
Authority
CN
China
Prior art keywords
robot
navigation
network
information
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310111079.4A
Other languages
English (en)
Inventor
张建明
姜朋
徐韩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310111079.4A priority Critical patent/CN116263335A/zh
Publication of CN116263335A publication Critical patent/CN116263335A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于视觉与雷达信息融合与强化学习的室内导航方法。为了克服现有机器人自主导航技术中机器人对于环境感知能力差,导致未知环境中机器人导航成功率低的问题,本发明包括:为小车安装激光雷达与RGB‑D视觉传感器,建立对应仿真小车模型,建立移动机器人的感知模块和决策模块,建立多阶段多模态信息融合框架和对应的的神经网络模型,采用近端策略优化算法根据奖励进行等价的优势函数计算;能够提高移动机器人对于环境的感知能力,从而更好地获取利用环境信息,结合深度强化学习决策能力的长处,帮助机器人获得自主学习的能力,从而在无地图的情况下进行导航。

Description

一种基于视觉与雷达信息融合与强化学习的室内导航方法
技术领域
本发明涉及智能机器人导航领域,尤其涉及一种基于视觉与雷达信息融合与强化学习的室内导航方法。
背景技术
对于各个领域的移动机器人来说,自主导航是移动机器人一项非常基本并且关键的能力。导航的基本目标是根据采集到的环境信息,在一定限制条件下,比如最短路径、最少的机械运动、无碰撞等,在自主避障的同时实现路径规划。在部分现有场景下,尤其是只有静态障碍物的简单环境中,传统的导航算法已经实现了较好的效果,但是由于其对环境模型精度的高度依赖性,在实际的比较复杂、动态多变甚至未知的导航环境中导航效果欠佳。
传统的激光SLAM导航模式在有较多不规则障碍物(如办公椅等)的室内环境下表现不好,不能成功躲避障碍物。基于视觉的端到端导航算法又因为图像信息维度过高而导致收敛速度较慢,表现效果不好。激光雷达点云可以主动感知较大水平范围内的物体,受光照条件的影响较小,但纵向视角范围较小;而深度图像的纵向视角范围较大,但是横向视角范围较小,且获取到的是二维深度图像,较激光雷达数据维度更高;RGB图像所提供的纹理等视觉信息则可以被用于更高精度的视觉任务,但是受光照条件影响较大。而且由于多传感器信息的融合框架尚未确定,直接引入视觉图像会导致感知信息维度增高,导致系统对环境的认知能力较差。
例如,一种在中国专利文献上公开的“一种基于激光雷达的仓储机器人室内建图导航系统”,其公告号CN113093761A,包括仓储机器人,用于利用激光雷达自动扫描周围环境,获得激光数据点集,基于激光数据点集采用逼近同步定位与建图算法构建二维栅格地图时,利用最小二乘法或奇异值分解对激光数据点集进行位姿估计,根据位姿估计结果构建二维栅格地图并实时更新到仓库系统,还用于基于二维栅格地图,运用迪杰斯特拉算法确定最优路径,根据最优路径进行定位导航;仓库系统,用于接收并存储二维栅格地图,并向仓储机器人发送指令信息;移动控制端,用于向仓储机器人发送指令信息。由于在二维栅格地图定位时对于远近物体均采用相同精度表示,因此需要弥补其精度差缺陷,而此方案中并未进行相应弥补操作,因此容易产生导航或定位误差,因此该方案存在一定的缺陷。
发明内容
本发明主要解决现有机器人自主导航技术中机器人对于环境感知能力差,导致未知环境中机器人导航成功率低的问题;提供一种基于视觉与雷达信息融合与强化学习的室内导航方法,能够提高移动机器人对于环境的感知能力,从而更好地获取利用环境信息,结合深度强化学习决策能力的长处,帮助机器人获得自主学习的能力,从而在无地图的情况下进行导航。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
本发明包括:为小车安装激光雷达与RGB-D视觉传感器,激光雷达与视觉传感器均安装在小车前方,并使用URDF文件,建立对应仿真小车模型;分别建立移动机器人的感知模块和决策模块,建立多阶段多模态信息融合框架和对应的的神经网络模型,采用近端策略优化算法根据奖励进行等价的优势函数计算,从而调整选择行为概率;搭载训练好的感知模块和待训练的决策模块,将仿真小车放在不同的仿真环境中进行训练;在真实场景中对机器人施加导航指令并获取目标点向量,机器人获取导航基础信息并生成环境特征向量,结合目标点向量和环境特征响铃输入决策模块,决策模块控制机器人完成避障导航。
作为优选,所述的神经网络模型包括六个子网络:RGB图像编码子网络、图像语义分割子网络、激光雷达数据编码子网络、先验知识利用模块、目标点信息处理模块和包含两个全连接层与长短期记忆网络的解码子网络;通过仿真小车模型采集到的物品集对神经网络模型进行训练,得到训练好的感知模块。此步骤中将RGB视觉信息进行二值化语义分割以提取较为抽象的中级特征,从而减小虚拟环境和真实环境之间的差异对导航过程的影响。
作为优选,对于静态障碍物分布的环境,采用Actor-Critic网络架构,输出动作采用连续动作空间,其中Critic网络预估状态价值函数,Actor网络输出动作概率分布参数,训练过程中通过对历史动作分布进行采样得到动作,测试时直接将分布的均值作为动作输出;对于动态障碍物分布的环境,则将导航过程建模为部分可观马尔科夫决策问题,引入长短期记忆网络进行建模求解。为了求解部分可观马尔科夫决策问题问题,并且避免维度爆炸,此步骤中采用长短期记忆网络网络对智能体观测历史的序列数据进行建模,拟合出智能体的置信度,从而进行求解。为了体现长短期记忆网络的推理优势和增加轨迹平滑性,输出未来3s内的动作序列,并将输出向量添加到下一次规划过程的状态向量中。
作为优选,所述的多模态融合框架中采取多阶段融合方法,将深度图像与配准后的彩色图像进行融合,只考虑不可行区域的深度,作为后续得到伪激光雷达数据的基础;将伪激光雷达数据与激光雷达数据进行融合,对深度摄像头视角范围内的激光雷达数据进行校正,最终得到校正后的激光雷达数据用于后续导航。
作为优选,将小车视作智能体,随机初始化智能体位置与导航目标点,智能体根据获取的信息进行相应动作,环境基于奖励函数和传感器信息,完成一次交互并将交互数据存入经验回放池;经验回放池中数据达到设定阈值时,取出数据并计算状态价值和优势函数,以最大化actor网络输出动作的优势为目的计算Actor网络的损失函数;使用梯度上升法更新智能体的网络参数,使用新的网络参数输出动作,与环境继续交互至训练结束,得到训练好的决策模块,从而得到完整的移动机器人端到端导航系统。此步骤中训练过程由浅入深,通过添加动态障碍物和增加道路复杂度等方法,逐渐增加环境复杂度,避免训练初期收敛太慢,而且增强导航算法的泛化能力。
作为优选,将机器人放在真实场景中,对机器人施加目标点的导航指令,机器人的目标处理模块对指令加以处理,得到目标点向量;机器人根据每个时刻获取的基础信息,将传感器获取的如上信息和导航信息输入到训练好的感知模块中,利用多模态信息融合框架进行信息融合,获取环境特征向量;所述基础信息包括的RGB图像信息、深度图像信息和激光雷达点云信息;将上述步骤中得到的环境特征输入训练好的决策模块,PPO算法根据输入的特征向量输出该时刻机器人的动作指令,直至机器人到达终点,完成导航任务。
作为优选,所述的奖励函数包括安全性能指标、效率性指标和轨迹优化性能指标;所述安全性能指标包括碰撞障碍物负奖励和与障碍物的距离负奖励,效率性指标包括到达终点正奖励、相邻时刻与终点距离差分的正奖励,轨迹优化性能指标包括加速度大小的负奖励、相邻时刻间的角速度方向差值的负奖励;能够有效避免奖励稀疏的问题,改善训练效果。
本发明的有益效果是:
1.本发明的一种基于视觉与雷达信息融合与强化学习的室内导航方法,通过融合RGB图像数据与深度图像数据、在深度摄像头可见范围内对激光雷达数据进行校正,得到多阶段多模态融合框架,减小强化学习算法训练过程和实际过程之间的虚拟环境和真实环境之间的差别,针对存在不规则障碍物的室内导航场景提升多模感知效果;
2.本发明的一种基于视觉与雷达信息融合与强化学习的室内导航方法,使用深度强化学习提升决策能力,采用适用于连续空间的PPO强化学习算法,并引入长短期记忆网络,对导航过程的序列数据进行建模,从而使其具有一定的推测能力,提升机器人的自主学习能力;3.本发明的一种基于视觉与雷达信息融合与强化学习的室内导航方法,提取抽象特征,使用语义特征改善环境特征提取效果,通过按次序修改训练地图逐渐增加导航难度,提升机器人泛化能力,改善机器人导航效果,提高机器人在动态未知环境中的导航成功率;
4.本发明的一种基于视觉与雷达信息融合与强化学习的室内导航方法,使用长短期记忆网络处理时序数据,通过将可能含有动态障碍物的环境中导航过程建模为部分可观马尔可夫决策过程,利用同一次导航过程中的历史数据,输出未来多个时刻的动作,并将其加入到下一次规划时的状态空间中,从而使机器人具有一定推理能力,并提高轨迹平滑性。
附图说明
图1是本发明的一种基于视觉与雷达信息融合与强化学习的室内导航方法流程图;
图2是本发明的一种基于视觉与雷达信息融合与强化学习的室内导航方法的小车导航算法框架图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本实施例的一种基于视觉与雷达信息融合与强化学习的室内导航方法,如图1所示,包括以下步骤:
步骤1:将激光雷达和RGB-D视觉传感器安装在自动导引小车(本发明采用Turtlebot 2小车作为实验车辆)上,激光雷达和RGB-D视觉传感器都安装在小车前方,并给激光雷达(水平面360°范围)预留出扫描的空间,避免遮挡,视觉传感器指向前进方向,本发明使用Kinect V2作为视觉传感器。使用URDF文件完成小车及传感器的建模,创建机器人仿真模型,用于后续在仿真环境训练网络模型使用,图2为小车整体的导航算法框架。
步骤2:完成如图2所示的自动导引小车的感知模块的建立,建立多阶段多模态信息融合框架,建立相应的神经网络模型,该神经网络模型包括六个子网络:RGB图像编码子网络、图像语义分割子网络、激光雷达数据编码子网络、激光雷达数据校正模块、目标点信息处理模块和包含三个全连接层与长短期记忆网络单元的解码子网络。虚拟环境与现实环境之间外观、照明有较明显差异,RGB图像会受到较大的影响,所以RGB图像不能直接用于路径规划,为了缩小虚拟环境与真实环境之间差异对其造成的影响。
一方面要进行数据增强处理,以便于后续提取特征;另一方面,要将其替换为更抽象的视觉中级特征表示-语义分割图像,之后将其与深度图像融合,以较好地过滤掉深度图像中可能会影响导航效果的干扰因子,而尽量多地保留规划和控制所需的重要特征,从而尽可能支持不同场景的泛化。
激光雷达传感器获取的点云图可以提供深度信息,但是计算量较大。因此需要对其进行投影处理,在常见的前向视角投影和鸟瞰视角投影中,基于前向视角的极点栅格映射可以不丢失点云图中的点,所以采用极点栅格映射方法处理点云图数据,得到以自车为中心的全向距离数组。对于多模态信息的特征融合,使用RGB图像的二值化语义分割结果,与经过配准操作后的深度图像进行融合,在深度图像中只保留不可通行区域的深度数据,并且按列取最小值,实现深度图像数据的降维。
得到处理后的伪激光雷达数据后,在深度图像数据的视角范围内,与激光雷达数据进行融合,取同样位置上的深度最小值用于后续导航,实现对激光雷达数据的校正。在训练过程中,使用多种场景,改变光照、障碍物形状与位置、可行道路的形状与宽度等,在预训练网络上通过采集当前场景下的图片进行微调,完成对于传感器信息的特征提取。各步骤具体介绍如下。
使用仿真小车模型在室内物品数据集上对语义分割网络进行训练,将预训练好的网络使用采集到的虚拟环境中的图片和实验真实环境中采集到的图片进行微调(fine-tune),使网络在实验环境中的分割准确率更高。室内物品数据集使用MIT开源的经典语义分割数据集ADE20k室内物品数据集,同时为了使得网络可以提取更为抽象的中级特征以减小后续从虚拟环境迁移到真实环境中受到的环境差异带来的影响,对数据集中的标签文件进行修改,修改为可通行与不可通行两种标签。为了在实验相关场景中提高语义分割精确度,在预训练网络的基础上基于虚拟环境和真实环境中的图片进行微调。训练过程基于监督学习进行,语义分割的结果是图中每个像素点附着有对应的标签,0代表不可通行,1代表可通行。
将RGB图像与深度图像进行配准,且由于深度摄像头的视角范围小于RGB图像,所以配准过程是把深度图像的像素点附着上对应的RGB数据,得到配准后的图像,之后只考虑不可通行区域的距离数值,并且为了减小深度摄像头测量误差和个别数据错误的像素点对结果的影响,取最小值时选取连续长度大于最小阈值的不可达区域,从而减少测量错误的误差,之后每一列只保留一个距离数值,从而实现二维深度图像的降维,得到伪激光雷达数据,并将其和一维激光雷达对应横向角度范围的数据进行对应位置处最小值的更新,实现对一维激光雷达数据的校正,得到校正后的激光雷达数据。
步骤3:完成如图4所示的移动机器人的决策模块的建立,利用深度强化学习算法,建立相应的神经网络模型,采用近端策略优化算法(Proximal Policy Optimizationalgorithm,PPO),这是一种适用于高维连续动作空间的on-policy的策略梯度算法,根据奖励进行等价的优势函数计算,从而直接对选择行为的可能性进行调整,优势函数计算式如式(1)所示:
Figure BDA0004076806770000051
PPO使用Actor-Critic架构,Critic网络负责估计状态价值函数,目的是为了估计状态价值函数更加准确。在本方法中,输出动作采用连续动作空间,所以Actor网络负责输出动作分布参数,目的是输出的动作可以获得最大的优势函数值,在训练时可以通过对上述分布进行采样得到动作以增强探索性,测试时根据输出的动作分布参数中的均值直接输出动作数值。为了提高对于采样数据的利用率,PPO算法采用重要性采样,使用当前优化的策略和探索环境的策略之间的差距对进行更新的损失函数进行校正,并通过预设参数对其进行限制,从而避免更新后的新策略过度远离旧策略。
此外,本发明对PPO算法针对含有动态障碍物的室内场景进行了如下改进:
奖励函数重构:奖励函数是强化学习中驱动智能体学习策略的重要信号,包括安全性能指标(碰撞障碍物负奖励、到达终点正奖励、与障碍物的距离负奖励)和轨迹优化性能指标(线速度的加速度大小的负奖励、角速度变化量大小的负奖励)等。
添加LSTM网络层:PPO的actor和critic网络本身是多层感知机(MLP)结构,使用三层全连接层,不具备对序列数据进行长短期分别建模的能力,本发明通过在多层感知机中进行修改,把中间的全连接层修改为LSTM层,用LSTM网络的单元状态(cell state)拟合部分可观马尔科夫决策过程中的隐藏状态(hidden state),从而实现求解。
输出多个动作分布参数:原有导航算法输出下一时刻的动作,适用于环境变化不大、无需对未来状态进行推测的情况。本发明输出多个动作分布参数,代表未来3s内的动作序列,体现出对未来3s时间窗内周围环境状态的预测,并且将动作序列作为下一个规划时刻的状态输入的一部分,改善预测效果和轨迹平滑性。
状态空间由三部分构成:校正后的激光雷达信息、目标点与小车的相对位置和小车动作,校正后的激光雷达信息和目标信息由感知模块生成,小车动作表示小车上一时刻输出的线速度与角速度序列。
动作空间采用连续动作空间,虽然离散动作更容易收敛,但是相应解空间较小,可能导致陷入局部最优,并且会导致小车轨迹不够平滑,考虑到强化学习算法PPO可适用于连续状态空间,本发明采用连续动作空间,线速度v范围是[0,1.8]m/s,角速度ω范围是[-π/3,π/3]rad/s。
步骤4:搭载训练好的感知模块和待训练的决策模块,将仿真小车放在不同的仿真环境中进行训练。基于强化学习训练导航策略,需要大量的智能体与环境的交互数据,考虑到环境搭建难度、获取信息难易程度和模型在实车上部署难度等因素,本发明采用Gazebo搭建仿真环境,可直接加载步骤1中对小车建模得到的URDF文件。为了避免训练初期环境过于复杂导致的网络收敛速度过慢,探索成功率过低导致训练过程太慢等问题,采用由浅入深,逐步增加环境复杂度的设计思想,由最简单的20*20环境中的静态障碍物,逐步增大环境面积和环境复杂度,采用域随机数据生成的方法添加动态障碍物和长直走廊等传统算法较难应对的复杂场景,逐渐完成决策模块的强化学习算法模型的训练。
把仿真小车视作智能体,随机初始化智能体位置与导航目标点,初始化大小为4000的经验回放池用于存放交互数据进行强化学习模型参数更新,经验回放池可以存储智能体与环境的交互过程的信息,提高样本的利用效率,避免在线交互对于硬件性能的过高要求。并且回放池可以按照完整的交互数据进行存取,从而可以得到完整的交互序列用于训练含有LSTM层的PPO网络。PPO算法对于经验池中的同一批样本分成多个微小批次(Mini-batch)并重复利用多次,同时在计算策略梯度时限制参数更新幅度,从而避免产生训练不稳定性,在本发明中,把一批样本中的同一个完整导航过程中的交互数据划分为同一个微小批次,从而保持对应数据的时序相关性。
具体训练过程如下,首先初始化Critic网络Qθ和Actor网络
Figure BDA0004076806770000071
对应参数分别为θ,
Figure BDA0004076806770000072
初始化经验回放池。把感知模块输出的环境特征向量、目标点信息向量和小车上一时刻规划得到的线速度与角速度向量拼接,作为状态输入st,经过Actor网络,得到智能体动作分布参数,在本发明中,使用正态分布作为智能体动作采样的依据,所以Actor网络得到的是动作分布的均值μ和方差σ,对上述分布进行采样得到动作指令向量记为at,即线速度与角速度,本发明输出6个动作分布,从而可以得到按时序排列的未来3s内的动作序列,之后智能体根据动作指令进行第一个动作,获取环境给予的对应奖励rt和新的传感器信息,经过感知模块可得到下一时刻的状态输入st+1,从而完成一次与环境的交互,把交互数据和结束标志(st,at,rt,st+1,done)存入经验回放池,重复如上过程至到达目标点或与障碍物发生碰撞后,本轮交互结束,回到起点,进行下一轮交互。待经验回放池中的数据达到一定数量后,取出数据更新智能体的网络参数。从中随机取出8条完整导航序列中的所有交互数据,之后开始更新网络。
更新Actor网络,Actor网络的目的是输出的动作优势尽可能大,取出交互数据后,首先利用Critic网络计算得到各时刻所处状态的状态价值,之后使用式(1)计算得到每个状态下的优势函数
Figure BDA0004076806770000073
使用式(2)作为Loss函数,使用梯度上升法更新多步梯度。
Figure BDA0004076806770000074
更新Critic网络,基于多步TD方法,使用式(3),从当前状态开始,用每一步环境返回的奖励与折扣因子相乘后累加,得到折扣回报Gt,使用Gt和Critic网络预测的当前状态价值v(st)之间的均方损失函数作为loss函数进行梯度下降训练。
Gt=rt+1+γrt+2+…+γT-trT+1T+1-tv(sT+1) (3)
其中,γ表示奖励折扣参数,v(sT+1)表示Critic网络输出的T+1时刻的状态价值。
之后清空缓存池数据,使用新的网络参数输出动作,与环境继续交互,直至训练结束。训练完毕后,得到训练好的决策模块,从而得到完整的移动机器人端到端导航系统。
步骤5:将机器人放在真实场景中,真实场景可以与虚拟环境不同,用于测试导航方法的泛化性能。对机器人施加目标点的导航指令,即目标位置相对于机器人位置向量,之后机器人的目标处理模块对指令向量加以处理,得到目标点向量(xt,yt);
步骤6:机器人每个时刻由安装好的视觉传感器与激光雷达传感器获取RGB-D图像信息、激光雷达点云信息,将其和导航目标点信息输入到训练好的感知模块中,利用步骤2得到的多模态信息融合框架进行信息融合,获取环境特征向量;
步骤7:将步骤6中得到的环境特征向量和小车当前线速度与角速度向量拼接后,输入训练好的决策模块,PPO算法会根据输入的特征向量输出该时刻机器人的动作指令,直至机器人到达终点,完成导航任务。
应理解,实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (7)

1.一种基于视觉与雷达信息融合与强化学习的室内导航方法,其特征在于,包括:
S1:为小车安装激光雷达与RGB-D视觉传感器,激光雷达与视觉传感器均安装在小车前方,并使用URDF文件,建立对应仿真小车模型;
S2:分别建立移动机器人的感知模块和决策模块,建立多阶段多模态信息融合框架和对应的的神经网络模型,采用近端策略优化算法根据奖励进行等价的优势函数计算,从而调整选择行为概率;
S3:搭载训练好的感知模块和待训练的决策模块,将仿真小车放在不同的仿真环境中进行训练;
S4:在真实场景中对机器人施加导航指令并获取目标点向量,机器人获取导航基础信息并生成环境特征向量,结合目标点向量和环境特征响铃输入决策模块,决策模块控制机器人完成避障导航。
2.根据权利要求1所述的一种基于视觉与雷达信息融合与强化学习的室内导航方法,其特征在于,S2中所述神经网络模型包括六个子网络:RGB图像编码子网络、图像语义分割子网络、激光雷达数据编码子网络、先验知识利用模块、目标点信息处理模块和包含两个全连接层与长短期记忆网络的解码子网络;S2步骤还包括S2.1:通过仿真小车模型采集到的物品集对神经网络模型进行训练,得到训练好的感知模块。
3.根据权利要求1所述的一种基于视觉与雷达信息融合与强化学习的室内导航方法,其特征在于,S2.2:对于静态障碍物分布的环境,采用Actor-Critic网络架构,输出动作采用连续动作空间,其中Critic网络预估状态价值函数,Actor网络输出动作概率分布参数,训练过程中通过对历史动作分布进行采样得到动作,测试时直接将分布的均值作为动作输出;对于动态障碍物分布的环境,则将导航过程建模为部分可观马尔科夫决策问题,引入长短期记忆网络进行建模求解。
4.根据权利要求1所述的一种基于视觉与雷达信息融合与强化学习的室内导航方法,其特征在于,多模态融合框架中采取多阶段融合方法,将深度图像与配准后的彩色图像进行融合,只考虑不可行区域的深度,作为后续得到伪激光雷达数据的基础;将伪激光雷达数据与激光雷达数据进行融合,对深度摄像头视角范围内的激光雷达数据进行校正,最终得到校正后的激光雷达数据用于后续导航。
5.根据权利要求1或2或3或4所述的一种基于视觉与雷达信息融合与强化学习的室内导航方法,其特征在于,S3.1:将小车视作智能体,随机初始化智能体位置与导航目标点,智能体根据获取的信息进行相应动作,环境基于奖励函数和传感器信息,完成一次交互并将交互数据存入经验回放池;S3.2:经验回放池中数据达到设定阈值时,取出数据并计算状态价值和优势函数,以最大化actor网络输出动作的优势为目的计算Actor网络的损失函数;使用梯度上升法更新智能体的网络参数,使用新的网络参数输出动作,与环境继续交互至训练结束,得到训练好的决策模块,从而得到完整的移动机器人端到端导航系统。
6.根据权利要求5所述的一种基于视觉与雷达信息融合与强化学习的室内导航方法,其特征在于,S4.1:将机器人放在真实场景中,对机器人施加目标点的导航指令,机器人的目标处理模块对指令加以处理,得到目标点向量;S4.2:机器人根据每个时刻获取的基础信息,将传感器获取的如上信息和导航信息输入到训练好的感知模块中,利用多模态信息融合框架进行信息融合,获取环境特征向量;所述基础信息包括的RGB图像信息、深度图像信息和激光雷达点云信息;S4.3:将步骤S4.2中得到的环境特征输入训练好的决策模块,PPO算法根据输入的特征向量输出该时刻机器人的动作指令,直至机器人到达终点,完成导航任务。
7.根据权利要求5所述的一种基于视觉与雷达信息融合与强化学习的室内导航方法,其特征在于,所述奖励函数包括安全性能指标、效率性指标和轨迹优化性能指标;所述安全性能指标包括碰撞障碍物负奖励和与障碍物的距离负奖励,效率性指标包括到达终点正奖励、相邻时刻与终点距离差分的正奖励,轨迹优化性能指标包括加速度大小的负奖励、相邻时刻间的角速度方向差值的负奖励。
CN202310111079.4A 2023-02-07 2023-02-07 一种基于视觉与雷达信息融合与强化学习的室内导航方法 Pending CN116263335A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310111079.4A CN116263335A (zh) 2023-02-07 2023-02-07 一种基于视觉与雷达信息融合与强化学习的室内导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310111079.4A CN116263335A (zh) 2023-02-07 2023-02-07 一种基于视觉与雷达信息融合与强化学习的室内导航方法

Publications (1)

Publication Number Publication Date
CN116263335A true CN116263335A (zh) 2023-06-16

Family

ID=86723867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310111079.4A Pending CN116263335A (zh) 2023-02-07 2023-02-07 一种基于视觉与雷达信息融合与强化学习的室内导航方法

Country Status (1)

Country Link
CN (1) CN116263335A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116608866A (zh) * 2023-07-20 2023-08-18 华南理工大学 基于多尺度细粒度特征融合的图片导航方法、装置及介质
CN116824303A (zh) * 2023-07-06 2023-09-29 哈尔滨工业大学 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法
CN116909280A (zh) * 2023-07-20 2023-10-20 山东科技大学 一种基于视觉感知的强化学习双层决策agv避障方法
CN117114088A (zh) * 2023-10-17 2023-11-24 安徽大学 一种基于统一ai框架的深度强化学习智能决策平台
CN117234216A (zh) * 2023-11-10 2023-12-15 武汉大学 一种机器人深度强化学习运动规划方法及计算机可读介质
CN117406706A (zh) * 2023-08-11 2024-01-16 汕头大学 结合因果模型和深度强化学习的多智能体避障方法及系统
CN117451030A (zh) * 2023-10-25 2024-01-26 哈尔滨工业大学 一种基于场景自适应的多模态融合slam方法
CN117724478A (zh) * 2023-11-27 2024-03-19 上海海事大学 一种自动化集装箱码头agv路径规划方法
CN117911829A (zh) * 2024-03-15 2024-04-19 山东商业职业技术学院 车辆导航的点云图像融合方法及系统
CN117949942A (zh) * 2024-03-26 2024-04-30 北京市计量检测科学研究院 基于雷达数据和视频数据融合的目标跟踪方法及系统
CN118010009A (zh) * 2024-04-10 2024-05-10 北京爱宾果科技有限公司 一种教育机器人在复杂环境下的多模态导航系统
CN118466557A (zh) * 2024-07-10 2024-08-09 北京理工大学 无人机高速导航与避障方法、系统、终端及存储介质

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824303A (zh) * 2023-07-06 2023-09-29 哈尔滨工业大学 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法
CN116824303B (zh) * 2023-07-06 2024-01-26 哈尔滨工业大学 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法
CN116608866A (zh) * 2023-07-20 2023-08-18 华南理工大学 基于多尺度细粒度特征融合的图片导航方法、装置及介质
CN116608866B (zh) * 2023-07-20 2023-09-26 华南理工大学 基于多尺度细粒度特征融合的图片导航方法、装置及介质
CN116909280A (zh) * 2023-07-20 2023-10-20 山东科技大学 一种基于视觉感知的强化学习双层决策agv避障方法
CN117406706B (zh) * 2023-08-11 2024-04-09 汕头大学 结合因果模型和深度强化学习的多智能体避障方法及系统
CN117406706A (zh) * 2023-08-11 2024-01-16 汕头大学 结合因果模型和深度强化学习的多智能体避障方法及系统
CN117114088A (zh) * 2023-10-17 2023-11-24 安徽大学 一种基于统一ai框架的深度强化学习智能决策平台
CN117114088B (zh) * 2023-10-17 2024-01-19 安徽大学 一种基于统一ai框架的深度强化学习智能决策平台
CN117451030A (zh) * 2023-10-25 2024-01-26 哈尔滨工业大学 一种基于场景自适应的多模态融合slam方法
CN117234216B (zh) * 2023-11-10 2024-02-09 武汉大学 一种机器人深度强化学习运动规划方法及计算机可读介质
CN117234216A (zh) * 2023-11-10 2023-12-15 武汉大学 一种机器人深度强化学习运动规划方法及计算机可读介质
CN117724478A (zh) * 2023-11-27 2024-03-19 上海海事大学 一种自动化集装箱码头agv路径规划方法
CN117911829A (zh) * 2024-03-15 2024-04-19 山东商业职业技术学院 车辆导航的点云图像融合方法及系统
CN117911829B (zh) * 2024-03-15 2024-05-31 山东商业职业技术学院 车辆导航的点云图像融合方法及系统
CN117949942A (zh) * 2024-03-26 2024-04-30 北京市计量检测科学研究院 基于雷达数据和视频数据融合的目标跟踪方法及系统
CN117949942B (zh) * 2024-03-26 2024-06-07 北京市计量检测科学研究院 基于雷达数据和视频数据融合的目标跟踪方法及系统
CN118010009A (zh) * 2024-04-10 2024-05-10 北京爱宾果科技有限公司 一种教育机器人在复杂环境下的多模态导航系统
CN118010009B (zh) * 2024-04-10 2024-06-11 北京爱宾果科技有限公司 一种教育机器人在复杂环境下的多模态导航系统
CN118466557A (zh) * 2024-07-10 2024-08-09 北京理工大学 无人机高速导航与避障方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN116263335A (zh) 一种基于视觉与雷达信息融合与强化学习的室内导航方法
Singla et al. Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge
CN112937564B (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN111123963B (zh) 基于强化学习的未知环境自主导航系统及方法
CN110136481B (zh) 一种基于深度强化学习的停车策略
US11561544B2 (en) Indoor monocular navigation method based on cross-sensor transfer learning and system thereof
CN107450593B (zh) 一种无人机自主导航方法和系统
CN111061277A (zh) 一种无人车全局路径规划方法和装置
CN111210518A (zh) 基于视觉融合地标的拓扑地图生成方法
CN115285143B (zh) 一种基于场景分类的自动驾驶车辆导航方法
CN112378397B (zh) 无人机跟踪目标的方法、装置及无人机
Bipin et al. Autonomous navigation of generic monocular quadcopter in natural environment
CN112380933B (zh) 无人机识别目标的方法、装置及无人机
CN114020013B (zh) 一种基于深度强化学习的无人机编队避撞方法
Katyal et al. High-speed robot navigation using predicted occupancy maps
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
CN112114592B (zh) 一种实现无人机自主穿越可移动框形障碍物的方法
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
Guo et al. A deep reinforcement learning based approach for AGVs path planning
CN113064422B (zh) 基于双神经网络强化学习的自主水下航行器路径规划方法
CN114493013A (zh) 基于强化学习的智能体路径规划方法、电子设备及介质
CN117055601B (zh) 一种无人机送餐路径规划方法、装置、设备及存储介质
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
Cao et al. Unsupervised visual odometry and action integration for pointgoal navigation in indoor environment
CN117666577A (zh) 一种基于深度强化学习的移动机器人运动规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination