CN117367404A

CN117367404A - 基于动态场景下slam的视觉定位建图方法及系统

Info

Publication number: CN117367404A
Application number: CN202311215551.5A
Authority: CN
Inventors: 储开斌; 郭培鑫; 张继; 冯成涛; 史孛远
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2024-01-09

Abstract

本发明涉及图像技术领域，尤其涉及基于动态场景下SLAM的视觉定位建图方法及系统，包括利用YOLOv7模型进行动态目标检测；使用深度相机获取RGB图像和对应深度图像，并传入ORB‑SLAM3系统，对当前帧图像进行特征点提取；获取动态物体检测框的位置及顶点坐标；剔除动态物体检测框中的特征点，并将剩余的特征点进行特征匹配及位姿估计；生成关键帧，利用关键帧来建立稠密点云地图。本发明通过在视觉SLAM前端去除动态特征点，通过去除动态特征点，仅使用剩余的静态特征点进行位姿估计，可以显著提高视觉SLAM系统在动态环境中的定位精度，并增强系统的鲁棒性和稳定性；并利用关键帧构建稠密点云地图用于后续导航工作。

Description

基于动态场景下SLAM的视觉定位建图方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及基于动态场景下SLAM的视觉定位建图方法及系统。

背景技术

同时定位与建图技术(Simultaneous Localization And Mapping,SLAM)是指机器人在没有任何先验知识的情况下，利用自身携带的环境感知传感器完成对周围未知环境地图的构建；在相关领域中，出现了许多优秀的开源视觉SLAM算法，如ORB-SLAM、RGBD-SLAM、OpenVSLAM等；这些算法的出现进一步推动了视觉SLAM技术的发展。

在传统的视觉SLAM算法中，通常基于静态环境假设进行建图和定位；然而，在实际环境中存在不断运动的物体，例如人、动物或车辆的移动，这导致机器人的位姿估计出现较大偏差，从而导致定位失败的问题。且传统的视觉SLAM算法构建的为稀疏点云地图，无法用来后续导航及路径规划。

发明内容

针对现有方法的不足，本发明通过在视觉SLAM前端去除动态特征点，通过去除动态特征点，仅使用剩余的静态特征点进行位姿估计；这样可以显著提高视觉SLAM系统在动态环境中的定位精度，并增强系统的鲁棒性和稳定性；最后利用关键帧构建稠密点云地图用于后续导航工作。

本发明所采用的技术方案是：基于动态场景下SLAM的视觉定位建图方法包括以下步骤：

步骤一、对YOLOv7网络模型进行训练，实现动态目标检测；

步骤二、使用深度相机获取RGB图像和对应深度图像，并传入ORB-SLAM3系统，对当前帧图像进行特征点提取；

进一步的，步骤二具体包括：

步骤21、构建图像金字塔模型，对RGB图像进行高斯模糊、降采样和分层级处理，利用FAST角点检测对每个层级提取特征点；

进一步的，提取特征点的公式为：

其中，N表示设置的总特征点数量，α代表当前层级，s表示图像金字塔各层级的缩放因子，n表示图像金字塔的总层级数。

步骤22、将每个层级划分为像素格子，并对每个像素格子提取FAST角点；

步骤23、采用四叉树法均匀选择N_α个角点。

步骤三、将当前帧RGB图像输入YOLOv7模型获取到动态物体的检测框，获得检测框的位置及顶点坐标；

步骤四、基于运动分析的方法剔除动态物体检测框中的特征点，并将剩余的特征点进行特征匹配及位姿估计；

进一步的，步骤四具体包括：

步骤41、将检测目标分为动态物体和静态物体；

步骤42、将在动态检测框中的特征点在相邻两帧之间进行特征匹配，当特征点的描述子的距离小于某个预设阈值时表示匹配成功；

步骤43、对于匹配到的特征点对，计算该特征点在图像平面上的位移Δx；

其中，(x₁,y₁)表示第一帧中特征点的坐标，(x₂,y₂)表示第二帧中相应特征点的坐标；

步骤44、通过RGB-D相机的帧率来确定相邻两帧的时间间隔Δt；

步骤45、根据像素位移和时间间隔计算特征点的速度v，(3)；

步骤46、当特征点的速度超过设定阈值时，判定为动态特征点；反之，则为静态特征点；

步骤47、剔除掉动态特征点，得到静态特征点；

步骤48、在相邻两帧之间进行特征匹配，结合位姿求解算法计算帧间位姿，采用RANSAC算法排除错误的匹配数据。

步骤五、生成关键帧，利用关键帧来建立稠密点云地图；

进一步的，步骤五具体包括：

步骤51、使用点云库生成当前关键帧的点云；

步骤52、将关键帧中静态特征点从二维像素坐标转换为三维空间坐标；并将历史关键帧的点云与当前关键帧的点云进行融合；

步骤53、根据ORB-SLAM3中获取的关键帧的位置信息，将所有点云连接在一起，形成一个完整的全局点云地图。

进一步的，基于动态场景下SLAM的视觉定位建图系统，包括：存储器，用于存储可由处理器执行的指令；处理器，用于执行指令以实现基于动态场景下SLAM的视觉定位建图方法。

进一步的，存储有计算机程序代码的计算机可读介质，计算机程序代码在由处理器执行时实现基于动态场景下SLAM的视觉定位建图方法。

本发明的有益效果：

1、根据特征点的相对位移、时间差计算特征点的速度，根据特征点速度判断为静态还是动态，计算方法简单；

2、本发明方法有效地应对了动态环境下的挑战，为视觉SLAM系统在实际场景中的应用提供了更可靠的解决方案；

3、将ORB-SLAM3系统与YOLOv7目标检测算法相结合，实现了对动态目标的实时识别和剔除；

4、通过将ORB-SLAM3和YOLOv7相互协作，相机的最优运动轨迹被计算出并生成关键帧；利用这些关键帧，能够提供更加鲁棒和准确的视觉定位，建立更加准确的稠密点云地图。

附图说明

图1是本发明的基于动态场景下SLAM的视觉定位建图方法流程图；

图2(a)表示本发明在fr3_walking_xyz下的绝对轨迹误差；图2(b)表示ORB-SLAM3在fr3_walking_xyz下的绝对轨迹误差；

图3是在TUM数据集上本发明构建稠密点云地图的建图效果。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，此图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，基于动态场景下SLAM的视觉定位建图方法包括以下步骤：

步骤一、对YOLOv7网络模型进行训练，获取到训练好的用来检测动态目标的YOLOv7模型，将训练好的YOLOv7模型在SLAM系统上进行部署；

选择COCO数据集对YOLOv7网络模型进行训练，获取训练好的用于检测动态目标的YOLOv7模型；利用官方提供的export.py脚本将训练好的模型文件转换为torchscript格式。将转换好的模型导入SLAM系统，并创建模型实例，使模型集成在SLAM系统中。

步骤二、使用深度相机获取RGB图像及其对应的深度图像，并传入ORB-SLAM3系统对当前帧图像进行特征点提取；

通过构建图像金字塔，使用FAST角点检测算法，并结合格子划分和四叉树法，可以获取适量且均匀分布的特征点，用于后续的特征描述和跟踪阶段。

首先需要构建图像金字塔模型，这涉及对原始RGB图像进行高斯模糊处理，并进行降采样，并分成多个层级；在每个层级上使用FAST角点检测算法提取特征点；根据每一层级金字塔面积所占比例分配每一层级特征点数量，通过公式(1)计算图像金字塔每层面积占比来分配每层提取的特征点数量N_α，公式：

其次，将构建的图像金字塔的每个层级划分为30×30像素的格子，并在每个格子中独立提取FAST角点；如果某个格子提取不到足够数量的FAST角点，则降低FAST角点阈值，确保纹理较弱的区域也能提取到角点。

最后，对提取到的FAST角点，采用四叉树法均匀选择N_α个角点，这样可以确保选取的特征点在整个图像中分布均匀，既能涵盖纹理丰富的区域，也考虑了纹理较弱的区域。

步骤三、将当前帧的RGB图像传入训练好的YOLOv7模型获取到动态物体的检测框；

传入当前帧图像并加载训练好的YOLOv7模型，对图像中的目标进行检测，YOLOv7网络首先对输入的图像进行预处理，将图像调整为640*640RGB图像；接着，将调整后的图像输入到网络的主干中；主干网络会生成三个不同尺寸的特征图；然后，特征图会经过一系列的RepVGG块和卷积层，在头部(head)层进行三类任务的预测，包括目标的分类、前后背景的分类以及边框的预测；最后，YOLOv7模型输出最终检测结果并获取到检测框的位置及检测框顶点坐标。

对于YOLOv7网络检测出的动态检测框，如果将其中的特征点都视为动态特征点，将会剔除大量特征点导致匹配的特征点对较少，使位姿估计不够准确；现有方法有利用光流法进行二次筛选，但在快速运动或者低纹理区域下效果又不太理想。

本发明采用运动分析法，通过计算特征点的像素位移的相对运动速度对动静态点进行划分；利用YOLOv7模型将获取到的检测目标分为动态物体和静态物体，在图像中找到动态物体检测框位置，采用运动分析法判断检测框中的动态特征点；首先将在动态检测框中的特征点在相邻两帧之间进行特征匹配，当特征点的描述子的距离小于某个预设阈值时表示匹配成功；对于匹配到的特征点对，计算该特征点在图像平面上的位移Δx，也可称为像素位移，是通过计算两个特征点在图像坐标系中的坐标差得到，计算公式：

其中，(x₁,y₁)表示第一帧中特征点的坐标，(x₂,y₂)表示第二帧中相应特征点的坐标。

再通过RGB-D相机的帧率来确定相邻两帧的时间间隔Δt；最后根据像素位移和时间间隔计算特征点的速度v，公式为：

根据运动分析法得到的结果对动态物体检测框中的特征点进行判定，当特征点的速度超过设定阈值时，判定为动态特征点；反之，则为静态特征点；最终剔除掉动态特征点，将当前帧剩余特征点归为静态特征点。

利用提取到的静态特征点，在相邻两帧之间进行特征匹配，在特征匹配过程中，采用RANSAC算法来排除错误的匹配数据；RANSAC算法用于帧间位姿估计；通过不断将错误匹配点设为局外点，并结合位姿求解算法，得到最优的位姿估计结果，最终通过静态特征点的匹配来计算帧间的准确位姿。

步骤五、生成关键帧，利用关键帧来建立稠密点云地图；

利用关键帧构建静态环境的稠密点云地图，首先使用点云库(Point CloudLibrary)生成当前关键帧的点云，将关键帧中静态特征点从二维像素坐标转换为三维空间坐标；然后将历史关键帧的点云与当前关键帧的点云进行融合，即将新的点云数据添加到点云地图中，进行局部建图；再经过回环检测线程进行地图的全局优化，不断更新全局点云，使它们成为一个更大的点云地图；最后，根据ORB-SLAM3中获取的关键帧的位置信息，将所有点云连接在一起，形成一个完整的全局点云地图。

仿真实验

基于动态场景下SLAM的视觉定位建图实验的仿真环境为：GPU NVIDIA GeForceRTX 3090Ti，CPU AMD Ryzen 7 5800x，Ubuntu18.04。选择公开数据集TUM DynamicObjects进行实验，选择该数据集中freiburg3_walking_xyz序列进行评估。

为了验证本发明在动态环境下的性能，分别使用ORB-SLAM3和本发明方法在数据集上实验并进行对比；图2是在TUM数据集上的绝对轨迹误差对比，其中，图2(a)表示本发明在fr3_walking_xyz下的绝对轨迹误差；图2(b)表示ORB-SLAM3在fr3_walking_xyz下的绝对轨迹误差；表1通过量化的方法对比两种方法在动态环境下绝对轨迹误差的均方根误差，实验表明本发明方法提高了视觉SLAM系统在动态环境中的定位精度。

表1 ORB-SLAM3与本发明方法的绝对轨迹误差的均方根误差(RMSE)

	ORB-SLAM3	Ours
			fr3_walking_xyz	0.3821	0.0120

由此可以看出，本发明方法通过将ORB-SLAM3和YOLOv7结合，并利用运动分析的方法，实现了对动态目标的识别和剔除，提高了视觉SLAM系统在动态环境中的定位精度。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.基于动态场景下SLAM的视觉定位建图方法，其特征在于，包括以下步骤：

步骤一、利用YOLOv7模型进行动态目标检测；

步骤五、生成关键帧，利用关键帧来建立稠密点云地图。

2.根据权利要求1所述的基于动态场景下SLAM的视觉定位建图方法，其特征在于，步骤二具体包括：

步骤23、采用四叉树法均匀选择特征点个角点。

3.根据权利要求2所述的基于动态场景下SLAM的视觉定位建图方法，其特征在于，提取特征点的公式为：

4.根据权利要求1所述的基于动态场景下SLAM的视觉定位建图方法，其特征在于，步骤四具体包括：

步骤41、将检测目标分为动态物体和静态物体；

步骤44、通过RGB-D相机的帧率来确定相邻两帧的时间间隔Δt；

步骤45、根据像素位移和时间间隔计算特征点的速度v，

步骤47、剔除动态特征点，得到静态特征点；

5.根据权利要求1所述的基于动态场景下SLAM的视觉定位建图方法，其特征在于，步骤五具体包括：

步骤51、使用点云库生成当前关键帧的点云；

6.基于动态场景下SLAM的视觉定位建图系统，其特征在于，包括：存储器，用于存储可由处理器执行的指令；处理器，用于执行指令以实现如权利要求1-5任一项所述的基于动态场景下SLAM的视觉定位建图方法。

7.存储有计算机程序代码的计算机可读介质，其特征在于，计算机程序代码在由处理器执行时实现如权利要求1-5任一项所述的基于动态场景下SLAM的视觉定位建图方法。