CN117611677A

CN117611677A - 一种基于目标检测和结构化特征的机器人定位方法

Info

Publication number: CN117611677A
Application number: CN202410091570.XA
Authority: CN
Inventors: 吕茂斌; 董娟; 邓方; 陈晨; 解博炜; 刘格远
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-02-27
Anticipated expiration: 2044-01-23
Also published as: CN117611677B

Abstract

本发明涉及一种基于目标检测和结构化特征的机器人定位方法，该方法以深度相机构成的硬件平台为基础。基于RGB‑D深度相机实现了在复杂环境下的定位与地图构建，提高了定位的精度和稳定性。针对环境中存在动态物体导致的定位信息不准确或者直接定位失败的问题，使用基于卷积神经网络的YOLO算法对图像进行目标检测，去除环境中的高概率动态物体，针对低纹理环境或旋转估计中产生累积误差进而造成轨迹漂移的问题，基于曼哈顿世界假设增加结构特征。本方法在动态或低纹理的复杂环境下，极大地提高了位姿估计的准确性和鲁棒性，可广泛应用于室内机器人轨迹跟踪等场景。

Description

一种基于目标检测和结构化特征的机器人定位方法

技术领域

本发明涉及一种基于目标检测和结构化特征的机器人定位方法，该方法以深度相机构成的硬件平台为基础，属于机器人定位技术领域。

背景技术

SLAM的英文全称是Simultaneous Localization and Mapping，中文称作即时定位与地图创建，而视觉SLAM就是用摄像头来完成环境的感知工作。当一个自主移动的机器人处在一个未知的环境，它要通过摄像头获取的信息数据对自身以及周围环境进行一个预估，在机器人移动过程中根据位置估计和摄像头对数据的感知进行自身的定位，同时不断地建造和更新地图并且规划自身的路径。

RGBD相机是2010年左右新兴的一种相机，它最大的特点是可以通过红外结构光或Time-of-Flight原理，直接测出图像中各像素离相机的距离。因此，它比传统相机能获取更丰富的信息，也不必像单目或双目那样费时费力地计算深度。目前常用的RGBD相机包括Kinect/Kinect V2/RealSense D435等，出于量程的限制，主要用于室内SLAM。

视觉SLAM可以分为基于特征的方法和直接方法。与基于特征的方法相比，直接方法依赖于光度不变性假设，因此对光照条件敏感，在剧烈运动期间鲁棒性较差。它们在失去跟踪后重新定位方面也面临困难。仅基于点特征的传统方法容易在无纹理场景中发生对齐错误，加入线条和平面特征可以提高跟踪精度。

基于特征的方法还可以分为非结构化方法和结构化方法。非结构化方法在没有有效约束的情况下精度有限，并且在位姿估计中容易产生累积误差，从而导致相机轨迹漂移，全局捆绑调整虽然在处理大规模地图方面效果显著，但会产生高计算成本，而环路闭合仅在机器人重新访问特定位置时起作用。

轨迹漂移的主要原因是旋转估计不准确。当前的基于曼哈顿世界假设的结构特征方法考虑环境结构线索，依赖于场景包含正交平面表面的假设，提取三个正交平面以估计旋转，这简化了场景布局在相机坐标系统中的表示。这种方法适用于纹理缺失但平面丰富的环境，对平面特征较少的环境存在局限性。

此外，当前成熟的视觉 SLAM方案一般都是在两个潜在的假设条件下完成的，一是机器人的工作环境为静态的，或者环境中绝大多数的物体都是静止不动的，二是机器人的工作环境是纹理充足的，或者绝大多数的相机帧中都是纹理充足的。然而现实生活中的真实环境经常会不满足这种假设，如行走在室内环境中的人、公路上奔驰的车辆，环境单一的场地，空旷的走廊等，如果在这些环境下运行目前的开源方案，系统会因为分不清到底是机器人本身在运动还是环境中的物体在运动，或者因为寻找到的特征过少而最终导致定位信息不准确、环境地图构建发生严重的偏差或者直接定位失败，因此对于复杂环境下如何提升视觉 SLAM 系统的鲁棒性与可靠性愈加地成为当下的研究重点。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提出一种基于目标检测和结构化特征的机器人定位方法，用以解决机器人轨迹跟踪问题，实现在包括动态环境和低纹理环境的复杂环境下的定位与地图构建，提高定位的精度和稳定性。

本发明的技术解决方案是：

一种基于目标检测和结构化特征的机器人定位方法，该方法的步骤包括：

步骤 S1：读取视觉传感器数据，视觉传感器数据包括RGB图像和深度图像，对视觉传感器数据进行校准、去噪、畸变矫正，然后对RGB图像/>进行处理后得到处理后的RGB图像/>，对RGB图像/>进行处理的方法为：计算RGB图像/>的一维信息熵/>，当一维信息熵/>时，不进行处理，当一维信息熵/>时，对RGB图像/>进行锐化处理；/>为阈值，取/>；

步骤 S2：基于FAST角点和BRIEF描述子提取RGB图像的特征点，基于LSD算法和LBD描述子提取RGB图像/>的特征线，基于AHC算法提取RGB图像/>的特征面；

步骤 S3：基于卷积神经网络使用YOLO对RGB图像进行目标检测，根据目标检测结果去除环境中的高概率动态物体，得到RGB图像/>去除高概率动态物体时是指去除步骤S2中提取的该高概率动态物体的特征点、特征面和特征线；

步骤 S4：对RGB图像进行特征匹配，得到与RGB图像/>相匹配的帧，采用自适应轨迹跟踪方法根据相匹配的帧对RGB图像/>进行粗略的相机位姿估计，得到相机位姿粗值，再根据相机位姿粗值使用BA进行精确的相机位姿估计，得到相机位姿精确值；

步骤 S5：基于词袋模型进行轨迹的回环检测，回环检测提供了当前数据与历史数据的关联，在跟踪算法丢失之后，利用回环检测进行重定位；

步骤 S6：根据估计的轨迹建立与任务要求对应的地图，包括稀疏地图和稠密地图等；

步骤 S7：重复步骤S1~S6，使得机器人跟踪轨迹不断趋近于基准轨迹。

优选的，所述步骤 S3中的高概率动态物体的检测策略为：基于MS COCO预训练模型检测每帧图像中的物体。将物体分为三类：高概率的动态物体、高概率的静态物体和其他物体。其中，与高概率的动态物体相对应的区域边界用表示，与高概率的静态物体相对应的区域边界用/>表示。变量/>表示所有特征中的任意特征，其中/>，集合中的元素分别表示点、线和平面特征。有效特征的集合表示为/>，集合中的元素满足以下条件：

其中表示特征/>满足边界条件，即位于区域内；否则，表示边界条件不满足，意味着位于区域外。

优选的，所述步骤 S4中，对RGB图像进行特征匹配时，当RGB图像/>为曼哈顿帧时进行结构化特征匹配，当RGB图像/>不是曼哈顿帧时进行非结构化特征匹配；进行曼哈顿帧的检测方法如下：

若在图像中存在三个两两正交的平面，则它们的法向量构成曼哈顿坐标系，图像为曼哈顿帧；

若在图像中只存在两个正交平面，它们的法向量构成弱曼哈顿坐标系，构造第三个平面的法向量/>为：

三条法向量构成完整的曼哈顿坐标系，图像为曼哈顿帧；

若在当前帧中不存在正交平面，则寻找环境中最长的七条直线，检测它们是否存在正交关系，若存在三条两两正交的直线，则它们的方向向量构成曼哈顿坐标系，图像为曼哈顿帧；

若在图像中只存在两条正交直线，它们的方向向量构成弱曼哈顿坐标系，构造第三条直线的方向向量/>为：

三条方向向量构成完整的曼哈顿坐标系，图像为曼哈顿帧；

除了以上四种情况，其他情况都为非曼哈顿帧。

优选的，所述步骤 S4中的自适应轨迹跟踪方法如下：

若，使用点、线和平面特征进行跟踪，若当前帧为曼哈顿帧，则将旋转分量和平移分量进行解耦，基于曼哈顿世界坐标系估计旋转分量，基于Levenberg-Marquardt算法估计平移分量，若当前帧为非曼哈顿帧，则基于Levenberg-Marquardt算法同时估计六维位姿变量中的旋转和平移；

若，此时环境中存在充足的特征，因平面的提取噪声较大，只使用较为准确的点和线进行跟踪，基于Levenberg-Marquardt算法同时估计六维位姿变量中的旋转和平移。

本发明所提供的自适应视觉SLAM方法与现有技术相比，显著优点为：

（1）针对环境中存在动态物体导致的定位信息不准确或者直接定位失败的问题，使用基于卷积神经网络的YOLO算法对图像进行目标检测，去除环境中的高概率动态物体，有效提高了系统在动态环境下定位的精度和稳定性。

（2）针对低纹理环境，基于曼哈顿世界假设增加结构特征，不仅能解决特征缺失的问题，还能有效降低旋转估计时产生的累积误差，减少轨迹漂移。

（3）本发明涉及一种基于目标检测和结构化特征的机器人定位方法，用以解决机器人轨迹跟踪问题，基于RGB-D深度相机实现了在复杂环境下的定位与地图构建，提高了定位的精度和稳定性。针对环境中存在动态物体导致的定位信息不准确或者直接定位失败的问题，使用基于卷积神经网络的YOLO算法对图像进行目标检测，去除环境中的高概率动态物体，针对低纹理环境或旋转估计中产生累积误差进而造成轨迹漂移的问题，基于曼哈顿世界假设增加结构特征。本方法在动态或低纹理的复杂环境下，极大地提高了位姿估计的准确性和鲁棒性，可广泛应用于室内机器人轨迹跟踪等场景。

附图说明

图1为本发明所提供的自适应视觉SLAM方法整体功能示意图；

图2为目标检测示意图；

图3为曼哈顿世界坐标系构建示意图；

图4为空间直线构建曼哈顿坐标系示意图；

图5为本发明估计轨迹和基准轨迹对比示意图；

图6为稀疏地图和稠密地图构建示意图。

具体实施方式

为了将本申请的目的、技术方案及优点进行更清楚、完整的描述，下面将结合附图及实施例做进一步详细说明。

本申请实施例提供的室内复杂环境下的自适应视觉SLAM方法包括五个模块：传感器数据、视觉里程计、后端、建图、回环检测：

传感器数据主要为RGB-D深度相机图像信息的读取和预处理。RGB-D图像包括RGB图像和深度图像，预处理包括对传感器数据进行校准、去噪、畸变矫正等操作，以提高SLAM系统的精度和鲁棒性。在传统的预处理基础上，增加图像处理策略：计算RGB图像的一维信息熵，进而决定是否对图像进行锐化处理。

视觉里程计也称前端。它根据相邻图像的信息，估计出粗略的相机运动，给后端提供较好的初始值。前端的实现方法，按是否需要提取特征，分为特征法的前端以及不提特征的直接法前端。基于特征法的前端，长久以来被认为是视觉里程计的主流方法。它运行稳定，对光照、动态物体不敏感，是目前比较成熟的解决方案。图像的特征提取与匹配对传感器数据进行特征提取，并将其与之前的数据关联起来。

后端优化主要是处理SLAM过程中噪声的问题。任何传感器都有噪声，所以除了要处理如何从图像中估计出相机运动，还要关心这个估计带有多大的噪声。前端给后端提供待优化的数据，以及这些数据的初始值，而后端负责整体的优化过程，它往往面对的只有数据，不必关系这些数据来自哪里，主要使用滤波和非线性优化算法。

回环检测也可以称为闭环检测，是指机器人识别曾到达场景的能力。回环检测提供了当前数据与所有历史数据的关联，在跟踪算法丢失之后，我们还可以利用回环检测进行重定位。因此，回环检测对整个SLAM系统精度与鲁棒性的提升，是非常明显的。

建图主要是根据估计的轨迹建立与任务要求对应的地图，在机器人学中，地图的表示主要有栅格地图、直接表征法、拓扑地图以及特征地图这4种。而特征地图是用有关的几何特征（如点、直线、面）表示环境，常见于视觉SLAM技术中。

本实施例的自适应视觉SLAM方法整体流程图如图1所示，本发明的SLAM方法实施步骤为：

输入RGB-D帧，包括RGB图像和深度图像，对传感器数据进行校准、去噪、畸变矫正等操作，以提高SLAM系统的精度和鲁棒性。在传统的预处理基础上，增加图像处理策略：计算RGB图像的一维信息熵/>，其中，/>为阈值，取/>，图像/>的一维信息熵/>的计算方法为：

根据一维信息熵决定是否对图像进行锐化处理。经过图像处理策略后的图像记为，图像处理策略为：

基于特征法的前端，提取点、线和平面特征，特征点的提取基于FAST角点和BRIEF描述子，线特征的提取基于LSD算法和LBD描述子，平面特征的提取基于AHC算法。

基于卷积神经网络使用YOLO对图像进行目标检测，可以准确完整地处理场景中的动态部分（离群值），它将整个图像分成网格，并使用卷积神经网络来预测每个网格单元中物体类别的边界框和概率分数。由于其快速的单向前传，它可以同时实时执行物体检测和定位，非常适合实时场景。图2为目标检测示意图，使用了在大规模图像数据集MS COCO上预训练的模型检测每帧图像中的物体，将物体分为三类：高概率的动态物体、高概率的静态物体和其他物体。其中，与高概率的动态物体相对应的区域边界用表示，与高概率的静态物体相对应的区域边界用/>表示。变量/>表示所有特征中的任意特征，其中/>，集合中的元素分别表示点、线和平面特征。有效特征的集合表示为/>，集合中的元素满足以下条件：

其中表示特征/>满足边界条件，即位于区域内；否则，表示边界条件不满足，意味着位于区域外。去除环境中的动态物体检测框中的特征。

检测图像是否为曼哈顿帧，图3为曼哈顿世界坐标系构建示意图，曼哈顿帧的检测方法如下：

三条法向量构成完整的曼哈顿坐标系，图像为曼哈顿帧；

若在图像中只存在两条正交直线，图4为空间直线构建曼哈顿坐标系示意图，它们的方向向量构成弱曼哈顿坐标系，构造第三条直线的方向向量/>为：

三条方向向量构成完整的曼哈顿坐标系，图像为曼哈顿帧；

除了以上四种情况，其他情况都为非曼哈顿帧。

使用如下自适应轨迹跟踪方法：

若，使用点、线和平面特征进行跟踪，若当前帧为曼哈顿帧，则将旋转分量和平移分量进行解耦，基于曼哈顿世界坐标系估计旋转分量，基于Levenberg-Marquardt算法估计平移分量，若当前帧为非曼哈顿帧，则基于Levenberg-Marquardt算法同时估计六维位姿变量中的旋转和平移。

根据相邻图像的信息，估计出粗略的相机运动，给后端提供较好的初始值。

局部地图构建不断将当前相机位置附近的特征纳入并更新。

基于词袋模型（BoW）进行回环检测，词袋模型为一个以特征描述作为元素的词典，词典可以从图像数据集中训练出来。例如：从每幅图像中提取特征点和特征描述，特征描述一般是一个多维向量，因此可以计算两个特征描述之间的距离；将这些特征描述进行聚类（比如k－means），类别的个数就是词典的单词数，比如1000，也可以用Beyes、SVM等；将这个词典组织成树的形式，方便搜索。每一幅图像都在词典中搜索其最近邻的单词，并在该单词下留下标记。如果A、B两幅图像定位到同一个单词时，说明这两幅图像有可能有相似的特征点。当A、B有一定量的相似点时，可以认为这两幅图像之间存在着一定的相似性。

回环检测提供了当前数据与历史数据的关联，在跟踪算法丢失之后，利用回环检测进行重定位。

在局部地图构建和回环检测之后，进行束调整（BA）优化，将跟踪和局部地图构建阶段以及回环检测结果的轨迹和地图信息进行合并。优化的目标是调整相机姿态和地图点位置，以最小化观测误差。图5为本发明估计轨迹和基准轨迹对比示意图。

经过优化的局部地图和轨迹信息可以集成到全局地图中，该地图包含关于整个环境的三维结构信息。根据估计的轨迹建立与任务要求对应的地图，包括稀疏地图和稠密地图。图6为稀疏地图和稠密地图构建示意图。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于目标检测和结构化特征的机器人定位方法，其特征在于该方法的步骤包括：

步骤 S1：读取视觉传感器数据，视觉传感器数据包括RGB图像和深度图像，对视觉传感器数据进行校准、去噪、畸变矫正，然后对RGB图像/>进行处理后得到处理后的RGB图像/>；

步骤 S6：根据估计的轨迹建立与任务要求对应的地图，包括稀疏地图和稠密地图；

2.根据权利要求1所述的一种基于目标检测和结构化特征的机器人定位方法，其特征在于：

所述步骤S1中，对RGB图像进行处理的方法为：计算RGB图像/>的一维信息熵/>，当一维信息熵/>时，不进行处理，当一维信息熵/>时，对RGB图像/>进行锐化处理；/>为阈值，取/>。

3.根据权利要求1所述的一种基于目标检测和结构化特征的机器人定位方法，其特征在于：

所述步骤 S3中的高概率动态物体的检测策略为：基于MS COCO预训练模型检测每帧图像中的物体，将物体分为三类：高概率的动态物体、高概率的静态物体和其他物体，其中，与高概率的动态物体相对应的区域边界用表示，与高概率的静态物体相对应的区域边界用表示，变量/>表示所有特征中的任意特征，其中/>，集合中的元素分别表示点、线和平面特征，有效特征的集合表示为/>，集合中的元素满足以下条件：

4.根据权利要求1所述的一种基于目标检测和结构化特征的机器人定位方法，其特征在于：

所述步骤 S4中，对RGB图像进行特征匹配时，当RGB图像/>为曼哈顿帧时进行结构化特征匹配，当RGB图像/>不是曼哈顿帧时进行非结构化特征匹配。

5.根据权利要求4所述的一种基于目标检测和结构化特征的机器人定位方法，其特征在于：

进行曼哈顿帧的检测方法如下：

三条法向量构成完整的曼哈顿坐标系，图像为曼哈顿帧；

三条方向向量构成完整的曼哈顿坐标系，图像为曼哈顿帧；

除了以上四种情况，其他情况都为非曼哈顿帧。

6.根据权利要求1所述的一种基于目标检测和结构化特征的机器人定位方法，其特征在于：

所述步骤 S4中的自适应轨迹跟踪方法如下：

若，使用点和线进行跟踪，基于Levenberg-Marquardt算法同时估计六维位姿变量中的旋转和平移。