CN116245949A

CN116245949A - 一种基于改进四叉树特征点提取的高精度视觉slam方法

Info

Publication number: CN116245949A
Application number: CN202310190463.8A
Authority: CN
Inventors: 范馨月; 吴凯; 陈帅
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-06-09

Abstract

本发明涉及一种基于改进四叉树特征点提取的高精度视觉SLAM方法，属于计算机视觉技术领域。该方法具体为：通过相机采集环境中的RGB图像信息并转换为灰度图像；为每张图像构建图像金字塔并对每层图像进行网格划分；确定金字塔每层图像提取的特征点个数并网格内进行过量特征点提取；随后对每层图像提取的特征点进行筛选，利用BEBLID算法对筛选出的特征点进行描述；根据提取的特征点进行图像匹配并进行相机位姿的估计；将运动信息和相机观测信息构建成一个尺度和规模更大的优化问题，利用光束法平差对其优化求解得到长时间内的最优轨迹和地图。本发明能够实现更精确的位姿估计和更高的轨迹精度，能够进行更精准的定位。

Description

一种基于改进四叉树特征点提取的高精度视觉SLAM方法

技术领域

本发明属于计算机视觉技术领域，涉及一种基于改进四叉树特征点提取的高精度视觉SLAM方法。

背景技术

近年来，得益于计算机技术、通信技术和人工智能技术的快速发展，计算机视觉的相关技术出现了重大的突破，其中包括了图像匹配、人脸识别、增强现实、自动驾驶和三维重建等。而在增强现实、自动驾驶和三维重建技术中存在着一个重要的需求：精确定位。目前对于户外的定位问题，在5G通信技术和全球定位系统(Global Positioning System,GPS)等导航卫星系统的帮助下，已经达到了相当精确的程度，基本解决了户外大多数应用的定位问题。而在室内环境，比如室内停车场、大型仓库、商场、餐厅等等，在这些场景下，目前的许多室内定位方法，如红外线定位、无线网络通信技术定位以及超宽带定位等均无法达到一个令人满意的效果。同样对于增强现实这种需要在未知环境中实时确定自身未知与地图构建的应用来说，以上方案均无法达到理想的效果。

视觉SLAM由于其本身的硬件结构简单，采集的信息丰富且可进一步利用深度学习进行处理，同时可以进行定位和建图的同步进行，因此视觉SLAM受到了学术界和工业界的广泛关注。视觉SLAM主要是通过摄像头采集的环境信息在未知环境中实现同时定位和地图构建的任务，目前在智能机器人、增强现实和自动驾驶等领域视觉SLAM已经取得了许多优秀的成果。视觉SLAM包含了前端视觉里程计和后端回环检测、优化与建图，而其中视觉里程计部分主要通过对环境信息的提取和处理来实现对相机位姿变化的估计，从而实现定位功能。因此，如何对环境信息进行更加高效准确的提取和处理是视觉SLAM领域的一个研究重点。

现阶段应用较多的ORB-SLAM在图像处理阶段采用了ORB进行特征点的提取与描述，但是它为了保证特征点分布的均匀性在四叉树筛选时，保留了大量孤立的弱响应特征点，而将许多响应值较高的特征点进行了剔除，从而导致了图像匹配精度的明显下降。同时由于ORB算法中特征点的描述算法rBRIEF存在着描述速度较慢且准确性较低的问题，导致视觉SLAM在相机跟踪的过程中容易跟丢甚至系统崩溃的问题，这些现存的问题极大地影响了视觉SLAM的定位和建图精度。

发明内容

有鉴于此，本发明的目的在于提供一种基于改进四叉树特征点提取的高精度视觉SLAM方法，实现更高的轨迹精度和定位精度。

为达到上述目的，本发明提供如下技术方案：

一种基于改进四叉树特征点提取的高精度视觉SLAM方法，其特征在于：该方法包括以下步骤：

S1、通过相机采集环境中的图像信息；

S2、将相机采集的RGB图像转换为灰度图像，同时为每张图像构建图像金字塔并对每层图像进行网格划分；

S3、根据金字塔每层图像的面积和设定的特征点个数来确定金字塔每层图像提取的特征点个数；

S4、在每层金字塔图像划分的网格内进行过量的特征点提取，随后利用改进的四叉树对每层图像提取的特征点进行筛选；

S5、利用BEBLID算法对步骤S4中筛选出的特征点进行描述；

S6、根据相邻两帧图像之间提取的特征点进行图像的匹配，再通过PnP算法和特征点的匹配关系进行相机位姿的估计，最后通过最小重投影误差的方法对估计的相机位姿进行调整优化；

S7、将所有的运动信息和相机观测信息构建成一个尺度和规模更大的优化问题，利用光束法平差对其进行优化求解，得到长时间内得最优轨迹和地图。

进一步，步骤S3具体为：

首先计算出整个图像金字塔的图层总面积：

式中，H和W分别表示最底层图像的高和宽，s表示图像金字塔的缩放因子，m表示金字塔的层数；

然后根据每张图像待提取的特征点数目计算单位面积的特征点数目：

式中，Num表示每张图像中待提取的特征点数目。

最后根据金字塔每层图像的面积大小来确定各层所需提取的特征点的数目，则第i层应该分配的特征点数量为：

进一步，在步骤S4中，所述利用改进的四叉树对每层图像提取的特征点进行筛选，具体为：首先按照本层图像所需的特征点数量进行四叉树的划分；其次对四叉树每个节点中特征点的响应值进行统计；再次根据该层图像特征点响应值的中值和平均值确定出该层图像的自适应响应阈值；最后利用计算好的自适应响应阈值对每个节点中的特征点进行筛选，在保证特征点分布均匀性的前提下，尽可能多的保留高响应的特征点，剔除孤立的弱响应特征点，实现更精确地位姿估计。

对四叉树每个节点的特征点数目进行判断，若某一节点中只有一个特征点，则根据自适应响应阈值对其进行判定，如果特征点的响应值小于自适应响应阈值，则剔除该特征点，减少对图像匹配精度的影响；

若节点中存在多个特征点，且所有特征点的响应值均小于自适应响应阈值，则保留响应值最高的特征点。

进一步，步骤S5具体为：

首先在特征点周围进行不同尺寸采样图像块的提取，然后利用AdaBoost算法中每个弱分类器所对应的采样图像块特征提取函数f(x)和阈值T来得到h(x)；

其中特征点周围采样图像块的提取函数如下所示：

式中，p₁和p₂分别表示每个弱分类器所提取的图像块的中心，s表示图像块的边长，I(p)和I(q)分别表示每个像素点的灰度值；

h(x)的值表示AdaBoost中每个弱分类器所选择的采样图像块结构的相似性，若两个采样图像块的平均灰度差小于阈值T则为+1，否则为-1，如下所示：

其次，为了得到二进制的特征描述子，需要对h(f,T)的值进行判定，若h(f,T)大于0则取对应的二进制描述子位为1，反之则为0；

最后，通过对数据集中所有特征点的描述子进行训练，优化损失函数，获取最佳描述子采样点对的像素位置、图像块尺寸及阈值，从而得到最佳的BEBLID二进制描述子模式；其中损失函数为：

式中，N表示训练数据集中的N对特征点所对应的采样图像块；x_i和y_i分别表示训练数据集中某两个特征点所对应的图像块；γ表示学习率；k表示第k个弱分类器，即对应最终256位描述子中的第k比特位；h_k(x_i)和h_k(y_i)分别表示第k个弱分类器所选择的两张采样图像块结构的相似性；l_i表示标签，l_i∈{-1,1}，当l_i＝1时表示两个特征点所对应的图像块具有相同的图像结构，l_i＝-1时表示对应的图像结构不同。

本发明的有益效果在于：本发明通过采用改进的四叉树筛选算法来对特征点进行筛选，在保证特征点均匀分布的前提下，尽可能多的保留高响应的特征点，提高了图像匹配的精度，实现更精确的位姿估计。同时，引入了基于AdaBoost算法实现的特征点描述算法BEBLID，能够更快的进行特征点描述，同时在描述过程中选择了不同尺寸大小的采样图像块，实现了近似于梯度的计算方式，因此获得了更精确地特征点描述，在大多数数据集序列上取得了更高的轨迹精度，实现了更精确地定位。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为图像金字塔的构建与特征点提取示意图；

图2为自适应响应阈值计算流程图；

图3为BEBLID描述子的计算示意图；

图4为本发明整体流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图4所示，为一种基于改进四叉树特征点提取的高精度视觉SLAM方法，该方法具体实施过程如下：

S1、利用机器人或者车辆上的相机获取环境中的图像信息。

S2、将相机获取的RGB图像转换为灰度图像，并为每张图像构建8层图像金字塔，对金字塔的每层图像进行网格划分。

S3、根据金字塔每层图像的面积和设定的特征点个数，来确定金字塔每层图像提取的特征点个数，并利用四叉树在每层图像上进行节点的划分。

确定每层图像提取的特征点个数的步骤如下：

S31、首先计算出整个图像金字塔的图层总面积：

S32、然后根据每张图像待提取的特征点数目计算单位面积的特征点数目：

S33、最后根据金字塔每层图像的面积大小来确定各层所需提取的特征点的数目，则第i层应该分配的特征点数量为：

S4、在每层金字塔图像划分的网格内，利用FAST角点提取算法设置双阈值进行特征点的过量提取，以尽可能多的提取特征，方便后续改进四叉树进行特征点的筛选与剔除，从而实现特征点分布的均匀化，如图1所示。

随后利用改进的四叉树对每层图像提取的特征点进行筛选：

首先按照本层图像所需的特征点数量进行四叉树的划分；其次对四叉树每个节点中特征点的响应值进行统计；再次根据该层图像特征点响应值的中值和平均值确定出该层图像的自适应响应阈值(取中值与平均值中的较小值)，如图2所示；最后利用计算好的自适应响应阈值对每个节点中的特征点进行筛选，在保证特征点分布均匀性的前提下，尽可能多的保留高响应的特征点，剔除孤立的弱响应特征点，实现更精确地位姿估计。

本发明在自适应响应阈值的计算过程中，针对图像金字塔的不同层设定不同的阈值，统计每层图像上特征点响应值的平均值和中值是为了尽可能多的保留高响应的特征点。如果该层图像上特征点响应值分布的平均值大于中值，则说明该层图像中高响应的特征点更多，反之则低响应的特征点占比更大。通过选择平均值和中值二者中较小的一个作为该层图像的阈值，可以实现更多特征点的保留，提高特征提取的重复性，实现更好的图像匹配效果。在图像特征检测中，特征点提取消耗的时间占比更大，但是本发明并没有增加特征点的提取数目，所以基于自适应响应阈值的四叉树筛选算法不会对特征检测检测的效率造成很大影响。

当节点划分结束后，对每个节点的特征点数目进行判断，若该节点只有一个特征点，说明该特征点是一个孤立的点，根据自适应响应阈值对其进行判定：如果特征点的响应值小于设定阈值，则说明该特征点不仅是孤立的，而且是一个不明显的弱响应特征点，这种特征点往往在前一帧可以检测到，但是在下一帧中就不一定能检测到了，所以会导致误匹配的出现，因此需要将此类特征点剔除掉，减少对图像匹配精度的影响。当节点中存在多个特征点时，则需要进一步对特征点的响应值进行判断。如果节点中存在高于设定阈值的特征点，那么就按正常的自适应阈值筛选算法进行特征点的筛选，即保留响应值高于自适应响应阈值的特征点，剔除响应值低于自适应响应阈值的特征点；但如果该节点中所有特征点的响应值均小于自适应响应阈值，则保留其中响应值最高的特征点，如图4所示。因为由图像特征分布的聚集性可知，当单个节点中存在多个特征点，说明该区域确实存在有效的特征，虽然在该帧图像此节点的所有特征点响应值均未达到自适应响应阈值，但是为了尽可能多的保留有效特征且保证特征点分布的均匀性，所以依然选择保留其中响应值最高的特征点，即该节点中最明显的那一个特征点。

S5、利用BEBLID算法对步骤S4中筛选出的特征点进行描述。由于BEBLID特征点描述算法可以实现对特征点更精确的描述，所以本发明将其应用到视觉SLAM中前端视觉里程计部分，对经过改进特征提取与筛选算法所保留的特征点，利用最佳的BEBLID描述子模式对其进行描述，得到更高的图像匹配精度，从而实现更精确的运动估计。

BEBLID描述子利用AdaBoost算法在特征点邻域内提取不同尺寸大小的采样图像块，然后比较这些采样图像块的平均灰度差与选定阈值的大小来获取二进制描述子，如图3所示。

其中特征点周围采样图像块的提取函数如下所示：

最后，通过对数据集中所有特征点的描述子进行训练，优化损失函数，获取最佳描述子采样点对的像素位置、图像块尺寸及阈值，从而得到最佳的BEBLID二进制描述子模式。

其中损失函数为：

式中，N表示训练数据集中的N对特征点所对应的采样图像块；x_i和y_i分别表示训练数据集中某两个特征点所对应的图像块；其中k表示第k个弱分类器，即对应最终256位描述子中的第k比特位；h_k(x_i)和h_k(y_i)分别表示第k个弱分类器所选择的两个采样图像块结构的相似性，即在提取各自描述子时，每张图像第k位对应的本张图像(x_i或者y_i)中的两个采样图像块的结构相似性；γ表示学习率；l_i表示标签，l_i∈{-1,1}，当l_i＝1时表示两个特征点所对应的图像块具有相同的图像结构，l_i＝-1时表示对应的图像结构不同。

S6、根据相邻两帧图像之间提取的特征点进行图像的匹配，再通过PnP算法和特征点的匹配关系进行相机位姿的估计，最后通过最小重投影误差的方法对估计得相机位姿进行调整优化；

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于改进四叉树特征点提取的高精度视觉SLAM方法，其特征在于：该方法包括以下步骤：

S1、通过相机采集环境中的图像信息；

S5、利用BEBLID算法对步骤S4中筛选出的特征点进行描述；

S7、将所有的运动信息和相机观测信息构建成一个尺度和规模更大的优化问题，利用光束法平差对其进行优化求解，得到长时间内的最优轨迹和地图。

2.根据权利要求1所述的高精度视觉SLAM方法，其特征在于：步骤S3具体为：

首先计算出整个图像金字塔的图层总面积：

式中，Num表示每张图像中待提取的特征点数目；

3.根据权利要求1所述的高精度视觉SLAM方法，其特征在于：在步骤S4中，所述利用改进的四叉树对每层图像提取的特征点进行筛选，具体为：

首先按照本层图像所需的特征点数量进行四叉树的划分；其次对四叉树每个节点中特征点的响应值进行统计；再次根据该层图像特征点响应值的中值和平均值确定出该层图像的自适应响应阈值；最后利用计算好的自适应响应阈值对每个节点中的特征点进行筛选，在保证特征点分布均匀性的前提下，尽可能多的保留高响应的特征点，剔除孤立的弱响应特征点，实现更精确地位姿估计。

4.根据权利要求3所述的高精度视觉SLAM方法，其特征在于：对四叉树每个节点的特征点数目进行判断，若某一节点中只有一个特征点，则根据自适应响应阈值对其进行判定，如果特征点的响应值小于自适应响应阈值，则剔除该特征点，减少对图像匹配精度的影响；

5.根据权利要求1所述的高精度视觉SLAM方法，其特征在于：步骤S5具体为：

其中特征点周围采样图像块的提取函数如下所示：

式中，N表示训练数据集中的N对特征点所对应的采样图像块，x_i和y_i分别表示训练数据集中某两个特征点所对应的图像块，γ表示学习率，h_k(x_i)和h_k(y_i)分别表示第k个弱分类器所选择的两张采样图像块结构的相似性，l_i表示标签，l_i∈{-1,1}，当l_i＝1时表示两个特征点所对应的图像块具有相同的图像结构，l_i＝-1时表示对应的图像结构不同。