CN116182894A

CN116182894A - 一种单目视觉里程计方法、装置、系统及存储介质

Info

Publication number: CN116182894A
Application number: CN202310113950.4A
Authority: CN
Inventors: 龚谢平; 尹洋; 王黎明; 周子扬; 王征; 李厚朴; 刘洋; 周帅
Original assignee: Naval University of Engineering PLA
Current assignee: Naval University of Engineering PLA
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-05-30

Abstract

本发明提供一种单目视觉里程计方法、装置、系统及存储介质，该方法包括：步骤一、对摄像头采集的单帧图像进行特征点提取，得到图像的特征点和描述子；步骤二、将相邻帧图像的特征点进行特征匹配，得到特征匹配的最优得分矩阵；步骤三、对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化，剔除错误匹配对，再根据对极几何约束求解相机位姿。本发明能够融合深度学习的特征点提取和匹配算法，并对匹配结果进行优化，解决了视觉里程计在光照变化场景下误差较大的问题，提高了单目视觉里程计的精度和鲁棒性。

Description

一种单目视觉里程计方法、装置、系统及存储介质

技术领域

本发明涉及机器人同步定位与地图构建领域，具体是一种单目视觉里程计方法、装置、系统及存储介质。

背景技术

移动机器人是一种具有自主能力，能够执行特定任务的无人系统，移动机器人无论是在军事还是民用中都发挥着重要的作用。移动机器人可以部署在高危险环境或受核、生物或化学制剂污染的区域，它们可靠、快速、机动性强，可以执行各种任务，包括监控、巡逻、搜救等任务。

传统地形勘探的方式存在很多难点：①环境复杂、工况恶劣：战场上局势瞬息万变，十分危险；②危险地形，难以作业：部分地形作业风险高，地形勘探活动难以开展；③耗财耗时，效率低下：勘探方法古老，需要耗费大量的人力财力。针对以上问题，移动机器人就具有很多技术优势：①自主导航，可以抵达危险区域，人员无需涉险；②勘探方法简单便捷；③定位精度高，跑线精确。所以，移动机器人能够承担地形勘探、巡逻等任务，并且能够减少大量的人力、物力。

同步定位与地图构建（Simultaneous Localization and Mapping，SLAM）作为移动机器人执行定位、导航等任务的核心技术，使得移动机器人能够在未知环境中自由活动。SLAM是指在未知环境中利用传感器对移动机器人周围环境中所处的位置与姿态进行状态感知与估计，并对所处环境进行地图构建。视觉里程计作为视觉SLAM的前端，是指从一系列图像流中估计相机的运动位姿。传统的视觉里程计算法包括相机矫正、特征检测、特征匹配、运动估计等，能够在大部分情况下取得很好的效果，但是在光照变化大的场景下会出现定位失败的现象。

发明内容

本发明提供一种单目视觉里程计方法、装置、系统及存储介质，能够融合深度学习的特征点提取和匹配算法，并对匹配结果进行优化，解决了视觉里程计在光照变化场景下误差较大的问题，提高了单目视觉里程计的精度和鲁棒性，能够适应复杂的场景。

一种单目视觉里程计方法，包括如下步骤：

步骤一、对摄像头采集的单帧图像进行特征点提取：利用深度卷积神经网络SuperPoint对图像进行特征提取，获取图像的特征点和特征描述子；

步骤二、将相邻帧图像的特征点进行特征匹配：利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配，求解最优特征分配矩阵；

步骤三、根据匹配结果进行相机位姿估计与优化：对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化，剔除错误匹配对，再根据对极几何约束求解相机位姿。

进一步的，所述步骤一具体为：

深度卷积神经网络SuperPoint的模型结构包括共享编码器、特征点检测解码器和特征点描述解码器，所述共享编码器用于对图像进行降维处理，之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符，摄像头采集的单帧图像通过深度卷积神经网络SuperPoint处理后，即得到图像的特征点和特征描述子。

进一步的，所述步骤二具体为：

注意力机制GNN将输入的图像的特征点和特征描述子编码为一个特征匹配向量f，再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能，然后将向量f转化成匹配向量并输出到最优匹配层，计算特征匹配向量的内积得到匹配度得分矩阵，最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。

进一步的，所述步骤三具体包括：

步骤3.1：根据最小阈值法对错误图像特征点匹配对滤除，对图像中的特征点对进行距离测试，选取距离最近特征点对作为最小距离，对特征点匹配对的距离采用以下式子判断，当满足上述条件时，判定为正确匹配，否则剔除该匹配对：

；

其中，

表示第i个匹配对，/>

为设定的阈值，/>

表示匹配集中最小匹配距离；

步骤3.2：采用RANSAC优化算法进一步对错误图像特征点匹配对滤除，从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对，N对匹配对计算相对变换矩阵得到模型Q，剩余1对匹配验证模型Q的准确性，重复上述步骤得到内点数最多的匹配结果；

步骤3.3：相机位姿估计：对于优化后的结果，根据对极几何约束来求解单应矩阵H和基础矩阵F，估计相机位姿。

一种单目视觉里程计装置，包括：

特征点提取模块，用于对摄像头采集的单帧图像进行特征点提取，具体的，利用深度卷积神经网络SuperPoint对图像进行特征提取，获取图像的特征点和特征描述子；

特征点匹配模块，用于将相邻帧图像的特征点进行特征匹配，具体的，利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配，求解最优特征分配矩阵；

位姿估计与优化模块，用于根据匹配结果进行相机位姿估计与优化，具体的，对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化，剔除错误匹配对，再根据对极几何约束求解相机位姿。

进一步的，所述特征点提取模块利用深度卷积神经网络SuperPoint对图像进行特征提取，获取图像的特征点和特征描述子，具体包括：所述特征点提取模块包括共享编码器、特征点检测解码器和特征点描述解码器，所述共享编码器对图像进行降维处理，之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符，摄像头采集的单帧图像通过所述特征点提取模块处理后，即得到图像的特征点和特征描述子。

进一步的，所述特征点匹配模块利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配，求解最优特征分配矩阵，具体包括：

进一步的，所述位姿估计与优化模块，对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化，剔除错误匹配对，再根据对极几何约束求解相机位姿，具体包括：

；

其中，

表示第i个匹配对，/>

为设定的阈值，/>

表示匹配集中最小匹配距离；

一种单目视觉里程计系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行所述的单目视觉里程计方法。

一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的单目视觉里程计方法。

本发明能够融合深度学习的特征点提取和匹配算法，并对匹配结果进行优化，解决了视觉里程计在光照变化场景下误差较大的问题，提高了单目视觉里程计的精度和鲁棒性。

附图说明

图1是发明单目视觉里程计方装置的结构示意图；

图2是SuperPoint特征点提取网络结构图；

图3是Super Glue特征点匹配网络结构图；

图4是对极几何约束图；

图5是ORB算法、SIFT算法和SuperPoint算法对图像提取特征点效果图；

图6是ORB&BF算法、SIFT&FLANN算法和SuperPoint&SuperGlue算法对图像提取特征点效果图；

图7是分别基于ORB、SIFT、SuperPoint算法的单目视觉里程计相机位姿估计轨迹结果图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述。

图1所示为本发明单目视觉里程计装置的结构示意图，所述装置包括：

特征点提取模块：通过该模块获取摄像头的数据，并通过深度卷积神经网络提取图像中的特征点和特征描述子以供后续模块使用。SuperPoint网络结构如图2所示，特征点提取结果如图5所示。

特征点匹配模块：将相邻帧图像的特征点和特征描述子作为输入，通过自注意力机制神经网络SuperGlue对相邻帧图像的特征点进行匹配，求解最优特征得分矩阵。SuperGlue网络结构如图3所示，特征点匹配结果如图6所示。

位姿估计与优化模块：根据最小距离阈值法和RANSAC优化算法对匹配结果进行优化，剔除错误匹配对，再根据对极几何约束求解相机位姿。对极几何约束如图4所示，相机位姿估计与真实轨迹对比结果如图7所示。

根据各模块的功能，本发明实施例提供一种单目视觉里程计方法，包括如下步骤：

步骤一、对摄像头采集的单帧图像进行特征点提取（该步骤主要由深度卷积网络模块实现）：利用卷积神经网络对图像进行特征点提取，获取图像的特征点和特征描述子。

考虑到传统视觉里程计在光照变化场景下误差较大的问题，本发明选取的是SuperPoint框架，其使用的编码器为VGG卷积网络，然后将特征点解码器和描述子解码器添加到网络来提取图像特征点和特征描述子。共享编码器结构类似于VGG卷积网络，主要由卷积层、下采样池化层和非线性激活函数组成。编码器将尺寸为

的图像作为输入，经过卷积池化等操作后将图像映射到尺寸为/>

（其中/>

）的中间张量，进行了图片降维，提取深层特征，简化后续的计算量。特征点检测解码器通过上卷积运算将经过池化层和条纹卷积降维的图像还原到全分辨率，但上采样会增加计算复杂度，因此采用亚像素卷积层的特征点检测解码器来减少模型复杂度。特征点检测解码器将尺寸为/>

的张量作为输入，通过Softmax归一化以及Reshape操作，输出/>

尺寸的张量（其中/>

），最后再经过NMS输出图像的特征点。特征点描述解码器将尺寸为/>

的张量作为输入，对描述符进行归一化后根据特征点的位置通过双线性插值得到特征向量，输出/>

的特征向量。

SuperPoint算法采用自监督的方式进行训练，训练过程是先使用已知角点的基础图形的虚拟图片来训练编码器和特征点解码器提取特征点，使用训练好的编码器和特征点解码器检测目标N个随机单应性矩阵变换后的特征点，将特征点通过逆向单应性变换还原到原图像上，最后将映射后的图像特征点作为增强点数据集训练网络生成特征点和描述子。损失函数由特征点损失和描述子损失两部分组成：

；

其中

为特征点相关损失，/>

为描述子相关损失，/>

分别为经过网络结构后输出的特征点和描述子,Y为特征点的的标签值，

对应原图经过单应性变换后的图片中与/>

含义相同，超参数/>

用来平衡特征点损失和描述子损失。

特征点相关损失函数定义为一个交叉熵损失：

；

其中，

和/>

分别表示/>

在/>

处的值，/>

公式如下所示：

；

其中，

示/>

在第k个通道的值。描述子损失函数/>

定义为一个合页损失函数：

；

其中

和/>

分别表示当前帧和上一帧的描述子，S表示一对图像描述子的整个对应集合。/>

用来判断/>

对应图片单元的中心位置进过单应性变换后是否在

对应图片单元的中心位置的领域内。/>

和/>

公式如下所示：

；

其中，

分别表示/>

和/>

对应的输入图片单元的位置中心，/>

是对/>

进行的单应性变换。

；

其中，超参数

和/>

分别对应正向对应阈值与负向对应阈值，超参数/>

用于平衡描述子内部正向对应损失与负向对应损失值。

步骤二、将相邻帧图像的特征点进行特征匹配（该步骤主要由注意力机制神经网络实现）：考虑到传统的特征点匹配算法存在一定的缺点，例如源图像中多个特征点匹配到目标图的同一个特征点上，或是当源图特征亮度高于背景且标图特征亮度低于背景时，前景特征就会匹配到背景目标点上，本发明选取的是SuperGlue特征点匹配算法，对相邻帧图像的特征点进行匹配，求解最优特征得分矩阵。

注意力机制GNN将输入的图像特征点和特征描述子编码为一个特征匹配向量f，再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能，然后将向量f转化成匹配向量并输出到最优匹配层，计算特征匹配向量的内积得到匹配度得分矩阵，最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。

SuperPoint模型中注意力机制的原理为:注意力机制模拟人脑来回浏览匹配的过程，在特征点组成的无安全图中，图中包含两种无向边，一种是连接图像内部特征点的

,另一种是连接本图中特征点i与另一张图所有特征点的

。图像A上第i个元素在第/>

层的中间表达式用/>

表示，则图像A中所有特征点更新的残差信息为：

；

其中，

,MLP为多层感知机。通过层数的奇偶数变化，使得/>

在cross和self之间交替变换，实现了模拟人脑匹配的过程。

步骤三、根据匹配结果进行相机位姿估计与优化：根据最小距离阈值法和RANSAC优化算法对匹配结果进行优化，剔除错误匹配对，再根据对极几何约束求解相机位姿。所述步骤三具体包括：

步骤3.1：根据最小阈值法对错误图像特征点匹配对滤除，对图像中的特征点对进行距离测试，选取距离最近特征点对作为最小距离。对特征点匹配对的距离采用以下式子判断，当满足上述条件时，判定为正确匹配，否则剔除该匹配对；

；

其中，

表示第i个匹配对，/>

为设定的阈值，/>

表示匹配集中最小匹配距离；

步骤3.2：采用RANSAC优化算法对错误图像特征点匹配对滤除，从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对，N对匹配对计算相对变换矩阵得到模型Q，剩余1对匹配验证模型Q的准确性，重复上述步骤得到内点数最多的匹配结果；

图4为对极几何约束原理图。

表示上一帧与当前帧图像的成像平面，/>

表示相机光心，/>

是特征点/>

的极线，与/>

连线的交点为极点/>

。对极几何约束方程为：

；

其中，H为单应矩阵。当特征点匹配正确且P点不在空间平面上时，归一化平面坐标与基础矩阵满足上式。若受到误匹配的影响，特征点无法落在极线上，则需要计算特征点

分别到极线/>

的距离，当距离大于阈值时该点为外点。

图5为ORB算法、SIFT算法和SuperPoint算法对图像提取特征点效果图。图5(a)反应了ORB的提取效果，提取出的特征点比较集中，能够提取出房子、树干的边缘等光暗变化明显的特征点，在图片中的大部分区域未提取出特征点，且特征点分布不均匀；图5(b)反应了SIFT的提取效果，提取出的特征点也比较密集，对比与ORB算法要稍均匀，主要集中在树干边缘等光暗变化明显的区域，在路面、汽车提取出少量特征点；图5(c)反应了SuperPoint的提取效果，均匀分布在图像中，不存在集中在某一区域的现象，图像中车辆、路面、房子、树干等都能提取出大量的特征点，从定性分析来衡量算法，SuperPoint算法要优于ORB算法和SIFT算法，对后续的特征点匹配和位姿估计提供了良好的基础。

图6为ORB&BF算法、SIFT&FLANN算法和SuperPoint&SuperGlue算法对图像提取特征点效果图。图6(a)反应了ORB&BF的特征点匹配效果，匹配结果中存在大量的匹配线密集的现象，大多数集中在一定的区域，匹配线段斜率接近；图6(b)反应了SIFT&FLANN的特征点匹配效果，结果也存在匹配线段密集的现象，相比于ORB算法更稀疏，在图像中的分布也更均匀；图6(c)反应了SuperPoint&SuperGlue的特征点匹配效果，匹配结果均匀分布在图像中，匹配质量优于ORB&BF和SIFT&FLANN两种算法，为位姿估计提供了良好的基础。

图7是分别基于ORB、SIFT、SuperPoint算法的单目视觉里程计相机位姿估计轨迹结果图。图7（a）为基于ORB算法的单目视觉里程计位姿估计效果，完全偏离实际轨迹。图7（b）为基于SIFT算法的单目视觉里程计位姿估计效果，前期轨迹误差较小，但随着帧数的增多，轨迹误差轨迹增大。图7（c）为本发明单目视觉里程计位姿估计效果，相机位姿估计轨迹与真实轨迹几乎一致。并且，该系统在光照变化明显的场景下也具有很高的精度。总的来说，该系统的优点在于：①提高了算法的鲁棒性；②提高了相机位姿估计的精度；③提高了系统的容错能力；④提高了整个系统的性能。

本发明另一方面提供了一种单目视觉里程计系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

本发明另一方面提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的单目视觉里程计方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种单目视觉里程计方法，其特征在于：包括如下步骤：

2.如权利要求1所述的单目视觉里程计方法，其特征在于：所述步骤一具体为：

3.如权利要求1所述的单目视觉里程计方法，其特征在于：所述步骤二具体为：

4.如权利要求1所述的单目视觉里程计方法，其特征在于：所述步骤三具体包括：

；

其中，

表示第i个匹配对，/>

为设定的阈值，/>

表示匹配集中最小匹配距离；

5.一种单目视觉里程计装置，其特征在于：包括：

6.如权利要求5所述的单目视觉里程计装置，其特征在于：所述特征点提取模块利用深度卷积神经网络SuperPoint对图像进行特征提取，获取图像的特征点和特征描述子，具体包括：

所述特征点提取模块包括共享编码器、特征点检测解码器和特征点描述解码器，所述共享编码器对图像进行降维处理，之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符，摄像头采集的单帧图像通过所述特征点提取模块处理后，即得到图像的特征点和特征描述子。

7.如权利要求5所述的单目视觉里程计装置，其特征在于：所述特征点匹配模块利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配，求解最优特征分配矩阵，具体包括：

8.如权利要求5所述的单目视觉里程计装置，其特征在于：所述位姿估计与优化模块，对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化，剔除错误匹配对，再根据对极几何约束求解相机位姿，具体包括：

；

其中，

表示第i个匹配对，/>

为设定的阈值，/>

表示匹配集中最小匹配距离；

9.一种单目视觉里程计系统，其特征在于包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1-4中任一项所述的单目视觉里程计方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1-4中任一项所述的单目视觉里程计方法。