CN116182894A - 一种单目视觉里程计方法、装置、系统及存储介质 - Google Patents
一种单目视觉里程计方法、装置、系统及存储介质 Download PDFInfo
- Publication number
- CN116182894A CN116182894A CN202310113950.4A CN202310113950A CN116182894A CN 116182894 A CN116182894 A CN 116182894A CN 202310113950 A CN202310113950 A CN 202310113950A CN 116182894 A CN116182894 A CN 116182894A
- Authority
- CN
- China
- Prior art keywords
- matching
- feature
- image
- pairs
- feature point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims description 25
- 229920001651 Cyanoacrylate Polymers 0.000 claims description 12
- 239000004830 Super Glue Substances 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 abstract description 7
- 230000008859 change Effects 0.000 abstract description 6
- 238000005286 illumination Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000003124 biologic agent Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000013043 chemical agent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C22/00—Measuring distance traversed on the ground by vehicles, persons, animals or other moving solid bodies, e.g. using odometers, using pedometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C3/00—Measuring distances in line of sight; Optical rangefinders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/77—Determining position or orientation of objects or cameras using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Radar, Positioning & Navigation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Electromagnetism (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种单目视觉里程计方法、装置、系统及存储介质,该方法包括:步骤一、对摄像头采集的单帧图像进行特征点提取,得到图像的特征点和描述子;步骤二、将相邻帧图像的特征点进行特征匹配,得到特征匹配的最优得分矩阵;步骤三、对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。本发明能够融合深度学习的特征点提取和匹配算法,并对匹配结果进行优化,解决了视觉里程计在光照变化场景下误差较大的问题,提高了单目视觉里程计的精度和鲁棒性。
Description
技术领域
本发明涉及机器人同步定位与地图构建领域,具体是一种单目视觉里程计方法、装置、系统及存储介质。
背景技术
移动机器人是一种具有自主能力,能够执行特定任务的无人系统,移动机器人无论是在军事还是民用中都发挥着重要的作用。移动机器人可以部署在高危险环境或受核、生物或化学制剂污染的区域,它们可靠、快速、机动性强,可以执行各种任务,包括监控、巡逻、搜救等任务。
传统地形勘探的方式存在很多难点:①环境复杂、工况恶劣:战场上局势瞬息万变,十分危险;②危险地形,难以作业:部分地形作业风险高,地形勘探活动难以开展;③耗财耗时,效率低下:勘探方法古老,需要耗费大量的人力财力。针对以上问题,移动机器人就具有很多技术优势:①自主导航,可以抵达危险区域,人员无需涉险;②勘探方法简单便捷;③定位精度高,跑线精确。所以,移动机器人能够承担地形勘探、巡逻等任务,并且能够减少大量的人力、物力。
同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)作为移动机器人执行定位、导航等任务的核心技术,使得移动机器人能够在未知环境中自由活动。SLAM是指在未知环境中利用传感器对移动机器人周围环境中所处的位置与姿态进行状态感知与估计,并对所处环境进行地图构建。视觉里程计作为视觉SLAM的前端,是指从一系列图像流中估计相机的运动位姿。传统的视觉里程计算法包括相机矫正、特征检测、特征匹配、运动估计等,能够在大部分情况下取得很好的效果,但是在光照变化大的场景下会出现定位失败的现象。
发明内容
本发明提供一种单目视觉里程计方法、装置、系统及存储介质,能够融合深度学习的特征点提取和匹配算法,并对匹配结果进行优化,解决了视觉里程计在光照变化场景下误差较大的问题,提高了单目视觉里程计的精度和鲁棒性,能够适应复杂的场景。
一种单目视觉里程计方法,包括如下步骤:
步骤一、对摄像头采集的单帧图像进行特征点提取:利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子;
步骤二、将相邻帧图像的特征点进行特征匹配:利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵;
步骤三、根据匹配结果进行相机位姿估计与优化:对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。
进一步的,所述步骤一具体为:
深度卷积神经网络SuperPoint的模型结构包括共享编码器、特征点检测解码器和特征点描述解码器,所述共享编码器用于对图像进行降维处理,之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符,摄像头采集的单帧图像通过深度卷积神经网络SuperPoint处理后,即得到图像的特征点和特征描述子。
进一步的,所述步骤二具体为:
注意力机制GNN将输入的图像的特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
进一步的,所述步骤三具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离,对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对:
步骤3.2:采用RANSAC优化算法进一步对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
一种单目视觉里程计装置,包括:
特征点提取模块,用于对摄像头采集的单帧图像进行特征点提取,具体的,利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子;
特征点匹配模块,用于将相邻帧图像的特征点进行特征匹配,具体的,利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵;
位姿估计与优化模块,用于根据匹配结果进行相机位姿估计与优化,具体的,对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。
进一步的,所述特征点提取模块利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子,具体包括:所述特征点提取模块包括共享编码器、特征点检测解码器和特征点描述解码器,所述共享编码器对图像进行降维处理,之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符,摄像头采集的单帧图像通过所述特征点提取模块处理后,即得到图像的特征点和特征描述子。
进一步的,所述特征点匹配模块利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵,具体包括:
注意力机制GNN将输入的图像的特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
进一步的,所述位姿估计与优化模块,对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿,具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离,对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对:
步骤3.2:采用RANSAC优化算法进一步对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
一种单目视觉里程计系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行所述的单目视觉里程计方法。
一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的单目视觉里程计方法。
本发明能够融合深度学习的特征点提取和匹配算法,并对匹配结果进行优化,解决了视觉里程计在光照变化场景下误差较大的问题,提高了单目视觉里程计的精度和鲁棒性。
附图说明
图1是发明单目视觉里程计方装置的结构示意图;
图2是SuperPoint特征点提取网络结构图;
图3是Super Glue特征点匹配网络结构图;
图4是对极几何约束图;
图5是ORB算法、SIFT算法和SuperPoint算法对图像提取特征点效果图;
图6是ORB&BF算法、SIFT&FLANN算法和SuperPoint&SuperGlue算法对图像提取特征点效果图;
图7是分别基于ORB、SIFT、SuperPoint算法的单目视觉里程计相机位姿估计轨迹结果图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
图1所示为本发明单目视觉里程计装置的结构示意图,所述装置包括:
特征点提取模块:通过该模块获取摄像头的数据,并通过深度卷积神经网络提取图像中的特征点和特征描述子以供后续模块使用。SuperPoint网络结构如图2所示,特征点提取结果如图5所示。
特征点匹配模块:将相邻帧图像的特征点和特征描述子作为输入,通过自注意力机制神经网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征得分矩阵。SuperGlue网络结构如图3所示,特征点匹配结果如图6所示。
位姿估计与优化模块:根据最小距离阈值法和RANSAC优化算法对匹配结果进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。对极几何约束如图4所示,相机位姿估计与真实轨迹对比结果如图7所示。
根据各模块的功能,本发明实施例提供一种单目视觉里程计方法,包括如下步骤:
步骤一、对摄像头采集的单帧图像进行特征点提取(该步骤主要由深度卷积网络模块实现):利用卷积神经网络对图像进行特征点提取,获取图像的特征点和特征描述子。
考虑到传统视觉里程计在光照变化场景下误差较大的问题,本发明选取的是SuperPoint框架,其使用的编码器为VGG卷积网络,然后将特征点解码器和描述子解码器添加到网络来提取图像特征点和特征描述子。共享编码器结构类似于VGG卷积网络,主要由卷积层、下采样池化层和非线性激活函数组成。编码器将尺寸为的图像作为输入,经过卷积池化等操作后将图像映射到尺寸为/>(其中/>)的中间张量,进行了图片降维,提取深层特征,简化后续的计算量。特征点检测解码器通过上卷积运算将经过池化层和条纹卷积降维的图像还原到全分辨率,但上采样会增加计算复杂度,因此采用亚像素卷积层的特征点检测解码器来减少模型复杂度。特征点检测解码器将尺寸为/>的张量作为输入,通过Softmax归一化以及Reshape操作,输出/>尺寸的张量(其中/>),最后再经过NMS输出图像的特征点。特征点描述解码器将尺寸为/>的张量作为输入,对描述符进行归一化后根据特征点的位置通过双线性插值得到特征向量,输出/>的特征向量。
SuperPoint算法采用自监督的方式进行训练,训练过程是先使用已知角点的基础图形的虚拟图片来训练编码器和特征点解码器提取特征点,使用训练好的编码器和特征点解码器检测目标N个随机单应性矩阵变换后的特征点,将特征点通过逆向单应性变换还原到原图像上,最后将映射后的图像特征点作为增强点数据集训练网络生成特征点和描述子。损失函数由特征点损失和描述子损失两部分组成:
特征点相关损失函数定义为一个交叉熵损失:
步骤二、将相邻帧图像的特征点进行特征匹配(该步骤主要由注意力机制神经网络实现):考虑到传统的特征点匹配算法存在一定的缺点,例如源图像中多个特征点匹配到目标图的同一个特征点上,或是当源图特征亮度高于背景且标图特征亮度低于背景时,前景特征就会匹配到背景目标点上,本发明选取的是SuperGlue特征点匹配算法,对相邻帧图像的特征点进行匹配,求解最优特征得分矩阵。
注意力机制GNN将输入的图像特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
SuperPoint模型中注意力机制的原理为:注意力机制模拟人脑来回浏览匹配的过程,在特征点组成的无安全图中,图中包含两种无向边,一种是连接图像内部特征点的,另一种是连接本图中特征点i与另一张图所有特征点的。图像A上第i个元素在第/>层的中间表达式用/>表示,则图像A中所有特征点更新的残差信息为:
步骤三、根据匹配结果进行相机位姿估计与优化:根据最小距离阈值法和RANSAC优化算法对匹配结果进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。所述步骤三具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离。对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对;
步骤3.2:采用RANSAC优化算法对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
其中,H为单应矩阵。当特征点匹配正确且P点不在空间平面上时,归一化平面坐标与基础矩阵满足上式。若受到误匹配的影响,特征点无法落在极线上,则需要计算特征点分别到极线/>的距离,当距离大于阈值时该点为外点。
图5为ORB算法、SIFT算法和SuperPoint算法对图像提取特征点效果图。图5(a)反应了ORB的提取效果,提取出的特征点比较集中,能够提取出房子、树干的边缘等光暗变化明显的特征点,在图片中的大部分区域未提取出特征点,且特征点分布不均匀;图5(b)反应了SIFT的提取效果,提取出的特征点也比较密集,对比与ORB算法要稍均匀,主要集中在树干边缘等光暗变化明显的区域,在路面、汽车提取出少量特征点;图5(c)反应了SuperPoint的提取效果,均匀分布在图像中,不存在集中在某一区域的现象,图像中车辆、路面、房子、树干等都能提取出大量的特征点,从定性分析来衡量算法,SuperPoint算法要优于ORB算法和SIFT算法,对后续的特征点匹配和位姿估计提供了良好的基础。
图6为ORB&BF算法、SIFT&FLANN算法和SuperPoint&SuperGlue算法对图像提取特征点效果图。图6(a)反应了ORB&BF的特征点匹配效果,匹配结果中存在大量的匹配线密集的现象,大多数集中在一定的区域,匹配线段斜率接近;图6(b)反应了SIFT&FLANN的特征点匹配效果,结果也存在匹配线段密集的现象,相比于ORB算法更稀疏,在图像中的分布也更均匀;图6(c)反应了SuperPoint&SuperGlue的特征点匹配效果,匹配结果均匀分布在图像中,匹配质量优于ORB&BF和SIFT&FLANN两种算法,为位姿估计提供了良好的基础。
图7是分别基于ORB、SIFT、SuperPoint算法的单目视觉里程计相机位姿估计轨迹结果图。图7(a)为基于ORB算法的单目视觉里程计位姿估计效果,完全偏离实际轨迹。图7(b)为基于SIFT算法的单目视觉里程计位姿估计效果,前期轨迹误差较小,但随着帧数的增多,轨迹误差轨迹增大。图7(c)为本发明单目视觉里程计位姿估计效果,相机位姿估计轨迹与真实轨迹几乎一致。并且,该系统在光照变化明显的场景下也具有很高的精度。总的来说,该系统的优点在于:①提高了算法的鲁棒性;②提高了相机位姿估计的精度;③提高了系统的容错能力;④提高了整个系统的性能。
本发明另一方面提供了一种单目视觉里程计系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行所述的单目视觉里程计方法。
本发明另一方面提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的单目视觉里程计方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种单目视觉里程计方法,其特征在于:包括如下步骤:
步骤一、对摄像头采集的单帧图像进行特征点提取:利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子;
步骤二、将相邻帧图像的特征点进行特征匹配:利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵;
步骤三、根据匹配结果进行相机位姿估计与优化:对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。
2.如权利要求1所述的单目视觉里程计方法,其特征在于:所述步骤一具体为:
深度卷积神经网络SuperPoint的模型结构包括共享编码器、特征点检测解码器和特征点描述解码器,所述共享编码器用于对图像进行降维处理,之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符,摄像头采集的单帧图像通过深度卷积神经网络SuperPoint处理后,即得到图像的特征点和特征描述子。
3.如权利要求1所述的单目视觉里程计方法,其特征在于:所述步骤二具体为:
注意力机制GNN将输入的图像的特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
4.如权利要求1所述的单目视觉里程计方法,其特征在于:所述步骤三具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离,对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对:
步骤3.2:采用RANSAC优化算法进一步对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
5.一种单目视觉里程计装置,其特征在于:包括:
特征点提取模块,用于对摄像头采集的单帧图像进行特征点提取,具体的,利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子;
特征点匹配模块,用于将相邻帧图像的特征点进行特征匹配,具体的,利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵;
位姿估计与优化模块,用于根据匹配结果进行相机位姿估计与优化,具体的,对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。
6.如权利要求5所述的单目视觉里程计装置,其特征在于:所述特征点提取模块利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子,具体包括:
所述特征点提取模块包括共享编码器、特征点检测解码器和特征点描述解码器,所述共享编码器对图像进行降维处理,之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符,摄像头采集的单帧图像通过所述特征点提取模块处理后,即得到图像的特征点和特征描述子。
7.如权利要求5所述的单目视觉里程计装置,其特征在于:所述特征点匹配模块利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵,具体包括:
注意力机制GNN将输入的图像的特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
8.如权利要求5所述的单目视觉里程计装置,其特征在于:所述位姿估计与优化模块,对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿,具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离,对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对:
步骤3.2:采用RANSAC优化算法进一步对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
9.一种单目视觉里程计系统,其特征在于包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1-4中任一项所述的单目视觉里程计方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-4中任一项所述的单目视觉里程计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310113950.4A CN116182894A (zh) | 2023-02-15 | 2023-02-15 | 一种单目视觉里程计方法、装置、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310113950.4A CN116182894A (zh) | 2023-02-15 | 2023-02-15 | 一种单目视觉里程计方法、装置、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116182894A true CN116182894A (zh) | 2023-05-30 |
Family
ID=86436108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310113950.4A Pending CN116182894A (zh) | 2023-02-15 | 2023-02-15 | 一种单目视觉里程计方法、装置、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116182894A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455994A (zh) * | 2023-11-07 | 2024-01-26 | 暨南大学 | 一种相机位姿估计方法、系统、电子设备及可读介质 |
-
2023
- 2023-02-15 CN CN202310113950.4A patent/CN116182894A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455994A (zh) * | 2023-11-07 | 2024-01-26 | 暨南大学 | 一种相机位姿估计方法、系统、电子设备及可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270249B (zh) | 一种融合rgb-d视觉特征的目标位姿估计方法 | |
Teed et al. | Droid-slam: Deep visual slam for monocular, stereo, and rgb-d cameras | |
JP7106665B2 (ja) | 単眼深度推定方法およびその装置、機器ならびに記憶媒体 | |
Wang et al. | 360sd-net: 360 stereo depth estimation with learnable cost volume | |
CN113674416B (zh) | 三维地图的构建方法、装置、电子设备及存储介质 | |
CN107657644B (zh) | 一种移动环境下稀疏场景流检测方法和装置 | |
CN110619638A (zh) | 一种基于卷积块注意模块的多模态融合显著性检测方法 | |
US20220392083A1 (en) | Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator | |
CN113256699B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN113674400A (zh) | 基于重定位技术的光谱三维重建方法、系统及存储介质 | |
CN115049821A (zh) | 一种基于多传感器融合的三维环境目标检测方法 | |
CN112686952A (zh) | 一种图像光流计算系统、方法及应用 | |
CN116182894A (zh) | 一种单目视觉里程计方法、装置、系统及存储介质 | |
Liu et al. | D-lc-nets: Robust denoising and loop closing networks for lidar slam in complicated circumstances with noisy point clouds | |
Hirner et al. | FC-DCNN: A densely connected neural network for stereo estimation | |
Basak et al. | Monocular depth estimation using encoder-decoder architecture and transfer learning from single RGB image | |
Zhang et al. | Improved feature point extraction method of ORB-SLAM2 dense map | |
CN113160210A (zh) | 基于深度相机的排水管道缺陷检测方法及装置 | |
Geletu et al. | Deep learning based architecture reduction on camera-lidar fusion for autonomous vehicles | |
Gao et al. | Optimization of greenhouse tomato localization in overlapping areas | |
CN114140524A (zh) | 一种多尺度特征融合的闭环检测系统及方法 | |
Carvalho et al. | Technical Report: Co-learning of geometry and semantics for online 3D mapping | |
Ding et al. | Research on optimization of SURF algorithm based on embedded CUDA platform | |
Piao et al. | Dynamic fusion network for light field depth estimation | |
Zeng et al. | 3D Reconstruction of buildings based on transformer-MVSNet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |