CN114821093A - 从图像中提取特征的方法、装置及计算器可读介质 - Google Patents
从图像中提取特征的方法、装置及计算器可读介质 Download PDFInfo
- Publication number
- CN114821093A CN114821093A CN202110969931.2A CN202110969931A CN114821093A CN 114821093 A CN114821093 A CN 114821093A CN 202110969931 A CN202110969931 A CN 202110969931A CN 114821093 A CN114821093 A CN 114821093A
- Authority
- CN
- China
- Prior art keywords
- descriptor
- keypoint
- locations
- image
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 73
- 239000013598 vector Substances 0.000 claims description 23
- 230000000295 complement effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 description 41
- 230000008569 process Effects 0.000 description 37
- 238000005457 optimization Methods 0.000 description 30
- 238000001514 detection method Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 20
- 238000012952 Resampling Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 14
- 230000000153 supplemental effect Effects 0.000 description 12
- 238000005070 sampling Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 239000007787 solid Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 235000009499 Vanilla fragrans Nutrition 0.000 description 2
- 244000263375 Vanilla tahitensis Species 0.000 description 2
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000009728 shiwei Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
本发明提供从图像中提取特征的方法、装置及计算器可读介质。其中,一种从图像中提取特征的方法,包括:接收包括多个像素的图像;通过基于人工智能(AI)的特征提取器生成与该图像中的该多个像素的多个位置相对应的多个置信值;在该图像中的该多个像素的该多个位置中选择第一位置,其中生成的该多个置信值中在该第一位置处的第一置信值高于第一阈值;和基于与该图像中的该多个像素的该多个位置相对应的该多个置信值生成最终的关键点‑描述符对集合,该最终的关键点‑描述符对集合包括至少两个关键点‑描述符对,该至少两个关键点‑描述符对对应该第一位置。实施本发明实施例可具有较高的局部关键点密度。
Description
技术领域
本发明涉及计算器视觉(computer vision)领域,更具体地涉及计算器视觉中的特征提取。
背景技术
在特征提取过程中,从输入图像生成兴趣点和相应的局部描述符(localdescriptor)。这些点对应关系可用于在各种应用中估计移动的摄像机 (camera)的姿势,所述应用例如视觉里程计(Vision Odometry,VO),运动恢复结构(Structure fromMotion,SFM)和基于视觉的同步定位与地图构造(Visual-based SimultaneousLocalization And Mapping, V-SLAM)。
发明内容
本发明提供从图像中提取特征的方法、装置及计算器可读介质,具有较高的局部关键点密度。
具体的,本发明提供的一种从图像中提取特征的方法,可包括:接收包括多个像素的图像;通过基于人工智能(AI)的特征提取器生成与该图像中的该多个像素的多个位置相对应的多个置信值;在该图像中的该多个像素的该多个位置中选择第一位置,其中生成的该多个置信值中在该第一位置处的第一置信值高于第一阈值;和基于与该图像中的该多个像素的该多个位置相对应的该多个置信值生成最终的关键点-描述符对集合,该最终的关键点-描述符对集合包括至少两个关键点-描述符对,该至少两个关键点-描述符对对应该第一位置。
本发明提供的一种从图像中提取特征的装置,包括:基于AI的特征提取器,被配置为接收包括多个像素的图像,并生成与该图像中的该多个像素的位置相对应的多个置信值;附加结构,被配置为在该图像中的该多个像素的多个位置中选择第一位置,其中生成的该多个置信值中在该第一位置处的第一置信值高于第一阈值;和基于与该图像中的该多个像素的该多个位置相对应的该多个置信值生成最终的关键点-描述符对集合,该最终的关键点-描述符对集合包括至少两个关键点-描述符对,该至少两个关键点-描述符对对应该第一位置。
本发明提供的一种存储指令的计算器可读介质,该指令在由处理器执行时使处理器执行从图像中提取特征的方法,该方法包括:接收包括多个像素的图像;通过基于人工智能(AI)的特征提取器生成与该图像中的该多个像素的位置相对应的多个置信值;在该图像中的该多个像素的多个位置中选择第一位置,其中生成的该多个置信值中在该第一位置处的第一置信值高于第一阈值;和基于与该图像中的该多个像素的该多个位置相对应的该多个置信值生成最终的关键点-描述符对集合,该最终的关键点-描述符对集合包括至少两个关键点-描述符对,该至少两个关键点- 描述符对对应该第一位置。
本发明通过实施上述方法、装置及计算器可读介质,可具有较高的局部关键点密度。
附图说明
图1示出了基于人工智能(AI)的特征提取过程100的示例;
图2示出了单应矩阵精度(仅视点)与检测次数(检测到的兴趣点)的两条曲线210和220;
图3示出了根据本发明的实施例的基于关键点重取样和融合(KRF)的特征提取系统300;
图4示出了根据本发明的实施例的另一基于KRF的特征提取系统400;
图5示出了根据本发明实施例的基于KRF的视觉同步定位与地图构造 (V-SLAM)系统500;
图6示出了根据本发明实施例的基于KRF的特征提取过程600;和
图7示出了根据本发明的实施例的示例性装置700。
具体实施方式
在说明书及权利要求书当中使用了某些词汇来指称特定的组件。本领域技术人员应可理解,硬件制造商可能会用不同的名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。在通篇说明书及权利要求当中所提及的“包含”及“包括”为一开放式的用语,故应解释成“包含但不限定于”。“大体上”或“大约”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”或“耦合”一词在此包含任何直接及间接的电性连接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表该第一装置可直接电性连接于该第二装置,或通过其它装置或连接手段间接地电性连接至该第二装置。以下所述为实施本发明的较佳方式,目的在于说明本发明的精神而非用以限定本发明的保护范围,本发明的保护范围当视权利要求书所界定者为准。
接下面的描述为本发明预期的最优实施例。这些描述用于阐述本发明的大致原则而不应用于限制本发明。本发明的保护范围应在参考本发明的权利要求书的基础上进行认定。
I.基于AI的特征提取的局限性
在各种应用中,可以执行特征提取(Feature Extraction,FE)以从输入图像生成兴趣点和相应的局部描述符。连续图像之间的兴趣点对应关系可用于估计移动的摄像机的姿势,以解决视觉里程计(VO),运动恢复结构(SFM),基于视觉的同步定位与地图构造(V-SLAM)或类似应用的问题。
例如,机器人依靠来自摄像机的信息来估计摄像机的姿势并相应地跟踪其位置。检测引擎(或称为特征检测器)可以根据特征区别(例如输入图像中的边缘,斑点和拐角)检测兴趣点。描述引擎可以使用诸如256 位(256-bit)长的二进制向量之类的表示来描述每个兴趣点。来自连续图像的检测特征(关键点(keypoint)-描述符对)可以基于其描述符之间的某种相似性度量进行匹配,以建立点对应关系。兴趣点,特征点和关键点在本发明中可互换地使用。
在一些示例中,执行特征检测和特征描述功能的特征提取器可以被分类为传统的特征提取器和学习的(基于人工智能(Artificial Intelligence, AI)的)特征提取器。
传统的特征提取器使用手工技术(handcrafted techniques)计算拐角/边缘检测。通常通过计算中心像素(pixel)与其相邻像素之间的对比度来完成检测,而通常中心像素的描述符通过计算其局部补丁(local patch) 内的多个像素的梯度(gradient)来生成。手工技术的示例包括ORB,旋转的FAST,SIFT,旋转的BRIEF和ORB-SLAM2,它们分别由以下参考文献描述:(i)E.Rublee,V.Rabaud,K.Konolige and G.R.Bradski, “ORB:an efficientalternative to SIFT or SURF”,ICCV,Spain,pp. 2564-2571,2011;(ii)E.Rosten andT.Drummond,“Machine learning for high-speed corner detection,”ECCV,Austria,pp.430–443,2006;(iii)D.G. Lowe,“Distinctive image features from scale-invariant keypoints,” International Journal of Computer Vision,60(2):91–110,2004;(iv)M. Calonder,V.Lepetit,C.Strecha,and P.Fua,“BRIEF:Binary RobustIndependent Elementary Features,”ECCV Greece,pp.778–792,2010;and (v)R.Mur-Artal,J.M.M.Montiel,and J.D.Tardos,“ORB-SLAM:a versatile and accuratemonocular slam system,”IEEE Transactions on Robotics,31(5):1147–1163,2015。这些参考文献通过引用整体并入本文。在一些示例中,传统的特征提取由中央处理单元(CPU)计算。
基于AI的特征提取器可以通过端到端的训练结构来学习兴趣点和描述符。例如,作为基于AI的特征提取器的输出,可以生成包含提取的兴趣点的热图(heatmap)。热图中的每个兴趣点都可以与一个置信值 (confidence value)或一个置信分数(confidencescore)相关联(例如,介于0和1之间的数字,或者是比0-1的范围更大的范围内的数字)。可以通过针对截止置信阈值(confidence threshold)进行阈值提取来提取热图中的兴趣点。但是,这种二进制样式的方法会忽略每个兴趣点的置信信息,并会限制姿势估计的准确性。
基于AI的特征提取技术的示例包括SuperPoint(2018),GCNv2(2019),UnsuperPoint(2019)和ContextDesc(2019),它们分别由以下参考文献描述:(i)D.DeTone,T.Malisiewicz,A.Rabinovich,“SuperPoint: self-supervised interest pointdetection and description,”CVPRW,US, 2017;(ii)J.Tang,L.Ericson,J.Folkesson,and P.Jensfelt,“GCNv2: efficient correspondence prediction for real-timeSLAM,”IEEE Robotics and Automation Letters,2019;(iii)P.H.Christiansen,M.F.Kragh,Y. Brodskiy,and H.Karstoft,“UnsuperPoint:end-to-end unsupervisedinterest point detector and descriptor,”arXiv preprint arXiv:1907.04011,2019;(iv) 罗自新,沉天伟,周雷,张家辉,姚瑶,李世伟,方天和龙泉,“情境描述:具有跨模态情境的局部描述符增强”,计算器视觉和模式识别(CVPR),2019。这些参考文献通过引用整体并入本文。在一些示例中,可以通过CPU,图形处理单元(Graphic Processing Unit,GPU),加速处理单元(Accelerated Processing Unit,APU)或其组合来计算基于AI 的特征提取。
虽然比传统的特征提取更有效,但是基于AI的最新的特征提取具有以下局限性:由于二进制阈值而对具有区分性置信值的多个学习兴趣点没有进行区分,并且由于具有高相似度得分的附近描述符而空间地对抗 (spatially agonistic)。
图1示出了基于AI的特征提取过程100的示例。在过程100中,采用了二进制阈值方法,并且由于密集关键点之间的描述符的高相似性,发生了不正确的特征匹配。在过程100中,将包括像素111的图像110输入到基于AI的检测器121和基于AI的描述符122。
基于AI的检测器121执行关键点检测以生成检测器热图131(也称为检测热图或热图)。检测器热图131包括分别对应于输入图像110的单个像素的多个置信值(例如,0-1之间的分数)。通过阈值(例如,0.1)对置信值进行阈值化方法,包括关键点A-E的一组关键点133可以从检测器热图131中提取出。检测器热图131中的每个置信值(对应于图像110 中的一个像素)可以指示各个位置成为兴趣点的合格度。较高的置信值可能指示相应位置成为高质量兴趣点的可能性较高。
关键点A-C在空间上彼此靠近,因此被称为密集兴趣点,而关键点D-E 每个都远离任何其他关键点,因此每个都被称为稀疏兴趣点。
描述符122执行特征描述以生成描述符图132。描述符图132可以包括与输入图像110中的每个像素111相对应的描述符(例如,256位特征向量)。对应于从检测器热图131中获取的关键点A-E,通过执行描述符取样,可以从描述符图132中取样包括描述符A-E的一组描述符134。因此,可以形成多个关键点-描述符对,其中每个关键点-描述符对包括关键点的坐标和相应的描述符。由于基于AI的描述符122的特性,与密集的多个关键点A-C相对应的多个描述符A-C趋于彼此高度相似,而与稀疏的多个关键点D-E相对应的多个描述符D-E的每一个趋于与描述符图132中的其他描述符不同。
作为V-SLAM处理的结果,例如,可以基于当前图像110之前的一系列图像来生成包括图点(map point)141的点云(point cloud)140。在图点141中,图点A-E分别对应于作为关键点A-E的像素。可以基于例如当前图像110中的关键点与先前图像中的关键点之间的描述符相似性度量来执行特征匹配过程,以建立相应的关键点对应关系。在图1中示出了关键点A-E和图点A-E之间的对应关系。
由于关键点A-C的描述符得分高度相似,因此在特征匹配过程中发生了混淆,由此关键点A,B和C分别与图点B,C和A错误地匹配,导致不正确的对应关系。相反,由于关键点D-E的描述符得分的相似度低,所以关键点D和E分别正确地与图点D和E匹配,从而导致正确的对应关系。
从上述过程100中可以看出,关键点检测是非区分性的。所有被阈值合格化的点,均以相同的方式被处理,并被用作具有相同重要性的有效兴趣点来对描述符图132进行取样,尽管具有较低置信分数的提取的特征具有较高的匹配失败趋势(错误匹配)。诸如特征匹配,单调优化(prose optimization)或随机取样一致(RANSAC)之类的某些测量可用于去除异常值(不正确的匹配)。但是,高质量关键点与低质量关键点的比值决定了这些措施将如何成功或准确地起作用。
每个图像的大量的关键点可以利于束调整(bundle adjustment)或姿势图优化(pose graph optimization)。然而,采用二进制阈值化方法(binary thresholding)与该目标相冲突。条件作用(conditioning)(使用较大的检测阈值)可以过滤出可靠的/重复的点,但是减少了每幅图像的点数。宽松的条件作用(低的检测阈值)会导致好的关键点-描述符对与总的关键点-描述符对之间的比值下降,并且会生成过多的噪声点,从而导致匹配失败。
另外,在过程100中,多个描述符134是空间地对抗的。理想地,所提取的局部密集且全局稀疏的关键点可以优化诸如V-SLAM系统的应用程序的性能。但是,某些处理操作可能无法处理从基于AI的特征提取生成的密集点或集中点。例如,在特征匹配期间临近的描述符A-E可能彼此冲突。为了避免冲突,在一些示例中,在对描述符图132进行取样之前,可能必须部分地去除相邻的关键点以将密集的关键点转换为稀疏的关键点。因此,由于空间地对抗特性,无法充分利用从AI提取中生成的密集特征点。另外,抑制提取的关键点导致可用关键点的数量减少,这会降低特征匹配操作的准确性。
期望基于AI的特征提取方法可以为每个图像提供大量可用的关键点,同时保持高百分比的好点并在可用关键点中保持局部集中的关键点。
图像缩放金字塔
在一些示例中,建立输入图像的缩放金字塔(scale pyramid)(或图像金字塔)以便获得密集的关键点。缩放金字塔可以包括具有不同尺寸的多层图像。上层图像可以被过滤掉并从相邻的下层图像中进行二次取样,因此具有较小的高度和宽度。可以将相同的特征提取方案应用于图像的每个层以获得关键点-描述符对。每个缩放层上的关键点位置都可以缩放回原始输入图像的尺寸。结果,多个关键点可以位于输入图像的相同像素处或附近。然而,由于在不同层的那些附近的关键点中的每一个都由于缩放而与不同的接收区域相关联(例如,较高层的点具有比较低层的点更大的接收区域),因此从不同的接收区域计算出的描述符可以是不同的。因此可以获得具有不同描述符的密集关键点。
作为示例,ORB特征提取方法采用特征缩放金字塔来改善包括智能手机上的对象检测和补丁跟踪在内的实时应用的性能。
II.具有关键点重取样和融合(KRF)的基于AI的特征提取关键点重取样和融合(Keypoint resampling and fusion,KRF)是基于AI 的特征提取方案。在采用KRF的实施例中,来自基于AI的特征提取过程的置信信息被用于改善姿势优化的准确性。例如,可以基于不同的置信阈值从输入图像或检测图重新取样兴趣点,从而生成像素堆栈的 (pixel-stacked)高置信(highly-confident)兴趣点。因此,可以增加高质量兴趣点与低质量兴趣点的比值。在某些情况下,补充的多个描述符用于描述像素堆栈的兴趣点。在某些情况下,KRF可与缩放金字塔方案结合使用,并应用于多层调整尺寸后的图像,以进一步提高跟踪精度。与其他基于AI或不基于AI的特征提取方案相比,当采用KRF时,由于额外的高可信度的关键点,可以获得正确对应与错误对应的更高的比值。此外,还可以维持局部密集的关键点。这些技术优势可改善姿势估计/优化性能。
表1示出了不同特征提取方案对每个像素的取样点的比较。
表1
1.姿势优化
在一个示例中,对于尺寸为×W的输入图像,基于AI的特征检测器头预测热图X∈RH×W。此外,描述符头预测向量图其中dD是RH×W中的每个像素的向量深度。基于置信阈值tc,使用二进制阈值化方法从X 中提取兴趣点x,同时从D中取样描述符向量。图像到地图的配准 (Image-to-map registration)是通过使用透视n点(Perspective-n-Point, PnP)和/或束调整(Bundle Adjustment,BA)将2D兴趣点x的描述符与三维(3D)对象点进行匹配来执行的。因此,姿势优化是一个最大似然问题:
2.关键点重取样
在一个实施例中,具有两个局部头(head)(译码器)的VGG型编码器被用于生成热图X和描述符图D。可以使用视点变形的 (viewpoint-warped)图像对来共同训练所述两个头,其中检测器头从伪标签(pseudo-label)中学习,而描述符头则学习以在变形的图像之间关联相似像素。最终,对于i,j∈RH×W的每个像素,热图X学习到例如位于0 和1之间的一置信值。
在一个示例中,采用二进制阈值化方法从热图中取样关键点。如果关键点xij的置信等于或高于阈值tc,则该关键点可以被提取:
在一个示例中,采用重取样方案(多轮阈值)来生成堆栈的关键点。执行第一阈值化方法(或主阈值化方法)使用低置信阈值tlc从热图中取样关键点xlc,而第二阈值化方法(或辅助阈值化方法)使用高置信阈值thc从热图中取样关键点xhc:
xhc∈xlc∈X (4)
相应地,由于被tlc和thc都认为合格,像素(i,j)处的高置信关键点被提取了两次。最终在像素(i,j)处提取的关键点将呈现堆栈,因为点位于同一像素。因此,将置信信息编码至堆栈的关键点,从而在具有改善的精度的同时获得精细的姿势优化。
在一个示例中,在提取堆栈的关键点之后,不从相同的描述符图D中取样与堆栈的关键点的不同层相对应的描述符。在姿势估计期间,具有相似或相同描述符的关键点很可能形成不正确的匹配,因此被删除。在这样的配置下,用于一对堆栈的关键点的描述符彼此不同。
可以采用各种方案来获取与用于堆栈的关键点的描述符图D中的描述符不同的描述符。在一个示例中,描述符被表示为二进制向量。因此,对于堆栈在同一像素的两个关键点,可以通过将二进制向量中的每个位从0切换为1或从1切换为0,来确定与描述符图D中的原始描述符相对应的互补描述符。
3.堆栈的关键点的影响
图2示出了单应矩阵精度(homography accuracy)(仅视点 (viewpoint-only))与检测数(检测到的兴趣点)的两条对照曲线210 和220。这些曲线是根据称之为HPatches的单应矩阵数据集获得的。另外,在图2中还示出了表示假想(hypothetical)趋势的第三条曲线230。曲线210(基线)对应于采用二进制阈值tc的第一场景。对于阈值tc的不同值,当tc=0.05时,单应矩阵精度(Homography Accuracy,HA)最佳,而当tc太小或太大时,单应矩阵精度变差。可以试探性地选择阈值tc以允许检测大量的兴趣点。如果tc太低,则会获取低质量(例如,噪音大且重复性低)的兴趣点。低质量的兴趣点可能不利于姿势估计,因为不可重复的(non-repeatable)点会生成不正确的对应关系。在PnP/BA中,不正确的对应关系在几何距离较大时危害较小,因为它们很容易被识别为离群值。但是,当几何距离较小时,不正确的对应关系可以作为内在值接受,并会导致姿势误差。另一方面,如果tc太高,则会阻止太多点,从而导致优化器(执行PnP/BA)对错误的对应关系变得敏感。
曲线220(堆栈的关键点)对应于采用关键点重取样的第二场景。对于曲线220上的每个数据点,括号中所示的一对阈值用于两轮阈值操作以生成堆栈的关键点。与每个数据点对应的平均检测数是两轮取样操作生成的关键点的总和。
如图所示,随着阈值对从较高的值变化到较低的值,更多的关键点变得可用。由于每轮关键点重取样中都有额外的高置信关键点,因此可以保持正确的对应关系与错误的对应关系的比值。因此,与曲线220相对应的HA可被维持或增加。如假想线230所示,只要在不降低正确对应关系的比率的情况下提取兴趣点,姿势估计的精度就不会恶化。
另外,由于关键点重取样方案,更多的高置信关键点被计入结果关键点集中以增加高质量关键点的偏差。因此,对于曲线220上的所有数据点,曲线220的HA高于曲线230的HA。
4.基于KRF的特征提取和姿势优化
图3根据本发明实施例示出了基于KRF的特征提取系统300。系统300 可以包括基于AI的特征提取结构301和附加结构302。基于AI的特征提取结构301可以类似于采用二进制阈值方法的基于AI的特征提取方案的方式进行操作,同时附加结构302可以基于重新取样的关键点进行操作,以生成与堆栈的高置信关键点关联的额外的关键点-描述符对。
基于AI的特征提取结构301可以包括基于AI的特征提取器320。基于 AI的特征提取器320可以被配置为处理输入图像310以输出检测器热图 331和描述符图332。检测器热图331可以包括与输入图像310的每个像素相对应的置信值。检测器热图331可以包括提取的关键点,每个提取的关键点与一数值(置信值)相关联,该数值指示各个关键点的质量(例如,关键点的可靠度和/或可重复性如何),或指示该点成为好的关键点的概率。例如,所提取的关键点可以由输入图像310中的位置坐标(i,j)表示。描述符图332可以包括与输入图像310中的每个像素相对应的描述符。
在各种实施例中,基于AI的特征提取器320可以使用各种神经网络 (neuralnetwork)模型并以各种方式被训练。通常,基于AI的特征提取器320可以采用以监督,未监督或半监督的方式训练的卷积神经网络 (Convolutional Neural Network,CNN)。例如,基于AI的特征提取器 320可以使用SuperPoint架构,该架构由D.DeTone,T.Malisiewicz,A.Rabinovich在“self-supervised interest point detection and description,”,CVPRW,US,2017年中描述。
在一个实施例中,如图3所示,基于AI的特征提取器320包括共享的主干(backbone)(共享的编码器)321,检测器头(检测器译码器)322 和描述符头(描述符译码器)323。共享的主干321处理并减小输入图像的维度(dimensionality)。例如,共享的主干321可以使用VGG样式的编码器,并且共享的主干321包括多个卷积层,经由池化的空间向下取样以及非线性激活功能。检测器头322和描述符头323学习任务特定的(task specific)权重。
在一个实施例中,基于AI的特征提取器320包括独立的管线用于分别生成检测器热图331和描述符图332。例如,可以采用与检测器热图331 和描述符图332相对应的两个单独的神经网络。或者,一个基于AI的检测器用于生成检测器热图331,而一个基于非AI的描述符引擎用于生成描述符图332。
检测器热图331可以包括输入图像310中每个像素的置信值。例如,可以从检测器头322输出检测器热图中的置信值。然后,可以使用第一阈值执行第一阈值化方法(相对于随后进行的第二阈值化方法)以滤出检测器热图331中提取的关键点。
在各个实施例中,检测器热图331中的置信值中的每一个可是0-1范围内的数值,其表示点成为好关键点的概率。或者,每个置信值都可以位于比0-1更广的范围内。对应于这两种情况,可以适当地定义阈值,以便可以选择质量高于特定水平的关键点。
在检测器热图331和描述符图332可用之后,可以执行描述符取样操作以从描述符图332中选择与检测器热图331中的关键点相对应的描述符。关键点-描述符对的第一列表333因此可以通过将关键点与相应的描述符组合起来而形成。例如,每个关键点-描述符对可以包括坐标(i,j) 和描述符向量。
在一个实施例中,在附加结构302的操作中,可以通过对检测器热图331 重新取样(例如,使用置信滤波器)来生成另一个检测器热图341(称为条件检测器热图)。例如,可以用第二阈值执行第二阈值化方法,以滤出要包括在条件检测器热图341中的检测器热图331中的关键点。与在第一阈值化方法中使用的用于生成在检测器热图331中生成关键点的第一阈值相比,第二阈值可以对应于更高的置信值。
在一个示例中,通过将检测器热图331中的像素的置信值与第二阈值进行比较来执行对检测器热图331的重取样。在另一个示例中,检测器热图331的重取样是对基于第一阈值提取的关键点进行。将基于第一阈值提取的关键点的置信值与第二阈值进行比较。
在一个实施例中,可以由附加结构302生成补充的(complementary)描述符图342。例如,通过将描述符图332中的描述符向量中的每个位从 0切换到1或从1切换到0,由此可以生成补充的描述符图342中的相应的互补向量。
在其他实施例中,可以以各种方式生成代替补充的描述符图342的描述符图,以获得与描述符图332中的描述符不同的描述符。在一个示例中,可使用与描述符图332中的描述符具有不同向量长度的描述符。在一个示例中,可使用与用于生成描述符图332的描述符生成方案(例如,基于AI的)不同的描述符生成方案(例如,非基于AI的)来生成描述符。在进一步的实施例中,可使用描述符332用于替代补充的描述符图342。可以适当地调整用于姿势估计或姿势优化的后续处理操作以适应这种配置。
在条件检测器热图341(包含从重取样得到的关键点)和补充的描述符图342可用之后,可以执行另一描述符取样过程以从补充的描述符图342 中选择与条件检测器热图341中的关键点相对应的描述符。关键点-描述符对的第二列表(未示出)可以相应地通过将关键点与所得到的描述符组合来形成。
最后,附加结构302可以执行融合操作以组合关键点-描述符对的第一列表333和第二列表以生成关键点-描述符对的最终列表343。关键点-描述符对的最终列表343可以包括像素堆栈关键点的关键点-描述符对,该像素堆栈关键点具有高于第二阈值的相对高的置信值。这样的最终列表 343导致总关键点的数量变多,较高质量的关键点与较低质量的关键点的比例更高(潜在地导致正确特征匹配与错误特征匹配对应的比例更高),并且相较于与没有采用关键点重取样方案的情况生成的第一列表的关键点-描述符对333具有较高的局部关键点密度。
虽然在图3的示例中从检测器热图331进行一次重取样生成两层堆栈的关键点,但是在一些实施例中,可以执行多次重取样以生成多于两层的堆栈的关键点。例如,可以利用5个不同或相同的置信阈值在检测器热图331上执行5轮重取样,从而导致6层的堆栈关键点。因此,对应于每个取样,可以采用唯一或相似的描述符生成方案来生成对应的描述符图。关键点-描述符对的最终列表可以包括基于5层关键点中的每一个生成的关键点对。
图4示出了根据本发明的实施例的另一个基于KRF的特征提取系统 400。系统400可以包括第一基于AI的特征提取器420,第二基于AI 的特征提取器430和KRF模块440。
在一个实施例中,第一基于AI的特征提取器420可以包括由关键点检测器422和关键点描述符423共享的主干421(例如VGG样式的编码器)。主干421处理输入图像410以生成输入图像410的空间缩小表示。基于主干421的输出,关键点检测器422生成检测热图424(也称为检测器热图)。检测热图424包括分别与高于第一阈值的置信值(或置信分数)相关联的检测到的多个关键点425。基于主干421的输出,关键点描述符423可以生成包括对应于输入图像410中的多个像素的多个描述符的描述符图426。
基于检测到的关键点425,可以从描述符图426中取样相应的描述符 427。检测到的关键点425和相应的描述符427可以被组合以形成第一关键点-描述符对列表428。
在一个实施例中,KRF模块440包括条件器(conditioner)441。条件器 441可以对检测到的关键点425执行置信阈值442,以确定可包括在条件检测热图444中的关键点445。置信阈值442可以基于高于第一阈值的第二阈值。因此,条件检测热图444包括具有高于第二阈值的置信值的关键点445。另外,条件器441可以执行补充操作(complementingoperation)443以基于描述符图426生成补充的描述符图446。KRF模块440可以基于条件检测热图444中的关键点445对补充的描述符图446 进行取样以选择相应的描述符447。通过组合关键点445和相应的描述符447,可以生成第二关键点-描述符对列表448。
在一个实施例中,第二基于AI的特征提取器430可以具有与第一基于 AI的特征提取器420类似的结构,并且可以执行与第一基于AI的特征提取器420类似的功能。但是,基于AI的特征提取器430的输入可以是通过调整输入图像410的尺寸(缩小)获得的图像411。在一些示例中,调整尺寸可以基于各种多尺度信号表示图像处理技术,例如图像金字塔,尺度空间表示,多分辨率分析等。例如,可以使用各种不同的平滑核来生成金字塔,例如高斯金字塔,拉普拉斯金字塔,可转向金字塔等。
在一个示例中,对应于输入图像411的减小的尺寸,与基于第一AI的特征提取器420相比,可以减小在基于第二AI的特征提取器430中采用的神经网络的尺寸。通过处理输入图像411,可以生成第三关键点-描述符对列表431。
因此,KRF 440可以执行融合操作450来组合第一关键点-描述符对列表 428,第二关键点-描述符对列表448和第三关键点-描述符对列表431,以生成关键点-描述符对的最终列表451。
在一个实施例中,KRF模块440可以包括另一个条件器(类似于条件器 441)以处理来自第二基于AI的特征提取器430的输出以生成关键点- 描述符对的第四列表。第四列表也可以被包括在最终列表451中,以进一步增加关键点-描述符对的数量。
在其他实施例中,类似于第一特征提取器420和第二特征提取器430的一个或多个附加的基于AI的特征提取器可以与特征提取器420和430 并行地添加到系统400中。可以使用多尺度信号表示技术生成附加的尺寸调整后的图像并将其输入到各个添加的特征提取器。这样,可以生成更多的关键点-描述符对列表并将其包括在关键点-描述符对的最终列表 451中。
注意,尽管术语“阈值化”,“阈值”,“置信阈值”,“第一阈值”,“第二阈值”用于描述从基于AI的提取过程的输出中获取关键点的操作,本发明不限于与这些术语有关的操作。在此描述的阈值操作之外的基于与对应于输入图像的像素的位置相关联的置信分数来选择关键点并且导致多级像素堆栈的关键点的任何操作都落入本发明的精神内。任何其他方法(不限于阈值),例如针对输入图像的信道或频谱对输入图像进行后处理,只要是从同一像素连续地提取检测结果,都应属于本发明的范围。
另外,图4的示例中的条件器441的模块中的置信阈值442和补充443 的操作是实现方法的简单选择。只要可以有效地生成条件热图444中的关键点和可以有效地生成补充的描述符图446,也可以采用不同于图4 示例中所描述的其他条件器或方法。
此外,在一些实施例中,可以不使用单独的热图(例如,热图331、341、 424和444)以及可以不执行对第一热图重取样以在第二热图中生成关键点的操作。
例如,在可从基于AI的特征提取过程获得与输入图像的像素相对应的一组置信分数(例如,以热图的形式)之后,可以使用第一阈值逐一检查这些置信分数。当找到高于或等于第一阈值的置信分数时,可以将与该置信分数相对应的位置确定为要提取像素堆栈的关键点的位置。因此,可以对应于该位置(在输入图像中具有(i,j)的坐标)形成两对或更多对关键点-描述符对。每对关键点-描述符对可具有从不同描述符图(例如,补充的描述符图)取样的不同的描述符。
以类似的方式,可以确定具有像素堆栈的关键点的多个位置。可以为多个位置中的每一个形成对应的关键点-描述符对。这些关键点-描述符对可以包含在关键点-描述符对的最终列表中。
另外,当检查热图中的位置的置信分数时,如果置信分数小于第一阈值,则可以将置信分数进一步与第三阈值进行比较。第三阈值可以低于第一阈值。如果置信分数高于或等于第三阈值,则可以从该位置提取未堆栈 (non-stacked)的关键点。随后,可以将此关键点处的关键点-描述符对添加到关键点-描述符对的最终列表中。
在一些实施例中,通过对热图中的置信值进行排名来执行对堆栈关键点的提取。例如,可以首先对热图中不同位置的置信值进行分类。然后,具有最高置信值的第一数量的位置可以被选择为像素堆栈的关键点。具有最高置信值的第二数量的位置可以被选择为非像素堆栈的关键点。使用排名方案,还可以确定出大于两层的堆栈关键点。
本文公开的KRF方案可以与广泛的计算器视觉相关技术或应用结合以改善性能。例如,使用KRF技术生成的关键点-描述符对的最终列表可以用作各种算法和应用程序的输入,例如透视n点(Perspective-N-Point, PNP),特征/兴趣点匹配,包调整,图形优化,图像检索,迭代最近点 (Iterative Closest Point,ICP),SLAM,视觉里程计,重新定位,回路闭合,3D重建,机器人/无人机导航,自动驾驶汽车,增强现实(Augmented Reality,AR),虚拟现实(Virtual Reality,VR)。
图5示出了根据本发明实施例的基于KRF的V-SLAM系统500。系统 500可以被配置为在基于从摄像机输出的图像构建环境的地图的同时,在没有先验地图的情况下跟踪在环境的场景中移动的摄像机。摄像机可以固定至在环境中移动的机器人或车辆上。系统500可以包括用于跟踪过程(tracking process)的每帧域和用于地图构造过程(mappingprocess) 的关键帧域。在一个示例中,跟踪过程和地图构造过程是分开的,并且在两个并行线程中运行。系统500可以包括每帧域中的特征提取模块 510,跟踪模块520,局部优化模块530和关键帧确定模块540,以及关键帧域中的全局优化模块550和回路闭合模块570。
特征提取模块510可以被配置为接收从摄像机输出的图像帧,并且基于 KRF方案逐帧执行基于AI的特征提取。可以将以关键点-描述符对列表的形式为每帧提取的特征输入到跟踪模块520。
跟踪模块520可以被配置为执行姿势估计处理,以基于相应帧中提取的特征为每个帧确定相对于3D地图的摄像机姿势(例如,包括平移部分和旋转部分)。在一个示例中,可以执行特征匹配过程以找到当前帧和先前帧的关键点之间的对应关系。基于该对应关系和先前构建的3D点图(例如,使用基于提取的关键点的三角剖分(triangulation)),可以确定(例如使用PnP技术)当前帧相对于先前帧姿势(先前帧的姿势)的变换(姿势更新)。通过将姿势更新与先前的帧姿势串联在一起,可以确定当前帧姿势并将其从跟踪模块520输出。此外,可以获得摄像机的轨迹估计。
局部优化模块530可以执行局部优化过程,以优化从跟踪模块520接收的与滑动时间窗口内的帧相对应的帧姿势。局部优化处理可以减少姿势串联处理期间累积的姿势估计误差。可以采用各种局部优化技术。通常,可以基于最近帧(例如5帧)的估计的姿势和关键点来使用局部束调整 (Bundle Adjustment,BA)优化技术。结果,可以从局部优化模块530输出优化的帧姿势(基于时间顺序)。此外,可以确定摄像机的轨迹的更准确的估计。
关键帧确定模块540可以基于一些标准来选择关键帧。例如,图像质量应该很好;自添加最后一个关键帧以来的时间应超过一定数量的帧;和 /或两个相邻关键帧之间的差异应高于阈值。
全局优化模块550可以被配置为例如基于大量关键帧来执行全局优化。例如,可以在新关键帧变为可用时初始化和扩展3D点图。当有新的关键帧可用时,可以添加3D点图中未包括的关键点的3D点(例如,通过三角剖分)。另外,3D点图可以包括全部或部分所选关键帧的数据(例如,从模块510和520生成的每个关键帧的关键点和摄像机姿势)。在选择新的关键帧并将相关资料添加到3D点图之后,可以对3D点图执行全局BA以输出优化的3D点图(例如,各帧的优化的3D点位置和摄像机姿势)。3D点图可以存储在数据库560中。在一些示例中,局部优化模块530可以使用3D点图来执行局部优化过程。
回路闭合模块570可以被配置为检测摄像机行进的路径的回路,并且闭合该回路。在一个示例中,通过测量新的关键帧与先前可用的关键帧之间的相似性,且如果找到两个相似的关键帧,则可以检测到回路。为了闭合回路,可以执行具有回路约束的姿势图优化,以沿各个图分配回路闭合误差。
在V-SLAM系统中的模块530或550处使用的局部或全局优化技术(例如,本地或全局BA)通常依赖于场景中的大量的关键点(或3D点)来实现所需的优化性能。场景中更准确的关键点可以引导优化器更准确地进行预测。因此,由于基于KRF的特征提取器可以添加堆栈的高置信关键点以增加可用关键点的数量以及增加场景中高置信点的偏差,因此可以有效地改善基于KRF的V-SLAM的性能。
III.基于KRF的特征提取过程
图6示出了根据本发明实施例的基于KRF的特征提取过程600。注意,并非在某些情况下执行过程600中的所有步骤,并且可以并行地或以与图6所示的顺序不同的顺序来执行过程600中的步骤。过程600可以从 S601开始,然后进入S610。
在S610,可以在基于AI的特征提取器处接收包括多个像素的输入图像。例如,可以从在环境中移动的摄像机输出所述输入图像。
在S620处,可以通过基于AI的特征提取器中的基于AI的特征检测器来生成与图像中的像素的位置相对应的置信值。在一个示例中,置信值是检测热图的形式。
在S630中,可以基于检测热图中生成的置信值,从图像中像素的位置中选择第一组位置作为第一组关键点。例如,可以用第一阈值对在S620 处生成的置信值执行第一阈值化方法以提取第一组关键点。第一组位置中的每一个可以对应于所生成的置信值中高于第一阈值的一个置信值。在S640处,第一关键点描述符图可以由基于AI的特征提取器中的特征描述符引擎生成。
在S650,可以生成关键点-描述符对的第一列表。例如,基于第一组关键点的位置,可以从第一关键点描述符图中选择第一关键点描述符。可以将第一组关键点与从第一关键点描述符图中选择的第一关键点描述符组合以形成关键点-描述符对的第一列表。
在S660中,可以基于所生成的置信值,从图像中像素的位置中选择第二组位置作为第二组关键点。第二组位置可以各自对应于所生成的置信值中高于第二阈值的一个置信值。在一个示例中,第二阈值高于第一阈值。因此,第一组位置包括第二组位置。在一个示例中,第二组关键点被包括在条件热图中。
在一个示例中,从第一组关键点中选择第二组关键点。例如,可以相对于第二阈值对第一组关键点的置信值执行第二阈值化以提取第二组关键点。在一个示例中,第二组关键点是从输入图像中的像素的位置或检测图中的位置中选择的。例如,可以相对于第二阈值对输入图像中的像素位置处的置信值进行阈值处理,以提取第二组关键点。
在S670,可以生成第二关键点描述符图。在一个示例中,基于第一关键点描述符图生成第二关键点描述符图。例如,第二关键点描述符图中的每个关键点描述符是与第一关键点描述符图中的对应二进制向量互补的(complementary)二进制向量。
在S680,可以生成关键点-描述符对的第二列表。例如,基于第二组关键点的位置,可以从第二关键点描述符图中选择第二关键点描述符。可以将第二组关键点与从第二关键点描述符图中选择的第二关键点描述符组合,以形成关键点-描述符对的第二列表。
在S690,可以生成关键点-描述符对的最终列表,其可以包括关键点-描述符对的第一和第二列表。此后,可以将关键点描述符的最终列表输入到例如姿势估计过程,姿势优化过程或姿势图优化过程。过程600可以进行到S699,并在S699处终止。
在替代的基于KRF的特征提取过程中,代替分别确定第一组关键点和第二组关键点,可以如下确定像素堆栈的关键点。例如,可以顺序地或并行地检查输入图像中像素的位置,以查看该位置处的置信值是否高于例如过程600中使用的第二阈值。如果检测到高于第二阈值的值,则可以确定在该位置可以采用像素堆栈的关键点。随后,可以基于检测到的位置从在过程600中使用的第一关键点描述符图和第二关键点描述符图中选择两个关键点描述符。因此,可以形成与在检测到的位置处的两个像素堆栈的关键点相对应的两个关键点-描述符对,并将其包括在关键点- 描述符对的最终列表中。
另外,对于置信值不高于第二阈值的位置,可以将各个置信值与第一阈值进行比较。如果相应的置信值高于第一阈值,则可以确定对于该位置可以采用单个关键点。因此,可以生成对应于该位置的一个关键点-描述符对并将其包括在关键点-描述符对的最终列表中。
IV.仪器和计算器可读介质
图7示出了根据本发明的实施例的示例性装置700。装置700可被配置为根据本文描述的一个或多个实施例或示例执行各种功能。因此,装置 700可以提供用于实现本文描述的机制,技术,过程,功能,组件,系统的装置。例如,装置700可以用于实现基于AI的特征提取器,基于非AI的特征提取器,关键点检测器,关键点描述符,KRF模块,基于 AI的特征提取模块,附加结构,本文描述的各种实施例和示例中的 V-SLAM系统中的模块的功能。装置700可以包括通用处理器或专门设计的电路,以实现在各种实施例中在此描述的各种功能,组件或过程。装置700可以包括处理电路710和存储器720。
在各种示例中,处理电路710可以包括被配置为结合软件或不结合软件来执行本文描述的功能和过程的电路。在各种示例中,处理电路710可以是中央处理单元(CPU),图形处理单元(GPU),加速处理单元(APU),数字信号处理器(DSP),专用集成电路(ASIC),可编程逻辑器件(PLD),现场可编程门数组(FPGA),数字增强电路或类似器件或它们的组合。在一些其他示例中,处理电路710可以是配置为执行程序指令以执行本文描述的各种功能和过程的中央处理单元(CPU)或加速处理单元 (APU)。因此,存储器720可以被配置为存储程序指令。当执行程序指令时,处理电路710可以执行功能和过程。存储器720可以进一步存储其他程序或数据,例如操作系统,应用程序等。存储器720可以包括非暂时性存储介质,例如只读存储器(ROM),随机存取存储器(RAM),闪存,固态存储器,硬盘驱动器,光盘驱动器和类似产品。
装置700可以可选地包括其他组件,例如输入和输出设备,附加或信号处理电路等。因此,装置700可能能够执行其他附加功能,例如执行应用程序,图像处理算法,输入或输出数据等。
本文描述的过程和功能可以被实现为一种计算器程序,当由一个或多个处理器执行时,该计算器程序可以使一个或多个处理器执行各自的过程和功能。该计算器程序可以被存储或分布在合适的介质上,诸如与其他硬件一起被提供或作为其他硬件一部分被提供的光学存储介质或固态介质。该计算器程序还可以以其他形式分发,例如经由因特网或其他有线或无线电信系统。例如,可以获取计算器程序并将其加载到设备中,例如通过物理介质或分布式系统(包括例如从连接到Internet的服务器) 获取计算器程序。
可以从提供程序指令的计算器可读介质访问计算器程序,该程序指令供计算器或任何指令执行系统使用或与其结合使用。计算器可读介质可以包括存储,通信,传播或传输计算器程序以供指令执行系统,装置或设备使用或与其结合使用的任何设备。该计算器可读介质可以是磁性,光学,电子,电磁,红外或半导体系统(或装置或设备)或传播介质。该计算器可读介质可以包括计算器可读非暂时性存储介质,例如半导体或固态存储器,磁带,可移动计算器磁盘,随机存取存储器(RAM),只读存储器(ROM),磁盘和光盘等。计算器可读非暂时性存储介质可以包括所有类型的计算器可读介质,例如,磁存储介质,光存储介质,闪存介质和固态存储介质。
V.实验
1.数据集(dataset)
本文所述的KRF方案的实验是使用2个数据集HPatches和TUM进行的,它们是单应矩阵估计和SLAM室内跟踪准确性的基准。HPatches序列数据集包含580个图像对,分为59个视点和57个照明场景。在HPatches HA上评估了基于KRF的模型,该模型将地面真实的扭曲图像Cj的四个图像角的平均距离误差与网络估计的扭曲图像的四个图像角的平均距离误差进行了比较。然后将该距离误差用公差阈值进行二进制阈值化,并在所有N个图像对中平均。
此外,基于KRF的模型还集成到ORB-SLAM2结构中,以便评估TUM RGB-D SLAM数据集上的绝对轨迹误差(Absolute Trajectory Error, ATE)。该数据集包含使用MicrosoftKinect以480×640的分辨率和30 FPS从23到173秒捕获的RGB图像剪辑,并具有相应的深度图和地面真实轨迹。
2.HPatches结果
在表2中,显示了公差阈值ε分别为1、3和5的HA得分。文献:P.H. Christiansen,M.F.Kragh,Y.Brodskiy,and H.Karstoft,“UnsuperPoint: End-to-end unsupervisedinterest point detector and descriptor,”arXiv preprint arXiv:1907.04011,2019报告了从经典FE、LFnet和 UnsuperPoint获得的结果。对于AI-FE,使用非最大抑制(Non-Maximum Suppression,NMS),因为他们接受了空间抑制训练,以保持关键点的显著性。此外,NMS还提高了AI-FE的HA评分。
表2
作者发布的超点(SuperPoint)用作KRF模型的基线。在KRF模型的实现中,置信阈值tc=0.015用于香草超点(vanilla SuperPoint),而thc=0.05,及thc=0.1用于KRF重取样,而无需使用缩放管线(例如,图4中的特征提取器430)。KRF在3和5的较大容差ε下表现最佳,将SuperPoint 提高了12-17%。但是,由于仅使用高质量图像,因此该基准检验无法充分展示KRF的完整潜力。
3.SLAM结果
在表3中,给出了ORB-SLAM2,SuperPoint-SLAM和 SuperPoint-KRF-SLAM之间的绝对轨迹误差(ATE)的比较。为了评估跟踪的准确性,所有实验均在没有回路闭合的情况下运行,并使用与 ORB-SLAM2中相同的方法进行跟踪。由于运动模糊,SuperPoint-SLAM 使用低阈值tc=0.0005,而SuperPoint-KRF-SLAM使用tc= [0.0005,0.1005]。这样一来,每帧至少可以提取200个关键点。在表3 中,测量结果取10次运行的中值/平均值(median/average)。跟踪丢失超过3次的实验称为“跟踪丢失”。
表3
当跟踪的特征强健(robust)时,SuperPoint的性能优于ORB-SLAM2:当fr1_room_short包含具有强健的特征的fr1_room的前800帧, SuperPoint-SLAM的ATE比ORB-SLAM2改进了0.010。但是 SuperPoint-SLAM在fr1_room的下半段表现不佳。对于除fr1_floor以外的所有其他场景,SuperPoint-SLAM会遭受跟踪丢失的困扰。
SuperPoint-KRF-SLAM的性能优于ORB-SLAM2和SuperPoint-SLAM,但其room_short比SuperPoint-SLAM差一点,在fr1_360它也遭受了跟踪丢失的困扰。
SuperPoint-KRF-SLAM是唯一能在下半段没有轨迹退化的情形下完成room的模型,当ATE中值为0.072时其与SuperPoint-SLAM相比获得了40%的改善。它还能够准确地完成fr1_desk和fr3_large_cabinet,在 fl3_long_office和fl3_nstf上,我们的模型的性能也远优于ORB-SLAM2,其中SuperPoint-SLAM也遭受了跟踪丢失的困扰。
本发明虽以较佳实施例揭露如上,然其并非用以限定本发明的范围,任何本领域技术人员,在不脱离本发明的精神和范围内,当可做些许的更动与润饰,因此本发明的保护范围当视权利要求所界定者为准。
Claims (15)
1.一种从图像中提取特征的方法,其特征在于,包括:
接收包括多个像素的图像;
通过基于人工智能的特征提取器生成与该图像中的该多个像素的多个位置相对应的多个置信值;
在该图像中的该多个像素的该多个位置中选择第一位置,其中生成的该多个置信值中在该第一位置处的第一置信值高于一阈值;和
基于与该图像中的该多个像素的该多个位置相对应的该多个置信值生成最终的关键点-描述符对集合,该最终的关键点-描述符对集合包括至少两个关键点-描述符对,该至少两个关键点-描述符对对应该第一位置。
2.如权利要求1所述的从图像中提取特征的方法,其特征在于,该阈值为一第二阈值,该方法还包括:
基于所生成的该多个置信值从该图像中的该多个像素的该多个位置中选择第一组位置作为第一组关键点,该第一组位置中的每一个对应所生成的该多个置信值中高于第一阈值的一个置信值;和
基于所生成的该多个置信值从该图像中的该多个像素的该多个位置中选择第二组位置作为第二组关键点,该第二组位置中的每一个对应所生成的该多个置信值中高于该第二阈值的一个置信值,该第一组位置包括该第二组位置,
其中从该图像中的多个像素的多个位置中选择该第一组位置和/该第二组位置包括在该图像中的该多个像素的该多个位置中选择该第一位置,以及
该最终的关键点-描述符对集合包括对应于该第一组关键点中的成员的第一组关键点-描述符对和对应于该第二组关键点中的成员的第二组关键点-描述符对。
3.如权利要求1所述的从图像中提取特征的方法,其特征在于,该阈值为一第二阈值,该方法还包括:
基于所生成的该多个置信值从该图像中的该多个像素的该多个位置中选择第一组位置作为第一组关键点,该第一组位置中的每一个对应所生成的该多个置信值中高于第一阈值的一个置信值;和
基于所生成的该多个置信值从该图像中的该多个像素的该多个位置中选择第二组位置作为第二组关键点,该第二组位置中的每一个对应所生成的该多个置信值中高于该第二阈值的一个置信值,
其中从该图像中的多个像素的多个位置中选择该第一组位置和/该第二组位置包括在该图像中的该多个像素的该多个位置中选择该第一位置,以及
该最终的关键点-描述符对集合包括对应于该第一组关键点中的成员的第一组关键点-描述符对和对应于该第二组关键点中的成员的第二组关键点-描述符对。
4.如权利要求1所述的从图像中提取特征的方法,其特征在于,该阈值为一第二阈值,该方法还包括:
确定生成的该多个置信值中在该第一位置处的该第一置信值是否高于第一阈值;和
响应于生成的该多个置信值中在该第一位置处的该第一置信值高于该第一阈值,从第一描述符图的该第一位置选择第一关键点描述符,该第一描述符图包括与该图像中的该多个像素的该多个位置相对应的多个关键点描述符,以及
确定生成的该多个置信值中在该第一位置处的该第一置信值是否高于该第二阈值;
响应于生成的该多个置信值中在该第一位置处的该第一置信值高于该第二阈值,从第二描述符图的该第一位置选择第二关键点描述符,该第二描述符图包括与该图像中的该多个像素的该多个位置相对应的多个关键点描述符,
其中,该至少两个关键点-描述符对包括与该第一关键点描述符和该第二关键点描述符相对应的两个关键点-描述符对。
5.如权利要求1所述的从图像中提取特征的方法,其特征在于,还包括:
通过该基于人工智能的特征提取器生成第一描述符图;和
生成第二描述符图,
其中,该至少两个关键点-描述符对包括分别与该第一描述符图中的第一关键点描述符和该第二描述符图中的第二关键点描述符相对应的两个关键点-描述符对。
6.如权利要求5所述的从图像中提取特征的方法,其特征在于,该第一描述符图中的该第一关键点描述符为第一二进制向量,并且该第二描述符图中的该第二关键点描述符为与所述第一二进制向量互补的第二二进制向量,其中第一二进制向量中的1或0在第二二进制向量中分别切换为0和1。
7.如权利要求1所述的从图像中提取特征的方法,其特征在于,还包括:
调整图像尺寸以生成调整尺寸后的图像;
确定对应于调整尺寸后的图像的关键点-描述符对;和
在最终的关键点-描述符对集合中包括与该调整尺寸后的图像相对应的该关键点-描述符对。
8.一种从图像中提取特征的装置,其特征在于,包括:
基于人工智能的特征提取器,被配置为接收包括多个像素的图像,并生成与该图像中的该多个像素的位置相对应的多个置信值;
附加结构,被配置为在该图像中的该多个像素的多个位置中选择第一位置,其中生成的该多个置信值中在该第一位置处的第一置信值高于一阈值;和基于与该图像中的该多个像素的该多个位置相对应的该多个置信值生成最终的关键点-描述符对集合,该最终的关键点-描述符对集合包括至少两个关键点-描述符对,该至少两个关键点-描述符对对应该第一位置。
9.如权利要求8所述的从图像中提取特征的装置,其特征在于,该阈值为一第二阈值,该基于人工智能的特征提取器还被配置为:
基于所生成的该多个置信值从该图像中的该多个像素的该多个位置中选择第一组位置作为第一组关键点,该第一组位置中的每一个对应所生成的该多个置信值中高于第一阈值的一个置信值;和
该附加结构还被配置为基于所生成的该多个置信值从该图像中的该多个像素的该多个位置中选择第二组位置作为第二组关键点,该第二组位置中的每一个对应所生成的该多个置信值中高于该第二阈值的一个置信值,该第一组位置包括该第二组位置,
其中该基于人工智能的特征提取器从该图像中的多个像素的多个位置中选择第一组位置和/该附加结构从该图像中的多个像素的多个位置中选择第二组位置包括在该图像中的该多个像素的该多个位置中选择该第一位置,以及
该最终的关键点-描述符对集合包括对应于该第一组关键点中的成员的第一组关键点-描述符对和对应于该第二组关键点中的成员的第二组关键点-描述符对。
10.如权利要求8所述的从图像中提取特征的装置,其特征在于,该阈值为一第二阈值,该基于人工智能的特征提取器还被配置为:
基于所生成的该多个置信值从该图像中的该多个像素的该多个位置中选择第一组位置作为第一组关键点,该第一组位置中的每一个对应所生成的该多个置信值中高于第一阈值的一个置信值;和
该附加结构还被配置为基于所生成的该多个置信值从该图像中的该多个像素的该多个位置中选择第二组位置作为第二组关键点,该第二组位置中的每一个对应所生成的该多个置信值中高于该第二阈值的一个置信值,
其中该基于人工智能的特征提取器从该图像中的多个像素的多个位置中选择第一组位置和/该附加结构从该图像中的多个像素的多个位置中选择第二组位置包括在该图像中的该多个像素的该多个位置中选择该第一位置,以及
该最终的关键点-描述符对集合包括对应于该第一组关键点中的成员的第一组关键点-描述符对和对应于该第二组关键点中的成员的第二组关键点-描述符对。
11.如权利要求8所述的从图像中提取特征的装置,其特征在于,该阈值为一第二阈值,该附加结构还被配置为:
确定生成的该多个置信值中在该第一位置处的该第一置信值是否高于第一阈值;和
响应于生成的该多个置信值中在该第一位置处的该第一置信值高于该第一阈值,从第一描述符图的该第一位置选择第一关键点描述符,该第一描述符图包括与该图像中的该多个像素的该多个位置相对应的多个关键点描述符,以及
确定生成的该多个置信值中在该第一位置处的该第一置信值是否高于该第二阈值;
响应于生成的该多个置信值中在该第一位置处的该第一置信值高于该第二阈值,从第二描述符图的该第一位置选择第二关键点描述符,该第二描述符图包括与该图像中的该多个像素的该多个位置相对应的多个关键点描述符,
其中,该至少两个关键点-描述符对包括与该第一关键点描述符和该第二关键点描述符相对应的两个关键点-描述符对。
12.如权利要求8所述的从图像中提取特征的装置,其特征在于,
该基于人工智能的特征提取器还被配为生成第一描述符图;和
该附加结构还被配置为生成第二描述符图,
其中,该至少两个关键点-描述符对包括分别与该第一描述符图中的第一关键点描述符和该第二描述符图中的第二关键点描述符相对应的两个关键点-描述符对。
13.如权利要求12所述的从图像中提取特征的装置,其特征在于,该第一描述符图中的该第一关键点描述符为第一二进制向量,并且该第二描述符图中的该第二关键点描述符为与所述第一二进制向量互补的第二二进制向量,其中第一二进制向量中的1或0在第二二进制向量中分别切换为0和1。
14.如权利要求8所述的从图像中提取特征的装置,其特征在于,该基于人工智能的特征提取器为第一基于人工智能的特征提取器,该装置还包括:
第二基于人工智能的特征提取器,被配置为:接收对该图像调整图像尺寸后生成的调整尺寸后的图像,确定对应于调整尺寸后的图像的关键点-描述符对;和
其中,最终的关键点-描述符对集合中包括与该调整尺寸后的图像相对应的该关键点-描述符对。
15.一种存储指令的计算器可读介质,其特征在于,该指令在由处理器执行时使处理器执行如权利要求1-7中任一项所述的从图像中提取特征的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062967644P | 2020-01-30 | 2020-01-30 | |
US17/162,246 US11676018B2 (en) | 2020-01-30 | 2021-01-29 | Feature extraction with keypoint resampling and fusion (KRF) |
US17/162,246 | 2021-01-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114821093A true CN114821093A (zh) | 2022-07-29 |
Family
ID=77410801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110969931.2A Pending CN114821093A (zh) | 2020-01-30 | 2021-08-23 | 从图像中提取特征的方法、装置及计算器可读介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11676018B2 (zh) |
CN (1) | CN114821093A (zh) |
TW (1) | TWI777731B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019205069A1 (en) * | 2018-04-27 | 2019-10-31 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for updating 3d model of building |
US11461578B2 (en) * | 2021-02-04 | 2022-10-04 | Verizon Patent And Licensing Inc. | Methods and systems for generating composite image descriptors |
US11475240B2 (en) * | 2021-03-19 | 2022-10-18 | Apple Inc. | Configurable keypoint descriptor generation |
US12086925B2 (en) * | 2021-06-17 | 2024-09-10 | Faro Technologies, Inc. | Targetless tracking of measurement device during capture of surrounding data |
CN114463549A (zh) * | 2021-12-29 | 2022-05-10 | 广州极飞科技股份有限公司 | 特征提取网络模型的训练方法、图像处理方法及其装置 |
CN115963917B (zh) * | 2022-12-22 | 2024-04-16 | 北京百度网讯科技有限公司 | 视觉数据处理设备及视觉数据处理方法 |
US12002214B1 (en) * | 2023-07-03 | 2024-06-04 | MOVRS, Inc. | System and method for object processing with multiple camera video data using epipolar-lines |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6709283B2 (ja) * | 2015-11-16 | 2020-06-10 | オービタル インサイト インコーポレイテッド | 低解像度リモートセンシング画像を用いた移動車両の検出及び分析 |
US10504008B1 (en) * | 2016-07-18 | 2019-12-10 | Occipital, Inc. | System and method for relocalization and scene recognition |
CN106991388B (zh) | 2017-03-27 | 2020-04-21 | 中国科学院自动化研究所 | 关键点定位方法 |
US10783352B2 (en) | 2017-11-09 | 2020-09-22 | Mindtronic Ai Co., Ltd. | Face recognition system and method thereof |
EP3547211B1 (en) * | 2018-03-30 | 2021-11-17 | Naver Corporation | Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn |
CN109800744B (zh) * | 2019-03-18 | 2021-08-20 | 深圳市商汤科技有限公司 | 图像聚类方法及装置、电子设备和存储介质 |
-
2021
- 2021-01-29 US US17/162,246 patent/US11676018B2/en active Active
- 2021-08-18 TW TW110130397A patent/TWI777731B/zh active
- 2021-08-23 CN CN202110969931.2A patent/CN114821093A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US11676018B2 (en) | 2023-06-13 |
TW202230210A (zh) | 2022-08-01 |
TWI777731B (zh) | 2022-09-11 |
US20210241022A1 (en) | 2021-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114821093A (zh) | 从图像中提取特征的方法、装置及计算器可读介质 | |
Tang et al. | GCNv2: Efficient correspondence prediction for real-time SLAM | |
EP3474230B1 (en) | Systems and methods for edge points based monocular visual slam | |
Felsberg et al. | The thermal infrared visual object tracking VOT-TIR2015 challenge results | |
Le et al. | Interactive facial feature localization | |
Frahm et al. | RANSAC for (quasi-) degenerate data (QDEGSAC) | |
US9984280B2 (en) | Object recognition system using left and right images and method | |
Maity et al. | Edge slam: Edge points based monocular visual slam | |
JP4644248B2 (ja) | 多重視野特徴記述子を用いた同時位置決め及びマッピング | |
CN113537208A (zh) | 一种基于语义orb-slam技术的视觉定位方法及系统 | |
Cristinacce et al. | Facial feature detection and tracking with automatic template selection | |
CN108364302B (zh) | 一种无标记的增强现实多目标注册跟踪方法 | |
JP2023059794A (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
Bui et al. | Adversarial networks for camera pose regression and refinement | |
CN111523463B (zh) | 基于匹配-回归网络的目标跟踪方法及训练方法 | |
Bogoslavskyi et al. | Analyzing the quality of matched 3D point clouds of objects | |
Seib et al. | Object recognition using hough-transform clustering of surf features | |
Fan et al. | POPE: 6-DoF Promptable Pose Estimation of Any Object in Any Scene with One Reference | |
Lotfi et al. | Robust object tracking based on recurrent neural networks | |
Liu et al. | Online multi-object tracking under moving unmanned aerial vehicle platform based on object detection and feature extraction network | |
Gard et al. | CASAPose: Class-Adaptive and Semantic-Aware Multi-Object Pose Estimation | |
Kim et al. | Vision-based navigation with efficient scene recognition | |
Ruan et al. | Performance of monocular and stereo camera in indoor environment for Visual SLAM using ORB method | |
Liu et al. | DOTF-SLAM: Real-Time Dynamic SLAM Using Dynamic Odject Tracking and Key-Point Filtering | |
Nam et al. | DMV: visual object tracking via part-level dense memory and voting-based retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |