CN107209853A - 定位和地图构建方法 - Google Patents

定位和地图构建方法 Download PDF

Info

Publication number
CN107209853A
CN107209853A CN201580074078.0A CN201580074078A CN107209853A CN 107209853 A CN107209853 A CN 107209853A CN 201580074078 A CN201580074078 A CN 201580074078A CN 107209853 A CN107209853 A CN 107209853A
Authority
CN
China
Prior art keywords
binary features
descriptor
characteristic point
matched
features descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580074078.0A
Other languages
English (en)
Other versions
CN107209853B (zh
Inventor
范力欣
冯友计
吴毅红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN107209853A publication Critical patent/CN107209853A/zh
Application granted granted Critical
Publication of CN107209853B publication Critical patent/CN107209853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种方法,包括:获得对象的三维(3D)点云;获得关于对象的2D图像中的特征点的二进制特征描述符;将针对每个特征点的多个索引值分配为对应的二进制特征描述符的多个位;将二进制特征描述符存储在数据库图像的多个哈希键表的表条目中;获得查询图像中的特征点的查询二进制特征描述符;将查询二进制特征描述符与数据库图像的二进制特征描述符进行匹配;重新选择经匹配的数据库图像的哈希键的一个位;以及重新索引数据库图像的哈希键表的表条目中的特征点。

Description

定位和地图构建方法
技术领域
本发明涉及图像处理,并且更特别地涉及点云的同时定位和地图构建。
背景技术
3D点云被使用在各种图像处理和计算机视觉应用中。3D点云是在3D坐标系中通常表示对象的外表面的数据点集。在对象的表面上测量大量的点,并且所获得的点云可以被存储在文件中。对于计算机视觉应用,3D点通常被映射到对象的2D图像的所识别的特征。
在机器人和计算机视觉中同时定位和地图构建(SLAM)已经被广泛地研究。SLAM指代更新未知环境的地图同时同时定位在其内的观察者的问题。SLAM中的一个重要特征是重定位(即,在跟踪失败之后照相机姿态的恢复)。由于可以使用地图中的3D点与图像中的2D特征之间的对应估计照相机姿态,因而重定位中的关键问题是获得3D-2D对应性。重定位过程可以被认为是与地图构建过程相反:特征从2D图像提取并且与3D点的那些特征匹配。
对象或场景的3D点云可以具有巨大的体积;它可以包含数百万的点。为了培养例如在SLAM中的3D-2D对应的集合,已经开发了用于获得二进制特征而不是2D图像特征因此减少待处理的数据量的方法。用于进一步加速特征匹配的方法被称为位置敏感哈希(LSH),其被用于执行近似最近邻(ANN)搜索。
然而,在SLAM重定位中,实时性能是非常重要的,并且由于待处理的巨大的数据量,现有技术方法未提供令人满意的效率。
发明内容
现在,已经发明实现至少减轻以上问题的方法的改进的方法和技术设备。本发明的各方面包括方法、装置和计算机程序,其特征在于独立权利要求中所述的内容。在从属权利要求中公开了本发明的各种实施例。
根据第一方面,根据本发明的方法基于以下想法:获得关于对象的三维(3D)点云;获得关于对象的2D图像中的特征点的二进制特征描述符;将针对每个特征点的多个索引值分配为对应的二进制特征描述符的多个位;将二进制特征描述符存储在数据库图像的多个哈希键表的表条目中;获得针对查询图像中的特征点的查询二进制特征描述符;将查询二进制特征描述符与数据库图像的二进制特征描述符匹配;重新选择经匹配的数据库图像的哈希键的一个位;以及重新索引数据库图像的哈希键表的表条目中的特征点。
根据实施例,方法还包括重新选择经匹配的数据库图像的哈希键的所述一个位,使得定义表条目的大小的一致性和所匹配的特征对的冲突率的成本函数被最小化。
根据实施例,所述成本函数是C=λ(1-pc)+1/(1-u’),其中λ是预设权重,pc是两个匹配的特征在某个位处重合的概率并且u’是用于将查询二进制特征描述符与二进制特征描述符进行匹配的线性搜索中的时间减少的因子。
根据实施例,针对每个特征点的索引值的多个位从对应的二进制特征描述符被随机地选择。
根据实施例,使用近似最近邻(ANN)搜索查询二进制特征描述符被匹配到数据库图像的二进制特征描述符。
根据实施例,在特征点的随机组成的子集中重新选择哈希键的所述一个位。
根据实施例,方法还包括当新查询图像被获得时,在哈希键的第一半中重新选择所述一个位;以及当下一查询图像被获得时,在哈希键的第二半中重新选择所述一个位。
根据第二方面,提供了一种设备,包括:至少一个处理器;存储器,其包括计算机程序代码;存储器和计算机程序代码被配置为利用至少一个处理器使得设备至少:获得关于对象的三维(3D)点云;获得关于对象的2D图像中的特征点的二进制特征描述符;将针对每个特征点的多个索引值分配为对应的二进制特征描述符的多个位;将二进制特征描述符存储在数据库图像的多个哈希键表的表条目中;获得针对查询图像中的特征点的查询二进制特征描述符;将查询二进制特征描述符与数据库图像的二进制特征描述符匹配;重新选择所匹配的数据库图像的哈希键的一个位;以及重新索引数据库图像的哈希键表的表条目中的特征点。
根据第三方面,提供了一种计算机可读存储介质,存储有用于由设备使用的代码,该代码当由处理器执行时,使得设备执行:获得对象的三维(3D)点云;获得关于对象的2D图像中的特征点的二进制特征描述符;将针对每个特征点的多个索引值分配为对应的二进制特征描述符的多个位;将二进制特征描述符存储在数据库图像的多个哈希键表的表条目中;获得查询图像中的特征点的查询二进制特征描述符;将查询二进制特征描述符与数据库图像的二进制特征描述符匹配;重新选择经匹配的数据库图像的哈希键的一个位;以及重新索引数据库图像的哈希键表的表条目中的特征点。
鉴于下面进一步的实施例的详细公开,本发明的这些和其他方面和与其有关的实施例将变得显而易见。
附图说明
在以下中,将参考附图更详细地描述本发明的各种实施例,其中
图1示出了根据实施例的适于在3D点云分析过程中使用的计算机图形系统;
图2示出了基于二进制特征的匹配方法的示例;
图3示出了用于索引数据库特征Fi和存储哈希表中的二进制特征描述符的示例;
图4示出了根据本发明的实施例的用于哈希键构建过程的流程图;
图5a至图5c示出了根据本发明的实施例的在执行的实验中ANN搜索效率的图形;
图6a、图6b示出了根据本发明的实施例在执行的实验中利用不同的参数设置的ANN搜索结果的图形;以及
图7示出了根据本发明的实施例在执行的实验中重定位准确度的表。
具体实施方式
图1示出了根据实施例适于在图像处理中(例如,在3D点云分析过程中)使用的计算机图形系统。将根据本系统的功能块解释计算机图形系统的一般化结构。对于技术人员而言,将显而易见的是,可以利用单个物理设备执行多个功能,例如,如果要求的话,可以在单个处理器中执行所有计算程序。根据图1的示例的装置的数据处理系统包括主处理单元100、存储器102、存储设备104、输入设备106、输出设备108和图形子系统110,其全部经由数据总线112被连接到彼此。
主处理单元110是常规处理单元,其被布置为处理数据处理系统内的数据。存储器102、存储设备104、输入设备106和输出设备108是如由本领域的技术人员所识别的常规部件。存储器102和存储设备104存储数据处理系统100内的数据。计算机程序代码驻留在存储器102中以用于实现例如3D点云分析过程。输入设备106将数据输入到系统中,同时输出设备108从数据处理系统接收数据并且将数据转发例如到显示器。数据总线112是常规数据总线,并且虽然被示出为单个线,但是其可以是处理器总线、PCI总线、图形总线和ISA总线的组合。因此,技术人员容易认识到,装置可以是任何常规数据处理设备,诸如计算机设备、个人计算机、服务器计算机、移动电话、智能电话或因特网接入设备(例如,因特网平板计算机)。下面还描述了根据实施例的3D点云分析过程的输入数据和用于获得输入数据的装置。
需要理解,不同的实施例允许不同的部分将在不同的元件中被执行。例如,3D点云分析的各种过程可以在一个或多个处理设备中被执行;例如,全部地在一个计算机设备中或在一个服务器设备中或跨越多个用户设备。3D点云分析过程的元素可以被实现为驻留在一个设备上或跨越多个设备分布的软件部件,如上文所提到的,例如使得设备形成所谓的云。
3D点云被使用在各种图像处理和计算机视觉应用中。3D点云是在3D坐标系中通常表示对象的外表面的数据点集。3D点云可以由3D采集设备(诸如3D扫描器)获得。大量的点在对象的表面上被测量,并且所获得的点云可以被存储在文件中。
已经开发了用于获得3D点云的各种感测方法。在运动恢复结构(SFM)中,从二维图像序列估计三维结构,其中观察者和/或待观察的对象关于彼此移动。所获得的几何模型被存储为3D点云。
在光探测和测量(LiDAR)方法中,通过利用激光束(例如,紫外线、可见光或近红外光)照亮对象以及分析反射光来测量距离。结果数据被存储为点云。LiDAR点云可以被认为是三维坐标系中的一组顶点,其中顶点可以通过由3D向量所定义的平面块表示。
对于计算机视觉应用而言,3D点通常被映射到对象的2D图像的识别的特征。在机器人和计算机视觉二者中已经广泛地研究了3D点云的同时定位和地图构建(SLAM)。SLAM指代更新未知环境的地图同时同时定位其内的观察者的问题。可以以各种方式实现SLAM系统,但是基本上其可以被认为是包括背景地图构建过程和前景跟踪过程。
地图构建过程从视频序列收集关键帧并且执行例如运动恢复结构(SFM)过程以建造环境的地图。可以增量地执行过程。当新关键帧被插入时,可以首先搜索特征的角点。在本文中,例如FAST(加速分割测试特征)方法可以被用于提取角点。角中的一些角可以被标识为旧3D点的观察,而剩余部分与最近关键帧中的角匹配以对新3D点进行三角测量。
在地图构建过程中,二进制特征可以被获得用于减少待处理的数据量。图2图示了基于二进制特征的匹配方法的示例,其中示出了具有特征点210的查询图像200。从查询图像200,获得二进制特征描述符。二进制特征描述符是由在特征点210周围的块上的二进制测试所获得的位串。术语“块”被用于指代像素周围的区域。像素可以是由其x坐标和y坐标定义的区域的中心点,并且块通常包括多个(可能所有的)相邻像素。针对每个特征点还可以定义块的适当的大小。
从视频序列,若干关键帧可以被选择为数据库图像。对于数据库图像而言,可以从数据库图像中的特征点轨道重建3D点(例如,通过使用SFM方法)。首先,针对与重建的3D点相关联的数据库特征点提取二进制特征描述符。“数据库特征点”是从数据库图像提取的所有特征点的子集。不能与任何3D点相关联的那些特征点不被包括为数据库特征点。由于可以从多个图像(视点)察看每个3D点,因而常常存在与相同3D点相关联的多个图像特征点(即,图像块)。
数据库特征点优选被索引以促进特征点的稍后搜索。例如,多个随机化树可以被训练以索引基本上所有数据库特征点。在训练过程之后,数据库特征点和其索引可以被存储在叶节点中。
因此,处理被用于照相机姿态估计的图像(被称为“查询图像”)。对于查询图像而言,提取查询图像200中的特征点(图2;210)的减少的二进制特征描述符。“查询特征点”是从查询图像所提取的所有特征点的子集。查询图像的特征点被输入到1-n个树的叶L_1st-L_nth(图2)。可以通过树的叶上的其二进制形式索引查询特征点。
查询特征点与数据库特征点匹配以便具有一系列2D-3D对应。图2图示了将单个查询特征点210与数据库特征点匹配的过程的示例。通过结果的2D-3D对应估计查询图像的照相机姿态。
跟踪过程通过跟踪地图中的3D点估计每个帧的照相机姿态。在连续的照相机运动的假设的情况下,可以在其预测的位置周围搜索3D点的观察。一旦找到观察(即,建立3D-2D对应),则可以正常地估计照相机姿态(例如,通过使用非线性优化例程)。在跟踪过程期间,可能发生跟踪失败(例如,由于照明、完全阻塞或极端运动模糊的突然改变)。在这样的场合中,重定位过程可以被执行以重新估计照相机姿态和重新启动跟踪过程。
重定位的目标是在跟踪失败之后估计图像的照相机姿态。与在跟踪过程中相同,重定位中的核心问题还是找到3D点的观察,除了不再能够从先前的帧的照相机姿态预测观察外。一旦找到观察,可以例如通过RANSAC(随机采样一致性)和/或N点透视算法估计照相机姿态。
获得3D点的观察被认为是失败匹配的问题。例如,无论何时在关键帧中找到3D点的观察,可以提取该观察处的二进制描述符。因此,每个3D点与被称为数据库特征的一组二进制描述符相对应。在正被重定位的图像中,可以首先提取被称为查询特征的FAST角连同其二进制描述符。然后,可以在数据库特征中间搜索每个查询的前两个最近邻居,并且如果是足够类似的,则最近邻居被认为是匹配。
用于进一步加速特征匹配的方法被称为局部敏感哈希(LSH),其被用于执行近似最近邻(ANN)搜索。LSH使用哈希键以索引特征。其将索引值分配给每个键下的特征。当执行ANN搜索时,数据库特征被存储在多个哈希表中。每个哈希表与哈希键相对应。通过索引值确定指派的表条目(即,哈希桶),在其中应当存储数据库特征。给定查询特征,首先分配索引值,并且以与数据库特征相同的方式找到对应的桶。然后,在这些桶中的数据库特征中间执行线性搜索以检索近似最近邻。对于二进制特征而言,哈希键是从描述符位随机地选择的简单的位的集合。因此,二进制代码可以通过连结这些位处的值被分配给特征,并且特征的索引值是由二进制代码转换的整数。
图3示出了关于数据库特征Fi如何被索引并且被存储在哈希表中的简单示例。数据库特征Fi包括一串描述符位,从其多个随机地被选择的位对被选择为索引值。例如,第一位对00随机地被选择为用于哈希表1的索引。哈希表包括四个表条目(即,哈希桶0、1、2和3)。索引值确定数据库特征被存储到哪个表条目中。作为用于哈希表1的索引的位对00表示值0,因此数据库特征被存储在第一哈希表中的桶0中。第二位对11(表示值3)随机地被选择为用于哈希表2的索引。因此,数据库特征被存储在第二哈希表的桶3中。类似地,第n位对01(表示值1)随机地被选择为用于哈希表n的索引,并且因此数据库特征被存储在第n哈希表的桶1中。
将注意到,即使以上示例将位对(即,两个位)用作哈希键,任何数目的多个位(诸如3、4、5等)也可以用作哈希键的长度。
然而,即使以上布置提供相当快速并且可靠的重定位程序,布置包含固有地引入重定位程序中的一些低效率因此阻碍其被实时执行的特征。例如,索引过程中的不断变化的数据库特征集将一些延时引入到系统。
在本文的下述内容中,呈现用于构建哈希键的新颖方法,其利用在线学习过程而不是纯随机性。
在图4中图示了根据实施例的方法。在该方法中,获得(400)关于对象的三维(3D)点云,并且也获得(402)关于相同对象的2D图像中的特征点的二进制特征描述符。每个特征点的多个索引值被分配(404)为对应的二进制特征描述符的多个位,并且每个特征点的每个索引值被存储(406)在数据库图像的哈希键表的表条目中。然后,对于查询图像而言,获得(408)查询图像中的特征点的查询二进制特征描述符。查询二进制特征描述符被匹配(410)到数据库图像的二进制特征描述符,此后匹配的数据库图像的哈希键的一个位被重新选择(412)并且在数据库图像的哈希键表的表条目中特征点被重新索引(414)。
换句话说,为了减轻系统中的延时并且处理不断变化的数据库特征集,位选择被分布到SLAM过程中。初始地,组成每个哈希键的位随机地被选择为在LSH中。无论何时新关键帧被插入并且数据库特征集被更新,每个哈希键的一个位被重新选择以最小化成本函数。然后,使用新哈希键重新索引数据库特征。
以实施例为基础的考虑源于以下事实:存在与用于ANN搜素的索引方案的效率紧密有关的两个因素:桶大小的分布和匹配的特征对的冲突率。桶的大小指示被存储在桶中的数据库特征的数目。在由Rublee,E.,Rabaud,V.,Konolige,K.,Bradski,G所著的“Orb:Anefficient alternative to sift or surf”(Proc.IEEE Int.Conf.Computer Vision(2011年).第2564-2571页)中已经示出,通常桶大小越一致,ANN搜索将越快。匹配的特征对的冲突率是两个匹配的特征在相同桶中冲突的概率。较高的冲突率导致较高的搜索准确度。在考虑这两个因素的情况下,根据实施例的索引方法目的在于获得一致桶和高冲突率,使得可以快速并且准确地执行ANN搜索。
根据实施例,组成哈希键的位被选择以最小化对应的成本函数。桶大小的一致性
让哈希表的归一化桶大小{sn,n=1,2,…,N}服从∑sn=1,其中N是桶的总数。然后,桶大小一致的程度可以通过以下表达
u越小,桶大小越一致。该表达与桶大小的一致性和ANN搜索的速度之间的关系很好地兼容。由于桶中的线性搜索的时间成本主导ANN搜索过程,并且在查询特征具有与数据库特征类似的分布的假定的情况下,时间成本与∑n=1 Nsn 2成比例。由于一次仅一个位被重新选择,因而一致性还可以通过以下形式表达
其中{sm,m=1,2,…,N/2}是常量,表示通过利用由不改变的位组成的键索引数据库特征所获得的哈希表的归一化桶大小。可以验证u’的值属于[0.5 1]。u’=0.5的值指示利用哈希键中的新选择的位,通过仅与哈希键中的未改变的位相比较,线性搜索的时间成本可以被减少一半。u’=1的值进而指示新选择的位未带来任何时间节省。在成本函数中,关于一致性的项被设定为1/(1-u’)以激励小u’并且避免u’=1的情况。
冲突率
匹配的特征对的冲突率实际上是两个匹配的特征在哈希键的所有位彼此一致的概率。让我们将两个匹配的特征在某个位一致的概率称为位的稳定性pc,然后根据贪婪算法的原理,当选择用于哈希键的位时,最稳定的一个是优选的。因此,关于冲突率的成本项被简单地设定为1-pc。由于3D点的特征实际上是彼此的匹配,因而可以在数据库中容易地获得匹配的特征对并且可以通过对这些对做出统计来估计pc
根据实施例,待最小化的成本函数C读作:
C=λ(1–pc)+1/(1–u’) (3)
其中λ是预设权重。
根据以下算法可以呈现选择用于哈希表的一个位的过程,其中哈希键由HK={bs1,bs2,…,bsK}表示,其中bsk是描述符的第sk位,sk∈[1D],并且D是描述符的长度。40个随机数目{r1,r2,…,r40}仅被给定为示例,并且随机数目的实际数量可以取决于所选择的实现而变化。
输入:HK={bs1,…,bsk,…,bsK},具有被选择的bsk;F,所有的数据库特征:
开始
从HK移除bsk以得到HK’={bs1,…,bsK};
索引F使用HK’
计数桶大小{sm,m=1,2,…,N/2};
生成40个随机数{r1,r2,…,r40},ri∈[1D];
计算每个bri的稳定性;
for i=1;i≤40;i++;do
用bri替换HK中的bsk以得到HK”
使用HK”索引F;
计算成本函数C;
结束
从{ri}中选择r*使得C被最小化;
利用HK中br*替换bsk
结束
Output:HK={bs1,…;br*,…;bsK}.
如可以从算法看到,位选择过程的时间成本与数据库特征的数目(即,F中的元素的数目)是一致的。
根据实施例,为了使算法可扩展的,F中的元素的随机组成子集可以被使用在选择用于哈希键的一个位的过程中。这可以为位选择过程提供恒定时间成本,同时保持发现“好的位”(即,产生一致的桶大小和高冲突率的位)的能力。
根据实施例,为了进一步减少训练时间,当新关键帧被插入并且依次选择两半时,可以在哈希键的一半上执行位选择过程。这可以减慢好位的发现,但是其有效地减少系统延时。
已经执行用于评价以上ANN搜索上的索引方法的效率和重定位过程的性能的各种实验。在实验中,取得包含建筑物周围的12,821个帧的长视频V1,从其在SLAM过程期间提取293个关键帧并且获得37,641个3D点连同175,207个二进制描述符。
为了证明以上索引方法(在本文中被称为学习的LSH)的优点,方法的ANN搜索性能与具有以下设置的原始的LSH的ANN搜索性能相比较:
-原始的LSH。哈希表的数目的三个配置(即,分别为2、6和10)被使用在实验中。在每个配置中,哈希键的长度从17到13范围变化,导致不同的搜索准确度和定时。
-学习的LSH。哈希表的数目和哈希键的长度的配置与原始的LSH相同。学习的LSH中的每个哈希键初始地与原始的LSH中的每个哈希键相同,并且在SLAM过程期间改变。被用于ANN搜索的最后哈希键是从所有293个关键帧学习的一些最后哈希键。
在本文中,搜索准确度被定义为成功的ANN搜索的比例。搜索时间是整个ANN搜索过程的时间成本。图5a、图5b和图5c示出了通过使用2、6、10个哈希表分别获得的搜索准确度和搜索定时方面的ANN搜索结果。可以看到,在这些配置下,学习的LSH的ANN搜索性能在原始的LSH上被不断地改进。使用学习的LSH比使用原始的LSH花费更少时间实现相同搜索准确度。例如,当使用2个哈希表时,时间成本可以减少大约一半。这些结果表明位选择过程是有效的。而非被随机地生成,可以通过利用在SLAM过程中收集的特征学习更好的哈希键。
为了证明学习的LSH的搜索效率的演化,另一实验被执行如下。位选择过程在k个关键帧被插入之后被停止,并且结果哈希键被用于对于以上数据集中的查询特征执行ANN搜索。在图6a中示出了结果,从其可以看到,搜索效率随着k增加而粗略地增加。这是合理的,因为随着k增加,更多位选择过程被执行以增加找到好位的机会,并且更宽范围的训练数据(即,更大数目的数据库特征)也是可用的。从图6a还可以看到,当k增加到一定程度(例如70)时,性能不再改进。该结果建议其对于无尽的学习是不必要的,并且在执行足够的位选择过程之后学习可以被停止。
为了确定成本函数(式3)中的参数λ的适当的值,图6B示出了其对索引方法的效率的影响。可以看到,或者太小值(例如,0)或者太大值(例如,20)降低搜索效率。因此,中等值(诸如12)是优选的。
为了评价以上重定位过程的性能,其中运行两个视频段的、具有重定位他们的每个帧的目的的实验被建立。第一视频段包含来自视频段V1的8000个帧。第二视频段V2通过移动办公桌上面的相机取得并且包含1063个帧。包含在第二视频段中的地图通过在另一视频上运行SLAM被建造,从其提取31个关键帧并且获得4173个3D点连同20,846个数据库特征。
在实验中,学习的LSH被用于建立3D-2D对应性的过程中的ANN搜索。为了比较,还使用原始的LSH。在V1中,原始的LSH和学习的LSH二者具有10个哈希表,其具有14的键长度,并且从所有关键帧中学习学习的LSH中的哈希键。在V2中,原始的LSH具有10个哈希表,其具有14的键长度,并且学习的LSH具有10个哈希表,其具有13的键长度。再次,从所有关键帧学习学习的LSH中的哈希键。
图7中的表概括在5个重复期间平均以减轻RANSAC中的随机性的效应的重定位结果。应示出,在V1中,8000个帧中的7859个帧(即,98.2%)以帧速率的速度被成功地重定位,其证明用于大地图的重定位模块的好的可扩展性。此外,由于与原始的LSH相比较学习的LSH的更高的效率,因而ANN搜索的时间成本可以减少42%,并且可以成功地重定位稍微更多的帧(即,0.3%)。在V2中,查询帧与关键帧之间的视点差比V1中的视点差更大,因此获得更低的配准率(即,89.6%)。由于V2中的地图是相对小的,通过使用学习的LSH节省的时间成本不与V1中的那个一样突出。然而,配准率(2.4%)的改进现在是更显著的。该改进还应当归因于学习的LSH的更高的效率:通过花费相同时间,使用学习的LSH比使用原始的LSH产生更高的搜索准确度。
技术人员应理解到,除非明确或隐含地说明某些实施例仅是彼此的备选,否则上文所描述的实施例中的任一个可以被实现为与其他实施例的一个或多个组合。
如由实验所确认的,各种实施例可以提供超过现有技术的优点。哈希键利用获得一致的哈希桶和高冲突率的目的被构建,其使方法比LSH关于近似最近邻搜索更高效。通过将在线学习分布到同时定位和地图构建(SLAM)过程中,方法可以成功地应用到SLAM重定位。而且,实验示出即使在地图中存在数以万计的标志,也可以实时恢复照相机姿态。
在驻留在存储器中并且使得相关装置执行本发明的计算机程序代码的帮助下,可以实现本发明的各种实施例。例如,装置可以包括:用于处理、接收和发射数据的电路和电子设备;存储器中的计算机程序代码;和处理器,其当运行计算机程序代码时使得终端设备执行实施例的特征。
显然,本发明不限于只对上文所呈现的实施例,其可以在随附的权利要求的范围内修改。

Claims (15)

1.一种方法,包括:
获得关于对象的三维(3D)点云;
获得关于所述对象的2D图像中的特征点的二进制特征描述符;
将针对每个特征点的多个索引值分配为对应的所述二进制特征描述符的多个位;
将所述二进制特征描述符存储在数据库图像的多个哈希键表的表条目中;
获得查询图像中的特征点的查询二进制特征描述符;
将所述查询二进制特征描述符与所述数据库图像的所述二进制特征描述符进行匹配;
重新选择经匹配的所述数据库图像的哈希键的一个位;以及
重新索引所述数据库图像的所述哈希键表的所述表条目中的所述特征点。
2.根据权利要求1所述的方法,还包括
重新选择经匹配的所述数据库图像的所述哈希键的所述一个位,使得定义所述表条目的大小的一致性和经匹配的特征对的冲突率的成本函数被最小化。
3.根据权利要求2所述的方法,其中所述成本函数是C=λ(1-pc)+1/(1–u’),其中λ是预设权重,pc是两个匹配的特征在某个位处重合的概率并且u’是用于将所述查询二进制特征描述符与所述二进制特征描述符进行匹配的线性搜索中的时间减少的因子。
4.根据任一前述权利要求所述的方法,其中针对每个特征点的所述索引值的所述多个位从对应的所述二进制特征描述符被随机地选择。
5.根据任一前述权利要求所述的方法,其中使用近似最近邻(ANN)搜索,所述查询二进制特征描述符被匹配到所述数据库图像的所述二进制特征描述符。
6.根据任一前述权利要求所述的方法,其中
在所述特征点的随机组成的子集中重新选择所述哈希键的所述一个位。
7.根据任一前述权利要求所述的方法,还包括
当新查询图像被获得时,在所述哈希键的第一半中重新选择所述一个位;以及
当下一查询图像被获得时,在所述哈希键的第二半中重新选择所述一个位。
8.一种设备,包括:至少一个处理器;存储器,包括计算机程序代码,所述存储器和所述计算机程序代码被配置为利用所述至少一个处理器使得所述设备至少:
获得关于对象的三维(3D)点云;
获得关于所述对象的2D图像中的特征点的二进制特征描述符;
将针对每个特征点的多个索引值分配为对应的所述二进制特征描述符的多个位;
将所述二进制特征描述符存储在数据库图像的多个哈希键表的表条目中;
获得查询图像中的特征点的查询二进制特征描述符;
将所述查询二进制特征描述符与所述数据库图像的所述二进制特征描述符进行匹配;
重新选择经匹配的所述数据库图像的所述哈希键的一个位;以及
重新索引所述数据库图像的所述哈希键表的所述表条目中的所述特征点。
9.根据权利要求8所述的设备,还包括被配置为使得所述设备至少进行以下各项的代码:
重新选择经匹配的所述数据库图像的所述哈希键的所述一个位,使得定义所述表条目的大小的一致性和经匹配的特征对的冲突率的成本函数被最小化。
10.根据权利要求9所述的设备,其中所述成本函数是C=λ(1–pc)+1/(1–u’),其中λ是预设权重,pc是两个匹配的特征在某个位处重合的概率并且u’是用于将所述查询二进制特征描述符与所述二进制特征描述符进行匹配的线性搜索中的时间减少的因子。
11.根据权利要求8-10中的任一项所述的设备,其中所述设备被配置为从对应的所述二进制特征描述符随机地选择针对每个特征点的所述索引值的所述多个位。
12.根据权利要求8-11中的任一项所述的设备,其中所述设备被配置为使用近似最近邻(ANN)搜索,将所述查询二进制特征描述符与所述数据库图像的所述二进制特征描述符进行匹配。
13.根据权利要求8-12中的任一项所述的设备,其中所述设备被配置为在所述特征点的随机组成子集中重新选择所述哈希键的所述一个位。
14.根据权利要求8-13中的任一项所述的设备,还包括被配置为使得所述设备至少进行以下各项的代码:
当新查询图像被获得时,在所述哈希键的第一半中重新选择所述一个位;以及
当下一查询图像被获得时,在所述哈希键的第二半中重新选择所述一个位。
15.一种计算机可读存储介质,存储有用于由设备使用的代码,所述代码当由处理器执行时,使得所述设备执行:
获得关于对象的三维(3D)点云;
获得关于所述对象的2D图像中的特征点的二进制特征描述符;
将针对每个特征点的多个索引值分配为对应的所述二进制特征描述符的多个位;
将所述二进制特征描述符存储在数据库图像的多个哈希键表的表条目中;
获得查询图像中的特征点的查询二进制特征描述符;
将所述查询二进制特征描述符与所述数据库图像的所述二进制特征描述符进行匹配;
重新选择经匹配的所述数据库图像的哈希键的一个位;以及
重新索引所述数据库图像的所述哈希键表的所述表条目中的所述特征点。
CN201580074078.0A 2015-01-27 2015-01-27 定位和地图构建方法 Active CN107209853B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/071607 WO2016119117A1 (en) 2015-01-27 2015-01-27 Localization and mapping method

Publications (2)

Publication Number Publication Date
CN107209853A true CN107209853A (zh) 2017-09-26
CN107209853B CN107209853B (zh) 2020-12-08

Family

ID=56542120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580074078.0A Active CN107209853B (zh) 2015-01-27 2015-01-27 定位和地图构建方法

Country Status (5)

Country Link
US (1) US10366304B2 (zh)
EP (1) EP3251051A4 (zh)
JP (1) JP6457648B2 (zh)
CN (1) CN107209853B (zh)
WO (1) WO2016119117A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108594816A (zh) * 2018-04-23 2018-09-28 长沙学院 一种通过改进orb-slam算法实现定位与构图的方法和系统
CN108615247A (zh) * 2018-04-27 2018-10-02 深圳市腾讯计算机系统有限公司 相机姿态追踪过程的重定位方法、装置、设备及存储介质
TWI690816B (zh) * 2018-11-28 2020-04-11 台達電子工業股份有限公司 地圖建置設備及其地圖建置方法
CN111316293A (zh) * 2017-10-05 2020-06-19 应用移动概览公司 用于对象识别的方法
CN111442722A (zh) * 2020-03-26 2020-07-24 达闼科技成都有限公司 定位方法、装置、存储介质及电子设备
CN111694976A (zh) * 2020-06-10 2020-09-22 上海理工大学 一种基于多视角卷积池化的三维点云数据检索方法
US11227434B2 (en) 2018-11-28 2022-01-18 Delta Electronics, Inc. Map constructing apparatus and map constructing method

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360718B2 (en) * 2015-08-14 2019-07-23 Samsung Electronics Co., Ltd. Method and apparatus for constructing three dimensional model of object
ITUB20153277A1 (it) * 2015-08-28 2017-02-28 St Microelectronics Srl Procedimento per ricerche visuali, sistema, apparecchiatura e prodotto informatico corrispondenti
US10467756B2 (en) * 2017-05-14 2019-11-05 International Business Machines Corporation Systems and methods for determining a camera pose of an image
CN109073398B (zh) * 2018-07-20 2022-04-08 达闼机器人有限公司 一种建立地图的方法、定位方法、装置、终端及存储介质
CN109544614B (zh) * 2018-11-26 2022-04-01 东南大学 一种基于图像低频信息相似度的匹配图像对识别的方法
US11095495B2 (en) * 2019-04-05 2021-08-17 Arista Networks, Inc. Multi-result lookups
US11153603B2 (en) * 2019-06-10 2021-10-19 Intel Corporation Volumetric video visibility encoding mechanism
US11189000B2 (en) * 2019-06-24 2021-11-30 Intel Corporation Architecture to generate binary descriptor for image feature point
US11222018B2 (en) * 2019-09-09 2022-01-11 Oracle International Corporation Cache conscious techniques for generation of quasi-dense grouping codes of compressed columnar data in relational database systems
US11609899B2 (en) 2020-07-16 2023-03-21 Nvidia Corporation Concurrent hash map updates
CN113177555B (zh) * 2021-05-21 2022-11-04 西南大学 基于跨层级跨尺度跨注意力机制的目标处理方法及装置
CN113592015B (zh) * 2021-08-06 2022-09-27 北京百度网讯科技有限公司 定位以及训练特征匹配网络的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140010407A1 (en) * 2012-07-09 2014-01-09 Microsoft Corporation Image-based localization
US8655029B2 (en) * 2012-04-10 2014-02-18 Seiko Epson Corporation Hash-based face recognition system
CN103745498A (zh) * 2014-01-16 2014-04-23 中国科学院自动化研究所 一种基于图像的快速定位方法
WO2014153724A1 (en) * 2013-03-26 2014-10-02 Nokia Corporation A method and apparatus for estimating a pose of an imaging device
CN104282001A (zh) * 2014-09-22 2015-01-14 中国电子科技集团公司第二十研究所 增强图像特征二值描述子性能的方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4993678B2 (ja) 2006-10-04 2012-08-08 一般財団法人電力中央研究所 対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラム
JP5193518B2 (ja) 2007-07-13 2013-05-08 株式会社東芝 パターン探索装置及びその方法
US8488883B2 (en) 2009-12-28 2013-07-16 Picscout (Israel) Ltd. Robust and efficient image identification
JP2011221689A (ja) 2010-04-07 2011-11-04 Sony Corp 学習装置、学習方法、認識装置、認識方法、およびプログラム
US8483427B2 (en) * 2010-09-28 2013-07-09 Futurewei Technologies, Inc. System and method for image authentication
US8914313B2 (en) 2012-07-18 2014-12-16 Seiko Epson Corporation Confidence based vein image recognition and authentication
EP2902921B1 (en) 2012-09-27 2019-07-24 NEC Corporation Method, device, and program for converting binary data
US20180005015A1 (en) * 2016-07-01 2018-01-04 Vangogh Imaging, Inc. Sparse simultaneous localization and matching with unified tracking
CN106908064B (zh) * 2017-01-22 2019-12-27 电子科技大学 一种基于Kinect2传感器的室内夜间视觉导航方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655029B2 (en) * 2012-04-10 2014-02-18 Seiko Epson Corporation Hash-based face recognition system
US20140010407A1 (en) * 2012-07-09 2014-01-09 Microsoft Corporation Image-based localization
WO2014153724A1 (en) * 2013-03-26 2014-10-02 Nokia Corporation A method and apparatus for estimating a pose of an imaging device
CN103745498A (zh) * 2014-01-16 2014-04-23 中国科学院自动化研究所 一种基于图像的快速定位方法
CN104282001A (zh) * 2014-09-22 2015-01-14 中国电子科技集团公司第二十研究所 增强图像特征二值描述子性能的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111316293A (zh) * 2017-10-05 2020-06-19 应用移动概览公司 用于对象识别的方法
CN108594816A (zh) * 2018-04-23 2018-09-28 长沙学院 一种通过改进orb-slam算法实现定位与构图的方法和系统
CN108594816B (zh) * 2018-04-23 2021-10-29 长沙学院 一种通过改进orb-slam算法实现定位与构图的方法和系统
CN108615247A (zh) * 2018-04-27 2018-10-02 深圳市腾讯计算机系统有限公司 相机姿态追踪过程的重定位方法、装置、设备及存储介质
CN108615247B (zh) * 2018-04-27 2021-09-14 深圳市腾讯计算机系统有限公司 相机姿态追踪过程的重定位方法、装置、设备及存储介质
US11189037B2 (en) 2018-04-27 2021-11-30 Tencent Technology (Shenzhen) Company Limited Repositioning method and apparatus in camera pose tracking process, device, and storage medium
TWI690816B (zh) * 2018-11-28 2020-04-11 台達電子工業股份有限公司 地圖建置設備及其地圖建置方法
US11227434B2 (en) 2018-11-28 2022-01-18 Delta Electronics, Inc. Map constructing apparatus and map constructing method
CN111442722A (zh) * 2020-03-26 2020-07-24 达闼科技成都有限公司 定位方法、装置、存储介质及电子设备
CN111694976A (zh) * 2020-06-10 2020-09-22 上海理工大学 一种基于多视角卷积池化的三维点云数据检索方法

Also Published As

Publication number Publication date
JP2018504710A (ja) 2018-02-15
US10366304B2 (en) 2019-07-30
WO2016119117A1 (en) 2016-08-04
EP3251051A1 (en) 2017-12-06
JP6457648B2 (ja) 2019-01-23
US20180012105A1 (en) 2018-01-11
EP3251051A4 (en) 2018-08-08
CN107209853B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN107209853A (zh) 定位和地图构建方法
He et al. Bounding box regression with uncertainty for accurate object detection
CN104573652B (zh) 确定人脸图像中人脸的身份标识的方法、装置和终端
Mei et al. Closing loops without places
CN111161311A (zh) 一种基于深度学习的视觉多目标跟踪方法及装置
CN105493078B (zh) 彩色草图图像搜索
CN103793721B (zh) 一种基于区域相关反馈的行人重识别方法及系统
CN110059807A (zh) 图像处理方法、装置和存储介质
CN104081435A (zh) 一种基于级联二值编码的图像匹配方法
Hétroy-Wheeler et al. Segmentation of tree seedling point clouds into elementary units
CN113420640B (zh) 红树林高光谱图像分类方法、装置、电子设备及存储介质
CN104573681A (zh) 一种人脸识别方法
CN114495241B (zh) 一种图像识别方法及装置、电子设备、存储介质
CN110796135A (zh) 目标的定位方法及装置、计算机设备、计算机存储介质
Pham et al. SHREC’18: Rgb-d object-to-cad retrieval
CN109753577A (zh) 一种搜索人脸的方法及相关装置
CN108875828A (zh) 一种相似图像的快速匹配方法和系统
Wu et al. Independent metric learning with aligned multi-part features for video-based person re-identification
CN115115825A (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
Zhou et al. Model uncertainty guides visual object tracking
Phoka et al. Image based phishing detection using transfer learning
CN109711287A (zh) 人脸采集方法及相关产品
CN111126617B (zh) 一种选择融合模型权重参数的方法、装置及设备
CN106934339A (zh) 一种目标跟踪、跟踪目标识别特征的提取方法和装置
CN106469437B (zh) 图像处理方法和图像处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant