CN104115161B - 用于比较图像的方法和系统 - Google Patents

用于比较图像的方法和系统 Download PDF

Info

Publication number
CN104115161B
CN104115161B CN201280069517.5A CN201280069517A CN104115161B CN 104115161 B CN104115161 B CN 104115161B CN 201280069517 A CN201280069517 A CN 201280069517A CN 104115161 B CN104115161 B CN 104115161B
Authority
CN
China
Prior art keywords
point
image
matching
key point
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280069517.5A
Other languages
English (en)
Other versions
CN104115161A (zh
Inventor
G·弗朗西尼
S·莱珀索伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia SpA
Original Assignee
Telecom Italia SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia SpA filed Critical Telecom Italia SpA
Publication of CN104115161A publication Critical patent/CN104115161A/zh
Application granted granted Critical
Publication of CN104115161B publication Critical patent/CN104115161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于比较第一图像与第二图像的方法,包括:标识第一图像中的第一关键点和第二图像中的第二关键点;形成第一关键点和第二关键点之间的匹配;计算多个第一距离比,每个第一距离比基于一对第一关键点之间的距离与匹配所述一对第一关键点的对应的一对第二关键点之间的距离之比;将计算出的多个第一距离比的值的分布布置在直方图中;产生外点密度函数,该外点密度函数表达与第一图像和第二图像中的关键点对的随机选择对应的多个第二距离比的统计学分布;离散化外点密度函数。该方法还包括:确定多个正确关键点匹配,每个关键点匹配通过与第一图像和第二图像中描绘的同一对象的同一点对应的第一关键点和第二关键点形成。

Description

用于比较图像的方法和系统
技术领域
本发明涉及图像分析领域。
背景技术
在图像分析领域中,常见操作是比较两个图像以在这两个图像包括同一场景或同一对象的至少一部分的情况下找到其间发生的关系。
在大量的应用之中,至关重要的是进行图像比较来校准属于多相机系统的摄像机,评估在所拍摄视频的两帧之间发生的动作,并且识别图像(例如,照片)内的对象。由于被专门设计成在所谓的可视搜索引擎中利用的对象识别算法最近的发展,导致后一个应用呈现出越来越重要,即,从照片开始的自动化服务能够标识其内描绘的对象并且提供与所标识的对象相关的信息。这种类型的已知服务示例包括Google Goggles、Nokia Point&Find和kooaba Smart Visuals。对象识别应用被提供用于比较描绘待识别对象的第一图像(在行业术语中,被称为“查询图像”)与多个参考图像,每个参考图像描绘一个已知对象;这样允许执行在查询图像中描绘的对象和参考图像中描绘的对象之间的比较。
参考图像通常被布置在适当的参考数据库中。数据库中包括的参考图像的数量越多,要执行的比较操作的次数就越多。在一些情况下,参考数据库会变得非常大,从而对对象识别过程的效率产生负面影响。例如,如果在在线购物场景中利用对象识别(其中,每幅参考图像对应于在线商店提供的一个项目(例如,图书封面、DVD封面和/或CD封面的照片)),参考图像的数量可超过数百万的单位。此外,为了有效管理这样巨量的数据,应该通过设置有充足处理能力的处理单元执行比较操作。
在近十年中,已经提出了用于缩短执行对象识别所需的时间的不同算法。这些算法被提供用于大量减少参考图像的数量,所述参考图像是包括查询图像中描绘的对象的候选。
用于执行两个图像之间的比较操作的一种非常有效的方式被提供用于在第一图像中选择点(在行业术语中,被称为关键点)的集合并随后将该集合中的每个关键点与第二图像中的一个对应关键点匹配。通过对环绕该点本身的图像区域的局部特征加以考虑,执行选择第一图像中的哪个点必须变成关键点的步骤。关于这一点,参见2004年International Journal of computer vision(《计算机视觉国际期刊》)中David G.Lowe所著的“Distinctive image features from scale-invariant keypoints(源自标度不变关键点的不同图像特征)”。
如果第一图像的关键点和第二图像的对应关键点之间的匹配是正确的,则在这两个关键点都对应于(在这两个图像中都有所描绘的)同一对象的同一点的意义上,这种关键点匹配被称为“内点(inlier)”。
相反地,如果第一图像的关键点和第二图像的对应关键点之间的匹配是不正确的,则在这两个关键点不对应于同一对象的同一点的意义上,这种关键点匹配被称为“外点(outlier)”。
因此,为了得到可靠的结果,有利地是在已经判定关键点匹配之后执行能够区分内点与外点的程序步骤。
在本领域中已经获知这种类型的程序步骤的几个示例。
最常用的程序步骤利用了在1981年6月的Communications of the ACM(《ACM通讯》)中的Martin A.Fischler和Robert C.Bolles所著的“Random sample consensus:Aparadigm for outlier fitting with applications to image analysis andautomated cartography(随机抽样一致性:与用于进行图像分析和自动化制图的应用拟合的外点的范例)”中公开的RANSAC算法。然而,这种算法由于基于迭代方法而是耗时的。
在2010年10月在International Conference on Image Processing(图像处理国际会议)上Sam S.Tsai、Davide Chen、Gabriel Takacs、Vijay Chandrasekhar、Ramakrishna Vedantham、Radek Grzeszczuk、Bernd Girod所著的“Fast geometric re-ranking for image-based retrieval(用于基于图像进行检索的快速几何重排序)”和国际专利申请WO2009/130451中公开的算法基于在平移、旋转和缩放的情况下关键点的距离之比不变的事实。在2010年8月的International Conference on Pattern Recognition(图案识别国际会议)上Zhipeng Wu、Qianqian Xu、Shuqiang Jiang、Qingming Huang、PengCui、Liang Li所著的“Adding Affine Invariant Geometric Constraint for Partial-Duplicate Image Retrieval(增加用于部分复制图像检索的仿射不变几何限制)”(第842至845页)中和2010年第20届图案识别国际会议上Daniel Fleck、Zoran的“Using LocalAffine Invariants to Improve Image Matching(使用本地仿射不变量改进图像匹配)”(第1844页至第1847页)中也公开了这种类型的其它算法。
另外,US 2010/0135527 A1公开了包括基于关键点的比较和基于区域的颜色比较的图像识别算法。一种使用该算法标识目标对象的方法包括:在处理装置处接收输入,所述输入包括与目标图像相关的数据;执行检索步骤,包括在图像数据库中检索图像,并且直到该图像被接受或被拒绝之前,指定该图像作为候选图像;执行图像识别步骤,包括使用处理装置对目标和候选图像执行图像识别算法,以得到图像识别算法输出;以及执行比较步骤:如果图像识别算法输出在预先选择的范围内,则接受候选图像作为目标图像,如果图像识别算法输出不在预先选择的范围内,则拒绝候选图像并且重复进行检索、图像识别和比较步骤。
US2010/0183229 A1涉及一种用于匹配图像的方法、系统和计算机程序产品。用特征点和特征向量和与特征点关联的方向来表示待匹配图像。首先,通过使用特征向量确定假定对应关系。选择假定对应关系的子集并且确定该子集的拓扑等价。使用假定对应关系的拓扑等价子集创建运动估计模型。对假定对应关系和所确定的对应运动估计变换执行方向一致性测试,以避免不可行的变换。对满足方向一致性测试的匹配执行覆盖度测试。拒绝没有覆盖图像之一的显著部分的候选匹配。在多个图像满足所有测试要求的情况下,以匹配度降低的次序提供最终的匹配图像。
柏林海德堡的斯普林格柏林海德堡出版社(SPRINGER BERLIN HEIDELBERG,BERLIN,HEIDELBERG)在2009年11月30日的ADVANCES IN VISUAL COMPUTING(《视觉计算进展》)中第417至429页的Daniel Fleck等人所著的“An Evaluation 0f Affine Invariant-Based Classification for Image Matching(评价用于图像匹配的基于仿射不变的分类)”公开了对使用仿射不变量进行宽基线图像匹配的方法的详细评价。具体地,该方法利用了仿射不变性质,即在仿射转换下形状的面积比是恒定的。因此,通过随机采样图像对中的对应形状,可以生成面积比直方图。于是,对最大直方图值列做出贡献的匹配是候选内点。
柏林海德堡的斯普林格柏林海德堡出版社的IMAGE ANALYSIS AND RECOGNITION,(《图像分析和识别》)在2009年7月6日的Daniel Fleck等人所著的“Affine Invariant-Based Classification of Inliers and Outliers for Image Matching(用于图像匹配的基于仿射不变的内点和外点分类)”(第268至277页)公开了一种在宽基线图像匹配期间将暂定特征匹配归类为内点或外点的方法。具体地,该方法使用仿射不变性质,即在仿射变换的情况下,形状的面积比是恒定的。因此,通过随机采样图像对中的对应形状,可以生成面积比的直方图。于是,对最大直方图值列做出贡献的匹配是候选内点。随后过滤候选内点,以去除直方图中频率低于噪声水平的任何点。使用所得的内点集合产生图像之间的非常准确的变换模型。
另外,2011年IEEE国际多媒体会议及展示(IEEE International Conference onMultimedia and Expo,ICME)上S.Lepsoy、G.Francini、G.Cordara、P.P.B.de Gusmao的“Statistical modelling of outliers for fast visual search(快速可视搜索的外点的统计学建模)”公开了两个图像中存在的关键点的匹配是其中许多匹配可能不正确的不确定过程。成对的不正确匹配的对数距离比的统计学性质明显不同于正确匹配的对数距离比的统计学性质。基于统计学模型,提出了拟合效果测试(goodness-of-fit test),以确定两个图像是否包含同一对象的视图。这种技术可以用作用于可视搜索的快速几何一致性检查。
发明内容
申请人已经发现用于实现对象识别服务的上述已知方法中的大部分受几个缺陷影响。具体地,这些方法是耗时的,基于迭代的程序步骤和/或需要处理巨量的数据。
申请人已经着手处理如何就耗时和待处理数据量方面改善这些方法的问题。
具体地,申请人已经着手解决该问题,由此提供一种就数据处理方面而言是可靠的并且就耗时方面而言具有优良的性能的图像比较方法。
申请人已经发现,通过先开始在第一图像(查询图像)上产生关键点集合并且将其与第二图像(参考图像)上产生的对应关键点集合关联以形成对应的关键点匹配集合,根据本发明的一种图像比较方法能够评估整个关键点匹配集合之中有多少关键点匹配是内点。
根据本发明的方法还能够具体地标识哪些关键点匹配是内点以及哪些关键点匹配是外点。
更具体地讲,根据本发明的一方面,一种用于比较第一图像与第二图像的方法,包括:标识第一图像中的第一关键点和第二图像中的第二关键点;通过将每个第一关键点与一个对应的第二关键点关联,形成第一关键点和第二关键点之间的匹配;计算多个第一距离比,每个第一距离比均基于一对第一关键点之间的距离与匹配所述一对第一关键点的对应的一对第二关键点之间的距离之比;将计算出的所述多个第一距离比的值的分布布置在具有依次的多个区间(bin)的直方图中,其中每个区间对应于第一距离比的值的相应间隔,所述直方图为每个区间列举了具有被包括在所述相应间隔内的值的所述分布的第一距离比的对应数量;产生外点密度函数,所述外点密度函数表达与第一图像和第二图像中的关键点对的随机选择对应的多个第二距离比的统计学分布,所述多个第二距离比基于第一图像中的成对第一关键点之间的距离和第二图像中随机选择的对应的成对第二关键点之间的距离之比;通过针对所述区间中的每个区间产生一个对应的外点概率密度值,离散化所述外点密度函数。所述方法还包括:确定多个正确关键点匹配,每个关键点匹配均是通过与第一图像和第二图像中描绘的同一对象的同一点对应的第一关键点和第二关键点形成的,所述确定多个正确关键点匹配的步骤包括:确定矩阵,所述矩阵的每个元素对应于相应的一对关键点匹配并且每个元素的值对应于所述直方图在包括相应的所述一对关键点匹配的距离比的区间处的值和与所述区间对应的外点概率密度值之差,用参数(β)为所述外点概率密度值赋予权重;确定参数(β)的值,使得如果所述成对的关键点匹配是正确关键点匹配,则所述矩阵的主特征向量等于具有第一值的元素的向量(r),如果所述成对的关键点匹配是不正确关键点匹配,则所述矩阵的主特征向量等于具有第二值的元素的向量(r);确定所述正确关键点匹配的数量作为与所述主特征向量关联的主特征值的表现。为了比较所述第一图像与所述第二图像,利用确定的正确关键点匹配的数量。
优选地,所述确定正确关键点匹配的数量作为主特征值的表现包括:确定正确关键点匹配的数量作为所述主特征值与所述直方图在包括相应的所述一对关键点匹配的距离比的区间处的值和与所述区间对应的外点概率密度值之差的最大值之比的表现,用确定的所述参数(β)为所述外点概率密度值赋予权重。
优选地,所述确定正确关键点匹配的数量作为主特征值的表现包括:确定所述数量作为所述主特征值和所述最大值之比加1。
有利地,所述方法还包括:通过识别与正确关键点匹配的所述数量相等的具有最高绝对值的所述主特征向量的元素的数量,标识哪些关键点匹配最有可能是正确关键点匹配。
优选地,所述多个第一距离比对应于一对第一关键点之间的距离与匹配所述一对第一第一关键点的对应的一对第二关键点之间的距离之比的对数。
优选地,所述参数(β)是所述直方图在所述离散化外点密度函数上的投影的结果。
根据本发明的另一方面,一种用于比较第一图像与第二图像的设备,所述设备包括:第一标识单元,其被构造成标识第一图像中的第一关键点和第二图像中的第二关键点;关联单元,其被构造成通过将每个第一关键点与一个对应的第二关键点关联,形成第一关键点和第二关键点之间的匹配;计算单元,其被构造成计算多个第一距离比,每个第一距离比均基于一对第一关键点之间的距离与匹配所述一对第一关键点的对应的一对第二关键点之间的距离之比;布置单元,其被构造成将计算出的所述多个第一距离比的值的分布布置在具有依次的多个区间的直方图中,其中每个区间对应于第一距离比的值的相应间隔,所述直方图为每个区间列举了具有被包括在所述相应间隔内的值的所述分布的第一距离比的对应数量;产生单元,其被构造成产生外点密度函数,所述外点密度函数表达与第一图像和第二图像中的成对关键点的随机选择对应的多个第二距离比的统计学分布,所述多个第二距离比基于第一图像中的成对第一关键点之间的距离和第二图像中随机选择的对应的成对第二关键点之间的距离之比;离散化单元,其被构造成通过针对每个区间产生一个对应的外点概率密度值,离散化所述外点密度函数。所述设备还包括:确定单元,其被构造成确定多个正确关键点匹配,每个关键点匹配均是通过与第一图像和第二图像中描绘的同一对象的同一点对应的第一关键点和第二关键点形成的,所述确定单元包括:第一确定子单元,其被构造成确定矩阵,所述矩阵的每个元素对应于相应的一对关键点匹配并且每个元素的值对应于所述直方图在包括相应的所述一对关键点匹配的距离比的区间处的值和与所述区间对应的外点概率密度值之差,用参数(β)为所述外点概率密度值赋予权重;第二确定子单元,其被构造成确定参数(β)的值,使得如果所述成对的关键点匹配是正确关键点匹配,则所述矩阵的主特征向量等于具有第一值的元素的向量(r),如果所述成对的关键点匹配是不正确关键点匹配,则所述矩阵的主特征向量等于具有第二值的元素的向量(r);第三确定子单元,其被构造成确定所述正确关键点匹配的数量作为与所述主特征向量关联的主特征值的表现。所述设备还包括比较单元,所述比较单元被构造成利用确定的正确关键点匹配的数量来比较第一图像与第二图像。
优选地,所述设备还包括识别单元,所述识别单元被构造成通过识别与正确关键点匹配的所述数量相等的具有最高绝对值的所述主特征向量的元素的数量,标识哪些关键点匹配最有可能是正确关键点匹配。
本发明的另一方面提供了一种系统,包括:关键点检测单元,其被构造成接收查询图像并且标识所述图像中对应的第一关键点;特征计算单元,其被构造成通过对应的第一本地描述符描述第一关键点的本地方面;参考数据库,其存储多个参考图像,对于每个参考图像,所述参考数据库还存储对应的第二关键点和第二关键点的对应的第二本地描述符;特征匹配单元,其被构造成针对至少一组参考图像中的每个参考图像,比较第一本地描述符与所述参考图像的第二本地描述符,并且因此将第一关键点与所述参考图像的第二关键点关联,以产生对应的关键点匹配集合;选择单元,其被构造成基于通过所述特征匹配单元执行的比较来选择参考图像的子集;以及优化单元,其被构造成针对包括查询图像和所述子集的参考图像的每一对,通过使用上述设备计算正确关键点匹配的数量。
优选地,所述系统包括可视搜索服务器和多个终端,所述终端被构造成通过网络向所述可视搜索服务器提供查询图像,其中,所述可视搜索服务器包括所述关键点检测单元、所述特征计算单元、所述参考数据库、所述特征匹配单元、所述选择单元和所述优化单元。
优选地,所述系统包括可视搜索服务器和多个终端,所述终端被构造成通过网络向所述可视搜索服务器提供查询图像,其中:所述可视搜索服务器包括所述参考数据库、所述特征匹配单元、所述选择单元和所述优化单元,并且每个终端均包括相应的关键点检测单元和相应的特征计算单元。
优选地,所述系统还包括可视搜索服务器和多个终端,所述终端被构造成通过网络与所述可视搜索服务器交换数据,其中:所述可视搜索服务器包括所述参考数据库,并且每个终端均包括相应的关键点检测单元、相应的特征计算单元、相应的特征匹配单元、相应的选择单元、相应的优化单元和相应的本地数据库,其中:每个终端被构造成从所述可视搜索服务器接收存储在所述参考数据库中的相应的第二关键点集合和第二关键点的对应的第二本地描述符,所述终端的所述本地数据库被构造成存储接收到的第二关键点集合和第二本地描述符,存储的第二关键点集合和第二本地描述符对应于所述至少一组参考图像中的参考图像。
根据本发明的另一方面,一种检索图像的方法包括:接收查询图像并且标识所述图像中的对应的第一关键点;比较所述查询图像与多个参考图像,第二关键点与每个参考图像关联,并且因此将第一关键点与所述参考图像的第二关键点关联,以产生对应的关键点匹配集合;基于上述方法,确定所述查询图像和所述多个参考图像中的每个图像之间的多个正确关键点匹配;选择参考图像的子集作为正确关键点匹配的数量超过预定阈值所用的参考图像。
附图说明
通过下面结合附图阅读的对本发明的一些示例性和非限制性实施例的描述,本发明的这些和其它特征和优点将变得显见,在附图中:
图1A示出了其中两个图像的关键点彼此关联以形成关键点匹配的示例;
图1B示出了图1A的示例,其中只描绘了内点;
图1C示出了对应于图1A的示例的LDR直方图;
图2示出了根据本发明的实施例的外点密度函数的形状;
图3A-3F示出了由取自苏黎世建筑图像数据库(Zurich Building ImageDatabase)的成对图像产生的LDR直方图的几个示例;
图4示出了其中查询图像和参考图像描绘了从极为不同的角度观察到的同一平面对象的示例性情况;
图5A和图5B示出了其中以具有中度差别的视角所示的几乎平面对象的两个示例性情况;
图6示出了本发明的方法的主要步骤的流程图;
图7A-7F示出了通过本发明的方法执行的实验的结果;
图8示意性地示出了其中可以利用根据本发明的实施例的方法来实现可视搜索服务的可能场景;
图9A示出了根据本发明的实施例的实现可视搜索服务的系统;
图9B示出了根据本发明的其它实施例的实现可视搜索服务的系统;
图9C示出了根据本发明的其它实施例的实现可视搜索服务的系统;
图10是示出了根据本发明的实施例的自动摄像机校准方法的主要步骤的流程图。
具体实施方式
如以上已经提到的,两个图像之间的比较被提供用于将第一图像的关键点与第二图像的对应关键点进行匹配。如果这两个图像的对应关键点对应于(在这两个图像中都有所描绘的)同一对象的同一点,则认为关键点匹配是正确的(内点);相反地,如果两个关键点不对应于同一对象的同一点,则认为关键点匹配是不正确的(外点)。在其中,个图像是同一对象(教堂)的照片的图1A中例示中,每个关键点匹配用一个相应的实线描绘。图1A的示例性情况下示出的关键点匹配包括内点和外点两者。替代地,在图1B中描绘了其中已经去除了外点的同一示例性情况的版本。
在本说明书的下文中,将描述一种图像比较方法。通过先开始将被称为“查询图像”或简称为“查询”的第一图像上产生的关键点集合与被称为参考图像的第二图像上产生的对应关键点集合关联以形成对应关键点匹配集合,所提出的方法能够估计关键点匹配的整个集合之中有多少关键点匹配是内点,还能够具体地标识哪些关键点匹配是内点以及哪些关键点匹配是外点。
在本说明书的部分1中,将针对不正确匹配和正确匹配二者介绍这一方法中使用的具体统计学性质和对数距离比的概念。后面的两个部分(部分2-3)公开了所提出方法的各阶段的数学和统计学方面。部分4公开了该方法的各阶段的主要步骤。最后一个部分(部分5)涉及所提出方法的示例性应用。
部分1-对数距离比
考虑N个匹配关键点(匹配)的集合
(x1,y1),...,(xi,yi),...,(xN,yN) (1)
其中,xi包含查询图像中的第i个关键点的坐标,并且yi包含其在参考图像中的匹配关键点的坐标。如果这两个关键点正确匹配,则坐标对(xi,yi)被称为内点。相反地,如果这两个关键点没有正确匹配,则坐标对被称为外点。数量N通常是初始执行的匹配过程的结果。N的典型值的范围在5和500之间,优选地在20和400之间。如果匹配的数量超过以上阈值或与其它方式被认为比执行根据本发明的内点选择过程所需的计算资源相对要高,则本领域的技术人员可通过选择匹配数量N′<N来减少用于执行本发明方法的匹配的数量。
所提出方法利用了在以上引用的Tsai等人的论文中提出的所谓对数距离比(缩写是LDR):
关键点必须是不同的,即,
xi≠xj,yi≠yj
并且对于i=j,LDR是不确定的。LDR是长度比的函数,相似度的不变量。由于存在对数算子,如果查询图像与参考图像互换(x变成y,并且反之亦然),则LDR的符号反向。
假定N个匹配关键点(xi,yi)的集合包括查询图像上的N个关键点xi和参考图像上的N个对应关键点yi,存在数量为的不同的对数距离比。这种对数距离比的统计学分布被表达为对应直方图(本文中被称为“LDR直方图”)的形式。将用阵列h=[h1…hK]T表示LDR直方图。h是当对K个预定间隔T1,...,TK(下文中,被称为区间)中的每个间隔内包含的观察到的对数距离比进行计数时升高的频率的阵列。例如,这种区间可以是25个宽度等于0.1的介于下限值-2.5和上限值2.5之间的间隔,即:
T1=[-2.5,-2.3>,T2=[-2.3,-2.1>,...,T25=[2.3,2.5]
在图1C中示出对应于图1A的情况的LDR直方图的示例。
注意到h中所有元素之和是n=N(N-1)/2,不同对的匹配的数量。h可以被视为好像它是通过用概率密度函数pZ(z)测量随机变量Z的n个值得到的,所述概率密度函数pZ(z)代表各对关键点匹配的LDR。pZ(z)可以被称为整体密度函数。由此,LDR直方图中区间的预期值是
其中,pZ,k是LDR值落入间隔Tk内的概率。pZ,k的最大似然估计是直方图值除以观察次数,
参见例如1986年普伦蒂斯霍尔出版社(Prentice-Hall)出版的R.J.Larsen和M.L.Marx(新泽西州)所著的“An introduction to Mathematical Statistics and itsApplications(《介绍数学统计学及其应用》)”(第338页)。
1.1直方图和概率密度函数的两个分量
成对的关键点匹配按两类排序:要么这两个匹配都是内点,要么其中的至少一个是外点(该第二类将被称为混合对和外点对)。因此,该直方图是各自归因于针对一个类中成对的观察到的LDR值的两个分量之和。用hin={hin(1),...,hin(K)}表示用于内点对的直方图分量并且用hout={hout(1),...,hout(K)}表示用于混合对和外点对的分量。
于是,
h(k)=hin(k)+hout(k),k=1,...,K。 (5)
LDR的统计取决于上述类,如在下一部分中讨论的。以与LDR直方图相同的方式,整体概率密度函数被写作两个条件概率密度之和。假设Pin表示给定对包含两个内点的概率,并且假设Pout表示在对中包括至少一个外点的概率。针对内点匹配,将用p(z|in)表示条件概率密度函数,针对混合匹配和外点匹配,用p(z|out)表示条件概率密度函数。于是,z的整体密度函数是如下和:
pz(z)=Pinp(z|in)+Poutp(z|out), (6)
如等式4中一样,右手侧的项可以被求积分,以得到两个直方图分量的预期值
概率密度函数及其积分E(h(k))、E(hin(k))、E(hout(k))是可用的抽象度。只有观察到的数量是LDR直方图,然而,它提供了关于整体密度函数的信息。根据等式4的最大似然估计,应用下面的原理。
整体密度函数pZ(z)使得预期的LDR直方图等于观察到的LDR直方图。
因此,
h(k)=E(h(k))=E(hin(k))+E(hout(k)),k=1,...,K。 (9)
下一个部分针对这两个类讨论条件概率密度函数。
1.2条件概率
LDR是两个一般关键点(即,(xi,yi)和(xj,yj))的函数。会出现三种可能的状况:这两对都是外点,这两对都是内点,或者一对是内点而另一对是外点。
1.2.1当这两对都是外点时的LDR
匹配过程不受关于图像中场景的几何形状的任何认知的限制,因为在执行匹配之前,这种认知是不可用的。即使这两个图像的确示出了相同的对象,也没有防止错误匹配的机制。如果这两个图像没有示出相同或非常类似的对象,则任何匹配必须被视为是不正确的。
即使匹配过程是决定性的,不正确匹配的关键点的位置仍是不可预测的。通常无法发现外点的任何几何图案,并且不存在从中推导出这种图案的首要原理。因此,不正确匹配被视为是随机过程,并且通过被称为外点密度函数的恰当密度函数,对外点的性态进行建模。
定义外点密度函数。假设A和B是矩形。假定xi,xj∈A和yi,yj∈B是随机绘出的点,对应于随机变量Xi,Xj和Yi,Yj。假设随机变量Z是LDR
Z=ldr(Xi,Xj,Yi,Yj)。
外点密度函数是Z的概率密度函数fZ(z)并且它将被用作条件概率密度函数
p(z|out)=fZ(z)
可以针对两种类型的关键点(正态和不均匀)表达外点密度函数。
正常分布关键点坐标。假设关键点的正常分布会导致外点密度函数的简单公式化,而这是真实情况的良好近似。
假设查询图像的关键点是独立且理想分布(i.i.d)的,表现为以平均值μ和方差(1/2)I正态分布的随机变量X:
假设坐标已经被适当地缩放,使得关键点分布于整个图像(注意到方差在水平方向和垂直方向上是相同的。)然后,两个关键点之间的差别也具有正态分布:
Xi-Xj~N(0,I);i≠j。 (11)
假定参考图像中的关键点{Yn}具有与{Xn}相同的统计性并且关键点Xn匹配关键点Yn。于是,距离比平方具有(2,2)自由度的F分布。
如例如1986年普伦蒂斯霍尔出版社(Prentice-Hall)出版的R.J.Larsen和M.L.Marx(新泽西州)所著的“An introduction to Mathematical Statistics and itsApplications(《介绍数学统计学及其应用》)”(第338页)中所示的。
概率密度函数F(2,2)是
其中,出于简化的缘故,用S取代等式12的随机变量的符号。由于正考虑的是对数距离比(而不是距离比平方),因此平方根和对数应用于随机变量此外,为了说明这两个图像的不同大小或者这两个图像中关键点的不同扩展,通过将随机变量乘以与这两个图像中的关键点的标准偏差之比对应的参数α,将函数扩展至这种情况,即:
F(2,2)概率密度函数的这些修改产生了如下的外点密度函数。
外点密度函数。假设两个图像具有随机关键点{Xn}和{Yn},所有这些关键点具有含第一图像中的方差和第二图像中的方差的二变量正态分布。假设a2是方差之比,
申请人已经确定对数距离比具有概率密度函数:
在图2中示出了在a=2的情况下的外点的形状和外点密度函数。必须注意的是,由于假定水平和垂直方差相同,这一外点密度函数并没有计及矩形图像的宽高比。
图3A-3F示出几个示例,各自示出了取自苏黎世建筑图像数据库(由1005个图像组成,分5个视图,每个视图具有201个建筑)的相应成对图像(查询图像-参考图像)。用圆形标示关键点,而线指向另一个图像中匹配的关键点的位置。对于每个图像对,示出了LDR直方图和以等式15公式化的对应的外点密度函数。应该注意的是,所有的关键点匹配必须被视为外点,因为这些图像示出的是不同的建筑。在这些示例中能够观察到只要所有匹配是外点时,外点密度函数就能良好近似LDR直方图。
还引入了“离散化外点密度函数”的概念。
假设用Tk(k=1,...,K)表示区间,即,用于构成LDR直方图的LDR值的间隔。离散化外点密度函数将概率值分配给K个区间中的每个区间,
p:{1,...,K}→[0,1]
使得在各第k个区间中,概率值等于关于该区间上的外点密度函数的积分,
其中,每个值f(k)被称为“外点概率”。
1.2.2-当两对都是内点时的LDR
通常,在所有关键点匹配都是内点的情况下的LDR直方图常常与外点情况下的LDR直方图极为不同。在大量的实际情况下,仅针对内点的LDR直方图比仅针对外点的LDR直方图要窄,即,在LDR外点直方图非零的情况下,在多个区间(具体地讲,横向的区间)上,等于零。
由于关联的关键点xi和yi通过映射到观察对象上的同一点而相关,因此有利的是考虑LDR直方图的上下界限,以代替概率建模。假定一个图像中的两个不同关键点一直没有彼此极其接近,至少没有在仅仅一个图像中。于是,存在数量既不非常大也不非常小(取决于在两个图像之间长度可以如何压缩和扩展)的a和b,,使得
a||xi-xj||≤||yi-yj||≤b||xi-xj||。 (16)
在这种情况下,LDR受限于间隔
ldr(xi,xj,yi,yj)∈[-lnb,-lna], (17)
另外,在平面表面的大多数对图像中,关键点之间的距离既没有很大地压缩也没有很大地扩展。像SIFT(标度不变特征变换)和SURF(加速稳健特征)一样的特征对于相似度变换而言是不变的,而对于仿射变换则并非如此,更不用说单应性。这意味着,如果相应的失真严重使得[-lnb,-lna]理论上较宽,则会产生极端LDR值的关键点会因为它们的特征将具有不同的描述符额将不会被关联。因此,正确关联的关键点的内点直方图有可能保持相对窄的间隔。
图4示出了其中查询图像和参考图像描绘了从极为不同的角度(在所述的示例中,-75度和0度)观察到的同一平面对象(矩形)的示例性情况。图4的底部示图描绘了LDR直方图和用所述图像对计算出的外点密度函数。
图5A和图5B示出其中以具有中度差别的视角示出了几乎平面对象(建筑的面)的两个示例性情况。图5A和图5B的底部示图描绘了对应的LDR直方图和外点密度函数。
1.2.3-具有这两种类型的对的LDR
第三替换情况提供了一对xi,yi是内点并且xj,yj是外点(或反之亦然)。在这种情况下,同样假设一个图像中的关键点是随机分布的,因为没人能够预先知道任何几何图案或者限制未知图像中包含的关键点的位置的规则。
因此,可以像等式10中一样,例如,在正态分布的情况下用随机变量表示每个关键点。两个关键点之间的差向量如等式11中将建模,这是因为一个关键点可以被认为是内点而另一个关键点可以被认为是外点,并且它们之间能够不相关。
然而,等式12的F分布没有准确保持,这是因为分子和分母不是独立的,这与F分布的假设相反。在内点/外点对的情况下的关键点是
(xi,yi),(xj,π(xj))
其中,π是一个图像中的内点关键点在另一个图像上的映射(尽管是未知的)。在这种情况下,表示距离比平方的随机变量是
其中,分子和分母显然是不独立的,因为分子和分母都是xj的函数。找出等式12中的变量的概率密度函数十分困难,但就提出的方法看来,可能不是必须的。经验提出的假设是,可以以小误差以相同的模型概率(等式15的外点模型函数)针对这两种情况(都是内点对,与内点/外点对相反)建模LDR的直方图。
1.3外点的非参量概率密度函数
外点的对数距离比可以被视为两条随机线段的长度比(的对数)。由于外点是通过不可预测匹配误差形成的,因此线段的端点被建模为独立的随机变量。此外,一个图像中的端点是相同分布的。之前,认为端点在平面中具有正态分布;这里,基于端点受限于关键点(不管是否正确,在匹配后保持的关键点)的集合的假设引入替代的外点概率密度函数。这个替代程序步骤的目标是更好地识别外点的LDR直方图的峰。在许多情况下,这样能够提高由于比较图像并且找到内点的性能。
假设所有线段都具有相等的概率,
其中,A、B表示一个图像中的端点的随机变量,C、D表示另一个图像中的端点的随机变量。随机LDR可以被表示为差
从而能够估计这两项中每项分别的概率。为此目的,引入直方图区间的扩展,使得区间形成扩展集合的子集,
其中,对齐索引使得Tk=ηk(k=1,...,K)。
通过考虑线段的所有可能端点,可以估计这些项落入给定区间的概率,
并且
当自变量(例如,1n||xi-xj||∈ηn)为真时,函数ν是1,当该自变量为假时,函数ν是0。区间隐含着标量量化器q,
q:R→{...,1,0,1,...}
使得
量化器将等式19中的项变换成具有整数值的随机变量。
通过离散概率函数
第一项变成
U=q ln||A-B||
并且通过离散概率函数
第二项变成
V=q(ln||C-D||)。
通过针对差的卷积公式得到针对差的离散概率函数
等式20中的函数可以被用作离散外点概率密度函数的替代公式。
部分2-对内点进行计数和标识
2.1外点法线
根据提出的方法,现在描述一种通过分析LDR值标识内点匹配的方式。已经开发了产生正确内点集合作为预期值的谱聚类算法。
对于每对关键点匹配而言,等式2的LDR是已知的,
zij=ldr(xi,xj,yi,yj),i≠j (21)
申请人在寻求传达给定LDR值是否代表一对内点匹配的信息的函数。申请人已经发现了一种允许通过计算成本低的算法标识内点匹配的函数应该具有形式:
g(z)=pz(z)-α·fz(z), (22)
其中,pz(z)是代表各对关键点匹配的LDR的整体概率密度函数,fz(z)是外点概率密度函数并且α是参数。通过求取在LDR直方图的各区间上的积分,得到k(区间索引)的函数:
第一项与区间Tk中的整体LDR直方图的预期值成正比。第二项中的外点概率密度函数的积分可以被写为f(k)。
现在,等式23可以被写作
因为假设整体概率密度函数使得直方图等于其预期值。通过代入d(k)=ng(k)和β=nα,最终得到将用于标识内点的函数
d(k)=h(k)-βf(k) (26)。
2.2内点证据矩阵(evidence matrix)
等式21和26产生非常有用的矩阵,称为内点证据矩阵。通过直方图区间所隐含的量化q提供将LDR值映射到索引的联系,
等式21的LDR值随后以矩阵Z∈RN×N(具有根据元素(i,j)的值zij)排序。对角被任意固定到零。于是,将Z映射到相同大小的矩阵D,使得
其中,对角值被再次设置成零。这是为了揭示内点而将被分析的矩阵。在下文中,将写dq来取代分量
为了开发算法,D中的对角线外元素中的量化LDR值被视为好像它们是独立随机变量的值。通过两个密度函数中的一个来表征这些变量中的任何变量:一个用于内点成对匹配,一个用于混合/外点对匹配。为了建模成对内点匹配,定义独立的并且以条件密度函数p(v|in)(参见等式15)相同分布的随机变量Vij(i,j∈1,...,N)。
其中,k=q(Vij)。留下概率密度函数p(v|in)是未定义的。
同样地,对于外点或混合对,以通过外点密度函数p(z|out)=fZ(z)给出的密度函数独立且相同分布(i.i.d)变量Zij(i,j∈1,...,N)被定义为
其中,f是等式25的离散概率密度函数。如果可以确立哪些对是内点并且哪些对是混合或外点对,则以上的定义产生具有元素的随机矩阵F(其对角元素是0),
2.3通过特征值和特征向量揭示的内点
目标是确定被定义为向量r∈RN的真实内点指示符向量,使得
申请人注意到,对于β的特定选择,F的预期值的主特征向量与真实内点指示符向量相同。此外,申请人注意到,观察到的矩阵D具有与内点指示符向量非常相似的主特征向量,使得它可被用于标识内点。
具体地,以预期乘积Fr与内点向量r本身成正比这样的方式确定(等式26的)β,
E(Fr)=μr (34)
首先,检验Fr的特殊情况。
假定存在5个关键点对并且内点指示符向量是
r=[1 1 0 1 0]T
第一、第二和第四元素指示内点匹配。矩阵F如下,
乘积是
看到乘积Fr中的一些元素是两项之和:对于1、2和4之中的任一行i,将Fii上的零与元素ri=1相乘,因此在所得的内积中“缺少”项。对于i=3和i=5的行,将F中的对角线上零与ri=0相乘,F的行中的非零元素都与指示符r中的非零元素相乘;因此不缺少项。
在一般的情况下,假设存在m个内点。向量E(Fr)中的第i个元素是F的第i行和向量r的内积的预期值。如果第i个匹配是内点对,则F中的行包含r的非零位置(内点位置)中的dq(Vij)(除了对角线处的之外),因此它是m-1个元素之和。如果第i个匹配是外点,则这个内积是m个元素dq(Zij)之和。由于Vij是相同分布的,因此预期值不取决于(i,j);E(dq(Vij))=E(dq(V))。出于相同的原因,E(dq(Zij))=E(dq(Z))。
以上表达式只具有两个值的事实与特征向量r是真实内点指示符的事实相符。
参数β
首先,考虑F中外点行的E(Fr)中的预期元素。这个元素中的预期值与以下成正比:
现在,强制地,这个元素等于零(μr中的对应元素的值)
申请人注意到,等式38是重要结果:通过将整体LDR直方图投影到离散化外点概率密度函数上,得到因子β。因此,等式26的项βf(k)可以被称为直方图的外点分量。函数d(k)与外点分量正交,因此称为外点法线(以与“表面法线”是与表面垂直的向量相同的方式)。
这就确认了特征向量r中的元素的两个值中的一个值是零。根据等式35,特征向量r中的元素的另一个值是恒定值。因此,特征向量r是真实内点指示符向量。
内点的数量
现在,考虑F中的内点行的Fr中的预期元素。这个元素必须等于μ(μr中的对应元素的值)。先开始考虑预期值
其中,用p(k|in)表示区间Tk上的内点概率密度函数的积分。这导致内点的数量的表达式:
出现在这个等式中的分母保持未知,因为被求积分的概率密度函数p(k|in)(参见等式39)是不可用的。申请人提出用外点法线d(k)(等式26)的最大值取代未知的分母E(dq(V))
这个值是已知的,因为所有项是可用的:LDR直方图h、投影系数β、被求积分的外点概率密度函数f。由此得到
申请人已经确定,这个数量略微低估了内点的数量m。具体地,申请人已经确定,通过选择内点作为与特征向量r的个最高元素对应的关键点匹配,实现了相对于外点选择内点方面的改善,即使是存在与用于计算的矩阵D的统计学性质和同一矩阵D的有限尺寸N相关的噪声。
主要特征值
在等式34中设定并且在等式40中指明的特征值事实上是主要的。
矩阵F中的元素i,j的预期值根据等式32和37是,
因此,矩阵可以被写为
E(F)=E(dq(V)).(rrT-diagr(r)), (45)
其中,r是等式42的内点指示符向量。矩阵diag(r)在对角线上具有r并且所有其它元素是零。E(F)的特征值是
μ1=(m-1)E(dq(V)) (46)
μ2=-E(d1(V))k=2,...,m (47)
μn=0,n≥3 n>m (48)
特征值μ1等于等式40的μ,如果内点的数量m大于或等于3,则这是主要的。
2.4快速特征向量计算
随机矩阵F与内点证据矩阵D相关。矩阵D可以被写作矩阵E(F)与对应于噪声的项W之和D=E(F)+W。
申请人已经确定,出于本发明的目的,可以忽略噪声分量W的存在并且可以利用内点证据矩阵D进行计算。具体地,申请人已经确定,内点证据矩阵D具有与内点指示符向量非常类似的主特征向量。因此,内点证据矩阵D的主特征向量可以用于标识内点。
估计的内点对应于D的主特征向量中的m个最大元素。目标是以一定精度为代价尽可能快地保持特征向量计算。用于寻找主特征向量的方法是本领域已知的(参见例如1997年工业和应用数学学会(The Society for Industrial and Applied Mathematics)的由L.Tredethen和D.Bau所著的“Numerical Linear Algebra(《数值线性代数》)”中公开的幂迭代和瑞雷商迭代)。
这两种方法都是迭代的且依赖于对主特征向量的初始猜想,并且粗略候选是作为类D矩阵的主特征向量的近似的平均列。
部分3-提出的方法的主要步骤
现在,将在图6中示出之前描述的方法的主要步骤。
具体地,图6是示出了提出的方法的主要步骤的流程图。
假设先开始比较一对图像,即,包括N个关键点xi的第一图像(查询图像)和包括N个关键点yi的第二图像(参考图像)。将查询图像上的每个关键点xi与参考图像上的一个对应关键点yi进行关联,以定义相应的关键点匹配(xi,yi)。
然后,使用针对相似度不变的距离比函数而从关键点匹配(xi,yi)产生距离比直方图。例如,使用等式2从关键点匹配(xi,yi)产生对数距离比(LDR)直方图(框602)。
在进一步的步骤(框604)中,通过使用在第一图像和第二图像中随机选择的第一关键点和第二关键点之间的距离比,计算外点密度函数,参见等式15(框604);
另一个步骤包括例如通过将等式15a应用于之前计算出的外点密度函数以得到其离散化版本来离散化之前计算的外点密度函数(框606)。提出的方法的接下来的步骤允许评估在关键点匹配的整个集合之中有多少关键点匹配是内点并且可选地具体地标识哪些关键点匹配是内点以及哪些关键点匹配外点。更具体地,提出的方法的进一步的步骤(框608)用于通过确定矩阵(框610)来确定正确关键点匹配(正确关键点匹配是通过与第一图像和第二图像中描绘的同一对象的同一点对应的第一关键点和第二关键点而形成)的数量;矩阵的每个元素对应于相应的一对关键点匹配并且其值对应于包括相应的一对关键点匹配的距离比的区间处的直方图值和与所述区间对应的离散化外点密度函数的值之差,用参数β为离散化外点密度函数的所述值赋予权重。提出的方法还包括以下步骤:确定参数β的值使得矩阵的主特征向量等于具有第一值(如果这对关键点匹配是正确关键点匹配)或者具有第二值(如果这对关键点匹配是不正确关键点匹配)的元素的向量r(框612),并且确定正确关键点匹配的数量是与所述主特征向量关联的主特征值的表现(框614)。然后,利用所确定的正确关键点匹配的数量比较第一图像与第二图像(框616)。
具体地,通过上述方法确定的正确关键点匹配的数量可以用于确立被比较的图像是否共有一个或多个对象。可以使用如下对内点的标识以基于查询图像和参考图像之间的空间关系来执行操作,诸如(例如)同一对象在这两个图像中的定位、立体视觉、计算同一对象在这两个图像中的运动。
如果被用于诸如增强现实的一些应用,所述方法可以可选地包括进一步的步骤:
-通过识别与正确关键点匹配的所述数量相等的具有最高绝对值的所述主特征向量的元素的数量,标识哪些关键点匹配最有可能是正确关键点匹配(框618)。
可以用其结构和功能取决于所要使用的特定应用领域的适当的处理单元来执行在这个部分中描述的方法的步骤。例如,每个处理单元都可以是专门被设计用于执行所述方法的一个或多个步骤的硬件单元。此外,可以在对应指令集的控制下由可编程机器(例如,计算机)执行所述方法的各个步骤。
部分4-实验结果
图7A示出了其中以不同缩放和中度视角差异显示的几乎平面的对象(建筑的面)的示例。用圆形标示关键点选择阶段中标识的45个关键点,而线指向另一个图像中的匹配的关键点的位置。
图7C示出与图7A中示出的关键点匹配对应的、根据等式27的(45×45)个矩阵D的、用灰度表示的值。通过上述方法在矩阵D上确定的内点数量是9。
图7D将LDR直方图h(k)示出为连续的线,将离散化外点密度函数f(k)示出为虚线并且将外点正态函数d(k)示出为点划线。外点正态函数d(k)具有对应于约1.4的LDR值的峰。这个峰对应于正确内点所处的区域。要注意的是,这个峰对应于LDR直方图的副峰,而非主峰。
图7E示出了根据上述方法确定的图7C的矩阵D的主特征向量。
在图7F中示出了以降序布置的同一向量的元素。通过知晓如本方法在前阶段中确定的内点的数量(即,9个),可以标识与这些内点对应的主特征向量的相同数量的元素,即,主特征向量中的9个最大元素(绝对值)。
图7B示出了通过上述方法标识的图7A的两个图像之间的正确关键点匹配(内点)。
部分5-本方法的一些示例性应用
图8示意性示出了一种可能场景,其中,可以利用之前描述的方法来实现根据本发明的实施例的可视搜索服务。根据客户端-服务器配置来构造用参考标号800标识的图8的场景,其中,可视搜索服务器810被构造成与多个终端820互动,以通过外部网络830(诸如,MAN、WAN、VPN、因特网或电话网络)进行数据交换。每个终端820可以是个人计算机、笔记本、膝上型计算机、个人数字助理、智能电话、或是能够管理数字图像的任何电子设备。
根据图9A中示出的本发明的实施例,通过可视搜索服务器810执行可视搜索服务的所有主要操作。
要求与照片中描绘的对象相关的信息的终端820的用户将所述照片(变成查询图像)通过网络830发送到可视搜索服务器810。
可视搜索服务器810包括服务器接口902,该服务器接口902适于与网络830交互以与终端820进行数据收发。通过服务器接口902,可视搜索服务器810接收待分析的查询图像。
查询图像被提供到被构造成标识包括在所述图像中的关键点的关键点检测单元904。
一旦产生了关键点,就通过特征计算单元906描述其本地方面。特征计算单元906使用已知的本地描述符执行这个操作(诸如,标度不变特征变换(SIFT)和加速稳健特征(SURF))。
可视搜索服务器810还包括与参考数据库910连接的特征匹配单元908,所述参考数据库910存储将被利用以进行图像识别的参考图像。特征匹配单元908使用已知的图像特征比较技术(例如,基于描述符之间的欧氏距离)执行从查询图像提取的本地描述符和存储在参考数据库中的参考图像的本地描述符之间的比较。特征匹配单元908输出对应列表,所述列表包括针对参考数据库的每个参考图像的对应的关键点匹配集合。这个列表会在查询图像中描绘的对象没有对应于任何参考图像中描绘的任何对象的情况下为空。
基于特征匹配单元908产生的列表,选择单元912选择与查询图像共享最高数量的关键点匹配的第一q个参考图像。假定这些参考图像是包括查询图像中描绘的对象的最佳候选。
根据本发明的实施例,可视搜索服务器810还包括被构造成实现之前描述的方法的优化单元914。优化单元914将所述方法应用于与选择单元912选择的q个参考图像的集合对应的关键点匹配:对于组成所述集合参考图像和查询图像的每一对,优化单元914计算正确关键点匹配(内点)的数量。根据本发明的方法执行这一计算。导致包括与查询图像的对应关键点正确匹配的足够数量的关键点的所述集合的参考图像被视为是包括至少查询图像中描绘的同一对象(的一部分)。然后,将上述这些参考图像通过网络830发送回终端820作为可视搜索请求的结果,这些参考图像可以基于被计数的内点的数量而被排序。
根据图9B中示出的本发明的另一个实施例,关键点检测单元904和特征计算单元906被包括在终端820中,而不是被包括在可视搜索服务器810中。在这种情况下,并非将查询图像发送到可视搜索服务器810,每个终端820能够直接发送根据查询图像本地产生的本地描述符。
相比于之前的实施例,这一解决方案要求发送更少量的数据(替代整个查询图像的本地描述符)。此外,根据这个实施例,将由可视搜索服务器810管理的计算负荷降低,从而允许可视搜索服务器810同时管理更多的图像搜索请求。
根据图9C中示出的本发明的又一个实施例,通过终端820执行可视搜索服务的几乎所有的主要操作,其中,可视搜索服务器810仅仅存储参考图像的关键点和本地描述符,并且基于终端用户所请求的特定可视搜索将从中选择的子集发送到终端。例如,如果终端820是配备有GPS系统的智能电话并且用智能电话本身的相机拍摄查询图像的照片,则可以基于终端820的实际位置选择将由可视搜索服务器810发送哪些关键点和本地描述符;这一解决方案可以有利地用于一些可视搜索服务(诸如,界标识别服务)。
为了能够管理图像比较操作,终端820设有本地参考数据库916和更新器单元920,所述更新器单元920适于接收由可视搜索服务器810发送的关键点和本地描述符并由此更新本地参考数据库916。必须理解的是,严格意义上无需在每次必须执行图像比较时更新本地参考数据库916,从而能够充分利用已经存储在本地参考数据库916中的关键点和本地描述符。例如,可视搜索服务器810可以每天只更新本地参考数据库916一次。
相比于之前的实施例,这一解决方法由于待发送的数据量大大减少因而更快。因此,这一解决方法尤其适于增强现实应用。
提出的方法的再一个应用是属于立体相机系统的摄像机的自动校准。校准的目的是产生所谓的基本矩阵(即,描述采集系统的内部参数和外部参数的矩阵)。内部参数描述相机构造(例如,焦距),而外部参数描述相机在空间内的位置。
如在图10的示意性流程图中所示的,第一相机1002采集第一图像(框1004),处理第一图像以标识对应的第一关键点(框1006)。一旦标识了第一关键点,就通过对应的第一本地描述符描述其本地方面(框1008)。类似地,第二相机1010采集第二图像(框1012),处理第二图像以找到对应的第二关键点(框1014)。随后通过对应的第二本地描述符描述这些关键点的本地方面(框1016)。
通过比较第一本地描述符与第二本地描述符,产生第一图像和第二图像之间的关键点匹配(框1018)。随后通过应用本发明的方法,标识是内点的关键点匹配(框1020)。
一旦标识了内点,就执行用于估计基本矩阵的迭代程序步骤(框1022),以找到新的关键点匹配(框1024)。可以在1997年6月模式分析和机器智能的IEEE会议记录的第19卷第6期(IEEE Transactions on pattern analysis and machine intelligence,Vol 19,No.6,Jume 1997)的R.Hartley的“In defense of the Eight-Point Algorithm(为八点算法辩护)”中描述的程序步骤之后执行这些操作。随后再次利用本发明的方法处理新的关键点匹配以识别内点(框1026)。重复迭代该程序步骤(即,与框1022、1024和1026对应的步骤),直到内点的数量稳定。
之前的描述详细表述和讨论了本发明的若干实施例;但是,在不脱离所附权利要求书限定的范围的情况下,对所描述实施例的许多改变以及本发明的不同实施例都是可能的。
例如,尽管在本说明书中引用的是对数距离比(LDR),但是可以在直方图被构造为具有不同的距离比(诸如,纯距离比,不用对数)的情况下应用类似的考虑;此外,可以在直方图被构造为具有多个对数距离比和/或对数距离比的幂的情况下应用类似的考虑。
此外,本发明的概念即使在直方图的区间的宽度互不相同的情况下也可以应用。

Claims (13)

1.一种用于比较第一图像与第二图像的方法,包括:
标识第一图像中的第一关键点和第二图像中的第二关键点;
通过将每个第一关键点与一个对应的第二关键点关联,形成第一关键点和第二关键点之间的匹配;
计算多个第一距离比,每个第一距离比均基于一对第一关键点之间的距离与匹配所述一对第一关键点的对应的一对第二关键点之间的距离之比;
将计算出的所述多个第一距离比的值的分布布置在具有依次的多个区间的直方图中,其中每个区间对应于第一距离比的值的相应间隔,所述直方图为每个区间列举具有被包括在所述相应间隔内的值的所述分布的第一距离比的对应数量;
产生外点密度函数,所述外点密度函数表达与第一图像和第二图像中的关键点对的随机选择对应的多个第二距离比的统计学分布,所述多个第二距离比基于第一图像中的成对第一关键点之间的距离和第二图像中随机选择的对应的成对第二关键点之间的距离之比;
通过针对所述区间中的每个区间产生对应的外点概率密度值,离散化所述外点密度函数;
其特征在于,所述方法包括:
确定多个正确关键点匹配,每个关键点匹配均是通过与第一图像和第二图像中描绘的同一对象的同一点对应的第一关键点和第二关键点形成的,所述确定多个正确关键点匹配包括:
确定矩阵,所述矩阵的每个元素对应于相应的一对关键点匹配并且每个元素的值对应于所述直方图在包括相应的所述一对关键点匹配的距离比的区间处的值和与所述区间对应的外点概率密度值之差,用参数(β)为所述外点概率密度值赋予权重;
确定参数(β)的值,使得如果所述关键点匹配是正确关键点匹配,则所述矩阵的主特征向量等于具有第一值的元素的向量(r),如果所述关键点匹配是不正确关键点匹配,则所述矩阵的主特征向量等于具有第二值的元素的向量(r);
作为与所述主特征向量关联的主特征值的函数确定所述正确关键点匹配的数量,
其中,为了比较所述第一图像与所述第二图像,利用确定的正确关键点匹配的数量。
2.根据权利要求1所述的方法,其中所述确定正确关键点匹配的数量作为主特征值的表现包括:
确定正确关键点匹配的数量作为所述主特征值与所述直方图在包括相应的所述一对关键点匹配的距离比的区间处的值和与所述区间对应的外点概率密度值之差的最大值之比的表现,用确定的所述参数(β)为所述外点概率密度值赋予权重。
3.根据权利要求2所述的方法,其中所述确定正确关键点匹配的数量作为主特征值的表现包括:确定所述数量作为所述主特征值和所述最大值之比加1。
4.根据权利要求1至3中的任一项所述的方法,还包括通过识别与正确关键点匹配的所述数量相等的具有最高绝对值的所述主特征向量的元素的数量,标识哪些关键点匹配最有可能是正确关键点匹配。
5.根据权利要求1所述的方法,其中所述多个第一距离比对应于一对第一关键点之间的距离与匹配所述一对第一关键点的对应的一对第二关键点之间的距离之比的对数。
6.根据权利要求1所述的方法,其中所述参数(β)是所述直方图在所述离散化外点密度函数上的投影的结果。
7.一种用于比较第一图像与第二图像的设备,所述设备包括:
第一标识单元,其被构造成标识第一图像中的第一关键点和第二图像中的第二关键点;
关联单元,其被构造成通过将每个第一关键点与一个对应的第二关键点关联,形成第一关键点和第二关键点之间的匹配;
计算单元,其被构造成计算多个第一距离比,每个第一距离比均基于一对第一关键点之间的距离与匹配所述一对第一关键点的对应的一对第二关键点之间的距离之比;
布置单元,其被构造成将计算出的所述多个第一距离比的值的分布布置在具有依次的多个区间的直方图中,其中每个区间对应于第一距离比的值的相应间隔,所述直方图为每个区间列举具有被包括在所述相应间隔内的值的所述分布的第一距离比的对应数量;
产生单元,其被构造成产生外点密度函数,所述外点密度函数表达与第一图像和第二图像中的成对关键点的随机选择对应的多个第二距离比的统计学分布,所述多个第二距离比基于第一图像中的成对第一关键点之间的距离和第二图像中随机选择的对应的成对第二关键点之间的距离之比;
离散化单元,其被构造成通过针对每个区间产生一个对应的外点概率密度值,离散化所述外点密度函数;
其特征在于,所述设备包括:
确定单元,其被构造成确定多个正确关键点匹配,每个关键点匹配均是通过与第一图像和第二图像中描绘的同一对象的同一点对应的第一关键点和第二关键点形成的,所述确定单元包括:
第一确定子单元,其被构造成确定矩阵,所述矩阵的每个元素对应于相应的一对关键点匹配并且每个元素的值对应于所述直方图在包括相应的所述一对关键点匹配的距离比的区间处的值和与所述区间对应的外点概率密度值之差,用参数(β)为所述外点概率密度值赋予权重;
第二确定子单元,其被构造成确定参数(β)的值,使得如果所述关键点匹配是正确关键点匹配,则所述矩阵的主特征向量等于具有第一值的元素的向量(r),如果所述关键点匹配是不正确关键点匹配,则所述矩阵的主特征向量等于具有第二值的元素的向量(r);
第三确定子单元,其被构造成作为与所述主特征向量关联的主特征值的函数确定所述正确关键点匹配的数量,
其中,所述设备还包括比较单元,所述比较单元被构造成利用确定的正确关键点匹配的数量来比较第一图像与第二图像。
8.根据权利要求7所述的设备,还包括
识别单元,其被构造成通过识别与正确关键点匹配的所述数量相等的具有最高绝对值的所述主特征向量的元素的数量,标识哪些关键点匹配最有可能是正确关键点匹配。
9.一种用于比较图像的系统,包括:
关键点检测单元,其被构造成接收查询图像并且标识所述图像中对应的第一关键点;
特征计算单元,其被构造成通过对应的第一本地描述符描述第一关键点的本地方面;
参考数据库,其存储多个参考图像,对于每个参考图像,所述参考数据库还存储对应的第二关键点和第二关键点的对应的第二本地描述符;
特征匹配单元,其被构造成针对至少一组参考图像中的每个参考图像,比较第一本地描述符与所述参考图像的第二本地描述符,并且因此将第一关键点与所述参考图像的第二关键点关联,以产生对应的关键点匹配集合;
选择单元,其被构造成基于通过所述特征匹配单元执行的比较来选择参考图像的子集;以及
优化单元,其被构造成针对包括查询图像和所述子集的参考图像的每一对,计算正确关键点匹配的数量,其中,所述优化单元包括根据权利要求7或8中的任一项所述的设备。
10.根据权利要求9所述的系统,还包括可视搜索服务器和多个终端,所述终端被构造成通过网络向所述可视搜索服务器提供查询图像,其中:
所述可视搜索服务器包括所述关键点检测单元、所述特征计算单元、所述参考数据库、所述特征匹配单元、所述选择单元和所述优化单元。
11.根据权利要求9所述的系统,还包括可视搜索服务器和多个终端,所述终端被构造成通过网络向所述可视搜索服务器提供查询图像,其中:
所述可视搜索服务器包括所述参考数据库、所述特征匹配单元、所述选择单元和所述优化单元,并且
每个终端包括相应的关键点检测单元和相应的特征计算单元。
12.根据权利要求9所述的系统,还包括可视搜索服务器和多个终端,所述终端被构造成通过网络与所述可视搜索服务器交换数据,其中:
所述可视搜索服务器包括所述参考数据库,并且
每个终端包括相应的关键点检测单元、相应的特征计算单元、相应的特征匹配单元、相应的选择单元、相应的优化单元和相应的本地数据库,其中:
每个终端被构造成从所述可视搜索服务器接收存储在所述参考数据库中的相应的第二关键点集合和第二关键点的对应的第二本地描述符,并且
所述终端的所述本地数据库被构造成存储接收到的第二关键点集合和第二本地描述符,存储的第二关键点集合和第二本地描述符对应于所述至少一组参考图像中的参考图像。
13.一种检索图像的方法,包括:
接收查询图像并且标识所述图像中的对应的第一关键点;
比较所述查询图像与多个参考图像,第二关键点与每个参考图像关联,并且因此将第一关键点与所述参考图像的第二关键点关联,以产生对应的关键点匹配集合;
基于根据权利要求1至6中的任一项所述的方法,确定所述查询图像和所述多个参考图像中的每个图像之间的多个正确关键点匹配;
选择参考图像的子集作为正确关键点匹配的数量超过预定阈值所用的参考图像。
CN201280069517.5A 2012-01-02 2012-01-02 用于比较图像的方法和系统 Active CN104115161B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/050025 WO2013102488A1 (en) 2012-01-02 2012-01-02 Method and system for comparing images

Publications (2)

Publication Number Publication Date
CN104115161A CN104115161A (zh) 2014-10-22
CN104115161B true CN104115161B (zh) 2017-07-14

Family

ID=45833302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280069517.5A Active CN104115161B (zh) 2012-01-02 2012-01-02 用于比较图像的方法和系统

Country Status (8)

Country Link
US (1) US9245204B2 (zh)
EP (1) EP2801054B1 (zh)
JP (1) JP5848833B2 (zh)
KR (1) KR101833953B1 (zh)
CN (1) CN104115161B (zh)
AR (1) AR089532A1 (zh)
BR (1) BR112014016301B1 (zh)
WO (1) WO2013102488A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103502811B (zh) * 2011-03-17 2015-11-25 纽约大学 用于检验和鉴别物理对象的设备和方法
EP3100177A1 (en) 2014-01-30 2016-12-07 Huawei Technologies Co., Ltd. Method for recognizing objects
JP6474210B2 (ja) * 2014-07-31 2019-02-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 大規模画像データベースの高速検索手法
WO2016058626A1 (en) * 2014-10-13 2016-04-21 Telecom Italia S.P.A. Method and system for comparing video shots
EP3398164B1 (en) 2015-12-30 2020-04-01 Telecom Italia S.p.A. System for generating 3d images for image recognition based positioning
US9824299B2 (en) * 2016-01-04 2017-11-21 Bank Of America Corporation Automatic image duplication identification
US9626596B1 (en) 2016-01-04 2017-04-18 Bank Of America Corporation Image variation engine
US20170323149A1 (en) * 2016-05-05 2017-11-09 International Business Machines Corporation Rotation invariant object detection
WO2018121841A1 (en) 2016-12-27 2018-07-05 Telecom Italia S.P.A. Method and system for identifying targets in scenes shot by a camera
JP7003617B2 (ja) * 2017-12-12 2022-01-20 富士通株式会社 推定装置、推定方法、及び推定プログラム
US10997232B2 (en) * 2019-01-23 2021-05-04 Syracuse University System and method for automated detection of figure element reuse
CN109992977B (zh) * 2019-03-01 2022-12-16 西安电子科技大学 一种基于安全多方计算技术的数据异常点清洗方法
CN110942061A (zh) * 2019-10-24 2020-03-31 泰康保险集团股份有限公司 文字识别方法、装置、设备和计算机可读介质
CN110838104B (zh) * 2019-10-30 2022-08-23 上海联影智能医疗科技有限公司 多时间点的感兴趣区域匹配方法、设备和存储介质
CN111476780B (zh) * 2020-04-07 2023-04-07 腾讯科技(深圳)有限公司 一种图像检测方法、装置、电子设备以及存储介质
US12094184B2 (en) * 2020-09-22 2024-09-17 Apple Inc. Contextual matching
CN112712123B (zh) * 2020-12-31 2022-02-22 上海商汤科技开发有限公司 匹配筛选方法、装置、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1698067A (zh) * 2003-04-28 2005-11-16 索尼株式会社 图像识别设备、方法和机器人设备
WO2010128511A1 (en) * 2009-05-06 2010-11-11 Superfish Ltd. Method for organizing a database of images and retrieving images from that database according to a query image
US7869631B2 (en) * 2006-12-11 2011-01-11 Arcsoft, Inc. Automatic skin color model face detection and mean-shift face tracking

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165352B1 (en) * 2007-08-06 2012-04-24 University Of South Florida Reconstruction of biometric image templates using match scores
GB0807411D0 (en) 2008-04-23 2008-05-28 Mitsubishi Electric Inf Tech Scale robust feature-based indentfiers for image identification
US8391615B2 (en) 2008-12-02 2013-03-05 Intel Corporation Image recognition algorithm, method of identifying a target image using same, and method of selecting data for transmission to a portable electronic device
US8401342B2 (en) 2009-01-16 2013-03-19 A9.Com, Inc. System and method to match images using topologically equivalent correspondences
US8406532B2 (en) * 2009-06-17 2013-03-26 Chevron U.S.A., Inc. Image matching using line signature
US8811666B2 (en) * 2009-08-06 2014-08-19 Kabushiki Kaisha Toshiba Monitoring of video images
JP5385105B2 (ja) 2009-11-25 2014-01-08 Kddi株式会社 画像検索方法およびシステム
WO2011069021A2 (en) 2009-12-02 2011-06-09 Qualcomm Incorporated Improving performance of image recognition algorithms by pruning features, image scaling, and spatially constrained feature matching
KR101531618B1 (ko) 2011-01-25 2015-07-06 텔레콤 이탈리아 소시에떼 퍼 아찌오니 이미지들의 비교 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1698067A (zh) * 2003-04-28 2005-11-16 索尼株式会社 图像识别设备、方法和机器人设备
US7869631B2 (en) * 2006-12-11 2011-01-11 Arcsoft, Inc. Automatic skin color model face detection and mean-shift face tracking
WO2010128511A1 (en) * 2009-05-06 2010-11-11 Superfish Ltd. Method for organizing a database of images and retrieving images from that database according to a query image

Also Published As

Publication number Publication date
BR112014016301B1 (pt) 2022-02-01
EP2801054A1 (en) 2014-11-12
WO2013102488A1 (en) 2013-07-11
KR20140109463A (ko) 2014-09-15
BR112014016301A2 (pt) 2017-06-13
BR112014016301A8 (pt) 2017-07-04
EP2801054B1 (en) 2017-06-28
JP5848833B2 (ja) 2016-01-27
KR101833953B1 (ko) 2018-03-02
JP2015504215A (ja) 2015-02-05
AR089532A1 (es) 2014-08-27
CN104115161A (zh) 2014-10-22
US20150016723A1 (en) 2015-01-15
US9245204B2 (en) 2016-01-26

Similar Documents

Publication Publication Date Title
CN104115161B (zh) 用于比较图像的方法和系统
Xie et al. Unseen object instance segmentation for robotic environments
CN103403739B (zh) 用于比较图像的方法和系统
JP2015504215A5 (zh)
US7539327B2 (en) System and process for bootstrap initialization of nonparametric color models
Tokuda et al. Computer generated images vs. digital photographs: A synergetic feature and classifier combination approach
CN105069424B (zh) 面部快速识别系统和方法
CN108229347A (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
JP2010238226A (ja) 物体を追跡するための方法及びシステム
Lepsøy et al. Statistical modelling of outliers for fast visual search
CN114169381A (zh) 图像标注方法、装置、终端设备及存储介质
CN113920382B (zh) 基于类一致性结构化学习的跨域图像分类方法和相关装置
Wang et al. SpecVAT: Enhanced visual cluster analysis
Chen et al. Face super resolution based on parent patch prior for VLQ scenarios
CN116630651A (zh) 一种显著性目标检测方法、系统、电子设备、存储介质
Hong et al. Spatial pattern discovering by learning the isomorphic subgraph from multiple attributed relational graphs
Fan et al. Fast example searching for input-adaptive data-driven dehazing with gaussian process regression
Pitchandi Wild Image Retrieval with HAAR Features and Hybrid DBSCAN Clustering for 3D Cultural Artefact Landmarks Reconstruction
Yang et al. Image copy–move forgery detection based on sped-up robust features descriptor and adaptive minimal–maximal suppression
Jenicka et al. Comparative study of texture models using supervised segmentation
Oerlemans et al. Interest points based on maximization of distinctiveness
Liu et al. Remote sensing image feature matching via graph classification with local motion consistency
Mohr et al. Efficient matching with invariant local descriptors
CN116363392A (zh) 目标检测方法、装置、电子设备和存储介质
CN116882478A (zh) 图像处理模型的训练方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant