CN103026368B

CN103026368B - 使用增量特征提取的对象辨识

Info

Publication number: CN103026368B
Application number: CN201180036810.7A
Authority: CN
Inventors: 帕温·库玛·拜哈提; 桑迪普·瓦达迪; 阿许温·史汪明纳桑; 尤里·列兹尼克; 奥努尔·C·哈姆西奇; 穆拉利·拉马斯瓦米·查里; 约翰·H·洪; 琼·厄克·李
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-07-30
Filing date: 2011-07-29
Publication date: 2015-12-16
Anticipated expiration: 2031-07-29
Also published as: JP2013534342A; EP2599034A2; WO2012016168A2; US8625902B2; KR101528081B1; EP2599034B1; KR20130057465A; JP5654127B2; CN103026368A; US20120027290A1; WO2012016168A3; IN2013CN00117A

Abstract

在一个实例中，一种设备包括处理器，所述处理器经配置以：从所接收的图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点；计算所述第一组关键点的第一组一个或一个以上描述符；接收用于通过用所述第一组描述符询问特征描述符数据库所产生的结果的置信度值，其中所述结果包含描述所述所接收的图像中的对象的身份的信息；以及当所述置信度值不超过置信度阈值时，从所述所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点。以此方式，所述处理器可执行增量特征描述符提取，其可改进数字图像中的对象辨识的计算效率。

Description

使用增量特征提取的对象辨识

技术领域

本发明涉及图像处理系统，且更明确地说，涉及图像中的对象辨识。

背景技术

在计算装置或计算机的上下文中的视觉搜索指代使得计算机或其它装置能够提供一个或一个以上图像中的对象的识别信息的技术。最近对视觉搜索的关注已经产生使得计算机能够在广泛多种变化的图像条件(包括图像尺度、噪声、照度和局部几何畸变的改变)中识别经部分遮蔽的对象和/或特征的算法。同时，已经出现包括相机的移动装置，但此类移动装置可能具有有限的用户接口来用于输入文本或以其它方式与移动装置介接。移动装置和移动装置应用程序的开发者已设法利用移动装置的相机来增强与移动装置的用户交互。

为了说明一种增强，移动装置的用户可使用移动装置的相机来当在商店购物时俘获任何给定产品的图像。移动装置可接着在用于各种图像的一组所存档的特征描述符内起始视觉搜索算法以基于匹配图像来识别所述产品。在识别所述产品之后，移动装置可接着起始基于因特网的搜索，且呈现含有关于所识别的产品的信息的网页，所述信息可包括(例如)可从附近商家和/或在线商家获得所述产品的最低成本。在另一实例中，对象辨识可用以产生补充信息，所述补充信息可重叠在移动装置的显示器中以实现所谓的增强现实。

发明内容

一般来说，本发明描述用于数字图像中的对象识别的技术。这些技术可减小在图像中识别对象的计算复杂性。并非从预定数目的倍频程提取特征描述符，本发明的技术提供增量特征描述符提取，其前进通过所述倍频程。此外，本发明提供用于选择起始倍频程的技术以及用于选择后续倍频程的技术，其中将从所述倍频程提取特征描述符。

在一个实例中，一种方法包括：从所接收的图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点；计算所述第一组关键点的第一组一个或一个以上描述符；接收用于通过用所述第一组描述符询问特征描述符数据库所产生的结果的置信度值，其中所述结果包含描述所述所接收的图像中的对象的身份的信息；以及当所述置信度值不超过置信度阈值时，从所述所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点。

在另一实例中，一种设备包括处理器，所述处理器经配置以：从所接收的图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点；计算所述第一组关键点的第一组一个或一个以上描述符；接收用于通过用所述第一组描述符询问特征描述符数据库所产生的结果的置信度值，其中所述结果包含描述所述所接收的图像中的对象的身份的信息；且当所述置信度值不超过置信度阈值时，从所述所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点。

在另一实例中，一种设备包括：用于从所接收的图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点的装置；用于计算第一组关键点的第一组一个或一个以上描述符的装置；用于接收用于通过用所述第一组描述符询问特征描述符数据库所产生的结果的置信度值的装置，其中所述结果包含描述所述所接收的图像中的对象的身份的信息；以及用于当所述置信度值不超过置信度阈值时从所述所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点的装置。

在另一实例中，一种计算机程序产品包括上面存储有指令的计算机可读媒体，所述指令在执行时致使处理器：从所接收的图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点；计算所述第一组关键点的第一组一个或一个以上描述符；接收用于通过用所述第一组描述符询问特征描述符数据库所产生的结果的置信度值，其中所述结果包含描述所述所接收的图像中的对象的身份的信息；以及当所述置信度值不超过置信度阈值时，从所述所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点。

附图说明

图1为说明其中可应用用于增量特征描述符提取的技术的实例系统的框图。

图2为说明已被确定以供用于关键点提取的高斯差(DoG)金字塔的概念图。

图3为较详细地说明关键点的检测的概念图。

图4为说明特征提取单元可借以获得梯度分布和定向直方图的实例技术的概念图。

图5为说明跨越各种高斯尺度空间的实例关键点分布的图表的绘线图。

图6为说明用于执行增量特征描述符提取的实例方法的流程图。

具体实施方式

一般来说，本发明描述用于数字图像中的对象识别的技术。这些技术可减小在图像中识别对象的计算复杂性。并非从预定数目的倍频程提取特征描述符，本发明的技术提供增量特征描述符提取，其前进通过所述倍频程。特征描述符可大体上从一个或一个以上倍频程提取，其中每一倍频程对应于所述图像的特定大小(例如，像素分辨率)。针对给定倍频程，可将输入图像按比例缩放到与分辨率相关联的大小。可接着形成多个越来越高斯模糊化的图像，其每一者具有与倍频程相关联的分辨率。可分析用于所述倍频程的这些越来越模糊化的图像以提取特征描述符。

并非提取用于预定数目的倍频程的特征描述符，本发明的技术针对于提取用于第一倍频程的特征描述符，接着试图基于这第一组特征描述符来在图像中检测对象。如果可使用这些特征描述符来检测到对象，那么不需要分析另外的倍频程。然而，如果无法从第一倍频程确定对象，那么可从后续倍频程提取特征描述符。

此外，本发明提供用于选择起始倍频程的技术以及用于选择后续倍频程的技术，其中将从所述倍频程提取特征描述符。各种因子可用以选择起始倍频程。举例来说，可首先基于(例如)图像是在室内还是室外俘获的和/或图像中的对象相对于用以俘获所述图像的相机的深度(也就是说，从相机到图像中的对象的距离)来估计用于图像的比例因子。

包括相机的装置(例如，例如智能电话等移动装置、平板计算装置、膝上型计算机或其它移动装置)还可包括传感器，所述传感器可用以估计当俘获图像时所述装置是在室内还是在室外。举例来说，全球定位系统(GPS)单元可提供指示当俘获图像时所述相机的位置的信息，所述信息可用以确定相机是在室内还是在室外。作为另一实例，如果所述装置包括在俘获图像时连接到无线接入点的无线网络接口，那么这可用作有利于估计当俘获图像时所述装置是在室内的因子。作为又一实例，可确定图像中的对象的深度信息，例如当所述装置具有立体相机布置时。

在一些实例中，所述装置可包括多个深度估计单元，其经配置以估计所述图像中的对象的深度，作为使用立体相机布置执行的深度估计的附加或替代方案。举例来说，所述装置可包括深度估计单元，其收集来自一个或一个以上红外传感器的测量数据以估计场景中的对象的相对深度。作为另一实例，所述装置可包括有源探测传感器，例如光检测与测距(LIDAR)单元，其用于估计图像中的对象的深度。LIDAR单元可使用紫外线、可见光或红外线来对对象进行成像且处理所返回的信号以估计对象的深度。这些深度估计单元可单独地或彼此以任何组合使用来估计图像中的对象的深度。深度估计单元可大致上与相机俘获图像同时地操作，使得所述单元可在实际上不处理来自相机的图像数据的情况下确定由相机俘获的图像中的对象的深度。

所述装置可包括使各种因子(例如，基于所述图像和所述装置的额外传感器)与所估计的对象尺度相关联的配置数据。举例来说，所述配置数据可将特定起始倍频程和尺度映射到所述对象的各种位置单元(或“loxel”)(即，所述对象可出现在其中的loxel)。作为实例，使用统计可在对象出现在给定loxel中时提供最有可能的尺度和/或倍频程的估计，以确定起始尺度和/或倍频程以及后续尺度和/或倍频程。换句话说，在一些实例中，本发明的技术可基于对象出现在其中的loxel来选择用于所述对象的起始倍频程和/或尺度(以及后续倍频程)。

在一些实例中，关键点分布可用以估计对象的尺度。关键点大体上为图像的可用以产生特征描述符的区域。一般来说，在相对较高尺度处检测到的关键点对应于对象的相对较大特征。同样，随着图像分辨率减小，较难以辨识较精细细节。因此，针对较小分辨率在较低尺度处通常检测针对较大分辨率在较高尺度处检测的细节(且因此变成较精细细节)。可收集指示跨越尺度空间的关键点分布的统计，其可用以估计图像的比例因子。使用针对先前倍频程提取的关键点，控制单元可估计用于询问图像的对象的尺度，且使用所估计的尺度来选择特征描述符数据库的最小倍频程来搜索。也就是说，控制单元可致使数据库仅询问在等于和大于但不小于最小倍频程的倍频程处的特征描述符。

在一些情况下，装置的相机可连续地俘获图像，且用于对象辨识的处理器或其它单元可试图检测所俘获图像的全部或子集中的对象。在一些情况下，处理器可得出较早图像中的一者中的对象尺度的近似。本发明的技术可使用先前针对先前图片所确定的对象尺度信息来初始化用于当前图像的对象尺度的估计，例如在用户移动且造成图像跟踪器失去先前所获取的目标之后。

一般来说，对于对象辨识，从训练图像导出特征描述符集合和其它区分信息的数据库。接着从目标图像提取特征描述符，且将其用以询问所述数据库，以便评估给定询问图像的内容。对于增强现实或视觉搜索应用，客户端(例如，蜂窝电话)俘获所关注的对象的图像且将其与图像、特征和元数据信息的数据库进行比较。此数据库可存储在网络上的服务器上，且可由客户端进行检索以用于本地处理，或替代地，可将询问发射到服务器以使用网络资源来处理。大体上相对于尺度不变特征变换(SIFT)算法来描述本发明的技术以执行关键点定位和特征描述符提取。每一SIFT特征可具有以下属性：2D(x，y)特征位置、检测所述特征所按的尺度、由特征邻域中的最强图像梯度的旋转定向给出的所述特征的旋转定向，以及以区分方式(基本上是局部图像梯度的直方图)描述局部像素变型的向量。

关键点识别和描述符提取可需要大量计算。举例来说，典型的半尺寸视频图形阵列(HVGA)图像可产生数千个SIFT特征。SIFT算法的实施方案(包括迭代匹配过程)可容易地超出一些移动平台上可用的计算资源。然而，在大多数实际情况下，导致与数据库中的那些特征描述符匹配的实际特征描述符的数目往往会比实际上所计算得的特征描述符的数目低得多。也就是说，对于所计算得的特征描述符的集合，小子集可产生对象识别结果。这可部分由询问图像中的影响特征描述符的不同成像条件(例如，照度、透视性等)造成，使得仅几个与数据库中的特征匹配。本发明的技术可采用尺度空间中的关键点之间的相互关系来帮助减小描述符提取和匹配过程所施加的计算负荷。而且，当辨识/跟踪给定场景内的多个对象时，错误肯定可造成问题，尤其是在一些对象为相似的情况下。在一些实例中，这些技术可包括场景的粗略的相对深度图的计算以约束匹配，以便减少错误肯定。

图1为说明其中可应用用于增量特征描述符提取的技术的实例系统2的框图。在此实例中，系统2包括客户端装置10和服务器装置50，其经由网络40通信。在此实例中，客户端装置10表示移动装置，例如膝上型计算机、所谓的上网本、平板计算机、个人数字助理(PDA)、蜂窝式或移动电话或手持机(包括所谓的“智能电话”)、全球定位系统(GPS)装置、数码相机、数字媒体播放器、游戏装置或能够与服务器装置50通信的任何其它移动装置。尽管在本发明中相对于移动客户端装置10来描述，但本发明中所描述的技术不应在这方面中限于移动客户端装置。而是，所述技术可由能够存储局部对象数据库和/或能够经由网络40或任何其它通信媒体与服务器装置50通信的任何装置实施。

服务器装置50表示接受连接(例如，传输控制协议(TCP)连接)且用其自身的TCP连接做出响应以形成借以接收询问数据和提供识别数据的TCP会话的服务器装置。服务器装置50可表示视觉搜索服务器装置，因为服务器装置50执行或以其它方式实施视觉搜索算法以识别图像内的一个或一个以上特征或对象。

网络40表示公用网络(例如因特网)，其互连客户端装置10与服务器装置50。通常，网络40实施开放式系统互连(OSI)模型的各种层以促进在客户端装置10与服务器装置50之间传送通信或数据。网络40通常包括任何数目的网络装置，例如交换器、集线器、路由器、服务器，以使得能够在客户端装置10与服务器装置50之间传送数据。尽管展示为单个网络，但网络40可包含一个或一个以上子网络，其经互连以形成网络40。这些子网络可包含服务提供商网络、接入网络、后端网络或公用网络中通常采用的任何其它类型的网络以提供在整个网络40中传送数据。尽管在此实例中描述为公用网络，但网络40可包含大体上不可由公众接入的专用网络。

如图1的实例中展示，客户端装置10包括相机12、传感器14、控制单元20、本地对象数据库30和网络接口32。在此实例中，控制单元20包括特征提取单元22、尺度估计单元24和深度信息单元26。在一些实例中，控制单元20还可包括类似于服务器装置50的特征匹配单元62和置信度估值单元64的单元。出于实例的目的，将相对于服务器装置50来论述这些单元，但应理解，可在客户端装置10的控制单元20内包括类似单元。

归于控制单元20和控制单元60及其子单元的功能性可通过硬件、软件和/或固件的任何组合来实施。当归于控制单元20的一个或一个以上功能以软件或固件来实施时，控制单元20可包括一个或一个以上计算机可读存储媒体以用于存储用于软件的指令，以及一个或一个以上基于硬件的处理单元以用于执行软件。此些处理单元可包含一个或一个以上通用处理器。控制单元20和控制单元60可额外地或替代地包括一个或一个以上硬件单元，例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。归于控制单元20和控制单元60的任何或所有功能性可通过其任何相应硬件、软件或固件来执行。因此，虽然在图1的实例中在控制单元20和60内说明单独单元，但应理解，实际上，此些单独单元可以任何合理的型式来组合。

相机12可包括个别图像传感器元件的二维阵列，例如，布置成行和列。举例来说，相机12可包含固态传感器元件(例如互补金属氧化物半导体(CMOS)传感器)或其它传感器元件的阵列。相机12内的图像传感器元件被暴露到场景以从所述场景获得光信息且俘获所述场景的数字图像。数字图像可包括像素值的二维矩阵，其可在特定颜色空间中界定，例如具有红-绿-蓝值，或像素亮度(强度或明度)值和像素色度(色彩)值。

传感器14包括一个或一个以上环境传感器，其向控制单元20提供信息。控制单元20可使用此信息来近似用于由相机12俘获的图像中的对象的尺度。在一些实例中，传感器14可包括全球定位系统(GPS)单元，其与GPS卫星交互以确定客户端装置10的地理位置。GPS单元还可提供当俘获图像时相机12所指向的方向的指示。控制单元20可使用此位置和方向信息来将搜索限于可在相机12的视线中的潜在对象。

举例来说，远程对象数据库52可存储远程对象数据库52的对象的地理位置。当传感器14的GPS单元确定相机12的地理位置和方向时，控制单元20可从远程对象数据库52检索具有相机12的视线中的地理位置的数据子集，且将所检索的数据存储为本地对象数据库30。特征提取单元22可接着从所述图像提取特征描述符，且用这些所提取的特征描述符询问本地对象数据库30。

作为另一实例，特征提取单元22可使用地理位置方向来近似相机12的视线中的对象的初始尺度。举例来说，远程对象数据库52可基于由传感器14的GPS单元确定的客户端装置10的位置来存储用于在客户端装置10附近的地理位置中且在相机12的视线中的对象的最可能尺度。特征提取单元22可接着最初使用此初始尺度来提取特征描述符且经由网络40向服务器装置50发送询问，以询问远程对象数据库52。在一些实例中，除特征描述符之外，所述询问还可包括位置信息。

举例来说，传感器的其它实例可包括温度传感器、压力传感器(例如，气压传感器)、光传感器、红外传感器、紫外传感器、湿度传感器、二氧化碳(CO₂)传感器或其它此类环境传感器，其任一者或全部可提供用于相应所感测值的值。控制单元20可包括用于这些传感器中的任一者或全部的数据范围，其指示室内和室外环境。控制单元20可将所述传感器中的任一者或全部的当前值与对应数据范围进行比较以确定当相机12俘获询问图像时客户端装置10是在室内还是在室外。

特征提取单元22表示根据特征提取算法(例如尺度不变特征变换(SIFT)算法、压缩梯度直方图(CHoG)算法或其它关键点或特征描述提取算法)执行特征提取的单元。一般来说，特征提取单元22对图像数据进行操作，所述图像数据可在本地使用相机12或客户端装置10内所包括的其它图像俘获装置来俘获。或者，客户端装置10可存储图像数据而自身不俘获此图像数据，例如通过经由网络40、在本地经由与另一计算装置的有线连接或经由任何其它有线或无线形式的通信下载图像数据。

尺度估计单元24表示估计用于由(例如)相机12俘获的询问图像中的对象的尺度的单元。举例来说，尺度估计单元24可基于图像的来自各种尺度的预期关键点分布(例如，从一组训练图像导出)与图像的来自所述各种尺度的实际关键点分布相比来估计用于询问图像中的对象的尺度。特征提取单元22可提取用于所述图像的先前倍频程的关键点，且将这些关键点提供到尺度估计单元24，且尺度估计单元24可使用这些关键点来使用所述配置数据近似所述询问图像中的对象的尺度。使用所估计的尺度，尺度估计单元24可计算数据库(例如，本地对象数据库30和/或远程对象数据库52中的任一者或两者)的最小倍频程来搜索。

尺度估计单元24可存储描述用于各种尺度的关键点分布的配置数据。尺度估计单元24可接着将询问图像的关键点分布与配置数据的分布进行比较。尺度估计单元24可接着将询问图像中的对象的近似尺度确定为具有最佳匹配关键点分布的尺度。也就是说，尺度估计单元24可确定表示询问图像的在各种尺度处的关键点分布的值，且将这些值与配置数据的各种尺度的关键点分布的预期值进行比较。尺度估计单元24可将对象的尺度近似为其中来自询问图像的关键点分布值最紧密匹配来自用于对应尺度的配置数据的所估计的关键点分布值的尺度。

根据本发明的技术，特征提取单元22可在对应于用于询问图像的所估计尺度的倍频程处开始。也就是说，特征提取单元22可使用从对应于所估计尺度的倍频程提取的关键点提取用于那个倍频程的特征描述符。接着，控制单元20可确定是否可仅使用这些特征描述符确定询问图像中的对象的身份，且如果不能，那么前进到提取用于后续倍频程的特征描述符。

深度估计单元26大体上经配置以估计由相机12俘获的图像中的一个或一个以上对象的深度。深度估计单元26可包含深度传感器，例如飞行时间传感器、结构化光传感器或Kinects传感器。在一些实例中，客户端装置10可包括具有两个或两个以上相机的相机阵列，例如用于俘获三维图像和/或视频数据。在此些实例中，深度估计单元26可经配置以计算由相机阵列俘获的图像中的对象的深度信息。举例来说，深度估计单元26可接收由相机阵列俘获的场景的两个或两个以上图像。通过比较图像的类似像素的水平位置，深度估计单元26可计算所述图像之间的类似像素的水平不等性(或视差)，且基于此不等性，确定对应于所述像素的对象的深度。深度估计单元26可将一个或一个以上深度值(例如，深度图)发送到特征提取单元22，所述特征提取单元22可在确定待从中提取特征描述符的起始倍频程时使用所述深度值。

在一些实例中，装置不需要包括深度估计单元，且本发明的某些技术仍可为可操作的。然而，当装置包括深度估计单元(例如深度估计单元26)时，所述装置可经配置以使用深度信息来选择其中计算特征的倍频程和处理倍频程的次序。举例来说，如果相机12直接(即，迎面地)面向相对较大的对象，那么对应于所述对象的像素可大体上出现在距客户端装置10的相同距离处。在一些实例中，此信息可用以确定将找到最有价值关键点所在的尺度。另外或在替代方案中，可使用深度信息连同置信度值来确定找到最有价值关键点所在的尺度。类似地，在一些实例中，如果对象被放置为相对于相机成某一角度，那么所述对象中的最近点到最远点之间的深度差可用以识别找到最有价值关键点所在的尺度范围。以此方式，深度信息可至少部分用以估计图像中的对象的尺度值。

如下文解释，网络接口32可包含无线网络接口。当网络接口32包括无线网络接口时，无线网络接口可实施一个或一个以上无线网络协议，例如IEEE802.11标准(例如，802.11a/b/g/n)、第三代移动电信(3G)标准、第四代电信标准(其可包括移动全球微波接入互操作性(移动WiMAX)、3G长期演进(LTE)、LTE高级和WirelessMAN高级(IEEE802.16))或其它无线网络协议中的一者或一者以上。一般来说，如果无线网络为可用的，那么控制单元20可确定客户端装置10非常有可能在室内。当客户端装置10在室内时，控制单元20可确定由相机12俘获的图像中的对象的大小有可能相对较小。因此，特征提取单元22可经配置以将无线网络是否可用视为确定待从中提取询问图像的特征描述符的起始倍频程的因子。

在图1的实例中，服务器装置50存储远程对象数据库52，而客户端装置10存储本地对象数据库30。客户端装置10可经由网络40从服务器装置50检索用于本地对象数据库30的数据。因此，本地对象数据库30可表示远程对象数据库52的全部或一部分。在一些实例中，本地对象数据库30可包括来自远程对象数据库52的数据以及来自其它服务器装置(图1中未展示)的其它远程对象数据库的数据。一般来说，本发明的技术可询问本地对象数据库30和/或远程对象数据库52中的任一者或两者以确定图像中的对象的身份。

如下文较详细描述，特征提取单元22可大体上基于原始图像从各组经滤波图像提取关键点。在一些实例中，原始图像可使用高斯滤波器来滤波以产生一组高斯模糊化图像。尽管应理解可应用各种滤波技术，但本发明将主要地集中于高斯滤波器作为实例。然而，还可在不脱离本发明的技术的情况下应用其它类似滤波技术。一般来说，一组中的经滤波图像中的每一者可具有类似大小(例如，在像素分辨率方面)，其中所述组中的每一图像可越来越多地经滤波。所述组中的每一者可被称为“倍频程”。高斯模糊大体上涉及在所界定尺度处用高斯模糊函数卷积用于特定倍频程的图像数据。特征提取单元22可递增地卷积图像数据，其中固定的乘法因子(由变量西格马(σ)提及)使所得高斯滤波器在倍频程内递增。特征提取单元22可形成可被称为“高斯金字塔”的内容，其具有用于特定倍频程的高斯模糊化图像中的每一者。特征提取单元22可接着将金字塔中的两个接连堆叠的高斯模糊化图像进行比较以产生高斯差(DoG)图像。DoG图像可形成称为“DoG空间”的内容。

基于此DoG空间，特征提取单元22可检测关键点，其中关键点指代围绕图像数据中的从几何观点潜在地引起关注的特定样本点或像素的像素区或片。一般来说，特征提取单元22将关键点识别为所构造DoG空间中的局部最大值和/或局部最小值。特征提取单元22可接着针对其中检测到所述关键点的片基于局部图像梯度的方向来向这些关键点指派一个或一个以上定向或方向。为了表征这些定向，特征提取单元22可依据梯度定向直方图来定义定向。特征提取单元22可接着将特征描述符定义为位置和定向(例如，借助于梯度定向直方图)。在定义特征描述符之后，特征提取单元22可输出特征描述符，例如通过用特征描述符询问本地对象数据库30或远程对象数据库52。特征提取单元22可使用此过程来输出一组特征描述符。

网络接口32表示能够经由网络40与服务器装置50通信的任何类型的接口，包括无线接口和有线接口。网络接口32可表示无线蜂窝式接口且包括必要的硬件或其它组件，例如天线、调制器等，以经由无线蜂窝式网络与网络40通信以及经由网络40与服务器装置50通信。在此实例中，虽然图1的实例中未展示，但网络40包括无线蜂窝式网络接口32借以与网络40通信的无线蜂窝式接入网络。虽然图1中未说明，但客户端装置10可进一步包括显示器，例如能够显示图像(例如其中确定对象身份的图像数据)或任何其它类型的数据的任何类型的显示单元。举例来说，显示器可包含发光二极管(LED)显示装置、有机LED(OLED)显示装置、液晶显示器(LCD)装置、等离子显示装置或任何其它类型的显示装置。

服务器装置50包括网络接口54、远程对象数据库52和控制单元60。在此实例中，控制单元60包括特征匹配单元62和置信度估值单元64。网络接口54可类似于客户端装置10的网络接口32，因为网络接口54可表示能够与网络(例如网络40)通信的任何类型的接口。特征匹配单元62表示执行特征匹配以基于从客户端装置10接收的特征描述符来识别图像数据中的一个或一个以上特征或对象的单元。

特征匹配单元62可存取远程对象数据库52以执行此特征识别，其中远程对象数据库52存储定义特征描述符的数据且使所接收的特征描述符中的至少一些与识别从图像数据提取的对应特征或对象的识别数据相关联。置信度估值单元64确定置信度值，所述置信度值表示经识别为对应于所接收的特征识别符的对象为图像数据中的对象的实际身份的置信度。

存储在远程对象数据库52中的对象可包括多个特征描述符，且从客户端装置10接收的特征描述符可仅匹配远程对象数据库52中的对象的特征描述符的子集。一般来说，置信度值表示所接收的特征描述符与同对应对象相关联的特征描述符之间的匹配之间的对应。因此，较高置信度值可反映所接收的特征描述符匹配由远程对象数据库52存储的对象的相对大量特征描述符，而较低置信度值可反映所接收的特征描述符匹配由远程对象数据库52存储的对象的相对少量特征描述符。

在针对从客户端装置10接收的特征描述符确定对象的身份之后，特征匹配单元62提供表示所确定的身份的识别数据。同样，置信度估值单元64评估所确定的身份恰当地匹配所接收的特征描述符的置信度，产生对应置信度值，且将所述置信度值提供到客户端装置10。客户端装置10可确定置信度值是否超过阈值，且如果不超过，那么从用于所述图像数据的另外倍频程提取额外特征描述符且将这些额外特征描述符发送到服务器装置50以供进一步分析。

最初，客户端装置10的用户可与客户端装置10介接以起始视觉搜索。用户可与用户接口或由客户端装置10的显示器呈现的其它类型的接口介接以选择图像数据，且接着起始视觉搜索以识别作为经存储为图像数据的图像的焦点的一个或一个以上特征或对象。举例来说，图像数据可对应于一件著名艺术品的图像。用户可已经使用客户端装置10的相机12来俘获此图像，从网络40下载此图像，或在本地经由与另一计算装置的有线或无线连接检索所述图像。在任何情况下，在选择图像数据之后，用户可起始视觉搜索，在此实例中，以通过(例如)名称、艺术家和完成日期识别这件著名艺术品。

响应于起始视觉搜索，客户端装置10调用特征提取单元22以提取至少一个所述特征描述符，所述特征描述符描述通过分析图像数据来找到的所谓的“关键点”中的一者。控制单元20可使用特征描述符来询问本地对象数据库30且/或经由网络40将特征描述符发送到服务器装置50以使用所述特征描述符询问远程对象数据库52。在一些实例中，特征提取单元22将所述特征描述符转发到特征压缩单元(在此实例中未展示)，所述特征压缩单元可在经由网络40发射特征描述符之前压缩所述特征描述符。当发送到服务器装置50时，控制单元20可将特征描述符(其可在包封之前进行压缩)包封为网络包，例如TCP/IP包。

尽管在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面，但这些单元未必需要通过不同硬件单元来实现。而是，各种单元可组合于硬件单元中或由相互操作的硬件单元的集合(包括如上文所描述的一个或一个以上处理器)结合存储到计算机可读媒体的适合软件和/或固件来提供。在这方面，在本发明中参考单元既定暗示可经实施为或可不经实施为单独硬件单元和/或硬件与软件单元的不同功能单元。

如上文所论述，根据本发明的技术，特征提取单元22可经配置以依序从由相机12俘获的图像提取特征描述符。也就是说，特征提取单元22可从第一倍频程提取特征描述符，确定那些特征描述符是否可用以准确地确定图像中的对象的身份，且如果不能，那么从一个或一个以上后续倍频程提取特征描述符。此外，客户端装置10的元件(例如传感器14、网络接口32、存储于本地对象数据库30中的数据、尺度估计单元24和/或深度估计单元26)可将数据提供到特征提取单元22，所述特征提取单元22可使用所述数据来选择第一和/或后续倍频程。一般来说，与下部倍频程相比，上部倍频程可相对较平滑且相对较稳定。因此，在一些实例中，特征提取单元22可在第一倍频程未产生结果的情况下试用最后倍频程，在最后倍频程不产生结果的情况下接着试用较高倍频程。在一些实例中，如果当试用倍频程零(0)时不存在匹配，那么数据库中的参考图像可存在于较高尺度处，且因此，特征提取单元22可移动到较高倍频程以进行特征提取。

来自训练图像或测试图像的特征属性可用以减小特征产生和匹配的复杂性。这些统计可用以初始化特征提取过程中所涉及的参数。一旦经初始化，特征提取单元22便可递增地提取特征，执行辨识和/或推断，且如果所述辨识不足以做出关于图像中的对象的身份的可靠决策，那么更新用于下一组特征提取的特征提取参数。使用训练数据(其可存储在本地对象数据库30中和/或从远程对象数据库52检索(和过去的询问统计，可用较少步骤实现询问图像中的对象的辨识，这可导致计算节省。

尺度估计单元24可试图基于特征属性来识别对象的尺度。对象的尺度可用以选择数据库的最小倍频程来询问。也就是说，当将特征描述符提交到数据库时，在最小倍频程被指定时，数据库可搜索等于或大于但不小于最小倍频程的倍频程。因此，在提取每一组关键点之后，尺度估计单元24可使用所述关键点的分布来近似图像中的对象的尺度，且使用所述尺度来估计最小倍频程。以下图5说明关键点分布与对应最小倍频程之间的实例关系。下文中关于图5论述关于使用关键点分布来估计数据库的最小倍频程的较多细节。在任何情况下，使用特征描述符的增量提取以及最小倍频程可通过最初提取较少特征描述符以及减少实际上搜索的数据库的量来提供相对较快的搜索。

深度估计单元26可确定询问图像的深度值。举例来说，深度估计单元26可产生询问图像的深度图，其中深度图包括询问图像中的像素或对象的深度值。使用所述深度图，特征提取单元22可约束匹配或跟踪，这可导致较少错误肯定。此外，特征提取单元22可将匹配或跟踪限于特定深度等级，这可导致较低复杂性。

以此方式，本发明的技术可利用对特征描述符提取的某些观测。首先，这些观测包括询问图像中的对象的尺度可大体上确定其关键点在尺度空间中如何分布。较小对象往往会具有朝向尺度空间中的较低尺度挤压的分布。而且，如果图像中的某些区比其它区更具纹理，那么所得关键点往往会在其稳定性方面变化。同样，锚定在关键点处的特征描述符的质量也在其稳定性方面变化。此外，图像质量大体上随较好成像条件(例如，良好照度)而改进，这可导致来自所述图像的较多关键点。然而，当分辨率相对较高时，实际特征描述符的数目往往会较低，这归因于相对于在(例如)本地对象数据库30和/或远程对象数据库52中存储数据所针对的训练图像的较大变型(即，较大细节)。这些差异可由不同照度、透视度或其它摄影参数引起。

如上文所论述，本地对象数据库30和/或远程对象数据库52大体上存储用于一组训练图像的各种数据。此数据可包括用于各种对象的特征描述符以及辅助尺度估计、深度映射和/或其它用于减少图像中的对象识别的复杂性的技术的数据。举例来说，数据库可存储指示待从中提取图像的给定位置单元(或“loxel”)中的特征描述符的倍频程和尺度的数据。可将图像划分成区(称为loxel)的二维矩阵。数据库数据可包括关于倍频程和尺度的排序和/或匹配特征通常所属的倍频程和尺度的辅助信息。数据库还可存储描述在给定loxel内很好匹配的最可能尺度或倍频程的使用统计。

在一些实例中，数据库可存储基于关键点分布的图像尺度估计。在一些实例中，数据库还可存储对应于基于传感器的位置信息的数据，所述数据可用以初始化尺度和倍频程参数以馈入特征提取。举例来说，控制单元20可使用来自传感器14的GPS信息来确定询问图像具有室外环境，且数据库可存储关于当俘获所述询问图像时对象相对于客户端装置10的地理位置的位置的信息。控制单元20可基于室内定位技术(例如确定无线网络是否可用)来确定询问图像具有室内环境。立体相机可用以估计询问图像中的对象的深度，其可帮助初始化倍频程选择。相机内在参数(例如，焦距、主点、图像格式)可用以估计对象的深度。在一些情况下，不需要针对稀疏深度图先验地配置内在参数。在一些实例中，控制单元20可从特征对应来计算内在和外在参数，例如使用八点算法。一般来说，八点算法包括使用立体图像对中的八个对应点来计算所述立体图像对的本质矩阵或基本矩阵。

在一些实例中，控制单元20可经配置以使用历史数据来确定其中待执行特征提取的初始尺度或倍频程。举例来说，由控制单元20执行的跟踪器(未图示)可确定由相机12俘获的图像中的对象的深度或尺度。如果跟踪器失去目标，那么控制单元20可在确定较新近图像中的对象的尺度时使用关于所跟踪目标的尺度的最新近“良好”信息。

使用上文所描述的数据中的任一者或全部，控制单元20可经配置以确定询问图像中的对象的身份。举例来说，特征提取单元22可最初选择优选的倍频程和尺度组且提取用于所述优选的倍频程和尺度组的特征描述符。特征提取单元22可在需要时逐渐地在尺度空间中添加接下来的倍频程，这可允许较早终止对象辨识过程而没有过早地终止所述过程的风险。对于倍频程和尺度组的偏好可从本地对象数据库30和/或远程对象数据库52的数据和/或来自跟踪器的询问统计导出。尺度估计单元24可在关键点提取的每一迭代之后使用累积阈值统计估计对象的尺度，其还可使用数据库的数据来精细化。此外，所估计的尺度可基于额外输入(例如来自传感器14的数据、由深度估计单元26确定的深度信息或其它数据)来精细化。

本发明的技术可提供一个或一个以上优点。举例来说，这些技术可提供比SIFT原本将会实现的提取快的局部特征描述符提取(例如，对于SIFT)。这些技术可允许估计尺度空间等级(例如，倍频程等级)的最相关子集以用于处理，这可改进对象辨识的速度和复杂性。这些技术可进一步允许在客户端装置10(例如，移动电话)的本地对象数据库30中进行较快搜索。也就是说，这些技术允许首先从上部等级进行特征描述符提取且当达到充足准确性时停止所述算法。以此方式，可在分布式视觉搜索系统(例如图1的系统2)中存在相对较短响应。可逐渐地经由网络40将特征描述符发射到服务器装置50，其中首先以上部等级开始，且服务器装置50可对所接收的数据执行若干搜索迭代并且一旦找到充足准确性匹配，便发送回结果或终止信号。客户端装置10可在接收到搜索的结果或终止信号之后停止向服务器装置50发送特征描述符。

本发明的技术还可减小复杂性且改进跟踪速度。一旦图像中的对象被辨识，其相对尺度也可变为已知。如果跟踪器失去所述对象，那么可使用先前在跟踪的对象的尺度简化下一搜索操作。这些技术可进一步使用所估计的尺度初始化用于集群关键点的核心大小，且接着基于相对深度图估计来执行分段。

以此方式，客户端装置10表示包括处理器的装置的实例，所述处理器经配置以从所接收图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点，计算所述第一组关键点的第一组一个或一个以上描述符，接收用于通过用第一组描述符询问特征描述符数据库所产生的结果的置信度值，其中所述结果包含描述所接收的图像中的对象的身份的信息，并且当置信度值不超过置信度阈值时，从所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点。

图2为说明已被确定以供用于关键点提取的高斯差(DoG)金字塔104的概念图。图2的实例说明高斯金字塔102和对应DoG金字塔104中的一组100图像(其中组100对应于第一选定倍频程)，以及高斯金字塔122和对应DoG金字塔124中的第二组120图像(其中组120对应于第二倍频程)。根据本发明的技术，控制单元20可经配置以当使用用于组100的数据识别的对象产生低于阈值的置信度值时产生用于组120的数据。

图1的特征提取单元22可通过计算高斯金字塔102中的任何两个连续高斯模糊化图像的差来构造DoG金字塔104。输入图像I(x，y)(在图1的实例中，其可由特征提取单元22从相机12接收)逐步地经高斯模糊以构造高斯金字塔102。高斯模糊大体上涉及在尺度c处用高斯模糊函数G(x，y，c)卷积原始图像I(x，y)以使得高斯模糊化函数L(x，y，c)被定义为L(x，y，c)＝G(x，y，c)*I(x，y)的过程。此处，G为高斯核心，c指示用于模糊图像I(x，y)的高斯函数的标准偏差。随着c变化(c₀＜c₁＜c₂＜c₃＜c₄)，标准偏差c变化且获得逐步模糊。σ为基础尺度变量(本质上，高斯核心的宽度)。当初始图像I(x，y)递增地用高斯G卷积以产生模糊化图像L时，模糊化图像L在尺度空间中通过常数因子c分开。在SIFT的实例中，高斯核心可用以产生尺度空间。在一些实例中，替代的低通核心可用以产生尺度空间，例如逻辑框函数、三角形函数或其它此类函数。

在DoG空间或金字塔104中，D(x，y，a)＝L(x，y，c_n)-L(x，y，c_n-1)。DoG图像D(x，y，)为在尺度c_n和c_n-1处的两个邻近高斯模糊化图像L之间的差。D(x，y，)的尺度位于c_n与c_n-1之间的某处。随着高斯模糊化图像L的数目增加且针对高斯金字塔102提供的近似接近连续空间，所述两个尺度也接近到一个尺度中。经卷积图像L可通过倍频程来分组，其中倍频程对应于标准偏差的值的加倍。此外，乘数k的值(例如，c₀＜c₁＜c₂＜c₃＜c₄)经选择以使得每个倍频程获得固定数目的经卷积图像L。接着，可从每个倍频程的邻近高斯模糊化图像L获得DoG图像D。

根据本发明的技术，在针对给定倍频程获得图像D之后，特征提取单元22可提取用于所述倍频程的关键点且确定用于这些所提取的关键点的特征描述符。用于当前倍频程(如任何先前倍频程)的特征描述符可用以试图确定图像中的对象的身份。在确定对象的身份之后，控制单元20可获得用于所述所确定的身份的置信度值。如果置信度值小于阈值，那么特征提取单元22可前进到后续倍频程，从而确定用于所述后续倍频程的额外特征描述符且再次试图确定图像中的对象的身份。另一方面，当置信度值超过阈值时，特征提取单元22不需要前进到后续倍频程。如下文较详细描述，控制单元20可基于各种因子(例如，用于图像中的对象的近似尺度、指示询问图像是在室内环境还是室外环境中俘获的传感器数据和/或指示询问图像中的对象的深度值的用于询问图像的深度图)来选择第一倍频程和后续倍频程。

特征提取单元22可接着使用DoG金字塔104来识别用于图像I(x，y)的关键点。在执行关键点提取时，特征提取单元22确定图像中的围绕特定样本点或像素的局部区或片是否为潜在地引起关注的片(从几何角度来看)。一般来说，特征提取单元22识别DoG空间104中的局部最大值和/或局部最小值且使用这些最大值和最小值的位置作为DoG空间104中的关键点位置。在图2中说明的实例中，特征提取单元22识别片106内的关键点108。可通过将DoG空间104中的每一像素(例如，用于关键点108的像素)与其在相同尺度处的八个相邻像素和在两侧上的每一相邻尺度中的九个相邻像素(在邻近片110和112)(总共26个像素(9x2+8＝26))进行比较来实现找到局部最大值和最小值(还被称为局部极值检测)。如果用于关键点106的像素值为所述片106、110和108中的所有26个所比较的像素当中的最大值或最小值，那么特征提取单元22选择此作为关键点。特征提取单元22可进一步处理所述关键点，使得较准确地识别其位置。在一些情况下，特征提取单元22可丢弃一些关键点，例如低反差关键点和边缘关键点。

图3为较详细说明关键点的检测的概念图。在图3的实例中，片106、110和112中的每一者包括3x3像素区。特征提取单元22首先将所关注的像素(例如，关键点108)与其在相同尺度(例如，片106)处的八个相邻像素132以及在关键点108的两侧上的每一相邻尺度中的邻近片110和112中的九个相邻像素134和136进行比较。

特征提取单元22可基于局部图像梯度的方向来向每一关键点指派一个或一个以上定向或方向。通过基于局部图像性质来向每一关键点指派一致定向，特征提取单元22可表示相对于此定向的关键点描述符且因此实现图像旋转不变性。特征提取单元22接着计算在高斯模糊化图像L中的围绕关键点108的相邻区中和/或在关键点尺度处的每个像素的量值和方向。位于(x，y)处的关键点108的梯度的量值可表示为m(x，y)，且在(x，y)处的关键点的梯度的定向或方向可表示为Г(x，y)。

特征提取单元22接着使用关键点的尺度来选择尺度最靠近关键点108的尺度的高斯平滑化图像L，使得以尺度不变方式执行所有计算。对于在此尺度处的每一图像样本L(x，y)，特征提取单元22使用像素差来计算梯度量值m(x，y)和定向Г(x，y)。举例来说，可根据以下等式(1)来计算量值m(x，y)：

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}} . - - - (1)

特征提取单元22可根据以下等式(2)计算方向或定向Г(x，y)：

Γ (x, y) = \arctan [\frac{L (x, y + 1) - L (x, y - 1)}{L (x + 1, y) - L (x - 1, y)}] - - - (2)

在等式(2)中，L(x，y)表示在还作为关键点的尺度的尺度处的高斯模糊化图像L(x，y，)的样本。

特征提取单元22可一致地计算高斯金字塔中的位于DoG空间中的关键点的平面上方(在较高尺度处)的平面或在高斯金字塔的位于所述关键点下方(在较低尺度处)的平面中的关键点的梯度。以任何方式，针对每一关键点，特征提取单元22计算围绕关键点的矩形区域(例如，片)中的在相同尺度处的梯度。此外，图像信号的频率在高斯模糊化图像的尺度中反映。但是，SIFT和其它算法(例如压缩梯度直方图(CHoG)算法)简单地使用在所述片(例如，矩形区域)中的所有像素处的梯度值。围绕关键点界定片；在块内界定子块；在子块内界定样本，且此结构对于所有关键点保持相同，即使关键点的尺度不同，也是如此。因此，尽管图像信号的频率随着在同一倍频程中接连应用高斯平滑滤波器而改变，但在不同尺度处识别的关键点可用相同样本数目来取样，而不管图像信号的频率的改变，其由尺度来表示。

为了表征关键点定向，特征提取单元22可通过使用(例如)压缩梯度直方图(CHoG)来产生梯度定向直方图(见图4)。每一相邻像素的贡献可通过梯度量值和高斯窗来加权。直方图中的峰值对应于主要定向。特征提取单元22可测量关键点的相对于关键点定向的所有性质，且这可提供旋转不变性。

在一个实例中，特征提取单元22计算每一块的经高斯加权梯度的分布，其中每一块为2个子块乘2个子块，总共4个子块。为了计算经高斯加权梯度的分布，特征提取单元22形成具有若干频段的定向直方图，其中每一频段覆盖围绕关键点的区域的一部分。举例来说，定向直方图可具有36个频段，每一频段覆盖360度定向范围的10度。或者，直方图可具有8个频段，每一频段覆盖360度范围的45度。应清楚，本文中所描述的直方图译码技术可适用于任何数目的频段的直方图。

图4为说明特征提取单元22可借以获得梯度分布和定向直方图的实例技术的概念图。此处，二维梯度分布(dx，dy)(例如，块156)被转换为一维分布(例如，直方图164)。关键点108位于围绕关键点108的片156(也称为单元或区)的中心处。针对金字塔的每一等级预先计算的梯度在每一样本位置158处展示为小箭头。如图所示，样本158的4x4群组形成子块160，且2x2子块群组形成块156。块156还可称为描述符窗。

高斯加权函数用圆152来展示，且可用以向样本点158中的每一者的量值指派权数。圆形窗152中的权数平滑地下降。高斯窗152的目的是避免随着所述窗的小位置改变而发生描述符的突然改变且给予远离描述符的中心的梯度较少重要性。从2x2子块获得定向直方图的2x2＝4阵列162，其中所述直方图的每一频段中的8个定向产生(2x2)x8＝32维特征描述符向量。举例来说，定向直方图163和165可对应于用于子块160的梯度分布。然而，使用直方图的4x4阵列可产生较好结果，其中每一直方图(8频段直方图)中具有8个定向，从而针对每一关键点产生(4x4)x8＝128维特征描述符向量。应注意，其它类型的量化频段群集(例如，具有不同沃罗诺伊(Voronoi)单元结构)也可用以获得梯度分布。

如本文所使用，直方图为计数落入各种不相交类别(称为频段)中的观测、样本或出现(例如，梯度)的数目的映射k_i。直方图的图表仅为用以表示直方图的一种方式。因此，如果k为观测、样本或出现的总数目且m为频段的总数目，那么直方图中的频率k_i满足以下条件：

n = Σ_{i = 1}^{m} k_{i}, - - - (3)

其中∑为求和运算符。

添加到直方图162的每一样本可由具有为关键点的尺度的1.5倍的标准偏差的经高斯加权圆形窗152内的其梯度量值来加权。所得定向直方图164中的峰值对应于局部梯度的主要方向。检测直方图中的最高峰值，且接着使用最高峰值的某一百分比(例如80％)内的任何其它局部峰值来还创建具有那个定向的关键点。因此，对于具有多个具有类似量值的峰值的位置，可具有在相同位置和尺度但不同定向处创建的多个关键点。

来自子块的直方图可经级联以获得用于关键点的特征描述符向量。如果使用来自16个子块的8频段直方图中的梯度，那么可产生128维特征描述符向量。

以此方式，可针对每一关键点获得描述符，其中此描述符可由经高斯加权梯度的分布的位置(x，y)、定向和描述符来表征。应注意，图像可由一个或一个以上关键点描述符(还称为图像描述符)来表征。

在一些示范性应用中，可由移动装置获得和/或俘获图像，且可对所俘获图像或所俘获图像的一部分执行对象辨识。根据第一选项，所俘获的图像可由移动装置发送到服务器，在服务器处可处理所述所俘获的图像(例如，以获得一个或一个以上描述符)且/或将其与多个图像(例如，用于所述多个图像的一个或一个以上描述符)进行比较以获得匹配(例如，所俘获的图像或其中的对象的识别)。然而，在此选项中，发送整个所俘获的图像，这可能由于其大小而为不合需要的。在第二选项中，移动装置处理所述图像(例如，对图像执行特征提取)以获得一个或一个以上图像描述符且将描述符发送到服务器以用于图像和/或对象识别。因为发送用于图像的关键点描述符而非图像，所以这可采取较少发射时间，只要用于图像的关键点描述符小于图像自身。因此，压缩关键点描述符的大小可为高度合乎需要的。

为了最小化关键点描述符的大小，压缩梯度分布的描述符可为有益的。由于梯度分布的描述符由直方图来表示，所以本文中描述用于直方图的有效译码技术。

为了有效地表示和/或压缩特征描述符，可较有效地表示分布(例如，定向直方图)的描述符。因此，本文中描述用于直方图的有效译码的一种或一种以上方法或技术。应注意，这些方法或技术可借助用以有效地(或甚至最佳地)以压缩形式译码直方图的任何类型的直方图实施方案来实施。直方图的有效译码是传统的编码技术未解决的明显问题。传统的编码技术已集中于有效地编码值序列。因为在直方图中不使用序列信息，所以有效地编码直方图是与常规技术所解决的问题不同的问题。

作为第一步骤，考虑直方图的最佳(最小大小或长度)译码。可应用信息理论原理以获得直方图的无损和/或有损编码的最大长度。

如上文所提，对于特定片(例如，常常称为单元或区)，所述片中的梯度分布可被表示为直方图。直方图可被表示为具有m个符号(2≤m≤∞)的长度的字母表A，其中每一符号与直方图中的频段相关联。因此，直方图具有总共m个频段。举例来说，字母表A中的每一符号(频段)可对应于来自一组所界定的梯度/定向的梯度/定向。此处，n可表示观测、样本或出现(单元、片或区中的梯度样本)的总数目，且k表示特定频段中的观测、样本或出现的数目(例如，k₁为第一频段中的梯度样本的数目，...，k_m为第m频段中的梯度样本的数目)，使得也就是说，直方图频段中的所有梯度样本的总和等于所述片中的梯度样本的总数目。因为直方图可表示单元、片或区内的梯度样本的第一分布的概率分布，所以有可能的是具有梯度样本的第二分布(不同于第一分布)的不同单元、片或区可仍具有相同直方图。

如果P指示m元概率分布[p₁，...，p_m]，那么此分布的熵H(P)可被定义为：

H (P) = - Σ_{i = 1}^{m} p_{i} \log p_{i} . - - - (4)

在此情况下，两个已知分布P与Q之间的相对熵D(P||Q)由下式给出

D (P | | Q) = Σ_{i = 1}^{m} p_{i} \log \frac{p_{i}}{q_{i}} . - - - (5)

对于梯度分布的给定样本w，假设每一梯度值出现的次数由k_i(其中i＝1，...m)给出。所述样本w的概率P(w)因此由下式给出：

P (w) = Π_{i = 1}^{m} p_{i} k^{k_{i}} - - - (6)

其中П为乘积运算符。

举例来说，在单元或片的情况下，概率P(w)为特定单元或片的概率。

然而，等式6假设分布P为已知的。在源分布未知的情况下，如片中的典型梯度可出现这种情况，样本w的概率可由克里切夫斯基-特罗菲莫夫(Krichecvsky-Trofimov，KT)估计给出：

P_{KT} (w) = Γ (\frac{m}{2}) \frac{Π_{i = 1}^{m} Γ (k_{i} + \frac{1}{2})}{π^{\frac{m}{2}} Γ (n + \frac{m}{2})}, - - - (7)

其中Г为γ函数，使得Г(n)＝(n-1)！。

如果样本w将使用其概率的KT估计来编码，那么此编码(根据实际分布P)的长度L满足：

L_{KT} (w, P) = - \underset{w}{Σ} P (m) \log P_{KT} (w) ~ nH (P) + \frac{m - 1}{2} \log n . - - - (8)

等式8提供用于直方图的无损编码的最大代码长度。基于KT估计量的代码的冗余可由下式给出：

R_{KT} (n) ~ \frac{m - 1}{2} \log n, - - - (9)

其不依赖于实际源分布。这意味着此代码为通用的。因此，KT估计量提供实际概率P的紧密近似，只要所使用的样本w足够长。

应注意，KT估计量仅为用以计算分布的概率的一种方式。举例来说，还可使用最大可能性(ML)估计量。

而且，当译码直方图时，可假设编码器和解码器两者可确定直方图中的样本总数目n和用于直方图的频段数目m或经配置有直方图中的样本总数目n和用于直方图的频段数目m。因此，在此情况下，不需要编码此信息。因此，编码集中于所述m个频段中的每一者的样本的数目。

并非将直方图其自身作为关键点(或图像)描述符的一部分来发射，可使用直方图的压缩形式。为了实现这点，直方图可通过类型来表示。一般来说，类型为直方图的压缩表示(例如，其中类型表示直方图的形状而非整个直方图)。样本w的类型t可被定义为：

t (w) = [\frac{k_{1}}{n}, . . ., \frac{k_{n}}{n}] - - - (10)

使得类型t(w)表示其符号的一组频率(例如，梯度分布的频率k_i)。类型还可理解为产生所述样本的源的真实分布的估计。因此，类型t(w)的编码和发射等效于分布的形状的编码和发射，因为其可基于特定样本w来估计。

然而，传统的编码技术已集中于有效地编码值序列。因为在直方图中不使用序列信息，所以有效地编码直方图是与传统的编码技术所解决的问题不同的问题。假设频段数目为编码器和解码器所知，那么直方图编码涉及编码点(例如，梯度)的总数目和每个频段的点数。

下文中，一个目标是指出如何有效地编码类型t(w)。注意，任何给定类型t可被定义为：

t = [\frac{k_{1}}{n}, . . ., \frac{k_{n}}{n} : Σ_{i = 1}^{m} k_{i} = n] . - - - (11)

其中k₁到k_m表示可能类型t的数目，其中给定样本总数目n。因此，具有类型t的可能序列的总数目可由下式给出：

ξ (t) = (\overset{n}{k_{1}, . . ., k_{m}}) - - - (12)

其中ξ(t)为具有群体t的符号的可能布置的总数目。

可能类型的总数目本质上为所有整数k₁，...，k_m的数目，使得k₁+...+k_m＝n，且其由多重集系数给出：

M (m, n) = (\overset{n + m - 1}{m - 1})

类型t的任何样本w的出现概率可由P(t)指示。由于存在ξ(t)个此类可能样本，且其全部具有相同概率，那么：

P (t) = ξ (t) P (w : t (w) = t)

= (\overset{n}{k_{1}, . . ., k_{m}}) p_{1}^{k_{1}} . . . p_{m}^{k_{m}} - - - (14)

此密度P(t)可被称为类型分布。其显然为多项式分布，在以下地方具有最大值(模式)：

P (t *) = P (t : k_{i} = n p_{i}) = (\overset{n}{n p_{1}, . . ., n p_{m}}) p_{1}^{n p_{1}} . . . p_{m}^{n p_{m}} . - - - (15)

类型分布的熵随后为(通过集中度性质)：

H (P (t)) = - \underset{t}{Σ} P (t) \log P (t) ~ \log (P (t *)) = \frac{m - 1}{2} \log n + O (1) . - - - (16)

给定具有长度n的样本w，通用编码器的任务是设计代码f(w)(或等效地，其诱发的分布P_f(w))，使得其最坏情况平均冗余：

R * (n) = \sup_{P} [\underset{| w | = n}{Σ} P (w) | f (w) | - nH (P)] - - - (17)

&GreaterEqual; \sup_{P} \underset{| w | = n}{Σ} P (w) \log \frac{P (w)}{P_{f} (w)} = n \sup_{P} D (P | | P_{f}) - - - (18)

为最小。等式17和18描述通用译码正解决的问题，其给定序列，寻找其中平均代码长度与n*H(P)之间的差对于所有可能输入分布为最小的代码长度。也就是说，在事先不知道所述分布的情况下寻找最小最坏情况代码长度。

由于相同类型的样本的概率为相同的且预期代码诱发的分布Pf(w)保持此性质，所以Pf(w)可被定义为：

P_{f} (w) = \frac{P_{f} (w : t (w) = t)}{ξ (t)}, - - - (19)

其中P_f(t)为类型t(w)的概率且ξ(t)为相同类型t(w)内的序列的总数目。指派给类型t(w)的代码的概率P_f可因此被定义为：

P_f(t)＝ξ(t)P_f(w：t(w)＝t)(20)

为代码诱发的类型分布。

通过在等式18中插入此分解且将所述求和改变为穿过类型(而非个别样本)，平均冗余R*(n)可被定义为：

R * (n) &GreaterEqual; \sup_{P} \underset{| w &Element; A^{n}}{Σ} P (w) \log \frac{P (w)}{P_{f} (w)} - - - (21.1)

= \sup_{P} [\underset{t}{Σ} \underset{w : t (w) = t}{Σ} P (w) \log \frac{P (t)}{P_{f} (t)}] - - - (21.2)

= \sup_{P} [\underset{t}{Σ} P (t) \log \frac{P (t)}{P_{f} (t)}] - - - (21.3)

= \sup_{P} (P (t) | | P_{f} (t)), - - - (21.4)

其中“sup”为上确界运算符，其中值为相对于一组的上确界(如果其至少如所述组的任何元素那么大)。这些等式意味着译码类型的问题等效于最小冗余通用译码的问题。

因此，类型的无损译码的问题可通过使用KT估计式类型分布来渐近最优地解决：

P_{KT} (t) = ξ (y) P_{KT} (w : t (w) = t) - - - (22.1)

= (\underset{k_{1}, . . ., k_{m}}{n}) Γ (\frac{m}{2}) \frac{Π_{i = 1}^{m} Γ (k_{i} + \frac{1}{2})}{π^{\frac{m}{2}} Γ (n + \frac{m}{2})} - - - (22.2)

基于此等式22.2，变得清楚的是具有几乎均一群体的类型落入所估计的密度的谷值中，而具有单一群体的类型(具有零计数的类型)变为其峰值。

图5为说明跨越各种高斯尺度空间的实例关键点分布的图表180的绘线图。用于图表180的数据是从一组训练图像(即，具有700乘1000像素分辨率的105个图像)产生的。针对每一图像，针对尺度1.0(曲线186)、0.75(曲线188)、0.5(曲线190)和0.25(曲线192)来收集数据。图表180展示跨越尺度空间的典型关键点分布。基于此观测，控制单元20(图1)可计算允许估计图像的比例因子的统计。

图表180的X轴184表示用于此特定实例组数据的高斯尺度空间(GSS)中的可能尺度索引以及对应尺度。Y轴182表示用于此实例的关键点的数目。

对于自然图像，可存在所检测的关键点相对于沿高斯尺度空间的尺度参数的分布，如图所示。在较高尺度处检测到的关键点大体上对应于较大特征。随着图像分辨率减小(例如，随着用户远离目标)，较精细细节减少且在较高尺度处检测到的细节(对应于粗糙细节)移动到较低尺度(对应于较精细细节)。因此，大多数关键点将落入较低尺度中。所构建的关键点直方图(其中尺度空间等级作为频段中心)可具有如下特性：随着图像大小减小，直方图的大多数区域可集中于较低频段中心中。实际上，这意味着尺度空间中的关键点分布为纹理相依的，其又根据相机距对象的距离而改变。

可在给定场景中出现多个对象，其每一者处于其自身的距相机的距离处且因此处于唯一尺度处。为了恰当地评估与用户想要与之交互的对象相关联的尺度，可执行某一粗略分段以使所述对象与图像中的其它对象隔离且做出关于所述对象的尺度的局部推断。举例来说，这可通过使用动态窗或大致划定对象区之间的边界的其它算法来实现。

为了计算可用以确定数据库的最小倍频程来搜索的截止尺度，尺度估计单元24可用关键点P(s)的直方图估计尺度空间等级s中的关键点分布。接下来，尺度估计单元24可估计截止尺度s_c，使得大致90％的关键点保留在高达s_c的尺度等级内。形式上，尺度估计单元24可计算以下公式(23)：

Σ_{s = 1}^{s_{c}} P (s) = 0.9 * Σ_{s = 1}^{s} P (s) - - - (23)

接着，尺度估计单元24可估计将所跟踪的尺度空间截止等级映射到图像比例因子的函数Y。也就是说，尺度估计单元24可计算：

Y＝f(s_c)(24)

其中Y为图像比例因子，且s_c为截止尺度空间等级。为了学习所述函数，尺度估计单元24可从最重复的路径(例如，曲线186、188、190或192中的一者)选取Y和s_c数据点。

一般来说，随着图像分辨率增大，s_c在尺度空间中进一步向上移动，且反之亦然。图表180还说明在此实例数据组中的针对尺度1.0(点198)、0.75(点196)和0.5(点194)的实例截止尺度(对应于最小倍频程)。可从此实例看到，随着分辨率减小，截止尺度朝向左侧移动。也就是说，随着分辨率减小，截止尺度减小。

图6为说明用于执行增量特征描述符提取的实例方法的流程图。为了解释起见，相对于客户端装置10的组件来描述图6的方法。然而，应理解，图6的方法可由其它装置执行，或由各种装置联合地执行。举例来说，服务器装置50的控制单元60(图1)可经配置以执行图6的方法。同样，在不脱离本发明的技术的情况下，可执行额外步骤，或可省略某些步骤，且可按不同次序(或并行地)执行所述方法的步骤。

在图6的实例中，最初，控制单元20接收对象的图像(还称为询问图像)(200)。举例来说，控制单元20可从相机12接收所述图像。或者，控制单元20可从客户端装置10的存储器检索所存储的图像。控制单元20的特征提取单元22可接着选择所述图像的待从中提取特征描述符的第一倍频程(202)。

特征提取单元22可使用多种技术中的任一者(包括技术的组合)选择第一倍频程，如本发明中论述。举例来说，特征提取单元22可从传感器14接收数据，特征提取单元22可使用所述数据来选择第一倍频程。举例来说，特征提取单元22可从传感器14的GPS单元接收位置数据，所述位置数据指示客户端装置10的位置。特征提取单元22可使用所述位置数据来确定在客户端装置10附近的对象的位置。特征提取单元22可使用在客户端装置10附近的对象来近似用于所述图像中的对象的尺度。

举例来说，如果GPS数据指示客户端装置10在法国巴黎并且在艾菲尔铁塔附近，那么特征提取单元22可确定所述图像中的对象的可能尺度相对较大。此确定可基于如下假设(通过配置数据)：所述图像为艾菲尔铁塔的图像，这可通过特征描述符提取和比较来确认。另一方面，如果GPS数据指示客户端装置10在法国巴黎并且在罗浮宫附近或内部，那么特征提取单元22可确定所述图像中的对象的可能尺度相对较小。在此实例中，此确定可基于如下假设(通过配置数据)：所述图像为存放在罗浮宫中的作品的图像。

除了来自GPS单元的位置数据或其它类型的所感测数据之外或作为其替代方案，控制单元20可基于深度估计单元26所计算得的深度图来选择第一倍频程。深度估计单元26可使用多种技术中的任一者来计算所述深度图。举例来说，深度估计单元26可分析由立体相机俘获的两个或两个以上图像的像素之间的水平不等性(或视差)。这些图像中的一者可对应于询问图像。基于所述询问图像中的对象的深度，控制单元20可确定用于所述对象的尺度，其可对应于第一倍频程。举例来说，可影响第一倍频程的其它因子包括所述对象存在于所述图像中所在的loxel、无线网络是否可用(例如，无线接入点是否在射程内)、是否已针对跟踪器后来丢失的先前新近询问图像确定了尺度，或其它因子。

在确定第一倍频程之后，特征提取单元22可提取用于第一倍频程的关键点(204)。如上文所论述，特征提取单元22可通过将询问图像的分辨率按比例缩放到对应于第一倍频程(如上选择)的大小来从所述询问图像计算第一倍频程的图像。特征提取单元22可接着将高斯模糊滤波器施加到变动程度的第一倍频程图像，且计算待从中提取关键点的高斯差金字塔。使用所述关键点，特征提取单元22可提取用于询问图像的第一倍频程的一个或一个以上特征描述符(206)。

特征提取单元22可接着试图使用特征描述符确定询问图像中的对象的身份(208)。在一些实例中，控制单元20可检索远程对象数据库52的全部或一部分，且在本地将所述数据存储为本地对象数据库30。在其它实例中，控制单元20可经由网络40将所提取的特征描述符中的一者或一者以上发送到服务器装置50。特征匹配单元62可确定从客户端装置10接收的特征描述符中的任一者或全部是否匹配远程对象数据库52的对象。特征匹配单元62可确定与特征描述符的一个或一个以上匹配。如果特征匹配单元62已接收到待搜索的最小倍频程的指示，那么特征匹配单元62可仅搜索在最小倍频程处或上方而非在所指定的最小倍频程下方的倍频程的特征描述符。置信度估值单元64可接着确定所述匹配中的每一者的置信度值，所述置信度值表示所述匹配配合特征描述符的程度。控制单元60可接着经由网络40将包括用于所确定的匹配中的每一者的识别符和相应置信度值的信息发送到客户端装置10。

在从服务器装置50接收所述信息之后，客户端装置10的控制单元20可确定用于对象的各种所确定身份的置信度值中的任一者是否超过阈值(210)。举例来说，控制单元20可确定最大置信度值是否超过阈值。如果最大置信度值不超过阈值(210的“否”分支)，那么控制单元20可确定待从中提取特征描述符的下一倍频程，如下文所描述，以及在一些实例中，正被询问的数据库的截止尺度(还称为最小倍频程)。

尺度估计单元24可确定哪个尺度最紧密配合所述关键点分布，接着确定最佳配合尺度最可能为对象的尺度(212)。基于此尺度近似，特征提取单元22可选择所述数据库中的待与所提取的特征描述符进行比较的最小倍频程(214)。特征提取单元22还可选择待从中提取关键点的下一倍频程(216)。特征提取单元22可接着提取用于此下一所确定的倍频程的关键点(218)且使用所提取的关键点来提取用于当前倍频程的特征描述符(206)。特征提取单元22可接着再次使用所提取的特征描述符来确定对象身份(208)。明确地说，特征提取单元22可致使数据库使用所提取的特征描述符搜索数据库的在所选择的最小倍频程处或上方的倍频程中的对象，且接收所述对象的所确定身份的新置信度值。

当所述对象的所确定身份的置信度值超过阈值时(210的“是”分支)，特征提取单元22可输出用于所述图像中的对象的身份信息(218)。在一些实例中，特征提取单元22可与由控制单元20执行的网络浏览器交互，以致使网络浏览器使用所确定身份作为搜索项或关键词向基于因特网的搜索引擎提交搜索询问。所述搜索可致使网络浏览器显示所述图像中的对象的各种信息，例如所述对象的另一图像、所述对象的位置信息(例如，如果所述对象为地标)、价格信息(例如，如果可购买所述对象或其复制品)、到具有所述对象的较多信息的网络地址的链路(例如，统一资源定位符(URL))或其它此类信息。

以此方式，图6表示方法的实例，所述方法包括：从所接收的图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点；计算所述第一组关键点的第一组一个或一个以上描述符；接收用于通过用第一组描述符询问特征描述符数据库产生的结果的置信度值，其中所述结果包含描述所接收的图像中的对象的身份的信息；以及当所述置信度值不超过置信度阈值时，从所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点。

在一个或一个以上实例中，可以硬件、软件、固件或其任何组合来实施所描述的功能。如果以软件来实施，则功能可作为一个或一个以上指令或代码而存储于计算机可读媒体上或经由计算机可读媒体来传输且由基于硬件的处理单元来执行。计算机可读媒体可包括对应于例如数据存储媒体等有形媒体的计算机可读存储媒体，或包括促进将计算机程序(例如)根据通信协议从一处传送到另一处的任何媒体的通信媒体。以此方式，计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一个或一个以上计算机或一个或一个以上处理器存取以检索用于实施本发明中所描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包括计算机可读媒体。

借助于实例而非限制，有形计算机可读存储媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器，或可用于存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且，任何连接被适当地称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术而从网站、服务器或其它远程源发射指令，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包括于媒体的定义中。然而，应理解，计算机可读存储媒体和数据存储媒体不包括连接、载波、信号或其它瞬时媒体，而是改为针对于非瞬时、有形的存储媒体。如本文中所使用，磁盘和光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘通过激光以光学方式再生数据。以上各者的组合也应包括于计算机可读媒体的范围内。

可由例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一个或一个以上处理器来执行指令。因此，如本文中所使用，术语“处理器”可指代上述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，本文所描述的功能性可提供于经配置以用于编码和解码的专用硬件和/或软件模块内，或并入于组合式编解码器中。而且，所述技术可完全实施于一个或一个以上电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中，包括无线手持机、集成电路(IC)或一组IC(例如，芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面，但未必需要通过不同硬件单元来实现。而是，如上文所描述，各种单元可组合于编解码器硬件单元中或由交互操作的硬件单元的集合(包括如上文所描述的一个或一个以上处理器)结合合适的软件和/或固件来提供。

Claims

1.一种确定图像中的对象的身份的方法，所述方法包含：

从所接收的图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点；

计算所述第一组关键点的第一组一个或一个以上描述符；

接收用于通过用所述第一组描述符询问特征描述符数据库所产生的结果的置信度值，其中所述结果包含描述所述所接收的图像中的对象的身份的信息；以及

当所述置信度值不超过置信度阈值时，从所述所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点。

2.根据权利要求1所述的方法，其进一步包含：

确定所述置信度值不超过所述置信度阈值；

基于所述确定来从所述第二倍频程的第二组模糊化图像提取所述第二组关键点；

从所述第二组关键点计算第二组一个或一个以上描述符；以及

用包含所述第一组描述符和所述第二组描述符的一组描述符询问所述特征描述符数据库。

3.根据权利要求1所述的方法，其进一步包含：

估计所述所接收的图像中的所述对象的尺度值；

基于所述所估计的尺度来选择所述特征描述符数据库的最小倍频程；以及

提供所述特征描述符数据库中的最小倍频程的指示以致使所述特征描述符数据库的搜索搜索所述特征描述符数据库中的在所述选定最小倍频程处或以上的特征描述符。

4.根据权利要求3所述的方法，其中估计所述尺度值包含：

分析所述第一组关键点的跨越尺度空间的分布；

确定对应于所述分布中的尺度等级的截止点，使得大致90％的所述关键点落在所述尺度等级以下；以及

作为所述所确定的截止点的函数估计所述尺度值。

5.根据权利要求3所述的方法，其进一步包含获得用于所述对象的深度信息，其中估计所述尺度值包含至少部分基于用于所述对象的所述深度信息来估计所述尺度值。

6.根据权利要求1所述的方法，其进一步包含：

分析与俘获所述所接收的图像的相机相关联的来自一个或一个以上传感器的传感器信息；以及

基于所述传感器信息的所述分析来确定所述第一倍频程和所述第二倍频程中的至少一者的倍频程等级。

7.根据权利要求6所述的方法，其中分析所述传感器信息包含分析全球定位系统GPS信息以确定当俘获所述所接收的图像时所述相机是否位于室外环境中。

8.根据权利要求6所述的方法，其中分析所述传感器信息包含分析GPS信息以确定当俘获所述所接收的图像时相对靠近所述相机的对象的位置，且从用于所述对象的描述数据确定所述对象的大小。

9.根据权利要求6所述的方法，其中分析所述传感器信息包含基于指示当俘获所述所接收的图像时包含所述相机的装置是否以通信方式耦合到无线网络的网络数据来确定所述相机是否位于室内环境中。

10.根据权利要求6所述的方法，其中分析所述传感器信息包含计算指示当俘获所述所接收的图像时所述所接收的图像中的一个或一个以上对象与所述相机之间的距离的深度信息。

11.根据权利要求6所述的方法，其中分析传感器信息包含使用由有源探测传感器提供的数据估计所述对象的深度值。

12.根据权利要求1所述的方法，其进一步包含将所述一个或一个以上描述符发送到服务器以致使所述服务器使用所述一个或一个以上描述符询问所述特征描述符数据库，其中接收所述置信度值包含响应于所述询问而从所述服务器接收所述置信度值。

13.一种用于确定图像中的对象的身份的设备，所述设备包含：

特征提取单元，其经配置以从所接收的图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点，并计算所述第一组关键点的第一组一个或一个以上描述符；以及

网络接口，其经配置以接收用于通过用所述第一组描述符询问特征描述符数据库所产生的结果的置信度值，其中所述结果包含描述所述所接收的图像中的对象的身份的信息；

其中所述特征提取单元进一步经配置以当所述置信度值不超过置信度阈值时，从所述所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点。

14.根据权利要求13所述的设备，其进一步包含相机，所述相机经配置以俘获所述图像且将所述图像提供到所述特征提取单元。

15.根据权利要求13所述的设备，其中所述特征提取单元进一步经配置以当所述特征提取单元确定所述置信度值不超过所述置信度阈值时基于所述确定来从所述第二倍频程的第二组模糊化图像提取所述第二组关键点，从所述第二组关键点计算第二组一个或一个以上描述符，且用包含所述第一组描述符和所述第二组描述符的一组描述符询问所述特征描述符数据库。

16.根据权利要求15所述的设备，其进一步包括尺度估计单元，所述尺度估计单元经配置以估计所述所接收的图像中的所述对象的尺度值，基于所述所估计的尺度来选择所述特征描述符数据库的最小倍频程，且在所述特征描述符数据库中搜索描述符，其中所述所搜索的描述符对应于所述特征描述符数据库中的在所述选定最小倍频程处或以上的倍频程。

17.根据权利要求16所述的设备，其中为了估计所述尺度值，所述尺度估计单元经配置以分析所述第一组关键点跨越尺度空间的分布，确定对应于所述分布中的尺度等级的截止点以使得大致90％的所述关键点落在所述尺度等级以下，且作为所述所确定的截止点的函数计算所述尺度值。

18.根据权利要求16所述的设备，其进一步包含深度估计单元，所述深度估计单元经配置以获得用于所述对象的深度信息，其中所述尺度估计单元经配置以至少部分基于用于所述对象的所述深度信息来估计所述尺度值。

19.根据权利要求13所述的设备，其进一步包括控制单元，所述控制单元经配置以分析与俘获所述所接收的图像的相机相关联的来自一个或一个以上传感器的传感器信息，其中所述特征提取单元进一步经配置以基于所述传感器信息的所述分析来确定所述第一倍频程和所述第二倍频程中的至少一者的倍频程等级。

20.根据权利要求19所述的设备，其进一步包含全球定位系统GPS单元，所述GPS单元经配置以确定所述设备的位置信息，其中为了分析所述传感器信息，所述控制单元经配置以基于由所述GPS单元确定的所述位置信息来确定当俘获所述所接收的图像时所述相机是否位于室外环境中。

21.根据权利要求19所述的设备，其进一步包含GPS单元，所述GPS单元经配置以确定相对于所述设备的位置信息，其中为了分析所述传感器信息，所述控制单元经配置以分析由所述GPS单元确定的所述位置信息以确定当俘获所述所接收的图像时相对靠近所述相机的对象的位置，且从用于所述对象的描述数据确定所述对象的大小。

22.根据权利要求19所述的设备，其其中所述网络接口包含无线网络接口，其中为了分析所述传感器信息，所述控制单元经配置以基于指示当俘获所述所接收的图像时所述无线网络接口是否以通信方式耦合到无线网络的网络数据来确定所述相机是否位于室内环境中。

23.根据权利要求19所述的设备，其进一步包含深度估计单元及相机阵列，所述相机阵列包括至少两个相机，所述至少两个相机包括俘获所述所接收的图像的所述相机，其中所述深度估计单元经配置以从由所述相机阵列俘获的图像计算指示当俘获所述所接收的图像时所述所接收的图像中的一个或一个以上对象与所述相机之间的距离的深度信息。

24.根据权利要求19所述的设备，其中所述一个或一个以上传感器包含有源探测传感器，所述有源探测传感器经配置以估计所述对象的深度值。

25.根据权利要求13所述的设备，其中所述特征提取单元经配置以将所述一个或一个以上描述符通过所述网络接口发送到服务器以致使所述服务器使用所述一个或一个以上描述符询问所述特征描述符数据库，且响应于所述询问而从所述服务器接收所述置信度值。

26.根据权利要求13所述的设备，其中所述设备包含以下各项中的至少一者：

集成电路；

微处理器；以及

无线通信装置。

27.一种用于确定图像中的对象的身份的设备，所述设备包含：

用于从所接收的图像的第一倍频程的第一组模糊化图像提取第一组一个或一个以上关键点的装置；

用于计算所述第一组关键点的第一组一个或一个以上描述符的装置；

用于接收用于通过用所述第一组描述符询问特征描述符数据库所产生的结果的置信度值的装置，其中所述结果包含描述所述所接收的图像中的对象的身份的信息；以及

用于当所述置信度值不超过置信度阈值时从所述所接收的图像的第二倍频程的第二组模糊化图像提取第二组一个或一个以上关键点的装置。

28.根据权利要求27所述的设备，其进一步包含：

用于确定所述置信度值不超过所述置信度阈值的装置；

用于基于所述确定来从所述第二倍频程的第二组模糊化图像提取所述第二组关键点的装置；

用于从所述第二组关键点计算第二组一个或一个以上描述符的装置；以及

用于用包含所述第一组描述符和所述第二组描述符的一组描述符询问所述特征描述符数据库的装置。

29.根据权利要求28所述的设备，其进一步包含：

用于估计所述所接收的图像中的所述对象的尺度值的装置；

用于基于所述所估计的尺度来选择所述特征描述符数据库的最小倍频程的装置；以及

用于提供所述特征描述符数据库中的最小倍频程的指示以致使所述特征描述符数据库的搜索搜索所述特征描述符数据库中的在所述选定最小倍频程处或以上的特征描述符的装置。

30.根据权利要求29所述的设备，其中所述用于估计所述尺度值的装置包含：

用于分析所述第一组关键点跨越尺度空间的分布的装置；

用于确定对应于所述分布中的尺度等级的截止点以使得大致90％的所述关键点落在所述尺度等级以下的装置；以及

用于作为所述所确定的截止点的函数估计所述尺度值的装置。

31.根据权利要求29所述的设备，其进一步包含用于获得所述对象的深度信息的装置，其中所述用于估计所述尺度值的装置包含用于至少部分基于所述对象的所述深度信息来估计所述尺度值的装置。

32.根据权利要求27所述的设备，其进一步包含：

用于分析与俘获所述所接收的图像的相机相关联的来自一个或一个以上传感器的传感器信息的装置；以及

用于基于所述传感器信息的所述分析来确定所述第一倍频程和所述第二倍频程中的至少一者的倍频程等级的装置。

33.根据权利要求32所述的设备，其进一步包含用于接收全球定位系统GPS信息的装置，其中所述用于分析所述传感器信息的装置包含用于分析所述GPS信息以确定当俘获所述所接收的图像时所述相机是否位于室外环境中的装置。

34.根据权利要求32所述的设备，其进一步包含用于接收GPS信息的装置，其中所述用于分析所述传感器信息的装置包含：

用于分析所述GPS信息以确定当俘获所述所接收的图像时相对靠近所述相机的对象的位置的装置；以及

用于从用于所述对象的描述数据确定所述对象的大小的装置。

35.根据权利要求32所述的设备，其进一步包含用于经由至少一种无线网络协议进行通信的装置，其中所述用于分析所述传感器信息的装置包含用于基于指示当俘获所述所接收的图像时所述用于经由所述无线网络协议进行通信的装置是否以通信方式耦合到无线网络的网络数据来确定所述相机是否位于室内环境中的装置。

36.根据权利要求32所述的设备，其进一步包含用于俘获场景的两个或两个以上图像的装置，其中所述两个或两个以上图像中的一者包含所述所接收的图像，且其中所述用于分析所述传感器信息的装置包含用于从所述场景的所述两个或两个以上图像计算指示当俘获所述所接收的图像时所述所接收的图像中的一个或一个以上对象与所述相机之间的距离的深度信息的装置。

37.根据权利要求32所述的设备，其中所述用于分析所述传感器信息的装置包含用于使用由有源探测传感器提供的数据估计所述对象的深度值的装置。

38.根据权利要求27所述的设备，其进一步包含用于将所述一个或一个以上描述符发送到服务器以致使所述服务器使用所述一个或一个以上描述符询问所述特征描述符数据库的装置，其中所述用于接收所述置信度值的装置包含用于响应于所述询问而从所述服务器接收所述置信度值的装置。