CN102246165B

CN102246165B - 利用压缩梯度直方图来代表和标识特征描述符的方法和装置

Info

Publication number: CN102246165B
Application number: CN200980150124.5A
Authority: CN
Inventors: R·格泽茨克祖克; V·钱德拉塞克哈; G·塔卡斯; B·吉罗德
Original assignee: Nokia Oyj; Leland Stanford Junior University
Current assignee: Nokia Oyj; Leland Stanford Junior University
Priority date: 2008-11-12
Filing date: 2009-11-12
Publication date: 2014-10-29
Anticipated expiration: 2029-11-12
Also published as: EP2359272B1; KR20110091763A; RU2505856C2; EP2359272A4; EP2359272A1; US9710492B2; KR101323439B1; RU2011123115A; WO2010055399A1; US20100226575A1; CN102246165A

Abstract

可以提供一种用于生成可以由数目相对少的位代表的多个压缩特征描述符、由此有助于发送和存储特征描述符的方法、装置和计算机程序产品。也可以提供一种用于允许比较特征描述符的压缩表示与相应预定义特征的特征描述符的多个压缩表示的方法、装置和计算机程序产品。通过允许利用特征描述符的压缩表示来执行比较，可以标识相应特征描述符而无需先解压特征描述符，由此潜在地增加可以标识特征描述符的效率。

Description

利用压缩梯度直方图来代表和标识特征描述符的方法和装置

技术领域

本发明的实施例一般地涉及图像处理和特征识别，并且更具体地涉及生成和标识代表图像内的预定义特征的特征描述符。

背景技术

在诸多应用中，已经变得希望能够标识图像内的特征。例如，可以捕获包括特色建筑物、地标等的图像，并且可能希望以自动化的方式标识建筑物、地标等。就这一点而言，在计算机视觉和图像检索应用中利用对图像内的特征的标识并且越来越多地用于实时对象识别、三维重建、全景拼接、机器人映射和视频跟踪。

例如，图像可以由诸如移动电话、数字相机等移动设备捕获。移动设备然后可以向网络实体如应用服务器发送图像或者代表图像的各种特征的特征描述符。网络实体然后可以比较图像或者代表图像的特征描述符与多个预定义图像或者多个预定义图像的特征描述符。通过标识最接近的匹配，网络实体可以标识图像内的诸如特色建筑物、地标等特征。

发明内容

因此根据一个实施例提供一种用于生成可以由数目相对少的位代表的多个压缩特征描述符、由此有助于发送和存储特征描述符的方法、装置和计算机程序产品。也根据本发明的另一实施例提供一种用于允许比较特征描述符的压缩表示与相应预定义特征的特征描述符的多个压缩表示的方法、装置和计算机程序产品。通过允许利用特征描述符的压缩表示来执行比较，可以标识相应特征描述符而无需先解压特征描述符，由此潜在地增加可以标识特征描述符的效率。

在一个实施例中，提供一种用于生成包括数目相对少的位的特征描述符的方法。就这一点而言，该方法可以针对图像的多个单元中的各单元确定多个梯度。该方法也可以向多个仓中的相应仓分配针对相应单元的梯度，由此量化梯度。然后可以确定多个特征描述符而各特征描述符包括在相应单元的多个仓之间的梯度分布的表示。然后可以比如通过利用树编码来压缩多个特征描述符。通过以这一方式确定特征描述符、然后比如通过利用树编码来压缩所得特征描述符，可以用数目相对少的位代表特征描述符，由此有助于发送、存储和/或处理特征描述符。

在另一实施例中，提供一种用于基于特征描述符的压缩表示来标识特征的方法。就这一点而言，可以比较特征描述符的压缩表示与相应预定义特征的特征描述符的多个压缩表示。基于该比较，可以标识特征描述符的压缩表示以代表预定义特征而无需先解压特征描述符。通过允许比较和标识而无需解压特征描述符，标识过程可以用高效方式进行。

在本发明的其他实施例中，可以提供一种对应处理器和一种对应计算机程序产品。就这一点而言，一个实施例的一种装置可以包括配置成执行各前述功能的处理器。在其他实施例中，可以提供一种包括至少一个计算机可读存储介质的计算机程序产品，该介质具有存储于其中的计算机可执行程序代码指令，而计算机可执行程序代码指令包括配置成执行各前述功能的程序代码指令。

这样，该方法、装置和计算机程序产品的实施例可以允许比如与配置成标识特定特征的应用结合以减少发送和/或存储的位数这样的方式限定和压缩特征描述符。该方法、装置和计算机程序产品的其他实施例可以提供基于与特征描述符的压缩标识进行的比较来标识预定义特征，由此有助于高效标识特征而无需解压特征描述符。

附图说明

已经这样用一般性的术语描述本发明，现在将参照未必按比例绘制的附图，附图中：

图1图示了根据本发明实施例的用于支持生成、发送和标识特征描述符的系统的示意框图；

图2是根据本发明实施例的用于生成特征描述符的装置的示意框图；

图3是根据本发明另一实施例的用于标识特征描述符的压缩表示的装置的示意框图；

图4是图示了根据本发明一个实施例的用于生成多个特征描述符的操作序列的流程图；

图5a和图5b分别代表大量单元的x、y梯度联合分布和联合x、y梯度分布的等值绘图；

图6a-图6d代表为了包括图5a的x、y梯度联合分布而可能与其他单元的分布组合的四个不同个别单元的x、y梯度分布。

图7a-图7e图示了可以根据本发明实施例利用的五个不同仓配置；

图8描绘了相对于标度不变特征变换(SIFT)所提供的近似值的接收器操作特征曲线而言根据本发明实施例的图7a-图7d中描绘的四个不同仓配置所提供的近似值的接收器操作特征曲线；

图9a代表单元的梯度分布，而图9b代表图9a中所示分布在未压缩形式下以及根据本发明实施例在Gagie和霍夫曼树编码之后的梯度直方图；

图10是可以构造成具有四片叶子的Gagie树和霍夫曼树的表示；

图11图示了根据本发明实施例的两个单元的梯度直方图的霍夫曼树编码以及在成对梯度分布之间的距离的预先计算；以及

图12是图示了根据本发明另一实施例的用于标识特征描述符的压缩表示的另一操作序列的流程图。

具体实施方式

现在下文将参照其中示出了本发明的一些但是并非所有实施例的附图来更完全地描述本发明的一些实施例。实际上，本发明的各种实施例可以用许多不同形式来实施而不应理解为限于这里阐述的实施例；实际上，提供这些实施例使得本公开内容将满足适用法律要求。相似参考标号通篇指代相似要素。如这里所用，术语“数据”、“内容”、“信息”和相似术语可以互换地用来指代能够根据本发明实施例来发送、接收和/或存储的数据。另外，提供这里所用术语“示例”并非为了告知任何定性估定，而代之以仅为了告知对示例的说明。因此，对任何这样的术语的使用不应理解为限制本发明实施例的精神实质和范围。

现在参照图1描绘可以从本发明的实施例中受益的系统。如图所示，该系统包括可以相互通信并且经由网络12与各种网络实体通信的一个或者多个通信终端10。尽管出于示例的目的而图示并且下文描述通信终端的实施例，但是其他类型的终端(比如便携数字助理(PDA)、寻呼机、移动电视、移动电话、游戏设备、膝上型计算机、相机、录像机、音频/视频播放器、无线电、全球定位系统(GPS)设备或者前述终端的任何组合)以及其他类型的语音和文字通信系统可以运用本发明的实施例。另外，非移动的通信终端也可以运用本发明的实施例。此外，网络可以是配置成支持在各种通信终端与各种网络实体之间通信的任一类有线或者无线网络。例如，网络可以包括可以经由对应有线和/或无线接口相互通信的各种不同节点、设备或者功能(如应用服务器14)的汇集。虽然并不必要，但是在一些实施例中，网络可以能够支持根据多个第一代(1G)、第二代(2G)、2.5G、第三代(3G)、3.5G、3.9G、第四代(4G)移动通信协议、长期演进(LTE)等中的任何一项或者多项的通信。根据本发明的一个实施例，通信终端10可以捕获图像，比如图1的描绘中的纪念教堂图像。如下文所述，一个实施例的通信终端然后可以生成和压缩代表图像内的各种特征的多个特征描述符。通信终端然后可以经由网络12向网络实体(比如如图1中所示应用服务器14)传达压缩的特征描述符。这一实施例的服务器然后可以比较通信设备捕获的图像的压缩特征描述符与代表各种预定义特征的压缩特征描述符的数据库。服务器然后可以标识具有与通信终端捕获的图像的特征描述符最相似的特征描述符的预定义特征，并且如果特征描述符充分相似，则服务器可以标识图像内的诸如建筑物、地标等特征与数据库存储的预定义特征相同。服务器然后可以与通信终端通信以提供标识图像内的一个或者多个特征的信息，并且在一些实例中可以提供与特征有关的诸如它的名称、地址、历史信息、市场信息等附加信息。

虽然可以用各种方式配置通信终端10，但是在图示了移动台20的图2的框图中描绘了可以从本发明的实施例中受益的通信终端的一个示例。尽管将出于示例的目的而图示并且下文描述通信终端的一个实施例，但是其他类型的通信终端(比如便携数字助理(PDA)、寻呼机、移动电视、游戏设备、所有类型的计算机(例如膝上型或者移动计算机)、相机、音频/视频播放器、无线电、全球定位系统(GPS)设备或者前述通信终端的组合)以及其他类型的通信设备可以运用本发明的实施例。如描述的那样，通信终端可以包括用于根据本发明的实施例执行一个或者多个功能的各种装置(包括这里更具体示出和描述的装置)。然而，应当理解通信终端可以包括用于执行一个或者多个类似功能的替代装置而不脱离本发明的精神实质和范围。

所示实施例的移动台20可以包括与发送器34和接收器36可操作通信的一个天线32(或者多个天线)。移动台还可以包括分别向发送器提供信号和从接收器接收信号的装置，比如处理器40。信号可以包括根据适用蜂窝系统空中接口标准的信令信息和/或也可以包括与用户话音、接收的数据和/或用户生成的数据对应的数据。就这一点而言，移动台可以能够根据一个或者多个空中接口标准、通信协议、调制类型和接入类型操作。举例而言，移动台可以能够根据第一、第二、第三和/或第四代通信协议等中的任何通信协议操作。例如，移动台可以能够根据第二代(2G)无线通信协议IS-136、全球移动通信系统(GSM)和IS-95或者根据第三代(3G)无线通信协议(比如通用移动电信系统(UMTS)、码分多址2000(CDMA2000)、宽带CDMA(WCDMA)和时分-同步码分多址(TD-SCDMA))、3.9G无线通信协议(比如E-UTRAN(演进-UMTS地面无线电接入网络))、根据第四代(4G)无线通信协议等操作。

理解装置如处理器40可以包括实施移动台20的音频和逻辑功能以及其他功能的电路。可以用多种不同方式实施处理器。处理器可以实施为各种处理装置，比如处理单元、协处理器、控制器或者各种其他处理设备(包括如例如ASIC(专用集成电路)、FPGA(现场可编程门阵列)、硬件加速器等集成电路)。在一个示例实施例中，处理器可以被配置成执行存储器设备中存储的或者以别的方式可由处理器访问的指令。这样，处理器可以被配置成执行下文参照图4和图12更具体讨论的过程或者至少其部分。处理器也可以包括用于在调制和发送之前对消息和数据卷积编码和交织的功能。处理器还可以包括内部语音编码器并且可以包括内部数据调制解调器。

移动台20也可以包括可以耦合到处理器40的用户接口(包括输出设备(比如耳机或者扬声器44、振铃器42、麦克风46、显示器48)和用户输入接口)。允许移动台接收数据的用户输入接口可以包括允许移动台接收数据的多种设备中的任何设备，比如小键盘50、触摸显示器(未示出)或者其他输入设备。在包括小键盘的实施例中，小键盘可以包括数字(0-9)和有关键(#、*)以及用于操作移动终端10的其他硬键和软键。取而代之，小键盘可以包括常规QWERTY小键盘布置。小键盘也可以包括具有关联功能的各种软键。除此之外或者取而代之，移动台可以包括接口设备，比如操纵杆或者其他用户输入接口。移动台还可以包括用于向用来操作移动台以及可选地提供机械振动作为可觉察输出的各种电路供电的电池54，比如振动电池组。

移动台20还可以包括可以通称为智能卡的用户标识模块(UIM)58。UIM可以是具有内置处理器的存储器设备。UIM可以例如包括用户标识模块(SIM)、通用集成电路卡(UICC)、通用用户标识模块(USIM)、可拆卸用户标识模块(R-UIM)或者任何其他智能卡。UIM可以存储与移动用户有关的信元。除了UIM之外，移动台可以配备有存储器。例如，移动台可以包括易失性存储器60(比如易失性随机存取存储器(RAM)(包括用于暂时存储数据的高速缓存区))。移动台也可以包括可以嵌入和/或可以拆卸的其他非易失性存储器62。除此之外或者取而代之，非易失性存储器可以包括电可擦除可编程只读存储器(EEPROM)、闪存等。存储器可以存储移动台用来实施移动台功能的多条信息和数据中的任何信息和数据。例如，存储器可以包括能够唯一标识移动台的标识符，比如国际移动设备标识(IMEI)代码。

尽管通信终端(在图2中描绘了其一个示例)可以根据本发明的实施例生成一个或者多个特征描述符的压缩表示，但是与通信终端通信的诸如应用服务器14等网络实体也可以运用本发明的实施例以基于对特征描述符的压缩表示的分析来标识图像内的特征。例如参照图3，根据本发明的一个实施例示出了能够作为服务器14等操作的网络实体68的框图。网络实体可以包括用于根据本发明的实施例执行一个或者多个功能的各种装置(包括这里更具体示出和描述的装置)。然而应当理解，网络实体可以包括用于执行一个或者多个相似功能的替代装置而不脱离本发明的精神实质和范围。

如图所示，网络实体68可以包括比如用于执行或者控制它的各种功能的处理器70这样的装置。可以用多种不同方式实施处理器。例如，处理器可以实施为各种处理装置，比如处理单元、协处理器、控制器或者各种其他处理设备(包括如例如ASIC、FPGA、硬件加速器等集成电路)。在一个示例实施例中，处理器可以被配置成执行存储器中存储的或者以别的方式可由处理器访问的指令。这样，处理器可以被配置成执行下文参照图12更具体讨论的过程或者至少其部分。

在一个实施例中，处理器70可以与存储内容、数据等的存储器72(比如易失性和/或非易失性存储器)通信或者包括存储器72。例如，存储器可以存储从网络实体发送和/或由网络实体接收的内容。又例如，存储器可以存储用于处理器根据本发明的实施例执行与网络实体68的操作关联的功能的软件应用、指令等。具体而言，存储器可以存储用于处理器执行上文和下文参照图12描述的操作的软件应用、指令等，这些操作用于基于对特征描述符的压缩表示的分析来标识图像内的特征。

除了存储器72之外，处理器70也可以连接到至少一个接口或者用于发送和/或接收数据、内容等的其他装置。就这一点而言，接口可以包括至少一个通信接口74或者用于比如在网络实体68与通信终端10之间和/或在网络实体12与网络12的其余部分之间发送和/或接收数据、内容等的其他装置。

在操作中并且如图4中所示，为了用适当特征描述符代表图像内的特征，通信终端10和在一个实施例中该通信终端的处理器40可以将图像划分成多个图像片，比如在兴趣点周围的规范片。参见操作80。然后可以比如通过规范化相应片的像素值的平均和标准偏差以补偿像素强度I的仿射变换aI+b来规范化各片以在仿射强度改变之下实现不变。参见操作82。然后可以比如根据平滑参数为σ(比如在一个实施例中为2.7个像素)的高斯平滑来模糊或者平滑各片。然后可以将各片划分成多个更小单元。参见操作84。如下文所述，单元可以有各种尺寸，其中标度不变特征变换(SIFT)技术和加速稳健特征(SURF)技术利用4x4方形网格配置而梯度位置和定向直方图(GLOH)技术使用大型极坐标网格配置。

一旦已经将片划分成更小单元，通信终端10的处理器40可以比如通过使用居中微分模板[-1，0，1]来确定各单元内的x和y梯度。参见图4的操作86。可以用各种方式确定梯度。例如，可以通过SIFT技术确定梯度，其中将各单元内的梯度定向量化成八位并且将沿着各方向的梯度量值求和。取而代之，与在沿着角度方向将梯度入仓的SIFT中的梯度量化对照，可以根据SURF技术针对各单元用包括∑dx、∑dy、∑|dx|和∑|dy|的SURF描述符确定梯度。另外，可以根据GLOH技术确定梯度。

虽然梯度将根据图像和用来确定梯度的技术变化，但是在图5a中描绘了一个示例的大量单元的x、y梯度联合分布，而在图5b中描绘了这一联合x、y梯度分布的等值绘图。作为参照，图5的联合x、y梯度分布包括多个单元的个别分布，在图6a-图6d中描绘了其中四个单元的个别分布用于图示其间潜在差异的目的。在相应单元中的联合x、y梯度分布(比如图6a-图6d中描绘的梯度分布)可以限定为而N为单元中的像素数目。如图4的块88中所示，然后可以量化梯度。然而在一些实施例中，高斯窗可以在量化和最终确定对应特征描述符之前将单元内的梯度加权。

为了量化梯度，可以向多个仓中的相应仓分配梯度。然而在这一分配过程之前，可以选择仓配置以便准确且高效地代表联合x、y梯度分布。参见图4的操作90和92。为了按照仓数目以及仓的x、y位置选择仓配置以便适当且高效地代表联合x、y梯度分布，用最普遍标识的x、y梯度对以及该分布的任何偏斜考虑比如图5a中所示联合x、y梯度分布。参照图5a的联合x、y梯度分布，在(0，0)的x、y梯度对出现概率最高，并且该分布如图5b中所示沿着y轴有些偏斜。为了近似该梯度分布，可以用图7a-图7e中所示七种示例仓配置限定多个仓。在一个实施例中，仓配置具有在概率最大的位置定位的仓并且在与分布本身相同的方向或者定向上偏斜。例如，图7a-图7e中所示各示例仓配置具有在(0，0)的仓、对称或者在y轴的方向上略微偏斜并且在0°-360°内等角度隔开。为了量化梯度，向最近的仓分配用于单元中的各像素的dx、dy梯度对。

为了增加量化过程的效率，可能希望具有数目相对少的仓。然而，也可能希望具有数目充分的仓使得联合x、y梯度分布的所得近似充分准确。举例而言但是并非限制，按照图7a-图7d中所示分别具有3、5、7和9个仓的四种不同仓配置的接收器操作特征曲线、通过比较针对四种不同仓配置中的各配置的正确肯定率比对错误肯定率与SIFT提供的正确肯定率比对错误肯定率来比较这些仓配置与图5a的联合x、y梯度分布的近似结合提供的准确性。分别如图8中所示，如图7b中所示利用五个仓的近似在一种示例场景中可以基本上匹配SIFT的性能，而如图7c中所示具有7个仓的联合x、y梯度分布的近似可以赋予相对于SIFT的改进性能，虽然以效率比图7b的五个仓的配置所赋予的效率略低的方式。

基于量化，通信终端10和在一个实施例中该通信终端的处理器40可以生成多个特征描述符Dⁱ _CHOG，其中值的范围从1至K的i限定为针对其计算描述符的片的索引而K为在图像中检测到的片数目。参见图4的块94。在一个实施例中，可以针对相应单元按照多个仓之间的梯度分布并且为了包括该梯度分布、例如通过概率分布限定各特征描述符。在一个实施例中，多个特征描述符可以限定为：Dⁱ _UHOG＝{Pⁱ ₁，Pⁱ ₂，...Pⁱ _n}，其中Pⁱ ₁，...Pⁱ _n代表描述符为i的单元1...n中的梯度分布。各描述符的维数可以限定为n x B，其中n为单元数目而B为仓数目。

直接按照梯度分布(例如概率分布)限定特征描述符可以是有利的。就这一点而言，通过针对各单元将梯度信息表示为概率分布，可以通过基于x、y梯度的概率最大位置并且基于联合x、y梯度分布的偏斜如上文所述有选择地布置仓中心来有利地利用基础梯度分布的统计。此外，可以使用距离测量(比如Kullback-Leiblier(KL)散度和推土机距离(EMD))比L-2范数更有效地比较概率分布。另外，如下文所述可以高效压缩概率分布以创建位速率低的描述符。

一旦已经确定梯度分布并且已经计算特征描述符，通信终端10和在一个实施例中该通信终端的处理器40可以压缩由相应单元中的梯度分布构成的特征描述符。参见图4的操作96。例如，可以通过树编码(比如如在T.Gagie的″Compressing ProbabilityDistributions″(Inf.Process.Lett.，Vol.97，No.4，pp.133-37(2006))中描述的Gagie树编码或者霍夫曼树编码)来压缩梯度分布(并且又压缩包括梯度分布的特征描述符)。为了考虑这些树编码方式，令P＝p₁，p₂，...p_n为原有分布，而Q＝q₁，q₂，...q_n为针对相同样本空间限定的有损压缩概率分布。在利用霍夫曼树编码的实施例中，通过针对该分布构造霍夫曼树并且存储各符号的霍夫曼代码来构造P，由此确保在两个分布(P与Q)之间的KL散度D，即D(P‖Q)＜1，并且需要O(nlogn)位空间。如果长度固定的代码用来存储各符号在霍夫曼树中的深度，则可以用(n-1)[log(n-1)]位存储霍夫曼树。取而代之，如果利用Gagie树编码，则可以构造分布Q使得D(P‖Q)＜log₂(2+2^3-k)，其中可以用确切kn-2位存储Q。

可以通过考虑Gagie和霍夫曼树本身来理解在Gagie与霍夫曼树之间的不同。就这一点而言，Gagie树有序，因此树本身存储整个分布P的信息。另一方面，霍夫曼树无序，因为符号概率在树构建过程中被分类。因此，霍夫曼树获得1的更低D(P‖Q)，但是与用于Gagie树的2n-2位比较需要更多位数(n-1)[log(n-1)]。

与各单元中的梯度分布压缩结合，位速率对于Gagie和霍夫曼树而言均随着仓数目增加而增加，特征描述符的性能也是如此。举例而言但是并非限制，在图9a中描绘了一个单元的梯度分布。在利用如图7b中配置的五个仓的量化之后，在图9b中描绘了所得直方图。然后用霍夫曼和Gagie树单独压缩这一直方图而所得分布如图9b中所示。对于相同初始分布P和相同所得压缩分布Q，下面示出了Gagie(上)和霍夫曼(下)树编码方案：

其中C为如下文所述卡塔兰数

而S限定为S＝{s₁，...，s_n}使得

在这一示例中，用于Gagie树编码的KL散度为0.2945，而用于霍夫曼树编码的KL散度为0.2620。也注意在一个实施例中利用Gagie树的压缩可能比利用霍夫曼树的压缩不利地影响特征描述符的性能。这一不同可以归因于由于利用霍夫曼树压缩分布而产生1的更低KL散度。这样，尽管可以用各种方式(包括利用各种树编码技术)压缩特征描述符的梯度分布，但是霍夫曼树编码在一个实施例中可以是有利的。

压缩各单元中的梯度分布允许用更少的位代表对应特征描述符，因为特征描述符又限定为梯度分布的汇集。另外，通过使用基于树的近似来压缩和发送梯度分布，提供关于失真的限度。为了进一步减少为了限定各种特征描述符而需要的位数，可以减少各图像片中的单元数目。然而，可能只有当可以实现减少片中的单元数目而不明显影响所得特征描述符的性能时才仅希望这一减少。如上文所言，SIFT和SURF技术利用具有十六个单元的方形网格，而GLOH技术利用单元数目不同(比如9或者7)的大型极坐标直方图。这样，不同单元配置按照为了限定相应特征而需要的位数所赋予的性能可以在一个实施例中与为特定应用赋予适当性能的单元配置(其中利用为了代表特征描述符而需要的最少位数)比较。就这一点而言，可以分别比较SIFT和SUFT技术所利用的十六个单元(网格16配置)与利用9个或者7个单元的GLOH方式(称为GLOH9和GLOH7)。在一种场景中，根据GLOH9配置生成的特征描述符在性能上可与根据网格16配置生成的特征描述符比较，而提供44％的位减少比。在一个实施例中，由于它在更低位速率赋予改进的性能，所以GLOH 9可以是备选配置。

如上文参照图1所述，需要特征标识的应用可能需要发送和/或存储数目相对大的特征。例如，在移动设备如相机电话和/或分布式相机网络的背景中，用于在节点之间发送信息的通信和功率成本可能相当大。为了提供可缩放性和效率，根据本发明的一个实施例通过可以用数目相对少的位代表的特征描述符来标识各种特征是有利的。例如，各特征描述符所需要的位数可能在图像检索应用(其中必须匹配查询图像的一个或者多个特征描述符与多个预定义特征描述符)中有关。由于预定义特征描述符可以存储于在服务器14或者可由服务器14访问的数据库中，并且由于数据库可以存储许多(例如数以百万计)特征描述符，所以如本发明的实施例提供的为了限定特征描述符而需要的位数的减少可以获得在所需存储方面有意义的节省。此外，为了限定特征描述符而需要的位数减少可以通过减少为了标识图像内的特征而必须通过网络发送的数据量来减少系统等待时间。类似地，为了代表特征描述符而需要的位数减少可以减少特征标识所必须的数据发送所需要的带宽，由此使这样的发送更容易可为移动应用(其中通过移动网络的无线信道和回程链路发送数据)所支持。

为了有助于比如由服务器14相对于预定义特征库中的多个压缩特征描述符分析压缩表示中的特征描述符，可能希望各压缩梯度分布如图4的操作97中所示由长度固定的代码代表，这有别于具有如一般将由于利用霍夫曼树编码而造成的可变位长度。如前文所言，将压缩Gagie分布表示为严格有序二元树。可以通过考虑Gagie树的叶节点的排列来枚举霍夫曼树。卡塔兰数可以给出具有n个叶节点的严格有序二元树数目。如针对具有四个叶节点的树在图10中所示，Gagie树是可以通过考虑Gagie树的叶节点的所有唯一排列来枚举的霍夫曼树的子集。例如，在下表中示出了针对1至7个叶节点的Gagie和霍夫曼树数目：

对于数目相对少的量化仓(例如多达7个仓)，霍夫曼和Gagie树的数目也相对少。在这样的场景中，可以枚举所有可能的树组合。此外，可以预先计算并且比如在距离表中存储在不同压缩分布之间的距离。这允许比如通过在距离表中进行查找来高效计算描述符之间的距离。图11图示了针对如图7b中所示五个仓的配置的压缩域匹配。就这一点而言，可以使用霍夫曼树编码来压缩各单元(在图11中示出了两个单元)中的梯度直方图，使得五个叶节点有75个可能树，这可以每单元用7位代表。可以预先计算并且如图11中所示存储例如根据KL、EMD、L2等计算的在所有成对分布之间的距离。然后可以通过将预先计算的在对应单元中的压缩梯度分布之间的距离求和来计算在两个描述符之间的距离。可以使用更有效的直方图比较测量(比如KL散度和EMD)而无额外复杂性。

也注意不同树的概率不同。因此，可以通过如图4的操作98中所示对树索引进行熵编码(比如借助算术编码器)(其中更频繁出现的树索引由更短代码代表而更少出现的树索引由更长代码代表)来实现更多压缩增益。对于Gagie树编码，对树索引进行熵编码与存储严格有序二元树比较可以提供位速率的2x减少。类似地，对于霍夫曼树编码，对树索引进行熵编码与存储用于所有符号的霍夫曼代码比较可以提供位速率的2x减少。

举例而言，在利用如图7b中所示5个仓、单元的GLOH 9配置和霍夫曼树编码的一个实施例中，特征描述符可以具有45个维度，即5个维度(针对每一个相应仓一个维度)用于各单元内的压缩梯度分布并且9个单元来自GLOH 9配置。在这一示例中，各单元有75个可能压缩霍夫曼树分布，而唯一特征描述符共计75⁹个。在未压缩时，各单元可以在这一示例中由长度固定的7位(例如log75)代码代表，使得9个单元将需要63位。通过对树索引进行熵编码，特征描述符可以减少至52位，而在至少一些实施例中性能仍然与SIFT可比较。

一旦已经限定和压缩特征描述符，可以如图4的操作100中所示发送和/或存储特征描述符的压缩表示。在图1中所示的本发明实施例中，通信设备10可以针对在通信设备捕获的图像内的各种特征确定特征描述符。特征描述符的压缩表示然后可以由通信设备存储并且由通信设备经由网络12发往服务器14。在这一实施例中，服务器继而可以接收和比较特征描述符的压缩表示与用于多个预定义特征的多个特征描述符的压缩表示。参见图12的操作110和112。

在这一比较过程中，服务器可以标识与通信设备提供的特征描述符的压缩表示最相似的用于预定义特征的特征描述符的压缩表示。参见操作114。在预定义特征的特征描述符的压缩表示与通信设备提供的特征描述符的压缩表示充分相似(比如隔开如下文所述的比预定义阈值更少的距离)的实例中，服务器可以将相应预定义特征标识为在通信设备捕获的图像内。参见操作116。服务器然后可以向通信设备提供与作为比较过程的结果已经标识的预定义特征有关的信息。参见操作118。例如，服务器可以按照名称、位置等提供所识别的特征的标识。此外，服务器可以提供与识别的特征关联的诸如历史信息、市场信息等任何其他信息。举例而言，如果服务器识别压缩特征描述符代表饭店，则服务器可以提供该饭店的名称、地址和网站以及关于它的营业时间、它的菜单和饭店评论的信息。

为了比较通信设备10根据前述实施例提供的特征描述符的压缩表示与各种预定义特征的特征描述符的压缩表示，服务器14可以确定在压缩表示之间的距离。若干定量测量如L-2范数、KL散度和EMD可以用来比较分布。KL散度源于信息理论并且代表在两个分布之间的信息散度。在两个分布P＝p₁，p₂，...p_n与Q＝q₁，q₂，...q_n之间的KL散度定义为：

D (P | | Q) = Σ_{k = 1}^{i = n} (\log_{pi} (\frac{pi}{qi}))

在一些实施例中，平滑项如ρ＝0.001可以加到前述等式中的分母以防止任何将∞确定为距离测量。然而注意，结果对所选ρ参数并不敏感。EMD(Mallows距离的特殊情况)是交叉仓直方图距离测量，这不同于逐仓距离测量的L₂-范数和KL散度。EMD限定为为了将一个直方图变换成另一直方图而必须付出的最小成本，其中在各对仓之间限定“地面距离”。在仓之间的“地面距离”比如在图7中所示配置中限定为在仓中心之间的距离。注意EMD是一种度量并且遵循三角不等式，而KL散度却不是。服务器14和在一个实施例中该服务器的处理器70可以确定在两个特征描述符Dⁱ _CHOG、D^j _CHOG之间的距离dist，限定为：

dist ({D^{i}}_{CHOG}, {D^{j}}_{CHOG}) = Σ_{k = 1}^{k = n} d_{hist} (P_{k}^{i}, P_{k}^{j})

其中d_hist限定为在两个距离之间的距离测量。然而，由于可能树的集合相对小(比如前表所示)，所以可以预先确定并且在存储器72中存储在各对可能树之间的距离。这样，服务器无需计算各距离，而可以代之以利用查找表以基于预定距离标识在树之间的距离，由此增加进行比较的效率。

如上文所述，图4和图12是根据本发明一些示例实施例的装置、方法和程序产品的流程图。将理解可以通过各种手段(比如硬件、固件和/或包括一个或者多个计算机程序指令的计算机程序产品)实施流程图的各块和在流程图中的块的组合。例如，一个或者多个上述过程可以由计算机程序指令实施。就这一点而言，实施上述过程的计算机程序指令可以由通信设备10、网络实体(比如服务器14)或者其他运用本发明实施例的装置的存储器设备存储并且由该通信设备、服务器或者其他装置中的处理器40、70执行。就这一点而言，例如响应于由相应处理器执行的计算机程序指令，上文参照图4和图12的图描述的操作可以已经描述为由通信设备和网络实体如服务器执行，但是并非任何或者所有操作可以实际上由这些实体的相应处理器执行。如将理解的那样，任何这样的计算机程序指令可以加载到计算机或者其他可编程装置(例如，硬件)上以产生机器，使得包括在计算机(例如，经由处理器)或者其他可编程装置上执行的指令的计算机程序产品产生用于实施在流程图块中指定的功能的装置。这些计算机程序指令也可以存储于计算机可读存储器中，该存储器可以指导计算机(例如，处理器或者另一计算设备)或者其他可编程装置以特定方式工作，从而存储于计算机可读存储器中的指令产生如下制造产品，该制造产品包括实施在流程图块中指定的功能的指令装置。计算机程序指令也可以加载到计算机或者其他可编程装置上以使系列操作在计算机或者其他可编程装置上进行以产生计算机实施的过程，从而在计算机或者其他可编程装置上执行的指令提供用于实施在流程图块中指定的功能的操作。

因而，流程图的块支持用于执行指定功能的装置与用于执行指定功能的程序指令装置的组合。也将理解流程图的一个或者多个块或者在流程图中的块的组合可以由执行指定功能的基于专用硬件的计算机系统或者由专用硬件与计算机指令的组合实施。

在一个示例实施例中，用于实现图4和图12的方法的装置可以包括配置成执行上述操作(80-118)中的一些或者各操作的处理器(例如，处理器40和/或70)。处理器可以例如配置成通过执行硬件实施的逻辑功能、执行存储的指令或者执行用于进行各操作的算法来执行操作(80-118)。取而代之，该装置可以包括用于执行各上述操作的装置。就这一点而言，根据一个示例实施例，用于执行操作80-118的装置示例可以例如包括如上文所述处理器40和/或70。

从前文描述和关联附图中呈现中受益的本发明有关领域技术人员将想到这里阐述的发明的许多修改和其他实施例。例如，尽管已经结合通信设备10捕获图像、然后确定和压缩用于图像内的特征的特征描述符来描述本发明的实施例，但是可以发送图像本身并且网络实体如服务器14或者其他装置可以比如在存储之前限定和压缩特征描述符。取而代之，尽管特征描述符的压缩表示的比较在上述实施例中描述为由网络实体如服务器进行，但是对应特征的比较和标识如果希望则可以代之以由通信设备或者其他装置进行。因此，将理解本发明并不限于公开的具体实施例并且旨在于在所附权利要求书的范围内包括修改和其他实施例。虽然这里运用具体术语，但是仅在一般和描述意义上而非出于限制的目的而使用它们。

Claims

1.一种用于图像处理的方法，包括：

针对图像的多个单元中的各单元确定多个梯度；

向多个仓中的相应仓分配用于相应单元的所述梯度；

确定多个特征描述符，其中各特征描述符包括作为概率分布的在相应单元的所述多个仓之间的梯度分布的表示；

压缩所述多个特征描述符；以及

在向相应仓分配所述梯度之前选择仓配置，其中选择仓配置包括选择具有在与概率最大的所述梯度重合的位置定位的仓并且在与所述梯度分布共同的方向上偏斜的仓配置。

2.根据权利要求1所述的用于图像处理的方法，还包括对所述多个特征描述符的压缩表示进行熵编码。

3.根据权利要求1所述的用于图像处理的方法，还包括提供所述多个特征描述符的压缩表示的发送或存储的至少一个。

4.根据权利要求1所述的用于图像处理的方法，还包括在确定所述多个梯度之前将所述图像划分成多个单元。

5.根据权利要求1-4中任一项所述的用于图像处理的方法，其中压缩所述多个特征描述符包括利用树编码以压缩所述多个特征描述符。

6.一种用于图像处理的装置，包括：

用于针对图像的多个单元中的各单元确定多个梯度的装置；

用于向多个仓中的相应仓分配用于相应单元的所述梯度的装置；

用于确定多个特征描述符的装置，其中各特征描述符包括作为概率分布的在相应单元的所述多个仓之间的梯度分布的表示；

用于压缩所述多个特征描述符的装置；以及

用于在向相应仓分配所述梯度之前选择仓配置的装置，其中选择仓配置包括选择具有在与概率最大的所述梯度重合的位置定位的仓并且在与所述梯度分布共同的方向上偏斜的仓配置。

7.根据权利要求6所述的用于图像处理的装置，还包括用于对所述多个特征描述符的压缩表示进行熵编码的装置。

8.根据权利要求6所述的用于图像处理的装置，还包括用于提供所述多个特征描述符的压缩表示的发送或存储的至少一个的装置。

9.根据权利要求6所述的用于图像处理的装置，还包括用于在确定所述多个梯度之前将所述图像划分成多个单元的装置。

10.根据权利要求6-9中任一项所述的用于图像处理的装置，其中所述用于压缩所述多个特征描述符的装置包括用于利用树编码以压缩所述多个特征描述符的装置。