CN104115162B

CN104115162B - 图像分析

Info

Publication number: CN104115162B
Application number: CN201280069522.6A
Authority: CN
Inventors: M·巴勒斯特里; G·弗兰希尼; S·莱普索伊
Original assignee: Telecom Italia SpA
Current assignee: Telecom Italia SpA
Priority date: 2012-01-02
Filing date: 2012-12-20
Publication date: 2018-05-08
Anticipated expiration: 2032-12-20
Also published as: ES2879937T3; US9269020B2; KR102049078B1; BR112014016400B1; BR112014016400A2; CN104115162A; WO2013102574A1; KR20140110044A; JP5845361B2; US20160125261A1; US9373056B2; ITMI20120003A1; BR112014016400A8; US20150036936A1; AR089531A1; EP2801056B1; JP2015503800A; EP2801056A1

Abstract

提出一种处理图像的方法。所述方法包括识别图像中的第一组关键点。对于第一组关键点的各个关键点，所述方法识别与所述各个关键点相关的至少一个对应的关键点局部特征；对于所述至少一个关键点局部特征，计算对应的局部特征相关概率；根据所述至少一个局部特征的局部特征相关概率，计算关键点相关概率。所述方法还包括在第一组的关键点之中，选择关键点相关概率最高的关键点，以形成第二组关键点，并把第二组的关键点用于分析图像。对于关键点的局部特征计算的局部特征相关概率是通过比较所述局部特征的取值和所述局部特征的数值的对应参考统计分布而获得的。

Description

图像分析

技术领域

本发明涉及图像分析的领域。

背景技术

在图像分析领域，在两个图像包括相同场景或相同物体的至少一部分的情况下，常见操作是比较这两个图像，以便找出在它们之间产生的关系。

在大量应用之中，对校准属于多摄像机系统的摄像机，评估在视频拍摄的两帧之间发生的运动，和识别图像(例如，照片)内的物体来说，图像比较最重要。归因于为用于所谓的视觉搜索引擎，即，由照片开始的能够识别照片中拍摄的物体，并提供与识别的物体相关的信息的自动化服务而专门设计的物体识别算法的最近发展，现在认为后一应用越来越重要。这种类型的已知服务的例子包括Google Goggles、Nokia Point&Find和kooabaSmart Visuals。物体识别应用一般比较描述待识别的物体的第一个图像(行话称为“查询图像”)和多个模型图像，每个模型图像描述相应的已知物体；这允许比较在查询图像中描述的物体和在模型图像中描述的物体。

模型图像一般被布置在恰当的模型数据库中。例如，在在线购物情形中使用物体识别的情况下，每个模型图像对应于在线商店提供的物品(例如，图书封面、DVD封面和/或CD封面的照片)。包含在这种数据库中的模型图像的数目相当大；例如，在线购物服务的模型数据库可包括数百万个不同的模型图像。

一种非常有效的进行两个图像之间的比较操作的方式是选择第一个图像中的一组点(行话称为关键点)，随后匹配该组关键点中的每个关键点和第二个图像中的对应关键点。有利的是，通过提取图像的围绕点本身的区域的局部特征，比如点提取尺度，所述区域的优先方向和所谓的“描述符”，进行第一个图像的哪个点必须成为关键点的选择。在图像分析的领域，关键点的描述符是描述以关键点为中心的图像的区域(称为补片(patch))的亮度梯度的数学运算符，同时所述补片是按照补片本身的主亮度梯度取向的。

在David G.Lowe的“Distinctive image features from scale-invariantkeypoints”(International Journal of computer vision,2004)中，提出了尺度不变特征变换(SIFT)描述符；简单地说，为了允许可靠的图像识别，考虑到即使图像尺度、噪声和照度发生变化，也应可检测对应于每个关键点的从图像提取的局部特征，生成SIFT描述符。从而，SIFT描述符相对于均匀缩放、方向不变，并且相对于仿射失真和照度变化部分地不变。

SIFT描述符是相当强的工具，它允许选择用于进行精确的图像比较的关键点。不过，只有利用相当大量的数据，才能获得这种精度；例如，典型的SIFT描述符是128数据字节的数组。由于每个图像中的关键点的数目相当大(例如，对标准的VGA照片来说，1000-1500个关键点)，并且由于每个关键点与对应的SIFT描述符相联系，因此待处理的数据的总量变得过大，难以有效地管理。

就涉及移动终端的使用的情形(例如，提取自利用智能电话机的摄像头拍摄的照片的物体的识别)来说，这种缺陷被加剧。事实上，由于为进行图像分析而要执行的运算相当复杂，并且计算负荷高，因此在这种情况下，大部分的运算通常是在服务器侧进行的；为了得到为进行分析所需的所有信息，服务器需要从移动终端接收所有的所需数据，包括所有关键点的SIFT描述符。因此，要从终端传送给服务器的数据的数量会变得过大，难以保证服务的效率良好。

按照本领域已知的解决方案，比如Google Goggles采用的解决方案，通过从移动终端向服务器直接传送图像，而不是传送描述符，从根本上解决该缺陷。事实上，由于关键点的数目相当大，因此，对应的SIFT描述符的数据的数量会超过标准VGA照片本身的大小(就字节来说)。

发明内容

申请人发现本领域已知的方案并不高效，仍然需要管理大量的数据和/或把大部分的运算集中在服务器侧，从而限制了系统的可扩展性和整体性能。

例如，Google Goggles采用的从移动终端向服务器直接传送图像，而不是描述符的解决方案要求把全部计算负荷转移给服务器，服务器会变得负担过重。此外，压缩图像的传输仍然需要相当大量的数据(例如，对VGA图像来说，数万字节)。

申请人解决了在待处理数据的数量方面，如何改进这些方案的问题。

具体地，申请人解决了提供一种需要数量减少的待管理数据的图像处理方法的问题。

申请人发现，通过按照根据参考统计分布计算的局部特征相关概率，在图像中识别的关键点之中，选择关键点的最佳子集，能够有利地减少用于进行图像分析的待处理数据的数量。

按照本发明的一个方面，提出一种处理图像的方法。所述方法包括识别图像中的第一组关键点。对于第一组关键点的各个关键点，所述方法识别与所述各个关键点相关的至少一个对应的关键点局部特征；对于所述至少一个关键点局部特征，计算对应的局部特征相关概率；根据所述至少一个局部特征的局部特征相关概率，计算关键点相关概率。所述方法还包括在第一组的关键点之中，选择关键点相关概率最高的关键点，以形成第二组关键点，并把第二组的关键点用于分析图像。对于关键点的局部特征计算的局部特征相关概率是通过比较所述局部特征的取值和所述局部特征的值的对应参考统计分布而获得的。

按照本发明的实施例，在统计学上，每个所述对应的参考统计分布等同于通过在多个参考图像对中识别的多个参考关键点中，收集与各个参考图像对的已被确定涉及所述参考图像对的参考图像之间的正确特征匹配的那些参考关键点对应的局部特征值而产生的对应统计分布。

最好，与所述各个关键点相关的所述至少一个关键点局部特征包括关键点的坐标，识别关键点的尺度，关键点的主方向，关键点的峰值，和关键点的描述符中的至少一个。

按照本发明的实施例，各个参考统计分布被布置成具有多个分箱的对应直方图的形式。每个分箱对应于对应局部特征的值的预定范围。每个分箱的频率对应于下述数之比：

a)已被确定涉及正确的特征匹配，并且具有属于所述分箱的对应局部特征的值的参考关键点的数目，和

b)具有属于所述分箱的对应局部特征的值的参考关键点的总数。

按照本发明的实施例，所述计算关键点的局部特征的局部特征相关概率包括检查对应于所述局部特征的直方图，以便识别其拟合关键点的局部特征所取的值的分箱，并把局部特征相关概率设定为识别的分箱的频率。

有利的是，所述计算第一组的关键点的关键点相关概率包括组合对应关键点的所述至少一个局部特征中的每个局部特征的局部特征相关概率。

最好，所述计算第一组的关键点的关键点相关概率包括相乘对应关键点的所述至少一个局部特征中的每个局部特征的局部特征相关概率。

本发明的另一个方面提供一种处理图像的系统。所述系统包括配置成识别图像中的第一组关键点的第一处理单元，和配置成对第一组的各个关键点进行以下操作的第二处理单元：

a)识别与所述各个关键点相关的至少一个对应的关键点局部特征；

b)对于所述至少一个关键点局部特征，计算对应的局部特征相关概率；

c)根据所述至少一个局部特征的局部特征相关概率，计算关键点相关概率。

所述系统还包括配置成在第一组的关键点之中，选择关键点相关概率最高的关键点，以形成第二组关键点的第三处理单元，和配置成把第二组的关键点用于分析图像的第四处理单元。对于关键点的局部特征计算的局部特征相关概率是通过比较所述局部特征的取值和所述局部特征的值的对应参考统计分布而获得的。

本发明的另一个方面涉及一种生成关键点局部特征的值的参考统计分布的方法。

附图说明

依据结合附图阅读的本发明的一些非限制性例证实施例的以下说明，本发明的这些和其它特征和优点将变得明显，附图中：

图1利用功能块，图解说明按照本发明的实施例的目的在于从查询图像中提取最佳的一组关键点，并生成压缩的一组描述符的提取过程；

图2A-2F是按照本发明的一些例证实施例的关键点的对应的所选局部特征的统计分布；

图2G是按照图1的提取过程处理的例证照片；

图3A说明SIFI类型的示例描述符；

图3B图解说明图3A的描述符的例证描述符数组；

图4A图解说明按照本领域已知的解决方案的例证描述符数组压缩；

图4B图解说明按照本领域已知的另一种解决方案的例证描述符数组压缩；

图5图解说明按照本发明的实施例的描述符的子直方图在关联族中的布置；

图6A-6D表示按照本发明的例证实施例，描述符数组是如何压缩的；

图7A图解说明关键点KP的例证分布；

图7B图解说明可如何把网格叠加在查询图像上，以量化图7A的关键点的坐标；

图7C是通过把图7B的网格叠加在图7A的一组关键点KP上而获得的直方图的例证图形描述；

图7D识别图7B的网格的完全由不包括任何关键点的单元形成的各列和各行；

图7E图解说明rank-1支持(support)之上的例证直方图；

图7F图解说明与图7E的rank-1support之上的直方图对应的直方图映射；

图8A图解说明词直方图的例子；

图8B图解说明直方图映射的例子；

图9利用功能块，图解说明按照本发明的实施例的目的在于进行两个图像之间的比较的匹配过程；

图10利用功能块，图解说明按照本发明的实施例的目的在于从模型数据库，检索描述在查询图像中描述的相同物体/场景的模型图像的检索过程。

具体实施方式

提取过程(图1)

图1利用功能块，图解说明按照本发明的实施例的目的在于处理输入图像，以便获得最佳的一组关键点，并生成对应的一组描述符的过程(下面称为提取过程)100。所述关键点和描述符随后被用于图像分析。在后面的本说明中，通用表述“图像分析”和“分析图像”必须用来包含比较图像和至少另一个图像的所有那些操作。可以在各种各样的应用中，比如在物体识别应用，以及在由多个不同的照片开始，产生单一的全景照片的应用中，执行这些操作。

如后所述，按照本发明的实施例的提取过程还选择关键点的最佳子集，并把这样的关键点的描述符压缩到以致极大地改善后续过程的效率的程度。

本节中描述的提取过程100的各个步骤可由恰当的处理单元进行，所述处理单元的结构和功能取决于它们预定用于的具体应用领域。例如，各个处理单元可以是为进行所述方法的一个或多个步骤而专门设计的硬件单元。此外，所述方法的各个步骤可由受对应的一组指令控制的可编程机器(例如，计算机)进行。

关键点提取(阶段110)

提取过程100的第一个阶段110接收查询图像115，并从中提取第一组关键点KP，每个关键点KP与识别所述关键点KP在查询图像115内的位置的对应一对空间坐标C相联系。

通过采用已知的高斯差分(DoG)关键点提取算法，可进行这种操作；不过，类似的考虑事项在采用不同的关键点提取算法，比如Hessians行列式(DoH)关键点提取算法的情况下也适用。参考DoG关键点提取算法，以不同的尺度，顺序地用高斯滤波器卷积查询图像115。随后，按该顺序，在各对相邻的高斯模糊图像之间进行差分运算。关键点KP从而被选择为在多个尺度下，具有高斯差分(DoG)的最大/最小值的点。特别地，比较DoG图像中的每个像素和该像素的在相同尺度下的8个相邻像素，和在各个相邻尺度(即，序列中的后续和在先尺度)下的9个相邻像素。如果像素值是所有被比较像素之中的最大或最小值，那么该点被视为候选关键点KP。

阶段110还规定根据局部图像亮度梯度方向，把各个关键点KP分配给一个或多个方向。例如，形成具有多个分箱的方向直方图，每个分箱覆盖对应的程度区间。添加到直方图分箱中的邻近窗口中的各个样本用其梯度幅度和用高斯加权圆形窗口加权。作为结果的直方图中的峰值对应于主方向。一旦直方图被填充，对应于最高峰值和在最高峰值的80％内的局部峰值的方向被分配给关键点KP。在分配多个方向的情况下，对于每个额外的方向，创建具有和原始关键点相同的位置和尺度的额外关键点KP。

在阶段110结束时，从而生成一组关键点KP，以及对应的坐标C、提取关键点的尺度S、其主方向O、和峰值P，即，与所述关键点对应的DoG的绝对值(它表示关键点的对比度)。

描述符生成(阶段120)

下一个阶段120处理查询图像115，以便为每个关键点KP，计算对应的描述符D。在讨论的例子中，在阶段120计算的描述符D是SIFT类描述符。尽管关键点KP是按照确保对图像位置、尺度和旋转不变的方式提取的，不过，SIFT描述符D是按照高度与众不同，并且部分地对照度和视点不变的方式计算的。具体地，对于每个关键点KP，在以关键点KP位置为中心，并且按照关键点KP的主方向取向的4×4网格上，计算一组16个子直方图。每个子直方图包括8个分箱，每个分箱对应于相对于主方向成角度n*π/4(n＝0,1,…7)的方向；子直方图的各个分箱的频率与沿着利用所述分箱识别的方向考虑的对应于所述子直方图的网格单元(下面称为子区)的亮度梯度成比例。这种方向直方图的数值排列在数组中，形成关键点KP的描述符D。由于存在都具有8个分箱的4×4＝16个子直方图，因此描述符D是具有128个项目的数组。

如果在包括不同数目的单元的网格上，和/或在每个直方图的分箱数不同的情况下，计算SIFT描述符，那么本发明的原理也是可适用的。

此外，即使在所讨论的例子中，参考的是SIFT类描述符，在采用不同种类的描述符，比如快速鲁棒特征(SURF)和方向梯度直方图(HOG)，或者可能还有其它描述符的情况下，类似的考虑事项也适用。此外，即使已参考并且在下面将参考包含与亮度梯度有关的数据的描述符，不过如果考虑不同参数的梯度，类似的考虑事项也适用。事实上，本领域的技术人员众所周知，亮度仅仅是颜色的物理性质之一。从而，即使亮度已被确定为对图像分析来说要考虑的最佳(即，最鲁棒)的性质，也可考虑不同种类的描述符，例如包含和色度梯度、饱和度梯度或者甚至颜色(它包括亮度、饱和度和色度)梯度有关的数据的描述符。

如上所述，进行图像分析操作涉及相当大量的数据的管理；事实上，每个关键点KP与多个局部特征相联系(下面整体用附图标记LFkp识别)，包括坐标C、尺度S、主方向O和峰值P，以及由128个项目的数组形成的对应描述符D。为此，为了减少待管理(例如，待记忆和/或待传送)的数据的总量，按照本发明的实施例的提取过程100提供两种权宜之计，即：

1)通过选择最相关的关键点KP(从图像比较的观点来看)，以便获得关键点KP的最佳子集SUB，减少先前产生的关键点KP的数目，和

2)恰当地压缩坐标C和描述符D。

提取过程100的阶段130专用于最佳子集SUB的选择，阶段140专用于描述符D的压缩，阶段150专用于坐标C的压缩。

关键点的最佳子集的选择(阶段130)

按照本发明的实施例，通过为查询图像115的各个关键点P的至少一个局部特征LFkp-坐标C、尺度S、主方向O、峰值P和描述符D-计算至少一个对应的特征相关概率FRP，按照基于关键点KP的局部特征LFkp的特征相关概率FRP的关键点相关概率KRP，对关键点KP排序，随后选择具有最高的关键点相关概率KRP的关键点KP，来执行最佳子集SUB的选择。

按照本发明的实施例，通过使用在对基准图像数据库进行统计评估之后，已预先确定的对应参考统计分布Rsd，计算类属(generic)关键点KP的每个局部特征LFkp的特征相关概率FRP。

按照反映被认为对图像分析有用的关键点KP的局部特征LFkp的统计行为的方式，产生参考统计分布Rsd。

例如，在物体识别过程的情况下，基准图像数据库是包含多个图像对的数据库，每个图像对由描述相同物体/场景的两张照片组成。按照本发明的实施例，用以下方式产生参考统计分布。

首先，从基准数据库的所有图像中，提取关键点。随后，对所有提取的关键点的一个或多个选择的局部特征，进行第一统计分析，以便产生所述选择的局部特征的第一统计分布。局部特征的每个第一统计分布被排列成通过在从基准数据库的图像中提取的全部关键点之中，计数具有属于多个预定局部特征值区间(分箱)中的各个区间的所述局部特征的值的关键点的数目(关键点频率)而获得的直方图的形式。随后，对于各个图像对，匹配一张照片的关键点和另一张照片的关键点。利用图像比较过程(比如基于图像特征匹配的已知图像比较过程之中的任意一种)，处理所述关键点之间的匹配，以便识别哪些匹配正确(内点)和哪些匹配不正确(外点)。随后对先前考虑的一个或多个相同特征进行第二统计分析，以便产生用于计算特征相关概率FRP的参考统计分布Rsd。此时，通过对于各个分箱，计算属于内点，并且具有属于所述分箱的对应局部特征的值的关键点的数目，和具有属于相同分箱的对应局部特征的值的关键点(属于内点和属于外点的关键点)的总数之比，产生参考统计分布Rsd。申请人注意到第一统计分布和参考统计分布Rsd彼此完全不同。由于参考统计分布Rsd是考虑到涉及正确的特征匹配(内点)的关键点而产生的，因此申请人发现这种统计分布是对图像分析来说相关，并且尤其适合于有效地用在图像比较过程中的关键点(下面称为“相关关键点”)的统计行为的良好表示。

图2A-2F图解说明按照本发明的一些例证实施例的关键点KP的对应所选局部特征LFKP的一些统计分布Rsd。具体地，图2A-2F的参考统计分布Rsd是根据专门为物体识别应用而安排的基准数据库的图像产生的。如果考虑不同的图像分析应用，比如从多张不同的照片产生单张全景照片，那么基准数据库的图像，于是作为结果的参考统计分布Rsd会不同。

图2A是与关键点KP的坐标C相关的统计分布Rsd。对应直方图的各个分箱代表类属关键点KP距图像的中心的距离(用像素表示)。在讨论的例子中，考虑的图像是VGA图像(即，分辨率为640×480)，从而中心对应于坐标(320,240)。按照图2A中图解所示的直方图，具有最高关键点KP频率的分箱是对应于图像的中心的分箱。这意味关键点KP离中心越近，这样的关键点KP是相关关键点的概率越高；直方图频率的趋势随离中心的距离的增大而单调降低。这可容易地用当拍摄物体时，所述物体很可能被构图在照片的中央的事实来解释。必须要意识到在这种情况下，直方图的分箱并不都具有相同的宽度；这归因于各个分箱的宽度由(标量和/或矢量)量化器按照计算很少的分箱，从而避免发生过拟合现象的方式恰当地确定的事实。在采用(标量和/或矢量)均匀量化，即，直方图的所有分箱具有相同宽度的情况下，本发明的原理也适用。

图2B是与关键点KP的主方向O相关的统计分布Rsd。对应直方图的每个分箱代表类属关键点KP的主方向相对于水平线(对应于0弧度)的角度(用弧度表示)。按照图2B中图示的直方图，具有最高关键点KP频度的分箱是与平行于或垂直于水平方向的方向(即，对应于π/2、0、-π/2,-π)对应的分箱。这意味关键点KP的方向越接近于所述方向之一，该关键点KP是相关关键点的概率越高。这可容易地用当拍摄物体时，所述物体很可能被构图成以致主要平行和/或垂直于水平线地延伸的事实来解释。在这种情况下，同样借助量化器，确定分箱的宽度。

图2C图解说明与关键点KP的峰值P相关的统计分布Rsd。对应直方图的各个分箱代表类属关键点KP和相邻点之中的最相似点之间的对比度。按照图2C中图解所示的直方图，具有最高关键点KP频率的分箱是对应于最高峰值的分箱。这意味关键点KP的对比度越大，这种关键点KP是相关关键点的概率越高；直方图频率的趋势随对比度的增大而单调增大。这可容易地利用照片的具有高对比度的点易于辨认和识别的事实来解释。在这种情况下，同样借助量化器，确定分箱的宽度。

图2D是与关键点KP的尺度S相关的统计分布Rsd。对应直方图的各个分箱代表可按其提取关键点KP的特定尺度S。按照图2D中图解所示的直方图，具有最高关键点KP频率的分箱对应于中低尺度。在这种情况下，同样借助量化器，确定分箱的宽度。

图2E是与关键点KP的描述符D相关的第一统计分布Rsd。这种情况下，对应的直方图是三维的，其每个分箱对应于类属关键点KP的描述符D的两个参数，即，描述符D的均值(x轴)和方差(y轴)的区间值。直径越大的圆指示越大的频率值。由于均值和方差彼此相联系，因此一同地考虑它们，以形成相同的直方图。按照这种直方图，用较大的圆表示的具有最高的关键点KP频率的分箱是对应于最大均值和最小方差的分箱。这可用关键点KP的描述符D的均值越大，对应于所述关键点KP的亮度梯度越大，关键点KP的描述符D的方差越小，影响所述关键点KP的有害噪声越小的事实来解释。

图2F是与关键点KP的描述符D相关的第二统计分布Rsd。这种情况下，每个分箱对应于关键点KP的描述符D和相同图像的其它关键点KP的描述符D之间的特定最大距离。例如，可根据描述符之间的欧几里得距离计算所述最大距离。也可设想其它已知方法，比如使用对称化Kullback-Leibler散度。

返回图1，按照本发明的实施例，提取过程100的阶段130为在阶段110计算的各个关键点KP，计算：

-根据与所述关键点KP的坐标C相关的统计分布Rsd获得的第一个特征相关概率FRP1。检查对应于所述分布的直方图，以便识别其拟合所述关键点KP的坐标C的分箱；然后，特征相关概率FRP1被设定成等于识别的分箱的关键点频率。

-根据与所述关键点KP的主方向O相关的统计分布Rsd获得的第二个特征相关概率FRP2。检查对应于所述分布的直方图，以便识别其拟合所述关键点KP的主方向O的分箱；然后，特征相关概率FRP2被设定成等于识别的分箱的关键点频率。

-根据与所述关键点KP的峰值P相关的统计分布Rsd获得的第三个特征相关概率FRP3。检查对应于所述分布的直方图，以便识别其拟合所述关键点KP的峰值P的分箱；然后，特征相关概率FRP3被设定成等于识别的分箱的关键点频率。

-根据与所述关键点KP的尺度S相关的统计分布Rsd获得的第四个特征相关概率FRP4。检查对应于所述分布的直方图，以便识别其拟合所述关键点KP的尺度S的分箱；然后，特征相关概率FRP4被设定成等于识别的分箱的关键点频率。

-根据与所述关键点KP的描述符D的均匀和方差相关的统计分布Rsd获得的第五个特征相关概率FRP5。检查对应于所述分布的直方图，以便识别其拟合所述关键点KP的描述符D的元素的均值和方差的分箱；然后，特征相关概率FRP5被设定成等于识别的分箱的关键点频率。

-根据与所述关键点KP的描述符D和其它关键点KP的描述符D之间的最大距离(例如，欧几里德距离)相关的统计分布Rsd获得的第六个特征相关概率FRP6。检查对应于所述分布的直方图，以便识别其拟合所述距离的分箱；然后，特征相关概率FRP6被设定成等于识别的分箱的关键点频率。

于是，对于每个关键点KP，利用其局部特征的特征相关概率FRP至少之一，或者利用它们之间的组合，获得关键点相关概率KRP。例如，假定特征相关概率FRP彼此独立，通过使类属关键点KP的对应特征相关概率FRP彼此相乘，计算类属关键点KP的关键点相关概率KRP。通常，用于计算关键点相关概率KRP的不同的特征相关概率FRP的数目越大，采用这种方法可获得的结果越好。通过考虑用于视觉搜索应用的SIFT描述符的例子，为计算关键点相关概率而考虑的特征相关概率最好至少包括对应于尺度、峰值和距中心的距离的那些特征相关概率。

图2G是其中借助对应的圆点，识别多个关键点的例证照片，每个圆点具有与关键点的相关概率KRP成比例的直径。

一旦计算了在阶段110中提取的所有关键点KP的关键点相关概率KRP，就按照递减的关键点相关概率KRP顺序，按序列对所述关键点KP排序。随后，通过从排序序列的前几个关键点KP中取出多个关键点KP(根据期望的待管理的数据量的减少)，形成最佳子集SUB。属于最佳子集SUB的所选关键点KP结果是在阶段110中提取的全部关键点KP之中的最相关关键点KP(从图像比较的观点来看)。这样，通过仅仅考虑相关关键点KP，并丢弃不太有用的那些关键点KP，灵巧并且高效地实现数据总量的减小。

要强调的是尽管按照上面说明的本发明的实施例的关键点的最佳子集的选择采用通过对于各个分箱，计算具有属于所述分箱的对应局部特征的值的关键点内点，和具有属于相同分箱的对应局部特征的值的关键点的总数之比而获得的对应统计分布Rsd，计算各个特征相关概率，不过在采用利用不同的方式，甚至人工方法获得的不同的统计学上等同的统计分布的情况下，本发明的原理也可适用。在下面的说明中，如果两种统计分布允许从相同的一组关键点，获得相似的特征相关概率，那么这两种统计分布被认为在统计学上彼此等同。

描述符的压缩(阶段140)

按照本发明的实施例，通过使用数目减少的优化的码本，通过矢量量化进行描述符D的压缩。

图3A图解说明与类属关键点KP对应的SIFT类的例证描述符D(在图1的提取过程100的阶段120产生的描述符D中的，已被选为最佳子集SUB的一部分的一个描述符D)。如上所述，描述符D包含16个子直方图shi(i＝1,2,…,16)，每个子直方图表示图像的接近于关键点KP的相应子区的亮度梯度沿着8个方向是如何分布的。具体地，各个子直方图shi与对应于4×4网格的16个单元之一的子区相联系，所述4×4网格以关键点KP位置为中心，并且是按照关键点KP的主方向O取向的；每个子直方图shi包括8个分箱，每个分箱对应于相对于主方向O，成角度n*π/4(n＝0,1,…7)的方向。

如图3B中所示，描述符D的所有方向直方图shi的值被布置在图中用附图标记DA识别的对应描述符数组中。描述符数组DA包含16个元素ai(i＝1,2,…,16)，每个元素ai保存对应的子直方图shi(i＝1,2,…,16)所取的值；每个元素ai又包含8个相应的子元素，每个子元素保存与子直方图shi的8个分箱中的相应一个分箱对应的频率值。从而，每个描述符数组DA包括16*8＝128个子元素。通过考虑到在SIFT描述符D中，典型的频率值为0～255，因此描述符数组DA的各个子元素可用一个字节表示；于是，描述符数组DA的存储空间占用等于128字节。从而，再次参考图1的提取过程100，对应于属于所选最佳子集SUB的关键点KP的所有描述符D的数据的数量(用字节表示)等于128×最佳子集SUB的关键点KP的数目。

为了减少数据的数量，通过矢量量化，压缩对应于这种描述符D的描述符数组DA。

本领域的技术人员众所周知，通过使用矢量量化，压缩由n个元素(n元组)形成的数据数组包括把数据数组可取的所有可能的n元组值的集合联合地量化成包含数目较少的n元组值(所述值甚至可不同于待量化的集合的值)的缩减集合。由于缩减集合包含数目较少的n元组值，因此它需要较小的存储空间。形成缩减集合的n元组值也被称为“代码字”。每个代码字与数组可取的对应一组不同的n元组值相联系。借助对应的码本，确定数据数组的n元组值和代码字之间的联系关系。

具体参考描述符数组DA，描述符数组DA包括16个元素ai，元素ai又由其值均为0～255的8个子元素形成，描述符数组DA可以取N＝256¹²⁸个不同的16元组值。通过应用通过矢量量化的压缩，用码本的数目N1<N的代码字近似所述N个不同的16元组值。码本确定每个代码字和描述符数组DA的对应一组16元组值之间的联系关系。于是，码本的每个代码字是用于“近似”描述符数组DA的对应一组16元组值的16元组值。矢量量化是可通过称为失真的参数，测量其精度的有损数据压缩。例如，可以码本的类属代码字和利用所述代码字近似的数组的n元组值的集合之间的欧几里德距离的形式，计算失真。即使利用不同的方法计算失真，类似的考虑事项也适用。总之，一般来说，码本的代码字的数目N1越大，压缩的失真越小。

本领域的技术人员众所周知，一般通过对包括一批数量很大的训练数组的训练数据库，进行统计操作(称为训练操作)，实现码本的代码字的生成。具体参考描述符数组DA，训练数据库可包括数百万个训练描述符数组，其中每个训练描述符数组是描述符数组DA可采取的N＝256¹²⁸个可能的16元组值之一。

按照图4中图解所示的解决方案，利用包含N1个16元组值代码字CWj(j＝1,2,…N1)的单一码本CBK，压缩整个描述符数组DA。于是，在N1个不同的代码字CWj的情况下，识别代码字所需的最小比特数等于log₂N1。如上所述，通过对多个训练描述符数组进行训练操作，产生这样的单个码本CBK的N1个不同代码字CWj，其中每个训练描述符数组是描述符数组DA可取的N＝256¹²⁸个可能的16元组值之一。

为了使压缩失真保持低于充分降低的阈值，以便不影响后续的图像分析操作的结果，所需的代码字数目N1可能变得很大。按照不同的观点，使码本由数目N1过高的代码字形成是不利的。事实上，用于产生代码字的训练数组的数目会变得过多，从而处理时间会变得过长。此外，为了通过使用码本进行压缩操作，构成码本的全部N1个代码字必须被存储在某处，占用数量不容忽视的存储空间。后一缺陷相当关键，因为用于图像分析应用的硬件(例如，图形处理单元，GPU)可能未配备容量如此大的存储器。

参见图4B，为了减少要管理的代码字CWj的总数，而不增大失真，描述符数组DA可被细分成多个子数组SDAk(k＝1,2,…)，每个子数组包含描述符数组DA的相应数目mk的元素ai，随后利用包含N2个mk-元组值代码字CWj(j＝1,2,…N2)的相应码本CBKk，单独地压缩各个子数组SDAk。

在图4B中例示的例子中，描述符数组DA被细分成4个子数组SDAk(k＝1,2,3,4)，每个子数组包含描述符数组DA的mk＝4个元素ai：

-第一个子数组SDA1由元素序列a1,a2,a3,a4形成；

-第二个子数组SDA2由元素序列a5,a6,a7,a8形成；

-第三个子数组SDA3由元素序列a9,a10,a11,a12形成；

-第四个子数组SDA4由元素序列a13,a14,a15,a16形成。

利用包含N24-元组值代码字CWj(j＝1,2,…N2)的相应码本CBKy(y＝k)，进行各个子数组SDAk的压缩。于是，在4*N2个不同代码字CWj的情况下，识别所有代码字所需的最小比特数等于4*log₂N2。即使在所考虑的情况下，利用包含相同数目N2的代码字CWj的码本CBKy，压缩了各个子数组SDAk，在利用相应的不同数目的代码字CWj，压缩各个子数组SDAk的情况下，类似的考虑事项也适用。

在图4B中图解所示的情况下，通过对训练描述符数组的相应子集进行训练操作，进行各个码本CBKy的N2个不同代码字CWj的产生。码本CBKk的训练描述符数组的各个子集对应于4个子数组SDAk之一，并且可通过从用于产生图4A的单个码本CBK的各个训练描述符数组中，只考虑其与子数组SDAk对应的一部分而获得。例如，为了产生码本CBK1，只采用用于产生图4A的单个码本CBK的16元组训练描述符数组中的前4个元素a1,a2,a3,a4。

与图4A的其中利用由维度与描述符数组DA本身相同的代码字CWj(16个元素)形成的单个码本CBK压缩整个描述符数组DA的情况相比，利用具有其(较小)维度mk的子数组SDAk(例如，mk＝4元素)的代码字CWj形成的码本CBKy允许利用相同数目的代码字CWj，获得较小的失真。

在固定代码字CWj的总数的情况下，描述符数组DA被细分成的子数组SDAk的数目越大，失真越小，不过同时，为识别所有代码字CWj而需要的分箱的最小数目越大。

按照本发明的实施例，通过考虑到描述符数组DA的元素ai之间的关联关系的发生，进行描述符数组DA到压缩用子数组SDAk的细分。

如参考图3A和3B所述，描述符数组DA的每个元素ai保存与相应子区相联系的子直方图shi的取值，所述相应子区又对应于以对应于所述描述符数组DA的关键点KP为中心的4×4网格的单元。

按照在图5中图解所示的本发明的实施例，在对大量的描述符数组DA进行统计行为分析(例如，使用训练数据库的训练描述符数组)之后，发现类属关键点KP的子直方图shi可被布置在关联族CFx(x＝1,2,3,4)中，每个关联族CFx包含具有相似的统计行为，即，具有分箱频率的相似趋势的一组关联的子直方图shi。例如，属于相同关联族CFx的两个子直方图shi可在相同(或相似)的分箱，具有相似数目的频率峰值。

用于形成关联族CFx的统计行为分析表明在固定用于压缩描述符数组DA的代码字CWj的最大数的情况下，如果关联族CFx中的子直方图shi的排列被改变(通过把子直方图shi分配给不同的关联族CFx)，那么作为结果的失真相应地变化。从而通过考虑所有可能的子直方图shi细分之中的对应于最小失真的子直方图shi细分，形成关联族CFx。

在进行了这样的统计行为分析之后，发现两个子直方图shi的统计行为之间的关联性取决于两个主要参数，即，与子直方图shi相联系的子区距关键点KP的距离及其主方向。

参见图5，关键点KP的16个子直方图shi被布置在4个关联族中，即：

-包含子直方图sh1,sh4,sh13和sh16的第一个关联族CF1；

-包含子直方图sh2,sh3,sh14和sh15的第二个关联族CF2；

-包含子直方图sh5,sh8,sh9和sh12的第三个关联族CF3；

-包含子直方图sh6,sh7,sh10和sh11的第四个关联族CF4。

按照本发明的实施例，有利的是利用上面识别的关联族CFx，以便利用数目减少的优化码本CBKy，压缩描述符数组DA。按照至少两个子数组SDAk具有相同的全局(即，考虑其所有元素)统计行为的方式，进行描述符数组DA到子数组SDAk的细分；按照这种方式，能够利用单个码本CBKy压缩不止一个子数组SDAk。为此，按照获得一组或多组子数组SDAk的方式，进行描述符数组DA的细分，其中对每个组来说，在所述组中的所有子数组SDAk中，占据相同位置的元素ai属于相同的关联族CFx。于是，有利的是可利用相同的对应码本CBKy，压缩属于相同组的所有子数组SDAk，所述对应码本CBKy的代码字CWj是通过在用于产生图4A的单个码本CBK的各个训练描述符数组中，只考虑它的属于关联族CFx的元素获得的，其中所述组的子数组SDAk的元素ai属于所述关联族CFx。

按照在图6A中图解所示的本发明的例证实施例，描述符数组DA被细分成布置在单一组中的4个子数组SDA1-SDA4。于是，利用相同的码本CBK1，压缩所有的子数组SDAk。具体地：

-第一个子数组SDA1由元素序列a1,a2,a6,a5形成；

-第二个子数组SDA2由元素序列a4,a3,a7,a8形成；

-第三个子数组SDA3由元素序列a16,a15,a11,a12形成；

-第四个子数组SDA4由元素序列a13,a14,a10,a9形成；

这种情况下：

-各个子数组SDAk的第一个元素ai属于第一个关联族CF1；

-各个子数组SDAk的第二个元素ai属于第二个关联族CF2；

-各个子数组SDAk的第三个元素ai属于第四个关联族CF4；

-各个子数组SDAk的第四个元素ai属于第三个关联族CF3。

用于压缩类属子数组SDA1-SDA4的码本CBK1包括N3个代码字CWj，其中每个代码字CWj具有属于第一个关联族CF1的第一个元素，属于第二个关联族CF2的第二个元素，属于第四个关联族CF4的第三个元素，和属于第三个关联族CF3的第四个元素。

在N3个不同代码字CWj的情况下，识别所有代码字所需的最小比特数等于4*(log₂N3)。

按照图6B中图解所示的本发明的另一个例证实施例，描述符数组DA被细分成布置在单一组中的两个子数组SDA1，SDA2。于是，利用相同的码本CBK1，压缩所有的子数组SDAk。具体地，

-第一个子数组SDA1由元素序列a1,a2,a3,a4,a5,a6,a7,a8形成，

-第二个子数组SDA2由元素序列a13,a14,a15,a16,a9,a10,a11,a12形成。

这种情况下：

-各个子数组SDAk的第一和第四个元素ai属于第一个关联族CF1；

-各个子数组SDAk的第二和第三个元素ai属于第二个关联族CF2；

-各个子数组SDAk的第五和第八个元素ai属于第三个关联族CF3；

-各个子数组SDAk的第六和第七个元素ai属于第四个关联族CF4。

用于压缩类属子数组SDA1，SDA2的码本CBK1包括N4个代码字CWj，其中每个代码字CWj具有属于第一个关联族CF1的第一和第四个元素，属于第二个关联族CF2的第二和第三个元素，属于第三个关联族CF3的第五和第八个元素，和属于第三个关联族CF3的第六和第七个元素。

在N4个不同代码字CWj的情况下，识别所有代码字所需的最小比特数等于2*(log₂N4)。

按照图6C中图解所示的本发明的另一个例证实施例，描述符数组DA被细分成6个子数组SDA1-SDA6，其中的4个子数组(SDA1-SDA4)被布置在第一组中，2个子数组(SDA5，SDA6)被布置在第二组中。于是，利用相同的第一个码本CBK1，压缩子数组SDA1-SDA4，而利用相同的第二个码本CBK2，压缩子数组SDA5-SDA6。具体地：

-第一个子数组SDA1由元素序列a5,a1,a2形成；

-第二个子数组SDA2由元素序列a8,a4,a3形成；

-第三个子数组SDA3由元素序列a9,a13,a14形成；

-第四个子数组SDA4由元素序列a12,a16,a15形成；

-第五个子数组SDA5由元素序列a6,a7形成；

-第六个子数组SDA6由元素序列a10,a11形成。

这种情况下：

-第一组的各个子数组SDA1-SDA4的第一个元素ai属于第三个关联族CF3；

-第一组的各个子数组SDA1-SDA4的第二个元素ai属于第一个关联族CF1；

-第一组的各个子数组SDA1-SDA4的第三个元素ai属于第二个关联族CF2；和

-第二组的各个子数组SDA5-SDA6的第一个和第二个元素ai属于第四个关联族CF4。

用于压缩属于第一组的类属子数组SDA1-SDA4的码本CBK1包括N5个代码字CWj，其中每个代码字CWj具有属于第三个关联族CF3的第一个元素，属于第一个关联族CF1的第二个元素，和属于第二个关联族CF2的第三个元素。用于压缩属于第二组的类属子数组SDA5-SDA8的码本CBK2包括N6个代码字CWj，其中每个代码字CWj具有属于第四个关联族CF4的第一个和第二个元素。

在N5+N6个不同代码字CWj的情况下，识别所有代码字所需的最小比特数等于4*(log₂N5)+2*(log₂N6)。

按照图6D中图解所示的本发明的另一个例证实施例，描述符数组DA被细分成8个子数组SDA1-SDA8，其中的4个子数组(SDA1-SDA4)被布置在第一组中，4个子数组(SDA5-SDA8)被布置在第二组中。于是，利用相同的第一码本CBK1，压缩子数组SDA1-SDA4，而利用相同的第二码本CBK2，压缩子数组SDA5-SDA8。具体地：

-第一个子数组SDA1由元素序列a5,a1形成；

-第二个子数组SDA2由元素序列a8,a4形成；

-第三个子数组SDA3由元素序列a9,a13形成；

-第四个子数组SDA4由元素序列a12,a16形成；

-第五个子数组SDA5由元素序列a6,a2形成；

-第六个子数组SDA6由元素序列a7,a3形成；

-第七个子数组SDA7由元素序列a10,a14形成；

-第八个子数组SDA8由元素序列a11,a15形成。

这种情况下：

-第一组的各个子数组SDA1-SDA4的第一个元素ai属于第三关联族CF3；

-第一组的各个子数组SDA1-SDA4的第二个元素ai属于第一关联族CF1；

-第二组的各个子数组SDA5-SDA8的第一个元素ai属于第四关联族CF4；

-第二组的各个子数组SDA5-SDA8的第二个元素ai属于第二关联族CF2。

用于压缩属于第一组的类属子数组SDA1-SDA4的码本CBK1包括N7个代码字CWj，其中每个代码字CWj具有属于第三关联族CF3的第一个元素，和属于第一关联族CF1的第二个元素。用于压缩属于第二组的类属子数组SDA5-SDA8的码本CBK2包括N8个代码字CWj，其中每个代码字CWj具有属于第四关联族CF4的第一个元素，和属于第二关联族CF2的第二个元素。

于是，在N7+N8个不同代码字CWj的情况下，识别所有代码字所需的最小比特数等于4*(log₂N7)+4*(log₂N8)。

自然地，在细分成不同数目的子数组和/或在不同数目的码本的情况下，本发明的原理也适用。此外，即使在本说明中，提及在每个直方图8个分箱的情况下，在包括4×4单元的网格上计算的SIFT描述符的压缩，不过如果单元的数目和/或每个直方图的分箱的数目不同，以及考虑其它种类的描述符，相似的考虑事项也适用。

与已知的解决方案相比，在压缩失真相同的情况下，组合地使用把描述符数组DA细分成子数组SDAk，并把相同的码本CBKy用于不止一个子数组SDAk使得可以显著减小为保存用于压缩描述符数组DA的码本CBKy而需要的存储空间。这是一个重大优点，因为如前所述，用于图像分析应用的硬件(例如，图形处理单元，GPU)可能未配备容量如此大的存储器。组合地使用把描述符数组DA细分成子数组SDAk，并把相同的码本CBKy用于不止一个子数组SDAk所产生的另一个优点在于用于产生码本CBKy的训练过程结果会更快。

结果，在提取过程100(参见图1)的阶段140，对每个接收的描述符D进行的压缩操作产生近似各个描述符数组DA的取值的对应压缩描述符数组CDA。更具体地，对于用于压缩描述符数组DA的每个码本CBKy，这种码本CBKy的每个代码字CWj由对应的压缩索引Cy识别；如果码本CBKy由N个不同的代码字CWj形成，那么压缩索引Cy由至少log₂N个比特形成。对已被细分成一组子数组SDAk的描述符数组DA来说，对应的压缩描述符数组CDA包含所述一组子数组中的每个子数组SDAk的压缩索引Cy，其中每个压缩索引Cy识别用于近似所述子数组SDAk的码本CBKy的代码字CWj。

坐标的压缩(阶段150)

按照本发明的实施例，通过压缩属于在提取过程100(参见图1)的阶段130计算的最佳子集SUB的关键点KP的坐标C，进一步减少为进行图像分析操作而要管理(例如，要记忆和/或传送)的数据的数量。

图7A图解说明对应于查询图像115的二维空间内的最佳子集SUB的关键点KP的例证分布；每个关键点KP与识别查询图像115内的这种关键点KP的位置的对应一对空间坐标C相联系。

首先，量化子集SUB的所有关键点KP的坐标C。为此，在查询图像115上叠加n x m网格。在图7B中图解所示的例子中，所述网格具有n＝10行和m＝15列。

随后通过对网格的各个单元(对应于直方图的分箱)，计数位于其中的关键点KP的数目，产生二维直方图。图7C是通过把图7B的网格叠加在图7A的一组关键点KP之上而获得的直方图的例证图形描述。在图7C的图形描述中，没有关键点KP的单元被涂成黑色，而包括至少一个关键点KP的单元被涂成灰色。在讨论的例子中(其中包括最大数目的关键点的单元包括2个关键点)，包括单个关键点KP的单元被涂成深灰色，而包括两个关键点KP的那些单元被涂成浅灰色。

从关键点计数获得的直方图具有许多其频率等于0的分箱，即，对应的单元不包括任何关键点KP(图7C中描述的黑色单元)。

可考虑到直方图的对应于零频率分箱的各个部分只提供其对应单元不包括任何关键点的信息，有利地压缩表示直方图的数据。

为此，有利的是，可除去网格的完全由不包括任何关键点KP的单元形成的各行和各列。不过，由于所述各行和/或各列的除去会变更关键点KP的绝对位置和相对位置，因此应记录没有关键点KP的所有各行和各列的位置(包括与待除去的各行和/或各列对应的那些位置)的指示。

为此，按照以下方式，定义两个数组r和c：

-数组r是包括网格的各行的元素的数组，其中如果网格的对应单元不包括任何关键点KP，那么该数组的类属元素被设定成第一个值(例如，0)，而如果网格的对应单元包括至少一个关键点KP，那么该数组的类属元素被设定成第二个值(例如，1)，

-数组c是包括网格的各列的元素的数组，其中如果网格的对应单元不包括任何关键点KP，那么该数组的类属元素被设定成第一个值(例如，0)，而如果网格的对应单元包括至少一个关键点KP，那么该数组的类属元素被设定成第二个值(例如，1)。

一旦产生了数组r和c，下一个步骤就识别完全由不包括任何关键点KP的单元形成的各行和/或各列。参考所讨论的例子，在图7D中，用黑色描述这样的各行和各列。

网格的完全由不包括任何关键点KP的单元形成的各行和/或各列随后被除去，最后所得到的网格的各个部分被压紧，以便填充利用所述去除而留下的空白空间。从而，在最后得到的(压紧的)网格(称为rank-1支持(support))中，所有行和所有列都包括包含至少一个关键点KP的至少一个单元。图7E中图解说明了与讨论的例子对应的rank-1support上的直方图。

从这样的直方图，可以提取两条不同的信息，即：

1)包括至少一个关键点KP的rank-1support的各个单元的位置，

2)对于在1)识别的rank-1support的各个单元，包含在其中的关键点KP的数目。

有利的是，如S.Tsai,D.Chen,G.Takacs,V.Chandrasekhar,J.P.Singh和B.Girod在“Location coding for mobile image retrieval”(Proc.Int.Mobile MultimediaConference(MobiMedia),2009)中提出的那样，通过采用所谓的“直方图映射”，可以提取对应于1)的信息，而对应于2)的信息可被布置在所谓的“直方图计数”中。

直方图映射是识别其具有等于或大于1的频率的分箱的rank-1support之上的直方图的二维映射。图7F中图示了与图7E的rank-1support之上的直方图对应的直方图映射。

直方图映射可用对应的矩阵表示，如果rank-1support的对应单元不包括任何关键点KP，那么其类属元素等于0，而如果rank-1support的对应单元包括至少一个关键点KP，那么其类属元素等于1。图7F中图解所示的直方图映射的矩阵是以下矩阵：

按照本发明的实施例，通过利用根据从大量的训练图像的分析学习到的例证rank-1support直方图的统计行为而优化的熵编码，可有利地压缩利用直方图映射提供的信息。

从这样的分析，发现关键点KP在类属图像内的位置是这样的位置，以致必然伴有“1”在直方图映射的矩阵内的常见统计分布。

按照以下方式，进行熵编码。

扫描直方图映射的矩阵(例如，逐列地)，以便把其细分成都具有相同长度x的多个词。根据对训练图像进行的统计分析，产生词直方图，所述词直方图包括用于类属词的x元组可取的各个可能值的分箱，同时各个分箱的频率指示所述词的x元组取与该分箱有关的值的概率。简要地，通过假定直方图映射的矩阵的元素彼此独立，进行了这种统计分析。通过分析数量非常大的训练图像，可以识别每n个“0”，在矩阵中出现“1”的概率；随后，根据这样的概率，产生词直方图。

图8A图解说明其中词的长度x等于6，并且其中利用对应的x元组值的十进制值识别各个分箱的词直方图的例子。正如所料，最高频率对应于x元组(0,0,0,0,0,0)，因为rank-1support的类属单元不包括任何关键点KP的概率非常高。次最高概率对应于单元的单个关键点KP(x元组(1,0,0,0,0,0),(0,1,0,0,0,0),(0,0,1,0,0,0),(0,0,0,1,0,0),(0,0,0,0,1,0),(0,0,0,0,0,1))，接下来的概率对应于单元的两个关键点KP，依次类推。

通过对每个词使用比特数取决于词直方图中的对应分箱的概率的编码字bci(i＝1,2,…)，利用熵编码技术(例如，Huffman技术或运算编码技术)，编码各个词。词的概率越高，用于编码该词的编码字bci的比特数越小。

可从rank-1support之上的直方图提取的另一个信息涉及包括在直方图映射的包含至少一个关键点KP的各个单元中的关键点KP的数目。这种信息被布置在称为直方图计数的对应直方图中。直方图计数的各个分箱对应于rank-1support的各个单元中的包括至少一个关键点KP的对应一个单元。直方图计数对于每个分箱，列举包含在对应单元中的关键点KP的数目。图8B中例示了所讨论的例子的直方图映射，其中11个单元分别包括一个关键点KP，2个单元分别包括2个关键点KP。图8B的直方图映射的分箱是依据rank-1support的按列扫描排序的。

利用直方图计数提供的关键点计数信息被编码成一组不同长度的编码字wj(j＝1,2,…)，所述一组编码字中的各个编码字wj指示相应一组直方图计数分箱中的哪个或哪些分箱对应于数目大于或等于一定值的关键点KP。

更具体地，如果在各个分箱内计数的关键点KP的最大数等于Nmax，那么所述一组编码字wj包含数目等于Nmax-2的编码字wj。通过进行一组Nmax-2个过程步骤之中的对应一个步骤，实现各个编码字wj的产生。按照本发明的实施例，下面说明该过程的各个步骤。

步骤1-第一个编码字w1被设定成包括直方图映射的每个分箱的元素。于是，第一个编码字w1包括数目等于直方图映射的分箱数的元素。第一个编码字w1的各个元素被设定成第一个值(例如，“1”)，如果直方图计数的对应分箱对应于大于1的关键点KP的数目，否则被设定成第二个值(例如，“0”)。如果Nmax大于2，那么进行第二步骤，以便产生第二个编码字w2，否则终止该处理。在后一情况下，结果只用第一个编码字w1，编码利用直方图计数提供的全部信息。

步骤j(j>1)-生成第j个编码字wj。第j个编码字wj被设定成包括直方图映射的包含不止j个关键点KP的各个分箱的元素。于是，第j个编码字wj包括数目等于或小于j-1个编码字w(j-1)的元素。第j个编码字wj的各个元素被设定成第一个值，如果直方图计数的对应分箱对应于大于j的关键点KP的数目，否则被设定成第二个值。如果Nmax大于j+1，那么进行第(j+1)步骤，以便产生第(j+1)个编码字w(j+1)，否则终止该处理。在后一情况下，用编码字w1-wj编码利用直方图计数提供的全部信息。

在提取过程100(参见图1)的阶段150中进行的比较操作使得对于属于子集SUB的关键点KP的坐标C，可以获得对应的压缩坐标集CC，包括：

-数组r和数组c；

-编码字bci，和

-编码字wj。

为管理(存储和/传送)压缩坐标集CC而需要的数据量明显低于为管理(未压缩的)坐标C的集合而需要的数据量。

匹配过程(图9)

图9利用功能块，图解说明按照本发明的实施例的图像分析过程(下面称为“匹配过程”)900，所述匹配过程900目的在于通过把利用图1的提取过程100产生的关键点的相应最佳子集，和对应的压缩描述符及坐标用于各个图像，进行两个图像I1、I2之间的比较。

匹配过程900的各个步骤由恰当的处理单元进行；例如，各个处理单元可以是专门为进行所述过程的一个或多个步骤而设计的硬件单元。一种可能的情形是用户(客户端侧)期望使用图像比较服务(服务器侧)来比较图像I1和图像I2。这种情况下，可按照图1的提取过程100，在客户端处理图像I1和I2，以便产生关键点的最佳子集和对应的压缩描述符及坐标；随后，关键点的最佳子集和对应的压缩描述符和坐标被发送给服务器，服务器使用接收的数据，进行匹配过程900，随后把结果提供给客户端。这种情况下，可用位于客户端的处理单元，例如，借助用户的智能电话机，进行提取过程100，而利用位于服务器的处理单元，例如，借助适合于提供图像比较服务的一个或多个服务器单元，进行匹配过程900。另一种可能的情形可改为在客户端，直接进行匹配过程900。也可构思其中利用服务器发送的压缩描述符和坐标，在客户端进行匹配过程900的混合情形。

图像I1的压缩坐标用附图标记CC1识别，而图像I1的压缩描述符用附图标记CDA1识别。类似地，图像I2的压缩坐标用附图标记CC2识别，而图像I2的压缩描述符用附图标记CDA2识别。

第一个图像I1的压缩描述符CDA1被解压缩，以便检索对应的(解压缩)描述符D1(阶段902)。类似地，第二个图像I2的压缩描述符CDA2被解压缩，以便检索对应的(解压缩)描述符D2(阶段904)。通过颠倒在提取过程100的阶段140中进行的压缩操作，可进行描述符的解压缩。参考SIFT类描述符，在阶段902和904之后，从而用由128个子元素形成的对应描述符数组表示描述符D1和D2。

在阶段906，通过利用本领域已知的特征匹配算法之中的任意一种算法，比如欧几里德距离比校验，形成第一个图像I1的描述符D1和第二个图像I2的描述符D2之间的匹配。

随后，在阶段908，进行几何验证操作，以确定在阶段906形成的匹配之中的哪些匹配正确(内点)，哪些匹配不正确(外点)。本领域的技术人员已知，除了描述符之外，这种操作还需要其对应描述符已与另一个关键点的描述符匹配的各个关键点的坐标。为此，也应例如通过颠倒在提取过程100的阶段150中进行的压缩操作，解压缩图像I1的压缩坐标CC1和图像I2的压缩坐标CC2。在图9中，专用于压缩坐标CC1的解压缩的阶段用附图标记910识别，而专用于压缩坐标CC2的解压缩的阶段用附图标记912识别。一旦识别出内点，作为结果，几何验证就可提供指示图像I1和I2之间的匹配度的参数DOM。例如，如果所述参数DOM大于预定阈值，那么认为图像I1和I2描述相同的物体/场景。

另外，还可进行定位操作(阶段914)，以便取回所述相同物体/场景在这两个图像I1、I2内的位置L。

参见前面提及的客户端-服务器图像比较情形，由于匹配过程900被配置成使用数目缩减的关键点(只使用属于借助提取过程100产生的子集SUB的关键点)来进行，并且由于压缩地接收所述数量缩减的关键点的描述符和坐标，因此与已知的解决方案相比，提出的解决方案显著减少待从客户端传送给服务器的数据的总量。

检索过程(图10)

图10利用功能块，图解说明按照本发明的实施例的图像分析过程(下面称为“检索过程”)1000，其中比较描述待识别的物体/场景的查询图像-比如图1的查询图像115和保存在模型数据库中的多个模型图像-每个模型图像描述相应的已知物体/场景，以便检索描述在查询图像中描述的相同物体/场景的模型图像。

类似于图9的匹配过程900，检索过程1000的各个步骤由恰当的处理单元进行；例如，各个处理单元可以是专门为进行所述过程的一个或多个步骤而设计的硬件单元。典型的情形是用户(客户端侧)期望使用图像识别服务(服务器侧)，以便自动识别在查询图像115中描述的物体/场景。这种情况下，可按照图1的提取过程100，在客户端处理查询图像115，以便产生关键点的最佳子集SUB，和对应的压缩描述符CDA及坐标CC；随后，关键点的最佳子集和对应的压缩描述符及坐标被发送给服务器，服务器使用接收的数据进行检索过程1000，随后把结果提供给客户端。用于在查询图像115中描述的物体/场景的识别的多个模型图像被保存在模型数据库1002中，模型数据库1002位于服务器侧。

压缩的描述符CDA被解压缩，以便检索对应的(解压缩)描述符DD(阶段1004)。通过颠倒在提取过程100的阶段140中进行的压缩操作，可进行描述符的解压缩。再次参考SIFT类描述符，在阶段1004之后，从而用由128个子元素形成的对应描述符数组表示描述符DD。

由于标准的物体识别过程一般需要执行查询图像和非常大量的模型图像(例如，包含在模型数据库1002中的模型图像可以为几百万个)之间的比较操作，因此这种过程既费时，又费存储器。为此，已知的解决方案分两个不同阶段地进行这样的比较操作。代替直接比较查询图像的描述符和所有模型图像的描述符，在从查询图像中提取的视觉词和从模型图像中提取的视觉词之间，预先进行快速的粗略比较；随后，只在查询图像的描述符，和根据预先比较而选择的缩减的一组模型图像的描述符之间，进行描述符的(精细)比较。视觉词是通过进行描述符的矢量量化而获得的数组；换句话说，每个视觉词是视觉码本的代码字。对查询图像的每个描述符和模型图像的每个描述符，进行视觉词的产生。例如，通过计数查询图像和各个模型图像之间共有的视觉词的数目，进行预先比较。随后，对于各个模型图像，根据共有的视觉词的数目的计数，计算相似秩(similitude rank)。如果通过利用备选方法，比较视觉词而产生相似秩，那么类似的考虑事项也适用。这样，有利的是，可以只在查询图像和具有最高相似秩的模型图像(即，具有与查询图像共有的最大数目的视觉词的模型图像)之间，进行描述符之间的精细比较。从文本分析领域得到的这种方法也被称为“借助特征袋(BoF)的秩评定”。

再次参见图10，为了允许进行借助BoF的秩评定，必须产生查询图像的各个描述符的视觉词VD和各个模型图像的各个描述符的视觉词VDR。

要指出的是为了允许视觉词之间的比较，应利用相同的码本，产生视觉词VD和视觉词VDR。

尽管每次进行检索过程1000时，必须产生查询图像115的视觉词VD(阶段1006)，以便显著减少操作时间，不过，有利的是，模型图像的视觉词VDR的产生可以只进行一次，随后作为结果的多个视觉词VDR可被直接保存在模型数据库1002中；另一方面，视觉词VDR可被定期更新。

在对于查询图像的各个描述符DD，产生对应的视觉词VD之后，在阶段1008中，随后进行借助BoF的秩评定过程。这样，对于各个模型图像，通过计数所述模型图像的视觉词VDR(也是查询图像的视觉词VD)的数目，计算秩索引。可以利用也称为Invertedindex的已知的借助BoF的秩评定实现，进行这种计数。不过，在应用不同实现的情况下，类似的考虑事项也适用。一旦计算了所有的秩索引，就产生其中按照秩索引递减顺序，对数据库的模型图像排序的列表。随后，选择具有最高秩索引值的模型图像的集合SR，以便进行后续的(精细)比较操作。

要指出的是由于按照本发明的实施例，各个图像的描述符的数目被有利地减小，仅仅对应于被认为相关的关键点的最佳子集SUB(参见图1的提取过程100的阶段130)，因此极大地减少必须被载入工作存储器(例如，位于服务器侧的RAM组)中的，为进行借助BoF的秩评定过程(阶段1008)所需的数据的数量，从而显著提高处理的速度。此外，由于通过只考虑被认为相关的关键点的描述符，进行所述比较，因此比较的精度被提高，因为噪声被减小。为了进一步提高速度和精度，对于包含在模型数据库1002中的各个模型图像，也产生包含数量缩减的描述符的最佳子集。

已发现形成最佳子集SUB的关键点的数目强烈地影响借助BoF的秩评定的结果。事实上，在考虑的图像的数目相同的情况下，在查询图像115中描述的物体/场景也出现在属于模型图像的所选集合SR的模型图像至少之一中的概率随着最佳子集SUB的关键点的数目的减小而增大。不过，如果最佳子集SUB的关键点的所述数目低于较小的阈值，那么该过程的性能降低，因为包含在子集SUB中的关键点的数目变得太小，以致不能令人满意地表示各个图像。

此时，在查询图像115与模型图像的集合SR之间，进行另一种精细的比较(阶段1010)。可以采用已知的特征匹配过程之一来匹配查询图像115的描述符DD和集合SR的模型图像的描述符(子阶段1012)，例如，通过计算描述符之间的欧几里德距离，随后进行几何验证，以确定哪些匹配是内点，哪些是外点(子阶段1014)。这样，如果它存在的话，那么在该阶段结束时，检索集合SR的描述也出现在查询图像115中的物体/场景的模型图像RI。

按照本发明的实施例，代替直接对查询图像115的描述符DD，和对集合SR的模型图像的描述符进行特征匹配操作，对通过把对应的描述符数组细分成子数组，并借助基于矢量量化的码本，压缩各个子数组而获得的压缩的描述符进行特征匹配操作。为此，通过把对应的描述符数组细分成4个子数组，并用相应的码本压缩所述4个子数组中的每一个，在阶段1016压缩查询图像115的描述符DD。类似于视觉词的生成，模型数据库1002为各个模型图像，保存利用用于压缩查询图像115的描述符DD的相同码本压缩的预先计算的对应压缩版本。按照本实施例，可以非常快速并且高效的方式进行特征匹配(子阶段1012)。事实上，由于在压缩空间中进行特征匹配(查询图像的描述符和模型图像的描述符都被压缩)，并且由于待考虑的描述符的数量被减少(仅仅对应于最佳子集的关键点)，因此也可把表示模型数据库的模型图像的数据直接载入主存储器中。此外，由于通过把描述符数组细分成子数组，进行了描述符数组的压缩，从而极大地减小对应码本的代码字的数目，可以预先计算包括各个码本的各个代码字之间的所有可能的欧几里德距离的列表，并载入主存储器中，以便进一步提高子阶段1012的速度。如果通过使用不利用欧几里德距离的不同算法，进行特征匹配，那么类似的考虑事项也适用。

按照本发明的实施例，通过使用与图1的提取过程100的阶段140中使用的方法相似的方法，利用相同码本压缩各个描述符的子数组，可进一步改进子阶段1012。

由于除了描述符之外，几何验证(子阶段1014)还需要其对应描述符已与另外的关键点的描述符匹配的关键点的坐标，因此查询图像115的关键点的压缩坐标CC也应被解压缩(阶段1018)。

前面的说明详细介绍和讨论了本发明的几个实施例；然而，对说明的实施例的一些变化，以及不同的实施例都是可能的，而不脱离由附加权利要求限定的本发明的范围。

Claims

1.一种处理图像的方法，包括：

-识别图像中的第一组关键点；

-对于第一组关键点中的每个关键点，

a)识别与所述每个关键点相关的对应的至少一个关键点局部特征；

c)基于所述至少一个局部特征的局部特征相关概率，计算关键点相关概率；

-在第一组的关键点之中，选择关键点相关概率最高的关键点以形成第二组关键点，以及

-把第二组关键点用于分析图像，其中：

-为关键点的局部特征计算的局部特征相关概率是通过比较所述局部特征的取值和所述局部特征的值的对应参考统计分布而获得的，

其中在统计学上，每个所述对应参考统计分布等同于通过在多个参考图像对中识别的多个参考关键点之中，收集与每个参考图像对的已被确定为涉及所述参考图像对的参考图像之间的正确特征匹配的那些参考关键点对应的局部特征值而产生的对应统计分布。

2.按照权利要求1所述的方法，其中与所述每个关键点相关的所述至少一个关键点局部特征包括以下中的至少一个：

-关键点的坐标；

-识别关键点的尺度；

-关键点的主方向；

-关键点的峰值，以及

-关键点的描述符。

3.按照权利要求1或权利要求2所述的方法，其中：

-每个参考统计分布被布置成具有多个分箱的对应直方图的形式，每个分箱对应于对应局部特征的值的预定范围，并且每个分箱的频率对应于下述数之比：

a)已被确定为涉及正确的特征匹配并且具有属于所述分箱的对应局部特征的值的参考关键点的数目，和

b)具有属于所述分箱的对应局部特征的值的参考关键点的总数，

-所述计算关键点的局部特征的局部特征相关概率包括：

c)检查对应于所述局部特征的直方图以识别其拟合关键点的局部特征所取的值的分箱，和

d)把局部特征相关概率设定为识别的分箱的频率。

4.按照权利要求1所述的方法，其中所述计算第一组的关键点的关键点相关概率包括组合对应关键点的所述至少一个局部特征中的每个局部特征的局部特征相关概率。

5.按照权利要求4所述的方法，其中所述计算第一组的关键点的关键点相关概率包括将对应关键点的所述至少一个局部特征中的每个局部特征的局部特征相关概率彼此相乘。

6.一种处理图像的系统，包括：

-被配置成识别图像中的第一组关键点的第一处理单元；

-被配置成对第一组关键点中的每个关键点进行以下操作的第二处理单元：

-被配置成在第一组关键点中的关键点之中，选择关键点相关概率最高的关键点以形成第二组关键点的第三处理单元，以及

-被配置成把第二组关键点中的关键点用于分析图像的第四处理单元，其中：

-为关键点的局部特征计算的局部特征相关概率是通过比较所述局部特征的取值和所述局部特征的值的对应参考统计分布而获得的。

7.一种生成将在按照权利要求1-5任意之一所述的方法中使用的关键点局部特征的值的参考统计分布的方法，包括：

-在多个参考图像对中识别的多个参考关键点之中，收集与每个参考图像对的已被确定为涉及所述参考图像对的参考图像之间的正确特征匹配的那些参考关键点对应的局部特征值。