CN102782708A

CN102782708A - 用于图像辨识的描述符小块的快速子空间投影

Info

Publication number: CN102782708A
Application number: CN2010800544015A
Authority: CN
Inventors: 奥努尔·C·哈姆西奇; 尤里娅·列兹尼克; 约翰·H·洪; 桑迪普·瓦达迪; 重·U·李
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2009-12-02
Filing date: 2010-12-02
Publication date: 2012-11-14
Also published as: WO2011069023A2; KR101420550B1; KR20120102738A; JP5714599B2; WO2011069023A3; EP2507743A2; JP2013513168A; US20110299782A1; US8897572B2

Abstract

本发明提供一种用于产生特征描述符的方法。获得一组预产生的稀疏投影向量。还获得用于图像的尺度空间，其中尺度空间具有多个尺度层级。接着基于稀疏投影向量与用于跨越多个尺度层级的多个像素的稀疏取样像素信息的组合而产生用于所述尺度空间中的关键点的描述符。

Description

用于图像辨识的描述符小块的快速子空间投影

根据35U.S.C.§119主张优先权

本专利申请案主张2009年12月2日申请的标题为“用于图像辨识的描述符小块的快速子空间投影(Fast Subspace Projection of Descriptor Patches for Image Recognition)”的第61/265,950号美国临时申请案，和2010年11月11日申请的标题为“尺度空间中的快速描述符提取(Fast Descriptor Extraction in Scale-Space)”的第61/412,759号美国临时申请案的优先权，两申请案均转让给其受让人且特此以引用的方式明确并入本文中。

技术领域

一个特征涉及计算机视觉，且更特定来说，涉及用于改进图像的辨识和检索性能、处理和/或压缩的方法和技术。

背景技术

各种应用可受益于具有能够识别视觉表示中的目标(例如，图像或图片)的机器或处理器。计算机视觉的领域试图提供准许识别图像中的目标或特征的技术和/或算法，其中目标或特征可通过识别一个或一个以上关键点的描述符而表征。这些技术和/或算法常常也适用于人脸辨识、目标检测、图像匹配、3维结构构造、立体对应和/或运动追踪，以及其它应用。一般来说，出于特征识别、图像检索和/或目标辨识的目的，目标或特征辨识可涉及识别图像中的兴趣点(也称作关键点)。优选地，可选择和/或处理关键点，使得其对于图像尺度改变和/或旋转为不变的并跨越失真的实质性范围、视点改变和/或噪声和照度改变提供稳健匹配(robust matching)。另外，为了良好地适合于例如图像检索和目标辨识的任务，特征描述符可优选地在以下意义上有区别，单一特征可以高概率与来自多个目标图像的特征的大数据库正确地匹配。

在检测和定位图像中的关键点之后，可通过使用各种描述符来识别或描述所述关键点。举例来说，描述符可表示图像中的内容的视觉特征，例如，形状、颜色、纹理、旋转和/或运动，以及其它图像特性。描述符可表示关键点和所述关键点周围的局部邻域。描述符提取的目的为获得关键点周围的局部信息的稳健、无噪声表示。此可通过将描述符投影到无噪声主成分分析(PCA)子空间来完成。PCA涉及正交线性变换，所述正交线性变换将数据(例如，图像中的关键点)变换为新坐标系，使得通过数据的任何投影所产生的最大方差位于第一坐标(称作第一主成分)上，第二最大方差位于第二坐标(第二主成分)上，等等。然而，到PCA子空间的这种投影需要计算上复杂的与高维投影向量的内积。

对应于关键点且由描述符表示的个别特征与来自已知目标的特征的数据库匹配。因此，可将对应搜索系统分离为三个模块：关键点检测器、特征描述符和对应定位器。在这三个逻辑模块中，描述符的构造复杂性和维数对特征匹配系统的性能具有直接和显著影响。已提议多种描述符，其中每个描述符具有不同优点。尺度不变特征变换(SIFT)开放12σ×12σ小块，所述小块与邻域中的主定向对准且经大小设计以与所检测关键点σ的尺度层级成比例。此区中的梯度值在4×4单元中相加，其中每个单元中有8个频率组定向直方图。PCA-SIFT展示邻域中的梯度值可以极小子空间表示。

描述符提取程序中的大多数对减少维数以消除噪声并改进辨识准确性的优点意见一致。然而，与将描述符投影到低维子空间相关联的大的计算复杂性妨碍了其实际使用。举例来说，PCA-SIFT小块大小为39×39，此导致在x方向和y方向上考虑梯度值的2*39²维投影向量。因此，查询图像中的每个描述符针对到d维子空间的投影需要2*39²*d次乘法和加法。尽管此对于大功率的服务器侧机器可能不产生显著低效率，但在具有有限处理资源的实施(例如，移动电话)中可能是瓶颈。

这些特征描述符正越来越多地发现实时目标辨识、3D重建、全景拼接、机器人映射、视频跟踪和类似任务中的应用。取决于应用，特征描述符(或等效物)的传输和/或存储可限制目标检测的计算速度和/或图像数据库的大小。在移动装置(例如，相机电话、移动电话等)或分布式相机网络的情况下，可在节点之间的描述符提取中花费显著通信和处理资源。描述符提取的计算密集过程倾向于妨碍或复杂化其在资源有限装置(例如，移动电话)上的应用。

因此，存在对快速且有效地产生局部特征描述符的方式的需要。

发明内容

以下内容呈现一个或一个以上实施例的简化概述以便提供对一些实施例的基本理解。此概述不是所有涵盖实施例的广泛综述，且希望既不识别所有实施例的关键或临界元素，也不描绘任何或所有实施例的范围。其唯一目的为以简化形式呈现一个或一个以上实施例的一些概念以作为稍后呈现的更详细描述的序言。

提供一种用于产生特征描述符的方法和装置。获得一组预产生的稀疏投影向量。稀疏投影向量可独立于图像而产生。每个稀疏投影向量可约束于用于图像的平滑核的尺度。稀疏投影向量中的每一者可用以最大化或最小化目标函数。目标函数可为用于跨越用于一组训练图像的多个尺度层级的像素信息的自相关矩阵的最大化。稀疏投影向量可包含大部分零元素和多个非零元素。非零元素通过方差最大化程序而获得。

还获得用于图像的尺度空间，其中尺度空间具有多个尺度层级。接着基于稀疏投影向量与用于跨越多个尺度层级的多个像素的稀疏取样像素信息的组合而产生用于尺度空间中的关键点的描述符。像素信息可包含用于与关键点相关联的小块内的每个像素的梯度信息。所述多个像素可与用于关键点的小块相关联。可在对应于用于稀疏投影向量的非零系数的预定位置处选择所述多个像素。小块可具有m个像素乘n个像素的尺寸，且关键点描述符相比于小块的m*n尺寸以较少操作产生。

为了获得像素，可从用于图像的尺度空间获得关键点且接着获得用于关键点的小块，其中小块包含多个像素。

多个稀疏投影向量可定义一组非零缩放系数，每个非零缩放系数与小块内的对应像素位置相关联。

可通过组合多个描述符分量来产生描述符，每个描述符分量通过以下方式产生：(a)基于用于第一稀疏投影向量的非零缩放系数位置识别像素位置；和/或(b)将来自小块的像素位置的值与用于第一稀疏投影向量的对应非零缩放系数相乘且将所得值加在一起以获得第一描述符分量。可获得用于剩余的多个稀疏投影向量的额外描述符分量以获得额外描述符分量，其中第一描述符分量与额外描述符分量组合为用以获得关键点描述符的向量。

附图说明

根据下文结合图式进行阐述的详细描述，各种特征、性质和优点可变得显而易见，在图式中相同参考字符遍及全文对应地识别。

图1(包括图1A、1B和1C)是说明用于在目标辨识中产生并使用快速子空间稀疏投影向量的各阶段的框图。

图2说明示范性图像处理阶段中的高斯尺度空间产生。

图3说明示范性图像处理阶段中的特征检测。

图4说明示范性图像处理阶段中的特征描述符提取。

图5说明可获得PCA-SIFT描述符的方式。

图6(包括图6A和6B)说明可执行稀疏PCA-SIFT算法的方式的实例。

图7(包括图7A、7B和7C)说明用于估计或产生稀疏投影向量的过程。

图8说明用于使用稀疏PCA-SIFT迭代地产生稀疏投影矩阵的示范性算法。

图9说明具有多个八度(octave)的高斯尺度空间金字塔，每个八度具有多个尺度层级。

图10(包括图10A和10B)说明可基于稀疏投影矩阵产生特征描述符的方式。

图11说明作为非零系数及其对应小块位置的稀疏投影矩阵的示范性表示。

图12说明用于通过使用预定义稀疏投影向量产生特征描述符的方法。

图13说明用于通过使用预定义稀疏投影向量产生特征描述符的另一方法。

图14说明用于相比于表征特征的小块的尺寸以较少操作产生特征描述符的方法。

图15说明用于同一测试图像的各种视图，可从测试图像测试使用稀疏PCA-SIFT算法产生的描述符的准确性。

图16说明使用SIFT、PCA-SIFT和稀疏PCA-SIFT的描述符的匹配准确性的实例，SIFT、PCA-SIFT和稀疏PCA-SIFT都使用x方向和y方向上的梯度层级获得。

图17是说明SIFT、PCA-SIFT和稀疏PCA-SIFT算法的比较计算复杂性的表。

图18是说明可使用稀疏投影向量产生关键点描述符的图像匹配装置的实例的框图。

图19是说明适合于出于图像或目标辨识目的而执行图像处理的示范性移动装置的框图。

具体实施方式

现参看图式描述各种实施例，其中相同参考标号遍及全文用以指代相同元件。在以下描述中，出于解释目的，阐述许多特定细节以便提供对一个或一个以上实施例的详尽理解。然而，可为明显的是，这(些)实施例可在没有这些特定细节的情况下实践。在其它情况下，以框图形式展示众所熟知的结构和装置以便促进描述一个或一个以上实施例。

示范性目标辨识过程

图1(包括图1A、1B和1C)是说明用于在目标辨识中产生和使用快速子空间稀疏投影向量的各阶段的框图。

图1A是说明稀疏投影向量的估计的框图。可获得多个训练图像107。对于每个图像，执行尺度空间产生110以获得尺度空间金字塔(例如，高斯尺度空间金字塔)。可接着对所产生尺度空间执行特征/关键点检测112。接着执行梯度小块金字塔提取115，借此，对于每个所检测关键点，从尺度空间(例如，在关键点周围)提取梯度小块。此小块通常相对于小块中的主梯度的定向(在平面旋转中)重新定向，这是实现旋转不变性的一般已知方法。此过程可针对所有训练图像重复。使用用于训练图像中的多个关键点的产生的梯度小块，来计算多个稀疏投影向量117。稀疏投影向量117中的每一者可包括具有对应小块位置的多个缩放系数。在一个表示中，稀疏投影向量117可经组织为稀疏系数矩阵，其中稀疏系数矩阵的每一列定义一个稀疏投影向量。

图1B是说明可基于稀疏投影向量建立用于图像数据库的描述符库的方式的框图。此处，获得图像的数据库109，针对每个数据库图像产生尺度空间111，并从这些尺度空间检测特征/关键点113。接着使用稀疏投影向量117执行稀疏特征提取116以产生关键点描述符的数据库121。

图1C是说明用于通过使用稀疏投影向量对所查询图像执行目标辨识的功能阶段的框图。在图像捕获阶段102，可捕获或以其它方式获得查询图像108。举例来说，查询图像108可由图像捕获装置捕获以获得数字捕获图像，图像捕获装置可包含一个或一个以上图像传感器和/或模拟到数字转换器。图像传感器(例如，电荷耦合装置(CCD)、互补金属半导体(CMOS))可将光转换为电子。电子可形成模拟信号，模拟信号接着由模拟到数字转换器转换为数值。以此方式，可以数字格式捕获图像108，数字格式可将图像I(x，y)定义(例如)为具有对应颜色、照度和/或其它特性的多个像素。

在图像处理阶段104，接着通过产生对应尺度空间120(例如，高斯尺度空间)，执行特征/关键点检测122，和基于稀疏投影向量117执行稀疏特征提取126来处理所捕获图像108，从而获得查询描述符128。在图像比较阶段106，查询描述符128用以执行与已知描述符的数据库121的特征匹配130。可接着对关键点匹配(例如，基于匹配描述符)执行几何验证或一致性检查132，以断定正确特征匹配并提供匹配结果134。以此方式，查询图像可与目标图像的数据库109比较和/或从目标图像的数据库109识别。

图2说明示范性图像处理阶段104中的高斯尺度空间产生。已开发许多算法(例如，尺度不变特征变换(SIFT))以执行图像中的特征检测。朝着图像中的特定目标的检测的第一步骤是基于其局部特征而将所查询目标分类。目的是识别并选择对(例如)照度、图像噪声、旋转、缩放和/或视点的小改变为不变和/或稳健的特征。即，除了查询图像与比较目标图像之间的照度、图像噪声、旋转、尺度和/或视点的差异之外，应发现两个图像之间的匹配。实现此操作的一种方式为对图像的小块执行极值检测(例如，局部最大值或最小值)，以识别区别较大的特征(例如，有区别的点、像素和/或图像中的区)。

SIFT是用于检测和提取对于照度的改变、图像噪声、旋转、缩放和/或视点的小改变合理地不变的局部特征的一种方法。用于SIFT的图像处理阶段104可包含：(a)尺度空间极值检测、(b)关键点定位、(c)定向指派，和/或(d)关键点描述符的产生。SIFT将描述符建立为关键点的邻域中的梯度直方图。应清楚，用于特征检测的替代算法和后续特征描述符产生也可受益于本文中描述的特征，后续特征描述符产生包含加速稳健特征(SURF)、梯度位置和定向直方图(GLOH)、基于局部能量的形状直方图(LESH)、压缩梯度直方图(CHoG)以及其它。

为了产生尺度空间金字塔202，逐步使数字图像I(x，y)203(图2)平滑/模糊以构造尺度空间金字塔202。模糊(平滑)大体上涉及使原始图像I(x，y)与尺度cσ下的模糊/平滑函数G(x，y，cσ)进行卷积，使得尺度空间L(x，y，cσ)定义为L(x，y，cσ)＝G(x，y，cσ)*I(x，y)。在一个实例中，尺度空间金字塔可为高斯尺度空间金字塔。因此，平滑/模糊函数G可为高斯核，cσ可表示用于模糊图像I(x，y)的高斯函数G的标准偏差。当乘数c变化时(c₀＜c₁＜c₂＜c₃＜c₄)，标准偏差cσ变化且获得图像I(x，y)的逐步模糊/平滑。此处，σ为基本尺度变数(例如，高斯核的宽度)。当初始图像I(x，y)递增地与高斯函数G进行卷积以产生模糊图像尺度空间L时，模糊图像尺度空间L由尺度空间中的常数因子c分离。随着高斯模糊(平滑)图像尺度空间L的数目增加且针对高斯金字塔202提供的近似接近连续空间，两个尺度也接近一个尺度。在一个实例中，经卷积的图像尺度空间L可由八度分组，其中八度可对应于标准偏差σ的值的双倍。此外，选择乘数c的值(例如，c₀＜c₁＜c₂＜c₃＜c₄)，使得每个八度获得固定数目个图像尺度空间L。缩放的每个八度可对应于明确图像调整大小。因此，当原始图像I(x，y)由逐步模糊/平滑函数G模糊/平滑时，像素的数目逐渐地减少。

可通过计算金字塔202中的任何两个连续模糊图像尺度空间的差来构造差分尺度空间204(例如，高斯差分(DoG)金字塔)。在差分尺度空间204中，D(x，y，a)＝L(x，y，c_nσ)-L(x，y，c_n-1σ)。差分图像尺度空间D(x，y，σ)为尺度c_nσ和c_n-1σ下的两个邻近平滑/模糊图像L之间的差。差分尺度空间D(x，y，σ)的尺度位于c_nσ和c_n-1σ之间的某处。可从尺度空间202的每个八度的邻近模糊图像获得用于差分尺度空间204的层级的图像。在每个八度之后，图像可降低取样二(2)分之一且接着重复过程。以此方式，图像可变换为对平移、旋转、尺度和/或其它图像参数和/或失真稳健或不变的局部特征。

一旦产生，用于查询图像的差分尺度空间204可用于极值检测以识别兴趣特征(例如，识别图像中的区别较大的点)。这些区别较大的点在本文中称作关键点。这些关键点可由小块的特性或环绕每个关键点的局部区识别。可针对每个关键点及其对应小块产生描述符，描述符可用于查询图像与存储目标图像之间的关键点的比较。“特征”可指代描述符(即，关键点及其对应小块)。特征的群组(即，若干关键点和对应小块)可称作群集。

图3说明示范性图像处理阶段104中的特征检测。在特征检测中，差分尺度空间204(例如，高斯差分尺度空间)可用以识别用于查询图像I(x，y)的关键点。特征检测设法确定图像中的特定样本点或像素周围的局部区或小块是否为潜在有趣的小块(从几何学来说)且因此应视为用于与存储特征匹配的候选者。

一般来说，差分尺度空间204中的局部最大值和/或局部最小值被识别，且这些最大值和最小值的位置用作差分尺度空间204中的关键点位置。在图3中说明的实例中，关键点308已识别有小块306。发现局部最大值和最小值(也称作局部极值检测)可通过将差分尺度空间204中的每个像素(例如，用于关键点308的像素)与相同尺度下的其八个相邻像素以及与关键点308两侧的相邻尺度中的每一者中的九个相邻像素(在邻近小块310和312)中，总共26个像素(9×2+8＝26)作比较而实现。此处，小块被定义为3×3像素区。如果用于关键点308的像素值在小块306、310和312中所有二十六(26)个比较像素当中为最大或最小的，那么其被选择为关键点。可进一步处理关键点，使得更准确地识别其位置且可丢弃关键点中的一些(例如，低对比度关键点和边缘关键点)。

图4说明示范性图像处理阶段104中的特征描述符提取。一般来说，特征(例如，关键点及其对应小块)可由描述符表示，此允许特征(来自查询图像)与存储于目标图像的数据库中的特征的有效比较。在特征描述符提取的一个实例中，可基于局部图像梯度的方向指派每个关键点一个或一个以上定向或方向。通过基于局部图像特性将一致定向指派给每个关键点，关键点描述符可相对于此定向来表示且因此实现对图像旋转的不变性。可针对模糊图像尺度空间L和/或差分尺度空间中的关键点308周围的相邻区中的每个像素执行幅值和方向计算。定位于(x，y)处的关键点308的梯度幅值可表示为m(x，y)，且位置(x，y)处的关键点的梯度定向或方向可表示为Γ(x，y)。关键点的尺度用以选择具有与关键点308的尺度最接近尺度的平滑图像L，使得所有计算以尺度不变方式执行。对于在此尺度下的每个图像样本L(x，y)，使用像素差计算梯度幅值m(x，y)和定向Γ(x，y)。举例来说，幅值m(x，y)可计算为：

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}} .

(方程式1)

方向或定向Γ(x，y)可计算为：

Γ (x, y) = \arctan [\frac{L (x, y + 1) - L (x, y - 1)}{L (x + 1, y) - L (x - 1, y)}] .

(方程式2)

此处，L(x，y)为尺度σ下的高斯模糊图像L(x，y，σ)的样本，尺度σ也是关键点的尺度。

可针对尺度高于差分尺度空间中的关键点的平面的位于上方的尺度空间金字塔中的平面，或在尺度低于关键点的位于下方的尺度空间金字塔的平面中一致地计算关键点308的梯度。任一方式，对于每个关键点，均在一个相同尺度下在环绕关键点的矩形区域(例如，小块)中计算梯度。此外，以模糊图像的尺度反映图像信号的频率。然而，SIFT仅仅使用在小块(例如，矩形区域)中的所有像素处的梯度值。小块界定于关键点周围；子块界定于块内；样本界定于子块内，且此结构针对所有关键点保持相同，即使关键点的尺度不同。因此，尽管图像信号的频率随着高斯平滑滤波器在同一八度中的连续应用而改变，但可以相同数目的样本对在不同尺度下识别的关键点取样，而不管由尺度表示的图像信号的频率如何改变。

为了表征关键点定向，可在关键点408的邻域中(以SIFT)产生梯度定向的向量(使用与关键点的尺度最接近的尺度下的高斯图像)。然而，关键点定向也可通过使用(例如)压缩梯度直方图(CHoG)由梯度定向直方图(见图4)来表示。每个相邻像素的贡献可由梯度幅值和高斯窗加权。直方图中的峰值对应于主定向。可相对于关键点定向测量关键点的所有特性，此提供对旋转的不变性。

在一个实例中，可针对每个块计算高斯加权梯度的分布，其中每个块为2个子块乘2个子块，总共4个子块。为了计算高斯加权梯度的分布，形成具有若干频率组的定向直方图，其中每个频率组覆盖关键点周围的区域的一部分。举例来说，定向直方图可具有36个频率组，每个频率组覆盖360度定向范围中的10度。或者，直方图可具有8个频率组，每个频率组覆盖360度范围中的45度。应清楚，本文中描述的直方图编码技术可适用于任何数目个频率组的直方图。注意，也可使用最终产生直方图的其它技术。

可以各种方式获得梯度分布和定向直方图。举例来说，二维梯度分布(dx，dy)(例如，块406)转换为一维分布(例如，直方图414)。关键点408定位于环绕关键点408的小块406(也称作单元或区)的中心。针对金字塔的每个层级预计算的梯度展示为每个样本位置408处的小箭头。如图展示，样本408的4×4区形成子块410，且子块的2×2区形成块406。块406也可称作描述符窗。高斯加权函数以圆402展示且用以将权数指派给每个样本点408的幅值。圆形窗402中的权数平滑地下降。高斯窗402的目的为避免描述符随着窗的位置的小改变而突然改变，且较不强调远离描述符中心的梯度。从2×2子块获得定向直方图的2×2＝4阵列412，其中直方图的每个频率组中有8个定向，从而导致(2×2)×8＝32维特征描述符向量。举例来说，定向直方图413和415可对应于用于子块410的梯度分布。然而，使用每个直方图中有8个定向(8频率组直方图)的直方图的4×4阵列，从而导致用于每个关键点的(4×4)×8＝128向量元(即，特征描述符)可产生较好结果。注意，其它类型的量化频率组星座(例如，具有不同沃罗诺伊(Voronoi)单元结构)也可用以获得梯度分布。

如本文中使用，直方图是计算落入称为频率组的各种不相交种类中的观察、样本或发生(例如，梯度)的加权和的映射k_i，其中权数对应于观察的重要性(例如，梯度幅值等)。直方图的图表仅为表示直方图的一种方式。

可连接来自子块的直方图以获得用于关键点的特征描述符向量。如果使用来自16个子块的8频率组直方图中的梯度，那么可产生128维特征描述符向量。可正规化描述符以获得对照明强度变化的不变性，即，针对16个加权直方图

其中

对应于第j个子块的第i个频率组值。

以此方式，可针对每个识别的关键点获得描述符，其中此描述符可由位置(x，y)、定向和高斯加权梯度分布的描述符表征。注意，图像可由一个或一个以上关键点描述符(也称作图像描述符)表征。另外，描述符还可包含位置信息(例如，关键点的坐标)、尺度(例如，检测关键点的高斯尺度)和其它信息，例如群集识别符等。

一旦已针对查询图像中识别的关键点获得描述符，查询图像108中的关键点随即可与目标图像中的点比较和/或匹配以执行特征匹配122。举例来说，用于查询图像中的关键点的描述符可与存储于目标图像的数据库中的一个或一个以上描述符(对应于目标图像的数据库中的关键点)比较以发现一个或一个以上匹配。此比较可为概率性比较，其中如果查询图像中的关键点对应于目标图像中的点达至少阈值量或百分数(例如，75％匹配、80％匹配等)，那么“匹配”成功。以此方式，查询图像中的关键点与目标图像中的关键点匹配。

用于描述符提取的PCA-SIFT

主成分分析(PCA)是用于维数减少的标准技术，且已应用于计算机视觉问题的宽类别，包含特征选择、目标辨识和人脸辨识。PCA-SIFT展示关键点的邻域中的梯度值可投影到由PCA获得的极小子空间。作为描述符提取的部分，PCA可用以将数据(即，图像中的关键点)从高维空间线性地变换为较少维数的空间。PCA以此方式执行数据到较低维空间的线性映射，使得最大化低维表示中的数据的方差。

为了改进SIFT描述符，PCA-SIFT基于实现数据集(即，图像内的关键点)的最大方差而将用于小块的坐标系有效地改变为新坐标系。PCA-SIFT涉及正交线性变换，所述正交线性变换将数据(例如，像素、关键点等)变换为新坐标系，使得通过数据的任何投影产生的最大方差位于第一坐标(称作第一主成分)上，第二最大方差位于第二坐标(第二主成分)上，等等。在数学上，投影矩阵可通过以下步骤获得：(a)获得表示用于每个关键点的水平和垂直梯度的梯度向量(例如，用于小块的梯度向量大小＝39像素×39像素×2个梯度方向＝3042维向量)，(b)将用于所有关键点小块的梯度向量组合为矩阵A(矩阵尺寸＝k个小块×每个小块3042个向量)，(c)计算矩阵A的协方差矩阵A，(d)计算协方差矩阵A的本征向量和本征值，以及(e)选择前n个本征向量以获得投影矩阵(其为n×3042)。此过程常常称作本征值分解。

在描述符提取程序中，维数减少具有减少噪声和改进匹配准确性的优点。PCA-SIFT算法可基于关键点周围的局部梯度小块提取描述符。PCA-SIFT可在以下步骤中概述：(1)预计算本征空间以表示局部小块的梯度图像；(2)给定小块，计算其局部图像梯度；(3)使用本征空间投影梯度图像向量以导出紧凑特征向量(即，描述符)。此特征向量(即，描述符)显著小于标准SIFT特征向量(即，描述符)，且可供相同匹配算法使用。两个特征向量(即，描述符)之间的欧几里得(Euclidean)距离用以确定两个向量是否对应于不同图像中的相同关键点。描述符的特殊性通过对描述符的本征值求和来测量，通过由其方差正规化的描述符的主成分分析而获得。此对应于由不同描述符捕获的方差量，因此对应于其特殊性。

图5说明可获得PCA-SIFT描述符的方式。类似于用于SIFT描述符(图3-4)的实例，图像I(x，y)502与一个或一个以上高斯核G(x，y，σ_i)504进行卷积，以获得多个尺度空间506(即，高斯金字塔)。此处，说明分别对应于不同核缩放参数σ₀、σ₁、σ₂的尺度空间508、510和512。对于局部关键点描述符，PCA-SIFT使用与标准SIFT描述符相同的输入(例如，子像素位置、尺度和关键点的主定向)。在此实例中，已跨越不同尺度层级(和/或八度)检测到多个关键点514。小块516界定于每个关键点514周围。小块518可具有W×W尺寸(例如，39像素乘39像素)且可在给定尺度下提取，在对应关键点上方居中，且旋转以将其主定向对准典型方向(canonical direction)。可针对每个小块518获得梯度矩阵[g_a1，g_a2，g_a3，...，g_aM]520且将梯度矩阵向量化为矩阵A 522。接着产生矩阵X 522的协方差矩阵X 524。获得协方差矩阵X 524的本征向量V 526和本征值Λ528，本征向量V 526和本征值Λ528可接着用以从d个最大本征值(即，最大方差)产生投影矩阵V 530。

获得PCA-SIFT描述符通常需要采用PCA基本(投影)向量V和用于兴趣关键点的图像小块I_patch之间的内积。本质上，用于关键点的图像小块I_patch可“投影”到较高尺度，其中图像小块I_patch在那个较高尺度中由单一点表示。PCA基本(投影)向量V可表示为

V = Σ_{i = 1}^{m} α_{i} K (x_{i}, x),

(方程式3)

其中α_I是缩放系数，K(x_i，x)是位置x_i处的高斯基函数(即，平滑核)，m是在小块中取样的位置的数目。PCA基本向量V与图像小块I_patch之间的内积通过转置基本向量V和图像小块I_patch给出，使得

V^{T} I_{patch} = Σ_{i = 1}^{m} α_{i} K^{T} (x_{i}, x) I_{patch},

(方程式4)

因此，在一个实例中，计算图像小块I_patch(例如，图像小块514或516)与PCA基本(投影)向量V之间的内积是需要W²次乘法和W²次加法的像素方面的运算。

从一组训练向量获得PCA基本(投影)向量且将查询描述符投影到此子空间。使X＝{x₁，x₂，...，X_N}为N个训练小块，其中x_i∈R^P，且p＝W²为在关键点周围取样的每个小块的维数W×W。小块的协方差矩阵估计为

其中

为样本平均数。协方差矩阵的本征向量提供足以表示所有小块变化的基本向量。基本(投影)向量由∑V＝VΛ给出，其中

为本征向量矩阵，Λ＝{λ₁，λ₂，...，λ_p}为在其对角线具有对应本征值的对角线矩阵。此分解的目的为提取通过最大化方差来减少噪声的d维子空间，其中d＝{1，2，...，n}。此由与最大的d个本征值相关联的本征向量

给出。选择d的一种方式为保持数据的总方差的～90％。来自测试图像的描述符q通过

投影到PCA子空间上。此需要d×p次乘法和d×p次加法，其中d×p＝d×W²。

PCA-SIFT的实施可在具有有限处理资源的平台(例如，移动装置)上受妨碍，这是因为与描述符到低维子空间的PCA投影相关联的大计算成本，此由于关键点的数目(可为数千个)而加剧。举例来说，PCA-SIFT小块大小(W×W)为39像素×39像素，此产生在x方向和y方向上考虑梯度值的2*39²维投影向量。因此，查询图像中的每个描述符针对到d维子空间的投影需要2*39²*d次乘法和加法。尽管此对于大功率的服务器侧机器可能不产生显著低效率，但在具有有限处理资源的实施(例如，移动电话)中可能是瓶颈。

在尺度空间中的使用稀疏PCA-SIFT的快速基于梯度的描述符提取

针对来自局部梯度小块的描述符的有效提取来描述稀疏子空间投影算法。通过将局部梯度小块投影到PCA子空间来获得描述符，PCA子空间由高斯基函数的稀疏组合表示。高斯基函数的标准偏差选自高斯尺度空间金字塔中的尺度差中的一者。因此，可通过简单地将稀疏系数乘以尺度空间中的对应梯度来获得小块到PCA子空间的投影。

本文中描述具有用于将测试样本投影到子空间的极低计算复杂性的稀疏PCA-SIFT算法。并非计算PCA基本向量(即，图5的PCA投影向量V 526)，而是替代地获得PCA基本向量以作为高斯基函数的稀疏线性组合，高斯基函数的标准偏差选自高斯尺度空间的尺度层级差。此允许通过稀疏内积将给定小块投影到子空间上。稀疏PCA-SIFT算法可易于扩展到其它特征提取技术。

图6(包括图6A和6B)说明可执行稀疏PCA-SIFT算法的方式的实例。然而，应清楚，此过程可扩展到和/或应用于其它类型的算法。

图6A说明供稀疏PCA-SIFT算法获得稀疏系数矩阵的离线训练程序。训练图像库602可与不同尺度下的高斯核604进行卷积以产生用于每个图像的高斯尺度空间606。对于每个图像，可跨越多个尺度608、610和612检测关键点，且小块616界定于每个关键点周围。在此实例中，已识别第一关键点614，对应小块616已界定于关键点614周围。可跨越尺度空间606的多个尺度层级投影此小块616以获得用于在关键点616上方的一个或一个以上对应小块617和/或在关键点616下方的一个或一个以上对应小块615的局部信息。在以下内容中，来自给定小块的凸显信息含于矩阵[g_ij]中，其中指数i和j为小块中的像素的坐标。矩阵分量可为像素强度值本身或如图中所说明，其可表示每个像素处的总梯度幅值，或更一般来说，其也可表示x方向和y方向上的梯度值。应清楚，小块形状无需为正方形，而可采用其它形式(例如，矩形、圆形等)，只要相同小块形状随后用于产生描述符即可。注意，在一些实例中，梯度矩阵可包含仅用于在与关键点614相同的尺度下的小块616的信息。在其它实施中，梯度矩阵可包含用于不同尺度下的对应小块615和/或617的信息。多个梯度矩阵620可接着向量化为矩阵X 622。接着选择(例如，随机选择)矩阵X 622的多个行且最大化其方差624以获得稀疏系数矩阵630。因为仅矩阵X 622的行的子集用于方差最大化，所以仅针对稀疏系数矩阵630的每个投影向量(即，列)产生几个非零系数。稀疏系数矩阵中的剩余系数为零。注意，在一个实例中，稀疏系数矩阵630的列(即，投影向量)中的每个系数对应于小块内的位置。此位置可固有地由稀疏系数矩阵630中的列内的系数的位置识别。或者，用于每个非零系数的位置可与非零系数一起提供。

一旦已获得稀疏系数矩阵630，其随即可用以产生用于图像库和查询图像两者的关键点描述符。稀疏系数矩阵630的每一列中的系数表示稀疏投影向量。

图6B说明使用基于稀疏系数矩阵的稀疏PCA-SIFT的描述符的在线产生的过程。图像644(例如，数据库图像或查询图像)与高斯核642进行卷积以产生跨越多个尺度的高斯尺度空间646。接着可从尺度空间646识别一个或一个以上关键点。对于每个关键点，产生环绕像素(例如，样本点)的小块。对于每个小块，针对小块产生梯度向量650，其中梯度向量可包含用于小块中的点的每一者的梯度幅值。在此实例中，小块可为39×39像素(例如，点)，且因此梯度向量[g_1，1...g_39，39]650可包含1521个元素。如先前所指出，仅稀疏系数矩阵中的系数中的一些为非零的。在此实例中，非零系数为α₂、α₅₀、α₈₈、α₁₄₃。对于这些非零系数，获得对应梯度幅值(即，对应于小块中的相同位置)。在此实例中，用于梯度g_1，2、g_2，11、g_3，20、g_4，26的位置652已识别为对应于非零系数654。对于稀疏系数矩阵中的每一列，将非零系数中的每一者与对应梯度相乘且将所得结果以每一列为基础加在一起以获得多个描述符分量656。多个描述符分量组合为用以获得关键点描述符的向量658。可针对多个关键点重复此过程以获得用于图像644的多个对应描述符。注意，在此实例中，在单一尺度层级下界定关键点周围的小块。一般来说，可使用关键点周围的跨越多个尺度的多个小块，如小块615、616和617中所展示。

用于产生稀疏投影向量的示范性过程

图7(包括图7A、7B和7C)说明用于估计或产生稀疏投影向量的过程。可获得多个训练图像702a、702b和702c。对于在那些图像中检测到的每个关键点，在关键点周围建立小块。针对每个小块获得表示为矩阵704的梯度矩阵，其中矩阵的每个元素g可表示用于每个对应样本、点或n×n小块(例如，n＝39)中的像素的幅值。注意，可构造或布置每个梯度矩阵704，使得每个元素g的位置具有在其对应小块内的可预测或已知位置。多个梯度矩阵704(其可表示用于多个训练图像的小块)可接着向量化为矩阵X 706。可接着随机或非随机地选择来自矩阵X 706的多个k行，如矩阵706′中说明。在此实例中，k＝4且已选择行707a、707b、707c和707d。接着最大化708跨越矩阵X 706的选定行的方差以获得稀疏系数矩阵710。选择稀疏系数矩阵710中的系数以实现最大方差。

在一个实施中，稀疏系数矩阵710的每一列中仅几个系数为非零系数。剩余系数可为零。示范性稀疏系数矩阵712仅展示为非零的那些分量。另外，在一些实施中，稀疏系数矩阵710中的列的数目可缩短到d列(例如，d＝200列)。稀疏系数矩阵的所得列的每一者可为可横跨小块的稀疏投影向量。举例来说，稀疏系数矩阵710的列(含有n²个元素)可映射到如所说明的n×n小块714。

在各种实施中，可跨越图像尺度空间的不同层级下的多个小块产生稀疏系数矩阵710。因此，对个每个额外尺度空间层级，可将额外行添加到矩阵710或可产生额外矩阵。

图8说明用于使用稀疏PCA-SIFT迭代地产生稀疏投影矩阵的示范性算法。针对一组N个小块获得梯度矩阵X(802)。针对梯度矩阵X获得自相关矩阵S，使得S＝(1/N)XX^T(804)。自相关矩阵S可定义小块的每个尺寸之间的关系。用于N个小块的矩阵X的自相关矩阵S可由以下方程式给出：

S = \frac{1}{N} Σ_{i = 1}^{N} x_{i} {x_{i}}^{T}

(方程式5)

其中x_i表示用于每个训练小块的向量。

注意，可通过本征值分解SV＝VΛ获得用于自相关矩阵S的基本向量，其中V和Λ为本征向量和对应本征值矩阵。从方程式4观察到，PCA基本(投影)向量可表示为V＝K(x_i，x)α。为了基于高斯基函数获得本征向量，从平滑核矩阵K获得基本向量，即V＝Kα，其中α是稀疏系数向量。将K定义为具有行i和列j的n×n矩阵，使得

K (x_{i}, x_{j}) = \exp (\frac{- {(x_{i} - x_{j})}^{2}}{2 σ^{2}}),

(方程式6)

且每一列j对应于在对应像素位置x_j处定义的高斯函数且σ为核的标准偏差，即，对于不同核缩放参数σ₁和σ₂，

方程式6的此核矩阵K非常强大，这是因为其可通过简单地形成其列的线性组合来在图像域上构造大量函数。此外，与核矩阵K的列的相关性可由高斯尺度空间金字塔中的较高尺度层级下的像素值简单地获得，这是因为图像已经与核矩阵K进行卷积。为了实现此操作，核参数σ可选自高斯尺度空间金字塔的尺度层级差中的一者。注意，由于基于描述符的程序中的大部分预先建立高斯尺度空间金字塔，因此获得与高斯基函数的相关性无偿地发生(即，不需要额外处理)。

为了获得此相关性，可能σ选择的集合可因高斯尺度空间层级的尺度差受约束。图9说明具有多个八度的高斯尺度空间金字塔902，每个八度具有多个尺度层级。尺度层级可由以下方程式给出

σ_o，k＝2^(k/s)2^o，(方程式7)

其中o是八度层级，k是八度内的尺度层级且s是每个八度内的尺度层级的数目。如果在尺度(o₀，k₀)下检测到关键点，那么高斯基函数标准偏差针对在关键点周围开放的未调整大小的小块应为

替代于使小块与这些基函数相关，使用较高尺度层级的金字塔，例如(o₁，k₁)其中o₁＞o₀，和/或k₁＞k₀。

因此，

{σσ}_{o_{0}, k_{0}} = \sqrt{σ_{o_{1}, k_{1}}^{2} - σ_{o_{0}, k_{0}}^{2}}

(方程式8)

给出尺度的可能集合：

σ = \sqrt{2^{(\frac{k_{1} - k_{0}}{s})} 2^{o_{1} - o_{0}} - 1}

(方程式9)

使得o₁＞o₀和/或k₁＞k₀。此意味：如果可使用具有这些标准偏差σ的高斯基函数的线性组合来计算子空间投影向量，那么对这个向量的图像响应的计算减少到尺度空间中的对应位置的取样。

自相关矩阵S的基本向量可由SKα＝Kαλ给出。将等式的两侧与平滑核矩阵K相乘使问题变成一般化本征值分解问题，KSKα＝K²αλ。目的是发现用于高斯基函数的系数α的稀疏集合。换句话说，非零系数元素α的基数card(α≠0)需要远小于其维数。发现非零系数元素α的最佳数目及其值已知为非确定的多项式时间困难问题。许多近似定义于最小化惩罚项的文献中，惩罚项为对α的基数的极其宽松的上限，例如L-1范数||α||。

再次参考图8中的方法，说明用于获得非零系数元素α的一个实例。可针对每个小块中的多个随机位置迭代地最大化矩阵S的方差。迭代过程可用以产生多个稀疏投影向量αⁱ(具有n²个分量的向量)，稀疏投影向量αⁱ构成稀疏系数矩阵A(其中A＝[α¹，...，αⁱ])。在每个迭代处(i＝1到d，基本向量的数目)，通过随机地选择非零系数α的数目和位置来随机化若干候选向量αⁱ。此可通过计算本征向量和本征值来实现，其最大化由系数横跨的子空间中的自相关矩阵S的方差，使得：K^-1SKα_r＝α_r，其中r＝1到随机化的数目(810)。

选择在所有随机化中具有最大方差的当前本征向量αⁱ＝α^rmax，使得：λ_rmax＝max_{r＝{1，...，} _{随机化的数目}}(λ_r)(812)。

因此选择具有最大方差的本征向量αⁱ且将本征向量αⁱ正规化使得

α^{i} = \frac{α^{i}}{α^{i^{T}} K^{2} α^{i}} (814) .

可接着将这些正规化本征向量α_i中的每一者添加到稀疏系数矩阵A＝[α¹，...，α^d])(816)。

对于每个迭代(其中i≠1)，自相关矩阵S被投影到用于先前向量子空间的零空间，使得：

S = S - {Kα}^{i - 1} α^{{i - 1}^{T}} KSK α^{i - 1} α^{{i - 1}^{T}} K (808) .

在已获得稀疏系数矩阵A＝{α¹，...，α^d}的情况下，接着通过与核矩阵K相乘来给出投影矩阵V，即V＝KA。来自查询图像的小块q可通过q^TKA投影到子空间。由于q^TK等效于小块q的高斯卷积且由尺度空间的较高层级给出，因此通过将稀疏系数矩阵A的非零元素与从尺度空间取样的对应像素相乘，可将小块q投影到子空间。

通过使用稀疏投影向量产生描述符的示范性过程

图10(包括图10A和10B)说明可基于稀疏投影矩阵产生特征描述符的方式。此处，已离线获得稀疏投影矩阵A 1002(如图7中说明)。在此实例中，第一投影向量(即，第一列)包含非零系数α¹ ₂、α¹ ₇₅、α¹ ₂₀₁和α¹ ₅₇₆。这些系数可映射到如所说明的n×n小块1004(例如，n＝39)。

对于查询图像，可获得关键点1007且在关键点1007周围建立小块1006。此处，针对查询小块说明关键点1007周围的梯度g。每个梯度g可为与小块中的每个点或像素相关联的幅值。多个描述符分量Dcompi 1008可通过将幅值g与对应系数α相乘而产生。此处，从稀疏系数矩阵1002获知非零系数α的位置。因此，仅需要使用小块1006中的对应位置处(用于非零系数α)的梯度幅值。每个描述符分量Dcomp可为非零系数与对应梯度幅值g的组合(例如，总和)，使得Dcomp＝α₂*g_1，2+α₅₀*g_2，7+α₈₈*g_5，3+α₁₄₃*g_9，5。针对使用对应非零系数的稀疏投影矩阵1002的所有列或多个列重复此过程。可接着通过连接描述符分量Dcomp来建立描述符向量1010。

因此，根据一个实例，每个特征/关键点描述符1012可包括多个描述符元素/分量[Dcomp¹ _m，Dcomp² _m，Dcomp³ _m，...，Dcomp^d _m]，其中用于样本点Ii的每个元素

其中IX(i)是对应非零系数指数。用于每个小块的一个或一个以上样本点的位置是用于系数αⁱ _j的对应位置(在离线训练期间发现)。

应注意，可以许多不同方式表示稀疏系数矩阵。在图10中说明的实例中，小块位置隐含于每一者的位置中。特别来说，倘若仅系数的子集为非零系数，那么稀疏系数矩阵的大小可通过仅提供非零系数及其对应小块位置而减少。

图11说明作为非零系数1102及其对应小块位置1104的稀疏投影矩阵的示范性表示。此处，小块识别符可用以与非零系数和小块位置相关。此处，每个元素α^i，k可为系数的向量[α^i，k _IXi，k(1)，αⁱ _IXi，k(2)，αⁱ _IXi，k(3)，...，αⁱ _IXi，k(s)]，其中s是选定非零系数的数目。每个投影向量的平均非零系数可为(例如)s＝{4，5.63，9.41}。对于每个元素α^i，k，提供对应位置向量IX_i，k(j)，其中IX_i，k(j)给出用于维数(k)和样本(j)(例如，坐标)的对应小块(i)的对应位置向量[IX_1，1(j)，...IX_m，d(j)]，j＝1，2，...，s。

注意，稀疏系数矩阵A 1002(图10)可以各种其它等效形式表示，例如缩放系数和/或位置的列表、一个或一个以上缩放系数和位置表，和/或向量、矩阵和/或表的组合。

用于通过使用稀疏投影向量产生描述符的示范性过程

图12说明用于通过使用预定义稀疏投影向量产生特征描述符的方法。可获得一组预产生的稀疏投影向量(1202)。接着获得用于图像的尺度空间，其中尺度空间具有多个尺度层级(1204)。接着可基于稀疏投影向量与用于跨越多个尺度层级的多个像素的稀疏取样像素信息的组合而产生用于尺度空间中的关键点的描述符(1206)。像素信息可包含用于与关键点相关联的小块内的每个像素的梯度信息。可在对应于用于稀疏投影向量的非零系数的预定位置处选择多个像素。

稀疏投影向量可独立于图像而产生(例如，在了解哪个图像被处理之前)。在一个实例中，每个稀疏投影向量可约束于用于图像的平滑核的尺度。稀疏投影向量可包含大部分零元素和多个非零元素。非零元素通过方差最大化程序而获得。

在各种实施中，稀疏投影向量中的每一者最大化或最小化目标函数。举例来说，目标函数是用于跨越用于一组训练图像的多个尺度层级的像素信息的自相关矩阵的最大化。

图13说明用于通过使用预定义稀疏投影向量产生特征描述符的另一方法。可获得表示多个稀疏投影向量的一组预产生的非零缩放系数，其中每个缩放系数与小块内的对应位置相关联(1302)。举例来说，可如图7和图8中说明而获得这些稀疏投影向量。这些稀疏投影向量可离线计算，可为稀疏系数矩阵的部分，和/或可约束于用于图像的平滑核的尺度。可接着获得用于图像的关键点(1304)。注意，稀疏投影向量可独立于所述图像。举例来说，可基于排除所述图像的一组训练图像而产生投影向量。可接着获得或界定用于关键点的小块(1306)。可接着基于多个描述符分量产生用于关键点的描述符。每个描述符分量由以下过程产生。基于用于第一稀疏投影向量的非零缩放系数位置识别用于小块的样本点位置(1308)。将来自小块的每个所识别样本点位置的幅值/值与用于第一稀疏投影向量的对应非零缩放系数相乘(或以其它方式组合)且将所得值加在一起以获得描述符分量(1310)。在(例如)图10B中说明这个乘法和加法过程。接着对剩余多个稀疏投影向量中的每一者重复此过程以获得多个描述符分量(1312)。接着组合多个描述符分量以获得用于关键点的描述符向量(1314)。

注意，描述符元素可视为投影到用于图像的较高层级的尺度空间的小块内的样本点的加权和。因此，关键点描述符是来自投影到用于图像的不同层级的尺度空间的小块的样本点的子集的加权组合。因为描述符基于关键点和小块信息，所以描述符识别关键点和/或其小块的一个或一个以上特性。由于使用稀疏投影向量(例如，其中投影向量的仅几个元素为非零的)，因此相比于小块的大小可以较少操作产生关键点描述符。

图14说明用于相比于表征特征的小块的尺寸以较少操作产生特征描述符的方法。可获得用于图像的关键点(1402)。可从针对图像获得的尺度空间(例如，高斯尺度空间)获得此关键点。关键点可为图像区内的特定图像尺度下的局部最小值或最大值。小块可经界定为环绕关键点，所述小块具有m像素乘n像素的尺寸(1404)。还获得预定义稀疏投影向量(1406)。举例来说，稀疏投影向量可为稀疏系数矩阵的部分，且可约束于用于图像的平滑核的尺度。稀疏投影向量独立于图像。举例来说，可基于排除所述图像的一组训练图像产生投影向量。可接着基于小块的至少一个特性和至少一个稀疏投影向量而产生用于关键点的描述符，其中相比于小块的m*n尺寸以较少操作产生描述符(1408)。

示范性稀疏PCA-SIFT实施

图15说明用于同一测试图像的各种视图，可从测试图像测试使用稀疏PCA-SIFT算法产生的描述符的准确性。这些图像1502、1506和1508可用以在匹配准确性和计算复杂性方面将本文中揭示的稀疏PCA-SIFT算法与SIFT和PCA-SIFT算法比较。使用召回-精度曲线来评估匹配准确性。针对平面景物的两个图像获得这些曲线(图16)，其中所述图像之间具有已知单应性。如果在特征空间中x²为x¹的最接近近邻且到最接近近邻的距离与到第二最接近近邻的距离的比率在阈值t以下，那么第一图像中的描述符x¹与第二图像中的描述符x²匹配。此比率测试用以避免并非有区别的描述符的匹配。用于特定阈值的召回率由正确匹配与第一图像与第二图像之间的所有可能对应的数目的比率给出，即，召回＝正确匹配数目/对应数目。精度通过计算正确匹配与匹配的总数目的比率来规定匹配程序精确的程度，即，精度＝正确匹配数目/匹配数目。当阈值t变化时，获得召回-精度曲线。

图16说明使用SIFT、PCA-SIFT和稀疏PCA-SIFT的描述符的匹配准确性的实例，SIFT、PCA-SIFT和稀疏PCA-SIFT都使用x方向和y方向上的梯度层级获得。因此，PCA-SIFT和稀疏PCA-SIFT使用2×39×39正规化梯度小块。在此实例中，平滑核的标准偏差经选定为

目S＝3。

为了将小块(在尺度层级l中获得)投影到稀疏PCA子空间，将系数与高两个尺度(尺度层级l+2)下的对应像素相乘。如召回-精度曲线中所见，尽管PCA-SIFT针对图像对1-2(图1602)极好地执行，但当在对1-3(图1604)中视点改变较大时其不良地执行。这是因为PCA对小配准误差敏感。稀疏PCA-SIFT通过使用高斯基函数表示基本向量来解决此问题。因此，对于图像对1-3，稀疏PCA-SIFT相比于PCA-SIFT执行较好。总体上，稀疏PCA-SIFT和SIFT为相当的，稀疏PCA-SIFT在视点改变小时执行较好。稀疏PCA-SIFT的主要优点为其低计算复杂性，计算复杂性平均由与几个非零系数的乘法组成。

图17是说明SIFT、PCA-SIFT和稀疏PCA-SIFT算法的比较计算复杂性的表。用于SIFT和其它基于直方图的方法的描述符计算的复杂性取决于所检测关键点的尺度层级σ。在一个实例中，SIFT在所检测关键点位置周围开放12σ×12σ小块，其中σ等于用于图像的高斯尺度空间的八度内的尺度层级。此小块合并为4×4单元，其中针对每个单元获得量化为8个角的定向直方图。用于每个单元的三线性插值(尺度空间中的2个最靠近单元与图像域中3σ±1.5σ＝6σ像素宽平方的加权和)产生16×2×(6a)²次乘法和加法运算。当标准缩放σ＝1.6时，此等于每个描述符2949次运算，且对于八度内的最高层级σ＝3.2，其为每个描述符11796次运算。

对于PCA-SIFT，可在所检测关键点周围使用39×39像素小块的水平和垂直梯度。PCA-SIFT通过使用所有2×39²＝3042维将小块投影到50维子空间。因此，需要每个小块50×3042＝152100次乘法和加法运算以产生描述符。

另一方面，对于稀疏PCA-SIFT，限制了系数向量的非零元素的数目。PCA-SIFT算法的复杂性与每个用以将小块投影到200维子空间的投影向量s＝{4，5.63，9.41}的平均非零系数成比例。此需要每个小块4×200＝800次到9.41×200＝1882次之间的乘法和加法。因此，所描述的稀疏PCA-SIFT算法远比基于直方图的描述符(例如，SIFT)和基于像素的描述符(例如PCA-SIFT)执行得快。

示范性图像匹配装置

图18是说明可使用稀疏投影向量产生关键点描述符的图像匹配装置的实例的框图。图像匹配装置1800可包含耦合到通信接口1804、图像捕获装置1806和/或存储装置1808的处理电路1802。通信接口1804可适合于经由有线/无线网络通信，并接收图像和/或用于一个或一个以上图像的特征描述符。图像捕获装置1806可为(例如)可捕获查询图像的数码相机。处理电路1802可包含从图像提取特征的图像处理电路1814和使用所提取特征以将查询图像与目标图像的数据库1810匹配和/或将查询图像描述符与描述符数据库1812匹配的图像匹配电路1816。处理电路还可包含或实施产生稀疏投影向量的稀疏系数矩阵1809的投影向量产生电路1813。图1、6、7、8、10、12、13和14中说明产生和使用稀疏投影向量的方式的实例。图像匹配装置1800可实施那些图中描述的一个或一个以上特征和/或方法。

根据一个示范性实施，图像匹配应用试图将查询图像与图像数据库中的一个或一个以上图像匹配。图像数据库可包含与存储于数据库1810中的一个或一个以上图像相关联的几百万特征描述符。

图像处理电路1814可包含特征识别电路1820，特征识别电路1820包含高斯尺度空间产生器1822、特征检测器1824、图像缩放电路1826和/或特征描述符提取器1830。高斯尺度空间产生器1822可用以使图像与模糊函数进行卷积以产生如(例如)图2中说明的多个不同尺度空间。特征检测器1824可接着识别用于图像的不同尺度空间中的一个或一个以上关键点(例如，通过使用如图3中说明的局部最大值和最小值)。图像缩放电路1826可用以近似图像的尺度以便选择执行特征检测和/或群集的适当核大小。特征描述符产生器1830通过使用存储于稀疏系数矩阵1809中的稀疏投影向量来产生用于每个关键点和/或其周围小块的描述符。

注意，在一些实施中，与用于查询图像的关键点相关联的一组特征描述符可由图像匹配装置接收。在此情形中，已处理查询图像(以获得描述符)。因此，可绕过图像处理电路1814或从图像匹配装置1800去除图像处理电路1814。

示范性移动装置

图19是说明适合于出于图像或目标辨识目的而执行图像处理的示范性移动装置的框图。移动装置2200可包含耦合到图像捕获装置1904、通信接口1910和存储装置1908的处理电路1902。图像捕获装置1904(例如，数码相机)可适合于捕获兴趣查询图像1906且将其提供到处理电路1902。存储装置1908可包含定义多个稀疏投影向量的稀疏系数矩阵1913。可基于一组训练图像预而产生(在移动装置上或不同装置处)稀疏系数矩阵1913。

处理电路1902可适合于处理所捕获图像以产生可随后传输或用于图像/目标辨识的特征描述符。举例来说，处理电路1902可包含或实施特征识别电路1920，特征识别电路1920包含高斯尺度空间产生器1922、特征检测器1924、图像缩放电路1926和/或特征描述符提取器1930。高斯尺度空间产生器1922可用以使图像与模糊函数进行卷积以产生如(例如)图2中说明的多个不同尺度空间。特征检测器1924可接着识别用于图像的不同尺度空间中的一个或一个以上关键点(例如，通过使用如图3和图6A中说明的局部最大值和最小值)。图像缩放电路1926可用以近似图像的尺度以便选择执行特征检测和/或群集的适当核大小。特征描述符产生器1930通过使用来自稀疏系数矩阵1913的投影向量来产生用于每个关键点和/或其周围小块的描述符(例如，在图6B和图10中说明)。图1、6、7、8、10、12、13和14中说明产生稀疏投影向量和稀疏投影向量用以产生关键点描述符的方式的实例。移动装置1900可实施那些图中描述的一个或一个以上特征和/或方法。

处理电路1902可接着将一个或一个以上特征描述符存储于存储装置1908中，且/或还可经由通信接口1910(例如，无线通信接口、收发器或电路)通过通信网络1912将特征描述符传输到图像匹配服务器，图像匹配服务器使用特征描述符以识别其中的图像或目标。即，图像匹配服务器可将特征描述符与其自己的特征描述符数据库比较以确定其数据库中的任何图像是否具有相同特征。

图中说明的组件、步骤、特征和/或功能中的一者或一者以上可重新布置和/或组合为单个组件、步骤、特征或功能或以若干组件、步骤或功能体现。在不脱离本文中揭示的新颖特征的情况下，也可添加额外元件、组件、步骤和/或功能。一个图中说明的设备、装置和/或组件可经配置以执行另一图中描述的方法、特征或步骤中的一者或一者以上。本文中描述的算法也可有效地实施于软件中和/或嵌入于硬件中。

而且，注意，实施例可描述为过程，所述过程描绘为流程图(flowchart、flow diagram)、结构图或框图。尽管流程图可将操作描述为顺序过程，但操作中的许多可并行或同时执行。另外，可重新布置操作的次序。当其操作完成时，过程终止。过程可对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时，其终止对应于函数返回到调用函数或主函数。

此外，存储媒体可表示用于存储数据的一个或一个以上装置，包含唯读存储器(ROM)、随机存取存储器(RAM)、磁盘存储媒体、光学存储媒体、快闪存储器装置和/或用于存储信息的其它机器可读媒体、处理器可读媒体和/或计算机可读媒体。术语“机器可读媒体”、“计算机可读媒体”和/或“处理器可读媒体”可包含(但不限于)非暂时性媒体，例如便携式或固定存储装置、光学存储装置和能够存储、含有或携载指令和/或数据的各种其它媒体。因此，本文中描述的各种方法可完全或部分由可存储于“机器可读媒体”、“计算机可读媒体”和/或“处理器可读媒体”中的指令和/或数据实施，且由一个或一个以上处理器、机器和/或装置执行。

此外，实施例可由硬件、软件、固件、中间软件、微码或其任何组合实施。当以软件、固件、中间软件或微码实施时，执行必要任务的程序代码或代码段可存储于机器可读媒体(例如，存储媒体或其它存储器)中。处理器可执行必要任务。代码段可表示程序、函数、子程序、程序、例程、子例程、模块、软件包、类别或指令、数据结构或程序陈述的任何组合。代码段可通过传递和/或接收信息、数据、自变量、参数或存储内容而耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可经由任何合适装置传递、转发或传输，包含存储器共享、消息传递、权标传递、网络传输等。

可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑组件、离散门或晶体管逻辑、离散硬件组件，或其经设计以执行本文中所描述的功能的任何组合来实施或执行结合本文中揭示的实例而描述的各种说明性逻辑块、模块、电路、元件和/或组件。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算组件的组合，例如，DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合，或任何其它此配置。

结合本文中揭示的实例而描述的方法或算法可以处理单元、编程指令或其它方向的形式直接体现于硬件中、可由处理器执行的软件模块中，或两者的组合中，且可含于单个装置中或跨越多个装置而分布。软件模块可驻存于RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可卸式磁盘、CD-ROM或技术中已知的任何其它形式的存储媒体中。存储媒体可耦合到处理器，使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中，存储媒体可集成到处理器中。

所属领域的技术人员将进一步了解，结合本文中揭示的实施例而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的此互换性，上文已大体上在其功能性方面描述各种说明性组件、块、模块、电路和步骤。此功能性实施为硬件还是软件取决于特殊应用和强加于整个系统上的设计约束。

在不脱离本发明的情况下，本文中描述的发明的各种特征可实施于不同系统中。应注意，上述实施例仅为实例且不应解释为限制本发明。实施例的描述希望为说明性的，且不限制权利要求书的范围。因而，本教示可易于应用于其它类型的设备，且许多替代、修改和变化对于所属领域的技术人员将显而易见。

Claims

1.一种用于产生特征描述符的方法，其包括：

获得一组预产生的稀疏投影向量；

获得用于图像的尺度空间，所述尺度空间具有多个尺度层级；以及

基于所述稀疏投影向量与用于跨越所述多个尺度层级的多个像素的稀疏取样像素信息的组合产生用于所述尺度空间中的关键点的描述符。

2.根据权利要求1所述的方法，其中独立于所述图像而产生所述稀疏投影向量。

3.根据权利要求1所述的方法，其中将每个稀疏投影向量约束于用于所述图像的平滑核的尺度。

4.根据权利要求1所述的方法，其中所述稀疏投影向量中的每一者使目标函数最大化或最小化。

5.根据权利要求4所述的方法，其中所述目标函数是用于跨越一组训练图像的多个尺度层级的像素信息的自相关矩阵的最大化。

6.根据权利要求1所述的方法，其中稀疏投影向量包含大部分零元素和多个非零元素。

7.根据权利要求6所述的方法，其中通过方差最大化程序获得所述非零元素。

8.根据权利要求1所述的方法，其中所述像素信息包含用于与所述关键点相关联的小块内的每个像素的梯度信息。

9.根据权利要求1所述的方法，其中所述多个像素与用于所述关键点的小块相关联。

10.根据权利要求1所述的方法，其中在对应于用于所述稀疏投影向量的非零系数的预定位置处选择所述多个像素。

11.根据权利要求1所述的方法，其进一步包括：

从用于所述图像的所述尺度空间获得关键点；以及

获得用于所述关键点的小块，其中所述小块包含所述多个像素。

12.根据权利要求11所述的方法，其中所述多个稀疏投影向量定义一组非零缩放系数，每个非零缩放系数与所述小块内的对应像素位置相关联。

13.根据权利要求12所述的方法，其中通过组合多个描述符分量而产生所述描述符，每个描述符分量通过以下步骤产生：

基于用于第一稀疏投影向量的所述非零缩放系数位置来识别像素位置；

将来自所述小块的所述像素位置的值与用于所述第一稀疏投影向量的所述对应非零缩放系数相乘且将所述所得值加在一起以获得第一描述符分量。

14.根据权利要求13所述的方法，其进一步包括：

获得用于多个剩余稀疏投影向量的额外描述符分量以获得额外描述符分量，其中所述第一描述符分量与额外描述符分量组合为用以获得所述关键点描述符的向量。

15.根据权利要求9所述的方法，其中所述小块具有m个像素乘n个像素的尺寸，且

所述关键点描述符相比于所述小块的所述m*n尺寸以较少操作产生。

16.一种装置，其包括：

存储装置，其用于存储一组预产生的稀疏投影向量；以及

处理电路，其耦合到所述存储装置，所述处理电路适合于：

基于所述稀疏投影向量与用于跨越所述多个尺度层级的多个像素的稀疏取样像素信息的组合来产生用于所述尺度空间中的关键点的描述符。

17.根据权利要求16所述的装置，其中所述稀疏投影向量独立于所述图像而产生。

18.根据权利要求16所述的装置，其中每个稀疏投影向量被约束于用于所述图像的平滑核的尺度。

19.根据权利要求16所述的装置，其中所述稀疏投影向量中的每一者使目标函数最大化或最小化。

20.根据权利要求19所述的装置，其中所述目标函数是用于跨越一组训练图像的多个尺度层级的像素信息的自相关矩阵的最大化。

21.根据权利要求16所述的装置，其中稀疏投影向量包含大部分零元素和多个非零元素。

22.根据权利要求21所述的装置，其中所述非零元素通过方差最大化程序获得。

23.根据权利要求16所述的装置，其中所述像素信息包含用于与所述关键点相关联的小块内的每个像素的梯度信息。

24.根据权利要求16所述的装置，其中所述多个像素与用于所述关键点的小块相关联。

25.根据权利要求16所述的装置，其中所述多个像素是在对应于用于所述稀疏投影向量的非零系数的预定位置处选择的。

26.根据权利要求16所述的装置，其中所述处理电路进一步适合于：

从用于所述图像的所述尺度空间获得关键点；以及

27.根据权利要求26所述的装置，其中所述多个稀疏投影向量定义一组非零缩放系数，每个非零缩放系数与所述小块内的对应像素位置相关联。

28.根据权利要求27所述的装置，其中所述描述符通过组合多个描述符分量而产生，每个描述符分量通过以下步骤产生：

29.根据权利要求28所述的装置，其中所述处理电路进一步适合于：

30.根据权利要求24所述的装置，其中所述小块具有m个像素乘n个像素的尺寸，且

31.一种装置，其包括：

用于获得一组预产生的稀疏投影向量的装置；

用于获得用于图像的尺度空间的装置，所述尺度空间具有多个尺度层级；以及

用于基于所述稀疏投影向量与用于跨越所述多个尺度层级的多个像素的稀疏取样像素信息的组合产生用于所述尺度空间中的关键点的描述符的装置。

32.根据权利要求31所述的装置，其中所述稀疏投影向量独立于所述图像而产生。

33.根据权利要求31所述的装置，其中每个稀疏投影向量被约束于用于所述图像的平滑核的尺度。

34.根据权利要求31所述的装置，其中所述稀疏投影向量中的每一者使目标函数最大化或最小化。

35.根据权利要求34所述的装置，其中所述目标函数是用于跨越一组训练图像的多个尺度层级的像素信息的自相关矩阵的最大化。

36.根据权利要求31所述的装置，其中稀疏投影向量包含大部分零元素和多个非零元素。

37.根据权利要求36所述的装置，其中所述非零元素通过方差最大化程序获得。

38.根据权利要求31所述的装置，其中所述像素信息包含用于与所述关键点相关联的小块内的每个像素的梯度信息。

39.根据权利要求31所述的装置，其中所述多个像素与用于所述关键点的小块相关联。

40.根据权利要求31所述的装置，其中所述多个像素是在对应于用于所述稀疏投影向量的非零系数的预定位置处选择的。

41.根据权利要求31所述的装置，其进一步包括：

用于从用于所述图像的所述尺度空间获得关键点的装置；以及

用于获得用于所述关键点的小块的装置，其中所述小块包含所述多个像素。

42.根据权利要求41所述的装置，其中所述多个稀疏投影向量定义一组非零缩放系数，每个非零缩放系数与所述小块内的对应像素位置相关联。

43.根据权利要求42所述的装置，其中所述描述符通过组合多个描述符分量而产生，每个描述符分量通过以下装置产生：

用于基于用于第一稀疏投影向量的所述非零缩放系数位置来识别像素位置的装置；

用于将来自所述小块的所述像素位置的值与用于所述第一稀疏投影向量的所述对应非零缩放系数相乘且将所述所得值加在一起以获得第一描述符分量的装置。

44.根据权利要求43所述的装置，其进一步包括：

用于获得用于多个剩余稀疏投影向量的额外描述符分量以获得额外描述符分量的装置，其中所述第一描述符分量与额外描述符分量组合为用以获得所述关键点描述符的向量。

45.根据权利要求39所述的装置，其中所述小块具有m个像素乘n个像素的尺寸，且所述关键点描述符相比于所述小块的所述m*n尺寸以较少操作产生。

46.一种包括在装置上操作的一个或一个以上指令的处理器可读媒体，所述指令在由处理电路执行时使所述处理电路执行以下操作：

获得一组预产生的稀疏投影向量；

基于所述稀疏投影向量与用于跨越所述多个尺度层级的多个像素的稀疏取样像素信息的组合而产生用于所述尺度空间中的关键点的描述符。

47.根据权利要求46所述的处理器可读媒体，其中所述稀疏投影向量独立于所述图像而产生。

48.根据权利要求46所述的处理器可读媒体，其中每个稀疏投影向量被约束于用于所述图像的平滑核的尺度。

49.根据权利要求46所述的处理器可读媒体，其中所述稀疏投影向量中的每一者使目标函数最大化或最小化。

50.根据权利要求49所述的处理器可读媒体，其中所述目标函数是用于跨越一组训练图像的多个尺度层级的像素信息的自相关矩阵的最大化。

51.根据权利要求46所述的处理器可读媒体，其中稀疏投影向量包含大部分零元素和多个非零元素。

52.根据权利要求51所述的处理器可读媒体，其中所述非零元素通过方差最大化程序获得。

53.根据权利要求46所述的处理器可读媒体，其中所述像素信息包含用于与所述关键点相关联的小块内的每个像素的梯度信息。

54.根据权利要求46所述的处理器可读媒体，其中所述多个像素与用于所述关键点的小块相关联。

55.根据权利要求46所述的处理器可读媒体，其中所述多个像素是在对应于用于所述稀疏投影向量的非零系数的预定位置处选择的。

56.根据权利要求46所述的处理器可读媒体，其进一步包括一个或一个以上指令，所述指令在由所述处理电路执行时使所述处理电路执行以下操作：

从用于所述图像的所述尺度空间获得关键点；以及

57.根据权利要求46所述的处理器可读媒体，其中所述多个稀疏投影向量定义一组非零缩放系数，每个非零缩放系数与所述小块内的对应像素位置相关联。

58.根据权利要求57所述的处理器可读媒体，其中所述描述符通过组合多个描述符分量而产生，每个描述符分量通过以下步骤产生：

59.根据权利要求58所述的处理器可读媒体，其进一步包括一个或一个以上指令，所述指令在由所述处理电路执行时使所述处理电路执行以下操作：

获得用于所述多个剩余稀疏投影向量的额外描述符分量以获得额外描述符分量，其中所述第一描述符分量与额外描述符分量组合为用以获得所述关键点描述符的向量。

60.根据权利要求54所述的处理器可读媒体，其中所述小块具有m个像素乘n个像素的尺寸，且所述关键点描述符相比于所述小块的所述m*n尺寸以较少操作产生。