CN102282572A

CN102282572A - 表示图像块的方法和系统

Info

Publication number: CN102282572A
Application number: CN2010800048814A
Authority: CN
Inventors: M·A·鲁宗; R·曼马塔; D·塔圭
Original assignee: A9 com Inc
Current assignee: A9 com Inc
Priority date: 2009-01-14
Filing date: 2010-01-13
Publication date: 2011-12-14
Anticipated expiration: 2030-01-13
Also published as: US20170103282A1; US20140226913A1; US9721182B2; EP2387769A1; US8705848B2; US9530076B2; US20150161480A1; US20100177966A1; US8958629B2; EP3009961A1; JP2012515399A; US20140086503A1; WO2010083251A1; CN102282572B; JP5336607B2; US8406507B2; EP3009961B1; EP2387769A4

Abstract

本发明提供用于表示图像的方法、系统和计算机程序产品。需要被表示的图像是以高斯金字塔的形式表示的，所述高斯金字塔是图像的尺度-空间表示，并包括几个金字塔图像。识别金字塔图像中的特征点，并选择预定数目的特征点。通过使用一组方位计算算法来获得所选择的特征点的方位。基于特征点的方位和金字塔图像的采样因子，提取金字塔图像中特征点周围的块。通过用额外像素填充金字塔图像来提取金字塔图像中的边界块。定义所提取的块的特征向量。这些特征向量被标准化，以便特征向量中的分量小于阈值。

Description

表示图像块的方法和系统

背景技术

本发明一般涉及数字图像处理领域。更具体地，本发明涉及用于表示图像内容，使图像可以与包含相同内容的另一图像匹配的方法和系统。

图像匹配是计算机视觉、物体识别、运动跟踪、3D建模等等中使用的一种基本技术。执行图像匹配以检查两个图像是否具有相同的内容。需要比较的两个图像可以是不完全一样的。例如，一个图像可以是旋转的，或者与另一图像相比是从不同观察点拍摄的，或者它可以是另一图像的缩放形式。而且，两个图像可以是在不同的照明条件下拍摄的。尽管这两个图像有这些不同，但它们包含相同的内容、背景或物体。因此，使用图像匹配技术来有效地匹配图像。

典型的图像匹配算法利用了以下事实的优点：一个物体或背景的图像包含许多特征点。特征点是图像中对图像旋转、尺度、观察点或照明条件的变化健壮的特定点。这意味着这些特征点通常出现在两幅图像中，即使这两幅图像在之前描述的方面有所不同。这些特征点也已知为“兴趣点”。因此，图像匹配算法的第一阶段是找出图像中的这些特征点。典型地，图像金字塔被构造以确定图像的特征点。图像金字塔是图像的尺度空间表示，即，它包含各种金字塔图像，每幅金字塔图像是在特定尺度下的图像表示。尺度空间表示使图像匹配算法能够匹配总尺度不同的图像。

在确定图像金字塔中所有金字塔图像的特征点之后，典型的图像匹配算法确定每个特征点的方位。特征点的方位是基于该特征点的局部图像梯度确定的。使用方位来获得对旋转的不变性。在确定特征点和它们的方位之后，在特征点周围以方位向量形成块的参考系的一个轴的形式提取块。计算该块上的局部图像梯度，并将其转换成特征向量表示。特征向量表示考虑局部失真和照明的明显变化，即特征向量对于失真和照明条件的变化是不变的。

所有金字塔图像上的特征点、它们的方位和它们的特征向量形成一个完整的图像表示。可以比较图像之间的这些表示以找到匹配图像。

存在与现有的图像表示方法相关的各种局限性。首先，图像可能包含大量的特征点。这些特征点中有一些在图像表示中不如另一些明显，不必要地加大了图像匹配算法的复杂性。第二，存在用来确定特征点的方位的不同方法，这些方法产生不同效果。因此，不能依靠任何一种方法来确定方位。而且，如果产生特征点的两个或多个方位，它们加大了图像匹配算法的复杂性。第三，用来提取特征点周围的块的采样算法对于实际尺度是不敏感的。因此，这些方法没有考虑即使图像大小保持不变，块的大小也会随着尺度增大而增大这一事实。第四，因为块可能延伸超出图像边界，所以图像边界周围的块是不被提取的。由于边界块通常对整个图像匹配算法做出显著贡献，尤其是在图像大小降低时，所以这是不期望的。最后，特征点的特征向量中出现的一些分量由于通过块的边缘而可能很大。这样的特征向量对于照明变化是不健壮的。现有的方法通过标准化特征向量来提高健壮性，但不能在数字上保证。

存在对于改进的能克服上文提到的各种局限性的图像表示方法的需要。

发明内容

本发明的一个目的是提供用于改进的图像表示的方法、系统和计算机程序产品，以便可以有效地匹配两个或更多个图像。

本发明的另一个目的是提供用一个方位智能地替代特征点的一类方位的方法、系统和计算机程序产品。

本发明的又一个目的是提供用于使用金字塔图像的尺度来更健壮地提取特征点周围的块的方法、系统和计算机程序产品。

本发明的又一个目的是提供用于在表示图像时提取和使用图像的边界块的方法、系统和计算机程序产品。

本发明的又一个目的是提供用于以健壮的不包含比特定阈值大的分量的特征向量形式表示图像的方法、系统和计算机程序产品。

本发明的各种实施例提供用于表示图像的方法、系统和计算机程序产品。形成图像的高斯金字塔，其由不同的金字塔图像组成。金字塔图像是原始图像在具体尺度参数的变形形式。之后，识别金字塔图像的特征点。从所有识别的特征点中选择特定数目的特征点。特征点的方位是通过组合由一组方位计算算法获得的方位来确定的。之后，在特征点周围提取块。通过用额外像素填充金字塔图像来提取在金字塔图像的边界上出现的特征点周围的块。而且，用来提取块的采样是基于特征点的方位和金字塔图像的预定义采样因子的。之后，针对每个提取的块，定义特征向量。特征向量以特征向量中没有分量大于特定阈值的方式被标准化。

附图说明

结合附图，下文将描述本发明的各种实施例，附图的提供是说明而不是限制本发明，其中相同的符号指示相同的元件，其中：

图1图解说明可以实施本发明的各种实施例的图像环境；

图2是图解说明根据本发明的各种实施例的用于表示图像的方法的流程图；

图3和图4表示图解说明根据本发明的一个实施例的用于表示图像的详细方法的流程图；和

图5是图解说明根据本发明的各种实施例的用来表示图像的各种系统组件的框图。

本领域技术人员将会认识到附图中的元件是为简洁和清楚的目的来图解说明的，以帮助促进对本发明的实施例的理解。

具体实施方式

本发明的各种实施例涉及用于表示图像的方法、系统和计算机程序产品。所述方法使用图像中出现的特征点来描述图像。因此，所述方法中的第一步是确定图像中的特征点。之后，通过组合由一组方位计算算法获得的方位来确定特征点的方位。之后，提取特征点周围的块，并针对所提取的块，定义特征向量。特征向量以特征向量中没有分量大于特定阈值的方式被标准化。

图1图解说明环境100，本发明的各种实施例可以在此实现。本发明可以用在计算机视觉、物体识别、运动跟踪和3D建模领域中。图像可以是不同格式的，诸如JPEG、GIF、BMP等等。而且，这些图像的质量和分辨率可以因应用不同而不同。而且，图像不需要是完全相同的，只需要是彼此的变换形式。因此，在图像匹配算法中，图像是以具体格式表示的，以便图像之间可以匹配。

环境100包括查询图像102和图像104a-n的数据库。搜索数据库以找到匹配查询图像102的图像(或若干图像)。匹配图像不需要与查询图像102完全相同，但应包含与查询图像102相同的内容。例如，查询图像102可以是定标(scaled)、旋转或缩放形式，或者匹配图像的其它任何可能的变换。本发明的图像匹配算法在图像104a-n中找到查询图像102的匹配，其与上述的方法不同。图像匹配算法通过在特征点、方位和特征向量方面表示图像来操作。在已经创建查询图像和数据库图像的表示之后，使用图像的特征点、方位和特征向量来确定图像之间的匹配。本发明描述用于表示图像使其可以与其它图像匹配的方法和系统。

图2是图解说明根据本发明的一个实施例的用于表示图像的方法的流程图。图2简单概括了应该优选对图像执行以表示图像的主要步骤。稍后结合图3和图4详细描述图2的每个步骤。

在表示图像之前，图像被表示为图像金字塔，其包含几个金字塔图像。金字塔图像是原始图像的平滑下采样形式。通过从原始图像中提取隔一行和隔一列来进行下采样。而且，通过用高斯函数对图像进行卷积来执行图像的平滑或模糊化。稍后将详细描述通过平滑和下采样形成图像金字塔的过程。

在步骤202，识别金字塔图像中的特征点。识别的特征点对于像图像的缩放、定标和旋转一样的图像的某些变换是不变的。通过在金字塔图像中寻找不同点的哈里斯角点检测来识别特征点。哈里斯角点检测中的局部最大值被识别为特征点。在识别特征点之后，在步骤204，确定它们的方位。通过使用一组方位计算算法来确定方位。方位计算算法使用图像的梯度来获得特征点的方位。例如，一种算法可以在方位的直方图中寻找主要峰值，而另一种算法可以大大地平滑图像。之后，在步骤206，在特征点周围提取包围这些特征点的图像的块。块的提取基于特征点的方位和金字塔图像的预定义采样因子。而且，在金字塔图像的边界上出现的特征点的块是通过用额外像素填充金字塔图像来提取的。之后，在步骤208，定义边界块和非边界块的特征向量。边界图像块包含金字塔图像的填充中的额外像素。在步骤210，基于金字塔图像的特征点、特征点的方位和特征向量表示图像。

在给图像应用图像匹配算法之前，以图像金字塔的形式表示图像。图像金字塔包含几个金字塔图像。金字塔图像是原始图像的平滑、下采样形式。图像的平滑是通过用高斯函数对图像进行卷积来实现的。因此，图像金字塔也被称作高斯金字塔。高斯函数的特征是由σ表示的预定义尺度参数，它是高斯函数的标准差。因此，所有的金字塔图像是通过预定义尺度参数σ标定的，σ的值对于每个金字塔图像是变化的。

在本发明的一个实施例中，高斯金字塔由几组(octave)图像组成。每组由相同大小但不同尺度的图像组成。例如，一组可由4个图像组成，σ的值均匀分布在4个图像中。在上面示例中的每个图像的σ的值可以是1、

和2。σ的这些值仅用于说明目的，也可以使用其它的σ值来形成组。而且，一组的最后一个图像被下采样以获得下组的第一个图像。例如，上面示例的最后一个图像(σ＝2)以2的因子下采样，以获得下一组的第一个图像。在这种情况下，提取图像的每隔一行和每隔一列，来形成下采样的图像。图像被进一步下采样，以创建组，直到图像的大小降低到低于最小大小，诸如块的大小。以此方式，创建具有几组图像的整个高斯金字塔。

在本发明的另一实施例中，在构建图像的高斯金字塔之前，使用上采样算法来增大图像的大小。如果图像的初始大小小于上采样阈值，则图像被上采样。例如，上采样阈值的值可以被预先确定为120,000(400×300)。注意，在其它实施例中，根据图像匹配算法的不同应用，可以选择上采样阈值的任意其它值。而且，通过在原始图像的每个相邻行和列之间插入一行和一列像素来对图像进行上采样。插入的行和列的值是通过对原始图像中出现的值应用双线性插值来确定的。由于上采样不会在图像中创建任何新的信息，所以上采样过程执行一次且不会重复。

在本发明的另一实施例中，当原始图像的大小比下采样阈值大时，在构建图像的高斯金字塔之前，图像被重复平滑和下采样。例如，下采样阈值可以被预先确定为1,300,000。注意，在其它实施例中，根据图像匹配算法的不同应用，可以选择下采样阈值的其它任何值。图像是通过用高斯函数对图像进行卷积来平滑的，其尺度参数σ是0.8。而且，图像是通过选择图像中的每隔一行和一列来用2的因子下采样的，以获得下采样图像。

在以图像金字塔的形式表示图像之后，以特征点、特征点方位和特征向量的形式表示图像。图3和图4表示图解说明用于表示图像的详细方法的流程图。在高斯金字塔的金字塔图像上，分别执行图3和图4的步骤302-320。然而，为简洁起见，在表示图3和图4的步骤时，一直使用的是术语“图像”，而不是术语“金字塔图像”。

在表示图像的总过程中的第一步是识别图像中的特征点，如图2的步骤202所示。特征点是用来表示图像的一组“兴趣点”。进一步详细描述识别特征点的过程。

为了识别图像中的特征点，计算图像中特征点的“兴趣度”。图像中特征点的“兴趣度”是根据图像中特征点的哈里斯角点检测定义的。这些特征点可以出现在图像的主要区域或者在图像的边缘上。在步骤302，计算哈里斯角点检测。它基于图像的自相关函数。为了获得哈里斯角点检测，图像梯度是分别由x方向图像的导数l_x和y方向图像的导数l_y计算的。这些导数是通过用诸如[-1 0 1]的核在x方向和在y方向对图像进行卷积获得的。

图像的导数用来表示在图像的任何点(x，y)的亮度位移的近似量。特征点是基于图像中特征的亮度位移被识别的。点(x，y)的亮度位移用E(x，y)表示，通过关系式表示为：

E (x, y) = [xy] M [\frac{x}{y}],

这里

M = [\begin{matrix} I_{x}^{2} & I_{xy} \\ I_{xy} & I_{y}^{2} \end{matrix}] .

矩阵M的特征值定义围绕点(x，y)的图像区域的性质。如果两个特征值都小，则它表明区域是平的，该区域没有出现变化。如果正好有一个特征值大，则它表明该区域包含边缘。如果两个特征值都大，则它表明该区域包含拐角或交叉点。由于特征值的计算是一个复杂过程，所以特征值不是直接确定的。为了避免计算特征值，计算矩阵M的行列式和迹(trace)。行列式det(M)和迹trace(M)得出特征值的积和和。之后，将点(x，y)的哈里斯角点检测(H)定义为：

H = \det (M) / trace (M) = (I_{x}^{2} * I_{y}^{2} - I_{xy}^{2}) / (I_{x}^{2} + I_{y}^{2})

为了总是定义该函数，将小的量ε加入到分母中，使它总是非0的。而且，通过用高斯函数对图像梯度进行卷积来获得某一点的矩阵M的元素

以下是计算这些元素的表达式：

其中G_o表示高斯函数，是以尺度参数σ为特征的。由于乘法是一个非线性函数，所以在乘法之后进行高斯函数的卷积。

在计算图像中各点的哈里斯角点检测之后，在步骤304，将特征点识别为图像中哈里斯角点检测具有局部最大值的点。用于确定哈里斯角点检测的局部最大值的方法在下文详细解释。

在本发明的一个实施例中，使用5×5的盒子来检查图像中的像素是否是局部最大值。5×5的盒子的半径为2，这里半径是用5×5的盒子的中心作为中心绘出的假想圆的半径。注意，可以选择其它任何适当大小，来确定最大值。盒子的中心与特征点对齐，位于盒子中的点的哈里斯角点与中心点的哈里斯角点检测进行比较。如果其哈里斯角点检测大于盒子中每隔一个点的哈里斯角点检测，则中心点是局部最大值。当一个点被识别为是局部最大值时，将它加入到特征点的组中。用来检测局部最大值的盒子的大小或半径可以变化。不过，通常使用半径大于1的盒子，原因是它会防止特征点太靠近。

在基于哈里斯角点检测识别一组特征点之后，在步骤306中，从一组特征点中选择特定数目的特征点。当图像是高分辨率，或它包含大量的文本时，该选择变得很重要。这类图像可产生大量的特征点，它可降低图像匹配算法的效率。在本发明的一个实施例中，基于特征点的哈里斯角点检测选择特定数目的特征点。在这种情况下，特征点是以它们的哈里斯角点检测的降序排列的，以形成列表，从列表顶部选择特定数目的特征点。在本发明的另一实施例中，可以基于哈里斯角点检测和金字塔图像的预定义尺度参数的积来选择特征点。

在步骤308，估计特征点的更加细化的位置。在步骤306中识别的特征点具有整数个坐标。不过，图像中的像素是图像函数的离散样本。而且，下采样图像中的一个像素表示原始图像中的2×2、4×4或8×8个像素块。由于这些原因，在亚像素层上估计特征点的更为精确的位置。该过程被称作亚像素定位。

特征点的亚像素定位是通过将椭圆抛物面拟合为特征点周围的预定义区域来进行的。椭圆抛物面以包围特征点和这些特征点上出现的亮度值的方式被拟合。椭圆抛物面是一个具有椭圆形横截面的三维二次曲面。椭圆抛物面拟合的预定义区域包围特征点。在本发明的一个实施例中，预定义区域是中心在特征点的3×3像素盒。使用3×3的盒子中的值来确定椭圆抛物面的系数，由此确定椭圆抛物面的顶点的位置。顶点表示特征点的亚像素位置。拟合椭圆抛物面并找到椭圆抛物面的顶点的过程会进一步详细解释。

椭圆抛物面的方程式是：z(x，y)＝ax²+by²+cxy+dx+ey+f，其中a和b具有相同正负号，并且其中a、b、c、d、e、f是方程式的系数。这些系数是在运行时产生的，随块的变化而变化。该椭圆抛物面顶点的坐标可以采用下面的方程式，通过将椭圆抛物面的偏导数设置为0来确定：

\frac{dz}{dx} = 2 ax + cy + d = 0 .

和

\frac{dz}{dy} = 2 by + cx + e = 0 .

求解上面的方程式，得到椭圆抛物面的顶点的x坐标和y坐标。如下所示地获得x和y的值：

x = \frac{ce - 2 bd}{4 ab - c^{2}},

y = \frac{cd - 2 ae}{4 ab - {\overset{'}{c}}^{2}},

其中4ab-c²≠0.

可能存在这样的情况，其中特征点周围的预定义区域通过椭圆抛物面是不能有效近似的。这是通过检查顶点的x和y坐标来确定的。如果亚像素坐标相比中心像素大于1个像素，则丢弃该亚像素坐标，使用特征点的积分坐标。

为了确定椭圆抛物面的顶点的亚像素x坐标和y坐标，确定椭圆抛物面的6个系数。由于3×3的盒子提供9个约束，应用最小二乘拟合来确定这些系数。9个约束可一起表示为Ax＝b，并具有以下形式：

[\begin{matrix} x_{1}^{2} & y_{1}^{2} & x_{1} y_{1} & x_{1} & y_{1} & 1 \\ x_{2}^{2} & y_{2}^{2} & x_{2} y_{2} & x_{2} & y_{2} & 1 \\ \cdot & \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot & \cdot \\ x_{9}^{2} & y_{9}^{2} & x_{9} y_{9} & x_{9} & y_{9} & 1 \end{matrix}] [\begin{matrix} a \\ b \\ c \\ d \\ e \\ f \end{matrix}] = [\begin{matrix} z_{1} \\ z_{2} \\ \cdot \\ \cdot \\ z_{9} \end{matrix}]

其中x_i和y_i是3×3的盒子中出现的像素的坐标。坐标x_i和y_i相对于盒子的中心，通过将盒子的中心的绝对坐标与x_i和y_i相加可以获得实际坐标。在替代上面方程式中的x_i和y_i值后，获得下面的矩阵方程式：

[\begin{matrix} 1 & 1 & 1 & - 1 & - 1 & 1 \\ 0 & 1 & 0 & 0 & - 1 & 1 \\ 1 & 1 & - 1 & 1 & - 1 & 1 \\ 1 & 0 & 0 & - 1 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 & 1 \\ 1 & 0 & 0 & 1 & 0 & 1 \\ 1 & 1 & - 1 & - 1 & 1 & 1 \\ 0 & 1 & 0 & 0 & 1 & 1 \\ 1 & 1 & 1 & 1 & 1 & 1 \end{matrix}] [\begin{matrix} a \\ b \\ c \\ d \\ e \\ f \end{matrix}] = [\begin{matrix} z (- 1, - 1) \\ z (0, - 1) \\ z (1, - 1) \\ z (- 1,0) \\ z (0,0) \\ z (1,0) \\ z (- 1, - 1) \\ z (0,1) \\ z (1,1) \end{matrix}]

为了求解上面的矩阵方程式，可以使用下面的公式：x＝(A^TA)^-1A^Tb＝A^*b。由于已知矩阵A，可以计算矩阵A^*：

A^{*} = \frac{1}{36} [\begin{matrix} 6 & - 12 & 6 & 6 & - 12 & 6 & 6 & - 12 & 6 \\ 6 & 6 & 6 & - 12 & - 12 & - 12 & 6 & 6 & 6 \\ 9 & 0 & - 9 & 0 & 0 & 0 & - 9 & 0 & 9 \\ - 6 & 0 & 6 & - 6 & 0 & 6 & - 6 & 0 & 6 \\ - 6 & - 6 & - 6 & 0 & 0 & 0 & 6 & 6 & 6 \\ - 4 & 8 & - 4 & 8 & 20 & 8 & - 4 & 8 & - 4 \end{matrix}]

矩阵A^*用来计算椭圆抛物面的系数。之后，使用这些系数来计算椭圆抛物面的顶点的坐标。

在计算特征点的亚像素位置之后，在步骤310中，确定特征点的方位。特征点的方位使图像匹配算法能够匹配同一图像的旋转形式。特征点可以具有与它们相关的超过一个的方位。使用一组方位计算算法来计算一组特征点的方位。

第一方位计算算法使用插值梯度方法来确定方位。在此方法中，图像导数l_x和l_y被插入在步骤308中计算的亚像素位置。之后，计算该亚像素位置的四象限反正切，以计算方位。

第二方位计算算法通过对图像进行平滑运算来计算方位。平滑运算可以通过使用高斯函数来执行。在本发明的一个实施例中，高斯函数的尺度参数是5。之后，如通过第一方位计算算法的描述，插值梯度图像方法被应用到经过平滑的图像，以获得方位。由于平滑运算，此方法的空间范围大致等于块的大小。

第三方位计算算法通过形成方位直方图来计算方位。方位直方图具有覆盖360度方位范围的36个方柱(bin)。因此，一个方柱具有10度的宽度。在特征点周围选择块，高斯权重应用于整个块。之后，块中每个点的图像梯度被映射到方位直方图中的相应方柱。图像梯度对于方柱的贡献等于梯度幅度和该点的高斯权重的积。一旦针对特征点的整个方位直方图完成，识别直方图中最高的峰值以及至少与最高峰值的85％一样高的其它峰值。这些峰值表示特征点的方位的主要值。因此，方位直方图方法可以产生每个特征点的多个方位。而且，直方图中的每个峰值被定位以确定准确的峰值的值。每个峰值的定位是通过将抛物线拟合为与每个峰值靠近的一组直方图的值来进行的。

可以使用以上提到的三种方法中任一种方法来确定特征点的方位。不过，可以存在使用两种或所有三种方法来确定方位的情况。在这种情况下，获得对于单个特征点的多个方位的值。这些方位中有一些可能彼此靠近。用一类方位的平均值来代替在方位之间的预定义角距离之内的各类方位。在本发明的一个实施例中，如果两个或多个方位彼此之间在20度的范围内，则用一个方位来代替这两个或多个方位，这个方位等于两个或多个方位的平均值。在20度范围包围360度方位时，考虑环绕角度。

在确定特征点和其方位之后，在步骤312中，在特征点周围提取包围特征点的图像的块。从图像梯度中提取块，它包括其相应的特征点。更具体地，特征点被定位在块的中心，块的大小是16×16。这是块的一个示例值，也可以使用其它任何适当值。通过基于特征点的方位和图像的预定义采样因子对梯度进行采样来提取块。以多个确定的位置对梯度采样，确定的位置是基于特征点的方位和预定义采样因子确定的。更具体地，例如通过将正的x轴选择成位于块方位的方向上，特征点的方位确定坐标参考系。梯度图像的样本之间的间隔等于预定义采样因子的值，它等于其在组中的位置。例如，如果相对于组的中间尺度是

则样本将相隔1.19个像素。

当特征点位于图像的边界附近时，块的一部分可以位于图像边界的外部。为了在表示图像时包括这些特征点的贡献，用额外的白像素沿图像的边界填充图像。注意，白色是一种示例颜色，可以使用其它颜色。

在提取特征点周围的块之后，定义针对该块的特征向量。为了定义特征向量，在步骤314，将块分成几个小块。在本发明的一个实施例中，块被划分成4×4格的小块，其中每个的大小是4×4个像素。执行块的划分，以准确方式表示块的不同部分的相对定位。之后，在步骤316中，提取与小块对应的分量。每个小块具有4个分量。通过相应的小块中出现的图像梯度计算4个分量中的每一个。第一分量是图像的小块中出现的所有正的x导数的和。第二分量是图像的小块中出现的所有负的x导数的和的负数。第三分量是图像的小块中出现的所有正的y导数的和。第四分量是图像的小块中出现的所有负的y导数的和的负数。4个分量可以表示为：

[\begin{matrix} \underset{I_{x} > 0}{Σ} I_{x} & - \underset{I_{x} < 0}{Σ} I_{x} & \underset{I_{y} > 0}{Σ} I_{y} & - \underset{I_{y} < 0}{Σ} I_{y} \end{matrix}]

然后，这4个分量在小块之间连接在一起，以定义与特征点对应的一个64维特征向量。

在获得特征点的特征向量之后，在步骤318中，标准化特征向量。进行标准化以防止特征向量的一些高值分量主导整个特征向量。可能存在这样的情况，高对比的边缘出现在特征点周围的块中。在这种情况下，特征向量将具有值很大的几个分量。这类特征向量对于图像匹配将是较不健壮的，原因是在几个大分量出现时小的分量是被忽略的。它还对对比度的整体变化敏感。

本发明在一个实施例中使用迭代过程，其具有快速收敛率，以标准化块的特征向量。在迭代过程的第一步中，将其值超过预定义阈值的所有分量降低到预定义阈值。在第二步，将其值小于预定义阈值的分量标准化为计算长度。计算长度是基于预定义阈值和在第一步执行完之后具有等于预定义阈值的值的分量的数目来确定的。在本发明的一个实施例中，计算长度等于其中t是预定义阈值，n是为预定义阈值的分量的数目。可以根据具体应用的需求来选择预定义阈值的值。注意，第二步保证整个特征向量是单位长度的。而且，重复第一步和第二步，直到所有分量都小于或等于预定义阈值。在将浮点值有效压缩到单个字节时，这种需求是期望的。

对金字塔图像执行上面提到的确定特征点、方位和特征向量的步骤。因此，优选识别在每个金字塔图像上的特征点，计算它们的方位和特征向量。在步骤320，基于金字塔图像的特征点、方位和特征向量表示图像。

图5是图解说明根据本发明的各种实施例的用来表示图像的系统的元件的框图。可以使用所述系统来在许多图像匹配情形中表示图像。所述系统将图像作为输入，产生有利于将图像和其它图像匹配的图像表示。图5包括特征点识别模块(FPIM)502、方位确定模块(ODM)504、提取模块(EM)506、特征向量确定模块(FVDM)508和数据库(DB)510。FPIM 502用来识别图像中的特征点。ODM 504和EM 506使用这些特征点来确定特征点的方位，并分别提取这些特征点周围的块。FVDM 508使用由EM 506提取的块来确定与这些块对应的特征向量。而且，DB 510用来存储所有这些特征点、它们的方位和特征向量。

FPIM 502用来识别图像中的特征点。FPIM 502包括哈里斯角点检测模块(HCMM)512和最大值识别模块(MIM)514。HCMM用来计算图像中每个点的哈里斯角点检测。哈里斯角点检测表示点中的“兴趣度”，如图3的步骤302的描述来计算。而且，MIM 514用来识别例如通过HCMM计算的哈里斯角点检测具有局部最大值的一组点。如图3的步骤304的描述，识别哈里斯角点检测的局部最大值。具有局部最大值的一组点被识别为图像的特征点。

在识别特征点之后，特征点选择模块(FPSM)516用来从通过FPIM 502识别的特征点中选择特定数目的特征点。PFSM如图3的步骤306中的描述来选择特征点。而且，位置估计模块(PEM)518用来估计选择的特征点的位置。PEM通过将椭圆抛物面拟合为包围特征点的预定义区域来估计特征点的位置。PEM如图3的步骤308的描述来估计特征点的位置。

ODM 504将通过FPIM 502识别的特征点作为输入，如图4的步骤310的描述来确定特征点的方位。方位是基于一组方位计算算法来确定的。ODM504包括一组方位计算模块520。每个方位计算模块通过使用相应的方位计算算法来计算特征点的方位。ODM 504还包括替代模块522，以用一类方位的平均值来替代预定义角距离范围之内的一类方位。

EM 506将金字塔图像和通过FPIM 502识别的特征点作为输入，每个特征点具有由ODM 504识别的其相应的(若干)方位。EM 506如图4的步骤312的描述来提取特征点周围的块。而且，EM 506通过用额外像素填充图像来提取在图像的边界出现的块。

由EM 506提取的块被FVDM 508使用，以定义与块对应的特征向量。FVDM 508包括块划分模块(PDM)524和分量计算模块(CCM)526。PDM用来如图4的步骤314的描述，将块划分成几个小块。之后，CCM计算与通过PDM产生的小块对应的特征向量的分量。CCM如图4的步骤316的描述来计算分量。

由FVDM 508定义的特征向量被标准化模块528标准化。执行标准化以防止特征向量的一些高值分量主导整个特征向量。标准化模块528如图4的步骤318的描述来标准化特征向量。

作为FPIM 502、ODM 504和FVDM 508的输出获得的金字塔图像的特征点和特征向量被存储在DB 510中。这些特征点和特征向量共同用来表示图像，并在几个图像之间进行匹配。

根据本发明的各种实施例，本发明提供一种用于有效地表示图像的方法。所述方法在大量的特征点存在于图像中时，智能地选择特定数目的特征点。因此，也可以使用本发明的方法来描述具有太多的特征点的图像。而且，所述方法智能地将特征点的方位进行组合以去掉不需要的特征点的方位。去掉不需要的方位降低了整个方法的复杂性。而且，在特征点周围提取的块是基于特征点的方位和图像的采样因子采样的。这种采样校正了在图像的大小在各尺度之间不变化时的尺度变化。而且，所述方法还考虑在表示图像时图像的边界块。包括边界块会产生更加准确完全的图像表示。所述方法还保证用来定义块的特征向量的分量不是非常大。因此，特征向量的所有分量在图像表示方面具有显著贡献。

如本发明中描述的用于表示图像的系统或其组件中的任何一个可以以与计算机系统一起使用的计算机程序产品的形式体现。计算机程序产品具有计算机可用介质，其具有嵌入其中的计算机可读代码，以表示图像。计算机系统的典型示例包括通用计算机、可编程微处理器、微控制器、外围集成电路元件和能够实施构成本发明的方法的步骤的其它装置或装置配置。

计算机系统典型地包括计算机、输入装置和显示单元。计算机进一步包括微处理器。微处理器连接到通信总线。计算机还包括存储器。存储器可以是随机存取存储器(RAM)或只读存储器(ROM)。计算机系统进一步包括存储装置，其可以是硬盘驱动器或移动存储装置，诸如软盘驱动器、光盘驱动器等等。存储装置还可以是将计算机程序或其它指令加载到计算机系统中的其它类似途径。计算机系统还包括通信单元。通信单元使计算机能够通过输入/输出(I/O)接口连接到其它数据库和因特网，能够传送和接收来自其它数据库的数据。通信单元可以包括调制解调器、以太网卡或使计算机系统能够连接到数据库和诸如LAN、MAN、WAN和因特网的网络的其它任何类似装置。计算机系统方便用户通过输入装置的输入，所述输入装置可通过I/O接口访问系统。

计算机系统执行存储在一个或更多个存储元件中的指令集来处理输入数据。存储元件还可以保存数据或其它所需信息。存储元件可以是信息源的形式或存在于处理机中的物理存储器元件。

可编程指令可以包括命令处理机执行特定任务，诸如构成本发明的方法的步骤，的各种命令。所描述的方法和系统还可以通过只使用软件编程或硬件或通过两种技术的可变结合来实施。本发明与使用的编程语言和计算机中的操作系统无关。用于本发明的指令可以以各种编程语言编写，包括但不限于“C”、“C++”、“Visual C++”和“Visual Basic”。而且，软件可以是单独的程序、具有大程序的程序模块或如本发明中描述的程序模块的一部分的集合的形式。软件还可以包括面向对象编程形式的模块编程。处理机可以响应于用户命令、以前处理的结果或由另一处理机发出的请求来对输入数据进行处理。本发明还可以在所有操作系统和平台上实施，包括但不限于“Unix”、“DOS”和“Linux”。

可编程指令可以在计算机可读介质上存储和发送。可编程指令还可以在载波上通过数据信号发送。本发明还可以体现在包括计算机可读介质、能够实施上述方法和系统的产品或者其各种可能的变形的计算机程序产品中。

条款(clause)1.一种表示图像的方法，该图像被表示为高斯金字塔，高斯金字塔包括多个金字塔图像，其中金字塔图像包括多个像素，所述方法包括：

a.在金字塔图像的多个像素中识别多个特征点，该多个特征点中的特征点对于图像变换是不变化的；

b.基于一组方位计算算法，确定金字塔图像中特征点的一个或多个方位；

c.基于金字塔图像的一个或多个方位以及预定义的采样因子，从金字塔图像中提取包围多个特征点的多个块；

d.定义针对所述块的特征向量；和

e.基于金字塔图像的多个特征点和特征向量表示图像。

条款2.如条款1所述的方法，其中针对在金字塔图像的边界上出现的特征点的块是通过用额外像素填充金字塔图像来提取的。

条款3.如条款1所述的方法，其中金字塔图像是由对图像进行下采样并用高斯函数模糊化图像形成的，高斯函数以预定义的尺度参数为特征。

条款4.如条款1所述的方法，其中在金字塔图像中的多个像素中识别多个特征点包括：

a.计算多个像素中的像素的哈里斯角点检测；和

b.识别哈里斯角点检测具有局部最大值的一组点，识别的一组点中的点是特征点。

条款5.如条款4所述的方法，进一步包括基于多个特征点的哈里斯角点检测和金字塔图像的预定义的尺度参数的组合，选择特定数目的特征点。

条款6.如条款4所述的方法，进一步包括通过将椭圆抛物面拟合为预定义的区域来估计特征点的位置，该预定义的区域包括特征点。

条款7.如条款1所述的方法，其中确定金字塔图像中特征点的一个或多个方位包括：

a.通过使用所述一组方位计算算法，计算针对特征点的一组方位；和

b.用所述一组方位的平均值代替方位之间的预定义角距离之内的一类方位。

条款8.如条款1所述的方法，其中从金字塔图像中提取特征点周围的块包括在多个确定位置对金字塔图像的梯度进行采样，所述多个确定位置是基于金字塔图像的一个或多个方位和预定义的采样因子确定的。

条款9.如条款1所述的方法，其中定义针对块的特征向量包括：

a.将块划分成多个小块；和

b.计算与多个小块中的一个小块对应的特征向量的分量。

条款10.如条款9所述的方法，其中与小块对应的特征向量的分量包括：

a.第一分量，该第一分量是小块中出现的金字塔图像的所有正的x导数的和；

b.第二分量，该第二分量是小块中出现的金字塔图像的所有负的x导数的和的负数；

c.第三分量，该第三分量是小块中出现的金字塔图像的所有正的y导数的和；和

d.第四分量，该第四分量是小块中出现的金字塔图像的所有负的y导数的和的负数。

条款11.如条款1所述的方法，进一步包括标准化块的特征向量。

条款12.如条款11所述的方法，其中标准化特征向量包括：

a.确定具有小于预定义阈值的值的初始特征向量的分量；和

b.将具有小于预定义阈值的值的分量标准化为计算长度。

条款13.如条款12所述的方法，其中计算长度是基于预定义阈值和具有大于预定义阈值的值的分量的数目来计算的。

条款14.如条款13所述的方法，其中降低初始特征向量的分量以及标准化具有小于预定义阈值的值的分量的步骤是重复进行的，直到没有分量具有大于预定义阈值的值。

条款15.一种表示图像的方法，该图像被表示为高斯金字塔，高斯金字塔包括多个金字塔图像，其中金字塔图像包括多个像素，所述方法包括：

c.基于金字塔图像的一个或多个方位以及预定义的采样因子，从金字塔图像中提取包围特征点的块；

d.定义针对所述块的特征向量；

e.标准化块的特征向量，该标准化过程包括：

f.将具有大于预定义阈值的值的特征向量的分量降低到预定义阈值；和

g.将具有小于预定义阈值的值的特征向量的分量标准化为计算长度，该计算长度是基于预定义阈值和具有不小于预定义阈值的值的分量的数目计算的；和

h.基于金字塔图像的多个特征点和它们相应的特征向量表示图像。

条款16.如条款15所述的方法，其中金字塔图像是由对图像进行下采样并用高斯函数模糊化图像形成的，高斯函数以预定义的尺度参数为特征。

条款17.如条款15所述的方法，其中在金字塔图像中的多个像素中识别多个特征点包括：

a.计算多个像素中的一个像素的哈里斯角点检测；和

条款18.如条款17所述的方法，进一步包括基于多个特征点的哈里斯角点检测和金字塔图像的预定义的尺度参数的组合，选择特定数目的特征点。

条款19.如条款17所述的方法，进一步包括通过将椭圆抛物面拟合为预定义的区域来估计特征点的位置，该预定义的区域包围特征点。

条款20.如条款15所述的方法，其中确定金字塔图像中特征点的一个或多个方位包括：

条款21.如条款15所述的方法，其中通过用额外像素填充金字塔图像来提取金字塔图像的边界上出现的特征点的块。

条款22.如条款15所述的方法，其中从金字塔图像中提取特征点周围的块包括在多个确定位置对金字塔图像的梯度进行采样，所述多个确定位置是基于金字塔图像的一个或多个方位和预定义的采样因子确定的。

条款23.如条款15所述的方法，其中定义针对块的特征向量包括：

a.将块划分成多个小块；和

b.计算与多个小块中的一个小块对应的特征向量的分量。

条款24.如条款23所述的方法，其中与小块对应的特征向量的分量包括：

条款25.如条款15所述的方法，其中降低初始特征向量的分量以及标准化具有小于预定义阈值的值的分量的步骤是重复进行的，直到没有分量具有大于预定义阈值的值。

条款26.一种表示图像的系统，该图像被表示为高斯金字塔，高斯金字塔包括多个金字塔图像，其中金字塔图像包括多个像素，所述系统包括：

a.特征点识别模块，用于在金字塔图像中识别多个特征点；

b.方位确定模块，用于确定金字塔图像中通过特征点识别模块识别的特征点的一个或多个方位，其中一个或多个方位是基于一组方位计算算法确定的；

c.提取模块，用于基于金字塔图像的一个或多个方位以及预定义的采样因子，从金字塔图像中提取包围多个特征点的多个块；

d.特征向量确定模块，该特征向量确定模块被配置成定义针对由提取模块提取的块的特征向量；和

e.数据库，用于存储多个特征点和金字塔图像的特征向量。

条款27.如条款26所述的系统，其中通过用额外像素填充金字塔图像来提取金字塔图像的边界上出现的特征点的块。

条款28.如条款26所述的系统，其中特征点识别模块包括：

a.哈里斯角点检测模块，用于计算多个像素的哈里斯角点检测；和

b.最大值识别模块，用于识别由哈里斯角点检测模块计算的哈里斯角点检测具有局部最大值的一组点，识别的一组点中的点是特征点。

条款29.如条款28所述的系统，进一步包括特征点选择模块，用于基于多个特征点中的一个特征点的哈里斯角点检测和金字塔图像的预定义的尺度参数的组合，选择特定数目的特征点。

条款30.如条款26所述的系统，进一步包括位置估计模块，用于通过将椭圆抛物面拟合为预定义的区域来估计特征点的位置，该预定义的区域包围特征点。

条款31.如条款26所述的系统，其中方位确定模块包括：

a.一组方位计算模块，用于计算针对特征点的一组方位；和

b.替代模块，用于用一类方位的平均值代替方位之间的预定义角距离之内的一类方位。

条款32.如条款26所述的系统，其中特征向量确定模块包括：

a.块划分模块，用于将块划分成多个小块；和

b.分量计算模块，用于计算与多个小块对应的特征向量的分量。

条款33.如条款26所述的系统，进一步包括标准化模块，用于标准化块的特征向量。

条款34.一种与计算机一起使用的计算机程序产品，该计算机程序产品包括存储在计算机可用介质中的指令集，计算机可用介质具有嵌入其中的用于表示图像的计算机可读程序代码，该图像被表示为高斯金字塔，高斯金字塔包括多个金字塔图像，其中金字塔图像包括多个像素，所述计算机程序代码执行：

d.定义针对块的特征向量；和

e.基于金字塔图像的多个特征点和特征向量表示图像。

尽管已经图解并描述了本发明的各种实施例，但很显然，本发明并不只局限于这些实施例。在不偏离如权利要求书中描述的本发明的精神和范围的情况下，各种修改、变化、变形、替代和等同物对于本领域技术人员将是很显然的。

Claims

1.一种表示图像的方法，所述图像被表示为高斯金字塔，所述高斯金字塔包括多个金字塔图像，其中所述金字塔图像包括多个像素，所述方法包括：

a.在所述金字塔图像的多个像素中识别多个特征点，所述多个特征点中的特征点对于所述图像的变换是不变化的；

b.基于一组方位计算算法，确定所述金字塔图像中特征点的一个或多个方位；

c.基于所述金字塔图像的一个或多个方位以及预定义的采样因子，从所述金字塔图像中提取包围所述多个特征点的多个块；

d.定义针对所述块的特征向量；和

e.基于所述金字塔图像的所述多个特征点和特征向量表示所述图像。

2.如权利要求1所述的方法，其中针对在所述金字塔图像的边界上存在的特征点的块是通过用额外像素填充所述金字塔图像来提取的。

3.如权利要求1所述的方法，其中所述金字塔图像是由对所述图像进行下采样并用高斯函数模糊化所述图像形成的，所述高斯函数以预定义的尺度参数为特征。

4.如权利要求1所述的方法，其中在所述金字塔图像的多个像素中识别多个特征点包括：

a.计算所述多个像素中的像素的哈里斯角点检测；和

b.识别所述哈里斯角点检测具有局部最大值的一组点，识别的一组点中的点是特征点。

5.如权利要求4所述的方法，进一步包括基于所述多个特征点的哈里斯角点检测和所述金字塔图像的预定义的尺度参数的组合，选择特定数目的特征点。

6.如权利要求4所述的方法，进一步包括通过将椭圆抛物面拟合为预定义的区域来估计所述特征点的位置，所述预定义的区域包围所述特征点。

7.如权利要求1所述的方法，其中确定所述金字塔图像中特征点的一个或多个方位包括：

a.通过使用所述一组方位计算算法，计算针对所述特征点的一组方位；和

8.如权利要求1所述的方法，其中从所述金字塔图像中提取所述特征点周围的块包括在多个确定位置对所述金字塔图像的梯度进行采样，所述多个确定位置是基于所述金字塔图像的一个或多个方位和预定义的采样因子确定的。

9.如权利要求1所述的方法，其中定义针对所述块的特征向量包括：

a.将所述块划分成多个小块；和

b.计算与所述多个小块中的小块对应的特征向量的分量。

10.如权利要求9所述的方法，其中与小块对应的特征向量的分量包括：

a.第一分量，所述第一分量是所述小块中出现的所述金字塔图像的所有正的x导数的和；

b.第二分量，所述第二分量是所述小块中出现的金字塔图像的所有负的x导数的和的负数；

c.第三分量，所述第三分量是所述小块中出现的所述金字塔图像的所有正的y导数的和；和

d.第四分量，所述第四分量是所述小块中出现的所述金字塔图像的所有负的y导数的和的负数。

11.如权利要求1所述的方法，进一步包括标准化所述块的特征向量。

12.如权利要求11所述的方法，其中标准化特征向量包括：

a.确定具有小于预定义阈值的值的初始特征向量的分量；和

b.将具有小于所述预定义阈值的值的分量标准化为计算长度。

13.如权利要求12所述的方法，其中计算长度是基于所述预定义阈值和具有大于所述预定义阈值的值的分量的数目计算的。

14.如权利要求13所述的方法，其中降低所述初始特征向量的分量以及将具有小于所述预定义阈值的值的分量标准化的步骤是重复进行的，直到没有分量具有大于所述预定义阈值的值为止。