CN1193308C

CN1193308C - 用于检索特征向量数据空间的方法

Info

Publication number: CN1193308C
Application number: CNB011037016A
Authority: CN
Inventors: 崔良林; B·S·曼朱纳思; 吴澎
Original assignee: Samsung Electronics Co Ltd; University of California
Current assignee: Samsung Electronics Co Ltd; University of California
Priority date: 2000-08-21
Filing date: 2001-02-09
Publication date: 2005-03-16
Anticipated expiration: 2021-02-09
Also published as: EP1182588A2; JP2002074360A; EP1182588A3; CN1339730A

Abstract

提供了一种在特征向量数据空间之内检索特征向量的方法。用于检索特征向量数据空间的方法包括步骤：(a-1)计算特征向量数据空间中特征向量数据的统计分布；(a-2)使用统计分布估计数据的边界分布；(a-3)将估计的分布划分为多个网格以使得被每个网格所覆盖的面积相同，其中在每个网格中处理数据的分布变为均匀；和(a-4)使用划分的网格检索特征向量数据空间。本发明的用于检索特征向量数据空间的方法可以有效地检索特征向量通常不是均匀分布的多维向量空间。该检索特征向量数据空间的方法还具有一个优点就是，当添加新的特征向量数据时可以方便地更新索引。

Description

用于检索特征向量数据空间的方法

技术领域

本发明涉及一种检索特征向量数据空间的方法，更具体地说涉及一种在特征向量不是均匀分布的多维向量空间中有效地执行检索的用于检索特征向量数据空间的方法。

背景技术

典型的多媒体数据描述符的多维数在设计有效的检索方案时引起挑战性的问题。因此，近来已经提出了几个新的检索结构。一个通常的假设是在一个向量空间之内特征向量均匀分布。但是，象图象纹理描述符之类的许多媒体描述符并不是均匀分布的。举例来说，在使用众所周知的向量近似(VA)文件(files)的方法中，该方法的特性取决于特征向量的均匀分布性，并且通常该方法有一个问题，就是当在特征向量不是均匀分布的多维向量空间中检索特征向量数据时，其特性明显下降。

发明内容

为了解决上述问题，本发明的目的是提供一种在特征向量不是均匀分布的多维向量空间中有效地执行检索的用于检索特征向量数据空间的方法。

于是，为了达到上述目的，提供了一种依照本发明的检索特征向量数据空间的方法，该方法包括：(a-1)计算特征向量数据空间中特征向量数据的统计分布；(a-2)使用统计分布估计数据的边界分布；(a-3)将估计的分布划分为多个网格以使得被每个网格所覆盖的面积相同，其中在每个网格中处理数据的分布变为均匀；和(a-4)使用划分的网格检索特征向量数据空间。

同样，在步骤(a-4)之前，最好进一步包括当新数据加入时基于前一个概率分布函数和更新的概率分布函数来更新网格的步骤。

同样，最好步骤(a-4)进一步包括使用向量近似(VA)文件的检索步骤。

同样，最好多个网格的数目由分配给该维的比特数来确定。

同样，最好步骤(a-2)进一步包括步骤：(a-2-1)使用预定分布函数的加权和来定义概率分布函数；和(a-2-2)通过使用在步骤(a-2-1)中定义的概率分布函数估计预定参数来获得估计的概率分布函数。

同样，最好步骤(a-2-2)包括使用在步骤(a-2-1)中定义的概率分布函数基于最大似然算法通过每次都使用所有N个预定数据来估计预定参数而获得估计的概率分布函数的步骤，其中N为一个正整数。

同样，最好预定的分布函数为高斯函数。

同样，在步骤(a-2-1)中包括假设单维信号的概率分布函数p(x)为

p (x) = Σ_{j = 1}^{N} p (x | j) p (j)

的步骤，其中p(x|j)定义为

p (x | j) = \frac{1}{\sqrt{2 π σ_{j}^{2}}} \exp {- \frac{{(x - μ_{j})}^{2}}{2 σ_{j}^{2}}},

并且混合参数P(j)满足条件。

同样，最好步骤(a-2-2)进一步包括通过找到使

Φ (Φ_{1}, . . ., Φ_{M}) = Π_{l = 0}^{N} p (v [l] | (Φ_{1}, . . ., Φ_{M}))

最大的Φ_j来获得被估计的概率分布函数的步骤，其中将被估计的参数为j＝1，...M和l＝I，...N，以及v[l]为给定的数据集合。

同样，最好步骤(a-2-2)进一步包括根据

μ_{j}^{l + 1} = \frac{Σ_{l = 1}^{N} p {(j | v [l])}^{t} v [l]}{Σ_{l = 1}^{N} p {(j | v [l])}^{t}},

{(σ_{j}^{2})}^{t + 1} = \frac{Σ_{l = 1}^{N} p (j | v [l]^{t} (v [l] - μ_{j}^{t}))^{2}}{Σ_{l = 1}^{N} p {(j | v [l])}^{t}}

p {(j)}^{t + 1} = \frac{1}{N} Σ_{l = 1}^{N} p {(j | v [l])}^{t}

来获得被估计的参数的步骤，其中t为代表迭代次数的正整数。

同样，最好步骤(a-2-2)进一步包括以下步骤：如果当使用N个数据v[l]估计的参数集合{P(j)^N，μ_j ^N，(σ_j ²)^N}给定时新数据v[N+1]加入，则通过计算

μ_{j}^{N + 1} =

μ_{j}^{N} = θ_{j}^{N + 1} (v [N + 1] - μ_{j}^{N}),

{(σ_{j}^{2})}^{N + 1} = {(σ_{j}^{2})}^{N} + θ_{j}^{N + 1} [(v [N + 1] - μ_{j}^{N})^{2} - {(σ_{j}^{2})}^{N}],

P {(j)}^{N + 1} = P {(j)}^{N} + \frac{1}{N + 1} (P (j | v [N + 1] - P {(j)}^{N})

和

{(θ_{j}^{N + 1})}^{- 1} = \frac{P (j | v [N])}{P (j | [N + 1])} {(θ_{j}^{N})}^{- 1} + 1

来获得更新的参数集合。

同样，最好步骤(a-2-2)进一步包括以下步骤：对于各维，度量定义为

ρ = \frac{&Integral; {({\hat{p}}_{old} (x) - {\hat{p}}_{new} (x))}^{2} dx}{&Integral; p_{old} {(x)}^{2} dx}

的概率分布函数的变化，其中前一个概率分布函数为

更新后的概率分布函数为

以及如果ρ大于预定的阈值，则更新针对该维的近似值。

同样，最好步骤(a-3)包括以下步骤：划分概率分布函数，以使使用通过满足条件的边界点c[l]确定的多个网格时每个网格所覆盖的面积

{&Integral;}_{c [l]}^{c [l + 1]} \hat{p} (x) dx = \frac{1}{2^{b}} {&Integral;}_{c [0]}^{c [2^{b}]} \hat{p} (x) dx

相同，其中估计概率分布函数为

附图说明

本发明的上述目的和优点通过结合附图对其优选实施例的详细描述将变的更加清楚，其中：

图1为说明依照本发明优选实施例的检索方法主要步骤的流程图；

图2说明即使在各维上数据的边界分布都是均匀的，但数据联合分布仍旧是不均匀的而是已经聚合的情况；

图3A为说明特征向量数据空间内的特征向量数据的频谱图；

图3B为说明对频谱图概率分布函数估计图；

图4A为说明数据集合的特征向量值的图；

图4B为说明图4A的数据集合频谱的计算结果图；

图4C、图4D和图4E为当用于估计的元素个数分别为1700、3400和5000时的估计概率分布函数图；

图5A和图5B为说明使用常规索引方法和本发明的索引方法在第一和第二筛选步骤中所访问的特征向量个数的对比图。

具体实施方式

下面将结合附图阐述本发明的优选实施例。

图1为说明依照本发明优选实施例的检索方法的主要步骤的流程图。依照本发明，基于特征向量数据空间内的特征向量数据的统计分布自适应地生成向量近似(VA)文件。也就是说，因为密度分布单元(cell)可能使索引特性恶化，所以在本发明中根据数据的统计特征自适应地生成特征向量的近似值。为达到此目的，在依照本发明的索引方法中，计算特征向量数据空间之内的特征向量数据的统计分布(步骤102)。然后，使用统计分布估计边界分布(步骤104)。接下来，将估计的边界分布划分为多个网格，其中处理每个网格中数据概率变为均匀(步骤106)。网格的个数由分配给维数的比特数确定。然后，使用划分的网格索引特征向量数据空间(步骤108)。步骤108可以基于使用公知的向量近似(VA)文件索引方法来实现。

通过上述方法生成的近似值减少了具有密度分布单元的可能性。因此，索引特性得到提高。

这里，应该注意数据的边界分布只能跟踪多维分布的部分信息的事实。图2说明了即使在各维上数据的边界分布都是均匀的，但数据联合分布仍旧是不均匀的而是已经聚合的情况。参照图2，在整个特征向量数据空间20内各维数据的边界分布是均匀的。但是，如果考虑到作为维数的属性在不同的维中的数据相关性降低，并且图象/视频数据库增加，仍然可以将通过跟踪多维数据的统计特性来估计边界分布作为有效的方法。

下面，将更加详细地阐述实现本发明方法的方法。首先，i维上的数据的概率分布函数表示为pi(x)。通过假定各维上的数据是相互独立的，则下文中描述的算法可以独立地应用到各维。同样如所述的，数据分布的均匀性实际上具有数据的不规则概率分布函数，或者并不能由比如象高斯函数之类的选定函数来模拟。在本发明中，为了容忍数据分布的变化，使用高斯混合函数来模拟单维数据的概率分布函数。

首先，假定单维信号p(x)的概率分布函数如下定义：

p (x) = Σ_{j = 1}^{N} p (x | j) p (j) . . . (1)

这里，p(x|j)如下定义：

p (x | j) = \frac{1}{\sqrt{2 π σ_{j}^{2}}} \exp {- \frac{{(x - μ_{j})}^{2}}{2 σ_{j}^{2}}} . . . (2)

系数P(j)称作混合参数，其满足0≤P(j)≤1的要求和下述公式：

Σ_{j = 1}^{M} p (j) = 1 . . . (3)

因此，在本实施例中，使用高斯函数的加权和来定义概率分布函数。那么，估计概率分布函数的任务转化为参数估计的问题。这里，当必须估计的参数为j＝1，...M和l＝1，...N，以及v[l]为给定的数据集合时，获得了使下式最大化的Φ_j。

Φ (Φ_{1}, . . ., Φ_{M}) = Π_{l = 0}^{N} p (v [l] | (Φ_{1}, . . ., Φ_{M})) . . . (4)

使用最大似然(EM)算法获得参数。依照此算法，N个预定数据用作估计的输入，并且参数是迭代估计的，在每次迭代中都使用所有的N个分配的数据。

用t表示迭代次数，下面的等式用来更新估计参数。

μ_{j}^{t + 1} = \frac{Σ_{l = 1}^{N} p {(j | v [l])}^{t} v [l]}{Σ_{l = 1}^{N} p {(j | v [l])}^{t}} . . . (5)

{(σ_{j}^{2})}^{t + 1} = \frac{Σ_{l = 1}^{N} p {(j | v [l])}^{t} {(v [l] - μ_{j}^{t})}^{2}}{Σ_{l = 1}^{N} p {(j | v [l])}^{t}} . . . (6)

p {(j)}^{t + 1} = \frac{1}{N} Σ_{l = 1}^{N} p {(j | v [l])}^{t} . . . (7)

但是，如果数据的分布为不能归类到高斯函数的其它值的奇异值，则会引起估计失效。

在此情况下，我们不得不令某个μ接近该值并令相应的σ2收敛到0以准确跟踪该值。为了避免此异常问题，将一个非常小的值设定为较低的边界，用于估计偏差。

为了解释使用用于估计高斯混合函数参数的EM算法的效果，在图3A中示出了特征向量数据空间内的特征向量数据的频谱图，并在图3B中示出了基于频谱图估计的概率分布函数。如图3A所示，虽然数据的分布是不规则的并且不能用一些简单形式的函数来模拟，但是使用高斯混合作为模拟工具和EM算法用以估计参数，可以很好地模拟数据的概率分布函数，如图3B所示。

同时，使用公式5、6和7可以对N个预定数据估计参数。在大容量数据库的情况下，与元素的总个数相比，N个通常只是很少的一部分。在真正的数据库应用中，预定点数的估计需要更新。举例来说，可能有这样一种情况，为了更好地估计，必须使用较大部分的数据。另外，当数据库为非静态时，数据的统计特性会变化，从而必须重新估计概率分布函数。在任一种情况下，没有必要将前一个估计的记忆全部删除。考虑参数估计，当数据集合改变时，对策必须集中在跟踪估计概率分布函数的变化。为此目的，在本发明中提出了能够顺序更新估计的算法。

若使用N个数据v[l]估计的参数集合{P(j)^N，μ_j ^N，{σ_j ²)^N}给定，在新数据v[N+1]加入时，则更新的参数集合可以按下面的公式计算。

μ_{j}^{N + 1} + μ_{j}^{N} + μ_{j}^{N + 1} (v [N + 1] - μ_{j}^{N}) . . . (8)

{(σ_{j}^{2})}^{N + 1} = {(σ_{j}^{2})}^{N} + θ_{j}^{N + 1} [{(v | [N + 1] - μ_{j}^{N})}^{2} - {(σ_{j}^{2})}^{N}] . . . (9)

p {(j)}^{N + 1} = p {(j)}^{N} + \frac{1}{N + 1} (P (j | v [N + 1] - p {(j)}^{N})) . . . (10)

在公式8和9中，关系式由下式实现。

{(θ_{j}^{N + 1})}^{- 1} = \frac{p (j | v [N])}{p (j | v [N + 1])} {(θ_{j}^{N})}^{- 1} + 1 . . . (11)

为了评价使用在线估计的跟踪特性，针对合成数据集合进行了实验。数据集合的特征向量值示于图4A。参照图4A，数据集合包括5000个元素。在图4B中示出了针对图4A的数据集合的频谱计算结果。将每个独立的元素顺序相加用于估计。然后，按照公式8、9和10计算参数。接下来，当一定数量的元素用于估计时，可以从估计的参数生成概率分布函数。

在图4C、图4D和图4E中，示出了当用于估计的元素个数分别为1700、3400和5000时的估计概率分布函数。参照图4C、图4D和图4E，当输入数据的分布变化时，可以看出在线估计跟踪得非常好。这里，一个必须注意的事实是在线估计的效率部分取决于选择作为输入的数据的方法。

举例来说，当估计示于图4A的数据的概率分布函数时，按照与索引数据相同的顺序选择数据，然后获得了如图4E所示的一个估计的概率分布函数。也就是说在理想情况下，数据必须如此选择以避免在数据上放置不合适的权重。

估计的概率分布函数称作

非线性量化的目标是使用多个网格划分概率分布函数，以使每个网格覆盖的面积相同。如果边界点表示为c[l]，则边界点必须满足下式的条件。

{&Integral;}_{c [l]}^{c [l + 1]} \hat{p} (x) dx = \frac{1}{2^{b}} {&Integral;}_{c [0]}^{c [2^{b}]} \hat{p} (x) dx . . . (12)

由一遍扫描使用此条件估计的概率分布函数来确定边界点是可能的。举例来说，所有N个点都聚合成2^b簇，从而各维的边界点在公式4中确定。同样，通过使用公式12的计算，不仅可以非常有效地找到边界点，而且可以避免距离计算的依赖性。

依照上述方法，可以更新概率分布函数，此特征对于针对不规则的数据库来保证满意的索引非常重要。也就是说，每次当前一个估计与更新的估计不匹配时，就需要更新近似值。出于这个原因，必须基于概率分布函数估计的变化来计算决定什么时候更新近似值。同样，由于使用概率分布函数构造近似值的并行设计，用于更新近似值的计算可以针对每一维来定义。当前一个概率分布函数为和更新的概率分布函数为时，概率分布函数的变化的度量办法可以按下式定义。

ρ = \frac{&Integral; {({\hat{p}}_{old} (x) {\hat{p}}_{new} (x))}^{2} dx}{&Integral; {\hat{p}}_{old} {(x)}^{2} dx} . . . (13)

在此，当ρ大于预定的阈值时，更新针对该维的近似值。

进行了用于评价包括34689幅航空照片图象在内的图象数据库的模拟实验。首先，使用预定的用于提取纹理的方法来提取描述各幅图象纹理特征的48维特征向量。基于提取的特征向量从整个数据集合估计概率分布函数。图5A和图5B为说明使用常规索引方法和本发明的索引方法在第一步筛选和第二步筛选中所访问的特征向量个数的对比图。在图5A中，曲线502表示使用本发明的自适应地生成VA文件的索引方法在第一筛选步骤中所访问的特征向量个数，曲线504表示使用常规的使用固定VA文件的索引方法在第一步筛选中所访问的特征向量个数。在第一步筛选中所访问的特征向量的个数也表示为N1的纵轴。

同样，在图5B中，曲线512表示使用本发明的自适应地生成VA文件的索引方法在第二筛选步骤中所访问的特征向量个数，曲线514表示使用常规的使用固定VA文件的索引方法在第二步筛选中所访问的特征向量个数。在第二步筛选中所访问的特征向量的个数也表示为N2的纵轴。将曲线502和504与曲线512和514相比较，可以看出使用本发明的自适应地生成VA文件的索引方法在第一步筛选和第二步筛选中所访问的特征向量个数，要比使用常规的使用固定VA文件的索引方法在第一步筛选和第二步筛选中所访问的特征向量个数大许多。

本发明的索引方法可以写成在个人计算机或服务器计算机上运行的程序。构成程序的程序代码和代码段可以容易地由本技术领域的计算机程序员得到。该程序也可以存储到计算机可读的记录介质中。记录介质包括磁记录介质、光记录介质和载波介质。

Claims

1.一种检索特征向量数据空间的方法，包括步骤：

(a-1)计算特征向量数据空间中特征向量数据的统计分布；

(a-2)使用统计分布估计数据的边界分布；

(a-3)将估计的分布划分为多个网格以使得被每个网格所覆盖的面积相同，其中在每个网格中处理数据的分布变为均匀；和

(a-4)使用划分的网格检索特征向量数据空间。

2.如权利要求1的方法，在步骤(a-4)之前，进一步包括当新数据加入时基于前一个概率分布函数和更新的概率分布函数来更新网格的步骤。

3.如权利要求1的方法，其中步骤(a-4)包括使用向量近似(VA)文件检索。

4.如权利要求1的方法，其中多个网格的数目由分配给该维的比特数来确定。

5.如权利要求1的方法，其中步骤(a-2)包括：

(a-2-1)使用预定分布函数的加权和来定义概率分布函数；和

(a-2-2)通过使用在步骤(a-2-1)中定义的概率分布函数估计预定参数来获得估计的概率分布函数。

6.如权利要求5的方法，其中步骤(a-2-2)包括使用在步骤(a-2-1)中定义的概率分布函数基于最大似然算法通过每次都使用所有N个预定数据来估计预定参数而获得估计的概率分布函数的步骤，其中N为一个正整数。

7.如权利要求5的方法，其中预定的分布函数为高斯函数。

8.如权利要求5的方法，其中在步骤(a-2-1)中包括：假设单维信号的概率分布函数p(x)为

p (x) = Σ_{j = 1}^{N} p (x | j) P (j),

其中p(x|j)定义为

p (x | j) = \frac{1}{\sqrt{2 π σ_{j}^{2}}} \exp {- \frac{{(x - μ_{j})}^{2}}{2 σ_{j}^{2}}},

并且混合参数P(j)满足0≤P(j)≤1和

Σ_{j = 1}^{M} P (j) = 1

的单维信号概率分布函数的条件。

9.如权利要求5的方法，其中步骤(a-2-2)中包括：通过找到使

Φ (Φ_{1}, . . ., Φ_{M}) = Π_{i = 0}^{N} P (v [l] | (Φ_{1}, . . ., Φ_{M})

最大的Ф_j来获得被估计的概率分布函数，

其中将被估计的参数为j＝1，...M和l＝1，...N，以及v[l]为给定的数据集合。

10.如权利要求9的方法，其中在步骤(a-2-2)中进一步包括根据

μ_{j}^{t + 1} = \frac{Σ_{l = 1}^{N} p (j | v {[l]}^{t} v [l]}{Σ_{l = 1}^{N} p {(j | v [l])}^{t}},

{(σ_{j}^{2})}^{t + 1} = \frac{Σ_{l = 1}^{N} p {(j | v [l])}^{t} {(v [l] - μ_{j}^{t})}^{2}}{Σ_{l = 1}^{N} p {(j | v [l]}^{t}}

和

P {(j)}^{t + 1} = \frac{1}{N} Σ_{l = 1}^{N} p {(j | v [l])}^{t}

来获得被估计的参数，其中t为代表迭代次数的正整数。

11.如权利要求4的方法，其中步骤(a-2-2)进一步包括步骤：如果当使用N个数据v[l]估计的参数集合

{P {(j)}^{N}, μ_{j}^{N}, {(σ_{j}^{2})}^{N}}

给定时新数据v[N+1]加入，则通过计算

μ_{j}^{N + 1} = μ_{j}^{N} + θ_{j}^{N + 1} (v [N + 1] - μ_{j}^{N})

、

{(σ_{j}^{2})}^{N + 1} = {(σ_{j}^{2})}^{N} + θ_{j}^{N + 1} [{(v [N + 1] - μ_{j}^{N})}^{2} - {(σ_{j}^{2})}^{N}]

、

P {(j)}^{N + 1} = P {(j)}^{N} + \frac{1}{N + 1} (P (j | v [N + 1]) - P {(j)}^{N})

和

{(θ_{j}^{N + 1})}^{- 1} = \frac{P (j | v [N])}{P (j | v [N + 1])} {(θ_{j}^{N})}^{- 1} + 1

夹发现更新的参数集合。

12.如权利要求10的方法，其中步骤(a-2-2)进一步包括步骤：

对于各维，度量定义为

\frac{ρ = {&Integral; ({\hat{P}}_{old} (x) - {\hat{P}}_{new} (x))}^{2} dx}{&Integral; {\hat{P}}_{old} {(x)}^{2} dx}

的概率分布函数的变化，其中前一个概率分布函数为更新后的概率分布函数为和如果ρ大于预定的阈值，则更新针对该维的近似值。

13.如权利要求1的方法，其中步骤(a-3)包括步骤：划分概率分布函数，以使使用通过满足条件的边界点c[l]确定的多个网格时每个网格所覆盖的面积

{&Integral;}_{c [l]}^{c [l + 1]} \hat{P} (x) dx = \frac{1}{2^{b}} {&Integral;}_{c [0]}^{c [2^{b}]} \hat{P} (x) dx

相同，其中估计概率分布函数为