CN1953442A

CN1953442A - 基于数据网格的k近邻查询方法

Info

Publication number: CN1953442A
Application number: CN 200610053408
Authority: CN
Inventors: 庄越挺; 庄毅; 吴飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2006-09-14
Filing date: 2006-09-14
Publication date: 2007-04-25

Abstract

本发明公开了一种基于数据网格的k近邻高维查询方法。该方法通过向量缩减、打包传输及流水线并行处理的技术大大缩短了k近邻查询的响应时间。在实施本方法的过程中，处理距离计算的执行结点是根据网格中结点的状况动态设定的，因此该方法具有良好的可扩展性，特别适合海量高维数据的k近邻查询。同时由于基于内容的检索本质就是高维检索，因此该发明可移植到各种媒质的基于内容的检索中，具有很好的可移植性，能有效地应用于面向Internet的基于内容的海量多媒体检索。

Description

基于数据网格的k近邻查询方法

技术领域

本发明涉及数据库与网络领域，尤其涉及一种基于数据网格的k近邻查询方法。

背景技术

随着网格和多媒体技术的不断发展，特别是近几年来，Internet上多媒体信息的爆炸性增长，基于内容的海量多媒体信息检索和索引^[1]已成为一个热门的研究领域。如何利用网格的并行计算能力来加快基于内容的多媒体检索是一个很重要的研究课题。

高维索引技术经历了20多年的研究^[11]，采用的技术主要分为三类：第一类是基于数据和空间分片的树形索引，如R-tree^[12]及其变种[13，14]等。但是这些树形索引方法只适合维数较低的情况，随着维数的增加，其索引的性能往往劣于顺序检索，并且维数一旦增加，其查询覆盖区域增长很快，导致查询速度的急剧下降，产生“维数灾难″；第二类是采用近似的方法来表示原始向量，如VA-file^[15]和IQ-tree^[16]等.该类方法的基本思想是通过对高维点数据进行压缩和近似存储来加速顺序查找速度。然而数据压缩和量化带来的信息丢失使得其首次过滤后的查询精度并不令人满意。同时尽管减少了磁盘的IO次数，但由于需要对位串解码同时计算对查询点距离的上界和下界，导致很高的CPU运算代价；最后一类是通过将高维数据转化为一维数据来进行高维查询，包括NB-Tree^[17]和iDistance^[18]等。NB-Tree通过计算高维空间的每个点与原点O(0，0...0)的尺度距离，将高维数据点映射到一维空间，然后将这些距离值用B+树建立索引，从而将高维查询转变为一维空间的范围查询。尽管它能够快速得到结果，但是由于它不能有效的缩减查询空间，特别是当维数很高时，范围查询效率急剧恶化。NB-Tree是一种基于单参考点的方法，iDistance是基于多参考点的方法，通过引入多参考点并结合聚类的方法有效地缩减了高维数据空间的搜索范围，提高了查询精度，然而其查询效率很大程度上取决于参考点的选取并且依赖数据聚类和分片。同时由于iDistance在对高维数据映射到一维距离时不可避免存在信息丢失，导致查询精度不是非常理想。最坏的情况下，查询空间几乎会覆盖整个高维空间。

以上的高维索引都是针对单机环境而提出来的，H.V.Jagadish^[19]等人提出在P2P环境下的多维索引方法——VBI-Tree，但该方法只是针对P2P环境而设计，不太适合网格环境。很少有文献关于网格环境下k-NN查询的讨论。

在数据网格研究领域，世界各国都进行了广泛深入的研究，并且已经推出了一些实验系统，其中最著名的是欧洲数据网格项目^[6，7]、美国的国际虚拟数据网格实验室IVDGL项目等。最著名的数据网格系统工具是Globus中的数据网格支撑模块和SDSC的SRB系统。到目前为止，数据网格环境下有关数据存储、访问和传输的大多数工作都是针对分布式文件系统的，而数据库在数据网格中扮演着十分重要的角色，数据库管理系统可以为数据网格提供许多重要的工具^[8]，比如管理网格中的元数据、支持应用程序数据的存取和分析。

虽然目前对网格环境下的传统数据库查询进行了一定的研究^[9，10]，但是较少有文献研究基于数据网格的高维k近邻查询。在数据网格环境下，由于各结点高度自治，并且是异构的；所处理的数据一般都是海量；各结点之间的连接带宽不同，其传输速度可能会有很大的差异；网络环境不稳定，经常会出现结点之间连接不上以及连接中断的情况，这些都为基于数据网格环境的k-NN查询操作的研究提出了新的要求。

1 庄越挺，潘云鹤，吴飞编著.《网上多媒体信息分析与检索》.清华大学出版社.2002年9月

2 Fei Wu，Hong Zhang，Yueting Zhuang.Learning Semantic Correlations for Cross Media Retrieval.In Proc.of ICIP 2006

3 Fei Wu，Yi Yang，Yueting Zhuang and Yunhe Pan.Understanding Multimedia Document Semantics forCross-Media Retrieval.In Proc.of PCM 2005，pp.993-1004

4 I.Foster，C Kesselman.The Grid：Blueprint for a New Computing Infrastructure San Francisco，CA：MorganKaufmann，1998

5 A Chervenak，I Foster，C Kesselman，et al.The data grid：Towards an architecture for the distributedmanagement and analysis of large scientific datasets.Journal of Network and Computer Applications，2001，23：187-200

6 Wolfgang Hoschek，Javier Jaen Martinez，Asad Samar，et al.Data management in an international data gridprojectl In Proc.of the 1st IEEE/ACM Int’l Workshop on Grid Computing.Berlin：Springer Verlag，2000，17-20

7 B Segal.Grid Computing：The European data grid project.The 2000 IEEE Nuclear Science Symposium andMedical Imaging Conference，Lyon，France.2000

8 Heinz Stockinger.Distributed database management systems and the data grid.In Proc.The 18th IEEE Sympon Mass Storage Systems and the 9th NASA Goddard Conference on Mass Storage Systems and TechnologiesSan Diego，CA，2001

9 J.Smith，A.Gounaris，P Watson，et al.Distributed query processing on the grid In Proc of the 3rd Int’lWorkshop on Grid Computing Berlin：Springer-Verlag.pp.279-290，2002

10 杨东华，李建中，张文平.基于数据网格环境的连接操作算法.计算机研究与发展，Vol.41，No.10，200411 Christian Bhm，Stefan Berchtold，Daniel Keim：Searching in High-dimensional Spaces：Index Structures forImproving the Performance of Multimedia Databases.ACM Computing Surveys 33(3)，2001.

12 A.Guttman.R-tree：A dynamic index structure for spatial searching.In Proc.of the ACM SIGMOD Int.Conf.on Management of Data. 1984. pp.47-54.

13 N.Beckmann.H.-P.Kriegel，R.Schneider，B.Seeger.The R^*-tree：An Efficient and Robust Access Methodfor Points and Rectangles.In Proc.ACM SIGMOD Int.Conf.on Management of Data.1990，pp.322-331.

14 S.Berchtold，D.A.Keim and H.P.Kriegel.The X-tree：An index structure for high-dimensional data.In Proc.22th Int.Conf.on Very Large Data Bases，1996，pp.28-37.

15 R.Weber.H.Schek and S.Blott.A quantitative analysis and performance study for similarity-search methodsin high-dimensional spaces.In Proc.24th Int.Conf.on Very Large Data Bases，1998，pp.194-205.

16 S.Berchtold，C.Bohm，H.P.Kriegel，J.Sander and H.V.Jagadish.Independent quantization：An indexcompression technique for high-dimensional data spaces.In Proc.16th Int.Conf.on Data Engineering，2000，pp.577-588.

17 M J.Fonseca and J A.Jorge.NB-Tree：An Indexing Structure for Content-Based Retrieval in Large Databases.In Proc.of the 8th International Conference on Database Systems for Advanced Applications，Kyoto，Japan，Mar 2003，pp.267-274.

18 H.V.Jagadish，B.C.Ooi，K.L.Tan，C.Yu，R.Zhang：iDistance：An Adaptive B+-tree Based Indexing Methodfor Nearest Neighbor Search.ACM Transactions on Data Base Systems，30，2，364-397，June 2005.

19 H.V.Jagadish，B.C.Ooi，Q.H.Vu，R.Zhang，A.Y.Zhou：VBI-Tree：A Peer-to-Peer Framework for SupportingMulti-Dimensional Indexing Schemes.In Proc.22nd IEEE International Conference on Data Engineering，2004.

发明内容

本发明的目的是为了k近邻查询的性能，加快基于内容的海量多媒体检索，提供一种基于数据网格的k近邻查询方法。

本发明解决技术问题所采用的技术方案是：

1)对查询核心算法进行了模块化的封装，在二进制代码级上实现代码的动态重用，通过指定统一的接口，以接口的形式提供协议构件所实现的服务；

2)在数据结点层面对向量数据进行基于始点距离的数据分布，使得每个数据结点并行地执行向量集缩减；

3)在数据结点层面对向量集进行基于双重距离尺度的缩减，得到候选向量集；

4)采用“打包”方式将若干个候选向量合并作为一个消息进行传输；

5)在基于始点距离的数据分布、基于双重距离尺度索引的向量集缩减和“打包”传输技术基础上，完成网格环境下的k近邻查询，返回查询结果。

基于始点距离的数据分布的步骤如下：

输入：Ω：高维向量集，α个数据结点；

输出：Ω(1 to α)：在不同数据结点存放的向量；

(1)计算每个向量的始点距离并且排序；

(2)根据每个分片中向量总数一致的原则将始点距离范围分成α分片；

(3)对于每个分片Ω(j)来说

(4)分别从每个始点距离的子范围中随机选择n/α²个向量，得到Ω(j)；

(5)将Ω(j)部署在第j个数据结点；

在数据结点层面对向量集进行基于双重距离尺度的缩减步骤如下：

输入：向量集Ω及查询超球Θ(V_q，r)

输出：被缩减后的候选向量集Ω′(1 to t)

(1)对于每个类超球Θ(O_j，CR_j)且j∈[1，T]；

(2)对第j个子索引进行中心点为V_q半径为r的范围查询，返回结果Ω′(j)；

(3)将得到的Ω′(j)输出到输出缓冲区OB1；

(4)如果Θ(O_j，CR_j)相交于Θ(V_q，r)则

(5)继续循环；

(5)否则如果Θ(O_j，CR_j)包含Θ(V_q，r)则

(6)结束循环；

采用“打包”方式将若干个向量合并作为一个消息进行传输的步骤如下：

输入：缓存中的高维向量，包的大小P；

输出：待发送的向量；

(1)首先将候选向量缓存到内存；

(2)如果缓存中的向量个数达到“包”大小P，就将该“包”发送至目标结点；

(3)否则继续等待直到缓存中候选向量个数达到“包”大小。

在基于双重距离尺度索引的向量集“过滤”和“打包”传输技术基础上，进行网格环境下的k近邻查询步骤如下：

输入：查询向量V_q，k

输出：查询结果Ω″

(1)初始化；

(2)发送查询请求到数据结点N_d；

(3)当从执行结点返回的结果向量个数‖Ω″‖小于k，开始循环

(4)逐步增加半径r；

(5)利用资源管理机制在网格中找到若干个性能较好的结点作为求精操作的执行结点；

(6)在数据结点完成向量过滤，得到候选向量Ω′；

(7)把Ω′中的候选向量按照“打包”的方式传输到执行结点；

(8)在执行结点完成求精缩减得到结果向量Ω″；

(9)将Ω″中的结果向量以“打包”的方式发送到查询结点N_q；

(10)当返回结果向量Ω″个数大于k；

(11)从结果向量集Ω″中求得与V_q最远的‖Ω″‖-k-1个向量并且将它们从Ω″中删除，结束循环；

(12)否则继续循环。

本发明的有益效果：能显著提高k近邻查询的效率，同时具有很好的代码可移植性、可扩展性及鲁棒性，能够根据实际应用的需要自适应地选择查询执行结点，从而大大提高系统的性能。

附图说明

图1是本发明的总体体系结构示意图；

图2是本发明的总体流程框图；

图3是类超球的“切分”例子示意图；

图4是向量缩减例子示意图；

图5是双重距离尺度索引的结构示意图；

图6是k-NN查询执行流程示意图；

图7是基于内容的图像检索例子示意图；

图8是基于形状的书法字检索例子示意图。

具体实施方法

本发明的基于数据网格环境的高维k-NN查询的具体实施的技术方案及步骤如下：

(一)基于始点距离的数据分布策略

为了最大程度提高在数据结点层面上向量缩减处理并行性，本发明提出对向量数据进行基于始点距离的数据分布，使得对于每次查询，每个数据结点都能够并行地执行向量缩减，从而显著提高查询执行的效率。

该数据分布的步骤如下：

输入：Ω：向量集，α个数据结点；

输出：Ω(1 to α)：在不同数据结点存放的向量；

(1)计算每个向量的始点距离并且排序；

(3)对于每个分片Ω(j)来说

(5)将Ω(j)部署在第j个数据结点；

(二)基于双重距离尺度的向量缩减

定义1(始点距离).给定一向量V_i(x₁，x₂，...，x_d)，其始点距离为它到原点向量V_o(0，0，...，0)的距离，表示为SD(V_i)＝d(V_i，V_o)。

定义2(质心距离).给定一向量V_i，它的质心距离为到其对应类C_j的质心O_j的距离，表示为CD(V_i)=d(V_i，O_j)，其中V_i∈C_i且j∈[1，T]。

本发明提出基于加权质心距离的方法，该方法通过对类超球作基于始点距离的“切分”来得到索引键值。如图3所示，假设查询超球Θ(V_q，r)与类超球Θ(O_j，CR_j)相交，首先将该类超球按照其中点的始点距离大小平均“切分”为λ“片”。对于该类超球中第l个“分片”中的向量来说，满足

(V_{i}) &Element; [SD (O_{i}) - {CR}_{j} + \frac{l \times 2 C R_{j}}{λ}

SD (O) - {CR}_{j} + \frac{(l + 1) \times 2 C R_{j}}{λ}],

其中l∈[1，λ]且满足

则每个向量对应的索引键值表示为：

key(V_i)＝l+CD(V_i)/MCD (1)

其中由于CD(V_i)可能大于1，需要通过对其分别除以MCD进行归一化，使得其值小于1。对于真实数据来说，MCD取。而对于均匀分布的随机数据来说，MCD取

。这样使得每个点对应的加权质心距离的值域不重叠。最后对n个键值建立基于分片的B+树索引，如图5所示。

双重距离尺度索引结构如图5所示，它由一张哈希表和T个分片索引构成，其中T为聚类个数。通过聚类后，每个类超球中的向量分别采用一棵B+树建立索引，作为双重距离尺度的一个分片索引。T个类需要建立T棵B+树，同时需要生成一张哈希表来根据向量所在类的编号快速地定位到对应的分片索引。一般采用最简单的一一对应的方式来完成哈希映射，即其分片索引的编号由某一向量所在类的编号确定。

双重距离尺度索引的创建分两步：首先对n个向量进行K平均聚类得到T个类，然后通过T次循环，用newDMFile()生成子B+树索引头文件，接着对于每个类中的向量，分别计算其始点和质心距离，并且通过转换得到对应的键值，最后将键值插入对应的子B+树索引。尽管得到的这T个分片索引在物理上是离散存储，但通过哈希表的统一映射使得其在逻辑上是完整的。该索引存储于网格中的数据结点。

双重距离尺度索引的创建步骤如下：

输入：高维数据库Ω；

输出：双重距离索引bt(1 to T)；

(1)对n个向量进行K平均聚类得到T个类；

(2)对于每个类C_j且j∈[1，T]

(3)用newDMFile()生成子B+树索引头文件；

(4)对于该类中的向量，分别计算其始点(SD)和质心(CD)距离；

(5)按照公式：

求得对应的键值，最后将键值插入对应的子B+树索引bt(j)；

由于向量集存储在数据结点，对于任意一个查询，不需要也没有必要将该向量集中的所有向量都传输到执行结点进行距离运算。本发明提出在数据结点通过双重距离尺度索引快速地对向量集进行缩减，从而有效地减少网络传输所耗费的代价，减少通讯开销。向量缩减过程如图4所示，以下是该算法：

输入：向量集Ω及查询超球Θ(V_q，r)

输出：被缩减后的候选向量集Ω′(1 to t)

(1)对于每个类超球Θ(O_j，CR_j)且j∈[1，T]；

(2)对第j个分片索引进行以V_q为中心r力半径的范围查询，得到候选向量Ω′(j)；

(3)将得到的Ω′(j)输出到输出缓冲区OB1；

(4)如果Θ(O_j，CR_j)与Θ(V_q，r)相交，则

(5)继续循环；

(6)否则，结束循环；

(三)“打包”传输

当从一个结点往另一个结点传输数据时，可以采取向量“打包”(vectorpackage)的方式进行数据传输.该传输方式的主要思想是：把需要传输的向量“打”成若干“包”，每个“包”包含若干个向量，每次把它当成一个消息进行传输，而不是把一个向量当成一个消息进行传输。

(i)采取向量“打包”的方式进行数据传输，既可以减少每一次数据传输所要消耗的启动传输的代价，又可以减少传输每个消息的头文件所耗费的代价。

(ii)向量“打包”传输方式具有很好的鲁棒性。如果传输失败，能够恢复被中断的传输，即能够在最后一个被传输的“包”的开始位置恢复传输。

(iii)如果结点间每次传输一个向量，那么网络上任意的延迟都会使在接收数据的结点上的操作停止执行，采用向量“打包”的传输方式，执行结点可以把接收到的“包”中的向量进行缓存，当下一个“包”出现网络延迟时，就可以对缓存中的向量进行操作。

(四)基于数据网格的k近邻查询算法

本发明针对数据网格中存储海量高维向量数据的各结点之间网络带宽的不同，提出一种基于数据网格环境的高效k近邻(k-NN)查询方法。附图1表示该查询系统的体系结构。附图2为查询流程。由于k-NN查询是通过嵌套调用范围查询来完成的。当用户向数据结点发送一个查询请求，首先利用基于双重距离尺度索引对原始向量集进行缩减，以减少网络传输的代价，再将缩减后的候选向量通过向量“打包”传输的方式发送到若干个执行结点，在执行结点并行地完成候选向量的求精(距离)运算。为了充分利用网格中的资源，突出数据网格资源共享的特点，该算法把网格中性能较好的若干个结点作为高维查询的执行结点。最后将得到的结果向量发送回查询结点。这样完成了一次高维向量的范围查询。当返回的候选向量个数小于k时，再通过增大查询半径r的方式再次执行基于数据网格的范围查询，直到条件满足。

整个k-NN查询的完整算法分为3个阶段，如图6所示；当得到的候选向量个数小于k时(第3行)，再重新增大查询半径(第4行)，由于通过上述方法得到的候选向量个数不一定正好为k个，可能会大于k(第10行)。当遇到该情况时，需要进行(‖Ω″‖-k-1)次循环(第11行)，依次找到在该结果向量集Ω″中距离查询点V_q最远的(‖Ω″‖-k-1)个向量(第12行)并且将它们删除(第13行)。这样恰好得到k个最近邻向量。以下为查询步骤：

输入：查询向量V_q，k

输出：查询结果Ω″

(1)初始化；

(2)发送查询请求到数据结点N_d；

(3)当从执行结点返回的结果向量Ω″个数小于k，开始循环

(4)增加半径值r；

(5)利用资源管理机制在网格中找到h个性能较好的结点作为求精操作的执行结点；

(6)在数据结点对Ω进行缩减，返回候选向量集Ω′；

(7)把Ω′中的候选向量按照向量“打包”的方式传输到h个执行结点；

(8)在执行结点对Ω′进行求精，返回结果向量Ω″；

(9)将Ω″中的结果向量按照“打包”的方式发送到查询结点N_q；

(10)当返回结果向量Ω″个数大于k则

(11)从结果向量集Ω″中删除距V_q最远的‖Ω″‖-k-1个向量，结束循环；

(12)否则继续循环；

需要说明的是，第6和第7步并行执行。因为通过向量缩减后的候选向量在发送至执行结点之前是先发送到数据结点的缓存中，当缓存中的向量个数达到传输“包”大小时，再将它们“打包”发送到对应的执行结点。同理，第8和第9步也是并行执行，也需要将求精后的结果向量先发送至执行结点的缓存中，再将它们“打包”发送到查询结点N_q。

该查询可应用于的基于内容的海量图像检索中，如图7所示，将当用户从查询结点提交一张例子图片，首先提取特征并将特征“打包”发送到数据结点，在数据结点通过向量集缩减从图片库中检索出与该粒子图片相似的候选图片，然后将这些图片“打包”发送至执行结点进行距离计算，得到结果图片集，并将其发送到查询结点显示。

类似地，该技术也可以应用基于形状的海量书法字检索，如图8所示，当用户从查询结点提交一个“题”字到数据结点，通过在数据结点的书法字集“过滤”、将候选字“打包”发送至执行结点进行距离计算，最终得到结果书法字并将其发送到查询结点显示。

Claims

1.一种基于数据网格的高维k近邻查询方法，其特征在于：

2.根据权利要求1所述的一种基于数据网格的k近邻查询方法，其特征在于所述的基于始点距离的数据分布的步骤如下：

输入：Ω：高维向量集，α个数据结点；

输出：Ω(1 to α)：在不同数据结点存放的向量；

(1)计算每个向量的始点距离并且排序；

(3)对于每个分片Ω(j)来说

(5)将Ω(j)部署在第j个数据结点；

3.根据权利要求1所述的一种基于数据网格的k近邻查询方法，其特征在于：所述的在数据结点层面对向量集进行基于双重距离尺度的缩减步骤如下：

输入：向量集Ω及查询超球Θ(V_q，r)

输出：被缩减后的候选向量集Ω′(1 to t)

(1)对于每个类超球Θ(O_j，CR_j)且j∈[1，T]；

(3)将得到的Ω′(j)输出到输出缓冲区OB1；

(4)如果Θ(O_j，CR_j)相交于Θ(V_q，r)则

(5)继续循环；

(5)否则如果Θ(O_j，CR_j)包含Θ(V_q，r)则

(6)结束循环；

4.根据权利要求1所述的一种基于数据网格的k近邻查询方法，其特征在于，所述采用“打包”方式将若干个向量合并作为一个消息进行传输的步骤如下：

输入：缓存中的高维向量，包的大小P；

输出：待发送的向量；

(1)首先将候选向量缓存到内存；

(3)否则继续等待直到缓存中候选向量个数达到“包”大小。

5.根据权利要求1所述的一种基于数据网格的k近邻查询方法，其特征在于：在基于双重距离尺度索引的向量集“过滤”和“打包”传输技术基础上，进行网格环境下的k近邻查询步骤如下：

输入：查询向量V_q，k

输出：查询结果Ω″

(1)初始化；

(2)发送查询请求到数据结点Nd；

(4)逐步增加半径r；

(6)在数据结点完成向量过滤，得到候选向量Ω″；

(8)在执行结点完成求精缩减得到结果向量Ω″；

(9)将Ω″中的结果向量以“打包”的方式发送到查询结点Nq；

(10)当返回结果向量Ω″个数大于k；

(11)从结果向量集Ω″中求得与Vq最远的‖Ω″‖-k-1个向量并且将它们从Ω″中删除，结束循环；

(12)否则继续循环。