CN1223953C - 特征矢量数据空间的索引方法和设备以及相似性搜索方法 - Google Patents

特征矢量数据空间的索引方法和设备以及相似性搜索方法 Download PDF

Info

Publication number
CN1223953C
CN1223953C CNB011121114A CN01112111A CN1223953C CN 1223953 C CN1223953 C CN 1223953C CN B011121114 A CNB011121114 A CN B011121114A CN 01112111 A CN01112111 A CN 01112111A CN 1223953 C CN1223953 C CN 1223953C
Authority
CN
China
Prior art keywords
sub
eigenvector
district
feature vector
vector data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB011121114A
Other languages
English (en)
Other versions
CN1326159A (zh
Inventor
申铉枓
崔良林
吴澎
班加洛尔·S·曼朱纳思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
University of California
Original Assignee
Samsung Electronics Co Ltd
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd, University of California filed Critical Samsung Electronics Co Ltd
Priority to US09/823,272 priority Critical patent/US20010048767A1/en
Publication of CN1326159A publication Critical patent/CN1326159A/zh
Application granted granted Critical
Publication of CN1223953C publication Critical patent/CN1223953C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种特征矢量数据空间的索引方法和设备,可以用于在多维矢量空间中进行相似性搜索。该索引方法包括下列步骤:将特征矢量数据空间划分成多个尺寸相同的小区;以划分的小区为单位,通过近似求出在特征矢量数据空间中的特征矢量,在整个特征矢量空间上构造矢量近似文件;确定是否存在特征矢量集中的至少一个小区;和当确定存在特征矢量集中的至少一个小区时,利用矢量近似文件分层索引特征矢量数据空间。因此,当特征矢量在高维矢量空间中不均匀分布时,可以细致地索引特征矢量数据空间。

Description

特征矢量数据空间的索引方法和设备以及相似性搜索方法
技术领域
本发明涉及一种特征矢量数据空间的索引方法,尤其涉及通过依它们在特征矢量数据空间中的分布分层近似求出特征矢量,细致地索引特征矢量高度集中的小区的索引方法。
背景技术
当处理大量多媒体数据时,快速有效地访问数据库总是人们所关心的。目前,随着产生多媒体数据的能力迅速提高,管理这样的数据库并提供访问多媒体内容的方法已经变成重要的课题。举例来说,典型的图像集合的范围可以从数十万到数百万甚至更多个项。对于数据库中的每个对象(或记录),其程度(属性的维数)要比传统数据库高得多。
为了访问具有这样特性的数据库,必须仔细地设计有效的索引方法。索引方法的有效性可以通过将焦点集中在索引方法上来正确评价。举例来说,一些索引方法旨在使存储额外开销最小,而另一些则集中在有效支持查询范围上。
多年来,多维数据的索引一直是人们的研究课题。但对于多媒体数据,由于它们对特定域的需要,还没有一种令人满意的数据结构能有效地支持最邻近(NN)搜索。
为了解决这个问题,传统的索引方法使用了矢量近似(VA)-文件。但是,这样的传统索引方法可能会受到特征矢量分布的影响。根据这种传统索引方法,当特征矢量均匀分布时,对复杂性会大幅度降低的期待是合理的。但是,当特征矢量不均匀分布时,有效的索引就可能得不到实现。
发明内容
为了解决上述问题,本发明的第一个目的是提供一种特征矢量数据空间的索引方法,通过这种索引方法可以细致地索引特征矢量高度集中的小区。
本发明的第二个目的是提供一种用于存储执行特征矢量数据空间索引方法的程序代码的计算机可读记录介质。
本发明的第三个目的是提供一种在已经执行了特征矢量数据空间索引方法的特征矢量数据空间中进行相似性搜索的相似性搜索方法。
因此,为了实现本发明的第一个目的,本发明提供了一种特征矢量数据空间的索引方法。该方法包括下列步骤:将特征矢量数据空间划分成多个尺寸相同的小区;以划分的小区为单位,通过近似求出在特征矢量数据空间中的特征矢量,在整个特征矢量空间上构造矢量近似文件;确定是否存在特征矢量集中的至少一个小区;和当确定存在特征矢量集中在上面的至少一个小区时,利用矢量近似文件分层索引特征矢量数据空间。
该方法最好包括下列步骤:在每个小区中构造显示特征矢量数量的直方图;和利用该直方图分析特征矢量的分布,并确定是否存在特征矢量集中的至少一个小区。
该方法还包括下列步骤:把特征矢量集中的每个小区划分成多个子小区;根据子小区中的特征矢量的位置构造子矢量近似文件;和利用矢量近似文件和相应的子矢量近似文件,在特征矢量集中的每个小区中近似求出特征矢量。
该方法还包括下列步骤:当确定存在特征矢量集中的至少一个小区时,将相应小区划分成子小区;和利用这些子小区,在每个相应小区近似求出特征矢量,从而分层索引特征矢量数据空间。
为了实现本发明的第二个目的,本发明提供了一种用于执行特征矢量数据空间索引的设备,包括:将特征矢量数据空间划分成多个尺寸相同的小区的装置;以划分的小区为单位,通过近似求出在特征矢量数据空间中的特征矢量,在整个特征矢量空间上构造矢量近似文件的装置;确定是否存在特征矢量集中的至少一个小区的装置;和在确定存在特征矢量集中的至少一个小区时利用矢量近似文件分层索引特征矢量数据空间的装置。
为了实现本发明的第三个目的,本发明提供了一种进行相似性搜索的方法,包括下列步骤:通过确定是否存在特征矢量集中的小区,和根据预定的索引方法在已经确定特征矢量集中的小区中利用矢量近似文件分层索引特征矢量,在已经索引过的特征矢量数据空间中进行相似性搜索。
为了实现本发明的上述目的,本发明还提供了一种具有包含用于执行特征矢量数据空间索引的计算机可读程序代码装置的计算机可用介质,在所述的计算机程序产品中的计算机可读程序代码装置包括:用于使计算机确定是否至少存在一个特征矢量集中在上面的小区的计算机可读程序代码装置;和用于使计算机在确定至少存在一个特征矢量集中在上面的小区时分层索引特征矢量数据空间的计算机可读程序代码装置。
附图说明
通过结合附图对本发明的优选实施例进行详细描述,本发明的上面目的和优点将更加清楚,在附图中:
图1是显示根据本发明实施例的特征矢量数据空间索引方法的流程图;
图2是显示在上面构造了矢量近似(VA)文件的特征矢量数据空间的示例图;和
图3A和3B是显示定义为吸引子(attractor)的小区被划分成若干个子小区的示例图。
具体实施方式
下文将参照附图详细描述本发明的实施例。
参照图1,在根据本发明实施例的索引方法中,在步骤102,在整个特征矢量数据空间上构造矢量近似(VA)文件。为了构造VA文件,将特征矢量数据空间划分成若干个尺寸相同的小区。在本说明书中,为了解释本发明能起有效作用的情况,假定特征矢量集中在若干个划分的小区中的一些任意小区上。
图2显示了在上面构造了VA文件的特征矢量数据空间的示例。参照图2,特征矢量集中在特征矢量近似01 01的小区20上和特征矢量近似10 11的小区22上。下文将特征矢量集中在上面的小区称为吸引子。
接着,在步骤104,获取显示特征矢量在整个特征矢量数据空间上分布的直方图。在步骤106,根据此直方图确定是否存在一些吸引子。举例来说,从直方图中,可以将至少含有预定数量特征矢量的小区定义为吸引子。在本实施例中,将含有10个或更多个特征矢量的小区定义为吸引子。例如,可明显看出,在图2中,小区20和22含有多于10个的特征矢量,因此,将小区20和22定义为吸引子。
在步骤108,当确认存在吸引子时,在定义为吸引子的小区上构造子VA文件。将定义为吸引子的小区划分成若干个子小区。根据子小区中特征矢量的位置构造子VA文件。
图3A和3B是显示定义为吸引子(attractor)的小区被划分成若干个子小区的示例图。在图3A中,图2中01 01的小区20被划分成若干个子小区。在图3B中,图2中10 11的小区22被划分成若干个子小区。根据子小区中特征矢量的位置构造子VA文件。
另一方面,如果不存在吸引子,即意味着至少大体上保持矢量空间的均匀性,那么将使用一般VA文件。换言之,以划分的小区为单位,通过近似求出在特征矢量数据空间中的特征矢量构造VA文件。
在步骤110,利用VA文件和子VA文件近似求出在定义为吸引子的小区中的特征矢量。例如,将01 01的小区20中的特征矢量302和特征矢量304分别近似取为01 01 01 10和01 01 01 11。将01 11的小区22中的特征矢量322和特征矢量324分别近似取为10 11 00 01和10 11 10 10。因此,根据合并了VA文件和子VA文件的文件索引小区。可以将合并了VA文件和子VA文件的文件称为分层矢量近似(HVA)文件。
按照本发明的索引方法,根据特征矢量的分布分层近似求出特征矢量数据空间以索引小区。分层索引使特征矢量高度集中的小区能够被细致地索引。尤其是,按照本发明,当特征矢量在高维矢量空间中不均匀分布时,可以实现更有效的特征矢量索引。换言之,依特征矢量数据在特征矢量数据空间中的分布调整近似结构以处理特征矢量数据的集中。
下面将描述对已经按照参照图1描述的特征矢量数据空间索引方法分层索引过的特征矢量数据空间进行相似性搜索的方法。在特征矢量数据空间中特征矢量集中在上面的每个小区中的特征矢量都已经利用子VA文件作了近似。例如,当对近似为01、01、01、10的查询点进行相似性搜索时,选择特征矢量数据空间中坐标为01、01的小区为搜索小区,并确定在所选的小区中是否存在近似为10、10的小区。当确定在所选的小区中存在近似为10、10的小区时,将所选的小区确定为搜索小区。
即使特征矢量在高维矢量空间中不是均匀分布的,这样的相似性搜索方法也能使具有与查询点相似特征的特征点在特征矢量数据空间中得到细致精确的搜索。对于搜索方法来说,可以利用包括最邻近(NN)搜索的各种搜索方法。
在参照图1所描述的实施例中,执行了2-步分层索引,但是,也可以执行更多步的分层索引。在参照图1所描述的实施例中,直方图用于确定是否存在吸引子,但是,本领域技术人员可以对这种分析方法进行调整或改变。换言之,由所附权利要求书所限定的本发明的范围并不局限于上面的实施例。
可以将根据本发明的索引方法编写成能够在个人计算机或服务器计算机上执行的程序。构成程序的程序代码和代码段可由本领域计算机编程人员容易地推导出来。程序可存储在计算机可读记录介质中。计算机可读介质可以是磁记录介质、光记录介质或载波。
如上所述,使用根据本发明的特征矢量数据空间索引方法,当特征矢量在高维矢量空间中不是均匀分布时,可以细致地索引特征矢量数据空间。
另外,即使特征矢量在高维矢量空间中不是均匀分布的,根据本发明的相似性搜索方法也能使具有与查询点相似特征的特征点在特征矢量数据空间中得到细致精确的搜索。

Claims (9)

1.一种特征矢量数据空间的索引方法,在该特征矢量数据空间中特征矢量被索引,该索引方法包括下列步骤:
将特征矢量数据空间划分成多个尺寸相同的小区;
以划分的小区为单位,通过近似求出在特征矢量数据空间中的特征矢量,在整个特征矢量空间上构造矢量近似文件;
确定是否存在特征矢量集中的至少一个小区;和
当确定存在特征矢量集中的至少一个小区时,利用矢量近似文件分层索引特征矢量数据空间。
2.根据权利要求1所述的索引方法,其中还包括下列步骤:
在每个小区中构造显示特征矢量数量的直方图;和
利用该直方图分析特征矢量的分布,并确定是否存在特征矢量集中的至少一个小区。
3.根据权利要求1所述的索引方法,其中还包括下列步骤:
把特征矢量集中的每个小区划分成多个子小区;
根据子小区中的特征矢量的位置构造子矢量近似文件;和
利用矢量近似文件和相应的子矢量近似文件,在特征矢量集中的每个小区上近似求出特征矢量。
4.根据权利要求1所述的索引方法,其中还包括下列步骤:
当确定存在特征矢量集中的至少一个小区时,将相应小区划分成子小区;和
利用这些子小区,在每个相应小区近似求出特征矢量,从而分层索引特征矢量数据空间。
5.一种用于执行特征矢量数据空间索引的设备,包括:
将特征矢量数据空间划分成多个尺寸相同的小区的装置;
以划分的小区为单位,通过近似求出在特征矢量数据空间中的特征矢量,在整个特征矢量空间上构造矢量近似文件的装置;
确定是否存在特征矢量集中的至少一个小区的装置;和
在确定存在特征矢量集中的至少一个小区时利用矢量近似文件分层索引特征矢量数据空间的装置。
6.根据权利要求5所述的设备,其中还包括:
在每个小区中构造显示特征矢量数量的直方图的装置;和
利用该直方图分析特征矢量的分布并确定是否存在特征矢量集中的至少一个小区的装置。
7.根据权利要求5所述的设备,其中还包括:
把特征矢量集中的每个小区划分成多个子小区的装置;
根据子小区中的特征矢量的位置构造子矢量近似文件的装置;和
利用矢量近似文件和相应的子矢量近似文件,在特征矢量集中的每个小区上近似求出特征矢量的装置。
8.一种在特征矢量数据空间中进行相似性搜索的方法,在该特征矢量数据空间中特征矢量被索引,该方法包括下列步骤:通过确定是否存在特征矢量集中的小区,和根据预定的索引方法在已经确定特征矢量集中的小区中利用矢量近似文件分层索引特征矢量,在已经索引过的特征矢量数据空间中进行相似性搜索,所述索引方法包括下列步骤:将特征矢量数据空间划分成多个尺寸相同的小区;以划分的小区为单位,通过近似求出在特征矢量数据空间中的特征矢量,在整个特征矢量空间上构造矢量近似文件;确定是否存在特征矢量集中的至少一个小区;和当确定存在特征矢量集中的至少一个小区时,利用矢量近似文件分层索引特征矢量数据空间。
9.根据权利要求8所述的方法,其中所述相似性搜索是根据最邻近搜索来执行的。
CNB011121114A 2000-05-31 2001-03-28 特征矢量数据空间的索引方法和设备以及相似性搜索方法 Expired - Fee Related CN1223953C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US09/823,272 US20010048767A1 (en) 2000-05-31 2001-04-02 Indexing method of feature vector data space

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US20808600P 2000-05-31 2000-05-31
US60/208,086 2000-05-31
KR48323/2000 2000-08-21
KR1020000048323A KR100667741B1 (ko) 2000-05-31 2000-08-21 특징 벡터 데이터 공간의 인덱싱 방법
KR48323/00 2000-08-21

Publications (2)

Publication Number Publication Date
CN1326159A CN1326159A (zh) 2001-12-12
CN1223953C true CN1223953C (zh) 2005-10-19

Family

ID=26638326

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011121114A Expired - Fee Related CN1223953C (zh) 2000-05-31 2001-03-28 特征矢量数据空间的索引方法和设备以及相似性搜索方法

Country Status (4)

Country Link
EP (1) EP1160690A1 (zh)
JP (1) JP2001344553A (zh)
KR (1) KR100667741B1 (zh)
CN (1) CN1223953C (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100400500B1 (ko) * 2000-08-21 2003-10-08 삼성전자주식회사 특징 벡터 데이터 공간의 인덱싱 방법
KR100446639B1 (ko) * 2001-07-13 2004-09-04 한국전자통신연구원 셀 기반의 고차원 데이터 색인 장치 및 그 방법
KR100465111B1 (ko) * 2002-09-11 2005-01-05 삼성전자주식회사 분할 기반 고차원 유사 조인 방법
JP4556120B2 (ja) * 2005-01-07 2010-10-06 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2009116592A (ja) * 2007-11-06 2009-05-28 Nippon Telegr & Teleph Corp <Ntt> ベクトル検索装置、ベクトル検索方法、プログラムおよびプログラムを記録した記録媒体
CN101430881B (zh) * 2008-11-10 2013-04-17 华为技术有限公司 一种编码、解码、编解码方法、编解码系统以及相关装置
CN107798103A (zh) * 2017-10-31 2018-03-13 浪潮软件集团有限公司 一种空间矢量数据的搜索方法、装置、可读介质及存储控制器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263334B1 (en) * 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases

Also Published As

Publication number Publication date
JP2001344553A (ja) 2001-12-14
EP1160690A1 (en) 2001-12-05
KR20010109067A (ko) 2001-12-08
CN1326159A (zh) 2001-12-12
KR100667741B1 (ko) 2007-01-12

Similar Documents

Publication Publication Date Title
Weber et al. A quantitative analysis and performance study for similarity-search methods in high-dimensional spaces
US8625907B2 (en) Image clustering
Wang et al. Spatial online sampling and aggregation
Jagadish et al. iDistance: An adaptive B+-tree based indexing method for nearest neighbor search
US9043310B2 (en) Accessing a dimensional data model when processing a query
Gionis et al. Similarity search in high dimensions via hashing
Beckmann et al. A revised R*-tree in comparison with related index structures
Xiong et al. R-trees with update memos
Cha et al. The GC-tree: a high-dimensional index structure for similarity search in image databases
US11170026B1 (en) System and method for identifying questions of users of a data management system
Lee et al. Efficient processing of multiple continuous skyline queries over a data stream
CN1223953C (zh) 特征矢量数据空间的索引方法和设备以及相似性搜索方法
Song et al. Spatial join processing using corner transformation
CN112347055A (zh) 一种基于云计算的医疗数据处理方法及系统
Song et al. Spatial indexing for massively update intensive applications
Wang et al. PL-Tree: An efficient indexing method for high-dimensional data
Zhu et al. A content-based indexing scheme for large-scale unstructured data
Li et al. A locality-aware similar information searching scheme
KR20050009672A (ko) GoF/GoP의 질감 표현 방법과, 이를 이용한GoF/GoP 검색 방법 및 장치
Böhm Efficiently Indexing High Dimensional Data Spaces
Orlandic et al. Scalable QSF-Trees: Retrieving regional objects in high-dimensional spaces
Zhang et al. PaIndex: An online index system for vehicle trajectory data exploiting parallelism
Ocsa et al. An adaptive multi-level hashing structure for fast approximate similarity search
Kanaparthi et al. A comprehensive content-based image retrieval systems using Hadoop MapReduce Framework
Seidl et al. Adaptable similarity search in large image databases

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20051019

Termination date: 20180328