CN103279551A - 一种基于欧氏距离的高维数据准确近邻快速检索方法 - Google Patents

一种基于欧氏距离的高维数据准确近邻快速检索方法 Download PDF

Info

Publication number
CN103279551A
CN103279551A CN2013102267582A CN201310226758A CN103279551A CN 103279551 A CN103279551 A CN 103279551A CN 2013102267582 A CN2013102267582 A CN 2013102267582A CN 201310226758 A CN201310226758 A CN 201310226758A CN 103279551 A CN103279551 A CN 103279551A
Authority
CN
China
Prior art keywords
data
point
index
euclidean distance
neighbour
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102267582A
Other languages
English (en)
Other versions
CN103279551B (zh
Inventor
陈纯
王灿
卜佳俊
朱林
徐斌
吴晓凡
汪识翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310226758.2A priority Critical patent/CN103279551B/zh
Publication of CN103279551A publication Critical patent/CN103279551A/zh
Application granted granted Critical
Publication of CN103279551B publication Critical patent/CN103279551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于欧氏距离的高维数据准确近邻快速检索方法,将高维数据表述成向量形式,然后嵌入到均值和方差构成的二维空间中,同时建立原高维数据的采样索引;进行近邻查询时,在输入查询点后,首先通过采样索引获得过滤阈值,然后利用过滤阈值在二维空间中对非近邻数据进行过滤,得到候选数据集;最后线性遍历计算所有候选数据点到查询点的距离,并计算出查询点的最近邻点;本方法的优点在于能够快速处理高维数据,并且能够查询准确的近邻点。

Description

一种基于欧氏距离的高维数据准确近邻快速检索方法
技术领域
本发明涉及信息检索、数据挖掘以及聚类分析等数据处理领域,具体涉及到利用欧氏距离的上下界以及一定的数据结构对高维数据进行索引并进行准确的近邻查询。 
背景技术
随着信息技术和互联网的蓬勃发展,多媒体数码设备的广泛使用,我们拥有了超越以往任何时代的海量网络信息,而其中包含了大量的高维数据,如图片,音频,视频等,如何对这种海量的高维数据进行快速准确的索引与检索是一个亟待解决的难题。 
索引与检索的一个重要作用就是近邻查询,即查询出数据库中与输入数据最相似的数据,这是一种十分基础但是重要的操作,除了信息检索以外,还广泛应用于计算机视觉、机器学习等领域,高效与准确的近邻查询对这些前沿学科有着重要的应用价值。 
传统的近邻查询算法有着诸多不足,如采取空间划分策略的k维树,球树等树形结构,它们对低维数据的效果较好,但当数据维度较高时性能会急剧下滑;还有的处理高维数据的算法如局部敏感散列等,采取的是查询近似近邻的策略,效率较高但无法查询准确的近邻。本发明的主要贡献在于提出了一种能够快速的对高维数据查询准确近邻的方法。 
发明内容
为了能够针对高维数据进行快速准确的近邻查询,本发明提出了 一种基于欧氏距离上下界和数据过滤策略的高维近邻查询方法,该方法包括以下步骤: 
1、将数据表示成向量后,进行如下处理: 
1)将高维数据嵌入到以均值和方差构成的二维空间S中,并采用制高点树对嵌入后的二维数据建立索引,记为index1; 
2)为高维数据本身建立采样近邻索引,记为index2,该索引的建立可以采用任意近似近邻索引结构,如R树,KD树,局部敏感散列; 
3)对于查询数据q,首先通过索引index2进行采样,获得阈值T,然后通过索引index1查询出二维空间S上到q的欧氏距离小于T的数据点的集合,最后遍历该集合并求出距离q最近的数据点。 
2、步骤1)中所述的索引index1的建立方法如下: 
1)将数据点嵌入到以均值和方差构成的二维空间S中,具体方法为:若数据点                                                  
Figure 2013102267582100002DEST_PATH_IMAGE001
则嵌入后的点为(μxx),其中μx和σx计算方法为    μ x = 1 d Σ i = 1 d x i , σ x = 1 d Σ i = 1 d ( x i - μ x ) 2 , d为向量的维度; 
2)采用制高点树对嵌入二维空间S后的数据集建立索引index1,其中制高点树是一种适合范围搜索的二叉树结构,在每个非叶子节点对数据进行划分,作为划分依据的是数据点到某一被选择的制高点的距离,用制高点树建立的索引能够查询到查询点的欧氏距离小于某个 阈值的所有数据点; 
3、步骤3)中所述的近邻查询方法如下: 
1)首先进行采样以获得阈值T,我们对T的定义如下:若查询点为q,则通过索引index2查询q的近似近邻,并计算出近似近邻到q的欧氏距离记为D,则T=D/d,其中T为我们定义的阈值,D为近似近邻到查询点q的欧氏距离,d为数据维度; 
2)将查询点q嵌入到二维空间S中,对应的点记为
Figure BDA00003311907500031
然后通过索引index2查询所有到
Figure BDA00003311907500032
的距离小于T的数据点的集合   
Figure 2013102267582100002DEST_PATH_IMAGE004
3)对于
Figure BDA00003311907500034
其对应的原数据的集合为Q,遍历Q中的每个数据点,计算其与查询点q的欧氏距离,从而求得查询点q的准确最近邻。 
本发明提出了针对高维数据的准确的近邻查询的方法,其优点在于:对数据进行预处理降低维度到2维,结合制高点树的结构以及采样阈值,能够快速过滤非近邻点,从而缩小了候选数据集的范围,提高近邻查询的速度;在这个过滤过程中严格遵守了上下界,并在最后加入了验证环节,因此结果是准确的。 
附图说明
图1是本发明的方法流程图。 
具体实施方式
参照附图,进一步说明本发明: 
一种基于欧氏距离上下界和数据过滤策略的高维数据近邻查询 方法,该方法包括以下步骤: 
1、将数据表示成向量后,进行如下处理: 
1)将高维数据嵌入到以均值和方差构成的二维空间S中,并采用制高点树对嵌入后的二维数据建立索引,记为index1; 
2)为高维数据本身建立采样近邻索引,记为index2,该索引的建立可以采用任意近似近邻索引结构,如R树,KD树,局部敏感散列; 
3)对于查询数据q,首先通过索引index2进行采样,获得阈值T,然后通过索引index1查询出二维空间S上到q的欧氏距离小于T的数据点的集合,最后遍历该集合并求出距离q最近的数据点。 
2、步骤1)中所述的索引index1的建立方法如下: 
1)将数据点嵌入到以均值和方差构成的二维空间S中,具体方法为:若数据点   则嵌入后的点为(μxx),其中μx和σx计算方法为    μ x = 1 d Σ i = 1 d x i , σ x = 1 d Σ i = 1 d ( x i - μ x ) 2 , d为向量的维度; 
2)采用制高点树对嵌入二维空间S后的数据集建立索引index1,其中制高点树是一种适合范围搜索的二叉树结构,在每个非叶子节点对数据进行划分,作为划分依据的是数据点到某一被选择的制高点的距离,用制高点树建立的索引能够查询到查询点的欧氏距离小于某个阈值的所有数据点; 
3、步骤3)中所述的近邻查询方法如下: 
1)首先进行采样以获得阈值T,我们对T的定义如下:若查询点为q,则通过索引index2查询q的近似近邻,并计算出近似近邻到q的欧氏距离记为D,则T=D/d,其中T为我们定义的阈值,D为近似近邻到查询点q的欧氏距离,d为数据维度; 
2)将查询点q嵌入到二维空间S中,对应的点记为   
Figure 2013102267582100002DEST_PATH_IMAGE008
然后通过索引index2查询所有到
Figure BDA00003311907500052
的距离小于T的数据点的集合   
Figure 2013102267582100002DEST_PATH_IMAGE009
3)对于
Figure BDA00003311907500054
其对应的原数据的集合为Q,遍历Q中的每个数据点,计算其与查询点q的欧氏距离,从而求得查询点q的准确最近邻。 
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。 

Claims (3)

1.一种基于欧氏距离的高维数据准确近邻快速检索方法,该方法的特征在于基本步骤如下: 
1)将数据表示成向量形式,且采用欧式距离表示向量间的相似程度,即 
Figure 2013102267582100001DEST_PATH_IMAGE001
其中向量 
Figure 2013102267582100001DEST_PATH_IMAGE002
d为向量的维度, 
Figure 2013102267582100001DEST_PATH_IMAGE004
表示 
Figure 2013102267582100001DEST_PATH_IMAGE005
两向量的相似程度; 
2)将高维数据嵌入到以均值和方差构成的二维空间S中,并采用制高点树对嵌入后的二维数据建立索引,记为index1; 
3)为高维数据本身建立采样近邻索引,记为index2,该索引的建立可以采用任意近似近邻索引结构,如R树,KD树,局部敏感散列; 
4)对于查询数据q,首先通过索引index2进行采样,获得阈值T,然后通过索引index1查询出二维空间S上到q的欧氏距离小于T的数据点的集合,最后进行验证,即遍历该候选数据集合并求出距离q最近的数据点。 
2.如权利要求1所述的检索方法,其特征在于:所述的步骤2)中所述的索引index1的建立方法如下: 
1)将数据点嵌入到以均值和方差构成的二维空间S中,具体方法为:若数据点为 
Figure 2013102267582100001DEST_PATH_IMAGE006
则嵌入后的点为(μxx),其中μx和σx计算方法为 
Figure 2013102267582100001DEST_PATH_IMAGE007
Figure 2013102267582100001DEST_PATH_IMAGE008
d为向量的维度; 
2)采用制高点树对嵌入二维空间S后的数据集建立索引index1,其中制高点树是一种适合范围搜索的二叉树结构,在每个非叶子节点对数据进行划分,作为划分依据的是数据点到某一被选择的制高点的距离,用制高点树建立的索引能够查询到查询点的欧氏距离小于某个阈值的所有数据点。 
3.如权利要求1所述的检索方法,其特征在于:所述的步骤4)中所述的近邻查询方法如下: 
1)首先进行采样以获得阈值T,我们对T的定义如下:若查询点为q,则通过索引index2查询q的近似近邻,并计算出近似近邻到q 的欧氏距离记为D,则T=D/d,其中T为我们定义的阈值,D为近似近邻到查询点q的欧氏距离,d为数据维度; 
2)将查询点q嵌入到二维空间S中,对应的点记为
Figure FDA00003311907400021
然后通过索引index2查询所有到 
Figure DEST_PATH_IMAGE009
的距离小于阈值T的数据点的集合 
Figure 2013102267582100001DEST_PATH_IMAGE010
3)对于 
Figure DEST_PATH_IMAGE011
其对应的原数据的集合为Q,遍历Q中的每个数据点,计算其与查询点q的欧氏距离,从而求得查询点q的准确最近邻。 
CN201310226758.2A 2013-06-06 2013-06-06 一种基于欧氏距离的高维数据准确近邻快速检索方法 Active CN103279551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310226758.2A CN103279551B (zh) 2013-06-06 2013-06-06 一种基于欧氏距离的高维数据准确近邻快速检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310226758.2A CN103279551B (zh) 2013-06-06 2013-06-06 一种基于欧氏距离的高维数据准确近邻快速检索方法

Publications (2)

Publication Number Publication Date
CN103279551A true CN103279551A (zh) 2013-09-04
CN103279551B CN103279551B (zh) 2016-06-29

Family

ID=49062070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310226758.2A Active CN103279551B (zh) 2013-06-06 2013-06-06 一种基于欧氏距离的高维数据准确近邻快速检索方法

Country Status (1)

Country Link
CN (1) CN103279551B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933143A (zh) * 2015-06-18 2015-09-23 北京京东尚科信息技术有限公司 获取推荐对象的方法及装置
CN105550368A (zh) * 2016-01-22 2016-05-04 浙江大学 一种高维数据的近似最近邻检索方法及检索系统
CN108268493A (zh) * 2016-12-30 2018-07-10 中国移动通信集团广东有限公司 基于地理位置的最近站点搜索方法及装置
CN109444712A (zh) * 2018-11-09 2019-03-08 无锡中微腾芯电子有限公司 基于归一法结合欧式距离函数的集成电路数据筛选方法
CN110489515A (zh) * 2019-08-01 2019-11-22 卫盈联信息技术(深圳)有限公司 通讯录检索的方法、服务器及存储介质
CN110516029A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 一种数据处理方法、设备及计算机存储介质
CN111581413A (zh) * 2020-04-03 2020-08-25 北京联合大学 一种面向高维图像数据检索的数据过滤方法及系统
CN111596299A (zh) * 2020-05-19 2020-08-28 三一机器人科技有限公司 反光柱跟踪定位方法、装置及电子设备
CN113177902A (zh) * 2021-04-22 2021-07-27 陕西铁道工程勘察有限公司 基于格网索引和球树的倾斜模型和激光点云融合方法
CN113486879A (zh) * 2021-07-27 2021-10-08 平安科技(深圳)有限公司 图像区域建议框检测方法、装置、设备及存储介质
WO2022267094A1 (zh) * 2021-06-22 2022-12-29 深圳计算科学研究院 基于欧氏距离的度量空间索引构建方法、装置及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266607A (zh) * 2008-05-09 2008-09-17 东北大学 基于最大间隙空间映射的高维数据索引方法
US20090110293A1 (en) * 2007-10-25 2009-04-30 Masajiro Iwasaki Information management apparatus, information management method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110293A1 (en) * 2007-10-25 2009-04-30 Masajiro Iwasaki Information management apparatus, information management method, and program
CN101266607A (zh) * 2008-05-09 2008-09-17 东北大学 基于最大间隙空间映射的高维数据索引方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADA WAI-CHEE FU ETC.: ""Dynamic vp-tree indexing for n-nearest neighbor search"", 《THE VLDB JOURNAL》, 31 December 2009 (2009-12-31) *
PETER N.YIANILOS: ""Data structures and algorithm for nearest neighbor search in general metric spaces"", 《PROCEEDINGS OF THE FOURTH ANNUAL ACM-SIAM SYMPOSIUM ON DISCRETE ALGORITHM》, 31 January 1993 (1993-01-31) *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933143B (zh) * 2015-06-18 2019-06-04 北京京东尚科信息技术有限公司 获取推荐对象的方法及装置
CN104933143A (zh) * 2015-06-18 2015-09-23 北京京东尚科信息技术有限公司 获取推荐对象的方法及装置
CN105550368A (zh) * 2016-01-22 2016-05-04 浙江大学 一种高维数据的近似最近邻检索方法及检索系统
CN108268493A (zh) * 2016-12-30 2018-07-10 中国移动通信集团广东有限公司 基于地理位置的最近站点搜索方法及装置
CN109444712A (zh) * 2018-11-09 2019-03-08 无锡中微腾芯电子有限公司 基于归一法结合欧式距离函数的集成电路数据筛选方法
CN109444712B (zh) * 2018-11-09 2020-10-23 无锡中微腾芯电子有限公司 基于归一法结合欧式距离函数的集成电路数据筛选方法
CN110489515A (zh) * 2019-08-01 2019-11-22 卫盈联信息技术(深圳)有限公司 通讯录检索的方法、服务器及存储介质
CN110516029A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 一种数据处理方法、设备及计算机存储介质
CN111581413B (zh) * 2020-04-03 2023-02-28 北京联合大学 一种面向高维图像数据检索的数据过滤方法及系统
CN111581413A (zh) * 2020-04-03 2020-08-25 北京联合大学 一种面向高维图像数据检索的数据过滤方法及系统
CN111596299A (zh) * 2020-05-19 2020-08-28 三一机器人科技有限公司 反光柱跟踪定位方法、装置及电子设备
CN113177902A (zh) * 2021-04-22 2021-07-27 陕西铁道工程勘察有限公司 基于格网索引和球树的倾斜模型和激光点云融合方法
CN113177902B (zh) * 2021-04-22 2024-01-26 陕西铁道工程勘察有限公司 基于格网索引和球树的倾斜模型和激光点云融合方法
WO2022267094A1 (zh) * 2021-06-22 2022-12-29 深圳计算科学研究院 基于欧氏距离的度量空间索引构建方法、装置及相关设备
CN113486879A (zh) * 2021-07-27 2021-10-08 平安科技(深圳)有限公司 图像区域建议框检测方法、装置、设备及存储介质
CN113486879B (zh) * 2021-07-27 2024-03-05 平安科技(深圳)有限公司 图像区域建议框检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN103279551B (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN103279551A (zh) 一种基于欧氏距离的高维数据准确近邻快速检索方法
Zheng et al. Reference-based framework for spatio-temporal trajectory compression and query processing
CN104035949A (zh) 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN102208033B (zh) 基于数据聚类的鲁棒sift特征匹配方法
CN103744886B (zh) 一种直接提取的k个最近邻点搜索方法
CN103778163A (zh) 一种基于指纹的网页快速去重算法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN105678244B (zh) 一种基于改进编辑距离的近似视频检索方法
CN107515931A (zh) 一种基于聚类的重复数据检测方法
CN104361135A (zh) 一种图像检索方法
CN103744903B (zh) 一种基于草图的场景图像检索方法
CN103514276B (zh) 基于中心估计的图形目标检索定位方法
KR101116663B1 (ko) 고차원 데이터의 유사도 검색을 위한 데이터 분할방법
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法
Ji et al. Clockwise compression for trajectory data under road network constraints
Kulkarni et al. An effective content based video analysis and retrieval using pattern indexing techniques
CN106649489B (zh) 一种地理文本信息数据中的连续skyline查询处理机制
Zheng et al. Multi-spectral vehicle re-identification with cross-directional consistency network and a high-quality benchmark
CN104699783A (zh) 基于个性化视觉字典自适应调整的社交图像检索方法
CN105808631A (zh) 一种数据依赖的多索引哈希算法
Cao et al. Evaluation of local features for structure from motion
CN103744899A (zh) 一种基于分布式环境的海量数据快速分类方法
Werner BACR: Set similarities with lower bounds and application to spatial trajectories
CN101937511B (zh) 基于随机并行优化算法的快速图像匹配方法
Ma et al. Fast search of binary codes with distinctive bits

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant