CN103279551A - 一种基于欧氏距离的高维数据准确近邻快速检索方法 - Google Patents
一种基于欧氏距离的高维数据准确近邻快速检索方法 Download PDFInfo
- Publication number
- CN103279551A CN103279551A CN2013102267582A CN201310226758A CN103279551A CN 103279551 A CN103279551 A CN 103279551A CN 2013102267582 A CN2013102267582 A CN 2013102267582A CN 201310226758 A CN201310226758 A CN 201310226758A CN 103279551 A CN103279551 A CN 103279551A
- Authority
- CN
- China
- Prior art keywords
- data
- point
- index
- euclidean distance
- neighbour
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于欧氏距离的高维数据准确近邻快速检索方法,将高维数据表述成向量形式,然后嵌入到均值和方差构成的二维空间中,同时建立原高维数据的采样索引;进行近邻查询时,在输入查询点后,首先通过采样索引获得过滤阈值,然后利用过滤阈值在二维空间中对非近邻数据进行过滤,得到候选数据集;最后线性遍历计算所有候选数据点到查询点的距离,并计算出查询点的最近邻点;本方法的优点在于能够快速处理高维数据,并且能够查询准确的近邻点。
Description
技术领域
本发明涉及信息检索、数据挖掘以及聚类分析等数据处理领域,具体涉及到利用欧氏距离的上下界以及一定的数据结构对高维数据进行索引并进行准确的近邻查询。
背景技术
随着信息技术和互联网的蓬勃发展,多媒体数码设备的广泛使用,我们拥有了超越以往任何时代的海量网络信息,而其中包含了大量的高维数据,如图片,音频,视频等,如何对这种海量的高维数据进行快速准确的索引与检索是一个亟待解决的难题。
索引与检索的一个重要作用就是近邻查询,即查询出数据库中与输入数据最相似的数据,这是一种十分基础但是重要的操作,除了信息检索以外,还广泛应用于计算机视觉、机器学习等领域,高效与准确的近邻查询对这些前沿学科有着重要的应用价值。
传统的近邻查询算法有着诸多不足,如采取空间划分策略的k维树,球树等树形结构,它们对低维数据的效果较好,但当数据维度较高时性能会急剧下滑;还有的处理高维数据的算法如局部敏感散列等,采取的是查询近似近邻的策略,效率较高但无法查询准确的近邻。本发明的主要贡献在于提出了一种能够快速的对高维数据查询准确近邻的方法。
发明内容
为了能够针对高维数据进行快速准确的近邻查询,本发明提出了 一种基于欧氏距离上下界和数据过滤策略的高维近邻查询方法,该方法包括以下步骤:
1、将数据表示成向量后,进行如下处理:
1)将高维数据嵌入到以均值和方差构成的二维空间S中,并采用制高点树对嵌入后的二维数据建立索引,记为index1;
2)为高维数据本身建立采样近邻索引,记为index2,该索引的建立可以采用任意近似近邻索引结构,如R树,KD树,局部敏感散列;
3)对于查询数据q,首先通过索引index2进行采样,获得阈值T,然后通过索引index1查询出二维空间S上到q的欧氏距离小于T的数据点的集合,最后遍历该集合并求出距离q最近的数据点。
2、步骤1)中所述的索引index1的建立方法如下:
2)采用制高点树对嵌入二维空间S后的数据集建立索引index1,其中制高点树是一种适合范围搜索的二叉树结构,在每个非叶子节点对数据进行划分,作为划分依据的是数据点到某一被选择的制高点的距离,用制高点树建立的索引能够查询到查询点的欧氏距离小于某个 阈值的所有数据点;
3、步骤3)中所述的近邻查询方法如下:
1)首先进行采样以获得阈值T,我们对T的定义如下:若查询点为q,则通过索引index2查询q的近似近邻,并计算出近似近邻到q的欧氏距离记为D,则T=D/d,其中T为我们定义的阈值,D为近似近邻到查询点q的欧氏距离,d为数据维度;
本发明提出了针对高维数据的准确的近邻查询的方法,其优点在于:对数据进行预处理降低维度到2维,结合制高点树的结构以及采样阈值,能够快速过滤非近邻点,从而缩小了候选数据集的范围,提高近邻查询的速度;在这个过滤过程中严格遵守了上下界,并在最后加入了验证环节,因此结果是准确的。
附图说明
图1是本发明的方法流程图。
具体实施方式
参照附图,进一步说明本发明:
一种基于欧氏距离上下界和数据过滤策略的高维数据近邻查询 方法,该方法包括以下步骤:
1、将数据表示成向量后,进行如下处理:
1)将高维数据嵌入到以均值和方差构成的二维空间S中,并采用制高点树对嵌入后的二维数据建立索引,记为index1;
2)为高维数据本身建立采样近邻索引,记为index2,该索引的建立可以采用任意近似近邻索引结构,如R树,KD树,局部敏感散列;
3)对于查询数据q,首先通过索引index2进行采样,获得阈值T,然后通过索引index1查询出二维空间S上到q的欧氏距离小于T的数据点的集合,最后遍历该集合并求出距离q最近的数据点。
2、步骤1)中所述的索引index1的建立方法如下:
1)将数据点嵌入到以均值和方差构成的二维空间S中,具体方法为:若数据点 则嵌入后的点为(μx,σx),其中μx和σx计算方法为 d为向量的维度;
2)采用制高点树对嵌入二维空间S后的数据集建立索引index1,其中制高点树是一种适合范围搜索的二叉树结构,在每个非叶子节点对数据进行划分,作为划分依据的是数据点到某一被选择的制高点的距离,用制高点树建立的索引能够查询到查询点的欧氏距离小于某个阈值的所有数据点;
3、步骤3)中所述的近邻查询方法如下:
1)首先进行采样以获得阈值T,我们对T的定义如下:若查询点为q,则通过索引index2查询q的近似近邻,并计算出近似近邻到q的欧氏距离记为D,则T=D/d,其中T为我们定义的阈值,D为近似近邻到查询点q的欧氏距离,d为数据维度;
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (3)
1.一种基于欧氏距离的高维数据准确近邻快速检索方法,该方法的特征在于基本步骤如下:
2)将高维数据嵌入到以均值和方差构成的二维空间S中,并采用制高点树对嵌入后的二维数据建立索引,记为index1;
3)为高维数据本身建立采样近邻索引,记为index2,该索引的建立可以采用任意近似近邻索引结构,如R树,KD树,局部敏感散列;
4)对于查询数据q,首先通过索引index2进行采样,获得阈值T,然后通过索引index1查询出二维空间S上到q的欧氏距离小于T的数据点的集合,最后进行验证,即遍历该候选数据集合并求出距离q最近的数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310226758.2A CN103279551B (zh) | 2013-06-06 | 2013-06-06 | 一种基于欧氏距离的高维数据准确近邻快速检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310226758.2A CN103279551B (zh) | 2013-06-06 | 2013-06-06 | 一种基于欧氏距离的高维数据准确近邻快速检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103279551A true CN103279551A (zh) | 2013-09-04 |
CN103279551B CN103279551B (zh) | 2016-06-29 |
Family
ID=49062070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310226758.2A Active CN103279551B (zh) | 2013-06-06 | 2013-06-06 | 一种基于欧氏距离的高维数据准确近邻快速检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279551B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933143A (zh) * | 2015-06-18 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 获取推荐对象的方法及装置 |
CN105550368A (zh) * | 2016-01-22 | 2016-05-04 | 浙江大学 | 一种高维数据的近似最近邻检索方法及检索系统 |
CN108268493A (zh) * | 2016-12-30 | 2018-07-10 | 中国移动通信集团广东有限公司 | 基于地理位置的最近站点搜索方法及装置 |
CN109444712A (zh) * | 2018-11-09 | 2019-03-08 | 无锡中微腾芯电子有限公司 | 基于归一法结合欧式距离函数的集成电路数据筛选方法 |
CN110489515A (zh) * | 2019-08-01 | 2019-11-22 | 卫盈联信息技术(深圳)有限公司 | 通讯录检索的方法、服务器及存储介质 |
CN110516029A (zh) * | 2019-08-14 | 2019-11-29 | 出门问问(武汉)信息科技有限公司 | 一种数据处理方法、设备及计算机存储介质 |
CN111581413A (zh) * | 2020-04-03 | 2020-08-25 | 北京联合大学 | 一种面向高维图像数据检索的数据过滤方法及系统 |
CN111596299A (zh) * | 2020-05-19 | 2020-08-28 | 三一机器人科技有限公司 | 反光柱跟踪定位方法、装置及电子设备 |
CN113177902A (zh) * | 2021-04-22 | 2021-07-27 | 陕西铁道工程勘察有限公司 | 基于格网索引和球树的倾斜模型和激光点云融合方法 |
CN113486879A (zh) * | 2021-07-27 | 2021-10-08 | 平安科技(深圳)有限公司 | 图像区域建议框检测方法、装置、设备及存储介质 |
WO2022267094A1 (zh) * | 2021-06-22 | 2022-12-29 | 深圳计算科学研究院 | 基于欧氏距离的度量空间索引构建方法、装置及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266607A (zh) * | 2008-05-09 | 2008-09-17 | 东北大学 | 基于最大间隙空间映射的高维数据索引方法 |
US20090110293A1 (en) * | 2007-10-25 | 2009-04-30 | Masajiro Iwasaki | Information management apparatus, information management method, and program |
-
2013
- 2013-06-06 CN CN201310226758.2A patent/CN103279551B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090110293A1 (en) * | 2007-10-25 | 2009-04-30 | Masajiro Iwasaki | Information management apparatus, information management method, and program |
CN101266607A (zh) * | 2008-05-09 | 2008-09-17 | 东北大学 | 基于最大间隙空间映射的高维数据索引方法 |
Non-Patent Citations (2)
Title |
---|
ADA WAI-CHEE FU ETC.: ""Dynamic vp-tree indexing for n-nearest neighbor search"", 《THE VLDB JOURNAL》, 31 December 2009 (2009-12-31) * |
PETER N.YIANILOS: ""Data structures and algorithm for nearest neighbor search in general metric spaces"", 《PROCEEDINGS OF THE FOURTH ANNUAL ACM-SIAM SYMPOSIUM ON DISCRETE ALGORITHM》, 31 January 1993 (1993-01-31) * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933143B (zh) * | 2015-06-18 | 2019-06-04 | 北京京东尚科信息技术有限公司 | 获取推荐对象的方法及装置 |
CN104933143A (zh) * | 2015-06-18 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 获取推荐对象的方法及装置 |
CN105550368A (zh) * | 2016-01-22 | 2016-05-04 | 浙江大学 | 一种高维数据的近似最近邻检索方法及检索系统 |
CN108268493A (zh) * | 2016-12-30 | 2018-07-10 | 中国移动通信集团广东有限公司 | 基于地理位置的最近站点搜索方法及装置 |
CN109444712A (zh) * | 2018-11-09 | 2019-03-08 | 无锡中微腾芯电子有限公司 | 基于归一法结合欧式距离函数的集成电路数据筛选方法 |
CN109444712B (zh) * | 2018-11-09 | 2020-10-23 | 无锡中微腾芯电子有限公司 | 基于归一法结合欧式距离函数的集成电路数据筛选方法 |
CN110489515A (zh) * | 2019-08-01 | 2019-11-22 | 卫盈联信息技术(深圳)有限公司 | 通讯录检索的方法、服务器及存储介质 |
CN110516029A (zh) * | 2019-08-14 | 2019-11-29 | 出门问问(武汉)信息科技有限公司 | 一种数据处理方法、设备及计算机存储介质 |
CN111581413B (zh) * | 2020-04-03 | 2023-02-28 | 北京联合大学 | 一种面向高维图像数据检索的数据过滤方法及系统 |
CN111581413A (zh) * | 2020-04-03 | 2020-08-25 | 北京联合大学 | 一种面向高维图像数据检索的数据过滤方法及系统 |
CN111596299A (zh) * | 2020-05-19 | 2020-08-28 | 三一机器人科技有限公司 | 反光柱跟踪定位方法、装置及电子设备 |
CN113177902A (zh) * | 2021-04-22 | 2021-07-27 | 陕西铁道工程勘察有限公司 | 基于格网索引和球树的倾斜模型和激光点云融合方法 |
CN113177902B (zh) * | 2021-04-22 | 2024-01-26 | 陕西铁道工程勘察有限公司 | 基于格网索引和球树的倾斜模型和激光点云融合方法 |
WO2022267094A1 (zh) * | 2021-06-22 | 2022-12-29 | 深圳计算科学研究院 | 基于欧氏距离的度量空间索引构建方法、装置及相关设备 |
CN113486879A (zh) * | 2021-07-27 | 2021-10-08 | 平安科技(深圳)有限公司 | 图像区域建议框检测方法、装置、设备及存储介质 |
CN113486879B (zh) * | 2021-07-27 | 2024-03-05 | 平安科技(深圳)有限公司 | 图像区域建议框检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103279551B (zh) | 2016-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103279551A (zh) | 一种基于欧氏距离的高维数据准确近邻快速检索方法 | |
Zheng et al. | Reference-based framework for spatio-temporal trajectory compression and query processing | |
CN104035949A (zh) | 一种基于局部敏感哈希改进算法的相似性数据检索方法 | |
CN102208033B (zh) | 基于数据聚类的鲁棒sift特征匹配方法 | |
CN103744886B (zh) | 一种直接提取的k个最近邻点搜索方法 | |
CN103778163A (zh) | 一种基于指纹的网页快速去重算法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN105678244B (zh) | 一种基于改进编辑距离的近似视频检索方法 | |
CN107515931A (zh) | 一种基于聚类的重复数据检测方法 | |
CN104361135A (zh) | 一种图像检索方法 | |
CN103744903B (zh) | 一种基于草图的场景图像检索方法 | |
CN103514276B (zh) | 基于中心估计的图形目标检索定位方法 | |
KR101116663B1 (ko) | 고차원 데이터의 유사도 검색을 위한 데이터 분할방법 | |
CN103064907A (zh) | 基于无监督的实体关系抽取的主题元搜索系统及方法 | |
Ji et al. | Clockwise compression for trajectory data under road network constraints | |
Kulkarni et al. | An effective content based video analysis and retrieval using pattern indexing techniques | |
CN106649489B (zh) | 一种地理文本信息数据中的连续skyline查询处理机制 | |
Zheng et al. | Multi-spectral vehicle re-identification with cross-directional consistency network and a high-quality benchmark | |
CN104699783A (zh) | 基于个性化视觉字典自适应调整的社交图像检索方法 | |
CN105808631A (zh) | 一种数据依赖的多索引哈希算法 | |
Cao et al. | Evaluation of local features for structure from motion | |
CN103744899A (zh) | 一种基于分布式环境的海量数据快速分类方法 | |
Werner | BACR: Set similarities with lower bounds and application to spatial trajectories | |
CN101937511B (zh) | 基于随机并行优化算法的快速图像匹配方法 | |
Ma et al. | Fast search of binary codes with distinctive bits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |