CN110070121A - 一种基于树策略与平衡k均值聚类的快速近似k近邻方法 - Google Patents

一种基于树策略与平衡k均值聚类的快速近似k近邻方法 Download PDF

Info

Publication number
CN110070121A
CN110070121A CN201910297553.0A CN201910297553A CN110070121A CN 110070121 A CN110070121 A CN 110070121A CN 201910297553 A CN201910297553 A CN 201910297553A CN 110070121 A CN110070121 A CN 110070121A
Authority
CN
China
Prior art keywords
tree
balance
leaf node
data set
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910297553.0A
Other languages
English (en)
Other versions
CN110070121B (zh
Inventor
聂飞平
车昊轩
王宏
王榕
于为中
李学龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910297553.0A priority Critical patent/CN110070121B/zh
Publication of CN110070121A publication Critical patent/CN110070121A/zh
Application granted granted Critical
Publication of CN110070121B publication Critical patent/CN110070121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

  • GPHYSICS
  • G06COMPUTING; CALCULATING OR COUNTING
  • G06FELECTRIC DIGITAL DATA PROCESSING
  • G06F18/00Pattern recognition
  • G06F18/20Analysing
  • G06F18/23Clustering techniques
  • G06F18/232Non-hierarchical techniques
  • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
  • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
  • GPHYSICS
  • G06COMPUTING; CALCULATING OR COUNTING
  • G06FELECTRIC DIGITAL DATA PROCESSING
  • G06F18/00Pattern recognition
  • G06F18/20Analysing
  • G06F18/24Classification techniques
  • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
  • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
  • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
  • GPHYSICS
  • G06COMPUTING; CALCULATING OR COUNTING
  • G06FELECTRIC DIGITAL DATA PROCESSING
  • G06F18/00Pattern recognition
  • G06F18/20Analysing
  • G06F18/24Classification techniques
  • G06F18/243Classification techniques relating to the number of classes
  • G06F18/24323Tree-organised classifiers

Abstract

本发明提供了一种基于树策略与平衡K均值聚类的快速近似K近邻方法,以提高近似K邻近检索的性能与速度。首先,通过平衡K均值聚类方法构造平衡K均值树,使得数据高效有序地以树型结构组织起来,实现对任一新样本数据的快速定位;然后,利用锚定位法与邻近簇思想,通过平衡树快速寻找得到新数据样本的多个近似近邻点,即K近邻点。本发明方法同时兼顾了基于树的K近邻算法与平衡K均值算法的优势,可以应用于图像识别、数据压缩、模式识别和分类、机器学习、文档检索系统、统计与数据分析等多个领域。

Description

一种基于树策略与平衡K均值聚类的快速近似K近邻方法
技术领域
本发明属机器学习和数据挖掘技术领域,具体涉及一种基于树策略与平衡K均值聚类的快速近似K近邻方法。
背景技术
在移动互联网时代,人们的日常生活每天都面临着海量数据地冲击,诸如像个人信息、视频记录、图像采集、地理信息、日志文档等,面对如此庞大且日益增长的数据信息,如何对所需要的信息进行有效的存储、索引与查询是目前国内外研究的热点。
近似K近邻检索起初作为具有查找相似性文档信息的方法被应用于文档检索系统,随后在地理信息系统中,K近邻检索也被广泛应用于位置信息,空间数据关系的查询、分析与统计,如今在图像检索、数据压缩、模式识别以及机器学习等领域都有非常重要的作用,而在这些领域中大多会涉及到海量的多媒体数据信息的处理,其中包括大量图像、视频信息。例如,在图像处理与检索的研究中,基于内容的图像检索方法(CBIR)是目前的主流,为了获得图像中这些特定的信息或方便后续处理,通常会利用多种不同的描述方式来表示图像,包括局部特征描述子,全局特征描述子,特征频率直方图,纹理信息,显著性区域等。最近邻检索的引入将图像检索转化到特征向量空间,通过查找与目标特征向量距离最近的向量来获得相应图像之间的关系。
以K近邻检索或近似K近邻检索为基本思想的方法主要包括两大类,其中一类主要基于对数据本身的处理,包括哈希算法、矢量量化方法等。另一类是基于提升检索结构性能的方法,大多基于树形结构。树形结构方法的特征为,将数据组织为树形结构,并利用该树型结构进行搜索。结构化数据后,原本散乱的数据通过树型规则地进行排列,使得检索工作有迹可循,与线性搜索相比高效甚多。常见的树形结构方法有,KD树、KD随机森林、PCA树、层次聚类树等算法。虽然树形结构方法相比线性搜索的速度提升是高效的,但也并不近乎完美。例如,在大规模高维数据中进行K近邻检索一直是难以克服的热点问题之一,在树型结构方法中,KD树、KD随机森林等都具有不错的效果,但在KD树算法中,检索过程需要不停的回溯到上一节点,维度越高,需要的回溯次数就越多,算法的效率也就越低,而在KD随机森林中,虽然回溯问题得以一定的缓解,但是由于KD随机森林是利用多个KD树共同搜索,如何平衡内存使用与算法效率又成为了一个新的问题。
发明内容
为了克服现有技术的不足,本发明提供一种基于树策略与平衡K均值聚类的快速近似K近邻方法,以提高近似K邻近检索的性能与速度。首先,通过平衡K均值聚类方法构造平衡K均值树,使得数据高效有序地以树型结构组织起来,实现对任一新样本数据的快速定位;然后,利用锚定位法与邻近簇思想,通过平衡树快速寻找得到新数据样本的多个近似近邻点,即K近邻点。本发明方法同时兼顾了基于树的K近邻算法与平衡K均值算法的优势,可以应用于图像识别、数据压缩、模式识别和分类、机器学习、文档检索系统、统计与数据分析等多个领域。
一种基于树策略与平衡K均值聚类的快速近似K近邻方法,其特征在于步骤如下:
步骤1:输入原始数据集X,采用平衡K均值聚类方法进行聚类处理,得到样本数量相等的两类样本的聚类中心;以两个聚类中心连线的中垂超平面为切面,将原始数据集X进行切面投影,得到两类子样本集,将两子类样本集的两个聚类中心记录在根节点中;然后,分别以每类子样本集为输入数据集,按照以上过程进行处理,直至满足树深度要求,其中,每次处理得到的两个聚类中心分别为左子节点和右子节点,其对应子样本集分别对应子节点数据集,最后一次处理得到的两个聚类中心分别记为左叶子节点和右叶子节点,其对应子样本集分别对应叶子节点数据集,所有中间节点与最终叶子节点共同构成平衡K均值树;设D为树的深度,满足2≤2D-1<m,m为原始数据集X包含的样本数,对原始数据集X进行聚类处理得到的两个聚类中心为根节点;
步骤2:给定目标样本,首先,判断目标样本与步骤1得到的平衡K均值树的两个根节点中垂面的位置关系,若在中垂面左边,则进入左子树搜索,若在中垂面右边,则进入右子树搜索;按照如上判别方式每次搜索新的子树,直至搜索到一个叶子节点,该叶子节点后续再无子节点可搜寻;然后,计算该叶子节点与其他叶子节点的欧氏距离,选择距离最短的前N个叶子节点为该叶子节点的近邻叶子节点,N的取值范围为0≤N<2D-1-1;分别计算给定目标样本与该叶子节点数据集和其所有近邻叶子节点数据集中所有样本之间的欧式距离,选择距离最短的前K个样本点为给定目标样本的最近邻点,K≥1。
本发明的有益效果是:由于采用了平衡K均值聚类算法对数据集进行处理,充分利用了全局信息,保证了子样本集划分的可靠性、合理性;由于所建立的平衡K均值树为完全二叉树形结构,保证了对于任何给定目标点,每一次与中垂面位置比对的次数是有限的,消除了建树的不确定性,具有更强的鲁棒性与实用性;由于在搜索过程中,利用邻近簇思想来寻找近邻叶子节点,降低了样本靠近数据集边界所带来的对搜索效率与准确率的影响,特别在高维数据的情况下,搜索效率与准确率大大优于传统树形方法;由于采用了平衡K均值算法构建平衡K均值树进行搜索,并与基于近邻簇思想的搜索算法的配合,减少了搜索时间,提高了搜索精度。
附图说明
图1是本发明的一种基于树策略与平衡K均值聚类的快速近似K近邻方法基本流程图
图2是本发明的平衡K均值树的结构图
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于树策略与平衡K均值聚类的快速近似K近邻方法,主要由建造平衡树与寻找K近邻点两个主要步骤构成,其基本实现过程如下:
一、建造平衡树
首先,利用平衡K均值聚类算法对输入数据集进行聚类处理,得到样本数量相等的两类样本的聚类中心。具体为:
两类平衡K均值聚类算法模型如下:
其中,C是簇的中心,G是索引矩阵,X为输入数据集,其中,矩阵G的第i行、j列元素表示为gij,如果gi1=1,则表示第i个样本属于第一类,否则,gi2=1;Ind是仅有0和1组成的n×2维矩阵,1是所有元素均为1的n维行向量,n为数据集包含的样本总数,k和l分别表示两个簇所包含的样本数,k+l=n,表示F范数。令两个簇具有相同的样本数目,即k=n/2,公式(1)重写为:
其中,xi表示矩阵X中的第i行向量,ck表示矩阵C中的第k行向量。定义矩阵E∈Rn ×2,其第i行j列元素为公式(2)改写为:
Tr(·)表示对括号内内容求迹,令g为G的第一行,由于G为索引矩阵,所以G的第二行为(1-g)T,公式(3)可以被改写为:
其中,e1和e2分别是矩阵E的第一行和第二行。公式(4)可以写为:
公式(5)可以通过向量e1与e2的各项差与0的大小关系求解,若大于0则与之对应的g为1,代表其属于第一类;反之则为0,代表其属于第二类。
至此,得到两个簇的聚类中心c1与c2后,以两个聚类中心连线的中垂超平面为切面,将原始数据集X进行切面投影,得到两类子样本集,将两子类样本集的两个聚类中心记录在根节点中。
接着,分别以每类子样本集为输入数据集,按照以上过程进行处理,直至满足树的深度要求,其中,每次处理得到的两个聚类中心分别为左子节点和右子节点,其对应子样本集分别对应子节点数据集,最后一次处理得到的两个聚类中心分别记为左叶子节点和右叶子节点,其对应子样本集分别对应叶子节点数据集,所有中间节点与最终叶子节点共同构成平衡K均值树;设D为树的深度,满足2≤2D-1<m,m为原始数据集X包含的样本数,对原始数据集X进行聚类处理得到的两个聚类中心为根节点。
如果将两个聚类中心连线的中垂超平面记录为锚点,则构建平衡K均值树的过程中,共产生2D-1-1个锚点。平衡K均值聚类的复杂度为O(ndlog(a)t),其中,t为平衡K均值聚类的迭代次数,a为锚点个数,d为数据集中每个样本的维数。
图2给出了平衡K均值树的树形结构组织方式,其中每个不同的图标代表将被分为不同聚类集合的数据点,每个椭圆圈代表一个节点。
二、寻找K近邻点
在任一维度空间下,都应有一个超平面可以将整个空间一分为二,其表示为wTx+b=0,其中,w表示超平面,x表示数据空间,b表示空间截距。
在树状结构下,快速判断样本可能属于的子簇是高效寻找近似K近邻点的秘诀,也就是说可以利用平衡K均值树分层判定,当满足某一条件时,认为目标点应属于左子树,反之则属于右子树,直至目标点抵达一个叶子节点,该叶子节点后续再无子节点可搜寻。本发明利用锚点进行判定,即根据目标样本在聚类中心连线上的投影靠近哪一个聚类中心。
设两聚类中心分别为c1和c2,目标点为x。则向量c2-c1可作为聚类中心c1到聚类中心c2连线所代表向量的方向向量,向量可作为目标点x到两聚类中心连线中点连线所代表向量的方向向量,则可以将判断点与超平面关系的问题重新定义为向量点乘的取值问题,即:
展开得:
通过公式(6)和(7)可以判定目标点x在两聚类中心连线上的投影靠近哪一个聚类中心,其利用了基本的向量点乘与向量夹角间的数值关系。具体为,当f(x)=0,目标点的投影在聚类中心连线中点处;当f(x)<0,目标点的投影更加靠近聚类中心c1,即左子节点;当f(x)>0目标点的投影更加靠近聚类中心c2,即右子节点。通过判断结果,进入左子树或右子树继续搜索。基于此,可以通过锚点快速得到目标点最终应属于的叶子节点。
按照如上判别方式每次搜索新的子树,直至搜索到一个叶子节点,即该叶子节点后续再无子节点可搜寻。
基于树状结构的K近邻检索算法有一个重大的问题是,当目标点处于某一叶子节点区域边界时,无法判定该目标点的K个近邻点是否在该叶子节点中。传统的基于树状结构的K近邻检索算法将维护一个优先队列,根据数据集的维数进行多次回溯操作,直到遍历完队列或达到某一预设要求。本发明基于邻近簇思想,认为搜索目标点的K近邻点的搜索范围不应仅在当前叶子节点包含的数据集合中,还在应在该叶子节点的近邻叶子节点所包含的数据集合中。因此,找到目标样本最终所对应的叶子节点后,计算该叶子节点与其他叶子节点的欧氏距离,选择距离最短的前N个叶子节点为该叶子节点的近邻叶子节点,并记为邻近簇,N的取值范围为0≤N<2D-1-1。这样一来,可以合理的平衡搜索空间的大小,确保高效搜索的同时很好的避免了目标点在叶子节点区域边界时的问题,在保证精度的同时又确保了速度。
最后,分别计算给定目标样本与该叶子节点数据集和其所有近邻叶子节点数据集中所有样本之间的欧式距离,选择距离最短的前K个样本点为给定目标样本的最近邻点,K≥1。
假设平衡K均值树的深度为D,每个叶子节点有N个邻近簇,共有2D-1个叶子节点,每一叶子节点数据集中有m个样本点,则建树时的算法复杂度为O(ndlog(a)t(D-1)+l2),搜索时的算法复杂度为O(D+Nm)。

Claims (1)

1.一种基于树策略与平衡K均值聚类的快速近似K近邻方法,其特征在于步骤如下:
步骤1:输入原始数据集X,采用平衡K均值聚类方法进行聚类处理,得到样本数量相等的两类样本的聚类中心;以两个聚类中心连线的中垂超平面为切面,将原始数据集X进行切面投影,得到两类子样本集,将两子类样本集的两个聚类中心记录在根节点中;然后,分别以每类子样本集为输入数据集,按照以上过程进行处理,直至满足树深度要求,其中,每次处理得到的两个聚类中心分别为左子节点和右子节点,其对应子样本集分别对应子节点数据集,最后一次处理得到的两个聚类中心分别记为左叶子节点和右叶子节点,其对应子样本集分别对应叶子节点数据集,所有中间节点与最终叶子节点共同构成平衡K均值树;设D为树的深度,满足2≤2D-1<m,m为原始数据集X包含的样本数,对原始数据集X进行聚类处理得到的两个聚类中心为根节点;
步骤2:给定目标样本,首先,判断目标样本与步骤1得到的平衡K均值树的两个根节点中垂面的位置关系,若在中垂面左边,则进入左子树搜索,若在中垂面右边,则进入右子树搜索;按照如上判别方式每次搜索新的子树,直至搜索到一个叶子节点,该叶子节点后续再无子节点可搜寻;然后,计算该叶子节点与其他叶子节点的欧氏距离,选择距离最短的前N个叶子节点为该叶子节点的近邻叶子节点,N的取值范围为0≤N<2D-1-1;分别计算给定目标样本与该叶子节点数据集和其所有近邻叶子节点数据集中所有样本之间的欧式距离,选择距离最短的前K个样本点为给定目标样本的最近邻点,K≥1。
CN201910297553.0A 2019-04-15 2019-04-15 一种基于树策略与平衡k均值聚类的快速近似k近邻方法 Active CN110070121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910297553.0A CN110070121B (zh) 2019-04-15 2019-04-15 一种基于树策略与平衡k均值聚类的快速近似k近邻方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910297553.0A CN110070121B (zh) 2019-04-15 2019-04-15 一种基于树策略与平衡k均值聚类的快速近似k近邻方法

Publications (2)

Publication Number Publication Date
CN110070121A true CN110070121A (zh) 2019-07-30
CN110070121B CN110070121B (zh) 2021-08-10

Family

ID=67367651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910297553.0A Active CN110070121B (zh) 2019-04-15 2019-04-15 一种基于树策略与平衡k均值聚类的快速近似k近邻方法

Country Status (1)

Country Link
CN (1) CN110070121B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242206A (zh) * 2020-01-08 2020-06-05 吉林大学 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法
CN111985530A (zh) * 2020-07-08 2020-11-24 上海师范大学 一种分类方法
CN112183589A (zh) * 2020-09-14 2021-01-05 西北工业大学 一种低采样率下的实时车辆k近邻查询方法
CN112308122A (zh) * 2020-10-20 2021-02-02 中国刑事警察学院 基于双树的高维向量空间样本快速搜索方法及装置
CN112463952A (zh) * 2020-12-22 2021-03-09 安徽商信政通信息技术股份有限公司 一种基于近邻搜索的新闻文本聚合方法及系统
CN112507149A (zh) * 2020-11-13 2021-03-16 厦门大学 一种动态k近邻图的构建方法及基于动态k近邻图的快速图像检索方法
CN112883403A (zh) * 2021-03-18 2021-06-01 广西师范大学 一种可验证的加密图像检索隐私保护方法
CN112948364A (zh) * 2021-02-08 2021-06-11 国网上海市电力公司 基于协同拟合的电能计量数据恢复方法
CN113378842A (zh) * 2021-05-18 2021-09-10 浙江大学 基于分割图像特征提取的推荐方法
CN114742178A (zh) * 2022-06-10 2022-07-12 航天亮丽电气有限责任公司 一种通过mems六轴传感器进行非侵入式压板状态监测的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139037A (zh) * 2015-09-06 2015-12-09 西安电子科技大学 基于最小生成树的集成多目标进化自动聚类方法
CN105631465A (zh) * 2015-12-18 2016-06-01 中国科学院重庆绿色智能技术研究院 一种基于密度峰值的高效层次聚类方法
CN108154157A (zh) * 2017-12-06 2018-06-12 西安交通大学 一种基于集成的快速谱聚类方法
CN108710912A (zh) * 2018-05-21 2018-10-26 郑州大学 基于二分类机器学习的时序逻辑近似模型检测方法及系统
CN109376800A (zh) * 2018-12-03 2019-02-22 重庆邮电大学 一种基于k-means的高维含噪声数据的分类方法
US20190065991A1 (en) * 2017-08-31 2019-02-28 Accenture Global Solutions Limited Machine learning document processing
US20190107643A1 (en) * 2017-10-11 2019-04-11 Beyond Limits, Inc. Static engine and neural network for a cognitive reservoir system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139037A (zh) * 2015-09-06 2015-12-09 西安电子科技大学 基于最小生成树的集成多目标进化自动聚类方法
CN105631465A (zh) * 2015-12-18 2016-06-01 中国科学院重庆绿色智能技术研究院 一种基于密度峰值的高效层次聚类方法
US20190065991A1 (en) * 2017-08-31 2019-02-28 Accenture Global Solutions Limited Machine learning document processing
US20190107643A1 (en) * 2017-10-11 2019-04-11 Beyond Limits, Inc. Static engine and neural network for a cognitive reservoir system
CN108154157A (zh) * 2017-12-06 2018-06-12 西安交通大学 一种基于集成的快速谱聚类方法
CN108710912A (zh) * 2018-05-21 2018-10-26 郑州大学 基于二分类机器学习的时序逻辑近似模型检测方法及系统
CN109376800A (zh) * 2018-12-03 2019-02-22 重庆邮电大学 一种基于k-means的高维含噪声数据的分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINGLIN XU.ET.: "Re-Weighted Discriminatively Embedded K-Means for Multi-View Clustering", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
董世龙等: "面向云环境的集群资源模糊聚类划分算法的优化", 《计算机科学》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242206A (zh) * 2020-01-08 2020-06-05 吉林大学 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法
CN111242206B (zh) * 2020-01-08 2022-06-17 吉林大学 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法
CN111985530A (zh) * 2020-07-08 2020-11-24 上海师范大学 一种分类方法
CN111985530B (zh) * 2020-07-08 2023-12-08 上海师范大学 一种分类方法
CN112183589B (zh) * 2020-09-14 2022-04-22 西北工业大学 一种低采样率下的实时车辆k近邻查询方法
CN112183589A (zh) * 2020-09-14 2021-01-05 西北工业大学 一种低采样率下的实时车辆k近邻查询方法
CN112308122A (zh) * 2020-10-20 2021-02-02 中国刑事警察学院 基于双树的高维向量空间样本快速搜索方法及装置
CN112308122B (zh) * 2020-10-20 2024-03-01 中国刑事警察学院 基于双树的高维向量空间样本快速搜索方法及装置
CN112507149A (zh) * 2020-11-13 2021-03-16 厦门大学 一种动态k近邻图的构建方法及基于动态k近邻图的快速图像检索方法
CN112463952B (zh) * 2020-12-22 2023-05-05 安徽商信政通信息技术股份有限公司 一种基于近邻搜索的新闻文本聚合方法及系统
CN112463952A (zh) * 2020-12-22 2021-03-09 安徽商信政通信息技术股份有限公司 一种基于近邻搜索的新闻文本聚合方法及系统
CN112948364A (zh) * 2021-02-08 2021-06-11 国网上海市电力公司 基于协同拟合的电能计量数据恢复方法
CN112883403A (zh) * 2021-03-18 2021-06-01 广西师范大学 一种可验证的加密图像检索隐私保护方法
CN113378842A (zh) * 2021-05-18 2021-09-10 浙江大学 基于分割图像特征提取的推荐方法
CN114742178A (zh) * 2022-06-10 2022-07-12 航天亮丽电气有限责任公司 一种通过mems六轴传感器进行非侵入式压板状态监测的方法

Also Published As

Publication number Publication date
CN110070121B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN110070121A (zh) 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
Dong et al. Efficient k-nearest neighbor graph construction for generic similarity measures
CN102915347B (zh) 一种分布式数据流聚类方法及系统
CN107798346B (zh) 一种基于Fréchet距离阈值的轨迹相似性快速匹配方法
US9141666B2 (en) Incremental maintenance of range-partitioned statistics for query optimization
Song et al. Solutions for processing k nearest neighbor joins for massive data on mapreduce
CN108595499A (zh) 一种克隆优化的粒子群聚类高维数据分析方法
Zheng et al. Repose: distributed top-k trajectory similarity search with local reference point tries
Lee Fast k-nearest neighbor searching in static objects
Wang et al. On efficient and scalable time-continuous spatial crowdsourcing
Abbasifard et al. Efficient indexing for past and current position of moving objects on road networks
Tsai et al. DBSCALE: An efficient density-based clustering algorithm for data mining in large databases
CN112214488A (zh) 一种欧式空间数据索引树及构建和检索方法
Nielsen et al. Tailored Bregman ball trees for effective nearest neighbors
JP3938815B2 (ja) ノード作成方法、画像検索方法及び記録媒体
CN115205699B (zh) 一种基于cfsfdp改进算法的地图图斑聚类融合处理方法
Zhang et al. Maximizing range sum in trajectory data
Chen et al. Research on optimized R-tree high-dimensional indexing method based on video features
CN105354243B (zh) 基于归并聚类的并行化频繁概率子图搜索方法
Jánošová et al. Organizing Similarity Spaces Using Metric Hulls
CN102968467A (zh) 一种多层Bloom Filter的优化方法及查询方法
CN108090182B (zh) 一种大规模高维数据的分布式索引方法及系统
Ma et al. Fast search of binary codes with distinctive bits
CN110059148A (zh) 应用于电子地图的空间关键字查询的准确搜索方法
Zhang et al. Finding k-dominant g-skyline groups on high dimensional data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant