CN116028500B - 一种基于高维数据的范围查询索引方法 - Google Patents

一种基于高维数据的范围查询索引方法 Download PDF

Info

Publication number
CN116028500B
CN116028500B CN202310060522.XA CN202310060522A CN116028500B CN 116028500 B CN116028500 B CN 116028500B CN 202310060522 A CN202310060522 A CN 202310060522A CN 116028500 B CN116028500 B CN 116028500B
Authority
CN
China
Prior art keywords
query
data
dimension
block
taking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310060522.XA
Other languages
English (en)
Other versions
CN116028500A (zh
Inventor
黎玲利
孙文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang University
Original Assignee
Heilongjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang University filed Critical Heilongjiang University
Priority to CN202310060522.XA priority Critical patent/CN116028500B/zh
Publication of CN116028500A publication Critical patent/CN116028500A/zh
Application granted granted Critical
Publication of CN116028500B publication Critical patent/CN116028500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于高维数据的范围查询索引方法,涉及数据库相似性搜索技术领域,针对现有技术中索引方法应用在高维数据时,存在准确率低的问题,本发明在各种数据集(大规模、高维度的真实数据集;不同类型的合成数据集)上,都可以实现快速高效的范围查询。整个查询框架进行了优化,达到了效率和精度的平衡;并且实现了自动调整参数,更能满足客户的多样性需求。本申请可以在高维数据上进行高效、准确查询,使范围查询更有效率(查询时间短)且准确(精确度高),本申请通过采用PCA方法进行数据预处理,避免了维度灾难问题,并且将数据按照特征进行分类。并且本申请通过在不同分块上构建最佳索引,合理应用数据特征以及索引本身特点,最大化方法效率。

Description

一种基于高维数据的范围查询索引方法
技术领域
本发明涉及数据库相似性搜索技术领域,具体为一种基于高维数据的范围查询索引方法。
背景技术
在当今社会中,众所周知数据无处不在,它出现在现实生活中的各个领域。处于大空间数据时代,每天都会产生万亿字节的多维数据。对这些规模庞大的高维数据,我们要对其进行分析处理使其发挥价值。相似性搜索就是其中关键一步。相似性搜索目的是寻找与给定对象相似的对象。而范围查询是相似性搜索领域核心部分之一。给定查询对象集合
Figure BDA0004061161880000011
Figure BDA0004061161880000012
其中/>
Figure BDA0004061161880000013
距离阈值τ,距离函数dist(.,.),范围查询的任务是返回数据集D中所有距离查询q在给定距离阈值τ内的查询对象。它对文本搜索、图像搜索、产品推荐等都很重要。
目前解决当前相似性搜索问题的方法有传统的精确查询方法,例如EPT、GANT、LC、M-Tree等;近似查询方法,例如属于图结构的HNSW、HVS方法,属于量化的VAQ、PQ方法,属于哈希的OASIS、SAS方法,属于学习索引的LIMS、ZM-index以及LISA等。
随着数据规模的增大,现有的一些方法(例如LC等)索引构建时间非常长,还有一些方法(例如M-tree等)查询时间很长,计算成本很高;并且随着数据的维度越来越高,有的方法在低维数据上非常有效的方法,应用到高维数据,就会不是那么准确了。使用深度学习方法的学习索引尽管大幅度减少了查询时间,但存在一个很大的问题是精度会有损失,很难保证。
发明内容
本发明的目的是:针对现有技术中索引方法应用在高维数据时,存在准确率低的问题,提出一种基于高维数据的范围查询索引方法。
本发明为了解决上述技术问题采取的技术方案是:
一种基于高维数据的范围查询索引方法,包括以下步骤:
步骤一:对数据库中的数据进行降维处理,所述数据为高维数据;
步骤二:基于降维处理后的数据,将降到相同维度的数据作为一类,并将类按升序排列,然后对排序后的所有类进行合并分块,合并分块策略为:
每个块内包含的不同维度的数量相同,每个块内不同维度的数量为1-10个;
步骤三:在每个分块内根据数据分布情况随机均匀选取多个数据,并利用多种索引分别对选取的数据进行查询,然后记录查询时间,在多种索引中选取最优索引作为每个分块的索引,之后在每个分块内确定最高维度,并将分块内其余维度调整至最高维度;
步骤四:在数据库中抽取符合均匀分布的多个数据,并在抽取的数据上增加噪声,将多个包含噪声的数据作为查询工作负载Q,在所述查询工作负载Q中,每个数据为一个查询q;
步骤五:针对每个查询q,在数据库中,利用M-tree做距离阈值τ的第一范围查询,所述第一范围查询具体为:
以查询q为中心点,以阈值τ为半径,得到一个超球体,所述超球体内包含的数据即为标签;
步骤六:针对每个查询q,在数据库中,做距离阈值τ的第二范围查询,所述第二范围查询具体为:
针对查询q进行降维,得到查询q',然后确定查询q'所在的分块B,并使查询q'的维度与分块B的维度相同,在该分块中以查询q'为中心,以阈值τ为半径,得到一个候选点集,并将候选点集中的数据以及查询q'恢复到原来的维度,得到恢复数据和查询q”,然后分别计算每个恢复数据与查询q”的欧式距离,若不大于距离阈值τ,则将该恢复数据作为答案集中的数据,计算完所有恢复数据与查询q”的距离,得到答案集;
步骤七:将第一范围查询与第二范围查询进行比对,确定答案集中的数据与标签是否一一对应,若存在不对应,则基于第二范围查询中的分块B进行左右跨块搜索,直至不存在不对应为止,即完成查询;
所述基于第二范围查询中的分块B进行左右跨块搜索的具体步骤为:
步骤七一:以分块B为中心,向左和向右分别选取一个块,然后使左侧块内数据的维度与查询q'的维度相同,之后使查询q'的维度与右侧块的维度相同;
步骤七二:若仍存在不对应,则令步骤七一中向左和向右分别选取的块数加一,然后使左侧所有块内数据的维度与查询q'的维度相同,之后使查询q'的维度与最右侧块的维度相同;
步骤七三:重复步骤七二进行迭代,直至不存在不对应为止。
进一步的,所述步骤六和步骤七替换为:
步骤六:针对每个查询q,在数据库中,做距离阈值τ的第二范围查询,所述第二范围查询具体为:
针对每个查询q进行降维,得到查询q',然后确定查询q'所需要查找的分块B,在该分块中以查询q'为中心,以阈值τ为半径,得到一个候选点集,并将候选点集中的数据以及查询q'恢复到原来的维度,得到恢复数据和查询q”,然后分别计算每个恢复数据与查询q”的欧式距离,若不大于距离阈值τ,则将该恢复数据作为答案集中的数据,计算完所有恢复数据与查询q”的距离,得到答案集;
步骤七:将答案集中的数据与标签进行比对计算,得到召回率,确定该召回率是否满足召回率R,若满足则停止,若不满足,则基于第二范围查询中的分块B进行左右跨块搜索,直至满足召回率R;
所述召回率R通过以下步骤得到:
步骤1:设置召回率下限值,然后以横轴为召回率,以纵轴为时间,构建坐标系,所述召回率为答案集中数据的数量与标签的数量的比值;
步骤2:根据构建的坐标系,获取时间-召回率的曲线,当曲线出现拐点时,且该拐点所对应的召回率大于召回率下限值,则该拐点对应的召回率为召回率R;
所述基于第二范围查询中的分块B进行左右跨块搜索的具体步骤为:
步骤七一:以分块B为中心,向左和向右分别选取一个块,然后使左侧块内数据的维度与查询q'的维度相同,之后使查询q'的维度与右侧块的维度相同;
步骤七二:若仍存在不对应,则令步骤七一中向左和向右分别选取的块数加一,然后使左侧所有块内数据的维度与查询q'的维度相同,之后使查询q'的维度与最右侧块的维度相同;
步骤七三:重复步骤七二进行迭代,直至不存在不对应为止。
进一步的,所述数据为enron数据。
进一步的,所述降维处理采用PCA,即主成分分析进行。
进一步的,所述降维处理中降低的维度为误差ε内的最大维度;
所述误差ε为原数据与降维后又恢复到原来维度的重构数据之间的欧式距离差值。
进一步的,所述每个块内包含的维度数量的初始值为2或4。
进一步的,所述多种现有索引包括:GNAT、EPT和M-tree。
进一步的,所述步骤三中在每个分块内根据数据分布情况随机均匀选取的多个数据为100个。
进一步的,所述步骤四中在现有数据库中抽取符合均匀分布的多个数据为1000个。
进一步的,所述召回率下限值为95%。
本发明的有益效果是:
本发明在各种数据集(大规模、高维度的真实数据集;不同类型的合成数据集)上,都可以实现快速高效的范围查询。整个查询框架进行了优化,达到了效率和精度的平衡;并且实现了自动调整参数,更能满足客户的多样性需求。
本申请可以在高维数据上进行高效、准确查询,使范围查询更有效率(查询时间短)且准确(精确度高),本申请通过采用PCA方法进行数据预处理,避免了维度灾难问题,并且将数据按照特征进行分类。并且本申请通过在不同分块上构建最佳索引,合理应用数据特征以及索引本身特点,最大化方法效率。
附图说明
图1为索引构建部分示意图;
图2为查询处理部分示意图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的一种基于高维数据的范围查询索引方法,包括:
步骤一:对现有数据库中的数据(enron数据集,1369维)进行预处理,降维处理,在高维数据上进行范围查询具有非常大的挑战性。比如许多对低维数据有效的方法,随着维数的增加,准确性明显下降;并且在对高维数据进行处理运用时,其运算量以及所用时间都是巨大的。所以对数据集中原始数据进行预处理是很有必要的。
本申请的难点是数据是高维的,一种直观的想法就是对数据进行降维处理,将原本较高维度的数据,在尽量不损失数据信息和数据之间关系的基础上,降低到一个较低的维度,以便本申请进行后续的处理。这里本申请采用PCA的方法,即主成分分析。将数据
Figure BDA0004061161880000041
Figure BDA0004061161880000042
降维成/>
Figure BDA0004061161880000043
对于数据集中每个数据点所降低到的维度的确定,本申请根据误差ε来确定。误差ε内的最大维度,误差ε为36;
其中,误差ε指原数据与降维后又恢复到原来维度的重构数据之间的距离差值。可以认为对于距离很近的点对,其降低的维度一样。
步骤二:确定分块策略。
经过对数据的预处理,将原始数据降到了不同维度。本申请这里简单的将每个维度称为一类,规模为根据给定误差降到该维度的数据点数量。由此得到维度从小到大的若干类。
在此基础上,本申请对类进行合并分块。分块策略为每个块内包含的维度数量相同,每个块内包含的维度数量的初始值为1-10(最优值为2或4);
因为此时降落在不同维度上的数据点具有不同的特征,本申请需要对其进行细粒度的分析,在其上建立最符合自身特征的索引结构;有利于剪枝操作,便于筛掉与所给查询q差异很大的数据点,减少了计算量,从而提高了查询效率。
在分区时,本申请考虑分块策略要尽可能降低查询成本,并且保证查询精度。因为在同一维度上的数据具有相同特征的,那么本申请认为相近维度上的数据点特征相似,比较适合构建同一种索引。本申请使每个分块内包含维度大致相同,对于每个分块内所包含维度上的所有数据点构建同一种索引,以实现性能的平衡。在此分块下,在具体查询时,想要跨块较少,从而减少计算距离的时间;但也要保证查询精度。因此,本申请应该同时优化两个目标:(1)最大化查询精度(recall);(2)最小化查询时间(t)。
步骤三:索引的构建。
在每个分块内根据数据分布情况随机均匀选择100个数据,并利用GNAT、EPT以及M-tree分别对100个数据进行查询,根据查询时间选择最优索引;在每个分块内,确定最高维度,并将其余维度调整至最高维度;
每种索引所适用的情况不一样,有的索引对维度比较敏感,而有的索引对于数据规模又比较敏感。本申请结合每个分块内不同维度下的数据特征,以及分块规模,对现有备选索引(GNAT、EPT以及M-tree)进行选择,使查询效率最大化。每个分区上的数据点以其上最高维度作为代表,统一将分区内数据点重构为该分区最高维度。
步骤四:查询处理。
在现有数据库中抽取符合均匀分布的1000个数据,在数据上增加噪声(为了区分于现有数据),将1000个包含噪声的数据作为查询工作负载Q,在所述查询工作负载Q中,每个数据为一个查询q;
利用M-tree做查询工作负载为1000个数据分布为均匀分布,距离阈值τ为54的范围查询(设置一个阈值τ,所述距离阈值τ为54,然后以查询q为中心点,以阈值τ为半径,得到一个超球体,所述超球体内包含的数据即为标签;
所述范围查询可以通过以下两个技术方案实现:
P1:以查询q为中心点,以阈值τ为半径,得到一个超球体,所述超球体内包含的数据即为标签,之后,针对查询q进行降维,得到查询q',然后确定查询q'所需要查找的分块B,在该分块中以查询q'为中心,以阈值τ为半径,得到一个候选点集,并将候选点集中的数据以及查询q'恢复到原来的维度,得到恢复数据和查询q”,然后分别计算每个恢复数据与查询q”的距离,若不大于距离阈值τ,则将该恢复数据作为答案集中的数据,计算完所有恢复数据与查询q”的距离,得到答案集;之后确定答案集中的数据与标签是否一一对应,若存在不对应,则基于分块B进行左右跨块搜索,直至不存在不对应为止。
P2:以查询q为中心点,以阈值τ为半径,得到一个超球体,所述超球体内包含的数据即为标签,之后,针对每个查询q进行降维,得到查询q',然后确定查询q'所需要查找的分块B,在该分块中以查询q'为中心,以阈值τ为半径,得到一个候选点集,并将候选点集中的数据以及查询q'恢复到原来的维度,得到恢复数据和查询q”,然后分别计算每个恢复数据与查询q”的距离,若不大于距离阈值τ,则将该恢复数据作为答案集中的数据,计算完所有恢复数据与查询q”的距离,得到答案集,之后将答案集中的数据与标签进行比对计算,得到召回率,确定该召回率是否满足召回率R,若满足则停止,若不满足,则基于分块B进行左右跨块搜索,直至满足召回率R;
所述召回率R通过以下步骤得到:
步骤1:设置召回率下限值,然后以横轴为召回率,以纵轴为时间,构建坐标系,所述召回率为答案集中数据的数量与标签的数量的比值;
步骤2:根据构建的坐标系,获取时间-召回率的曲线,当曲线出现拐点时,且该拐点所对应的召回率大于召回率下限值,则该拐点对应的召回率为召回率R。
范围查询将构建的索引Forest、查询对象q、阈值τ作为输入,返回数据集D中距离查询q在τ范围内所有的数据点。简单来说,查询分为两个步骤:1)通过在索引上查找,确定分块,以此进一步确定候选点集;2)通过计算与查询之间的距离来确定距离查询在给定距离阈值范围内的所有数据点。
确定候选点集,本申请首先要确定目标点所在的分块,即与查询范围有相交的分块。对于查询对象q,本申请同样也对其进行降维处理。根据索引构建阶段确定的误差ε,将q转换成q',q'对应维度为tq。本申请有了tq即可确定查询点q落在了哪个分块中。以该分块为中心,左右跨块搜索。左右跨块后涉及的块的数量为sum_B=1+2Δb(b为向左或向右跨的块数)。对于与查询范围相交的分块,本申请继续对其进行查询,确定候选集。此时候选集内数据点为降维后数据点,非原数据点。
对于候选集内数据点,本申请进行一次筛选操作。降维后的点对距离dist_pac小于原数据点之间的距离dist。计算候选集内数据点与查询点间距离dist_pac,若dist_pca<τ-2ε,为查询结果;否则将降维后数据点进行还原操作,计算原数据点对间距离dist,若dist<τ,为查询结果。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (10)

1.一种基于高维数据的范围查询索引方法,其特征在于包括以下步骤:
步骤一:对数据库中的数据进行降维处理,所述数据为高维数据;
步骤二:基于降维处理后的数据,将降到相同维度的数据作为一类,并将类按升序排列,然后对排序后的所有类进行合并分块,合并分块策略为:
每个块内包含的不同维度的数量相同,每个块内不同维度的数量为1-10个;
步骤三:在每个分块内根据数据分布情况随机均匀选取多个数据,并利用多种索引分别对选取的数据进行查询,然后记录查询时间,在多种索引中选取最优索引作为每个分块的索引,之后在每个分块内确定最高维度,并将分块内其余维度调整至最高维度;
步骤四:在数据库中抽取符合均匀分布的多个数据,并在抽取的数据上增加噪声,将多个包含噪声的数据作为查询工作负载Q,在所述查询工作负载Q中,每个数据为一个查询q;
步骤五:针对每个查询q,在数据库中,利用M-tree做距离阈值τ的第一范围查询,所述第一范围查询具体为:
以查询q为中心点,以阈值τ为半径,得到一个超球体,所述超球体内包含的数据即为标签;
步骤六:针对每个查询q,在数据库中,做距离阈值τ的第二范围查询,所述第二范围查询具体为:
针对查询q进行降维,得到查询q',然后确定查询q'所在的分块B,并使查询q'的维度与分块B的维度相同,在该分块中以查询q'为中心,以阈值τ为半径,得到一个候选点集,并将候选点集中的数据以及查询q'恢复到原来的维度,得到恢复数据和查询q”,然后分别计算每个恢复数据与查询q”的欧式距离,若不大于距离阈值τ,则将该恢复数据作为答案集中的数据,计算完所有恢复数据与查询q”的距离,得到答案集;
步骤七:将第一范围查询与第二范围查询进行比对,确定答案集中的数据与标签是否一一对应,若存在不对应,则基于第二范围查询中的分块B进行左右跨块搜索,直至不存在不对应为止,即完成查询;
所述基于第二范围查询中的分块B进行左右跨块搜索的具体步骤为:
步骤七一:以分块B为中心,向左和向右分别选取一个块,然后使左侧块内数据的维度与查询q'的维度相同,之后使查询q'的维度与右侧块的维度相同;
步骤七二:若仍存在不对应,则令步骤七一中向左和向右分别选取的块数加一,然后使左侧所有块内数据的维度与查询q'的维度相同,之后使查询q'的维度与最右侧块的维度相同;
步骤七三:重复步骤七二进行迭代,直至不存在不对应为止。
2.根据权利要求1所述的一种基于高维数据的范围查询索引方法,其特征在于所述步骤六和步骤七替换为:
步骤六:针对每个查询q,在数据库中,做距离阈值τ的第二范围查询,所述第二范围查询具体为:
针对每个查询q进行降维,得到查询q',然后确定查询q'所需要查找的分块B,在该分块中以查询q'为中心,以阈值τ为半径,得到一个候选点集,并将候选点集中的数据以及查询q'恢复到原来的维度,得到恢复数据和查询q”,然后分别计算每个恢复数据与查询q”的欧式距离,若不大于距离阈值τ,则将该恢复数据作为答案集中的数据,计算完所有恢复数据与查询q”的距离,得到答案集;
步骤七:将答案集中的数据与标签进行比对计算,得到召回率,确定该召回率是否满足召回率R,若满足则停止,若不满足,则基于第二范围查询中的分块B进行左右跨块搜索,直至满足召回率R;
所述召回率R通过以下步骤得到:
步骤1:设置召回率下限值,然后以横轴为召回率,以纵轴为时间,构建坐标系,所述召回率为答案集中数据的数量与标签的数量的比值;
步骤2:根据构建的坐标系,获取时间-召回率的曲线,当曲线出现拐点时,且该拐点所对应的召回率大于召回率下限值,则该拐点对应的召回率为召回率R;
所述基于第二范围查询中的分块B进行左右跨块搜索的具体步骤为:
步骤七一:以分块B为中心,向左和向右分别选取一个块,然后使左侧块内数据的维度与查询q'的维度相同,之后使查询q'的维度与右侧块的维度相同;
步骤七二:若仍存在不对应,则令步骤七一中向左和向右分别选取的块数加一,然后使左侧所有块内数据的维度与查询q'的维度相同,之后使查询q'的维度与最右侧块的维度相同;
步骤七三:重复步骤七二进行迭代,直至不存在不对应为止。
3.根据权利要求2所述的一种基于高维数据的范围查询索引方法,其特征在于所述数据为enron数据。
4.根据权利要求3所述的一种基于高维数据的范围查询索引方法,其特征在于所述降维处理采用PCA,即主成分分析进行。
5.根据权利要求4所述的一种基于高维数据的范围查询索引方法,其特征在于所述降维处理中降低的维度为误差ε内的最大维度;
所述误差ε为原数据与降维后又恢复到原来维度的重构数据之间的欧式距离差值。
6.根据权利要求5所述的一种基于高维数据的范围查询索引方法,其特征在于所述每个块内包含的维度数量的初始值为2或4。
7.根据权利要求6所述的一种基于高维数据的范围查询索引方法,其特征在于所述多种索引包括:GNAT、EPT和M-tree。
8.根据权利要求7所述的一种基于高维数据的范围查询索引方法,其特征在于所述步骤三中在每个分块内根据数据分布情况随机均匀选取的多个数据为100个。
9.根据权利要求8所述的一种基于高维数据的范围查询索引方法,其特征在于所述步骤四中在数据库中抽取符合均匀分布的多个数据为1000个。
10.根据权利要求9所述的一种基于高维数据的范围查询索引方法,其特征在于所述召回率下限值为95%。
CN202310060522.XA 2023-01-17 2023-01-17 一种基于高维数据的范围查询索引方法 Active CN116028500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310060522.XA CN116028500B (zh) 2023-01-17 2023-01-17 一种基于高维数据的范围查询索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310060522.XA CN116028500B (zh) 2023-01-17 2023-01-17 一种基于高维数据的范围查询索引方法

Publications (2)

Publication Number Publication Date
CN116028500A CN116028500A (zh) 2023-04-28
CN116028500B true CN116028500B (zh) 2023-07-14

Family

ID=86074116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310060522.XA Active CN116028500B (zh) 2023-01-17 2023-01-17 一种基于高维数据的范围查询索引方法

Country Status (1)

Country Link
CN (1) CN116028500B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284338A (zh) * 2018-10-25 2019-01-29 南京航空航天大学 一种基于混合索引的卫星遥感大数据优化查询方法
CN113010525A (zh) * 2021-04-01 2021-06-22 东北大学 一种基于pid的海洋时空大数据并行knn查询处理方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11954614B2 (en) * 2017-02-08 2024-04-09 10X Genomics, Inc. Systems and methods for visualizing a pattern in a dataset
CN108241745B (zh) * 2018-01-08 2020-04-28 阿里巴巴集团控股有限公司 样本集的处理方法及装置、样本的查询方法及装置
CN110147377B (zh) * 2019-05-29 2022-12-27 大连大学 大规模空间数据环境下基于二级索引的通用查询方法
CN110175175B (zh) * 2019-05-29 2023-05-09 大连大学 一种基于spark的分布式空间二级索引与范围查询算法
CN110489419A (zh) * 2019-08-08 2019-11-22 东北大学 一种基于多层局部敏感哈希的k最近邻近似查询方法
CN111680033A (zh) * 2020-04-30 2020-09-18 广州市城市规划勘测设计研究院 一种高性能gis平台
US11886445B2 (en) * 2021-06-29 2024-01-30 United States Of America As Represented By The Secretary Of The Army Classification engineering using regional locality-sensitive hashing (LSH) searches
CN114329094B (zh) * 2021-12-31 2024-09-10 上海交通大学 一种基于Spark的大规模高维数据近似近邻查询系统和方法
CN115438230A (zh) * 2022-08-30 2022-12-06 西安电子科技大学 安全高效的动态加密云数据多维范围查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284338A (zh) * 2018-10-25 2019-01-29 南京航空航天大学 一种基于混合索引的卫星遥感大数据优化查询方法
CN113010525A (zh) * 2021-04-01 2021-06-22 东北大学 一种基于pid的海洋时空大数据并行knn查询处理方法

Also Published As

Publication number Publication date
CN116028500A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
US10521441B2 (en) System and method for approximate searching very large data
Benites et al. Haram: a hierarchical aram neural network for large-scale text classification
Yagoubi et al. Dpisax: Massively distributed partitioned isax
CN110070121B (zh) 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
US7958096B2 (en) System and method for organizing, compressing and structuring data for data mining readiness
CN113051359B (zh) 一种基于多级索引结构的大规模轨迹数据相似性查询方法
US20030208488A1 (en) System and method for organizing, compressing and structuring data for data mining readiness
US10210280B2 (en) In-memory database search optimization using graph community structure
Neamtu et al. Interactive time series exploration powered by the marriage of similarity distances
CN113918753A (zh) 基于人工智能的图像检索方法及相关设备
CN108549696B (zh) 一种基于内存计算的时间序列数据相似性查询方法
Zhang et al. TARDIS: Distributed indexing framework for big time series data
Gong et al. Distributed evidential clustering toward time series with big data issue
Hamdani et al. Distributed genetic algorithm with bi-coded chromosomes and a new evaluation function for features selection
CN116028500B (zh) 一种基于高维数据的范围查询索引方法
Echihabi et al. Big sequence management: on scalability
US20200142910A1 (en) Data clustering apparatus and method based on range query using cf tree
CN116361796A (zh) 一种基于内容分块的工控恶意代码检测方法
Glenis et al. SCALE-BOSS: A framework for scalable time-series classification using symbolic representations
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
Chen et al. Research on optimized R-tree high-dimensional indexing method based on video features
Mola et al. Discriminant analysis and factorial multiple splits in recursive partitioning for data mining
Kumar et al. Partition Algorithms–A Study and Emergence of Mining Projected Clusters in High-Dimensional Dataset
Froese et al. Fast exact dynamic time warping on run-length encoded time series
CN110766087A (zh) 一种基于离差最大化法改进k-means的提高数据聚类质量的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant