CN108733781A - 基于内存计算的集群时态数据索引方法 - Google Patents

基于内存计算的集群时态数据索引方法 Download PDF

Info

Publication number
CN108733781A
CN108733781A CN201810430432.4A CN201810430432A CN108733781A CN 108733781 A CN108733781 A CN 108733781A CN 201810430432 A CN201810430432 A CN 201810430432A CN 108733781 A CN108733781 A CN 108733781A
Authority
CN
China
Prior art keywords
data
subregion
index
time
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810430432.4A
Other languages
English (en)
Other versions
CN108733781B (zh
Inventor
郑啸
刘厚凯
吴宣够
秦峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN201810430432.4A priority Critical patent/CN108733781B/zh
Publication of CN108733781A publication Critical patent/CN108733781A/zh
Application granted granted Critical
Publication of CN108733781B publication Critical patent/CN108733781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于集群内存计算下的时态数据索引方法,采用双层索引方法,先将数据进行分区,对分区建立轻量级索引,然后在其内部的Array数据集建立本发明的时态索引。在分区过程中,根据时态索引的建立过程进行了相关优化,降低了分区内部建立索引的空间消耗,分区加快了查询时对数据集的剪枝过程,提高了查询的效率,优化时态索引的建立及查询代价。本发明可在保证一定查询速度的情况下,减少索引空间的大小,优化了同类索引中存储空间过大的问题;同时减少了对时态大数据的查询的延迟,提高了整体的吞吐量。

Description

基于内存计算的集群时态数据索引方法
技术领域
本发明涉及一种基于内存计算的集群时态数据索引方法,属于云计算、时态大数据领域。
背景技术
时态数据是一系列表示某个时间点状态的数据,描述了被测量的主体在历史的时间维度上的状态信息,如在水文监控、工厂的设备监控、通讯监控、金融行业指标数据等。及时对时序数据的有效分析,可以发现事物发展的历史性,规律性,并能指导着作出相应决策判断。面对当今海量数据中的时态数据(例如,一辆联网汽车每小时产生25G数据),如何有效的进行查询处理,仍是一大热点研究问题。
近年来,数据库领域已经出现了一些针对时态数据高效率查询的索引结构,然而传统数据库为关系型数据库,无法高效的处理海量的非关系型数据,且支持容量有限、不易拓展等特性使其无法满足海量数据下的客户需求。现有的大数据、云计算等高新领域的崛起为高效处理海量的时态数据提供了可能。其中的集群计算成为了大数据领域内最流行的一种解决方案,它实现内存计算和多机并行处理机制的同时,保证了任务执行的高吞吐量及低延迟特性。时态大数据数据下,现有的时态索引利用空间换取时间的方法为提高查询效率,往往采用用空间换取时间的办法,虽然查询效率得到了一定的提升,但额外占用的大量存储空间仍是不可避免的,并且很多都是基于外存计算的,相比内存计算方法,外存的计算速度明显会低几个数量级。如果把此类基于外存相关时态索引算法应用到集群的内存计算框架中,过大的内存消耗对集群的负载能力是一种巨大挑战,利用高消耗的内存容量换取一定的查询速度也显然不太实际。
发明内容
因此,鉴于当前时态索引方法在集群基于内存计算的缺陷,本发明提出了一种的更适合于集群中内存计算的时态大数据索引方法,该方法利用内存计算中数据全部放到内存中的计算高效性及时态数据间的特点,提出使用计算时间压缩索引存储空间的算法,并对该算法进行了一定的优化,既能利用高效的索引查询方法,又能避免过大的索引空间开销。
本发明提出的基于内存计算的集群时态数据索引方法,可实现一个支持针对时态大数据查询的索引,在基于内存计算的集群中,通过利用内存计算的高效性与时态数据间的特点对索引进行查询时间与建立索引空间之间的权衡,实现了基于内存计算的集群中对时态大数据的高吞吐、低延迟的查询操作。
本发明针对上述问题,提出一种基于集群内存计算的时态数据索引方法,结合时态数据的特征建立一系列优化方案(如分区策略,时态索引等),实现对海量时态数据高效率的查询,推进时态数据的高可用性。
有关本发明的详细特征与实现,兹配合附图在实施方式中详细说明如下,其内容足以使任何领域技术人员了解本发明的技术内容并据以实施,且根据本说明书所揭露的内容附图,任何领域技术人员可轻易地理解本发明相关的目的及优点。
本发明的具体技术方案如下:
一种基于集群内存计算下的时态数据索引方法,属于双层索引方法,先将数据进行分区,对分区建立轻量级索引,然后在其内部的Array数据集建立本发明的时态索引。在分区过程中,根据时态索引的建立过程进行了相关优化,降低了分区内部建立索引的空间消耗,分区加快了查询时对数据集的剪枝过程,提高了查询的效率,优化时态索引的建立及查询代价。
具体包括如下索引建立和查询索引两部分技术实现过程:
1.索引建立
(1)获取集群的最大并发数,存入配置信息表中;
(2)对数据进行分区,首先判断整个数据集下的最高区分单位,然后将同一单位的数据根据比重划分分区数量,使相邻时间数据分到相同的分区中,保证运行时一定的负载平衡,降低了建立索引时的空间开销,实现更好的数据压缩;
(3)将分区内部整个数据集分成表示事件将要开始的索引表ST,事件将要结束的索引表ED,事件已经存在的索引表ID三类;
(4)建立ST、ED与ID索引表,取数据集中的最小开始时间点作为基准点basetime,把数据集中其他开始时间点与此基准点的差值作为key值,表中事件记录所在数组的下标作为value值建立索引;
(5)ID表的建立,采用时间间断方法,首先获取整个数据集的时间段范围N,选取个点作为实际存储点,各点之间的距离单位,根据时间段中存在某个存储点,则在ID表中添加到相应位置即可,故该算法相比不进行数据压缩的空间极限压缩比
2.索引查询:
接收查询指令,先通过与分区时返回的所有最大时间点进行索引查询,对整体数据集进行剪枝操作,快速找到结果所在分区,然后进入分区内部根据本发明的时态索引方法进行二次查询,得出结果。
进一步的所述步骤2的索引查询,其具体实现包括:
(1)接收查询指令,首先根据查询开始时间点与分区边界数组进行对比,获取结果数据集所在分区,然后根据时态数据间的关系进行计算,其中,时态数据间的关系如下:
当前时间点处存在的事件=前一时间点处存在的事件-前一时间点处结束的时间+当前时间点处开始的事件;
(5)进行时间点或者时间范围查询时,取出ST表,并将查询时间点与ID表中记录的时间间隔取余,获取ID表中最近的存储点,根据公式ID(i+1)=ID(i)+ST(i+1)-ED(i+1)计算出该点的ID值,时间点查询下再获取ST索引表中该点值,相加即为结果数据集;
(6)时间范围查询时,在ST表取(start,end)范围内的值相加即为结果数据集;
(7)进行时间段查询时,将时间段的开始时间点根据基准时间点转换成key值,与ID表的存储值间隔大小取余,获取所查时间段开始时间戳处最近的存储点,根据推导公式ID(i+1)=ID(i)+ST(i+1)-ED(i+1)计算得该开始时间点处的ID表值A,然后获取ST表中(start,end)时间范围内的所有值B,最终查询结果集即为A与B的合集。
进一步的实施例中,在前述步骤对数据进行分区过程中,对时态数据集进行相应分区,使相邻的时间数据放到同一分区中,便于压缩建立时态索引时的空间消耗,并采集该分区的一系列值作为表征数据,选择其中的最大时间点作为该分区的索引唯一值,分区数量设置为集群最大并发数的倍数。
进一步的实施例中,在前述步骤对数据进行分区过程中,采用当前集群的最大并发数*5的数量作为总分区数量,并遵从尽量保持相邻数据存在同一分区的原则对数据进行分区,在数据重分区时,首先判断整个数据集的最高分区单位,依据各单位的数量总量对分区总数进行相应划分,将同单位的相邻时间数据分到同一分区中。
本发明的显著优点在于:
针对时下集群模式最流行的内存计算方法,利用时态数据间的规律,引入一种使用计算时间换取存储空间的方法,保证一定查询速度的情况下,减少索引空间的大小,优化了同类索引中存储空间过大的问题;同时减少了对时态大数据的查询的延迟,提高了整体的吞吐量,结合集群环境下的等特点,能够为时态大数据的快速查询与分析提供一个稳定可靠的索引算法。
附图说明
图1本发明的主函数程序框图。
图2本发明的数据分区流程框图。
图3本发明的建立索引过程框图。
图4本发明的查询请求操作执行过程框图。
具体实施方案
Apache Spark是一款基于内存计算的集群大数据处理框架,符合我们的应用范围,故我们选用Apache Spark集群作为实施例进行详细介绍,集群配置不再做详细叙述。为让本发明的上述及其他目的、特征及优点能更明显异动,下面结合附图并举例对本发明进行详细阐述。
结合图1-图4,本发明提出的一种基于集群内存计算下的时态数据索引方法,属于双层索引方法,先将数据进行分区,对分区建立轻量级索引,然后在其内部的Array数据集建立本发明的时态索引。在分区过程中,根据时态索引的建立过程进行了相关优化,降低了分区内部建立索引的空间消耗,分区加快了查询时对数据集的剪枝过程,提高了查询的效率,优化时态索引的建立及查询代价。
具体包括如下索引建立和查询索引两部分技术实现过程:
1.索引建立
(1)获取集群的最大并发数,存入配置信息表中;
(2)对数据进行分区,首先判断整个数据集下的最高区分单位,然后将同一单位的数据根据比重划分分区数量,使相邻时间数据分到相同的分区中,保证运行时一定的负载平衡,降低了建立索引时的空间开销,实现更好的数据压缩;
(3)将分区内部整个数据集分成表示事件将要开始的索引表ST,事件将要结束的索引表ED,事件已经存在的索引表ID三类;
(4)建立ST、ED与ID索引表,取数据集中的最小开始时间点作为基准点basetime,把数据集中其他开始时间点与此基准点的差值作为key值,表中事件记录所在数组的下标作为value值建立索引;
(5)ID表的建立,采用时间间断方法,首先获取整个数据集的时间段范围N,选取个点作为实际存储点,各点之间的距离单位,根据时间段中存在某个存储点,则在ID表中添加到相应位置即可,故该算法相比不进行数据压缩的空间极限压缩比
2.索引查询:
(1)接收查询指令,首先根据查询开始时间点与分区边界数组进行对比,获取结果数据集所在分区,然后根据时态数据间的关系进行计算,其中,时态数据间的关系如下:
当前时间点处存在的事件=前一时间点处存在的事件-前一时间点处结束的时间+当前时间点处开始的事件;
(8)进行时间点或者时间范围查询时,取出ST表,并将查询时间点与ID表中记录的时间间隔取余,获取ID表中最近的存储点,根据公式ID(i+1)=ID(i)+ST(i+1)-ED(i+1)计算出该点的ID值,时间点查询下再获取ST索引表中该点值,相加即为结果数据集;
(9)时间范围查询时,在ST表取(start,end)范围内的值相加即为结果数据集;
(10)进行时间段查询时,将时间段的开始时间点根据基准时间点转换成key值,与ID表的存储值间隔大小取余,获取所查时间段开始时间戳处最近的存储点,根据推导公式ID(i+1)=ID(i)+ST(i+1)-ED(i+1)计算得该开始时间点处的ID表值A,然后获取ST表中(start,end)时间范围内的所有值B,最终查询结果集即为A与B的合集。
下面将更加具体的描述上述过程的实现。
1.根据Spark集群的配置,记录集群下的最大并发数。由于Spark核心数据结构RDD中存在分区的概念,故我们后续将对时态索引分区的方法改写为RDD中的重分区方法,在此基础上,我们实现了索引管理器用来管理索引信息。
2.先将需要处理的数据进行加载,数据文件可以为多种文件格式(如Json、txt等),然后将数据进行清洗,转换为可关系型处理的时间数据格式。然后对数据集采用新的分区方式进行重新分区。由于Spark中的分区对系统的性能影响很大,我们对负载平衡做了一定的优化,选用最大并发数的整数倍作为总分区数量。程序主流程如图1所示。
3.优化时态索引存储空间的分区方法
在前述步骤对数据进行分区过程中,对时态数据集进行相应分区,使相邻的时间数据放到同一分区中,便于压缩建立时态索引时的空间消耗,并采集该分区的一系列值作为表征数据,选择其中的最大时间点作为该分区的索引唯一值,分区数量设置为集群最大并发数的倍数。
分区过程中,分区的优劣对集群的整体性能很有影响,首先获取原数据集的最高区分单位(如不同年份/月份)进行区分,采用当前集群的最大并发数*5的数量作为总分区数量,并遵从尽量保持相邻数据存在同一分区的原则对数据进行分区。便于对数据的压缩,在数据重分区时,首先判断整个数据集的最高分区单位(如几年或几月的数据),依据各单位的数量总量对分区总数进行相应划分,将同单位的相邻时间数据分到同一分区中,便于采用相对时间的方式进行统计,有效的实现了Long=>Int的转换,即压缩了建立索引使用的一半的存储空间;然后返回一系列分区内的表征数据(如分区最大时间点等),并取其中的每个分区中最大的时间点作为一个数组,构建针对分区的索引,由此完成针对分区的第一层索引结构。保证了集群执行过程中一定的负载平衡。
4.具体的,根据时态索引方法进入索引管理器模块,通过新的时态分区器对数据集进行重新分区,对数据集进行重分区中,首先判断整个数据集下的最高区分单位(如几年,几月等),然后将不同单位的数据根据各自数据量的比重划分分区数量,使相邻时间数据分到相同的分区中,保证了一定的负载平衡,能够实现更好的数据压缩。最终返回各分区及一系列表征分区的特征值,将各分区最大时间点取出作为对分区的索引。然后再对各分区内部的数据集增加时态索引。此时,即将本发明的时态索引算法及优化策略应用到了Spark框架中,Spark原有的数据抽象集合RDD转换成新的存储结构IndexedRDD,即将对时态索引的双层索引转变为对分区的全局索引及分区内部的局部有效的双层索引结构。分区流程图如图2所示。
5.Spark DataSet数据集下,分区内部的数据集为Array[Row],故针对Array数组的下标,建立第二层索引结构,针对时态数据集,采用本发明的高效时态索引算法优化时态数据的查询操作,并根据时态数据的特点,将索引存储空间进行了极限的压缩。具体建立方法为:
(1)获取当前分区内数据集的最小时间点作为基准时间点basetime,将其他时间点与此基准时间点进行作差,取相对位移作为新值;我们将整个数据集分成3类事件:
1)该时间点处将要开始的事件;
2)该时间点处将要结束的事件;
3)该时间点处已经存在但不会结束的事件;
对应三类事件,建立ST,ED,ID三张索引表,其中ST表代表将要开始的事件,ID表代表当前存在的事件,两表取各事件的开始时间与basetime的差值作为key值,该事件所在数据集中的下标作为value值建立索引;ED表代表将要结束的事件,故取各事件的结束时间与basetime的差值作为key值,该事件所在数据集中的下标作为value值建立索引。
(2)ID表的建立采用时间间断方法,首先获取整个数据集的时间段范围N,选取个点作为实际存储点,个点之间的距离单位。建立ID索引表时,先将事件的开始时间与取余获得值a,然后再将事件的结束时间与取余获得值b,值a与b的范围即为ID表中该事件的存储位置。在ID表中相应的存储点位置添加到相关事件信息即可,故该算法相比不进行数据压缩的空间极限压缩比索引流程图如图3所示。
6.接受查询分析请求后,首先对查询关键词进行解析,确保输入的有效性,判断当前RDD数据集是否存在索引,如果成立,则进入索引部分物理计划,先通过上述4操作中保留在IndexedRDD内部的关于分区属性的数据快速定位到查询结果所在分区,然后进入分区并将查询条件在内部的时态索引中进行查询,即可快速的获取结果集。如果当前RDD不是IndexedRDD,则使用默认的查询方式,对整个数据集进行遍历得出结果。
7.利用本发明的时态索引方法进行查询时,如图4所示,根据IndexedRDD中记录的各分区边界值,获得结果集所在分区,然后进入相应分区,计算查询时间点在分区内的相对位移,根据查询条件,分为以下三种情况:1)时间点查询,将时间点根据分区内部的basetime时间点转换成key值,与ID表的存储值间隔大小取余,获取所查时间段开始时间戳处最近的存储点,根据推导公式ID(i+1)=ID(i)+ST(i+1)-ED(i+1)计算得该时间戳处的ID表值,由Result=ID(point)+ST(point)得出结果数据集的行号,即得结果数据集。(2)时间范围查询,将时间范围根据分区内部的basetime时间点转换成key值,获取ST表中的(start,end)范围的值即Result=ST(start~end)得出结果数据集的行号即可。(3)时间段查询,同时间点查询,先计算ID表中开始时间处的记录值,然后将ST表中的(start,end)范围内的值进行相加,结果数据集即为Result=ID(start)+ST(start,end),获得查询记录。时态查询流程图如图4所示。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (4)

1.一种基于集群内存计算下的时态数据索引方法,其特征在于,采用双层索引方法,先将数据进行分区,对分区建立轻量级索引,然后在其内部的Array数据集建立时态索引,其具体实现包括如下索引建立和查询索引两部分:
1.索引建立
(1)获取集群的最大并发数,存入配置信息表中;
(2)对数据进行分区,判断整个数据集下的最高区分单位,然后将同一单位的数据根据比重划分分区数量,使相邻时间数据分到相同的分区中;
(3)将分区内部整个数据集分成表示事件将要开始的索引表ST,事件将要结束的索引表ED,事件已经存在的索引表ID三类;
(4)建立ST、ED与ID索引表,取数据集中的最小开始时间点作为基准点basetime,把数据集中其他开始时间点与此基准点的差值作为key值,表中事件记录所在数组的下标作为value值建立索引;
(5)ID表的建立,采用时间间断方法,首先获取整个数据集的时间段范围N,选取个点作为实际存储点,各点之间的距离单位,根据时间段中存在某个存储点,则在ID表中添加到相应位置即可,故该算法相比不进行数据压缩的空间极限压缩比
2.索引查询:
接收查询指令,先通过与分区时返回的所有最大时间点进行索引查询,对整体数据集进行剪枝操作,快速找到结果所在分区,然后进入分区内部根据本发明的时态索引方法进行二次查询,得出结果。
2.根据权利要求1所述的基于集群内存计算下的时态数据索引方法,其特征在于,所述步骤2的索引查询,其具体实现包括:
(1)接收查询指令,首先根据查询开始时间点与分区边界数组进行对比,获取结果数据集所在分区,然后根据时态数据间的关系进行计算,其中,时态数据间的关系如下:
当前时间点处存在的事件=前一时间点处存在的事件-前一时间点处结束的时间+当前时间点处开始的事件;
(2)进行时间点或者时间范围查询时,取出ST表,并将查询时间点与ID表中记录的时间间隔取余,获取ID表中最近的存储点,根据公式ID(i+1)=ID(i)+ST(i+1)-ED(i+1)计算出该点的ID值,时间点查询下再获取ST索引表中该点值,相加即为结果数据集;
(3)时间范围查询时,在ST表取(start,end)范围内的值相加即为结果数据集;
(4)进行时间段查询时,将时间段的开始时间点根据基准时间点转换成key值,与ID表的存储值间隔大小取余,获取所查时间段开始时间戳处最近的存储点,根据推导公式ID(i+1)=ID(i)+ST(i+1)-ED(i+1)计算得该开始时间点处的ID表值A,然后获取ST表中(start,end)时间范围内的所有值B,最终查询结果集即为A与B的合集。
3.根据权利要求1所述的基于集群内存计算下的时态数据索引方法,其特征在于,在前述步骤对数据进行分区过程中,对时态数据集进行相应分区,使相邻的时间数据放到同一分区中,便于压缩建立时态索引时的空间消耗,并采集该分区的一系列值作为表征数据,选择其中的最大时间点作为该分区的索引唯一值,分区数量设置为集群最大并发数的倍数。
4.根据权利要求3所述的基于集群内存计算下的时态数据索引方法,其特征在于,在前述步骤对数据进行分区过程中,采用当前集群的最大并发数*5的数量作为总分区数量,并遵从尽量保持相邻数据存在同一分区的原则对数据进行分区,在数据重分区时,首先判断整个数据集的最高分区单位,依据各单位的数量总量对分区总数进行相应划分,将同单位的相邻时间数据分到同一分区中。
CN201810430432.4A 2018-05-08 2018-05-08 基于内存计算的集群时态数据索引方法 Active CN108733781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810430432.4A CN108733781B (zh) 2018-05-08 2018-05-08 基于内存计算的集群时态数据索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810430432.4A CN108733781B (zh) 2018-05-08 2018-05-08 基于内存计算的集群时态数据索引方法

Publications (2)

Publication Number Publication Date
CN108733781A true CN108733781A (zh) 2018-11-02
CN108733781B CN108733781B (zh) 2021-10-29

Family

ID=63937135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810430432.4A Active CN108733781B (zh) 2018-05-08 2018-05-08 基于内存计算的集群时态数据索引方法

Country Status (1)

Country Link
CN (1) CN108733781B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274349A (zh) * 2020-01-21 2020-06-12 北方工业大学 一种基于信息熵的公共安全数据分级索引方法及装置
CN111797118A (zh) * 2019-04-03 2020-10-20 哈索普拉特纳数字工程研究有限公司 大型数据库系统的迭代式多属性索引选择
CN113901087A (zh) * 2021-10-12 2022-01-07 大连海事大学 空间大数据分区重复数据的剪枝方法
CN115374299A (zh) * 2022-10-24 2022-11-22 杭州悦数科技有限公司 分布式图数据库中可达性索引的分层构建方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009059437A1 (en) * 2007-11-07 2009-05-14 ETH Zürich Method and computer system for indexing multimedia data objects
US20140229470A1 (en) * 2013-02-08 2014-08-14 Jive Software, Inc. Fast ad-hoc filtering of time series analytics
CN105117497A (zh) * 2015-09-28 2015-12-02 上海海洋大学 基于Spark云网络的海洋大数据主从索引系统及方法
CN107977446A (zh) * 2017-12-11 2018-05-01 江苏润和软件股份有限公司 一种基于数据分区的内存网格数据加载方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009059437A1 (en) * 2007-11-07 2009-05-14 ETH Zürich Method and computer system for indexing multimedia data objects
US20140229470A1 (en) * 2013-02-08 2014-08-14 Jive Software, Inc. Fast ad-hoc filtering of time series analytics
CN105117497A (zh) * 2015-09-28 2015-12-02 上海海洋大学 基于Spark云网络的海洋大数据主从索引系统及方法
CN107977446A (zh) * 2017-12-11 2018-05-01 江苏润和软件股份有限公司 一种基于数据分区的内存网格数据加载方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797118A (zh) * 2019-04-03 2020-10-20 哈索普拉特纳数字工程研究有限公司 大型数据库系统的迭代式多属性索引选择
CN111274349A (zh) * 2020-01-21 2020-06-12 北方工业大学 一种基于信息熵的公共安全数据分级索引方法及装置
CN113901087A (zh) * 2021-10-12 2022-01-07 大连海事大学 空间大数据分区重复数据的剪枝方法
CN113901087B (zh) * 2021-10-12 2024-05-10 大连海事大学 空间大数据分区重复数据的剪枝方法
CN115374299A (zh) * 2022-10-24 2022-11-22 杭州悦数科技有限公司 分布式图数据库中可达性索引的分层构建方法和系统

Also Published As

Publication number Publication date
CN108733781B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN106372114B (zh) 一种基于大数据的联机分析处理系统和方法
US7562090B2 (en) System and method for automating data partitioning in a parallel database
CN108733781A (zh) 基于内存计算的集群时态数据索引方法
US5899986A (en) Methods for collecting query workload based statistics on column groups identified by RDBMS optimizer
US10049134B2 (en) Method and system for processing queries over datasets stored using hierarchical data structures
CN102722553B (zh) 基于用户日志分析的分布式倒排索引组织方法
CN106796589B (zh) 空间数据对象的索引方法和系统
US20120191702A1 (en) Intelligent adaptive index density in a database management system
US8880511B2 (en) Database query optimization and cost estimation
CN107515899B (zh) 数据库联合分片方法、装置以及存储介质
Giannakouris et al. MuSQLE: Distributed SQL query execution over multiple engine environments
CN106095863B (zh) 一种多维度数据查询和存储系统和方法
CN103970902A (zh) 一种大量数据情况下的可靠即时检索方法及系统
CN108009270A (zh) 一种基于分布式内存计算的文本检索方法
CN112364093B (zh) 一种学习型大数据可视化方法及系统
CN107506490A (zh) 滑动窗口下基于位置top‑k关键词查询的优先查询算法及系统
CN107633068A (zh) 滑动窗口下基于位置top‑k关键词查询的快速索引方法及系统
CN106599189A (zh) 基于云计算的动态Skyline查询装置
Choi et al. Progressive top-k subarray query processing in array databases
CN115408384A (zh) 数据库访问方法、设备及存储介质
US20130013824A1 (en) Parallel aggregation system
US9158815B2 (en) Estimating a number of unique values in a list
CN110297836A (zh) 基于压缩位图方式的用户标签存储方法和检索方法
CN115146141A (zh) 基于数据特征的索引推荐方法及装置
Wang et al. Efficient aggregate farthest neighbour query processing on road networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant