CN108520053B - 一种基于数据分布的大数据查询方法 - Google Patents

一种基于数据分布的大数据查询方法 Download PDF

Info

Publication number
CN108520053B
CN108520053B CN201810300996.6A CN201810300996A CN108520053B CN 108520053 B CN108520053 B CN 108520053B CN 201810300996 A CN201810300996 A CN 201810300996A CN 108520053 B CN108520053 B CN 108520053B
Authority
CN
China
Prior art keywords
data
segment
query
segments
data segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810300996.6A
Other languages
English (en)
Other versions
CN108520053A (zh
Inventor
宋杰
董伟
徐超
王蓓蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810300996.6A priority Critical patent/CN108520053B/zh
Publication of CN108520053A publication Critical patent/CN108520053A/zh
Application granted granted Critical
Publication of CN108520053B publication Critical patent/CN108520053B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于数据分布的大数据查询方法,涉及大数据查询技术领域。一种基于数据分布的大数据查询方法,首先对待查询的数据划分数据段,并根据加速比计算整体数据段的段势分布函数,以确定各数据段的数量比例关系;然后根据约束条件将待查询数据装载到各数据段内;最后根据用户查询请求的时限要求,采用数据段选择算法确定参与查询的数据段,并返回查询结果及实际查全率和置信度。本发明提供的基于数据分布的大数据查询方法,保证了分布式环境下各类查询的随机性、性能和近似性评价,并兼容精确查询,且新增数据不会影响查询效果,具备良好的扩展性和可维护性。

Description

一种基于数据分布的大数据查询方法
技术领域
本发明涉及大数据查询技术领域,尤其涉及一种基于数据分布的大数据查询方法。
背景技术
人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据(Big Data)时代。面对如此庞大的数据量,如何能在可容忍的时间范围内找到目标数据至关重要。
早期对查询处理技术的研究主要集中在对精确查询的优化与调度,而且已取得大量成果。但是如果当今仍然采用传统精确的查询技术处理海量数据,一方面查询算法难以进一步优化,另一方面精确查询任务将会显得极其繁重,从而导致整个查询的响应时间超过用户可以接受的限度。此外,缩小搜索范围(Search Scope)是优化查询的主要思路,传统的数据分区和索引技术可以精确的缩小搜索范围,提高查询命中率,然而这些技术都依赖数据值域的良好划分和精细的数据结构,在大数据环境中维护一个精确的数据分区和索引的代价很高。如果能在海量数据中找到自己想要的、非重复的结果且拥有一个理想的响应时间,那么对于解决当代社会的许多关键问题都有帮助。
很多实际应用中,人们并不需要精确的查询结果,仅需要满足一定精度要求的近似的查询结果,或可以适当损失查询精度来满足性能要求。如人们在机场通过GPS定位服务寻找附近几个最近的餐馆时,他们并不需求非常精确的数据,相反他们对响应时间的要求会更高。对于一般查询,查准率比查全率更为重要,如用户能够容忍查询返回的餐馆并非匹配条件的所有餐馆,但难以接受查询结果中包含不匹配查询条件的餐馆,这一点在大数据查询中尤为明显。
发明内容
针对现有技术的缺陷,本发明提供一种基于数据分布的大数据查询方法,通过约简搜索范围来提高查询性能。
一种基于数据分布的大数据查询方法,包括以下步骤:
步骤1、将待查询的数据按数据量划分为数据段,并计算整体数据段的段势分布函数,划分数据段需符合以下两条特定规律:①各数据段中的数据量满足比例关系;②划分算法具有扩展性,需同时适用于历史数据和新增数据;
步骤1.1、定义数据段;将待查询数据划分为w个数据段s1,s2,…,sw,一个数据段对应一个或多个数据块;
步骤1.2、定义段势;数据段中的数据量和待查询的数据总量之间的比值称为段势,因此,第k个数据段sk的段势为||sk||=|sk|/(|s1|+|s2|+…+|sw|),1≤k≤w,其中|sk|表示数据段sk中的数据量;编号为k的数据段的段势为
Figure BDA0001619779980000021
或(G(k)-G(k-1))/G(w),其中,函数g(x)为段势分布函数,x∈[0,w],G(x)是g(x)的原函数;
步骤1.3、根据加速比计算段势分布函数,以确定各数据段的数量比例关系,具体方法为:
分布式系统中,并行查询方法所能获得的加速比为:
Figure BDA0001619779980000022
其中,z为查询过程中可被并行处理部分的比例,(1-z)是串行处理的比例,r为并行处理节点的数量,Ts为串行处理用时,Tp为并行处理用时,θ为并行处理用时Tp相比于串行处理用时Ts的加速比;
当用户提交的查询请求给定一个时间上限,设计并行处理的查询时间Tp和数据段的编号x之间满足线性正相关,即Tp=k′×x;
若数据段中数据块分散性良好,则查询第x个数据段时并行处理节点的数量即最大并行程度如下式所示:
Figure BDA0001619779980000023
其中,N为待查询的数据总量,M为所划分的数据段中数据块大小,
Figure BDA0001619779980000024
为第x个数据段的数据量,
Figure BDA0001619779980000025
为第x个数据段的数据块个数;
查询第x个数据段时,串行数据查询算法的查询时间如下式所示:
Figure BDA0001619779980000026
其中,m、n均为正数;
对于使用特定计算模型实现的查询算法,查询过程中可被并行处理部分的比例z值已知,因此,查询第x个数据段时,并行查询方法所能获得的加速比如下式所示:
Figure BDA0001619779980000027
求解该方程得到整体数据段的段势分布函数,如下式所示:
Figure BDA0001619779980000028
其中,
Figure BDA0001619779980000031
p1~p5均为由m、n、N、M和z确定的常数;
步骤2、获取待查询的数据总量,确定数据段总数量和数据段中每个数据块大小,根据段势分布函数计算每个数据段应装载的数据量;
步骤3、确定查询过程中并行处理的节点数量,做数据装载,根据计算结果将相应的数据量装载到对应的数据段内;
初次装载时,在新数据到来后,根据段势分布函数确定每个数据段应被分派的数据量,并将该部分数据装入数据段中;在后续的装载中,不考虑之前的数据装载情况,按段势分布函数将新来的数据按比例装载到数据段中;
步骤4、判断装载后各数据段中数据量是否满足数据块的数量远大于并行处理的节点数量的约束条件,若满足,则执行步骤5,否则,执行步骤2,做数据的等待装载,直到数据块的数量远大于并行处理的节点数量;
步骤5、用户提交查询请求,给定查询时间的上界Tmax
步骤6、计算第一个数据段所需要的查询时间T1
步骤7、采用数据段选择算法确定参与查询的数据段,具体方法为:
数据段选择是指“确定包含满足查询条件的数据的所有段”的过程;段选择应保证:①具有随机性,避免反复查询同一段数据;②查询时间不大于用户给定的时间上界Tmax;③最大化查全率;④优先选择满足数据规模要求且数据段总数最少的情况进行查询;⑤被选中的所有数据段需要有相同的并行次数;
确定参与查询的数据段的具体方法为:选取编号从a到b的连续数据段内的数据作为查询数据,a值随机选取以保证数据段选择的随机性,避免段势偏小的数据段总是被查询,而段势大的数据段则难以被查询到,b的计算通过定查询时间的上界Tmax确定:
Figure BDA0001619779980000032
其中,Tx为根据数据段间的比例关系及第一个数据段的查询时间T1确定的第x个数据段所需的查询时间;当数据段的编号b≤w时,选择参与查询的数据段为
Figure BDA0001619779980000034
当数据段的编号b>w时,选择的数据段为a,a+1,…,w和
Figure BDA0001619779980000035
步骤8、返回查询结果,并返回实际查全率和置信度;
所述实际查全率和置信度的计算方法为:
根据数据段选择算法,如果最终择的数据段为a,a+1,…,b,则实际参与查询的数据量为
Figure BDA0001619779980000033
则实际查全率如下式所示:
Figure BDA0001619779980000041
置信度为实际参与查询的数据量与理论上参与查询的数据量的比值,如下式所示:
Figure BDA0001619779980000042
其中,pr为置信度,f-1(Tmax)为给定查询时间Tmax内理论上参与查询的数据量。
由上述技术方案可知,本发明的有益效果在于:本发明提供的一种基于数据分布的大数据查询方法,从数据划分和数据约简两个方面改进大数据的查询效率,对用户提交的查询提供快速、近似且精度可知的查询处理。同时,该方法的构建基于加速比和势分布,保证了分布式环境下各类查询的随机性、性能和近似性评价,并兼容精确查询,且新增数据不会影响查询效果,具备良好的扩展性和可维护性。
附图说明
图1为本发明实施例提供的一种基于数据分布的大数据查询方法的流程图;
图2为本发明实施例提供的数据随机分布与基于数据分布的大数据查询方法的段势分布的对比图;
图3为本发明实施例提供的每个数据段的查询时间与数据段编号之间的关系图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施使用请求访问1998年世界杯体育赛事web网站(WorldCup98,网址为http://ita.ee.lbl.gov/html/contrib/WorldCup.html)的数据作为例,使用本发明的基于数据分布的大数据查询方法对该数据进行查询。该数据为具有多个属性值的海量数据,包括时间戳、服务器、访问者IP地址、数据请求类型等属性值。
一种基于数据分布的大数据查询方法,如图1所示,包括以下步骤:
步骤1、将待查询的数据按数据量划分为数据段,并计算整体数据段的段势分布函数,划分数据段需符合以下两条特定规律:①各数据段中的数据量满足比例关系;②划分算法具有扩展性,需同时适用于历史数据和新增数据;
步骤1.1、定义数据段;将待查询数据划分为w个数据段s1,s2,…,sw,一个数据段对应一个或多个数据块;
步骤1.2、定义段势;数据段中的数据量和待查询的数据总量之间的比值称为段势,因此,第k个数据段sk的段势为||sk||=|sk|/(|s1|+|s2|+…+|sw|),1≤k≤w,其中|sk|表示数据段sk中的数据量;编号为k的数据段的段势为
Figure BDA0001619779980000051
或(G(k)-G(k-1))/G(w),其中,函数g(x)为段势分布函数,x∈[0,w],G(x)是g(x)的原函数;
步骤1.3、根据加速比计算段势分布函数,以确定各数据段的数量比例关系,具体方法为:
分布式系统中,并行查询方法所能获得的加速比为:
Figure BDA0001619779980000052
其中,z为查询过程中可被并行处理部分的比例,(1-z)是串行处理的比例,r为并行处理节点的数量,Ts为串行处理用时,Tp为并行处理用时,θ为并行处理用时Tp相比于串行处理用时Ts的加速比;
当用户提交的查询请求给定一个时间上限,设计并行处理的查询时间Tp和数据段的编号x之间满足线性正相关,即Tp=k′×x;
若数据段中数据块分散性良好,则查询第x个数据段时并行处理节点的数量即最大并行程度如下式所示:
Figure BDA0001619779980000053
其中,N为待查询的数据总量,M为所划分的数据段中数据块大小,
Figure BDA0001619779980000054
为第x个数据段的数据量,
Figure BDA0001619779980000055
为第x个数据段的数据块个数;
查询第x个数据段时,串行数据查询算法的查询时间如下式所示:
Figure BDA0001619779980000056
其中,m、n均为正数;
对于使用特定计算模型实现的查询算法,查询过程中可被并行处理部分的比例z值已知,因此,查询第x个数据段时,并行查询方法所能获得的加速比如下式所示:
Figure BDA0001619779980000057
求解该方程得到整体数据段的段势分布函数,如下式所示:
Figure BDA0001619779980000058
其中,
Figure BDA0001619779980000059
p1~p5均为由m、n、N、M和z确定的常数。
步骤2、获取待查询的数据总量,确定数据段总数量和数据段中每个数据块大小,根据段势分布函数计算每个数据段应装载的数据量;
本实施例在一个由17个节点构成的集群上执行,其中1个管理节点,16个数据节点。17个节点都是同构的清华同方超翔Z900计算机(Inter Core-i7-7700,3.10GHz,8GB,1TB),千兆网络环境,8核处理器,CentOS 7操作系统。而基于的大数据开发平台是Hadoop,版本为2.7.1,使用MapReduce编程模型,HDFS复制因子为3,数据块大小为128MB,数据的总量为500G,设定的数据段个数为50。
本实施例中,使用的查询算法为Top-k查询,并行度z值为16,自定义k′的值为1,n的值为0,m值为1,则可以确定最终的段势分布函数,为方便计算,本实施最终采用其近似函数
Figure BDA0001619779980000061
根据段势分布函数,计算得到从第1段到第50段,数据段间的大小比例依次为:((1)3/2-0:(2)3/2-(1)3/2:(3)3/2-(2)3/2:…:(49)3/2-(48)3/2:(50)3/2-(49)3/2)。
步骤3、确定查询过程中并行处理的节点数量,做数据装载,根据计算结果将相应的数据量装载到对应的数据段内;
初次装载时,在新数据到来后,根据段势分布函数确定每个数据段应被分派的数据量,并将该部分数据装入数据段中;在后续的装载中,不考虑之前的数据装载情况,按段势分布函数将新来的数据按比例装载到数据段中;
根据步骤2的计算结果,将数据总量装载到物理节点上。装载实验结果如图2所示,在不受外界干扰的情况下,数据的分布是随机的。而采用本文的数据分配方案,即每个数据在装载前都会计算其分布在每个数据段的概率,然后再进行装载。结果表明,数据分布的结果跟段势分布函数有较高的切合度。
步骤4、判断装载后各数据段中数据量是否满足数据块的数量远大于并行处理的节点数量的约束条件,若满足,则执行步骤5,否则,执行步骤2,做数据的等待装载,直到数据块的数量远大于并行处理的节点数量;
本发明实施中,总数据量大小为500GB,每个数据块的大小为128MB,则数据块的总数量为500*1024/128=4000个,而总的节点数为16个,满足远大于的关系,即符合约束条件,则可顺序执行步骤5。
步骤5、用户提交查询请求,给定查询时间的上界Tmax
本发明实施中,Top-k查询的k值设定为10,则目标就是查询一个数据集合的前10项。提交用户的查询性能要求Tmax=300s,即需要在300s的查询时间约束下,尽可能的查询更多的数据量,提高查询精度。
步骤6、、计算第一个数据段所需要的查询时间T1
本发明实施例中,数据总量、数据总段数以及数据段之间的比例关系都已经确定,则计算第一个数据段的数据量大小为500*1024/(50)3/2=1450MB,经MapReduce编程模型的计算,得到第一个逻辑段的查询耗时是T1=35s。
步骤7、采用数据段选择算法确定参与查询的数据段;
数据段选择是指“确定包含满足查询条件的数据的所有段”的过程;段选择应保证:①具有随机性,避免反复查询同一段数据;②查询时间不大于用户给定的时间上界Tmax;③最大化查全率;④优先选择满足数据规模要求且数据段总数最少的情况进行查询;⑤被选中的所有数据段需要有相同的并行次数;
确定参与查询的数据段的具体方法为:选取编号从a到b的连续数据段内的数据作为查询数据,a值随机选取以保证数据段选择的随机性,避免段势偏小的数据段总是被查询,而段势大的数据段则难以被查询到,b的计算通过定查询时间的上界Tmax确定:
Figure BDA0001619779980000071
其中,Tx为根据数据段间的比例关系及第一个数据段的查询时间T1确定的第x个数据段所需的查询时间;当数据段的编号b≤w时,选择参与查询的数据段为
Figure BDA0001619779980000072
当数据段的编号b>w时,选择的数据段为a,a+1,…,w和
Figure BDA0001619779980000073
本实施例中,计算出第一个数据段的查询时间,就可根据数据段间的关系确定每个数据段在并行状态下的具体查询时间。此外,最小数据段(第一个数据段)的数据块为4000*(1)3/2/(50)3/2=11块,最大数据段(即第50个数据段)的数据块数为4000*((50)3/2-(49)3/2)/(50)3/2=113块。而集群的最大并行度为:节点个数*每个节点的CPU内核,即16*8=128,所以最大数据段与最小数据段都可以在一次并行处理结束,符合约束条件5。
随机选定初始段a的值为1(首次数据段选择优先选择第一个数据段起始,因为第一数据段的数据已经在步骤6进行过了计算,有执行后的结果),经数据段选择算法确定参与查询的数据段编号为1、2、3和4,这些数据段查询时间之和最接近300s且小于300s。本实施例给出如图3所示的每个数据段的查询时间与数据段编号的关系,由图可知,在并行处理的情况下,数据的分布满足设定的查询时间与数据段编号的线性比关系。
步骤8、返回查询结果,并返回实际查全率和置信度;
实际查全率和置信度的计算方法为:
根据数据段选择算法,如果最终择的数据段为a,a+1,…,b,则实际参与查询的数据量为
Figure BDA0001619779980000081
则实际查全率如下式所示:
Figure BDA0001619779980000082
置信度为实际参与查询的数据量与理论上参与查询的数据量的比值,如下式所示:
Figure BDA0001619779980000083
其中,pr为置信度,f-1(Tmax)为给定查询时间Tmax内理论上参与查询的数据量。
本发明实施例中,选择编号为1、2、3和4的数据段进行查询,返回这些数据量中用户的请求次数由高到低的前10项,实际的查全率为
Figure BDA0001619779980000084
置信度为
Figure BDA0001619779980000085
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (3)

1.一种基于数据分布的大数据查询方法,其特征在于:包括以下步骤:
步骤1、将待查询的数据按数据量划分为数据段,并计算整体数据段的段势分布函数,划分数据段需符合以下两条特定规律:①各数据段中的数据量满足比例关系;②划分算法具有扩展性,需同时适用于历史数据和新增数据;
步骤1.1、定义数据段;将待查询数据划分为w个数据段s1,s2,...,sw,一个数据段对应一个或多个数据块;
步骤1.2、定义段势;数据段中的数据量和待查询的数据总量之间的比值称为段势,因此,第k个数据段sk的段势为||Sk||=|sk|/(|s1|+|s2|+...+|sw|),1≤k≤w,其中|sk|表示数据段sk中的数据量;编号为k的数据段的段势为
Figure FDA0002337495260000011
或(G(k)-G(k-1))/G(w),其中,函数g(x)为段势分布函数,x∈[0,w],G(x)是g(x)的原函数;
步骤1.3、根据加速比计算段势分布函数,以确定各数据段的数量比例关系;
步骤2、获取待查询的数据总量,确定数据段总数量和数据段中每个数据块大小,根据段势分布函数计算每个数据段应装载的数据量;
步骤3、确定查询过程中并行处理的节点数量,做数据装载,根据计算结果将相应的数据量装载到对应的数据段内;
初次装载时,在新数据到来后,根据段势分布函数确定每个数据段应被分派的数据量,并将该部分数据装入数据段中;在后续的装载中,不考虑之前的数据装载情况,按段势分布函数将新来的数据按比例装载到数据段中;
步骤4、判断装载后各数据段中数据量是否满足数据块的数量远大于并行处理的节点数量的约束条件,若满足,则执行步骤5,否则,执行步骤2,做数据的等待装载,直到数据块的数量远大于并行处理的节点数量;
步骤5、用户提交查询请求,给定查询时间的上界Tmax
步骤6、计算第一个数据段所需要的查询时间T1
步骤7、采用数据段选择算法确定参与查询的数据段;
步骤8、返回查询结果,并返回实际查全率和置信度;
所述步骤1.3的具体方法为:
分布式系统中,并行查询方法所能获得的加速比为:
Figure FDA0002337495260000012
其中,z为查询过程中可被并行处理部分的比例,(1-z)是串行处理的比例,r为并行处理节点的数量,Ts为串行处理用时,Tp为并行处理用时,θ为并行处理用时Tp相比于串行处理用时Ts的加速比;
当用户提交的查询请求给定一个时间上限,设计并行处理的查询时间Tp和数据段的编号x之间满足线性正相关,即Tp=k′×x;
若数据段中数据块分散性良好,则查询第x个数据段时并行处理节点的数量即最大并行程度如下式所示:
Figure FDA0002337495260000021
其中,N为待查询的数据总量,M为所划分的数据段中数据块大小,
Figure FDA0002337495260000022
为第x个数据段的数据量,
Figure FDA0002337495260000023
为第x个数据段的数据块个数;
查询第x个数据段时,串行数据查询算法的查询时间如下式所示:
Figure FDA0002337495260000024
其中,m、n均为正数;
对于使用特定计算模型实现的查询算法,查询过程中可被并行处理部分的比例z值已知,因此,查询第x个数据段时,并行查询方法所能获得的加速比如下式所示:
Figure FDA0002337495260000025
求解该方程得到整体数据段的段势分布函数,如下式所示:
Figure FDA0002337495260000026
其中,
Figure FDA0002337495260000027
p1~p5均为由m、n、N、M和z确定的常数。
2.根据权利要求1所述的一种基于数据分布的大数据查询方法,其特征在于:所述步骤7的具体方法为:
数据段选择是指“确定包含满足查询条件的数据的所有段”的过程;段选择应保证:①具有随机性,避免反复查询同一段数据;②查询时间不大于用户给定的时间上界Tmax;③最大化查全率;④优先选择满足数据规模要求且数据段总数最少的情况进行查询;⑤被选中的所有数据段需要有相同的并行次数;
确定参与查询的数据段的具体方法为:选取编号从a到b的连续数据段内的数据作为查询数据,a值随机选取以保证数据段选择的随机性,避免段势偏小的数据段总是被查询,而段势大的数据段则难以被查询到,b的计算通过定查询时间的上界Tmax确定:
Figure FDA0002337495260000028
其中,Tx为根据数据段间的比例关系及第一数据段的查询时间T1确定的第x个数据段所需的查询时间;当数据段的编号b≤w时,选择参与查询的数据段为
Figure FDA0002337495260000031
当数据段的编号b>w时,选择的数据段为a,a+1,…,w和
Figure FDA0002337495260000032
3.根据权利要求1所述的一种基于数据分布的大数据查询方法,其特征在于:步骤8所述实际查全率和置信度的计算方法为:
根据数据段选择算法,如果最终择的数据段为a,a+1,...,b,则实际参与查询的数据量为
Figure FDA0002337495260000033
则实际查全率如下式所示:
Figure FDA0002337495260000034
置信度为实际参与查询的数据量与理论上参与查询的数据量的比值,如下式所示:
Figure FDA0002337495260000035
其中,pr为置信度,f-1(Tmax)为给定查询时间Tmax内理论上参与查询的数据量。
CN201810300996.6A 2018-04-04 2018-04-04 一种基于数据分布的大数据查询方法 Expired - Fee Related CN108520053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810300996.6A CN108520053B (zh) 2018-04-04 2018-04-04 一种基于数据分布的大数据查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810300996.6A CN108520053B (zh) 2018-04-04 2018-04-04 一种基于数据分布的大数据查询方法

Publications (2)

Publication Number Publication Date
CN108520053A CN108520053A (zh) 2018-09-11
CN108520053B true CN108520053B (zh) 2020-03-31

Family

ID=63431479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810300996.6A Expired - Fee Related CN108520053B (zh) 2018-04-04 2018-04-04 一种基于数据分布的大数据查询方法

Country Status (1)

Country Link
CN (1) CN108520053B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090621A (zh) * 2019-10-30 2020-05-01 苏州浪潮智能科技有限公司 一种日志获取方法、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021458A (zh) * 2016-05-16 2016-10-12 广州鼎鼎信息科技有限公司 一种云环境下的大数据快速聚合查询方法
CN107092656A (zh) * 2017-03-23 2017-08-25 中国科学院计算技术研究所 一种树状结构数据处理方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604158B1 (en) * 1999-03-11 2003-08-05 Realtime Data, Llc System and methods for accelerated data storage and retrieval

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021458A (zh) * 2016-05-16 2016-10-12 广州鼎鼎信息科技有限公司 一种云环境下的大数据快速聚合查询方法
CN107092656A (zh) * 2017-03-23 2017-08-25 中国科学院计算技术研究所 一种树状结构数据处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EXTRACTING SAMPLE DATA BASED ON POISSON DISTRIBUTION;HAO LAN ZHANG等;《Proceedings of the 2017 International Conference on Machine Learning and Cybernetics》;20170730;第374-378页 *
HiBase:一种基于分层式索引的高效HBase查询技术与系统;葛微等;《计算机学报》;20160131;第140-153页 *

Also Published As

Publication number Publication date
CN108520053A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
Chang et al. Scheduling in mapreduce-like systems for fast completion time
CN103345514B (zh) 大数据环境下的流式数据处理方法
WO2018177060A1 (zh) 查询优化方法及相关装置
CN108845874B (zh) 资源的动态分配方法及服务器
JP6429262B2 (ja) 大容量メモリ内データベース用の負荷分散
CN103631657A (zh) 一种基于MapReduce的任务调度算法
CN108416054B (zh) 基于文件访问热度的动态hdfs副本个数计算方法
CN110502323B (zh) 一种云计算任务实时调度方法
CN104063501B (zh) 基于hdfs的副本平衡方法
Tang et al. An intermediate data partition algorithm for skew mitigation in spark computing environment
CN111737168A (zh) 一种缓存系统、缓存处理方法、装置、设备及介质
CN111966495A (zh) 数据处理方法和装置
CN117056465A (zh) 一种向量搜索方法、系统、电子设备和存储介质
CN108520053B (zh) 一种基于数据分布的大数据查询方法
CN115016889A (zh) 一种用于云计算的虚拟机优化调度方法
Sreedhar et al. A survey on big data management and job scheduling
Lyu et al. Fine-grained modeling and optimization for intelligent resource management in big data processing
CN107257356B (zh) 一种基于超图分割的社交用户数据优化放置方法
CN117407921A (zh) 基于必连和勿连约束的差分隐私直方图发布方法及系统
CN117349023A (zh) 应用部署方法、设备及存储介质
Li et al. Efficient multi-attribute precedence-based task scheduling for edge computing in geo-distributed cloud environment
Guo et al. Handling data skew at reduce stage in Spark by ReducePartition
CN108491541A (zh) 一种应用于分布式的多维数据库联合查询方法及系统
CN110166279B (zh) 一种非结构化云数据管理系统的动态布局方法
Srivatsa et al. Preble: Efficient Distributed Prompt Scheduling for LLM Serving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200331

CF01 Termination of patent right due to non-payment of annual fee