CN108520053B - 一种基于数据分布的大数据查询方法 - Google Patents
一种基于数据分布的大数据查询方法 Download PDFInfo
- Publication number
- CN108520053B CN108520053B CN201810300996.6A CN201810300996A CN108520053B CN 108520053 B CN108520053 B CN 108520053B CN 201810300996 A CN201810300996 A CN 201810300996A CN 108520053 B CN108520053 B CN 108520053B
- Authority
- CN
- China
- Prior art keywords
- data
- segment
- query
- segments
- data segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000009826 distribution Methods 0.000 title claims abstract description 22
- 238000005315 distribution function Methods 0.000 claims abstract description 25
- 230000001133 acceleration Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 7
- JXASPPWQHFOWPL-UHFFFAOYSA-N Tamarixin Natural products C1=C(O)C(OC)=CC=C1C1=C(OC2C(C(O)C(O)C(CO)O2)O)C(=O)C2=C(O)C=C(O)C=C2O1 JXASPPWQHFOWPL-UHFFFAOYSA-N 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于数据分布的大数据查询方法,涉及大数据查询技术领域。一种基于数据分布的大数据查询方法,首先对待查询的数据划分数据段,并根据加速比计算整体数据段的段势分布函数,以确定各数据段的数量比例关系;然后根据约束条件将待查询数据装载到各数据段内;最后根据用户查询请求的时限要求,采用数据段选择算法确定参与查询的数据段,并返回查询结果及实际查全率和置信度。本发明提供的基于数据分布的大数据查询方法,保证了分布式环境下各类查询的随机性、性能和近似性评价,并兼容精确查询,且新增数据不会影响查询效果,具备良好的扩展性和可维护性。
Description
技术领域
本发明涉及大数据查询技术领域,尤其涉及一种基于数据分布的大数据查询方法。
背景技术
人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据(Big Data)时代。面对如此庞大的数据量,如何能在可容忍的时间范围内找到目标数据至关重要。
早期对查询处理技术的研究主要集中在对精确查询的优化与调度,而且已取得大量成果。但是如果当今仍然采用传统精确的查询技术处理海量数据,一方面查询算法难以进一步优化,另一方面精确查询任务将会显得极其繁重,从而导致整个查询的响应时间超过用户可以接受的限度。此外,缩小搜索范围(Search Scope)是优化查询的主要思路,传统的数据分区和索引技术可以精确的缩小搜索范围,提高查询命中率,然而这些技术都依赖数据值域的良好划分和精细的数据结构,在大数据环境中维护一个精确的数据分区和索引的代价很高。如果能在海量数据中找到自己想要的、非重复的结果且拥有一个理想的响应时间,那么对于解决当代社会的许多关键问题都有帮助。
很多实际应用中,人们并不需要精确的查询结果,仅需要满足一定精度要求的近似的查询结果,或可以适当损失查询精度来满足性能要求。如人们在机场通过GPS定位服务寻找附近几个最近的餐馆时,他们并不需求非常精确的数据,相反他们对响应时间的要求会更高。对于一般查询,查准率比查全率更为重要,如用户能够容忍查询返回的餐馆并非匹配条件的所有餐馆,但难以接受查询结果中包含不匹配查询条件的餐馆,这一点在大数据查询中尤为明显。
发明内容
针对现有技术的缺陷,本发明提供一种基于数据分布的大数据查询方法,通过约简搜索范围来提高查询性能。
一种基于数据分布的大数据查询方法,包括以下步骤:
步骤1、将待查询的数据按数据量划分为数据段,并计算整体数据段的段势分布函数,划分数据段需符合以下两条特定规律:①各数据段中的数据量满足比例关系;②划分算法具有扩展性,需同时适用于历史数据和新增数据;
步骤1.1、定义数据段;将待查询数据划分为w个数据段s1,s2,…,sw,一个数据段对应一个或多个数据块;
步骤1.2、定义段势;数据段中的数据量和待查询的数据总量之间的比值称为段势,因此,第k个数据段sk的段势为||sk||=|sk|/(|s1|+|s2|+…+|sw|),1≤k≤w,其中|sk|表示数据段sk中的数据量;编号为k的数据段的段势为或(G(k)-G(k-1))/G(w),其中,函数g(x)为段势分布函数,x∈[0,w],G(x)是g(x)的原函数;
步骤1.3、根据加速比计算段势分布函数,以确定各数据段的数量比例关系,具体方法为:
分布式系统中,并行查询方法所能获得的加速比为:
其中,z为查询过程中可被并行处理部分的比例,(1-z)是串行处理的比例,r为并行处理节点的数量,Ts为串行处理用时,Tp为并行处理用时,θ为并行处理用时Tp相比于串行处理用时Ts的加速比;
当用户提交的查询请求给定一个时间上限,设计并行处理的查询时间Tp和数据段的编号x之间满足线性正相关,即Tp=k′×x;
若数据段中数据块分散性良好,则查询第x个数据段时并行处理节点的数量即最大并行程度如下式所示:
查询第x个数据段时,串行数据查询算法的查询时间如下式所示:
其中,m、n均为正数;
对于使用特定计算模型实现的查询算法,查询过程中可被并行处理部分的比例z值已知,因此,查询第x个数据段时,并行查询方法所能获得的加速比如下式所示:
求解该方程得到整体数据段的段势分布函数,如下式所示:
步骤2、获取待查询的数据总量,确定数据段总数量和数据段中每个数据块大小,根据段势分布函数计算每个数据段应装载的数据量;
步骤3、确定查询过程中并行处理的节点数量,做数据装载,根据计算结果将相应的数据量装载到对应的数据段内;
初次装载时,在新数据到来后,根据段势分布函数确定每个数据段应被分派的数据量,并将该部分数据装入数据段中;在后续的装载中,不考虑之前的数据装载情况,按段势分布函数将新来的数据按比例装载到数据段中;
步骤4、判断装载后各数据段中数据量是否满足数据块的数量远大于并行处理的节点数量的约束条件,若满足,则执行步骤5,否则,执行步骤2,做数据的等待装载,直到数据块的数量远大于并行处理的节点数量;
步骤5、用户提交查询请求,给定查询时间的上界Tmax;
步骤6、计算第一个数据段所需要的查询时间T1;
步骤7、采用数据段选择算法确定参与查询的数据段,具体方法为:
数据段选择是指“确定包含满足查询条件的数据的所有段”的过程;段选择应保证:①具有随机性,避免反复查询同一段数据;②查询时间不大于用户给定的时间上界Tmax;③最大化查全率;④优先选择满足数据规模要求且数据段总数最少的情况进行查询;⑤被选中的所有数据段需要有相同的并行次数;
确定参与查询的数据段的具体方法为:选取编号从a到b的连续数据段内的数据作为查询数据,a值随机选取以保证数据段选择的随机性,避免段势偏小的数据段总是被查询,而段势大的数据段则难以被查询到,b的计算通过定查询时间的上界Tmax确定:其中,Tx为根据数据段间的比例关系及第一个数据段的查询时间T1确定的第x个数据段所需的查询时间;当数据段的编号b≤w时,选择参与查询的数据段为当数据段的编号b>w时,选择的数据段为a,a+1,…,w和
步骤8、返回查询结果,并返回实际查全率和置信度;
所述实际查全率和置信度的计算方法为:
置信度为实际参与查询的数据量与理论上参与查询的数据量的比值,如下式所示:
其中,pr为置信度,f-1(Tmax)为给定查询时间Tmax内理论上参与查询的数据量。
由上述技术方案可知,本发明的有益效果在于:本发明提供的一种基于数据分布的大数据查询方法,从数据划分和数据约简两个方面改进大数据的查询效率,对用户提交的查询提供快速、近似且精度可知的查询处理。同时,该方法的构建基于加速比和势分布,保证了分布式环境下各类查询的随机性、性能和近似性评价,并兼容精确查询,且新增数据不会影响查询效果,具备良好的扩展性和可维护性。
附图说明
图1为本发明实施例提供的一种基于数据分布的大数据查询方法的流程图;
图2为本发明实施例提供的数据随机分布与基于数据分布的大数据查询方法的段势分布的对比图;
图3为本发明实施例提供的每个数据段的查询时间与数据段编号之间的关系图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施使用请求访问1998年世界杯体育赛事web网站(WorldCup98,网址为http://ita.ee.lbl.gov/html/contrib/WorldCup.html)的数据作为例,使用本发明的基于数据分布的大数据查询方法对该数据进行查询。该数据为具有多个属性值的海量数据,包括时间戳、服务器、访问者IP地址、数据请求类型等属性值。
一种基于数据分布的大数据查询方法,如图1所示,包括以下步骤:
步骤1、将待查询的数据按数据量划分为数据段,并计算整体数据段的段势分布函数,划分数据段需符合以下两条特定规律:①各数据段中的数据量满足比例关系;②划分算法具有扩展性,需同时适用于历史数据和新增数据;
步骤1.1、定义数据段;将待查询数据划分为w个数据段s1,s2,…,sw,一个数据段对应一个或多个数据块;
步骤1.2、定义段势;数据段中的数据量和待查询的数据总量之间的比值称为段势,因此,第k个数据段sk的段势为||sk||=|sk|/(|s1|+|s2|+…+|sw|),1≤k≤w,其中|sk|表示数据段sk中的数据量;编号为k的数据段的段势为或(G(k)-G(k-1))/G(w),其中,函数g(x)为段势分布函数,x∈[0,w],G(x)是g(x)的原函数;
步骤1.3、根据加速比计算段势分布函数,以确定各数据段的数量比例关系,具体方法为:
分布式系统中,并行查询方法所能获得的加速比为:
其中,z为查询过程中可被并行处理部分的比例,(1-z)是串行处理的比例,r为并行处理节点的数量,Ts为串行处理用时,Tp为并行处理用时,θ为并行处理用时Tp相比于串行处理用时Ts的加速比;
当用户提交的查询请求给定一个时间上限,设计并行处理的查询时间Tp和数据段的编号x之间满足线性正相关,即Tp=k′×x;
若数据段中数据块分散性良好,则查询第x个数据段时并行处理节点的数量即最大并行程度如下式所示:
查询第x个数据段时,串行数据查询算法的查询时间如下式所示:
其中,m、n均为正数;
对于使用特定计算模型实现的查询算法,查询过程中可被并行处理部分的比例z值已知,因此,查询第x个数据段时,并行查询方法所能获得的加速比如下式所示:
求解该方程得到整体数据段的段势分布函数,如下式所示:
步骤2、获取待查询的数据总量,确定数据段总数量和数据段中每个数据块大小,根据段势分布函数计算每个数据段应装载的数据量;
本实施例在一个由17个节点构成的集群上执行,其中1个管理节点,16个数据节点。17个节点都是同构的清华同方超翔Z900计算机(Inter Core-i7-7700,3.10GHz,8GB,1TB),千兆网络环境,8核处理器,CentOS 7操作系统。而基于的大数据开发平台是Hadoop,版本为2.7.1,使用MapReduce编程模型,HDFS复制因子为3,数据块大小为128MB,数据的总量为500G,设定的数据段个数为50。
本实施例中,使用的查询算法为Top-k查询,并行度z值为16,自定义k′的值为1,n的值为0,m值为1,则可以确定最终的段势分布函数,为方便计算,本实施最终采用其近似函数根据段势分布函数,计算得到从第1段到第50段,数据段间的大小比例依次为:((1)3/2-0:(2)3/2-(1)3/2:(3)3/2-(2)3/2:…:(49)3/2-(48)3/2:(50)3/2-(49)3/2)。
步骤3、确定查询过程中并行处理的节点数量,做数据装载,根据计算结果将相应的数据量装载到对应的数据段内;
初次装载时,在新数据到来后,根据段势分布函数确定每个数据段应被分派的数据量,并将该部分数据装入数据段中;在后续的装载中,不考虑之前的数据装载情况,按段势分布函数将新来的数据按比例装载到数据段中;
根据步骤2的计算结果,将数据总量装载到物理节点上。装载实验结果如图2所示,在不受外界干扰的情况下,数据的分布是随机的。而采用本文的数据分配方案,即每个数据在装载前都会计算其分布在每个数据段的概率,然后再进行装载。结果表明,数据分布的结果跟段势分布函数有较高的切合度。
步骤4、判断装载后各数据段中数据量是否满足数据块的数量远大于并行处理的节点数量的约束条件,若满足,则执行步骤5,否则,执行步骤2,做数据的等待装载,直到数据块的数量远大于并行处理的节点数量;
本发明实施中,总数据量大小为500GB,每个数据块的大小为128MB,则数据块的总数量为500*1024/128=4000个,而总的节点数为16个,满足远大于的关系,即符合约束条件,则可顺序执行步骤5。
步骤5、用户提交查询请求,给定查询时间的上界Tmax;
本发明实施中,Top-k查询的k值设定为10,则目标就是查询一个数据集合的前10项。提交用户的查询性能要求Tmax=300s,即需要在300s的查询时间约束下,尽可能的查询更多的数据量,提高查询精度。
步骤6、、计算第一个数据段所需要的查询时间T1;
本发明实施例中,数据总量、数据总段数以及数据段之间的比例关系都已经确定,则计算第一个数据段的数据量大小为500*1024/(50)3/2=1450MB,经MapReduce编程模型的计算,得到第一个逻辑段的查询耗时是T1=35s。
步骤7、采用数据段选择算法确定参与查询的数据段;
数据段选择是指“确定包含满足查询条件的数据的所有段”的过程;段选择应保证:①具有随机性,避免反复查询同一段数据;②查询时间不大于用户给定的时间上界Tmax;③最大化查全率;④优先选择满足数据规模要求且数据段总数最少的情况进行查询;⑤被选中的所有数据段需要有相同的并行次数;
确定参与查询的数据段的具体方法为:选取编号从a到b的连续数据段内的数据作为查询数据,a值随机选取以保证数据段选择的随机性,避免段势偏小的数据段总是被查询,而段势大的数据段则难以被查询到,b的计算通过定查询时间的上界Tmax确定:其中,Tx为根据数据段间的比例关系及第一个数据段的查询时间T1确定的第x个数据段所需的查询时间;当数据段的编号b≤w时,选择参与查询的数据段为当数据段的编号b>w时,选择的数据段为a,a+1,…,w和
本实施例中,计算出第一个数据段的查询时间,就可根据数据段间的关系确定每个数据段在并行状态下的具体查询时间。此外,最小数据段(第一个数据段)的数据块为4000*(1)3/2/(50)3/2=11块,最大数据段(即第50个数据段)的数据块数为4000*((50)3/2-(49)3/2)/(50)3/2=113块。而集群的最大并行度为:节点个数*每个节点的CPU内核,即16*8=128,所以最大数据段与最小数据段都可以在一次并行处理结束,符合约束条件5。
随机选定初始段a的值为1(首次数据段选择优先选择第一个数据段起始,因为第一数据段的数据已经在步骤6进行过了计算,有执行后的结果),经数据段选择算法确定参与查询的数据段编号为1、2、3和4,这些数据段查询时间之和最接近300s且小于300s。本实施例给出如图3所示的每个数据段的查询时间与数据段编号的关系,由图可知,在并行处理的情况下,数据的分布满足设定的查询时间与数据段编号的线性比关系。
步骤8、返回查询结果,并返回实际查全率和置信度;
实际查全率和置信度的计算方法为:
置信度为实际参与查询的数据量与理论上参与查询的数据量的比值,如下式所示:
其中,pr为置信度,f-1(Tmax)为给定查询时间Tmax内理论上参与查询的数据量。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (3)
1.一种基于数据分布的大数据查询方法,其特征在于:包括以下步骤:
步骤1、将待查询的数据按数据量划分为数据段,并计算整体数据段的段势分布函数,划分数据段需符合以下两条特定规律:①各数据段中的数据量满足比例关系;②划分算法具有扩展性,需同时适用于历史数据和新增数据;
步骤1.1、定义数据段;将待查询数据划分为w个数据段s1,s2,...,sw,一个数据段对应一个或多个数据块;
步骤1.2、定义段势;数据段中的数据量和待查询的数据总量之间的比值称为段势,因此,第k个数据段sk的段势为||Sk||=|sk|/(|s1|+|s2|+...+|sw|),1≤k≤w,其中|sk|表示数据段sk中的数据量;编号为k的数据段的段势为或(G(k)-G(k-1))/G(w),其中,函数g(x)为段势分布函数,x∈[0,w],G(x)是g(x)的原函数;
步骤1.3、根据加速比计算段势分布函数,以确定各数据段的数量比例关系;
步骤2、获取待查询的数据总量,确定数据段总数量和数据段中每个数据块大小,根据段势分布函数计算每个数据段应装载的数据量;
步骤3、确定查询过程中并行处理的节点数量,做数据装载,根据计算结果将相应的数据量装载到对应的数据段内;
初次装载时,在新数据到来后,根据段势分布函数确定每个数据段应被分派的数据量,并将该部分数据装入数据段中;在后续的装载中,不考虑之前的数据装载情况,按段势分布函数将新来的数据按比例装载到数据段中;
步骤4、判断装载后各数据段中数据量是否满足数据块的数量远大于并行处理的节点数量的约束条件,若满足,则执行步骤5,否则,执行步骤2,做数据的等待装载,直到数据块的数量远大于并行处理的节点数量;
步骤5、用户提交查询请求,给定查询时间的上界Tmax;
步骤6、计算第一个数据段所需要的查询时间T1;
步骤7、采用数据段选择算法确定参与查询的数据段;
步骤8、返回查询结果,并返回实际查全率和置信度;
所述步骤1.3的具体方法为:
分布式系统中,并行查询方法所能获得的加速比为:
其中,z为查询过程中可被并行处理部分的比例,(1-z)是串行处理的比例,r为并行处理节点的数量,Ts为串行处理用时,Tp为并行处理用时,θ为并行处理用时Tp相比于串行处理用时Ts的加速比;
当用户提交的查询请求给定一个时间上限,设计并行处理的查询时间Tp和数据段的编号x之间满足线性正相关,即Tp=k′×x;
若数据段中数据块分散性良好,则查询第x个数据段时并行处理节点的数量即最大并行程度如下式所示:
查询第x个数据段时,串行数据查询算法的查询时间如下式所示:
其中,m、n均为正数;
对于使用特定计算模型实现的查询算法,查询过程中可被并行处理部分的比例z值已知,因此,查询第x个数据段时,并行查询方法所能获得的加速比如下式所示:
求解该方程得到整体数据段的段势分布函数,如下式所示:
2.根据权利要求1所述的一种基于数据分布的大数据查询方法,其特征在于:所述步骤7的具体方法为:
数据段选择是指“确定包含满足查询条件的数据的所有段”的过程;段选择应保证:①具有随机性,避免反复查询同一段数据;②查询时间不大于用户给定的时间上界Tmax;③最大化查全率;④优先选择满足数据规模要求且数据段总数最少的情况进行查询;⑤被选中的所有数据段需要有相同的并行次数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810300996.6A CN108520053B (zh) | 2018-04-04 | 2018-04-04 | 一种基于数据分布的大数据查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810300996.6A CN108520053B (zh) | 2018-04-04 | 2018-04-04 | 一种基于数据分布的大数据查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108520053A CN108520053A (zh) | 2018-09-11 |
CN108520053B true CN108520053B (zh) | 2020-03-31 |
Family
ID=63431479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810300996.6A Expired - Fee Related CN108520053B (zh) | 2018-04-04 | 2018-04-04 | 一种基于数据分布的大数据查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108520053B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090621A (zh) * | 2019-10-30 | 2020-05-01 | 苏州浪潮智能科技有限公司 | 一种日志获取方法、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021458A (zh) * | 2016-05-16 | 2016-10-12 | 广州鼎鼎信息科技有限公司 | 一种云环境下的大数据快速聚合查询方法 |
CN107092656A (zh) * | 2017-03-23 | 2017-08-25 | 中国科学院计算技术研究所 | 一种树状结构数据处理方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6604158B1 (en) * | 1999-03-11 | 2003-08-05 | Realtime Data, Llc | System and methods for accelerated data storage and retrieval |
-
2018
- 2018-04-04 CN CN201810300996.6A patent/CN108520053B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021458A (zh) * | 2016-05-16 | 2016-10-12 | 广州鼎鼎信息科技有限公司 | 一种云环境下的大数据快速聚合查询方法 |
CN107092656A (zh) * | 2017-03-23 | 2017-08-25 | 中国科学院计算技术研究所 | 一种树状结构数据处理方法及系统 |
Non-Patent Citations (2)
Title |
---|
EXTRACTING SAMPLE DATA BASED ON POISSON DISTRIBUTION;HAO LAN ZHANG等;《Proceedings of the 2017 International Conference on Machine Learning and Cybernetics》;20170730;第374-378页 * |
HiBase:一种基于分层式索引的高效HBase查询技术与系统;葛微等;《计算机学报》;20160131;第140-153页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108520053A (zh) | 2018-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chang et al. | Scheduling in mapreduce-like systems for fast completion time | |
CN103345514B (zh) | 大数据环境下的流式数据处理方法 | |
WO2018177060A1 (zh) | 查询优化方法及相关装置 | |
CN108845874B (zh) | 资源的动态分配方法及服务器 | |
JP6429262B2 (ja) | 大容量メモリ内データベース用の負荷分散 | |
CN103631657A (zh) | 一种基于MapReduce的任务调度算法 | |
CN108416054B (zh) | 基于文件访问热度的动态hdfs副本个数计算方法 | |
CN110502323B (zh) | 一种云计算任务实时调度方法 | |
CN104063501B (zh) | 基于hdfs的副本平衡方法 | |
Tang et al. | An intermediate data partition algorithm for skew mitigation in spark computing environment | |
CN111737168A (zh) | 一种缓存系统、缓存处理方法、装置、设备及介质 | |
CN111966495A (zh) | 数据处理方法和装置 | |
CN117056465A (zh) | 一种向量搜索方法、系统、电子设备和存储介质 | |
CN108520053B (zh) | 一种基于数据分布的大数据查询方法 | |
CN115016889A (zh) | 一种用于云计算的虚拟机优化调度方法 | |
Sreedhar et al. | A survey on big data management and job scheduling | |
Lyu et al. | Fine-grained modeling and optimization for intelligent resource management in big data processing | |
CN107257356B (zh) | 一种基于超图分割的社交用户数据优化放置方法 | |
CN117407921A (zh) | 基于必连和勿连约束的差分隐私直方图发布方法及系统 | |
CN117349023A (zh) | 应用部署方法、设备及存储介质 | |
Li et al. | Efficient multi-attribute precedence-based task scheduling for edge computing in geo-distributed cloud environment | |
Guo et al. | Handling data skew at reduce stage in Spark by ReducePartition | |
CN108491541A (zh) | 一种应用于分布式的多维数据库联合查询方法及系统 | |
CN110166279B (zh) | 一种非结构化云数据管理系统的动态布局方法 | |
Srivatsa et al. | Preble: Efficient Distributed Prompt Scheduling for LLM Serving |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200331 |
|
CF01 | Termination of patent right due to non-payment of annual fee |