CN101183368A - 联机分析处理中分布式计算及查询海量数据的方法和系统 - Google Patents

联机分析处理中分布式计算及查询海量数据的方法和系统 Download PDF

Info

Publication number
CN101183368A
CN101183368A CNA2007100321572A CN200710032157A CN101183368A CN 101183368 A CN101183368 A CN 101183368A CN A2007100321572 A CNA2007100321572 A CN A2007100321572A CN 200710032157 A CN200710032157 A CN 200710032157A CN 101183368 A CN101183368 A CN 101183368A
Authority
CN
China
Prior art keywords
data
task
node
map
cube
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007100321572A
Other languages
English (en)
Other versions
CN101183368B (zh
Inventor
奚建清
游进国
陈虎
张平建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN200710032157A priority Critical patent/CN101183368B/zh
Publication of CN101183368A publication Critical patent/CN101183368A/zh
Application granted granted Critical
Publication of CN101183368B publication Critical patent/CN101183368B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了联机分析处理中分布式计算及查询海量数据的方法和系统,该方法采用集群系统对数据立方体进行分布式的预计算以及查询。本发明基于MapReduce框架,通过MapReduce对大容量数据集进行分块并分发到各个节点上,然后节点上的Map任务对每个数据块计算出一个相应的本地封闭立方体,最后启动不同节点上Map任务对各个本地封闭立方体进行并行查询,Reduce任务再合并查询出来的度量值。本发明能够简单而有效地对大容量数据进行联机分析处理的预计算及查询,较大地压缩了数据立方体的存储空间,并能够较快响应用户的查询。

Description

联机分析处理中分布式计算及查询海量数据的方法和系统
技术领域
本发明涉及联机分析处理(OLAP)中分布式预计算及查询的方法及系统,尤其是针对海量数据的OLAP处理。
背景技术
OLAP是近年来研究的热点,它以维度模型,即数据立方体为核心,以分析为目标,通过预聚合的技术为用户提供多视角的在线数据分析。然而随着Internet的不断发展和用户需求的日益复杂性,高维以及大容量数据将会使数据立方体产生信息爆炸,如何对其有效地压缩并快速计算,已成为OLAP面临的一大挑战。
当前研究者提出了许多数据立方体压缩算法。Yannis Sismanis等人在2002年提出Dwarf Cube,该方法通过识别相同前缀和相同后缀来消除空间冗余。Laks V.S.Lakshmanany、Jian Pei等2002年提出了Quotient Cube方法,其将度量相等,且具有上卷下钻语义的一组单元无损压缩成该组中的有且仅有一个的上界,并采用自底向上,深度优先的DFS算法计算出上界集。其后Dong Xin等人于2006年称Quotient Cube为更有直观意义的封闭立方体,即closed cube,相应上界称为封闭单元,并且提出基于度量的方法有效进行单元封闭性判断,即C-Cubing。以上算法主要是基于共享元组思想对数据立方体进行压缩,而view selection、iceberg等采用了部分物化策略。然而它们大多数基于如下假设:单机处理,内存无限。面临大容量数据,这些算法却没有提出一个有效的方法和系统。shell fragments垂直分割高维数据集为多个低维数据集,即fragments,然而却没有研究怎样对fragments并行或分布式处理;cgmCUBE项目研究并行的数据立方体计算,但它采用的pipesort算法没有对数据立方体压缩,因而十分消耗空间占用,并且它是针对ROLAP(Relational OLAP)。存储模式,并不是本发明要处理的MOLAP(Multidimensional OLAP)存储模式。MapReduce是最近在并行处理领域中提出的一种实现分布式计算任务的通用框架或编程模式,它简化了由普通机器组成的超大集群上数据处理任务;在该框架中,用户只需要把主要精力专注于怎样实现map和reduce这两个函数来满足业务需求,而像数据切割、任务调度、结点通讯、系统容错等通用功能由MapReduce自动完成。然而当前文献没有研究利用MapReduce如何处理数据立方体的计算和查询任务,以及Map和Reduce的任务个数多少时,能使数据立方体取得存储空间和查询时间上的平衡。
综合上述,当前针对大容量数据集简单而有效的OLAP计算仍需要进一步的研究和改进,不仅要对数据立方体做进一步的压缩,而且要求查询响应速度快。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种联机分析处理中分布式计算及查询海量数据的方法和系统,即基于MapReduce的封闭立方体的分布式预计算和查询。
封闭立方体(closed cube)是迄今为止,已知最好的数据立方体压缩算法。它在最大压缩数据空间的同时还保留了数据单元间上卷下钻的语义关联信息。本发明提供的方法中将封闭立方体的预计算和查询在MapReduce下分布式处理。
本发明提供的方法包括如下步骤:
1)根据用户指定对空间存储和查询时间的需求,计算出合适的Map任务个数;
2)MapReduce对要计算的大容量数据集进行分块,每块的大小等于该数据集的大小除以Map任务的个数,并将数据块分发到节点上;
3)节点上的Map任务对其数据块计算并输出一个本地封闭立方体;
4)用户请求查询,MapReduce将该查询提交到节点上的Map任务;
5)Map任务对该节点上的本地封闭立方体进行查询,并返回对应的度量值;
6)Reduce任务将各个返回的度量值聚合为一个值交给用户。
上述数据块的个数等于所述Map任务的个数。
上述本地封闭立方体与所述其数据块是一一对应的,一个数据块只生成一个封闭立方体;一个封闭立方体也只来自一个数据块。
上述方法中,所有本地封闭立方体总的大小由预计算Map任务的个数决定,并随着所述预计算Map任务的增加而减小,直至所有本地封闭立方体总的大小等于所述数据集的大小。所述本地封闭立方体并不合并成一个全局的封闭立方体,从而可以获得更大的压缩率;
实现上述方法的系统,该系统包括名字节点和数据节点,所述名字节点进行数据分块,分发数据块到各节点,并读写数据块,管理数据节点,并进行分布式计算任务的划分和调度;所述数据节点保存数据块,处理Map计算任务以及Reduce计算任务。
所述系统根据用户指定对空间存储和查询时间的需求,从而计算出所述Map计算任务的个数,即也是所述数据分块的个数,相应的也决定了将要产生的所有本地封闭立方体的个数。
与现有技术相比,本发明具有如下有益效果:
这些预计算产生的本地封闭立方体并不合并成一个全局的封闭立方体。由于在子集中不封闭的数据单元可能在全集上封闭,全集上计算的封闭立方体也就比本地封闭立方体的容量总和要大得多,因此可以大大地压缩数据立方体占用的存储空间。进一步地,Map任务个数越多,本地封闭立方体的个数也越多,从而本地封闭立方体总的大小就越小(其范围在原始数据集大小和原始数据集产生的一个全局的封闭立方体之间)。尽管本地封闭立方体总的大小减少,但查询时间一般会相应增加。如果令T代表用户对查询响应时间的要求,S代表用户对存储容量的要求,则Map任务的个数n=kT/S,其中k是常数,来白实际经验值。通过指定适当的Map任务个数,可以获得较大的压缩率,同时查询是在节点上并行处理,返回的结果很小,使得节点间的通讯开销也很小,因此能获得较快的查询响应。
本发明将封闭立方体计算由单机少量数据处理能力扩展到基于集群的大容量数据处理,并在有效地压缩数据立方体的同时,能够充分利用MapReduce带来的实现简易性和可用性。
附图说明
图1为本发明的联机分析处理在集群上分布式计算的系统结构示意图;
图2为本发明在集群上处理大容量数据集过程的示意图;
图3为本发明提供的方法的分布式预计算过程示意图;
图4为本发明的方法的分布式查询过程示意图。
图中,M代表Map计算任务,R代表Reduce计算任务。
具体实施方式
下面结合附图对本发明的实施方式作进一步说明,但本发明不限于此。
如图1所示,本发明采用的集群系统结构主要分为名字节点和数据节点。名字节点进行数据分块,分发数据块到各节点,并读写数据块,即管理数据节点,并进行分布式计算任务的调度;数据节点保存数据块,处理Map计算任务以及Reduce计算任务。
如图2所示,本发明在如图1所示的集群系统上处理大容量数据集过程为:
1)MapReduce对要计算的大容量数据集进行分块,每块的大小等于该数据集的大小除以Map任务的个数,并将数据块分发到节点上;
2)节点上的Map任务对其数据块计算并输出一个本地封闭立方体;
3)用户请求查询(如:一系列的点查询),MapReduce将该查询提交到节点上的Map任务;
4)Map任务对该节点上的本地封闭立方体进行查询,并返回对应的本地结果集,其形式是:(查询点:度量值);
5)这些本地结果集以查询点为键进行分区,形成一系列查询结果列表,其形式是(查询点:度量值列表);
6)对于一个查询结果列表,Reduce任务将该列表中各个返回的度量值聚合为一个值交给用户。
具体而言,如图3所示的分布式预计算,其只有Map任务,Reduce任务只是简单地将中间键值对,即本地封闭立方体输出。Map任务的输入输出定义如下:
Map输入:(分块号,分块内容);
Map输出:(分块号,本地封闭立方体内容)。
处理流程:
1)系统首先通过MapReduce把基本表数据集(即全集)水平平均分割为n份数据块,并分发到集群上不同的可用节点上;
2)节点对其数据块产生一个Map任务,其以分块号作为输入键,数据块内容作为输入值;
3)Map任务采用DFS算法计算出一个本地的封闭立方体,并以分块号作为中间键,本地封闭立方体数据作为中间值输出到可用节点上;
4)节点产生Reduce任务,其只是简单地将中间键值对输出,并且一个分块号对应一个最终的文件,以保存一个本地封闭立方体数据。
在图3中,用户需要计算一个数据集,该数据集有三个维度属性,一个度量属性,其元组集为:{(a1 b1 c1:6),(a2 b1 c2:9),(a1 b2 c1:12),(a1b3 c3:10),(a1 b1 c4:20)},其被MapReduce分割为三个数据块:{(a1 b1c1:6),(a2 b1 c2:9)},{(a1 b2 c1:12)},{(a1 b3 c3:10),(a1 b1 c4:20)}。这三个数据块被分发到三个不同的节点,并作为对应节点上的Map任务的输入被分别计算和输出三个封闭立方体,如表1所示:
                                     表1
Map输入 Map输出
blk0:[a1 b1 c1:6),(a1 b1 c2:9)] blk0:[(a1 b1 c1:6),(a2 b1 c2:9),(* b1 *:15)]
Blk1:[(a1 b2 c1:12)] blk1:[(a1 b2 c1:12)]
Blk2:[(a1 b3 c3:10),(a1 b1 c4:20)] blk2:[(a1 b3 c3:10),(a1 b1 c4:20),(a1 **:30)]
接着如图4所示,当用户提交多个查询时,本发明进行分布式查询过程。其中Map任务的输入和输出定义如下:
Map输入:(分块号,本地封闭立方体内容,查询点列表);
Map输出:(查询点,度量值)。
而Reduce任务的输入和输出定义如下:
Reduce输入:(查询点,度量值列表);
Reduce输出:(查询点,聚合的度量值)。
处理流程:
1)用户向系统提交多个点查询请求;
2)系统以分块号为键,<本地封闭立方体内容,查询点列表>为值将本地封闭立方体文件分发到节点;
3)节点上的Map任务对本地封闭立方体采用分层查询算法进行快速查询,并将查询点作为中间键,该点对应的度量为中间值输出;
4)在MapReduce对中间键进行排序分组后,Reduce任务对该查询点对应的一系列度量值聚集成一个度量值,并将该查询点作为输出键,该度量值作为输出值输出给用户。
在图4中,用户需要对该数据集查询(a1 * *:?)、(* b1 *:?),本发明首先将不同本地封闭立方体以及该查询分发到不同节点上,随后节点上的Map任务对其相应的本地封闭立方体查询(al * *)以及(* b1 *),并以(al * *)作为中间键,(a1 * *)对应的度量值作为中间值,以及(* b1 *)作为中间键,(* b1 *)对应的度量值作为中间值返回。MapReduce接着将以(a1 * *)为键的度量值分为一组,以及以(* b1 *)为键的度量值分为一组,即得到(a1 * *):(6,12,30)以及(* b1 *):(15,20)。最后Reduce将(a1 * *)下的度量值聚合为48。(* b1 *)下的度量值聚合为35。在该分布式查询过程中,Map输入输出如表2所示。
                             表2
Map输入   Map输出
blk0:{[(al bl c1:6),(a2 b1 c2:9),(* b1*:15)],[(a1 * *)],[(* b1 *)]}   (a1 * *:6(* b1 *):15
blk1:{[a1 b2 c1:12)],[(a1 * *)],[(* b1 *)]}   (a1 * *):12
blk2:{[(a1 b3 c3:10),(a1 b1 c4:20),(a1**:30)],[(a1**)],[(*b1*)]}   (a1 * *:30(* b1 *):20
Reduce输入输出如表3所示。
表3
Reduce输入 Reduce输出
(a1 * *):(6,12,30) (a1 * *:(48)
(* b1 *):(15,20) (* b1 *):(35)
正如图4所示,由于是在节点上并行地进行查询,并且在节点上的通讯开销较小,因此可以获得较快的查询速度。

Claims (5)

1.联机分析处理中分布式计算及查询海量数据的方法,该方法基于MapReduce框架,其特征在于包括如下步骤:
(1)根据用户指定对空间存储和查询时间的需求,计算出Map任务个数;
(2)MapReduce对要计算的大容量数据集进行分块,并将数据块分发到节点上;
(3)节点上的Map任务对其数据块计算并输出一个本地封闭立方体;
(4)用户请求查询,MapReduce将该查询提交到节点上的Map任务;
(5)Map任务对该节点上的本地封闭立方体进行查询,并返回对应的度量值;
(6)Reduce任务将各个返回的度量值聚合为一个值交给用户。
2.根据权利要求1所述的方法,其特征在于:所述数据块的个数等于所述Map任务的个数。
3.根据权利要求2所述的方法,其特征在于:所述本地封闭立方体与所述数据块是一一对应的,一个数据块只生成一个封闭立方体;一个封闭立方体也只来自一个数据块。
4.根据权利要求3所述的方法,其特征在于:所有所述本地封闭立方体总的大小由预计算Map任务的个数决定,并随着所述预计算Map任务的增加而减小,直至所有本地封闭立方体总的大小等于所述数据集的大小。
5.实现权利要求1~4任一项所述方法的系统,其特征在于:所述系统包括名字节点和数据节点,所述名字节点进行数据分块,分发数据块到各节点,并读写数据块,管理数据节点,并进行分布式计算任务的划分和调度;所述数据节点保存数据块,处理Map计算任务以及Reduce计算任务。
CN200710032157A 2007-12-06 2007-12-06 联机分析处理中分布式计算及查询海量数据的方法和系统 Expired - Fee Related CN101183368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710032157A CN101183368B (zh) 2007-12-06 2007-12-06 联机分析处理中分布式计算及查询海量数据的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710032157A CN101183368B (zh) 2007-12-06 2007-12-06 联机分析处理中分布式计算及查询海量数据的方法和系统

Publications (2)

Publication Number Publication Date
CN101183368A true CN101183368A (zh) 2008-05-21
CN101183368B CN101183368B (zh) 2010-05-19

Family

ID=39448647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710032157A Expired - Fee Related CN101183368B (zh) 2007-12-06 2007-12-06 联机分析处理中分布式计算及查询海量数据的方法和系统

Country Status (1)

Country Link
CN (1) CN101183368B (zh)

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859319A (zh) * 2009-02-12 2010-10-13 阿森图尔环球服务有限责任公司 分析分布式数据集的数据系统架构
CN102043857A (zh) * 2010-12-27 2011-05-04 中国科学院计算技术研究所 最近邻查询方法及系统
CN102141995A (zh) * 2010-01-29 2011-08-03 国际商业机器公司 简化并行计算系统中的传输的系统与方法
CN102193831A (zh) * 2010-03-12 2011-09-21 复旦大学 一种建立层次化的映射/归约并行编程模型的方法
CN102236581A (zh) * 2010-04-30 2011-11-09 国际商业机器公司 用于数据中心的映射化简方法和系统
CN102255926A (zh) * 2010-05-17 2011-11-23 中国移动通信集团公司 MapReduce系统中的任务分配方法、系统及装置
CN102316156A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种可动态扩展的任务分发处理方法
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
CN102479217A (zh) * 2010-11-23 2012-05-30 腾讯科技(深圳)有限公司 一种分布式数据仓库中实现计算均衡的方法及装置
CN102541656A (zh) * 2010-12-31 2012-07-04 中国银联股份有限公司 生成多维分析Cube的方法和系统
CN102567416A (zh) * 2010-12-28 2012-07-11 中国银联股份有限公司 一种负载均衡的分布式数据统计方法及系统
CN101764835B (zh) * 2008-12-25 2012-09-05 华为技术有限公司 基于MapReduce编程架构的任务分配方法及装置
CN102799486A (zh) * 2012-06-18 2012-11-28 北京大学 一种MapReduce系统中的数据采样和划分方法
WO2013013335A1 (en) * 2011-07-22 2013-01-31 Hewlett-Packard Development Company, L.P. Automated document composition using clusters
CN101799748B (zh) * 2009-02-06 2013-02-13 中国移动通信集团公司 一种确定数据样本类别的方法及其系统
CN102999323A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种生成目标代码的方法、数据处理的方法及装置
CN103106253A (zh) * 2013-01-16 2013-05-15 西安交通大学 一种MapReduce计算模型中基于遗传算法的数据平衡方法
CN103327128A (zh) * 2013-07-23 2013-09-25 百度在线网络技术(北京)有限公司 用于MapReduce的中间数据传输方法及系统
CN103366015A (zh) * 2013-07-31 2013-10-23 东南大学 一种基于Hadoop的OLAP数据存储与查询方法
WO2013155752A1 (zh) * 2012-04-18 2013-10-24 中国人民大学 面向数据库与Hadoop混合平台的OLAP查询处理方法
CN103425085A (zh) * 2013-07-24 2013-12-04 健雄职业技术学院 一种基于数据仓库的工控上位机管理系统及数据处理方法
CN103491187A (zh) * 2013-09-30 2014-01-01 华南理工大学 一种基于云计算的大数据统一分析处理方法
CN103559263A (zh) * 2013-11-04 2014-02-05 北京奇虎科技有限公司 对多个图片集合进行合并的方法及系统
CN103617033A (zh) * 2013-11-22 2014-03-05 北京掌阔移动传媒科技有限公司 基于MapReduce的数据处理方法、客户端和系统
CN103748579A (zh) * 2011-04-01 2014-04-23 谷歌公司 在映射化简框架中处理数据
CN104182534A (zh) * 2014-08-28 2014-12-03 无锡天脉聚源传媒科技有限公司 一种数据搜索的方法及装置
CN104202269A (zh) * 2014-09-26 2014-12-10 浪潮软件集团有限公司 一种网络数据包的压缩方法
CN104462238A (zh) * 2014-11-17 2015-03-25 北京邮电大学 一种基于数据离散度无关性的数据立方体构建方法
CN105022791A (zh) * 2015-06-19 2015-11-04 华南理工大学 一种新型的kv分布式数据存储方法
CN105095515A (zh) * 2015-09-11 2015-11-25 北京金山安全软件有限公司 支持快速查询Map-Reduce输出结果的分桶方法、装置及设备
CN105308579A (zh) * 2013-07-01 2016-02-03 株式会社日立制作所 系列数据并行分析基础设施及其并行分散处理方法
CN105578212A (zh) * 2015-12-15 2016-05-11 南京邮电大学 一种大数据中流计算平台下的点对点流媒体实时监测方法
CN106294589A (zh) * 2016-07-28 2017-01-04 中国联合网络通信集团有限公司 基于MapReduce的多表数据处理方法及系统
CN106484879A (zh) * 2016-10-14 2017-03-08 哈尔滨工程大学 一种基于MapReduce的Map端数据的聚合方法
CN106611013A (zh) * 2015-10-27 2017-05-03 中国电信股份有限公司 信息查询方法及系统
US10019472B2 (en) 2014-08-14 2018-07-10 Intellicus Technologies Pvt. Ltd. System and method for querying a distributed dwarf cube
WO2018209594A1 (en) * 2017-05-17 2018-11-22 Ebay Inc. Olap cube optimization using weightings
CN110222105A (zh) * 2019-05-14 2019-09-10 联动优势科技有限公司 数据汇总处理方法及装置
CN110597929A (zh) * 2019-09-18 2019-12-20 广东省智能机器人研究院 一种基于MapReduce的并行数据立方构建方法
CN110880066A (zh) * 2019-11-06 2020-03-13 深圳前海微众银行股份有限公司 特征数据的处理方法、终端、装置及可读存储介质
CN111736904A (zh) * 2020-08-03 2020-10-02 北京灵汐科技有限公司 多任务并行处理方法、装置、计算机设备及存储介质
US10877995B2 (en) 2014-08-14 2020-12-29 Intellicus Technologies Pvt. Ltd. Building a distributed dwarf cube using mapreduce technique
CN112463739A (zh) * 2019-09-09 2021-03-09 山东省计算中心(国家超级计算济南中心) 基于海洋模式roms的数据处理方法及系统
US11023485B2 (en) 2018-09-18 2021-06-01 International Business Machines Corporation Cube construction for an OLAP system
US11537635B2 (en) 2014-04-24 2022-12-27 Ebay Inc. Hadoop OLAP engine

Cited By (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764835B (zh) * 2008-12-25 2012-09-05 华为技术有限公司 基于MapReduce编程架构的任务分配方法及装置
CN101799748B (zh) * 2009-02-06 2013-02-13 中国移动通信集团公司 一种确定数据样本类别的方法及其系统
CN101859319A (zh) * 2009-02-12 2010-10-13 阿森图尔环球服务有限责任公司 分析分布式数据集的数据系统架构
CN102141995A (zh) * 2010-01-29 2011-08-03 国际商业机器公司 简化并行计算系统中的传输的系统与方法
CN102193831A (zh) * 2010-03-12 2011-09-21 复旦大学 一种建立层次化的映射/归约并行编程模型的方法
CN102236581A (zh) * 2010-04-30 2011-11-09 国际商业机器公司 用于数据中心的映射化简方法和系统
US9378053B2 (en) 2010-04-30 2016-06-28 International Business Machines Corporation Generating map task output with version information during map task execution and executing reduce tasks using the output including version information
CN102236581B (zh) * 2010-04-30 2013-08-14 国际商业机器公司 用于数据中心的映射化简方法和系统
US10114682B2 (en) 2010-04-30 2018-10-30 International Business Machines Corporation Method and system for operating a data center by reducing an amount of data to be processed
US10831562B2 (en) 2010-04-30 2020-11-10 International Business Machines Corporation Method and system for operating a data center by reducing an amount of data to be processed
CN102255926A (zh) * 2010-05-17 2011-11-23 中国移动通信集团公司 MapReduce系统中的任务分配方法、系统及装置
CN102255926B (zh) * 2010-05-17 2015-11-25 中国移动通信集团公司 MapReduce系统中的任务分配方法、系统及装置
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
CN102467570B (zh) * 2010-11-17 2014-03-12 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
CN102479217B (zh) * 2010-11-23 2015-07-15 腾讯科技(深圳)有限公司 一种分布式数据仓库中实现计算均衡的方法及装置
CN102479217A (zh) * 2010-11-23 2012-05-30 腾讯科技(深圳)有限公司 一种分布式数据仓库中实现计算均衡的方法及装置
CN102043857B (zh) * 2010-12-27 2012-06-20 中国科学院计算技术研究所 最近邻查询方法及系统
CN102043857A (zh) * 2010-12-27 2011-05-04 中国科学院计算技术研究所 最近邻查询方法及系统
CN102567416A (zh) * 2010-12-28 2012-07-11 中国银联股份有限公司 一种负载均衡的分布式数据统计方法及系统
CN102567416B (zh) * 2010-12-28 2014-05-21 中国银联股份有限公司 一种负载均衡的分布式数据统计方法及系统
CN102541656A (zh) * 2010-12-31 2012-07-04 中国银联股份有限公司 生成多维分析Cube的方法和系统
CN102541656B (zh) * 2010-12-31 2014-04-16 中国银联股份有限公司 生成多维分析Cube的方法和系统
US9798831B2 (en) 2011-04-01 2017-10-24 Google Inc. Processing data in a MapReduce framework
CN103748579A (zh) * 2011-04-01 2014-04-23 谷歌公司 在映射化简框架中处理数据
CN102316156A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种可动态扩展的任务分发处理方法
WO2013013335A1 (en) * 2011-07-22 2013-01-31 Hewlett-Packard Development Company, L.P. Automated document composition using clusters
CN102999323B (zh) * 2011-09-16 2016-04-27 北京百度网讯科技有限公司 一种生成目标代码的方法、数据处理的方法及装置
CN102999323A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种生成目标代码的方法、数据处理的方法及装置
WO2013155752A1 (zh) * 2012-04-18 2013-10-24 中国人民大学 面向数据库与Hadoop混合平台的OLAP查询处理方法
CN102799486A (zh) * 2012-06-18 2012-11-28 北京大学 一种MapReduce系统中的数据采样和划分方法
CN102799486B (zh) * 2012-06-18 2014-11-26 北京大学 一种MapReduce系统中的数据采样和划分方法
CN103106253B (zh) * 2013-01-16 2016-05-04 西安交通大学 一种MapReduce计算模型中基于遗传算法的数据平衡方法
CN103106253A (zh) * 2013-01-16 2013-05-15 西安交通大学 一种MapReduce计算模型中基于遗传算法的数据平衡方法
CN105308579B (zh) * 2013-07-01 2018-06-08 株式会社日立制作所 系列数据并行分析基础设施及其并行分散处理方法
CN105308579A (zh) * 2013-07-01 2016-02-03 株式会社日立制作所 系列数据并行分析基础设施及其并行分散处理方法
CN103327128A (zh) * 2013-07-23 2013-09-25 百度在线网络技术(北京)有限公司 用于MapReduce的中间数据传输方法及系统
CN103425085A (zh) * 2013-07-24 2013-12-04 健雄职业技术学院 一种基于数据仓库的工控上位机管理系统及数据处理方法
CN103366015B (zh) * 2013-07-31 2016-04-27 东南大学 一种基于Hadoop的OLAP数据存储与查询方法
CN103366015A (zh) * 2013-07-31 2013-10-23 东南大学 一种基于Hadoop的OLAP数据存储与查询方法
CN103491187B (zh) * 2013-09-30 2018-04-27 华南理工大学 一种基于云计算的大数据统一分析处理方法
CN103491187A (zh) * 2013-09-30 2014-01-01 华南理工大学 一种基于云计算的大数据统一分析处理方法
CN103559263A (zh) * 2013-11-04 2014-02-05 北京奇虎科技有限公司 对多个图片集合进行合并的方法及系统
CN103617033A (zh) * 2013-11-22 2014-03-05 北京掌阔移动传媒科技有限公司 基于MapReduce的数据处理方法、客户端和系统
US11537635B2 (en) 2014-04-24 2022-12-27 Ebay Inc. Hadoop OLAP engine
US10019472B2 (en) 2014-08-14 2018-07-10 Intellicus Technologies Pvt. Ltd. System and method for querying a distributed dwarf cube
US10877995B2 (en) 2014-08-14 2020-12-29 Intellicus Technologies Pvt. Ltd. Building a distributed dwarf cube using mapreduce technique
CN104182534A (zh) * 2014-08-28 2014-12-03 无锡天脉聚源传媒科技有限公司 一种数据搜索的方法及装置
CN104202269A (zh) * 2014-09-26 2014-12-10 浪潮软件集团有限公司 一种网络数据包的压缩方法
CN104202269B (zh) * 2014-09-26 2017-04-05 浪潮软件集团有限公司 一种网络数据包的压缩方法
CN104462238B (zh) * 2014-11-17 2017-08-25 北京邮电大学 一种基于数据离散度无关性的数据立方体构建方法
CN104462238A (zh) * 2014-11-17 2015-03-25 北京邮电大学 一种基于数据离散度无关性的数据立方体构建方法
CN105022791A (zh) * 2015-06-19 2015-11-04 华南理工大学 一种新型的kv分布式数据存储方法
CN105095515A (zh) * 2015-09-11 2015-11-25 北京金山安全软件有限公司 支持快速查询Map-Reduce输出结果的分桶方法、装置及设备
CN106611013A (zh) * 2015-10-27 2017-05-03 中国电信股份有限公司 信息查询方法及系统
CN105578212B (zh) * 2015-12-15 2019-02-19 南京邮电大学 一种大数据中流计算平台下的点对点流媒体实时监测方法
CN105578212A (zh) * 2015-12-15 2016-05-11 南京邮电大学 一种大数据中流计算平台下的点对点流媒体实时监测方法
CN106294589A (zh) * 2016-07-28 2017-01-04 中国联合网络通信集团有限公司 基于MapReduce的多表数据处理方法及系统
CN106484879B (zh) * 2016-10-14 2019-08-06 哈尔滨工程大学 一种基于MapReduce的Map端数据的聚合方法
CN106484879A (zh) * 2016-10-14 2017-03-08 哈尔滨工程大学 一种基于MapReduce的Map端数据的聚合方法
WO2018209594A1 (en) * 2017-05-17 2018-11-22 Ebay Inc. Olap cube optimization using weightings
US11023485B2 (en) 2018-09-18 2021-06-01 International Business Machines Corporation Cube construction for an OLAP system
CN110222105A (zh) * 2019-05-14 2019-09-10 联动优势科技有限公司 数据汇总处理方法及装置
CN112463739A (zh) * 2019-09-09 2021-03-09 山东省计算中心(国家超级计算济南中心) 基于海洋模式roms的数据处理方法及系统
CN110597929A (zh) * 2019-09-18 2019-12-20 广东省智能机器人研究院 一种基于MapReduce的并行数据立方构建方法
CN110880066A (zh) * 2019-11-06 2020-03-13 深圳前海微众银行股份有限公司 特征数据的处理方法、终端、装置及可读存储介质
CN110880066B (zh) * 2019-11-06 2023-12-05 深圳前海微众银行股份有限公司 特征数据的处理方法、终端、装置及可读存储介质
CN111736904A (zh) * 2020-08-03 2020-10-02 北京灵汐科技有限公司 多任务并行处理方法、装置、计算机设备及存储介质
US11392426B2 (en) 2020-08-03 2022-07-19 Lynxi Technologies Co., Ltd. Multitask parallel processing method and apparatus, computer device and storage medium

Also Published As

Publication number Publication date
CN101183368B (zh) 2010-05-19

Similar Documents

Publication Publication Date Title
CN101183368B (zh) 联机分析处理中分布式计算及查询海量数据的方法和系统
Zhou et al. Adaptive processing for distributed skyline queries over uncertain data
CN103678520B (zh) 一种基于云计算的多维区间查询方法及其系统
WO2019100504A1 (zh) 构建基于大数据技术的电力交易指标体系的方法
CN104361113B (zh) 一种内存‑闪存混合存储模式下的olap查询优化方法
CN102663116A (zh) 面向列存储数据仓库的多维olap查询处理方法
CN106372114A (zh) 一种基于大数据的联机分析处理系统和方法
Chavalier et al. Document-oriented data warehouses: Models and extended cuboids, extended cuboids in oriented document
CN106997386A (zh) 一种olap预计算模型、自动建模方法及自动建模系统
CN106372190A (zh) 实时olap查询方法和装置
Zhou et al. Movie recommendation system employing the user-based cf in cloud computing
CN104866608A (zh) 一种数据仓库中基于连接索引的查询优化方法
CN113032427B (zh) 一种用于cpu和gpu平台的向量化查询处理方法
CN101556602B (zh) 一种基于差分表的内存OLAP What-if分析方法
CN111586091A (zh) 一种实现算力组配的边缘计算网关系统
CN109697467A (zh) 一种复杂网络图的概要方法
CN106055590A (zh) 基于大数据及图数据库的电力网络数据处理方法和系统
Bai et al. Probabilistic reverse skyline query processing over uncertain data stream
CN107729500A (zh) 一种联机分析处理的数据处理方法、装置及后台设备
Demir et al. Clustering spatial networks for aggregate query processing: A hypergraph approach
Chen et al. An optimized distributed OLAP system for big data
CN108733781A (zh) 基于内存计算的集群时态数据索引方法
WO2021212444A1 (zh) 边缘网络环境下基于随机森林算法的vod业务缓存替换方法
CN110297836B (zh) 基于压缩位图方式的用户标签存储方法和检索方法
CN108681577A (zh) 一种新型的库结构数据索引方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100519

Termination date: 20121206