CN103699696A - 一种云计算环境下的数据在线聚集方法 - Google Patents

一种云计算环境下的数据在线聚集方法 Download PDF

Info

Publication number
CN103699696A
CN103699696A CN201410015579.9A CN201410015579A CN103699696A CN 103699696 A CN103699696 A CN 103699696A CN 201410015579 A CN201410015579 A CN 201410015579A CN 103699696 A CN103699696 A CN 103699696A
Authority
CN
China
Prior art keywords
data
module
mapreduce
online
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410015579.9A
Other languages
English (en)
Other versions
CN103699696B (zh
Inventor
孟小峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201410015579.9A priority Critical patent/CN103699696B/zh
Publication of CN103699696A publication Critical patent/CN103699696A/zh
Application granted granted Critical
Publication of CN103699696B publication Critical patent/CN103699696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种云计算环境下的数据在线聚集方法,其包括以下步骤:在应用接口层,SQL接口模块根据用户需求设定SQL查询语句Q,并传输至查询处理层;语法分析模块对接收到的查询语句Q进行解析,并将解析结果传输至MapReduce在线化执行计划模块;解析得到的查询语句Q是针对单表的查询,则MapReduce在线化执行计划模块启动一个MapReduce作业,解析得到的查询语句Q是针对多表的查询,则MapReduce在线化执行计划模块启动两个MapReduce作业,根据接收到的一个或两个MapReduce作业,在线聚集处理层对查询语句Q的查询请求进行处理,并将处理结果传输至应用接口层进行显示。本发明可以广泛应用于云计算环境中。

Description

一种云计算环境下的数据在线聚集方法
技术领域
本发明涉及一种数据在线聚集方法,特别是关于一种云计算环境下的数据在线聚集方法。
背景技术
在线聚集由Hellerstein等人最早提出,最早的在线聚集研究主要关注关系数据库中单表在线聚集的实现问题。随后该问题在关系数据库领域得到了一定程度的研究。Haas等人对Hellerstein的工作进行了扩展,提供了基于大样本的置信区间和确定性置信区间的计算方法。针对多表连接的在线聚集,Haas等人给出了一系列波纹连接算法。波纹连接基于离线查询处理中的嵌套连接和哈希连接设计,其目的是在保证增量计算的前提下尽快得到估计结果。Luo等人通过并行化采样过程和查询处理过程对波纹连接算法进行了改进,提高了置信区间的收敛速度。然而,当总体数据的分布情况无法得到或者内存溢出时,该算法无法给出具有统计意义的置信区间。为了解决该问题,Jermaine等人将传统的排序-合并连接算法同波纹连接算法进行结合,并在查询处理过程中增加了一个收缩的处理模块用于更新估计结果。Wu等人将在线聚集问题扩展到分布式环境中,并给出了相应的统计计算方法。
上述研究工作均在关系数据库领域进行,在云计算环境中的在线聚集实现技术目前也有部分相关工作。HOP(Hadoop Online Prototype)系统将Hadoop中的MapReduce(一种编程模型)处理过程流水线化,允许消费操作在生产操作完成之前对已有的数据进行处理。HOP能够在MapReduce作业执行过程中不断提供数据处理结果的快照,并通过作业的执行进度直接对快照进行扩展来实现对聚集结果的估计,但是没有提供结果的置信区间。Pansare等人提出了一种基于贝叶斯理论实现在线聚集的方法,该方法考虑每个数据块的聚集值和该数据块处理时间的关系,将数据块的聚集值及其调度时间和处理时间一起进行统计建模。该方法假设数据块的处理时间越长,其聚集值也越大,然而,这个假设并不是在所有的聚集操作中均成立,而且实现方法也比较复杂。除此以外,它只解决了由一个MapReduce作业构成的单表在线聚集问题,而没有考虑基于多个MapReduce作业的多表连接在线聚集实现。
发明内容
针对上述问题,本发明的目的是提供一种能够实现单表和多表在线聚集的云计算环境下的数据在线聚集方法。
为实现上述目的,本发明采取以下技术方案:一种云计算环境下的数据在线聚集方法,其包括以下步骤:1)在线聚集系统中,在应用接口层设置SQL接口模块和结果显示模块,在查询处理层设置语法分析模块和MapReduce在线化执行计划模块,在在线聚集处理层设置数据采样模块、聚集结果估算模块和置信区间计算模块,在数据存储层设置若干数据存储器;2)在应用接口层,SQL接口模块根据用户需求设定SQL查询语句Q,并将查询语句Q传输至查询处理层;3)语法分析模块对接收到的查询语句Q进行解析,并将解析结果传输至MapReduce在线化执行计划模块;解析结果包括查询语句Q所涉及的数据、查询谓词、聚集操作类型以及查询语句Q是针对单表还是多表的查询;如果查询语句Q是针对单表的查询,则MapReduce在线化执行计划模块启动一个MapReduce作业,执行步骤4);如果查询语句Q是针对多表的查询,则MapReduce在线化执行计划模块启动两个MapReduce作业,执行步骤5);MapReduce在线化执行计划模块将启动的MapReduce作业传输至在线聚集处理层;4)在线聚集处理层对数据存储层的数据进行采样,在线聚集处理层根据采样数据对接收到的一个MapReduce作业进行处理,并将处理结果传输至应用接口层进行显示;5)在线聚集处理层对数据存储层的数据进行采样,在线聚集处理层根据采样数据对接收到的两个MapReduce作业进行处理,并将处理结果传输至应用接口层进行显示。
所述步骤4)中,在线聚集处理层根据采样数据对接收到的一个MapReduce作业进行处理,其包括以下步骤:(1)利用简单随机采样方法,数据采样模块对数据存储器中的源数据进行块级别的随机采样,采样得到的数据块传输至MapReduce作业计算模块中;(2)MapReduce作业计算模块对接收到的数据块进行计算,得到采样数据块中变量的标准差σn和统计函数expp(Bi),并将标准差σn和统计函数expp(Bi)分别传输至置信区间计算模块和聚集结果估算模块;(3)根据接收到的统计函数expp(Bi),聚集结果估算模块利用式
μ ~ blk = 1 nB Σ i = 1 n Σ j = 1 B X ij = 1 n Σ i = 1 n Σ j = 1 B | R | exp p ( t ij ) B = 1 n Σ i = 1 n N * exp p ( B i ) ,
计算得到聚集结果并传输至置信区间计算模块;式中,B为独立的数据块的大小,n为大小为B的独立的数据块的个数,|R|为表R包含的元组数,tij表示数据块i中的第j条元组,|R|*expp(tij)表示随机变量;(4)置信区间计算模块根据接收到的聚集结果
Figure BDA0000456372710000023
和置信区间宽度εn,计算得到聚集结果的100p%置信区间为
Figure BDA0000456372710000031
εn为置信度为100p%时的置信区间宽度;(5)重复步骤(1)~(4),直至根据用户对置信度的需求停止在线聚集系统的运行,并将当前计算得到的聚集结果和置信区间均传输至结果显示模块进行显示。
所述步骤(2)中,MapReduce作业对接收到的数据块进行计算,其具体包括以下步骤:①根据解析结果中的查询谓词,Map阶段的Map函数过滤采样得到的数据块中的元组,并将过滤后得到的元组t转化成键-值对,设置元组t的分组属性值为键,设置基于元组t的操作值expp(t)为值;②在每个采样得到的数据块中,将属于同一个分组的若干键-值对累加形成一个键-值对,合并输出一个由两个双精度数值构成的结构体;③将所有属于同一个分组的键-值对传输至同一个reduce函数上;每当估计操作被触发时,reduce函数就开始执行,计算得到给定样本中变量的标准差σn和统计函数expp(Bi)。
所述步骤5)中,在线聚集处理层根据采样数据对接收到的两个MapReduce作业进行处理,其具体包括以下步骤:(1)利用两阶段分层采样方法,数据采样模块对数据存储器中的源数据进行采样,并将采样得到的数据传输至MapReduce作业计算模块中;(2)MapReduce作业计算模块32根据接收到的两个MapReduce作业,启动负责表的连接操作的任务Job1和负责复杂聚集操作的任务Job2;(3)在MapReduce作业计算模块中,通过任务Job1对接收到的采样数据进行连接操作;(4)与步骤4)中查询方式相同,任务Job2对查询语句Q完成聚集查询,利用得到的给定样本中变量的标准差σn和统计函数expp(Bi),根据式
μ ~ blk = 1 nB Σ i = 1 n Σ j = 1 B X ij = 1 n Σ i = 1 n Σ j = 1 B | R | exp p ( t ij ) B = 1 n Σ i = 1 n N * exp p ( B i ) ,
分别在聚集结果估计模块和置信区间计算模块中计算每个分组的聚集结果和置信区间;式中,B为独立的数据块的大小,n为大小为B的独立的数据块的个数,|R|为表R包含的元组数,tij表示数据块i中的第j条元组,|R|*expp(tij)表示随机变量;(5)重复步骤(1)~(4),直至根据用户对置信度的需求停止在线聚集系统的运行,并将当前得到的聚集结果和置信区间传输至结果显示模块进行显示。
所述步骤(1)中,利用两阶段分层采样方法,数据采样模块对数据存储器中的源数据进行采样,其具体包括以下步骤:①在负责连接操作的MapReduce作业的Map任务之前,数据采样模块对数据存储器中的源数据进行第一阶段的采样;②Map任务对第一阶段的采样数据进行处理后,为了保证具有相同连接键值的元组会被分配到同一个reduce任务中处理,根据接键-值进行重分区;③在负责连接操作的MapReduce作业的reduce任务之前,数据采样模块对步骤②处理后的第一阶段的采样数据进行采样。
本发明由于采取以上技术方案,其具有以下优点:1、本发明由于数据采样模块利用简单随机采样方法对数据存储器中的源数据进行块级别的随机采样,并将采样得到的数据块传输至一个MapReduce作业中,MapReduce作业对接收到的数据块进行计算,得到数据块的聚集结果和置信区间,因此本发明能够在MapReduce环境下实现单表在线聚集。2、本发明由于数据采样模块利用两阶段分层采样方法对数据存储器中的源数据进行采样,并将采样得到的数据块传输至两个MapReduce作业中,MapReduce作业启动Job1和Job2两个任务,任务Job1对采样得到的数据进行连接操作,Job2对查询语句Q完成聚集查询,得到数据块的聚集结果和置信区间,因此本发明能够在MapReduce环境下实现多表在线聚集。3、本发明由于在云计算环境下进行单表和多表的在线聚集时,根据用户对置信度的需求,能够停止在线聚集系统的运行,因此用户采用本发明时能够提前终止查询过程,节省所耗费的云计算环境的资源。基于以上优点,本发明可以广泛应用于云计算环境中。
附图说明
图1是云计算环境下的在线聚集框架结构图
图2是云计算环境下的在线聚集方法的流程图
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明的数据在线聚集方法是基于在线聚集系统实现的,如图1所示,在线聚集系统包括应用接口层1、查询处理层2、在线聚集处理层3和数据存储层4。应用接口层1根据用户需求设定SQL语句;为用户提供SQL和查询结果的展示,并将在线聚集结果以数字或图形化的形式实时展现给用户。应用接口层1将用户提交的SQL语句传输至查询处理层2,查询处理层2对用户提交的SQL语句进行语法分析后转化成MapReduce在线化执行计划,并传输至在线聚集处理层3。根据接收到的MapReduce在线化执行计划,在线聚集处理层3启动一个或两个MapReduce作业,并对数据存储层4中的数据进行采样,根据采样得到的数据,启动的MapReduce作业持续进行聚集结果的估算和置信区间的计算,并将计算结果传输至应用接口层1进行显示。
如图2所示,本发明的数据在线聚集方法包括以下步骤:
1)在线聚集系统中,在应用接口层1设置SQL接口模块11和结果显示模块12,在查询处理层2设置语法分析模块21和MapReduce在线化执行计划模块22,在在线聚集处理层3设置数据采样模块31、MapReduce作业计算模块32、聚集结果估算模块33和置信区间计算模块34,在数据存储层4设置若干数据存储器41。
2)在应用接口层1,SQL接口模块11根据用户需求设定SQL查询语句Q,并将查询语句Q传输至查询处理层2。
3)语法分析模块21对接收到的查询语句Q进行解析,并将解析结果传输至MapReduce在线化执行计划模块22。其中,解析结果包括查询语句Q所涉及的数据、查询谓词、聚集操作类型以及查询语句Q是针对单表还是多表的查询。
如果查询语句Q是针对单表的查询,则MapReduce在线化执行计划模块22启动一个MapReduce(一种编程模型)作业(Job),执行步骤4);如果查询语句Q是针对多表的查询,则MapReduce在线化执行计划模块22启动两个MapReduce作业,执行步骤5);MapReduce在线化执行计划模块22将启动的MapReduce作业传输至在线聚集处理层3。
4)在线聚集处理层3对数据存储层4的数据进行采样,在线聚集处理层3根据采样数据对接收到的一个MapReduce作业进行处理,并将处理结果传输至应用接口层1进行显示,其具体包括以下步骤:
(1)利用简单随机采样方法,数据采样模块31对数据存储器41中的源数据进行块级别的随机采样,并将采样得到的数据块传输至MapReduce作业计算模块32中。
(2)在MapReduce作业计算模块32中一个完整的MapReduce作业包括Map和Reduce两个阶段,Map阶段的任务由Map函数完成,Reduce阶段的任务由Reduce函数完成;MapReduce作业计算模块32对接收到的数据块进行计算,得到采样数据块中变量的标准差σn和统计函数expp(Bi),并将标准差σn和统计函数expp(Bi)分别传输至置信区间计算模块34和聚集结果估算模块33,其包括以下步骤:
①根据解析结果中的查询谓词,Map阶段的Map函数过滤采样得到的数据块中的元组,并将过滤后得到的元组t转化成键-值对(key-value),其中,设置元组t的分组属性值为键,设置基于元组t的操作值expp(t)为值。
②为减少数据传输代价,在每个采样得到的数据块中,将属于同一个分组的若干键-值对累加形成一个键-值对,合并输出一个由两个双精度数值构成的结构体。其中,第一个双精度值用于计算变量的均值,第二个双精度值用于在Reduce阶段计算变量的方差。
③将所有属于同一个分组的键-值对传输至同一个reduce函数上。每当估计操作被触发时,reduce函数就开始执行,计算得到采样数据块中变量的标准差σn和统计函数expp(Bi),并将标准差σn和统计函数expp(Bi)分别传输至置信区间计算模块34和聚集结果估算模块33。
(3)根据接收到的统计函数expp(Bi),聚集结果估算模块33利用式
μ ~ blk = 1 nB Σ i = 1 n Σ j = 1 B X ij = 1 n Σ i = 1 n Σ j = 1 B | R | exp p ( t ij ) B = 1 n Σ i = 1 n N * exp p ( B i ) - - - ( 1 )
计算得到聚集结果
Figure BDA0000456372710000062
并传输至置信区间计算模块34。
式(1)中,B为独立的数据块的大小,n为大小为B的独立的数据块的个数,|R|为表R包含的元组数,tij表示数据块i中的第j条元组,|R|*expp(tij)表示随机变量。
(4)置信区间计算模块34将接收到的聚集结果
Figure BDA0000456372710000063
看作是Yi的均值,其中,Yi=N*expp(Bi)。由于数据块是利用简单随机采样方法得到的,因此Yi是独立同分布的随机变量,根据中心极限定理,Yi的均值近似服从正态分布。
置信区间计算模块34根据接收到的标准差σn,计算得到置信度为100p%的置信区间宽度εn为:
ϵ n = z p σ n / n - - - ( 2 )
式(2)中,zp是标准正态分布中的p分位数。
置信区间计算模块34根据聚集结果和置信区间宽度εn,计算得到聚集结果的100p%置信区间为 [ μ ~ blk - ϵ n , μ ~ blk + ϵ n ] .
(5)重复步骤(1)~(4),直至根据用户对置信度的需求停止在线聚集系统的运行,并将当前计算得到的聚集结果和置信区间均传输至结果显示模块12进行显示。
5)在线聚集处理层3对数据存储层4的数据进行采样,在线聚集处理层3根据采样数据对接收到的两个MapReduce作业进行处理,并将处理结果传输至应用接口层1进行显示,其具体包括以下步骤:
(1)利用两阶段分层采样方法,数据采样模块31对数据存储器41中的源数据进行采样,并将采样得到的数据传输至MapReduce作业计算模块32中,其具体包括以下步骤:
①在负责连接操作的MapReduce作业的Map任务之前,数据采样模块31对数据存储器41中的源数据进行第一阶段的采样。
②Map任务对第一阶段的采样数据进行处理后,为了保证具有相同连接键值(key)的元组会被分配到同一个reduce任务中处理,根据接键-值进行重分区。
③在负责连接操作的MapReduce作业的reduce任务之前,数据采样模块31对步骤②处理后的第一阶段采样数据再次采样。
(2)MapReduce作业计算模块32根据接收到的两个MapReduce作业,启动两个任务:Job1和Job2,其中,Job1负责表的连接操作,Job2负责复杂聚集操作。
(3)在MapReduce作业计算模块32中,通过任务Job1对接收到的采样数据进行连接操作。
(4)与步骤4)中查询方式相同,任务Job2对查询语句Q完成聚集查询,利用得到的给定样本中变量的标准差σn和统计函数expp(Bi),根据式(1),分别在聚集结果估计模块33和置信区间计算模块34中计算每个分组的聚集结果和置信区间。
(5)重复步骤(1)~(4),直至根据用户对置信度的需求,停止在线聚集系统的运行,并将当前计算得到的聚集结果和置信区间传输至结果显示模块12进行显示。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和方法步骤等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。

Claims (5)

1.一种云计算环境下的数据在线聚集方法,其包括以下步骤:
1)在线聚集系统中,在应用接口层设置SQL接口模块和结果显示模块,在查询处理层设置语法分析模块和MapReduce在线化执行计划模块,在在线聚集处理层设置数据采样模块、聚集结果估算模块和置信区间计算模块,在数据存储层设置若干数据存储器;
2)在应用接口层,SQL接口模块根据用户需求设定SQL查询语句Q,并将查询语句Q传输至查询处理层;
3)语法分析模块对接收到的查询语句Q进行解析,并将解析结果传输至MapReduce在线化执行计划模块;解析结果包括查询语句Q所涉及的数据、查询谓词、聚集操作类型以及查询语句Q是针对单表还是多表的查询;
如果查询语句Q是针对单表的查询,则MapReduce在线化执行计划模块启动一个MapReduce作业,执行步骤4);如果查询语句Q是针对多表的查询,则MapReduce在线化执行计划模块启动两个MapReduce作业,执行步骤5);MapReduce在线化执行计划模块将启动的MapReduce作业传输至在线聚集处理层;
4)在线聚集处理层对数据存储层的数据进行采样,在线聚集处理层根据采样数据对接收到的一个MapReduce作业进行处理,并将处理结果传输至应用接口层进行显示;
5)在线聚集处理层对数据存储层的数据进行采样,在线聚集处理层根据采样数据对接收到的两个MapReduce作业进行处理,并将处理结果传输至应用接口层进行显示。
2.如权利要求1所述的一种云计算环境下的数据在线聚集方法,其特征在于:所述步骤4)中,在线聚集处理层根据采样数据对接收到的一个MapReduce作业进行处理,其包括以下步骤:
(1)利用简单随机采样方法,数据采样模块对数据存储器中的源数据进行块级别的随机采样,采样得到的数据块传输至MapReduce作业计算模块中;
(2)MapReduce作业计算模块对接收到的数据块进行计算,得到采样数据块中变量的标准差σn和统计函数expp(Bi),并将标准差σn和统计函数expp(Bi)分别传输至置信区间计算模块和聚集结果估算模块;
(3)根据接收到的统计函数expp(Bi),聚集结果估算模块利用式
μ ~ blk = 1 nB Σ i = 1 n Σ j = 1 B X ij = 1 n Σ i = 1 n Σ j = 1 B | R | exp p ( t ij ) B = 1 n Σ i = 1 n N * exp p ( B i ) ,
计算得到聚集结果并传输至置信区间计算模块;
式中,B为独立的数据块的大小,n为大小为B的独立的数据块的个数,|R|为表R包含的元组数,tij表示数据块i中的第j条元组,|R|*expp(tij)表示随机变量;
(4)置信区间计算模块根据接收到的聚集结果
Figure FDA0000456372700000021
和置信区间宽度εn,计算得到聚集结果的100p%置信区间为
Figure FDA0000456372700000022
εn为置信度为100p%时的置信区间宽度;
(5)重复步骤(1)~(4),直至根据用户对置信度的需求停止在线聚集系统的运行,并将当前计算得到的聚集结果和置信区间均传输至结果显示模块进行显示。
3.如权利要求2所述的一种云计算环境下的数据在线聚集方法,其特征在于:所述步骤(2)中,MapReduce作业对接收到的数据块进行计算,其具体包括以下步骤:
①根据解析结果中的查询谓词,Map阶段的Map函数过滤采样得到的数据块中的元组,并将过滤后得到的元组t转化成键-值对,设置元组t的分组属性值为键,设置基于元组t的操作值expp(t)为值;
②在每个采样得到的数据块中,将属于同一个分组的若干键-值对累加形成一个键-值对,合并输出一个由两个双精度数值构成的结构体;
③将所有属于同一个分组的键-值对传输至同一个reduce函数上;每当估计操作被触发时,reduce函数就开始执行,计算得到给定样本中变量的标准差σn和统计函数expp(Bi)。
4.如权利要求1或2或3所述的一种云计算环境下的数据在线聚集方法,其特征在于:所述步骤5)中,在线聚集处理层根据采样数据对接收到的两个MapReduce作业进行处理,其具体包括以下步骤:
(1)利用两阶段分层采样方法,数据采样模块对数据存储器中的源数据进行采样,并将采样得到的数据传输至MapReduce作业计算模块中;
(2)MapReduce作业计算模块32根据接收到的两个MapReduce作业,启动负责表的连接操作的任务Job1和负责复杂聚集操作的任务Job2;
(3)在MapReduce作业计算模块中,通过任务Job1对接收到的采样数据进行连接操作;
(4)与步骤4)中查询方式相同,任务Job2对查询语句Q完成聚集查询,利用得到的给定样本中变量的标准差σn和统计函数expp(Bi),根据式
μ ~ blk = 1 nB Σ i = 1 n Σ j = 1 B X ij = 1 n Σ i = 1 n Σ j = 1 B | R | exp p ( t ij ) B = 1 n Σ i = 1 n N * exp p ( B i ) ,
分别在聚集结果估计模块和置信区间计算模块中计算每个分组的聚集结果和置信区间;
式中,B为独立的数据块的大小,n为大小为B的独立的数据块的个数,|R|为表R包含的元组数,tij表示数据块i中的第j条元组,|R|*expp(tij)表示随机变量;
(5)重复步骤(1)~(4),直至根据用户对置信度的需求停止在线聚集系统的运行,并将当前得到的聚集结果和置信区间传输至结果显示模块进行显示。
5.如权利要求4所述的一种云计算环境下的数据在线聚集方法,其特征在于:所述步骤(1)中,利用两阶段分层采样方法,数据采样模块对数据存储器中的源数据进行采样,其具体包括以下步骤:
①在负责连接操作的MapReduce作业的Map任务之前,数据采样模块对数据存储器中的源数据进行第一阶段的采样;
②Map任务对第一阶段的采样数据进行处理后,为了保证具有相同连接键值的元组会被分配到同一个reduce任务中处理,根据接键-值进行重分区;
③在负责连接操作的MapReduce作业的reduce任务之前,数据采样模块对步骤②处理后的第一阶段的采样数据进行采样。
CN201410015579.9A 2014-01-13 2014-01-13 一种云计算环境下的数据在线聚集方法 Active CN103699696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410015579.9A CN103699696B (zh) 2014-01-13 2014-01-13 一种云计算环境下的数据在线聚集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410015579.9A CN103699696B (zh) 2014-01-13 2014-01-13 一种云计算环境下的数据在线聚集方法

Publications (2)

Publication Number Publication Date
CN103699696A true CN103699696A (zh) 2014-04-02
CN103699696B CN103699696B (zh) 2017-01-18

Family

ID=50361224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410015579.9A Active CN103699696B (zh) 2014-01-13 2014-01-13 一种云计算环境下的数据在线聚集方法

Country Status (1)

Country Link
CN (1) CN103699696B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404634A (zh) * 2014-09-15 2016-03-16 南京理工大学 基于Key-Value数据块的数据管理方法及系统
CN106250460A (zh) * 2016-07-28 2016-12-21 全球能源互联网研究院 一种考虑任务相关性的Hive优化方法及系统
CN106777032A (zh) * 2016-12-09 2017-05-31 杭州电子科技大学 一种云计算环境下的混合近似查询方法
CN106934059A (zh) * 2017-03-22 2017-07-07 哈尔滨工业大学 一种大数据上的均值近似聚集方法
CN107480220A (zh) * 2017-08-01 2017-12-15 浙江大学 一种基于在线聚集的快速文本查询方法
CN107533551A (zh) * 2015-04-15 2018-01-02 华为技术有限公司 数据块级别的大数据统计
CN109062949A (zh) * 2018-06-21 2018-12-21 东南大学 一种提高在线聚集中多表连接查询效率的方法
CN109308303A (zh) * 2018-09-19 2019-02-05 北京服装学院 一种基于马尔可夫链的多表连接在线聚集方法
CN110008448A (zh) * 2019-04-02 2019-07-12 中国工商银行股份有限公司 将SQL代码自动转换为Java代码的方法和装置
CN110609707A (zh) * 2018-06-14 2019-12-24 北京嘀嘀无限科技发展有限公司 在线数据处理系统生成方法、装置及设备
CN110704515A (zh) * 2019-12-11 2020-01-17 四川新网银行股份有限公司 基于MapReduce模型的两阶段在线化采样方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799622A (zh) * 2012-06-19 2012-11-28 北京大学 基于MapReduce扩展框架的分布式SQL查询方法
US8601016B2 (en) * 2011-08-30 2013-12-03 International Business Machines Corporation Pre-generation of structured query language (SQL) from application programming interface (API) defined query systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8601016B2 (en) * 2011-08-30 2013-12-03 International Business Machines Corporation Pre-generation of structured query language (SQL) from application programming interface (API) defined query systems
CN102799622A (zh) * 2012-06-19 2012-11-28 北京大学 基于MapReduce扩展框架的分布式SQL查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
史英杰等: "云数据管理系统中查询技术研究综述", 《中国期刊全文数据库 计算机学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404634B (zh) * 2014-09-15 2019-02-22 南京理工大学 基于Key-Value数据块的数据管理方法及系统
CN105404634A (zh) * 2014-09-15 2016-03-16 南京理工大学 基于Key-Value数据块的数据管理方法及系统
CN107533551A (zh) * 2015-04-15 2018-01-02 华为技术有限公司 数据块级别的大数据统计
CN107533551B (zh) * 2015-04-15 2020-08-07 华为技术有限公司 数据块级别的大数据统计
CN106250460A (zh) * 2016-07-28 2016-12-21 全球能源互联网研究院 一种考虑任务相关性的Hive优化方法及系统
CN106777032A (zh) * 2016-12-09 2017-05-31 杭州电子科技大学 一种云计算环境下的混合近似查询方法
CN106934059A (zh) * 2017-03-22 2017-07-07 哈尔滨工业大学 一种大数据上的均值近似聚集方法
CN106934059B (zh) * 2017-03-22 2019-10-22 哈尔滨工业大学 一种钢管的长度大数据上的均值近似聚集方法
CN107480220A (zh) * 2017-08-01 2017-12-15 浙江大学 一种基于在线聚集的快速文本查询方法
CN107480220B (zh) * 2017-08-01 2021-01-12 浙江大学 一种基于在线聚集的快速文本查询方法
CN110609707A (zh) * 2018-06-14 2019-12-24 北京嘀嘀无限科技发展有限公司 在线数据处理系统生成方法、装置及设备
CN109062949A (zh) * 2018-06-21 2018-12-21 东南大学 一种提高在线聚集中多表连接查询效率的方法
CN109062949B (zh) * 2018-06-21 2021-10-01 东南大学 一种提高在线聚集中多表连接查询效率的方法
CN109308303A (zh) * 2018-09-19 2019-02-05 北京服装学院 一种基于马尔可夫链的多表连接在线聚集方法
CN109308303B (zh) * 2018-09-19 2021-08-27 北京服装学院 一种基于马尔可夫链的多表连接在线聚集方法
CN110008448A (zh) * 2019-04-02 2019-07-12 中国工商银行股份有限公司 将SQL代码自动转换为Java代码的方法和装置
CN110008448B (zh) * 2019-04-02 2023-10-17 中国工商银行股份有限公司 将SQL代码自动转换为Java代码的方法和装置
CN110704515A (zh) * 2019-12-11 2020-01-17 四川新网银行股份有限公司 基于MapReduce模型的两阶段在线化采样方法

Also Published As

Publication number Publication date
CN103699696B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN103699696A (zh) 一种云计算环境下的数据在线聚集方法
WO2023240845A1 (zh) 一种分布式计算方法、系统、设备及存储介质
CN106326457B (zh) 基于大数据的人社人员档案袋数据库的构建方法及系统
CN103927346B (zh) 基于数据量的查询连接方法
CN103605662A (zh) 一种分布式计算框架参数优化方法、装置及系统
CN106202431B (zh) 一种基于机器学习的Hadoop参数自动调优方法及系统
JP6784780B2 (ja) 大規模再生可能エネルギーのデータについて確率モデルを構築する方法
US20150278306A1 (en) Bloom filter costing estimation
CN105550268A (zh) 大数据流程建模分析引擎
CN105320757A (zh) 一种快速处理数据的商业智能分析方法
CN104156463A (zh) 一种基于MapReduce的大数据聚类集成方法
CN106873945A (zh) 基于批处理和流式处理的数据处理架构及数据处理方法
CN104077438A (zh) 电网大规模拓扑结构构建方法与系统
US11379499B2 (en) Method and apparatus for executing distributed computing task
CN104834754A (zh) 一种基于连接代价的sparql语义数据查询优化方法
CN109902117A (zh) 业务系统分析方法和装置
CN105681474A (zh) 一种基于企业级大数据平台支撑上层应用的系统架构
CN102456069A (zh) 一种数据流增量聚集统计、查询方法及查询系统
CN105335524A (zh) 一种应用于大规模非规则结构数据的图搜索算法
CN105468756A (zh) 一种海量数据处理系统的设计和实现方法
CN106599190A (zh) 基于云计算的动态Skyline查询方法
CN106599189A (zh) 基于云计算的动态Skyline查询装置
Huang et al. Efficiently querying large process model repositories in smart city cloud workflow systems based on quantitative ordering relations
CN104573074A (zh) 基于医院数据的高速计算分析方法
US20160125095A1 (en) Lightweight temporal graph management engine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant