CN103699696A

CN103699696A - 一种云计算环境下的数据在线聚集方法

Info

Publication number: CN103699696A
Application number: CN201410015579.9A
Authority: CN
Inventors: 孟小峰
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2014-01-13
Filing date: 2014-01-13
Publication date: 2014-04-02
Anticipated expiration: 2034-01-13
Also published as: CN103699696B

Abstract

本发明涉及一种云计算环境下的数据在线聚集方法，其包括以下步骤：在应用接口层，SQL接口模块根据用户需求设定SQL查询语句Q，并传输至查询处理层；语法分析模块对接收到的查询语句Q进行解析，并将解析结果传输至MapReduce在线化执行计划模块；解析得到的查询语句Q是针对单表的查询，则MapReduce在线化执行计划模块启动一个MapReduce作业，解析得到的查询语句Q是针对多表的查询，则MapReduce在线化执行计划模块启动两个MapReduce作业，根据接收到的一个或两个MapReduce作业，在线聚集处理层对查询语句Q的查询请求进行处理，并将处理结果传输至应用接口层进行显示。本发明可以广泛应用于云计算环境中。

Description

一种云计算环境下的数据在线聚集方法

技术领域

本发明涉及一种数据在线聚集方法，特别是关于一种云计算环境下的数据在线聚集方法。

背景技术

在线聚集由Hellerstein等人最早提出，最早的在线聚集研究主要关注关系数据库中单表在线聚集的实现问题。随后该问题在关系数据库领域得到了一定程度的研究。Haas等人对Hellerstein的工作进行了扩展，提供了基于大样本的置信区间和确定性置信区间的计算方法。针对多表连接的在线聚集，Haas等人给出了一系列波纹连接算法。波纹连接基于离线查询处理中的嵌套连接和哈希连接设计，其目的是在保证增量计算的前提下尽快得到估计结果。Luo等人通过并行化采样过程和查询处理过程对波纹连接算法进行了改进，提高了置信区间的收敛速度。然而，当总体数据的分布情况无法得到或者内存溢出时，该算法无法给出具有统计意义的置信区间。为了解决该问题，Jermaine等人将传统的排序-合并连接算法同波纹连接算法进行结合，并在查询处理过程中增加了一个收缩的处理模块用于更新估计结果。Wu等人将在线聚集问题扩展到分布式环境中，并给出了相应的统计计算方法。

上述研究工作均在关系数据库领域进行，在云计算环境中的在线聚集实现技术目前也有部分相关工作。HOP(Hadoop Online Prototype)系统将Hadoop中的MapReduce（一种编程模型）处理过程流水线化，允许消费操作在生产操作完成之前对已有的数据进行处理。HOP能够在MapReduce作业执行过程中不断提供数据处理结果的快照，并通过作业的执行进度直接对快照进行扩展来实现对聚集结果的估计，但是没有提供结果的置信区间。Pansare等人提出了一种基于贝叶斯理论实现在线聚集的方法，该方法考虑每个数据块的聚集值和该数据块处理时间的关系，将数据块的聚集值及其调度时间和处理时间一起进行统计建模。该方法假设数据块的处理时间越长，其聚集值也越大，然而，这个假设并不是在所有的聚集操作中均成立，而且实现方法也比较复杂。除此以外，它只解决了由一个MapReduce作业构成的单表在线聚集问题，而没有考虑基于多个MapReduce作业的多表连接在线聚集实现。

发明内容

针对上述问题，本发明的目的是提供一种能够实现单表和多表在线聚集的云计算环境下的数据在线聚集方法。

为实现上述目的，本发明采取以下技术方案：一种云计算环境下的数据在线聚集方法，其包括以下步骤：1）在线聚集系统中，在应用接口层设置SQL接口模块和结果显示模块，在查询处理层设置语法分析模块和MapReduce在线化执行计划模块，在在线聚集处理层设置数据采样模块、聚集结果估算模块和置信区间计算模块，在数据存储层设置若干数据存储器；2）在应用接口层，SQL接口模块根据用户需求设定SQL查询语句Q，并将查询语句Q传输至查询处理层；3）语法分析模块对接收到的查询语句Q进行解析，并将解析结果传输至MapReduce在线化执行计划模块；解析结果包括查询语句Q所涉及的数据、查询谓词、聚集操作类型以及查询语句Q是针对单表还是多表的查询；如果查询语句Q是针对单表的查询，则MapReduce在线化执行计划模块启动一个MapReduce作业，执行步骤4）；如果查询语句Q是针对多表的查询，则MapReduce在线化执行计划模块启动两个MapReduce作业，执行步骤5）；MapReduce在线化执行计划模块将启动的MapReduce作业传输至在线聚集处理层；4）在线聚集处理层对数据存储层的数据进行采样，在线聚集处理层根据采样数据对接收到的一个MapReduce作业进行处理，并将处理结果传输至应用接口层进行显示；5）在线聚集处理层对数据存储层的数据进行采样，在线聚集处理层根据采样数据对接收到的两个MapReduce作业进行处理，并将处理结果传输至应用接口层进行显示。

所述步骤4）中，在线聚集处理层根据采样数据对接收到的一个MapReduce作业进行处理，其包括以下步骤：（1）利用简单随机采样方法，数据采样模块对数据存储器中的源数据进行块级别的随机采样，采样得到的数据块传输至MapReduce作业计算模块中；（2）MapReduce作业计算模块对接收到的数据块进行计算，得到采样数据块中变量的标准差σ_n和统计函数exp_p(B_i)，并将标准差σ_n和统计函数exp_p(B_i)分别传输至置信区间计算模块和聚集结果估算模块；（3）根据接收到的统计函数exp_p(B_i)，聚集结果估算模块利用式

{\tilde{μ}}_{blk} = \frac{1}{nB} Σ_{i = 1}^{n} Σ_{j = 1}^{B} X_{ij} = \frac{1}{n} Σ_{i = 1}^{n} Σ_{j = 1}^{B} \frac{| R | \exp_{p} (t_{ij})}{B} = \frac{1}{n} Σ_{i = 1}^{n} N * \exp_{p} (B_{i}),

计算得到聚集结果并传输至置信区间计算模块；式中，B为独立的数据块的大小，n为大小为B的独立的数据块的个数，|R|为表R包含的元组数，t_ij表示数据块i中的第j条元组，|R|*exp_p(t_ij)表示随机变量；（4）置信区间计算模块根据接收到的聚集结果

和置信区间宽度ε_n，计算得到聚集结果的100p%置信区间为

ε_n为置信度为100p%时的置信区间宽度；（5）重复步骤（1）～（4），直至根据用户对置信度的需求停止在线聚集系统的运行，并将当前计算得到的聚集结果和置信区间均传输至结果显示模块进行显示。

所述步骤（2）中，MapReduce作业对接收到的数据块进行计算，其具体包括以下步骤：①根据解析结果中的查询谓词，Map阶段的Map函数过滤采样得到的数据块中的元组，并将过滤后得到的元组t转化成键-值对，设置元组t的分组属性值为键，设置基于元组t的操作值exp_p(t)为值；②在每个采样得到的数据块中，将属于同一个分组的若干键-值对累加形成一个键-值对，合并输出一个由两个双精度数值构成的结构体；③将所有属于同一个分组的键-值对传输至同一个reduce函数上；每当估计操作被触发时，reduce函数就开始执行，计算得到给定样本中变量的标准差σ_n和统计函数exp_p(B_i)。

所述步骤5）中，在线聚集处理层根据采样数据对接收到的两个MapReduce作业进行处理，其具体包括以下步骤：（1）利用两阶段分层采样方法，数据采样模块对数据存储器中的源数据进行采样，并将采样得到的数据传输至MapReduce作业计算模块中；（2）MapReduce作业计算模块32根据接收到的两个MapReduce作业，启动负责表的连接操作的任务Job1和负责复杂聚集操作的任务Job2；（3）在MapReduce作业计算模块中，通过任务Job1对接收到的采样数据进行连接操作；（4）与步骤4）中查询方式相同，任务Job2对查询语句Q完成聚集查询，利用得到的给定样本中变量的标准差σ_n和统计函数exp_p(B_i)，根据式

{\tilde{μ}}_{blk} = \frac{1}{nB} Σ_{i = 1}^{n} Σ_{j = 1}^{B} X_{ij} = \frac{1}{n} Σ_{i = 1}^{n} Σ_{j = 1}^{B} \frac{| R | \exp_{p} (t_{ij})}{B} = \frac{1}{n} Σ_{i = 1}^{n} N * \exp_{p} (B_{i}),

分别在聚集结果估计模块和置信区间计算模块中计算每个分组的聚集结果和置信区间；式中，B为独立的数据块的大小，n为大小为B的独立的数据块的个数，|R|为表R包含的元组数，t_ij表示数据块i中的第j条元组，|R|*exp_p(t_ij)表示随机变量；（5）重复步骤（1）～（4），直至根据用户对置信度的需求停止在线聚集系统的运行，并将当前得到的聚集结果和置信区间传输至结果显示模块进行显示。

所述步骤（1）中，利用两阶段分层采样方法，数据采样模块对数据存储器中的源数据进行采样，其具体包括以下步骤：①在负责连接操作的MapReduce作业的Map任务之前，数据采样模块对数据存储器中的源数据进行第一阶段的采样；②Map任务对第一阶段的采样数据进行处理后，为了保证具有相同连接键值的元组会被分配到同一个reduce任务中处理，根据接键-值进行重分区；③在负责连接操作的MapReduce作业的reduce任务之前，数据采样模块对步骤②处理后的第一阶段的采样数据进行采样。

本发明由于采取以上技术方案，其具有以下优点：1、本发明由于数据采样模块利用简单随机采样方法对数据存储器中的源数据进行块级别的随机采样，并将采样得到的数据块传输至一个MapReduce作业中，MapReduce作业对接收到的数据块进行计算，得到数据块的聚集结果和置信区间，因此本发明能够在MapReduce环境下实现单表在线聚集。2、本发明由于数据采样模块利用两阶段分层采样方法对数据存储器中的源数据进行采样，并将采样得到的数据块传输至两个MapReduce作业中，MapReduce作业启动Job1和Job2两个任务，任务Job1对采样得到的数据进行连接操作，Job2对查询语句Q完成聚集查询，得到数据块的聚集结果和置信区间，因此本发明能够在MapReduce环境下实现多表在线聚集。3、本发明由于在云计算环境下进行单表和多表的在线聚集时，根据用户对置信度的需求，能够停止在线聚集系统的运行，因此用户采用本发明时能够提前终止查询过程，节省所耗费的云计算环境的资源。基于以上优点，本发明可以广泛应用于云计算环境中。

附图说明

图1是云计算环境下的在线聚集框架结构图

图2是云计算环境下的在线聚集方法的流程图

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本发明的数据在线聚集方法是基于在线聚集系统实现的，如图1所示，在线聚集系统包括应用接口层1、查询处理层2、在线聚集处理层3和数据存储层4。应用接口层1根据用户需求设定SQL语句；为用户提供SQL和查询结果的展示，并将在线聚集结果以数字或图形化的形式实时展现给用户。应用接口层1将用户提交的SQL语句传输至查询处理层2，查询处理层2对用户提交的SQL语句进行语法分析后转化成MapReduce在线化执行计划，并传输至在线聚集处理层3。根据接收到的MapReduce在线化执行计划，在线聚集处理层3启动一个或两个MapReduce作业，并对数据存储层4中的数据进行采样，根据采样得到的数据，启动的MapReduce作业持续进行聚集结果的估算和置信区间的计算，并将计算结果传输至应用接口层1进行显示。

如图2所示，本发明的数据在线聚集方法包括以下步骤：

1）在线聚集系统中，在应用接口层1设置SQL接口模块11和结果显示模块12，在查询处理层2设置语法分析模块21和MapReduce在线化执行计划模块22，在在线聚集处理层3设置数据采样模块31、MapReduce作业计算模块32、聚集结果估算模块33和置信区间计算模块34，在数据存储层4设置若干数据存储器41。

2）在应用接口层1，SQL接口模块11根据用户需求设定SQL查询语句Q，并将查询语句Q传输至查询处理层2。

3）语法分析模块21对接收到的查询语句Q进行解析，并将解析结果传输至MapReduce在线化执行计划模块22。其中，解析结果包括查询语句Q所涉及的数据、查询谓词、聚集操作类型以及查询语句Q是针对单表还是多表的查询。

如果查询语句Q是针对单表的查询，则MapReduce在线化执行计划模块22启动一个MapReduce（一种编程模型）作业(Job)，执行步骤4）；如果查询语句Q是针对多表的查询，则MapReduce在线化执行计划模块22启动两个MapReduce作业，执行步骤5）；MapReduce在线化执行计划模块22将启动的MapReduce作业传输至在线聚集处理层3。

4）在线聚集处理层3对数据存储层4的数据进行采样，在线聚集处理层3根据采样数据对接收到的一个MapReduce作业进行处理，并将处理结果传输至应用接口层1进行显示，其具体包括以下步骤：

（1）利用简单随机采样方法，数据采样模块31对数据存储器41中的源数据进行块级别的随机采样，并将采样得到的数据块传输至MapReduce作业计算模块32中。

（2）在MapReduce作业计算模块32中一个完整的MapReduce作业包括Map和Reduce两个阶段，Map阶段的任务由Map函数完成，Reduce阶段的任务由Reduce函数完成；MapReduce作业计算模块32对接收到的数据块进行计算，得到采样数据块中变量的标准差σ_n和统计函数exp_p(B_i)，并将标准差σ_n和统计函数exp_p(B_i)分别传输至置信区间计算模块34和聚集结果估算模块33，其包括以下步骤：

①根据解析结果中的查询谓词，Map阶段的Map函数过滤采样得到的数据块中的元组，并将过滤后得到的元组t转化成键-值对（key-value），其中，设置元组t的分组属性值为键，设置基于元组t的操作值exp_p(t)为值。

②为减少数据传输代价，在每个采样得到的数据块中，将属于同一个分组的若干键-值对累加形成一个键-值对，合并输出一个由两个双精度数值构成的结构体。其中，第一个双精度值用于计算变量的均值，第二个双精度值用于在Reduce阶段计算变量的方差。

③将所有属于同一个分组的键-值对传输至同一个reduce函数上。每当估计操作被触发时，reduce函数就开始执行，计算得到采样数据块中变量的标准差σ_n和统计函数exp_p(B_i)，并将标准差σ_n和统计函数exp_p(B_i)分别传输至置信区间计算模块34和聚集结果估算模块33。

（3）根据接收到的统计函数exp_p(B_i)，聚集结果估算模块33利用式

{\tilde{μ}}_{blk} = \frac{1}{nB} Σ_{i = 1}^{n} Σ_{j = 1}^{B} X_{ij} = \frac{1}{n} Σ_{i = 1}^{n} Σ_{j = 1}^{B} \frac{| R | \exp_{p} (t_{ij})}{B} = \frac{1}{n} Σ_{i = 1}^{n} N * \exp_{p} (B_{i}) - - - (1)

计算得到聚集结果

并传输至置信区间计算模块34。

式（1）中，B为独立的数据块的大小，n为大小为B的独立的数据块的个数，|R|为表R包含的元组数，t_ij表示数据块i中的第j条元组，|R|*exp_p(t_ij)表示随机变量。

（4）置信区间计算模块34将接收到的聚集结果

看作是Y_i的均值，其中，Y_i＝N*exp_p(B_i)。由于数据块是利用简单随机采样方法得到的，因此Y_i是独立同分布的随机变量，根据中心极限定理，Y_i的均值近似服从正态分布。

置信区间计算模块34根据接收到的标准差σ_n，计算得到置信度为100p%的置信区间宽度ε_n为：

ϵ_{n} = z_{p} σ_{n} / \sqrt{n} - - - (2)

式（2）中，z_p是标准正态分布中的p分位数。

置信区间计算模块34根据聚集结果和置信区间宽度ε_n，计算得到聚集结果的100p%置信区间为

[{\tilde{μ}}_{blk} - ϵ_{n}, {\tilde{μ}}_{blk} + ϵ_{n}] .

（5）重复步骤（1）～（4），直至根据用户对置信度的需求停止在线聚集系统的运行，并将当前计算得到的聚集结果和置信区间均传输至结果显示模块12进行显示。

5）在线聚集处理层3对数据存储层4的数据进行采样，在线聚集处理层3根据采样数据对接收到的两个MapReduce作业进行处理，并将处理结果传输至应用接口层1进行显示，其具体包括以下步骤：

（1）利用两阶段分层采样方法，数据采样模块31对数据存储器41中的源数据进行采样，并将采样得到的数据传输至MapReduce作业计算模块32中，其具体包括以下步骤：

①在负责连接操作的MapReduce作业的Map任务之前，数据采样模块31对数据存储器41中的源数据进行第一阶段的采样。

②Map任务对第一阶段的采样数据进行处理后，为了保证具有相同连接键值（key）的元组会被分配到同一个reduce任务中处理，根据接键-值进行重分区。

③在负责连接操作的MapReduce作业的reduce任务之前，数据采样模块31对步骤②处理后的第一阶段采样数据再次采样。

（2）MapReduce作业计算模块32根据接收到的两个MapReduce作业，启动两个任务：Job1和Job2，其中，Job1负责表的连接操作，Job2负责复杂聚集操作。

（3）在MapReduce作业计算模块32中，通过任务Job1对接收到的采样数据进行连接操作。

（4）与步骤4）中查询方式相同，任务Job2对查询语句Q完成聚集查询，利用得到的给定样本中变量的标准差σ_n和统计函数exp_p(B_i)，根据式（1），分别在聚集结果估计模块33和置信区间计算模块34中计算每个分组的聚集结果和置信区间。

（5）重复步骤（1）～（4），直至根据用户对置信度的需求，停止在线聚集系统的运行，并将当前计算得到的聚集结果和置信区间传输至结果显示模块12进行显示。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和方法步骤等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种云计算环境下的数据在线聚集方法，其包括以下步骤：

1）在线聚集系统中，在应用接口层设置SQL接口模块和结果显示模块，在查询处理层设置语法分析模块和MapReduce在线化执行计划模块，在在线聚集处理层设置数据采样模块、聚集结果估算模块和置信区间计算模块，在数据存储层设置若干数据存储器；

2）在应用接口层，SQL接口模块根据用户需求设定SQL查询语句Q，并将查询语句Q传输至查询处理层；

3）语法分析模块对接收到的查询语句Q进行解析，并将解析结果传输至MapReduce在线化执行计划模块；解析结果包括查询语句Q所涉及的数据、查询谓词、聚集操作类型以及查询语句Q是针对单表还是多表的查询；

如果查询语句Q是针对单表的查询，则MapReduce在线化执行计划模块启动一个MapReduce作业，执行步骤4）；如果查询语句Q是针对多表的查询，则MapReduce在线化执行计划模块启动两个MapReduce作业，执行步骤5）；MapReduce在线化执行计划模块将启动的MapReduce作业传输至在线聚集处理层；

4）在线聚集处理层对数据存储层的数据进行采样，在线聚集处理层根据采样数据对接收到的一个MapReduce作业进行处理，并将处理结果传输至应用接口层进行显示；

5）在线聚集处理层对数据存储层的数据进行采样，在线聚集处理层根据采样数据对接收到的两个MapReduce作业进行处理，并将处理结果传输至应用接口层进行显示。

2.如权利要求1所述的一种云计算环境下的数据在线聚集方法，其特征在于：所述步骤4）中，在线聚集处理层根据采样数据对接收到的一个MapReduce作业进行处理，其包括以下步骤：

（1）利用简单随机采样方法，数据采样模块对数据存储器中的源数据进行块级别的随机采样，采样得到的数据块传输至MapReduce作业计算模块中；

（2）MapReduce作业计算模块对接收到的数据块进行计算，得到采样数据块中变量的标准差σ_n和统计函数exp_p(B_i)，并将标准差σ_n和统计函数exp_p(B_i)分别传输至置信区间计算模块和聚集结果估算模块；

（3）根据接收到的统计函数exp_p(B_i)，聚集结果估算模块利用式

{\tilde{μ}}_{blk} = \frac{1}{nB} Σ_{i = 1}^{n} Σ_{j = 1}^{B} X_{ij} = \frac{1}{n} Σ_{i = 1}^{n} Σ_{j = 1}^{B} \frac{| R | \exp_{p} (t_{ij})}{B} = \frac{1}{n} Σ_{i = 1}^{n} N * \exp_{p} (B_{i}),

计算得到聚集结果并传输至置信区间计算模块；

式中，B为独立的数据块的大小，n为大小为B的独立的数据块的个数，|R|为表R包含的元组数，t_ij表示数据块i中的第j条元组，|R|*exp_p(t_ij)表示随机变量；

（4）置信区间计算模块根据接收到的聚集结果

和置信区间宽度ε_n，计算得到聚集结果的100p%置信区间为

ε_n为置信度为100p%时的置信区间宽度；

（5）重复步骤（1）～（4），直至根据用户对置信度的需求停止在线聚集系统的运行，并将当前计算得到的聚集结果和置信区间均传输至结果显示模块进行显示。

3.如权利要求2所述的一种云计算环境下的数据在线聚集方法，其特征在于：所述步骤（2）中，MapReduce作业对接收到的数据块进行计算，其具体包括以下步骤：

①根据解析结果中的查询谓词，Map阶段的Map函数过滤采样得到的数据块中的元组，并将过滤后得到的元组t转化成键-值对，设置元组t的分组属性值为键，设置基于元组t的操作值exp_p(t)为值；

②在每个采样得到的数据块中，将属于同一个分组的若干键-值对累加形成一个键-值对，合并输出一个由两个双精度数值构成的结构体；

③将所有属于同一个分组的键-值对传输至同一个reduce函数上；每当估计操作被触发时，reduce函数就开始执行，计算得到给定样本中变量的标准差σ_n和统计函数exp_p(B_i)。

4.如权利要求1或2或3所述的一种云计算环境下的数据在线聚集方法，其特征在于：所述步骤5）中，在线聚集处理层根据采样数据对接收到的两个MapReduce作业进行处理，其具体包括以下步骤：

（1）利用两阶段分层采样方法，数据采样模块对数据存储器中的源数据进行采样，并将采样得到的数据传输至MapReduce作业计算模块中；

（2）MapReduce作业计算模块32根据接收到的两个MapReduce作业，启动负责表的连接操作的任务Job1和负责复杂聚集操作的任务Job2；

（3）在MapReduce作业计算模块中，通过任务Job1对接收到的采样数据进行连接操作；

（4）与步骤4）中查询方式相同，任务Job2对查询语句Q完成聚集查询，利用得到的给定样本中变量的标准差σ_n和统计函数exp_p(B_i)，根据式

{\tilde{μ}}_{blk} = \frac{1}{nB} Σ_{i = 1}^{n} Σ_{j = 1}^{B} X_{ij} = \frac{1}{n} Σ_{i = 1}^{n} Σ_{j = 1}^{B} \frac{| R | \exp_{p} (t_{ij})}{B} = \frac{1}{n} Σ_{i = 1}^{n} N * \exp_{p} (B_{i}),

分别在聚集结果估计模块和置信区间计算模块中计算每个分组的聚集结果和置信区间；

（5）重复步骤（1）～（4），直至根据用户对置信度的需求停止在线聚集系统的运行，并将当前得到的聚集结果和置信区间传输至结果显示模块进行显示。

5.如权利要求4所述的一种云计算环境下的数据在线聚集方法，其特征在于：所述步骤（1）中，利用两阶段分层采样方法，数据采样模块对数据存储器中的源数据进行采样，其具体包括以下步骤：

①在负责连接操作的MapReduce作业的Map任务之前，数据采样模块对数据存储器中的源数据进行第一阶段的采样；

②Map任务对第一阶段的采样数据进行处理后，为了保证具有相同连接键值的元组会被分配到同一个reduce任务中处理，根据接键-值进行重分区；

③在负责连接操作的MapReduce作业的reduce任务之前，数据采样模块对步骤②处理后的第一阶段的采样数据进行采样。