CN110597857A

CN110597857A - 一种基于共享样本的在线聚集方法

Info

Publication number: CN110597857A
Application number: CN201910811714.3A
Authority: CN
Inventors: 温延龙; 李云; 袁晓洁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-20
Anticipated expiration: 2039-08-30
Also published as: CN110597857B

Abstract

一种基于共享样本的在线聚集方法，属于数据库技术应用领域。该方法包括：基于查询子句的特征和数据表特征，在线生成样本表；建立样本缓存池，将创建好的样本存储在样本缓存池中备用；指定共享样本的策略，当新的查询到来时，首先去样本缓存池中查询是否有需要的样本，如果没有的话再创建新的样本。相比于离线采样的方法来说，本发明在创建样本时考虑到了查询的特征，能够使查询所使用的样本更有效。同时，本发明适用于处理多条连续查询，通过样本缓存池存储样本和不同查询之间共享样本，避免重复创建样本，提高了连续查询的查询效率。

Description

一种基于共享样本的在线聚集方法

技术领域

本发明属于数据库技术领域，具体涉及一种基于共享样本的在线聚集技术。

背景技术

随着政府管理，医疗服务，零售，制造和定位服务领域数据的爆炸式增长，其带来的巨大社会价值，商业价值和科研价值也不容忽视。为了充分利用数据价值，需要获取大量的数据统计特征用于支持系统决策。大数据上的聚合查询操作是一种实用的统计手段，然而在海量数据上进行查询得到一个精确结果需要耗费大量的时间，这样的时间消耗对于用户来说是不可以接受的。在线聚集是一种基于采样的近似查询技术，能够在较短的时间内返回一个带有置信区间的估计结果，如果估计结果能够和精确结果带来相同的决策，那么利用在线聚集技术将会大大提高查询效率。然而现有的在线聚集技术通常在离线模式下预先创建样本表，这样创建的样本完全依赖于数据而无法捕捉到查询的特点，因此无法保证不同查询所用采样独立性。

为了解决离线采样所带来的问题，并同时保证在线聚集的查询效率，需要设计一种针对查询需求创建样本的采样策略。若能够针对查询需求创建样本，同时设计共享样本的策略以节省重复创建样本的时间，将会提高在线聚集查询的准确度和效率。

发明内容

本发明目的是解决离线采样的在线聚集技术无法捕获查询特点而带来的问题，提出了一种在线采样和共享样本的在线聚集方法。根据查询特点，结合底层数据分布，在线创建样本。建立样本缓存池，用于存储已经创建的样本。制定样本共享策略，不同的查询之间可以共享样本，以此节省创建样本的时间提高连续查询的效率。

本发明提供的基于共享样本的在线聚集方法的具体步骤如下：

第1、根据查询子句特征和数据表的数据特征，以在线的方式创建适合特定查询的有效样本；

第1.1、提取SQL聚集查询q的特征

定义1：聚集查询q是具有如下形式的一个查询SQL查询，

SELECT agg(a_i)

FROM relation_r

WHERE condition_c

GROUP BY groupbys

其中：

SELECT语句用于从数据表中选取数据，结果被存储在一个结果表中；

agg为查询的聚合类型，它可以是SUM、COUNT或AVG三种函数中的一种；SUM()函数返回数值列的总数(总额)，COUNT()函数返回匹配指定条件的行数，AVG()函数返回数值列的平均值其中NULL值不包含在计算中；

a_i为数据表中的某一列，该列必须是数值类型的；

FROM语句用于指定数据表；

relation_r为数据库中的一张关系表，它是一个单独的事实表，或是两个或多个事实表经过连接操作得到的一张关系表；

WHERE语句用于有条件地从表中选取数据；

condition_c是WHERE语句后面的条件语句。每个条件可以用一个三元组attribute、operatot、value表示，其中attribute为列名称，operatot为运算符，value为值；

GROUP BY语句用于结合合计函数，根据一个或多个列对结果集进行分组；

groupbys为分组的列名称，可以是一列也可以是多个列；

第1.2、根据聚集查询q的特征和数据表的数据特征创建样本表T_s；

定义2：样本表T_s是原始表T的一个子集，T中的元组用t表示，样本表有三种类型：均一样本、哈希样本和分层样本；

定义3：一个均一样本T_s，它是指以相同的概率p对原始数据表T进行采样，T_s＝{t|P(t)＝p}，其中

P(t)为元组t被采样的概率；

p为用户指定的采样概率，p∈[0，1]；

定义4：一个基于C的哈希样本T_s，T_s＝{t|h(t.C)＜p}，其中：

C为数据表中的列集合，t.C为元组t上列C的取值；

h(·)是一个统一的哈希函数，它将C中的每个值映射为[0，1]上的实数；

定义5：一个基于C的分层样本Ts，列集合C的不同取值为T_s满足：

其中：

d_C为列集合C的不同取值的个数；

是一个选择函数，将T中C取值为ci的元组选择出来；

第2、建立样本缓存池用于存储创建好的样本表；

第2.1、在底层数据库上创建新的模式用于存储样本表，在新的模式中创建两个表用于存储样本表的元数据信息，分别为meta_name和meta_size；

第2.2、将新创建的样本表存储在样本缓存池中，同时在meta_name和meta_size中插入该样本表的原始数据信息，样本表的命名规则如下：

原始数据表名称为table；

用户指定的采样概率为p；

指定的数据列为C；

一个均一样本命名为uf_table_p；

一个哈希样本命名为hs_table_p_C；

一个分层样本命名为st_table_p_C；

第3、当新的查询到来时，访问样本生成器，得到有效样本的样本名，如果样本缓存池中包含该样本则直接使用，否则按照步骤1创建新的样本表，将SQL查询重写以在样本表上执行该查询，重写的SQL查询提交到底层数据库执行并返回结果；

定义6：t_s代表创建样本表的时间，它是指我们的系统为特定的查询创建一个新的样本所需的时间。

定义7：t_p代表处理查询的时间，它是指我们的系统为特定的查询找到有效的样本表并且在该样本表上执行该查询并返回估计结果所需的时间。

定义8：t_l代表查询延迟时间，它是指我们的系统为特定的查询提交后到返回估计结果所用时间，即t_l＝t_s+t_p；

定义9：t_e代表查询在传统数据库的执行时间，它是指在不借助在线聚集技术的传统数据库中执行特定查询并返回结果所需的时间；

第3.1、当一条查询到来时，根据查询生成所需的样本表名称，如果在样本缓存池meta_name表中未找到该条数据项，则创建相应的样本表；如果在样本缓存池meta_name表中找到，则无需创建该样本表；

第3.2、当查询q₀到来时，系统会为其创建样本表创建该样本表的时间处理该查询的时间为因此的查询延迟时间为假设有r条之后到来的查询可以与查询q₀共享样本，它们的查询处理时间分别为那么这r+1条查询的平均查询延迟为当r足够大时，平均查询延迟为即创建样本的时间平均分配到这r+1条查询时对查询延迟的影响就会变得很小。

本发明的优点和有益效果：

本发明通过对当前国内外在线聚集技术的研究分析，提出一种基于共享样本的在线聚集方法，可以根据查询特征在线创建样本，并利用样本缓存池和共享样本策略提高多条连续查询的查询效率。相比于离线采样的方法来说，本发明在创建样本时考虑到了查询的特征，能够使查询所使用的样本更有效。同时，本发明适用于处理多条连续查询，通过样本缓存池存储样本和不同查询之间共享样本，避免重复创建样本，提高了连续查询的查询效率。

附图说明

图1方法总流程图；

图2为样本生成器内部流程示意图。

图3查询模板；

图4由T1和T3模板生成的两条查询；

图5meta_name表和meta_size表中的字段及其含义；

图6平均查询延迟与查询条数的关系；

图7创建样本所花费的时间代价。

图8创建样本所花费的空间代价。

具体实施方式

本发明方法的处理流程如图1和附图2所示。

下面结合实施例介绍本发明方法的具体实施方式，我们的方法用于解决面向多条连续查询的在线聚集问题，图3所示为四个查询模板，用于生成多条连续查询。我们利用T1、T2、T3和T4四个模板分别生成了200条随机查询。以下结合实施例介绍本发明方法的具体步骤：

步骤1：根据查询子句特征和数据表的数据特征，以在线的方式创建适合特定查询的有效样本。

第1.1、提取SQL聚集查询的特征

定义1：聚集查询q是具有如下形式的一个查询SQL查询，

SELECT agg(a_i)

FROM relation_r

WHERE condition_c

GROUP BY groupbys

其中：

agg为查询的聚合类型，它可以是SUM、COUNT和AVG三种函数中的一种。SUM()函数返回数值列的总数(总额)，COUNT()函数返回匹配指定条件的行数，AVG()函数返回数值列的平均值(NULL值不包含在计算中)；

a_i为数据表中的某一列，该列必须是数值类型的；

FROM语句用于指定数据表；

relation_r为数据库中的一张关系表，它可以是一个单独的事实表，也可以是两个或多个事实表经过连接操作得到的一张关系表；

WHERE语句用于有条件地从表中选取数据；

condition_c是WHERE语句后面的条件语句。每个条件可以用一个三元组(attribute，operator，value)表示，其中attribute为列名称，operatot为运算符，value为值；

groupbys为分组的列名称，可以是一列也可以是多个列；

第1.2、根据聚集查询q的特征和数据表的数据特征创建样本表T_s。

定义2：样本表T_s是原始表T的一个子集，T中的元组用t表示。样本表可以有三种类型：均一样本、哈希样本和分层样本；

定义3：一个均一样本T_s，它是指以相同的概率p对原始数据表T进行采样，T_s＝{t|P(t)＝p}。其中

P(t)为元组t被采样的概率；

p为用户指定的采样概率，p∈[0，1]；

定义4：一个基于C的哈希样本T_s，T_s＝{t|h(t.C)＜p}，其中：

C为数据表中的列集合，t.C为元组t上列C的取值；

定义5：一个基于C的分层样本T_s，列集合C的不同取值为T_s满足：

其中：

d_C为列集合C的不同取值的个数；

是一个选择函数，将T中C取值为c_i的元组选择出来。

本实施例中，我们以在线的模式生成查询样本，对于查询集合中的每一条查询，都要得到有效的查询样本。我们根据SQL查询的特点从查询中提取特征，获得查询涉及的表、WHERE语句后涉及的列和GROUP-BY涉及的分组列等特征。当查询在单表上进行时，如果该查询包含GROUP-BY语句，则根据GROUP-BY分组列创建该表的分层样本；如果不包含GROUP-BY语句，则生成一个随机样本或者基于WHERE属性的哈希样本。假设T1和T3模板分别生成的一条语句如图4所示，系统为其创建的样本分别为st_lineitem_0_7returnflag和uf_lineitem_0_7(hs_lineitem_0_7_quantity)。在线创建样本算法具体实现的伪代码如下：

算法1：在线创建样本算法

输入：SQL查询q

输出：针对查询q的样本表

步骤2：建立样本缓存池用于存储创建好的样本表。

在底层数据库上创建新的模式用于存储样本表，在新的模式中创建两个表用于存储样本表的元数据信息，分别为meta_name和meta_size，将新创建的样本表存储在样本缓存池中，同时在meta_name和meta_size中插入该样本表的原始数据信息，样本表的命名规则如下：a)原始数据表名称为table；b)用户指定的采样概率为p；c)指定的数据列为C；d)一个均一样本命名为uf_table_p；e)一个哈希样本命名为hs_table_p_C；f)一个分层样本命名为st_table_p_C。这两张表包含的字段及其含义如图5所示。以步骤1中生成的一张样本表st_lineitem_0_7_returnflag为例，原始数据库模式为tpch，原始表的大小为15000000，样本表所在的数据库模式为tpch_less，则在meta_name和meta_size中与该样本表相关的数据分别为(tpch，lineitem，tpch_less，st_lineitem_07returnflag，stratified，0.7，returnflag)和(tpch_less，st_lineitem_0_7_returnf2ag，stratified，0.7，returnflag)。

步骤3：利用共享样本策略在不同查询之间共享样本。

当新的查询到来时，访问样本生成器，根据算法1得到有效样本的样本名。如果样本缓存池中包含该样本则直接使用，否则按照步骤1创建新的样本表。将SQL查询重写以在样本表上执行该查询，重写的SQL查询提交到底层数据库执行并返回结果。本步骤中做如下定义：t_s代表创建样本表的时间，它是指我们的系统为特定的查询创建一个新的样本所需的时间。t_p代表处理查询的时间，它是指我们的系统为特定的查询找到有效的样本表并且在该样本表上执行该查询并返回估计结果所需的时间。t_l代表查询延迟时间，它是指我们的系统为特定的查询提交后到返回估计结果所用时间，即t_l＝t_s+t_p；t_e代表查询在传统数据库的执行时间，它是指在不借助在线聚集技术的传统数据库中执行特定查询并返回结果所需的时间。第3.1、当一条查询到来时，根据查询生成所需的样本表名称，如果在样本缓存池meta_name表中未找到该条数据项，则创建相应的样本表；如果在样本缓存池meta_name表中找到，则无需创建该样本表；第3.2、当查询q₀到来时，系统会为其创建样本表创建该样本表的时间处理该查询的时间为因此的查询延迟时间为假设有r条之后到来的查询可以用，它们的查询处理时间分别为那么这r+1条查询的平均查询延迟为当r足够大时，平均查询延迟为即创建样本的时间平均分配到这r+1条查询时对查询延迟的影响就会变得很小。

本实施例中，我们在PostgreSQL上执行了根据T1、T2、T3和T4这四个模板生成的查询集合，记录了每个查询集合的平均查询延迟。接着，我们利用共享样本的方法执行了上述插叙，记录它们的平均查询延迟，每个查询集合中的平均查询延迟与查询条数的关系如图6所示。针对数据库中常被访问的三张表lineitem、orders和partsupp，我们在这三张表上分别用不共享样本的方法和共享样本的方法执行查询，分别记录了在满足查询需求的情况下创建样本所花费的时间和空间，结果如图7和图8所示。

Claims

1.一种基于共享样本的在线聚集方法，该方法以共享样本的思想为基础，以在线的方式为提交的查询创建有效的样本，同时通过样本缓存池和共享样本策略提高查询效率，在保证每条查询都能利用有效样本的基础上，降低了多条连续查询的平均查询延迟；该方法详细步骤如下：

第1.1、提取SQL聚集查询q的特征；

第2、建立样本缓存池用于存储创建好的样本表；

第2.2、将新创建的样本表存储在样本缓存池中，同时在meta_name和meta_size中插入该样本表的原始数据信息；

第3、当新的查询到来时，访问样本生成器，得到有效样本的样本名，如果样本缓存池中包含该样本则直接使用，否则按照步骤1创建新的样本表，将SQL查询重写以在样本表上执行该查询，重写的SQL查询提交到底层数据库执行并返回结果。

2.根据权利要求1所述的基于共享样本的在线聚集方法，其特征是：

步骤第1.1中，聚集查询q是具有如下形式的一个查询SQL查询，

SELECT agg(a_i)

FROM relation_r

WHERE condition_c

GROUP BY groupdys

其中：

agg为查询的聚合类型，它可以是SUM、COUNT或AVG三种函数中的一种；SUM()函数返回数值列的总数(总额)，COUNT()函数返回匹配指定条件的行数，AVG()函数返回数值列的平均值，其中NULL值不包含在计算中；

a_i为数据表中的某一列，该列必须是数值类型的；

FROM语句用于指定数据表；

WHERE语句用于有条件地从表中选取数据；

condition_c是WHERE语句后面的条件语句，每个条件可以用一个三元组attribute、operatot、value表示，其中attribute为列名称，operatot为运算符，value为值；

groupbys为分组的列名称，可以是一列也可以是多个列。

3.根据权利要求1所述的基于共享样本的在线聚集方法，其特征是：

步骤1.2中，样本表T_s是原始表T的一个子集，T中的元组用t表示，样本表有三种类型：均一样本、哈希样本和分层样本。

4.根据权利要求1所述的基于共享样本的在线聚集方法，其特征是步骤第3中包括：

第3.2、当查询q₀到来时，系统会为其创建样本表创建该样本表的时间处理该查询的时间为因此的查询延迟时间为假设有r条之后到来的查询可以用，它们的查询处理时间分别为那么这r+1条查询的平均查询延迟为当r足够大时，平均查询延迟为即创建样本的时间平均分配到这r+1条查询时对查询延迟的影响就会变得很小；

t_s代表创建样本表的时间，它是指我们的系统为特定的查询创建一个新的样本所需的时间；

t_p代表处理查询的时间，它是指我们的系统为特定的查询找到有效的样本表并且在该样本表上执行该查询并返回估计结果所需的时间；

t_l代表查询延迟时间，它是指我们的系统为特定的查询提交后到返回估计结果所用时间，即t_l＝t_s+t_p；

t_e代表查询在传统数据库的执行时间，它是指在不借助在线聚集技术的传统数据库中执行特定查询并返回结果所需的时间。

5.根据权利要求3所述的基于共享样本的在线聚集方法，其特征是：

一个均一样本T_s，它是指以相同的概率p对原始数据表T进行采样,T_s＝{t|P(t)＝p}，其中

P(t)为元组t被采样的概率；

p为用户指定的采样概率，p∈[0，1]；

一个基于C的哈希样本T_s，T_s＝{t|h(t.C)＜p}，其中：

C为数据表中的列集合，t.C为元组t上列C的取值；

一个基于C的分层样本T_s，列集合C的不同取值为T_s满足：

其中：

d_C为列集合C的不同取值的个数；

是一个选择函数，将T中C取值为c_i的元组选择出来。