CN109308303B

CN109308303B - 一种基于马尔可夫链的多表连接在线聚集方法

Info

Publication number: CN109308303B
Application number: CN201811093837.XA
Authority: CN
Inventors: 史英杰; 刘怡; 郭飞; 刘昊
Original assignee: Beijing Institute of Clothing Technology
Current assignee: Beijing Institute of Clothing Technology
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2021-08-27
Anticipated expiration: 2038-09-19
Also published as: CN109308303A

Abstract

本发明提出一种基于马尔可夫链的多表连接在线聚集方法，包括样本创建和在线聚集两个阶段，在所述样本创建阶段中，结合负载特征为原始数据集创建分层样本，分层依据为查询负载中的分组列集，使得列集在负载中出现的概率以及负载中的分组列集被覆盖的概率达到最大，基于确定好的分组列集以及索引的分布情况，确定各表的连接顺序，在马尔可夫链的游走起点创建分层样本；在所述在线聚集阶段中，对用户提交的多表连接查询语句进行解析，动态选择查询代价最小的样本进行分层采样，并确定从每个样本层中抽取样本的大小，进而估计查询结果及置信区间。

Description

一种基于马尔可夫链的多表连接在线聚集方法

技术领域

本发明涉及一种大数据分析方法，主要涉及一种基于马尔可夫链的多表连接在线聚集方法。

背景技术

社交媒体、移动设备及传感器以前所未有的速度持续产生着海量数据，探索这些数据背后蕴藏的价值已经成为目前工业界及学术界十分关注的问题，然而复杂的数据分析任务在海量数据上运行缓慢，使得分析结果的时效性和价值大打折扣，成为数据驱动任务发挥作用的瓶颈。即席交互式数据分析在决策支持、趋势分析及数据可视化等领域发挥重要的作用，成为目前大数据分析领域亟待解决的问题之一。在线聚集不断对部分样本数据进行处理，从而可以在较短时间内返回具有统计意义的估计结果，为即席交互式数据分析提供了一种全新的解决方案。在线聚集于上世纪90年代在关系数据库领域被首次提出，随后取得了一系列的研究成果，然而在关系数据库市场所带来的影响力十分有限。随着大数据与云计算平台的出现，新型的数据模式和数据管理方式为在线聚集带来了发展机会。然而目前在云计算平台的在线聚集研究大多关注单表上的操作，或者简单的两表连接，针对多表连接的研究工作还比较少。多表连接是决策支持、数据挖掘和分析中最重要的操作之一，在大数据决策支持应用的基准测试TPC-H中，22条查询语句中的17条是连接查询，最多涉及8表的连接。

相对于单表或两表连接在线聚集，针对多表连接的在线聚集处理方式更加复杂，已有的工作无法直接应用。首先，多表连接类型呈多样化，包括链式连接、非环型连接、环型连接等，不同连接类型的在线查询处理方法及结果估计方法均不相同；其次，多表连接的结果空间随着连接表数的增大呈指数级增长，而选择率通常较低，已有的采样方法将导致多表连接的结果产出率极低；第三，多表连接总体的数据分布不是由一个表简单决定，而是多个表相互影响的结果，已有的解决小分组等问题的算法无法应用。

Haas等人对该问题进行研究，并提出了ripple join算法。Ripple join从各连接表中轮流随机采样，并将样本数据放入内存。每当新的样本从其中一张表中读取出来，将会和其他表中已经读取到的所有数据进行连接，该过程反复执行，直至估计结果满足用户需求时停止。因为从各个表中抽取样本数据时并不考虑数据分布、查询负载等信息，所以当满足连接谓词的结果较少或者分组较多时，ripple join的估计结果产出率非常低。针对基本ripple join算法的不足，随后出现了对其扩展的研究工作，将ripple join算法进行了并行化处理，然而该方法并不具有扩展性，一旦内存无法再加载数据时，估计结果将不具有统计意义；现有技术其一将sort-merge思想应用到ripple join算法中，对内存换出到外存的数据进行随机化处理，从而保证估计结果的统计意义，并在引擎DBO上实现；现有技术其二对查询处理过程中的中间结果进行有效利用，从而进一步加快置信区间的收敛速度。总的来说，ripple join盲目的从各连接表中随机抽取数据，当连接谓词的选择率较低、或者连接结果的分组较多时，连接结果的产出率非常低，从而导致置信区间的收敛速度缓慢。现有技术其三的wander join算法，在连接数据表上进行随机游走，在游走过程中利用连接列上的索引确定游走方向，基于每次游走对结果进行估计。Wander join解决了ripple join在连接选择率较低时，估计结果产出率低的问题，然而当分组较多或数据倾斜出现时，仍然会出现置信区间收敛速度缓慢，甚至会出现小分组估计结果丢失的问题。

发明内容

针对上述问题，本发明提出一种基于马尔可夫链的多表连接在线聚集方法，将多表连接处理过程转化为马尔可夫链上的遍历游走过程，基于该模型在游走起点创建分层样本，并针对采样方法进行结果无偏估计和置信区间计算，有效解决了连接负载或数据倾斜导致的结果估计不准确及置信区间收敛速度缓慢的问题。

附图说明

图1为本发明从R₁到R₄的四表链式连接马尔可夫随机过程；

图2为本发明基于马尔可夫链的多表连接在线聚集流程图；

图3为本发明的四表连接类型图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出的一种基于马尔可夫链的多表连接在线聚集方法，采用四个表的自然连接说明其建模过程，设连接形式为：

SELECT op(exp(t_1i,t_2j,...,t_km))FROM R₁,R₂,R₃,R₄

WHERE R₁.A＝R₂.B and R₂.C＝R₃.D and R₃.E＝R₄.F GROUP BY col；

在上述查询表达式中，op是具体的聚集操作，exp是对元组的代数操作，col是分组列集。假设连接的顺序是R₁-R₂-R₃-R₄，将连接过程转化为从R₁到R₄的马尔可夫随机过程，如图1所示。图中节点表示各表中的元组，若两个节点满足连接谓词，则在两点间存在一条边。例如，t21与t31间存在一条边，表示满足条件t21.C＝t31.D。从t21还有可能游走到t32和t35，然而这种选择游走方向的概率和t21之前的路径无关，因此满足马尔可夫性质。从R₁中某一元组开始游走到R₄某一元组结束所形成的随机路径，即为一个连接结果。

本发明的基于马尔可夫链的多表连接在线聚集方法由样本创建和在线聚集两个阶段构成，如图2所示。样本创建阶段结合负载特征为原始数据集创建分层样本，分层依据为查询负载中的分组列集，使得列集在负载中出现的概率以及负载中的分组列集被覆盖的概率达到最大。基于确定好的分组列集以及索引的分布情况，确定各表的连接顺序，进而在马尔可夫链的游走起点创建分层样本。在线聚集阶段对用户提交的多表连接查询语句进行解析，动态选择查询代价最小的样本进行分层采样，进而估计查询结果及置信区间。

本发明将连接过程在马尔可夫链上进行建模，总体被看做从起始表元组到终点表元组的随机游走路线，分层样本的创建通过遍历马尔可夫链实现。除了链式连接，多表连接还包括非环型连接和环型连接。用节点表示连接表，节点间的边表示两表间存在连接关系，则四表的连接类型如图3所示。给定一个多表连接的查询，其实现连接的顺序有很多种，而不同的连接顺序对采样和结果估计的准确性及收敛速度产生不同的影响。在创建分层样本之前，本发明首先根据负载特征和索引分布情况确定连接顺序。以图3(a)中的链式连接为例，R₁-R₂-R₃-R₄以及R₃-R₄-R₂-R₁均是合理的连接顺序，而R₃-R₁-R₂-R₄则不是正确的连接顺序。多表连接顺序的确定准则如下。

设查询语句中参与连接的表有m个，则连接顺序R₁-R₂-R₃…R_m为合理连接顺序的充分必要条件为：对于连接顺序中的任意表R_i，排在R_i前面的表格中至少有一个与R_i有直接连接关系。

(1)当有两个表R₁与R₂进行连接时，连接顺序包括R₁-R₂或者R₂-R₁两种，显然满足条件。

(2)假设有k个表进行连接时，命题成立。

充分性：如果k个表的连接序列为R₁-R₂-R₃…R_k，且满足“排在R_i前面的表格中至少有一个与R_i有直接的连接关系”条件，则当增加一个表R_k+1参与连接时，将R_k+1表放置在原连接序列中R_i和R_i+1之间，且满足R₁-R_i的表中至少有一个与R_k+1有直接连接关系，则从R₁到R_k+1可完成连接，连接后的结果与R_i+1到R_k的序列也可完成连接，因此连接顺序合理。

必要性：如果k个表的连接顺序为R₁-R₂-R₃…R_k，且满足“排在R_i前面的表格中至少有一个与R_i有直接的连接关系”条件，则当增加一个表R_k+1参与连接时，将R_k+1表放置在原连接序列中R_i和R_i+1之间，且新的序列是合理的连接序列。则R₁到R_i的序列中必定至少有一张表与R_k+1存在直接连接关系，因此新的合理连接序列仍然满足直接连接关系的条件。

首先确定多表的连接顺序，其包括以下步骤：1)根据索引情况为连接图添加方向，若R_i与R_j间存在一条连接边，且R_j在连接列上有索引，则添加方向为R_i到R_j，反之亦然；2)设分组列集属于表R_i，从R_i开始对有向图进行顶点遍历生成连接序列，产生的连接序列为连接图的生成树。对于环型连接，所生成的连接序列没有包含全部连接关系，可在游走完成后，利用剩余的连接关系对游走的连接结果进行进一步筛选。对图3(c)中的查询，若分组列集位于表R₃，且生成的连接序列为：R₃-R₁-R₂-R₄，利用R₃-R₄的连接关系在游走完成后对连接结果进行筛选。

然后在游走起始点创建分层样本。本发明将分组列集所在表放置在马尔可夫链随机游走的起始端，基于起始端的数据表R_s创建分层样本的游走起始层。针对单表查询创建分层样本时，样本总体即为原始表数据，因此直接根据分组列集进行分层，各样本层中元组的个数即为层大小。在多表连接的在线聚集中，样本总体为多表连接的结果，无法通过单独扫描任何一个表格得到分层样本。针对R_s中的任一元组ti，基于马尔可夫链从ti进行游走，计算与该元组相关联的连接结果的个数，从而进一步确定ti所在起始层的大小。在游走起始点创建分层样本包括以下步骤：1)根据分组列集将游走起始表分成多个分区，每个分区即为分层样本的一层，每层的大小由以该层中所有元组开始游走的路径数决定；2)扫描每个分区内的各个元组，并计算各元组为游走起始点的连接结果数，从而创建分层样本起始层。

所述步骤2)中，游走起始点连接结果数的确定方法为getJoinSize，其具体实现包括以下步骤：(1)给定游走起始元组t，沿着t所在表的所有邻接表开始游走。若连接的邻接表R’在连接图中的连接度小于2，则说明R’是“边缘表”，调用游走分支路径条数确定算法getPathNum计算分支路径的条数；否则，说明R’还能沿着连接序列继续游走，递归调用算法getJoinSize获取连接结果条数。(2)将各个分支的连接结果相乘，得到以t为游走起始点的连接结果数。所述步骤(1)中的游走分支路径条数确定方法为，给定分支路径的起始元组t及游走方向上的邻接表R，根据R在连接列上的索引获取与t相连接的元组，对元组数进行累加获得分支路径的条数。

在图1的四表链式连接为例，若连接序列为R₂-R₁-R₃-R₄，则样本创建过程中以R₂为起始端进行游走，并创建分层样本的游走起始层。假设游走的起始元组为t21，当游走至R1中的元组t11时，无法继续前进，因此跳转到t21后向R3方向继续游走，直至游走到R₄中的元组t41。将连接图中度小于2的表定义为“边缘表”，包括R1这类游走过程中遇到后需要跳转方向的表，以及R4这类标志着游走结束的表。一旦游走过程中遇到“边缘表”，记录当前游走分支的路径条数并改变游走方向，最终的连接结果数为各个分支路径条数的乘积。

尽管创建样本需要扫描连接起始表，并且需要在多个表中进行游走，然而顺序扫描起始表数据的吞吐率要远远高于随机读取数据的吞吐率，并且沿着多表马尔可夫链的游走是依据索引进行的，因此创建样本的代价在可接受范围之内。

在线聚集阶段以固定的频率更新估计结果，其实现步骤包括：1)对用户提交的多表连接查询语句进行解析，并动态选择查询代价最小的样本进行分层采样；2)确定每次更新过程中从各个层中抽取样本的大小；3)估计查询结果及置信区间。

所述步骤2)中，依据估计结果更新频率计算出每次抽取的样本大小N，将N分配至各个分组的样本层。为了使估计结果的方差和最小，样本大小分配算法的步骤包括：(1)从N在L个样本层中的平均值和每个样本层剩余样本中选择最小值，作为从该层中抽取样本的大小；(2)若以步骤(1)抽取的总样本数量小于N，则将N扩大至N’后重复上述过程，直至找到使得总样本数量最接近N的N’。其中各层样本的剩余值是连接结果数，并非游走起始表的元组数。

所述步骤3)进行聚集结果及置信区间估计，确定好每层的采样数量后，从样本起始层开始进行随机游走，游走的次数为该层所分配的样本数。查询语句中聚集操作主要讨论SUM和COUNT的实现方法，其他的聚集操作如AVG、STD-DEV等可通过相应的扩展实现。采用图1所示的链式连接为例介绍各层连接结果的游走方法，设连接序列为R₁-R₂-R₃-R₄，游走起始表R₁的数据被分为三个样本层，聚集结果及置信区间的估计在每个分组内分别进行。当对样本层S₁进行随机游走时，首先从S₁中随机等概率抽取一个起始元组。假设t11被抽取到，接下来根据R₂在与R₁连接键上的索引，从R₂中与t11相邻的元组中随机抽取元组，依次沿着马尔可夫链继续向下游走，直至游走到R₄结束，最终抽取出一条路径。根据多次游走抽取出的连接结果，对聚集结果和置信区间进行估计。在该例中样本层S₁里含有6条路径，若抽取的路径为t11-t21-t32-t42，则被抽取到的概率为1/24，并非1/6。利用该方法抽取每条路径的概率不相同，所以连接结果的样本并不是统一随机抽样获得。

设起始层样本分别为S₁,S₂,…,S_m，给定样本S_i，该层中每条路径λ被抽取的概率为：

其中B₂(t₁)为R₂中与R₁的元组t1满足连接关系的元组。op(exp(λ_j))为路径λ_j所对应的连接结果上的聚集操作，定义随机变量exp_p(λ_j)的取值为：若op为SUM操作，exp_p(λ_j)＝exp(λ_j)；若op为COUNT操作，exp_p(λ_j)＝1。给定估计的分组，设该分组样本大小为n，对多表连接聚集结果的无偏估计为：

设估计结果的置信度为ρ，置信区间为

其中

每条路径被抽取的概率P(λ_i)不同，属于独立的有偏采样。根据Horvitz–Thompson有偏采样估计原理，

是对总体聚集值的无偏估计，而且n个游走路径是独立的，所以其均值仍然是对总体聚集值的无偏估计。构建随机变量

则对连接结果聚集值的估计转化为对新变量总体均值的估计，可得出总体均值近似服从正态分布：

对该正态分布进行标准化处理后可得：

给定置信度ρ，可得P{-Z_ρ≤Z≤Z_ρ}＝ρ，使用样本方差

代替总体方差σ²，即可得：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于马尔可夫链的多表连接在线聚集方法，其特征在于，包括样本创建和在线聚集两个阶段，在所述样本创建阶段中，结合负载特征为原始数据集创建分层样本，分层依据为查询负载中的分组列集，使得列集在负载中出现的概率以及负载中的分组列集被覆盖的概率达到最大，基于确定好的分组列集以及索引的分布情况，确定各表的连接顺序，在马尔可夫链的游走起点创建分层样本；在所述在线聚集阶段中，对用户提交的多表连接查询语句进行解析，动态选择查询代价最小的样本进行分层采样，并确定从每个样本层中抽取样本的大小，进而估计查询结果及置信区间。

2.如权利要求1所述的方法，其特征在于，在所述样本创建阶段中确定连接顺序方法为，查询语句中参与连接的表有m个，则连接顺序R₁-R₂-R₃…R_m为合理连接顺序的充分必要条件为：对于连接顺序中的任意表R_i，排在R_i前面的表格中至少有一个与R_i有直接连接关系；在确定连接顺序时，首先根据索引情况为连接图添加方向，若R_i与R_j间存在一条连接边，且R_j在连接列上有索引，则添加方向为R_i到R_j，接下来从R_i开始对有向图进行顶点遍历生成连接序列，产生的连接序列为连接图的生成树；对于环型连接，所生成的连接序列没有包含全部连接关系，在游走完成后，利用剩余的连接关系对游走的连接结果进行进一步筛选，所述m,i,j均为正整数。

3.如权利要求1所述的方法，其特征在于，所述创建分层样本的方法为,将分组列集所在表R_s放置在马尔可夫链随机游走的起始端，游走起始表R_s被分成L个不同的分区，每个分区即分层样本起始层的一层，每层的大小为以该层中所有元组为起点开始游走的路径数之和；扫描R_s各分区内的元组，并计算以任一元组ti为游走起始点的连接结果数，从而创建分层样本起始层，所述L为正整数。

4.如权利要求3所述的方法，其特征在于，所述游走起始点连接结果数的确定方法为，连接图中度为1的表为边缘表，一旦游走过程中遇到边缘表，记录当前游走分支路径条数并改变游走方向，最终的连接结果数为各个分支路径条数的乘积，具体为，给定游走起始元组t，沿着t所在表的所有邻接表开始游走，若连接的邻接表R’在连接图中的连接度小于2，则R’是边缘表，调用游走分支路径条数确定方法计算分支路径的条数；否则R’还能沿着连接序列继续游走，递归调用游走路径连接结果数的确定方法来获取连接结果数，最终将各个分支的连接结果相乘，得到以t为游走起始点的连接结果数。

5.如权利要求4所述的方法，其特征在于，所述的游走分支路径条数确定方法为，给定分支路径的起始元组t及游走方向上的邻接表R，根据R在连接列上的索引获取与t相连接的元组，对元组数进行累加获得分支路径的条数。

6.如权利要求1所述的方法，其特征在于，在所述在线聚集阶段中，样本大小分配算法为，从每个分层中抽取样本的大小为N在L个样本层中的平均值和剩余样本的最小值，若总的样本数量小于N，则将N扩大至N’后重复上述过程，直至找到使得总采样数量最接近N的N’。

7.如权利要求1所述的方法，其特征在于，估计查询结果及置信区间的方法为，起始层样本分别为S₁,S₂,…,S_m，给定样本S_i，该层中每条路径λ被抽取的概率为：

其中B₂(t₁)为R₂中与R₁的元组t₁满足连接关系的元组，设op(exp(λ_j))为路径λ_j所对应的连接结果上的聚集操作，随机变量exp_p(λ_j)的取值为：若op为求和操作，exp_p(λ_j)＝exp(λ_j)；若op为计数操作，exp_p(λ_j)＝1，给定估计的分组，设该分组样本大小为n，对多表连接聚集结果的无偏估计为：

设估计结果的置信度为ρ，置信区间为

其中

其中Z_ρ为标准正态分布的ρ分位数。