CN108959425A

CN108959425A - 一种海量数据Top-k选择查询方法

Info

Publication number: CN108959425A
Application number: CN201810592946.XA
Authority: CN
Inventors: 韩希先; 宋翠; 王佰玲
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-12-07
Anticipated expiration: 2038-06-11
Also published as: CN108959425B

Abstract

本发明提供一种海量数据Top‑k选择查询方法，有效地处理大数据上的top‑k选择查询，提出了基于表扫描的TKS算法，该算法通过对预排序表PT的顺序扫描来计算top‑k选择查询结果。本发明具有早结束特性；在连续扫描预排序表的过程中，只需要维护k个候选结果；并且选择剪切和分数剪切可以有效的减少I/O的代价，选择剪切是利用位图编码去掉不满足选择条件的元组，而分数剪切是利用评分函数的单调性和预排序列表的有序性跳过那些不满足分数要求的元组。

Description

一种海量数据Top-k选择查询方法

技术领域

本发明涉及大数据查询领域，尤其涉及一种海量数据Top-k选择查询方法。

背景技术

随着移动计算的快速发展，top-k查询及其计算方法得到了众多研究者的关注，主要是因为top-k查询结果集在很多应用中都有着非常重要的作用，由于其实际意义，top-k查询引起了广泛的关注，并提出了许多算法。现有的top-k算法可以分为三类:基于索引的方法、基于视图的方法和基于排序的方法。然而，绝大多数现有算法都没有选择条件，只返回所有元组中的top-k结果。当然，这些算法的简单扩展，即首先找到满足选择条件的元组，然后在满足条件的元组上执行top-k查询，将会导致大量的I/O开销。

目前已经有多种算法来处理top-k选择查询。D.Xin和J.Han等人提出评分立方体(Ranking cube)方法，在选择属性和度量属性上构建rank-aware的数据集，可以有效地回答top-k选择查询。然而，该方法总是假设选择维度是范围类型，并且实际应用中，在海量数据上的评分立方体的预计算成本和存储成本是非常昂贵的。另外两项密切相关的研究是N.Bruno和A.Stupar等人提出的，前者将其转化为一个单一的范围查询，以获得与预设的属性值根据距离函数匹配的k个元组。后一种方法处理预设选择条件的查询，由于选择形式的限制和精确的数值属性，其实用性受到了严重的限制。换言之，现有的算法在处理海量数据的 top-k选择查询时存在一定的问题。

发明内容

为了克服上述现有技术中的不足，本发明提供一种海量数据Top-k选择查询方法，方法包括：预设查询表T，基于TKS算法，对查询表T预排序，形成预排序表PT；

根据选择剪切方式和分数剪切方式，按预排序顺序扫描预排序表PT；

在扫描过程中，选择剪切方式为剪掉不满足选择条件P的元组；

分数剪切方式为预设分数的下界，任意元组的分数如果小于分数下界，则所述元组为非查询结果，剪掉所述元组；

基于选择剪切方式和分数剪切方式的扫描后，保留未被剪掉的元组，输出查询结果。

优选地，步骤预设查询表T，基于TKS算法，对查询表T预排序，形成预排序表PT还包括：

T具有n个元组，M个度量属性A₁,…,A_M和D个选择属性S₁,…,S_D，top-k选择查询定义在 d个选择属性S₁,…,S_d上的选择条件P＝{(l₁≤S₁≤u₁)∧…(l_d≤S_d≤u_d)}和定义在m个度量属性A₁,…,A_m上的评分函数返回满足选择条件且分数最大的k个元组；

根据数据表T，生成有序列文件AL_i(PI,Ai)，PI是元组的位置索引，A_i代表第i个属性值，有序列文件按照A_i的值递减排序；对T的元组根据其在AL₁,…,AL_M的轮询顺序进行预排序，获得预排序表PT。

生成由表T的位置索引和度量属性值对组成的列文件AL_i(PI,A_i)，在AL_i中按照属性值A_i降序排列，并用PI_i表示A_i中的每个属性值在AL_i中的位置索引；

用MPI表示预设元组在有序列文件AL_i中位置索引PI_i的最小值，则t.MPI＝min_1≤i≤M t.PI_i，将表T中的元组按照MPI值非降序排序，得到预排序表PT，PT表的模式为 PT(MPI_L,PI_T,A₁,…,A_M,S₁,…,S_D)。

优选地，设置评分函数评分函数用来计算每个元组的分数，连续扫描PT，评估每个元组是否满足选择条件P，维护一个优先队列P_Q，队列中的元素是到目前为止满足选择条件且分数最大的k个元组；当满足早结束条件时，返回P_Q中的元组，即top-k的选择结果。

优选地，选择剪切方式包括：

给出选择属性S_j，min_j和max_j分别是选择属性值的最小值和最大值，把[min_j,max_j]区间分成C个范围(R₁,......,R_C)，并用C个位向量(B_j,1,...,B_j,C)为S_j编码；用B_j,v(a)表示向量 B_j,v的第a位；如果pt.S_j属于R_v，则B_j,1(a),...,B_j,v-1(a)为0，B_j,v(a),...,B_j,C(a)为1，B_j,v代表离散化S_j中落入范围[1,v]内的属性值；

预设在选择属性S_j上的选择条件l_j≤S_j≤u_j，两个位向量需要执行选择剪切，[v₁,v₂]是区间[l_j,u_j]所涉及到的相关范围，则有代表相关范围的属性值；当v₁＝1时，只有用于选择剪切；

令bf_j,1和bf_j,2分别表示具有BS个字节缓冲区，并分别维护从和读取的数据；在对PT执行扫描之前，TKS先从和中读取数据，获得类似地，可以获得该位向量对应PT(1,…,8×BS) 的元组，如果bf中的第a位为0，PT(a)可以直接跳过；否则读取PT(a)，并且通过选择条件进行评估；当缓冲区bf用完后，TKS重新获取和的数据，

优选地，分数剪切方式包括：

令tscore是top-k选择结果分数的下界，任意元组的分数如果小于tscore，那么该元组肯定不是查询结果，并且可以直接跳过该元组；TKS预先构建一个数据结构APTS(Attribute Pair Terminating-tuple Set)，对于每一个top-k选择查询，利用该结构初始化tscore；指定其上界K_max；度量属性的维度为M，则APTS需要维护个文件，每个文件中具有K_max个T 中的元组；代表APTS中的一个文件，所述文件保存以round-robin的方式在和上轮询得到的前K_max个终结元组；

再预构造另一个结构MCR，根据元组的位置索引来确定其对应度量属性值的范围；MCR_i文件是由log₂ n个元组组成，MCR_i(b)是一个n位的位向量，代表通过EGBFT_i(b)检查PT中的元组结果，如果PT(a)的检测结果为真，则MCR_i(b)中的第a个位置为1，否则，该位被设置为0； EGBFT_i(b)是一个bloom filter表，是在AL(1,…,2^b).PI上构造出来的。

优选地，分数剪切方式还包括：配置分数剪切规则；

在连续扫描PT之前，预设评分函数，TKS算法通过读个相关文件APTS，初始化tscore；tscore被设置成在相关文件APTS中满足选择条件P的元组中的第k大的分数；如果选择度STV的值较低，则可能小于k个元组满足选择条件P，此时tscore设置成∑_1≤i≤mmin_i；得到tscore的值之后，为度量属性A_i计算

如果pt.A_i<pv_i，有pt.A₁+…+pt.A_i+…+pt.A_m<max₁+…+pv_i+…+ max_m＝tscore，因此pt不是top-k选择结果；

TKS利用EGBI_i(1≤i≤m)结构确定当前用于分数剪切的MCR元组的位置索引；TKS返回EGBI_i满足条件EGBI_i(b_i).eval<pv_i≤EGBI_i(b_i-1).eval的第一个位置索引用EGBI_i(0).eval表示max_i，是-∞，然后b_i是MCR元组的位置索引；

已知MCR_i(b_i)是PT的PI_T成员属性检测结果值的位向量；如果当前不能执行分数剪切；

令mf_i为一个具有BS个字节的缓冲区，用来维护读取MCR_i(b_i)的数据；在对PT执行顺序扫描之前，TKS通过mf_i从MCR_i(b_i)中获取数据，并且获得该位向量对应 PT(1,…,8×BS)的元组，如果mf中的第a位为0，PT(a)直接跳过；否则读取PT(a)，并且通过选择条件进行评估；

当位向量mf用完后，TKS重新获取数据MCR_i(b_i)，重新计算mf，当前mf位向量对应PT(8 ×BS+1,…,16×BS)的元组，并继续扫描。

从以上技术方案可以看出，本发明具有以下优点：

本发明有效地处理大数据上的top-k选择查询，提出了基于表扫描的TKS算法，该算法通过对预排序表PT的顺序扫描来计算top-k选择查询结果。本发明具有早结束特性；在连续扫描预排序表的过程中，只需要维护k个候选结果；并且选择剪切和分数剪切可以有效的减少 I/O的代价，选择剪切是利用位图编码去掉不满足选择条件的元组，而分数剪切是利用评分函数的单调性和预排序列表的有序性跳过那些不满足分数要求的元组。

本发明从执行时间、维护元组的数量、I/O代价以及扫描深度效果上都有明显的提升；可以从剪切率上面看出，实际的剪切率曲线与估计的剪切率曲线几乎吻合，说明理论上需要剪切的元组，在实际执行的过程中基本剪切掉，明显提高执行效率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为海量数据Top-k选择查询方法流程图；

图2为有序列文件示意图；

图3为预排序表PT示意图；

图4为选择剪切方式示意图；

图5为分数剪切方式示意图。

具体实施方式

本发明提供一种海量数据Top-k选择查询方法，如图1所示，方法包括：

S1，预设查询表T，基于TKS算法，对查询表T预排序，形成预排序表PT；

S2，根据选择剪切方式和分数剪切方式，按预排序顺序扫描预排序表PT；

S3，基于选择剪切方式和分数剪切方式的扫描后，保留未被剪掉的元组，输出查询结果。

本发明预设选择条件和评分函数，top-k选择查询返回满足选择条件且分数最大的k个元组。

本发明中，步骤预设查询表T，基于TKS算法，对查询表T预排序，形成预排序表PT还包括：

根据数据表T，生成有序列文件AL_i(PI,A_i)，PI是元组的位置索引，A_i代表第i个属性值，有序列文件按照A_i的值递减排序；对T的元组根据其在AL₁,…,AL_M的轮询顺序进行预排序，获得预排序表PT。

其中，步骤预设查询表T，基于TKS算法，对查询表T预排序，形成预排序表PT还包括：

本发明中，对查询表T预排序，产生预排序表PT；生成有序列文件AL_i操作，如图2所示

首先生成由表T的位置索引和度量属性值对组成的列文件AL_i(PI,A_i)，在AL_i中按照属性值 A_i降序排列，并用PI_i表示A_i中的每个属性值在AL_i中的位置索引，如图2所示；

生成PT表，图3所示，用MPI表示预设元组在有序列文件AL_i中位置索引PI_i的最小值，则t.MPI＝min_1≤i≤M t.PI_i，将表T中的元组按照MPI值非降序排序，得到预排序表PT，如图3所示，PT表的模式为PT(MPI_L,PI_T,A₁,…,A_M,S₁,…,S_D)。

本发明中，TKS的基本过程是，假定评分函数评分函数用来计算每个元组的分数，连续扫描PT，评估每个元组是否满足选择条件P，维护一个优先队列P_Q，队列中的元素是到目前为止满足选择条件且分数最大的k个元组；当满足早结束条件时，返回P_Q中的元组，即top-k的选择结果。

由PT的构造过程可知TKS具有提前终止的特性。本发明提出了一种简洁的数据结构 GTS(Gap Threshold Score)，该结构用来维护在有序列文件上元组的具有预设位置索引间隔的属性值。预设间隔参数OG，在结构GTS中的第个记录维护属性值AL₁(b× OG).A₁,...,AL_M(b×OG).A_M。

假设pt是PT中当前读取的元组，可以证明，如果满足早结束条件则当前P_Q中维护的元组是top-k选择结果。

在其执行过程中，TKS算法具有早结束和只需维护k个候选元组特性，此外，本发明还提出两种剪切进一步加快算法的效率。

本发明中，图4所示，选择剪切是跳过不满足选择条件P的元组，如果一个元组不满足选择条件，那么该元组肯定不是top-k选择的结果。TKS利用位图索引来处理选择条件，不同于以前的方法在选择属性上构建立方体结构，之前的方法显然受到了选择属性维数的影响，在实际应用中会受到严重的限制。由于选择属性是数值型的，如果为每个不同的值生成一个位向量将使得位图索引的空间成本将会非常昂贵。利用范围划分去离散化连续区域，离散化过程如下：

选择剪切方式包括：给出选择属性S_j，min_j和max_j分别是选择属性值的最小值和最大值，把[min_j,max_j]区间分成C个范围(R₁,......,R_C)，并用C个位向量(B_j,1,...,B_j,C)为S_j编码；用B_j,v(a)表示向量B_j,v的第a位；如果pt.S_j属于R_v，则B_j,1(a),...,B_j,v-1(a) 为0，B_j,v(a),...,B_j,C(a)为1，B_j,v代表离散化S_j中落入范围[1,v]内的属性值；

令bf_j,1和bf_j,2分别表示具有BS个字节缓冲区，并分别维护从和读取的数据；在对PT执行扫描之前，TKS先从和中读取数据，获得类似地，可以获得该位向量对应PT(1,…,8×BS) 的元组，如果bf中的第a位为0，PT(a)可以直接跳过；否则读取PT(a)，并且通过选择条件进行评估；当缓冲区bf用完后，TKS重新获取和的数据，重新计算bf，此时当前bf位向量对应PT(8×BS+1,…,16×BS)，并继续顺序扫描。

本发明中，如图5所示，分数剪切方式包括：令tscore是top-k选择结果分数的下界，任意元组的分数如果小于tscore，那么该元组肯定不是查询结果，并且可以直接跳过该元组； TKS预先构建一个数据结构APTS(Attribute Pair Terminating-tuple Set)，对于每一个top-k 选择查询，利用该结构初始化tscore；指定其上界K_max；度量属性的维度为M，则APTS需要维护个文件，每个文件中具有K_max个T中的元组；代表APTS中的一个文件，所述文件保存以round-robin的方式在和上轮询得到的前K_max个终结元组；

分数剪切方式还包括：配置分数剪切规则；在连续扫描PT之前，预设评分函数，TKS算法通过读个相关文件APTS，初始化tscore；tscore被设置成在相关文件APTS中满足选择条件P的元组中的第k大的分数；如果选择度STV的值较低，则可能小于k个元组满足选择条件P，此时tscore设置成∑_1≤i≤m min_i；得到tscore的值之后，为度量属性A_i计算

TKS利用EGBI_i(1≤i≤m)结构确定当前用于分数剪切的MCR元组的位置索引；TKS返回EGBI_i满足条件EGBI_i(b_i).eval<pv_i≤EGBI_i(b_i-1).eval的第一个位置索引用EGBI_i(0).eval表示max_i，是-∞，然后bi是MCR元组的位置索引；

两种剪切方法的结合，选择剪切考虑选择条件，分数剪切考虑分数要求，因此可以合并两种剪切以达到更好的剪切效果；与选择剪切、分数剪切类似，合并剪切方法中保留的元组，只有在选择剪切和分数剪切都没被剪掉的时候才保留此元组。

本发明是研究在大数据上的top-k查询问题，提出基于表扫描的TKS算法；该算法通过对预排序表PT的顺序扫描来计算top-k选择查询结果。本发明具有早结束特性；在连续扫描预排序表的过程中，只需要维护k个候选结果；并且选择剪切和分数剪切可以有效的减少I/O 的代价，选择剪切是利用位图编码去掉不满足选择条件的元组，而分数剪切是利用评分函数的单调性和预排序列表的有序性跳过那些不满足分数要求的元组。

大量实验结果表明本发明从执行时间、维护元组的数量、I/O代价以及扫描深度效果上都有明显的提升；可以从剪切率上面看出，实际的剪切率曲线与估计的剪切率曲线几乎吻合，说明理论上需要剪切的元组，在实际执行的过程中基本剪切掉，明显提高执行效率。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种海量数据Top-k选择查询方法，其特征在于，方法包括：

预设查询表T，基于TKS算法，对查询表T预排序，形成预排序表PT；

2.根据权利要求1所述的海量数据Top-k选择查询方法，其特征在于，

步骤预设查询表T，基于TKS算法，对查询表T预排序，形成预排序表PT还包括：

T具有n个元组，M个度量属性A₁,…,A_M和D个选择属性S₁,…,S_D，top-k选择查询定义在d个选择属性S₁,…,S_d上的选择条件P＝{(l₁≤S₁≤u₁)∧…(l_d≤S_d≤u_d)}和定义在m个度量属性A₁,…,A_m上的评分函数返回满足选择条件且分数最大的k个元组；

3.根据权利要求2所述的海量数据Top-k选择查询方法，其特征在于，

用MPI表示预设元组在有序列文件AL_i中位置索引PI_i的最小值，则t.MPI＝min_1≤i≤Mt.PI_i，将表T中的元组按照MPI值非降序排序，得到预排序表PT，PT表的模式为PT(MPI_L,PI_T,A₁,…,A_M,S₁,…,S_D)。

4.根据权利要求1所述的海量数据Top-k选择查询方法，其特征在于，扫描过程还包括：

设置评分函数评分函数用来计算每个元组的分数，连续扫描PT，评估每个元组是否满足选择条件P，维护一个优先队列P_Q，队列中的元素是到目前为止满足选择条件且分数最大的k个元组；当满足早结束条件时，返回P_Q中的元组，即top-k的选择结果。

5.根据权利要求1所述的海量数据Top-k选择查询方法，其特征在于，

选择剪切方式包括：

给出选择属性S_j，min_j和max_j分别是选择属性值的最小值和最大值，把[min_j,max_j]区间分成C个范围(R₁,......,R_C)，并用C个位向量(B_j,1,...,B_j,C)为S_j编码；用B_j,v(a)表示向量B_j,v的第a位；如果pt.S_j属于R_v，则B_j,1(a),...,B_j,v-1(a)为0，B_j,v(a),...,B_j,C(a)为1，B_j,v代表离散化S_j中落入范围[1,v]内的属性值；

令bf_j,1和bf_j,2分别表示具有BS个字节缓冲区，并分别维护从和读取的数据；在对PT执行扫描之前，TKS先从和中读取数据，获得类似地，可以获得该位向量对应PT(1,…,8×BS)的元组，如果bf中的第a位为0，PT(a)可以直接跳过；否则读取PT(a)，并且通过选择条件进行评估；当缓冲区bf用完后，TKS重新获取和的数据，重新计算bf，此时当前bf位向量对应PT(8×BS+1,…,16×BS)，并继续顺序扫描。

6.根据权利要求1所述的海量数据Top-k选择查询方法，其特征在于，

分数剪切方式包括：

令tscore是top-k选择结果分数的下界，任意元组的分数如果小于tscore，那么该元组肯定不是查询结果，并且可以直接跳过该元组；TKS预先构建一个数据结构APTS(AttributePair Terminating-tuple Set)，对于每一个top-k选择查询，利用该结构初始化tscore；指定其上界K_max；度量属性的维度为M，则APTS需要维护个文件，每个文件中具有K_max个T中的元组；代表APTS中的一个文件，所述文件保存以round-robin的方式在和上轮询得到的前K_max个终结元组；

再预构造另一个结构MCR，根据元组的位置索引来确定其对应度量属性值的范围；MCR_i文件是由log₂n个元组组成，MCR_i(b)是一个n位的位向量，代表通过EGBFT_i(b)检查PT中的元组结果，如果PT(a)的检测结果为真，则MCR_i(b)中的第a个位置为1，否则，该位被设置为0；EGBFT_i(b)是一个bloom filter表，是在AL(1,…,2^b).PI上构造出来的。

7.根据权利要求6所述的海量数据Top-k选择查询方法，其特征在于，

分数剪切方式还包括：配置分数剪切规则；

如果pt.A_i<pv_i，有pt.A₁+…+pt.A_i+…+pt.A_m<max₁+…+pv_i+…+max_m＝tscore，因此pt不是top-k选择结果；

令mf_i为一个具有BS个字节的缓冲区，用来维护读取MCR_i(b_i)的数据；在对PT执行顺序扫描之前，TKS通过mf_i从MCR_i(b_i)中获取数据，并且获得该位向量对应PT(1,…,8×BS)的元组，如果mf中的第a位为0，PT(a)直接跳过；否则读取PT(a)，并且通过选择条件进行评估；

当位向量mf用完后，TKS重新获取数据MCR_i(b_i)，重新计算mf，当前mf位向量对应PT(8×BS+1,…,16×BS)的元组，并继续扫描。