CN108304449A

CN108304449A - 基于自适应数据集划分方式的大数据Top-k查询方法

Info

Publication number: CN108304449A
Application number: CN201711305053.4A
Authority: CN
Inventors: 徐维祥; 赵博
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-07-20
Anticipated expiration: 2037-12-11
Also published as: CN108304449B

Abstract

本发明公开一种基于自适应数据集划分方式的大数据Top‑k查询方法，包括以下步骤：对系统进行初始化操作，构建超平面簇及数据集；对数据集进行自适应划分，获得稳定的k‑切割点；对所述数据集进行Top‑k排序查询；自适应调整系统数据集并建立常用数据集。本发明中提供一种基于自适应数据集划分方式的大数据Top‑k查询方法，该方法适用于云环境下的大数据Top‑k查询，通过对数据集进行自适应划分，降低了查询的数据量，提高了查询速度，并对系统的数据集进行自适应调整，建立常用数据集，能够进一步减少数据集读取次数，提高查询效率。

Description

基于自适应数据集划分方式的大数据Top-k查询方法

技术领域

本发明涉及Top-k查询方法。更具体地，涉及一种基于自适应数据集划分方式的大数据Top-k查询方法。

背景技术

随着数据量的增大，分布式Top-k查询越来越受到关注。分布式Top-k(前k项)查询是由中心计算节点通过汇聚分布在不同地理位置的数据列表，计算出全局汇聚值最大的前k个对象及汇聚值。其中数据列表的每一项都是一个数据对<对象，对象值>，数据对中的对象和对象值都包含有数据提供方的敏感信息。分布式Top-k查询计算在网络和系统监控、信息采集、传感器网络、P2P系统以及数据流控制系统等技术领域都有广泛的应。

从数据划分的方式来看，分布式环境下的Top-k问题可以归纳为垂直划分和水平划分两大类。所谓的垂直划分是数据按属性进行划分，类似于关系数据库的列存储方式，早期的分布式Top-k查询研究多使用这种划分方式。围绕着Top-k查询问题，近些年来开展了很多有益的研究工作。但是关系数据库以及传统的分布式环境都很难有效应对大数据环境下的Top-k查询，主要原因在于数据对象及处理方法产生了很大的变化

目前，大数据环境主要涉及到云环境，云环境下数据划分的基本原则是：尽可能地将数据均匀地划分到各个服务器上。这种均匀不仅体现在数据量的均匀上，更重要的是面对特定应用时，这种划分能够尽可能地保证每个服务器上的数据对最后结果均有贡献。进一步地，在Top-k领域具有代表性的水平划分方式有如下几种：随机划分、基于网格、基于角度和基于超平面。云环境下的大数据Top-k查询面临着新的挑战。Top-k问题在MapReduce框架下有很直接的解决方案，即利用MapReduce进行数据排序再返回前k个值。这种方案既符合MapReduce批处理的特点，也容易实现，但其最大的缺点就是处理时间过长。每次到来一个新的查询，就要对全部数据进行一次处理，数据量巨大和查询频繁时该方法均不可取。

因此，需要提供一种基于自适应数据集划分方式的大数据Top-k查询方法。

发明内容

本发明的目的在于提供一种基于自适应数据集划分方式的大数据Top-k查询方法。

为达到上述目的，本发明采用下述技术方案：

一种基于自适应数据集划分方式的大数据Top-k查询方法，包括以下步骤：

S1：对系统进行初始化操作，构建超平面簇及数据集；

S2：对数据集进行自适应划分，获得稳定的k-切割点；

S3：对所述数据集进行Top-k排序查询；

S4：自适应调整系统数据集并建立常用数据集。

优选地，步骤S1包括：

S101：设用户查询请求中第j个元素分配的请求权重值为p_j，各p_j组合成的列向量为P，且

S102：设第j维属性变量为y_j，各y_j组合成的列向量为Y，且

Y^T＝[y₁,y₂,y₃,…]；

S103：根据查询请求权重向量P构建超平面簇F，且

F＝Y^T*P；

S104：确定数据集维度为N，数据集数据为x_ij。

进一步优选地，步骤S2包括：

S201：获取数据集各维度的最大值为p_jmax，确定数据集空间，并将各维度向固定区间[0，10]进行映射；其中，设最大值点为M₀，且M₀＝(x_max,1，x_max,2，x_max,3，…)为初始点；

S202：建立虚拟坐标系，设坐标轴数量为N，将全部数据置于坐标系中；

S203：定义k-切割点M：设M＝(m₁，m₂，m₃,…,m_j,…)，在N维数据集中，k-切割点M是沿任一维度坐标轴作平行线，将数据集空间切割为2^N个，且k-切割点M各维度坐标比例固定，被分割的数据集出现3种区域；

S204：使用变速步长搜索合适的M，使各维度直线切割组成的热区数据包含k个数据点，保证在任何查询请求权重值情况下，存在至少k个在超平面外数据；

S205：变速步长搜索法获得稳定的k-切割点。

进一步优选地，被分割的数据集出现3种区域包括：热区、冷区和其他区域，其中，

热区的任何数据点都在超平面簇与坐标轴正方向围成的空间外；

冷区的任何数据点都在超平面簇与坐标轴正方向围成的空间内；

其他区域为数据集中除去冷区和热区以外的区域。

优选地，p_j的列向量形式为P^T＝[p₁,p₂,p₃,…]，对有1,若用户输入权重不在(0，1)区间内，将其映射到(0，1)区间内。

优选地，变速步长搜索法包括：

(1)设置初始步长h_o，步长变化率v，收敛强度s≥1,初始点为M₀＝(x_max,1，x_max,2，x_max,3，…)，将各维度坐标映射到(0，100)范围内；

(2)令i＝0，h_i＝h₀，M_i+1＝M_i-h_i，数据集存在一个数据点，各项属性值均大于M_i+1，并存储该部分数据；

(3)若l＞s*k，则执行步骤(4)；若k＜l＜s*k，则计算结束，获得稳定的k-切割点；若l＜k，则执行步骤(5)；

(4)令i＝i+1,h_i＝v*h_i,M_i+1＝M_i+h_i，返回步骤(3)；

(5)令i＝i+1,h_i＝v*h_i,M_i+1＝M_i-h_i，返回步骤(3)

优选地，初始步长h_o＝10，收敛强度s≥1。

优选地，步骤S3包括：

S301：接受查询请求信息，根据请求维度权重P，构建超平面簇：Y^T*P＝F；带入k-切割点，确定对应该请求的超平面Y^T*P＝F_i；

S302：根据查询请求权重值向量，计算冷区数据以外的数据评价得分，使用Top-k查询算法进行排序查询。

进一步优选地，步骤S4包括：

S401：针对数据变动频繁的数据集，数据分割状态与k-切割点M根据数据集新数据的增加进行调整。

S402：创建输出结果的历史记录集，对每次被输出的数据点进行保存，并且记录其被输出次数，经过n次查询，结果接近收敛，此时历史记录集作为TOP-k常用数据集，减少使用次数；

S403：记录每次输出时的超平面系数向量与对应k-切割点。

进一步优选地，根据数据集新数据的增加进行调整包括：

(1)进入数据的各维度属性数据与k-切割点M的各维度属性数据比较：

若该数据对都有p_j-new≥p_j-M，则该数据点落在热区数据范围内；

若该数据对都有p_j-new≤p_j-M，则该数据点落在冷区数据范围内；

否则，该数据点落在其他区域数据范围内；

(2)若热区数据数量增加超过该区数据总量的预定阈值，则返回步骤S205继续变速步长搜索直到满足其收敛条件。

本发明的有益效果如下：

本发明中提供一种基于自适应数据集划分方式的大数据Top-k查询方法，该方法适用于云环境下的大数据Top-k查询，通过对数据集进行自适应划分，降低了查询的数据量，提高了查询速度，并对系统的数据集进行自适应调整，建立常用数据集，能够进一步减少数据集读取次数，提高查询效率。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出自适应数据集划分方式的top-k排序查询方法流程图。

图2示出二维条件下，K-切割点定义图示。

图3示出变步长搜索法流程图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

本发明提供一种基于自适应数据集划分方式的大数据Top-k查询方法，包括以下步骤：

S1：对系统进行初始化操作，构建超平面簇及数据集。

S102：设第j维属性变量为y_j，各y_j组合成的列向量为Y，且

Y^T＝[y₁,y₂,y₃,…]；

S103：根据查询请求权重向量P构建超平面簇F，且

F＝Y^T*P；

S104：确定数据集维度为N，数据集数据为x_ij。

S2：对数据集进行自适应划分，获得稳定的k-切割点。

S205：变速步长搜索法获得稳定的k-切割点。

本发明中，被分割的数据集出现3种区域包括：热区、冷区和其他区域，其中，热区的任何数据点都在超平面簇与坐标轴正方向围成的空间外；冷区的任何数据点都在超平面簇与坐标轴正方向围成的空间内；其他区域为数据集中除去冷区和热区以外的区域。

p_j的列向量形式为P^T＝[p₁,p₂,p₃,…]，对有p_j∈(0,1),∑p_j＝1,若用户输入权重不在(0，1)区间内，将其映射到(0，1)区间内。

变速步长搜索法包括：

(4)令i＝i+1,h_i＝v*h_i,M_i+1＝M_i+h_i，返回步骤(3)；

(5)令i＝i+1,h_i＝v*h_i,M_i+1＝M_i-h_i，返回步骤(3)

其中，初始步长h_o＝10，收敛强度s≥1。

S3：对所述数据集进行Top-k排序查询。

S4：自适应调整系统数据集并建立常用数据集。

S403：记录每次输出时的超平面系数向量与对应k-切割点。

根据数据集新数据的增加进行调整包括：

否则，该数据点落在其他区域数据范围内；

下面结合一个具体实施例进行说明

针对大部分Top-k用户请求中请求权重值都大于0，数据集中的属性值为正值，因此本发明主要解决以上情况的Top-k大数据查询问题，存在负值情况可以通过特定方法进行转化。

1、设p_j表示用户查询请求中第j个元素分配的请求权重值，p_j的列向量形式为P^T＝[p₁,p₂,p₃,…]，对有p_j∈(0,1),∑p_j＝1,实际应用中如果用户输入权重不在(0,1)区间内，需要先将其映射到[0,1]区间内；大部分Top-k用户请求中请求权重值都大于0。

2、设第j维属性变量为y_j，Y为各y_j组合成的列向量，Y^T＝[y₁,y₂,y₃,…]。

3、设超平面簇Y^T*P＝F为根据查询请求权重向量P所构建的超平面簇，其中F为未知参量，将任意数据点带入，可求得F取值，并确定该查询请求下的超平面表达式Y^T*P＝F_request-i。

4、确定数据集维度为N，设数据集数据为x_ij。

5、如图2所示，获取数据集各维度的最大值p_jmax，确定数据集空间(DataSetSpace)，并将各维度向固定区间[0,10]映射；设M₀＝(x_max,1，x_max,2，x_max,3，…)最大值点，数据集中不一定存在最大值点，将最大值点M₀＝(x_max,1，x_max,2，x_max,3，…)作为初始点。

6、建立虚拟坐标系，坐标轴数量为N，将全部数据置于坐标系中。

7、定义k-切割点M：设M＝(m₁，m₂，m₃,…,m_j,…),在N维数据集中，k-切割点M是沿任一维度坐标轴作平行线，将数据集空间切割为2^N个，且k-切割点M各维度坐标比例固定，即可将k-切割点M视为原点O到最大值点M₀连线上一点，在该连线上移动，任意穿过k-切割点的超平面组成的超平面簇，且受查询权重值的制约：对有p_j∈(0,1),∑p_j＝1,会使被分割的数据集出现3种区域：

(1)任何数据点都在超平面簇与坐标轴正方向围成的空间外，该部分成为“热区”，热区数据在所有基于当下k-切割点M的Top-k查询中都有很大影响；

(2)任何数据点都在超平面簇与坐标轴正方向围成的空间外，该部分成为“冷区”，冷区数据在所有基于当下k-切割点M的Top-k查询中影响都很小，几乎不进入Top-k排序数据范围。

8、使用变速步长搜索合适的M，使各维度直线切割组成的热区数据包含k个数据点，保证在任何查询请求权重值情况下，存在至少k个在超平面外数据供Top-k查询方法使用。

9、如图3所示，变速步长搜索包括：

(1)设置初始步长h_o，通常取10，步长变化率v，收敛强度s≥1,一般取值为在(1.5,2)区间上，初始点为M₀＝(x_max,1，x_max,2，x_max,3，…)，将各维度坐标映射到(0，100)范围内，；

(2)i＝0，h_i＝h₀，M_i+1＝M_i-h_i，数据集存在l个数据点，各项属性值均大于M_i+1，并存储该部分数据；

(3)判定：若l＞s*k,进入步骤(4)，若k＜l＜s*k,算法结束，获得稳定的k-切割点,若l＜k，则进入步骤(5)；

(4)i＝i+1,h_i＝v*h_i,M_i+1＝M_i+h_i,返回步骤(3)；

(5)i＝i+1,h_i＝v*h_i,M_i+1＝M_i-h_i，返回步骤(3)。

10、针对数据变动频繁的数据集，数据分割状态与k-切割点M需要根据数据集新数据的增加进行调整，过程如下：

(1)进入数据的各维度属性数据与k-切割点M的各维度属性数据比较，

a.若该数据对都有p_j-new≥p_j-M，则该数据点落在“热区”数据范围内；

b.若该数据对都有p_j-new≤p_j-M，则该数据落在“冷区”数据范围内；

c.若不是以上两种情况，数据点成为其他数据区域；

(2)以上三种情况中，当情况热区数据数量增加超过该区数据总量的20％，则返回继续变速步长搜索知道满足条件。

11、对已划分的数据去除“冷区”数据后，进行Top-k排序。

12、接受查询请求信息，根据请求维度权重P，构建超平面簇：

Y^T*P＝F。

13、带入k-切割点，确定对应该请求的超平面Y^T*P＝F_i。

14、创建k*N+1列表，N为维度总数，分别计算A区数据在权重向量P下的得分，每次计算之后，将数据逐一置入列表中，列表按照得分升序排列。当列表中数据超过k个时，每次计算得分与列表中第一位数据得分相比较,如果新得分高，按照顺序依次向后比较得分，直到遇到分数更高的数据或者到达列表最后一位停止；如果得分比第一位数据低，则抛弃该数据，继续计算到数据全部计算完毕，停止Top-k方法。

15、所有节点结果共同发送至汇总任务分配节点，将多个Top-k结果得分统一比较，得到最终的Top-k结果，发送至用户。

16、创建输出结果的历史记录集，对每次被输出的数据点进行保存，并且记录其被输出次数，经过n次查询，结果接近收敛，此时历史记录集作为TOP-k常用数据集，减少使用次数。

17、记录每次输出时的超平面系数向量与对应k-切割点。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于自适应数据集划分方式的大数据Top-k查询方法，其特征在于，包括以下步骤：

S1：对系统进行初始化操作，构建超平面簇及数据集；

S2：对数据集进行自适应划分，获得稳定的k-切割点；

S3：对所述数据集进行Top-k排序查询；

S4：自适应调整系统数据集并建立常用数据集。

2.根据权利要求1所述的大数据Top-k查询方法，其特征在于，所述步骤S1包括：

S102：设第j维属性变量为y_j，各y_j组合成的列向量为Y，且

Y^T＝[y₁,y₂,y₃,…]；

S103：根据查询请求权重向量P构建超平面簇F，且

F＝Y^T*P；

S104：确定数据集维度为N，数据集数据为x_ij。

3.根据权利要求2所述的大数据Top-k查询方法，其特征在于，所述步骤S2包括：

S205：变速步长搜索法获得稳定的k-切割点。

4.根据权利要求3所述的大数据Top-k查询方法，其特征在于，所述被分割的数据集出现3种区域包括：热区、冷区和其他区域，其中，

其他区域为数据集中除去冷区和热区以外的区域。

5.根据权利要求3所述的大数据Top-k查询方法，其特征在于，所述p_j的列向量形式为P^T＝[p₁,p₂,p₃,…]，对有p_j∈(0,1),∑p_j＝1,若用户输入权重不在(0，1)区间内，将其映射到(0，1)区间内。

6.根据权利要求3所述的大数据Top-k查询方法，其特征在于，所述变速步长搜索法包括：

(4)令i＝i+1,h_i＝v*h_i,M_i+1＝M_i+h_i，返回步骤(3)；

(5)令i＝i+1,h_i＝v*h_i,M_i+1＝M_i-h_i，返回步骤(3)

7.根据权利要求6所述的大数据Top-k查询方法，其特征在于，所述初始步长h_o＝10，收敛强度s≥1。

8.根据权利要求4所述的大数据Top-k查询方法，其特征在于，所述步骤S3包括：

9.根据权利要求8所述的大数据Top-k查询方法，其特征在于，所述步骤S4包括：

S403：记录每次输出时的超平面系数向量与对应k-切割点。

10.根据权利要求9所述的大数据Top-k查询方法，其特征在于，所述根据数据集新数据的增加进行调整包括：

否则，该数据点落在其他区域数据范围内；