CN108460137B

CN108460137B - 一种基于合并偏差门限的范围查询数据分片优化方法

Info

Publication number: CN108460137B
Application number: CN201810195004.8A
Authority: CN
Inventors: 葛微; 李先贤; 王金艳
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2021-07-20
Anticipated expiration: 2038-03-09
Also published as: CN108460137A

Abstract

本发明公开了一种基于合并偏差门限的范围查询数据分片优化方法，其特征是，包括如下步骤：1)建立范围查询负载下的数据访问概率模型；2)定义最优分片方案；3)切分出第一个数据片；4)试探合并下一段数据片，并计算合并带来的代价偏差；5)跳转到步骤4)，循环执行数据片合并，直到剩余数据片个数达到K为止，K是分片的数据片个数。这种方法能降低数据的管理维护开销、以及数据查询中的定位寻址代价和传输代价、提高查询效率。

Description

一种基于合并偏差门限的范围查询数据分片优化方法

技术领域

本发明涉及面向大数据上范围查询的数据分片优化技术，具体是一种基于合并偏差门限的范围查询数据分片优化方法。

背景技术

在面对范围查询需求时，我们需要感知范围查询的访问模式，并基于此为数据分片，将访问模式下关联性强的数据划分成一个数据片。这个“定制边界”的数据片在被范围查询访问时会被全部或大比率命中，大大降低数据定位寻址开销和传输开销，从而提高查询效率。

为了获得最优的范围查询性能，为数据划分切片的最优分片位置一定是在范围查询的边界上。因为从来没有被范围查询分割开的相邻数据，一定会在每次查询中都被范围查询同时命中，那么他们也不应该被数据分片切割开。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于合并偏差门限的范围查询数据分片优化方法。这种方法能降低数据的管理维护开销、以及数据查询中的定位寻址代价和传输代价、提高查询效率。

实现本发明的目的的技术方案是：

一种基于合并偏差门限的范围查询数据分片优化方法，与现有技术不同的是，包括如下步骤：

1）建立范围查询负载下的数据访问概率模型：定义数据集上范围查询的所有边界组成的集合叫做范围查询边界集，在基于记录的数据组织方式下，一条数据记录的查询累积概率＝数据记录被查询负载访问的次数/总查询次数，在基于数据片的数据组织方式下，定义第

个数据片

的长度为

，数据片

上的查询累积概率为

，由于对数据片

上任意记录的访问都体现为对数据片

的访问，因此数据片

查询累积概率

取值为

所含数据记录的查询累积概率的最大值，数据片

上的查询代价表示为：

上的查询代价＝定位寻址代价 + 数据传输代价

＝磁盘每次定位寻址代价

×

Figure 100002_DEST_PATH_IMAGE004AAAAAAAA

的查询累积概率

+数据片的长度

×每字节数据的传输代价 ×

Figure 100002_DEST_PATH_IMAGE004AAAAAAAAA

的查询累积概率

，由于数据分片后，可能存在查询“误命中”的情况，即片内部分数据不是查询结果集，但会被访问的情况，这就带来了额外的传输开销，定义这部分额外的传输开销叫做代价偏差，数据的分片粒度越粗，则数据查询的定位寻址代价越小，而数据传输代价偏差越大，导致数据传输代价越大，反之亦然，数据的分片粒度越细，则数据查询的定位寻址代价越大，数据传输代价越小，也就是说，定位寻址代价和数据传输代价是两个互相制约的指标，因此在倾斜范围查询工作负载下，数据分片问题是一个最优化问题；

2）定义最优分片方案：有N个关键字的数据集X，定义它的最优

-分片方案中第

分片为

，第

分片为

，因为这样的划分方式是最优分片方案，因此，如果调整数据分片的边界，将

中的

调整到

数据片中，就会增加数据查询的代价，也就是说，数据在经过最优分片后，分片代价偏差受到相邻分片的约束，当各分片的代价偏差趋近于相等的时候，总的代价偏差最小。

3）切分出第一个数据片：定义范围查询边界集为

，其基数为B，将集合中的元素排序，得到

，那么第一个数据片为

；

4）试探合并下一段数据片，并计算合并带来的代价偏差：

（1）将下一个数据初始化为下一个分片，并开始向后循环合并，如果合并后分片带来的代价偏差大于门限T时，放弃合并，则原分片是最优数据片；

（2）如果合并后分片带来的代价偏差不大于门限T时，则开始向后循环合并；

5）跳转到步骤4），循环执行数据片合并，直到数据片个数达到

为止，

是分片的数据片个数。

为数据做分片并以数据片管理数据，可以最大程度地降低数据的管理维护开销，最优分片可以得到最优的数据查询代价，从而提高查询效率。

本技术方案可以快速高效地完成数据分片，它不用考虑全局最优性，以最高效的方式，在保证每个数据片的分片代价偏差不高于门限T的情况下快速完成数据分片。

这种方法能降低数据的管理维护开销、以及数据查询中的定位寻址代价和传输代价、提高查询效率。

附图说明

图1为实施例中的数据分片产生的代价偏差示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步的阐述，但不是对本发明的限定。

实施例：

个数据片

Figure 100002_DEST_PATH_IMAGE004AAAAAAAAAA

的长度为

，数据片

Figure 100002_DEST_PATH_IMAGE004AAAAAAAAAAA

上的查询累积概率为

，由于对数据片

Figure 100002_DEST_PATH_IMAGE004AAAAAAAAAAAA

上任意记录的访问都体现为对数据片

Figure 100002_DEST_PATH_IMAGE004AAAAAAAAAAAAA

的访问，因此数据片

Figure 100002_DEST_PATH_IMAGE004AAAAAAAAAAAAAA

查询累积概率

取值为

Figure 100002_DEST_PATH_IMAGE004AAAAAAAAAAAAAAA

所含数据记录的查询累积概率的最大值，数据片

Figure DEST_PATH_IMAGE004AAAAAAAAAAAAAAAA

上的查询代价表示为：

Figure DEST_PATH_IMAGE004AAAAAAAAAAAAAAAAA

上的查询代价＝定位寻址代价 + 数据传输代价

＝磁盘每次定位寻址代价

×

Figure DEST_PATH_IMAGE004AAAAAAAAAAAAAAAAAA

的查询累积概率

+数据片的长度

×每字节数据的传输代价 ×

Figure DEST_PATH_IMAGE004AAAAAAAAAAAAAAAAAAA

的查询累积概率

-分片方案中第

分片为

，第

分片为

中的

调整到

3）切分出第一个数据片：定义范围查询边界集为

，其基数为B，将集合中的元素排序，得到

，那么第一个数据片为

；

4）试探合并下一段数据片，并计算合并带来的代价偏差：

如图1所示，图1中阴影部分表示代价偏差，例如

的下一段数据为

，并计算合并带来的代价偏差：

（1）如果合并后分片

带来的代价偏差大于门限T时，放弃合并，则

是第一个最优数据片，第二个分片初始化为

，并开始向下试探合并；

（2）如果合并后分片带来的代价偏差不大于门限T时，可以合并

和

为

，继续试探合并下一段数据

；

为止，

是分片的数据片个数。

本例中，代价偏差门限T的取值依据为：

数据被划分成数据片后，数据片上的查询累积概率分布是对范围查询累积概率分布的拟合，这个拟合是有偏差的，称为拟合代价偏差，它增加了数据片上的范围查询代价。如图1中的阴影部分面积就是数据分片带来的最大拟合代价偏差，它可以表示为

，其中，P _max是数据集上查询累积概率的最大值，P(x)是数据集上的查询分布概率密度函数；

当各分片的代价偏差趋近于相等的时候，总的代价偏差最小，因此得出每个数据分片的最大代价偏差门限T为：

设定了合适的门限T后，数据分片可以在门限T的限定下局部最优分片，分片的效率大大提高。