CN108427747B

CN108427747B - 一种基于范围查询边界集的动态规划数据分片优化方法

Info

Publication number: CN108427747B
Application number: CN201810195499.4A
Authority: CN
Inventors: 葛微; 李先贤; 王金艳
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2021-10-15
Anticipated expiration: 2038-03-09
Also published as: CN108427747A

Abstract

本发明公开了一种基于范围查询边界集的动态规划数据分片优化方法，其特征是，包括如下步骤：1)建立范围查询负载下的数据访问概率模型；2)找到最优K‑分片；3)重复执行步骤2)，最优查询代价的计算可以被不断地迭代分解下去，直到找到所有的K‑1个最优切片位置b₁，b₂，…，b_K‑1，则最优化目标被转化成一组数据片的查询代价C(b_i，b_j)，i，j∈[1，N]之和。这种方法通过动态规划方法在范围查询边界集中搜索最优切片位置，最优数据分片可以降低数据的管理维护开销、以及数据查询中的定位寻址代价和传输代价、提高查询效率。

Description

一种基于范围查询边界集的动态规划数据分片优化方法

技术领域

本发明涉及面向大数据上具有倾斜特性的范围查询负载下的数据分片优化技术，具体是一种基于范围查询边界集的动态规划数据分片优化方法。

背景技术

数据分片是一种对表的横向或纵向的分割，它是数据管理系统在面对大规模数据的应对之策，即采用“分而治之”的思路管理数据。原始的数据以记录为粒度来组织和管理，代价惊人，每条记录的查询都带来定位寻址开销和传输开销，因此基于记录的数据组织方式上的查询优化对查询性能的提升也是有限的。

在一些组合优化问题中，优化的目标是最大化或最小化某个特定的目标值。这样的问题可以通过枚举来解决，但枚举方法的复杂性大多是指数级的，可行性差。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于范围查询边界集的动态规划数据分片优化方法。这种方法通过动态规划方法在范围查询边界集中搜索最优切片位置，最优数据分片可以降低数据的管理维护开销、以及数据查询中的定位寻址代价和传输代价、提高查询效率。

实现本发明的目的的技术方案是：

一种基于范围查询边界集的动态规划数据分片优化方法，与现有技术不同的是，包括如下步骤：

1)建立范围查询负载下的数据访问概率模型：定义数据集上范围查询的所有边界组成的集合叫做范围查询边界集，在基于记录的数据组织方式下，一条数据记录的查询累积概率＝数据记录被查询负载访问的次数/总查询次数，在基于数据片的数据组织方式下，定义第k个数据片DS_k的长度为l_k，数据片DS_k上的查询累积概率为P_k，数据片DS_k查询累积概率P_k取值为DS_k所含数据记录的查询累积概率的最大值；

2)找到最优K-分片：基于动态规划方法，找到最优K-分片这个最优化目标可以被分解为找到一个最优切片位置b₁，使得数据片[x₁，b₁]上的查询代价和(b₁，x_N]上的(K-1)-最优分片查询代价的和最小，在倾斜范围查询工作负载下，数据的最优分片切片位置一定落在范围查询边界上，原因在于，范围查询的跨片检索会增加数据的定位寻址代价和数据传输代价，因此，在搜索最优切片位置的时候，在范围查询边界集中搜索，可以提高搜索效率；

3)重复执行步骤2)，最优查询代价的计算可以被不断地迭代分解下去，直到找到所有的K-1个最优切片位置b₁，b₂，…，b_K-1，则最优化目标被转化成一组数据片的查询代价

之和，由于只在范围查询边界集内搜索数据切片位置，而不是在整个数据集上，因此迭代算法的计算规模大大降低，每个数据片的查询代价

可以在常数时间内即

完成，因此所有数据片的查询代价计算可以在

时间内完成，至于最优代价

的计算，cell(b，k)需要访问cell(1，k-1)到cell(b-1，k-1)，因此完成cell(b，k)，b∈[1，B]的计算需要

时间，共有K组数据需要计算，因此最优代价的计算共需

来完成，基于范围查询边界集的动态规划数据分片优化方法的时间复杂度为

其中K为数据分片数，B为范围查询边界集的基数，即集合的元素个数。

动态规划(也称动态优化)方法以递归的方式把问题分解成更简单的子问题，从而将一个复杂的问题简化，动态规划方法分成几个步骤，每一步骤会决定下一步做什么以追求全局最优。

这种方法通过动态规划方法在范围查询边界集中搜索最优切片位置，最优数据分片可以降低数据的管理维护开销、以及数据查询中的定位寻址代价和传输代价、提高查询效率。

附图说明

图1为实施例中的数据最优分片切片位置一定落在范围查询边界上的示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步的阐述，但不是对本发明的限定。

实施例：

一种基于范围查询边界集的动态规划数据分片优化方法，包括如下步骤：

可以在常数时间内即

完成，因此所有数据片的查询代价计算可以在

时间内完成，至于最优代价

的计算，cell(b，k)需要访问cell(1，k-1)到ceell(b-1，k-1)，因此完成cell(b，k)，b∈[1，B]的计算需要

时间，共有K组数据需要计算，因此最优代价的计算共需

在倾斜范围查询工作负载下，数据分片应该尽量适应范围查询的访问模式，以最小化数据集上的范围查询代价，获得最优的查询性能，为了最小化范围查询代价，需要降低DS_k上的查询累积概率P_k，那么分片切片位置一定落在范围查询边界上，如图1所示，数据分片的切片位置如果不落在范围查询边界上，例如b′₂，那么[b′₂，b₂]之间的数据被分到DS₃数据片中，[b′₂，b₂]之间的数据的查询累积概率就会被推高，查询代价增加，因此，数据的最优分片切片位置一定落在范围查询边界上。

上面的结论可以帮助我们优化数据分片的效率，即只在范围查询的边界点上寻找数据分片的切片位置，这就是本实施例的基于范围查询边界集的数据分片优化方法。

由于只在范围查询边界集内搜索数据切片位置，而不是在整个数据集上，因此迭代算法的计算规模大大降低。