CN103731500B

CN103731500B - 基于Bigtable存储系统的数据批量插入方法

Info

Publication number: CN103731500B
Application number: CN201410010115.9A
Authority: CN
Inventors: 樊凯; 史晓丽; 李晖; 谈苗苗
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-01-09
Filing date: 2014-01-09
Publication date: 2017-02-08
Anticipated expiration: 2034-01-09
Also published as: CN103731500A

Abstract

本发明公开了一种基于Bigtable存储系统的数据批量插入方法，主要解决现有技术在处理批量插入时的数据分布不均和系统吞吐量低、读写操作时延大的问题，其实现步骤是：1)在批量插入之前新增一组暂存服务器，用于暂存待插入的数据；2)分别对暂存服务器和子表服务器中的数据进行统计抽样，获取这两类服务器中数据的统计信息；3)根据得到的两类统计信息，对子表服务器中的子表进行预拆分和移动，使拆分后的子表均匀存储在多台子表服务器上；4)将待插入数据并行插入到分割后的多个子表中。本发明加快了Bigtable存储系统中数据批量插入的速度，可用于存储系统的存储和管理。

Description

基于Bigtable存储系统的数据批量插入方法

技术领域

本发明属于数字信息存储技术领域，特别涉及基于Bigtable存储系统的数据批量插入方法，可用于存储系统的存储和管理。

背景技术

Bigtable存储系统是Google开发的第三项云计算关键技术，用于管理Google中的结构化数据。Bigtable是一个稀疏、分布式、持久化存储的多维有序映射表，表中的行关键字可以是任意字符串，目前最大支持64KB。Bigtable按照行关键字的字典序组织数据，表的行区间可以动态划分，每个行区间称为一个子表。子表是Bigtable中数据分布和负载均衡的基本单位，不同的子表可以有不同的大小，但为了限制移子表的移动成本和恢复成本，每个子表默认的最大尺寸为200MB。

Bigtable的架构如图1所示。数据以子表的形式存储在不同的子表服务器上，每个子表服务器管理一组子表，负责其上子表的读写请求，并在子表过大时进行子表分割。Bigtable中的数据按行区间进行划分，并以子表的形式分布到多个子表服务器，使数据请求得以并行处理。由于每个子表服务器可以包含几百个子表，且每个子表都可以分配到任意子表服务器。系统可以将过载服务器上的子表移动到较为空闲的服务器上，进行细粒度的负载均衡。Bigtable中的主服务器是一个单独的服务器，持有当前的子表分配信息，由主服务器负责系统的负载均衡。

在包括Google在内的许多大规模应用集群中，批量插入都是一种非常常见的操作。比如一个网络日志分析系统，每小时从世界各地的Web服务器中收集数据，然后批量插入数据库进行统计分析。在区间划分的数据存储系统中，必须小心地避免单台服务器过载，尤其是某一段键值区间是热点的时候。在Bigtable中并无专门针对批量插入的研究，Bigtable把批量插入看作一系列常规插入来处理。但由于Bigtable是区间划分的，即每个分区都对应一组关键字，并持有相应关键字的记录。因此，在现有的数据分区中进行批量插入，其分布非常不均。

由于负载集中于少量子表，主服务器和相关的子表服务器可能会过载，而其它子表服务器几乎没有什么负载，这样势必会严重影响相关子表服务器的性能，造成系统的整体吞吐量被拉低。如果在批量插入的同时还有常规的数据操作，与过载服务器相关的操作就会经历较大的时延，批量插入本身也会消耗很长时间。因此，Bigtable需要一种高效的批量插入方法，既能很好的解决常规方法在性能方面的不足，又不会给系统带来太大的开销。

发明内容

本发明目的在于提出一种基于Bigtable存储系统的数据批量插入方法，以解决Bigtable现有方法在处理批量插入时的数据分布不均和服务器过载所造成的系统吞吐量低、读写操作时延大的问题。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)在数据批量插入Bigtable之前新增一组暂存服务器，将待插入的数据在批量插入之前先转移至暂存服务器；

(2)分别对暂存服务器中的数据和Bigtable存储系统中子表服务器内部的数据进行统计抽样，获取这两类服务器中数据的统计信息；

(3)Bigtable利用得到的这两类统计信息，对系统中子表服务器内部的子表进行预拆分；

(4)将拆分后的子表在子表服务器之间进行移动，使得拆分后的子表均匀存储在多台子表服务器上；

(5)将待插入数据并行插入到分割后的多个子表中。

本发明与现有技术相比具有以下优点：

第一，本发明通过引入一组暂存服务器，将输入的数据转移至暂存服务器，可以最大化批量插入的并行度；通过对暂存服务器中的数据进行随机化处理，使得插入负载更加均衡；

第二，本发明通过对子表进行预拆分，从而为数据的批量插入预留了空间，并通过为不同的子表选择不同的拆分点，使得子表在经过批量插入后的大小基本相等，从而简化了负载均衡和数据恢复；

第三，本发明通过给出了批量插入问题的一种全局最优解，在平衡插入成本的同时，兼顾了子表移动引入的移动成本。

附图说明

图1为现有Bigtable存储系统的架构图；

图2为现有Bigtable存储系统的存储格式图；

图3为本发明的实现总流程图；

图4为本发明中对暂存服务器中数据的统计抽样子流程图；

图5为本发明中对子表服务器中数据的统计抽样子流程图；

图6为本发明中对子表服务器内部的子表进行预拆分的子流程图；

图7为采用本发明的批量插入方法和Bigtable存储系统的常规插入方法在数据批量插入时的对比图。

具体实施方式

下面结合附图及具体实例对本发明作进一步的具体描述：

首先对Bigtable进行说明：在Bigtable中，数据以子表的形式存储在不同的子表服务器上，每个子表服务器管理大约200个子表，并负责其管理的子表的读写请求，以及在子表过大时进行子表分割。子表是Bigtable数据分布和负载均衡的基本单位，如图2所示，Bigtable中存储的表项都是未经解析的字节数组，由行关键字、列关键字和时间戳进行标识，并以行关键字的字典序进行组织。

在Bigtable存储系统中，批量插入是一种非常常见的操作，其具有插入数据量大、关键字集中的特点。

鉴于Bigtable存储系统和数据批量插入的特点，本发明设计了一种新的批量插入方案。

参照图3，本发明的实现批量插入的步骤包括如下：

步骤1.在数据批量插入Bigtable之前新增一组暂存服务器，将待插入的数据在批量插入之前先转移至暂存服务器。

步骤2.采用带权抽样法对暂存服务器中的数据进行统计抽样，获取暂存服务器中数据的统计信息。

参照图4，本步骤的具体实现如下：

2a)对暂存服务器中的数据进行随机化处理，使数据均匀分布；

2b)从暂存服务器中获取t₁＝t/s个样本，其中t为总样本数，s为Bigtable存储系统中暂存服务器和子表服务器的总数；

2c)根据样本信息，计算待插入的实际记录数：

2c1)设暂存服务器中任意记录的关键字x，其累积分布函数F(x)为：

F (x) = \frac{| {b &Element; Ω | b \leq x} |}{| Ω |},

其中，b为子表的键值边界，Ω为暂存服务器中的数据总量；

2c2)设暂存服务器中数据的联合概率密度函数f(x,y)为：

f (x, y) = \frac{(\begin{matrix} n x \\ t y \end{matrix}) (\begin{matrix} n (1 - x) \\ t (1 - y) \end{matrix})}{(\begin{matrix} n \\ t \end{matrix})},

其中，x为属于某个键值范围内的记录在服务器中的比值，y为属于某个键值范围内的记录在抽取的样本中的比值，n为服务器中记录的总量，t为随机抽取的样本数量，表示从n个记录中任意取t个样本的组合排列，表示从nx个记录中任意取ty个样本的组合排列，表示从n(1-x)个记录中任意取t(1-y)个样本的组合排列；

2c3)根据累积分布函数F(x)和概率密度函数f(x,y)，得到向子表t_j插入的记录数R_j：

R_{j} = Σ e^{- t Σ_{j &Element; s} [D (q_{j} | | μ_{j}) - D (q_{j}^{'} | | μ_{j})]},

其中，t为抽取的样本数，S为暂存服务器的集合，q_j为落入子表t_j范围的记录占待插入记录总数的实际比值，q′_j为q_j在误差指数最小时的取值，μ_j为对q_j的估计值，D(q_j||μ_j)表示用μ_j模拟q_j时所需的额外比特数，D(q′_j||μ_j)表示用μ_j模拟q′_j时所需的额外比特数。

步骤3.采用带权抽样法对Bigtable存储系统中子表服务器内部的数据进行统计抽样，获取子表服务器中数据的统计信息。

参照图5，本步骤的具体实现如下：

3a)从子表服务器中获取t′₁＝t′/s′个样本，其中t′为总样本数，s′为Bigtable存储系统中暂存服务器和子表服务器的总数；

3b)根据样本信息，计算各个子表服务器中原有的记录数：

3b1)设子表服务器中任意记录的关键字x，其累积分布函数F′(x)为：

F^{'} (x) = \frac{| {b^{'} &Element; ω | b^{'} \leq x} |}{| ω |},

其中，b′为子表的键值边界，ω为子表服务器中的数据总量；

3b2)设子表服务器中数据的联合概率密度函数f′(x,y)为：

f^{'} (x, y) = \frac{(\begin{matrix} n^{'} x \\ t^{'} y \end{matrix}) (\begin{matrix} n^{'} (1 - x) \\ t^{'} (1 - y) \end{matrix})}{(\begin{matrix} n^{'} \\ t^{'} \end{matrix})},

其中，x为属于某个键值范围内的记录在服务器中的比值，y为属于某个键值范围内的记录在抽取的样本中的比值，n′为服务器中记录的总量，t′为随机抽取的样本数量，表示从n′个记录中任意取t′个样本的组合排列，表示从n′x个记录中任意取t′y个样本的组合排列，表示从n′(1-x)个记录中任意取t′(1-y)个样本的组合排列；

3b3)根据累积分布函数F′(x)和概率密度函数f′(x,y)，得到子表服务器中子表t_j中的记录数R′_j：

R_{j}^{'} = Σ e^{- t^{'} Σ_{j &Element; S^{'}} [D (q_{j}^{'} | | μ_{j}^{'}) - D (q_{j}^{''} | | μ_{j}^{'})]},

其中，t′为随机抽取的样本数，S′为子表服务器的集合，q′_j为落入子表t_j范围的记录占子表服务器中记录总数的实际比值，q″_j为q′_j在误差指数最小时的取值，μ′_j为对q′_j的估计值，D(q′_j||μ′_j)表示用μ′_j模拟q′_j时所需的额外比特数，D(q″_j||μ′_j)表示用μ′_j模拟q″_j时所需的额外比特数。

步骤4.Bigtable存储系统利用步骤2和步骤3得到的两类统计信息，对系统中子表服务器内部的子表进行预拆分。

参照图6，本步骤具体实现如下：

4a)收集子表中现有记录和待插入新记录关键字的样本信息，并检查落入给定子表t_j关键字边界内的新记录样本数；

4b)根据得到的新记录样本数，估算出待插入的新记录数r_n：

4b1)设新记录的样本总数为T，落入给定子表t_j关键字边界内的新记录样本数为R，则子表t_j中待插入的样本数占总样本的比例为P＝R/T；

4b2)根据子表t_j中待插入的样本占比P，以及待插入的记录总数N，得到子表t_j的待插入记录数r_n为：r_n＝N×P；

4c)对于一个持有r_e条记录的给定子表t_j，根据其新记录数r_n与原记录数r_e之和的大小，决定是否对子表t_j进行预拆分；如果r_e+r_n不大于子表的最大记录数，则保持子表t_j不变，否则，对子表t_j进行预拆分，得到一个四元组：[e_j,n_j,h_j,d_j]，其中，e_j为子表原有数据的预测值；n_j表示待插入数据的预测值；h_j为子表t_j所在的子表服务器；d_j是系统为子表t_j分配的目的子表服务器。

由于在数据批量插入执行之前，子表t_j会从h_j移动到d_j上，随着移动操作的执行，d_j会不断更新，所以任意时刻四元组[e_j,n_j,h_j,d_j]都能够表示子表t_j的拆分和移动。

步骤5.将拆分后的子表在子表服务器之间进行移动，使得拆分后的子表均匀存储在多台子表服务器上。

4a)计算每台服务器m_i中记录的移动成本o_i和插入成本s_i，其中o_i是移动过程中移出或移入m_i的记录数，s_i是插入过程中插入服务器m_i的记录数：

4a1)对于每台服务器m_i，定义两个子表集：子表集A_i用于表示m_i中移动成本的主要来源，子表集B_i用于表示m_i中插入成本的主要来源；

4a2)根据任意子表t_i拆分完成后都会表示为一个四元组[e_i，n_i,h_i,d_i]的特性，将子表集A_i和B_i分别表示为：

A_i＝{t_i|h_i≠d_i}，

B_i＝{t_i|d_i＝m_i}，

其中，t_i表示服务器m_i中的任意子表，e_i为子表t_i中原有的数据的估计值，n_i表示待插入数据的估计值，h_i为子表t_i原来所在的服务器，d_i是系统为子表t_i分配的目的服务器；

4a3)计算服务器m_i的移动成本o_i和插入成本s_i：

o_{i} = \underset{t_{i} &Element; A_{i}}{Σ} e_{i},

s_{i} = \underset{t_{i} &Element; B_{i}}{Σ} n_{i};

4b)计算Bigtable存储系统中移动成本的最大值o_max和插入成本的最大值s_max：

o_max＝max{o_i|m_i∈M}，

s_max＝max{s_i|m_i∈M}，

其中，o_i为服务器m_i的移动成本，s_i是服务器m_i的插入成本，M是Bigtable存储系统中所有服务器的集合；

4c)最小化Bigtable存储系统的移动成本和插入成本，即采用禁忌搜索算法寻找o_max+s_max的全局最优解。

寻求o_max+s_max的全局最优解是组合数学中典型的组合优化问题，根据组合数学的经典理论模型，可以将寻求o_max+s_max的全局最优解抽象为2BP|O|G型二维装箱问题，下面给出该问题的抽象模型：

在Bigtable存储系统中，每台服务器m_j代表一个装箱，在装箱中任意子表t_j由相应四元组[e_j,n_j,h_j,d_j]定义的向量(x_j,y_j)来表示，其中x_j表示新插入的数据，y_j表示需要移动的数据。由于在四元组[e_j,n_j,h_j,d_j]中，n_j表示待插入数据的预测值，x_j可以简单地与n_j对应；如果h_j＝d_j，子表不会移动，此时y_j＝0；否则，y_j＝e_j，且h_j上还应附加一个向量(0,e_j)，用于表示从h_j上卸载t_j。

步骤6.将待插入数据并行插入到分割后的多个子表中。

数据的并行插入由主服务器触发，主服务将子表的分配信息发送至每台暂存服务器，暂存服务器根据子表分配信息将其上的数据插入到对应的子表服务器中。

本发明效果可以通过以下仿真进一步说明：

1.仿真条件

本发明的仿真是在主频2.5GHz intel(R)Core(TM)i5CPU的硬件环境以及MATLABR2009b，Window XP Professional的软件环境下进行的。

2.仿真内容与结果分析

采用本发明的批量插入方法和Bigtable存储系统的随机OAT插入方法与有序OAT插入方法进行数据批量插入，结果如图7所示。

从图7可见，三种方法的时间消耗都随着插入量的增加而线性增长，但本发明的增速明显低于其它方法，即本发明在批量插入时的吞吐量高于其它方法。这是由于本发明会对子表进行预拆分和移动，在子表的数据量较少时进行负载均衡，因而随机OAT的吞吐量会低于本发明方法；而有序OAT中的记录只会命中少量的子表，因而也只能命中少量的子表服务器，所以有序OAT的吞吐量与单一子表服务器的情况类似。

仿真结果表明：本发明由于采用了暂存服务器来暂存批量插入的数据，提高了数据插入的并行度，并通过子表的预拆分和移动为数据的批量插入预留了空间，加快了数据批量插入的速度。

Claims

1.一种基于Bigtable存储系统的数据批量插入方法，包括如下步骤：

(2)采用带权抽样法分别对暂存服务器中的数据和Bigtable存储系统中子表服务器内部的数据进行统计抽样，获取这两类服务器中数据的统计信息；

(5)将待插入数据并行插入到分割后的多个子表中。

2.根据权利要求1所述的方法，其中所述步骤(2)中对暂存服务器中的数据进行统计抽样，是采用带权抽样法进行，其步骤如下：

2c)根据样本信息，计算待插入的实际记录数：

F (x) = \frac{| {b &Element; Ω | b \leq x} |}{| Ω |},

其中，b为子表的键值边界，Ω为暂存服务器中的数据总量；

2c2)设暂存服务器中数据的联合概率密度函数f(x,y)为：

f (x, y) = \frac{(\begin{matrix} n x \\ t y \end{matrix}) (\begin{matrix} n (1 - x) \\ t (1 - y) \end{matrix})}{(\begin{matrix} n \\ t \end{matrix})},

R_{j} = {Σe}^{- {tΣ}_{j &Element; s} [D (q_{j} | | μ_{j}) - D (q_{j}^{'} | | μ_{j})]},

3.根据权利要求1所述的方法，其中所述步骤(2)中采用带权抽样法对Bigtable存储系统中子表服务器内部的数据进行统计抽样，其步骤如下：

2.1)从子表服务器中获取t′₁＝t′/s′个样本，其中t′为总样本数，s′为Bigtable存储系统中暂存服务器和子表服务器的总数；

2.2)根据样本信息，计算各个子表服务器中原有的记录数：

2.2.1)设子表服务器中任意记录的关键字x，其累积分布函数F′(x)为：

F^{'} (x) = \frac{| {b^{'} &Element; ω | b^{'} \leq x} |}{| ω |},

2.2.2)设子表服务器中数据的联合概率密度函数f′(x,y)为：

f^{'} (x, y) = \frac{(\begin{matrix} n^{'} x \\ t^{'} y \end{matrix}) (\begin{matrix} n^{'} (1 - x) \\ t^{'} (1 - y) \end{matrix})}{(\begin{matrix} n^{'} \\ t^{'} \end{matrix})},

2.2.3)根据累积分布函数F′(x)和概率密度函数f′(x,y)，得到子表服务器中子表t_j中的记录数R′_j：

R_{j}^{'} = {Σe}^{- t^{'} Σ_{j &Element; S^{'}} [D (q_{j}^{'} | | μ_{j}^{'}) - D (q_{j}^{''} | | μ_{j}^{''})]},

4.根据权利要求1所述的方法，其中所述步骤(3)中Bigtable利用得到的两类统计信息，对系统中子表服务器内部的子表进行预拆分，按如下步骤进行：

3a)收集子表中现有记录和待插入新纪录关键字的样本信息，并检查落入给定子表t_j关键字边界内的新记录样本数；

3b)根据得到的新记录样本数，估算出待插入的新记录数r_n：

3c)对于一个持有r_e条记录的给定子表t_j，根据其新记录数r_n与原记录数r_e之和的大小，决定是否对子表t_j进行预拆分；如果r_e+r_n不大于子表的最大记录数，则保持子表t_j不变，否则，对子表t_j进行预拆分，得到一个四元组：[e_j,n_j,h_j,d_j]，其中，e_j为子表原有数据的预测值；n_j表示待插入数据的预测值；h_j为子表t_j所在的子表服务器；d_j是系统为子表t_j分配的目的子表服务器。

5.根据权利要求1所述的方法，其中所述步骤(4)中将拆分后的子表在子表服务器之间进行移动，使得拆分后的子表均匀存储在多台子表服务器上，按如下步骤执行：

4a2)根据任意子表t_i拆分完成后都会表示为一个四元组[e_i,n_i,h_i,d_i]的特性，将子表集A_i和B_i分别表示为：

A_i＝{t_i|h_i≠d_i}，

B_i＝{t_i|d_i＝m_i}，

4a3)计算服务器m_i的移动成本o_i和插入成本s_i：

o_{i} = \underset{t_{i} &Element; A_{i}}{Σ} e_{i},

s_{i} = \underset{t_{i} &Element; B_{i}}{Σ} n_{i};

o_max＝max{o_i|m_i∈M}，

s_max＝max{s_i|m_i∈M}，