CN103810244A

CN103810244A - 一种基于数据分布的分布式数据存储系统的扩容方法

Info

Publication number: CN103810244A
Application number: CN201310661131.XA
Authority: CN
Inventors: 牛振东; 束博
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-12-09
Filing date: 2013-12-09
Publication date: 2014-05-21
Anticipated expiration: 2033-12-09
Also published as: CN103810244B

Abstract

本发明涉及一种分布式数据存储系统的扩容方法，特别涉及一种基于数据分布的分布式数据存储系统的扩容方法，属于数据库领域。该方法通过拟合数据的产生概率，根据此概率计算具有最大溢出概率的存储节点，在此节点的数据存储区间上添加新的存储节点以分担负载，在不管数据是否为均匀分布以及存储节点的负载能力是否相同的情况下，都可以提高系统的利用率，维持负载均衡，以及减少节点之间数据移动次数。

Description

一种基于数据分布的分布式数据存储系统的扩容方法

技术领域

本发明涉及一种分布式数据存储系统的扩容方法，特别涉及一种基于数据分布的分布式数据存储系统的扩容方法，属于数据库领域。

背景技术

随着计算机科学和互联网技术的发展，信息检索系统的数据量变得越来越大，为了保证其扩展性，可靠性，高性能和高适用性，通常使用分布式存储系统来保存海量的数据。

扩容是分布式存储系统的重要问题之一，目前通常使用分区、分片或分布式哈希表等技术。在处理非均匀分布的数据时，这些方法不能保证较高的系统利用率、较好的负载均衡性能以及较小的节点之间数据移动次数。因此，研究更好的分布式数据存储系统的扩容方法，是目前分布式数据库领域研究的一个重要问题。

分布式数据存储系统可分为分布式数据库和对等网络（P2P）数据存储系统。分布式数据库一般使用分区技术进行扩容，分区技术通常建立一个从分区键到存储节点的映射，根据分区键对数据进行定位，确定其所在的存储节点，并通过修改映射关系来进行扩容。其中分区键通常采用数据某个特征值或其哈希值。

分布式数据库的扩容也可以采用分片技术，一般包括垂直划分，以及基于关键字、哈希值、时间、区间、服务、映射目录的水平划分方法的分片。其中垂直分区是将数据库中的表的不同列划分到不同的服务器上，一般将和某些指定特征相关的数据划分在相同的服务器上。而基于关键字、哈希值、时间、区间、服务、映射目录等方法的水平划分分片技术是建立一个这些特征到存储节点的映射，根据这些特征的特征值对数据库中的表进行划分以及对数据进行定位。

P2P数据存储系统的存储以及扩容方法通常使用分布式哈希表技术，其中比较典型的如Ion Stoica根据DavidKarger在《Consistent hashing and random trees:Distributed caching protocols for relieving hot spots on the World Wide Web》中的一致性哈希方法所提出的Chord协议和PetarMaymounkov在《Kademlia:Apeer-to-peer information system based on the xor metric》中提出Kademlia协议和使用此协议的分布式存储系统，简称Kad网络。

一致性哈希方法定义一个标志符区间，这个区间首尾相连形成一个环，对每个节点生成一个位于此区间的标志符，根据此标志符将此节点映射到区间环上，对每个文件生成一个位于同样区间的标志符，将此标志符映射到区间环上，找到第一个标志符大于此文件标志符的节点，作为此文件的存储位置。

当添加新节点时，对此节点生成标志符，映射到区间环上。向大于其标志符和小于其标志符的若干个节点发送自身的信息，即可更新Chord网络的节点索引，完成了新节点的添加过程。

Kad网络中每个节点使用特定信息的哈希值或随机生成一个160位的ID作为标志符。所有节点被组织成一个二叉树结构，每个节点位于此二叉树的叶子节点上，每个节点的位置都由其标志符的最短前缀确定。当添加新的节点时，新的节点首先为自己生成一个标志符，根据此标志符确定其在二叉树索引中的位置，并向其他节点发送自己的标志符和其他信息，同时获取Kad网络其他节点的信息，这样就将此节点插入到索引二叉树中，同时也更新了整个Kad网络的节点索引和完成了新节点的插入过程。

Kad网络存储的数据为文件，对每个文件的内容通过哈希函数生成160位的哈希值作为此文件的标志，在Kad网络中每个存储节点的标志符中找出若干个与文件标志符最接近的节点，将文件存储在这些存储节点上。

在使用分区和分片等方法对数据进行划分时，都没有考虑数据的分布情况，或者没有根据数据分布的实时变化对存储节点和数据的对应关系进行调整，因此不能总是取得满意的负载均衡效果。特别是在系统扩容时，需要在节点之间移动大量的数据，这会严重影响系统的数据查询功能。

而分布式哈希表方法只是将节点的哈希值和数据关键字的哈希值简单地对应起来，并没有考虑到数据的分布情况和存储节点的负载能力，一般在存储节点数量较大以及数据分布较为均匀时，系统表现较好，如果数据不是均匀分布，节点性能不一致，则会导致数据分布不合理，影响系统的负载均衡性。

因此，如何根据数据的分布情况对分布式数据库进行扩容，提高系统的利用率，维持系统中每个存储节点的负载均衡，同时减少节点之间的数据移动次数，是目前分布式数据库领域的一个很有研究价值的课题。

发明内容

本发明的目的是针对目前分布式存储系统扩容方法中存在的负载均衡不佳，利用率不高，节点之间数据移动次数较为频繁等问题，而提出一种基于数据分布的分布式数据存储系统的扩容方法。

本发明的主要内容为：首先对存储系统进行初始化，然后顺序存储数据集里面的数据，在存储数据的过程中对存储历史进行保存，在存储数据的过程中需要添加存储节点时，使用本文提出的方法添加存储节点；之后交替进行存储数据、保存存储历史的操作以及添加存储节点的操作，直到所有数据都存储完毕。

本发明是通过以下技术方案实现的。

一种基于数据分布的分布式数据存储系统的扩容方法，包括3个操作：A、系统初始化；B、存储数据并保存数据存储历史；C、添加存储节点。具体过程为：

A、系统初始化；

具体为：

步骤A1：选择一个哈希函数，此哈希函数可以根据数据的某个特征计算其哈希值将数据映射到区间(a,b]上，其中a,b为整数，a<b。这样可以将每个数据用标志符k来表示，k位于标志符区间(a,b]上，整个数据集合可表示为一个标志符集合K，K={k₁,...k_m}，数据k_i的数量为s_i。

分布式存储系统包含若干个保存数据的存储节点，将每个数据存储节点用一个标志符n来表示，整个存储节点集合可表示为一个标志符集合N，N={n₁,...n_d}，存储节点的标志符n也位于标志符区间(a,b]上。如果存储节点标识符按升序排列为n₁,...n_d，规定标志符k位于区间(n_j-1,n_j]中的数据会被存储在n_j上，称n_j的存储区间为(n_j-1,n_j]。n_j的负载l_j定义为目前n_j上存储的数据的数量，c_j为n_j的最大可以承受的负载，或称为n_j的容量。

L定义为系统负载，即系统中数据的总数，可知：

L = Σ_{i = 0}^{m} s_{i} = Σ_{j = 0}^{d} n_{j} - - - (1)

定义在系统负载为L时k_i的产生概率函数为：

p_i=p(k_i,L) （2）

可知，

s_i=L×p(k_i,L) (3)

L = Σ_{i = 0}^{m} L \times p (k_{i}, L) - - - (4)

对于存储节点n_j上，在系统总负载为L时，

c_{j} = Σ_{i = y_{(j - 1)} + 1}^{y_{j}} L \times p (k_{i}, L) - - - (5)

步骤A2：构建存储节点的索引。存储节点的查询索引使用二叉树结构，其中叶子节点保存存储节点的信息（如容量、目前负载、IP，端口等位置信息，等等），非叶子节点存储其左子树的叶子节点可以存储的数据标志符的最大值。

经过步骤A1至步骤A2的操作，完成存储系统初始化的操作。

B、存储数据并保存数据存储历史；

具体为：

步骤B1：查询数据所在存储节点位置，详细过程为：根据数据的标志符从根节点开始查询，如果目前查询的节点不是叶子节点的话，判断所要查询的标志符是否大于非叶子节点中的值，如果是则继续查询其右子树，否则继续查询其左子树。直到所访问的是叶子节点时停止查询，返回此节点。

步骤B2：添加数据。将数据存储在步骤B1所返回的节点上。

步骤B3：记录添加历史。每次添加数据时记录系统负载L_z和每个数据的数量s_iz，具体定义如下：如果系统添加数据的次数为q，那么在每一次添加数据时，系统负载为L_z,z∈[1,q]，此时每一个数据k_i,i∈[1,m]时会对应一个数据量s_iz,i∈[1,m],z∈[1,q]，即s_iz是指在第z次添加数据时k_i的数量。

经过步骤B1至步骤B3的操作，完成存储数据并记录各种参数的操作。

C、添加存储节点。

具体为：

步骤C1：拟合数据产生概率。根据步骤B3所得到的数据存储历史，根据（6）可计算出每次添加数据时的p(k_i,L)，即p_iz。

p_iz=p_iz/L_z，z∈[1,q] (6)

再使用曲线回归的方法来拟合数据产生概率p(k_i,L)，定义：

p (k_{i}, L) = Σ_{r = 0}^{t} β_{r} L^{r} {k_{i}}^{t - r} - - - (7)

求出其中的向量β和阶数t，可得到每个数据的产生概率p(k_i,L)。

步骤C2：计算插入位置。设需要添加容量为c_x的节点x，需要求出其插入位置y，计算方法为首先对节点n_j,j∈[1,d]，根据（5），求出其对应的负载L，表示为L_j，插入位置y为对应负载L_j最小的节点，即：

y = \underset{j}{{\arg \min L}_{j}} - - - (8)

步骤C3：计算新加入存储节点的标志符，此标志符为x，根据（5）可知，

c_{x} + c_{j} = Σ_{i = y_{(j - 1)} + 1}^{y_{j}} L \times p (k_{i}, L) - - - (9)

根据（9）计算出L，再根据（10），

\frac{c_{j}}{c_{x}} = \frac{Σ_{i = x + 1}^{y_{j}} L \times p (k_{i}, L)}{Σ_{i = y_{(j - 1)} + 1}^{x} L \times p (k_{i}, L)} - - - (10)

计算出x，即新加入节点的标志符。

步骤C4：插入节点。在索引中插入存储节点，详细过程为：首先根据插入节点的标志符在索引中查询节点，此节点即为插入位置。在此节点上生成2个子节点，以插入节点的标志符作为中间点，将原节点的区间信息分别写入其左子节点和右节点，插入节点的标志符写入原节点。将原节点所保存的数据中标志符小于等于插入节点标志符的部分由原节点移动到其左子节点上，其余的移动到其右子节点上，并更新原节点和插入节点的负载。

经过步骤C1至步骤C4的操作，完成存储节点插入阶段的操作。

有益效果

本发明所述的基于数据分布的分布式存储系统的扩容方法，通过对数据产生概率进行估计，并根据此概率计算出具有最大溢出概率的存储节点，在此节点的数据存储区间上添加新的存储节点以分担负载，从而保证了在不管数据是否为均匀分布以及存储节点的负载能力是否相同的情况下，都可以提高系统的利用率，维持负载均衡，以及减少节点之间数据移动次数。

附图说明

图1本发明的方法流程图；

图2数据和存储节点的映射关系；

图3标志符查询算法；

图4节点插入算法；

图5非均匀分布数据的数据量和存储节点数量的关系

图6非均匀分布数据的数据量和存储节点利用率均值的关系

图7非均匀分布数据的数据量和存储节点利用率方差的关系

图8非均匀分布数据的数据量和数据移动次数的关系

图9均匀分布数据的数据量和存储节点数量的关系

图10均匀分布数据的数据量和存储节点利用率均值的关系

图113种方法的存储节点利用率

图12均匀分布数据的数据量和存储节点利用率方差的关系

图13均匀分布数据的数据量和数据移动次数的关系

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

本实施例采用本发明提出的方法建立一个模拟数据存储系统，该存储系统使用的测试机器的CPU为AMD Athlon^TMII X3435Processor(3CPUs),2.90GHz。内存为8.00GB，其频率为2.67GHz。本实施例中存储方法中的存储节点的容量均设置为2097152条记录，以模拟实际硬件设施环境。采用搜狗实验室提供的包括2011-12-30和2011-12-31共2天的用户查询日志作为实验数据集，包含43,545,444个查询点击记录，其中查询词以汉字为首字符的记录有31,552,843个，实验首先使用这部分数据的查询词首字符的哈希值作为非均匀分布数据的标志符对这些数据进行存储，然后使用用户ID的哈希值作为均匀分布数据的标志符对所有数据进行存储，具体步骤如下：

实验包括3个操作：A、系统初始化；B、存储数据并保存数据存储历史；C、添加存储节点。具体过程如图1所示：首先对存储系统进行初始化，然后顺序存储数据集里面的数据，在存储数据的过程中对存储历史进行保存，在存储数据的过程中需要添加存储节点时，使用本文提出的方法添加存储节点；之后交替进行存储数据、保存存储历史的操作以及添加存储节点的操作，直到所有数据都存储完毕。

A、系统初始化；

具体为：

步骤A1：选择RSH哈希函数分别将查询词首字符和用户ID映射到(40000,65535]区间上，这样可以将每个查询记录用标志符k来表示，k位于标志符区间(40000,65535]上，整个查询记录集合可表示为一个标志符集合K，K={k₁,...k_m}，数据k_i的数量为s_i。

初始化时分布式存储系统包含1个保存数据的存储节点，以后随着数据的增加会逐渐添加新的存储节点。将每个数据存储节点用一个标志符n来表示，整个存储节点集合可表示为一个标志符集合N，N={n₁,...n_d}，存储节点的标志符n也位于标志符区间(40000,65535]上。如果存储节点标识符按升序排列为n₁,...n_d，规定标志符k位于区间(n_j-1,n_j]中的数据会被存储在n_j上，称n_j的存储区间为(n_j-1,n_j]。图2显示了数据和存储节点的映射关系。n_j的负载l_j定义为目前n_j上存储的数据的数量，c_j为n_j的最大可以承受的负载，或称为n_j的容量。

L定义为系统负载，即系统中数据的总数，可知：

L = Σ_{i = 0}^{m} s_{i} = Σ_{j = 0}^{d} n_{j} - - - (1)

定义在系统负载为L时k_i的产生概率函数为：

p_i=p(k_i,L) （2）

可知，

s_i=L×p(k_i,L) （3）

L = Σ_{i = 0}^{m} L \times p (k_{i}, L) - - - (4)

对于存储节点n_j上，在系统总负载为L时，

c_{j} = Σ_{i = y_{(j - 1)} + 1}^{y_{j}} L \times p (k_{i}, L) - - - (5)

经过A1至步骤A2的操作，完成存储系统初始化的操作。

B、存储数据并保存数据存储历史；

具体为：

步骤B1：查询数据所在存储节点位置，图3显示了查询数据所在存储节点位置的算法，详细过程为：根据数据的标志符从根节点开始查询，如果目前查询的节点不是叶子节点的话，判断所要查询的标志符是否大于非叶子节点中的值，如果是则继续查询其右子树，否则继续查询其左子树。直到所访问的是叶子节点时停止查询，返回此节点。

步骤B2：添加数据。将数据存储在步骤B1所返回的节点上。

C、添加存储节点。

具体为：

p_iz=p_iz/L_z，z∈[1,q] (6)

再使用曲线回归的方法来拟合数据产生概率p(k_i,L)，定义：

p (k_{i}, L) = Σ_{r = 0}^{t} β_{r} L^{r} {k_{i}}^{t - r} - - - (7)

本实验中阶数t定义为8，求出其中的向量β，可得到每个数据的产生概率p(k_i,L)。

y = \underset{j}{{\arg \min L}_{j}} - - - (8)

c_{x} + c_{j} = Σ_{i = y_{(j - 1)} + 1}^{y_{j}} L \times p (k_{i}, L) - - - (9)

根据（9）计算出L，再根据（10），

\frac{c_{j}}{c_{x}} = \frac{Σ_{i = x + 1}^{y_{j}} L \times p (k_{i}, L)}{Σ_{i = y_{(j - 1)} + 1}^{x} L \times p (k_{i}, L)} - - - (10)

计算出x，即新加入节点的标志符。

步骤C4：在索引中插入存储节点。图4显示了在索引中插入存储节点的算法，详细过程为：首先根据插入节点的标志符在索引中查询节点，此节点即为插入位置。在此节点上生成2个子节点，以插入节点的标志符作为中间点，将原节点的区间信息分别写入其左子节点和右节点，插入节点的标志符写入原节点。将原节点所保存的数据中标志符小于等于插入节点标志符的部分由原节点移动到其左子节点上，其余的移动到其右子节点上，并更新原节点和插入节点的负载。

经过步骤C1至步骤C4的操作，完成存储节点插入阶段的操作。

使用上述方法将所有查询记录存储完毕，并记录采用本发明提出的方法得到的存储系统的利用率（其中利用率定义为存储节点的负载和容量的比值）、存储节点数量，数据移动次数等参数如图5至图13所示。

为了说明本发明的实际效果，在同等条件下，以相同的实验数据分别采用目前通常使用的2种分布式存储系统的扩容方法进行比较。这两种方法为：基于一致性哈希的扩容方法和基于虚拟存储节点的一致性哈希的扩容方法。其构造方法如下：

基于一致性哈希的方法的扩容方法为：当新数据所在的存储节点的负载等于其容量时，首先随机生成一个位于区间(40000,65535]的值，然后向系统中添加一个以此值作为标志符的存储节点，尝试重新存储新数据，如果仍然无法存储则继续添加新的存储节点，直到所有数据都被存储在系统中。最后统计各种参数。

基于虚拟存储节点的一致性哈希的方法的扩容方法为：首先定义每个实际存储节点上的最大虚拟节点数量16，每个虚拟存储节点的容量l为实际节点的容量的

，当新数据所在的虚拟节点的负载等于其容量时，首先向系统中添加一个实际节点，然后随机生成16个位于区间(40000,65535]的值，在新添加的实际节点上添加16个以这些值作为标志符的虚拟存储节点，再尝试重新存储数据，如果仍然无法存储则继续重复上述过程，直到所有数据都被存储在系统中。最后统计实际节点的各种参数，在计算数据的移动次数时，如果数据的移动是在同一个实际节点上不同虚拟节点之间进行，则不累计其移动次数。

经过上述实验，采用本发明提出的基于数据分布的分布式存储系统扩容方法和其他两种比较方法得到的各种性能参数如图5至图13所示，具体分析叙述如下：

一、非均匀分布的数据

1、数据量和存储节点数量的关系

图5显示了系统存储的数据量从0增长到31,552,843时存储节点数量的变化情况，从中可以看到：随着数据量的增加，每种存储方法的存储节点数量也在增加，其中基于虚拟节点的一致性哈希方法增长最快，在数据量为31,552,843时已经增长到119，基于基本一致性哈希的方法为74，而本文提出的方法的节点数量为16，仅为基于虚拟节点一致性哈希方法的13%，基于一致性哈希方法的22%。

2、存储节点利用率的均值

图6显示了系统存储的数据量增大时存储节点利用率均值的变化情况，从中可以看到：在添加节点时，每种存储方法的存储节点负载利用率均值都会下降，然后随着数据量的增加再次上升，但存储节点利用率有减小的趋势。其中虚拟节点的一致性哈希方法和基本一致性哈希方法近似，在数据量为31,552,843时其利用率均值分别为0.13和0.20，而本文提出的方法的均值为0.94，远大于其他2种方法，这表明本算法的利用率较高。因为本算法每次都将新节点插入到数据量最大的区间，可保证节点的利用率，而一致性哈希方法是将节点随机插入到区间内，不能保证其位于最需要的区间内，也就不能保证其利用率。

3、存储节点利用率的方差

图7显示了系统存储的数据量增大时存储节点利用率方差的变化情况，从中可以看到：随着数据量的增大，每种存储方法的存储节点利用率的方差的波动都有减小的趋势，但本算法的利用率方差不仅波动小，其最终值也仅为0.0007，而其他算法的波动较大，其最终值为0.06和0.03。这表明本算法的节点负载较为稳定。

4、移动次数

图8显示了系统存储的数据量从0到31,548,946时数据移动次数的变化情况，从中可以看到：随着数据量的增大，每次添加节点时每种存储方法的数据移动次数都会增大，其中基于虚拟节点的一致性哈希的方法和基于基本一致性哈希的方法移动次数相近，在数据量为31,552,843时分别为42,212,230和41,621,140，而本文提出的基于数据分布的方法的数据移动次数为15,728,640，为其他2种方法的37%和38%。

总的来说，对于非均匀分布的数据，基于一致性哈希的存储方法和基于虚拟节点的一致性哈希的方法性能非常接近，而本文提出的方法明显优于这2种方法。

二、均匀分布的数据

以下是根据用户ID的哈希值作为标志符的实验结果。

1、数据量和存储节点数量的关系

图9显示了系统存储的数据量增大时存储节点数量的变化情况，从中可以看到：随着数据量的增加，每种存储方法的存储节点数量也在增加。最后在数据量为43,545,444时，基于虚拟节点的一致性哈希方法的节点数为105，基于基本一致性哈希的方法的节点数为130，而本文提出的方法的节点数量为32，只有基于基本一致性哈希的方法的25%，基于虚拟节点的一致性哈希方法的30%。

2、存储节点利用率的均值

图10显示了系统存储的数据量增大时存储节点利用率均值的变化情况，从中可以看到：存储节点利用率均值的变化情况和非均匀分布的数据类似，在数据量增加时每种存储方法的存储节点负载利用率均值都在波动中有减少的趋势，其中虚拟节点的一致性哈希方法的均值略大于基本一致性哈希方法的均值，而本文提出的方法的均值远大于其他2种方法，3种方法的最终值分别为0.65、0.16和0.20。这表明本算法的利用率较高。

图11显示了3种方法的所有存储节点在数据达到43,545,444时的利用率，可以看到，虽然是均匀分布的数据，但基于一致性哈希的方法以及基于虚拟节点的一致性哈希的方法中存储节点的利用率仍然很不均匀。这是由于在节点或虚拟节点数量和存储区间相比较少的情况下（本实验中存储区间的长度为25536，而基于一致性哈希的方法中节点数量为130，基于虚拟节点的一致性哈希的方法虚拟节点数量为1680，实际节点数量为105），仍然不能比较均匀地分布在整个存储区间上，从而导致了整体利用率不高的结果。而如果大量增加虚拟节点，则又会导致添加节点和数据查询代价的增加，同样会损害系统性能。

3、存储节点利用率的方差

图12显示了系统存储的数据量增大时存储节点利用率方差的变化情况，从中可以看到：3种方法的存储节点利用率的方差的变化趋势和非均匀分布的实验数据类似，他们的最终值分别为0.000036、0.03和0.03。这表明本算法的节点负载较为稳定。

3、移动次数

图13显示了系统存储的数据量从0到43,545,444时节点之间数据移动次数的变化情况，从中可以看到：随着数据量的增大，每种存储方法的数据移动次数都在增大，其中基于基本一致性哈希方法的最大，而本文提出的基于数据分布的方法的节点数量最少，3种方法的移动次数分别为32,505,856、60,471,492和51,809,450，本算法是基于虚拟节点一致性哈希方法的54%，基于一致性哈希方法的63%。

通过以上数据可以看到，对于均匀分布的数据，基于虚拟节点的一致性哈希方法的性能略微优于基于一致性哈希的方法，本方法明显优于其他2种方法。

通过上述分析可以得出以下结论：本发明提出的基于数据分布的分布式存储系统的扩容方法对数据产生概率进行拟合，计算具有最大溢出概率的存储节点，在此节点的数据存储区间上添加新的存储节点以分担负载，从而提高了系统利用率，维持了负载均衡以及减少了节点之间数据移动次数，验证了其有效性。

需要强调的是，对于本领域技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些也应视为属于本发明的保护范围。

Claims

1.一种基于数据分布的分布式数据存储系统的扩容方法，其特征在于，包括3个操作：A、系统初始化；B、存储数据并保存数据存储历史；C、添加存储节点；具体过程为：

A、系统初始化；

具体为：

步骤A1：选择一个哈希函数，此哈希函数可以根据数据的某个特征计算其哈希值将数据映射到区间(a,b]上，其中a,b为整数，a＜b；这样可以将每个数据用标志符k来表示，k位于标志符区间(a,b]上，整个数据集合可表示为一个标志符集合K，K={k₁,...k_m}，数据k_i的数量为s_i；

分布式存储系统包含若干个保存数据的存储节点，将每个数据存储节点用一个标志符n来表示，整个存储节点集合可表示为一个标志符集合N，N={n₁,...n_d}，存储节点的标志符n也位于标志符区间(a,b]上；如果存储节点标识符按升序排列为n₁,...n_d，规定标志符k位于区间(n_j-1,n_j]中的数据会被存储在n_j上，称n_j的存储区间为(n_j-1,n_j]；n_j的负载l_j定义为目前n_j上存储的数据的数量，c_j为n_j的最大可以承受的负载，或称为n_j的容量；

L定义为系统负载，即系统中数据的总数，可知：

L = Σ_{i = 0}^{m} s_{i} = Σ_{j = 0}^{d} n_{j} - - - (1)

定义在系统负载为L时k_i的产生概率函数为：

p_i=p(k_i,L) （2）

可知，

s_i=L×p(k_i,L) （3）

L = Σ_{i = 0}^{m} L \times p (k_{i}, L) - - - (4)

对于存储节点n_j上，在系统总负载为L时，

c_{j} = Σ_{i = y_{(j - 1)} + 1}^{y_{j}} L \times p (k_{i}, L) - - - (5)

步骤A2：构建存储节点的索引；存储节点的查询索引使用二叉树结构，其中叶子节点保存存储节点的信息（如容量、目前负载、IP，端口等位置信息，等等），非叶子节点存储其左子树的叶子节点可以存储的数据标志符的最大值；

经过步骤A1至步骤A2的操作，完成存储系统初始化的操作；

B、存储数据并保存数据存储历史；

具体为：

步骤B1：查询数据所在存储节点位置，详细过程为：根据数据的标志符从根节点开始查询，如果目前查询的节点不是叶子节点的话，判断所要查询的标志符是否大于非叶子节点中的值，如果是则继续查询其右子树，否则继续查询其左子树；直到所访问的是叶子节点时停止查询，返回此节点；

步骤B2：添加数据；将数据存储在步骤B1所返回的节点上；

步骤B3：记录添加历史；每次添加数据时记录系统负载L_z和每个数据的数量s_iz，具体定义如下：如果系统添加数据的次数为q，那么在每一次添加数据时，系统负载为L_z,z∈[1,q]，此时每一个数据k_i,i∈[1,m]时会对应一个数据量s_iz,i∈[1,m],z∈[1,q]，即s_iz是指在第z次添加数据时k_i的数量；

经过步骤B1至步骤B3的操作，完成存储数据并记录各种参数的操作；

C、添加存储节点；

具体为：

步骤C1：拟合数据产生概率；根据步骤B3所得到的数据存储历史，根据（6）可计算出每次添加数据时的p(k_i,L)，即p_iz；

p_iz=p_iz/L_z,z∈[1,q] （6）

再使用曲线回归的方法来拟合数据产生概率p(k_i,L)，定义：

p (k_{i}, L) = Σ_{r = 0}^{t} β_{r} L^{r} {k_{i}}^{t - r} - - - (7)

求出其中的向量β和阶数t，可得到每个数据的产生概率p(k_i,L)；

步骤C2：计算插入位置；设需要添加容量为c_x的节点x，需要求出其插入位置y，计算方法为首先对节点n_j,j∈[1,d]，根据（5），求出其对应的负载L，表示为L_j，插入位置y为对应负载L_j最小的节点，即：

y = \underset{j}{{\arg \min L}_{j}} - - - (8)

c_{x} + c_{j} = Σ_{i = y_{(j - 1)} + 1}^{y_{j}} L \times p (k_{i}, L) - - - (9)

根据（9）计算出L，再根据（10），

\frac{c_{j}}{c_{x}} = \frac{Σ_{i = x + 1}^{y_{j}} L \times p (k_{i}, L)}{Σ_{i = y_{(j - 1)} + 1}^{x} L \times p (k_{i}, L)} - - - (10)

计算出x，即新加入节点的标志符；

步骤C4：插入节点；在索引中插入存储节点，详细过程为：首先根据插入节点的标志符在索引中查询节点，此节点即为插入位置；在此节点上生成2个子节点，以插入节点的标志符作为中间点，将原节点的区间信息分别写入其左子节点和右节点，插入节点的标志符写入原节点；将原节点所保存的数据中标志符小于等于插入节点标志符的部分由原节点移动到其左子节点上，其余的移动到其右子节点上，并更新原节点和插入节点的负载；

经过步骤C1至步骤C4的操作，完成存储节点插入阶段的操作。