CN103997512B

CN103997512B - 一种面向云存储系统的数据副本数量确定方法

Info

Publication number: CN103997512B
Application number: CN201410149010.1A
Authority: CN
Inventors: 徐小龙; 邹勤文; 徐佳; 邓艳; 王屹进; 刘笑笑; 李永萍; 涂群
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Beijing Zeshi Technology Co.,Ltd.
Priority date: 2014-04-14
Filing date: 2014-04-14
Publication date: 2017-06-30
Anticipated expiration: 2034-04-14
Also published as: CN103997512A

Abstract

本发明提出一种面向云存储系统的数据副本数量确定方法，其方法基于数据流行度与节点热度，以满足服务需求、控制数据副本数量为目标，对数据分类并预测不同数据的数据副本需求数，提前增加数据副本，或及时删除过多的数据副本，本发明方法包含以下几个环节：分析数据流行度预测模型；预测数据副本变化数；计算节点热度；增加/删除数据副本；迁移数据副本。方法减少数据副本需求数，降低了硬件成本，减轻了系统的数据维护负担，降低了热点问题的发生概率，有效提高了数据副本的利用率。

Description

一种面向云存储系统的数据副本数量确定方法

技术领域

本发明涉及信息技术类数据管理应用领域，尤其涉及一种面向云存储系统的数据副本数量的确定方法。

背景技术

云存储是在云计算概念上延伸和发展出来的一个新概念，通过集群应用、网格技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的系统。

云存储通过互联网为多用户提供高性价比的共享存储资源池。用户不需要了解云存储系统的组成，也不需要了解提供存储服务的具体细节，所有设备对于用户均是透明的，任何一个合法用户通过网络都可以连接云存储系统，获得相应的服务。云存储概念一经提出，就得到了产业界及学术界的关注。根据IDC（International Data Corporation，国际数据集团）的数据，2013年云存储服务的增长率超过所有其他类型的云服务。

在云存储系统中存储了大量数据及其副本，且数据规模仍在迅速增加，这使得数据副本管理模块是云存储系统中必不可少的组件。高效的数据副本管理方法可以有效地解决系统容错性差、稳定可靠性低以及访问速度慢等问题。目前的数据副本管理方法所要达到的目标包括如何保障系统更高的服务可靠性、数据副本一致性、合理的数据副本数量及均衡的系统负载等问题。

其中适当控制数据副本数量尤其必要。数据副本数量过多会造成节点存储资源和网络带宽的浪费，加重系统和网络负担；数量过少则数据的可用性和访问速度得不到保证，容易造成热点问题。合理计算各数据对象所需要的数据副本数量有助于系统的数据副本总数控制。

目前的数据副本复制数量的确定一般都采用静态策略，一般都将数据副本数量设置为预先确定好，然后将数据副本存储在若干存储节点上，即通过简单冗余来避免数据访问失效现象的发生，目前的谷歌云平台、Hadoop（一个分布式系统基础架构，由阿帕奇基金会开发）等系统都是将数据副本数量设置为3份，然后将数据副本存储在不同的3个存储节点上。

这种数据副本数量的静态确定方法没有考虑数据的访问规律，不能满足不同数据的访问需求，使得系统无法在服务质量和资源开销间取得平衡，造成资源浪费，且难以解决热点问题，增加了不必要的硬件成本。

发明内容

为解决上述技术问题，本发明提供一种面向云存储系统的数据副本数量确定方法，其采用的技术方案如下：

一种面向云存储系统的数据副本数量确定方法，包括如下步骤：

步骤一：通过归纳云存储系统中数据访问规律将云存储系统中的数据分为Ⅰ型、Ⅱ型、Ⅲ型、Ⅳ型数据，各类型数据初始建立3份副本，并建立相应的数据流行度模型，计算节点热度；

步骤二：新数据到达云存储系统一段时间后，根据数据流行度模型提供的数据流行度变化规律，判断数据的类型，计算出下一时期数据副本需求数与当前数据副本数之差Δr_i；

步骤三：当某一类型的数据Δr_i大于0时，则增加该数据的副本数；当某一类型的数据Δr_i小于0时，则减少该数据的副本数；当某一类型的数据Δr_i等于0时，则对该数据的副本数不作调整。

步骤四：设定的节点的热度上限阈值，将节点热度达到或超过上限阈值的节点上的最热的数据副本迁移到热度最低且当前不包含该数据副本的节点上，并在节点热度降低到热度上限阈值以下之前，不在该节点上创建新的数据副本。

步骤一中的节点热度h_node计算方法如下：

式中，n为该节点存储的总数据副本数，而d_j为节点中的第j个数据副本，a(d_j)为数据副本d_j在上一个时间周期内的访问次数。

步骤二中判断数据类型的方法为采用流行度面积与流行度的斜率面积判断当前数据所属数据类型。数据类型的判断如以下步骤：

步骤1：计算出当前数据对象流行度面积s_p＝∫pdt，斜率面积s_k＝∫kdt；其中p为当前数据对象流行度，s_p为当前数据对象流行度面积，t为时间，k为当前数据对象流行度斜率，s_k为当前数据对象流行度斜率面积，∫和d为积分运算符号。

步骤2:若s_p接近于Ⅰ型数据的流行度面积s_p1＝∫p₁dt，其中p₁为Ⅰ型数据流行度，s_p1为Ⅰ型数据流行度面积，t为时间，由于此时其它类型数据的与流行度面积明显大于Ⅰ型数据，从而可以判断当前数据为Ⅰ型数据，确定该数据对象的数据副本数不用改变，并结束数据类型判断；否则继续步骤3。

步骤3:若数据对象流行度斜率面积s_k接近于Ⅲ型数据的流行度斜率面积s_k3＝∫k₃dt，其中k₃为Ⅲ型数据的流行度斜率，s_k3为Ⅲ型数据的流行度斜率面积，t为时间，由于此时Ⅲ型数据的访问增加迅速，即它的流行度斜率面积明显大于其它类型数据，所以该数据对象属于Ⅲ型数据，结束数据类型判断；否则继续步骤4。

步骤4:若s_p接近于Ⅱ型数据的流行度面积s_p2＝∫p₂dt，其中p₂为Ⅱ型数据流行度，s_p2为Ⅱ型数据流行度面积，t为时间，且s_k接近于Ⅱ型数据的流行度斜率面积s_k2＝∫k₂dt，其中k₂为Ⅱ型数据的流行度斜率，s_k2为Ⅱ型数据的流行度斜率面积，t为时间，由于此时Ⅱ型数据与Ⅳ型数据的流行度面积相近但斜率变化明显不同，从而该数据对象属于Ⅱ型数据，结束数据类型判断；否则该数据对象属于Ⅳ型数据，结束数据类型判断。

步骤二中的下一时期数据副本需求数与当前数据副本数之差Δr_i计算方法如下：

确定数据对象的类型后，对Ⅱ、Ⅲ、Ⅳ型数据的数据副本预期变化数的计算式如下：

式中，Δr_i为当前类型为i型的数据对象的副本预期变化数，ρ_i为针对i型数据的可调节因子，Δp_i为从此时到预期时刻i型数据的流行度的变化量，p_i为当前类型为i型的数据对象的当前流行度，r_i为当前类型为i型的数据对象的副本数。

步骤三中增加数据副本的方法如下：

步骤1：首先找出持有该数据对象数据副本的节点集合S(N_hold)，N_hold指持有该数据对象数据副本的节点；

步骤2：按节点热度升序排列集合S(N_hold)中所有的节点；

步骤3：以序列中热度最小的节点作为Δr_i份数据副本的创建者，即负责将数据副本复制并传输到系统的其它当前没有该数据副本的Δr_i个节点上，这Δr_i个节点是不属于节点集合S(N_hold)的节点中热度h_node最低的那Δr_i个节点。

步骤三中减少数据副本的方法如下：

步骤2：按节点热度降序排列集合S(N_hold)中所有的节点；

步骤3：通知序列中的前Δr_i个节点删除该数据副本。

步骤四中迁移数据副本的方法如下：

步骤1：节点持续监控本地的数据副本访问情况，若节点A的节点热度h_node处于热度上限阈值以下，则不作任何其它操作，仍继续监控本地的数据副本访问情况；若发现节点A的节点热度h_node已经达到或超过上限阈值，则转到步骤2；

步骤2：节点A对本地所有数据副本按a(d_j)进行排序，首先找出a(d_j)最高的数据副本，然后将持有该相同数据副本的节点集合S(N_hold)中的节点按节点热度升序排列所有的N_hold；

步骤3：节点A通知序列中热度最低的节点（设为节点B）来负责复制并传输该数据副本。

步骤4：节点B根据获得的通知，在系统中找出不持有该数据对象的数据副本的节点集合中热度最低的节点（设为节点C），节点B将数据副本复制并传输到节点C；

步骤5：如果数据副本传输成功，节点B向节点A报告已经将副本迁移成功，然后转到步骤7；如果数据副本传输失败，转到步骤6；

步骤6：节点B在系统中找出不持有该数据对象的数据副本的节点集合中除已经试图传输但失败的节点之外热度最低的节点，节点B将数据副本复制并传输到该节点上；转到步骤5。

步骤7：节点A收到已经将数据副本迁移成功报告后，删除本地该数据副本。

本发明提出的面向云存储系统的数据副本数量确定方法，可达到以下的有益效果：（1）数据副本数被动态调节，可以在服务质量和资源开销间取得平衡。（2）对热点数据副本进行复制与转移降低了热点问题的发生概率。（3）数据副本数量的降低有效提高了数据副本的利用率，同时降低了硬件成本，减轻了系统的数据维护负担。

附图说明

图1是数据流行度变化规律图。

图2是数据副本数量预测流程图。

具体实施方式

本发明提出一种面向云存储系统的数据副本数量确定方法，基于流行度预测与热点监测机制，以满足服务需求、控制数据副本数量及减缓网络拥塞为目标，将数据分类并预测不同数据的数据副本需求数，合理的提前增加数据副本，或及时删除过多的数据副本。

本发明提出的一种面向云存储系统的数据副本数量确定方法包含以下几个环节：分析数据流行度预测模型；预测数据副本变化数；增加/删除数据副本；调整高热节点上的数据副本。1、分析数据流行度

将数据的访问频率称为数据的流行度。通过数据流行度分析构建数据流行度模型，即通过归纳云存储系统中的数据访问规律将数据分类，给出不同时期不同类型的数据访问情况。

（1）数据分类

按照数据存储系统中数据流行度的变化规律，将数据分为四种类型，如图1所示：

Ⅰ型数据——数据及其副本被创建和使用一次或几次后，没有被访问，或访问的次数极少，即流行度初始时较低，随后几乎为零；

Ⅱ型数据——数据及其副本被创建后，流行度较高，且维持在一个较平稳区域内，波动很少；

Ⅲ型数据——数据及其副本被创建后，流行度迅速攀升，并达到峰值，在后续的一段时间内保持高流行度，然后逐渐衰减；

Ⅳ型数据——数据及其副本被创建后，流行度较高，但在不同的时段内受访问用户活动状态的影响，流行度总体呈现持续而稳定的波动性变化。

针对上述同一类型的数据，在具体的不同种类的云存储系统中存储的数据流行度幅值与变化周期也有一定的差异。例如，新闻类网站所依托的云存储系统中的数据，按照数据流行度的变化规律，可将数据分为上述四种类型，视频共享类网站所依托的云存储系统中的数据，按照数据流行度的变化规律，也可将数据分为上述四种类型，但这两类网站所依托的云存储系统中的数据流行度的幅值与变化周期是不一样的。而两个新闻类网站所依托的云存储系统中的数据，按照数据流行度的变化规律，均可将数据分为上述四种类型，但是由于用户规模的不同，这两个新闻类网站所依托的云存储系统中的数据流行度的幅值是不一样的。此外，在同一个新闻类网站所依托的云存储系统中的同一类型的具体不同数据的变化规律是相同的，其数据流行度的幅值和周期是接近的。

（2）数量调节

为保证各数据的高可靠性，在数据被托管到云存储系统中时首先立即创建3份数据副本。后续将流行度不为0的数据对象的数据副本数量至少维持3份；而将流行度为0的数据对象完全删除，或是仅保留1份至3份，系统可根据需要灵活设定。此后，根据数据流行度变化规律，动态调节数据副本数量。

（a）Ⅰ型数据

在创建后，Ⅰ型数据的流行度在初始时较小随后降低，且在短期内即接近于0，因而，在云存储系统中Ⅰ型数据的副本数维持在3份即可。

（b）Ⅱ型数据

由于Ⅱ型数据流行度长期稳定，所以在其流行度达到稳定值之前在初始数据副本的基础上增加若干数据副本即可以满足用户的访问需求，此后该数据的数据副本数不用改变。

（c）Ⅲ型数据

对于Ⅲ型数据而言，前后时间区段流行度具有很大差异，Ⅲ型数据有一个数据副本快速增加和逐渐减少的过程。对于流行度激增的Ⅲ型数据，系统应能够迅速地在更大的访问量到来之前及时创建足够数量的数据副本，而在数据流行度衰减时，能够及时删减数据的数据副本数。如图1所示，Ⅲ型数据在流行度上升阶段，其曲线的斜率比流行度平稳的数据要大，因此本方法通过观察当前时段的斜率来实现数据应对未来访问需要所需创建数据副本数的准确预测；在数据流行度衰减阶段，其曲线的斜率为负值，比流行度平稳的数据要小。

(d)Ⅳ型数据

Ⅳ型数据的流行度变化呈稳定的波动性，在数据流行度上升阶段，其曲线的斜率k比Ⅱ型数据流行度平稳的数据稍低，在数据流行度降低阶段与流行度上升阶段时斜率变化模式相近，波峰值大于Ⅱ型数据而小于Ⅲ型数据，因此应该在较大的时间窗口内考察数据的访问情况。

2、计算节点热度

节点热度为节点在某一时期内本地数据副本总的访问次数，是衡量节点负载的指标。为了实现负载均衡，提供访问效率，节点需要定期计算自身的热度，作为选择执行数据副本的创建或删除操作的节点的依据，即计算一个时间周期内本地数据副本总的访问次数，节点热度h_node计算方法如下：

3、预测数据副本变化数

令Ⅱ、Ⅲ、Ⅳ型数据流行度在上升阶段的斜率依次为k₂、k₃、k₄；令Ⅰ、Ⅱ、Ⅲ、Ⅳ型数据副本数决策周期依次为T₁、T₂、T₃、T₄。Ⅰ、Ⅱ、Ⅲ、Ⅳ型数据流行度依次为p₁、p₂、p₃、p₄。根据数据对象流行度的变化周期，其中T₁为数据流行度从0上升到趋向于0的时间段，T₂为数据流行度从0上升到趋向于平稳的时间段，T₃为数据流行度由0达到稳定值时的时间段，T₄则为流行度的一个波谷到相邻最近的一个波谷的时间段的n倍时间。在一个具体的云存储系统中，Ⅱ、Ⅲ、Ⅳ型数据流行度在上升阶段的斜率k₂、k₃、k₄，Ⅰ、Ⅱ、Ⅲ、Ⅳ型数据副本数决策周期T₁、T₂、T₃、T₄，以及Ⅰ、Ⅱ、Ⅲ、Ⅳ型数据流行度p₁、p₂、p₃、p₄的具体数值将在系统运行一段时间内通过系统运行日志统计分析获得。后续将以所获得的这些参数的作为依据，对具体数据的类型进行判断。

初始时，任意数据均已共计有3份数据副本，后期数据副本数的调节主要依据预测结果：首先判断某数据对象属于哪一型数据；然后判断是否需要增加或删除数据副本，并计算出数据副本的预期变化数Δr；指定执行数据副本的创建或删除操作的节点。

从原始数据到达云存储系统到决定数据副本的增加/删除的过程如图2所示。

（1）判断数据类型

在新数据到达云存储系统后达T₂/2时间后，即判断其类型。此时除了Ⅰ型数据已处于流行度降低阶段，其它三种类型数据均处于流行度上升期。本发明根据四种数据的访问规律，采用流行度面积与流行度的斜率面积判断当前数据所属数据类型。数据类型的判断如以下步骤：

（2）预期数据副本变化数

式中，Δr_i为当前类型为i型的数据对象的副本预期变化数，ρ_i为针对i型数据的可调节因子，Δp_i为从此时到预期时刻i型数据的流行度的变化量，p_i为当前类型为i型的数据对象的当前流行度，r_i为当前类型为i型的数据对象的副本数。当Δr_i＞0时，该数据对象流行度处于上升时期，需要增加数据副本；当Δr_i＜0时，该数据对象流行度处于衰退时期，需要删除数据副本；当Δr_i＝0时，该数据对象的数据副本数量不作调整。

4、增加/删除数据副本

在增加数据副本和删除数据副本时期，以节点热度作为选择执行数据副本的创建或删除操作的节点的依据。

需要增加数据副本时，步骤如下：

步骤2：按节点热度升序排列集合S(N_hold)中所有的节点；

需要删除数据副本时，

步骤1：首先找出持有该数据对象数据副本的节点集合S(N_hold)；

步骤2：按节点热度降序排列集合S(N_hold)中所有的节点；

步骤3：通知序列中的前Δr_i个节点删除该数据副本。

5、迁移数据副本

热度上限阈值为触发节点实施拒绝创建新副本和迁移已有数据副本的热度临界点。热度上限阈值的设定可根据节点本身的性能和服务质量要求，由管理员或系统灵活设定，例如，系统要求节点在收到数据访问请求到提供相关数据的数据服务响应时间最长为0.3秒时，而该节点在一个时间周期内的节点热度h_node达到10000时，数据服务响应时间将达到或略大于0.3秒时，可将10000设定为热度上限阈值。设定的节点的热度上限阈值，将节点热度达到或超过上限阈值的节点上的最热的数据副本迁移到热度最低且当前不包含该数据副本的节点上，并在节点热度降低到热度上限阈值以下之前，不在该节点上创建新的数据副本，从而降低节点的负载实现负载平衡。

本发明将迁移看成是将数据副本复制并传输到异地节点并删除本地数据副本的过程。而复制并传输数据副本也是需要花费一定的系统开销，为了不增加当前热度已经达到或超过上限阈值的节点的负担，系统选择拥有同样数据副本且热度最低的节点来负责复制并传输该数据副本。

因此，迁移数据副本的步骤如下：

步骤1：节点（设为节点A）持续监控本地的数据副本访问情况，若节点A的节点热度h_node处于热度上限阈值以下，则不作任何其它操作，仍继续监控本地的数据副本访问情况；若发现节点A的节点热度h_node已经达到或超过上限阈值，则转到步骤2；

Claims

1.一种面向云存储系统的数据副本数量确定方法，包括如下步骤：

步骤一：通过归纳云存储系统中数据访问规律将云存储系统中的数据分为Ⅰ型、Ⅱ型、Ⅲ型、Ⅳ型数据，

Ⅳ型数据——数据及其副本被创建后，流行度较高，但在不同的时段内受访问用户活动状态的影响，流行度总体呈现持续而稳定的波动性变化；

各类型数据初始建立3份副本，并建立相应的数据流行度模型，计算节点热度；节点热度h_node计算方法如下：

h_{n o d e} = Σ_{j = 1}^{n} a (d_{j});

式中，n为该节点存储的总数据副本数，而d_j为节点中的第j个数据副本，a(d_j)为数据副本d_j在上一个时间周期内的访问次数；

步骤三：当某一类型的数据Δr_i大于0时，则增加该数据的副本数；当某一类型的数据Δr_i小于0时，则减少该数据的副本数；当某一类型的数据Δr_i等于0时，则对该数据的副本数不作调整；

2.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法，其步骤二中判断数据类型的方法为采用流行度面积与流行度的斜率面积判断当前数据所属数据类型，数据类型的判断如以下步骤：

步骤1：计算出当前数据对象流行度面积s_p＝∫pdt，斜率面积s_k＝∫kdt；其中p为当前数据对象流行度，s_p为当前数据对象流行度面积，t为时间，k为当前数据对象流行度斜率，s_k为当前数据对象流行度斜率面积，∫和d为积分运算符号；

步骤2:若s_p接近于Ⅰ型数据的流行度面积s_p1＝∫p₁dt，其中p₁为Ⅰ型数据流行度，s_p1为Ⅰ型数据流行度面积，t为时间，由于此时其它类型数据的与流行度面积明显大于Ⅰ型数据，从而可以判断当前数据为Ⅰ型数据，确定该数据对象的数据副本数不用改变，并结束数据类型判断；否则继续步骤3；

步骤3:若数据对象流行度斜率面积s_k接近于Ⅲ型数据的流行度斜率面积s_k3＝∫k₃dt，其中k₃为Ⅲ型数据的流行度斜率，s_k3为Ⅲ型数据的流行度斜率面积，t为时间，由于此时Ⅲ型数据的访问增加迅速，即它的流行度斜率面积明显大于其它类型数据，所以该数据对象属于Ⅲ型数据，结束数据类型判断；否则继续步骤4；

3.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法，其步骤二中的下一时期数据副本需求数与当前数据副本数之差Δr_i计算方法如下：

4.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法，步骤三中增加数据副本的方法如下：

步骤1：首先找出持有该数据对象数据副本的节点集合S(N_hold)，N_hold)指持有该数据对象数据副本的节点；

步骤2：按节点热度升序排列集合S(N_hold)中所有的节点；

5.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法，步骤三中减少数据副本的方法如下：

步骤2：按节点热度降序排列集合S(N_hold)中所有的节点；

步骤3：通知序列中的前Δr_i个节点删除该数据副本。

6.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法，步骤四中迁移数据副本的方法如下：

步骤2：节点A对本地所有数据副本按a(d_j)进行排序，首先找出a(d_j)最高的数据副本，然后将持有该相同数据副本的节点集合S(N_hold)中的节点按节点热度升序排列所有的N_hold)；

步骤3：节点A通知序列中热度最低的节点，设为节点，来负责复制并传输该数据副本；

步骤4：节点B根据获得的通知，在系统中找出不持有该数据对象的数据副本的节点集合中热度最低的节点，设为节点C，节点B将数据副本复制并传输到节点C；

步骤6：节点B在系统中找出不持有该数据对象的数据副本的节点集合中除已经试图传输但失败的节点之外热度最低的节点，节点B将数据副本复制并传输到该节点上；转到步骤5；