CN109634779A

CN109634779A - 一种基于数据热度自学习的数据增量备份方法

Info

Publication number: CN109634779A
Application number: CN201811378436.9A
Authority: CN
Inventors: 张纪林; 陈军相; 屠康磊; 任永坚; 万健; 蒋从锋; 殷昱煜; 周丽
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Electronic Science and Technology University
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-04-16

Abstract

本发明公开了一种基于数据热度自学习的数据增量备份方法,将文件的访问率与阈值比较，访问率大于热阈值就是热数据，访问率小于冷阈值就是冷数据，介于冷热阈值之间的数据则将其进行预判，当某时间段热时，就将其迁移至热区域，否则将其放入冷区域。如果有新数据进行写操作，且原云存储系统不存在该数据，将该数据与原云存储系统中的数据进行关联度分析，找到与其相关度最高的数据，将新数据放入与旧数据相同类型的磁盘中。本发明很好地将数据文件进行合理的分类，通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域、冷文件在热区域中的存储资源浪费和文件读取时延增加的情况。

Description

一种基于数据热度自学习的数据增量备份方法

技术领域

本发明属于计算机数据管理领域，具体是一种基于数据热度自学习的数据增量备份方法。

背景技术

随着数据密集型应用和服务的越来越普及，大型数据中心常常存储着海量的数据，并且随着时间的推移迅速增长。数据总量从TB到PB(1024TB＝1PB)、EB(1024PB＝1EB)乃至ZB(1024EB＝1ZB)级别。国际数据公司(IDC)的研究结果表明，2008年全球产生的数据量为0.49ZB，2009年的数据量为0.8ZB，2010年增长为1.2ZB，2011年的数量更是高达1.82ZB，相当于全球每人产生200GB以上的数据。而到2012年为止，人类生产的所有印刷材料的数据量已经超过了200PB，全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称，整个人类文明所获得的全部数据中，有90％是过去两年内产生的。而到了2020年，全世界所产生的数据规模将达到今天的44倍。而随着各种应用对存储设备的需求以每年60％的增长率在扩大，存储系统的备份容灾更不容忽视。因此如何提高大型数据中心存储设备在数据存储备份方面的效率、准确率是一个迫切需要解决的问题。

发明内容

本发明主要是针对现有的利用数据分类的技术将不同的数据放入不同的磁盘区域来减少在备份数据的过程中所耗费的大量时间，引入了对新数据以及季节热数据的概念，提出了自学习热度数据策略。自学习热度数据策略就是将文件的访问率与阈值比较，访问率大于热阈值就是热数据，访问率小于冷阈值就是冷数据，介于冷热阈值之间的数据则将其进行预判，当某时间段热时，就将其迁移至热区域，否则将其放入冷区域。如果有新数据进行写操作，且原云存储系统不存在该数据，将该数据与原云存储系统中的数据进行关联度分析，找到与其相关度最高的数据，将新数据放入与旧数据相同类型的磁盘中，之后再根据数据的热度来进行相对应的增量备份。以计算能力、存储能力以及网络带宽为衡量标准，为备份系统中的节点分配一个可比较的数值，将这个数值集合和数据的热度值进行映射，当进行备份资源分配，根据数据热度值将数据备份到相应的节点上，从而达到数据的优化动态备份，形成合理的数据分布。

本发明方法的具体步骤是：

步骤(1)：对冷数据，热数据，季节热数据，以及新数据进行界定，具体界定如下：

1)冷数据：即在长期的数据操作过程中该数据的平均访问操作次数小于冷阈值。

2)热数据：即在长期的数据操作过程中该数据的平均访问操作次数大于热阈值。

3)季节热数据：即在长期的操作过程中该数据只有某段或某几段时间操作平均次数大于热阈值，数据热度呈现上下波动的情况，而在整个数据操作过程中数据平均访问操作次数处于冷热阈值之间。

4)新数据：即表示在云存储系统中没有存在的数据，相应的该数据也不存在被操作的次数。

步骤(2)：对自学习热度数据模型的定义：

定义F＝{f₁,...,f_i,...,f_m}，F代表文件集合，f_i＝{m_i,p_i}，其中p_i表示文件f_i当前日期的前两年的每个月访问率构成的数组，m_i表示文件f_i的属性值，其中属性包括：文件的关键字的哈希值，文件名称的哈希值，文件内容的哈希值。p_ij代表数组p_i中的第j个元素，ap_i代表p_i数组的平均值，它是访问数据的平均访问率，

1)判定访问数据的平均访问频率ap_i是否为0，否，则该数据为旧数据，转至2)；是，则该数据为新数据，转至4)。

2)将旧数据的平均访问频率值ap_i与冷热阈值进行比较，如果平均访问频率大于等于热阈值th_h，则该数据为热数据，将该数据放入热磁盘；将冷热阈值之间的数据视为季节热数据，将小于等于冷阈值th_c的数据视为冷数据，将冷数据和季节热数据放入冷磁盘中；如果该数据为季节热数据，在放入冷磁盘之后，转至3)。

3)通过神经网络对季节热数据进行预测，预测其下个月的平均访问率，判断其下个月的热度。如果其下个月的平均访问率大于等于热阈值th_h，则将该数据放入热磁盘，否则放入冷磁盘。

4)将新数据的属性值与冷热磁盘中的旧数据的属性值进行关联度分析，找到相关度最大的旧数据，将新数据放入与旧数据相同类型的磁盘中。

步骤(3)：自学习模型的构建：

令流行文件与非流行文件的数目比为令流行文件与非流行文件的请求数目比为η，S'_h/S'_c＝k,0＜k＜1，S'_h代表热请求文件的平均大小,S_c'代表冷请求文件的平均大小，令t^h表示高速磁盘传输率，单位为Mb/s，t^c表示慢速磁盘传输率，单位为Mb/s，|D_h|/|D_c|＝γ，D_h＝{d₁,...,d_h,...,d_e}，D_h代表快速旋转磁盘集合，D_c＝{d_f,...,d_c,...,d_n}，D_c代表慢速旋转磁盘集合。

在区分冷热磁盘情况下总时间消耗为：

其中R_h＝{r₁,...r_h,...,r_b}，R_h代表请求热数据的集合，e_total表示实验过程中的能量总消耗，p^h表示高速磁盘积极能耗，单位为J/Mb，i^h表示高速磁盘理想时刻能耗，单位为J/s。

本发明的有益效果：

本发明提出了自学习热度数据备份策略，该策略对新数据以及季节性数据进行了良好的定位，并进行合理的增量备份。本数据热度分类策略很好地将数据文件进行合理的分类，通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域、冷文件在热区域中的存储资源浪费和文件读取时延增加的情况。本发明中的多级增量是对增量涵义的拓展丰富，不再视文件为唯一的增量源，而是从不同角度与层次考察数据增量，克服只能在文件版本间查重的缺陷，更全面的避免重复数据的传输与存储。

附图说明

图1为数据分类算法的流程图；

图2为磁盘数目对响应时间的影响实验图；

图3为请求到达率对响应时间的影响实验图；

图4为斜度值之比对系统响应时间的影响实验

图5为新文件所占比对系统响应时间的影响实验图；

图6为不同的合成负载对系统响应时间的影响实验图；

图7为不同的新数据及季节热数据所占比例对系统性能的影响实验图；

具体实施方式

参加图1，所示为本发明数据分类算法流程图，本发明方法的具体步骤是：

步骤(1)：对冷数据、热数据、季节热数据以及新数据进行界定，具体数据分类方法如下：

1)冷数据：即在长期的数据操作过程中该数据的平均访问操作次数小于冷阈值；

2)热数据：即在长期的数据操作过程中该数据的平均访问操作次数大于热阈值；

3)季节热数据：即在长期的操作过程中该数据只有某段或某几段时间操作平均次数大于热阈值，数据热度呈现上下波动的情况，而在整个数据操作过程中数据平均访问操作次数处于冷热阈值之间；

理论分析新数据热度判定的合理性。

数据热度的直接影响因素是数据被操作的次数，即与人的行为因素相关。如果没有发生重大变故，人的行为因素及对数据属性的行为癖好一般不会发生太大的改变，所以在这里我们认为一个数据的属性值能间接地表现一个数据的热度值。所以对于新数据，我们在旧数据集中找到与该数据的数据属性值相关性最大的数据的热度，就能确定新数据的热度。

步骤(2)：对自学习热度数据模型的定义：

定义F＝{f₁,...,f_i,...,f_m}，F代表文件集合，f_i＝{m_i,p_i}，其中p_i表示文件f_i当前日期的前两年的每个月访问率构成的数组，m_i表示文件f_i的属性值，其中属性包括：文件的关键字的哈希值，文件名称的哈希值，文件内容的哈希值。p_ij代表数组p_i中的第j个元素，ap_i代表p_i数组的平均值，它是访问数据的平均访问率，th_c表示判定为冷数据的阈值，th_h表示判定为热数据的阈值。

4)将新数据的属性值与冷热磁盘中的旧数据的属性值m_i进行关联度分析，找到相关度最大的旧数据，将新数据放入与旧数据相同类型的磁盘中。

数据分类策略伪代码如下:

步骤(3)：自学习模型的构建：

令流行文件与非流行文件的数目比为令流行文件与非流行文件的请求数目比为η，S'_h/S'_c＝k,0＜k＜1，S'_h代表热请求文件的平均大小,S'_c代表冷请求文件的平均大小，令t^h表示高速磁盘传输率，单位为Mb/s，t^c表示慢速磁盘传输率，单位为Mb/s，|D_h|/|D_c|＝γ，D_h＝{d₁,...,d_h,...,d_e}，D_h代表快速旋转磁盘集合，D_c＝{d_f,...,d_c,...,d_n}，D_c代表慢速旋转磁盘集合。

在区分冷热磁盘情况下总时间消耗为：

以下为节约时间的分析及其证明：

e_hot表示区分冷热磁盘时热数据所在磁盘的能耗，e_cold表示区分冷热磁盘时冷数据所在磁盘的能耗，e′_hot表示未区分冷热磁盘时热数据所在磁盘的能耗，e’_cold表示未区分冷热磁盘时冷数据所在磁盘的能耗，其中e’_cold＝e’_hot＝e’_hot。其中R_c＝{r_p,...r_c,...,r_x}，R_c代表请求冷数据的集合，p^c(J/Mb)表示低速磁盘积极能耗，i^c(J/s)表示低速磁盘理想时刻能耗，S_c表示第C个冷请求文件的大小。

e_total＝e_hot+e_cold,e’_total＝e’_hot+e’_cold,e’_hot＝e_hot，

由于e_cold＜e’_cold，则

所以

因为

由可得：

i^h＞i^c，则

推导得到

所以t^h＜t^c

因此，在相同的能量消耗状况下，热区间比冷区间所花费的时间更少。

通过上述证明可知通过基于数据热度的数据分类策略，将不同类型的数据定位到不同的磁盘区域中具有降时作用，能提高系统的整体文件访问和存储性能。

下面结合附图附表和实施例对本发明进行进一步介绍。

本实例是基于冷热磁盘阵列模拟器实现的，磁盘的相关参数见表1。

表1：磁盘相关参数

其中有两类参数直接影响到本实施例的最终数据，它包含：工作量特征和磁盘驱动器的特性。其中有大量的参数影响工作量特征，我们确定五个关键特性(表2)：

(1)文件数目由于文件的总数直接决定一个并行磁盘阵列中分配磁盘阵列的负载，将其设置为5000，使每个磁盘可以容纳大约312个文件的情况下有16个磁盘驱动器阵列。每个磁盘上的文件的数量是基于现实的模仿现实世界的情况决定。

(2)总的请求数目由于总请求数目直接影响存储系统的能量消耗，进而影响存储系统在测试时间内的工作次数。我们将总请求次数设定值为10000。

(3)冷热请求的比重由于冷热文件访问的比重直接影响冷热区域的读取次数，影响了整个存储系统的能量消耗，故我们将冷热请求比的值设定为6:4 6.5:3.5 7:3 7.5:2.5 8:2。

(4)文件系统的覆盖范围整个文件系统的覆盖范围的百分比定义为文件系统文件的访问请求的工作量。我们设置了系统的覆盖范围为100％，这意味着文件系统中的所有文件在并行磁盘阵列系统存取过至少一次。

(5)热冷磁盘数目比合理的设定热冷磁盘数目的比可以有效的节省能时间，根据之前的公式，我们设定热冷磁盘比为3:1。

表2：实验用到的相关数据描述

描述	默认值(值)
		文件总数	500
请求总数	10000
		文件系统覆盖范围	100％
热冷请求数目比	8:2(6:4 6.5:3.5 7:3 7.5:2.5 8:2)
		热冷磁盘数目比	1:3(3/13,4/12,5/11,6/10,7/9,8/8,9/7,10/6)
热文件的平均大小	45(15 20 25 30 35 40 45 50)M
		热冷文件数目之比	2.8(0.8 1.3 1.8 2.3 2.8 3.3 3.8 34.3 4.8 5.3 5.8 6.3)
磁盘总数	(12 16 20 24 28 32)
		冷热磁盘传输率之比	1:3

本实例分别通过磁盘数目，热请求数目，磁盘数目比，热文件平均大小，热冷文件个数之比值的变化模拟实验测试数据分类的时间变化和未分类的时间变化以及节时百分比的变化(图2—图7)。

实例结果表明：本方法对于大规模存储系统以及大文件存储系统等情况下均起到了良好的降时作用。本数据热度分类策略很好地将数据文件进行合理的分类，通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域、冷文件在热区域中的存储资源浪费和文件读取时延增加的情况。本方法中的多级增量是对增量涵义的拓展丰富，不再视文件为唯一的增量源，而是从不同角度与层次考察数据增量，克服只能在文件版本间查重的缺陷，更全面的避免重复数据的传输与存储。

应该理解到的是：上述实施例只是对本发明的说明，而不是对本发明的限制，任何不超出本发明实质精神范围内的发明创造，均落入本发明的保护范围之内。

Claims

1.一种基于数据热度自学习的数据增量备份方法，其特征在于，该方法包括以下步骤：

步骤S1：基于数据热度构建自学习模型：

令流行文件与非流行文件的数目比为令流行文件与非流行文件的请求数目比为η，S'_h/S'_c＝k,0＜k＜1，S'_h代表热请求文件的平均大小,S'_c代表冷请求文件的平均大小，令t^h表示高速磁盘传输率，单位为Mb/s，t^c表示慢速磁盘传输率，单位为Mb/s，|D_h|/|D_c|＝γ，D_h＝{d₁,...,d_h,...,d_e}，D_h代表快速旋转磁盘集合，D_c＝{d_f,...,d_c,...,d_n}，D_c代表慢速旋转磁盘集合；

在区分冷热磁盘情况下总时间消耗为：

其中R_h＝{r₁,...r_h,...,r_b}，R_h代表请求热数据的集合，e_total表示实验过程中的能量总消耗，p^h表示高速磁盘积极能耗，单位为J/Mb，i^h表示高速磁盘理想时刻能耗，单位为J/s；

步骤S2：基于自学习热度数据模型进行数据增量备份：

其中，定义F＝{f₁,...,f_i,...,f_m}，F代表文件集合，f_i＝{m_i,p_i}，其中p_i表示文件f_i当前日期的前两年的每个月访问率构成的数组，m_i表示文件f_i的属性值，其中属性包括：文件的关键字的哈希值，文件名称的哈希值，文件内容的哈希值；p_ij代表数组p_i中的第j个元素，ap_i代表p_i数组的平均值，它是访问数据的平均访问率，

具体步骤如下：

1)判定访问数据的平均访问频率ap_i是否为0，“否”，则该数据为旧数据，转至2)；“是”，则该数据为新数据，转至4)；

2)将旧数据的平均访问频率值ap_i与冷热阈值进行比较，如果平均访问频率大于等于热阈值th_h，则该数据为热数据，将该数据放入热磁盘；将冷热阈值之间的数据视为季节热数据，将小于等于冷阈值th_c的数据视为冷数据，将冷数据和季节热数据放入冷磁盘中；如果该数据为季节热数据，在放入冷磁盘之后，转至3)；

3)通过神经网络对季节热数据进行预测，预测其下个月的平均访问率，判断其下个月的热度；如果其下个月的平均访问率大于等于热阈值th_h，则将该数据放入热磁盘，否则放入冷磁盘；