CN107015888B

CN107015888B - 一种基于子模模型的数据备份方法和系统

Info

Publication number: CN107015888B
Application number: CN201710203404.4A
Authority: CN
Inventors: 华宇; 吴婕; 冯丹; 左鹏飞
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2019-06-18
Anticipated expiration: 2037-03-30
Also published as: CN107015888A

Abstract

本发明公开了一种基于子模模型的数据备份方法和系统，属于计算机存储技术领域。本发明方法首先对数据流进行分块并且分别组成不同的数据段；之后计算每个数据段每个数据块的指纹，并且查询指纹索引得到重复数据块引用的容器信息；再建立子模函数最大化模型选取含有更多可引用无冗余的数据块的容器；最后将引用这些容器的数据块去重，重写引用其他容器的碎片数据块。本发明还实现了一种基于子模模型的数据备份系统。本发明技术方案能够去除更多的重复数据块，并且减少冗余和非引用数据块对恢复带宽的消耗，在保证较高的去重率的同时提高恢复性能。

Description

一种基于子模模型的数据备份方法和系统

技术领域

本发明属于计算机存储技术领域，更具体地，涉及一种基于子模模型的数据备份方法和系统。

背景技术

在备份系统中，周期性地备份数据会耗费大量的存储空间，而且备份之间存在大量的冗余数据，所以现常用数据去重技术(重复数据删除技术)来消除这些冗余数据，减少存储开销。

然而，在基于去重的备份系统中，新版本与旧版本的数据备份共享数据块，从而使得原本在逻辑上连续的数据流分散地存储在不同的容器(Container：去重系统中磁盘上数据读写的基本单位)中，形成了大量数据碎片，严重的降低了数据的恢复性能。原因在于，首先，为了读取数据流中连续的数据块进行的磁盘访问从原本的有序操作变成了随机访问，然而磁盘上随机访问会耗费大量寻道时间；其次，在恢复过程中，数据碎片的存在使得一些含有少量可引用的数据块的容器也被预取到内存里，其中含有的大量未被引用的数据块耗费了有限的磁盘带宽，降低了恢复速度。

现有一些基于容器选择的碎片消除算法通过在备份过程中选择性重写一些数据碎片来提高恢复性能。例如，有方法将数据流分段，对于每个数据段优先选择含有更多可引用数据块的容器进行引用，对于原本可以引用剩下没有被选择的容器的数据块进行重写；还有方法通过设定容器利用率(容器中能够被数据流引用的数据块数目占所有数据块数目的比例)阈值来选取容器，首先对于每个备份的数据流计算每个容器的利用率，如果容器利用率高于阈值则将被选中来去重数据流的数据块，否则备份数据流中引用该容器的所有数据块将被重写。其中，重写是指，已存储的一样的数据块保留不变，新来的一样的数据块写入新的容器中。

然而，随着数据备份的次数和文件数目的增加，越来越多的数据块被重写到新的容器中，造成了容器间存在大量的冗余数据。尽管上述碎片消除方法都减少了在恢复过程中的预取容器含有的非引用数据块的数目，然而由于忽略了容器间存在的冗余数据块，它们在确定容器利用率时会产生误判，即有些被选择的容器的利用率实际上低于预期。在这些消除方法中，如果容器中存在与数据流中的数据块一样的数据块，那么它将被当作引用的数据块计入容器利用率中。但是，对于多个被选择容器中的大量相同的数据块，一旦其中一个数据块被选择来去重和恢复数据流中所有同内容的数据块，那么其他的容器中内容相同的数据块就不会被引用而变成冗余的数据块了，因此这些数据块并不是引用的数据块，不能被计入容器利用率。误判会导致含有大量冗余数据块的容器被选择，浪费恢复过程的带宽，降低恢复性能。

由此可见，基于去重的备份系统中，在恢复数据流时，预取的容器中含有的非引用和冗余的数据块都会降低数据恢复性能。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于子模模型的数据备份方法和系统，其目的在于优先选择含有更多可利用且非冗余的数据块的容器，使得更多数据块被去重，并且重写未被选择去重的数据碎片以及减少了恢复时访问不被利用和冗余的数据块耗费的磁盘读写次数，同时提高了数据去重率和恢复性能，解决了现有技术在恢复数据流时，预取的容器中含有的非引用和冗余的数据块都会降低数据恢复性能的问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于子模模型的数据备份方法，所述方法包括以下步骤：

(1)数据预处理：将待备份数据流分成多个数据块，然后再组成固定大小的数据段，将数据段作为去重和恢复操作的基本单位；

(2)生成容器总集合：获取待备份数据段中各重复数据块所对应的被引用容器，生成待选容器的总集合V＝{C₁,C₂,…,C_n}；

(3)生成子模模型：根据总集合V建立子模函数最大化模型，进而得到被选择的容器集合

其中，S_i是用贪心算法遍历容器总集合V得到的所有子集，F()是满足子模性的评分函数，用于量化Si的质量，即含有的可引用且非冗余的数据块数目，容器子集S中的容器数量|S|≤T，T为子模函数最大化模型的预算，即设定的每个数据段能够引用的容器数目上限；

(4)数据备份：将备份数据段中能够引用这些容器的重复数据块进行去重，并更新容器信息；将剩下的重复数据块标记为碎片进行重写，写入新容器；最后数据段备份完成。

进一步地，所述步骤(3)中的评分函数

其中，w(C_x)为容器C_x含有的能被数据段引用的所有数据块；∪是集合并集运算符；||表示数目运算符。

按照本发明的另一方面，提供了一种基于子模模型的数据备份系统，所述系统包括：

数据预处理模块，用于将待备份数据流分成多个数据块，然后再组成固定大小的数据段，将数据段作为去重和恢复操作的基本单位；

容器总集合生成模块，用于获取待备份数据段中各重复数据块所对应的被引用容器，生成待选容器的总集合V＝{C₁,C₂,…,C_n}；

子模模型生成模块，用于根据总集合V建立子模函数最大化模型，进而得到被选择的容器集合

其中，S_i是用贪心算法遍历容器总集合V得到的所有子集，F()是满足子模性的评分函数，用于量化S_i的质量，即含有的可引用且非冗余的数据块数目，容器子集S中的容器数量|S|≤T，T为子模函数最大化模型的预算，即设定的每个数据段能够引用的容器数目上限；

数据备份模块，用于将备份数据段中能够引用这些容器的重复数据块进行去重，并更新容器信息；将剩下的重复数据块标记为碎片进行重写，写入新容器；最后数据段备份完成。

进一步地，所述子模模型生成模块中的评分函数

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下技术特征及有益效果：

(1)在原有的基于数据去重的备份系统中，通过引用容器统计过程，找出待备份数据段中所有重复数据块，并且统计得到所有可引用容器的信息，通过子模函数最大化模型选择引用容器，将不可引用这些容器的重复数据块标记为数据碎片，重写到新的容器中，去除碎片达到提高恢复性能的目的；

(2)通过子模函数最大化模型优先选择含有更多可引用且非冗余的数据块的容器，使得更多重复数据块引用已有容器，增加数据去重率；并且在选择的引用容器数目有限的情况下，减少写入新容器的数据块，使得总体存储这些数据块的容器数目减少，在恢复带宽有限的情况下，减少了容器读取的次数，并且减少了恢复过程中访问不被利用和冗余数据块耗费的磁盘读写开销，提高了恢复性能。

附图说明

图1是本发明方法的步骤流程图；

图2是本发明实施例的步骤流程图；

图3是本发明实施例步骤(5)的具体流程细节图；

图4是应用了本发明系统的备份系统的示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明方法包括以下步骤：

如图2所示，本发明实施例包括如下步骤：

(1)将待备份数据流进行分块，得到多个数据块；

(2)将多个数据块分组，组成不同的数据段，将数据段作为去重和恢复操作的基本单位；

(3)计算该数据段每个数据块的指纹；

(4)在指纹索引中查询每个数据块的指纹，判断每个数据块是否已经被存储；若没有存储，则标记为新数据块，并转到步骤(7)；否则标记为重复数据块，获得存储这个数据块的容器ID，转到步骤(5)；

(5)根据重复数据块的容器ID信息和这些容器含有的重复数据块信息，生成待选容器的总集合V＝{C₁,C₂,…,C_n}，建立子模函数最大化模型，进而得到被选择的容器集合标记容器集合S中的所有容器为被选择的容器，S_i是用贪心算法遍历容器集合V的所有子集，F()是满足子模性的评分函数，用于量化S_i的质量，其中，w(C_x)为容器C_x含有的能被数据段引用的所有数据块；∪是集合并集运算符；||表示数目运算符；容器子集S中的容器数量|S|≤T，T为子模函数最大化模型的预算；

如图3所示，具体进一步包括如下步骤：

(51)设定每个数据段能够引用已有容器的数目上限T；

(52)获取待备份数据段中各重复数据块所对应的被引用容器和被引用的数据块，生成备选容器的总集合V＝{C₁,C₂,…,C_n}，建立子模函数最大化模型；

(53)初始化选择容器计数器i＝0，已选择容器集合；

(54)对于每个属于集合V但是不属于集合S的容器，分别计算选择它们给子模函数F()带来的增益，如果存在增益大于0的容器，且i小于T，则进入步骤(55)；否则进入步骤(57)；

(55)对于每个在属于集合V但是不属于集合S的容器中，分别计算将它们各自加入容器集合S后对于子模函数F()产生的增益，找到增益最大的容器c，并记录下来；

(56)将容器c加入被选择的容器集合S，更新计数器i＝i+1，转到步骤(54)；

(57)标记所有属于集合S的容器为被选择容器，用于后续的碎片重写判断。

(6)对于每个重复数据块，判断它们是否引用这些被选择的容器；若是，则去除这些重复的数据块，转入步骤(8)；否则，将这些重复数据块标记为碎片，转到步骤(7)；

(7)将碎片数据块和非重复数据块写入容器缓冲区，待缓冲区满时写入磁盘中；

(8)更新容器存储信息和每个数据块对应存储的容器ID信息；

(9)判断此时数据流含有的所有数据块是否都已备份，备份过程是否结束；若是，则转到步骤(10)；否则转到步骤(3)；

(10)更新该数据流的所有备份信息。

如图4所示，原有的基于数据去重的备份系统中增加了本发明系统，选择引用含有更多可引用且非冗余数据块的容器，将剩余的重复块标记为碎片重写入新的容器，保持每个引用容器的高利用率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于子模模型的数据备份方法，其特征在于，该方法包括以下步骤：

其中，S_i是用贪心算法遍历容器总集合V得到的所有子集，F(S_i)是满足子模性的评分函数，用于量化S_i的质量，即含有的可引用且非冗余的数据块数目，容器子集S中的容器数量|S|≤T，T为子模函数最大化模型的预算，即设定的每个数据段能够引用的容器数目上限；

2.根据权利要求1所述的一种基于子模模型的数据备份方法，其特征在于，所述步骤(3)中的评分函数

3.一种基于子模模型的数据备份系统，其特征在于，所述系统包括：

4.根据权利要求3所述的一种基于子模模型的数据备份系统，其特征在于，所述子模模型生成模块中的评分函数