CN109101365A

CN109101365A - 一种基于源端数据重删的数据备份和恢复方法

Info

Publication number: CN109101365A
Application number: CN201810861118.1A
Authority: CN
Inventors: 周建华; 陈润知; 张有成
Original assignee: Nanjing Basic Information Technology Ltd By Share Ltd
Current assignee: Nanjing Basic Information Technology Ltd By Share Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2018-12-28

Abstract

本发明公开了一种基于源端数据重删的数据备份方法，包括以下步骤，步骤S1，在客户端，对数据流进行分段得到多个数据段；步骤S2，并行处理多个数据段，对每个数据段进行分块，并计算每个数据块的指纹；步骤S3，顺序将指纹发送服务端进行对比，并将对比结果返回至客户端；步骤S4，客户端根据对比结果将服务端没有的数据块发送至服务端进行保存备份，服务端将数据块存放状态返回给客户端。本发明备份方法通过客户端使用预处理并行计算及服务端的高效缓存模型，可有效提高整体备份效率。

Description

一种基于源端数据重删的数据备份和恢复方法

技术领域

本发明涉及重复数据删除技术领域，具体涉及一种基于源端数据重删的数据备份和恢复方法。

背景技术

备份设备中总是充斥着大量的冗余数据，为了解决这个问题，节省更多空间，重复数据删除技术便顺理成章地成了人们关注的焦点。重复数据删除技术旨在删除冗余的备份数据、确保同样的数据信息只被保存一次。采用重复数据删除技术可以将存储的数据量大幅降低，从而让出更多的备份空间，使得备份数据可以更长久的保留在磁盘上。

数据重删技术分为源端数据重删和目的端数据重删。源端数据重删技术还可以在备份时节约大量的带宽。现有技术中，基于源端数据重删技术的数据备份的具体过程为：对数据流使用分块算法进行分块，然后对分好的块计算hash（哈希）指纹，即对每个数据块生成检索指纹，用来标识其唯一性；把指纹发送服务端进行比对，在已存在的数据库指纹索引表中查找确认，确定数据块是否已经存在备份设备中，根据比对的结果把新数据发送到服务端保存起来，已有的数据就不再发送，达到节省带宽，并节省存储的目的。现有的技术在性能上比较低，由于重删客户端的分块、计算指纹都比较耗时，服务端存放数据时，指纹离散比较高，频繁操作数据库也比较耗时，整体流程下来耗时比较高。

对数据流进行分块的技术有定长分块法和变长分块法，现有技术中多使用变长分块算法，使用变长分块算法可以有效的提高重删率，重删率越高，节省的磁盘空间越大。缺点是变长分块计算相对定长分块相对耗时，并且正常变长分块对于数据流都是顺序分块，因为每个数据块的长度不固定，在不破坏每一块的情况下无法从多个位置用不同的线程去分块。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于源端数据重删的数据备份和恢复方法，解决了现有备份与恢复技术中数据重删效率低、计算指纹耗时长、频繁操作数据库耗时的问题。

为解决上述技术问题，本发明提供了一种基于源端数据重删的数据备份方法，其特征是，包括以下步骤：

步骤S1，在客户端，对数据流进行分段得到多个数据段；

步骤S2，并行处理多个数据段，对每个数据段进行分块，并计算每个数据块的指纹；

步骤S3，顺序将指纹发送服务端进行对比，并将对比结果返回至客户端；

步骤S4，客户端根据对比结果将服务端没有的数据块发送至服务端进行保存备份，服务端将数据块存放状态返回给客户端。

优选的，在客户端建立一个预处理环形队列，用来存储数据段，预处理环形队列中每个元素即是一个数据段，对队列中所存放的数据段进行并行处理，每个数据段有各自独立的线程。

优选的，采用rabin算法对数据段进行分块。

优选的，按顺序记录每个数据块的起始位置、长度和指纹信息作为该数据块的索引信息。

优选的，在服务端，建立布隆过滤器、一级缓存和二级缓存组成的缓存模型，其中，一级缓存用于存放当前指纹命中的容器，二级缓存用于存放当前命中的容器的下一个容器；

每个指纹对比的流程为：约定指纹存在则标记为1，不存在标记为0，首先去布隆过滤器里查找，若没有此指纹则标记为0，流程结束，若有此指纹则去一级缓存中取查找，一级缓存中若有则标记为1，流程结束，若没有则去二级缓存中去查找，二级缓存中若有则标记为1，流程结束，二级缓存中若还没有则去数据库中查找，数据库中若还没有标记为0流程结束，若有则标记为1，并把该指纹对应的容器同步更新到一级缓存中，下一个容器异步的更新到二级缓存中。

优选的，在服务端采用容器进行存储数据块以及数据块的索引信息。

优选的，服务端接收到数据块后，将每块数据存储至容器的具体处理步骤为：

1）服务端将传过来的新数据块放到容器中，数据块按照容器中放数据块的位置依次存放，数据块的指纹按照容器中放指纹的位置依次存放，并在数据库中记录该指纹对应的容器id；

2）容器写满后把容器放到文件中，并在数据库中记录该容器对应的文件id，然后创建新的容器，

3）文件放在磁盘上并在数据库中记录文件对应的磁盘位置。

相应的，本发明提供了一种基于源端数据重删的数据恢复方法，其特征是，包括以下步骤：

步骤S1，客户端从索引文件中读取一段待恢复文件的索引，把索引信息发送到服务端；

步骤S2，服务端根据索引信息找到数据块返回客户端；

步骤S3，循环执行以上两步直到获取文件所有对应的所有数据块，恢复出完整的文件。

优选的，在服务端建立一级读缓存和二级读缓存组成的缓存模型，根据索引信息找数据块的具体步骤为：

1）解析每个数据块的索引信息，根据索引信息中的指纹先到一级读缓存中查找，若找到则读取数据块，继续找下一数据块；

若找不到则去二级读缓存中查找，若二级读缓存中能找到，读取数据块，继续找下一数据块，

若找不到则去数据库中找，在数据库中根据指纹找到对应的容器，根据容器id找到对应的文件，从文件中读出对应的容器更新到一级读缓存中，并把对应容器的下个容器异步更新到二级读缓存中；

2）将读到的每个数据块按照索引顺序拼接起来返回给客户端。

与现有技术相比，本发明所达到的有益效果是：本发明备份方法，通过客户端使用预处理并行计算及服务端的高效缓存模型，可有效提高整体备份效率。

附图说明

图1为本发明备份方法的流程图；

图2为本发明恢复方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

由于重删数据删除技术需要做大量的计算，与普通的数据备份相比，计算需要消耗比较多的时间影响整个备份流程的效率，针对这点本文提出了数据预处理并发执行机制，有效缩短计算的时间。同时由于查重是根据数据块的hash值对比去查找的，hash值比较离散，缓存命中较低，针对这点本文使用了容器，把临近的数据放在同一个容器里，然后以容器为单位设计多级缓存，有效的提高了缓存明中率。这种缓存机制应用于备份和恢复两个流程，可有效提高备份和恢复的效率。

本发明的一种基于源端数据重删的数据备份方法，采用客户端服务端模型，即客户端将待备份的数据传输至服务端进行备份，通过客户端使用预处理并发计算及服务端的高效缓存模型，可有效提高整体备份效率，具体备份过程参见图1所示，包括以下步骤：

步骤S1，在客户端，对数据流进行分段得到多个数据段；

将待备份的文件以数据流的方式传输到客户端，客户端对数据流进行分段时，可以根据需求设定分段大小，例如以20M为标准对数据流分段，即每个数据段为20M，尾段可能不满20M。

为了实现对多个数据段进行并行处理，在客户端建立一个预处理环形队列，此预处理环形队列用来存储数据段。将数据段存入预处理环形队列的具体存放过程为：若预处理环形队列中有空间可以放得下传进来的数据段，则将此数据段按顺序存放在预处理环形队列的相应位置，若预处理环形队列中没有足够的空间存放，则等待预处理环形队列中存放的数据段处理完释放了空间后，在把传入的数据段存入。

预处理环形队列中每个元素即是一个数据段，对队列中所存放的数据段进行并行处理，队列长度可以根据客户端的CPU并行计算能力进行配置，并行处理多个数据段可充分利用CPU的性能，提高指纹计算的整体性能。

即每个数据段有各自独立的线程，本发明实施例中采用rabin算法对数据段进行分块，然后计算每一数据块的指纹。

按顺序记录每个数据块的起始位置、长度和指纹信息作为该数据块的索引信息，以供数据恢复时查找。

把对应各数据块的指纹顺序发送到服务端去比对，根据服务端返回的比对结果确定哪些数据块是新块需要发送至服务端进行备份。

在服务端，建立布隆过滤器、一级缓存和二级缓存组成的高效缓存模型，可快速查找相同的指纹，有效提高整体备份效率。

其中布隆过滤器可以快速的过滤不存在的指纹，这样就不必要等到查到数据库才知道指纹不存在。布隆过滤器说明如下：

重删库里面的所有指纹都会使用hash算法在布隆过滤器中有一个标记，如果一个指纹经过hash算法计算后在布隆过滤器中没有找到对应的标记，则说明该指纹是一个新的指纹，对应的数据块也是一个新的数据块，如果指纹经过hash算法计算后在布隆过滤器中能找到对应的标记，则说明该指纹可能已经存在了，需要经过后面的指纹比对过程继续确认。

一级缓存用于同步的更新命中的容器，布隆过滤器中能找到的指纹，需要走指纹比对的后续流程继续确认是否真的存在，如果在一级缓存和二级缓存中都没有找到对应的指纹记录，并且在数据库的指纹表中找到该指纹，那么通过数据库中的记录找到该指纹存放的容器，把容器中的所有指纹更新到一级缓存中。

二级缓存的作用是扩大数据的局部性原理，在一级缓存更新找到的容器的同时，找到该容器id临近的下一个容器，找到把容器id对应的容器，并把该容器内指纹更新到二级缓存中。

每个指纹对比的流程为：约定指纹存在则标记为1（对于标记为1的说明数据块已经在服务端有了，客户端不需要再发送），不存在标记为0。首先去布隆过滤器里查找，若没有此指纹则标记为0，流程结束，若有此指纹（根据布隆过滤器特性上面已经说明，布隆过滤器中能查到的指纹不一定存在需要走后面的流程继续确认）则去一级缓存中取查找，一级缓存中若有则标记为1，流程结束，若没有则去二级缓存中去查找，二级缓存中若有则标记为1，流程结束，二级缓存中若还没有则去数据库中查找，数据库中若还没有标记为0流程结束，若有则标记为1，并把该指纹对应的容器同步更新到一级缓存中，下一个容器异步的更新到二级缓存中。

步骤S4，客户端根据对比结果将服务端没有的数据块及索引信息发送至服务端进行保存备份，服务端将数据块存放对应的状态值（是否有错）返回给客户端。

针对服务端的存放数据耗时，使用单独的线程处理待存放的数据，节省客户端的等待时间，并且对存放数据操作进行一系列优化，使用容器存放数据块，保留数据局部性原理特性，通过使用批量操作达到降低数据库的操作次数的效果。

在服务端采用容器进行存储数据块，容器是固定大小为4M一段数据。容器是一段数据组合的概念。它的数据的组织结构是前24K存放指纹及数据块的起始位置和长度信息，从4M-24K的位置开始存放数据块。一个容器一般可以放800左右的数据块，由于数据块的长度不固定因此这个数量也不固定。

服务端接收到数据块及索引信息，将每块数据存储至容器的具体处理步骤为：

2）容器写满后把容器放到文件中，并在数据库中记录该容器对应的文件id。然后创建新的容器，过程为：清空当前容器中的数据（当前容器中的数据已经保存在文件中了），容器id加1，并容器的信息记录到数据库中。

3）文件放在磁盘上并在数据库中记录文件对应的磁盘位置。这样就可以根据数据库中的指纹记录一层层的找到对应的数据块。

本发明实施例中，每个文件最大为1G，一个数据文件放满了，才会生成一个新的文件存放容器，一个文件可以放256个容器。

文件放满容器后会创建新的文件，并把文件的信息记录到数据库中。

本发明的数据备份方法中，客户端的并行线程顺序的把数据块发送到服务端，服务端顺序的把这些数据块放到缓存队列中，然后顺序的放到容器中，这样的就能保证临近的数据存放的位置也是临近的，以容器为单位的缓存能大大提高缓存的命中率，降低访问数据库的次数，这样在指纹比对和恢复数据的时候都能有比较高的效率。

相应的，本发明的一种基于源端数据重删的数据恢复方法，参见图2，包括以下步骤：

根据索引信息整理好需要从服务端获取数据块的指纹，在客户端建立一个16M（这个大小可以根据业务情况确定）的缓存，用于缓存数据（防止每次读取较小的数据，客户端要频繁的向服务端要数据）。

步骤S2，服务端根据索引信息找到数据块返回客户端；

根据索引信息找数据块的具体步骤为：

恢复过程中用到一级读缓存和二级读缓存和备份过程中用到一级缓存和二级缓存逻辑上类似。不同的地方在于在备份过程中用到的一级缓存和二级缓存只需要缓存指纹即可，而恢复过程中用到一级缓存和二级缓存除了缓存指纹还要缓存指纹对应的数据块。恢复中用的缓存和备份中用的缓存是各自独立的。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于源端数据重删的数据备份方法，其特征是，包括以下步骤：

步骤S1，在客户端，对数据流进行分段得到多个数据段；

2.根据权利要求1所述的一种基于源端数据重删的数据备份方法，其特征是，在客户端建立一个预处理环形队列，用来存储数据段，预处理环形队列中每个元素即是一个数据段，对队列中所存放的数据段进行并行处理，每个数据段有各自独立的线程。

3.根据权利要求1所述的一种基于源端数据重删的数据备份方法，其特征是，采用rabin算法对数据段进行分块。

4.根据权利要求1所述的一种基于源端数据重删的数据备份方法，其特征是，按顺序记录每个数据块的起始位置、长度和指纹信息作为该数据块的索引信息。

5.根据权利要求1所述的一种基于源端数据重删的数据备份方法，其特征是，在服务端，建立布隆过滤器、一级缓存和二级缓存组成的缓存模型，其中，一级缓存用于存放当前指纹命中的容器，二级缓存用于存放当前命中的容器的下一个容器；

6.根据权利要求1所述的一种基于源端数据重删的数据备份方法，其特征是，在服务端采用容器进行存储数据块以及数据块的索引信息。

7.根据权利要求1所述的一种基于源端数据重删的数据备份方法，其特征是，服务端接收到数据块后，记录每一数据块的索引信息，将每块数据存储至容器的具体处理步骤为：

3）文件放在磁盘上并在数据库中记录文件对应的磁盘位置。

8.一种基于源端数据重删的数据恢复方法，其特征是，包括以下步骤：

步骤S2，服务端根据索引信息找到数据块返回客户端；

9.根据权利要求8所述的一种基于源端数据重删的数据恢复方法，其特征是，在服务端建立一级读缓存和二级读缓存组成的缓存模型，根据索引信息找数据块的具体步骤为：