CN115203150A

CN115203150A - 一种基于布隆过滤器的海量文件备份数据同步方法

Info

Publication number: CN115203150A
Application number: CN202210519112.2A
Authority: CN
Inventors: 王玉伟; 李源; 单震
Original assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-10-18

Abstract

本发明提供一种基于布隆过滤器的海量文件备份数据同步方法，属于计算机、文件备份领域，本发明文件同步程序中引入布隆过滤器，经过多次通过布隆过滤器的比较，完成准确率极高的千万级以上文件同步服务。优化了文件同步的速度，避免在文件同步时消耗大量的计算资源，造成服务器压力过大的问题。

Description

一种基于布隆过滤器的海量文件备份数据同步方法

技术领域

本发明涉及计算机、文件备份领域，尤其涉及一种基于布隆过滤器的海量文件备份数据同步方法。

背景技术

随着信息技术产业革命浪潮，特别是大数据技术创新应用，数据逐渐成为物质、能源后第三大的国家基础战略资源和创新生产要素。数据安全变得越来越重要。伴随着大数据技术的发展。大批量的数据备份、文件同步就成为一个亟待解决的问题。

发明内容

为了解决以上技术问题，本发明提供了一种基于布隆过滤器的海量文件备份数据同步方，优化了文件同步的速度，避免在文件同步时消耗大量的计算资源，造成服务器压力过大的问题。

本发明的技术方案是：

一种基于布隆过滤器的海量文件备份数据同步方法，

文件同步程序中引入布隆过滤器，经过数次通过布隆过滤器的比较，完成千万级以上文件同步服务。

进一步的，

根据文件的数据量级和误报率，估算出布隆过滤器BF1的长度；

依次遍历主服务器上的文件，对文件目录依据三个不同的Hash算法计算三个Hash值，将Hash值对应的布隆过滤器BF1中的数组的下标的值设置为1；

设置第二个布隆过滤器，即BF2,长度与BF1相同；

依次遍历主服务器上的文件，对文件的内容依据三个不同的Hash算法计算三个Hash值，将Hash值对应的布隆过滤器中的数组的下标的值设置为1。

再进一步的，

遍历备份服务器中的文件，分别通过BF1和BF2判断目录和文件内容是否存在，如果布隆过滤器判断文件目录或者文件内容不存在，则直接删除备份服务器上的文件。

再进一步的，

将备份服务器中的文件目录和内容遍历加载到布隆过滤器BF3和BF4中。

遍历主服务器上的文件通过布隆过滤器BF3和BF4判断是否目录和文件是否存在，若目录和文件同时不存在则将文件发送到备份服务器中对应目录，若目录存在文件不存在，则删除备份服务器上的文件将文件发送到备份服务器对应目录，若文件存在目录不存在或者两者都存在，则不操作文件。

再进一步的，

将主服务器中的文件目录和内容重新加载到布隆过滤器BF1和BF2中；

将备份服务器中的文件目录和内容重新加载到布隆过滤器的BF3和BF4中；

分别对BF1与BF3、BF2与BF4运行“与”运算，判断两者结果中各值是否都为零。

如果都为零，则认为两者文件已经一致；如果不为零则重新遍历备份服务器中的文件，分别通过BF1和BF2判断目录和文件内容是否存在，如果布隆过滤器判断文件目录或者文件内容不存在，则直接删除备份服务器上的文件。

再进一步的，

布隆过滤器的长度m：

当n添加元素和P_fp误报概率确定时，m等于：

本发明的有益效果是

支持千万级以上文件的同步，提高的大批量文件同步的可靠性。

附图说明

图1是遍历文件示意图。

图2是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

数据备份中对大批量的文件同步不友好。千万级以上文件量的文件自动化同步容易因为同步程序所在服务器内存不足等原因导致同步失败。为解决该问题，文件同步程序中引入布隆过滤器，经过多次通过布隆过滤器的比较，完成准确率极高的千万级以上文件同步服务。

本发明提供了一种基于布隆过滤器的海量文件备份数据同步方法，包括：

步骤一：根据文件的数据量级和能接受的误报率，估算出布隆过滤器BF1的大致长度。

布隆过滤器的最佳长度m：

当n添加元素和P_fp误报概率确定时，m等于：

步骤二：依次遍历主服务器上的小文件，对小文件目录依据三个不同的Hash算法计算三个Hash值，将Hash值对应的布隆过滤器BF1中的数组的下标的值设置为1。

步骤三：设置第二个布隆过滤器，即BF2,长度依然为步骤一中的m。

步骤四：依次遍历主服务器上的小文件，对小文件的内容依据三个不同的Hash算法计算三个Hash值，将Hash值对应的布隆过滤器中的数组的下标的值设置为1。

步骤五：遍历备份服务器中的文件，分别通过BF1和BF2判断目录和文件内容是否存在，如果布隆过滤器判断文件目录或者文件内容不存在，则直接删除备份服务器上的文件。

步骤六：将备份服务器中的文件目录和内容遍历加载到布隆过滤器BF3和BF4中。

步骤七：遍历主服务器上的文件通过BF3和BF4判断是否目录和文件是否存在，若目录和文件同时不存在则将文件发送到备份服务器中对应目录，若目录存在文件不存在，则删除备份服务器上的文件将文件发送到备份服务器对应目录，若文件存在目录不存在或者两者都存在，则不操作文件。

步骤八：将主服务器中的文件目录和内容重新加载到布隆过滤器BF1和BF2中。

步骤九：将备份服务器中的文件目录和内容重新加载到布隆过滤器的BF3和BF4中。

步骤十：分别对BF1与BF3、BF2与BF4运行“与”运算，判断两者结果中各值是否都为零。如果都为零，则认为两者文件已经一致。如果不为零则重新进行步骤五。

本发明：

支持千万级以上的文件量的文件同步。

支持文件目录与文件内容的比较。

采用四个布隆过滤器，经过多次循环完成文件同步。

文件同步效率极高，可靠性也比较高，通过对结果多次比较，尽可能降低文件不同步的可能性。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于布隆过滤器的海量文件备份数据同步方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，

设置第二个布隆过滤器，即BF2,长度与BF1相同；

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，

分别对BF1与BF3、BF2与BF4运行与运算，判断两者结果中各值是否都为零。

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求1所述的方法，其特征在于，

布隆过滤器的长度m：

当n添加元素和P_fp误报概率确定时，m等于：