CN115454983A

CN115454983A - 一种基于布隆过滤器的海量Hbase数据去重方法

Info

Publication number: CN115454983A
Application number: CN202211107495.9A
Authority: CN
Inventors: 王玉伟; 单震; 张延群
Original assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-09
Anticipated expiration: 2042-09-13
Also published as: CN115454983B

Abstract

本发明公开一种基于布隆过滤器的海量Hbase数据去重方法,涉及数据处理技术领域；经过两次数据遍历，使用三级布隆过滤器及redis存储，解决了数据去重过程中，数据整体遍历次数多，资源消耗大，计算时间长等问题，极大的提高了数据去重的效率。

Description

一种基于布隆过滤器的海量Hbase数据去重方法

技术领域

本发明公开一种方法,涉及数据处理技术领域，具体地说是一种基于布隆过滤器的海量Hbase数据去重方法。

背景技术

随着信息技术产业革命浪潮，特别是大数据技术创新应用，数据逐渐成为物质、能源后第三大的基础战略资源和创新生产要素。在大数据背景下，数据采集过程中为了保证数据不丢失，数据重复的问题时有发生。但是数据重复容易造成后续数据处理过程中，尤其是数据统计、数据应用过程中出现统计值过高、数据展示重复等各种问题。

发明内容

本发明针对现有技术的问题，提供一种基于布隆过滤器的海量Hbase数据去重方法，支持亿级以上数据去重，提高了去重效率并降低了去重过程中内存占用率，避免去重中消耗大量的计算资源和存储资源造成服务器压力过大的问题，并有利于后续数据处理。

本发明提出的具体方案是：

本发明提供一种基于布隆过滤器的海量Hbase数据去重方法，Hbase数据去重过程为：

步骤一：依次遍历Hbase表中的数据，获取其中一条数据,

步骤二：对获取到的数据分别依据不同的Hash算法计算Hash值，获得的Hash值分别为Hash1、Hash2和Hash3，

步骤三：判断布隆过滤器BF1中是否存在Hash1，若不存在则当前所述数据无重复数据，进行步骤四，否则进行步骤五，

步骤四：将所述数据的Hash1、Hash2和Hash3分别更新到对应的布隆过滤器BF1、BF2和BF3中，并循环步骤一至三，

步骤五：判断布隆过滤器BF2中是否存在Hash2，若不存在则当前所述数据无重复数据，进行步骤四，否则进行步骤六，

步骤六：判断布隆过滤器BF3中是否存在Hash3，若不存在则当前所述数据无重复数据，进行步骤四，否则进行步骤七，

步骤七：将所述数据记录到redis中的List集合中，其中key为Hash1、Hash2和Hash3组成的字符串,value值为Hash中所述数据的rowkey，

步骤八：重置BF1、BF2和BF3，获取redis中所有的key，并将key中Hash1、Hash2和Hash3更新到对应的BF1、BF2和BF3中，

步骤九：第二次遍历Hbase表中的数据，重复步骤二至七，

步骤十：完成第二次遍历Hbase表中的数据，获得redis中所有List集合，逐一遍历List集合中的数据，

步骤十一：获得List集合中value值，根据value值对应的rowkey从Hbase中获取对应的数据，比对是否存在rowkey不一致但数据内容重复的数据，存在则保留一条数据，删除重复的数据。

进一步，所述的一种基于布隆过滤器的海量Hbase数据去重方法中还包括如下步骤：对布隆过滤器BF1、BF2和BF3进行长度的估算。

进一步，所述的一种基于布隆过滤器的海量Hbase数据去重方法中所述估算，包括利用公式获得布隆过滤器BF1、BF2和BF3的长度，所述公式如下：

当n添加元元素和

误报概率确定时，m等于：

进一步，所述的一种基于布隆过滤器的海量Hbase数据去重方法中所述所述步骤七中key值为以&符合连接Hash1、Hash2和Hash3组成的字符串。

本发明还提供一种基于布隆过滤器的海量Hbase数据去重系统，利用所述基于布隆过滤器的海量Hbase数据去重系统进行Hbase数据去重的过程为：

步骤一：依次遍历Hbase表中的数据，获取其中一条数据,

步骤九：第二次遍历Hbase表中的数据，重复步骤二至七，

进一步，所述的一种基于布隆过滤器的海量Hbase数据去重系统中所述基于布隆过滤器的海量Hbase数据去重系统还对布隆过滤器BF1、BF2和BF3进行长度的估算。

进一步，所述的一种基于布隆过滤器的海量Hbase数据去重系统中所述估算，包括利用公式获得布隆过滤器BF1、BF2和BF3的长度，所述公式如下：

当n添加元元素和

误报概率确定时，m等于：

进一步，所述的一种基于布隆过滤器的海量Hbase数据去重系统中所述基于布隆过滤器的海量Hbase数据去重系统在步骤七中以&符合连接Hash1、Hash2和Hash3组成的字符串作为key值。

本发明还提供一种基于布隆过滤器的海量Hbase数据去重装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行所述的一种基于布隆过滤器的海量Hbase数据去重方法。

本发明还提供计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行所述的一种基于布隆过滤器的海量Hbase数据去重方法。

本发明的有益之处是：

本发明提供一种基于布隆过滤器的海量Hbase数据去重方法，经过两次数据遍历，使用三级布隆过滤器及redis存储，解决了数据去重过程中，数据整体遍历次数多，资源消耗大，计算时间长等问题，极大的提高了数据去重的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

步骤一：依次遍历Hbase表中的数据，获取其中一条数据,

步骤九：第二次遍历Hbase表中的数据，重复步骤二至七，

本发明方法可以支持千万级数据去重，提高数据去重的效率，降低计算压力和存储压力，节省成本。

具体应用中，在本发明的一些实施例中，参考图1，为更好地利用布隆过滤器，可以在遍历数据前根据大致的数据量级和能接受的误报率，估算出布隆过滤器的大致长度，布隆过滤器的最佳长度m，可利用如下公式获得：

当n添加元元素和

误报概率确定时，m等于：

进行数据去重的流程，可参考如下：

步骤一：依次遍历Hbase表中的数据，获取到其中一条数据，

步骤二：对获取到的数据依据三个不同的Hash算法计算三个Hash值，分别为Hash1、Hash2、Hash3，

步骤三：用Hash1判断BF1中是否存在该值，若不存在，则当前该数据无重复数据，并进行步骤四，若存在，则进行步骤五，

步骤四：将该条数据的三个hash分别写到对应的三个布隆过滤器中，即将该值的Hash1、Hash2、Hash3更新到BF1、BF2、BF3中,相当于将Hash值对应的布隆过滤器中的数组的下标的值设置为1，并继续循环步骤一至三，即遍历Hbase表中的数据，获取新一条数据进行三个不同的Hash值的计算，判断Hash1是否存在于BF1中，

步骤五：用Hash2判断BF2中是否存在该值，若不存在，则当前该数据无重复数据，并进行步骤四，若存在，则进行步骤六，

步骤六：用Hash3判断BF3中是否存在该值，若不存在，则当前该数据无重复数据，并进行步骤四,，若存在，则进行步骤七，

步骤七：将该条数据记录到redis中的List集合中，其中key为三个哈希值以&符合连接成的字符串,value值为Hash中该条数据的rowkey，

步骤八：重置BF1、BF2、BF3，获取redis中所有的key并进行字符串切割，获得Hash1、Hash2和Hash3，并更新到对应的布隆过滤器中，

步骤九：再次遍历Hbase表中的数据，重复步骤二至七，

步骤十：完成数据第二遍遍历后，取出redis中所有List集合的所有数据，逐一遍历List集合中的数据，

步骤十一：对每个List集合两层嵌套遍历，取出集合中value，根据value对应的rowkey，从Hbase中获取对应的数据，比较同一个List集合内是否有rowkey不一致，但是Hbase中数据内容重复的数据，有则将第二个重复的数据删除，留下第一条数据。当redis中的所有List集合数据遍历完成后,数据即去重完成。

本发明方法经过两次数据遍历，使用三个布隆过滤器及redis存储，解决了数据去重过程中，数据整体遍历次数多，资源消耗大，计算时间长等问题，极大的提高了数据去重的效率。

步骤一：依次遍历Hbase表中的数据，获取其中一条数据,

步骤九：第二次遍历Hbase表中的数据，重复步骤二至七，

上述系统内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明系统利用两次数据遍历，使用三级布隆过滤器及redis存储，解决了数据去重过程中，数据整体遍历次数多，资源消耗大，计算时间长等问题，极大的提高了数据去重的效率。

所述至少一个存储器，用于存储机器可读程序；

上述装置内的处理器的信息交互、执行可读程序过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明装置利用两次数据遍历，使用三级布隆过滤器及redis存储，解决了数据去重过程中，数据整体遍历次数多，资源消耗大，计算时间长等问题，极大的提高了数据去重的效率。

本发明还提供计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行所述的一种基于布隆过滤器的海量Hbase数据去重方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于布隆过滤器的海量Hbase数据去重方法，其特征是Hbase数据去重过程为：

步骤一：依次遍历Hbase表中的数据，获取其中一条数据,

步骤九：第二次遍历Hbase表中的数据，重复步骤二至七，

2.根据权利要求1所述的一种基于布隆过滤器的海量Hbase数据去重方法，其特征是还包括如下步骤：对布隆过滤器BF1、BF2和BF3进行长度的估算。

3.根据权利要求2所述的一种基于布隆过滤器的海量Hbase数据去重方法，其特征是所述估算，包括利用公式获得布隆过滤器BF1、BF2和BF3的长度，所述公式如下：

当n添加元素和P_fp误报概率确定时，m等于：

4.根据权利要求1所述的一种基于布隆过滤器的海量Hbase数据去重方法，其特征是所述步骤七中key值为以&符合连接Hash1、Hash2和Hash3组成的字符串。

5.一种基于布隆过滤器的海量Hbase数据去重系统，其特征是利用所述基于布隆过滤器的海量Hbase数据去重系统进行Hbase数据去重的过程为：

步骤一：依次遍历Hbase表中的数据，获取其中一条数据,

步骤九：第二次遍历Hbase表中的数据，重复步骤二至七，

6.根据权利要求5所述的一种基于布隆过滤器的海量Hbase数据去重系统，其特征是所述基于布隆过滤器的海量Hbase数据去重系统还对布隆过滤器BF1、BF2和BF3进行长度的估算。

7.根据权利要求6所述的一种基于布隆过滤器的海量Hbase数据去重系统，其特征是所述估算，包括利用公式获得布隆过滤器BF1、BF2和BF3的长度，所述公式如下：

当n添加元素和P_fp误报概率确定时，m等于：

8.根据权利要求6所述的一种基于布隆过滤器的海量Hbase数据去重系统，其特征是所述基于布隆过滤器的海量Hbase数据去重系统在步骤七中以&符合连接Hash1、Hash2和Hash3组成的字符串作为key值。

9.一种基于布隆过滤器的海量Hbase数据去重装置，其特征是包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至4中任一项所述的一种基于布隆过滤器的海量Hbase数据去重方法。

10.计算机可读介质，其特征是所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至4任一项所述的一种基于布隆过滤器的海量Hbase数据去重方法。