CN115454983A - 一种基于布隆过滤器的海量Hbase数据去重方法 - Google Patents
一种基于布隆过滤器的海量Hbase数据去重方法 Download PDFInfo
- Publication number
- CN115454983A CN115454983A CN202211107495.9A CN202211107495A CN115454983A CN 115454983 A CN115454983 A CN 115454983A CN 202211107495 A CN202211107495 A CN 202211107495A CN 115454983 A CN115454983 A CN 115454983A
- Authority
- CN
- China
- Prior art keywords
- data
- hbase
- bloom filter
- hash1
- hash2
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开一种基于布隆过滤器的海量Hbase数据去重方法,涉及数据处理技术领域;经过两次数据遍历,使用三级布隆过滤器及redis存储,解决了数据去重过程中,数据整体遍历次数多,资源消耗大,计算时间长等问题,极大的提高了数据去重的效率。
Description
技术领域
本发明公开一种方法,涉及数据处理技术领域,具体地说是一种基于布隆过滤器的海量Hbase数据去重方法。
背景技术
随着信息技术产业革命浪潮,特别是大数据技术创新应用,数据逐渐成为物质、能源后第三大的基础战略资源和创新生产要素。在大数据背景下,数据采集过程中为了保证数据不丢失,数据重复的问题时有发生。但是数据重复容易造成后续数据处理过程中,尤其是数据统计、数据应用过程中出现统计值过高、数据展示重复等各种问题。
发明内容
本发明针对现有技术的问题,提供一种基于布隆过滤器的海量Hbase数据去重方法,支持亿级以上数据去重,提高了去重效率并降低了去重过程中内存占用率,避免去重中消耗大量的计算资源和存储资源造成服务器压力过大的问题,并有利于后续数据处理。
本发明提出的具体方案是:
本发明提供一种基于布隆过滤器的海量Hbase数据去重方法,Hbase数据去重过程为:
步骤一:依次遍历Hbase表中的数据,获取其中一条数据,
步骤二:对获取到的数据分别依据不同的Hash算法计算Hash值,获得的Hash值分别为Hash1、Hash2和Hash3,
步骤三:判断布隆过滤器BF1中是否存在Hash1,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤五,
步骤四:将所述数据的Hash1、Hash2和Hash3分别更新到对应的布隆过滤器BF1、BF2和BF3中,并循环步骤一至三,
步骤五:判断布隆过滤器BF2中是否存在Hash2,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤六,
步骤六:判断布隆过滤器BF3中是否存在Hash3,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤七,
步骤七:将所述数据记录到redis中的List集合中,其中key为Hash1、Hash2和Hash3组成的字符串,value值为Hash中所述数据的rowkey,
步骤八:重置BF1、BF2和BF3,获取redis中所有的key,并将key中Hash1、Hash2和Hash3更新到对应的BF1、BF2和BF3中,
步骤九:第二次遍历Hbase表中的数据,重复步骤二至七,
步骤十:完成第二次遍历Hbase表中的数据,获得redis中所有List集合,逐一遍历List集合中的数据,
步骤十一:获得List集合中value值,根据value值对应的rowkey从Hbase中获取对应的数据,比对是否存在rowkey不一致但数据内容重复的数据,存在则保留一条数据,删除重复的数据。
进一步,所述的一种基于布隆过滤器的海量Hbase数据去重方法中还包括如下步骤:对布隆过滤器BF1、BF2和BF3进行长度的估算。
进一步,所述的一种基于布隆过滤器的海量Hbase数据去重方法中所述估算,包括利用公式获得布隆过滤器BF1、BF2和BF3的长度,所述公式如下:
进一步,所述的一种基于布隆过滤器的海量Hbase数据去重方法中所述所述步骤七中key值为以&符合连接Hash1、Hash2和Hash3组成的字符串。
本发明还提供一种基于布隆过滤器的海量Hbase数据去重系统,利用所述基于布隆过滤器的海量Hbase数据去重系统进行Hbase数据去重的过程为:
步骤一:依次遍历Hbase表中的数据,获取其中一条数据,
步骤二:对获取到的数据分别依据不同的Hash算法计算Hash值,获得的Hash值分别为Hash1、Hash2和Hash3,
步骤三:判断布隆过滤器BF1中是否存在Hash1,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤五,
步骤四:将所述数据的Hash1、Hash2和Hash3分别更新到对应的布隆过滤器BF1、BF2和BF3中,并循环步骤一至三,
步骤五:判断布隆过滤器BF2中是否存在Hash2,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤六,
步骤六:判断布隆过滤器BF3中是否存在Hash3,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤七,
步骤七:将所述数据记录到redis中的List集合中,其中key为Hash1、Hash2和Hash3组成的字符串,value值为Hash中所述数据的rowkey,
步骤八:重置BF1、BF2和BF3,获取redis中所有的key,并将key中Hash1、Hash2和Hash3更新到对应的BF1、BF2和BF3中,
步骤九:第二次遍历Hbase表中的数据,重复步骤二至七,
步骤十:完成第二次遍历Hbase表中的数据,获得redis中所有List集合,逐一遍历List集合中的数据,
步骤十一:获得List集合中value值,根据value值对应的rowkey从Hbase中获取对应的数据,比对是否存在rowkey不一致但数据内容重复的数据,存在则保留一条数据,删除重复的数据。
进一步,所述的一种基于布隆过滤器的海量Hbase数据去重系统中所述基于布隆过滤器的海量Hbase数据去重系统还对布隆过滤器BF1、BF2和BF3进行长度的估算。
进一步,所述的一种基于布隆过滤器的海量Hbase数据去重系统中所述估算,包括利用公式获得布隆过滤器BF1、BF2和BF3的长度,所述公式如下:
进一步,所述的一种基于布隆过滤器的海量Hbase数据去重系统中所述基于布隆过滤器的海量Hbase数据去重系统在步骤七中以&符合连接Hash1、Hash2和Hash3组成的字符串作为key值。
本发明还提供一种基于布隆过滤器的海量Hbase数据去重装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行所述的一种基于布隆过滤器的海量Hbase数据去重方法。
本发明还提供计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行所述的一种基于布隆过滤器的海量Hbase数据去重方法。
本发明的有益之处是:
本发明提供一种基于布隆过滤器的海量Hbase数据去重方法,经过两次数据遍历,使用三级布隆过滤器及redis存储,解决了数据去重过程中,数据整体遍历次数多,资源消耗大,计算时间长等问题,极大的提高了数据去重的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供一种基于布隆过滤器的海量Hbase数据去重方法,Hbase数据去重过程为:
步骤一:依次遍历Hbase表中的数据,获取其中一条数据,
步骤二:对获取到的数据分别依据不同的Hash算法计算Hash值,获得的Hash值分别为Hash1、Hash2和Hash3,
步骤三:判断布隆过滤器BF1中是否存在Hash1,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤五,
步骤四:将所述数据的Hash1、Hash2和Hash3分别更新到对应的布隆过滤器BF1、BF2和BF3中,并循环步骤一至三,
步骤五:判断布隆过滤器BF2中是否存在Hash2,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤六,
步骤六:判断布隆过滤器BF3中是否存在Hash3,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤七,
步骤七:将所述数据记录到redis中的List集合中,其中key为Hash1、Hash2和Hash3组成的字符串,value值为Hash中所述数据的rowkey,
步骤八:重置BF1、BF2和BF3,获取redis中所有的key,并将key中Hash1、Hash2和Hash3更新到对应的BF1、BF2和BF3中,
步骤九:第二次遍历Hbase表中的数据,重复步骤二至七,
步骤十:完成第二次遍历Hbase表中的数据,获得redis中所有List集合,逐一遍历List集合中的数据,
步骤十一:获得List集合中value值,根据value值对应的rowkey从Hbase中获取对应的数据,比对是否存在rowkey不一致但数据内容重复的数据,存在则保留一条数据,删除重复的数据。
本发明方法可以支持千万级数据去重,提高数据去重的效率,降低计算压力和存储压力,节省成本。
具体应用中,在本发明的一些实施例中,参考图1,为更好地利用布隆过滤器,可以在遍历数据前根据大致的数据量级和能接受的误报率,估算出布隆过滤器的大致长度,布隆过滤器的最佳长度m,可利用如下公式获得:
进行数据去重的流程,可参考如下:
步骤一:依次遍历Hbase表中的数据,获取到其中一条数据,
步骤二:对获取到的数据依据三个不同的Hash算法计算三个Hash值,分别为Hash1、Hash2、Hash3,
步骤三:用Hash1判断BF1中是否存在该值,若不存在,则当前该数据无重复数据,并进行步骤四,若存在,则进行步骤五,
步骤四:将该条数据的三个hash分别写到对应的三个布隆过滤器中,即将该值的Hash1、Hash2、Hash3更新到BF1、BF2、BF3中,相当于将Hash值对应的布隆过滤器中的数组的下标的值设置为1,并继续循环步骤一至三,即遍历Hbase表中的数据,获取新一条数据进行三个不同的Hash值的计算,判断Hash1是否存在于BF1中,
步骤五:用Hash2判断BF2中是否存在该值,若不存在,则当前该数据无重复数据,并进行步骤四,若存在,则进行步骤六,
步骤六:用Hash3判断BF3中是否存在该值,若不存在,则当前该数据无重复数据,并进行步骤四,,若存在,则进行步骤七,
步骤七:将该条数据记录到redis中的List集合中,其中key为三个哈希值以&符合连接成的字符串,value值为Hash中该条数据的rowkey,
步骤八:重置BF1、BF2、BF3,获取redis中所有的key并进行字符串切割,获得Hash1、Hash2和Hash3,并更新到对应的布隆过滤器中,
步骤九:再次遍历Hbase表中的数据,重复步骤二至七,
步骤十:完成数据第二遍遍历后,取出redis中所有List集合的所有数据,逐一遍历List集合中的数据,
步骤十一:对每个List集合两层嵌套遍历,取出集合中value,根据value对应的rowkey,从Hbase中获取对应的数据,比较同一个List集合内是否有rowkey不一致,但是Hbase中数据内容重复的数据,有则将第二个重复的数据删除,留下第一条数据。当redis中的所有List集合数据遍历完成后,数据即去重完成。
本发明方法经过两次数据遍历,使用三个布隆过滤器及redis存储,解决了数据去重过程中,数据整体遍历次数多,资源消耗大,计算时间长等问题,极大的提高了数据去重的效率。
本发明还提供一种基于布隆过滤器的海量Hbase数据去重系统,利用所述基于布隆过滤器的海量Hbase数据去重系统进行Hbase数据去重的过程为:
步骤一:依次遍历Hbase表中的数据,获取其中一条数据,
步骤二:对获取到的数据分别依据不同的Hash算法计算Hash值,获得的Hash值分别为Hash1、Hash2和Hash3,
步骤三:判断布隆过滤器BF1中是否存在Hash1,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤五,
步骤四:将所述数据的Hash1、Hash2和Hash3分别更新到对应的布隆过滤器BF1、BF2和BF3中,并循环步骤一至三,
步骤五:判断布隆过滤器BF2中是否存在Hash2,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤六,
步骤六:判断布隆过滤器BF3中是否存在Hash3,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤七,
步骤七:将所述数据记录到redis中的List集合中,其中key为Hash1、Hash2和Hash3组成的字符串,value值为Hash中所述数据的rowkey,
步骤八:重置BF1、BF2和BF3,获取redis中所有的key,并将key中Hash1、Hash2和Hash3更新到对应的BF1、BF2和BF3中,
步骤九:第二次遍历Hbase表中的数据,重复步骤二至七,
步骤十:完成第二次遍历Hbase表中的数据,获得redis中所有List集合,逐一遍历List集合中的数据,
步骤十一:获得List集合中value值,根据value值对应的rowkey从Hbase中获取对应的数据,比对是否存在rowkey不一致但数据内容重复的数据,存在则保留一条数据,删除重复的数据。
上述系统内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明系统利用两次数据遍历,使用三级布隆过滤器及redis存储,解决了数据去重过程中,数据整体遍历次数多,资源消耗大,计算时间长等问题,极大的提高了数据去重的效率。
本发明还提供一种基于布隆过滤器的海量Hbase数据去重装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行所述的一种基于布隆过滤器的海量Hbase数据去重方法。
上述装置内的处理器的信息交互、执行可读程序过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明装置利用两次数据遍历,使用三级布隆过滤器及redis存储,解决了数据去重过程中,数据整体遍历次数多,资源消耗大,计算时间长等问题,极大的提高了数据去重的效率。
本发明还提供计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行所述的一种基于布隆过滤器的海量Hbase数据去重方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,上述各流程和各系统结构中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (10)
1.一种基于布隆过滤器的海量Hbase数据去重方法,其特征是Hbase数据去重过程为:
步骤一:依次遍历Hbase表中的数据,获取其中一条数据,
步骤二:对获取到的数据分别依据不同的Hash算法计算Hash值,获得的Hash值分别为Hash1、Hash2和Hash3,
步骤三:判断布隆过滤器BF1中是否存在Hash1,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤五,
步骤四:将所述数据的Hash1、Hash2和Hash3分别更新到对应的布隆过滤器BF1、BF2和BF3中,并循环步骤一至三,
步骤五:判断布隆过滤器BF2中是否存在Hash2,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤六,
步骤六:判断布隆过滤器BF3中是否存在Hash3,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤七,
步骤七:将所述数据记录到redis中的List集合中,其中key为Hash1、Hash2和Hash3组成的字符串,value值为Hash中所述数据的rowkey,
步骤八:重置BF1、BF2和BF3,获取redis中所有的key,并将key中Hash1、Hash2和Hash3更新到对应的BF1、BF2和BF3中,
步骤九:第二次遍历Hbase表中的数据,重复步骤二至七,
步骤十:完成第二次遍历Hbase表中的数据,获得redis中所有List集合,逐一遍历List集合中的数据,
步骤十一:获得List集合中value值,根据value值对应的rowkey从Hbase中获取对应的数据,比对是否存在rowkey不一致但数据内容重复的数据,存在则保留一条数据,删除重复的数据。
2.根据权利要求1所述的一种基于布隆过滤器的海量Hbase数据去重方法,其特征是还包括如下步骤:对布隆过滤器BF1、BF2和BF3进行长度的估算。
4.根据权利要求1所述的一种基于布隆过滤器的海量Hbase数据去重方法,其特征是所述步骤七中key值为以&符合连接Hash1、Hash2和Hash3组成的字符串。
5.一种基于布隆过滤器的海量Hbase数据去重系统,其特征是利用所述基于布隆过滤器的海量Hbase数据去重系统进行Hbase数据去重的过程为:
步骤一:依次遍历Hbase表中的数据,获取其中一条数据,
步骤二:对获取到的数据分别依据不同的Hash算法计算Hash值,获得的Hash值分别为Hash1、Hash2和Hash3,
步骤三:判断布隆过滤器BF1中是否存在Hash1,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤五,
步骤四:将所述数据的Hash1、Hash2和Hash3分别更新到对应的布隆过滤器BF1、BF2和BF3中,并循环步骤一至三,
步骤五:判断布隆过滤器BF2中是否存在Hash2,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤六,
步骤六:判断布隆过滤器BF3中是否存在Hash3,若不存在则当前所述数据无重复数据,进行步骤四,否则进行步骤七,
步骤七:将所述数据记录到redis中的List集合中,其中key为Hash1、Hash2和Hash3组成的字符串,value值为Hash中所述数据的rowkey,
步骤八:重置BF1、BF2和BF3,获取redis中所有的key,并将key中Hash1、Hash2和Hash3更新到对应的BF1、BF2和BF3中,
步骤九:第二次遍历Hbase表中的数据,重复步骤二至七,
步骤十:完成第二次遍历Hbase表中的数据,获得redis中所有List集合,逐一遍历List集合中的数据,
步骤十一:获得List集合中value值,根据value值对应的rowkey从Hbase中获取对应的数据,比对是否存在rowkey不一致但数据内容重复的数据,存在则保留一条数据,删除重复的数据。
6.根据权利要求5所述的一种基于布隆过滤器的海量Hbase数据去重系统,其特征是所述基于布隆过滤器的海量Hbase数据去重系统还对布隆过滤器BF1、BF2和BF3进行长度的估算。
8.根据权利要求6所述的一种基于布隆过滤器的海量Hbase数据去重系统,其特征是所述基于布隆过滤器的海量Hbase数据去重系统在步骤七中以&符合连接Hash1、Hash2和Hash3组成的字符串作为key值。
9.一种基于布隆过滤器的海量Hbase数据去重装置,其特征是包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至4中任一项所述的一种基于布隆过滤器的海量Hbase数据去重方法。
10.计算机可读介质,其特征是所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至4任一项所述的一种基于布隆过滤器的海量Hbase数据去重方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211107495.9A CN115454983B (zh) | 2022-09-13 | 2022-09-13 | 一种基于布隆过滤器的海量Hbase数据去重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211107495.9A CN115454983B (zh) | 2022-09-13 | 2022-09-13 | 一种基于布隆过滤器的海量Hbase数据去重方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115454983A true CN115454983A (zh) | 2022-12-09 |
CN115454983B CN115454983B (zh) | 2023-07-14 |
Family
ID=84302358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211107495.9A Active CN115454983B (zh) | 2022-09-13 | 2022-09-13 | 一种基于布隆过滤器的海量Hbase数据去重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115454983B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663058A (zh) * | 2012-03-30 | 2012-09-12 | 华中科技大学 | 一种分布式网络爬虫系统中的url去重方法 |
US20140059016A1 (en) * | 2012-08-22 | 2014-02-27 | Fujitsu Limited | Deduplication device and deduplication method |
US20160162508A1 (en) * | 2014-12-09 | 2016-06-09 | Compellent Technologies | Managing deduplication in a data storage system using a bloomier filter data dictionary |
CN106570025A (zh) * | 2015-10-10 | 2017-04-19 | 北京国双科技有限公司 | 一种数据过滤的方法及装置 |
CN106649346A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 数据重复性校验方法及装置 |
CN108140050A (zh) * | 2016-04-25 | 2018-06-08 | 华为技术有限公司 | 一种使用布隆过滤器过滤文件的方法及装置 |
US20180232488A1 (en) * | 2017-02-12 | 2018-08-16 | Privacy Analytics Inc. | Methods and systems for watermarking of anonymized datasets |
CN108628871A (zh) * | 2017-03-16 | 2018-10-09 | 哈尔滨英赛克信息技术有限公司 | 一种基于链接特征的链接去重方法 |
US20190266193A1 (en) * | 2017-06-13 | 2019-08-29 | Huawei Technologies Co., Ltd. | Data processing method for bloom filter, and bloom filter |
US20200226112A1 (en) * | 2019-01-16 | 2020-07-16 | Sqream Technologies Ltd. | System and method of Bloom Filter for Big Data |
CN111930924A (zh) * | 2020-07-02 | 2020-11-13 | 上海微亿智造科技有限公司 | 基于布隆过滤器的数据查重系统及方法 |
CN113297266A (zh) * | 2020-07-08 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备及计算机存储介质 |
CN113590606A (zh) * | 2021-09-27 | 2021-11-02 | 浙江九州量子信息技术股份有限公司 | 一种基于布隆过滤器的大数据量密钥去重方法及系统 |
US20210406240A1 (en) * | 2020-06-30 | 2021-12-30 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate cardinality of users represented across multiple bloom filter arrays |
CN114443629A (zh) * | 2021-12-23 | 2022-05-06 | 厦门市美亚柏科信息股份有限公司 | 一种集群布隆过滤器数据去重方法、终端设备及存储介质 |
-
2022
- 2022-09-13 CN CN202211107495.9A patent/CN115454983B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663058A (zh) * | 2012-03-30 | 2012-09-12 | 华中科技大学 | 一种分布式网络爬虫系统中的url去重方法 |
US20140059016A1 (en) * | 2012-08-22 | 2014-02-27 | Fujitsu Limited | Deduplication device and deduplication method |
US20160162508A1 (en) * | 2014-12-09 | 2016-06-09 | Compellent Technologies | Managing deduplication in a data storage system using a bloomier filter data dictionary |
CN106570025A (zh) * | 2015-10-10 | 2017-04-19 | 北京国双科技有限公司 | 一种数据过滤的方法及装置 |
CN106649346A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 数据重复性校验方法及装置 |
CN108140050A (zh) * | 2016-04-25 | 2018-06-08 | 华为技术有限公司 | 一种使用布隆过滤器过滤文件的方法及装置 |
US20180232488A1 (en) * | 2017-02-12 | 2018-08-16 | Privacy Analytics Inc. | Methods and systems for watermarking of anonymized datasets |
CN108628871A (zh) * | 2017-03-16 | 2018-10-09 | 哈尔滨英赛克信息技术有限公司 | 一种基于链接特征的链接去重方法 |
US20190266193A1 (en) * | 2017-06-13 | 2019-08-29 | Huawei Technologies Co., Ltd. | Data processing method for bloom filter, and bloom filter |
US20200226112A1 (en) * | 2019-01-16 | 2020-07-16 | Sqream Technologies Ltd. | System and method of Bloom Filter for Big Data |
US20210406240A1 (en) * | 2020-06-30 | 2021-12-30 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate cardinality of users represented across multiple bloom filter arrays |
CN111930924A (zh) * | 2020-07-02 | 2020-11-13 | 上海微亿智造科技有限公司 | 基于布隆过滤器的数据查重系统及方法 |
CN113297266A (zh) * | 2020-07-08 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备及计算机存储介质 |
CN113590606A (zh) * | 2021-09-27 | 2021-11-02 | 浙江九州量子信息技术股份有限公司 | 一种基于布隆过滤器的大数据量密钥去重方法及系统 |
CN114443629A (zh) * | 2021-12-23 | 2022-05-06 | 厦门市美亚柏科信息股份有限公司 | 一种集群布隆过滤器数据去重方法、终端设备及存储介质 |
Non-Patent Citations (7)
Title |
---|
JUN LIU等: "A novel hot data identification mechanism for NAND flash memory", 《IEEE》, pages 463 - 469 * |
TOSHIHIRO TSUCHIYA: "DBLK: Deduplication for primary block storage", 《IEEE》 * |
YUANHANG YANG等: "Multiple Bloom filters", 《ACM》 * |
张攀峰: "数据去重中重复数据检测技术研究", 《信息科技》, no. 10 * |
邓剑勋;熊忠阳;邓欣;: "一种新的基于Bloom filter数据结构的数据消冗算法", 南昌大学学报(理科版), no. 05 * |
陈春玲;陈琳;熊晶;余瀚;: "Bloom Filter在重复数据删除技术中应用的研究", 计算机技术与发展, no. 08 * |
魏建生: "高性能重复数据检测与删除技术研究", 《信息科技》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115454983B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9235651B2 (en) | Data retrieval apparatus, data storage method and data retrieval method | |
CN106874348B (zh) | 文件存储和索引方法、装置及读取文件的方法 | |
US20150331619A1 (en) | Data storage method and apparatus | |
CN110019218B (zh) | 数据存储与查询方法及设备 | |
US20130013597A1 (en) | Processing Repetitive Data | |
CN110147204B (zh) | 一种元数据落盘方法、装置、系统及计算机可读存储介质 | |
CN110888837B (zh) | 对象存储小文件归并方法及装置 | |
CN112416880A (zh) | 一种基于实时归并的海量小文件存储性能优化方法及装置 | |
CN111274245B (zh) | 一种用于优化数据存储的方法和装置 | |
CN114268323B (zh) | 支持行存的数据压缩编码方法、装置及时序数据库 | |
CN112199935A (zh) | 数据的比对方法、装置、电子设备及计算机可读存储介质 | |
CN112511629B (zh) | 一种mpt结构的账户树的数据压缩方法及系统 | |
CN112434085B (zh) | 基于Roaring Bitmap的用户数据统计方法 | |
CN111026736B (zh) | 数据血缘管理方法及装置、数据血缘解析方法及装置 | |
CN115454983B (zh) | 一种基于布隆过滤器的海量Hbase数据去重方法 | |
JP4313845B2 (ja) | マルチインスタンス・インメモリ・データベース | |
CN107832341B (zh) | Agnss用户去重统计方法 | |
CN107783904B (zh) | 单元测试桩去重方法、装置、计算机可读存储介质及设备 | |
CN115904240A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
WO2020238750A1 (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
CN107506156B (zh) | 一种块设备的io优化方法 | |
CN105653950A (zh) | 一种基于多模式的恶意代码匹配方法及装置 | |
CN111045608B (zh) | 一种有效性代码的查找方法、装置、设备及可读存储介质 | |
KR101693687B1 (ko) | 데이터베이스의 컬럼 단위 압축 방법 | |
CN111125830B (zh) | 基于模型定义的长周期数据存储检验方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |