CN103020296A

CN103020296A - 一种高精度多维计数布鲁姆过滤器及其大数据处理方法

Info

Publication number: CN103020296A
Application number: CN2012105904821A
Authority: CN
Inventors: 张大方; 李玮; 黄昆; 谢鲲
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-04-03
Anticipated expiration: 2032-12-31
Also published as: CN103020296B

Abstract

本发明公开了一种高精度多维计数布鲁姆过滤器及其大数据处理方法，在高精度多维计数布鲁姆过滤器中存储一定规模或具有相应特性的多维属性数据集；读取需要处理的多维属性大数据集；进行高精度多维计数布鲁姆过滤器处理，包括多维元素查询和更新等；输出经过处理后的多维属性数据集。本发明大大减少误判发生的几率，处理精度大幅度提高。通过本发明提供的大数据处理方法，更迅速地完成数据的价值“提纯”，快速有效地对大数据进行加工处理，让数据产生经济和社会价值。本发明广泛应用于分布式系统、网络等领域内大数据处理。

Description

一种高精度多维计数布鲁姆过滤器及其大数据处理方法

技术领域

本发明涉及分布式系统、网络等领域大数据处理，具体是指基于高精度多维计数布鲁姆过滤器的大数据处理方法。

背景技术

未来的十年将是一个大数据引领的时代。大数据有三个典型特征：1）数据结构复杂，元素属性多维化。如数字城市中空间数据具有三维坐标、地形等多维属性；网络Trace海量数据包具有源IP、目的IP、协议等多维属性；2）数据价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例，一部一小时的视频，在连续不间断监控过程中，可能有用的数据仅仅只有一两秒；3）数据动态变化更新快。如何在快速变化的海量数据中通过高精度的数据处理方法迅速地完成数据的价值“提纯”，成为有效进行大数据处理过程中极具挑战性的问题。

布鲁姆过滤器（B F,Bloom Filter）是一种结构精简的数据过滤方法，虽然它存在稍许查询误判，但由于其哈希查找的常数时间和存储空间开销较小，从而使它具有很好的实用价值，已广泛应用于网络、分布式计算等领域。BF采用长度为m的比特向量V表示n个元素集合S＝{s₁，s₂，...,s_n}，采用k个相互独立的哈希函数h₁,h₂,..,h_k，其函数取值均匀分布在范围为[1...m]。插入元素s时，设置V中第h₁(s),h₂(s),...,h_k(s)位为1。查询元素u时，检查V中第h₁(u),h₂(u),...,h_k(u)位是否全为1，如果全为1，则元素u在S中；否则，元素u不在S中。后面章节中采用三元组{n,m,k,}形式化表示单维属性布鲁姆过滤器，用四元组{n,m,k,L}表示多维属性布鲁姆过滤器。n为集合S中元素个数，m为向量V的长度，k为哈希函数的个数，L为元素属性维数。

但目前布鲁姆过滤器的研究主要集中在单维元素的处理，如标准布鲁姆过滤器、计数布鲁姆过滤器、光谱布鲁姆过滤器，拆分型布鲁姆过滤器、分档布鲁姆过滤器、索引拆分布鲁姆过滤器等。这些算法从不同角度讨论和优化布鲁姆过滤器的设计以满足实际应用的不同需求。目前存在少数针对多维元素处理的布鲁姆过滤器方法，如MDBF（Multi-Dimension Bloom Filte）、CMDBF（Combined Multi-Dimension Bloom Filter)）和PBF-BF（Parallel BloomFilter-Bloom Filter），但是这些方法由于没有对多维属性进行有效的关联，仍然存在误判率高的缺点，无法应用于未来大数据环境下多维数据处理精度需求。因此，针对大数据特点，设计出高精度的多维布鲁姆过滤器来完成多维元素过滤和更新等大数据处理方法，成为大数据处理中迫切解决的问题。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种高精度多维计数布鲁姆过滤器及其大数据处理方法，更迅速地完成数据的价值“提纯”，快速有效地对大数据进行加工处理。

为解决上述技术问题，本发明所采用的技术方案是，高精度多维计数布鲁姆过滤器的结构由两部分组成，即：第一部分是用来存储多维元素各个属性的高精度计数布鲁姆过滤器，高精度计数布鲁姆过滤器是一种基于分层结构的计数布鲁姆过滤器，通过高效利用计数器的存储空间来降低假阳性，提升其处理精度；第二部分是用来存储元素整体信息的联合计数布鲁姆过滤器，采用双射函数将元素多维属性转换为一维数值来表示元素整体信息，将这个一维数值映射到联合计数布鲁姆过滤器中，联合元素各属性值利用联合计数布鲁姆过滤器进行确认。下面分别介绍这两部分详细设计。

（1）高精度计数布鲁姆过滤器设计

标准布鲁姆过滤器不支持删除操作，从而不支持集合的动态变化，CBF被提出以解决此问题，用计数器替代标准BF中的每个bit位，一般情况下，每个计数器由4个bit组成，最大值为16。CBF使用时，首先将m个计数器初始化为0。元素的插入操作和删除操作分别将对应的k个计数器加1或者减1。进行元素是否在集合中的判断时，只需要判断这k个计数器的值是否都大于1。

在CBF实际应用中，本发明发现大部分计数器的值只需1-2个bit来表示，从而造成内存空间浪费。本发明随机产生30组10万个元素插入CBF中，哈希函数个数为3，存储空间m与插入元素个数n比值c(c＝m/n)分别设置为8、12，统计插入元素后CBF中计数器值分别等于0~15的计数器个数，结果（30组平均值）如表1所示。

表1值分别等于0~15的计数器个数分布

从表1可以得出，c=m/n=8、12时，95%以上的计数器只需要1个bit来表示，造成空间浪费，如果减少计数器bit位数，但由于还是有少数计数器值需要4bit表示，因此又可能造成元素插入时溢出。由于PBF-BF采用了L+1个CBF，因此未能有效利用内存空间。

为了解决此类问题，本发明在多层压缩计数布鲁姆过滤器（MLC-CBF，MultiLayer Compressed Counting Bloom Filter）基础上提出了一种高精度多维计数布鲁姆过滤器，高精度计数布鲁姆过滤器将标准CBF的空间4m分为空间不等的多层（L₁，…，L_N），每层中每个位置（桶）由一个bit组成，第1层L₁长度固定，其值为4m-kn，其余各层及长度根据需要动态创建，高精度计数布鲁姆过滤器的第2层长度等于L₁层中bit位为1的个数，第3层长度等于第2层中bit位为1的个数，以此类推，原理如图2中（b）所示。CBF中计数器的值采用哈夫曼编码来表示，例如CBF采用0001来表示计数器值1，A-CBF采用哈夫曼编码10来表示；CBF采用0011来表示计数器值3，A-CBF采用哈夫曼编码1110来表示，编码“1110”中第1个1位于L₁层，第2个1位于L₂层，第3个1位于L₃层，第4位0位于L₄层。

（2）映射函数Fun(X)设计

本发明的第二个工作是采用双射函数将元素X的多维属性(a₁，a₂，...,a_L)转换为一个数值Y来表示元素整体信息，并保证X与Y值的一一对应关系，避免不同元素映射到联合计数布鲁姆过滤器中相同位置，从而降低第二部分联合计数布鲁姆过滤器的假阳性，提高查询精度。

在n个自然数集合N的笛卡尔积N×N...，×N到自然数集合N自身之间建立双射函数，寻求多维数据与一维数据之间的相互对应关系，是实现多维数据与一维数据相互转换的有效方法。

已经证明，两个自然数集合的笛卡尔积N×N与N之间是双射的，即函数f:N×N→N为双射函数，其运算公式为

f(i,j)=(i+j)(i+j+1)/2+i((i,j)∈N×N)（1）

根据N×N与N之间是双射函数f构造出从Nⁿ到N的双射，这里Nⁿ表示n个集合N的笛卡尔积N×N...,×N。一般对于任意n元组(x₁，x₂，...,x_n)∈Nⁿ，从Nⁿ到N双射函数f_n：Nⁿ→N为

f_n(x₁,x₂,....,x_n)=f_n(f_n-1(x₁,x₂,....,x_n-1),x_n)（2）

本发明采用公式（2）来设计图1中的映射函数Fun(X)

Fun_L(a₁,a₂,...,a_L)=Fun_L(Fun_L-1(a₁,a₂,....,a_L-1),a_L)（3）

但由于元素属性可能是非数字，因此采用哈希函数将元素属性转换为数字，即

Fun_L(H₁(a₁),H₁(a₂),..,H₁(a_L))=Fun_L(Fun_L-1(H₁(a₁),H₁(a₂),...,H₁(a_L-1)),H₁(a_L))（4）

公式（4）中H₁为高精度计数布鲁姆过滤器采用的k个哈希函数中的第1个哈希函数。

基于高精度多维计数布鲁姆过滤器的大数据处理方法为：

1）读入具有相应特性的多维属性数据集；

2）将具有相应特性的多维属性数据集中每个元素的各属性哈希映射到各自对应的高精度计数布鲁姆过滤器中；同时将具有相应特性多维属性数据集中每个元素的所有属性通过双射函数转换为一个值来表示元素整体信息，然后将这个值哈希映射到联合计数布鲁姆过滤器中，完成多维元素整体的表示；所述双射函数表达式为：Fun_L(H₁(a₁),H₁(a₂),..,H₁(a_L))＝Fun_L(Fun_L-1(H₁(a₁),H₁(a₂),...,H₁(a_L-1)),H₁(a_L))，其中，H₁为基于分层结构的计数布鲁姆过滤器采用的第1个哈希函数；a₁,a₂,...,a_L表示元素的多维属性；

3）读取需要处理的多维属性大数据集；

4）计算待处理的多维属性大数据集中每个元素的各属性哈希值，根据这些哈希值判断各个属性对应的高精度计数布鲁姆过滤器L₁层对应的bit位是否为1；将待处理的多维属性大数据集中每个元素的各属性通过双射函数转换为一个值来表示元素整体信息，然后将计算该值的哈希值，根据该哈希值判断联合计数布鲁姆过滤器中对应的bit位是否大于1；

5）将满足所述步骤4）判断条件的多维属性大数据集中的元素输出，得到处理后的多维属性数据集。

与现有技术相比，本发明所具有的有益效果为：本发明为了降低多维布鲁姆过滤器大数据处理方法的假阳性，提高大数据处理精度，提出了一种高精度多维计数布鲁姆过滤器。高精度多维计数布鲁姆过滤器采用高精度计数布鲁姆过滤器和双射函数，将多维元素的属性两次哈希映射到多维布鲁姆过滤器中。理论分析和仿真实验表明，高精度多维计数布鲁姆过滤器对大规模多维数据集表示和查找很有效，查询精度大幅度提高。

附图说明

图1为标准CBF与高精度多维计数布鲁姆过滤器结构比较图；图1（a）标准CBF；图1（b）高精度计数布鲁姆过滤器；

图2为本发明一实施例高精度计数布鲁姆过滤器构造过程示意图；图2（a）高精度计数布鲁姆过滤器初始化；图2（b）高精度计数布鲁姆过滤器插入元素a；图2（c）高精度计数布鲁姆过滤器插入元素b第1个哈希值；图2（d）高精度计数布鲁姆过滤器插入元素b第2个哈希值；

图3为IP黑名单过滤假阳性对比（k=3）；

图4为IP黑名单过滤假阳性对比（k=6）。

具体实施方式

本发明采用美国应用网络研究国家实验室NLANR的Trace数据进行大处理，具体处理步骤是：

1、将源IP和目的IP组成的多维属性元素表示黑名单存储到高精度多维计数布鲁姆过滤器中，高精度多维计数布鲁姆过滤器构造过程分为两步：

（1）构造高精度多维计数布鲁姆过滤器中第一部分高精度计数布鲁姆过滤器，假设高精度计数布鲁姆过滤器首层位数为10，哈希函数个数k为2，构造步骤如图2所示：

i）高精度多维计数布鲁姆过滤器初始化，创建长度为10bit首层L₁，每位值为0，如图2（a）；

ii）插入元素a，将a对应在L₁层中2个哈希位置1和4设为1，同时动态创建L₂层，L₂层长度为2个bit，将这2个bit设为0，如图2（b）。L₁层中第1位和L₂层中第0位，即哈夫曼编码10表示值为1的计数器；L₁层中第4位和L₂层中第1位，即10表示值为1的计数器。此时L₂长度等于哈希函数个数k与已插入元素个数n乘积，即kn=2×1=2。

iii）插入元素b，将b对应在L₁层中第1个哈希位置4设为1。但由于位置4已经为1，所以在L₂层中将其对应的位置1设为1，同时动态创建长度为1个bit的L₃层，将该位设为0，如图2（c）。L₁层中第4位、L₂层中第1位、L₃层中第0位即哈夫曼编码110表示值为2的计数器。

iv）将b元素在L₁层中第2个哈希位置7设为1，相应在L₂层末端增加1个bit位，如图2（d）。L₁层中第7位和L₂层中第2位，即10表示值为1的计数器。此时L₂与L₃的长度等于kn=2×2=4。

通过图1中高精度计数布鲁姆过滤器构造过程看出除L₁层外，其他层的总长度等于kn，因此首层L₁的长度为4m-kn。高精度计数布鲁姆过滤器中每个计数器的长度都不相等，根据值大小动态分配bit位，从而有效利用内存空间。

高精度计数布鲁姆过滤器查询某元素u时只需要判断元素u哈希到图1（b）中首层L₁对应位置是否都为1。高精度计数布鲁姆过滤器删除元素过程与插入元素过程相反。

（2）将元素所有属性经过双射函数转换为一个值来表示元素整体信息，然后将该值哈希映射到高精度多维计数布鲁姆过滤器中第二部分联合计数布鲁姆过滤器中。

2、读入需要处理的大数据，数据来源是加州大学的圣迭戈超级计算中心（SDSC）到Abilene的OC12链路的Trace数据。

3、高精度多维计数布鲁姆过滤器进行大数据处理，即IP黑名单过滤，将属于该黑名单中数据报文提取出来。

4、输出大数据处理结果。

5、利用MDBF、PBF-BF进行高精度多维计数布鲁姆过滤器相同数据处理。

6、比较CMDBF、PBF-BF、AMD-CBF数据处理的精度，即假阳性。从图3和图4可以看出：高精度多维计数布鲁姆过滤器同PBF-BF相比，假阳性最高可降低16.4倍（k=6、m/n=12），同CMDBF相比，假阳性最高可降低22.3倍。高精度多维计数布鲁姆过滤器查询执行时间同PBF-BF相比，最高降低了45%左右（k=6）。

由上可知，本发明是一种将布鲁姆过滤器由一维元素扩展到多维元素表示和查询的创新方法。通过本发明提出的高精度多维计数布鲁姆过滤器进行数据处理，更迅速地完成数据的价值“提纯”，快速有效地对大数据进行加工处理，让数据产生经济和社会价值。本发明广泛应用于分布式系统、网络等领域内大数据处理。

Claims

1.一种高精度多维计数布鲁姆过滤器，其特征在于，由用于存储多维元素各个属性的基于分层结构的高精度计数布鲁姆过滤器和用于存储元素整体信息的联合计数布鲁姆过滤器组成；所述基于分层结构的计数布鲁姆过滤器由空间不等的多层bit位组成，即L₁，…，L_N，其中第1层L₁长度固定，其值为4m-kn；第2层L₂长度等于L₁层中bit位为1的个数，第3层长度等于第2层中bit位为1的个数，以此类推；其中，m为标准计数布鲁姆过滤器中的计数器个数，N为高精度计数布鲁姆过滤器的层数，k为高精度多维计数布鲁姆过滤器采用的哈希函数的个数，n为存入高精度多维计数布鲁姆过滤器中元素的个数。

2.一种基于权利要求1所述的高精度多维计数布鲁姆过滤器的大数据处理方法，其特征在于，该方法为：

1）读入具有相应特性的多维属性数据集；

3）读取需要处理的多维属性大数据集；