CN105938480A

CN105938480A - 一种基于dtbf的rfid冗余数据清洗方法及系统

Info

Publication number: CN105938480A
Application number: CN201610212717.1A
Authority: CN
Inventors: 孙棣华; 刘卫宁; 赵敏; 郑林江; 王东方
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2016-04-07
Filing date: 2016-04-07
Publication date: 2016-09-14

Abstract

本发明公开了一种基于DTBF的RFID冗余数据清洗方法。首先初始化DTBF；读取新数据x，计算元素x的k个哈希地址：如果向量BF_i的k个哈希位置的时间值Tag.time全都不为0，当新元素的TID等于向量BF_i的k个哈希位置的TID时，求取新元素x与向量BF_r中k个哈希位置的时间域Tag.time中的时间差X，判断时间差X是否大于时间窗口ω，如果否，则表示新元素x为非冗余数据，并存储数据；如果是，则新元素x为冗余数据，直接丢弃数据。本发明提供的方法集成了Dynamic Bloom Filter能够处理动态数据集合的特性及Time Bloom Filter能够利用时间信息进行冗余判断的特点，该方法可动态调整DTBF包含的向量数，并且DTBF每个向量均为一个Time Bloom Filter,可以利用时间信息进行数据冗余的判断。

Description

一种基于DTBF的RFID冗余数据清洗方法及系统

技术领域

本发明涉及RFID冗余数据清洗领域，特别是一种基于DTBF的冗余数据清洗方法及系统。

背景技术

RFID技术被认为是企业仓储管理和供应链管理中的重要技术，最近几年在仓库的信息化管理中得到了广泛的应用，明显提高了企业仓储管理的信息化水平。由于RFID的非接触性，只要在检测范围内，无论是否需要，标签都会被检测到。当带有RFID移动天线阵列的巡检车在仓库中以极慢的速度对货包标签进行巡检的过程中，会产生大量不必要的数据(冗余数据)。另一方面，为了防止在巡检过程中漏读标签数据，在巡检车上会布置两个或多个阅读器。当多个阅读器同时检测到同一标签时，也会产生冗余数据。因此在实际仓库扫描盘点定位过程中无法避免冗余数据的产生。

由于RFID数据本身具有流特性、动态性以及关联性等特点，所以RFID冗余数据的清除面临两个主要问题：首先RFID数据以流的形式快速、自动的产生，对于已经“流过”的数据无法再次访问，即使设法对数据进行存储，数据访问的代价也是巨大的，这就要求算法能够高效快速的处理RFID冗余数据。其次，RFID数据流是一种动态数据集，即事先无法知道数据量的大小，并且处理时不可能在内存中长时间保存所有的历史数据，所以也对算法的处理空间和时间提出了更高的要求。

Bloom Filter以有限的内存进行快速、高效的查找，目前在冗余数据的清洗领域得到了广泛的关注，但是当数据流持续产生、长期运行时，Bloom Filter所有入口均为1，这时Bloom Filter的错误率将会急剧上升，随之失效。如果根据数据集动态调整Bloom Filter的大小，那么过滤器容错率P等所有相关参数都要重新计算，会浪费过滤器大量计算时间，这样一来Bloom Filter高效快速的特点将不复存在。

Dynamic Bloom Filter虽然可以用来处理动态增长的RFI数据集，但是Dynamic Bloom Filter内部由位数组构成，对于某些想依靠时间戳判断标签数据是否冗余的情形，过滤器此时必须要用整数数组代替位数组存储标签数据的时间戳数据，而Dynamic Bloom Filter并不具备这样的条件，所以利用Dynamic Bloom Filter进行时间冗余判断并不可行。

因此急需一种既能够根据时间信息进行冗余判断，又能保证快速性、精确性的RFID冗余数据清除方法。

发明内容

有鉴于此，为了解决上述问题，本发明提供一种既能利用时间信息过滤RFID冗余数据，又能处理动态RFID数据集的过滤方法，将时间布隆过滤器和动态布隆过滤器进行融合的新冗余数据过滤方法，用于RFID的数据虑重。

本发明的目的是这样实现的：

本发明提供的基于DTBF的RFID冗余数据清洗方法，包括以下几个步骤：

步骤1：初始化DTBF；

步骤2：读取新数据，计算新数据中的新元素x的k的哈希地址；

步骤3：设置向量BF_i(1≤i≤r)，并逐个检查每个向量BF_i(1≤i≤r)中新元素x对应的k个哈希地址是否都为0；

如果向量BF_i(1≤i≤r)中k个哈希位置不全都为0，则进入到步骤4；

如果向量BF_i的k个哈希位置的时间域Tag.time位全都不为0，则判断新元素的TID是否等于向量BF_i的k个哈希位置的TID，如果等于，则进入到步骤5；如果不等于，则表示发生误判，输出报警信息；

步骤4：检查向量BF_r的是否达到存储容限，如果达到，则设置新向量BF_r，并进行初始化向量BF_r，将新元素x插入新向量BF_r中；

步骤5：求取新元素x与向量BF_r中k个哈希位置的时间域Tag.time中的时间差X，判断时间差X是否大于时间窗口ω，如果否，则表示新元素x为非冗余数据，并存储数据；

步骤6：如果是，则新元素x为冗余数据，直接丢弃数据。

进一步，所述步骤1中的初始化DTBF，具体步骤如下：

设定时间窗口大小ω；

设置DTBF向量数r和向量存储容限；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化DTBF的第一个向量BF_r＝{n,m,k}；

其中，n为向量中元素的个数，m为向量的长度，哈希函数个数为k，将BF_r向量的每一位存储位置置为0，ω为时间窗口大小。

进一步，所述步骤4中初始化向量BF_r，具体步骤如下：

设定过滤器误判率p以及时间窗口大小ω；

确定过滤器最大误判率p和向量存储容限；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化第一个向量BF_r＝{n,m,k}；

进一步，所述过滤器的哈希函数个数k和向量长度m满足以下公式：

k = \frac{m}{n} l n 2.

进一步，所述步骤4中检查向量BF_r的是否达到存储容限：是通过以下方式来实现的：

检查向量BF_r的Tag.time位0位占有率是否达到预设值，如果达到，则表示达到存储容限。

本发明还提供了一种基于DTBF的RFID冗余数据清洗系统，包括初始模块、数据读取模块、哈希地址零位计算模块、误判输出报警信息模块、存储容限判断模块、初始化向量BF_r模块、冗余数据判断模块和存储模块；

所述初始模块，用于初始化DTBF；

所述数据读取模块，用于读取新数据并计算新数据中的新元素x的k的哈希地址；

所述哈希地址零位计算模块，用于计算每个向量BF_i(1≤i≤r)中新元素x对应的k个哈希地址；并输出向量BF_i的k个哈希位置的时间域Tag.time位全都不为0的哈希地址；

所述误判输出报警信息模块，用于输出当新元素的TID不等于向量BF_i的k个哈希位置的TID时的报警信息；

所述存储容限判断模块，用于检查向量BF_r的是否达到存储容限；

初始化向量BF_r模块，用于当向量BF_r达到存储容限时设置新向量BF_r并将新元素x插入新向量BF_r中；

所述冗余数据判断模块，用于计算新元素x与向量BF_r中k个哈希位置的时间域Tag.time中的时间差X，判断时间差X是否大于时间窗口ω；

所述存储模块，用于存储非冗余数据。

进一步，所述初始模块中的初始化DTBF，具体步骤如下：

设定时间窗口大小ω；

设置DTBF向量数r和向量存储容限；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化DTBF的第一个向量BF_r＝{n,m,k}；

进一步，所述初始化向量BF_r模块中初始化向量BF_r，具体步骤如下：

设定过滤器误判率p以及时间窗口大小ω；

确定过滤器最大误判率p和向量存储容限；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化第一个向量BF_r＝{n,m,k}；

进一步，所述哈希函数个数k和向量长度m满足以下公式：

k = \frac{m}{n} l n 2.

进一步，所述存储容限判断模块中计算检查向量BF_r的是否达到存储容限：是通过以下方式来实现的：

本发明提供的基于动态时间布隆过滤器的RFID冗余数据清洗方法，所述的动态时间布隆过滤器包括时间布隆过滤器和动态布隆过滤器；时间布隆过滤器利用RFID扫描数据的时间信息与课题定义的时间窗口大小进行比较，即根据前后两次RFID扫描数据的时间差与定义的时间窗口大小，对后续到达的RFID扫描数据进行冗余判断。动态布隆过滤器根据RFID扫描数据集的大小对时间布隆过滤器向量进行动态数量的调整，从而使得过滤器整体误判率降到最低。

由于采用了上述技术方案，本发明具有如下的优点：

课题采用的动态时间布隆过滤器集成了时间布隆过滤器与动态布隆过滤器的优点。当有RFID数据输入时，首先根据时间布隆过滤器的工作原理，利用RFID扫描数据的时间戳信息进行数据的冗余判断；接着当外部元数据量达到过滤器存储容限时，开辟新的时间布隆过滤器对外部元数据进行存储，从而在完成对数据进行快速冗余判断的同时有效的降低过滤器的误判率。

本发明提供的基于DTBF的RFID数据冗余清洗方法集成了Dynamic Bloom Filter，该方法能够处理动态数据集合的特性以及Time Bloom Filter能够利用时间信息进行冗余判断的特点，为RFID数据冗余清洗提供了一个新的思路。该方法可以动态调整DTBF包含的向量数，并且DTBF每个向量均为一个Time Bloom Filter,可以利用时间信息进行数据冗余的判断。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

本发明的附图说明如下。

图1为本实施例提供的DTBF结构图。

图2a为本实施例提供的<TID₁,2>实例过程示意图。

图2b为本实施例提供的<TID₁,4>实例过程示意图。

图2c为本实施例提供的<TID₂,4>实例过程示意图。

图2d为本实施例提供的<TID₁,16>实例过程示意图。

图2e为本实施例提供的<TID₂,12>实例过程示意图。

图3为本实施例提供的DTBF初始化流程图。

图4为本实施例提供的BF_r初始化流程图。

图5为本实施例提供的整体去冗余算法流程图。

图6为本实施例提供的基于DTBF的RFID冗余数据清洗系统原理图

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例1

如图所示，本实施例提供的一种基于DTBF的RFID冗余数据清洗方法，包括以下几个步骤：

步骤1：初始化DTBF；

步骤6：如果是，则新元素x为冗余数据，直接丢弃数据。

所述步骤1中的初始化DTBF，具体步骤如下：

设定时间窗口大小ω；

设置DTBF向量数r和向量存储容限；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化DTBF的第一个向量BF_r＝{n,m,k}；

其中，n为向量中所能容纳的最多元素个数，m为向量的长度，哈希函数个数为k，将BF_r向量的每一位存储位置置为0，ω为时间窗口大小。

所述步骤4中初始化向量BF_r，具体步骤如下：

设定过滤器误判率p以及时间窗口大小ω；

确定过滤器最大误判率p和向量存储容限；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化第一个向量BF_r＝{n,m,k}；

所述过滤器的哈希函数个数k和向量长度m满足以下公式：

k = \frac{m}{n} l n 2.

所述步骤4中检查向量BF_r的是否达到存储容限：是通过以下方式来实现的：

检查向量BF_r的Tag.time位0位占有率是否达到预设值，本实施例的预设值为预设值40-60％，也可以设置为50％，如果达到，则表示达到存储容限。

本实施例提供来一种基于DTBF的RFID冗余数据清洗系统，包括初始模块、数据读取模块、哈希地址零位计算模块、误判输出报警信息模块、存储容限判断模块、初始化向量BF_r模块、冗余数据判断模块和存储模块；

所述初始模块，用于初始化DTBF；

所述存储模块，用于存储非冗余数据。

所述初始模块中的初始化DTBF，具体步骤如下：

设定时间窗口大小ω；

设置DTBF向量数r和向量存储容限；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化DTBF的第一个向量BF_r＝{n,m,k}；

所述初始化向量BF_r模块中初始化向量BF_r，具体步骤如下：

设定过滤器误判率p以及时间窗口大小ω；

确定过滤器最大误判率p和向量存储容限；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化第一个向量BF_r＝{n,m,k}；

其中，n为向量中元素所能容纳的最多元素个数，m为向量的长度，哈希函数个数为k，将BF_r向量的每一位存储位置置为0，ω为时间窗口大小。

所述哈希函数个数k和向量长度m满足以下公式：

k = \frac{m}{n} l n 2.

所述存储容限判断模块中计算检查向量BF_r的是否达到存储容限：是通过以下方式来实现的：

检查向量BF_r的Tag.time位0位占有率是否达到预设值，本实施例的预设值为预设值40-60％，也可以设置为50％，，如果达到，则表示达到存储容限。

实施例2

本实施例提供的基于DTBF的RFID数据冗余清洗方法集成了Dynamic Bloom Filter，该方法能够处理动态数据集合的特性以及Time Bloom Filter能够利用时间信息进行冗余判断的特点，为RFID数据冗余清洗提供了一个新的思路。

DTBF是将Time Bloom Filter的m位(TID,Tag.time)向量扩展成r×m位的矩阵(r≥1)，r初始值设为1。当插入的元素数量达到向量存储容限时就将r加1，然后向过滤器下一个向量插入元素，过滤器每个向量能够容纳的元素数量是相同的。当RFID新数据到达时，求取新元素与向量中k个哈希位置的Tag.time时间差d，通过比较时间差d与时间窗口ω的大小，对该数据进行冗余判断。针对动态RFID数据集以及利用时间信息进行冗余判断的情况，该方法可以动态调整DTBF包含的向量数，并且DTBF每个向量均为一个Time Bloom Filter,可以利用时间信息进行数据冗余的判断。DTBF的结构如图1所示，本方法具体包括以下几个步骤：

步骤1：初始化DTBF，对过滤器误判率p以及时间窗口大小ω进行设定。设置DTBF向量数r＝1，初始化DTBF的第一个向量BF_r＝{n,m,k}。

其中，n为向量中所能容纳的最多元素元素个数，m为向量的长度，哈希函数个数为k，将BF_r向量的每一位存储位置置为0，ω为时间窗口大小。

步骤2：读取新元素x，计算元素x的k的哈希地址，即h₁(x),h₂(x)…h_k(x)；

步骤3：逐个检查每个向量BF_i(1≤i≤r)中该元素对应的k个哈希地址是否都为0。该步骤又分为如下两个部分：

1、若在任何向量中k个哈希位置都有某些位置为0，元素必不在集合中，此此时执行步骤4；

2、若其中有一个BF_i相应的k个哈希位置的Tag.time位全都不为0，该步骤又分为如下两种情况：

1、新元素TID不等于此向量k个哈希位置的TID，过滤器发生误判，对此元素的过滤过程结束。

2、新元素TID等于此向量k个哈希位置的TID，证明该条数据已存在，此时执行步骤5；

步骤4：检查DTBF最新向量BF_r的Tag.time位0位占有率是否达到50％，如果达到，r＝r+1，开辟新的向量空间BF_r，并进行初始化，新元素插入新向量空间中。

步骤5：求取新元素与向量BF_r中k个哈希位置的Tag.time时间差d，通过比较d与时间窗口ω的大小，对该数据进行冗余判断。

步骤6：对非冗余数据进行存储。

实施例3

本实施例提供的RFID冗余数据清除方法，包括以下步骤：

步骤1：初始化DTBF，并对误判率p以及时间窗口大小ω进行设定。设置DTBF向量数r＝1，初始化DTBF的第一个向量BF_r＝{n,m,k}，其中p、n、ω均为根据具体应用设定的固定值。p表示根据应用设置的过滤器的最大误判率；n表示每个向量BF_i能够处理的最多标签个数；ω为进行冗余判断的时间窗口的大小。

下面详述向量长度m、哈希函数个数k的提取方法：

由于布隆过滤器使用哈希函数来对数据进行分散，所以必然会存在哈希碰撞等问题，在判断一个元素是否属于Bloom Filter时，必然会出现一定的错误率，现就来估计其大小：

当集合S＝{S₁,S₂,......S_n}中所有元素都被k个哈希函数映射到具有m位的位数组时，某一位为0的概率(假设kn＜m且各个哈希函数值完全随机且均匀分布)；

其中表示布隆过滤器中任意一位被哈希函数选中的概率，表示哈希函数映射之后该位未被选中的概率。

要将集合中的全部元素映射到位数组中，需要做kn次哈希。如果映射完成后在位数组中仍然存有为0的单元，那么意味着kn次哈希都没有映射到该单元，概率为：

由推导公式知：

可以导出：

由上述各个公式可知，P表示kn次哈希后位数组中某一位仍然为0的概率，1-P表示kn次哈希后某一位为1的概率。则布隆过滤器将一个不属于集合的元素判断为属于集合的概率为：

由式5可知影响布隆过滤器性能的因素主要有哈希函数个数k以及位数组的大小m，下面将通过式5进行推导，得出最优哈希函数的个数以及最优位组数。

由式5得：

令：g＝kln(1-P)，则f＝e^g，由此可以看出要想使得f最小则要求g最小。

由于：

所以：

则：

而：

令得到此时所以最优哈希函数个数为：

将式11代入式5可得此时错误率最小，这时：

令f≤ε(ε为最大错误率)，可以推出：

步骤2：对于读取到的新元素x，选取经典哈希函数，计算元素x的k个哈希地址，即h₁(x),h₂(x)…h_k(x)对于哈希函数的选取，根据实际情形，由应用者自行选择。

步骤3：检查DTBF每个向量所对应的上述k个哈希地址即h₁(x),h₂(x)…h_k(x)某一个地址处的Tag.time值是否为0，若在任何向量中k个哈希位置都有某些位置为0，元素必不在过滤器中，此时执行步骤4；

若其中有一个BF_i相应的k个哈希位置的Tag.time位全都不为0，该步骤又必须分为如下两种情况进行讨论：

1、新元素TID不等于此向量k个哈希位置的TID，此时系统发生误判，过滤器结束过滤过程；

2、新元素TID等于此向量k个哈希位置的TID，证明该条数据已存在，执行步骤5；

步骤4：检查DTBF向量BF_r的Tag.time位0位占有率是否达到50％，即判断插入元素的数据量是否达到向量的存储容限。如果达到，r＝r+1，开辟新的向量空间BF_r，并对向量进行初始化，新到达元素插入新向量空间中。

假设，哈希函数服从均匀分布，则l个元素进入之后，当第l+1个元素进入时，布隆过滤器向量BF_r中任意一位为0的概率为：

将代入得：

P = \lim_{m &RightArrow; \infty} {(1 - \frac{1}{m})}^{\ln 2 (\frac{m}{n}) (l + 1)} \approx e^{- \frac{n}{m} \cdot \ln 2 \cdot \frac{m}{n}} = \frac{1}{2};

所以当布隆过滤器的哈希函数个数k和向量长度m确定的前提下，为了使得误判率最低，向量中表示的集合元素个数n，在满足公式时，此时向量中为0的位数约为总位数的50％。因此可以根据向量中0位的占有率判断向量是否已经达到存储容限。

步骤5：由数据冗余性判别定义可知即使存在TID相同的RFID数据,根据Tag.time，RFID数据也不一定是冗余数据，因此我们求取新元素与向量BF_r中k个哈希位置的Tag.time时间差d，通过比较d与时间窗口ω的大小，对该数据进行冗余判断。

下面用一个实例详细说明RFID数据流在向量BF_i中的实现过程。其中包含标签T₁和T₂的观测数据。依次达到过滤器的数据流为：<TID₁,2>、<TID₁,4>、<TID₂,4>、<TID₁16>、<TID₂,12>，滑动窗口大小ω＝10；如图2a-e所示，为本实施例提供的算法实例实现过程示意图。

(1)开始运行时，<TID₁,2>首先达到过滤器，哈希到第0、2和5号存储单元。由于是新到达数据，利用观测数据值更新这三个单元的标签ID域以及时间域，即TID＝1,Tag.time＝2，如图2(a)所示；

(2)当<TID₁,4>到来时，由于与上述数据的标签ID相同，则哈希到过滤器中的相同位置，此时由于4-2＜ω，因此，该数据为非冗余数据，则用该数据更新过滤器，并对该非冗余数据进行保存，如图2(b)所示；

(3)当<TID₂,4>到来时，哈希到第1、4和6号存储位置，更新过滤器，如图2(c)所示；(4)当<TID₁,16>到来时，由于标签所对应单元的ID域数据与数据的ID相同，而且16-4≥ω，则该数据为冗余数据，直接舍弃，如图2(d)所示；

(5)当<TID₂,12>到来时，同理，更新T₂对应的存储单元，如图2(e)所示。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于DTBF的RFID冗余数据清洗方法，其特征在于：包括以下步骤：

步骤1：初始化DTBF；

步骤6：如果是，则新元素x为冗余数据，直接丢弃数据。

2.如权利要求1所述的基于DTBF的RFID冗余数据清洗方法，其特征在于：所述步骤1中的初始化DTBF，具体步骤如下：

设定时间窗口大小ω；

设置DTBF向量BF_r所容许的误判率P和向量存储容限n；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化DTBF的第一个向量BF_r＝{n,m,k}；

3.如权利要求1所述的基于DTBF的RFID冗余数据清洗方法，其特征在于：所述步骤4中初始化向量BF_r，具体步骤如下：

设定过滤器误判率p以及时间窗口大小ω；

确定过滤器最大误判率p和向量存储容限n；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化第一个向量BF_r＝{n,m,k}；

4.如权利要求2所述的基于DTBF的RFID冗余数据清洗方法，其特征在于：所述过滤器的哈希函数个数k和向量长度m满足以下公式：

k = \frac{m}{n} l n 2.

5.如权利要求1所述的基于DTBF的RFID冗余数据清洗方法，其特征在于：所述步骤4中检查向量BF_r的是否达到存储容限：是通过以下方式来实现的：

6.一种基于DTBF的RFID冗余数据清洗系统，其特征在于：包括初始模块、数据读取模块、哈希地址零位计算模块、误判输出报警信息模块、存储容限判断模块、初始化向量BF_r模块、冗余数据判断模块和存储模块；

所述初始模块，用于初始化DTBF；

所述存储模块，用于存储非冗余数据。

7.如权利要求6所述的基于DTBF的RFID冗余数据清洗系统，其特征在于：所述初始模块中的初始化DTBF，具体步骤如下：

设定时间窗口大小ω；

设置DTBF向量数r和向量存储容限n；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化DTBF的第一个向量BF_r＝{n,m,k}；

8.如权利要求6所述的基于DTBF的RFID冗余数据清洗系统，其特征在于：所述初始化向量BF_r模块中初始化向量BF_r，具体步骤如下：

设定过滤器误判率p以及时间窗口大小ω；

确定过滤器最大误判率p和向量存储容限；

有过滤器性质求出最优哈希函数个数k以及向量长度m；

初始化第一个向量BF_r＝{n,m,k}；

9.如权利要求7所述的基于DTBF的RFID冗余数据清洗系统，其特征在于：所述哈希函数个数k和向量长度m满足以下公式：

k = \frac{m}{n} l n 2.

10.如权利要求6所述的基于DTBF的RFID冗余数据清洗系统，其特征在于：所述存储容限判断模块中计算检查向量BF_r的是否达到存储容限：是通过以下方式来实现的：