CN105938480A - 一种基于dtbf的rfid冗余数据清洗方法及系统 - Google Patents

一种基于dtbf的rfid冗余数据清洗方法及系统 Download PDF

Info

Publication number
CN105938480A
CN105938480A CN201610212717.1A CN201610212717A CN105938480A CN 105938480 A CN105938480 A CN 105938480A CN 201610212717 A CN201610212717 A CN 201610212717A CN 105938480 A CN105938480 A CN 105938480A
Authority
CN
China
Prior art keywords
vector
dtbf
time
data
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610212717.1A
Other languages
English (en)
Inventor
孙棣华
刘卫宁
赵敏
郑林江
王东方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201610212717.1A priority Critical patent/CN105938480A/zh
Publication of CN105938480A publication Critical patent/CN105938480A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Burglar Alarm Systems (AREA)

Abstract

本发明公开了一种基于DTBF的RFID冗余数据清洗方法。首先初始化DTBF;读取新数据x,计算元素x的k个哈希地址:如果向量BFi的k个哈希位置的时间值Tag.time全都不为0,当新元素的TID等于向量BFi的k个哈希位置的TID时,求取新元素x与向量BFr中k个哈希位置的时间域Tag.time中的时间差X,判断时间差X是否大于时间窗口ω,如果否,则表示新元素x为非冗余数据,并存储数据;如果是,则新元素x为冗余数据,直接丢弃数据。本发明提供的方法集成了Dynamic Bloom Filter能够处理动态数据集合的特性及Time Bloom Filter能够利用时间信息进行冗余判断的特点,该方法可动态调整DTBF包含的向量数,并且DTBF每个向量均为一个Time Bloom Filter,可以利用时间信息进行数据冗余的判断。

Description

一种基于DTBF的RFID冗余数据清洗方法及系统
技术领域
本发明涉及RFID冗余数据清洗领域,特别是一种基于DTBF的冗余数据清洗方法及系统。
背景技术
RFID技术被认为是企业仓储管理和供应链管理中的重要技术,最近几年在仓库的信息化管理中得到了广泛的应用,明显提高了企业仓储管理的信息化水平。由于RFID的非接触性,只要在检测范围内,无论是否需要,标签都会被检测到。当带有RFID移动天线阵列的巡检车在仓库中以极慢的速度对货包标签进行巡检的过程中,会产生大量不必要的数据(冗余数据)。另一方面,为了防止在巡检过程中漏读标签数据,在巡检车上会布置两个或多个阅读器。当多个阅读器同时检测到同一标签时,也会产生冗余数据。因此在实际仓库扫描盘点定位过程中无法避免冗余数据的产生。
由于RFID数据本身具有流特性、动态性以及关联性等特点,所以RFID冗余数据的清除面临两个主要问题:首先RFID数据以流的形式快速、自动的产生,对于已经“流过”的数据无法再次访问,即使设法对数据进行存储,数据访问的代价也是巨大的,这就要求算法能够高效快速的处理RFID冗余数据。其次,RFID数据流是一种动态数据集,即事先无法知道数据量的大小,并且处理时不可能在内存中长时间保存所有的历史数据,所以也对算法的处理空间和时间提出了更高的要求。
Bloom Filter以有限的内存进行快速、高效的查找,目前在冗余数据的清洗领域得到了广泛的关注,但是当数据流持续产生、长期运行时,Bloom Filter所有入口均为1,这时Bloom Filter的错误率将会急剧上升,随之失效。如果根据数据集动态调整Bloom Filter的大小,那么过滤器容错率P等所有相关参数都要重新计算,会浪费过滤器大量计算时间,这样一来Bloom Filter高效快速的特点将不复存在。
Dynamic Bloom Filter虽然可以用来处理动态增长的RFI数据集,但是Dynamic Bloom Filter内部由位数组构成,对于某些想依靠时间戳判断标签数据是否冗余的情形,过滤器此时必须要用整数数组代替位数组存储标签数据的时间戳数据,而Dynamic Bloom Filter并不具备这样的条件,所以利用Dynamic Bloom Filter进行时间冗余判断并不可行。
因此急需一种既能够根据时间信息进行冗余判断,又能保证快速性、精确性的RFID冗余数据清除方法。
发明内容
有鉴于此,为了解决上述问题,本发明提供一种既能利用时间信息过滤RFID冗余数据,又能处理动态RFID数据集的过滤方法,将时间布隆过滤器和动态布隆过滤器进行融合的新冗余数据过滤方法,用于RFID的数据虑重。
本发明的目的是这样实现的:
本发明提供的基于DTBF的RFID冗余数据清洗方法,包括以下几个步骤:
步骤1:初始化DTBF;
步骤2:读取新数据,计算新数据中的新元素x的k的哈希地址;
步骤3:设置向量BFi(1≤i≤r),并逐个检查每个向量BFi(1≤i≤r)中新元素x对应的k个哈希地址是否都为0;
如果向量BFi(1≤i≤r)中k个哈希位置不全都为0,则进入到步骤4;
如果向量BFi的k个哈希位置的时间域Tag.time位全都不为0,则判断新元素的TID是否等于向量BFi的k个哈希位置的TID,如果等于,则进入到步骤5;如果不等于,则表示发生误判,输出报警信息;
步骤4:检查向量BFr的是否达到存储容限,如果达到,则设置新向量BFr,并进行初始化向量BFr,将新元素x插入新向量BFr中;
步骤5:求取新元素x与向量BFr中k个哈希位置的时间域Tag.time中的时间差X,判断时间差X是否大于时间窗口ω,如果否,则表示新元素x为非冗余数据,并存储数据;
步骤6:如果是,则新元素x为冗余数据,直接丢弃数据。
进一步,所述步骤1中的初始化DTBF,具体步骤如下:
设定时间窗口大小ω;
设置DTBF向量数r和向量存储容限;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化DTBF的第一个向量BFr={n,m,k};
其中,n为向量中元素的个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
进一步,所述步骤4中初始化向量BFr,具体步骤如下:
设定过滤器误判率p以及时间窗口大小ω;
确定过滤器最大误判率p和向量存储容限;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化第一个向量BFr={n,m,k};
其中,n为向量中元素的个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
进一步,所述过滤器的哈希函数个数k和向量长度m满足以下公式:
k = m n l n 2.
进一步,所述步骤4中检查向量BFr的是否达到存储容限:是通过以下方式来实现的:
检查向量BFr的Tag.time位0位占有率是否达到预设值,如果达到,则表示达到存储容限。
本发明还提供了一种基于DTBF的RFID冗余数据清洗系统,包括初始模块、数据读取模块、哈希地址零位计算模块、误判输出报警信息模块、存储容限判断模块、初始化向量BFr模块、冗余数据判断模块和存储模块;
所述初始模块,用于初始化DTBF;
所述数据读取模块,用于读取新数据并计算新数据中的新元素x的k的哈希地址;
所述哈希地址零位计算模块,用于计算每个向量BFi(1≤i≤r)中新元素x对应的k个哈希地址;并输出向量BFi的k个哈希位置的时间域Tag.time位全都不为0的哈希地址;
所述误判输出报警信息模块,用于输出当新元素的TID不等于向量BFi的k个哈希位置的TID时的报警信息;
所述存储容限判断模块,用于检查向量BFr的是否达到存储容限;
初始化向量BFr模块,用于当向量BFr达到存储容限时设置新向量BFr并将新元素x插入新向量BFr中;
所述冗余数据判断模块,用于计算新元素x与向量BFr中k个哈希位置的时间域Tag.time中的时间差X,判断时间差X是否大于时间窗口ω;
所述存储模块,用于存储非冗余数据。
进一步,所述初始模块中的初始化DTBF,具体步骤如下:
设定时间窗口大小ω;
设置DTBF向量数r和向量存储容限;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化DTBF的第一个向量BFr={n,m,k};
其中,n为向量中元素的个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
进一步,所述初始化向量BFr模块中初始化向量BFr,具体步骤如下:
设定过滤器误判率p以及时间窗口大小ω;
确定过滤器最大误判率p和向量存储容限;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化第一个向量BFr={n,m,k};
其中,n为向量中元素的个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
进一步,所述哈希函数个数k和向量长度m满足以下公式:
k = m n l n 2.
进一步,所述存储容限判断模块中计算检查向量BFr的是否达到存储容限:是通过以下方式来实现的:
检查向量BFr的Tag.time位0位占有率是否达到预设值,如果达到,则表示达到存储容限。
本发明提供的基于动态时间布隆过滤器的RFID冗余数据清洗方法,所述的动态时间布隆过滤器包括时间布隆过滤器和动态布隆过滤器;时间布隆过滤器利用RFID扫描数据的时间信息与课题定义的时间窗口大小进行比较,即根据前后两次RFID扫描数据的时间差与定义的时间窗口大小,对后续到达的RFID扫描数据进行冗余判断。动态布隆过滤器根据RFID扫描数据集的大小对时间布隆过滤器向量进行动态数量的调整,从而使得过滤器整体误判率降到最低。
由于采用了上述技术方案,本发明具有如下的优点:
课题采用的动态时间布隆过滤器集成了时间布隆过滤器与动态布隆过滤器的优点。当有RFID数据输入时,首先根据时间布隆过滤器的工作原理,利用RFID扫描数据的时间戳信息进行数据的冗余判断;接着当外部元数据量达到过滤器存储容限时,开辟新的时间布隆过滤器对外部元数据进行存储,从而在完成对数据进行快速冗余判断的同时有效的降低过滤器的误判率。
本发明提供的基于DTBF的RFID数据冗余清洗方法集成了Dynamic Bloom Filter,该方法能够处理动态数据集合的特性以及Time Bloom Filter能够利用时间信息进行冗余判断的特点,为RFID数据冗余清洗提供了一个新的思路。该方法可以动态调整DTBF包含的向量数,并且DTBF每个向量均为一个Time Bloom Filter,可以利用时间信息进行数据冗余的判断。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本实施例提供的DTBF结构图。
图2a为本实施例提供的<TID1,2>实例过程示意图。
图2b为本实施例提供的<TID1,4>实例过程示意图。
图2c为本实施例提供的<TID2,4>实例过程示意图。
图2d为本实施例提供的<TID1,16>实例过程示意图。
图2e为本实施例提供的<TID2,12>实例过程示意图。
图3为本实施例提供的DTBF初始化流程图。
图4为本实施例提供的BFr初始化流程图。
图5为本实施例提供的整体去冗余算法流程图。
图6为本实施例提供的基于DTBF的RFID冗余数据清洗系统原理图
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
实施例1
如图所示,本实施例提供的一种基于DTBF的RFID冗余数据清洗方法,包括以下几个步骤:
步骤1:初始化DTBF;
步骤2:读取新数据,计算新数据中的新元素x的k的哈希地址;
步骤3:设置向量BFi(1≤i≤r),并逐个检查每个向量BFi(1≤i≤r)中新元素x对应的k个哈希地址是否都为0;
如果向量BFi(1≤i≤r)中k个哈希位置不全都为0,则进入到步骤4;
如果向量BFi的k个哈希位置的时间域Tag.time位全都不为0,则判断新元素的TID是否等于向量BFi的k个哈希位置的TID,如果等于,则进入到步骤5;如果不等于,则表示发生误判,输出报警信息;
步骤4:检查向量BFr的是否达到存储容限,如果达到,则设置新向量BFr,并进行初始化向量BFr,将新元素x插入新向量BFr中;
步骤5:求取新元素x与向量BFr中k个哈希位置的时间域Tag.time中的时间差X,判断时间差X是否大于时间窗口ω,如果否,则表示新元素x为非冗余数据,并存储数据;
步骤6:如果是,则新元素x为冗余数据,直接丢弃数据。
所述步骤1中的初始化DTBF,具体步骤如下:
设定时间窗口大小ω;
设置DTBF向量数r和向量存储容限;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化DTBF的第一个向量BFr={n,m,k};
其中,n为向量中所能容纳的最多元素个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
所述步骤4中初始化向量BFr,具体步骤如下:
设定过滤器误判率p以及时间窗口大小ω;
确定过滤器最大误判率p和向量存储容限;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化第一个向量BFr={n,m,k};
其中,n为向量中元素的个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
所述过滤器的哈希函数个数k和向量长度m满足以下公式:
k = m n l n 2.
所述步骤4中检查向量BFr的是否达到存储容限:是通过以下方式来实现的:
检查向量BFr的Tag.time位0位占有率是否达到预设值,本实施例的预设值为预设值40-60%,也可以设置为50%,如果达到,则表示达到存储容限。
本实施例提供来一种基于DTBF的RFID冗余数据清洗系统,包括初始模块、数据读取模块、哈希地址零位计算模块、误判输出报警信息模块、存储容限判断模块、初始化向量BFr模块、冗余数据判断模块和存储模块;
所述初始模块,用于初始化DTBF;
所述数据读取模块,用于读取新数据并计算新数据中的新元素x的k的哈希地址;
所述哈希地址零位计算模块,用于计算每个向量BFi(1≤i≤r)中新元素x对应的k个哈希地址;并输出向量BFi的k个哈希位置的时间域Tag.time位全都不为0的哈希地址;
所述误判输出报警信息模块,用于输出当新元素的TID不等于向量BFi的k个哈希位置的TID时的报警信息;
所述存储容限判断模块,用于检查向量BFr的是否达到存储容限;
初始化向量BFr模块,用于当向量BFr达到存储容限时设置新向量BFr并将新元素x插入新向量BFr中;
所述冗余数据判断模块,用于计算新元素x与向量BFr中k个哈希位置的时间域Tag.time中的时间差X,判断时间差X是否大于时间窗口ω;
所述存储模块,用于存储非冗余数据。
所述初始模块中的初始化DTBF,具体步骤如下:
设定时间窗口大小ω;
设置DTBF向量数r和向量存储容限;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化DTBF的第一个向量BFr={n,m,k};
其中,n为向量中元素的个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
所述初始化向量BFr模块中初始化向量BFr,具体步骤如下:
设定过滤器误判率p以及时间窗口大小ω;
确定过滤器最大误判率p和向量存储容限;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化第一个向量BFr={n,m,k};
其中,n为向量中元素所能容纳的最多元素个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
所述哈希函数个数k和向量长度m满足以下公式:
k = m n l n 2.
所述存储容限判断模块中计算检查向量BFr的是否达到存储容限:是通过以下方式来实现的:
检查向量BFr的Tag.time位0位占有率是否达到预设值,本实施例的预设值为预设值40-60%,也可以设置为50%,,如果达到,则表示达到存储容限。
实施例2
本实施例提供的基于DTBF的RFID数据冗余清洗方法集成了Dynamic Bloom Filter,该方法能够处理动态数据集合的特性以及Time Bloom Filter能够利用时间信息进行冗余判断的特点,为RFID数据冗余清洗提供了一个新的思路。
DTBF是将Time Bloom Filter的m位(TID,Tag.time)向量扩展成r×m位的矩阵(r≥1),r初始值设为1。当插入的元素数量达到向量存储容限时就将r加1,然后向过滤器下一个向量插入元素,过滤器每个向量能够容纳的元素数量是相同的。当RFID新数据到达时,求取新元素与向量中k个哈希位置的Tag.time时间差d,通过比较时间差d与时间窗口ω的大小,对该数据进行冗余判断。针对动态RFID数据集以及利用时间信息进行冗余判断的情况,该方法可以动态调整DTBF包含的向量数,并且DTBF每个向量均为一个Time Bloom Filter,可以利用时间信息进行数据冗余的判断。DTBF的结构如图1所示,本方法具体包括以下几个步骤:
步骤1:初始化DTBF,对过滤器误判率p以及时间窗口大小ω进行设定。设置DTBF向量数r=1,初始化DTBF的第一个向量BFr={n,m,k}。
其中,n为向量中所能容纳的最多元素元素个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
步骤2:读取新元素x,计算元素x的k的哈希地址,即h1(x),h2(x)…hk(x);
步骤3:逐个检查每个向量BFi(1≤i≤r)中该元素对应的k个哈希地址是否都为0。该步骤又分为如下两个部分:
1、若在任何向量中k个哈希位置都有某些位置为0,元素必不在集合中,此此时执行步骤4;
2、若其中有一个BFi相应的k个哈希位置的Tag.time位全都不为0,该步骤又分为如下两种情况:
1、新元素TID不等于此向量k个哈希位置的TID,过滤器发生误判,对此元素的过滤过程结束。
2、新元素TID等于此向量k个哈希位置的TID,证明该条数据已存在,此时执行步骤5;
步骤4:检查DTBF最新向量BFr的Tag.time位0位占有率是否达到50%,如果达到,r=r+1,开辟新的向量空间BFr,并进行初始化,新元素插入新向量空间中。
步骤5:求取新元素与向量BFr中k个哈希位置的Tag.time时间差d,通过比较d与时间窗口ω的大小,对该数据进行冗余判断。
步骤6:对非冗余数据进行存储。
实施例3
本实施例提供的RFID冗余数据清除方法,包括以下步骤:
步骤1:初始化DTBF,并对误判率p以及时间窗口大小ω进行设定。设置DTBF向量数r=1,初始化DTBF的第一个向量BFr={n,m,k},其中p、n、ω均为根据具体应用设定的固定值。p表示根据应用设置的过滤器的最大误判率;n表示每个向量BFi能够处理的最多标签个数;ω为进行冗余判断的时间窗口的大小。
下面详述向量长度m、哈希函数个数k的提取方法:
由于布隆过滤器使用哈希函数来对数据进行分散,所以必然会存在哈希碰撞等问题,在判断一个元素是否属于Bloom Filter时,必然会出现一定的错误率,现就来估计其大小:
当集合S={S1,S2,......Sn}中所有元素都被k个哈希函数映射到具有m位的位数组时,某一位为0的概率(假设kn<m且各个哈希函数值完全随机且均匀分布);
其中表示布隆过滤器中任意一位被哈希函数选中的概率,表示哈希函数映射之后该位未被选中的概率。
要将集合中的全部元素映射到位数组中,需要做kn次哈希。如果映射完成后在位数组中仍然存有为0的单元,那么意味着kn次哈希都没有映射到该单元,概率为:
由推导公式知:
可以导出:
由上述各个公式可知,P表示kn次哈希后位数组中某一位仍然为0的概率,1-P表示kn次哈希后某一位为1的概率。则布隆过滤器将一个不属于集合的元素判断为属于集合的概率为:
由式5可知影响布隆过滤器性能的因素主要有哈希函数个数k以及位数组的大小m,下面将通过式5进行推导,得出最优哈希函数的个数以及最优位组数。
由式5得:
令:g=kln(1-P),则f=eg,由此可以看出要想使得f最小则要求g最小。
由于:
所以:
则:
而:
得到此时所以最优哈希函数个数为:
将式11代入式5可得此时错误率最小,这时:
令f≤ε(ε为最大错误率),可以推出:
步骤2:对于读取到的新元素x,选取经典哈希函数,计算元素x的k个哈希地址,即h1(x),h2(x)…hk(x)对于哈希函数的选取,根据实际情形,由应用者自行选择。
步骤3:检查DTBF每个向量所对应的上述k个哈希地址即h1(x),h2(x)…hk(x)某一个地址处的Tag.time值是否为0,若在任何向量中k个哈希位置都有某些位置为0,元素必不在过滤器中,此时执行步骤4;
若其中有一个BFi相应的k个哈希位置的Tag.time位全都不为0,该步骤又必须分为如下两种情况进行讨论:
1、新元素TID不等于此向量k个哈希位置的TID,此时系统发生误判,过滤器结束过滤过程;
2、新元素TID等于此向量k个哈希位置的TID,证明该条数据已存在,执行步骤5;
步骤4:检查DTBF向量BFr的Tag.time位0位占有率是否达到50%,即判断插入元素的数据量是否达到向量的存储容限。如果达到,r=r+1,开辟新的向量空间BFr,并对向量进行初始化,新到达元素插入新向量空间中。
假设,哈希函数服从均匀分布,则l个元素进入之后,当第l+1个元素进入时,布隆过滤器向量BFr中任意一位为0的概率为:
代入得:
P = lim m &RightArrow; &infin; ( 1 - 1 m ) ln 2 ( m n ) ( l + 1 ) &ap; e - n m &CenterDot; ln 2 &CenterDot; m n = 1 2 ;
所以当布隆过滤器的哈希函数个数k和向量长度m确定的前提下,为了使得误判率最低,向量中表示的集合元素个数n,在满足公式时,此时向量中为0的位数约为总位数的50%。因此可以根据向量中0位的占有率判断向量是否已经达到存储容限。
步骤5:由数据冗余性判别定义可知即使存在TID相同的RFID数据,根据Tag.time,RFID数据也不一定是冗余数据,因此我们求取新元素与向量BFr中k个哈希位置的Tag.time时间差d,通过比较d与时间窗口ω的大小,对该数据进行冗余判断。
下面用一个实例详细说明RFID数据流在向量BFi中的实现过程。其中包含标签T1和T2的观测数据。依次达到过滤器的数据流为:<TID1,2>、<TID1,4>、<TID2,4>、<TID116>、<TID2,12>,滑动窗口大小ω=10;如图2a-e所示,为本实施例提供的算法实例实现过程示意图。
(1)开始运行时,<TID1,2>首先达到过滤器,哈希到第0、2和5号存储单元。由于是新到达数据,利用观测数据值更新这三个单元的标签ID域以及时间域,即TID=1,Tag.time=2,如图2(a)所示;
(2)当<TID1,4>到来时,由于与上述数据的标签ID相同,则哈希到过滤器中的相同位置,此时由于4-2<ω,因此,该数据为非冗余数据,则用该数据更新过滤器,并对该非冗余数据进行保存,如图2(b)所示;
(3)当<TID2,4>到来时,哈希到第1、4和6号存储位置,更新过滤器,如图2(c)所示;(4)当<TID1,16>到来时,由于标签所对应单元的ID域数据与数据的ID相同,而且16-4≥ω,则该数据为冗余数据,直接舍弃,如图2(d)所示;
(5)当<TID2,12>到来时,同理,更新T2对应的存储单元,如图2(e)所示。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于DTBF的RFID冗余数据清洗方法,其特征在于:包括以下步骤:
步骤1:初始化DTBF;
步骤2:读取新数据,计算新数据中的新元素x的k的哈希地址;
步骤3:设置向量BFi(1≤i≤r),并逐个检查每个向量BFi(1≤i≤r)中新元素x对应的k个哈希地址是否都为0;
如果向量BFi(1≤i≤r)中k个哈希位置不全都为0,则进入到步骤4;
如果向量BFi的k个哈希位置的时间域Tag.time位全都不为0,则判断新元素的TID是否等于向量BFi的k个哈希位置的TID,如果等于,则进入到步骤5;如果不等于,则表示发生误判,输出报警信息;
步骤4:检查向量BFr的是否达到存储容限,如果达到,则设置新向量BFr,并进行初始化向量BFr,将新元素x插入新向量BFr中;
步骤5:求取新元素x与向量BFr中k个哈希位置的时间域Tag.time中的时间差X,判断时间差X是否大于时间窗口ω,如果否,则表示新元素x为非冗余数据,并存储数据;
步骤6:如果是,则新元素x为冗余数据,直接丢弃数据。
2.如权利要求1所述的基于DTBF的RFID冗余数据清洗方法,其特征在于:所述步骤1中的初始化DTBF,具体步骤如下:
设定时间窗口大小ω;
设置DTBF向量BFr所容许的误判率P和向量存储容限n;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化DTBF的第一个向量BFr={n,m,k};
其中,n为向量中所能容纳的最多元素个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
3.如权利要求1所述的基于DTBF的RFID冗余数据清洗方法,其特征在于:所述步骤4中初始化向量BFr,具体步骤如下:
设定过滤器误判率p以及时间窗口大小ω;
确定过滤器最大误判率p和向量存储容限n;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化第一个向量BFr={n,m,k};
其中,n为向量中元素的个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
4.如权利要求2所述的基于DTBF的RFID冗余数据清洗方法,其特征在于:所述过滤器的哈希函数个数k和向量长度m满足以下公式:
k = m n l n 2.
5.如权利要求1所述的基于DTBF的RFID冗余数据清洗方法,其特征在于:所述步骤4中检查向量BFr的是否达到存储容限:是通过以下方式来实现的:
检查向量BFr的Tag.time位0位占有率是否达到预设值,如果达到,则表示达到存储容限。
6.一种基于DTBF的RFID冗余数据清洗系统,其特征在于:包括初始模块、数据读取模块、哈希地址零位计算模块、误判输出报警信息模块、存储容限判断模块、初始化向量BFr模块、冗余数据判断模块和存储模块;
所述初始模块,用于初始化DTBF;
所述数据读取模块,用于读取新数据并计算新数据中的新元素x的k的哈希地址;
所述哈希地址零位计算模块,用于计算每个向量BFi(1≤i≤r)中新元素x对应的k个哈希地址;并输出向量BFi的k个哈希位置的时间域Tag.time位全都不为0的哈希地址;
所述误判输出报警信息模块,用于输出当新元素的TID不等于向量BFi的k个哈希位置的TID时的报警信息;
所述存储容限判断模块,用于检查向量BFr的是否达到存储容限;
初始化向量BFr模块,用于当向量BFr达到存储容限时设置新向量BFr并将新元素x插入新向量BFr中;
所述冗余数据判断模块,用于计算新元素x与向量BFr中k个哈希位置的时间域Tag.time中的时间差X,判断时间差X是否大于时间窗口ω;
所述存储模块,用于存储非冗余数据。
7.如权利要求6所述的基于DTBF的RFID冗余数据清洗系统,其特征在于:所述初始模块中的初始化DTBF,具体步骤如下:
设定时间窗口大小ω;
设置DTBF向量数r和向量存储容限n;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化DTBF的第一个向量BFr={n,m,k};
其中,n为向量中所能容纳的最多元素个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
8.如权利要求6所述的基于DTBF的RFID冗余数据清洗系统,其特征在于:所述初始化向量BFr模块中初始化向量BFr,具体步骤如下:
设定过滤器误判率p以及时间窗口大小ω;
确定过滤器最大误判率p和向量存储容限;
有过滤器性质求出最优哈希函数个数k以及向量长度m;
初始化第一个向量BFr={n,m,k};
其中,n为向量中元素的个数,m为向量的长度,哈希函数个数为k,将BFr向量的每一位存储位置置为0,ω为时间窗口大小。
9.如权利要求7所述的基于DTBF的RFID冗余数据清洗系统,其特征在于:所述哈希函数个数k和向量长度m满足以下公式:
k = m n l n 2.
10.如权利要求6所述的基于DTBF的RFID冗余数据清洗系统,其特征在于:所述存储容限判断模块中计算检查向量BFr的是否达到存储容限:是通过以下方式来实现的:
检查向量BFr的Tag.time位0位占有率是否达到预设值,如果达到,则表示达到存储容限。
CN201610212717.1A 2016-04-07 2016-04-07 一种基于dtbf的rfid冗余数据清洗方法及系统 Pending CN105938480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610212717.1A CN105938480A (zh) 2016-04-07 2016-04-07 一种基于dtbf的rfid冗余数据清洗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610212717.1A CN105938480A (zh) 2016-04-07 2016-04-07 一种基于dtbf的rfid冗余数据清洗方法及系统

Publications (1)

Publication Number Publication Date
CN105938480A true CN105938480A (zh) 2016-09-14

Family

ID=57151346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610212717.1A Pending CN105938480A (zh) 2016-04-07 2016-04-07 一种基于dtbf的rfid冗余数据清洗方法及系统

Country Status (1)

Country Link
CN (1) CN105938480A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106772218A (zh) * 2017-01-24 2017-05-31 重庆大学 基于移动rfid阅读器仓库货包平面位置分级定位方法
CN106844561A (zh) * 2016-12-30 2017-06-13 重庆大学 一种基于r‑tbf的rfid冗余数据清洗策略
CN108804242A (zh) * 2018-05-23 2018-11-13 武汉斗鱼网络科技有限公司 一种数据计数去重方法、系统、服务器及存储介质
CN109150537A (zh) * 2018-06-25 2019-01-04 广东工业大学 一种基于动态Bloom Filter的文件所有权证明方法
CN109656901A (zh) * 2018-10-15 2019-04-19 阿里巴巴集团控股有限公司 数据处理方法和装置、电子设备
CN111444400A (zh) * 2020-04-07 2020-07-24 中国汽车工程研究院股份有限公司 力与流场数据管理方法
CN112528685A (zh) * 2020-12-10 2021-03-19 南京航空航天大学 基于动态附加布隆过滤器的rfid数据冗余处理方法
US11741258B2 (en) 2021-04-16 2023-08-29 International Business Machines Corporation Dynamic data dissemination under declarative data subject constraints

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294311A1 (en) * 2005-06-24 2006-12-28 Yahoo! Inc. Dynamic bloom filter for caching query results
CN101697194A (zh) * 2009-10-23 2010-04-21 重庆大学 改善rfid应用可靠性的数据处理系统和处理方法
CN102479071A (zh) * 2010-11-23 2012-05-30 上海宝信软件股份有限公司 一种rfid应用系统中间件的标签事件过滤方法和装置
CN103116599A (zh) * 2012-11-30 2013-05-22 浙江工商大学 一种基于改进Bloom Filter结构的城市海量数据流快速冗余消除方法
US8533206B1 (en) * 2008-01-11 2013-09-10 Google Inc. Filtering in search engines
CN104899720A (zh) * 2015-06-18 2015-09-09 重庆大学 基于智能对象的仓库作业执行系统与方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294311A1 (en) * 2005-06-24 2006-12-28 Yahoo! Inc. Dynamic bloom filter for caching query results
US8533206B1 (en) * 2008-01-11 2013-09-10 Google Inc. Filtering in search engines
CN101697194A (zh) * 2009-10-23 2010-04-21 重庆大学 改善rfid应用可靠性的数据处理系统和处理方法
CN102479071A (zh) * 2010-11-23 2012-05-30 上海宝信软件股份有限公司 一种rfid应用系统中间件的标签事件过滤方法和装置
CN103116599A (zh) * 2012-11-30 2013-05-22 浙江工商大学 一种基于改进Bloom Filter结构的城市海量数据流快速冗余消除方法
CN104899720A (zh) * 2015-06-18 2015-09-09 重庆大学 基于智能对象的仓库作业执行系统与方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙智超 等: "二路平衡动态布隆过滤器", 《数学的实践与认识》 *
李星: "RFID中间件数据清洗技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844561A (zh) * 2016-12-30 2017-06-13 重庆大学 一种基于r‑tbf的rfid冗余数据清洗策略
CN106844561B (zh) * 2016-12-30 2020-03-24 重庆大学 一种基于r-tbf的rfid冗余数据清洗方法
CN106772218A (zh) * 2017-01-24 2017-05-31 重庆大学 基于移动rfid阅读器仓库货包平面位置分级定位方法
CN106772218B (zh) * 2017-01-24 2019-05-14 重庆大学 基于移动rfid阅读器仓库货包平面位置分级定位方法
CN108804242A (zh) * 2018-05-23 2018-11-13 武汉斗鱼网络科技有限公司 一种数据计数去重方法、系统、服务器及存储介质
CN108804242B (zh) * 2018-05-23 2022-03-22 武汉斗鱼网络科技有限公司 一种数据计数去重方法、系统、服务器及存储介质
CN109150537A (zh) * 2018-06-25 2019-01-04 广东工业大学 一种基于动态Bloom Filter的文件所有权证明方法
CN109150537B (zh) * 2018-06-25 2021-08-17 广东工业大学 一种基于动态Bloom Filter的文件所有权证明方法
CN109656901A (zh) * 2018-10-15 2019-04-19 阿里巴巴集团控股有限公司 数据处理方法和装置、电子设备
CN111444400A (zh) * 2020-04-07 2020-07-24 中国汽车工程研究院股份有限公司 力与流场数据管理方法
CN112528685A (zh) * 2020-12-10 2021-03-19 南京航空航天大学 基于动态附加布隆过滤器的rfid数据冗余处理方法
US11741258B2 (en) 2021-04-16 2023-08-29 International Business Machines Corporation Dynamic data dissemination under declarative data subject constraints

Similar Documents

Publication Publication Date Title
CN105938480A (zh) 一种基于dtbf的rfid冗余数据清洗方法及系统
Gillison Transects or Gradsects in
CN102915347B (zh) 一种分布式数据流聚类方法及系统
CN107426207B (zh) 一种基于SA-iForest的网络入侵异常检测方法
Yu et al. Crime forecasting using data mining techniques
CN103400152A (zh) 基于分层聚类的滑动窗口多数据流异常检测方法
CN106295502A (zh) 一种人脸检测方法及装置
CN109858476B (zh) 标签的扩充方法和电子设备
ES2332741T3 (es) Uso de agrupamiento secuencial para seleccion de instancias en monitorizacion de estados de maquina.
CN103020288A (zh) 一种动态数据环境下的数据流分类方法
CN108875805A (zh) 基于深度学习的利用检测识别一体化提高检测精度的方法
CN106570851A (zh) 一种基于加权分配d‑s证据理论的显著图融合方法
CN110147911A (zh) 一种基于内容感知的社交影响力预测模型及预测方法
CN110162013A (zh) 一种制冷系统故障诊断方法
Giridhar et al. Clarisense: Clarifying sensor anomalies using social network feeds
CN106156281A (zh) 基于Hash‑Cube空间层次划分结构的最近邻点集快速检索方法
CN113268641A (zh) 基于大数据的用户数据处理方法及大数据服务器
CN116049766A (zh) 基于数字孪生的多源数据异常监测系统
CN106294485B (zh) 确定显著地点的方法及装置
CN104133836A (zh) 一种实现变更数据检测的方法及装置
CN104684083B (zh) 一种基于分簇思想的ap选择方法
CN106772358A (zh) 一种基于cplex的多传感器分配方法
CN111159251A (zh) 一种异常数据的确定方法及装置
CN109446489A (zh) 法律信息重复率检测系统及检测方法
CN111368823B (zh) 一种指针式仪表读数识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160914