CN106528634B - 面向车间制造过程的海量rfid数据智能清洗方法及系统 - Google Patents

面向车间制造过程的海量rfid数据智能清洗方法及系统 Download PDF

Info

Publication number
CN106528634B
CN106528634B CN201610887136.8A CN201610887136A CN106528634B CN 106528634 B CN106528634 B CN 106528634B CN 201610887136 A CN201610887136 A CN 201610887136A CN 106528634 B CN106528634 B CN 106528634B
Authority
CN
China
Prior art keywords
data
rfid
redundancy
label
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610887136.8A
Other languages
English (en)
Other versions
CN106528634A (zh
Inventor
张小梅
徐文君
周祖德
刘泉
程晶
徐威
张霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201610887136.8A priority Critical patent/CN106528634B/zh
Publication of CN106528634A publication Critical patent/CN106528634A/zh
Application granted granted Critical
Publication of CN106528634B publication Critical patent/CN106528634B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向车间制造过程的海量RFID数据智能清洗方法及系统,该方法包括以下步骤:S1、获取制造车间中不同的RFID拓扑结构中感知到的RFID数据;S2、构建面向数据的分割器将RFID数据分割为漏读数据和空间冗余数据;S3、对漏读数据采用自适应实时的漏读平滑算法进行处理,包括进行阅读预处理、置信度调整和多线程处理,得到高准确率的RFID数据;S4、对空间冗余数据采用面向实用性的数据级冗余消除方法进行处理,引入空间位置检测模型,得到去除冗余后的RFID数据。本发明不仅能够同时处理多类数据问题,而且在准确率以及去冗余率上有显著提升,在误删率上明显下降,同时提高了效率,从而达到有效准确提高制造车间RFID数据质量的目的。

Description

面向车间制造过程的海量RFID数据智能清洗方法及系统
技术领域
本发明涉及机械制造自动化、工业自动控制和计算机网络领域,尤其涉及一种面向车间制造过程的海量RFID数据智能清洗方法及系统。
背景技术
在车间制造生产过程中,射频识别技术RFID作为一门快捷方便且非接触式感知处理信息技术被广泛使用在各大制造企业中,对人员、设备、物料等制造资源完成动态感知以便进行生产状态监控、物流控制优化和智能定位跟踪等处理。然而制造车间环境恶劣,常常伴随金属介质的阻碍和强电磁干扰,导致感知设备不能实时可靠感知。同时RFID应用场景环境复杂,分布范围广,涉及人员、物料、设备等多个对象,需要分布部署大量RFID装置,导致感知数据呈现多源、海量、分布广泛、高噪声的特点。在实际中,RFID数据主要存在漏读、多读和冗余三种质量问题。根据“垃圾进,垃圾出”的理论,如果将这些原始感知数据不经过处理直接传递给管理人员使用,不仅会增加数据传输的负担、系统的计算量、生产成本及能耗,还会降低生产效率甚至导致严重的决策错误。因此对海量RFID感知数据进行数据清洗,消除冗余、多读数据,填补漏读数据,提高数据质量为制造车间运行分析与管理决策提供基本数据支持,对车间智能制造的发展具有重要意义。
目前国内外研究人员对改善RFID数据质量问题已经做了大量的相关研究,针对RFID数据存在的漏读、冗余、多读三类问题提出了相应的解决方法。现有文献提出了一种可扩展的清理RFID数据流的框架(Extensible Receptor Stream Processing,ESP),引入了时间粒度和空间粒度的概念来探索数据流处理方法,利用管道设计的描述性查询处理工具,结合数据语义都低到高层次性处理。该模型将数据处理分为以下阶段:Point阶段、Smooth阶段、Merge阶段、Arbitrate阶段和Virtualize阶段。该方法可以根据实际对每个阶段组合使用,数据管道很容易在每个应用场景中安装和配置,适应范围比较广,但如何确定合适的时间粒度和空间粒度并不容易,同时该方法在平滑阶段仍然使用了定长窗口平滑技术,难以同时有效消除积极读和消极读。此外RFID本身的复杂性以及动态性导致使用ESP模型处理RFID数据困难。由于固定窗口平滑方法很难选择合适的窗口大小使它既能保证数据的完整性又能获取标签的动态变化,另一篇文献中Jeffery S R等人提出了一种自动调整窗口大小的RFID数据清洗方法(Statistical Smoothing for Unreliable RFID data,SMURF)。该方法把感知到的RFID数据流抽象成统计学中的随机样本,利用二项分布等相关理论进行建模。首先设定初始窗口,然后基于RFID数据流中观测值自适用调整滑动窗口的大小,以满足数据的完整性和标签的动态性。该方法的自适应性机制大大改进了因为固定窗口过大或过小造成的积极读和消极读。另一篇文献通过一种改进的过度检测机制,比较两个子窗口中的数据以及估计标签的数量来检测标签跃迁发生的时间提出了一种自适应的数据清洗方法(WSTD)。上述方法主要用来消除漏读数据,然而在制造车间中,由于RFID自身阅读范围的局限性,导致少数几个RFID阅读器无法满足车间信息数据感知的需求,在一个装配车间或是一个物料仓库中可能需要部署成百上千的RFID阅读器来构成感知网络。此时由于RFID交叉部署、标签的长时间停留导致了大量的数据冗余。另一篇文献提出了一种阅读器冗余消除方法(Redundant Reader Elimination,RRE)。该方法根据当阅读器范围内被读到的标签数越少,则该阅读器冗余的可能性越大这一理论消除冗余阅读器从而减少冗余数据。首先每个阅读器获取阅读范围内所有应答的标签总数,然后每个阅读器将总数发送给阅读范围内的所有标签,标签属于读取总数多的那个阅读器。最终,没有标签属于的阅读器被判断为冗余阅读器。但该算法依赖阅读器的分布情况,在阅读器分布密集时不能得到正确结果。另一篇文献提出了一种最优分层阅读器冗余消除方法(Layered EliminationOptimization,LEO),该方法基于标签最先接收到的信息来自哪个阅读器,则判断这个阅读器为标签的拥有者。虽然该算法减少了对标签的写操作,但该算法依赖于阅读器的读取次序,读取次序不同结果也不同,随机性较大。由于RFID网络的不稳定性导致阅读器的读取次序随机且不固定,因此其可靠性还有待研究解决。另一篇文献提出了一种基于布隆滤波(Bloom Filter,BF)的本地过滤算法用来过滤本地数据冗余,再进一步扩展到全局的冗余过滤,与别的方法相比,布隆滤波器能有效节省空间和时间。但随着RFID数据的增多,布隆滤波位数组中0位越来越少,位数组慢慢被填满从而算法失效。另一篇文献利用贝叶斯推断去除空间冗余,利用状态检测模型来获得最大似然概率,通过马尔科夫蒙特卡洛(MarkovChain Monte Carlo,MCMC)抽样方法来得到标签位置分布的样本,寻找最大后验概率得到样本中最可能的标签分布从而去除空间冗余。还考虑了货架空间的限制条件,即每个货架上可能同时存在的标签数量的限制。
综上所述大部分文献都只是针对RFID数据问题中的一个方面进行清洗处理,针对制造车间RFID数据的特点提出一种有效的综合的数据清洗方法具有重要的意义。
发明内容
本发明要解决的技术问题在于针对现有技术中缺乏有效的综合数据清洗方法的缺陷,提供一种面向车间制造过程的海量RFID数据智能清洗方法及系统。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种面向车间制造过程的海量RFID数据智能清洗方法,包括以下步骤:
S1、获取制造车间中不同的RFID拓扑结构中感知到的RFID数据;
S2、构建面向数据的分割器将RFID数据分割为漏读数据和空间冗余数据;
S3、对漏读数据采用自适应实时的漏读平滑算法进行处理,包括进行阅读预处理、置信度调整和多线程处理,得到高准确率的RFID数据;
S4、对空间冗余数据采用面向实用性的数据级冗余消除方法进行处理,引入空间位置检测模型,得到去除冗余后的RFID数据。
进一步地,本发明的步骤S2中进行RFID数据分割的步骤具体包括:
S21、将RFID数据转换为三维数据,通过基于三维十字窗的滑动分割方法对漏读数据和空间冗余数据进行检测;
S22、对每个时刻的数据进行空间窗口检测将存在冗余的数据位置标记出来,分割出空间冗余数据;
S23、利用多个时刻的数据分布窗口沿时间轴滑动,标记出该时间段内的漏读数据发生的起始及终止时间,分割出漏读数据。
进一步地,本发明的步骤S3中采用自适应实时的漏读平滑算法进行处理的步骤具体包括:
S31、统计感知RFID数据的阅读率,对阅读率参数进行中值滤波预处理,有效消除数据孤立点,同时保持其边缘特性;
S32、设置初始窗口大小及置信度,通过观测数据自适应调整窗口大小和置信度平滑RFID漏读数据;
S33、采用多线程技术对数据阅读率进行预处理以及自适应调节窗口大小平滑数据改善漏读,两个线程独立并行运行,中间备有数据缓存区保存中间数据,实时处理得到高准确率的RFID数据。
进一步地,本发明的步骤S4中采用面向实用性的数据级冗余消除方法进行处理的步骤具体包括:
S41、根据冗余数据的产生依赖的RFID阅读器的拓扑结构、RFID阅读器的阅读范围以及RFID阅读器的最大阅读率,建立空间位置检测模型;
S42、利用MCMC抽样获取海量标签位置分布样本;
S43、基于贝叶斯推断理论以及空间位置检测模型,统计样本的后验概率,取后验概率最大的样本为标签的位置分布,得到去除冗余后的RFID数据。
进一步地,本发明的步骤S31中进行阅读率预处理的步骤具体包括:
S311、选取一定大小的窗口在标签的阅读率数据上漫游,并将窗口的中心与某个阅读率数据位置重合;
S312、读取窗口中各对应位置的阅读率大小;
S313、将读取到的阅读率从小到大排列;
S314、取排序后阅读率数据中的中间值,将其作为窗口中心位置的阅读率。
进一步地,本发明的步骤S32中自适应平滑处理的步骤具体包括:
S321、初始化窗口大小w0并设置置信度δ;
S322、统计窗口当前wi中标签i的平均阅读率阅读率的变化量Δpi,t以及|Si1|和|Si2|;
S323、利用当前标签速度下的置信度参数δ计算满足数据完整性要求需要的窗口大小以及统计阅读率的变化量Δpi,t连续为负数的次数;
S324、如果阅读率的变化量Δpi,t连续为负数的次数大于2并且|Si2|为0则确定标签i正在离开阅读器范围,此时应减少窗口大小以防止标签积极读错误,将当前窗口大小wi减为原来的一半;
S325、否则判断是否满足标签跃迁条件,如果满足说明标签i正在移动,此时应减少窗口大小以防止标签积极读错误,将当前窗口大小wi减小2个阅读周期;
S326、否则比较当前窗口大小wi如果wi小于并且说明标签i正在像阅读器移动,此时应增加窗口大小增加标签i被读到的概率,将当前窗口大小wi增加2个阅读周期。
进一步地,本发明的步骤S41中建立空间位置检测模型的步骤具体包括:
S411、根据拓扑系统中相距最远的两个阅读器之间的距离以及阅读率变化曲线得到在该拓扑系统中标签被两个阅读器同时读到的最小概率,最小概率Pmin为:
S412、根据拓扑系统中任意两个阅读器之间的距离以及阅读器的最大阅读范围得到某个标签同时被这两个阅读器读到的概率;标签同时被阅读器i和阅读器j阅读到的概率p(i,j):
p(i,j)=1-Dis/Sminor
S413、在最小概率的基础上计算标签被两个阅读器同时读到发生冗余的位置转移概率P:
在已知标签的位置分布H和RFID数据的观察值Z的情况下,将位置转移概率P代入下式即可由下式求得极大似然概率p(Z|H):
Q=Z*P
其中,相距最远的阅读器之间距离为L,阅读器的主阅读范围为Smajor,次阅读范围为Sminor,最大阅读率为Pmax;阅读器i和阅读器j之间的距离为Dis,阅读器最大阅读范围为Sminor
本发明提供一种面向车间制造过程的海量RFID数据智能清洗系统,包括:
RFID数据感知模块,用于获取制造车间中不同的RFID拓扑结构中感知到的RFID数据;
数据分割模块,用于构建面向数据的分割器将RFID数据分割为漏读数据和空间冗余数据;
数据清洗模块,包括漏读数据处理单元、空间冗余数据处理单元和时间冗余处理单元,用于对漏读数据采用自适应实时的漏读平滑算法进行处理,包括进行阅读预处理、置信度调整和多线程处理,得到高准确率的RFID数据;对空间冗余数据采用面向实用性的数据级冗余消除方法进行处理,引入空间位置检测模型,得到去除冗余后的RFID数据;时间冗余处理则是对漏读处理和空间冗余处理后的数据进行合并和相应转化。
进一步地,本发明的漏读数据处理单元包括:
阅读预处理单元,用于统计感知RFID数据的阅读率,对阅读率参数进行中值滤波预处理,有效消除数据孤立点,同时保持其边缘特性;
自适应窗口平滑处理单元,用于设置初始窗口大小及置信度,通过观测数据自适应调整窗口大小和置信度平滑RFID漏读数据;
多线程实时处理单元,用于采用多线程技术对数据阅读率进行预处理以及自适应调节窗口大小平滑数据改善漏读,两个线程独立并行运行,中间备有数据缓存区保存中间数据,实时处理得到高准确率的RFID数据。
进一步地,本发明的空间冗余数据处理单元包括:
空间位置检测模型建立单元,用于根据冗余数据的产生依赖的RFID阅读器的拓扑结构、RFID阅读器的阅读范围以及RFID阅读器的最大阅读率,建立空间位置检测模型;
样板抽取单元,用于利用MCMC抽样获取海量标签位置分布样本;
冗余去除单元,用于基于贝叶斯推断理论以及空间位置检测模型,统计样本的后验概率,取后验概率最大的样本为标签的位置分布,得到去除冗余后的RFID数据。
本发明产生的有益效果是:本发明的面向车间制造过程的海量RFID数据智能清洗方法及系统,通过构建一种将数据分割同步处理的总体清洗框架,解决了稀疏部署时漏读数据、密集部署时冗余数据的问题,提升系统处理效率;针对大量漏读数据中阅读率这个重要参数,通过对阅读率的预处理消除孤立噪声点,考虑标签的动态性动态调整置信度参数,利用多线程及数据缓存提高处理的时效性;针对现有基于贝叶斯推断去冗余方法中获取极大似然概率只考虑了RFID直线均匀部署以及平面规则部署的情形,构建了一种RFID空间位置分布的空间关系模型,使得方法更具有普适性和鲁棒性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例的制造车间RFID数据清洗架构;
图2为本发明实施例的“三维十字窗”数据分割模型;
图3为本发明实施例的自适应实时RFID漏读平滑算法AORFC框图;
图4为本发明实施例的多线程实时清洗框架;
图5为本发明实施例的PraRRE算法框图;
图6为本发明实施例的漏读数据处理后错误率比较图;
图7为本发明实施例的标签随机移动时漏读数据处理结果比较图;
图8(a)为本发明实施例的RFID阅读器稀疏部署图;
图8(b)为本发明实施例的RFID阅读器密集部署图;
图9(a)为本发明实施例的场景一的去冗余率结果比较图;
图9(b)为本发明实施例的场景二的去冗余率结果比较图;
图10(a)为本发明实施例的RFID数据清洗系统模块的漏读清洗模块;
图10(b)为本发明实施例的RFID数据清洗系统模块的冗余清洗模块;
图10(c)为本发明实施例的RFID数据清洗系统模块的综合处理模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的面向车间制造过程的海量RFID数据智能清洗方法,包括以下步骤:
S1、获取制造车间中不同的RFID拓扑结构中感知到的RFID数据;
S2、构建面向数据的分割器将RFID数据分割为漏读数据和空间冗余数据;
进行RFID数据分割的步骤具体包括:
S21、将RFID数据转换为三维数据,通过基于三维十字窗的滑动分割方法对漏读数据和空间冗余数据进行检测;
S22、对每个时刻的数据进行空间窗口检测将存在冗余的数据位置标记出来,分割出空间冗余数据;
S23、利用多个时刻的数据分布窗口沿时间轴滑动,标记出该时间段内的漏读数据发生的起始及终止时间,分割出漏读数据。
S3、对漏读数据采用自适应实时的漏读平滑算法进行处理,包括进行阅读预处理、置信度调整和多线程处理,得到高准确率的RFID数据;
采用自适应实时的漏读平滑算法进行处理的步骤具体包括:
S31、统计感知RFID数据的阅读率,对阅读率参数进行中值滤波预处理,有效消除数据孤立点,同时保持其边缘特性;
S32、设置初始窗口大小及置信度,通过观测数据自适应调整窗口大小和置信度平滑RFID漏读数据;
S33、采用多线程技术对数据阅读率进行预处理以及自适应调节窗口大小平滑数据改善漏读,两个线程独立并行运行,中间备有数据缓存区保存中间数据,实时处理得到高准确率的RFID数据。
S4、对空间冗余数据采用面向实用性的数据级冗余消除方法进行处理,引入空间位置检测模型,得到去除冗余后的RFID数据。
采用面向实用性的数据级冗余消除方法进行处理的步骤具体包括:
S41、根据冗余数据的产生依赖的RFID阅读器的拓扑结构、RFID阅读器的阅读范围以及RFID阅读器的最大阅读率,建立空间位置检测模型;
S42、利用MCMC抽样获取海量标签位置分布样本;
S43、基于贝叶斯推断理论以及空间位置检测模型,统计样本的后验概率,取后验概率最大的样本为标签的位置分布,得到去除冗余后的RFID数据。
在本发明的另一个具体实施例中,主要包括系统总体框架,漏读填补算法,冗余消除算法和系统实现四个部分。
(1)总体框架。实际制造车间中RFID阅读器存在两种拓扑结构:稀疏部署和密集部署。在RFID阅读器稀疏部署时,相邻阅读器之间距离较大,标签在某个时刻只可能被一个阅读器读到,几乎不可能被多个阅读器同时读到,因此产生的RFID数据不存在空间冗余。标签处于阅读区域以外没有被任何阅读器读到,或由于其他信号干扰标签处于阅读区域以内却没有被阅读器读到,产生的RFID数据存在大量的漏读。密集部署时利用多个阅读器区域交叉覆盖,增加标签被阅读器读到的概率,从而减少漏读。此时标签在某个时刻可能被多个阅读器同时读到,产生大量的空间冗余数据。RFID阅读器在车间不同的拓补结构将导致主要存在的数据质量问题不同,因此设计综合的数据清洗系统,包括制造车间RFID数据感知模块、数据分割模块以及数据清洗模块三个部分。
(2)漏读填补算法,主要包括阅读率预处理、自适应窗口平滑和多线程实时处理三个部分。
阅读率预处理:因为制造车间信号的干扰以及数据漏读的存在,得到的阅读率并不准确,含有噪声,在使用之前利用中值滤波对阅读率进行处理。
自适应窗口平滑:假设标签i在时间窗口Wi(Wi=(t-Wi,t))时间内可以被阅读wi个周期,即Wi=wi*T(T是每个阅读周期的时间)。前提假设:标签i一直处于阅读器的阅读范围内,并且在相同长的时间段Wi中,标签被读到的概率pi相同。那么实际中标签被读到的次数服从二项分布B(wi,pi)。
其中阅读率pi可以通过标签的应答次数和请求次数计算,定义为:
假设实际中标签被读到的次数为Si(Si∈[0,wi]),则这段时间的平均阅读概率为
将上面Si看作是伯努利随机抽样,|Si|服从于二项分布基于统计概率理论,|Si|的期望和方差分别为:
考虑到窗口大小既要保证数据的完整性又要准确获取标签的动态性,进行以下分析。标签i在窗口wi阅读周期内一次都不被读到的概率为设置置信度为δ,当时,可以保证数据的完整性。动态调整置信度δ,标签的移动速度快,置信度δ相对越大;标签的移动速度慢,置信度δ越小,因此置信度δ正比于标签的速度V。
基于中心极限定理,标签i在阅读器的阅读范围内时,|Si|应该小于因此标签发生跃迁的条件为:
为进一步改进RFID标签移动时的检测机制,充分利用子窗口中的数据情况做出判断,统计前后两个子窗口中读取次数以及阅读率辅助平滑过程中窗口的变化。
多线程实时处理:车间制造过程中感知获取的RFID数据量大,数据清洗算法需具备海量数据的实时处理能力。采用多线程技术来提高系统对海量数据的实时处理能力,提高系统的吞吐量。
(3)冗余消除算法。贝叶斯推断是一种在已知观测值Z的情形下估计假设H出现的概率的统计推断技术,贝叶斯推断的内容:后验概率正比于先验概率与极大似然概率得乘积。基于贝叶斯推断去除RFID空间冗余数据,基本思路是根据感知到的RFID数据计算每一种关于标签所在的阅读器区域的假设可能的概率,通过比较后验概率的大小得到最有可能的标签分布情况,从而去除空间冗余数据。使用贝叶斯推断时给出以下两个假设:1)每个阅读器读取标签事件是相互独立的;2)每个标签的先验分布不依赖于其他标签。
在消除RFID数据冗余时,假设第i个标签的位置hi,如第一个标签在阅读器2的范围内则h1=2,全部n个标签的位置构成矢量H=(h1,h2,…hn)。
利用阅读器-标签矩阵Z储存原始RFID数据,矩阵Z计算如下:
其中Ti表示第i个标签,Rj表示第j个阅读器,标签被阅读器读到Z(i,j)记为1,没被阅读器读到Z(i,j)记为0。
对于给定的位置矢量H以及观察到的数据矩阵Z可以利用贝叶斯推断公式计算其后验概率的大小,即标签位于当前位置矢量H的情况下得到观察矩阵Z的可能性大小。
post(H|Z)∝p(Z|H)p(H)
只需要比较不同位置矢量下后验概率的大小就可以得到当前数据下标签的位置分布,即可以去除冗余。
(4)系统实现。基于JAVA语言,利用Java Web相关技术开发海量RFID数据智能清洗系统。
本发明面向车间制造过程的海量RFID数据智能清洗系统,包括:
RFID数据感知模块,用于获取制造车间中不同的RFID拓扑结构中感知到的RFID数据;
数据分割模块,用于构建面向数据的分割器将RFID数据分割为漏读数据和空间冗余数据;
数据清洗模块,包括漏读数据处理单元和空间冗余数据处理单元,用于对漏读数据采用自适应实时的漏读平滑算法进行处理,包括进行阅读预处理、置信度调整和多线程处理,得到高准确率的RFID数据;对空间冗余数据采用面向实用性的数据级冗余消除方法进行处理,引入空间位置检测模型,得到去除冗余后的RFID数据。
进一步地,本发明的漏读数据处理单元包括:
阅读预处理单元,用于统计感知RFID数据的阅读率,对阅读率参数进行中值滤波预处理,有效消除数据孤立点,同时保持其边缘特性;
自适应窗口平滑处理单元,用于设置初始窗口大小及置信度,通过观测数据自适应调整窗口大小和置信度平滑RFID漏读数据;
多线程实时处理单元,用于采用多线程技术对数据阅读率进行预处理以及自适应调节窗口大小平滑数据改善漏读,两个线程独立并行运行,中间备有数据缓存区保存中间数据,实时处理得到高准确率的RFID数据。
进一步地,本发明的空间冗余数据处理单元包括:
空间位置检测模型建立单元,用于根据冗余数据的产生依赖的RFID阅读器的拓扑结构、RFID阅读器的阅读范围以及RFID阅读器的最大阅读率,建立空间位置检测模型;
样板抽取单元,用于利用MCMC抽样获取海量标签位置分布样本;
冗余去除单元,用于基于贝叶斯推断理论以及空间位置检测模型,统计样本的后验概率,取后验概率最大的样本为标签的位置分布,得到去除冗余后的RFID数据。
系统架构如图1所示,主要包括制造车间RFID数据感知模块、数据分割模块以及数据清洗模块三个部分。
制造车间RFID数据感知模块:在加工生产车间、装配车间、物料车间制造区域内部署RFID设备,感知车间加工生产状态、物料储备信息。
数据分割模块:空间冗余主要分布在空间维度上,通过对每个时刻的数据进行空间窗口检测将存在冗余的数据位置标记出来。数据漏读主要分布在时间维度上,利用多个时刻的数据分布窗口沿时间轴滑动检测漏读数据,标记出该时间段内漏读发生的起始及终止时间。如图2所示,数据分割模块同时进行漏读和空间冗余的检测即在空间维度和时间维度上滑动窗口十字交叉,称为一种基于“三维十字窗”的滑动分割方法。这样原始混合数据中被数据分割器标记的冗余部分将被送到冗余消除模块处理,被标记的漏读数据被漏读清洗模块处理。利用数据分割模块将数据分开处理降低了RFID数据清洗系统的处理时间,提高了效率。
数据清洗模块:含漏读数据处理、空间冗余处理以及时间冗余处理三个部分,其中漏读数据处理以及空间冗余处理由对应的处理算法进行处理,而时间冗余处理首先将漏读处理和空间冗余处理后的数据合并及转化为原来的三元组(<ReaderID,TagID,Time>)形式,然后设置时间阈值,将位置不经常变动的标签信息合并以四元组(<ReaderID,TagID,TimeIn,TimeOut>)的形式传输给上层管理系统。
而如图3所示,上述针对漏读数据的清洗方法是自适应实时RFID漏读平滑算法AORFC。
第一步:阅读率预处理。具体步骤如下:
Step1 选取一定大小的窗口在标签的阅读率数据上漫游,并将窗口的中心与某个阅读率数据位置重合;
Step2 读取窗口中各对应位置的阅读率大小;
Step3 将这些阅读率从小到大排列;
Step4 取排序后阅读率数据中的中间值,将其作为窗口中心位置的阅读率。
第二步:自适应平滑处理。具体流程如下:
Step1 初始化窗口大小w0并设置置信度δ;
Step2 统计窗口当前wi中标签i的平均阅读率阅读率的变化量Δpi,t以及|Si1|和|Si2|;
Step3 利用当前标签速度下的置信度参数δ计算满足数据完整性要求需要的窗口大小以及统计阅读率的变化量Δpi,t连续为负数的次数;
Step4 如果阅读率的变化量Δpi,t连续为负数的次数大于2并且|Si2|为0则确定标签i正在离开阅读器范围,此时应减少窗口大小以防止标签积极读错误,将当前窗口大小wi减为原来的一半;
Step5 否则判断是否满足标签跃迁条件,如果满足说明标签i正在移动,此时应减少窗口大小以防止标签积极读错误,将当前窗口大小wi减小2个阅读周期;
Step6 否则比较当前窗口大小wi如果wi小于并且说明标签i正在像阅读器移动,此时应增加窗口大小增加标签i被读到的概率,将当前窗口大小wi增加2个阅读周期。
第三步:多线程实时处理。数据清洗算法被分成了两个主线程:①对阅读率数据进行预处理(简称预处理线程);②自适应调节窗口大小平滑数据改善漏读(简称清洗线程)。如图4所示,采用多线程技术,线程并行处理,清洗线程无需等待预处理线程处理完,而是直接从中间缓存区取走已经处理好的数据进行清洗,减少等待时间,提高效率。
如图5所示,上述针对空间冗余数据的清洗方法是面向实用性的RFID数据冗余消除算法PraRRE。根据冗余数据的产生依赖于RFID阅读器的拓扑结构、RFID阅读器的阅读范围以及RFID阅读器的最大阅读率这一特点,建立空间位置检测模型。
首先,根据拓扑系统中相距最远的两个阅读器之间的距离以及阅读率变化曲线得到在该拓扑系统中标签被两个阅读器同时读到的最小概率。假设两个相距最远的阅读器之间距离为L,阅读器的主阅读范围为Smajor,次阅读范围为Sminor,最大阅读率为Pmax,则最小概率Pmin为:
其次,根据拓扑系统中任意两个阅读器之间的距离以及阅读器的最大阅读范围得到某个标签同时被这两个阅读器读到的概率。假设阅读器i和阅读器j之间的距离为Dis,阅读器最大阅读范围为Sminor,则标签同时被阅读器i和阅读器j阅读到的概率p(i,j):
p(i,j)=1-Dis/Sminor
最后,在最小概率的基础上计算标签被两个阅读器同时读到发生冗余的位置转移概率P:
在已知标签的位置分布H和RFID数据的观察值Z的情况下,将位置转移概率P代入下式即可由下式求得极大似然概率p(Z|H):
Q=Z*P
其中,两个相距最远的阅读器之间距离为L,阅读器的主阅读范围为Smajor,次阅读范围为Sminor,最大阅读率为Pmax;阅读器i和阅读器j之间的距离为Dis,阅读器最大阅读范围为Sminor
而由于后验概率正比于先验概率与极大似然概率的乘积,利用贝叶斯推断以及MCMC抽样得到大量样本的后验概率,取后验概率最大的样本为标签的位置分布,即可去除空间冗余。
在Matlab软件上对发明中提出的方法的性能进行仿真测试评估。
实验一:数据生成器生成以速度0.1-0.9m/epoch匀速移动的标签在100个阅读器区域内来回移动的数据,每种速度的数据量大约为1500000条,数据总数为9*1500000=13500000。对这些海量数据分别采用静态窗口3(窗口大小为3个阅读周期,static3)、静态窗口25(窗口大小为25个阅读周期,static25)、SMURF、WSTD、以及本文提出的AORFC五种算法进行了大量对比实验。如图6所示,给出了9种标签移动速度下数据经过这五种算法分别处理后总的错误率,由图可看出:①采用静态窗口的方法,错误率随速度变化,但总体都较大,为获取较低的错误率窗口大小难以设置。②对比SMURF算法和WSTD算法,SMURF算法的错误率明显较大,说明WSTD算法中的标签跃迁检测机制有效,能降低错误率。③对比本文提出的AORFC算法和WSTD算法,随着标签移动速度的增加,AORFC算法的错误率一直都比WSTD算法低,且随着标签速度的增加,错误率有所上升但上升的幅度不大。
实验二:为模拟标签随机移动的情形,数据生成器生成了标签先以0.3m/epoch移动,在停留一点时间,然后以速度0.9m/epoch移动的数据,经过SMURF、WSTD以及AORFC算法处理后结果图如图7所示。图中黑色部分表示标签被读到,白色部分表是标签没有被阅读器读到。在标签匀速移动时间段内,标签不停地进出阅读器的阅读范围,理想的数据如图中“Reality”所示为均匀的黑色小段;当标签停留时,由于标签处于阅读器阅读区域内,理想数据为一段黑色图形。然而实际产生的数据如图中“Raw”所示,标签在本该被阅读器读到的时间没有被读到,本不该被读到的区域被读到了,即出现了大量的积极读和消极读错误,其中漏读数据偏多。由图可以看出经过三种算法处理后,结果都比原始数据“Raw”有所改善,其中AORFC算法处理的结果与理想数据最为接近。
实验三:设计如图8所示的两种RFID拓扑结构,采集了标签数量为10、20、30到90的9组实际感知数据以及9组理想数据。图9显示了两种场景下随标签数量变化产生的去冗余率结果。在RFID阅读器水平均匀部署时,PraRRE算法的去冗余率比现有算法略低,但差距不大;在RFID阅读器随机无规则部署时,随标签数量递增,PraRRE算法的去冗余率随数据量的增加而逐渐降低,但一直保持高于现有算法。
最后基于J2EE体系架构开发了制造企业RFID数据清洗系统,本系统可以是制造车间信息管理系统中的一个模块,该模块的主要功能是将在制造车间部署的RFID设备感知到的海量数据进行综合的清洗处理,结合制造车间信息管理系统中的其它功能模块,合理设计该模块的结构流程,提高RFID数据质量,为制造车间信息管理提供可靠有效的感知数据。如图10所示,展示了系统中的某些模块,完成了系统各功能模块的测试与运行,验证了该系统在实际车间制造过程中的可行性。
本发明与现有技术相比具有如下优点:
1.本发明考虑现有方法在全面综合处理漏读、冗余、多读三种问题的方面的缺憾,构建一种将数据分割同步处理的总体清洗框架,解决了稀疏部署时漏读数据、密集部署时冗余数据的问题,提升系统处理效率。
2.本发明针对大量漏读数据中阅读率这个重要参数,通过对阅读率的预处理消除孤立噪声点,考虑标签的动态性动态调整置信度参数,利用多线程及数据缓存提高处理的时效性。
3.本发明针对现有基于贝叶斯推断去冗余方法中获取极大似然概率只考虑了RFID直线均匀部署以及平面规则部署的情形,构建了一种RFID空间位置分布的空间关系模型,使得方法更具有普适性和鲁棒性。
4.本发明开发了RFID数据智能清洗系统。首先利用Matlab软件搭建了实验仿真平台,分析比较本发明提出的数据清洗算法与各经典算法改进算法的准确率与效率。然后基于JAVA语言,利用Java Web相关技术开发实现了RFID数据智能清洗系统。大量的试验数据表明该技术是非常有效并且可行的。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (9)

1.一种面向车间制造过程的海量RFID数据智能清洗方法,其特征在于,包括以下步骤:
S1、获取制造车间中不同的RFID拓扑结构中感知到的RFID数据;
S2、构建面向数据的分割器将RFID数据分割为漏读数据和空间冗余数据;
S3、对漏读数据采用自适应实时的漏读平滑算法进行处理,包括进行阅读预处理、置信度调整和多线程处理,得到高准确率的RFID数据;
S4、对空间冗余数据采用面向实用性的数据级冗余消除方法进行处理,引入空间位置检测模型,得到去除冗余后的RFID数据;
步骤S2中进行RFID数据分割的步骤具体包括:
S21、将RFID数据转换为三维数据,通过基于三维十字窗的滑动分割方法对漏读数据和空间冗余数据进行检测;
S22、对每个时刻的数据进行空间窗口检测将存在冗余的数据位置标记出来,分割出空间冗余数据;
S23、利用多个时刻的数据分布窗口沿时间轴滑动,标记出该时间段内的漏读数据发生的起始及终止时间,分割出漏读数据。
2.根据权利要求1所述的面向车间制造过程的海量RFID数据智能清洗方法,其特征在于,步骤S3中采用自适应实时的漏读平滑算法进行处理的步骤具体包括:
S31、统计感知RFID数据的阅读率,对阅读率参数进行中值滤波预处理,有效消除数据孤立点,同时保持其边缘特性;
S32、设置初始窗口大小及置信度,通过观测数据自适应调整窗口大小和置信度平滑RFID漏读数据;
S33、采用多线程技术对数据阅读率进行预处理以及自适应调节窗口大小平滑数据改善漏读,两个线程独立并行运行,中间备有数据缓存区保存中间数据,实时处理得到高准确率的RFID数据。
3.根据权利要求1所述的面向车间制造过程的海量RFID数据智能清洗方法,其特征在于,步骤S4中采用面向实用性的数据级冗余消除方法进行处理的步骤具体包括:
S41、根据冗余数据的产生依赖的RFID阅读器的拓扑结构、RFID阅读器的阅读范围以及RFID阅读器的最大阅读率,建立空间位置检测模型;
S42、利用MCMC抽样获取海量标签位置分布样本;
S43、基于贝叶斯推断理论以及空间位置检测模型,统计样本的后验概率,取后验概率最大的样本为标签的位置分布,得到去除冗余后的RFID数据。
4.根据权利要求2所述的面向车间制造过程的海量RFID数据智能清洗方法,其特征在于,步骤S31中进行阅读率预处理的步骤具体包括:
S311、选取一定大小的窗口在标签的阅读率数据上漫游,并将窗口的中心与某个阅读率数据位置重合;
S312、读取窗口中各对应位置的阅读率大小;
S313、将读取到的阅读率从小到大排列;
S314、取排序后阅读率数据中的中间值,将其作为窗口中心位置的阅读率。
5.根据权利要求2所述的面向车间制造过程的海量RFID数据智能清洗方法,其特征在于,步骤S32中自适应平滑处理的步骤具体包括:
S321、初始化窗口大小w0并设置置信度δ;
S322、统计窗口当前wi中标签i的平均阅读率阅读率的变化量Δpi,t以及|Si1|和|Si2|;
S323、利用当前标签速度下的置信度参数δ计算满足数据完整性要求需要的窗口大小以及统计阅读率的变化量Δpi,t连续为负数的次数;
S324、如果阅读率的变化量Δpi,t连续为负数的次数大于2并且|Si2|为0则确定标签i正在离开阅读器范围,此时应减少窗口大小以防止标签积极读错误,将当前窗口大小wi减为原来的一半;
S325、否则判断是否满足标签跃迁条件,如果满足说明标签i正在移动,此时应减少窗口大小以防止标签积极读错误,将当前窗口大小wi减小2个阅读周期;
S326、否则比较当前窗口大小wi如果wi小于并且说明标签i正在像阅读器移动,此时应增加窗口大小增加标签i被读到的概率,将当前窗口大小wi增加2个阅读周期。
6.根据权利要求3所述的面向车间制造过程的海量RFID数据智能清洗方法,其特征在于,步骤S41中建立空间位置检测模型的步骤具体包括:
S411、根据拓扑系统中相距最远的两个阅读器之间的距离以及阅读率变化曲线得到在该拓扑系统中标签被两个阅读器同时读到的最小概率,最小概率Pmin为:
S412、根据拓扑系统中任意两个阅读器之间的距离以及阅读器的最大阅读范围得到某个标签同时被这两个阅读器读到的概率;标签同时被阅读器i和阅读器j阅读到的概率p(i,j):
p(i,j)=1-Dis/Sminor
S413、在最小概率的基础上计算标签被两个阅读器同时读到发生冗余的位置转移概率P:
在已知标签的位置分布H和RFID数据的观察值Z的情况下,将位置转移概率P代入下式即可由下式求得极大似然概率p(Z|H):
Q=Z*P
其中,两个相距最远的阅读器之间距离为L,阅读器的主阅读范围为Smajor,次阅读范围为Sminor,最大阅读率为Pmax;阅读器i和阅读器j之间的距离为Dis,阅读器最大阅读范围为Sminor
7.一种面向车间制造过程的海量RFID数据智能清洗系统,其特征在于,包括:
RFID数据感知模块,通过在加工生产车间、装配车间、物料车间制造区域内部署RFID设备,对车间加工生产状态、物料储备信息进行感知;
数据分割模块,用于构建面向数据的分割器将RFID数据分割为漏读数据和空间冗余数据;
进行RFID数据分割的步骤具体包括:
S21、将RFID数据转换为三维数据,通过基于三维十字窗的滑动分割方法对漏读数据和空间冗余数据进行检测;
S22、对每个时刻的数据进行空间窗口检测将存在冗余的数据位置标记出来,分割出空间冗余数据;
S23、利用多个时刻的数据分布窗口沿时间轴滑动,标记出该时间段内的漏读数据发生的起始及终止时间,分割出漏读数据;
数据清洗模块,包括漏读数据处理单元、空间冗余数据处理单元和时间冗余处理单元,用于对漏读数据采用自适应实时的漏读平滑算法进行处理,包括进行阅读预处理、置信度调整和多线程处理,得到高准确率的RFID数据;对空间冗余数据采用面向实用性的数据级冗余消除方法进行处理,引入空间位置检测模型,得到去除冗余后的RFID数据;时间冗余处理则是对漏读处理和空间冗余处理后的数据进行合并和相应转化。
8.根据权利要求7所述的面向车间制造过程的海量RFID数据智能清洗系统,其特征在于,漏读数据处理单元包括:
阅读预处理单元,用于统计感知RFID数据的阅读率,对阅读率参数进行中值滤波预处理,有效消除数据孤立点,同时保持其边缘特性;
自适应窗口平滑处理单元,用于设置初始窗口大小及置信度,通过观测数据自适应调整窗口大小和置信度平滑RFID漏读数据;
多线程实时处理单元,用于采用多线程技术对数据阅读率进行预处理以及自适应调节窗口大小平滑数据改善漏读,两个线程独立并行运行,中间备有数据缓存区保存中间数据,实时处理得到高准确率的RFID数据。
9.根据权利要求8所述的面向车间制造过程的海量RFID数据智能清洗系统,其特征在于,空间冗余数据处理单元包括:
空间位置检测模型建立单元,用于根据冗余数据的产生依赖的RFID阅读器的拓扑结构、RFID阅读器的阅读范围以及RFID阅读器的最大阅读率,建立空间位置检测模型;
样板抽取单元,用于利用MCMC抽样获取海量标签位置分布样本;
冗余去除单元,用于基于贝叶斯推断理论以及空间位置检测模型,统计样本的后验概率,取后验概率最大的样本为标签的位置分布,得到去除冗余后的RFID数据。
CN201610887136.8A 2016-10-11 2016-10-11 面向车间制造过程的海量rfid数据智能清洗方法及系统 Expired - Fee Related CN106528634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610887136.8A CN106528634B (zh) 2016-10-11 2016-10-11 面向车间制造过程的海量rfid数据智能清洗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610887136.8A CN106528634B (zh) 2016-10-11 2016-10-11 面向车间制造过程的海量rfid数据智能清洗方法及系统

Publications (2)

Publication Number Publication Date
CN106528634A CN106528634A (zh) 2017-03-22
CN106528634B true CN106528634B (zh) 2019-11-26

Family

ID=58331282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610887136.8A Expired - Fee Related CN106528634B (zh) 2016-10-11 2016-10-11 面向车间制造过程的海量rfid数据智能清洗方法及系统

Country Status (1)

Country Link
CN (1) CN106528634B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101507B (zh) * 2017-06-20 2023-09-26 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备和存储介质
CN109491991B (zh) * 2018-11-08 2022-03-01 四川长虹电器股份有限公司 一种无监督的数据自动清洗方法
CN110320513A (zh) * 2019-07-05 2019-10-11 南京简睿捷软件开发有限公司 一种基于rfid的针对大面积车间的生产要素定位系统与方法
CN111651445B (zh) * 2020-05-27 2022-04-08 浙江外国语学院 基于轻量级事件检测的rfid数据清洗方法
CN112561375B (zh) * 2020-12-23 2024-02-20 南通河海大学海洋与近海工程研究院 一种智能车间数据监控方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509062A (zh) * 2011-11-14 2012-06-20 无锡南理工科技发展有限公司 一种基于滑动窗口的rfid数据流多标签清洗方法
CN103473574A (zh) * 2013-09-01 2013-12-25 湖南人文科技学院 一种基于时序关系的非确定性rfid数据处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2002032468A1 (ja) * 2000-10-13 2004-02-26 オリンパス株式会社 自動洗滌・消毒装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509062A (zh) * 2011-11-14 2012-06-20 无锡南理工科技发展有限公司 一种基于滑动窗口的rfid数据流多标签清洗方法
CN103473574A (zh) * 2013-09-01 2013-12-25 湖南人文科技学院 一种基于时序关系的非确定性rfid数据处理方法

Also Published As

Publication number Publication date
CN106528634A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106528634B (zh) 面向车间制造过程的海量rfid数据智能清洗方法及系统
US20190205665A1 (en) Method, apparatus, and device for determining lane line on road
CN108960337B (zh) 一种基于深度学习模型的多模态复杂活动识别方法
CN110503077B (zh) 一种基于视觉的实时人体动作分析方法
JP2013242761A (ja) マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム
CN109241030A (zh) 机器人作业数据分析服务器和机器人作业数据分析方法
CN108830191A (zh) 基于改进emm及orb算法的移动机器人slam方法
CN106204644A (zh) 一种基于视频的目标长期跟踪方法
CN108734195A (zh) 基于协同学习的弱监督检测模型训练方法及系统
CN103745238B (zh) 基于AdaBoost和主动形状模型的受电弓识别方法
CN114821852B (zh) 基于特征金字塔的电网缺陷深度识别巡查机器人控制系统
CN114048546B (zh) 一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法
CN113037577A (zh) 网络流量预测方法、装置和计算机可读存储介质
CN109857878A (zh) 物品标注方法及装置、电子设备及存储介质
CN109740091B (zh) 一种基于行为认知的用户网络行为的预测系统及方法
Finean et al. Motion planning in dynamic environments using context-aware human trajectory prediction
CN108648214B (zh) 一种基于宽度学习滤波的视觉slam算法及系统
Walsh et al. Sustainable ai in the cloud: Exploring machine learning energy use in the cloud
Li [Retracted] Design and Implementation of Human Motion Recognition Information Processing System Based on LSTM Recurrent Neural Network Algorithm
Adeagbo et al. Revamping structural health monitoring of advanced rail transit systems: A paradigmatic shift from digital shadows to digital twins
CN110163084A (zh) 操作员动作监督方法、装置及电子设备
CN113822144A (zh) 一种目标检测方法、装置、计算机设备和存储介质
Ji et al. Marginalized stochastic natural gradients for black-box variational inference
CN110045691A (zh) 一种多源异构大数据的多任务处理故障监测方法
Chen et al. Research on adaptive Monte Carlo location method based on fusion posture estimation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191126

Termination date: 20201011