CN106933990A - 一种传感器数据清洗方法 - Google Patents

一种传感器数据清洗方法 Download PDF

Info

Publication number
CN106933990A
CN106933990A CN201710094512.2A CN201710094512A CN106933990A CN 106933990 A CN106933990 A CN 106933990A CN 201710094512 A CN201710094512 A CN 201710094512A CN 106933990 A CN106933990 A CN 106933990A
Authority
CN
China
Prior art keywords
sensor
role
data
rule
data cleansing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710094512.2A
Other languages
English (en)
Inventor
沈达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Eco Tech Co Ltd
Original Assignee
Nanjing Eco Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Eco Tech Co Ltd filed Critical Nanjing Eco Tech Co Ltd
Priority to CN201710094512.2A priority Critical patent/CN106933990A/zh
Publication of CN106933990A publication Critical patent/CN106933990A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种传感器数据的清洗方法,该方法首先在系统中配置一些传感器角色,当系统添加传感器的时候,为传感器赋予不同的角色。在执行数据清洗前,为每个角色预先设置数据清洗规则;在清洗过程中,获得传感器数据的传感器信息,查询该传感器的角色,获取传感器角色预定义清洗代码,执行清洗代码来清洗传感器数据。本申请使得数据清洗规则配置更灵活,并且对大量传感器清洗规则进行层次化的高效管理,方便维护,更新。根据本申请公开的传感器数据清洗方法可以对海量数据进行清洗,效率高。

Description

一种传感器数据清洗方法
技术领域
本发明涉及物联网数据处理领域,尤其涉及一种传感器数据清洗方法。
背景技术
近年来,物联网技术发展迅猛,各种传感器也越来越多的部署到家庭,商场,公园的各个角落。越来越多的数字化信息可以方便的获取到,但同时为了有效利用这些信息,或者对这些数据进行更有效的统计,分析,需要投入更多的时间对信息进行组织和整理。数据清洗就是数据管理中首要的工作,系统中因为代码缺陷、业务定义变更、网络延时等因素会产生一些脏数据,例如在上海,假如传感器采集的空气温度是80摄氏度,这样的数据显然是有问题的。在对数据做统计分析之前,需要首先进行数据清洗,将这些脏数据先过滤掉,以确保统计分析的准确性。通过数据清洗,可以减少数据错误和数据中的不一致,检测并删除或改正将转入数据库的脏数据。
在物联网网络中,传感器的数量很多,各种传感器差异大。在传统的数据清洗方式中,系统为每个传感器定义一个数据清洗规则,当采集到数据后,根据传感器信息查找到该传感器的清洗规则,按照清洗规则进行数据清洗。这种方法是可以实时对传感器数据进行清洗,但是如果数据清洗规则更新后,前期数据也需要重新清洗。而且系统每添加一个传感器,都要为该传感器定义数据清洗规则,非常繁琐;随着传感器数量增多,数据清洗规则也逐渐变多;数据清洗规则总数不断增加后,规则查询效率也不断变低。
事实上,尽管传感器差异大,但是同种类别的传感器之间有很多相似之处,在实际系统中,如果抽象出各个传感器的相似点,可以减少规则定义,优化规则的数目,如果进一步抽象出不同种类传感器之间的关联,则更可以对传感器建立层次化的结构,使得规则的管理更加合理,提高规则查询速度。
发明内容
本发明针对以上的问题,发明了一种新的传感器数据清洗方法。针对传感器的相似之处,把传感器抽象成各种角色,把各个传感器的重复的数据清洗规则统一赋给传感器角色。进一步地,发明为角色引入面向对象的概念,抽象出各类传感器角色间的关系,建立传感器角色的层次关系,使得规则的层次更清晰,消除角色间的重复规则。按照这样的方式,可以极大减少规则数目,从而解决传感器规则繁多,规则重复的问题。
为实现上述目的,本发明提出了一种物联网传感器数据清洗方法,采取以下技术方案,包括以下步骤:第一步:预定义传感器角色,建立传感器角色间的层次关系;第二步:在系统中增加传感器的时候,将传感器设置为属于一个或者多个角色;第三步:在传感器采集数据并记录到系统时,记录传感数据值,以及传感器对应的数据;第四步:执行数据清洗前,定义各个传感器角色的数据清洗规则;第五步:规则定义完成后,建立所有传感器角色的数据清洗规则链;第六步:数据清洗过程中,系统处理各个传感器数据时,根据传感器信息查找到传感器所属角色,进而查找到传感器角色的数据清洗规则链;第七步:执行数据清洗任务,完成数据清洗。
作为本发明的优化方案,第一步的详细过程包括如下特征:定义传感器角色及角色间的相互关系。特别的,角色间有层次关系,这点有点类似于面向对象的继承关系,子角色可以拥有父角色的相应数据清洗规则。
作为本发明的优化方案,第三步的详细过程包括如下步骤:在传感器采集数据并记录到系统时,记录传感数据值,以及传感器对应的数据。传感器如何将数据传送到系统不做限定,可以通过zigbee,wifi,GPRS,4G等任何一种形式。
作为本发明的优化方案,第五步的详细过程包括如下步骤:根据传感器角色以及传感器角色间的关系,建立各个传感器角色的数据清洗规则链。
作为本发明的优化方案,第六步的详细过程包括如下步骤:执行数据清洗时,读取每个传感器数据,查找到该传感器对应的传感器角色,然后可以根据传感器角色,取得步骤4中的数据清洗规则链。
作为本发明的优化方案,所述的清洗规则可以使用数据库查询语言或者脚本语言进行创建和编辑。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明:
图1是数据清洗流程图。
图2是角色图。
图3是某个传感器采集数据的数据清洗规则链。
图4是某个传感器采集数据的数据清洗规则链。
具体实施方式
下面结合附图和实施例对本申请技术方案做进一步详细说明,以下实施例不构成对本申请的限定。
本申请提出了一种海量数据清洗方法,如图1所示,包括步骤:
1.定义传感器角色及角色间的相互关系。特别的,角色间有层次关系,这点有点类似于面向对象的继承关系,子角色可以拥有父角色的相应数据清洗规则。附图2定义了几个角色以及这几个角色间的关系示例。如附图2中所示,‘二级子角色1’是‘一级子角色2’的子角色,‘一级子角色2’是‘根角色’的子角色。定义规则后,‘一级子角色2’将会自动拥有‘根角色’的所有数据清洗规则,同样地,‘二级子角色1’将会自动拥有‘一级子角色2’的所有数据清洗规则;
2.向系统添加传感器时,为传感器分配角色,一个传感器有可能属于多个角色。比如添加传感器sensor_A,并将sensor_A的传感器角色定义为‘二级子角色1’;
3.在传感器采集数据并记录到系统时,记录传感数据值,以及传感器对应的数据;
4.数据清洗前,定义各个传感器角色的数据清洗规则,每个传感器角色可能定义有多条数据清洗规则。比如将各个传感器角色的数据清洗规则定义成附图3所示:‘二级子角色1’拥有数据清洗规则a,数据清洗规则b,数据清洗规则c,数据清洗规则d……
5.根据传感器角色以及传感器角色间的关系,建立各个传感器角色的数据清洗规则链。比如传感器角色‘二级子角色1’的数据清洗规则链是‘二级子角色1’,‘一级子角色2’,‘根角色’的所有规则的总和。‘二级子角色1’的规则链如附图4所示;
6.执行数据清洗时,读取每个传感器数据,查找到该传感器对应的传感器角色,然后可以根据传感器角色,取得步骤5中的数据清洗规则链。比如如果某一条数据是sensor_A的传感器数据,则该数据对应的传感器角色是‘二级子角色1’,则相应的数据清洗规则链如附图4所示。
7.针对传感器数据,依次执行所有数据清洗规则,执行数据清洗任务,完成数据清洗。
以上显示和描述了本发明的基本原理、主要特征和优点。以上实施实例仅用以描述本发明的技术方案而不是对技术方法进行限制,本发明在应用上可延伸为其他的修改、变化和应用,并且认为所有这样的修改、变化和应用都落入要求保护的本发明范围内。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种物联网数据清洗方法,其特征在于:包括以下步骤:
第一步:预定义传感器角色,建立传感器角色间的层次关系;
第二步:在系统中增加传感器的时候,将传感器设置为属于一个或者多个角色;
第三步:在传感器采集数据并记录到系统时,记录传感数据值,以及传感器对应的数据;
第四步:执行数据清洗前,定义各个传感器角色的数据清洗规则;
第五步:规则定义完成后,建立所有传感器角色的数据清洗规则链;
第六步:数据清洗过程中,系统处理各个传感器数据时,根据传感器信息查找到传感器所属角色,进而查找到传感器角色的数据清洗规则链;
第七步:针对传感器数据,依次执行所有数据清洗规则,执行数据清洗任务,完成数据清洗。
2.根据权利要求1所述的一种物联网数据清洗方法,其特征在于:第一步的详细过程包括如下特征:定义传感器角色及角色间的相互关系。特别的,角色间有层次关系,这点有点类似于面向对象的继承关系,子角色可以拥有父角色的相应数据清洗规则。
3.根据权利要求1所述的一种物联网数据清洗方法,其特征在于:第三步的详细过程包括如下步骤:在传感器采集数据并记录到系统时,记录传感数据值,以及传感器对应的数据。传感器如何将数据传送到系统不做限定,可以通过zigbee,wifi,GPRS,4G等任何一种形式。
4.根据权利要求1所述的一种物联网数据清洗方法,其特征在于:第五步的详细过程包括如下步骤:根据传感器角色以及传感器角色间的关系,建立各个传感器角色的数据清洗规则链。
5.根据权利要求1所述的一种物联网数据清洗方法,其特征在于:第六步的详细过程包括如下步骤:执行数据清洗时,读取每个传感器数据,查找到该传感器对应的传感器角色,然后可以根据传感器角色,取得步骤4中的数据清洗规则链。
6.根据权利要求1所述的一种物联网数据清洗方法,其特征在于:所述的清洗规则可以使用数据库查询语言或者脚本语言进行创建和编辑。
CN201710094512.2A 2017-02-21 2017-02-21 一种传感器数据清洗方法 Pending CN106933990A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710094512.2A CN106933990A (zh) 2017-02-21 2017-02-21 一种传感器数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710094512.2A CN106933990A (zh) 2017-02-21 2017-02-21 一种传感器数据清洗方法

Publications (1)

Publication Number Publication Date
CN106933990A true CN106933990A (zh) 2017-07-07

Family

ID=59423427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710094512.2A Pending CN106933990A (zh) 2017-02-21 2017-02-21 一种传感器数据清洗方法

Country Status (1)

Country Link
CN (1) CN106933990A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107433591A (zh) * 2017-08-01 2017-12-05 上海未来伙伴机器人有限公司 多维度交互机器人应用控制系统及方法
CN112597145A (zh) * 2020-12-29 2021-04-02 恩亿科(北京)数据科技有限公司 实时数据清洗方法、系统、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521681A (zh) * 2011-11-18 2012-06-27 中国科学院对地观测与数字地球科学中心 功能和性能可扩展的遥感数据质量监测系统
CN103177094A (zh) * 2013-03-14 2013-06-26 成都康赛电子科大信息技术有限责任公司 一种物联网数据清洗方法
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN104077359A (zh) * 2014-06-05 2014-10-01 南京智库商务咨询有限公司 数据清洗与整合智能系统
US9336484B1 (en) * 2011-09-26 2016-05-10 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System and method for outlier detection via estimating clusters
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336484B1 (en) * 2011-09-26 2016-05-10 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System and method for outlier detection via estimating clusters
CN102521681A (zh) * 2011-11-18 2012-06-27 中国科学院对地观测与数字地球科学中心 功能和性能可扩展的遥感数据质量监测系统
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN103177094A (zh) * 2013-03-14 2013-06-26 成都康赛电子科大信息技术有限责任公司 一种物联网数据清洗方法
CN104077359A (zh) * 2014-06-05 2014-10-01 南京智库商务咨询有限公司 数据清洗与整合智能系统
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
匡哲君 等: ""基于无线传感器网络的角色成员关系剩余能量新算法"", 《吉林大学学报(工学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107433591A (zh) * 2017-08-01 2017-12-05 上海未来伙伴机器人有限公司 多维度交互机器人应用控制系统及方法
CN112597145A (zh) * 2020-12-29 2021-04-02 恩亿科(北京)数据科技有限公司 实时数据清洗方法、系统、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108171117A (zh) 基于多核异构并行计算的电力人工智能视觉分析系统
CN104750813A (zh) 一种基于数据归约模型的数据清洗方法
CN106528865A (zh) 一种快速精准的交通大数据清洗方法
CN107657267B (zh) 产品潜在用户挖掘方法及装置
CN106651392A (zh) 一种智能商业选址方法、装置及系统
CN105956015A (zh) 一种基于大数据的服务平台整合方法
CN101271526B (zh) 一种图像处理中物体自动识别并三维重建的方法
CN110263230A (zh) 一种基于密度聚类的数据清洗方法及装置
CN107341508A (zh) 一种快速美食图片识别方法及系统
CN110020178A (zh) 兴趣点识别方法、装置、设备及存储介质
CN108470195A (zh) 视频身份管理方法及装置
CN106933990A (zh) 一种传感器数据清洗方法
CN106294824A (zh) 制造物联网面向不确定数据流的复杂事件检测方法及系统
CN109325510A (zh) 一种基于网格统计的图像特征点匹配方法
CN114343504A (zh) 扫地机器人的清扫策略生成方法、装置、设备及存储介质
CN109710599A (zh) 一种基于知识图谱的群体划分方法及装置
CN111767826A (zh) 一种定时定点场景异常检测方法
CN108153837A (zh) 一种用于动车组调试的实时数据采集与存储方法及其系统
CN108182382A (zh) 基于图相似的行为识别方法及系统
CN107086925A (zh) 一种基于深度学习的互联网流量大数据分析方法
CN109862313A (zh) 一种视频浓缩方法及装置
CN110163461A (zh) 海洋生态环境监测与评价信息服务系统
CN114611728B (zh) 污水管网堵塞监测方法及系统
CN109685555A (zh) 商户筛选方法、装置、电子设备及存储介质
CN115878877A (zh) 基于概念漂移的航空服务器访问爬虫的可视检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707