CN105426456A - 一种在大数据挖掘中传感器采集非结构化数据的方法 - Google Patents

一种在大数据挖掘中传感器采集非结构化数据的方法 Download PDF

Info

Publication number
CN105426456A
CN105426456A CN201510772639.6A CN201510772639A CN105426456A CN 105426456 A CN105426456 A CN 105426456A CN 201510772639 A CN201510772639 A CN 201510772639A CN 105426456 A CN105426456 A CN 105426456A
Authority
CN
China
Prior art keywords
data
sensor
unstructured
acquisition equipment
unstructured data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510772639.6A
Other languages
English (en)
Other versions
CN105426456B (zh
Inventor
景蔚亮
陈邦明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN QINHAI DIGITAL CO Ltd
Original Assignee
Shanghai Xinchu Integrated Circuit Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinchu Integrated Circuit Co Ltd filed Critical Shanghai Xinchu Integrated Circuit Co Ltd
Priority to CN201510772639.6A priority Critical patent/CN105426456B/zh
Publication of CN105426456A publication Critical patent/CN105426456A/zh
Application granted granted Critical
Publication of CN105426456B publication Critical patent/CN105426456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Abstract

本发明公开了一种在大数据挖掘中传感器采集非结构化数据的方法,包括:提供微控制器,第一类传感器和第二类传感器,数据采集设备采用微控制器处理第一类传感器和/或第二类传感器采集到的数据,提供本地存储、数据中心,存储非结构化数据和/或结构化数据;第一类传感器采集非结构化数据,第二类传感器在特定触发条件下采集结构化数据;结构化数据的数据结构为记录,每一条记录包括采集的数据,或/和系统对该数据采集设备做出的响应和相应时间戳的结构化数据;通过搜索匹配数据采集设备中的第二类传感器采集的结构化数据记录,得到相应的时间戳;按照时间戳直接调出由第一类传感器采集到的非结构化数据中拥有相同时间戳的数据。

Description

一种在大数据挖掘中传感器采集非结构化数据的方法
技术领域
本发明涉及大数据挖掘领域,尤其涉及一种在大数据挖掘中传感器采集非结构化数据的方法。
背景技术
继计算机、互联网之后,物联网的出现带来了信息领域的第三次浪潮,根据美国研究机构Forrester预测,物联网所带来的产业价值将比互联网大30倍,物联网将成为下一个万亿元级别的信息产业业务。作为一个新兴学科,物联网受到了越来越多的关注,成为全球信息领域的焦点。一个简单的物联网结构如图1所示,前端有传感器,后端有数据中心。传感器把采集到的结构化数据和非结构化数据都上传到数据中心,在物联网结构中数据中心存储的数据达到PB,EB,ZB,将来甚至到达YB。根据IT调研公司IDC的预测,到2015年,全球的数字数据量大约会达到7.9ZB。在这些大数据中80%的数据为非结构化数据(比如:图像,声音,影视等),而仅仅不到20%的数据是结构化数据(比如:数字,符号等)。对于结构化数据,传统的搜索方式只需服务器根据关键字进行简单的查找搜索即可得到结果。但是在非结构化数据管理中,如果要查找数据,目前的方法大多是通过一些复杂的算法,筛选出一些相关的信息。相对于传统的根据关键字查找的方式来说,非结构化数据管理中在查找数据时,不仅花费了大量的时间,同时也产生了大量的功耗。
为了降低在非结构化数据中查找数据的时间,一种方式是通过开发更好的算法,另一种方式是提高服务器的性能。对于第一种方式来说,随着时间的推移,数据中心存储的数据容量越来越大,也就意味着要频繁的开发新的算法才能到达降低时间的目的,由此就需要大量的研发经费。对于第二种方式来说,高性能的服务器大多来自于欧美一些国家,而在这些高性能的服务器中又可能存在着“后门”,如果服务器中存放的有保密数据,那么这些数据有被盗取的风险。
因此,本领域的技术人员致力于开发一种在大数据挖掘中传感器采集非结构化数据的方法,使得传感器采集的非结构化的数据结构化,以便于大数据挖掘。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何降低在非结构化数据中查找数据的时间。
为实现上述目的,本发明提供了一种在大数据挖掘中传感器采集非结构化数据的方法,包括下列步骤:
S1、提供第一类传感器,用于采集非结构化数据;提供第二类传感器,用于采集结构化数据;数据中心,用于存储所述非结构化数据和/或所述结构化数据;提供数据采集设备,所述数据采集设备包括微控制器,所述微控制器用于处理所述第一类传感器和/或所述第二类传感器采集到的数据,所述数据采集设备中至少包括一个所述第二类传感器;提供本地存储,用于存储所述非结构化数据和/或所述结构化数据;
S2、所述第一类传感器采集非结构化数据,存储于所述本地存储或上传到数据中心保存;
S3、所述第二类传感器在特定触发条件下采集结构化数据,存储于所述本地存储,或上传到数据中心;所述结构化数据的数据结构为记录,每一条记录包括采集的数据,和/或来自所述微控制器或所述数据中心对该数据采集设备做出的响应和相应时间戳的结构化数据;
S4、通过搜索匹配所述数据采集设备中的所述第二类传感器采集的结构化数据记录,得到相应的时间戳;
S5、所述数据中心的处理器或所述数据采集设备中的微控制器按照所述时间戳直接调出由所述第一类传感器采集到的所述非结构化数据中拥有相同时间戳的数据。
进一步地,所述第一类传感器包括摄像装置、拾音装置。
进一步地,所述第二类传感器包括温度传感器、湿度传感器、气体传感器、震动传感器。
进一步地,所述结构化数据包括温度、湿度、气体。
进一步地,所述非结构化数据包括视频、声音。
进一步地,所述特定条件包括静止影像至动态影像的变换、温度阈值、湿度阈值、气体浓度。
本发明提出一种在大数据挖掘中传感器采集非结构化数据的方法,在本发明中前端的数据采集设备如图2所示,微控制器用来处理传感器采集到的数据,在该设备中至少包含一个传感器。
数据采集设备中的传感器分为两类:
a.具有实时性采集功能(第一类传感器)。这一类传感器采集的数据大多是一些图片,声音,视频等第一类非结构化数据,需要大容量的存储器来存储。所以传感器把采集到的数据上传到数据中心或存放在本地存储器。
b.具有触发性采集功能(第二类传感器)。这一类传感器被设置为当外界环境到达设定的触发值时,传感器才开始采集数据。传感器没触发时,为了节省功耗处于休眠状态。这类传感器采集的数据大多是一些诸如气体浓度,外界温度等结构化数据。由于该类传感器记录的数据容量非常小,可以存放在本地的存储器上,也可以上传到数据中心。
当前端数据采集设备的第二类传感器被触发后,传感器开始采集数据m,前端数据采集设备并同时把当前的时间m记录下来,其记录的数据如表格1所示。
数据1 时间1
数据2 时间2
…….. ……..
数据m 时间m
表格1
然后,把采集到的数据和时间信息,即TimeStamp存储在本地的存储器上,或者是上传到数据中心。前端数据采集设备的微控制器或者数据中心的处理器对采集到的数据会进行处理,并立即做出响应,处理器或者微控制器做出的响应记录如表格2所示。
响应1 时间1
响应2 时间2
…….. ……..
响应p 时间p
表格2
由以上所述可知,在本发明中前端的数据采集设备不仅实时采集到了非结构化的大数据,同时根据设定的触发值采集了一些小容量的结构化数据并记录下了时间,而且微控制器或者是处理器做出的响应也被记录了下来。
本发明提出的一种在大数据挖掘中传感器采集非结构化数据的方法,其原理在于先通过搜索匹配根据前端数据采集设备中的第二类传感器采集并记录的结构化数据,通过查找匹配得到相应的时间戳。然后后端数据中心的处理器或数据采集设备中的微控制器按照时间戳直接调出由第一类传感器采集到的非结构化大数据中拥有相同时间戳的数据。如果在对结构化数据查找匹配时得到多个满足查找条件的时间戳,在本发明中可以对这些查找匹配出的第二类传感器采集并记录的结构化数据设定优先级,然后后端数据中心根据优先级由时间戳对非结构化数据进行查找调取。每一条记录包括采集的数据,和/或来自所述微控制器或所述数据中心对该数据采集设备做出的响应和相应时间戳的结构化数据。整个流程如图3所示。
本发明所述技术方案是通过为非结构化的大数据添加一些时间戳,然后按照时间戳来查找,从而到达快速查找的目的。同时,在本发明中时间戳的计算可以采用前端数据采集设备上的微控制器来完成,进而不仅可以达到降低功耗的目的,而且还能避免使用高性能的服务器带来的保密数据丢失的隐患。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是一个简单的物联网结构图;
图2是本发明的一个较佳实施例的前端数据采集设备示意图;
图3是本发明的一个较佳实施例的查找匹配流程图;
图4是本发明的一个较佳实施例的小区安防平面示意图。
具体实施方式
为了便于说明本发明现举一实例如下:某高档小区中有n个住户和一个监控室,如图4所示。此小区在建造时,为提高小区的安防性能,在每家每户的门和窗户旁边都安装的有一个本发明中提到数据采集设备。该数据采集设备中有两个传感器,一个传感器属于第一类传感器,用来实时采集该住户的出入视频,且把采集的视频上传到监控室中的服务器。另一个传感器属于第二类传感器,当住户的门或者窗打开到一定程度时会触发此传感器工作,然后这个传感器会记录当前的时间。同时在小区大门口马路的拐弯处也有一个数据采集设备A,这个数据采集设备A中有两个传感器:传感器1和传感器2。传感器1用来采集过往车辆的视频,并把采集到的视频上传到监控室中的服务器,如果车辆的车速超过40码(一般来说,车辆在转弯前行时车速低于40码是人可控车速,也是比较安全的;当从小区出来的车辆转弯时车速超过40码,那么该车辆就会比较可疑),就会触发传感器2,那么传感器2就把当前车速记录下来并记录当前时间。假设某一天,住户1家中被盗窃了一件不常用的贵重物品,2个月后住户1的主人才发现东西丢失并报警。然而住户1的主人并不知道什么时候丢失的物品,只记得上次看到那个物品在4个月前。在这4个月里监控室中服务器保存的视频数据也许已经达到上TB的容量,如果按照传统的方式,警察调用视频查找案发时间,也许需要数天的时间才能查找到结果。然而在本发明中,当要查找4个月内存储的视频时,首先,住户1数据采集设备中的微控制器,会查找本地记录的这4个月内所有门或者窗户打开过的时间如表格3所示。
窗户打开 xxxx年xx月xx天03点32分40秒
门打开 xxxx年xx月xx天12点02分13秒
…….. ……..
窗户打开 xxxx年xx月xx天00点45分04秒
表格3
然后,微控制器把查找到的时间戳P1上传到监控室中的服务器。由于时间戳P1中记录的数据可能是住户自己开门或开窗触发记录下来的,也可能是窃贼行为所触发记录下来的,所以为了进一步缩小查找的时间范围,服务器把接收到的时间戳P1依次发送到马路边上的数据采集设备A。由该数据采集设备A中的微控制器根据接收到的时间戳P1,在本地记录的如表格4所示的数据中,查找在4个月内这个时间戳P1前后2小时
车速45码 xxxx年xx月xx天02点02分18秒
车速50码 xxxx年xx月xx天12点30分23秒
…….. ……..
车速55码 xxxx年xx月xx天01点00分43秒
表格4
车速超过40码的数据。然后数据采集设备A把查找到的时间戳P2上传到服务器,最后由服务器把时间戳P2前后1小时内的视频按照车速由高到低的顺序进行排列提供给警察查询,因为车辆在转弯前行过程中,当车速越高表明是窃贼的嫌疑性越大。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (6)

1.一种在大数据挖掘中传感器采集非结构化数据的方法,其特征在于,包括下列步骤:
S1、提供第一类传感器,用于采集非结构化数据;提供第二类传感器,用于采集结构化数据;提供数据采集设备,所述数据采集设备包括微控制器,所述微控制器用于处理所述第一类传感器和/或所述第二类传感器采集到的数据,所述数据采集设备中至少包括一个所述第二类传感器;提供本地存储,用于存储所述非结构化数据和/或所述结构化数据;
S2、所述第一类传感器采集非结构化数据,存储于所述本地存储或上传到数据中心保存;
S3、所述第二类传感器在特定触发条件下采集结构化数据,存储于所述本地存储或上传到数据中心;所述结构化数据的数据结构为记录,每一条所述记录包括采集的数据,和/或来自所述微控制器或所述数据中心对该数据采集设备做出的响应和相应时间戳的结构化数据;
S4、通过搜索匹配所述数据采集设备中的所述第二类传感器采集的结构化数据记录,得到相应的时间戳;
S5、所述数据中心的处理器或所述数据采集设备中的的微控制器按照所述时间戳直接调出由所述第一类传感器采集到的所述非结构化数据中拥有相同时间戳的数据。
2.如权利要求1所述的在大数据挖掘中传感器采集非结构化数据的方法,其特征在于,所述第一类传感器包括摄像装置、拾音装置。
3.如权利要求1所述的在大数据挖掘中传感器采集非结构化数据的方法,其特征在于,所述第二类传感器包括温度传感器、湿度传感器、气体传感器、震动传感器。
4.如权利要求1所述的在大数据挖掘中传感器采集非结构化数据的方法,其特征在于,所述结构化数据包括温度、湿度、气体。
5.如权利要求1所述的在大数据挖掘中传感器采集非结构化数据的方法,其特征在于,所述非结构化数据包括视频、声音。
6.如权利要求1所述的在大数据挖掘中传感器采集非结构化数据的方法,其特征在于,所述特定条件包括静止影像至动态影像的变换、温度阈值、湿度阈值、气体浓度。
CN201510772639.6A 2015-11-12 2015-11-12 一种在大数据挖掘中传感器采集非结构化数据的方法 Active CN105426456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510772639.6A CN105426456B (zh) 2015-11-12 2015-11-12 一种在大数据挖掘中传感器采集非结构化数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510772639.6A CN105426456B (zh) 2015-11-12 2015-11-12 一种在大数据挖掘中传感器采集非结构化数据的方法

Publications (2)

Publication Number Publication Date
CN105426456A true CN105426456A (zh) 2016-03-23
CN105426456B CN105426456B (zh) 2019-06-25

Family

ID=55504668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510772639.6A Active CN105426456B (zh) 2015-11-12 2015-11-12 一种在大数据挖掘中传感器采集非结构化数据的方法

Country Status (1)

Country Link
CN (1) CN105426456B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992567A (zh) * 2017-11-29 2018-05-04 北京天健通泰科技有限公司 数据采集方法及数据采集系统
CN110709885A (zh) * 2017-06-19 2020-01-17 株式会社而摩比特 数据结构及复合数据生成装置
CN112015952A (zh) * 2019-06-03 2020-12-01 食亨(上海)科技服务有限公司 数据处理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140232863A1 (en) * 2011-05-12 2014-08-21 Solink Corporation Video analytics system
CN104573037A (zh) * 2015-01-16 2015-04-29 北京中电兴发科技有限公司 一种通过多颜色时间轴快速查询监控录像的方法及系统
CN104715299A (zh) * 2013-12-12 2015-06-17 贵州师范大学 一种基于物联网技术的基酒信息管理方法及其系统
CN104742802A (zh) * 2014-12-19 2015-07-01 北京联合大学 一种基于多传感器与视频识别技术的酒驾检测系统与方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140232863A1 (en) * 2011-05-12 2014-08-21 Solink Corporation Video analytics system
CN104715299A (zh) * 2013-12-12 2015-06-17 贵州师范大学 一种基于物联网技术的基酒信息管理方法及其系统
CN104742802A (zh) * 2014-12-19 2015-07-01 北京联合大学 一种基于多传感器与视频识别技术的酒驾检测系统与方法
CN104573037A (zh) * 2015-01-16 2015-04-29 北京中电兴发科技有限公司 一种通过多颜色时间轴快速查询监控录像的方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110709885A (zh) * 2017-06-19 2020-01-17 株式会社而摩比特 数据结构及复合数据生成装置
CN110709885B (zh) * 2017-06-19 2023-11-21 株式会社而摩比特 数据结构及复合数据生成装置
CN107992567A (zh) * 2017-11-29 2018-05-04 北京天健通泰科技有限公司 数据采集方法及数据采集系统
CN112015952A (zh) * 2019-06-03 2020-12-01 食亨(上海)科技服务有限公司 数据处理系统及方法

Also Published As

Publication number Publication date
CN105426456B (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
EP3497590B1 (en) Distributed video storage and search with edge computing
US7457834B2 (en) Aggregation and retrieval of network sensor data
US7840546B2 (en) Method and apparatus for conducting data queries using consolidation strings and inter-node consolidation
EP2046040A2 (en) An alerting system and method for safety, security, and business productivity
CN109634946B (zh) 一种基于大数据挖掘的轨迹智能匹配关联分析方法
CN105426456A (zh) 一种在大数据挖掘中传感器采集非结构化数据的方法
US20090248711A1 (en) System and method for optimizing the storage of data
CN105608188A (zh) 数据处理方法和数据处理装置
CN111241305A (zh) 数据处理方法和装置、电子设备及计算机可读存储介质
CN103092867A (zh) 一种数据管理方法及系统、数据分析装置
CN105956068A (zh) 基于分布式数据库的网页url去重方法
CN111107319A (zh) 基于区域摄像头的目标追踪方法、装置及系统
CN107391600A (zh) 用于在内存中存取时序数据的方法和装置
CN105224529A (zh) 一种基于用户浏览行为的个性化推荐方法和装置
Arjun et al. Integrating cloud-WSN to analyze weather data and notify SaaS user alerts during weather disasters
US11016957B2 (en) Sensor data based query results
Wei et al. Enhancing local live tweet stream to detect news
CN102012946A (zh) 一种高效的安全监控视频/图像数据存储方法
CN111767432A (zh) 共现对象的查找方法和装置
CN104424246A (zh) 数据存储系统及方法
US8849844B1 (en) Image reacquisition
CN105072174A (zh) 一种基于云服务的多级联合治超方法
Aggarwal Mining sensor data streams
CN116610849A (zh) 获取轨迹相似的移动对象的方法、装置、设备及存储介质
Yu et al. A police big data analytics platform: framework and implications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221031

Address after: 4 / F, building 2, Hunan scientific research achievements transformation center workshop, Longping high tech park, Furong district, Changsha City, Hunan Province 410000

Patentee after: HUNAN QINHAI DIGITAL Co.,Ltd.

Address before: No. 8, Building 2, No. 6505, Tingwei Road, Jinshan District, Shanghai, June 2015

Patentee before: SHANGHAI XINCHU INTEGRATED CIRCUIT Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 338, Zhanggongling Road, Longping High tech Park, Furong District, Changsha, Hunan 410000

Patentee after: Hunan Qinhai Digital Co.,Ltd.

Address before: 4 / F, building 2, Hunan scientific research achievements transformation center workshop, Longping high tech park, Furong district, Changsha City, Hunan Province 410000

Patentee before: HUNAN QINHAI DIGITAL Co.,Ltd.