背景技术
继计算机、互联网之后,物联网的出现带来了信息领域的第三次浪潮,根据美国研究机构Forrester预测,物联网所带来的产业价值将比互联网大30倍,物联网将成为下一个万亿元级别的信息产业业务。作为一个新兴学科,物联网受到了越来越多的关注,成为全球信息领域的焦点。一个简单的物联网结构如图1所示,前端有传感器,后端有数据中心。传感器把采集到的结构化数据和非结构化数据都上传到数据中心,在物联网结构中数据中心存储的数据达到PB,EB,ZB,将来甚至到达YB。根据IT调研公司IDC的预测,到2015年,全球的数字数据量大约会达到7.9ZB。在这些大数据中80%的数据为非结构化数据(比如:图像,声音,影视等),而仅仅不到20%的数据是结构化数据(比如:数字,符号等)。对于结构化数据,传统的搜索方式只需服务器根据关键字进行简单的查找搜索即可得到结果。但是在非结构化数据管理中,如果要查找数据,目前的方法大多是通过一些复杂的算法,筛选出一些相关的信息。相对于传统的根据关键字查找的方式来说,非结构化数据管理中在查找数据时,不仅花费了大量的时间,同时也产生了大量的功耗。
为了降低在非结构化数据中查找数据的时间,一种方式是通过开发更好的算法,另一种方式是提高服务器的性能。对于第一种方式来说,随着时间的推移,数据中心存储的数据容量越来越大,也就意味着要频繁的开发新的算法才能到达降低时间的目的,由此就需要大量的研发经费。对于第二种方式来说,高性能的服务器大多来自于欧美一些国家,而在这些高性能的服务器中又可能存在着“后门”,如果服务器中存放的有保密数据,那么这些数据有被盗取的风险。
因此,本领域的技术人员致力于开发一种在大数据挖掘中传感器采集非结构化数据的方法,使得传感器采集的非结构化的数据结构化,以便于大数据挖掘。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何降低在非结构化数据中查找数据的时间。
为实现上述目的,本发明提供了一种在大数据挖掘中传感器采集非结构化数据的方法,包括下列步骤:
S1、提供第一类传感器,用于采集非结构化数据;提供第二类传感器,用于采集结构化数据;数据中心,用于存储所述非结构化数据和/或所述结构化数据;提供数据采集设备,所述数据采集设备包括微控制器,所述微控制器用于处理所述第一类传感器和/或所述第二类传感器采集到的数据,所述数据采集设备中至少包括一个所述第二类传感器;提供本地存储,用于存储所述非结构化数据和/或所述结构化数据;
S2、所述第一类传感器采集非结构化数据,存储于所述本地存储或上传到数据中心保存;
S3、所述第二类传感器在特定触发条件下采集结构化数据,存储于所述本地存储,或上传到数据中心;所述结构化数据的数据结构为记录,每一条记录包括采集的数据,和/或来自所述微控制器或所述数据中心对该数据采集设备做出的响应和相应时间戳的结构化数据;
S4、通过搜索匹配所述数据采集设备中的所述第二类传感器采集的结构化数据记录,得到相应的时间戳;
S5、所述数据中心的处理器或所述数据采集设备中的微控制器按照所述时间戳直接调出由所述第一类传感器采集到的所述非结构化数据中拥有相同时间戳的数据。
进一步地,所述第一类传感器包括摄像装置、拾音装置。
进一步地,所述第二类传感器包括温度传感器、湿度传感器、气体传感器、震动传感器。
进一步地,所述结构化数据包括温度、湿度、气体。
进一步地,所述非结构化数据包括视频、声音。
进一步地,所述特定条件包括静止影像至动态影像的变换、温度阈值、湿度阈值、气体浓度。
本发明提出一种在大数据挖掘中传感器采集非结构化数据的方法,在本发明中前端的数据采集设备如图2所示,微控制器用来处理传感器采集到的数据,在该设备中至少包含一个传感器。
数据采集设备中的传感器分为两类:
a.具有实时性采集功能(第一类传感器)。这一类传感器采集的数据大多是一些图片,声音,视频等第一类非结构化数据,需要大容量的存储器来存储。所以传感器把采集到的数据上传到数据中心或存放在本地存储器。
b.具有触发性采集功能(第二类传感器)。这一类传感器被设置为当外界环境到达设定的触发值时,传感器才开始采集数据。传感器没触发时,为了节省功耗处于休眠状态。这类传感器采集的数据大多是一些诸如气体浓度,外界温度等结构化数据。由于该类传感器记录的数据容量非常小,可以存放在本地的存储器上,也可以上传到数据中心。
当前端数据采集设备的第二类传感器被触发后,传感器开始采集数据m,前端数据采集设备并同时把当前的时间m记录下来,其记录的数据如表格1所示。
数据1 |
时间1 |
数据2 |
时间2 |
…….. |
…….. |
数据m |
时间m |
表格1
然后,把采集到的数据和时间信息,即TimeStamp存储在本地的存储器上,或者是上传到数据中心。前端数据采集设备的微控制器或者数据中心的处理器对采集到的数据会进行处理,并立即做出响应,处理器或者微控制器做出的响应记录如表格2所示。
响应1 |
时间1 |
响应2 |
时间2 |
…….. |
…….. |
响应p |
时间p |
表格2
由以上所述可知,在本发明中前端的数据采集设备不仅实时采集到了非结构化的大数据,同时根据设定的触发值采集了一些小容量的结构化数据并记录下了时间,而且微控制器或者是处理器做出的响应也被记录了下来。
本发明提出的一种在大数据挖掘中传感器采集非结构化数据的方法,其原理在于先通过搜索匹配根据前端数据采集设备中的第二类传感器采集并记录的结构化数据,通过查找匹配得到相应的时间戳。然后后端数据中心的处理器或数据采集设备中的微控制器按照时间戳直接调出由第一类传感器采集到的非结构化大数据中拥有相同时间戳的数据。如果在对结构化数据查找匹配时得到多个满足查找条件的时间戳,在本发明中可以对这些查找匹配出的第二类传感器采集并记录的结构化数据设定优先级,然后后端数据中心根据优先级由时间戳对非结构化数据进行查找调取。每一条记录包括采集的数据,和/或来自所述微控制器或所述数据中心对该数据采集设备做出的响应和相应时间戳的结构化数据。整个流程如图3所示。
本发明所述技术方案是通过为非结构化的大数据添加一些时间戳,然后按照时间戳来查找,从而到达快速查找的目的。同时,在本发明中时间戳的计算可以采用前端数据采集设备上的微控制器来完成,进而不仅可以达到降低功耗的目的,而且还能避免使用高性能的服务器带来的保密数据丢失的隐患。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
具体实施方式
为了便于说明本发明现举一实例如下:某高档小区中有n个住户和一个监控室,如图4所示。此小区在建造时,为提高小区的安防性能,在每家每户的门和窗户旁边都安装的有一个本发明中提到数据采集设备。该数据采集设备中有两个传感器,一个传感器属于第一类传感器,用来实时采集该住户的出入视频,且把采集的视频上传到监控室中的服务器。另一个传感器属于第二类传感器,当住户的门或者窗打开到一定程度时会触发此传感器工作,然后这个传感器会记录当前的时间。同时在小区大门口马路的拐弯处也有一个数据采集设备A,这个数据采集设备A中有两个传感器:传感器1和传感器2。传感器1用来采集过往车辆的视频,并把采集到的视频上传到监控室中的服务器,如果车辆的车速超过40码(一般来说,车辆在转弯前行时车速低于40码是人可控车速,也是比较安全的;当从小区出来的车辆转弯时车速超过40码,那么该车辆就会比较可疑),就会触发传感器2,那么传感器2就把当前车速记录下来并记录当前时间。假设某一天,住户1家中被盗窃了一件不常用的贵重物品,2个月后住户1的主人才发现东西丢失并报警。然而住户1的主人并不知道什么时候丢失的物品,只记得上次看到那个物品在4个月前。在这4个月里监控室中服务器保存的视频数据也许已经达到上TB的容量,如果按照传统的方式,警察调用视频查找案发时间,也许需要数天的时间才能查找到结果。然而在本发明中,当要查找4个月内存储的视频时,首先,住户1数据采集设备中的微控制器,会查找本地记录的这4个月内所有门或者窗户打开过的时间如表格3所示。
窗户打开 |
xxxx年xx月xx天03点32分40秒 |
门打开 |
xxxx年xx月xx天12点02分13秒 |
…….. |
…….. |
窗户打开 |
xxxx年xx月xx天00点45分04秒 |
表格3
然后,微控制器把查找到的时间戳P1上传到监控室中的服务器。由于时间戳P1中记录的数据可能是住户自己开门或开窗触发记录下来的,也可能是窃贼行为所触发记录下来的,所以为了进一步缩小查找的时间范围,服务器把接收到的时间戳P1依次发送到马路边上的数据采集设备A。由该数据采集设备A中的微控制器根据接收到的时间戳P1,在本地记录的如表格4所示的数据中,查找在4个月内这个时间戳P1前后2小时
车速45码 |
xxxx年xx月xx天02点02分18秒 |
车速50码 |
xxxx年xx月xx天12点30分23秒 |
…….. |
…….. |
车速55码 |
xxxx年xx月xx天01点00分43秒 |
表格4
车速超过40码的数据。然后数据采集设备A把查找到的时间戳P2上传到服务器,最后由服务器把时间戳P2前后1小时内的视频按照车速由高到低的顺序进行排列提供给警察查询,因为车辆在转弯前行过程中,当车速越高表明是窃贼的嫌疑性越大。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。