CN103092880A - 标记由物联网中的物体产生的原始数据的方法及系统 - Google Patents
标记由物联网中的物体产生的原始数据的方法及系统 Download PDFInfo
- Publication number
- CN103092880A CN103092880A CN2011103471559A CN201110347155A CN103092880A CN 103092880 A CN103092880 A CN 103092880A CN 2011103471559 A CN2011103471559 A CN 2011103471559A CN 201110347155 A CN201110347155 A CN 201110347155A CN 103092880 A CN103092880 A CN 103092880A
- Authority
- CN
- China
- Prior art keywords
- web message
- event
- curve
- address information
- relevant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 238000013459 approach Methods 0.000 claims description 13
- 238000010079 rubber tapping Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 2
- 238000007418 data mining Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 18
- 238000001914 filtration Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 201000006549 dyspepsia Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开涉及标记由物联网中的物体产生的原始数据的方法及系统。所述方法包括:包括:对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息;获取所述相关的Web消息所包含的地址信息;基于所获得的地址信息确定与所述各种事件接近的物体;以及使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据。通过使用本发明,使得可以给人类难以理解的来自各种各样物体的原始数据添加自然语言的元数据,以便可以使用自然语言来进行检索和进行数据挖掘。
Description
技术领域
本发明公开涉及数据处理技术,尤其是,涉及一种标记由物联网中的物体产生的原始数据的方法及系统。
背景技术
物联网(Internet of Things,IoT)被认为是互联网的下一次重要革命。所谓的物联网就是把诸如感测设备之类的物体装备到街道、公路、建筑、供水系统以及家用电器等各种真实物体上,通过互联网联接起来,进而运行特定的程序,达到远程控制或者实现物与物的直接通信。物联网将连接对象的范围从电子设备扩展到真实世界中的各种各样的物体,即通过装备在各类物体上的射频识别(RFID)、传感器、二维码等,经过接口与无线网络相连,实现人与物体的沟通和对话,也可以实现物体与物体互相间的沟通和对话。例如,在不远的将来,家用电器、医院设备、甚至T恤衫都可以联网和在网络上被访问,就像网页和远程服务器一样。结果,所有真实世界中的物体都可以通过联网被监控和操作,并且其行动可以被编程以给人类提供方便。
在物联网中,给定一个事件,如何获得记录相关信息的传感器是一个问题。例如,给定查询“汽车追尾”,如何找到记录这种事件的摄像头。这种物联网搜索对于物联网来说,是非常重要的应用。不同于当前的WWW网络,构建IoT搜索引擎存在以下挑战:
首先,真实世界中的物体具有指数量级的总数。互联网对象将编码50万亿至100万亿个物体。每个人都被1000到500个物体包围着。对于当前的搜索引擎,巨大的数据量是负担不起的。而据统计,在2008年谷歌公司的搜索引擎仅索引10亿个网页。
其次,物联网中的各种物体所获得的原始数据可能具有图像、视频、音频、数字数据序列、小波等的格式,基本上没有元数据可用于描述这些原始数据的语义,且计算机本身也不能理解这些数据文件的内容。也就是,所获得的原始数据难以传递人类的观点和情感,而人类也难以理解这些原始数据。面对丰富的原始数据,人们却难以通过自然语言对相关信息进行查询、对原始数据之间的关联性进行挖掘等。
目前存在对于原始数据进行深层次处理的技术,但是由于IoT中的诸如传感器之类的物体的总量巨大,所以使用诸如计算图象技术的深层次处理来提取语义注释在计算上是负担不起的。此外,即使利用深层次处理,由于诸如查询之类的应用的灵活性,需要建立大量的模型来处理各种应用。这种实现也是不可取的。
图1是示出了现有技术中实际应用与物体产生的原始数据之间的问题的示意图。如图1所示,用户使用人类语言在网络上对传感器数据进行查询。但是,即使存在大量的原始数据文件,由于用户的自然语言查询和传感器的原始数据文件之间存在巨大的鸿沟,并且原始数据文件也几乎没有元数据来描述其语义,因此用户不能得到期望的查询结果。因此,如何将自然语言查询与原始数据联系起来以便于进行数据的搜索和挖掘以及数据关联性的挖掘等等是现有技术中存在的一个技术问题。
因此,现有技术中需要标记由物联网中的物体产生的原始数据以便进行进一步数据处理的技术。
发明内容
为了解决现有技术中存在的上述问题中的至少一个,而提出了本发明公开。根据本发明公开的一个方面的一个实施例提供了一种利用Web消息来给原始数据加标记以使原始数据具有描述其语义的元数据从而帮助理解原始数据的内容的技术方案。
本发明的发明人注意到诸如博客和微博之类的Web消息正在被广泛地应用。本文中提及的“Web消息”是指具有广泛性和相关性的网络上传递的内容。所谓的“广泛性”是指Web消息的内容多种多样,涉及到现实世界中发生的各种事情以及人类的思想等等,以及Web消息的用户可以使用诸如移动终端或固定终端之类的各种设备在网络上随时发布Web消息。Web消息可以包括文本、文档、图标、照片、音频、视频等等。所谓的“相关性”是指Web消息的内容与所关心事件有关,例如Web消息的发布时间与所关心事件的发生时间之差在预定范围内且都是关于相似的事件,则认为Web消息与所关心事件具有相关性。此外,对于本发明而言,Web消息是具有用户在发送Web消息时的地址信息的Web消息。
微博是Web消息的一个典型示例。微博是一种允许用户及时更新的简短文本(通常少于140字)并可以公开发布的博客形式。微博服务包括诸如Twitter、Yahoo、Sina、Sohu、163等。
微博最近日渐繁荣,并且已经吸引了大量用户。根据2010年4月的统计数据,作为微博的代表性网站的Twitter具有100多万注册用户且每天还有30多万的新用户。每天平均发布5千5百多万条Twitter微博,内容无所不包。在所有这些Twitter微博中,超过37%是通过移动设备发布的,并且其实际发布的位置也大部分可以被获得。
由于Web消息的普遍使用(换言之,具有相关性和广泛性)和知道位置的特征,发明人设想了利用Web消息来丰富传感器数据的语义。具体而言,本发明通过识别Web消息与传感器之间的关系,然后分配相关的Web消息的至少一部分内容作为标签以注释传感器数据的语义来填平了人类理解与物体获得的原始数据之间的鸿沟,从而解决了现有技术中存在的问题。更进一步地,可以利用这些语义标记来支持对传感器数据的搜索和挖掘功能以及其它对原始数据的应用。
本发明公开的实施例可以以包括方法或系统的多种方式实施。下面讨论本发明公开的几个实施例。
作为一种标记由物联网中的物体产生的原始数据的方法的方法,本发明公开的一个实施例至少包括:对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息;获取所述相关的Web消息所包含的地址信息;基于所获得的地址信息确定与所述各种事件接近的物体;以及使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据。
作为一种标记由物联网中的物体产生的原始数据的系统,本发明公开的一个实施例至少包括:用于对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息的装置;用于获取所述相关的Web消息所包含的地址信息的装置;用于基于所获得的地址信息确定与所述各种事件接近的物体的装置;以及用于使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据的装置。
作为一种在物联网中搜索物体的方法,本发明公开的一个实施例至少包括:使用自然语言输入查询项;以及使用所述查询项,基于物联网中的物体的元数据,产生搜索结果;其中所述元数据是使用上述方法产生的。
作为一种在物联网中搜索物体的设备,本发明公开的一个实施例至少包括:用于使用自然语言输入查询项的装置;以及用于使用所述查询项,基于物联网中的物体的元数据,产生搜索结果的装置;其中所述元数据是使用上述系统产生的。
作为一种网络上使用的搜索引擎,本发明公开的一个实施例至少包括:用于接收用户输入的模块;上述系统;以及用于根据用户输入和由所述设备产生的信息来进行检索的模块。
附图说明
本说明中所参考的附图只用于示例本发明的典型实施例,不应该认为是对本发明范围的限制。
图1是示出了现有技术中实际应用与物体产生的原始数据之间的问题的示意图。
图2是示出了根据本发明公开的一个实施例的用于标记由物联网中的物体产生的原始数据的方法的流程图。
图3是示出了根据本发明的一个实施例的基于每一用户所发的Web消息的地址信息使用曲线拟合所获得的曲线的示意图。
图4是示出了根据本发明公开的一个实施例的用于标记由物联网中的物体产生的原始数据的系统的方框图。
图5是示出了根据本发明的一个实施例实现的搜索处理示例的流程图。
图6是示出了根据本发明的一个实施例实现的搜索引擎的方框图。
具体实施方式
下列讨论中,提供大量具体的细节以帮助彻底了解本发明。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本发明的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。
根据本发明公开的一个实施例,提供了通过识别Web消息与物联网中的物体之间的关系,然后分配相关的Web消息的至少一部分内容作为标签以注释相应物体所产生的原始数据的语义来解决现有技术中存在的至少一个问题。更进一步地,可以利用这些语义标记来支持对传感器数据的搜索和挖掘功能以及其它对原始数据的应用,例如,使用自然语言来查询原始数据。
值得注意的是,本文中的术语“物体”指的是能够产生数据并将所产生的数据传送给其它物体的任意器件、装置、设备或系统。例如,物体可以是感测装置,诸如射频识别(RFID)、读取器、二维码、摄像头、传感器等,物体也可以是搭载有RFID、、读取器、二维码、摄像头、传感器等的独立设备,诸如具有RFID的笔记本电脑、具有温度传感器的电冰箱、具有二维码的T恤等。
图2示出了根据本发明公开的一个实施例的用于标记由物联网中的物体产生的原始数据的处理200。
在步骤202,处理200开始。
在步骤204,对接收到的Web消息进行相关性检测以获得与所关心事件相关的Web消息。步骤204可以通过多于一个过滤步骤来实现。根据本发明公开的一个实施例,可以包括两个过滤步骤:
(1)基于内容的过滤:
步骤204可以包括内容过滤步骤以过滤出内容上相关的所有Web消息并丢弃其它消息。由于要用与物体所记录的事件有关的信息来标记物体,所以基于内容的过滤可以是根据默认选项(诸如,最常见的用户查询选项列表、热点事件的列表、交通事件的列表、最常用的关键词列表等),从大量的Web消息中查找出内容匹配的条目。这可以使用基于关键字匹配的倒排表技术来实现。
(2)基于时间的过滤:
步骤204可以包括时间过滤步骤以过滤出时间上相关的所有Web消息并丢弃其它消息。基于时间的过滤可以包括以下两个步骤:
2.1基于发布时间的过滤:也就是,只保留出发布时间与所关心事件的发生时间相关的Web消息。时间过滤步骤是为了从接收到的Web消息中过滤出Web消息的发布时间与所关心的事件发生的时间在预定时间范围内的Web消息,并丢弃时间不相当的其它Web消息。例如,所关心事件的发生事件是当天早晨8:00左右。时间过滤步骤只保留当天7:30~8:30这个时间段内发布的Web消息。
存在时间范围可能是由于发布Web消息的用户可能是移动的,在他看到事件的发生和他实际发布Web消息之间存在时间差;也可能是由于用户看到事件后经过一段时间才发布相关的Web消息;或者也可能是由于网络拥塞、无线网络不稳定等等而导致的时间差。该预定时间可以是预设的,也可以由用户/系统设置。
2.2即时性过滤:在发布时间过滤的基础上,再次使用即时性进行过滤,从而只保留在规定的时间范围内所发布的描述现在情况的Web消息。例如,当天早晨8:00之后发布的Web消息可能包括诸如“昨天发生的XX”之类的内容。但是,这些内容显然不是发布的即时信息,而是过期信息,应该过滤掉。而像“刚刚发生的XX”则属于即时信息,应该保留。
即时性过滤步骤可以通过结合现有的分词和分类技术来实现。根据本发明的一个方面,提出了一种结合了现有的分词和分类处理的内容过滤引擎。举例而言,首先可以选取2,000条Web消息。人为地将这些Web消息分类为现在、过去、将来和其它。对于每个Web消息中的每一句子,首先将其分词。例如,一个Web消息仅包括一句话“我现在在看电影。”。经过分词,变为“我/现在/在/看/电影。”。
将每一个分词作为特征,构建基于机器学习算法的分类器。可以使用SVM(Support Vector Machine)算法,ME(Maximum Entropy)算法等等。这样对于没有进行人工标注的Web消息,可以使用这个分类器进行自动识别,将其标注为现在、过去、将来和其它中的一类。只有标注为现在的Web消息保留下来,其余的都删除掉。但是,值得注意的是本发明不限于以上处理过程,而是本领域技术人员可以根据自己的需求,可以使用其它的分词和分类技术。
虽然以上以特定顺序示出和描述了各个过滤步骤,但是本领域技术人员应当理解本发明不限于该特定顺序,而是可以根据需要以任意顺序执行基于内容的过滤和基于时间的过滤。
在步骤206,对Web消息进行地址信息检测以获得包含地址信息的Web消息的地址信息,并且丢弃不包含地址信息的Web消息。
需要说明的是,不是所有Web消息都包括地址信息,而是发布Web消息的用户可以选择是否公开其当前的地址信息。如果用户选择公开其地址信息,则所发布的Web消息就包括地址信息,否则就不包括地址信息。
地址信息通常是GPS地址数据的形式,但是通过使用第三方服务,Web消息的地址信息也可能是文字描述的形式,诸如“XX街与YY街路口”。可以通过Web浏览器提供的API接口获得用户发布该消息时的地址信息。但是如果获得的地址信息是文字描述,根据本发明公开的一个实施例,则需要将文字描述转换成GPS地址数据。该转换可以使用现有技术中的转换工具,在此不作详细描述。
根据本发明的另一个实施例,可以从Web消息的内容中过滤出地址信息,然后再将该地址信息转换成GPS地址数据。例如,Web消息可能是“现在,崇文门大街到长安街的路口发生了拥堵,车辆行驶缓慢。”。可以从该消息中提取出地址信息“崇文门大街到长安街的路口”。结合已有的地图信息,则可将该地址信息转换成GPS地址数据。
在步骤208,基于所获得的Web消息的地址信息,检测IoT中与所关心事件接近的物体。
对于本领域技术人员而言,IoT中每个物体的位置(诸如,GPS地址数据)都是已知的。可以通过Web消息的地址信息和物体的已知的位置信息来确定与所关心事件相关的物体。例如,确定二者之间的直线距离最小的物体为接近的物体。
但是,如前所述,由于用户可能是移动的,也可能在看到事件之后一段时间才发送Web消息而这时其位置已经发生改变等等,所以用户在发送Web消息时所处的位置与可能记录所关心事件的物体的位置可能存在差异。从而仅仅凭借一个或几个Web消息的地址信息和物体的已知的位置信息可能难以确定与所关心事件接近度较高的物体。
根据本发明公开的一个实施例,提出了使用现有的曲线拟合技术来从IoT中的数量巨大的物体中确定出与所关心事件接近度较高的物体。
根据本发明公开的一个实施例,接近性检测步骤可以包括以下操作:
第一步骤:从所获得的Web消息中提取出从同一用户发布的Web消息的地址信息。比如,发布相关消息的可能有100个用户,从中提取出同一个用户最近6个小时内发布的Web消息的地址信息。
第二步骤:针对每一个用户,使用其所发布的Web消息的地址信息进行曲线拟合,以获得其位置曲线。
图3是示出了根据本发明的一个实施例的基于每一用户所发的Web消息的地址信息使用曲线拟合所获得的曲线的示意图。如图3所示,空心圆代表一条Web消息的一个地址信息,每一条曲线是基于来自同一用户的Web消息的地址信息所拟合出来的曲线。在图3中,实心圆代表IoT中的物体。虽然图3中仅仅示出了一个物体,但是本发明不限于此,如前所述,物体的数量可以多得多,本领域技术人员可以根据需要对其进行选择。
第三步骤:基于物体的位置数据和各个曲线之间的距离关系,确定接近的物体。
可以使用以下公式来确定物体的位置数据和各个曲线之间的距离关系:将物记为x1,x2,...xM,曲线表示为D1,D2,...,DN,
arg mini(maxj(distance(xi,Dj)))
其中distance(xi,Dj)代表第i个物体到第j条拟合曲线的最短距离,其中,i代表第i个物体,其是从1到M之间的整数值,M是用户根据需要所选取的接近物体的总数;j代表第j个拟合曲线,其中j是从1到N之间的整数值,N是通过曲线拟合所获得的曲线的总数;Max代表取最大值的函数,Min代表取最小值的函数。
使用上述公式,选取物体到各个曲线的距离中的最大距离作为该物体的特征距离,然后选取所有物体中特征距离最小的物体作为与所关心事件最接近的物体。更进一步地,可以按照该特征距离从小到大来对相应的物体进行排序,以表示各个物体与所关心事件的接进度。
例如,还以图3为例,曲线拟合的结果是,基于用户A的地址信息拟合出两条曲线1和2,基于用户B的地址信息拟合出一条曲线3。假设存在有多个物体。其中各个物体到三条曲线的距离中的最大距离分别为5、3、5、6、9、8......。则选取具有最大距离的最小值3的物体作为最接近物体,如图3所示。
这个方法的最大好处在于公式argmini(maxj(distance(xi,Dj)))在现有技术中是简单的且已被标准化,并且可以容易地获得实现其的工具。
当然,本发明不限于此,本领域技术人员也可以根据其需求使用其它距离公式。可以使用例如平均距离最小值,也就是,使用一个物体到各个曲线的距离的平均值作为其特征距离,并选取特征距离最小的物体作为最接近的物体。还可以使用例如最大距离的平方最小值,也就是,使用一个物体到各个曲线的距离中的最大距离的平方值作为其特征距离,并选取特征距离最小的物体作为最接近的物体。
在步骤210,利用Web消息的至少一部分,对所确定的接近物体的原始数据进行标记。
例如,一个用户在2011年9月23日7时56分发布一条Web消息为“看到了四车追尾,太惨了!”,并且最接近的摄像头为新街口西口的摄像头。则可以用Web消息中的“追尾”和时间“2011/9/237:56”,来作为新街口西口的摄像头所获得的原始数据文件vsd.vso的元数据,对其进行标记。
更进一步的,可以针对各个接近的摄像头进行排序,例如,生成包括如下内容的Web页面:
追尾2011/9/23 7:56 新街口西口 vsd.vso
新街口西街东口 vsf.vso
新街口西街西口 vsg.vso
用户可以点击相应的视频文件观看。也可以通过自然语言“追尾”、“2011年9月23日”等来进行数据检索。
在步骤212,处理200结束。
如前所述,Web消息的数量是指数级的。如果每一次执行处理200,在步骤204开始是对网络上的所有Web消息进行处理的话,那么处理所需的时间和计算成本较大。
根据本发明的一个实施例,在步骤202和步骤204之间可以包括一个预处理步骤。所述预处理步骤可以使用现有的索引技术来实时地索引网络上发布的所有Web消息,然后在步骤204中基于索引取出与所关心事件在内容上相关的Web消息。
举例而言,可以使用分词技术对每一个Web消息实时地进行分词,根据预先建立的关键词库,确定Web消息中是否出现至少一个关键词,然后,建立出现某一关键词的Web消息与关键词库中该关键词之间的链接来进行索引。
还以Web消息为“汽车追尾”为例,将该消息分词为“汽车/追尾/”。那么使用“汽车”,“追尾”作为索引词,构建倒排表,通过搜索“汽车”或者“追尾”,都可以得到这条消息。
然后,在步骤204中使用该链接将与关键词相关的Web消息快速地提取出来以供进一步处理。
此外,图2中虽然使用了箭头线来指示各个步骤,但是本发明不限于此,而是可以以其它顺序执行图2中的各个步骤。例如,步骤204和206的执行顺序可以相反。
图4是示出了根据本发明公开的一个实施例的用于标记由物联网中的物体产生的原始数据的系统400的方框图。
根据本发明的一个实施例的系统400包括Web消息搜索引擎401、相关性检测器407、地址信息检测器409、接近性检测器411和标记器411。相关性检测器407包括内容过滤器403和时间过滤器405。
Web消息搜索引擎401是可选的,其不是实现本发明所必需的。Web消息搜索引擎401用于实时地索引网络上发布的所有Web消息。
相关性检测器407用于检测与各种事件相关的Web消息。内容过滤器403用于过滤出内容与各种事件相关的Web消息。时间过滤器405用于过滤出发布时间与各种事件的发生时间在预定范围内的Web消息,并且进行即时行过滤以获得在规定的时间范围内所发布的描述现在情况的Web消息。其它Web消息将被丢弃。
地址信息检测器409接收来自相关性检测器407的相关Web消息,并提取这些Web消息中的地址信息。地址信息可以是使用API从Web消息提取的,也可以是从Web消息的内容中过滤出来的。地址信息可以具有GPS数据格式或文本格式。地址信息检测器409可以包括一个转换器(未示出),用于转换所述地址信息的格式,例如从文本格式转换成GPS数据格式。
接近性检测器411用于基于来自地址信息检测器409的地址信息,确定与所发生的事件最接近的物体。具体的实施方式在上面已经进行了详细描述,在此不再重复。
标记器413用于基于相应的Web消息,来标记来自所确定的最接近的物体的原始数据。
根据本发明的一个实施例,标记的结果可以以网页、文档、文本等形式发布,以供进一步的处理。例如,搜索引擎可以使用该标记的结果进行搜索,以便为使用自然语言进行查询的用户快速地提供相关的查询结果。
图5是示出了根据本发明的一个实施例实现的搜索处理示例的流程图。图5示出的是本发明在查询上的一个应用。
如图5所示,用户可以使用“追尾”来查询所发生的追尾事件。内容过滤器403找出与关键词“追尾”链接的网页并给出这些在内容上与用户的查询条件有关的网页。时间过滤器405过滤掉不在所需时间范围内的所有Web消息,并对剩余的Web消息进行处理。时间过滤器405还基于Web消息的内容进行即时行过滤,以过滤掉与现在情况不相关的Web消息。例如,用户需要的今天的追尾事件,因此,包括“昨天....追尾”或“很久以前....追尾”的Web消息不是所关心的,从而去除这些消息。
地址信息检测器409从剩余的Web消息中获取其中的地址信息。如上所述,IoT中的物体的位置信息是已知的,预存在数据库中。接近性检测器411检测出与所关心的事件相关的物体。标记器411使用Web消息的至少一部分来对各个物体进行标记以表明各个物体获得的原始数据的语义。通过使用所述标记,可以将自然语言的查询与原始数据关联起来,从而给用户提供诸如:“返回的查询结果:诸如正在或已经监控到“追尾”的摄像头,用户可以连接到该摄像头并浏览其数据”。
当然,用户还可以基于标记对原始数据之间的关联性进行挖掘。例如,可以找出与一次追尾有关的所有摄像头,以便获得与该追尾的发生过程有关的数据。
图6是示出了根据本发明的一个实施例实现的搜索引擎的方框图。图6示出的本发明的一个实现的具体例子。
如图6所示,搜索引擎包括了图4所述的系统400。此外,搜索引擎用于接收用户输入的模块601和用于根据用户输入和由系统400产生的信息来进行检索的模块602。然后,所获得检索结果被返回给查询用户。
以上对本发明的基本思想进行了描述,本领域技术人员应当理解:本发明提供了以下优点中的一个或多个:
可以组合Web消息和IoT以提供可理解的IoT。
-分配Web消息给相关“物体”
-用元数据丰富物体的观测
--其以自然语言而不是以定量的数据、图像、视频等;
--其传递情感观点而不是中性数据;
--其反映不同人的不同观点。
用Web消息丰富“物体”
-识别即时微博贴子与“物体”之间的关系
-分配这些贴子作为标签给“物体”
-支持对物体的搜索和挖掘功能
--用户可以用自然语言查询来进行搜索
--检索相关的微博贴子
所属技术领域的技术人员知道,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。计算机可用的或计算机可读的介质例如可以是--但不限于--电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质。
以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
Claims (17)
1.一种标记由物联网中的物体产生的原始数据的方法,包括:
对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息;
获取所述相关的Web消息所包含的地址信息;
基于所获得的地址信息确定与所述各种事件接近的物体;以及
使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据。
2.根据权利要求1所述的方法,其中,所述基于所获得的地址信息确定与所述各种事件接近的物体的步骤包括:
从所述相关的Web消息中获取与同一用户相关的地址信息;
基于所述所获取的地址信息使用曲线拟合以生成拟合的曲线;以及
基于物联网中的物体的位置信息和所拟合的曲线,确定所述物体的接近度。
3.根据权利要求2所述的方法,其中,按照各个物体的位置信息与所述所拟合的曲线的距离中的最小值、或按照各个物体的位置信息与所述所拟合的曲线的最大距离的最小值、或按照各个物体的位置信息与所述所拟合的曲线的平均距离的最小值、或按照各个物体的位置信息与所述所拟合的曲线的最大距离的平方值的最小值,来确定各个物体与所关心的事件的接近度。
4.根据权利要求1所述的方法,还包括:
对网络上出现的Web消息实时地进行索引;以及
从索引后的Web消息中检索出与所述各种事件中的所关心事件有关的所有Web消息。
5.根据权利要求1所述的方法,其中,使用所述相关的Web消息的发布时间和与所关心的事件有关的词语,产生用于标记由接近的物体产生的原始数据的元数据。
6.根据权利要求5所述的方法,其中,基于所述元数据,来对使用自然语言进行的查询进行响应。
7.根据权利要求2所述的方法,还包括:
按照各个物体的接进度,对所述各个物体进行排序。
8.一种标记由物联网中的物体产生的原始数据的系统,包括:
用于对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息的装置;
用于获取所述相关的Web消息所包含的地址信息的装置;
用于基于所获得的地址信息确定与所述各种事件接近的物体的装置;以及
用于使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据的装置。
9.根据权利要求8所述的系统,其中,所述用于基于所获得的地址信息确定与所述各种事件接近的物体的装置包括:
用于从所述相关的Web消息中获取与同一用户相关的地址信息的装置;
用于基于所述所获取的地址信息使用曲线拟合以生成拟合的曲线的装置;以及
用于基于物联网中的物体的位置信息和所拟合的曲线,确定所述物体的接近度的装置。
10.根据权利要求9所述的系统,其中,按照各个物体的位置信息与所述所拟合的曲线的距离中的最小值、或按照各个物体的位置信息与所述所拟合的曲线的最大距离的最小值、或按照各个物体的位置信息与所述所拟合的曲线的平均距离的最小值、或按照各个物体的位置信息与所述所拟合的曲线的最大距离的平方值的最小值,来确定各个物体与所关心的事件的接近度。
11.根据权利要求8所述的系统,还包括:
用于对网络上出现的Web消息实时地进行索引的装置;以及
用于从索引后的Web消息中检索出与所述各种事件中的所关心事件有关的所有Web消息的装置。
12.根据权利要求8所述的系统,其中,使用所述相关的Web消息的发布时间和与所关心的事件有关的词语,产生用于标记由接近的物体产生的原始数据的元数据。
13.根据权利要求12所述的系统,其中,基于所述元数据,来对使用自然语言进行的查询进行响应。
14.根据权利要求9所述的系统,还包括:
用于按照各个物体的接进度,对所述各个物体进行排序的装置。
15.一种在物联网中搜索物体的方法,包括:
使用自然语言输入查询项;以及
使用所述查询项,基于物联网中的物体的元数据,产生搜索结果;
其中所述元数据是使用权利要求1-7中任一项所述的方法产生的。
16.一种在物联网中搜索物体的设备,包括:
用于使用自然语言输入查询项的装置;以及
用于使用所述查询项,基于物联网中的物体的元数据,产生搜索结果的装置;
其中所述元数据是使用权利要求8-14中任一项所述的设备产生的。
17.一种网络上使用的搜索引擎,包括:
用于接收用户输入的模块;
如权利要求8-14中任一项所述的设备;以及
用于根据用户输入和由所述设备产生的信息来进行检索的模块。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110347155.9A CN103092880B (zh) | 2011-10-31 | 标记由物联网中的物体产生的原始数据的方法及系统 | |
DE102012218966.1A DE102012218966B4 (de) | 2011-10-31 | 2012-10-18 | Verfahren und System zum Kennzeichnen von durch Dinge im Internet der Dinge erzeugten Originaldaten |
GB1218783.7A GB2496268A (en) | 2011-10-31 | 2012-10-19 | Tagging original data generated in the internet of things |
US13/661,628 US8983926B2 (en) | 2011-10-31 | 2012-10-26 | Method and system for tagging original data generated by things in the internet of things |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110347155.9A CN103092880B (zh) | 2011-10-31 | 标记由物联网中的物体产生的原始数据的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103092880A true CN103092880A (zh) | 2013-05-08 |
CN103092880B CN103092880B (zh) | 2016-12-14 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107547487A (zh) * | 2016-06-29 | 2018-01-05 | 阿里巴巴集团控股有限公司 | 一种防止脚本攻击的方法及装置 |
CN109167817A (zh) * | 2018-08-06 | 2019-01-08 | 佛山市甜慕链客科技有限公司 | 一种生成物联网传感器数据的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040078750A1 (en) * | 2002-08-05 | 2004-04-22 | Metacarta, Inc. | Desktop client interaction with a geographical text search system |
US20100002082A1 (en) * | 2005-03-25 | 2010-01-07 | Buehler Christopher J | Intelligent camera selection and object tracking |
CN101675429A (zh) * | 2007-01-31 | 2010-03-17 | 名誉捍卫者公司 | 识别和改变个人信息 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040078750A1 (en) * | 2002-08-05 | 2004-04-22 | Metacarta, Inc. | Desktop client interaction with a geographical text search system |
US20100002082A1 (en) * | 2005-03-25 | 2010-01-07 | Buehler Christopher J | Intelligent camera selection and object tracking |
CN101675429A (zh) * | 2007-01-31 | 2010-03-17 | 名誉捍卫者公司 | 识别和改变个人信息 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107547487A (zh) * | 2016-06-29 | 2018-01-05 | 阿里巴巴集团控股有限公司 | 一种防止脚本攻击的方法及装置 |
CN107547487B (zh) * | 2016-06-29 | 2020-11-24 | 阿里巴巴集团控股有限公司 | 一种防止脚本攻击的方法及装置 |
CN109167817A (zh) * | 2018-08-06 | 2019-01-08 | 佛山市甜慕链客科技有限公司 | 一种生成物联网传感器数据的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
DE102012218966A1 (de) | 2013-05-02 |
GB2496268A (en) | 2013-05-08 |
US8983926B2 (en) | 2015-03-17 |
US20130110806A1 (en) | 2013-05-02 |
GB201218783D0 (en) | 2012-12-05 |
DE102012218966B4 (de) | 2018-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210209109A1 (en) | Method, apparatus, device, and storage medium for intention recommendation | |
GB2496268A (en) | Tagging original data generated in the internet of things | |
CN103577549A (zh) | 一种基于微博标签的人群画像系统和方法 | |
Molla | The impact of ereadiness on the ecommerce success in developing countries: Firm-level evidence | |
CN103984757B (zh) | 在搜索结果页上插入新闻信息条目的方法和系统 | |
WO2017146963A1 (en) | Expert detection in social networks | |
CN102402589A (zh) | 一种提供与搜索请求相关的参考搜索信息的方法与设备 | |
US20170169007A1 (en) | Graphical User Interface for Generating Structured Search Queries | |
KR101754371B1 (ko) | 태그 첨부된 소셜 네트워크 서비스 게시 콘텐츠 제공 방법 | |
CN102169501A (zh) | 基于搜索结果对应文档的类型信息生成摘要的方法与设备 | |
CN103514266A (zh) | 一种面向移动终端的网络信息投放方法和系统 | |
CN103180845A (zh) | 将用户生成内容的项目匹配到实体 | |
CN101909018A (zh) | 根据用户浏览网页返回即时通信群组的方法与系统 | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和系统 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
JP2013134738A (ja) | 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 | |
CN103955480A (zh) | 一种用于确定用户所对应的目标对象信息的方法与设备 | |
US20170235835A1 (en) | Information identification and extraction | |
CN105095383A (zh) | 信息发布方法、搜索方法及相应装置 | |
CN105096138A (zh) | 实现o2o对话交互的方法和装置 | |
KR20100132376A (ko) | 스니펫 제공 장치 및 방법 | |
CN103020141A (zh) | 一种用于提供搜索结果的方法和设备 | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
CN100555283C (zh) | 一种直接针对用户的相关信息的发布方法和系统 | |
US11314793B2 (en) | Query processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |