CN103294712B - 实时热点区域推荐系统和方法 - Google Patents
实时热点区域推荐系统和方法 Download PDFInfo
- Publication number
- CN103294712B CN103294712B CN201210049013.9A CN201210049013A CN103294712B CN 103294712 B CN103294712 B CN 103294712B CN 201210049013 A CN201210049013 A CN 201210049013A CN 103294712 B CN103294712 B CN 103294712B
- Authority
- CN
- China
- Prior art keywords
- hot spot
- hot
- information
- ticket
- data stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了一种实时热点区域推荐系统和方法。该实时热点区域推荐系统包括服务器和用户设备,其中,服务器包括:全球定位系统GPS信息提取模块,用于从用户设备和/或图片分享网站提取GPS信息;实时数据流聚类模块,用于从GPS信息提取模块接收提取的GPS信息,将GPS信息进行实时数据流聚类,从而得到作为热点区域的聚类中心;热门事件挖掘模块,用于通过信息资源分享平台挖掘热门讨论的事件,保留具有地域性的热门事件;热门事件库,用于存储保留的具有地域性的热门事件;热点区域信息整合模块,用于整合获得的热门事件信息和热门景点信息,并将整合后的热点区域信息提供给用户设备。
Description
技术领域
本发明涉及数据挖掘领域,更具体地讲,涉及一种通过数据挖掘实时地向用户推荐热点区域的系统和方法。
背景技术
热点推荐关键在于热点区域的确定。现有的技术通常都是针对数据库中已存的区域信息,统计用户访问量,从而得到一个热点区域排行榜,然后根据用户的当前位置向用户推荐热点区域,或者直接向用户推荐热点区域。
因此,现有技术中存在以下问题:
1、热点区域的发现都是基于历史数据统计产生,不具备实时性;
2、热点区域的选择范围局限于已有的地点区域信息库,不能动态生成热点区域;
3、热点区域的发现倾向于长期稳定的区域,而对因为重大突发事件的发生成为短期内的热点区域不能有效的捕捉;
4、热门事件的过滤用户无法定制。
发明内容
为了解决上述问题,本发明提供了一种能够发现存在的热点区域并将发现的热点区域或者通过挖掘得到的发生在该热点区域的热门事件推荐给用户。
根据本发明的一方面,提供了一种实时热点区域推荐系统,包括服务器和用户设备,其中,服务器包括:全球定位系统GPS信息提取模块,用于从用户设备和/或图片分享网站提取GPS信息;实时数据流聚类模块,用于从GPS信息提取模块接收提取的GPS信息,将GPS信息进行实时数据流聚类,从而得到作为热点区域的聚类中心;热门事件挖掘模块,用于通过信息资源分享平台挖掘热门讨论的事件,并过滤缺乏地域性的热门事件,保留具有地域性的热门事件;热门事件库,用于存储保留的具有地域性的热门事件;热点区域信息整合模块,用于根据从实时数据流聚类模块得到的热点区域,利用热门事件库和热门景点库来获得该热点区域内的热门事件和热门景点,整合获得的热门事件信息和热门景点信息,并将整合后的热点区域信息提供给用户设备。
优选地,GPS信息提取模块可包括:图片GPS信息提取单元,用于从图片分享网站获取GPS信息;用户设备GPS信息提取单元,用于提取用户设备的GPS信息;GPS信息库,用于存储来自图片GPS信息提取单元和用户设备GPS信息提取单元提取的GPS信息,其中,所述图片中包含记载有拍摄时间和GPS信息的EXIF信息。
优选地,用户设备中可配置有GPS模块,该GPS模块感知用户设备的拍照行为,当感知到用户设备正在拍照时,该GPS模块将用户设备当前的GPS信息和系统当前时间写入所拍摄的照片的EXIF信息中,同时将写入的GPS信息和时间信息通过同步协议传送到服务器。
优选地,实时数据流聚类模块可将数据流聚类算法内嵌到数据流管理系统中来实现实时数据流聚类。
优选地,实时数据流聚类模块可通过调用数据流管理系统提供的输入接口,将GPS数据流输入数据流管理系统,指定要进行聚类的数据,利用数据流管理系统提供的查询功能,根据时间窗口或者数据量的大小来从数据流中获取聚类数据,将聚类数据作为输入项输入数据流聚类算法,经过聚类之后得到聚类结果,来实现实时数据流聚类。
优选地,数据流管理系统可根据当前的数据流的特点自动选择合适的数据流聚类算法。
优选地,热门事件挖掘模块可包括:实时内容监听单元,用于定时抓取论坛或者信息共享平台的网页内容;内容预处理单元,用于将抓取的内容进行去噪;关键词挖掘单元,用于对各个预处理后的内容确定关键词描述;热门关键词挖掘单元,用于通过聚类的方法将确定的关键词描述进行分组,统计每个组的权值,并将与大于预定阈值的权值对应的组内的关键词作为热门关键词;热门事件过滤单元,用于将热门关键词与预先设置的地理位置信息进行比对以过滤掉不包含有地理位置信息的热门事件,从而得到具有地域性的热门事件。
优选地,热点区域信息整合模块可包括:热点区域获取单元,用于从实时数据流聚类模块接收热点区域;区域内热门景点获取单元,用于根据热点区域从热门景点库获得热点区域内的热门景点;区域内热门事件获取单元,用于根据热点区域从热门事件库获得热点区域内的热门事件;热点区域信息整合单元,用于将获得的热点区域内的热门景点和获得热点区域内的热门事件进行整合。
优选地,热点区域信息整合模块可根据用户的定制来整合热门事件信息和热门景点信息。
根据本发明的另一方面,提供了一种实时热点区域推荐方法,包括:a)从用户设备和/或图片分享网站提取GPS信息;b)接收提取的GPS信息,将GPS信息进行实时数据流聚类,从而得到作为热点区域的聚类中心;c)通过信息资源分享平台挖掘热门讨论的事件,并过滤缺乏地域性的热门事件,保留具有地域性的热门事件;d)将具有地域性的热门事件存储在热门事件库中;e)根据得到的热点区域,利用热门事件库和热门景点库来获得该热点区域内的热门事件和热门景点,并且整合获得的热门事件信息和热门景点信息;f)将整合的热门事件和热门景点提供给用户设备。
优选地,当发生用户设备的拍照行为时,用户设备中的GPS模块在将用户设备当前的GPS信息和系统当前时间写入所拍摄的照片的EXIF信息的同时,将写入的GPS信息和时间信息通过同步协议进行传送,从而从用户设备获取到GPS信息。
优选地,在步骤b)中,将数据流聚类算法内嵌到数据流管理系统中来实现实时数据流聚类。
优选地,将数据流聚类算法内嵌到数据流管理系统中的步骤包括:调用数据流管理系统提供的输入接口,将GPS数据流输入数据流管理系统;指定要进行聚类的数据,利用数据流管理系统提供的查询功能,可根据时间窗口或者数据量的大小来从数据流中获取聚类数据;将聚类数据作为输入项输入数据流聚类算法,经过聚类之后得到聚类结果。
优选地,数据流管理系统可根据当前的数据流的特点自动选择合适的数据流聚类算法。
优选地,自动选择合适的数据流聚类算法的步骤可包括:建立数据流属性向量;分析当前输入的数据流并获取数据流属性向量;根据获取的数据流属性向量选择对应的数据流聚类算法。
优选地,步骤c)可包括:实时抓取论坛或者信息共享平台的网页内容;将抓取的内容进行去噪;对去噪后的内容确定关键词描述;通过聚类的方法将确定的关键词描述进行分组,统计每个组的权值,并将与大于预定阈值的权值对应的组内的关键词作为热门关键词;将热门关键词与预先设置的地理位置信息进行比对以过滤掉不包含有地理位置信息的热门事件,并将获得的具有地域性的热门事件存储在热门事件库中。
优选地,可通过分词技术和词频统计的方法来确定关键词。
优选地,步骤e)可包括:接收通过实时数据流聚类得到的热点区域;根据热点区域从热门景点库获得热点区域内的热门景点;根据热点区域从热门事件库获得热点区域内的热门事件;将获得的热点区域内的热门景点和获得热点区域内的热门事件进行整合。
附图说明
图1是示出根据本发明实施例的实时热点区域推荐系统的框图;
图2是示出图1中的GPS信息提取模块的配置的框图;
图3是示出某个EXIF信息的样例;
图4是示出热门事件挖掘模块的配置的框图;
图5是示出热点区域信息整合模块的配置的框图;
图6是示出根据本发明实施例的实时热点区域推荐方法的流程图;
图7是示出图6中的热门事件挖掘过程的流程图;
图8是示出图6中的热点区域信息整合的过程的流程图。
具体实施方式
现在,将参照附图来详细描述本发明的实施例。
图1是示出根据本发明实施例的实时热点区域推荐系统的框图。
如图1所示,根据本发明的实时热点区域推荐的系统包括服务器100和用户设备200。服务器100包括全球定位系统(GPS)信息提取模块101、实时数据流聚类模块102、热门事件挖掘模块103、热门事件库104和热点区域信息整合模块105。服务器100还可包括热门景点库(未在图1中示出)。
图2是示出图1中的GPS信息提取模块101的配置的框图。
下面将参照图2对GPS信息提取模块101进行详细描述。
GPS信息提取模块101用于从用户设备和/或图片分享网站提取GPS信息。用户设备可包括例如手机、数码相机、平板电脑等。图片分享网站可包括例如Flickr、Picasa、Panoramio等。用户设备中配置有GPS模块,GPS模块能够感知用户设备的拍照行为,当感知到用户设备正在拍照时,GPS模块将用户设备当前的GPS信息和系统当前时间写入所拍摄的照片的EXIF信息中,从而记录下拍摄动作发生时的GPS信息和时间。用于将GPS信息和时间信息写入拍摄的照片的EXIF信息中的方法不限于此,可采用其它方法来将GPS信息和时间信息写入拍摄的照片中。随后,用户设备所拍摄的照片作为图片被传送到图片分享网站。
图2中示出的GPS信息提取模块101包括图片GPS信息提取单元201、用户设备GPS信息提取单元202和GPS信息库203。
图片GPS信息提取单元201用于从图片分享网站获取GPS信息。如上所述,用户设备所拍摄的照片中包含记载有拍摄时间和GPS信息的EXIF信息。换句话说,图片分享网站上的照片(即,图片)中均包含记载有拍摄时间和GPS信息的EXIF信息。
当从图片分享网站获取GPS信息时,图片GPS信息提取单元201自动检索特定时间段内的图片,并解析图片所包含的GPS信息。所述特定时间段基于图片的上传时间。如果未指定特定时间段,则检索包括从上次检索发生的时间到当前时间为止上传的所有图片。解析图片的GPS信息指的是解析图片中的EXIF信息。在获取EXIF信息之后,提取其中的GPS信息,图3给出了某个EXIF信息的样例。
如图3所示,标号301所指示的框中文字说明了GPS信息的经度信息,标号302所指示的框中文字说明了GPS信息的纬度信息。
用户设备GPS信息提取单元202用于提取用户设备的GPS信息。
为了便于服务器100获取用户设备的GPS信息和时间信息,用于监测GPS模块的相应应用程序被安装到用户设备上。当发生用户设备的拍照行为时,在GPS模块将用户设备当前的GPS信息和系统当前时间写入所拍摄的照片的EXIF信息的同时,用户设备会将写入的GPS信息和时间信息通过同步协议(例如,SyncML)传送到服务器100。这里描述的服务器从用户设备获取GPS信息和时间信息的方法只是示例性的,应该理解,本领域的技术人员可采用其它方法来实现GPS信息和时间信息的获取。
GPS信息库203用于存储图片GPS信息提取单元201和用户设备GPS信息提取单元202提取的GPS信息。
实时数据流聚类模块102用于从GPS信息提取模块101接收提取的GPS信息,将GPS信息进行实时聚类,从而得到作为热点区域的聚类中心。
由于热点区域的发现,尤其是突发事件引起的临时热点区域存在一定的时效性,并且具有动态、持续时间短等特点,而常规的聚类算法是基于静态的海量历史数据进行分析,因此常规的聚类算法不适用于热点区域的发现。同时,由于输入的GPS信息是数据流的形式,而数据流具有实时、潜在无限的数据量(时间很长的情况下,无法做到存储所有数据流内的数据)等特点,这一点也是常规聚类算法不能处理的。考虑到以上两点,实时数据流聚类模块102通过将数据流聚类算法(诸如,StreamKM++)结合数据流管理系统(诸如STREAM)来实现实时数据流聚类。
这里所述的结合就是将数据流聚类算法内嵌到数据流管理系统中来实现实时数据流聚类。具体地讲,将数据流聚类算法内嵌到数据流管理系统中的步骤包括:调用数据流管理系统提供的输入接口,将GPS数据流输入数据流管理系统;指定要进行聚类的数据,利用数据流管理系统提供的查询(Query)功能,可根据时间窗口或者数据量的大小来从数据流中获取聚类数据;将聚类数据作为输入项输入数据流聚类算法,经过聚类之后得到聚类结果,并通过数据流管理系统持续不断的输出给用户。
优选地,为了使得实时数据流聚类模块102实现更好的实时数据流聚类效果,数据流管理系统可根据当前的数据流的特点自动选择合适的数据流聚类算法。
具体地讲,通常,不同的数据流聚类算法针对不同的数据都会有不同的处理效果。本发明实施例所采用的方法是:首先建立数据流属性向量{a0,a1...an}模板,其中的a代表数据维度、数据类型、数据流速等;然后分析当前输入的数据流,获取数据流属性向量;然后根据获取的数据流属性向量选择对应的数据流聚类算法。例如,对于维度高的数据流,选择算法DenStream,而对于流速高的数据流,则选择算法StreamKM++。应理解,这里举出的算法只是为了说明而给出,本领域的技术人员可以根据具体情况选择其它适合的算法。因此,通过建立数据流属性向量能够达到自适应地选择数据流聚类算法的目的。
热门事件挖掘模块103用于通过信息资源分享平台挖掘热门讨论的事件,并过滤缺乏地域性的热门事件(即该热门事件并没有在特定的地理区域发生),保留具有地域性的热门事件,例如2011年福岛核电危机事件、7.23温州动车追尾事故。这里的信息资源共享平台是指如Twitter、新浪微博、腾讯微博等能够实现信息的分享、传播以及获取的网络平台。随后,所保留的具有地域性的热门事件被存储在热门事件库104中。
图4是示出热门事件挖掘模块103的配置的框图。
如图4所示,热门事件挖掘模块103包括实时内容监听单元401、内容预处理单元402、关键词挖掘单元403、热门关键词挖掘单元404和热门事件过滤单元405。
实时内容监听单元401用于定时抓取论坛或者信息共享平台的网页内容。实时内容监听单元401可通过例如web crawler等搜索器来抓取网页内容。每个论坛网页设计都有固定的格式。搜索器通过分析这些网站超文本标记语言(html)模板,确定所要获取内容的标签(tag)(例如,title,comments),然后将对应tag下的内容抓取并存储下来。
内容预处理单元402将抓取的内容进行去噪。通常,抓取下来的内容含有噪声信息,因此需要通过预处理的过程将这些噪声信息去除。例如,通常抓取的title信息中包含有论坛的信息,而且格式通常也比较固定,所以可以按照各种论坛或者信息共享平台固有的格式进行去噪。比如CSDN论坛中的某个帖子对应的html文件中的title为“<title>2012不宜进入的三个技术点(下)-赖勇浩的编程私伙局-博客频道-CSDN.NET</title>”,可以发现,只有“2012不宜进入的三个技术点(下)”才是需要的内容,所以可以通过论坛对应的模板进行去噪。
关键词挖掘单元403对各个预处理后的内容确定关键词描述。为了挖掘热门事件,首先需要挖掘关键词来描述每个帖子,从而可以进一步发掘热门事件。一种关键词挖掘的方法是通过分词技术和词频统计的方法来确定关键词。分词技术通常使用的方法是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。在获得了分词结果之后,对每个帖子中出现的所有分词进行词频统计,用该分词在对应帖子中出现的次数除以该帖子中总的分词个数,其结果作为概率值。将所述概率值与设定的阈值进行比较,将与大于阈值的概率值对应的分词作为该帖子的关键词,从而得到每个帖子的关键词描述。
热门关键词挖掘单元404用于通过聚类的方法将确定的关键词描述进行分组,统计每个组的权值,并将与大于预定阈值的权值对应的组内的关键词作为热门关键词。具体地讲,在本发明的实施例中,权值的计算不仅仅考虑该组中包含的关键词的个数,同时还考虑组中每个关键词的一些额外因素(诸如出处的权威程度、评论的数量、发言程度的密集程度等),给这些额外因素赋予权重(0-1)并将这几个因素的权值总和作为关键词的权值,然后再统计每个组内关键词的权值总和作为该组的权重。随后,将各个组的权重与预定阈值进行比较,与大于预定阈值的权重对应的组作为热门组,从而将热门组内的关键词作为热门关键词。
热门事件过滤单元405用于将热门关键词与预先设置的地理位置信息进行比对以过滤掉不包含有地理位置信息的热门事件。通过过滤掉不包含地理位置信息的热门事件,从而得到具有地域性的热门事件,这些具有地域性的热门事件被存储到热门事件库104中。
图4中示出的热门事件挖掘模块103的配置只是示例性的,本发明的热门事件挖掘模块的配置不限于此。
热点区域信息整合模块105用于根据从实时数据流聚类模块102得到的热点区域,利用热门事件库104和热门景点库来获得该热点区域内的热门事件和热门景点,并且整合获得的热门事件信息和热门景点信息。热点区域信息整合模块105可将整合的热门事件信息和热门景点信息提供给用户设备。
图5是示出热点区域信息整合模块105的配置的框图。
如图5所示,热点区域信息整合模块105包括热点区域获取单元501、区域内热门景点获取单元502、区域内热门事件获取单元503以及热点区域信息整合单元504。
热点区域获取单元501用于从实时数据流聚类模块102接收热点区域。
区域内热门景点获取单元502用于根据热点区域从热门景点库获得热点区域内的热门景点。其中,热门景点库可通过网络资源(诸如,GeoNames)获取。
区域内热门事件获取单元503用于根据热点区域从热门事件库104获得热点区域内的热门事件。该热门事件库104中存储具有地域性的热门事件。
热点区域信息整合单元504用于将获得的热点区域内的热门景点和获得的热点区域内的热门事件进行整合。
整合后的热点区域信息可提供给用户设备200。
此外,用户可以自行定制,例如用户可通过热点区域信息整合模块105提供的接口输入自定义的规则,例如,用户输入核辐射,则热点区域信息整合模块105将热门事件库中与核辐射相关的热门事件推荐给用户,从而使得推荐更加具有针对性,更加符合用户的需求。
图6是示出根据本发明实施例的实时热点区域推荐方法的流程图。
如图6所示,在步骤S601,从用户设备和/或图片分享网站提取GPS信息。当发生用户设备的拍照行为时,用户设备中的GPS模块在将用户设备当前的GPS信息和系统当前时间写入所拍摄的照片的EXIF信息的同时,将写入的GPS信息和时间信息通过同步协议进行传送,从而从用户设备获取到GPS信息。当从图片分享网站获取GPS信息时,自动检索特定时间段内的图片,并解析图片所包含的GPS信息。所述特定时间段基于图片的上传时间。如果未指定特定时间段,则检索包括从上次检索发生的时间到当前时间为止上传的所有图片。解析图片的GPS信息指的是解析图片中的EXIF信息。
在步骤S602,接收提取的GPS信息,将GPS信息进行实时数据流聚类,从而得到作为热点区域的聚类中心。其中,将数据流聚类算法内嵌到数据流管理系统中来实现实时数据流聚类。
将数据流聚类算法内嵌到数据流管理系统中的步骤可包括:调用数据流管理系统提供的输入接口,将GPS数据流输入数据流管理系统;指定要进行聚类的数据,利用数据流管理系统提供的查询(Query)功能,可根据时间窗口或者数据量的大小来从数据流中获取聚类数据;将聚类数据作为输入项输入数据流聚类算法,经过聚类之后得到聚类结果,并通过数据流管理系统持续不断的输出给用户。数据流聚类算法可根据当前的数据流的特点被自动选择。其中,自动选择数据流聚类算法的步骤可包括:建立数据流属性向量;分析当前输入的数据流并获取数据流属性向量;根据获取的数据流属性向量选择对应的数据流聚类算法。
在步骤S603,通过信息资源分享平台挖掘热门讨论的事件,过滤缺乏地域性的热门事件,保留具有地域性的热门事件。
随后,在步骤S604,将具有地域性的热门事件存储在热门事件库104中。
图7是示出图6中的步骤S603的热门事件挖掘过程的流程图。
如图7所示,在步骤S701,实时抓取论坛或者信息共享平台的网页内容。
在步骤S702,将抓取的内容进行去噪。具体地讲,可以按照各种论坛或者信息共享平台固有的格式进行去噪。
在步骤S703,对去噪后的内容确定关键词描述。例如,可通过分词技术和词频统计的方法来确定关键词。
在步骤S704,通过聚类的方法将确定的关键词描述进行分组,统计每个组的权值,并将与大于预定阈值的权值对应的组内的关键词作为热门关键词。
在步骤S705,将热门关键词与预先设置的地理位置信息进行比对以过滤掉不包含有地理位置信息的热门事件,并将获得的具有位置信息的热门事件存储在热门事件库中。
图7中示出的热门事件挖掘过程只是示例性的,本发明的热门事件挖掘过程不限于此。
接着,返回图6的实时热点区域推荐方法进行描述。
在步骤S605,根据在步骤S602中得到的热点区域,利用热门事件库和热门景点库来获得该热点区域内的热门事件和热门景点,并且整合获得的热门事件信息和热门景点信息。
图8是示出图6中的步骤S605的热点区域信息整合的过程的流程图。
在步骤S801,接收在步骤S602中得到的热点区域。
在步骤S802,根据热点区域从热门景点库获得热点区域内的热门景点。
在步骤S803,根据热点区域从热门事件库获得热点区域内的热门事件。
在步骤S804,将获得的热点区域内的热门景点和获得的热点区域内的热门事件进行整合。
图8中示出的热点区域信息整合过程只是示例性的,本发明的热点区域信息整合过程不限于此。
随后,在步骤S606,将整合的热门事件和热门景点提供给用户设备。
通过采用实时热点区域推荐的系统和方法,得到的结果更加具有实时性,用户可以实时掌握最新热点信息,从而提高用户的使用体验。
尽管已经参照本发明的示例性实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。
Claims (16)
1.一种实时热点区域推荐系统,包括服务器和用户设备,其中,服务器包括:
全球定位系统GPS信息提取模块,用于从图片分享网站上的特定时间段内的图片和/或用户设备提取GPS信息;
实时数据流聚类模块,用于从GPS信息提取模块接收提取的GPS信息,将GPS信息进行实时数据流聚类,从而得到作为热点区域的聚类中心;
热门事件挖掘模块,用于通过信息资源分享平台挖掘热门讨论的事件,并过滤缺乏地域性的热门事件,保留具有地域性的热门事件;
热门事件库,用于存储保留的具有地域性的热门事件;
热点区域信息整合模块,用于根据从实时数据流聚类模块得到的热点区域,利用热门事件库和热门景点库来获得该热点区域内的热门事件和热门景点,整合获得的热门事件信息和热门景点信息,并将整合后的热点区域信息提供给用户设备,
其中,实时数据流聚类模块将数据流聚类算法内嵌到数据流管理系统中来实现实时数据流聚类。
2.如权利要求1所述的实时热点区域推荐系统,其中,GPS信息提取模块包括:
图片GPS信息提取单元,用于从图片分享网站上的特定时间段内的图片获取GPS信息;
用户设备GPS信息提取单元,用于提取用户设备的GPS信息;
GPS信息库,用于存储来自图片GPS信息提取单元和用户设备GPS信息提取单元提取的GPS信息,
其中,所述图片中包含记载有拍摄时间和GPS信息的EXIF信息。
3.如权利要求2所述的实时热点区域推荐系统,其中,用户设备中配置有GPS模块,该GPS模块感知用户设备的拍照行为,当感知到用户设备正在拍照时,该GPS模块将用户设备当前的GPS信息和系统当前时间写入所拍摄的照片的EXIF信息中,同时将写入的GPS信息和时间信息通过同步协议传送到服务器。
4.如权利要求1所述的实时热点区域推荐系统,其中,实时数据流聚类模块通过调用数据流管理系统提供的输入接口,将GPS数据流输入数据流管理系统,指定要进行聚类的数据,利用数据流管理系统提供的查询功能,根据时间窗口或者数据量的大小来从数据流中获取聚类数据,将聚类数据作为输入项输入数据流聚类算法,经过聚类之后得到聚类结果,来实现实时数据流聚类。
5.如权利要求1所述的实时热点区域推荐系统,其中,数据流管理系统根据当前的数据流的特点自动选择合适的数据流聚类算法。
6.如权利要求1所述的实时热点区域推荐系统,其中,热门事件挖掘模块包括:
实时内容监听单元,用于实时抓取论坛或者信息共享平台的网页内容;
内容预处理单元,用于将抓取的内容进行去噪;
关键词挖掘单元,用于对各个预处理后的内容确定关键词描述;
热门关键词挖掘单元,用于通过聚类的方法将确定的关键词描述进行分组,统计每个组的权值,并将与大于预定阈值的权值对应的组内的关键词作为热门关键词;
热门事件过滤单元,用于将热门关键词与预先设置的地理位置信息进行比对以过滤掉不包含有地理位置信息的热门事件,从而得到具有地域性的热门事件。
7.如权利要求1所述的实时热点区域推荐系统,其中,热点区域信息整合模块包括:
热点区域获取单元,用于从实时数据流聚类模块接收热点区域;
区域内热门景点获取单元,用于根据热点区域从热门景点库获得热点区域内的热门景点;
区域内热门事件获取单元,用于根据热点区域从热门事件库获得热点区域内的热门事件;
热点区域信息整合单元,用于将获得的热点区域内的热门景点和获得热点区域内的热门事件进行整合。
8.如权利要求7所述的实时热点区域推荐系统,其中,热点区域信息整合模块根据用户的定制来整合热门事件信息和热门景点信息。
9.一种实时热点区域推荐方法,包括:
a)从图片分享网站上的特定时间段内的图片和/或用户设备提取GPS信息;
b)接收提取的GPS信息,将GPS信息进行实时数据流聚类,从而得到作为热点区域的聚类中心;
c)通过信息资源分享平台挖掘热门讨论的事件,并过滤缺乏地域性的热门事件,保留具有地域性的热门事件;
d)将具有地域性的热门事件存储在热门事件库中;
e)根据得到的热点区域,利用热门事件库和热门景点库来获得该热点区域内的热门事件和热门景点,并且整合获得的热门事件信息和热门景点信息;
f)将整合的热门事件和热门景点提供给用户设备,
其中,在步骤b)中,将数据流聚类算法内嵌到数据流管理系统中来实现实时数据流聚类。
10.如权利要求9所述的实时热点区域推荐方法,其中,当发生用户设备的拍照行为时,用户设备中的GPS模块在将用户设备当前的GPS信息和系统当前时间写入所拍摄的照片的EXIF信息的同时,将写入的GPS信息和时间信息通过同步协议进行传送,从而从用户设备获取到GPS信息。
11.如权利要求9所述的实时热点区域推荐方法,将数据流聚类算法内嵌到数据流管理系统中的步骤包括:
调用数据流管理系统提供的输入接口,将GPS数据流输入数据流管理系统;
指定要进行聚类的数据,利用数据流管理系统提供的查询功能,可根据时间窗口或者数据量的大小来从数据流中获取聚类数据;
将聚类数据作为输入项输入数据流聚类算法,经过聚类之后得到聚类结果。
12.如权利要求9所述的实时热点区域推荐方法,其中,数据流管理系统根据当前的数据流的特点自动选择合适的数据流聚类算法。
13.如权利要求12所述的实时热点区域推荐方法,其中,自动选择合适的数据流聚类算法的步骤包括:
建立数据流属性向量;
分析当前输入的数据流并获取数据流属性向量;
根据获取的数据流属性向量选择对应的数据流聚类算法。
14.如权利要求9所述的实时热点区域推荐方法,其中,步骤c)包括:
实时抓取论坛或者信息共享平台的网页内容;
将抓取的内容进行去噪;
对去噪后的内容确定关键词描述;
通过聚类的方法将确定的关键词描述进行分组,统计每个组的权值,并将与大于预定阈值的权值对应的组内的关键词作为热门关键词;
将热门关键词与预先设置的地理位置信息进行比对以过滤掉不包含有地理位置信息的热门事件,并将获得的具有地域性的热门事件存储在热门事件库中。
15.如权利要求14所述的实时热点区域推荐方法,其中,通过分词技术和词频统计的方法来确定关键词。
16.如权利要求9所述的实时热点区域推荐方法,其中,步骤e)包括:
接收通过实时数据流聚类得到的热点区域;
根据热点区域从热门景点库获得热点区域内的热门景点;
根据热点区域从热门事件库获得热点区域内的热门事件;
将获得的热点区域内的热门景点和获得热点区域内的热门事件进行整合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210049013.9A CN103294712B (zh) | 2012-02-29 | 2012-02-29 | 实时热点区域推荐系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210049013.9A CN103294712B (zh) | 2012-02-29 | 2012-02-29 | 实时热点区域推荐系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103294712A CN103294712A (zh) | 2013-09-11 |
CN103294712B true CN103294712B (zh) | 2016-09-21 |
Family
ID=49095601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210049013.9A Active CN103294712B (zh) | 2012-02-29 | 2012-02-29 | 实时热点区域推荐系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103294712B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392007B (zh) * | 2014-12-18 | 2017-11-24 | 西安电子科技大学宁波信息技术研究院 | 一种智能移动终端的街景检索与识别方法 |
US10360276B2 (en) * | 2015-07-28 | 2019-07-23 | Expedia, Inc. | Disambiguating search queries |
CN105630858B (zh) * | 2015-11-16 | 2020-05-08 | 阿里巴巴(中国)有限公司 | 热度指数的展示方法、装置、服务器和智能设备 |
CN106022993A (zh) * | 2016-05-05 | 2016-10-12 | 杭州诚智天扬科技有限公司 | 一种基于移动信令的旅游热门线路识别方法 |
CN106227900A (zh) * | 2016-09-06 | 2016-12-14 | 北京易游华成科技有限公司 | 景点推荐设备、方法及系统 |
CN107180065B (zh) * | 2016-10-11 | 2020-10-09 | 深圳市沃特沃德股份有限公司 | 宠物活跃区域推送方法和装置 |
CN107358471B (zh) * | 2017-07-17 | 2020-05-22 | 桂林电子科技大学 | 一种基于游览行为的旅游资源推荐方法及系统 |
CN107885873B (zh) * | 2017-11-28 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN110020222B (zh) * | 2017-12-12 | 2023-03-03 | 腾讯科技(北京)有限公司 | 标志点确定方法、装置及存储介质 |
CN109165522A (zh) * | 2018-07-26 | 2019-01-08 | 安徽师范大学 | 一种基于数据流的敏感数据挖掘保护方法 |
CN109151498B (zh) * | 2018-09-03 | 2021-02-09 | 北京达佳互联信息技术有限公司 | 热点事件处理方法、装置、服务器及存储介质 |
CN111291176A (zh) * | 2018-12-06 | 2020-06-16 | 北京国双科技有限公司 | 一种热门事件的挖掘方法及装置 |
CN111177451B (zh) * | 2020-01-03 | 2023-01-24 | 重庆特斯联智慧科技股份有限公司 | 基于人脸识别的旅游景区相册自动生成系统及方法 |
CN111818453B (zh) * | 2020-07-13 | 2021-10-15 | 深圳大学 | 基于聚类算法的毫米波移动基站频谱共享方法及系统 |
CN114301973A (zh) * | 2021-12-24 | 2022-04-08 | 支付宝(杭州)信息技术有限公司 | 信息推荐处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009151928A2 (en) * | 2008-05-27 | 2009-12-17 | Qualcomm Incorporated | Method and apparatus for aggregating and presenting data associated with geographic locations |
CN101621740A (zh) * | 2009-07-24 | 2010-01-06 | 深圳市零距网络科技有限公司 | 一种智能可移动网络多媒体终端 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
CN102089761A (zh) * | 2008-05-12 | 2011-06-08 | 谷歌公司 | 自动发现受欢迎的地标 |
CN102687146A (zh) * | 2009-10-27 | 2012-09-19 | 苹果公司 | 用于生成和标记照片集合中的事件的方法和系统 |
-
2012
- 2012-02-29 CN CN201210049013.9A patent/CN103294712B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102089761A (zh) * | 2008-05-12 | 2011-06-08 | 谷歌公司 | 自动发现受欢迎的地标 |
WO2009151928A2 (en) * | 2008-05-27 | 2009-12-17 | Qualcomm Incorporated | Method and apparatus for aggregating and presenting data associated with geographic locations |
CN101621740A (zh) * | 2009-07-24 | 2010-01-06 | 深圳市零距网络科技有限公司 | 一种智能可移动网络多媒体终端 |
CN102687146A (zh) * | 2009-10-27 | 2012-09-19 | 苹果公司 | 用于生成和标记照片集合中的事件的方法和系统 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103294712A (zh) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103294712B (zh) | 实时热点区域推荐系统和方法 | |
Schifferes et al. | Identifying and verifying news through social media: Developing a user-centred tool for professional journalists | |
CN105354196A (zh) | 信息推送方法和信息推送装置 | |
Steed et al. | Crowdsourcing triggers rapid, reliable earthquake locations | |
CN106021508A (zh) | 基于社交媒体的突发事件应急信息挖掘方法 | |
CN105117484A (zh) | 一种互联网舆情监测方法和系统 | |
CN103412951A (zh) | 基于人物照片的人脉关联分析管理系统与方法 | |
CN109658044A (zh) | 河长app管理系统及方法 | |
Ji et al. | Epidemic outbreak and spread detection system based on twitter data | |
Weidemann | Social media location intelligence: The next privacy battle-an arcgis add-in and analysis of geospatial data collected from twitter. com | |
CN104834739B (zh) | 互联网信息存储系统 | |
KR101982756B1 (ko) | 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법 | |
CN103902579A (zh) | 获取信息的方法和装置 | |
WO2017024147A1 (en) | Area modeling by geographic photo label analysis | |
EP3030976A1 (en) | Method for processing and displaying real-time social data on map | |
CN104156356A (zh) | 个性化导航页面生成方法及装置 | |
CN104182466A (zh) | 一种房库网系统 | |
CN111125344A (zh) | 相关词推荐方法和装置 | |
Autelitano et al. | Spatio-temporal mining of keywords for social media cross-social crawling of emergency events | |
CN107832333A (zh) | 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统 | |
CN113010795A (zh) | 用户动态画像生成方法、系统、存储介质及电子设备 | |
Miah et al. | A social media analytics perspective for human‐oriented smart city planning and management | |
US8983942B2 (en) | Method and apparatus for providing time machine service based on social network service | |
CN116932906A (zh) | 一种搜索词推送方法、装置、设备及存储介质 | |
US20120147179A1 (en) | Method and system for providing intelligent access monitoring, intelligent access monitoring apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 5-12 / F, building 6, 57 Andemen street, Yuhuatai District, Nanjing City, Jiangsu Province Patentee after: Samsung Electronics (China) R&D Center Patentee after: SAMSUNG ELECTRONICS Co.,Ltd. Address before: 17 ~ 19F, Xindi center, 188 Lushan Road, Nanjing, Jiangsu 210019 Patentee before: Samsung Electronics (China) R&D Center Patentee before: SAMSUNG ELECTRONICS Co.,Ltd. |