CN104598632B - 热点事件检测方法和装置 - Google Patents

热点事件检测方法和装置 Download PDF

Info

Publication number
CN104598632B
CN104598632B CN201510062401.4A CN201510062401A CN104598632B CN 104598632 B CN104598632 B CN 104598632B CN 201510062401 A CN201510062401 A CN 201510062401A CN 104598632 B CN104598632 B CN 104598632B
Authority
CN
China
Prior art keywords
microblog data
word
microblogging
hot word
occurrence number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510062401.4A
Other languages
English (en)
Other versions
CN104598632A (zh
Inventor
胡春明
孙承根
吴博
于伟仁
沃天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201510062401.4A priority Critical patent/CN104598632B/zh
Publication of CN104598632A publication Critical patent/CN104598632A/zh
Application granted granted Critical
Publication of CN104598632B publication Critical patent/CN104598632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种热点事件检测方法和装置,其中方法包括:获取社交网络中当前时间段内的微博数据;对微博数据中的多条微博的内容进行分词,统计分词得到的各个词在微博数据中的出现次数;获取社交网络中历史时间段内各个词在历史微博数据中的出现次数;历史时间段和当前时间段的时间长度相等;对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定微博数据中的热词;获取微博数据中包括热词的微博;对包括热词的微博进行聚类,确定微博数据中的热点事件,通过从社交网络中当前时间段内的微博数据选出包括热词的微博,对包括热词的微博进行聚类,减少了聚类时的微博数量,提高了聚类获取热点事件的效率。

Description

热点事件检测方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种热点事件检测方法和装置。
背景技术
微博从诞生到如今,以惊人的速度发展着,国内最大的两大微博平台新浪和腾讯的注册人数早已超过5亿。尤其是在突发和热点事件中,微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。目前,从海量微博数据中检测热点事件的方法主要为:获取海量微博数据,采用Canopy聚类算法或k-means聚类算法对海量微博数据进行聚类,获取热点事件。
然而现有技术中,海量微博数据中的微博条数过多,且海量微博数据中由极大部分微博与热点事件毫无关系,对其进行聚类,延长了获取热点事件的时间,降低了聚类获取热点事件的效率。
发明内容
本发明提供一种热点事件检测方法和装置,用于解决现有技术中获取热点事件的时间长,效率低的问题。
本发明的第一个方面是提供一种热点事件检测方法,包括:
获取社交网络中当前时间段内的微博数据;
对所述微博数据中的多条微博的内容进行分词,统计分词得到的各个词在所述微博数据中的出现次数;
获取社交网络中历史时间段内所述各个词在历史微博数据中的出现次数;所述历史时间段和所述当前时间段的时间长度相等;
对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定所述微博数据中的热词;
获取所述微博数据中包括所述热词的微博;
对包括所述热词的微博进行聚类,确定所述微博数据中的热点事件。
进一步地,所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定所述微博数据中的热词,包括:
计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的比值;
将所述比值大于第一阈值的相应词确定为所述微博数据中的热词。
进一步地,所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定所述微博数据中的热词,还包括:
计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的差值;
所述将所述比值大于第一阈值相应词确定为所述微博数据中的热词,包括:
将所述比值大于第一阈值,且所述差值大于第二阈值的相应词确定为所述微博数据中的热词。
进一步地,所述对包括所述热词的微博进行聚类,确定所述微博数据中的热点事件,包括:
对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点;
根据所述初始类的数目和中心点对包括所述热词的微博进行k-means聚类,确定所述微博数据中的热点事件。
进一步地,所述对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点之前,还包括:
查询预设的词表,确定所述热词在所述词表中的序号;
根据所述热词在所述词表中的序号和所述热词在所述微博数据中的出现次数,确定包括所述热词的微博对应的微博向量;
所述对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点,包括:
对所述微博向量进行canopy聚类,确定初始类的数目和中心点。
本发明的另一个方面提供一种热点事件检测装置,包括:
获取模块,用于获取社交网络中当前时间段内的微博数据;
分词模块,用于对所述微博数据中的多条微博的内容进行分词,统计分词得到的各个词在所述微博数据中的出现次数;
所述获取模块,还用于获取社交网络中历史时间段内所述各个词在历史微博数据中的出现次数;所述历史时间段和所述当前时间段的时间长度相等;
确定模块,用于对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定所述微博数据中的热词;
所述获取模块,还用于获取所述微博数据中包括所述热词的微博;
聚类模块,用于对包括所述热词的微博进行聚类,确定所述微博数据中的热点事件。
进一步地,所述确定模块具体用于,
计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的比值;
将所述比值大于第一阈值的相应词确定为所述微博数据中的热词。
进一步地,所述确定模块具体还用于,计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的差值;
所述确定模块将所述比值大于第一阈值相应词确定为所述微博数据中的热词中,所述确定模块具体用于,将所述比值大于第一阈值,且所述差值大于第二阈值的相应词确定为所述微博数据中的热词。
进一步地,所述聚类模块对包括所述热词的微博进行聚类,确定所述微博数据中的热点事件中,所述聚类模块具体用于,
对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点;
根据所述初始类的数目和中心点对包括所述热词的微博进行k-means聚类,确定所述微博数据中的热点事件。
进一步地,所述聚类模块对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点之前,所述确定模块还用于,查询预设的词表,确定所述热词在所述词表中的序号;
根据所述热词在所述词表中的序号和所述热词在所述微博数据中的出现次数,确定包括所述热词的微博对应的微博向量;
所述聚类模块对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点中,所述聚类模块具体用于,
对所述微博向量进行canopy聚类,确定初始类的数目和中心点。
本发明中,通过获取社交网络中当前时间段内的微博数据;对微博数据中的多条微博的内容进行分词,统计分词得到的各个词在微博数据中的出现次数;获取社交网络中历史时间段内各个词在历史微博数据中的出现次数;历史时间段和当前时间段的时间长度相等;对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定微博数据中的热词;获取微博数据中包括热词的微博;对包括热词的微博进行聚类,确定微博数据中的热点事件,通过先从社交网络中当前时间段内的微博数据选出包括热词的微博,对包括热词的微博进行聚类,减少了聚类时的微博数量,缩短了获取热点事件的时间,提高了聚类获取热点事件的效率。
附图说明
图1为本发明提供的热点事件检测方法一个实施例的流程图;
图2为本发明提供的热点事件检测方法又一个实施例的流程图;
图3为canopy聚类算法的示意图;
图4为本发明提供的热点事件检测装置一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的热点事件检测方法一个实施例的流程图,如图1所示,包括:
101、获取社交网络中当前时间段内的微博数据。
本发明提供的热点事件检测方法的执行主体为热点事件检测装置,热点事件检测装置具体可以为互联网中的应用服务器,或者设置在应用服务器上的软件或系统,用于检测社交网络中用户发表的各微博中的热点事件。
102、对微博数据中的多条微博的内容进行分词,统计分词得到的各个词在微博数据中的出现次数。
具体地,热点事件检测装置可以采用IKAnalyser中文分词器对微博数据中的多条微博的内容进行分词;分词完成后,可以先统计分词得到的各个词在一秒内在微博数据中的出现次数,进而汇总分词得到的各个词在一分钟内在微博数据中的出现次数,进而汇总分词得到的各个词在一小时内在微博数据中的出现次数,进而汇总分词得到的各个词在一天内在微博数据中的出现次数;依次执行上述所有汇总过程或者部分汇总过程,分词得到的各个词在当前时间段内在微博数据中的出现次数。
103、获取社交网络中历史时间段内各个词在历史微博数据中的出现次数;历史时间段和当前时间段的时间长度相等。
获取社交网络中历史时间段内各个词在历史微博数据中的出现次数的过程具体可以为:获取社交网络中历史时间段内的历史微博数据;对历史微博数据中的多条微博的微博内容进行分词及统计,获取到社交网络中历史时间段内各个词在历史微博数据中的出现次数。统计过程可以参照步骤102。
104、对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定微博数据中的热词。
其中,步骤104可以包括:计算各个词在微博数据中的出现次数与在历史微博数据中的出现次数的比值;将比值大于第一阈值的相应词确定为微博数据中的热词。
进一步地,为了避免在多个预设时间段内出现次数一直较低或一直较高的词被选为热词,例如,在历史时间段内只出现过两次的词,而在当前时间段内出现过十几次的词被选为热词,步骤104还可以包括:计算各个词在微博数据中的出现次数与在历史微博数据中的出现次数的差值;
对应的,将比值大于第一阈值的相应词确定为微博数据中的热词具体可以为:将比值大于第一阈值,且差值大于第二阈值的相应词确定为微博数据中的热词。
另外,还有部分词,历史时间段内出现过上千次的词,而在当前时间段内出现过几千次的词,由于这些词在当前时间段之前可能已经被选为热词,因此,为了避免这些词又被选为热词,在确定热词后,可以设置预设的过滤条件,将该部分词过滤掉。
还需要进行说明的是,为了避免部分无意义的词被选为热词,还可以设置无意义词表,将被选为热词的词与无意义词表中的词进行比较,过滤掉无意义的词。其中,无意义的词可以为“可以”、“进行”、“需要”等等。无意义的词还可以为单字词和乱码词等。
例如,以下是针对微博分析出的2013年7月17日连续四个小时的热词:
表1热词分析结果
105、获取微博数据中包括热词的微博。
106、对包括热词的微博进行聚类,确定微博数据中的热点事件。
需要进行说明的是,本实施例提供的方法具体可以在集群中分布式运行,通过借助Spark算法充分利用集群的内存,也就是说,本实施例提供的方法中的各个步骤可以在集群中分布式并行运行,或者本实施例提供的方法中每个步骤中的处理操作也可以在集群中分布式并行运行,从而提高本实施例中热点事件检测方法的效率。
本实施例中,通过获取社交网络中当前时间段内的微博数据;对微博数据中的多条微博的内容进行分词,统计分词得到的各个词在微博数据中的出现次数;获取社交网络中历史时间段内各个词在历史微博数据中的出现次数;历史时间段和当前时间段的时间长度相等;对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定微博数据中的热词;获取微博数据中包括热词的微博;对包括热词的微博进行聚类,确定微博数据中的热点事件,从而通过先从社交网络中当前时间段内的微博数据选出包括热词的微博,对包括热词的微博进行聚类,减少了聚类时的微博数量,缩短了获取热点事件的时间,提高了聚类获取热点事件的效率。
图2为本发明提供的热点事件检测方法又一个实施例的流程图,如图2所示,在图1所示实施例的基础上,步骤106包括:
1061、对包括热词的微博进行canopy聚类,确定初始类的数目和中心点。
其中,在对包括热词的微博进行canopy聚类之前,需要先查询预设的词表,确定热词在词表中的序号;根据热词在词表中的序号和热词在微博数据中的出现次数,确定包括热词的微博对应的微博向量。
对应的,步骤1061具体可以为:对微博向量进行canopy聚类,确定初始类的数目和中心点。
对微博向量进行canopy聚类的过程具体包括:(1)根据各个微博向量组成一个向量化的数据集D,选择两个距离阈值T1和T2,且T1>T2,如图3所示,图3为canopy聚类算法的示意图;(2)随机取D中的一个数据d作为中心,并将d从D中移除;(3)计算D中所有点到d的距离distance;(4)将所有distance<T1的点都归入到d为中心的canopy1类中;(5)将所有distance<T2的点,都从D中移除;(6)重复步骤(2)到(5),直到D为空,形成多个初始类,算法结束。
其中,两个微博向量之间的距离具体可以采用余弦相似度的相似度度量方法,具体公式如下所示,
1062、根据初始类的数目和中心点对包括热词的微博进行k-means聚类,确定微博数据中的热点事件。
根据初始类的数目和中心点对包括热词的微博进行k-means聚类的过程具体可以为:若用{C1,…,CK}代表K个初始类的中心,则有下面的目标函数:
基于上述的目标函数,使上述的目标函数达到最小值的各个类的中心为微博数据中的热点事件。
当使上述的目标函数达到最小值时,可以通过将上述各个类中的一些相似的类进行合并,以及将数量较小的类去除掉,从而实现对聚类结果的优化。
需要进行说明的是,对聚类结果进行优化后,具体得到的是每个热点事件的描述词。例如“西安外国语大学,暗中,16天,1200公里,应届毕业生,宜春,女大学生,10天”、“瓜农,城管,临武,临武县,17日,郴州,郴州市”、“有喜,婷婷,访谈,陈紫涵,陈浩民,benny,威威,kelvin”、“广电总局,新闻出版,审查,电影剧本”、“实名,宋林,华润,王文,副部级,新华社记者”等,上述描述词对应的热点事件分别为“女大学生骑行1200公里”、“临武瓜农事件”、“陈浩民访谈”、“广电总局关于电影剧本审查的规定”、“新华社记者实名举报宋林”。
本实施例中,通过获取社交网络中当前时间段内的微博数据;对微博数据中的多条微博的内容进行分词,统计分词得到的各个词在微博数据中的出现次数;获取社交网络中历史时间段内各个词在历史微博数据中的出现次数;历史时间段和当前时间段的时间长度相等;对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定微博数据中的热词;获取微博数据中包括热词的微博;对包括热词的微博进行canopy聚类,确定初始类的数目和中心点;根据初始类的数目和中心点对包括热词的微博进行k-means聚类,确定微博数据中的热点事件,通过先从社交网络中当前时间段内的微博数据选出包括热词的微博,对包括热词的微博进行聚类,减少了聚类时的微博数量,缩短了获取热点事件的时间,提高了聚类获取热点事件的效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本发明提供的热点事件检测装置一个实施例的结构示意图,如图4所示,包括:
获取模块41,用于获取社交网络中当前时间段内的微博数据;
分词模块42,用于对微博数据中的多条微博的内容进行分词,统计分词得到的各个词在微博数据中的出现次数;
获取模块41,还用于获取社交网络中历史时间段内各个词在历史微博数据中的出现次数;历史时间段和当前时间段的时间长度相等;
其中,获取模块41获取社交网络中历史时间段内各个词在历史微博数据中的出现次数的过程具体可以为:获取社交网络中历史时间段内的历史微博数据;对历史微博数据中的多条微博的微博内容进行分词及统计,获取到社交网络中历史时间段内各个词在历史微博数据中的出现次数。
确定模块43,用于对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定微博数据中的热词;
其中,确定模块43具体用于,计算各个词在微博数据中的出现次数与在历史微博数据中的出现次数的比值;将比值大于第一阈值的相应词确定为微博数据中的热词。
进一步地,为了避免在多个预设时间段内出现次数一直较低或一直较高的词被选为热词,例如,在历史时间段内只出现过两次的词,而在当前时间段内出现过十几次的词被选为热词,确定模块43具体还用于,计算各个词在微博数据中的出现次数与在历史微博数据中的出现次数的差值;确定模块43将比值大于第一阈值相应词确定为微博数据中的热词中,确定模块43具体用于,将比值大于第一阈值,且差值大于第二阈值的相应词确定为微博数据中的热词。
获取模块41,还用于获取微博数据中包括热词的微博;
聚类模块44,用于对包括热词的微博进行聚类,确定微博数据中的热点事件。
进一步地,聚类模块44对包括热词的微博进行聚类,确定微博数据中的热点事件中,聚类模块44具体用于,
对包括热词的微博进行canopy聚类,确定初始类的数目和中心点;根据初始类的数目和中心点对包括热词的微博进行k-means聚类,确定微博数据中的热点事件。
进一步地,聚类模块44对包括热词的微博进行canopy聚类,确定初始类的数目和中心点之前,确定模块43还用于,查询预设的词表,确定热词在词表中的序号;根据热词在词表中的序号和热词在微博数据中的出现次数,确定包括热词的微博对应的微博向量;
对应的,聚类模块44对包括热词的微博进行canopy聚类,确定初始类的数目和中心点中,聚类模块44具体用于,对微博向量进行canopy聚类,确定初始类的数目和中心点。
本实施例中,通过获取社交网络中当前时间段内的微博数据;对微博数据中的多条微博的内容进行分词,统计分词得到的各个词在微博数据中的出现次数;获取社交网络中历史时间段内各个词在历史微博数据中的出现次数;历史时间段和当前时间段的时间长度相等;对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定微博数据中的热词;获取微博数据中包括热词的微博;对包括热词的微博进行聚类,确定微博数据中的热点事件,从而通过先从社交网络中当前时间段内的微博数据选出包括热词的微博,对包括热词的微博进行聚类,减少了聚类时的微博数量,缩短了获取热点事件的时间,提高了聚类获取热点事件的效率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种热点事件检测方法,其特征在于,包括:
获取社交网络中当前时间段内的微博数据;
对所述微博数据中的多条微博的内容进行分词,统计分词得到的各个词在所述微博数据中的出现次数;
获取社交网络中历史时间段内所述各个词在历史微博数据中的出现次数;所述历史时间段和所述当前时间段的时间长度相等;
对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定所述微博数据中的热词;
获取所述微博数据中包括所述热词的微博;
对包括所述热词的微博进行聚类,确定所述微博数据中的热点事件。
2.根据权利要求1所述的方法,其特征在于,所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定所述微博数据中的热词,包括:
计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的比值;
将所述比值大于第一阈值的相应词确定为所述微博数据中的热词。
3.根据权利要求2所述的方法,其特征在于,所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定所述微博数据中的热词,还包括:
计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的差值;
所述将所述比值大于第一阈值相应词确定为所述微博数据中的热词,包括:
将所述比值大于第一阈值,且所述差值大于第二阈值的相应词确定为所述微博数据中的热词。
4.根据权利要求1所述的方法,其特征在于,所述对包括所述热词的微博进行聚类,确定所述微博数据中的热点事件,包括:
对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点;
根据所述初始类的数目和中心点对包括所述热词的微博进行k-means聚类,确定所述微博数据中的热点事件。
5.根据权利要求4所述的方法,其特征在于,所述对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点之前,还包括:
查询预设的词表,确定所述热词在所述词表中的序号;
根据所述热词在所述词表中的序号和所述热词在所述微博数据中的出现次数,确定包括所述热词的微博对应的微博向量;
所述对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点,包括:
对所述微博向量进行canopy聚类,确定初始类的数目和中心点。
6.一种热点事件检测装置,其特征在于,包括:
获取模块,用于获取社交网络中当前时间段内的微博数据;
分词模块,用于对所述微博数据中的多条微博的内容进行分词,统计分词得到的各个词在所述微博数据中的出现次数;
所述获取模块,还用于获取社交网络中历史时间段内所述各个词在历史微博数据中的出现次数;所述历史时间段和所述当前时间段的时间长度相等;
确定模块,用于对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定所述微博数据中的热词;
所述获取模块,还用于获取所述微博数据中包括所述热词的微博;
聚类模块,用于对包括所述热词的微博进行聚类,确定所述微博数据中的热点事件。
7.根据权利要求6所述的装置,其特征在于,所述确定模块具体用于,
计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的比值;
将所述比值大于第一阈值的相应词确定为所述微博数据中的热词。
8.根据权利要求7所述的装置,其特征在于,所述确定模块具体还用于,计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的差值;
所述确定模块将所述比值大于第一阈值相应词确定为所述微博数据中的热词中,所述确定模块具体用于,将所述比值大于第一阈值,且所述差值大于第二阈值的相应词确定为所述微博数据中的热词。
9.根据权利要求6所述的装置,其特征在于,所述聚类模块对包括所述热词的微博进行聚类,确定所述微博数据中的热点事件中,所述聚类模块具体用于,
对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点;
根据所述初始类的数目和中心点对包括所述热词的微博进行k-means聚类,确定所述微博数据中的热点事件。
10.根据权利要求9所述的装置,其特征在于,所述聚类模块对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点之前,所述确定模块还用于,查询预设的词表,确定所述热词在所述词表中的序号;
根据所述热词在所述词表中的序号和所述热词在所述微博数据中的出现次数,确定包括所述热词的微博对应的微博向量;
所述聚类模块对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点中,所述聚类模块具体用于,
对所述微博向量进行canopy聚类,确定初始类的数目和中心点。
CN201510062401.4A 2015-02-05 2015-02-05 热点事件检测方法和装置 Active CN104598632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510062401.4A CN104598632B (zh) 2015-02-05 2015-02-05 热点事件检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510062401.4A CN104598632B (zh) 2015-02-05 2015-02-05 热点事件检测方法和装置

Publications (2)

Publication Number Publication Date
CN104598632A CN104598632A (zh) 2015-05-06
CN104598632B true CN104598632B (zh) 2017-12-01

Family

ID=53124417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510062401.4A Active CN104598632B (zh) 2015-02-05 2015-02-05 热点事件检测方法和装置

Country Status (1)

Country Link
CN (1) CN104598632B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183855A (zh) * 2015-09-08 2015-12-23 浪潮(北京)电子信息产业有限公司 一种信息归类方法和系统
CN111858934A (zh) * 2015-12-04 2020-10-30 杭州数梦工场科技有限公司 文章热度的预测方法和装置
CN106202222B (zh) * 2016-06-28 2022-08-12 北京小米移动软件有限公司 热点事件的确定方法及装置
CN108170692B (zh) * 2016-12-07 2021-08-24 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN107193867A (zh) * 2017-04-07 2017-09-22 广东精点数据科技股份有限公司 基于大数据的热点话题分析方法
CN107800900B (zh) * 2017-07-25 2020-08-28 平安科技(深圳)有限公司 通话数据处理方法、装置、存储介质和计算机设备
CN110263169A (zh) * 2019-03-27 2019-09-20 青岛大学 一种基于卷积神经网络和关键词聚类的热点事件检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970756A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 热点话题提取方法、装置和服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101169377B1 (ko) * 2010-09-27 2012-07-30 한국과학기술연구원 핫 토픽 이벤트 추출에 기반한 실시간 이벤트의 하이라이트 제공 시스템 및 이를 이용한 하이라이트 서비스 제공방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970756A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 热点话题提取方法、装置和服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Canopy的K_means多核算法;邱荣太;《微计算机信息》;20121231;第486-487及233页 *
微博突发话题检测方法研究;程亮;《万方学位论文数据库》;20140703;第24-35页 *

Also Published As

Publication number Publication date
CN104598632A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN104598632B (zh) 热点事件检测方法和装置
Liang et al. Dynamic clustering of streaming short documents
CN104050247B (zh) 实现海量视频快速检索的方法
Elhamifar et al. Online summarization via submodular and convex optimization
CN104008106B (zh) 一种获取热点话题的方法及装置
CN105224606B (zh) 一种用户标识的处理方法及装置
CN102890698B (zh) 微博话题标签自动化描述方法
US9152709B2 (en) Cross-domain topic space
CN107066476A (zh) 一种基于物品相似度的实时推荐方法
CN106528894B (zh) 设置标签信息的方法及装置
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN105740448B (zh) 面向话题的多微博时序文摘方法
CN112463952B (zh) 一种基于近邻搜索的新闻文本聚合方法及系统
CN102929906A (zh) 基于内容特征和主题特征的文本分组聚类方法
CN105930507A (zh) 一种获得用户的Web浏览兴趣的方法及装置
CN112968872B (zh) 基于自然语言处理的恶意流量检测方法、系统、终端
CN111866196A (zh) 一种域名流量特征提取方法、装置、设备及可读存储介质
De Boom et al. Semantics-driven event clustering in Twitter feeds
Zhu et al. Feature engineering for place category classification
KR20180075234A (ko) 컨텐츠에 대한 유입검색어 및 연관검색어 기반의 컨텐츠 추천방법 및 추천장치
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
CN104933143A (zh) 获取推荐对象的方法及装置
CN110598126B (zh) 基于行为习惯的跨社交网络用户身份识别方法
CN105426392A (zh) 一种协同过滤推荐方法及系统
CN104123321B (zh) 一种确定推荐图片的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant