CN104598632A

CN104598632A - 热点事件检测方法和装置

Info

Publication number: CN104598632A
Application number: CN201510062401.4A
Authority: CN
Inventors: 胡春明; 孙承根; 吴博; 于伟仁; 沃天宇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2015-05-06
Anticipated expiration: 2035-02-05
Also published as: CN104598632B

Abstract

本发明涉及一种热点事件检测方法和装置，其中方法包括：获取社交网络中当前时间段内的微博数据；对微博数据中的多条微博的内容进行分词，统计分词得到的各个词在微博数据中的出现次数；获取社交网络中历史时间段内各个词在历史微博数据中的出现次数；历史时间段和当前时间段的时间长度相等；对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定微博数据中的热词；获取微博数据中包括热词的微博；对包括热词的微博进行聚类，确定微博数据中的热点事件，通过从社交网络中当前时间段内的微博数据选出包括热词的微博，对包括热词的微博进行聚类，减少了聚类时的微博数量，提高了聚类获取热点事件的效率。

Description

热点事件检测方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种热点事件检测方法和装置。

背景技术

微博从诞生到如今，以惊人的速度发展着，国内最大的两大微博平台新浪和腾讯的注册人数早已超过5亿。尤其是在突发和热点事件中，微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。目前，从海量微博数据中检测热点事件的方法主要为：获取海量微博数据，采用Canopy聚类算法或k-means聚类算法对海量微博数据进行聚类，获取热点事件。

然而现有技术中，海量微博数据中的微博条数过多，且海量微博数据中由极大部分微博与热点事件毫无关系，对其进行聚类，延长了获取热点事件的时间，降低了聚类获取热点事件的效率。

发明内容

本发明提供一种热点事件检测方法和装置，用于解决现有技术中获取热点事件的时间长，效率低的问题。

本发明的第一个方面是提供一种热点事件检测方法，包括：

获取社交网络中当前时间段内的微博数据；

对所述微博数据中的多条微博的内容进行分词，统计分词得到的各个词在所述微博数据中的出现次数；

获取社交网络中历史时间段内所述各个词在历史微博数据中的出现次数；所述历史时间段和所述当前时间段的时间长度相等；

对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词；

获取所述微博数据中包括所述热词的微博；

对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件。

进一步地，所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词，包括：

计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的比值；

将所述比值大于第一阈值的相应词确定为所述微博数据中的热词。

进一步地，所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词，还包括：

计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的差值；

所述将所述比值大于第一阈值相应词确定为所述微博数据中的热词，包括：

将所述比值大于第一阈值，且所述差值大于第二阈值的相应词确定为所述微博数据中的热词。

进一步地，所述对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件，包括：

对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点；

根据所述初始类的数目和中心点对包括所述热词的微博进行k-means聚类，确定所述微博数据中的热点事件。

进一步地，所述对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点之前，还包括：

查询预设的词表，确定所述热词在所述词表中的序号；

根据所述热词在所述词表中的序号和所述热词在所述微博数据中的出现次数，确定包括所述热词的微博对应的微博向量；

所述对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点，包括：

对所述微博向量进行canopy聚类，确定初始类的数目和中心点。

本发明的另一个方面提供一种热点事件检测装置，包括：

获取模块，用于获取社交网络中当前时间段内的微博数据；

分词模块，用于对所述微博数据中的多条微博的内容进行分词，统计分词得到的各个词在所述微博数据中的出现次数；

所述获取模块，还用于获取社交网络中历史时间段内所述各个词在历史微博数据中的出现次数；所述历史时间段和所述当前时间段的时间长度相等；

确定模块，用于对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词；

所述获取模块，还用于获取所述微博数据中包括所述热词的微博；

聚类模块，用于对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件。

进一步地，所述确定模块具体用于，

进一步地，所述确定模块具体还用于，计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的差值；

所述确定模块将所述比值大于第一阈值相应词确定为所述微博数据中的热词中，所述确定模块具体用于，将所述比值大于第一阈值，且所述差值大于第二阈值的相应词确定为所述微博数据中的热词。

进一步地，所述聚类模块对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件中，所述聚类模块具体用于，

进一步地，所述聚类模块对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点之前，所述确定模块还用于，查询预设的词表，确定所述热词在所述词表中的序号；

所述聚类模块对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点中，所述聚类模块具体用于，

本发明中，通过获取社交网络中当前时间段内的微博数据；对微博数据中的多条微博的内容进行分词，统计分词得到的各个词在微博数据中的出现次数；获取社交网络中历史时间段内各个词在历史微博数据中的出现次数；历史时间段和当前时间段的时间长度相等；对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定微博数据中的热词；获取微博数据中包括热词的微博；对包括热词的微博进行聚类，确定微博数据中的热点事件，通过先从社交网络中当前时间段内的微博数据选出包括热词的微博，对包括热词的微博进行聚类，减少了聚类时的微博数量，缩短了获取热点事件的时间，提高了聚类获取热点事件的效率。

附图说明

图1为本发明提供的热点事件检测方法一个实施例的流程图；

图2为本发明提供的热点事件检测方法又一个实施例的流程图；

图3为canopy聚类算法的示意图；

图4为本发明提供的热点事件检测装置一个实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的热点事件检测方法一个实施例的流程图，如图1所示，包括：

101、获取社交网络中当前时间段内的微博数据。

本发明提供的热点事件检测方法的执行主体为热点事件检测装置，热点事件检测装置具体可以为互联网中的应用服务器，或者设置在应用服务器上的软件或系统，用于检测社交网络中用户发表的各微博中的热点事件。

102、对微博数据中的多条微博的内容进行分词，统计分词得到的各个词在微博数据中的出现次数。

具体地，热点事件检测装置可以采用IKAnalyser中文分词器对微博数据中的多条微博的内容进行分词；分词完成后，可以先统计分词得到的各个词在一秒内在微博数据中的出现次数，进而汇总分词得到的各个词在一分钟内在微博数据中的出现次数，进而汇总分词得到的各个词在一小时内在微博数据中的出现次数，进而汇总分词得到的各个词在一天内在微博数据中的出现次数；依次执行上述所有汇总过程或者部分汇总过程，分词得到的各个词在当前时间段内在微博数据中的出现次数。

103、获取社交网络中历史时间段内各个词在历史微博数据中的出现次数；历史时间段和当前时间段的时间长度相等。

获取社交网络中历史时间段内各个词在历史微博数据中的出现次数的过程具体可以为：获取社交网络中历史时间段内的历史微博数据；对历史微博数据中的多条微博的微博内容进行分词及统计，获取到社交网络中历史时间段内各个词在历史微博数据中的出现次数。统计过程可以参照步骤102。

104、对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定微博数据中的热词。

其中，步骤104可以包括：计算各个词在微博数据中的出现次数与在历史微博数据中的出现次数的比值；将比值大于第一阈值的相应词确定为微博数据中的热词。

进一步地，为了避免在多个预设时间段内出现次数一直较低或一直较高的词被选为热词，例如，在历史时间段内只出现过两次的词，而在当前时间段内出现过十几次的词被选为热词，步骤104还可以包括：计算各个词在微博数据中的出现次数与在历史微博数据中的出现次数的差值；

对应的，将比值大于第一阈值的相应词确定为微博数据中的热词具体可以为：将比值大于第一阈值，且差值大于第二阈值的相应词确定为微博数据中的热词。

另外，还有部分词，历史时间段内出现过上千次的词，而在当前时间段内出现过几千次的词，由于这些词在当前时间段之前可能已经被选为热词，因此，为了避免这些词又被选为热词，在确定热词后，可以设置预设的过滤条件，将该部分词过滤掉。

还需要进行说明的是，为了避免部分无意义的词被选为热词，还可以设置无意义词表，将被选为热词的词与无意义词表中的词进行比较，过滤掉无意义的词。其中，无意义的词可以为“可以”、“进行”、“需要”等等。无意义的词还可以为单字词和乱码词等。

例如，以下是针对微博分析出的2013年7月17日连续四个小时的热词：

表1热词分析结果

105、获取微博数据中包括热词的微博。

106、对包括热词的微博进行聚类，确定微博数据中的热点事件。

需要进行说明的是，本实施例提供的方法具体可以在集群中分布式运行，通过借助Spark算法充分利用集群的内存，也就是说，本实施例提供的方法中的各个步骤可以在集群中分布式并行运行，或者本实施例提供的方法中每个步骤中的处理操作也可以在集群中分布式并行运行，从而提高本实施例中热点事件检测方法的效率。

本实施例中，通过获取社交网络中当前时间段内的微博数据；对微博数据中的多条微博的内容进行分词，统计分词得到的各个词在微博数据中的出现次数；获取社交网络中历史时间段内各个词在历史微博数据中的出现次数；历史时间段和当前时间段的时间长度相等；对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定微博数据中的热词；获取微博数据中包括热词的微博；对包括热词的微博进行聚类，确定微博数据中的热点事件，从而通过先从社交网络中当前时间段内的微博数据选出包括热词的微博，对包括热词的微博进行聚类，减少了聚类时的微博数量，缩短了获取热点事件的时间，提高了聚类获取热点事件的效率。

图2为本发明提供的热点事件检测方法又一个实施例的流程图，如图2所示，在图1所示实施例的基础上，步骤106包括：

1061、对包括热词的微博进行canopy聚类，确定初始类的数目和中心点。

其中，在对包括热词的微博进行canopy聚类之前，需要先查询预设的词表，确定热词在词表中的序号；根据热词在词表中的序号和热词在微博数据中的出现次数，确定包括热词的微博对应的微博向量。

对应的，步骤1061具体可以为：对微博向量进行canopy聚类，确定初始类的数目和中心点。

对微博向量进行canopy聚类的过程具体包括：(1)根据各个微博向量组成一个向量化的数据集D，选择两个距离阈值T1和T2，且T1>T2，如图3所示，图3为canopy聚类算法的示意图；(2)随机取D中的一个数据d作为中心，并将d从D中移除；(3)计算D中所有点到d的距离distance；(4)将所有distance<T1的点都归入到d为中心的canopy1类中；(5)将所有distance<T2的点，都从D中移除；(6)重复步骤(2)到(5)，直到D为空，形成多个初始类，算法结束。

其中，两个微博向量之间的距离具体可以采用余弦相似度的相似度度量方法，具体公式如下所示，

sim (X, Y) = \cos θ = \frac{\overset{&RightArrow;}{x} \cdot \overset{&RightArrow;}{y}}{| | x | | \cdot | | y | |} .

1062、根据初始类的数目和中心点对包括热词的微博进行k-means聚类，确定微博数据中的热点事件。

根据初始类的数目和中心点对包括热词的微博进行k-means聚类的过程具体可以为：若用{C1,…,CK}代表K个初始类的中心，则有下面的目标函数：

E = Σ_{l = 1}^{K} \underset{x_{i} &Element; X_{I}}{Σ} {| | x_{i} - C_{l} | |}^{2}

基于上述的目标函数，使上述的目标函数达到最小值的各个类的中心为微博数据中的热点事件。

当使上述的目标函数达到最小值时，可以通过将上述各个类中的一些相似的类进行合并，以及将数量较小的类去除掉，从而实现对聚类结果的优化。

需要进行说明的是，对聚类结果进行优化后，具体得到的是每个热点事件的描述词。例如“西安外国语大学，暗中，16天，1200公里，应届毕业生，宜春，女大学生，10天”、“瓜农，城管，临武，临武县，17日，郴州，郴州市”、“有喜，婷婷，访谈，陈紫涵，陈浩民，benny，威威，kelvin”、“广电总局，新闻出版，审查，电影剧本”、“实名，宋林，华润，王文，副部级，新华社记者”等，上述描述词对应的热点事件分别为“女大学生骑行1200公里”、“临武瓜农事件”、“陈浩民访谈”、“广电总局关于电影剧本审查的规定”、“新华社记者实名举报宋林”。

本实施例中，通过获取社交网络中当前时间段内的微博数据；对微博数据中的多条微博的内容进行分词，统计分词得到的各个词在微博数据中的出现次数；获取社交网络中历史时间段内各个词在历史微博数据中的出现次数；历史时间段和当前时间段的时间长度相等；对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定微博数据中的热词；获取微博数据中包括热词的微博；对包括热词的微博进行canopy聚类，确定初始类的数目和中心点；根据初始类的数目和中心点对包括热词的微博进行k-means聚类，确定微博数据中的热点事件，通过先从社交网络中当前时间段内的微博数据选出包括热词的微博，对包括热词的微博进行聚类，减少了聚类时的微博数量，缩短了获取热点事件的时间，提高了聚类获取热点事件的效率。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本发明提供的热点事件检测装置一个实施例的结构示意图，如图4所示，包括：

获取模块41，用于获取社交网络中当前时间段内的微博数据；

分词模块42，用于对微博数据中的多条微博的内容进行分词，统计分词得到的各个词在微博数据中的出现次数；

获取模块41，还用于获取社交网络中历史时间段内各个词在历史微博数据中的出现次数；历史时间段和当前时间段的时间长度相等；

其中，获取模块41获取社交网络中历史时间段内各个词在历史微博数据中的出现次数的过程具体可以为：获取社交网络中历史时间段内的历史微博数据；对历史微博数据中的多条微博的微博内容进行分词及统计，获取到社交网络中历史时间段内各个词在历史微博数据中的出现次数。

确定模块43，用于对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定微博数据中的热词；

其中，确定模块43具体用于，计算各个词在微博数据中的出现次数与在历史微博数据中的出现次数的比值；将比值大于第一阈值的相应词确定为微博数据中的热词。

进一步地，为了避免在多个预设时间段内出现次数一直较低或一直较高的词被选为热词，例如，在历史时间段内只出现过两次的词，而在当前时间段内出现过十几次的词被选为热词，确定模块43具体还用于，计算各个词在微博数据中的出现次数与在历史微博数据中的出现次数的差值；确定模块43将比值大于第一阈值相应词确定为微博数据中的热词中，确定模块43具体用于，将比值大于第一阈值，且差值大于第二阈值的相应词确定为微博数据中的热词。

获取模块41，还用于获取微博数据中包括热词的微博；

聚类模块44，用于对包括热词的微博进行聚类，确定微博数据中的热点事件。

进一步地，聚类模块44对包括热词的微博进行聚类，确定微博数据中的热点事件中，聚类模块44具体用于，

对包括热词的微博进行canopy聚类，确定初始类的数目和中心点；根据初始类的数目和中心点对包括热词的微博进行k-means聚类，确定微博数据中的热点事件。

进一步地，聚类模块44对包括热词的微博进行canopy聚类，确定初始类的数目和中心点之前，确定模块43还用于，查询预设的词表，确定热词在词表中的序号；根据热词在词表中的序号和热词在微博数据中的出现次数，确定包括热词的微博对应的微博向量；

对应的，聚类模块44对包括热词的微博进行canopy聚类，确定初始类的数目和中心点中，聚类模块44具体用于，对微博向量进行canopy聚类，确定初始类的数目和中心点。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种热点事件检测方法，其特征在于，包括：

获取社交网络中当前时间段内的微博数据；

获取所述微博数据中包括所述热词的微博；

2.根据权利要求1所述的方法，其特征在于，所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词，还包括：

4.根据权利要求1所述的方法，其特征在于，所述对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件，包括：

5.根据权利要求4所述的方法，其特征在于，所述对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点之前，还包括：

查询预设的词表，确定所述热词在所述词表中的序号；

6.一种热点事件检测装置，其特征在于，包括：

获取模块，用于获取社交网络中当前时间段内的微博数据；

7.根据权利要求6所述的装置，其特征在于，所述确定模块具体用于，

8.根据权利要求7所述的装置，其特征在于，所述确定模块具体还用于，计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的差值；

9.根据权利要求6所述的装置，其特征在于，所述聚类模块对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件中，所述聚类模块具体用于，

10.根据权利要求9所述的装置，其特征在于，所述聚类模块对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点之前，所述确定模块还用于，查询预设的词表，确定所述热词在所述词表中的序号；