CN103823890B

CN103823890B - 一种针对特定群体的微博热点话题检测方法及装置

Info

Publication number: CN103823890B
Application number: CN201410085760.7A
Authority: CN
Inventors: 谭郅聪; 张鹏; 翟立东; 杜跃进; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2014-03-10
Filing date: 2014-03-10
Publication date: 2016-11-02
Anticipated expiration: 2034-03-10
Also published as: CN103823890A

Abstract

本发明涉及一种针对特定群体的微博热点话题检测方法及装置，包括以下步骤：根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类；根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类；根据用户社区和概要话题类构建社区话题矩阵；将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类分别进行聚簇分类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。本发明获取热点话题事件的多层次结果，最终通过微博来代表某个社区所感兴趣的热点事件。

Description

一种针对特定群体的微博热点话题检测方法及装置

技术领域

本发明涉及数据挖掘的舆情态势感知领域，特别涉及一种针对特定群体的微博热点话题检测方法及装置。

背景技术

近年来，以微博为代表的社交网络正在人们生活中扮演着越来越重要的角色，社交网络的用户的规模也迅速上升。而大量的用户规模和由此产生的大量微博蕴含着丰富的舆情信息，这些舆情信息对捕捉当前社会热点，跟踪舆情导向和社会态势具有十分重要的意义。因此，针对微博的热点话题检测技术成为了近年来的一个核心舆情研究点。由于微博文本具有长度较短（不超过140个中文字符），并且更新快，新词多，流量巨大等特点，针对微博热点话题的检测仍然是一个研究难点。目前对微博热点话题的检测方法主要使用典型的分类算法进行相似度计算来进行话题的分类，并且是针对全网用户挖掘的普遍意义上的热点话题。虽然这类方法也能够在一定程度上成功地进行微博热点挖掘，但是他们无法解决以下二个问题：第一、挖掘的热点话题不具有针对性，由于微博产生的舆情信息不仅仅具有文本内容，还有明显的用户兴趣分布，因此，特定的热点话题只有指定其感兴趣的特定用户群体才有现实意义。而如何准确进行基于用户兴趣的社区分类并且在该基础上进行用户社区的兴趣挖掘是进行针对特定群体的微博热点话题检测技术的重要基础。第二、当前的热点挖掘方法挖掘出的仅仅一些短语性的概要热点话题，并不能充分反映当前的热点事件。一个完整的热点事件至少包含事件六要素，即时间，地点，人物，事件内容，时间起因和事件发展过程。如果要完整地描述一个事件，至少需要以上六要素中的四个要素。并且当前的热点话题的定义非常模糊，从一条短语到一个微博事件都可以理解成为热点话题，因为，挖掘的结果形式也不统一。综上所述，如何对特定的用户群体挖掘具有明确事件意义的微博热点话题成为最重要的研究内容。

发明内容

本发明所要解决的技术问题是提供一种能够进行多层次热点话题挖掘、并且针对不同用户群体展示不同热点话题的微博热点话题检测方法及装置。

本发明解决上述技术问题的技术方案如下：一种针对特定群体的微博热点话题检测方法，包括以下步骤：

步骤1：获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；

步骤2：根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；

步骤3：根据用户社区和概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；

步骤4：采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；

步骤5：选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。

本发明的有益效果是：选取矩阵元素数值最大的前N个概要话题进行事件聚簇并且进行中心热点事件的抽取保证了提供给相应用户社区的热点事件符合社区用户的兴趣，并且通过使用具体的微博代表热点话题赋予热点话题更明确的事件意义。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤3中社区话题矩阵中的元素数值的计算方法具体为：

E_{i, j} = Σ_{k = 1}^{n} C_{j} (T_{i, k}) * N (T_{i, k})

其中，E_i,j是第i，第j列的矩阵元素，k是代表每个话题的词语数量，T_i,k是代表话题i的第k个词语，C_j(T_i,k)是词语T_i,k在社区j的出现次数，N(T_i,k)是词语T_i,k的权重。

采用上述进一步方案的有益效果是：通过计算话题的代表词语在用户社区发言内容中加权权重来代表每个用户社区对该话题的感兴趣程度能够非常好的量化捕捉每个社区用户兴趣所在，进而为下一步的基于用户社区兴趣的热点话题发现提供了依据。

进一步，所述步骤5中进行聚簇分类时采用的分类公式为：

V = \underset{s}{\arg} \sin Σ_{i = 1}^{k} \underset{x_{j} &Element; S_{i}}{Σ} {| | x_{j} - u_{i} | |}^{2}

V表示均方差目标函数，(x₁,x₂,x₃,...,x_n)表示给定的观测点集合，n表示观测点的个数，k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中，S＝{S₁,S₂,...,S_k}表示k个分类集合,从而使得目标函数群组内部均方差总和最小，假设有k个群组Si,(1=<i<=k)，u_i表示群组Si所有元素的中心点。

采用上述进一步方案的有益效果是：在概要话题类的基础上进一步细分将概要话题类细分成事件聚簇，每个事件聚簇来描述粒度更细的某一具体事件。

进一步，所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为：

T_i＝(R_i+2*C_i)*S_i,k*100

其中，T_i表示用来筛选中心热点微博的分数，R_i表示微博i的转发数量，C_i表示微博i的评论数量，S_i,k表示微博i和话题k的余弦相似度。

采用上述进一步方案的有益效果是：从每个事件聚簇中抽取最能够代表该事件聚簇的某一具体的微博，并且使用该微博代表相应对用社区所感兴趣的热点事件，使得挖掘出的结果具备事件级别的意义。

进一步，一种针对特定群体的微博热点话题检测装置，包括获取分类模块，抽取模块，构建模块，余弦相似度分类模块和聚簇提取模块；

获取分类模块，用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；

抽取模块，用于根据获取分类模块获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；

构建模块，用于根据获取分类模块得到的用户社区和抽取模块概要话题类构建社区话题矩阵，社区话题矩阵中的元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；

余弦相似度分类模块，用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；

聚簇提取模块，用于选取构建模块构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的由余弦相似度分类模块放入的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。

采用上述进一步方案的有益效果是：选取矩阵元素数值最大的前N个概要话题进行事件聚簇并且进行中心热点事件的抽取保证了提供给相应用户社区的热点事件符合社区用户的兴趣，并且通过使用具体的微博代表热点话题赋予热点话题更明确的事件意义。

进一步，所述构建模块中社区话题矩阵中的矩阵元素数值的计算方法具体为：

E_{i, j} = Σ_{k = 1}^{n} C_{j} (T_{i, k}) * N (T_{i, k})

进一步，所述聚簇提取模块中进行聚簇分类时采用的分类公式为：

V = \underset{s}{\arg} \sin Σ_{i = 1}^{k} \underset{x_{j} &Element; S_{i}}{Σ} {| | x_{j} - u_{i} | |}^{2}

采用上述进一步方案的有益效果是：采用上述进一步方案的有益效果是：在概要话题类的基础上进一步细分将概要话题类细分成事件聚簇，每个事件聚簇来描述粒度更细的某一具体事件。

进一步，所述聚簇提取模块中提取每个事件聚簇类的中心热点事件时采用的函数为：

T_i＝(R_i+2*C_i)*S_i,k*100

附图说明

图1为本发明方法步骤流程图；

图2为本发明装置结构图；

图3为本发明总体话题检测模型示意图；

图4为本发明步骤2中话题模型生成的部分话题的示意图；

图5为本发明步骤5中某个特定用户社区话题检测的排名示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明方法步骤流程图；图2为本发明装置结构图；图3为本发明总体话题检测模型示意图；图4为本发明步骤2中话题模型生成的部分话题的示意图；图5为本发明步骤5中某个特定用户社区话题检测的排名示意图。

实施例1

一种针对特定群体的微博热点话题检测方法，包括以下步骤：

此过程针对获取的微博用户关系数据进行社区分类，采用的一种凝聚聚类的方法，使用该方法能够使不同的用户社区的模块聚簇度达到最优。采用从新浪微博上选取的各领域的若干位大V用户作为种子节点，采用广度优先搜索的策略获取他们所关注的用户并且获取这些用户之间共有相联系的边，每条边代表用户之间的关注关系。通过进行社区分类得到若干用户社区。每个用户社区和对应的所有用户ID存贮在用户文件中；

步骤2中对步骤（一）获取的微博用户的微博内容进行话题生成，使用LDA模型对这些非结构化的文本进行话题的抽取。在实验中，对于LDA模型的输入参数，我们设定话题数量为50，用来表示每个话题词语数量为25。其生成结果的前十个话题如图2.该步骤生成的每个话题由一组相关词汇表示，这样一个话题类成为概要话题类，用户能够通过该概要话题类的一系列描述性的词语来确定该概要话题描述的内容。该步骤从数据库中读取原始微博文本，处理生成的微博话题存储于文件中；

步骤3中用户兴趣特征的抽取最关键的步骤是构造社区话题矩阵。该矩阵的列是代表步骤（一）中获取的用户社区，该矩阵的行是步骤（二）中生成的微博话题。每个矩阵元素可以反映不同的用户社区对不同话题的感兴趣程度，矩阵元素数值越大，表明对应的用户社区对某个话题的兴趣程度越大。对某一特定的用户社区，只需要针对话题兴趣较高的话题进行热点话题检测，从而个性化地开展热点话题检测工作；

此过程中采集种子用户及中所有用户在特定时间内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和步骤（二）中得到的概要话题类进行矢量化处理，计算每条微博文本矢量与每个概要话题类矢量的余弦相似度，把微博文本放到获得最大余弦相似度的概要话题类中；

步骤五中采用事件聚簇分类的目的就是为了使得每个事件聚簇描述同一个微博事件，进而为下一步的中心事件挖掘做准备。完成了事件聚簇分类后，下一步要对每个事件聚簇提取中心热点事件。中心热点事件是在事件聚簇中占有非常重要地位的热点事件，这样的事件能够代表整个事件聚簇；

所述步骤3中社区话题矩阵中的矩阵元素数值的计算方法具体为：

E_{i, j} = Σ_{k = 1}^{n} C_{j} (T_{i, k}) * N (T_{i, k})

所述步骤5中进行聚簇分类时采用的分类公式为：

V = \underset{s}{\arg} \sin Σ_{i = 1}^{k} \underset{x_{j} &Element; S_{i}}{Σ} {| | x_{j} - u_{i} | |}^{2}

所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为：

T_i＝(R_i+2*C_i)*S_i,k*100

一种针对特定群体的微博热点话题检测装置，包括获取分类模块1，抽取模块2，构建模块3，余弦相似度分类模块4和聚簇提取模块5；

获取分类模块1，用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；

抽取模块2，用于根据获取分类模块1获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；

构建模块3，用于根据获取分类模块1得到的用户社区和抽取模块2概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；

余弦相似度分类模块4，用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；

聚簇提取模块5，用于选取构建模块3构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的由余弦相似度分类模块4放入的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。

所述构建模块3中社区话题矩阵中的矩阵元素数值的计算方法具体为：

E_{i, j} = Σ_{k = 1}^{n} C_{j} (T_{i, k}) * N (T_{i, k})

所述聚簇提取模块5中进行聚簇分类时采用的分类公式为：

V = \underset{s}{\arg} \sin Σ_{i = 1}^{k} \underset{x_{j} &Element; S_{i}}{Σ} {| | x_{j} - u_{i} | |}^{2}

我们设置迭代次数为10,每个概要话题类的事件聚簇数量为5，通过对50个概要话题类的事件聚簇分类之后，得到250个事件聚簇类。

所述聚簇提取模块5中提取每个事件聚簇类的中心热点事件时采用的函数为：

T_i＝(R_i+2*C_i)*S_i,k*100

对完成中文分词，去停用词之后的文本，我们需要进行文本的概要话题分类。对于要进行话题分类的文本获取，我们首先选取300种子微博用户，选择这些用户在2013年4月24号到2013年4月26号的微博，我们从这三天的微博中采用每天的4800条微博作为我们的测试数据集。

对于完成测试集按照本发明提出的模型进行热点话题检测能够很好的发现当前针对特定用户群体兴趣的热点话题。具体的话题检测结果排名（第50个事件聚簇的排名前十名的微博）如图5。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对特定群体的微博热点话题检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的微博热点话题检测方法，其特征在于，所述步骤3中社区话题矩阵中的矩阵元素数值的计算方法具体为：

E_{i, j} = Σ_{k = 1}^{n} C_{j} (T_{i, k}) * N (T_{i, k})

其中，E_i，j是第i行，第j列的矩阵元素，n是代表每个话题的词语数量，T_i，k是代表话题i的第k个词语，C_j(T_i，k)是词语T_i，k在社区j的出现次数，N(T_i，k)是词语T_i，k的权重。

3.根据权利要求1所述的微博热点话题检测方法，其特征在于，所述步骤5中进行聚簇分类时采用的分类公式为：

V = \underset{s}{\arg} \min Σ_{i = 1}^{M} \underset{x_{j} &Element; S_{i}}{Σ} | | x_{j} - u_{i} | |^{2}

V表示均方差目标函数，(x₁，x₂，x₃，....，x_j，...，x_n)表示给定的观测点集合，x_j表示集合中的一个观测点，n表示观测点的个数，M表示分类的集合个数，算法意在将n个观测点分类进入M个集合中，S＝{S₁，S₂，...，S_M}表示M个分类集合，从而使得目标函数群组内部均方差总和最小，假设有M个群组S_i，(1≤i≤M)，u_i表示群组S_i所有元素的中心点。

4.根据权利要求1所述的微博热点话题检测方法，其特征在于，所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为：

T_i＝(R_i+2*C_i)*S_i，k*100

其中，T_i表示用来筛选中心热点微博的分数，R_i表示微博i的转发数量，C_i表示微博i的评论数量，S_i，k表示微博i和话题k的余弦相似度。

5.一种针对特定群体的微博热点话题检测装置，其特征在于：包括获取分类模块(1)，抽取模块(2)，构建模块(3)，余弦相似度分类模块(4)和聚簇提取模块(5)：

获取分类模块(1)，用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博，根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类，得到多个用户社区；

抽取模块(2)，用于根据获取分类模块(1)获取的各个认证用户及其关注的用户发布的微博的内容抽取话题，得到多个概要话题类，每个概要话题类由一组相关词汇组成，将生成的概要话题类存储于话题文件中；

构建模块(3)，用于根据获取分类模块(1)得到的用户社区和抽取模块(2)概要话题类构建社区话题矩阵，社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值；

余弦相似度分类模块(4)，用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集，对测试数据集中的每条微博文本和概要话题类进行矢量处理，得到微博文本矢量和概要话题类矢量，对微博文本矢量和概要话题类矢量进行余弦相似度处理，将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中；

聚簇提取模块(5)，用于选取构建模块(3)构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类，对该若干概要话题类中的由余弦相似度分类模块(4)放入的所有微博文本分别进行聚簇分类，每个概要话题类中得到多个事件聚簇类，分别提取每个事件聚簇类的中心热点事件，并将得到的中心热点事件展示给对应的用户社区。

6.根据权利要求5所述的微博热点话题检测装置，其特征在于：所述构建模块(3)中社区话题矩阵中的矩阵元素数值的计算方法具体为：

E_{i, j} = Σ_{k = 1}^{n} C_{j} (T_{i, k}) * N (T_{i, k})

7.根据权利要求5所述的微博热点话题检测装置，其特征在于：所述聚簇提取模块(5)中进行聚簇分类时采用的分类公式为：

V = \underset{s}{\arg} m i n Σ_{i = 1}^{M} \underset{x_{j} &Element; S}{Σ} | | x_{j} - u_{i} | |^{2}

V表示均方差目标函数，(x₁，x₂，x₃，...，x_j...，x_n)表示给定的观测点集合，x_j表示集合中的一个观测点，n表示观测点的个数，M表示分类的集合个数，算法意在将n个观测点分类进入M个集合中，S＝{S₁，S₂，...，S_M}表示M个分类集合，从而使得目标函数群组内部均方差总和最小，假设有M个群组S_i，(1≤i≤M)，u_i表示群组S_i所有元素的中心点。

8.根据权利要求5所述的微博热点话题检测装置，其特征在于：所述聚簇提取模块(5)中提取每个事件聚簇类的中心热点事件时采用的函数为：

T_i＝(R_i+2*C_i)*S_i，k*100