CN110399491A

CN110399491A - 一种基于特征词共现图的微博事件演化分析方法

Info

Publication number: CN110399491A
Application number: CN201910653308.9A
Authority: CN
Inventors: 于富财; 杨洪全; 蒋珊; 费高雷; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-11-01

Abstract

本发明公开了一种基于特征词共现图的微博事件演化分析方法，该方法包括对原始事件微博集合进行数据预处理，生成事件微博单词集合；提取事件微博单词集合特征词，基于文本中特征词共现关系构造特征词共现图；对特征词共现图进行特征词社团划分；计算微博与社团中特征词的相似度，进行子事件微博聚类处理。本发明能够帮助用户快速且充分了解整个热门事件的演化过程，进而迅速且准确获取到自己感兴趣的信息。

Description

一种基于特征词共现图的微博事件演化分析方法

技术领域

本发明属于事件检测技术领域，具体涉及一种基于特征词共现图的微博事件演化分析方法。

背景技术

很多的热门事件，例如体育比赛或自然灾害，在Twitter平台中都以每秒数千条的速率生成与该事件相关的推文。因此如何从海量的微博中提取出事件相关信息，并向想跟踪了解该事件的用户以简洁准确的形式展示出来，有着重要的意义。

微博事件检测的关键技术是话题检测与追踪(Topic Detection and Tracking，TDT)，其目的是从文本数据流自动检测出新话题，持续追踪已知的话题来帮助用户从海量的信息中挖掘出自己感兴趣的内容，从而解决网络中信息膨胀的问题。该技术主要分为三类检测方法：基于文档、基于特征和基于主题模型。

(1)基于文档的事件检测

在TDT技术领域中，基于文档的事件检测是比较早的研究方向，其基本思想是根据文本内容的相似度通过某种聚类算法实现事件检测。该技术核心工作为如何对数据建模及如何选择并改进聚类算法。文献将文本用TF-IDF进行建模转为向量表示法，再结合模糊K均值和分层算法完成文档聚类实现事件检测；McKeown等人首先对文本单元进行聚类，然后从聚类中选择代表性单元以包含在最终摘要中。Dhillon等人将文档集合建模为由单词和文档组成的二分图，并使用光谱共聚类算法获得优秀的结果。

(2)基于特征的事件检测

由于事件发生时，事件相关的特征词会急剧增加，所以基于特征的事件检测是对这些突发特征词进行监测与整合以实现事件检测。该技术起源于Kleinberg等在2002年提出的模型，其通过无限状态自动机对单词频率进行监测。如果有突发事件发生时，该状态机的状态就会发生转换。文献“Parameter free bursty events detection in textstreams”提出突发事件可以通过时间序列下单词的特征分布进行检测。He等人提出从时域转换到频域，根据检测单词的频谱特征进行特征词分类发现时域中的突发词。

(3)基于主题模型的事件检测

主题模型是由Blei等人提出的一种对文档潜在的语义建模的概率模型，其基本思想是将文档隐含的主题用文档的语义形式表示。传统的主题模型有隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)、概率潜在语义分析(Probabilistic LatentSemantic Analysis，PLSA)等是无监督的概率主题模型。Smith等人在2014年提出通过LDA多层主题模型对相关话题的微博集合建模完成事件检测。文献“Incorporatingpopularity in topic models for social network analysis”提出在传统LDA中加入单词流行度进行拓展，解决了常用词同时出现在不相关的多个主题中的问题。

当发生热门事件时，用户会大量发表与该事件相关的微博。微博事件会动态演化出不同的子事件阶段，每个阶段描述的是该事件的不同角度。因此，为了用户能快速且充分了解整个热门事件的演化过程有重要意义。传统子事件检测算法是基于时间窗口，但是一个子事件话题的结束和另一个子事件话题的开始阶段会同时包含这两个阶段的微博，因此这种算法可能导致一些重要且具有概括性的微博被过滤掉。此外，各子事件阶段发展时长不确定，所以无法统一时间窗口的大小。

发明内容

本发明的主要目的在于提供一种基于特征词共现图的微博事件演化分析方法，旨在解决既有方法中存在的以上技术问题。

为实现上述目的，本发明提供一种基于特征词共现图的微博事件演化分析方法，包括以下步骤：

S1、对原始事件微博集合进行数据预处理，生成与所述原始事件微博集合对应的事件微博单词集合；

S2、提取步骤S1中事件微博单词集合的所有特征词，基于文本中特征词共现关系构造特征词共现图；

S3、对步骤S2得到的特征词共现图进行特征词社团划分；

S4、计算微博与步骤S3划分的所有社团中特征词的相似度，将微博聚类到与其具有最大相似度的特征词社团中。

进一步地，所述步骤S1具体为：

首先对原始事件微博集合中的推文事件数据进行去噪处理，再进行分词、停用词过滤、词性标注及命名实体识别及词干化处理，生成单词集合表示的推文集合。

进一步地，所述步骤S2中，提取步骤S1中事件微博单词集合的所有特征词具体为：

对步骤S1中事件微博单词集合统计并记录其中每个单词的词频；

分别采用命名实体词和词频特征作为特征词提取的规则，提取得到特征词集合。

进一步地，所述步骤S2中，基于文本中特征词共现关系构造特征词共现图具体为：

对特征词集合中的每一个特征词创建一个节点；

将共同出现在至少一条微博中的两个特征词对应的节点之间添加边，得到初始特征词共现图；

计算初始特征词共现图中每条边的条件概率，移除条件概率低于设定阈值的边，得到特征词共现图。

进一步地，所述计算初始特征词共现图中每条边的条件概率的计算公式为：

其中，DF_i∩j表示同时包含特征词w_i和w_j的文档频率，DF_j表示包含特征词w_j的文档频率，DF_i表示包含特征词w_i的文档频率。

进一步地，所述步骤S3对步骤S2得到的特征词共现图进行特征词社团划分，具体包括以下分步骤：

S31、计算所有相邻边对的相似度；

S32、将步骤S31计算得到的相似度按照从大到小的顺序进行排序；

S33、按照步骤S32得到的相似度排序依次合并边对，同时计算重叠社团的扩展模块度，判断扩展模块度是否减小；若是，则放弃合并；若否，则完成合并；

S34、将未进行合并的边对的相似度按照从大到小的顺序进行排序，重复步骤S33，直到所有边均已合并或扩展模块度减小为止。

进一步地，所述计算所有相邻边对的相似度的计算公式为：

其中，e_ik和e_jk为具有公共节点k的相邻边，n₊(i)为节点i的邻居节点，n₊(j)为节点j的邻居节点。

进一步地，所述计算重叠社团的扩展模块度的计算公式为：

其中，C表示一个社团结构划分，c表示某个社团，V表示社团中节点集合，A_uv表示邻接矩阵，k_u，k_v分别表示节点u和v的度，k_cu表示节点u在社团c中的内度，k_cv表示节点v在社团c中的内度，m表示社团中边的总数。

进一步地，所述步骤S4具体为：

遍历微博集合，计算微博与步骤S3划分的所有社团中特征词的相似度；

将计算得到的相似度与设定的相似度阈值进行比较，删除相似度低于设定相似度阈值的微博；

将微博聚类到与其具有最大相似度的特征词社团中。

进一步地，所述计算微博与步骤S3划分的所有社团中特征词的相似度的计算公式为：

其中，w_d为微博d的词集合，w_f为特征词社团f集合。

本发明的有益效果是：本发明首先基于微博数据集提取特征词，然后将特征词进行社团划分，再对微博数据流基于特征词社团进行聚类完成子事件检测进行事件演化分析，能够帮助用户快速且充分了解整个热门事件的演化过程，进而迅速且准确获取到自己感兴趣的信息。

附图说明

图1是本发明的基于特征词共现图的微博事件演化分析方法流程示意图；

图2是本发明的推文文本预处理流程示意图；

图3是本发明实施例中社团划分部分结果示意图；

图4是本发明的子事件推文聚类流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：

从特征词的角度出发构建特征词共现图，提出一种基于特征词共现图的微博事件演化分析方法，每一个子事件都由相关的特征词表征，再对微博数据流基于特征词簇进行聚类完成子事件检测进行事件演化分析。

如图1所示，一种基于特征词共现图的微博事件演化分析方法，包括以下步骤：

S3、对步骤S2得到的特征词共现图进行特征词社团划分；

在本发明的一个可选实施例中，上述步骤S1首先获取原始的推文事件数据，该数据文本通常包含标点符号、URL和特殊符号等噪声数据；因此本发明首先对原始事件微博集合中的推文事件数据进行去噪处理，避免噪声数据对后续处理结果造成影响。

再利用开源工具NLTK进行分词、停用词过滤、词性标注及命名实体识别及词干化处理等操作，生成由单词集合表示的推文集合，如图2所示。

在本发明的一个可选实施例中，当热门事件发生时会引发大量关注进而产生大量的微博发表、转发或评论，这样会涌现出大量与该事件相关的新词汇并随着事件演化而改变，本发明将这些词称为事件的特征词。这些特征词的不同组合结果体现了不同子事件阶段的话题。所以事件的演化过程可以通过跟踪特征词组合的变化得到。因此，本发明以特征词作为节点，特征词间的关联性作为边构建了基于特征词关系的社交网络—特征词共现图。通常，若特征词间存在有意义的拓扑关系时，它们将共同组合出现。因此，本发明可以利用此属性来删除数据中的一些噪音。

上述步骤S2具体包括两部分：提取特征词和提取关联边。

本发明提取步骤S1中事件微博单词集合的所有特征词具体为：

在对对步骤S1中事件微博单词集合进行预处理之后得到微博的词集模型结果，统计并记录其中每个单词的词频。其词集合表示为W＝[w₁,w₂,...,w_k]，其中w_i＝(word_i,freq_i,NER_i)，word_i是词的文本内容，freq_i是词word_i在数据集中出现的总次数，NER_i是词word_i经过自然语言处理工具NLTK处理后打的标签。

通过结合微博数据的特点进行分析，分别采用命名实体词和词频特征作为特征词提取的规则，提取得到特征词集合。

上述命名实体词指文本中具有确定含义的实体，结合新闻报道描述一个事件的特征的六元素，本发明选择数字、地点、人名和机构名这四种命名实体词作为事件的特征词候选词集合C：

C＝{w|w_i∈W∧NER_i＝'NUM'|'LOC'|'PER'|'ORG'}

其中，NUM代表词性标签是数字，LOC代表词性标签是地点，PER代表词性标签是人名，ORG代表词性标签是机构名。

当讨论某一话题时，与该话题相关的词被微博包含的概率更大，因此可以用词的词频作为特征词选择的规则：

V＝{w|w_i∈W∧freq_i＞H_f}

其中，V是高频词集合，其中H_f为高频词阈值。

通过对以上两个选择规则的结果取并集得到特征词集合。

本发明基于文本中特征词共现关系构造特征词共现图具体为：

对特征词集合中的每一个特征词创建一个节点，构建节点矩阵A，其中a_ij表示特征词w_i和w_j共同出现在同一篇文档的次数。

edges＝{e_ij|a_ij＞0}

其中，edges表示边集合；

将共同出现在至少一条微博中的两个特征词对应的节点之间添加边，即若特征词w_i和w_j共同出现在至少一条微博中时，则在节点n_i和n_j之间添加边e_ij，得到初始特征词共现图；

初始特征词共现图只能说明特征词的关联强度，但如果两个特征词仅频繁同时出现在少量的微博中，则它们对事件具有比较低的代表程度，应该被视为噪声，即两节点间的边应被删除。因此，本发明通过引入共现文档频率来克服这点不足，即计算初始特征词共现图中每条边的条件概率P(k_i|k_j)和P(k_j|k_i)，移除掉这两个条件概率低于设定阈值E_f的边e_ij，得到特征词共现图。

计算初始特征词共现图中每条边的条件概率的计算公式为：

在本发明的一个可选实施例中，事件演化过程中用户发布的微博所包含的特征词会随之发生改变，这样与子事件相关阶段的特征词的共现频率将增加。而且一个特征词很可能出现在多个子事件中，如图3展示了“达维台风事件”的特征词社团划分的部分结果，其中”Typhoon”，”Damrey”等这类强象征性的特征词同时出现在了“达维台风爆发阶段”和“达维台风伤亡情况报道阶段”等多个子事件特征词社团中。

因此上述步骤S3采用一种基于边相似度和扩展模块度的重叠社团划分方法对步骤S2得到的特征词共现图进行重叠社团划分，将描述同一子事件的特征词划分为同一个社团，即一个特征词社团对应一个子事件，具体包括以下分步骤：

S31、计算所有相邻边对的相似度，计算公式为：

上述扩展模块度用来描述重叠社团的模块度，计算公式为：

其中，C表示一个社团结构划分，c表示某个社团，V表示社团中节点集合，A_uv表示邻接矩阵，两个节点之间有边相连时值为1，否则为0；k_u，k_v分别表示节点u和v的度，k_cu表示节点u在社团c中的内度，k_cv表示节点v在社团c中的内度，m表示社团中边的总数。

本发明采用的重叠社团划分方法同时考虑边相似度从大到小的顺序和扩展模块度是否增大两个标准，最后得到一个边的森林结构，然后还原成节点，从而得到特征词节点聚类的重叠社团结构。

在本发明的一个可选实施例中，通过上述步骤S1-S3得到了由不同子事件的特征词组成的社团，若子事件的描述直接用这些特征词可能存在一些问题：一方面，社团划分算法可能会丢失子事件的一些特征词；另一方面，相比于句子，特征词直接作为子事件描述是不够直观易懂的。

因此，上述步骤S4使用特征词作为聚类特征，通过特征词社团与微博的相似性对子事件微博聚类。由于微博的短文本特征，如果使用文本向量空间模型的文本表示方法，将会出现向量稀疏性的问题。因此在步骤S4中，词集合用于表示微博数据，用Jaccard相似度来计算微博与特征词社团之间的距离，将微博划分到与其相似度最大的子事件特征词社团中，得到了各个子事件推文集合，如图4所示，具体为：

将计算得到的相似度与设定的相似度阈值Sim_f进行比较，删除相似度低于设定相似度阈值的微博；

将微博聚类到与其具有最大相似度的特征词社团中。

上述计算微博与步骤S3划分的所有社团中特征词的相似度的计算公式为：

其中，w_d为微博d的词集合，w_f为特征词社团f集合。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于特征词共现图的微博事件演化分析方法，其特征在于，包括以下步骤：

S3、对步骤S2得到的特征词共现图进行特征词社团划分；

2.如权利要求1所述的基于特征词共现图的微博事件演化分析方法，其特征在于，所述步骤S1具体为：

3.如权利要求2所述的基于特征词共现图的微博事件演化分析方法，其特征在于，所述步骤S2中，提取步骤S1中事件微博单词集合的所有特征词具体为：

4.如权利要求3所述的基于特征词共现图的微博事件演化分析方法，其特征在于，所述步骤S2中，基于文本中特征词共现关系构造特征词共现图具体为：

对特征词集合中的每一个特征词创建一个节点；

5.如权利要求4所述的基于特征词共现图的微博事件演化分析方法，其特征在于，所述计算初始特征词共现图中每条边的条件概率的计算公式为：

6.如权利要求5所述的基于特征词共现图的微博事件演化分析方法，其特征在于，所述步骤S3对步骤S2得到的特征词共现图进行特征词社团划分，具体包括以下分步骤：

S31、计算所有相邻边对的相似度；

7.如权利要求6所述的基于特征词共现图的微博事件演化分析方法，其特征在于，所述计算所有相邻边对的相似度的计算公式为：

8.如权利要求7所述的基于特征词共现图的微博事件演化分析方法，其特征在于，所述计算重叠社团的扩展模块度的计算公式为：

9.如权利要求8所述的基于特征词共现图的微博事件演化分析方法，其特征在于，所述步骤S4具体为：

将微博聚类到与其具有最大相似度的特征词社团中。

10.如权利要求9所述的基于特征词共现图的微博事件演化分析方法，其特征在于，所述计算微博与步骤S3划分的所有社团中特征词的相似度的计算公式为：

其中，w_d为微博d的词集合，w_f为特征词社团f集合。