CN103500175B

CN103500175B - 一种基于情感分析在线检测微博热点事件的方法

Info

Publication number: CN103500175B
Application number: CN201310403005.4A
Authority: CN
Inventors: 张鲁民; 贾焰; 杨树强; 周斌; 韩伟红; 李爱平; 韩毅; 李莎莎; 裴少杰; 邓镭
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2013-08-13
Filing date: 2013-09-06
Publication date: 2017-09-15
Anticipated expiration: 2033-09-06
Also published as: CN103500175A

Abstract

本发明公开一种基于情感分析在线检测微博热点事件的方法，它通过情感分析对在线微博文本进行情感抽取，采用改进的Kleinberg算法检测情感和情感文本的突发状态，并在突发期内通过近邻传播聚类算法抽取热点话题，使得只有少部分且有效的信息量比较大的文本参与事件挖掘，在精简数据量的同时过滤掉了大量数据噪声，从而能实现在线实时检测出微博热点事件。

Description

一种基于情感分析在线检测微博热点事件的方法

技术领域

本发明属于移动互联网技术领域，具体涉及一种基于情感分析在线检测微博热点事件的方法。

背景技术

互联网正逐步演变为无处不在的计算平台和信息传播平台，在线社交网站、微博、博客、论坛、维基等社交网络应用的出现和迅猛发展，使得人类使用互联网的方式产生了深刻变革—由简单信息搜索和网页浏览转向网上社会关系的构建与维护以及基于社会关系的信息创造、交流和共享。

当前，社交网络应用正处在蓬勃发展期，Facebook上线8年来，已拥有超过10亿的用户，是第三大“人口国”，Twitter用户数也已超过5亿。根据各自官方网站的报告，截止2012年12月，新浪微博用户数已达到5亿，腾讯微博用户数已达到5.4亿。市场研究公司eMarketer于2012年3月发布的《世界社交网络使用：市场规模与增长预期报告》显示：2012年全球人口中的五分之一将使用社交网络，到2014年将达到四分之一，从用户增长规模等数据来看，中国的在线社交网站及微博的用户培养已进入成熟阶段。

研究在线微博领域数据流中热点事件，对于舆情监控与监管具有十分重要的意义，然而，因微博数据量大、产生速度快及数据噪声多，因而从海量数据中迅速在线检测出热点事件及突发事件难度较大：当前主要通过对信息流进行新话题的自动识别和已知话题的持续跟踪来发现微博数控流中讨论的热点事件，基于突发特征进行事件检测是挖掘数据流中热点事件的有效方法之一，其主要思想是首先抽取文档特征词，分析特征词随时间变化轨迹检测出突发特征词，然后将具有相同突发轨迹的特征词进行聚合，形成突发事件，所谓突发是指一段时间内包含一个词汇的文档数量明显高于其他时间段的情况，早在2002年Kleinberg教授提出了经典的Bursty挖掘算法，通过二元状态机模型对信息流进行建模，将特征词分为正常和突发两种状态。He在2007年基于TFIDF与Bursty相结合的特征建模方法，通过增加特征词的突发权重建立新的突发特征模型，取得了良好的效果。

然而，已有的方法多是对长文本的研究，应用于微博这类仅有140字的短文本有很大不足：首先，微博数据量大，检测突发特征需要花费大量时间，不适合在线处理；其次，微博中用户表达方式的多样化使得信息流中存在大量噪声，突发特征可能由不易被检测网络新词构成，增加了识别突发特征的难度。

发明内容

针对已有事件检测方法在海量在线微博文本数据流中效率低的问题，本发明提供一种基于情感分析在线检测微博热点事件的方法，它通过情感分析对在线微博文本进行情感抽取，采用改进的Kleinberg算法检测情感和情感文本的突发状态，并在突发期内通过近邻传播聚类算法抽取热点话题，使得只有少部分且有效的信息量比较大的文本参与事件挖掘，在精简数据量的同时过滤掉了大量数据噪声，从而能实现在线实时检测出微博热点事件。

本发明提供了一种基于情感分析在线检测微博热点事件的方法，其包括以下步骤：

步骤S01：突发情感检测：通过情感抽取将时间窗口内的在线微博文本分为情感文本和非情感文本，将情感文本按照不同的情感进行分类、归类及主流情感抽取，采用改进的Kleinberg算法检测主流情感的突发期及突发情感文本;

具体地，步骤S01包括以下分步骤：

步骤S011：情感抽取：采用具有层次结构的多元化情感模型对时间窗口内的在线微博文本进行情感抽取，将微博文本分为情感文本和非情感文本两类，且将情感文本根据情感模型按照不同的情感进行归类；

步骤S012：主流情感抽取：根据情感文本集合的数量及发表时间，对情感进行主成分分析，抽取时间窗口内的主流情感；

步骤S013：主流情感突发检测：采用改进的Kleinberg算法对主流情感进行突发状态检测，抽取主流情感的突发期及突发情感文本，其中，所述改进的Kleinberg算法主要包括以下步骤：首先采用公式计算出各主流情感文本占总文本的比例，其中，表示时间窗口T内含有情感e_j的微博文本数目，表示时间窗口T内所以含有情感的微博文本数目；然后采用Kleinberg算法检测出该比例的突发情况，即为相应情感和情感文本的突发情况；

步骤S02：基于情感信息的事件抽取：对突发情感文本进行命名实体识别，将突发情感文本分成含有命名实体的情感文本和不含命名实体的情感文本，将含有命名实体的情感文本进行聚类以形成聚类事件，并将不同情感生成的聚类事件进行合并构建热点事件；

具体地，步骤S02包括以下分步骤：

步骤S021：命名实体识别：对其突发期内的情感文本集进行命名实体识别，将突发期内的情感文本按照时间、地点及特殊名词进行命名，分成含有命名实体的情感文本和不含有命名实体的情感文本，且将含有命名实体的情感文本作为聚类文本集；

步骤S022：近邻传播聚类：对聚类文本集采用近邻传播聚类算法进行聚类，采用文本相似性时，对命名实体和一般词采用不同的权重进行度量，以使每种主流情感都形成聚类事件；

步骤S023：事件合并：将各主流情感的聚类结果采用突发时间和事件相似性相结合的双限定方式进行话题合并形成热点事件；

步骤S03：构建分离器进行离线回收：将步骤S02中的热点事件作为训练集合构造Bayes分类器，采用所述Bayes分类器对步骤S01中的非情感文本及步骤S02中的不含命名实体的情感文本进行分类，满足一定相似度阈值条件的文本加入热点事件中，以增强事件概要抽取的完备性。

本发明提供的一种基于情感分析在线检测微博热点事件的方法具有以下有益效果：

本发明提供一种基于情感分析在线检测微博热点事件的方法，它通过情感分析对在线微博文本进行情感抽取，采用改进的Kleinberg算法检测情感和情感文本的突发状态，并在突发期内通过近邻传播聚类算法抽取热点话题，使得只有少部分且有效的信息量比较大的文本参与事件挖掘，在精简数据量的同时过滤掉了大量数据噪声，从而能实现在线实时检测出微博热点事件。

附图说明

图1为本发明提供的基于情感分析在线检测微博热点事件的方法的流程简图；

图2为本发明提供的基于情感分析在线检测微博热点事件的应用时检测的情感实时在线状态示意图。

具体实施方式

下面结合具体实施方式来进一步说明本发明的技术方案：

针对已有事件检测方法在海量在线微博数据流中效率低的问题，本发明提供一种基于情感分析在线检测微博热点事件的方法，它通过情感分析对在线微博文本进行情感抽取，采用改进的Kleinberg算法检测情感和情感文本的突发状态，并在突发期内通过近邻传播聚类算法抽取热点话题，使得只有少部分有效的信息量比较大的文本参与事件挖掘，在精简数据量的同时过滤掉了大量数据噪声，从而能在线实时检测出微博热点事件。

在介绍本发明提供的一种基于情感分析在线检测微博热点事件的方法之前，首先进行形式化定义，如下：

令表示微博文档集合，对t_i表示论文发表时间，从而时间窗口T内的所有文档可表示为令E＝＜e₁,e₂...e_m＞表示情感序列，对e_j表示一种情感，从而：

定义1：博文情感E_d：博文所表达的情感序列，对每篇文档d，定义其中，为1如果文档d包含情感e，

从而，博文情感是一个二元向量

定义2：情感文本：时间T内包含情感e_j的文档集合，即对

且

定义3：突发情感特征：对于特征度量函数f及时间窗口T，称情感e_j在t时刻处于突发状态，如果，

定义突发事件窗口集合称为突发期其中，表示情感e_j的第k个突发期，相应地，称为突发期内的相关文档。

请参阅图1，本发明提供了一种基于情感分析在线检测微博热点事件的方法，其包括以下步骤：

具体地，步骤S01具体包括以下分步骤：

具体地，步骤S02包括以下分步骤：

本发明提供的一种基于情感分析在线检测微博热点事件的方法的具体实施过程如下：

1、突发情感检测：

突发情感检测基于已有情感模型进行情感抽取并对主流情感进行突发检测，挖掘情感的突发期并对文档按照情感进行归类，对于情感模型，我们采用已有研究工作的层次化多元情感模型，其结合临床心理学抽取情感词并基于知网距离和检索距离相结合构建层次模型，共包含287个微博数据流中常用的情感词及情感符号，并依靠机器学习方法自动归为37个类别。

基于上述模型，我们对时间窗口T内的所有微博文本D^T进行情感抽取，对任意情感e_j，抽取包含此情感的文档集合构成情感文本具体算法如下:

算法:情感抽取

输入:时间窗口T，情感向量E，文档数据流D^T

输出:按照情感分类的情感文本集合。

Method:

(1)对构建博文情感博文情感E_d

(2)设定标记flag=true，对E_d元素进行逐项研判，

若则将文档d加入情感e_j的情感文本集合Flag=false；

若判定结束flag=true，则表明此微博文本为非情感博文，加入集合

(3)重复步骤（1)和（2)直到所有微博文本分类结束，从而，D^T被分为情感文本集合和情感文本集合

非情感文本集合表示不含任何情感的博文集合，我们在此将其保留以备回收构建事件概要，而不是将其丢弃，情感文本集合按照不同情感被分成37个类别，实际上，在给定时间窗口T内，主流情感往往只有其中少数几个，为此，我们根据情感文本集合的数量及发表时间，对情感进行主成分分析，抽取时间窗口内的主流情感到达降维的目的及对应的主流情感文本集合对于主流情感文本我们采用改进的Kleinberg突发检测方法进行情感特征检测，Kleinberg采用二元状态模型对信息流进行建模，普通状态为q₀，突发状态为q₁，采用文档到达的时间间隔衡量状态，当处于普通状态q₀时，文档间时间间隔长，对应于密度函数处于突发状态时q₁，文档间时间间隔短，对应于密度函数而实际上，网民发表微博文本有一定的时间规律，白天微博文本发表数量明显高于夜晚，为此，本文基于统计的方法计算语料库中微博发帖规律进行统计，首先采用公式计算出主流情感文本占总文本的比例，其中，表示时间窗口T内含有情感e_j的微博文本数目，表示时间窗口T内所以含有情感的微博文本数目；然后采用Kleinberg算法检测出该比例的突发情况，即为相应情感和情感文本的突发情况。

经过上述过程，对于给定主流情感e_j，其对应的情感文本集合根据突发期被划分为几个不相交子集

2、情感文本的事件抽取

基于情感文本的事件抽取通过近邻传播聚类算法检测突发事件，主要包括命名实体识别，近邻传播聚类和事件合并三个部分。

对于给定主流情感e_j及其对应的突发期情感文本集合我们采用命名实体识别对主流情感文本进行抽取，特别的，我们抽取能表征事件发生的主要元素，包括时间、地点、特殊名称等信息的含有命名实体的主流情感文本，将其放入聚类文本集合对于不含命名实体的主流情感文本，将其放入文本集合

对于聚类文本集合采用近邻传播聚类方法检测突发事件，AffinityPropagation(AP)聚类是2007年在Science杂志上提出的一种新的聚类算法，它根据N个数据点之间的相似度进行聚类，这些相似度组成N×N的相似度矩阵S(其中N为有N个数据点)，近邻传播算法不需要事先指定聚类数目，相反它将所有的数据点都作为潜在的聚类中心称之为exemplar，以S矩阵的对角线上的数值s(k，k)作为k点能否成为聚类中心的评判标准，这意味着该值越大，这个点成为聚类中心的可能性也就越大，这个值又称作参考度p(preference)，AP算法中传递两种类型的消息(responsibility和availability)，r(i，k)表示从点i发送到候选聚类中心k的数值消息，反映k点是否适合作为i点的聚类中心，a(i，k)则从候选聚类中心k发送到i的数值消息，反映i点是否选择k作为其聚类中心，r(i，k)与a(i，k)越强，则k点作为聚类中心的可能性就越大，并且i点隶属于以k点为聚类中心的聚类的可能性也越大，其R矩阵和A矩阵的计算公式如下：

R(i，k)＝S(i，k)-max{A(i，j)+S(i，j)}(j{1，2，......，N，j≠k})

A(i，k)＝min{0，R(k，k)+(j{1，2，......，N，j≠i且j≠k})

R(k，k)＝P(k)-max{A(k，j)+S(k，j)}(j{1，2，......，N，j≠k})

在此，我们采用余弦相似度衡量两个文本间的相似度，特别地，我们认为命名实体作为表征突发事件的主要标志，赋予更高的权重，从而设定平滑系数β，文本的最终相似度定义为

Sim(d₁,d₂)＝β*Sim_NE(d₁,d₂)+(1-β)*Sim₀(d₁,d₂)

其中sim_NE表示文档间命名实体的相似度，sim_o表示除去命名实体之后其他一般词间的相似度。

经过上述算法，对每个情感e_j我们得到其在时间窗口T内的聚类事件集合由于针对同一突发事件公共往往具有多元化情感，从而不同聚类事件集合中存在重复的问题，为此，我们采用突发期和事件相似性相结合的双限定方式进行事件合并，对于情感e_i，e_j及其对应的聚类事件集合我们认为两个事件为同一突发事件，当且仅当

其中θ₁，θ₂为给定阔值，合并后的热点事件集合记为G^T

3、离线回收

实际上非情感文本集合及不含有命名实体的文档集合中仍然具有很多事件相关文档，尤其是含有很多客观信息的非情感文本集合为了对事件进行更详尽的描述，我们设计离线回收机制对候选文本进行分类。

基于已有的热点事件集合G^T，我们将其作为训练样本集构建Bayes分类器，给定阈值θ₃,如果文档d属于事件g^T，当且仅当：

P(d|g^T)＞θ₃

从而完成文档的回收工作，以增强事件概要抽取的完备性，并且此步骤可采用离线方式进行，而不需要实时进行计算，从而提高了系统效率。

本发明提供的一种基于情感分析在线检测微博热点事件的方法的具体应用实施如下：

利用上述基于情感分析在线检测微博热点事件的方法，我们设计系统验证算法的有效性，实验采用新浪微博数据，通过API获得从2012年7月25日至8月15日有关伦敦奥运会的3923641条微博数据进行实验。

情感的实时在线状态如图2所示，在此时间窗口设定为1小时，从中可以看出，喜悦这类情绪突发期比较多而愤怒则比较少。实际上，伴随着中国队员获得每个奖牌，新浪微博都有情感突发现象，而我们的算法也检测到了所有的事件。

在步骤（1）突发情感检测的情感抽取中，大约有62%的文本被划入非情感文本，从而使得只有少部分有价值的文本进行后面的处理。虽然我们的情感模型有37个类别，但通过主成分分析，处于单独时间窗口中的主流情感平均在6个左右。由于我们只需要对主流的情感进行突发检测及聚类分析，从而有效提高了系统效率。

上面对本发明进行了示例性的描述，显然本发明的实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围内。

Claims

1.一种基于情感分析在线检测微博热点事件的方法，其特征在于，其包括以下步骤：

步骤S01：突发情感检测：通过情感抽取，将时间窗口内的在线微博文本分为情感文本和非情感文本，将情感文本按照不同的情感进行分类、归类及主流情感抽取，采用改进的Kleinberg算法检测主流情感的突发期及突发情感文本；

步骤S03：构建分离器进行离线回收：将步骤S02中的热点事件作为训练集合构造Bayes分类器，采用所述Bayes分类器对步骤S01中的非情感文本及步骤S02中的不含命名实体的情感文本进行分类，满足一定相似度阈值条件的文本加入热点事件中；

所述步骤S01包括以下分步骤：

步骤S013：主流情感突发检测：采用改进的Kleinberg算法对主流情感进行突发状态检测，抽取主流情感的突发期及突发情感文本，其中，所述改进的Kleinberg算法主要包括以下步骤：首先采用公式计算出各主流情感文本占总文本的比例，其中，表示时间窗口T内含有情感e_j的微博文本数目，表示时间窗口T内所有含有情感的微博文本数目；然后采用Kleinberg算法检测出该比例的突发情况，即为相应情感和情感文本的突发情况。

2.如权利要求1所述的基于情感分析在线检测微博热点事件的方法，其特征在于，步骤S02包括以下分步骤：

步骤S023：事件合并：将各主流情感的聚类结果采用突发时间和事件相似性相结合的双限定方式进行话题合并形成热点事件。