CN103500175B - 一种基于情感分析在线检测微博热点事件的方法 - Google Patents

一种基于情感分析在线检测微博热点事件的方法 Download PDF

Info

Publication number
CN103500175B
CN103500175B CN201310403005.4A CN201310403005A CN103500175B CN 103500175 B CN103500175 B CN 103500175B CN 201310403005 A CN201310403005 A CN 201310403005A CN 103500175 B CN103500175 B CN 103500175B
Authority
CN
China
Prior art keywords
emotion
text
event
main flow
burst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310403005.4A
Other languages
English (en)
Other versions
CN103500175A (zh
Inventor
张鲁民
贾焰
杨树强
周斌
韩伟红
李爱平
韩毅
李莎莎
裴少杰
邓镭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201310403005.4A priority Critical patent/CN103500175B/zh
Publication of CN103500175A publication Critical patent/CN103500175A/zh
Application granted granted Critical
Publication of CN103500175B publication Critical patent/CN103500175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事件。

Description

一种基于情感分析在线检测微博热点事件的方法
技术领域
本发明属于移动互联网技术领域,具体涉及一种基于情感分析在线检测微博热点事件的方法。
背景技术
互联网正逐步演变为无处不在的计算平台和信息传播平台,在线社交网站、微博、博客、论坛、维基等社交网络应用的出现和迅猛发展,使得人类使用互联网的方式产生了深刻变革—由简单信息搜索和网页浏览转向网上社会关系的构建与维护以及基于社会关系的信息创造、交流和共享。
当前,社交网络应用正处在蓬勃发展期,Facebook上线8年来,已拥有超过10亿的用户,是第三大“人口国”,Twitter用户数也已超过5亿。根据各自官方网站的报告,截止2012年12月,新浪微博用户数已达到5亿,腾讯微博用户数已达到5.4亿。市场研究公司eMarketer于2012年3月发布的《世界社交网络使用:市场规模与增长预期报告》显示:2012年全球人口中的五分之一将使用社交网络,到2014年将达到四分之一,从用户增长规模等数据来看,中国的在线社交网站及微博的用户培养已进入成熟阶段。
研究在线微博领域数据流中热点事件,对于舆情监控与监管具有十分重要的意义,然而,因微博数据量大、产生速度快及数据噪声多,因而从海量数据中迅速在线检测出热点事件及突发事件难度较大:当前主要通过对信息流进行新话题的自动识别和已知话题的持续跟踪来发现微博数控流中讨论的热点事件,基于突发特征进行事件检测是挖掘数据流中热点事件的有效方法之一,其主要思想是首先抽取文档特征词,分析特征词随时间变化轨迹检测出突发特征词,然后将具有相同突发轨迹的特征词进行聚合,形成突发事件,所谓突发是指一段时间内包含一个词汇的文档数量明显高于其他时间段的情况,早在2002年Kleinberg教授提出了经典的Bursty挖掘算法,通过二元状态机模型对信息流进行建模,将特征词分为正常和突发两种状态。He在2007年基于TFIDF与Bursty相结合的特征建模方法,通过增加特征词的突发权重建立新的突发特征模型,取得了良好的效果。
然而,已有的方法多是对长文本的研究,应用于微博这类仅有140字的短文本有很大不足:首先,微博数据量大,检测突发特征需要花费大量时间,不适合在线处理;其次,微博中用户表达方式的多样化使得信息流中存在大量噪声,突发特征可能由不易被检测网络新词构成,增加了识别突发特征的难度。
发明内容
针对已有事件检测方法在海量在线微博文本数据流中效率低的问题,本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事件。
本发明提供了一种基于情感分析在线检测微博热点事件的方法,其包括以下步骤:
步骤S01:突发情感检测:通过情感抽取将时间窗口内的在线微博文本分为情感文本和非情感文本,将情感文本按照不同的情感进行分类、归类及主流情感抽取,采用改进的Kleinberg算法检测主流情感的突发期及突发情感文本;
具体地,步骤S01包括以下分步骤:
步骤S011:情感抽取:采用具有层次结构的多元化情感模型对时间窗口内的在线微博文本进行情感抽取,将微博文本分为情感文本和非情感文本两类,且将情感文本根据情感模型按照不同的情感进行归类;
步骤S012:主流情感抽取:根据情感文本集合的数量及发表时间,对情感进行主成分分析,抽取时间窗口内的主流情感;
步骤S013:主流情感突发检测:采用改进的Kleinberg算法对主流情感进行突发状态检测,抽取主流情感的突发期及突发情感文本,其中,所述改进的Kleinberg算法主要包括以下步骤:首先采用公式计算出各主流情感文本占总文本的比例,其中,表示时间窗口T内含有情感ej的微博文本数目,表示时间窗口T内所以含有情感的微博文本数目;然后采用Kleinberg算法检测出该比例的突发情况,即为相应情感和情感文本的突发情况;
步骤S02:基于情感信息的事件抽取:对突发情感文本进行命名实体识别,将突发情感文本分成含有命名实体的情感文本和不含命名实体的情感文本,将含有命名实体的情感文本进行聚类以形成聚类事件,并将不同情感生成的聚类事件进行合并构建热点事件;
具体地,步骤S02包括以下分步骤:
步骤S021:命名实体识别:对其突发期内的情感文本集进行命名实体识别,将突发期内的情感文本按照时间、地点及特殊名词进行命名,分成含有命名实体的情感文本和不含有命名实体的情感文本,且将含有命名实体的情感文本作为聚类文本集;
步骤S022:近邻传播聚类:对聚类文本集采用近邻传播聚类算法进行聚类,采用文本相似性时,对命名实体和一般词采用不同的权重进行度量,以使每种主流情感都形成聚类事件;
步骤S023:事件合并:将各主流情感的聚类结果采用突发时间和事件相似性相结合的双限定方式进行话题合并形成热点事件;
步骤S03:构建分离器进行离线回收:将步骤S02中的热点事件作为训练集合构造Bayes分类器,采用所述Bayes分类器对步骤S01中的非情感文本及步骤S02中的不含命名实体的情感文本进行分类,满足一定相似度阈值条件的文本加入热点事件中,以增强事件概要抽取的完备性。
本发明提供的一种基于情感分析在线检测微博热点事件的方法具有以下有益效果:
本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事件。
附图说明
图1为本发明提供的基于情感分析在线检测微博热点事件的方法的流程简图;
图2为本发明提供的基于情感分析在线检测微博热点事件的应用时检测的情感实时在线状态示意图。
具体实施方式
下面结合具体实施方式来进一步说明本发明的技术方案:
针对已有事件检测方法在海量在线微博数据流中效率低的问题,本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使得只有少部分有效的信息量比较大的文本参与事件挖掘,在精简数据量的同时过滤掉了大量数据噪声,从而能在线实时检测出微博热点事件。
在介绍本发明提供的一种基于情感分析在线检测微博热点事件的方法之前,首先进行形式化定义,如下:
表示微博文档集合,对ti表示论文发表时间,从而时间窗口T内的所有文档可表示为令E=<e1,e2...em>表示情感序列,对ej表示一种情感,从而:
定义1:博文情感Ed:博文所表达的情感序列,对每篇文档d,定义其中,为1如果文档d包含情感e,
从而,博文情感是一个二元向量
定义2:情感文本:时间T内包含情感ej的文档集合,即对
定义3:突发情感特征:对于特征度量函数f及时间窗口T,称情感ej在t时刻处于突发状态,如果,
定义突发事件窗口集合称为突发期其中,表示情感ej的第k个突发期,相应地,称为突发期内的相关文档。
针对已有事件检测方法在海量在线微博文本数据流中效率低的问题,本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事件。
请参阅图1,本发明提供了一种基于情感分析在线检测微博热点事件的方法,其包括以下步骤:
步骤S01:突发情感检测:通过情感抽取将时间窗口内的在线微博文本分为情感文本和非情感文本,将情感文本按照不同的情感进行分类、归类及主流情感抽取,采用改进的Kleinberg算法检测主流情感的突发期及突发情感文本;
具体地,步骤S01具体包括以下分步骤:
步骤S011:情感抽取:采用具有层次结构的多元化情感模型对时间窗口内的在线微博文本进行情感抽取,将微博文本分为情感文本和非情感文本两类,且将情感文本根据情感模型按照不同的情感进行归类;
步骤S012:主流情感抽取:根据情感文本集合的数量及发表时间,对情感进行主成分分析,抽取时间窗口内的主流情感;
步骤S013:主流情感突发检测:采用改进的Kleinberg算法对主流情感进行突发状态检测,抽取主流情感的突发期及突发情感文本,其中,所述改进的Kleinberg算法主要包括以下步骤:首先采用公式计算出各主流情感文本占总文本的比例,其中,表示时间窗口T内含有情感ej的微博文本数目,表示时间窗口T内所以含有情感的微博文本数目;然后采用Kleinberg算法检测出该比例的突发情况,即为相应情感和情感文本的突发情况;
步骤S02:基于情感信息的事件抽取:对突发情感文本进行命名实体识别,将突发情感文本分成含有命名实体的情感文本和不含命名实体的情感文本,将含有命名实体的情感文本进行聚类以形成聚类事件,并将不同情感生成的聚类事件进行合并构建热点事件;
具体地,步骤S02包括以下分步骤:
步骤S021:命名实体识别:对其突发期内的情感文本集进行命名实体识别,将突发期内的情感文本按照时间、地点及特殊名词进行命名,分成含有命名实体的情感文本和不含有命名实体的情感文本,且将含有命名实体的情感文本作为聚类文本集;
步骤S022:近邻传播聚类:对聚类文本集采用近邻传播聚类算法进行聚类,采用文本相似性时,对命名实体和一般词采用不同的权重进行度量,以使每种主流情感都形成聚类事件;
步骤S023:事件合并:将各主流情感的聚类结果采用突发时间和事件相似性相结合的双限定方式进行话题合并形成热点事件;
步骤S03:构建分离器进行离线回收:将步骤S02中的热点事件作为训练集合构造Bayes分类器,采用所述Bayes分类器对步骤S01中的非情感文本及步骤S02中的不含命名实体的情感文本进行分类,满足一定相似度阈值条件的文本加入热点事件中,以增强事件概要抽取的完备性。
本发明提供的一种基于情感分析在线检测微博热点事件的方法具有以下有益效果:
本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事件。
本发明提供的一种基于情感分析在线检测微博热点事件的方法的具体实施过程如下:
1、突发情感检测:
突发情感检测基于已有情感模型进行情感抽取并对主流情感进行突发检测,挖掘情感的突发期并对文档按照情感进行归类,对于情感模型,我们采用已有研究工作的层次化多元情感模型,其结合临床心理学抽取情感词并基于知网距离和检索距离相结合构建层次模型,共包含287个微博数据流中常用的情感词及情感符号,并依靠机器学习方法自动归为37个类别。
基于上述模型,我们对时间窗口T内的所有微博文本DT进行情感抽取,对任意情感ej,抽取包含此情感的文档集合构成情感文本具体算法如下:
算法:情感抽取
输入:时间窗口T,情感向量E,文档数据流DT
输出:按照情感分类的情感文本集合。
Method:
(1)对构建博文情感博文情感Ed
(2)设定标记flag=true,对Ed元素进行逐项研判,
则将文档d加入情感ej的情感文本集合Flag=false;
若判定结束flag=true,则表明此微博文本为非情感博文,加入集合
(3)重复步骤(1)和(2)直到所有微博文本分类结束,从而,DT被分为情感文本集合和情感文本集合
非情感文本集合表示不含任何情感的博文集合,我们在此将其保留以备回收构建事件概要,而不是将其丢弃,情感文本集合按照不同情感被分成37个类别,实际上,在给定时间窗口T内,主流情感往往只有其中少数几个,为此,我们根据情感文本集合的数量及发表时间,对情感进行主成分分析,抽取时间窗口内的主流情感到达降维的目的及对应的主流情感文本集合对于主流情感文本我们采用改进的Kleinberg突发检测方法进行情感特征检测,Kleinberg采用二元状态模型对信息流进行建模,普通状态为q0,突发状态为q1,采用文档到达的时间间隔衡量状态,当处于普通状态q0时,文档间时间间隔长,对应于密度函数处于突发状态时q1,文档间时间间隔短,对应于密度函数实际上,网民发表微博文本有一定的时间规律,白天微博文本发表数量明显高于夜晚,为此,本文基于统计的方法计算语料库中微博发帖规律进行统计,首先采用公式计算出主流情感文本占总文本的比例,其中,表示时间窗口T内含有情感ej的微博文本数目,表示时间窗口T内所以含有情感的微博文本数目;然后采用Kleinberg算法检测出该比例的突发情况,即为相应情感和情感文本的突发情况。
经过上述过程,对于给定主流情感ej,其对应的情感文本集合根据突发期被划分为几个不相交子集
2、情感文本的事件抽取
基于情感文本的事件抽取通过近邻传播聚类算法检测突发事件,主要包括命名实体识别,近邻传播聚类和事件合并三个部分。
对于给定主流情感ej及其对应的突发期情感文本集合我们采用命名实体识别对主流情感文本进行抽取,特别的,我们抽取能表征事件发生的主要元素,包括时间、地点、特殊名称等信息的含有命名实体的主流情感文本,将其放入聚类文本集合对于不含命名实体的主流情感文本,将其放入文本集合
对于聚类文本集合采用近邻传播聚类方法检测突发事件,AffinityPropagation(AP)聚类是2007年在Science杂志上提出的一种新的聚类算法,它根据N个数据点之间的相似度进行聚类,这些相似度组成N×N的相似度矩阵S(其中N为有N个数据点),近邻传播算法不需要事先指定聚类数目,相反它将所有的数据点都作为潜在的聚类中心称之为exemplar,以S矩阵的对角线上的数值s(k,k)作为k点能否成为聚类中心的评判标准,这意味着该值越大,这个点成为聚类中心的可能性也就越大,这个值又称作参考度p(preference),AP算法中传递两种类型的消息(responsibility和availability),r(i,k)表示从点i发送到候选聚类中心k的数值消息,反映k点是否适合作为i点的聚类中心,a(i,k)则从候选聚类中心k发送到i的数值消息,反映i点是否选择k作为其聚类中心,r(i,k)与a(i,k)越强,则k点作为聚类中心的可能性就越大,并且i点隶属于以k点为聚类中心的聚类的可能性也越大,其R矩阵和A矩阵的计算公式如下:
R(i,k)=S(i,k)-max{A(i,j)+S(i,j)}(j{1,2,......,N,j≠k})
A(i,k)=min{0,R(k,k)+(j{1,2,......,N,j≠i且j≠k})
R(k,k)=P(k)-max{A(k,j)+S(k,j)}(j{1,2,......,N,j≠k})
在此,我们采用余弦相似度衡量两个文本间的相似度,特别地,我们认为命名实体作为表征突发事件的主要标志,赋予更高的权重,从而设定平滑系数β,文本的最终相似度定义为
Sim(d1,d2)=β*SimNE(d1,d2)+(1-β)*Sim0(d1,d2)
其中simNE表示文档间命名实体的相似度,simo表示除去命名实体之后其他一般词间的相似度。
经过上述算法,对每个情感ej我们得到其在时间窗口T内的聚类事件集合由于针对同一突发事件公共往往具有多元化情感,从而不同聚类事件集合中存在重复的问题,为此,我们采用突发期和事件相似性相结合的双限定方式进行事件合并,对于情感ei,ej及其对应的聚类事件集合 我们认为两个事件 为同一突发事件,当且仅当
其中θ1,θ2为给定阔值,合并后的热点事件集合记为GT
3、离线回收
实际上非情感文本集合及不含有命名实体的文档集合中仍然具有很多事件相关文档,尤其是含有很多客观信息的非情感文本集合为了对事件进行更详尽的描述,我们设计离线回收机制对候选文本进行分类。
基于已有的热点事件集合GT,我们将其作为训练样本集构建Bayes分类器,给定阈值θ3,如果文档d属于事件gT,当且仅当:
P(d|gT)>θ3
从而完成文档的回收工作,以增强事件概要抽取的完备性,并且此步骤可采用离线方式进行,而不需要实时进行计算,从而提高了系统效率。
本发明提供的一种基于情感分析在线检测微博热点事件的方法的具体应用实施如下:
利用上述基于情感分析在线检测微博热点事件的方法,我们设计系统验证算法的有效性,实验采用新浪微博数据,通过API获得从2012年7月25日至8月15日有关伦敦奥运会的3923641条微博数据进行实验。
情感的实时在线状态如图2所示,在此时间窗口设定为1小时,从中可以看出,喜悦这类情绪突发期比较多而愤怒则比较少。实际上,伴随着中国队员获得每个奖牌,新浪微博都有情感突发现象,而我们的算法也检测到了所有的事件。
在步骤(1)突发情感检测的情感抽取中,大约有62%的文本被划入非情感文本,从而使得只有少部分有价值的文本进行后面的处理。虽然我们的情感模型有37个类别,但通过主成分分析,处于单独时间窗口中的主流情感平均在6个左右。由于我们只需要对主流的情感进行突发检测及聚类分析,从而有效提高了系统效率。
上面对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

Claims (2)

1.一种基于情感分析在线检测微博热点事件的方法,其特征在于,其包括以下步骤:
步骤S01:突发情感检测:通过情感抽取,将时间窗口内的在线微博文本分为情感文本和非情感文本,将情感文本按照不同的情感进行分类、归类及主流情感抽取,采用改进的Kleinberg算法检测主流情感的突发期及突发情感文本;
步骤S02:基于情感信息的事件抽取:对突发情感文本进行命名实体识别,将突发情感文本分成含有命名实体的情感文本和不含命名实体的情感文本,将含有命名实体的情感文本进行聚类以形成聚类事件,并将不同情感生成的聚类事件进行合并构建热点事件;
步骤S03:构建分离器进行离线回收:将步骤S02中的热点事件作为训练集合构造Bayes分类器,采用所述Bayes分类器对步骤S01中的非情感文本及步骤S02中的不含命名实体的情感文本进行分类,满足一定相似度阈值条件的文本加入热点事件中;
所述步骤S01包括以下分步骤:
步骤S011:情感抽取:采用具有层次结构的多元化情感模型对时间窗口内的在线微博文本进行情感抽取,将微博文本分为情感文本和非情感文本两类,且将情感文本根据情感模型按照不同的情感进行归类;
步骤S012:主流情感抽取:根据情感文本集合的数量及发表时间,对情感进行主成分分析,抽取时间窗口内的主流情感;
步骤S013:主流情感突发检测:采用改进的Kleinberg算法对主流情感进行突发状态检测,抽取主流情感的突发期及突发情感文本,其中,所述改进的Kleinberg算法主要包括以下步骤:首先采用公式计算出各主流情感文本占总文本的比例,其中,表示时间窗口T内含有情感ej的微博文本数目,表示时间窗口T内所有含有情感的微博文本数目;然后采用Kleinberg算法检测出该比例的突发情况,即为相应情感和情感文本的突发情况。
2.如权利要求1所述的基于情感分析在线检测微博热点事件的方法,其特征在于,步骤S02包括以下分步骤:
步骤S021:命名实体识别:对其突发期内的情感文本集进行命名实体识别,将突发期内的情感文本按照时间、地点及特殊名词进行命名,分成含有命名实体的情感文本和不含有命名实体的情感文本,且将含有命名实体的情感文本作为聚类文本集;
步骤S022:近邻传播聚类:对聚类文本集采用近邻传播聚类算法进行聚类,采用文本相似性时,对命名实体和一般词采用不同的权重进行度量,以使每种主流情感都形成聚类事件;
步骤S023:事件合并:将各主流情感的聚类结果采用突发时间和事件相似性相结合的双限定方式进行话题合并形成热点事件。
CN201310403005.4A 2013-08-13 2013-09-06 一种基于情感分析在线检测微博热点事件的方法 Active CN103500175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310403005.4A CN103500175B (zh) 2013-08-13 2013-09-06 一种基于情感分析在线检测微博热点事件的方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201310352026.8 2013-08-13
CN2013103520268 2013-08-13
CN201310352026 2013-08-13
CN201310403005.4A CN103500175B (zh) 2013-08-13 2013-09-06 一种基于情感分析在线检测微博热点事件的方法

Publications (2)

Publication Number Publication Date
CN103500175A CN103500175A (zh) 2014-01-08
CN103500175B true CN103500175B (zh) 2017-09-15

Family

ID=49865386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310403005.4A Active CN103500175B (zh) 2013-08-13 2013-09-06 一种基于情感分析在线检测微博热点事件的方法

Country Status (1)

Country Link
CN (1) CN103500175B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745000B (zh) * 2014-01-24 2017-02-01 福州大学 一种中文微博客的热点话题检测方法
CN103955505B (zh) * 2014-04-24 2017-09-26 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及系统
CN104239383A (zh) * 2014-06-09 2014-12-24 合肥工业大学 一种微博情感可视化方法
CN104598549B (zh) * 2014-12-31 2019-03-05 北京畅游天下网络技术有限公司 数据分析方法和系统
CN104778280B (zh) * 2015-05-04 2018-02-02 合肥工业大学 基于近邻传播的文本数据流聚类算法
CN106980692B (zh) * 2016-05-30 2020-12-08 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN106886567B (zh) * 2017-01-12 2019-11-08 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN108108355A (zh) * 2017-12-25 2018-06-01 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的文本情感分析方法和系统
CN108334573B (zh) * 2018-01-22 2021-02-26 北京工业大学 基于聚类信息的高相关微博检索方法
CN108733816B (zh) * 2018-05-21 2022-02-01 重庆人文科技学院 一种微博突发事件检测方法
CN110377737A (zh) * 2019-07-04 2019-10-25 成都迪普曼林信息技术有限公司 海量文本的低成本分类与聚类处理方法
CN110457595B (zh) * 2019-08-01 2023-07-04 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
CN112948658A (zh) * 2021-02-26 2021-06-11 上海应用技术大学 基于互联网突发事件的品牌舆情监测方法及系统
CN113177163B (zh) * 2021-04-28 2022-08-02 烟台中科网络技术研究所 用于社交动态信息情感分析的方法、系统和存储介质
CN115017291B (zh) * 2022-08-04 2023-01-10 太平金融科技服务(上海)有限公司深圳分公司 热点问题分析方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bursty and Hierarchical Structure in Streams;Jon Kleinberg;《Data Mining and Knowledge Discovery》;20031031;第7卷(第4期);373-397 *
Detecting Real-time Burst Topics in Microblog Streams:How Sentiment Can Help;Lumin Zhang 等;《WWW"13 Companion Proceedings of the 22nd International Conference on World Wide Web》;20130513;781-782 *
基于情感计算的微博突发事件检测方法研究;张鲁民 等;《信息网络安全》;20120810;143-145 *

Also Published As

Publication number Publication date
CN103500175A (zh) 2014-01-08

Similar Documents

Publication Publication Date Title
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
CN103559233B (zh) 微博中网络新词抽取方法和微博情感分析方法及系统
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN101408883B (zh) 一种网络舆情观点收集方法
CN105005594B (zh) 异常微博用户识别方法
CN103793503A (zh) 一种基于web文本的观点挖掘与分类的方法
CN107766585A (zh) 一种面向社交网络的特定事件抽取方法
CN107193801A (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN108399241B (zh) 一种基于多类特征融合的新兴热点话题检测系统
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN107291886A (zh) 一种基于增量聚类算法的微博话题检测方法及系统
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN104462286A (zh) 一种基于改进的lda的微博话题发现方法
CN106547875A (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN107305545A (zh) 一种基于文本倾向性分析的网络意见领袖的识别方法
CN103034726A (zh) 文本过滤系统及方法
CN110222172A (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
Yan et al. An improved single-pass algorithm for chinese microblog topic detection and tracking
CN106126605A (zh) 一种基于用户画像的短文本分类方法
CN102521402A (zh) 文本过滤系统及方法
Campbell et al. Content+ context networks for user classification in twitter

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant