CN103559176A - 微博情感演化分析方法及系统 - Google Patents

微博情感演化分析方法及系统 Download PDF

Info

Publication number
CN103559176A
CN103559176A CN201310512078.7A CN201310512078A CN103559176A CN 103559176 A CN103559176 A CN 103559176A CN 201310512078 A CN201310512078 A CN 201310512078A CN 103559176 A CN103559176 A CN 103559176A
Authority
CN
China
Prior art keywords
emotion
vector
word
evolution
blog article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310512078.7A
Other languages
English (en)
Other versions
CN103559176B (zh
Inventor
张鲁民
贾焰
杨树强
周斌
韩伟红
李爱平
韩毅
李莎莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201310512078.7A priority Critical patent/CN103559176B/zh
Publication of CN103559176A publication Critical patent/CN103559176A/zh
Application granted granted Critical
Publication of CN103559176B publication Critical patent/CN103559176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种微博情感演化分析方法,及时发现对突发事件的情感演化。采用基于大规模微博语料库构造的多元化情感模型实时对用户情感状态进行监测,分析情感模式的时序变化特征,准确快速的发现情感演化模式。该方法可实时监测微博流上公众的情感的演化状态,从而对于舆情监控和引导具有十分重要的意义。

Description

微博情感演化分析方法及系统
技术领域
本发明属于数据挖掘领域,尤其涉及针对微博数据流进行情感演化分析技术。
背景技术
在日常生活中,突发事件频繁发生,用户越来越习惯于利用社交网络(例如博客、论坛、twitter,Facebook等)来发表自己的观点和情感。然而,用户对事件的情感并非保持一成不变,而是随着时间的变化或者事件的发展而不断演化,逐渐变强或者变弱,甚至从一种情感转化到另一种情感。例如,在2011年日本大地震中,当地震发生初期,部分用户持有“幸灾乐祸”的态度,然而随着政府救援工作的开展及遇难人民群众面对灾害的坚强意志,这部分用户的情感态度由“幸灾乐祸”转变为“敬佩”。同样,在“韩寒与方舟子大战”中,很大一部分用户由开始支持方舟子到最后转变为支持韩寒。如何实时在线检测用户对突发事件的情感演化过程具有十分重要的意义。对于企业而言,可以通过对消费者购买产品后情感的持续跟进,及时发现产品的缺点及不足。对于社会和政府工作者而言,通过分析用户对事件的情感变化情况,可对突发事件及时做出回应,甚至预测事件的发展趋势,从而快速发现不良苗头,并进行合理引导,将不良信息的影响程度降低到最小。
情感分析,又称意见挖掘,是对有情感倾向的文本进行处理归纳的过程,因其巨大的应用价值而得到广泛的研究,现在已经普遍应用于评价用户对产品的满意程度、预测大选结果、预测金融走势等领域。针对文章倾向性方面的研究已经存在大量的工作,但这些已有方法大多集中于从静态的角度对文本倾向性的研究,重点关注单个文本的情感倾向性,将文本情感分析看作是一个三元分类过程(如,积极/中立/消极),并未动态地将文章串联起来研究情感的演化趋势。另外,这些方法只是从文本内容的角度进行分析,并未针对突发事件,发现社交网络上群体情感随时间的动态变化趋势。
用户对突发事件的情感态度是多元化、动态化的。传统的三元分类模型并不能很好的刻画这种性质。而且随着微博的迅速发展,文本数据流产生速度非常快,快速准确地发现用户对突发事件的情感变化趋势,实时监测微博流上公众的情感状态,对于舆情引导具有十分重要的意义。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种微博情感演化分析方法,以实时检测微博用户情感变化趋势。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种微博情感演化分析方法,该方法包括:
步骤1)基于包含多种情感类型的情感模型来确定每条微博消息的情感向量;其中,对于任意博文d,其情感向量
Figure BDA0000402210690000021
对于情感模型中的第i种情感类型,如果博文d包含属于该情感类型的情感词,则相应地Ed中第i个元素
Figure BDA0000402210690000022
取值为1,否则取值为0,m表示该情感模型中包含的情感类型的数目;
步骤2)基于微博消息的情感向量来对微博情感的演化进行分析。
上述方法中,还可包括构建所述情感模型的步骤,该构建所述情感模型的步骤包括:
步骤a)抽取能够表达用户情感的多个情感词;
步骤b)构建情感词相似性矩阵,该矩阵中的元素为情感词间的相似性;
步骤c)基于情感词相似性矩阵,采用聚类算法将所抽取的情感词聚合为多个情感类型,从而得到包含多种情感类型的情感模型。
上述方法中,所述步骤b)中情感词间的相似性可以是基于情感词间知网语义相似性和/或检索相似性而得到的。
上述方法中,其中,以w1,w2表示两个情感词,则二者间的知网语义相似性可以为:
Figure BDA0000402210690000023
d表示在知网提供的概念树中这两个情感词w1,w2之间的路径的长度,0≤α≤1;
情感词w1,w2间的检索相似性可以为:
Figure BDA0000402210690000031
Dis(w1,w2)在微博语料库中两个情感词间的检索距离,
Dis ( w 1 , w 2 ) = max { log f ( w 1 ) , log f ( w 2 ) } - log f ( w 1 , w 2 ) log N - min { log f ( w 1 ) , log f ( w 2 ) } , 其中,f(w1)表示微博语料库中包含情感词w1的博文数,f(w2)表示微博语料库中包含情感词w2的博文数,f(w1,w2)表示微博语料库中同时包含情感词w1与w2的博文数。
上述方法中,两个情感词w1,w2间的相似性可以为:
Sim(w1,w2)=β*SimH(w1,w2)+(1-β)*SimR(w1,w2),0≤β≤1;
上述方法中,所述步骤2还可包括采用下列步骤来检测不同时刻对突发事件的情感是否发生了变化:
获取不同时刻的情感向量;其中对于任意时刻t,该时刻t的情感向量E(t)为在该时刻内发表的博文的情感向量的总和;
计算任意两个时刻的情感向量之间的KL距离,如果这两个时刻的情感向量之间KL距离大于给定阈值,则确定在这两个时刻间对突发事件的整体情感发生了演化。
上述方法中,所述步骤2还可包括
对于所获取的任一时刻的情感向量进行归一化处理;其中,对于任意时刻t的情感向量E(t)中的每个元素ei(t),令:
Figure BDA0000402210690000033
其中||E(t)||表示该情感向量E(t)的模长。
上述方法中,其中任意两个时刻t1,t2,t1<t2,t1与t2时刻的情感向量之间的KL巨离为:
Figure BDA0000402210690000034
其中E(t1)与E(t2)分别为t1,t2时刻归一化后的情感向量。
上述方法中,所述步骤2还可包括检测任意两个时刻的情感向量的某元素之间是否存在明显差异,来判断某种情感是否发生了变化步骤,其包括:
计算情感ei从t1时刻到t2时刻的提升度hi=(ei(t1)+α)/(ei(t2)+α),其中,α为非常小的正常数,用于对提升度进行平滑处理;
若hi>1,则确定用户对突发事件的情感ei加强,反之若ei<1,则确定用户对突发事件的情感ei减弱;若hi=1,则确定两个时刻情感ei强度未发生变化。
上述方法中,所述步骤2还可包括:
按时间粒度t对博文的情感向量进行聚合,得到情感向量E(t),情感向量E(t)为在该时刻内发表的博文的情感向量的总和;
按从大到小的次序从情感向量E(t)的元素中选择K个元素对应的情感类型作为主流情感来构造情感演化图;
其中,该情感演化图横向表示时间,以时间粒度t为单位,纵向为每个时间段所选择的K个主流情感。
又一方面,本发明提供了一种微博情感演化分析系统,该系统包括:
情感向量确定模块,用于基于包含多种情感类型的情感模型来确定每条微博消息的情感向量;其中,对于任意博文d,其情感向量对于情感模型中的第i种情感类型,如果博文d包含属于该情感类型的情感词,则相应地Ed中第i个元素
Figure BDA0000402210690000042
取值为1,否则取值为0,m表示该情感模型中包含的情感类型的数目;
情感演化分析模块,用于基于微博消息的情感向量来微博情感的演化进行分析。
本发明的优点在于:
采用离线分析和在线分析相结合的方法,离线分析采用基于大规模语料库构建多元化的情感模型,可以对用户情感进行更细粒度的刻画;在线分析基于该情感模型对用户情感进行实时动态分析,对突发事件中用户情感状态进行实时监测,并通过情感演化图清晰展示用户情感状态的变化过程。通过频繁情感模式挖掘,及时发现主流情感状态的演化过程,从而对舆情监控和引导具有重要意义。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的微博情感演化分析架构示意图;
图2为根据本发明实施例的主流情感演化示意图;
图3为用户粉丝数和博文数的幂律分布示意图;
图4为根据本发明实施例的情感用户群分布示意图;
图5为根据本发明实施例的频繁情感模式演化图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的一个实施例中,提供了一种微博情感演化分析方法,该方法主要包括:基于包含多种情感类型的情感模型来确定每条微博消息的情感向量;基于微博消息的情感向量来分析微博情感演化过程,也就是检测对于特定事件公众情感是否发生变化,以及在哪个时刻处于什么原因而发生了变化。该方法还可包括抽取多个情感词和能够表达用户情感的表情符号,采用基于Hownet语义相似性与检索相似性相结合的算法计算情感词之间的相似性,构建情感词相似性矩阵,然后采用聚类算法将所抽取的情感词聚合为多个类型,从而构建包含多种情感类型的情感模型。
如上文所提到的,用户对突发时间的情感态度是多元化的、动态化的。传统的三元情感分类模型(积极/中立/消极)并不能很好地刻画这种性质。为此在本发明的实施例中通过抽取能够表达用户情感的情感词及微博中用户常用的情感符号,并对这些情感词进行聚类,从而得到包含多种情感类型的情感模型。这是因为很多情感词在语义上非常相近,比如高兴和愉快表示都表示喜悦情绪,愤怒和愤慨都表达了用户的悲愤情绪等。这些词实际上具有非常近的相似性,实际上可以看作相同的情感词。
其中,可以通过多种途径来抽取能够表达用户情感的情感词。例如,可以从微博数据流或微博语料库中抽取情感词和能够表达用户情感的表情符号。可以从词典中抽取能表达情感的词语。又例如,也可以从临床心理学中为检测用户情感而制定的《情感检测表》中抽取能表达情感的词语,目前该情感检测表包括212个形容词。这样即能避免手工收集情感词的繁琐工作,又具有一定的权威性。接着,可以采用聚类算法,例如AGNES(Agglomerative Nesting)聚类算法,来对所抽取的情感词进行聚类,以将这些情感词聚合成多个情感类型。AGNES算法最初将每个对象作为一个簇,然后这些簇根据某些准则被一步一步地合并。例如,在簇A中的一个对象和簇B中的一个对象之间的距离是所有属于不同簇的对象之间最小的,AB可能被合并。这是一种单链接方法,其每一个簇都可以被簇中所有对象代表,两个簇间的相似度由这两个簇中距离最近的数据点的相似度来确定。具体到本发明的实施例,初始地,可以将每个情感词看作一个类簇,然后根据情感词之间的相似性来进行聚类。AGNES算法流程可以如下所示:
其中,相似性矩阵S中的元素为情感词之间的相似性,显然S为对称矩阵。相似度阈值δ,可以根据用户需求或经验来设置。情感词之间的相似性可以是情感词之间的知网(Hownet)语义相似性。Hownet语义相似性主要用于衡量文本中词语的可替换程度。两个情感词w1,w2之间的Hownet的语义相似性计算方法如下:
Sim H ( w 1 , w 2 ) = α d + α ;
其中d表示在Hownet提供的概念树中这两个情感词w1,w2之间的路径的长度,在Hownet提供的概念树中任意两个概念之间有且只有一条路径,这条路径的长度代表两个概念语义的距离。α为正的可调参数,一般取0到1之间的一个数值。又例如,也可以基于检索相似性来计算情感词之间的相似性,因为情感上相近的词,其共同出现的概率较大。基于大规模微博语料库,两个词之间的检索距离可表示为:
Dis ( w 1 , w 2 ) = max { log f ( w 1 ) , log f ( w 2 ) } - log f ( w 1 , w 2 ) log N - min { log f ( w 1 ) , log f ( w 2 ) }
其中,f(wi)表示微博语料库中包含情感词wi的博文数,f(w1,w2)表示同时包含情感词w1与w2的博文数。故两个情感词w1,w2之间的检索相似性可表示为:
Sim R ( w 1 , w 2 ) = α Dis ( w 1 , w 2 ) + α .
又例如,也可以基于知网语义相似性与检索相似性相结合的方法来计算情感词的相似性。例如,两个情感词语w1,w2之间的相似性可表示为:
Sim(w1,w2)=β*SimH(w1,w2)+(1-β)*SimR(w1,w2),0≤β≤1。
通过上述聚类算法并对这些情感词进行聚类,从而得到了多个类簇,也就是得到了经聚合后的多种情感类型。由此得到包括多个情感类型的情感模型。令E=<e1,e2,…em>表示情感模型,其中ei表示一种情感类型,m表示该情感模型中包含的元素的数目。对于每篇博文d,定义d的情感向量Ed为:
Figure BDA0000402210690000073
其中,对于情感模型E中的第i个元素,如果博文d具备该情感类型ei,实际上就是博文d包含属于该情感类型的情感词,则相应地Ed中第i个元素取值为1,否则取值为0,即:
对于每篇博文d,从其情感向量Ed可以抽取出对应的情感模式Rd,即发表该博文的用户的情感模式,也就是在该博文中用户具备的情感类型的集合,即Rd=∪ei
Figure BDA0000402210690000076
例如,假设博文d的情感向量为<1,0,0,1,0,0…0>,则对应的情感模式为(e1,e4),即用户在发布该博文时带有情感e1和情感e4
上文主要讨论了如何构建情感模型以及基于包含多种情感类型的情感模型如何确定每条微博消息的情感向量。下面介绍针对微博数据流,基于微博消息的情感向量来分析微博情感演化过程。对于微博情感演化可以从博文的角度和从用户的角度进行分析。
在本发明的一个实施例中,从博文的角度出发,检测对于突发事件的情感是否发生了变化。令D={d1,d2,…}为微博数据流文档集合,例如,可以是与某个突发事件的相关博文的集合;每个di表示一篇微博文(也可以称为微博消息或博文),可以该微博文的发表时间来对该博文进行标记。对于给定的时间段T,假设该时间段T被划分为t1,t2,…tp个子时间段,则根据博文的发表时间,D可以划分成一系列不相交子集D(t1),D(t2),…,D(tp),使得D(ti)表示时间段ti内发表的博文的集合。可以各种时间粒度来对时间段T进行划分,例如,以1天、1周、1月等为单位。对D的每个子集D(t),可定义时刻t的情感向量E(t)为t时刻内发表的博文的情感向量的总和,即
Figure BDA0000402210690000082
从而,判断微博情感是否演化的问题可表示为在数据流D中,给定时刻t1、t2,研究其情感向量E(t1)与E(t2)的关系。若两向量之间或者向量的某元素之间存在明显差异,则说明情感发生了演化。
为方便对情感的演化进行分析,对于t时刻的情感向量E(t),可以先进行归一化处理,对于情感向量E(t)中的每个元素ei(t),令:
其中||E(t)||表示情感向量的模长。对于t1与t2时刻(t1<t2)归一化后的情感向量E(t1)与E(t2),定义其Kullback-Leibler距离(Kullback-Leibler Divergence,Kullback-Leibler差异,简称为KL距离,也可称为相对熵)如下:
D KL ( E ( t 1 ) | | E ( t 2 ) ) = &Sigma; i e i ( t ) log e i ( t 1 ) e i ( t 2 )
从而,若DKL(E(t1)||E(t2))大于给定阈值(可根据用户或系统需求设定,或根据经验值设定),则说明t2时刻情感相对于t1时刻发生了演化。在本发明的实施例中,不仅通过KL距离检测两情感向量之间是否存在明显差异来判断对突发事件的整体情感是否发生了演化,而且还可以检测情感向量的某元素之间是否存在明显差异,以判断某种情感是否发生了变化。特别的,称hi=(ei(t1)+α)/(ei(t2)+α),为情感ei从t1时刻到t2时刻的提升度。其中,α为非常小的正常数,用于对提升度公式进行平滑处理。这样,若hi>1,则用户对突发事件的情感ei加强,反之若ei<1,则用户对突发事件的情感ei减弱。若hi=1,则说明两个时刻情感ei强度未发生变化。
此外,从博文角度进行分析,还可以通过构造突发事件的情感演化图来快速地发现用户情感变化趋势。首先,确定待分析的微博数据流中每个博文的情感向量;然后,按时间粒度t对博文的情感向量进行聚合,得到情感向量E(t),按从大到小的次序从情感向量E(t)中的元素选择K个元素对应的情感类型作为主流情感来构造情感演化图。其中,时间粒度t可以为小时、天、周等等。例如,假设选择以天为单位进行聚合,那么,某一天的主流情感实际上是根据在这一天中发表的包含该情感的博文数量的多少来选择。该情感演化图横向表示时间,以时间粒度t为单位,纵向为每个时间段所选择的K个主流情感。例如,图2给出了为根据本发明实施例的主流情感演化示意图。其以通过新浪微博API获取从2011年3月11日至2011年3月20日有关日本地震的84万条微博为研究对象。以天为单位进行聚合,选取每天占主流的前5个情感来构造情感演化图。图2示出了从3月11日到3月19日,每天发表的所有博文中包含最多的前5个情感词。从中可以看出,在突发事件中,用户情感并非会一直保持不变,而是随着事件的发展不断变化。同时,从情感演化图中,很容易发现主流情感的演化状态。
在本发明的又一个实施例中,提供了一种微博情感演化分析系统,其包括情感向量确定模块和情感演化分析模块。情感向量确定模块可用于基于包含多种情感类型的情感模型来确定每条微博消息的情感向量。情感演化分析模块可用于采用上文所讨论的方法,基于微博消息的情感向量来微博情感的演化进行分析。
在本发明的又一个实施例中,也可以从用户的角度分析群体用户情感的演化过程,本发明关注于群体用户情感的演化,而不是单个用户,因为单个用户对突发事件的情感变化并不具有代表意义。设U为用户集合,对任意u∈U,将用户u对突发事件的所有博文进行聚合,也就是聚合用户u对突发事件的所有博文的情感向量,这样,用户u的情感向量为:
Figure BDA0000402210690000101
其中,Du为用户u对突发事件的所有博文的集合,d为用户u的一条博文。Eu中的元素按博文的发布时间排序。将对于某个给定事件具有相同情感向量的用户分成一个组,从而可定义情感用户群SUG(Sentiment User Group):对用户集合U的子集如果
Figure BDA0000402210690000104
则称G为一个SUG,特别的,如果G中用户情感向量对应的情感模式为数据流D的频繁模式,则称G为频繁情感用户群FSUG(Frequent Sentiment User Group)。例如,对于数据流的情感模式集{e1,e2,e3,(e1,e3),(e2,e3),(e1,e2,e3)},采用FP-growth算法来挖掘其中的频繁模式,也就是挖掘数据流中频繁出现的情感,设定最小支持度为3,则从该数据流挖掘的频繁情感模式包括e1e2和e2e3。那么,其情感向量对应的情感模式为e1e2的用户群为一个FSUG;其情感向量对应的情感模式为e2e3的用户群为另一个FSUG。
检测数据流上的SUG可采用聚类的方法进行,例如,可采用单遍扫描算法如下:
Figure BDA0000402210690000102
这样,每个用户情感向量只需读取一次,并且经过上述算法,用户集合U被分为不相交子集G1,G2…Gk使得
Figure BDA0000402210690000105
对于Gi中的所有用户都具有相同的情感向量,因此其对应的情感模式也相同。在检测出SUG的基础上将每个SUG看作数据项,从而可以快速执行FP-growth算法挖掘FSUG。对于挖掘出来的特定的FSUG,抽取FSUG中的所有博文的情感向量,设定KL距离阈值,采用上文所述的基于KL的方法来分析不同时刻FSUG中用户情感是否发生演化。
为了更好地说明本发明的效果,以通过新浪微博API获取从2011年3月11日至2011年3月20日有关日本地震的84万条微博作为研究对象。其用户的粉丝数和用户发表博文数如图3所示,从中可以看出,两者都服从幂律(power-law)分布,即少数用户拥有大量粉丝,而大部分用户具有较少数目的粉丝。少数用户发表大量博文,而大部分用户发表博文数目较少。采用上文所述的SUG检测方法进行情感用户群的发现,一个很有趣的现象是SUGs中情感的个数同样服从幂律分布,其分布图如图4所示。对SUGs的分布进行回归分析,发现其分布符合公式P(k)∝k-r,其中r为3.54。也就是大部分用户只对突发事件具有2到3种情感,而少数用户具有非常“丰富”的情感,分析这类用户发现,其大部分都是新闻报道的用户,多用于描述其他人对突发事件的状态。采用FP-growth算法进行FSUGs挖掘,并对典型的FSUGs进行时序分析,如图5所示。从中可以看出,FSUGs可分为两种类型。第一种如图5上半部分所示。分析用户博文发现,对于此类频繁情感模式,用户多在同一博文中表达两种以上的情感,从而造成虽然情感模式虽然频繁,但是用户情感状态并未发生演化。第二种如图5下半部分所示,从中可以看出,这部分用户的情感模式发生了典型的演化,如从幸灾乐祸向敬佩演化。这表明,这部分用户经历了两种情感状态,在地震初期是幸灾乐祸占主导,但随着事件的发展变化,敬佩的情感逐渐占据上风。从图中可以清晰的发现情感的演化过程。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims (11)

1.一种微博情感演化分析方法,包括: 
步骤1)基于包含多种情感类型的情感模型来确定每条微博消息的情感向量;其中,对于任意博文d,其情感向量
Figure FDA0000402210680000011
对于情感模型中的第i种情感类型,如果博文d包含属于该情感类型的情感词,则相应地Ed中第i个元素
Figure FDA0000402210680000012
取值为1,否则取值为0,m表示该情感模型中包含的情感类型的数目; 
步骤2)基于微博消息的情感向量来对微博情感的演化进行分析。 
2.根据权利要求1所述的方法,还包括构建所述情感模型的步骤,该构建所述情感模型的步骤包括: 
步骤a)抽取能够表达用户情感的多个情感词; 
步骤b)构建情感词相似性矩阵,该矩阵中的元素为情感词间的相似性; 
步骤c)基于情感词相似性矩阵,采用聚类算法将所抽取的情感词聚合为多个情感类型,从而得到包含多种情感类型的情感模型。 
3.根据权利要求2所述的方法,所述步骤b)中情感词间的相似性是基于情感词间知网语义相似性和/或检索相似性而得到的。 
4.根据权利要求3所述的方法,其中,以w1,w2表示两个情感词,则二者间的知网语义相似性为:
Figure FDA0000402210680000013
d表示在知网提供的概念树中这两个情感词w1,w2之间的路径的长度,0≤α≤1; 
情感词w1,w2间的检索相似性为:Dis(w1,w2)在微博语料库中两个情感词间的检索距离, 
其中,f(w1)表示微博语料库中包含情感词w1的博文数,f(w2)表示微博语料库中包含情感词w2的博文数,f(w1,w2)表示微博语料库中同时包含情感词w1与w2的博文数。 
5.根据权利要求4所述的方法,其中,两个情感词w1,w2间的相似性为: 
Sim(w1,w2)=β*SimH(w1,w2)+(1-β)*SimR(w1,w2),0≤β≤1。 
6.根据权利要求1所述的方法,所述步骤2还包括采用下列步骤来检测不同时刻对突发事件的情感是否发生了变化: 
获取不同时刻的情感向量;其中对于任意时刻t,该时刻t的情感向量E(t)为在该时刻内发表的博文的情感向量的总和; 
计算任意两个时刻的情感向量之间的KL距离,如果这两个时刻的情感向量之间KL距离大于给定阈值,则确定在这两个时刻间对突发事件的0整体情感发生了演化。 
7.根据权利要求6所述的方法,所述步骤2还包括 
对于所获取的任一时刻的情感向量进行归一化处理;其中,对于任意时刻t的情感向量E(t)中的每个元素ei(t),令: 
Figure FDA0000402210680000021
其中||E(t)||表示该情感向量E(t)的模长。 
8.根据权利要求7所述的方法,其中任意两个时刻t1,t2,t1<t2,t1与t2时刻的情感向量之间的KL距离为: 
Figure FDA0000402210680000022
其中E(t1)与E(t2)分别为t1,t2时刻归一化后的情感向量。 
9.根据权利要求6所述的方法,所述步骤2还包括检测任意两个时刻的情感向量的某元素之间是否存在明显差异,来判断某种情感是否发生了变化步骤,其包括: 
计算情感ei从t1时刻到t2时刻的提升度hi=(ei(t1)+α)/(ei(t2)+α),其中,α为非常小的正常数,用于对提升度进行平滑处理; 
若hi>1,则确定用户对突发事件的情感ei加强,反之若hi<1,则确定用户对突发事件的情感ei减弱;若hi=1,则确定两个时刻情感ei强度未发生变化。 
10.根据权利要求1所述的方法,所述步骤2还包括: 
按时间粒度t对博文的情感向量进行聚合,得到情感向量E(t),情感向量E(t)为在该时刻内发表的博文的情感向量的总和; 
按从大到小的次序从情感向量E(t)的元素中选择K个元素对应的情感 类型作为主流情感来构造情感演化图; 
其中,该情感演化图横向表示时间,以时间粒度t为单位,纵向为每个时间段所选择的K个主流情感。 
11.一种微博情感演化分析系统,包括: 
情感向量确定模块,用于基于包含多种情感类型的情感模型来确定每条微博消息的情感向量;其中,对于任意博文d,其情感向量 
Figure FDA0000402210680000031
对于情感模型中的第i种情感类型,如果博文d包含属于该情感类型的情感词,则相应地Ed中第i个元素取值为1,否则取值为0,m表示该情感模型中包含的情感类型的数目; 
情感演化分析模块,用于基于微博消息的情感向量来微博情感的演化进行分析。 
CN201310512078.7A 2012-10-29 2013-10-25 微博情感演化分析方法及系统 Active CN103559176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310512078.7A CN103559176B (zh) 2012-10-29 2013-10-25 微博情感演化分析方法及系统

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN2012104207098 2012-10-29
CN201210420709.8 2012-10-29
CN201210420709 2012-10-29
CN201210431844.2 2012-11-02
CN201210431844 2012-11-02
CN2012104318442 2012-11-02
CN201310512078.7A CN103559176B (zh) 2012-10-29 2013-10-25 微博情感演化分析方法及系统

Publications (2)

Publication Number Publication Date
CN103559176A true CN103559176A (zh) 2014-02-05
CN103559176B CN103559176B (zh) 2016-08-17

Family

ID=50013425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310512078.7A Active CN103559176B (zh) 2012-10-29 2013-10-25 微博情感演化分析方法及系统

Country Status (1)

Country Link
CN (1) CN103559176B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516873A (zh) * 2014-12-12 2015-04-15 北京智谷睿拓技术服务有限公司 建立情感模型的方法和装置
CN104537097A (zh) * 2015-01-09 2015-04-22 成都布林特信息技术有限公司 微博舆情监测系统
CN104615717A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的多维度评估方法
CN104636425A (zh) * 2014-12-18 2015-05-20 北京理工大学 一种网络个体或群体情绪认知能力预测与可视化方法
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法
CN104965930A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的突发事件演化分析方法
CN104978308A (zh) * 2015-05-22 2015-10-14 福建师范大学 一种微博主题情感演化分析方法
CN105843792A (zh) * 2015-10-26 2016-08-10 北京宏博知微科技有限公司 一种网络事件的综合情感度量方法
CN106484724A (zh) * 2015-08-31 2017-03-08 富士通株式会社 信息处理装置和信息处理方法
CN107169142A (zh) * 2017-06-15 2017-09-15 厦门快商通科技股份有限公司 一种自动更新的文档情感分析系统及方法
CN107918633A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN108090097A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 文本处理方法和装置
CN109408782A (zh) * 2018-10-18 2019-03-01 中南大学 基于kl距离相似性度量的研究热点演变行为检测方法
CN110929145A (zh) * 2019-10-17 2020-03-27 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
US11256872B2 (en) 2019-10-29 2022-02-22 International Business Machines Corporation Natural language polishing using vector spaces having relative similarity vectors

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882136A (zh) * 2009-05-08 2010-11-10 中国科学院计算技术研究所 文本情感倾向性分析方法
WO2011092465A1 (en) * 2010-01-29 2011-08-04 British Telecommunications Public Limited Company Semantic textual analysis
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882136A (zh) * 2009-05-08 2010-11-10 中国科学院计算技术研究所 文本情感倾向性分析方法
WO2011092465A1 (en) * 2010-01-29 2011-08-04 British Telecommunications Public Limited Company Semantic textual analysis
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
宋双永,李秋丹,路冬媛: "面向微博客的热点事件情感分析方法", 《计算机科学》 *
张鲁民,贾焰,周斌: "基于情感计算的微博突发事件检测方法研究", 《信息网络安全》 *
许云,樊孝忠,张锋: "基于知网的语义相关度计算", 《北京理工大学学报》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516873A (zh) * 2014-12-12 2015-04-15 北京智谷睿拓技术服务有限公司 建立情感模型的方法和装置
CN104636425A (zh) * 2014-12-18 2015-05-20 北京理工大学 一种网络个体或群体情绪认知能力预测与可视化方法
CN104636425B (zh) * 2014-12-18 2018-02-13 北京理工大学 一种网络个体或群体情绪认知能力预测与可视化方法
CN104537097A (zh) * 2015-01-09 2015-04-22 成都布林特信息技术有限公司 微博舆情监测系统
CN104537097B (zh) * 2015-01-09 2017-08-11 成都布林特信息技术有限公司 微博舆情监测系统
CN104615717B (zh) * 2015-02-05 2018-03-09 北京航空航天大学 社交网络突发事件的多维度评估方法
CN104615717A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的多维度评估方法
CN104978308A (zh) * 2015-05-22 2015-10-14 福建师范大学 一种微博主题情感演化分析方法
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法
CN104965930A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的突发事件演化分析方法
CN104965930B (zh) * 2015-07-30 2019-03-26 成都信息工程大学 一种基于大数据的突发事件演化分析方法
CN106484724A (zh) * 2015-08-31 2017-03-08 富士通株式会社 信息处理装置和信息处理方法
CN105843792B (zh) * 2015-10-26 2018-12-21 北京宏博知微科技有限公司 一种网络事件的综合情感度量方法
CN105843792A (zh) * 2015-10-26 2016-08-10 北京宏博知微科技有限公司 一种网络事件的综合情感度量方法
CN108090097A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 文本处理方法和装置
CN107918633A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN107918633B (zh) * 2017-03-23 2021-07-02 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN107169142A (zh) * 2017-06-15 2017-09-15 厦门快商通科技股份有限公司 一种自动更新的文档情感分析系统及方法
CN109408782A (zh) * 2018-10-18 2019-03-01 中南大学 基于kl距离相似性度量的研究热点演变行为检测方法
CN110929145A (zh) * 2019-10-17 2020-03-27 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
US11256872B2 (en) 2019-10-29 2022-02-22 International Business Machines Corporation Natural language polishing using vector spaces having relative similarity vectors

Also Published As

Publication number Publication date
CN103559176B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103559176A (zh) 微博情感演化分析方法及系统
Sharfuddin et al. A deep recurrent neural network with bilstm model for sentiment classification
Batra et al. Integrating StockTwits with sentiment analysis for better prediction of stock price movement
Desai et al. Techniques for sentiment analysis of Twitter data: A comprehensive survey
CN107977798B (zh) 一种电子商务产品质量的风险评价方法
CN104216954A (zh) 突发事件话题状态的预测装置及预测方法
CN105138577B (zh) 一种基于大数据的事件演化分析方法
CN104965931A (zh) 一种基于大数据的舆情分析方法
CN104965930B (zh) 一种基于大数据的突发事件演化分析方法
Khanvilkar et al. Sentiment analysis for product recommendation using random forest
Tyagi et al. Sentiment analysis of product reviews using support vector machine learning algorithm
Shi et al. Drift detection for multi-label data streams based on label grouping and entropy
KR101593371B1 (ko) 텍스트 데이터에 대한 성향 분류 장치 및 이를 이용한 의사 결정 지원 시스템
Khan Mixed-sentiment classification of web forum posts using lexical and non-lexical features
Varshney et al. Sentiment analysis using ensemble classification technique
Jayakody et al. Sentiment analysis on product reviews on twitter using Machine Learning Approaches
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
Sindhuja et al. Twitter Sentiment Analysis using Enhanced TF-DIF Naive Bayes Classifier Approach
Aslam et al. A novel framework for sentiment analysis using deep learning
Kusum et al. Sentiment analysis using global vector and long short-term memory
Nandi et al. Text based sentiment analysis
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
Kishima et al. Construction of MBTI personality estimation model considering emotional information
Akber et al. Personality Prediction Based on Contextual Feature Embedding SBERT
CN108287902A (zh) 一种基于数据非随机缺失机制的推荐系统方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant