CN105701210A - 一种基于混杂特征计算的微博主题情感分析方法 - Google Patents
一种基于混杂特征计算的微博主题情感分析方法 Download PDFInfo
- Publication number
- CN105701210A CN105701210A CN201610020251.5A CN201610020251A CN105701210A CN 105701210 A CN105701210 A CN 105701210A CN 201610020251 A CN201610020251 A CN 201610020251A CN 105701210 A CN105701210 A CN 105701210A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- theme
- emotion
- distribution
- emoticon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明涉及一种基于混杂特征计算的微博主题情感分析方法,包括以下步骤:1、微博数据预处理:应用中文分词、英文词根化、表情符提取技术提取微博特征,并利用先验知识对微博特征的情感和主题进行初始赋值;2、算法参数初始化;3、利用吉布斯采样技术对多特征主题情感模型MfJST的参数的联合分布A和H进行估值;4、通过微博<i>m</i>中情感极性<i>s</i>出现的概率判断每条微博<i>m</i>的情感极性;通过对联合分布A进行关于微博情感变量<i>s</i>的边缘化来实现微博消息隐含主题的检测。该方法能够有效挖掘出隐藏于微博消息中的用户关注主题及其真实情感,应用于推特、新浪微博等各种社交媒体,可优化网络舆情监控、提高信息服务质量等。
Description
技术领域
本发明涉及网络舆情分析技术领域,特别涉及一种应用于Web2.0环境下社交网络的基于混杂特征计算的微博主题情感分析方法。
背景技术
以自由开放共享为核心精神的Web2.0使得用户成为互联网的主角,诸如社交网站、微博和BBS论坛之类的平台为网民发表意见和交流情感提供了经济便捷的渠道。一般来说,用户在微博平台上发表的言论比较简短却又饱含着丰富的个人情感与主观倾向性,例如,不同读者对于同一条新闻事件持有不同的看法,不同用户对于某款手机有着其个性化的用户体验,不同影视爱好者对于同一部电影会留下不同的观影评论,等等。研究如何高效挖掘隐藏于这些鱼目混杂的微博消息中的主题与情感有助于各级政府机构、企业组织与理性个体的管理决策,例如,政府机构可以对网络舆论进行实时监测与导向、网上商家能够根据用户反馈意见及时调整生产服务实现利润最大化、个体网民可以敏捷获取目标信息,等等。
文本情感分析又称意见挖掘,其实质是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,目前正在吸引着来自人工智能、数据挖掘、自然语言处理等不同领域研究者的广泛关注,涌现出的具体算法不胜枚举,其中以有监督情感分类方法与无监督情感分类方法最为引人注目。
有监督情感分类的基本思想是通过对具有情感极性标记的训练样本模型学习并以此训练好的模型对未见文本进行情感分类。该类方法主要涉及训练集获取、文本向量化、分类器训练与分类器检测等步骤。具有里程碑意义的是2002年Pang应用3个代表性分类器(支持向量机SVM、朴素贝叶斯NB与最大熵ME)对文本情感分类任务进行实验研究,得出机器学习的文本情感分类性能远高于随机猜选,可达到大致80%的准确率.文本向量化过程涉及的特征工程在情感分类任务中起着至关重要的作用,因而,很多研究者围绕着文本情感表示模型展开研究。Mullen等提出基于wordnet特征项的Osgood情感特征权重值计算机制。Ng等设计出基于n-gram的5类特征项用于文本情感识别。Kennedy等提出在使用单个词语特征的基础上,通过语境情感值转换器构造双词词组形式的上下文敏感的特征项。Rui等提出一种词语关系特征与单个词语特征相结合的文本情感特征模型。Bespalov等提出一种基于词语、短语与文档等多级嵌入的短文本情感表示方法,然后利用深度神经网络学习情感的分布式表示向量。Li等提出“短语-句子”的混合表示模型,在短语粒度上运用Left-Middle-Right模板与条件随机场CRF来提取情感词。尽管各种基于不同情感表示模型的有监督情感分类方法取得长足的进步。但绝大多数情感表示模型是针对长文本的,很难直接应用于微博情感分析任务。
虽然有监督情感分类器能取得较高的分类准确率,但其训练过程需要大量带情感标签的训练数据,人工标记的高昂代价与机器标记的低劣质量使得有监督情感分类方法的实际应用大打折扣。因而,无需标签数据的无监督情感分类策略因势而动。现有的无监督情感分类方法大致可分为两类,其一是基于主题模型的情感分类方法,其二是基于情感特征项集成的情感分类方法。前一类方法中的代表性算法有:Mei等提出一个主题情感模型TSM进行主题及其相关情感的演化分析。TSM一方面存在着类似pLSI所有的学习过度问题,另一方面需要相关后处理操作才能完成文档情感的预测。Titov等应用MG-LDA提取评论对象中的各个被评价,然后提出MAS模型对情感进行总结,MAS模型要求评论对象的每个方面至少在部分评论中被评价过,然而,这对真实评论文本数据集来说是不实际的。Dasgupta等提出一种基于用户反馈的谱聚类技术进行网络文本的无监督情感分类,聚类分析过程涉及数据特征都是具有情感倾向的主题,然而,在该分析过程中需要人为指定最重要的特征维。Lin等提出一种基于LDA模型的JST模型,该模型将文本情感标签加入LDA,形成一个包含包含词、主题、情感和文档的四层贝叶斯概率模型。后一类方法中的代表性算法有:Hu等提出一种基于wordnet的情感词典构建法,首先人工选出情感极性已知的情感词作为种子词,然后迭代进行同义或反义搜索不断将扩展情感词典。Andreevskaia等以不同的种子词集在wordnet同义关系图中进行bootstrap,然后通过运用模糊理论对各个词在所有bootstrap结果中表现为积极或消极情感的频数进行规范化得到词的情感值。
以JST、SLDAandDPLDA等为代表的无监督情感分析方法近年来备受青睐,此类方法能有效地避免传统无监督情感分析方法具有的情感词典依赖性缺点,能达到较好的情感识别效果。遗憾的是,现有的无监督情感分析方法难以直接用于微博情感分析,主要原因是绝大多数这类方法都不同程度地忽略了几个基本事实:1)微博消息的情感极性是与微博主题密切相关的,不可能存在游离于主题之外的情感;2)微博具有篇幅短小、不规范与多模态等特性,许多在传统文本挖掘被视为噪声的数据在微博消息中却显得格外重要,例如ACSII艺术化的表情符号;3)微博用户群的性格存在差异性,而不同性格微博用户的思想感情表达方式不同,含蓄委婉抑或坦率直接。这些基本事实的忽略导致此类无监督方法的情感分析与主题检测效果难尽人意。
发明内容
本发明的目的在于提供一种基于混杂特征计算的微博主题情感分析方法,该方法能够有效挖掘出隐藏于微博消息中的用户关注主题及其真实情感。
为实现上述目的,本发明的技术方案是:一种基于混杂特征计算的微博主题情感分析方法,包括以下步骤:
步骤1、微博数据预处理:应用中文分词、英文词根化、表情符提取技术提取微博特征,包括词语和表情符,并利用先验知识对微博特征的情感和主题进行初始赋值;
步骤2、算法参数初始化:随机初始化联合分布A(m,s,t)、B(s,t,w)、Z(s,t,e)和H(m,s),分布A的超参数α,分布B的超参数β,分布H的超参数η和分布Z的超参数ζ,微博用户性格分布矩阵US,其中m、s、t、w和e分别表示微博消息变量、微博情感变量、微博主题变量、词语变量和表情符变量;
步骤3、利用吉布斯采样技术对多特征主题情感模型MfJST的参数的联合分布A和H进行估值;
步骤4、通过判断每条微博m的情感极性,表示微博m中情感极性s出现的概率:对于微博m,若,其中s1为积极情感,s2为消极情感,则判定微博m的情感极性为积极情感,反之为消极情感;通过对联合分布A进行关于微博情感变量s的边缘化来实现微博消息隐含主题的检测。
进一步地,所述多特征主题情感模型MfJST的建立方法为:
A1、利用以α为参数的狄利克雷分布函数随机生成(微博,情感,主题)先验分布;
A2、利用以β为参数的狄利克雷分布函数随机生成(情感,主题,词语)先验概率分布;
A3、利用以ζ为参数的狄利克雷分布函数随机生成(情感,主题,表情符)先验概率分布;
A4、利用以γ为参数的狄利克雷分布函数随机生成(微博-情感)先验分布;
A5、重复如下方法直到生成一条微博中的所有特征,包括词语和表情符:对一条微博首先利用(微博-情感)先验分布生成一个情感标签s,然后情感标签s从(微博,情感,主题)先验分布生成一个主题标签t,最后根据选出的情感标签s和主题标签t,通过比较随机概率rand与情感标签词语比例PROB的方式产生词语w和表情符e:若rand大于PROB,则从(情感,主题,词语)先验概率分布产生词语w,否则从(情感,主题,表情符)先验概率分布产生表情符e;
A6、重复步骤A5,直到微博数据集中的所有微博生成完毕。
进一步地,所述多特征主题情感模型MfJST参数的估值方法为:
B1、循环控制参数MaxIter置零;
B2、对每条微博m的每个特征,包括词语w和表情符e执行操作序列:从变量集中排除具有情感s和主题t的词语w;从变量集中排除具有情感s和主题t的词语e;其中ns,t,w表示在微博集合C中,除微博m中当前位置上的元素外,词语w同时属于主题t和情感极性s的频数,nm,s,t表示在微博m中,除微博m中当前位置上的特征外,具有主题t和情感极性s的特征总计数,ns,t表示在微博集合C中,除微博m中当前位置上的特征外,所有其他具有主题t和情感极性s的词语总计数,nm,s表示表示在微博m中,除微博m中当前位置上的特征外,具有情感极性s的特征总计数,nm表示在微博m中,除微博m中当前位置上的特征外,所有其他特征的总计数,ps,t,e表示在微博集合C中,除微博m中当前位置上的特征外,表情符e同时属于主题t和情感极性s的频数,ps,t表示在微博集合C中,除微博m中当前位置上的特征外,所有其他具有主题t和情感极性s的表情符总计数,nm表示在微博m中,除微博m中当前位置上的特征外,所有其他特征的总计数;
根据条件分布和分别为w和e构造新的情感主题对(snew,tnew);运用情感标签snew和主题标签tnew更新VarSet1和VarSet2,然后更新性格参数λ;其中,和分别表示除了微博m中的第i个位置的词语外,其他所有词语的主题向量和情感向量;和分别表示除了微博m中的第i个位置的表情符外,其他所有表情符的主题向量和情感向量;
B3、循环控制参数MaxIter加1;
B4、每k次迭代运用新采样结果对分布A、B、H和Z更新1次;
B5、重复步骤B2、B3和B4,直到MaxIter达到设定最大迭代次数。
本发明的有益效果是提供了一种基于混杂特征计算的微博主题情感分析方法,相较于传统的微博情感分析方法,本发明方法引入表情符与微博用户性格因素,提出了一种基于混杂特征计算的微博主题情感挖掘模型MfJST,利用概率图模型理论与MCMC(MarkovchainMonteCarlo)采样技术对模型参数进行推导与估计,最后达成微博消息集隐含主题与情感的同步检测,克服了现有的情感挖掘方法不能有效发现隐藏于短评中的用户真实情感与观点的缺陷,可广泛应用于以新浪微博、腾讯微博、推特等各种微博社交平台,可以提升信息主动服务质量、增强网络文化安全等。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中多特征主题情感模型MgJST的图模型。
图3是本发明实施例中主题数鲁棒性的比较(First-Ten)示意图。
图4是本发明实施例中主题数鲁棒性的比较(Mid-Ten)示意图。
图5是本发明实施例中主题数鲁棒性的比较(Last-Ten)示意图。
图6是本发明实施例中表情符比例对情感分类准确率的影响示意图。
图7是本发明实施例中微博主体性格参数对情感分类准确率的影响示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
为了方便详细阐述本发明,首先结合相关交叉学科理论对MfJST模型的提出动机予以说明。
正如达尔文所说“面部与身体的富于表达力的动作极有助于发挥语言的力量”的那样,人类在面对面的交流中常常会借助和利用自己的面部表情、手势动作、身体姿态的变化来简便直观地表达和传递思想感情,然而,微博空间的虚拟性使得功能强大的肢体语言失去了其赖以生存的物理基础。为了弥补肢体语言的缺失,以新浪微博、Twitter等为代表的国内外微博平台(新浪微博、Twitter)都推出其自身特有的表情符号系统。借此表情符号,微博用户可以迅速直观地表达自己的观点与情感,例如,新浪的开心,愤怒与伤心。另有来自社会神经系统科学的研究表明,在面对表情符号时,人类大脑不是将其简单地处理为一个标点符号而是将其视为真实物理行为进行响应。
人工心理学研究表明,个体的遗传基因及生长环境的不同使得每个个体都具有不同性格,人类个体的情感反应成因于外部输入的奖惩信号超过某一阈值。具有不同性格的不同个体对相同输入信号的情感反应并不是完全相同的,而是在一个可接受的范围内变化的,各不相同。对个体而言,其性格影响着他的积极与消极情绪的变化范围和变化率,也就是说,一个时间步长内,情感变化多快以及变化到何种程度,是性格的函数。相关学者在基于性格的情感建模研究中做了不少成功的尝试。Kshirsagar等提出一个“性格-心情-情感”多层情感模型用于模拟生成人的面部表情。Yang等构建一个基于情绪心理学的情感、心情和性格相结合的情感模型以人工合成表情。李海芳等设计出基于性格、心情和情感多层模型的情感预测系统,提出了一种适应不同性格特征的HMM情感模型。最后值得指出的是情感心理学研究表明:与两条随机消息相比较,出自同一微博用户的两个消息更可能具有一致的情感极性。
本发明基于混杂特征计算的微博主题情感分析方法,综合主题模型LDA与相关交叉学科理论实现微博消息的主题情感分析,如图1所示,包括以下步骤:
步骤1、微博数据预处理:应用中文分词、英文词根化、表情符提取技术提取微博特征,包括词语和表情符,并利用先验知识对微博特征的情感和主题进行初始赋值。
步骤2、算法参数初始化:随机初始化联合分布A(m,s,t)、B(s,t,w)、Z(s,t,e)和H(m,s),分布A的超参数α,分布B的超参数β,分布H的超参数η和分布Z的超参数ζ,微博用户性格分布矩阵US,其中m、s、t、w和e分别表示微博消息变量、微博情感变量、微博主题变量、词语变量和表情符变量。在本领域公知技术中,微博情感变量、情感极性和情感标签具有相同含义,但在不同环境中一般相应使用上述不同名称,因此,在本发明中,保留本领域的惯用表达而未做名称上之统一。同理,微博主题变量和主题标签也未做名称上之统一。
步骤3、利用吉布斯采样技术对多特征主题情感模型MfJST的参数的联合分布A和H进行估值。
步骤4、通过判断每条微博m的情感极性,表示微博m中情感极性s出现的概率:对于微博m,若,其中s1为积极情感,s2为消极情感,则判定微博m的情感极性为积极情感,反之为消极情感;通过对联合分布A进行关于微博情感变量s的边缘化来实现微博消息隐含主题的检测。
其中,多特征主题情感模型MfJST的建立方法为:
A1、利用以α为参数的狄利克雷分布函数随机生成(微博,情感,主题)先验分布;
A2、利用以β为参数的狄利克雷分布函数随机生成(情感,主题,词语)先验概率分布;
A3、利用以ζ为参数的狄利克雷分布函数随机生成(情感,主题,表情符)先验概率分布;
A4、利用以γ为参数的狄利克雷分布函数随机生成(微博-情感)先验分布;
步骤A1-A4中,α、β、ζ、γ都是狄利克雷分布的参数,其值由用户根据具体微博数据进行设定的;
A5、重复如下方法直到生成一条微博中的所有特征,包括词语和表情符:对一条微博首先利用(微博-情感)先验分布生成一个情感标签s,然后情感标签s从(微博,情感,主题)先验分布生成一个主题标签t,最后根据选出的情感标签s和主题标签t,通过比较随机概率rand与情感标签词语比例PROB的方式产生词语w和表情符e:若rand大于PROB,则从(情感,主题,词语)先验概率分布产生词语w,否则从(情感,主题,表情符)先验概率分布产生表情符e;
A6、重复步骤A5,直到微博数据集中的所有微博生成完毕。
其中,多特征主题情感模型MfJST参数的估值方法为:
B1、循环控制参数MaxIter置零;
B2、对每条微博m的每个特征,包括词语w和表情符e执行操作序列:从变量集中排除具有情感s和主题t的词语w;从变量集中排除具有情感s和主题t的词语e;其中ns,t,w表示在微博集合C中,除微博m中当前位置上的元素外,词语w同时属于主题t和情感极性s的频数,nm,s,t表示在微博m中,除微博m中当前位置上的特征外,具有主题t和情感极性s的特征总计数,ns,t表示在微博集合C中,除微博m中当前位置上的特征外,所有其他具有主题t和情感极性s的词语总计数,nm,s表示表示在微博m中,除微博m中当前位置上的特征外,具有情感极性s的特征总计数,nm表示在微博m中,除微博m中当前位置上的特征外,所有其他特征的总计数,ps,t,e表示在微博集合C中,除微博m中当前位置上的特征外,表情符e同时属于主题t和情感极性s的频数,ps,t表示在微博集合C中,除微博m中当前位置上的特征外,所有其他具有主题t和情感极性s的表情符总计数,nm表示在微博m中,除微博m中当前位置上的特征外,所有其他特征的总计数;
根据条件分布和分别为w和e构造新的情感主题对(snew,tnew);运用情感标签snew和主题标签tnew更新VarSet1和VarSet2,然后更新性格参数λ;其中,和分别表示除了微博m中的第i个位置的词语外,其他所有词语的主题向量和情感向量;和分别表示除了微博m中的第i个位置的表情符外,其他所有表情符的主题向量和情感向量;
B3、循环控制参数MaxIter加1;
B4、每k次迭代运用新采样结果对分布A、B、H和Z更新1次;
B5、重复步骤B2、B3和B4,直到MaxIter达到设定最大迭代次数。
下面参考图2来说明本发明方法中的基于混杂特征计算主题情感模型MfJST。
尽管主题模型LDA有着牢固的数学基础与良好的扩展性,但情感层的缺失使其无法完成文档情感的分析。基于此,本发明对LDA进行三方面的改造:1)在LDA中嵌入情感层以分析微博情感;2)引入表情符号变量e以更准确地捕捉微博消息的隐含情感;3)新增性格参数λ以在模型迭代推导微博主题情感的过程中对微博消息的情感进行调整。
在与图2相对应的MfJST模型中,微博消息的生成过程可简述如下:
对于微博消息集C={m1,m2,…,mM},其中M为集合的基数,与微博消息集C对应的词典的大小为W,微博mi是由Wi个词语与Ei表情符号组成的序列,即mi={w1,w2,…,wWi;e1,e2,…,eEi}。MfJST产生微博消息集C的过程可简单归结为如下两个步骤:1)初始化MfJST模型的先验分布超参数α、β、η与ζ,并以此参数进一步生成分布A,B,H和Z,其中α、β、η与ζ分别服从狄利克雷分布Dir(α)、Dir(β)、Dir(η)与Dir(ζ),α是指具有情感极性s的主题t在微博m中出现的先验次数,β是指词语w在具有情感极性s的主题t中出现的先验次数,η是指情感极性s在微博m中出现的先验次数,ζ是指情感标签e在具有情感极性s的主题t中出现的先验次数;2)概率生成微博消息集C的词语与情感标签,此生成过程可简单描述如下:首先利用微博-情感分布生成微博消息m的情感标签s,其中s服从分布;接着根据产生的情感标签s,应用(微博,情感)-主题分布生成具有情感极性s的微博消息m的主题t,t服从分布;最后根据前面生成的微博消息m的情感s与主题t产生m中的词语w或者情感标签e,具体地,若随机数rand大于给定的情感标签词语比例PROB则微博消息m的当前位置为词语w,否则为情感标签e。
MfJST模型参数估值
由MfJST微博消息的生成过程可知,分布A,B,H与Z是模型推理的核心。通过对这些分布的估计,可以容易推导出每条微博消息的主题与情感极性信息。为了获得这些分布,本发明对如下后验分布进行估计:
(1)
其中t-i与s-i分别是指除了微博m中第i个位置上的元素(词语或表情符号)以外的其他元素(词语或表情符号)的主题向量与情感极性向量。
当前已经提出很多估值概率图模型参数的方法(变分法,期望传播法与吉布斯采样)。吉布斯采样是一种快速高效的蒙特卡洛马尔科夫采样方法,它可以通过迭代的采样方式对复杂的概率分布实现推导。考虑到吉布斯采样的简单高效,MfJST模型参数的估值采用吉布斯采样方法。
要估计后验分布(1)就必须计算词语w、表情符e、主题t与情感s的联合分布P(w,e,t,s),根据概率图模型理论可知:
(2)
下面通过欧拉展开方法对联合分布P(w,e,t,s)的各个因子分别进行求解,也即是通过对分布B、分布Z、分布A与分布H进行积分实现因子P(w|t,s)、P(e|t,s)、P(t|s)与P(s)的推导,具体见公式(3)、公式(4)、公式(5)与公式(6)。
(3)
其中ns,t,w表示词语w同时属于主题t和情感极性s的频数,ns,t表示所有同时属于主题t和情感极性s的词语总的频数表示伽马函数。
(4)
其中ps,t,e表示表情符e同时属于主题t和情感极性s的频数,ps,t表示所有同时属于主题t和情感极性s的表情符总频数。
(5)
其中nm,s,t表示微博消息m中的元素(词语或表情符号)同时属于主题t和情感极性s的频数,nm,s表示所有同时属于主题t和情感极性s的微博消息m中的元素(词语或表情符号)总频数。
(6)
其中nm,s表示在微博m中情感极性s出现的频数,nm表示微博m中情感极性标签的总频数,即微博m的元素总数。
性格参数λ是微博博主与情感类型之间的关联矩阵US来自适应调节的。具体地,对微博博主u而言,其性格参数λ是在其发布的主观性微博消息中具有情感s的微博消息的比例,可形式化为公式(7):
(7)
其中US[u][s]是指微博博主u发布的具有情感s的微博消息数。本文假设一条微博消息的情感极性是“非消极即积极”的,也就是说,S={POS,NEG}。
根据上述联合概率可进一步得到微博主题情感的后验分布如下:
(8)
(9)
(10)
其中,与分别表示除了微博m中的第i个位置的词语外,其他所有词语的主题向量与情感向量;与分别表示除了微博m中的第i个位置的表情符外,其他所有表情符的主题向量与情感向量;表示在微博m中,除微博m中第i个位置上的特征外,具有主题t和情感极性s的特征总计数;表示在微博m中,除微博m中第i个位置上的特征外,具有情感极性s的特征总计数;表示在微博集合C中,除微博m中第i个位置上的元素外,词语w同时属于主题t和情感极性s的频数;表示在微博集合C中,除微博m中第i个位置上的元素外,所有其他具有主题t和情感极性s的词语总计数;表示在微博集合C中,除微博m中第i个位置上的元素外,表情符e同时属于主题t和情感极性s的频数;表示在微博集合C中,除微博m中第i个位置上的元素外,所有其他具有主题t和情感极性s的表情符总计数;均表示在微博m中,除微博m中第i个位置上的特征外,具有情感极性s的特征总计数;表示在微博m中,除微博m中第i个位置上的特征外,所有其他特征的总计数。
根据上述后验分布,可以借助吉布斯采样技术从Markov链中获得采样样本,从而实现主题情感分布A,B,H与Z的近似。
(11)
(12)
(13)
(14)
对于一篇需要进行情感分析的微博,本发明根据分布H来判定该微博的情感极性,若,其中s1为积极情感,s2为消极情感,则判定微博m的情感极性为积极情感,反之为消极情感;通过对联合分布A进行关于微博情感变量s的边缘化来实现微博消息集隐含主题的检测。
性能评测
为了定量地分析MfJST模型的性能,本发明在三个不同的真实微博数据集进行实验,分别从情感分类准确率、主题提取、主题数对准确率的影响、表情符号对准确率的影响以及微博主题性格参数对准确率的影响等多方面进行分析。实验环境为:CPU为Intel(R)Core(TM)i7-2600,内存4G,OS为Windows7。
由于微博主题情感分析研究目前还处于萌芽状态,再加上诸如新浪、Twitter之类的微博平台处于隐私安全需要对其提供的微博服务加以各种不同限制条件,从而导致在科研上很少有用于实验比较的标准数据集。因此,本发明通过调用新浪微博API接口编写网络爬虫来构造实验数据集(见表2)。数据集(First-Ten、Mid-Ten与Last-Ten)分别是微博用户在持续时间段(2011/12/1-2011/12/10、2012/1/1-2012/1/10与2012/2/1-2012/2/10)发表的微博。在表2中,#Pos与#Neg分别是指积极情感与消极情感消息数,EM是指含有表情符号的消息数,EMP是指含有表情符号的积极情感消息数,AVL是指消息平均长度。
准确率分析
为了评价MfJST的微博情感识别能力,考虑到MfJST模型学习的无监督性,本发明将其与当前最具代表性的无监督情感学习模型(JST,SLDAandDPLDA)和基于SVM的有监督监督情感学习模型在3个数据集(First-Ten,Mid-Ten与Last-Ten)进行微博情感分类正确率ACC比较。通过独立同分布的随机抽样,对数据集(First-Ten,Mid-Ten与Last-Ten)分别构造8组实验数据集。实验结果分别见表2、表3与表4。由上述表可以看出:1)MfJST在数据集First-Ten,Mid-Ten与Last-Ten上的情感分类表现分别为最好(70.75%)、最差(66.81%)与次差(69.15%)。结合表2的统计结果(First-Ten,Mid-Ten与Last-Ten的表情符比率分别是50.66%,39.88%and45.65%),不难发现,数据集所含表情符的比例对MfJST的情感分类正确率有着重要影响;2)对比3个表的列(MJST,JST,SLDA和DPLDA),尤其是Avg行,可以发现MJST的微博情感分类正确率远高于其他3种非监督情感分类算法JST、SLDA和DPLDA;3)检测3个表中的最大ACC可以发现,所有最大的ACC都出现在SVM中,这说明SVM具有比其他非监督情感分类算法高的情感识别能力,而这正好与Pang等人的实验结论相吻合。尽管与SVM相比较,MfJST的情感分类能力存在着差距,但考虑到有标签微博情感训练数据的高昂代价,其差距还是可以接受的,尤其是在表情符比例较高的数据集中。
`
主题提取
MfJST的一个重要目标就是从微博数据集中提取主题。与LDA不同,MfJST在进行主题提取时需要考虑主题的情感极性。因此,本节从积极与消极两个情感面对抽取的主题展开分析,实验结果见表5。由该表可以看出,来自3个数据集中隐含主题紧凑且具有较好解释性。例如,在积极情感主题方面,从隐含在数据集First-Ten中的主题“中国,一个,问题,两,国家”可以看出,微博用户在讨论“一国两制”的话题,由隐含在数据集Mid-Ten中的主题“幸福,继续,朋友,准备,漂亮”可推知微博用户正在讨论诸如婚礼等庆典活动,而从数据集Last-Ten中的主题“人生,电影,警察”可知微博用户可能谈论成龙主演的电影《警察故事》,这些微博用户在对待“一国两制”制度、庆典活动与《警察故事》都表现出支持、欢喜与喜爱等积极情感态度。类似地,在消极情感主题方面,数据集First-Ten中的主题“北京,上海,工作”反映北京、上海等一线城市工作压力带来的不满等消极情绪,在数据集Mid-Ten中的主题“分享,图片,骗子”中微博用户表现出对网络欺诈等行为的痛恨,而数据集Last-Ten中的主题“饿,腐败,报道”体现网络民众对政府官员腐败的深恶痛绝。从上面分析可知,与传统主题提取模型LDA相比较,MfJST可以在微博消息集主题提取的同时进行主题情感倾向分析。
主题数对情感分类正确率的影响
由于MfJST可以同步进行微博消息集的主题检测与情感分析,因而有必要对情感分类与主题检测是如何相互作用进行探究。本节对主题数对情感分类准确率的影响展开实验分析,实验结果见图3、图4与图5。由图2可知,主题数在不同数据上对MfJST的情感分类能力的影响不同。具体来说,MfJST在如下情形下获得最高的情感分类正确率:主题数为30(First-Ten)、主题数为20(Second-Ten)与主题数为30(Last-Ten)。由此可见,不适当的主题粒度(主题数)会降低微博情感分类正确率。这可以从两个方面进行解释:一方面过低的主题数会使得MfJST弱化为完全忽略情感与主题相关性的LDA,从而情感分类正确率下降;另一方面过高的主题数使得一些广泛关注的完整主题碎片化从而出现噪声主题,这也会降低模型的情感分析能力。
与无监督情感分析模型(JST,SLDA和DPLDA)相比较,除了在少数情形下(主题数为10和80时的数据集Last-Ten),无论在单一主题还是在多主题数下,MfJST都体现出不同程度的优势。从这些观测可知,就微博主题情感同步建模性能而言,MfJST要远优于其他典型无监督主题情感分析模型。
表情符号比例对情感分类正确率的影响
在前面的实验结果中,可以观察到表情符号的利用会有效提升MfJST的主题情感建模能力,那么其二者之间的量化关联关系是怎样的呢?为了测度表情符号的利用程度,本发明提出表情符号比例指标(在一个实验微博消息集中,含有表情符号的消息所占比例),实验结果见图6。观察图6可知,在所有的实验数据集中,微博情感分类正确率在表情符号比例为0时最低,而在100%时最高。从情感分类正确率的变化趋势来看,尽管在不同数据集中,情感分类正确率随表情符号比例增加而提高的程度不同,但从整体上看,而MfJST的情感分类正确率与数据集表情符号比例是呈线性正相关的。
性格值对情感分类准确率的影响
MfJST模型的一个重要特点就是在微博消息情感推理过程中加入了博主性格因素。本发明分析了性格参数对情感分类准确率的影响。实验结果见图7。从图7可以看出,尽管在不同数据集中,性格参数对情感分类准确率的提升存在着差异,但整体上都会使情感分类准确率提高3-4个百分点。由此可见,引入博主性格因素对提升模型的微博情感分析能力有着积极意义。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (3)
1.一种基于混杂特征计算的微博主题情感分析方法,其特征在于,包括以下步骤:
步骤1、微博数据预处理:应用中文分词、英文词根化、表情符提取技术提取微博特征,包括词语和表情符,并利用先验知识对微博特征的情感和主题进行初始赋值;
步骤2、算法参数初始化:随机初始化联合分布A(m,s,t)、B(s,t,w)、Z(s,t,e)和H(m,s),分布A的超参数α,分布B的超参数β,分布H的超参数η和分布Z的超参数ζ,微博用户性格分布矩阵US,其中m、s、t、w和e分别表示微博消息变量、微博情感变量、微博主题变量、词语变量和表情符变量;
步骤3、利用吉布斯采样技术对多特征主题情感模型MfJST的参数的联合分布A和H进行估值;
步骤4、通过判断每条微博m的情感极性,表示微博m中情感极性s出现的概率:对于微博m,若,其中s1为积极情感,s2为消极情感,则判定微博m的情感极性为积极情感,反之为消极情感;通过对联合分布A进行关于微博情感变量s的边缘化来实现微博消息隐含主题的检测。
2.根据权利要求1所述的一种基于混杂特征计算的微博主题情感分析方法,其特征在于,所述多特征主题情感模型MfJST的建立方法为:
A1、利用以α为参数的狄利克雷分布函数随机生成(微博,情感,主题)先验分布;
A2、利用以β为参数的狄利克雷分布函数随机生成(情感,主题,词语)先验概率分布;
A3、利用以ζ为参数的狄利克雷分布函数随机生成(情感,主题,表情符)先验概率分布;
A4、利用以γ为参数的狄利克雷分布函数随机生成(微博-情感)先验分布;
A5、重复如下方法直到生成一条微博中的所有特征,包括词语和表情符:对一条微博首先利用(微博-情感)先验分布生成一个情感标签s,然后情感标签s从(微博,情感,主题)先验分布生成一个主题标签t,最后根据选出的情感标签s和主题标签t,通过比较随机概率rand与情感标签词语比例PROB的方式产生词语w和表情符e:若rand大于PROB,则从(情感,主题,词语)先验概率分布产生词语w,否则从(情感,主题,表情符)先验概率分布产生表情符e;
A6、重复步骤A5,直到微博数据集中的所有微博生成完毕。
3.根据权利要求1所述的一种基于混杂特征计算的微博主题情感分析方法,其特征在于,所述多特征主题情感模型MfJST参数的估值方法为:
B1、循环控制参数MaxIter置零;
B2、对每条微博m的每个特征,包括词语w和表情符e执行操作序列:从变量集中排除具有情感s和主题t的词语w;从变量集中排除具有情感s和主题t的词语e;其中ns,t,w表示在微博集合C中,除微博m中当前位置上的元素外,词语w同时属于主题t和情感极性s的频数,nm,s,t表示在微博m中,除微博m中当前位置上的特征外,具有主题t和情感极性s的特征总计数,ns,t表示在微博集合C中,除微博m中当前位置上的特征外,所有其他具有主题t和情感极性s的词语总计数,nm,s表示表示在微博m中,除微博m中当前位置上的特征外,具有情感极性s的特征总计数,nm表示在微博m中,除微博m中当前位置上的特征外,所有其他特征的总计数,ps,t,e表示在微博集合C中,除微博m中当前位置上的特征外,表情符e同时属于主题t和情感极性s的频数,ps,t表示在微博集合C中,除微博m中当前位置上的特征外,所有其他具有主题t和情感极性s的表情符总计数,nm表示在微博m中,除微博m中当前位置上的特征外,所有其他特征的总计数;
根据条件分布和分别为w和e构造新的情感主题对(snew,tnew);运用情感标签snew和主题标签tnew更新VarSet1和VarSet2,然后更新性格参数λ;其中,和分别表示除了微博m中的第i个位置的词语外,其他所有词语的主题向量和情感向量;和分别表示除了微博m中的第i个位置的表情符外,其他所有表情符的主题向量和情感向量;
B3、循环控制参数MaxIter加1;
B4、每k次迭代运用新采样结果对分布A、B、H和Z更新1次;
B5、重复步骤B2、B3和B4,直到MaxIter达到设定最大迭代次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610020251.5A CN105701210A (zh) | 2016-01-13 | 2016-01-13 | 一种基于混杂特征计算的微博主题情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610020251.5A CN105701210A (zh) | 2016-01-13 | 2016-01-13 | 一种基于混杂特征计算的微博主题情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105701210A true CN105701210A (zh) | 2016-06-22 |
Family
ID=56227209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610020251.5A Pending CN105701210A (zh) | 2016-01-13 | 2016-01-13 | 一种基于混杂特征计算的微博主题情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105701210A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502983A (zh) * | 2016-10-17 | 2017-03-15 | 清华大学 | 隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法 |
CN107357785A (zh) * | 2017-07-05 | 2017-11-17 | 浙江工商大学 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
CN107423282A (zh) * | 2017-05-24 | 2017-12-01 | 南京大学 | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 |
CN107679580A (zh) * | 2017-10-21 | 2018-02-09 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN107886442A (zh) * | 2017-11-28 | 2018-04-06 | 合肥工业大学 | 基于微博文本的公众情感分布建模方法及装置 |
CN107895303A (zh) * | 2017-11-15 | 2018-04-10 | 电子科技大学 | 一种基于ocean模型的个性化推荐的方法 |
CN108009297A (zh) * | 2017-12-27 | 2018-05-08 | 广州市云润大数据服务有限公司 | 基于自然语言处理的文本情感分析方法与系统 |
CN108021864A (zh) * | 2017-11-02 | 2018-05-11 | 平安科技(深圳)有限公司 | 人物性格分析方法、装置及存储介质 |
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取系统及方法 |
CN108509418A (zh) * | 2018-03-20 | 2018-09-07 | 合肥工业大学 | 基于对话内容的用户异常情绪检测方法 |
CN109284381A (zh) * | 2018-09-27 | 2019-01-29 | 南通大学 | 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 |
CN110096575A (zh) * | 2019-03-25 | 2019-08-06 | 国家计算机网络与信息安全管理中心 | 面向微博用户的心理画像方法 |
CN111859979A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺文本协同识别方法、装置、设备及计算机可读介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991956A (zh) * | 2015-07-21 | 2015-10-21 | 中国人民解放军信息工程大学 | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 |
-
2016
- 2016-01-13 CN CN201610020251.5A patent/CN105701210A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991956A (zh) * | 2015-07-21 | 2015-10-21 | 中国人民解放军信息工程大学 | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 |
Non-Patent Citations (2)
Title |
---|
M ZHENG等: ""Topic sentiment trend model: Modeling facets and sentiment dynamics"", 《IEEE INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND AUTOMATION ENGINEERING》 * |
欧阳继红等: ""基于LDA的多粒度主题情感混合模型"", 《电子学报》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502983B (zh) * | 2016-10-17 | 2019-05-10 | 清华大学 | 隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法 |
CN106502983A (zh) * | 2016-10-17 | 2017-03-15 | 清华大学 | 隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法 |
CN107423282A (zh) * | 2017-05-24 | 2017-12-01 | 南京大学 | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 |
CN107423282B (zh) * | 2017-05-24 | 2020-07-28 | 南京大学 | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 |
CN107357785A (zh) * | 2017-07-05 | 2017-11-17 | 浙江工商大学 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
CN107679580A (zh) * | 2017-10-21 | 2018-02-09 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN107679580B (zh) * | 2017-10-21 | 2020-12-01 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN108021864A (zh) * | 2017-11-02 | 2018-05-11 | 平安科技(深圳)有限公司 | 人物性格分析方法、装置及存储介质 |
CN107895303A (zh) * | 2017-11-15 | 2018-04-10 | 电子科技大学 | 一种基于ocean模型的个性化推荐的方法 |
CN107886442A (zh) * | 2017-11-28 | 2018-04-06 | 合肥工业大学 | 基于微博文本的公众情感分布建模方法及装置 |
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取系统及方法 |
CN108009297B (zh) * | 2017-12-27 | 2020-09-04 | 云润大数据服务有限公司 | 基于自然语言处理的文本情感分析方法与系统 |
CN108009297A (zh) * | 2017-12-27 | 2018-05-08 | 广州市云润大数据服务有限公司 | 基于自然语言处理的文本情感分析方法与系统 |
CN108509418A (zh) * | 2018-03-20 | 2018-09-07 | 合肥工业大学 | 基于对话内容的用户异常情绪检测方法 |
CN109284381A (zh) * | 2018-09-27 | 2019-01-29 | 南通大学 | 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 |
CN109284381B (zh) * | 2018-09-27 | 2023-12-08 | 南通大学 | 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 |
CN110096575A (zh) * | 2019-03-25 | 2019-08-06 | 国家计算机网络与信息安全管理中心 | 面向微博用户的心理画像方法 |
CN111859979A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺文本协同识别方法、装置、设备及计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701210A (zh) | 一种基于混杂特征计算的微博主题情感分析方法 | |
Lin et al. | Discovering new intents via constrained deep adaptive clustering with cluster refinement | |
Huang et al. | Multimodal learning for topic sentiment analysis in microblogging | |
Chen et al. | Structure-aware abstractive conversation summarization via discourse and action graphs | |
Ren et al. | Sarcasm detection with sentiment semantics enhanced multi-level memory network | |
CN106407178B (zh) | 一种会话摘要生成方法、装置、服务器设备以及终端设备 | |
Zhou et al. | Answer sequence learning with neural networks for answer selection in community question answering | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN112699240A (zh) | 中文情感特征词智能动态发掘和归类方法 | |
CN110188200A (zh) | 一种使用社交上下文特征的深度微博情感分析方法 | |
Boukabous et al. | A comparative study of deep learning based language representation learning models | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN114462385A (zh) | 一种文本分段方法及装置 | |
Katyayan et al. | Sarcasm detection approaches for English language | |
CN104484437A (zh) | 一种网络短评情感挖掘方法 | |
Zhang et al. | Local-global graph pooling via mutual information maximization for video-paragraph retrieval | |
CN104978308A (zh) | 一种微博主题情感演化分析方法 | |
Yang | Deep Markov neural network for sequential data classification | |
Tammewar et al. | Emotion carrier recognition from personal narratives | |
Hu et al. | Emotion prediction oriented method with multiple supervisions for emotion-cause pair extraction | |
Ireland et al. | Sentimental analysis for AIML-based e-health conversational agents | |
Siddique et al. | GlobalTrait: Personality alignment of multilingual word embeddings | |
Sharma et al. | Personality prediction of Twitter users with logistic regression classifier learned using stochastic gradient descent | |
Ling | Coronavirus public sentiment analysis with BERT deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160622 |