CN109284381B - 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 - Google Patents
融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 Download PDFInfo
- Publication number
- CN109284381B CN109284381B CN201811134055.6A CN201811134055A CN109284381B CN 109284381 B CN109284381 B CN 109284381B CN 201811134055 A CN201811134055 A CN 201811134055A CN 109284381 B CN109284381 B CN 109284381B
- Authority
- CN
- China
- Prior art keywords
- emotion
- microblog
- comments
- comment
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000005065 mining Methods 0.000 title claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 230000003595 spectral effect Effects 0.000 claims abstract description 10
- 230000008451 emotion Effects 0.000 claims description 307
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000009412 basement excavation Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法为:首先计算原创微博及评论中名词之间的相似度矩阵,利用谱聚类算法得到与原创微博提到的方面相关的显式方面集与隐式方面集;然后构建融合表情符号库和主题模型的方面观点褒贬态度挖掘模型,并进行参数估计;最后结合观点挖掘模型和显式、隐式方面集对微博评论进行褒贬态度分析,得到每条用户评论对原创微博内容的褒贬态度倾向。本发明将主题模型与表情符号库相融合应用到微博原创内容下用户评论的方面观点挖掘和褒贬态度分析,同时结合与原创微博方面相关的显式方面以及存在于评论中的隐式方面,以更好获取评论用户对原创微博的褒贬态度,提高对评论集整体的褒贬态度倾向的判断。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种融合表情符号库和主题模型的方面观点褒贬态度挖掘方法。
背景技术
微博2.0是最受欢迎的应用之一,它给予用户更自由、更快捷的方式来沟通信息、表达观点、记录心情,使得新浪微博每日更新的信息数据非常庞大,增加了微博内容的方面及基于方面的观点挖掘的难度。近年来,以LDA为基础的主题模型能有效地避免传统无监督学习方法依赖情感词典的缺点,达到较好的挖掘效果。
新浪微博中,每条原创微博下存在很多用户评论。有些用户表达自己对原创微博内容的褒贬态度倾向,有些用户则是阅读过原创微博内容后有感而发,写下表达自己个人观点的评论。这些评论反映了原创微博的内容,用户的褒贬态度和一些相关的话题。因此,对这些评论进行方面观点的提取和褒贬态度的挖掘是很有必要的,因此,对原创微博及其评论集进行方面观点的提取和褒贬态度的挖掘是很有必要的。事实上,微博评论提供的细粒度的信息同样会受到广大用户阅读时的重点关注,同时也更加值得研究者们进一步去挖掘、分析与总结。因此,面对新浪微博中海量的原创微博及其评论信息,需要一种能够自动对微博评论数据进行方面观点挖掘的方法来挖掘和分析评论中细粒度信息,这样才能使得用户更快速、更准确地了解原创微博的内容。
若是将评论情感分析的结果,作为判别评论用户对原创微博的褒贬态度倾向的依据,会造成很大的误差。其次,用户在评论的过程中喜欢选择表情符号来增强自己的情感或是营造出一种情感氛围,表情符号包含着丰富的情感信息。只是依靠文本内容,而忽略表情符号的情感,很有可能产生对该评论的褒贬态度倾向的误判。
发明内容
本发明目的在于克服上述背景技术的不足,公开一种融合表情符号库和主题模型的方面观点挖掘褒贬态度挖掘方法,本发明将主题模型与表情符号库相融合应用到微博原创内容下用户评论的方面观点挖掘和褒贬态度分析,同时结合谱聚类算法得到的与原创微博方面相关的显式方面集以及存在与评论中的隐式方面集,以更好获取基于不同方面的评论用户褒贬态度,具体由以下技术方案实现:
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,包括如下步骤:
步骤1)对原创微博内容及评论进行预处理,提取评论语句的当中的名词和名词短语作为该评论的方面,提取形容词及形容词短语、动词及动词短语作为基于方面的观点词语信息,计算原创微博及评论中的方面之间的相似度矩阵,通过谱聚类算法得到与原创微博方面相关的显式方面集与与原创微博方面不相关的隐式方面集;
步骤2)构建融合表情符号库与主题模型的方面观点褒贬态度的挖掘模型MAOEC,通过MAOEC模型产生微博评论集,并用吉布斯采样方法进行参数估计,得到 MAOEC模型的参数分布;
步骤3)结合显式方面集、隐式方面集以及MAOEC模型的参数分布对微博评论进行褒贬态度分析,得到每条用户评论对原创微博内容的褒贬态度倾向。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,所述步骤1)中的所述预处理为:基于中科院NLPIR汉语分词系统,对原创微博的内容及评论进行分词和词性标注,保留名词及名词短语、动词及动词短语、形容词及形容词短语以及表情符号的文本描述,并且去除停用词。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,所述显式方面集表示与原创微博方面相关的评论方面的集合;所述隐式方面集表示存在于评论当中的与原创微博方面不相关的集合。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,步骤1)中通过谱聚类算法得到与原创微博方面相关的显式方面集和与原创微博方面不相关的隐式方面集,具体包括如下步骤:
步骤2-1)计算方面数n,设置簇的数目k;
步骤2-2)使用杰卡德相似系数计算名方面之间的字符相似度,使用余弦相似度计算方面之间的情景相似度,结合字符相似度与情景相似度的值求的方面之间的相似度矩阵W与度矩阵D;
步骤2-3)根据式(1)计算正则拉普拉斯矩阵Lrw;
Lrw=D-1(D-W) (1)
步骤2-4)计算Lrw的前k个特征向量u1,u2,...,uk,将这k个列向量组成矩阵U,U 是一个n行k列的矩阵;
步骤2-5)对于i=1,2,...,n,设定yi∈Rk是U的第i行的列向量,通过k-means 算法将(yi)i=1,2,...,n聚类成簇c1,c2,...,ck,输出簇A1,A2,...,Ak,其中 Ai={j|yj∈Ci};
步骤2-6)基于步骤2-5)得到的结果,将与原创微博方面相关的其他方面簇加入显式方面集,否则加入隐式方面集。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,步骤2)中所述挖掘模型在MAOEC通过主题模型LDA;参数估计中的参数分布包括:微博评论-表情符号分布,(微博评论,表情符号情感)-文本情感分布,(微博评论,表情符号情感,文本情感)-主题分布以及(表情符号情感,文本情感,主题)-词语分布。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,所述步骤2)中所述MAOEC模型产生微博评论集S={s1,s2,...,sM}的具体步骤如下:
步骤2-a)初始化MAOEC的分布:微博评论-表情符号情感分布V,(微博评论,表情符号情感)-文本情感分布E,(微博评论,表情符号情感,文本情感)-主题分布A与(表情符号情感,文本情感,主题)-词语分布B;
步骤2-b)MAOEC模型概率生成评论集S的过程为:首先,从微博评论-表情符号情感分布V中选择表情符号情感q,V服从参数为μ的Dirichlet分布;接着从 (微博评论,表情符号情感)-文本情感分布E中选择情感e,E服从参数为λ的Dirichlet分布;根据(微博评论,表情符号情感,文本情感)-主题分布A选出主题t,A服从参数为α的Dirichlet分布;最后,从(表情符号情感,文本情感,主题)-词语分布B选出单词w,B服从参数为β的Dirichlet分布。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,步骤2-a)包括如下步骤:
步骤2-a-1)采用吉布斯采样方法计算词语w、表情符号情感q、文本情感e与主题t的后验分布,如式(2):
其中,表示除了当前词语,所有微博评论中词语w同时属于表情符号情感q、文本情感极性e、主题t的频数;{nq,e,t}-i表示除了当前词语,所有微博评论中属于表情符号情感q、文本情感e、主题t的词语的总频数;/>表示除了当前词语,第m句微博评论中,主题为t的词语同时属于表情符号情感情q、文本情感e的频数,{nm,q,e}-i表示除了当前词语,第m句微博评论中,属于表情符号情感q、文本情感e的词语的总频数;/>表示除了当前词语,第m句微博评论中,文本情感极性为e的词语属于表情符号情感为q的频数,{nm,q}-i表示除了当前词语,第m句微博评论中,属于表情符号情感为q的词语的总频数;表示除了当前词语,第m句微博评论中,表情符号情感q的频数,{nm}-i表示除了当前词语,第m句微博评论总词语数。
步骤2-a-2)基于步骤2-a-1)得到的后验分布,通过吉布斯采样方法实现微博评论-表情符号情感分布V,(微博评论,表情符号情感)-文本情感分布E,(微博评论,表情符号情感,文本情感)-主题分布A与(表情符号情感,文本情感,主题)-词语分布B的估计,结果对应地如式(3)、式(4)、式(5)以及式(6):
其中,表示微博评论中词语w同时属于表情符号情感q、文本情感e、主题t 的概率,/>表示微博评论sm中主题t属于表情符号情感q、文本情感e的概率,/>表示微博评论sm中,文本情感e属于表情符号情感q的概率,/>表示微博评论sm中,表情符号情感q的出现的概率。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,步骤3)中褒贬态度分析具体为:如果评论的方面存在于隐式方面集当中,则不考虑该评论的褒贬态度倾向;如果存在表情符号,则按照表情符号的情感进行褒贬态度的分类;如果不存在表情符号,按照评论文本部分的情感极性判定:情感极性为积极的评论为褒义态度评论,情感极性为消极的评论为贬义态度评论。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,定义的评论的文本部分与表情符号情感部分的情感极性判别过程为:
根据式(3)计算根据计算结果判断第m条评论表情符号情感的情感极性,如果其中1为积极情感,0为消极情感,则表情符号情感带有的情感为消极;反之表情符号情感情感为积极情感;
根据式(4)计算根据计算结果判断第m条评论文本的情感极性,如果则判断为文本为消极情感;反之则为积极情感。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,MAOEC模型的先验包括:
词语情感先验,在初始阶段赋予微博评论词库里的每一个词语情感值;具体为:基于HowNet的正面、负面情感词语、正面、负面评价词语以及NTUSD的正面、负面情感词语,得到正面情感词语语料库与负面情感词语语料库,对于微博评论词库中的每一个词语,如果该词语存在于语料库中,则直接赋予相应的情感值,否则根据《情感词发现与极性权重自动计算算法研究》提到方法计算词语的情感权重值,根据权重值对词语的情感进行赋值;
表情符号情感先验,根据已掌握的表情符号情感的情感极性,对出现在微博评论中的每一个表情符号情感的初始情感进行赋值;具体为:基于《Building EmotionalCorpus for Microblogging Emoticons》中68个表情符号情感极性,对微博评论中出现的表情符号,若存在于已知的情感极性的情感语料库中,直接赋予相应的情感值,否则随机的赋予情感值。本发明的优点如下:
本发明的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法将主题模型与表情符号库相融合应用到微博原创内容下用户评论的方面观点挖掘和褒贬态度分析,同时结合谱聚类算法得到的与原创微博方面相关的显式方面以及存在于评论中的隐式方面,以更好获取基于不同方面的评论用户褒贬态度,提高对评论的褒贬态度误判的准确性。
本发明提出针对微博评论集的方面观点褒贬态度挖掘方法。提取评论语句中的名词和名词短语作为该评论的方面信息,提取形容词及形容词短语、动词及动词短语作为基于方面的观点词语信息。计算原创微博的方面及评论中的方面之间的相似度矩阵,通过谱聚类算法得到与原创微博方面相关的显式方面集和与原创微博方面不相关的隐式方面集;
将表情符号情感层与文本情感层融入到LDA主题模型当中,得到新模型 MAOEC。该模型可以实现方面观点与褒贬态度的同步推导。当评论的方面存在于隐式方面集当中时,则不对其进行褒贬态度倾向的判别;若不存在,则对评论进行褒贬态度倾向的挖掘。如果存在表情符号,则按照表情符号的情感进行褒贬态度的判别。如果不存在表情符号,则按照文本情感极性判别评论的褒贬态度倾向。
此外,通过聚类得到的隐式方面集,为用户有感而发提到的方面信息。这部分信息能为话题的推送,微博见的相似度研究提供了丰富的信息。
附图说明
图1是本发明融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的基本框架图。
图2是MAOEC模型的概率图。
具体实施方式
下面结合附图对本申请技术方案进一步说明。
如图1,本实施例的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,包括如下步骤:
步骤1)对原创微博内容及评论进行预处理,计算原创微博及评论中的方面之间的相似度矩阵,通过谱聚类算法得到与原创微博方面相关的显式方面集与与原创微博方面不相关的隐式方面集。方面是观点挖掘技术中专业术语,指评论中的最细粒度的评价对象。本实施例将方面观点的概念引入到新浪微博评论中,提取评论语句的当中的名词和名词短语作为该评论的方面,提取形容词及形容词短语、动词及动词短语作为基于方面的观点词语。
步骤2)构建融合表情符号库与主题模型的方面观点褒贬态度的挖掘模型 MAOEC(Mining Aspect-Based Opinion based on Emoticon Corpus),通过 MAOEC模型产生微博评论集,并用吉布斯采样方法进行参数估计,得到MAOEC 模型的参数分布。
步骤3)结合显式方面集、隐式方面集以及MAOEC模型的参数分布对微博评论进行褒贬态度分析,得到每条用户评论对原创微博内容的褒贬态度倾向。
步骤1)中的预处理为:基于中科院NLPIR汉语分词系统,对原创微博的内容及评论进行分词和词性标注,保留名词及名词短语、动词及动词短语、形容词及形容词短语以及表情符号的文本描述,并且去除停用词。
进一步的,显式方面集表示与原创微博方面相关的评论方面的集合;所述隐式方面集表示存在于评论当中的与原创微博方面不相关的集合。显式方面集和隐式方面集的构建为:根据原创微博的方面,通过谱聚类的方法将评论中的方面集对应地分为:显式方面集合与隐式方面集合。其中:谱聚类需要的方面数n,由原创微博内容及评论部分的名词(名词短语)词典大小决定;簇的数目k,由原创微博内容的名词 (名词短语)词典大小决定,具体包括如下步骤:
步骤2-1)计算方面数n,设置簇的数目k;
步骤2-2)使用杰卡德相似系数计算方面之间的字符相似度,使用余弦相似度计算名词短语之间的情景相似度,结合情景相似度相似度与字符相似度的值求得方面之间的相似度矩阵W与度矩阵D;
步骤2-3)根据式(1)计算正则拉普拉斯矩阵Lrw;
Lrw=D-1(D-W) (1)
步骤2-4)计算Lrw的前k个特征向量u1,u2,...,uk,将这k个列向量组成矩阵U,U 是一个n行k列的矩阵;
步骤2-5)对于i=1,2,...,n,设定yi∈Rk是U的第i行的列向量,通过k-means 算法将(yi)i=1,2,...,n聚类成簇c1,c2,...,ck,输出簇A1,A2,...,Ak,其中 Ai={j|yj∈Ci};
步骤2-6)基于步骤2-5)得到的结果,将与原创微博方面相关的其他方面簇加入显式方面集,否则加入隐式方面集。
如图2,步骤2)中挖掘模型在MAOEC通过主题模型LDA领域人员熟知。的基础上上嵌入表情符号层与情感层构建;参数估计中的参数分布包括:微博评论-表情符号情感分布,(微博评论,表情符号情感)-文本情感分布,(微博评论,表情符号情感,文本情感)-主题分布以及(表情符号情感,文本情感,主题)- 词语分布。
步骤2)中所述MAOEC模型产生微博评论集S={s1,s2,...,sM},得到 MAOEC模型的参数分布的具体步骤如下:
步骤2-a)初始化MAOEC的分布:微博评论-表情符号情感分布V,(微博评论,表情符号情感)-文本情感分布E,(微博评论,表情符号情感,文本情感)-主题分布A与(表情符号情感,文本情感,主题)-词语分布B;
步骤2-b)MAOEC模型概率生成评论集S的过程为:首先,从微博评论-表情符号情感分布V中选择表情符号情感q,V服从参数为μ的Dirichlet分布;接着从 (微博评论,表情符号情感)-文本情感分布E中选择情感e,E服从参数为λ的 Dirichlet分布;根据(微博评论,表情符号情感,文本情感)-主题分布A选出主题t,A服从参数为α的Dirichlet分布;最后,从(表情符号情感,文本情感,主题)-词语分布B选出单词w,w服从参数为β的Dirichlet分布。
进一步的,步骤2-a)包括如下步骤:
步骤2-a-1)采用吉布斯采样方法的方法计算词语w、表情符号情感q、文本情感e与主题t的后验分布,如式(2):
其中,表示除了当前词语,所有微博评论中词语w同时属于表情符号情感q、文本情感e、主题t的频数;{nq,e,t}-i表示除了当前词语,所有微博评论中属于表情符号情感q、文本情感e、主题t的词语的总频数;/>表示除了当前词语,第m句微博评论中,主题为t的词语同时属于表情符号情感q、文本情感e的频数,{nm,q,e}-i表示除了当前词语,第m句微博评论中,属于表情符号情感q、文本情感e的词语的总频数;/>表示除了当前词语,第m句微博评论中,文本情感为e的词语属于表情符号情感为q的频数,{nm,q}-i表示除了当前词语,第m句微博评论中,属于表情符号情感为q的词语的总频数;/>表示除了当前词语,第m句微博评论中,表情符号情感为q的频数,{nm}-i表示除了当前词语,第m句微博评论总词语数。
步骤2-a-2)基于步骤2-a-1)得到的后验分布,通过吉布斯采样方法实现微博评论-表情符号情感分布V,(微博评论,表情符号情感)-文本情感分布E,(微博评论,表情符号情感,文本情感)-主题分布A与(表情符号情感,文本情感,主题)-词语分布B的估计,结果对应地如式(3)、式(4)、式(5)以及式(6):
其中,表示微博评论中词语w同时属于表情符号情感q、文本情感e、主题t 的概率,/>表示微博评论sm中主题t属于表情符号情感q、文本情感e的概率,/>表示微博评论sm中,文本情感e属于表情符号情感q的概率,/>表示微博评论sm中,表情符号情感q的出现的概率。
本实施例中,MAOEC模型的参数设置如下:迭代次数为1000次,当大于800 次时,每50次更新一次分布;MAOEC模型初始参数如下:α=0.1,β=0.01,μ=0.25,λ=0.33初始化微博评论词库里的词语的情感极性与表情符号的情感极性。
步骤3)中褒贬态度分析具体为:如果评论的方面存在于隐式方面集当中,则不考虑该评论的褒贬态度倾向。如果存在表情符号,则按照表情符号的情感进行褒贬态度的分类;如果不存在表情符号,按照评论文本部分的情感极性判定:情感极性为积极的评论为褒义态度评论,情感极性为消极的评论为贬义态度评论。
本实施例中MAOEC模型的先验包括:词语情感先验与表情符号先验。具体为:
词语情感先验,在初始阶段赋予微博评论词库里的每一个词语情感值;具体为:基于HowNet的正面、负面情感词语、正面、负面评价词语以及NTUSD的正面、负面情感词语,得到正面情感词语语料库与负面情感词语语料库,对于微博评论词库中的每一个词语,如果该词语存在于语料库中,则直接赋予相应的情感值,否则根据《情感词发现与极性权重自动计算算法研究》提到方法计算词语的情感权重值,根据权重值对词语的情感进行赋值。
表情符号先验,根据已掌握的表情符号的情感极性,对出现在微博评论中的每一个表情符号的初始情感进行赋值;具体为:基于《Building Emotional Corpus forMicroblogging Emoticons》中68个表情符号情感极性,对微博评论中出现的表情符号,若存在于已知的情感极性的情感语料库中,直接赋予相应的情感值,否则随机的赋予情感值。
定义的评论的文本部分与表情符号部分的情感极性判别过程为:
根据式(3)计算根据计算结果判断第m条评论表情符号的情感极性,如果其中1为积极情感,0为消极情感,则表情符号带有的情感为消极;反之表情符号情感为积极情感。
根据式(4)计算根据计算结果判断第m条评论文本的情感极性,如果则判断为文本为消极情感;反之则为积极情感。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (3)
1.一种融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于包括如下步骤:
步骤1)对原创微博内容及评论进行预处理,提取评论语句当中的名词和名词短语作为该评论的方面,提取形容词及形容词短语、动词及动词短语作为基于方面的观点词语信息,计算原创微博及评论中的方面之间的相似度矩阵,通过谱聚类算法得到与原创微博方面相关的显式方面集与与原创微博方面不相关的隐式方面集;
步骤2)构建融合表情符号库与主题模型的方面观点褒贬态度的挖掘模型MAOEC,通过MAOEC模型产生微博评论集,并用吉布斯采样方法进行参数估计,得到MAOEC模型的参数分布;
步骤3)结合显式方面集、隐式方面集以及MAOEC模型的参数分布对微博评论进行褒贬态度分析,得到每条用户评论对原创微博内容的褒贬态度倾向;
所述显式方面集表示与原创微博方面相关的评论方面的集合;所述隐式方面集表示存在于评论当中的与原创微博方面不相关的集合;
步骤1)中通过谱聚类算法得到与原创微博方面相关的显式方面集和与原创微博方面不相关的隐式方面集,具体包括如下步骤:
步骤2-1)计算方面数n,设置簇的数目k;
步骤2-2)使用杰卡德相似系数计算各方面之间的字符相似度,使用余弦相似度计算方面之间的情景相似度,结合字符相似度与情景相似度的值求得方面之间的相似度矩阵W与矩阵D;
步骤2-3)根据式(1)计算正则拉普拉斯矩阵Lrw;
Lrw=D-1(D-W) (1)
步骤2-4)计算Lrw的前k个特征向量u1,u2,...,uk,将这k个列向量组成矩阵U,U是一个n行k列的矩阵;
步骤2-5)对于i=1,2,...,n,设定yi∈Rk是U的第i行的行向量,通过k-means算法将yi聚类成簇c1,c2,...,ck,输出簇A1,A2,...,Ak,其中Ai={j|yj∈ci};
步骤2-6)基于步骤2-5)得到的结果,将与原创微博方面相关的簇加入显式方面集,否则加入隐式方面集;
步骤2)中所述挖掘模型MAOEC通过主题模型LDA的基础上嵌入表情符号情感层与文本情感层构建;所述参数估计中的参数分布包括:微博评论-表情符号分布,(微博评论,表情符号情感)-文本情感分布,(微博评论,表情符号情感,文本情感)-主题分布以及(表情符号情感,文本情感,主题)-词语分布;
所述步骤2)中所述挖掘模型MAOEC产生微博评论集S={s1,s2,...,sM}的具体步骤如下:
步骤2-a)初始化挖掘模型MAOEC的分布:微博评论-表情符号情感分布V,(微博评论,表情符号情感)-文本情感分布E,(微博评论,表情符号情感,文本情感)-主题分布A与(表情符号情感,文本情感,主题)-词语分布B;
步骤2-b)挖掘模型MAOEC概率生成评论集S的过程为:首先,从微博评论-表情符号情感分布V中选择表情符号情感q,V服从参数为μ的Dirichlet分布;接着从(微博评论,表情符号情感)-文本情感分布E中选择文本情感e,E服从参数为λ的Dirichlet分布;根据(微博评论,表情符号情感,文本情感)-主题分布A选出主题t,A服从参数为α的Dirichlet分布;最后,从(表情符号情感,文本情感,主题)-词语分布B选出词语w,B服从参数为β的Dirichlet分布;
步骤2-a)包括如下步骤:
步骤2-a-1)采用吉布斯采样方法计算词语w、表情符号情感q、文本情感e与主题t的后验分布,如式(2):
其中,表示除了当前词语,所有微博评论中词语w同时属于表情符号情感q、文本情感e、主题t的频数;{nq,e,t}-i表示除了当前词语,所有微博评论中属于表情符号情感q、文本情感e、主题t的词语的总频数;/>表示除了当前词语,第m句微博评论中,主题为t的词语同时属于表情符号情感情q、文本情感e的频数,/>表示除了当前词语,第m句微博评论中,属于表情符号情感q、文本情感e的词语的总频数;/>表示除了当前词语,第m句微博评论中,文本情感为e的词语属于表情符号情感为q的频数,{nm,q}-i表示除了当前词语,第m句微博评论中,属于表情符号情感为q的词语的总频数;/>表示除了当前词语,第m句微博评论中,表情符号情感q的频数,{nm}-i表示除了当前词语,第m句微博评论总词语数;
步骤2-a-2)基于步骤2-a-1)得到的后验分布,通过吉布斯采样方法实现微博评论-表情符号情感分布V,(微博评论,表情符号情感)-文本情感分布E,(微博评论,表情符号情感,文本情感)-主题分布A与(表情符号情感,文本情感,主题)-词语分布B的估计,结果对应地如式(3)、式(4)、式(5)以及式(6):
其中,表示微博评论中词语w同时属于表情符号情感q、文本情感e、主题t的概率,表示微博评论sm中主题t属于表情符号情感q、文本情感e的概率,/>表示微博评论sm中,文本情感e属于表情符号情感q的概率,/>表示微博评论sm中,表情符号情感q的出现的概率;
步骤3)中褒贬态度分析具体为:如果评论的方面存在于隐式方面集当中,则不考虑该评论的褒贬态度倾向;如果存在表情符号,则按照表情符号的情感进行褒贬态度的分类;如果不存在表情符号,按照评论文本部分的情感极性判定:情感极性为积极的评论为褒义态度评论,情感极性为消极的评论为贬义态度评论;
定义的评论的文本部分与表情符号情感部分的情感极性判别过程为:
根据式(3)计算根据计算结果判断第m条评论表情符号情感的情感极性,如果其中1为积极情感,0为消极情感,则表情符号情感带有的情感为消极;反之表情符号情感情感为积极情感;
根据式(4)计算根据计算结果判断第m条评论文本的情感极性,如果/>则判断为文本为消极情感;反之则为积极情感。
2.根据权利要求1所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于所述步骤1)中的所述预处理为:基于中科院NLPIR汉语分词系统,对原创微博的内容及评论进行分词和词性标注,保留名词及名词短语、动词及动词短语、形容词及形容词短语以及表情符号的文本描述,并且去除停用词。
3.根据权利要求1所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于MAOEC模型的先验包括:
词语情感先验,在初始阶段赋予微博评论词库里的每一个词语情感值;具体为:基于HowNet的正面、负面情感词语、正面、负面评价词语以及NTUSD的正面、负面情感词语,得到正面情感词语语料库与负面情感词语语料库,对于微博评论词库中的每一个词语,如果该词语存在于语料库中,则直接赋予相应的情感值,否则根据《情感词发现与极性权重自动计算算法研究》提到方法计算词语的情感权重值,根据权重值对词语的情感进行赋值;
表情符号情感先验,根据已掌握的表情符号情感的情感极性,对出现在微博评论中的每一个表情符号情感的初始情感进行赋值;具体为:基于《Building Emotional Corpusfor Microblogging Emoticons》中68个表情符号情感极性,对微博评论中出现的表情符号,若存在于已知的情感极性的情感语料库中,直接赋予相应的情感值,否则随机的赋予情感值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811134055.6A CN109284381B (zh) | 2018-09-27 | 2018-09-27 | 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811134055.6A CN109284381B (zh) | 2018-09-27 | 2018-09-27 | 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109284381A CN109284381A (zh) | 2019-01-29 |
CN109284381B true CN109284381B (zh) | 2023-12-08 |
Family
ID=65182246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811134055.6A Active CN109284381B (zh) | 2018-09-27 | 2018-09-27 | 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284381B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977414B (zh) * | 2019-04-01 | 2023-03-14 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN111339247B (zh) * | 2020-02-11 | 2022-10-28 | 安徽理工大学 | 一种微博子话题用户评论情感倾向性分析方法 |
CN111310476B (zh) * | 2020-02-21 | 2021-11-02 | 山东大学 | 一种使用基于方面的情感分析方法的舆情监控方法和系统 |
CN111353044B (zh) * | 2020-03-09 | 2022-11-11 | 重庆邮电大学 | 一种基于评论的情感分析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150367A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种中文微博的情感倾向分析方法 |
CN104731770A (zh) * | 2015-03-23 | 2015-06-24 | 中国科学技术大学苏州研究院 | 基于规则和统计模型的中文微博情感分析方法 |
CN105701210A (zh) * | 2016-01-13 | 2016-06-22 | 福建师范大学 | 一种基于混杂特征计算的微博主题情感分析方法 |
CN107943800A (zh) * | 2016-10-09 | 2018-04-20 | 郑州大学 | 一种微博话题舆情计算与分析的方法 |
CN108563638A (zh) * | 2018-04-13 | 2018-09-21 | 武汉大学 | 一种基于主题识别和集成学习的微博情感分析方法 |
-
2018
- 2018-09-27 CN CN201811134055.6A patent/CN109284381B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150367A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种中文微博的情感倾向分析方法 |
CN104731770A (zh) * | 2015-03-23 | 2015-06-24 | 中国科学技术大学苏州研究院 | 基于规则和统计模型的中文微博情感分析方法 |
CN105701210A (zh) * | 2016-01-13 | 2016-06-22 | 福建师范大学 | 一种基于混杂特征计算的微博主题情感分析方法 |
CN107943800A (zh) * | 2016-10-09 | 2018-04-20 | 郑州大学 | 一种微博话题舆情计算与分析的方法 |
CN108563638A (zh) * | 2018-04-13 | 2018-09-21 | 武汉大学 | 一种基于主题识别和集成学习的微博情感分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109284381A (zh) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Visual to text: Survey of image and video captioning | |
CN109284381B (zh) | 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 | |
Zhang et al. | Understanding subtitles by character-level sequence-to-sequence learning | |
Cao et al. | A joint model for word embedding and word morphology | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN110717332B (zh) | 基于非对称孪生网络的新闻与案件相似度计算方法 | |
Tan et al. | phi-LSTM: a phrase-based hierarchical LSTM model for image captioning | |
Chien et al. | Topic-based hierarchical segmentation | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN112347241A (zh) | 一种摘要提取方法、装置、设备及存储介质 | |
Xian et al. | Self-guiding multimodal LSTM—when we do not have a perfect training dataset for image captioning | |
Shakeel et al. | A framework of Urdu topic modeling using latent dirichlet allocation (LDA) | |
Wang et al. | Mongolian named entity recognition with bidirectional recurrent neural networks | |
He et al. | Deep learning in natural language generation from images | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
Zhao et al. | Dynamic entity-based named entity recognition under unconstrained tagging schemes | |
AlMousa et al. | Nlp-enriched automatic video segmentation | |
Rajput et al. | Hate me not: detecting hate inducing memes in code switched languages | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
Jiang et al. | A hierarchical bidirectional LSTM sequence model for extractive text summarization in electric power systems | |
Berhe et al. | Video scene segmentation of tv series using multimodal neural features | |
Islam et al. | Bengali Caption Generation for Images Using Deep Learning | |
Tang et al. | CKG: dynamic representation based on context and knowledge graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |