CN113190648B - 基于上下文语义的微博短文本的情感分析方法 - Google Patents
基于上下文语义的微博短文本的情感分析方法 Download PDFInfo
- Publication number
- CN113190648B CN113190648B CN202110411497.6A CN202110411497A CN113190648B CN 113190648 B CN113190648 B CN 113190648B CN 202110411497 A CN202110411497 A CN 202110411497A CN 113190648 B CN113190648 B CN 113190648B
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- words
- context
- microblog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 328
- 238000004458 analytical method Methods 0.000 title claims description 35
- 238000000034 method Methods 0.000 claims abstract description 83
- 230000002996 emotional effect Effects 0.000 claims description 48
- 238000001514 detection method Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000007935 neutral effect Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 230000008909 emotion recognition Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 6
- 238000012552 review Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- 230000036506 anxiety Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000009728 shiwei Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于上下文语义的微博短文本的情感分析方法,本发明提出基于情感圈的情感分析方法,对微博文本集中的每个词语构建情感圈,运用情感圈从词语所处语境的共现模式中捕获词语的潜在语义,并提出了情感圈的语义表示和情感值计算方法,通过本发明的方法使得情感检测的结果准确率更高。
Description
技术领域
本发明涉及网络社会媒体情感分类领域,具体涉及一种基于上下文语义的微博短文本的情感分析方法。
背景技术
目前,微博成为了人们表达对各种话题的看法和态度提供了一种平民平台,因此微博情感分析方法受到广泛关注。
微博中的信息主要是以短文本的形式存在,微博短文本情感分析的方法主要集中于个体微博情感的识别(即单条微博级情感检测),而当前的微博级情感检测工作主要采用两种方法:基于机器学习的方法和基于词典的方法。
机器学习方法需要为情感分类器学习训练数据。在微博中,训练数据有些通过情感符号假设微博的极性(正面、负面和中立),有些则从情感检测网站返回的结果中获得共识。而且监督方法是领域依赖的,需要对新的数据进行重新训练。鉴于微博中不断涌现的不同的主题,领域依赖限制了这种方法的应用;反之,基于词典的方法则不需要训练数据,而是使用所有情感词汇加权来确定给定文本的整体情感倾向,这类方法通常在常规文本中能取得较准确的分析结果。然而,因为微博文本里包含大量的畸形词和口语表达(例如“ky”、“ssfd”、“猴腮雷”)Wei Shi et al(2015)构建了一种基于情感本体和语义的社交化短文本情感分析方法,叫EOSentiMiner。
虽然构建的EOSentiMiner和情感本体在相应的数据集中取得了良好的情感分析效果,但是和其它基于词典的方法类似,其中的情感本体同样面临两个主要的问题。首先EOSentiMiner的准确性召回率受限于情感本体中的固定词集,如果情感本体中没有的词语在情感分析中就很难被考虑,这在处理微博文本时会成为一个问题,因为微博中新的表达和隐语不断涌现。其次更为重要的是,EOSentiMiner提供的是固定的、上下文语境无关的情感词的极性和强度。但是在实际的很多微博文本中不同的词语在不同的上下文语境中确表现出不同的情感极性和强度。
为此,如何获取情感词极性和强度在上下文语境中的变化,并以此构建更为准确和高效的微博情感分析方法,从而得到理想的情感分类结果,是目前亟待解决的问题。
发明内容
针对上述存在的问题,本发明旨在提供一种基于上下文语义的微博短文本的情感分析方法,其采用情感圈(SentiCircles)方法,捕捉词汇上下文语义(比如文本中词语的语义共现模式)建立词语的动态表示,适时调整已构建的情感本体中情感词的情感极性和强度。
为了实现上述目的,本发明所采用的技术方案如下:
一种基于上下文语义的微博短文本的情感分析方法,其特征在于,包括以下步骤:
步骤1:获取微博短文本数据,基于该文本数据,获取上下文语境信息,并根据所述上下文语境信息构建一组微博文本集T;
步骤2:采用分词方法对每组微博文本集T中的文本进行分词处理,根据分词结果为每个词语创建词语索引,并通过多种文本处理方法对词语进行预处理操作;
步骤3:针对所述的一组微博文本集T,生成词语m的上下文语境向量;
步骤4:通过为每个词语m计算其与语境中其它词语的相关度来得到上下文语境特征,同时使用外部情感本体为所述语境中的语境词ci分配初始情感值,即ci的先验情感值;
步骤5:将词语m的词语语境向量转换为2D几何圆,以此表示情感极性和情感强度值,该几何圆即为构建的情感圈;
步骤6:基于情感圈进行实体级和微博级的情感识别,得到识别结果。
进一步地,步骤2中所述的预处理操作包括:
S21:对在空白边界上的个别词进行分离;
S22:从词语中去除所有非文字的数字字符;
S23:去除1208个标准停用词;
S24:从微博中过滤掉连接符号和用户名字;
S25:移除“回复”、“转发微博”等词和转发的内容;
S26:基本词性标注;
S27:对出现的否定词和程度词分别进行处理。
进一步地,所述步骤27的具体步骤包括:
S21:为情感词上下文设置一个大小为5的检测窗口;
S22:在检测窗口内检测,如果在词语t周边出现否定词时,则对词语情感极性取反,即:
SOτ=(-1)n×SOt′ (5),
其中,SOt′为词语t在在情感本体中的原始情感值;n为满足否定规则时对于词语t而言否定词的出现次数;
S23:在检测窗口内检测,如果在词语t周边出现程度词时,则按程度词的等级差别相应地增加情感词的情感强度,最终词语t结合程度词得到的情感值的计算公式为:
SOt=valyedeg×SOt′ 6),
其中,SOt′为词语t的原始情感值;valuedeg表示程度词deg的强度值。
其中,f(ci,m)为ci和m共同出现在微博文本中的次数,N是微博文本中所有词语的总数,Nc是微博文本中所有ci的总数。
进一步地,步骤5的具体操作步骤包括:
步骤51:以词语m为圆心,词语m的上下文语境特征为半径,得到一个几何圆,圆上的每个点为语境词ci,该几何圆即为得到的情感圈,则情感圈在极坐标系中可表示为:
其中,a是圆的半径,(r0,φ)是圆中心的极坐标,(r,θ)是一个语境词语在圆上的极坐标;
且语境词语ci的半径ri以及语境词语ci的角度θi的计算公式分别为:
ri=CDOT(m,ci) (3)
θi=PS(ci)*π ;
步骤52:在情感圈中将所有词语的半径都标准化为0-1之间,故任何一个情感圈的半径a都为1,所有的角度值为弧度;
步骤53:使用三角函数正弦和余弦定理将极坐标系转换为笛卡尔坐标系,转换公式为:
xi=rjcosθt yt=risinθi (4);
步骤54:利用圆的三角形属性对词语的上下文语义进行编码,并以此作为情感极性和情感强度值,在笛卡尔坐标系中用Y轴表示词语的情感极性,y为正值则表示正面情感,反之则表示负面情感;X轴表示词语的强度,x值越小则情感越强。
进一步地,步骤6的具体操作步骤包括:
步骤61:对于实体级情感识别:对于实体ei∈ε和它相应的情感圈,该实体的情感由其情感圈的情感中值g表示,根据情感中值g所处的位置来判断该实体的情感类型,即该情感实体的情感函数γ为:
其中,σ是定义“中性域”Y轴边界的阀值;
步骤62:对于单条微博级情感识别:对于每条微博ti∈T采用中值法或关键词法或混合法进行处理,最终得到微博ti的整体情感值。
进一步地,步骤61中所述的情感中值g的计算公式为:
其中,Pi为给定的情感圈中的n个点,几何中值为点g=(xk,yk),该点到所有其它点pi的欧式距离是最小的。
本发明的有益效果是:
第一,本发明提出的方法,采用基于情感本体和情感圈方法,运用情感圈从词语所处语境的共现模式中捕获词语的潜在语义,并能够相应地更新它们在情感本体中的情感取向;
第二,本发明结合语义量化规则提出了中文情感圈的语义表示和情感值计算方法,比基于词典的情感计算方法表现更为优异,基于词典的情感计算的方法主要是基于情感本体和语义规则对微博文本进行情感分析,词语的情感极性和强度为情感本体中预先设定值,未体现出在不同上下文和不同语料库中的变化,而本文的基于情感圈的情感分析方法根据词语在微博上下文语境中不同的情感极性和强度动态地进行了更新和调整,使得情感检测的准确率更高;
第三,本发明通过实体级情感检测,能够针对特定的实体或主题检测情感(比如手机、电脑、电影等),用于对消费者产品评论观点的挖掘,分析结果可以作为消费者购买参考和商家产品策略调整;通过微博级情感检测,能够针对单条微博文本进行总体情感极性和强度的判断,用于微博的舆情分析和监测,微博用户的特征挖掘和情感分析等。
附图说明
图1为本发明提出的基于情感圈的情感分析方法工作流程图;
图2为词语m的情感圈;
图3为实体“华为P20”的情感圈;
图4为本发明中情感词法,其中,sij为词语wj对于pi的情感强度,rj为在pi的情感圈中词语wj到pi的半径;
图5为实施例中的情感圈改变词语初始情感极性和强度的平均比率;
图6为实施例中在电影评论数据集上的微博级不同情感检测方法的准确率比较;
图7为实施例中在手机微点评数据集上的微博级不同情感检测方法的准确率比较。
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
本发明提出的方法,采用情感圈方法进行词语的上下文语义和情感捕获,即从词语的上下文语义中获取它的情感倾向。其与传统的基于情感词典的方法不同,本发明认为词汇中的情感不是固定和静止的,词汇的情感是依赖于词汇的上下文,比如依赖于它的上下文语义。将上下文语境定义为一个文本库或一组微博集,那么根据文本中词语的语义共现模式,可知在相似上下文语境中出现的词语往往具有相似的意义,那么词语m的上下文语义则是通过它与其它词语的共现模式计算出来的,。
如附图1所示,基于情感圈的情感分析来获取情感识别结果的步骤包括:
第一,词语索引:从微博文本集中创建词语索引。这个处理过程中又包括多个文本处理的程序:(1)对在空白边界上的个别词进行分离;(2)从词语中去除所有非文字的数字字符;(3)去除1208个标准停用词包括常见的一些动词;(4)为了避免垃圾信息和其它一些不相关的微博信息,从微博中过滤掉额外的链接如含有“http:”或者“www.”的表达和用户的名字(用符号@标志的);(5)移除“回复”、“转发微博”等词和转发的内容(只是转发没有增加任何评论的帖子);(6)基本词性标注(POS)和否定词和程度词处理;
那么在构建情感圈中,上述遇到否定词和程度词时的处理为:
(1)否定词处理:当构建情感圈时,如果词语t周边有否定表达出现,则t的相关情感值SOt在情感圈构建中取反,则本发明为情感词上下文设置了一个大小为5的检测窗口。若在检测窗口内出现否定词,就利用式(5)对词语情感极性取反,取反的公式为:
SOt=(-1)n×SOt′ (5),
其中,SOt′为词语t在在情感本体中的原始情感值;n为满足否定规则时对于词语t而言否定词的出现次数。
例如微博上的“我对这款华为P20不满意!”,其中情感词“满意”(情感本体中的情感值为0.44,情感类为高兴)前有否定词,则它的情感值=(-1)*0.44=-0.44属于情感类“高兴”的强度是-0.44。
(2)程度词处理:当构建情感圈时,如果词语t周边有程度表达出现,则t的相关情感值SOt在情感圈构建中进行相应的调整,为了准确地衡量微博的情感强度,在情感词的上下文设置一个检测窗口,本文采用的窗口大小为5。如果在检测窗口内有程度词出现,则按程度词的等级差别相应增加情感词的情感强度,从高到低依次增加1.5到0.8倍。从HowNet中抽取60个程度词并将其分成7类,具体设置如表1所列。
表1程度词赋值表
利用式(6)计算程度词结合情感词得到的情感值为:
SOt=valuedeg×SOt′ 6),
其中,SOt′为词语t的原始情感值;valuedeg表示程度词deg的强度值。例如,“非常满意”的情感值=1.3*0.44=0.57属于情感类“高兴”的强度是0.57。
第二,词语上下文语境向量的生成:即将词语m表示成由其微博语境中所有的词语所组成的一个向量(与词语m同时出现在相同的语境中);
定义(词语上下文语境向量):给定一组组微博文本集T,一个词语m的语境向量为向量c是在T的任何一条微博文本中与词语m共同出现的语境词语。m的语境语义是由它与每个语境词语的语义关系决定的。通过计算ci的如下两个主要特征,确定m和语境词语ci间的语义关系:
(1)先验情感值:基于已经构建的外部情感本体,确定每个语境词ci的初始情感值;
其中,f(ci,m)为ci和m共同出现在微博文本中的次数,N是微博文本中所有词语的总数,Nc是微博文本中所有ci的总数。
第三,上下文语境特征的生成:为每一个词语计算它与语境中其它词语的相关度。同时使用外部情感本体为这些语境中的词语分配初始情感值;
本发明所使用的外部情感本体为史伟,王洪伟,何绍义《基于知网的模糊情感本体的构建研究[J]》.情报学报,2012,31(6):595-602中所构建的情感本体库,该情感本体库中共收录9952个词条,其包括2种评价类和8种情绪类情感,且各情感类词汇分别赋予了相应的情感类和情感强度值,情感值取值范围为[0,1],可用于分析微博的情感极性和强度。
当使用情感本体对语境词语进行了情感值初始赋值后,构建的情感圈能够根据上下文语境对这些词语的情感值进行修正。这里基于情感圈用语境情感计算词语新的情感值。词语m的情感圈由它的所有上下文语境词语的笛卡尔坐标(x,y)组成,其中y值表示情感极性,x值表示情感强度。其可以通过计算圈中所有点的几何中值来估计给定情感圈的整体情感。对于给定的情感圈中n个点(p1,p2,…,pn),它的2维几何中值g定义如下:
其中,几何中值为点g=(xk,yk),该点到所有其它点pi的欧式距离是最小的。几何中值g被称为情感中值,因为它可以表示给定词语m的情感圈的情感极性(y坐标)和情感强度(x坐标)。
第四,情感圈的生成:将m的词语语境向量转换为2D几何圆,其由表示m的上下文语境词语的点组成。每个语境词语ci在圆中的位置是基于它的角度(先验情感值)和它的半径(由语境词ci和词语m的相关度决定);
现在每个词语m都有一个上下文语境词的向量以及m和之间的两种语义相互特征。根据这些信息,,将词语m的上下文语义表示为一个几何圆—情感圈,其中词语m位于圆的中心,围绕它的每个点表示语境词ci。ci的位置由它的先验情感和词语相关度(CDOT)共同决定。使用这种圆形表示词语上下文语义,主要基于它能提供三角属性评估词语的情感极性和强度。它还能够分别计算上下文词语对目标词语的情感极性和强度的影响,这是传统的向量表示方法难以做到的。情感圈在极坐标系统中可以用如下公式表示:
其中,a是圆的半径,(r0,φ)是圆中心的极坐标,(r,θ)是一个语境词语在圆上的极坐标。为简单起见,假设情感圈的中心在原点(即r0=0)。
因此,要为词语m构建一个情感圈只需计算语境词语ci的半径ri和角度θi。这里用ci的先验情感值PS(Prior sentiment)和词语相关度(CDOT)进行表示如下:
ri=CDOT(m,Ci) (3)
θi=PS(Ci)*π,
在一个情感圈中将所有词语的半径都标准化为0到1之间。因此任何一个情感圈的半径a都是1,同样所有角度值都是弧度。情感圈在极坐标系中可被分为四个情感象限,如附图2所示。其中位于两个上象限里的词语具有正面情感(sinθ>0),左上象限表示更强的情感,因为它比右上象限中的词语具有更大的角度值。同样位于两个下象限里的词语具有负面情感值(sinθ<0)。尽管对应任何一个词语m的情感圈的半径都等于1,但是表示m语境词语的各个点在圆中的半径就各不一样了(0≤ri≤1),半径的大小反映语境词语对于m的重要性,这里定义半径越大,就表示语境词语对于m越重要。
再通过三角函数正弦和余弦将极坐标系转换到平面直角坐标系(笛卡尔坐标系),转换公式如式(4)所示:
xi=ricosθi yi=risinθi (4),
将坐标系转换为笛卡尔坐标系后就可以使用圆的三角形属性对词语的上下文语义进行编码,以此作为情感极性和情感强度值。在笛卡尔坐标系中的Y轴表示词语的情感极性,即如果y为正值则表示为正面情感,反之亦然。X轴表示词语的强度,x值越小,则情感越强。此外,还定义了一个叫作“中性域”的小区域,如附图2所示这个区域位于“正”和“负”象限中非常接近X轴的位置,位于该区域的词语情感非常弱(即|θ|≈0),在极端情况下,当ri=1和θi=π同时发生,语境词语ci是位于“非常正”还是“非常负”象限,主要是基于其先前的情感极性。
附图3表示实体“华为P20”的情感圈,从图中可以看出,情感圈中词语(即点)所在的位置表示了它们对于实体“华为P20”的情感值和重要性(相关度)。位于情感圈上半部分的点(菱形)表示带有正面情感的词语,而下半部分的点(圆形)则表示带有负面情感的词语。例如情感圈中的“爱”具有正面情感和比较高的重要性,因为表示“爱”的点位于强正面情感象限,离原点“P20”的距离也较远。词语“生动”也具有正面情感,但它的情感强度和重要性都不如词语“爱”,因为表示“生动”的点位于正面情感象限,而且离原点“P20”的距离较近;
第五,情感识别:当情感圈生成之后,利用情感圈进行实体级和单条微博级的情感识别,具体的识别方法为:
(1)实体级情感检测
给定一个实体ei∈ε和它相应的情感圈,这个实体的情感可由情感圈的情感中值g表示(即是组成情感圈的所有点的几何中值)。根据附图2的描述,如果情感中值g位于上述的“中性域”,则实体具有中性情感;如果g位于正面情感象限,则实体具有正面情感;如果g位于负面情感象限,则实体具有负面情感。给定一个实体e的情感中值ge,则实体情感函数γ为:
其中,σ是定义“中性域”Y轴边界的阀值。
因为每个情感圈的中性区界限都有变化,为了简单起见,假设来自同一语料库和情感词典的所有情感圈都有相同的中性区域边界。为了计算这些阈值σ,首先通过合并每个词语的所有情感圈来构建完整语料库的情感圈,然后绘制所构建情感圈中词语的密度分布,中性区域边界由词语密度的增加/减少界定。根据本发明采用的语料库和情感本体,中性区域的边界由密度增加界定,在[-0.02,0.02]范围内。
(2)单条微博级情感检测
给定单条微博ti∈T,有几种方法可以运用微博中词语的情感圈进行整体情感的确定。例如“华为P20的拍照功能很好”包括3个实词:“华为P20”、“拍照功能”、“很好”,每个词语都有个相关的情感圈的表示。这三个情感圈可以进行不同的组合以提取与这条微博相关的情感。下面介绍3种不同的方法用情感圈进行单条微博级的情感检测。
A.中值法:这个方法主要是将每条微博ti∈T表示为情感中值的一组向量,其中n为组成该条微博的实词的数量,gj为实词mj的情感圈的情感中值。利用式(7)计算情感中值gj,然后对向量中所有情感中值求取平均值,最后运用公式(8)确定微博ti的整体情感。
B.关键词法:这种方法将关注点放在微博中的一些关键词上,假设微博中的情感表达总是针对一个或多个特定目标,称这些特点目标为关键词。如上所述的例子中,,有两个关键词“华为P20”和“拍照功能”,情感词“很好”用来描述它们。因此,该方法可通过以下方式进行操作:(a)提取微博中所有的关键词,关键词提取过程为:对微博文本进行分词和词性标注,去除停用词,运用规范化的TFIDF加权方法,提取出有代表性的名词和代词作为关键词;(b)为每个关键词累计它接收到的来自其它词语的情感影响。微博的整体情感对应于关键词接收到的那个最高情感影响。针对每个候选关键词,构建相应的情感圈,以此计算微博中其它词语对于关键词的情感影响。最大情感影响的计算方法如下:
其中,s∈S={正面,中性,负面}表示情感极性,是单条微博中所有关键词的向量,和分别表示单条微博中关键词集和剩余词集,Hs(pi,wj)表示情感影响函数,即情感圈中词语wj对关键词pi的情感影响,情感影响程度(情感强度)为词语wj到pi的欧氏距离(即词语wj的半径),如附图4所示。如果词语wj落在“强正面情感”或“强负面情感”象限,则情感影响值加倍。
C.混合法:是将将前面介绍的两种方法结合起来使用,如上所述,关键词法主要依赖微博的句法结构和词语间的情感关系,但当有些微博文本过短缺乏关键词或者微博中包含大量病态词语,该种方法就没法使用。如遇到这种情况我们就转而应用中值法,将两者结合起来使用的方法就叫作混合法。
实施例:
如上所述,通过情感圈表示获取上下文语义主要基于语料库中的词语共现和情感词典中的初始情感权重集,故而本发明使用两个不同语料库(微博集合)和一个通用情感词典进行评价,从而得到不同语料库和词典对情感圈方法表现的影响。
1、数据集
本发明用于评估的两个数据集为:“电影评论”和“手机微点评”。
(1)使用“电影评论”(史伟等,2015)数据集来评估我们的方法在单条微博水平的性能,因为它们只为单条微博而不是实体提供人工标注(即每条微博都被赋予了八类情感类和两类评价类,将期待、高兴、喜爱、惊讶和G(好)类评价归为正面情感,焦虑、悲伤、生气、讨厌和B(坏)类评价归为负面情感)。
(2)使用“手机微点评”(史伟等,2014)数据集评估实体层面情感。该数据集包含微博和实体情感评价,因此,我们在本文中使用它来评估情感圈在实体层面和微博层面的表现。
下表2为两个数据集中的正面和负面微博的数量,并进一步描述如下:
表2微博评估的数据集
(3)如上所述,情感圈中词语的初始情感值是由某个情感词典赋值的(先验情感值),这里使用已经构建的模糊情感本体库来评估我们的方法。情感本体形式如下例所示:
FEO=((18;开心;happy;adj;张三;知网2007版情感分析用词语集),(快乐;愉快),(高兴;1.00))
最终的情感本体收录9952个词条,各类情感(2种评价类和8种情感类)统计如表3所示。
表3各情感类词汇数量
各情感类词汇分别赋予了相应的情感类和情感隶属度值(情感值),情感隶属度取值范围为[0,1],可用于分析微博的情感极性和强度。情感有正面和负面之分,即情感极性。上述8类情感中期待、愉快、喜爱属于正面情感,而悲伤、生气和讨厌则属于负面情感,惊讶和焦虑在不同的语境下既可能表现为正面也可能为负面。
2、评价方法
为了比较所提出情感圈在微博和实体情感分析中的表现,这里的基线方法考虑两个层次:基于情感词典的方法,基于情感计算的方法。
基于情感词典的方法,采用知网情感分析用词语集,从给定文本中提取情感。如果一条微博文本包含的正面情感词多于负面情感词,则该条微博标记为正面,反之亦然。对于实体级情感检测,实体情感的标记是基于与实体共同出现在相关微博中的正面和负面情感词的数量决定的。
基于情感计算的方法是基于情感本体和语义的比较先进的情感检测方法。采用此方法对单条微博进行情感计算,如果通过计算正面情感强度大于负面情感强度,则该条微博被认为是正面的,反之亦然。对于实体级情感检测,一个实体的情感值是基于在一定窗口内与实体共同出现的正面情感词和负面情感词。这里微博情感强度的计算需要人工构建相应的语义规则,比如程度词、否定词、标点符号、修辞句、表情符号等情感语义的量化处理。
3、实验结果
在实体级和微博级两个层面的情感检测任务中与基线方法进行比较展现所构建方法的性能。对于实体级的情感检测,我们在“手机微点评”数据集上进行实验,而对于微博级的情感检测,我们使用“电影评论”和“手机微点评”两个数据集。
(1)对词语先验情感的影响
构建基于情感圈的情感分析法主要是因为词语的情感会随上下文语境的变化而变化。为了获得这些词语的语境语义,我们运用情感圈表示方法去调整词语的情感极性和强度。图5中显示了在两个数据库中由情感圈改变词语初始情感极性和强度的平均比率,其中在我们语料库中平均68%的词语被情感词本体库所覆盖,并被赋予了先验情感极性和强度,32%的词语未在情感词本体库中找到,运用情感圈表示方法使得45%的词语重新调整了他们的情感极性(比如从正面转变到负面或转变到中性),51%的词语在未改变情感极性的情况下情感强度发生了变化,因此有16%的词语原始的情感极性和强度未变化。另外我们的模型对23%未被情感词本体库覆盖的隐藏的词语赋予了情感极性和强度。
(2)实体级情感检测
对于实体级的情感检测,使用所提出的中值方法(见上述)结合情感本体和语义规则,来识别给定实体的情感圈的整体情感。我们用准确率、精度、召回率和F值来衡量两个识别任务的结果:主观性检测,它识别给定实体是主观的(正面的还是负面的)还是客观的(中立的)。第二个任务是情感极性检测,它识别实体是否有正面或负面情感。两种识别任务都应用于10个不同的实体(产品特征)。
从表4可以发现,对于主观性识别,我们提出的基于情感圈的情感分析方法在四个指标上都大幅度领先基线方法,表5展示了实体级情感极性识别(正面或负面)的结果,基于情感圈的情感分析方法虽然没有全面大幅度领先基线方法,甚至在召回率上还落后基线方法0.01,但是在其它三个指标上还是都略有提高。
表4实体级情感分析结果比较(主观性检测)
表5实体级情感分析结果比较(情感极性检测)
(3)微博级情感检测
对于微博级情感检测,运用基于情感圈情感分析法中的中值法、关键词法和混合法,在“电影评论”和“手机微点评”两个数据库中进行了实验。同时将这些实验结果同两种基线方法(词典方法和情感计算方法)进行了比较。
附图6显示在“电影评论”语料库中,基于情感圈情感分析法在准确率方面表现普遍比基线方法要出色。同时还观察到三种情感圈方法中混合法要比关键词法和中值法的准确率要高,达到了0.87。基线方法中情感计算方法的准确率与三种情感圈方法比较接近都能达到0.8以上,词典方法由于考虑因素过少准确率未能达到0.6。附图7显示的是在“手机微点评”语料库中的几种情感检测方法的准确率,基本情况与图6中的表现相当,三种情感圈方法的平均准确率达到了0.84,比情感计算方法表现略高。
综上可以看出,,基于情感计算的方法主要是基于情感本体和语义规则对微博文本进行情感分析,词语的情感极性和强度为情感本体中预先设定值,未体现出在不同上下文和不同语料库中的变化,而本发明的基于情感圈的情感分析方法根据词语在微博上下文语境中不同的情感极性和强度动态地进行了更新和调整,使得情感检测的准确率更高。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.基于上下文语义的微博短文本的情感分析方法,其特征在于,包括以下步骤:
步骤1:获取微博短文本数据,基于该文本数据,获取上下文语境信息,并根据所述上下文语境信息构建一组微博文本集T;
步骤2:采用分词方法对每组微博文本集T中的文本进行分词处理,根据分词结果为每个词语创建词语索引,并通过多种文本处理方法对词语进行预处理操作;
步骤3:针对所述的一组微博文本集T,生成词语m的上下文语境向量;
步骤4:通过为每个词语m计算其与语境中其它词语的相关度来得到上下文语境特征,同时使用现有的外部情感本体为所述语境中的语境词Ci分配初始情感值,即Ci的先验情感值;
步骤5:将词语m的词语语境向量转换为2D几何圆,以此表示情感极性和情感强度值,该几何圆即为构建的情感圈;
步骤5的具体操作步骤包括:
步骤51:以词语m为圆心,词语m的上下文语境特征为半径,得到一个几何圆,圆上的每个点为语境词Ci,该几何圆即为得到的情感圈,则情感圈在极坐标系中可表示为:
其中,a是圆的半径,(r0,φ)是圆中心的极坐标,(r,θ)是一个语境词语在圆上的极坐标;
且语境词语Ci的半径ri以及语境词语Ci的角度θi的计算公式分别为:
步骤52:在情感圈中将所有词语的半径都标准化为0-1之间,故任何一个情感圈的半径a都为1,所有的角度值为弧度;
步骤53:使用三角函数正弦和余弦定理将极坐标系转换为笛卡尔坐标系,转换公式为:
xi=ricosθi yi=risinθi (4);
步骤54:利用圆的三角形属性对词语的上下文语义进行编码,并以此作为情感极性和情感强度值,在笛卡尔坐标系中用Y轴表示词语的情感极性,y为正值则表示正面情感,反之则表示负面情感;X轴表示词语的强度,x值越小则情感越强;
步骤6:基于情感圈进行实体级和微博级的情感识别,得到识别结果;
步骤6的具体操作步骤包括:
步骤61:对于实体级情感识别:对于实体ei∈ε和它相应的情感圈,该实体的情感由其情感圈的情感中值g表示,根据情感中值g所处的位置来判断该实体的情感类型,即该情感实体的情感函数γ为:
其中,σ是定义″中性域″Y轴边界的阀值;
步骤62:对于单条微博级情感识别:对于每条微博ti∈T采用中值法或关键词法或混合法进行处理,最终得到微博ti的整体情感值。
2.根据权利要求1所述的基于上下文语义的微博短文本的情感分析方法,其特征在于,步骤2中所述的预处理操作包括:
S21:对在空白边界上的个别词进行分离;
S22:从词语中去除所有非文字的数字字符;
S23:去除1208个标准停用词;
S24:从微博中过滤掉连接符号和用户名字;
S25:移除″回复″、″转发微博″词和转发的内容;
S26:基本词性标注;
S27:对出现的否定词和程度词分别进行处理。
3.根据权利要求2所述的基于上下文语义的微博短文本的情感分析方法,其特征在于,所述步骤27的具体步骤包括:
S21:为情感词上下文设置一个大小为5的检测窗口;
S22:在检测窗口内检测,如果在词语t周边出现否定词时,则对词语情感极性取反,即:
SOt=(-1)n×SOt′ (5),
其中,SOt′为词语t在情感本体中的原始情感值;n为满足否定规则时对于词语t而言否定词的出现次数;
S23:在检测窗口内检测,如果在词语t周边出现程度词时,则按程度词的等级差别相应地增加情感词的情感强度,最终词语t结合程度词得到的情感值的计算公式为:
SOt=valuedeg×SOt′ (6),
其中,SOt′为词语t的原始情感值;valuedeg表示程度词deg的强度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110411497.6A CN113190648B (zh) | 2021-04-16 | 2021-04-16 | 基于上下文语义的微博短文本的情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110411497.6A CN113190648B (zh) | 2021-04-16 | 2021-04-16 | 基于上下文语义的微博短文本的情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113190648A CN113190648A (zh) | 2021-07-30 |
CN113190648B true CN113190648B (zh) | 2022-09-20 |
Family
ID=76977200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110411497.6A Expired - Fee Related CN113190648B (zh) | 2021-04-16 | 2021-04-16 | 基于上下文语义的微博短文本的情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190648B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612720B (zh) * | 2023-11-28 | 2024-05-14 | 郑州师范学院 | 一种基于人工智能模型的心理测试方法、系统及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9275041B2 (en) * | 2011-10-24 | 2016-03-01 | Hewlett Packard Enterprise Development Lp | Performing sentiment analysis on microblogging data, including identifying a new opinion term therein |
CN104133834B (zh) * | 2014-06-09 | 2018-05-04 | 合肥工业大学 | 指定地域微博数据收集与处理方法 |
CN110750699B (zh) * | 2019-10-18 | 2021-12-17 | 四川大学 | 一种面向票房预测的影评情感可视化方法 |
-
2021
- 2021-04-16 CN CN202110411497.6A patent/CN113190648B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN113190648A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
Arulmurugan et al. | RETRACTED ARTICLE: Classification of sentence level sentiment analysis using cloud machine learning techniques | |
Li et al. | DWWP: Domain-specific new words detection and word propagation system for sentiment analysis in the tourism domain | |
Srivastava et al. | A novel hierarchical BERT architecture for sarcasm detection | |
CN102929861B (zh) | 一种文本情感指数计算方法和系统 | |
Al-Ghadhban et al. | Arabic sarcasm detection in Twitter | |
Zabha et al. | Developing cross-lingual sentiment analysis of Malay Twitter data using lexicon-based approach | |
Zhu et al. | SentiVec: Learning sentiment-context vector via kernel optimization function for sentiment analysis | |
Gaikwad et al. | Multiclass mood classification on Twitter using lexicon dictionary and machine learning algorithms | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN112000804B (zh) | 一种微博热点话题用户群情感倾向性分析方法 | |
Nath | Style change detection using Siamese neural networks. | |
CN113190648B (zh) | 基于上下文语义的微博短文本的情感分析方法 | |
El-Rashidy et al. | Reliable plagiarism detection system based on deep learning approaches | |
Gan et al. | Microblog sentiment analysis via user representative relationship under multi-interaction hybrid neural networks | |
CN109344331A (zh) | 一种基于在线社会网络的用户情感分析方法 | |
Salem et al. | Refining semantic similarity of paraphasias using a contextual language model | |
Maurya et al. | A use of social media for opinion mining: An overview (with the use of hybrid textual and visual sentiment ontology) | |
Song et al. | A lexical updating algorithm for sentiment analysis on Chinese movie reviews | |
Bagui et al. | Analysis of political sentiment from Twitter data | |
LU504152B1 (en) | Emotion analysis method of weibo's short texts based on context semantics | |
Fadel et al. | A comparative study for supervised learning algorithms to analyze sentiment tweets | |
Chen et al. | Understanding emojis for financial sentiment analysis | |
Panda et al. | Patient reviews analysis using machine learning | |
Sahu et al. | An Emotion based Sentiment Analysis on Twitter Dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220920 |
|
CF01 | Termination of patent right due to non-payment of annual fee |