CN103729456B

CN103729456B - 一种基于微博群环境的微博多模态情感分析方法

Info

Publication number: CN103729456B
Application number: CN201410006867.8A
Authority: CN
Inventors: 孙晓; 李承程; 孙重远; 高飞; 陈炜亮; 任福继
Original assignee: Hefei University of Technology
Current assignee: Qingdao Class Cognition Artificial Intelligence Co ltd
Priority date: 2014-01-07
Filing date: 2014-01-07
Publication date: 2016-09-28
Anticipated expiration: 2034-01-07
Also published as: CN103729456A

Abstract

本发明公开了一种基于微博群环境的微博多模态情感分析方法，其特征是按如下步骤进行：1、获取微博数据；2、提取所述微博文本内容和所述评论内容的第一模态文本特征；3、提取所述评论内容的第二模态特征；4、将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量；5、对微博数据进行情感标记处理并获得多模态情感训练模型；6、预测待测试微博文本内容的情感状态。本发明能够进一步结合微博评论内容对微博文本内容进行特征提取，从而提高微博情感状态判断的准确度。

Description

一种基于微博群环境的微博多模态情感分析方法

技术领域

本发明属于自然语言处理技术与情感计算领域，具体地说，是一种基于微博群环境的微博多模态情感分析方法。

背景技术

随着电子商务、微博、网络新闻媒体等信息交流和交易平台的大行其道，使得相关的评论和微博数据呈井喷式增长。面对如此海量的数据，如何从其中提取有利于各方的有用信息，已经成为了现如今各领域的研究热点。文本倾向性判断作为其中的研究方向，亦被作为数据价值性分析的重要依据之一。

微博，微博客的简称，随着社交网络兴起，微博不再只是人们工作和生活中情感表达的方法，而更多是被用作为人与人之间的交流和沟通的方式。又因为微博承载的信息量庞大，表达的情感丰富，成为了相关研究重要的数据来源。因此近来有关微博数据的分析处理已经成为国内外研究热点。例如：对新闻轶事，产品评价，娱乐事件等内容的微博用户的关注度进行统计，关注信息进行分析等。

现有的文本情感分类相关问题的解决大部分是仅仅基于文本特征提取的方法。其中对于多数文本特征提取只考虑了词表面含义，且并没有进一步在语义层面上对文本进行分析，从而导致了情感分析不够准确。由于微博属于句子级的文本，在情感分析时候特征的选择也受到了篇幅的限制，现有的微博情感分析方法只是对于微博文本内容进行特征的提取，而忽略了微博文本所处的情感环境，即没有从微博评论的角度出发，考虑对微博文本内容的情感表达，以及微博用户与微博好友之间的互动。

发明内容

本发明是为了克服现有技术存在的不足之处，提出一种基于微博群环境的微博多模态情感分析方法，能够进一步结合微博评论内容对微博文本内容进行特征提取，从而提高微博情感状态判断的准确度。

本发明为解决技术问题采取如下技术方案：

本发明一种基于微博群环境的微博多模态情感分析方法，所述微博群环境是由微博用户和微博用户好友构成，所述微博多模态情感分析方法的特点是按如下步骤进行：

步骤1：获取微博数据：

步骤1.1：获取所述微博用户的账号ID；

步骤1.2：根据所述微博用户的账号ID，调用微博的第三方API应用接口获得所述微博数据；所述微博数据包括微博文本内容、所述微博文本内容的评论内容、所述微博文本内容的评论数目和微博评论者；

步骤2：提取所述微博文本内容和所述评论内容的第一模态文本特征：

步骤2.1：对所述微博文本内容和所述评论内容分别进行分词和词性标注处理获得预处理后的文本内容和预处理后的评论内容；

步骤2.2：利用情感词典获得所述预处理后的文本内容和预处理后的评论内容中的情感词以及所述情感词对应的情感值；

步骤2.3：对所述预处理后的文本内容和预处理后的评论内容构建语法树并获得所述情感词的修饰成分；

步骤2.4：根据所述情感词的修饰成分调整所述情感词的情感值获得所述情感词的最终情感值；

步骤2.5：将所述情感词和所述情感词的最终情感值作为第一模态文本特征并用文本特征向量表示；

步骤3：提取所述评论内容的第二模态特征：

步骤3.1：根据所述微博文本内容的评论数目绘制微博群环境图；

步骤3.2：利用所述微博群环境图获取所述微博用户与所述微博评论者对所述评论内容的第二模态特征并用微博群环境向量表示；

步骤4：将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量：

步骤4.1：利用式(1)获得矩阵向量

\overset{&RightArrow;}{tsv} = Σ_{i = 1}^{r} \overset{&RightArrow;}{tfi} \times \overset{&RightArrow;}{svi} - - - (1)

式(1)中，r表示所述微博文本内容的评论数目，i∈[1,r]，表示第i条评论内容的第一模态文本特征，表示第i条评论内容的第二模态特征；

步骤4.2：利用式(2)获得单位矩阵向量

\overset{&RightArrow;}{e} \frac{1}{| \overset{&RightArrow;}{tsv} |} \times \overset{&RightArrow;}{tsv} - - - (2)

式(2)中，表示矩阵向量的模值

步骤4.3：将所述微博文本内容用文本特征向量表示，将所述微博文本内容与所述单位矩阵向量进行线性组合获得最终特征向量，利用所述最终特征向量表征所述微博文本内容；

步骤5：对微博数据进行情感标记处理并获得多模态情感训练模型

步骤5.1：标记所述微博文本内容和所述评论内容的情感状态，所述情感状态分为积极、中性和消极；

步骤5.2：利用所述最终特征向量以及所述最终特征向量所对应的微博文本内容的情感状态以及作为输入值，利用模糊支持向量机进行训练获得多模态情感训练模型；

步骤6：预测待测试微博文本内容的情感状态：

步骤6.1：根据所述步骤1至步骤4获得所述待测试微博文本的最终特征向量；

步骤6.2：将所述待测试微博文本的最终特征向量作为所述多模态情感训练模型的输入值预测所述待测试微博文本的情感状态。

与现有技术相比，本发明的有益效果体现在：

1、本发明的情感分析方法根据微博文本内容以及微博评论内容两个方面对微博进行情感分析，避免了由于微博篇幅短而引起的特征维度过少的问题，增加了对情感特征的维度，多方位考虑了微博情感影响因子，同时提高了微博情感分析的正确率。

2、本发明在传统的情感词统计方法的基础上，将情感词与其相应情感值做为微博文本特征，对微博文本内容进行语义层分析，对情感词进行语法分析，提取情感词在句中的修饰成分，并根据这些修饰成分对情感词的情感值重新计算，使其获得情感词在所处的情感环境下的最终情感值，避免了因情感词情感转变而导致的特征提取错误的情况。

3、本发明将微博用户以及微博好友所构成的微博群环境进行特征提取，结合微博评论内容以及微博用户好友间之间互动性，除了分析微博文本内容本身之外，对微博文本内容对应的微博评论内容进行微博文本特征提取，并根据微博用户以及对微博进行评论的微博用户之间的互动性，计算用户之间的好友相关度，并将其作为微博评论的微博文本特征的影响因子。将微博文本内容与微博评论内容相结合，而非单方面考虑微博文本内容的情感表达，添加了对微博评论内容的考虑，且加入了微博评论者对微博文本内容情感呼应，解决微博情感分析中常见的单一模态问题。

4、本发明应用广泛，所提出的方法并没有针对某一种特定的语言，而是主要利用微博这一平台特点进行具体方法的实施；不同平台的微博虽然在语言和表达形式上有所差别，但是大概框架上是相似的，因此本方法也是移植到其他语言微博，或者其他平台上使用。

附图说明

图1为本发明微博群环境图。

具体实施方式

本实施例中，微博群环境是由微博用户和微博用户好友构成，一种基于微博群环境的微博多模态情感分析方法是按如下步骤进行：

步骤1：获取微博数据：

步骤1.1：获取微博用户的账号ID；具体实施中，微博数据是由合肥工业大学先进智能机器研究院（HFUT_AIM）提供，微博用户包括了所有HFUT_AIM中开通微博的老师以及学生。每个微博用户有唯一的账号ID，在本发明中用账号ID代表了HFUT_AIM所有微博用户的身份。

步骤1.2：根据微博用户的账号ID，调用微博的第三方API应用接口获得微博数据；微博数据包括微博文本内容、微博文本内容的评论内容、微博文本内容的评论数目、微博评论者、微博文本数目和微博用户好友列表；由于时效问题，本发明中获取的为HFUT_AIM全部微博用户近一年来所有的微博数据。

为了数据处理的便利，每一个微博用户将用一个四元组P表示

P＝(ID,Content_i,Comment_ij,Emotion_ij,Friends) (1)

式(1)中，ID表示微博用户的账号ID，Content_i表示微博用户的第i条微博文本内容，Comment_ij代表了第i条微博文本内容的第j条评论内容，Emotion_ij记录了微博文本内容以及评论内容的情感状态，包括积极，中性和消极，例如：Emotion_i0记录的为第i条微博文本内容的情感状态，Emotion_ij记录了提供者第i条微博文本内容第j条评论内容的情感状态，在这里首先将全部情感状态的初始值预设为中性。Friends记录的是微博用户好友列表中的微博用户好友的账号ID。

步骤2：提取微博文本内容和评论内容的第一模态文本特征：

步骤2.1：对微博文本内容和评论内容进行分别分词和词性标注处理获得预处理后的文本内容和预处理后的评论内容；根据步骤1中得到的微博文本内容：例如：今天的心情非常不好。

利用哈工大LTP分词工具对微博文本内容进行分词，经过分词系统处理后得到预处理后的文本内容：今天/时间短语的/结构助词心情/名词非常/副词不/副词好/形容词。词与词之间以空格隔开，词与词性之间用“/”隔开。

步骤2.2：利用情感词典获得预处理后的文本内容和预处理后的评论内容中的情感词和情感词对应的情感值；利用现有的Hownet，NTUSD情感词典以及大连理工情感词典库作为本发明中的情感词典，每个情感词都有相应的情感值EMV。

步骤2.3：对预处理后的文本内容和预处理后的评论内容构建语法树并获得情感词的修饰成分，修饰成分包括程度词和否定词；本发明共收集了常用的57个程度词以及37个否定词，并采用模糊计分的方式对这些程度词和否定词打分，从而得到程度词的程度值DIV以及否定词的否定值NIV，利用HFUT_AIM提供的已标记出情感值的20000条句对话情感语料，这些对话情感语料中，对每句对话都标记出该句话整体的情感值HMV，每句对话中都包含了情感词的情感值，程度词的程度值以及否定词的否定值，由于每句对话的语言环境的不同，相同程度词的程度值会有所不同，因此对程度值和否定值利用式（2）和式（3）进行模糊计分：

DIV = \frac{Σ_{i = 1}^{k} | {HMV}_{i} \times {DIV}_{i} |}{k} - - - (2)

NIV = \frac{Σ_{j = 1}^{t} | {HMV}_{j} \times {NIV}_{j} |}{t} - - - (3)

式（2）和式（3）中，k表示对话语料中包含程度词的对话数目，HMV_i×DIV_i表示程度词的程度值以及程度词所在对话的情感值的乘积。t表示对话语料中包含否定词的对话数目，HMV_j×NIV_j表示否定词的否定值以及否定词所在对话的情感值的乘积，最后分别求得的平均值即为程度值和否定值。

对步骤2.1中所得到的预处理后的文本内容和预处理后的评论内容进行语法分析，将情感词典、程度词和否定词添加Stanford parse工具包中，然后利用Stanford parse工具对分词结果进行语法分析，从而可以分别得到预处理后的文本内容和预处理后的评论内容的语法树，遍历语法树，得到修饰情感词的程度词以及否定词。考虑到有时会出现一个词同时属于程度词和情感词的情况，例如例句中的“好”，既可以作为程度副词也可以情感词，如果出现这种情况，则需要判断词在句子中所担当的成分，在步骤2.1中，可以得到每个词的词性，“好”在这里为形容词，从而可以判断出“好”在例句中作为情感词而非程度词。

步骤2.4：根据情感词的修饰成分调整情感词的情感值获得情感词的最终情感值；计算每个情感词的最终情感值FEMV，按照式(4)得到每个情感词w的FEMV值。式(4)中，m表示修饰情感词w的程度词的个数，n表示修饰情感词w的否定词的个数。

FEMV (w) = Π_{i = 1}^{m} {DIV}_{i} Π_{j = 1}^{n} {NIV}_{j} \times EMV (w) - - - (4)

步骤2.5：将情感词w和情感词的最终情感值FEMV作为第一模态文本特征并用文本特征向量表示；这些最终情感值FEMV将按情感词w对应位置存放至向量中。

步骤3：提取评论内容的第二模态特征：

步骤3.1：根据微博文本内容的评论数目绘制微博群环境图；

本发明中的所有HFUT_AIM的微博用户将被看做是在同一个微博群中，根据所有微博用户的微博数据，绘制微博群环境图。

图1所示的为HFUT_AIM微博群环境图的部分展示，图1中带有字母S或者T标记的节点用来表示微博用户，S代表学生微博用户，T代表老师微博用户。例如T1代表王老师，S2表示张同学等。带箭头的直线表示微博用户之间的联系，箭头指向的一端表示被评论的微博用户，另一端表示微博评论者，直线上的数字表示近一年来微博评论者对微博用户的所发表的评论内容的总数，在这里记为CV。

环境图绘制完之后，整个微博群环境环境图可以被看过是一个有向加权图G，记为G=(V,E)，由所有微博用户节点V以及微博用户的来往信息E组成。

步骤3.2：利用微博群环境图获取微博用户与微博评论者对评论内容的第二模态特征并用微博群环境向量表示；第二模态特征包括：热点度、受关注度、活跃度、活跃相关度、关系度、最大传播度和间接关系度；

本实施例中，第二模态特征包括7个特征值，具体如下：

1）热点度：对微博用户发表的微博文本内容进行评论的微博评论者的总数量。

2）受关注度：微博用户近一年来所发表的所有微博内容得到的微博文本内容的评论数目。

3）活跃度：近一年来微博用户所发的微博文本数目。

4）活跃相关度：基于活跃度和受关注度，活跃相关度等于受关注与活跃度的比值。

5）关系度：定义默认值为0，用来计算微博群环境图中任意两个节点之间的来往频繁度，首先采用现有技术中dijkstra算法找到两个节点之间的最短路径，例如，图1中学生S25与学生S4之间的最短路径为S25到T4再到S4；然后记录最短路径上经过的所有节点以及节点之间连接线上的CV值，最后两节点之间的关系度用获得，其中x表示最短路径上的节点总数；

6）最大传播度：对于每一个节点，从一个节点开始采用广度优先算法遍历整个微博群环境图，记录所有路径中最长路径，计算出最长路径上所有的节点数目。

7）间接关系度：利用dijkstra算法可得到任意两节点之间的所有路径，间接关系度即为两节点间路径的总数。

对于微博群环境图中的任意两个节点，将这七个特征值存储到微博群环境向量中，因此微博群环境向量是一个七维向量，出于在多模态情感训练模型训练时的归一化考虑，向量中各维度的特征值应在[0,1]之间。将标号为1、2、3、6、7的特征值的维度值取其所占概率大小。归一化之后，每个节点将得到一个关系向量，例如（0.45,0.2,0.55,0.42,0.12,0.65,0.45），并且对所有的特征值取相同的权值。

步骤4：将第一模态文本特征和第二模态特征进行结合获得最终特征向量：

步骤4.1：利用式(5)获得矩阵向量

\overset{&RightArrow;}{tsv} = Σ_{i = 1}^{r} \overset{&RightArrow;}{tfi} \times \overset{&RightArrow;}{svi} - - - (5)

式(5)中，r表示微博文本内容的评论数目，i∈[1,r]，i表示微博文本内容的第i条评论数目；表示第i条评论内容的第一模态文本特征，表示第i条评论内容的第二模态特征；

步骤4.2：利用式(6)获得单位矩阵向量

\overset{&RightArrow;}{e} \frac{1}{| \overset{&RightArrow;}{tsv} |} \times \overset{&RightArrow;}{tsv} - - - (6)

式(6)中，表示矩阵向量的模值；

步骤4.3：将微博文本内容用文本特征向量表示，将微博文本内容与单位矩阵向量进行线性组合获得最终特征向量，利用最终特征向量表征微博文本内容；本实施例中，单位矩阵向量用式(7)来表征：

\overset{&RightArrow;}{e} (\begin{matrix} \overset{&RightArrow;}{e} 1 \\ \overset{&RightArrow;}{e} 2 \\ . . . \\ \overset{&RightArrow;}{e} 7 \end{matrix}) - - - (7)

式(7)中，均为横向量，微博文本内容与单位矩阵向量进行线性组合获得向量即为最终特征向量。

步骤5.1：标记微博文本内容和评论内容的情感状态，情感状态分为积极、中性和消极；这三种情感状态将分别用1,0和-1表示，并修改相应四元组P中Emotion_ij的情感状态值。

步骤5.2：利用最终特征向量以及最终特征向量所对应的微博文本内容的情感状态以及作为输入值，利用模糊支持向量机进行训练获得多模态情感训练模型；模糊支持向量机可以比较好的解决分类问题中的多类分类问题。

步骤6：预测待测试微博文本内容的情感状态：

步骤6.1：根据步骤1至步骤4获得待测试微博文本的最终特征向量；

步骤6.2：将待测试微博文本的最终特征向量作为多模态情感训练模型输入值预测待测试微博文本的情感状态。

Claims

1.一种基于微博群环境的微博多模态情感分析方法，所述微博群环境是由微博用户和微博用户好友构成，其特征是，所述微博多模态情感分析方法按如下步骤进行：

步骤1：获取微博数据：

步骤1.1：获取所述微博用户的账号ID；

步骤2.2：利用情感词典库中的情感词典，每个情感词都有相应的情感值EMV，获得所述预处理后的文本内容和预处理后的评论内容中的情感词以及所述情感词对应的情感值；

步骤3：提取所述评论内容的第二模态特征：

步骤3.2：利用所述微博群环境图获取所述微博用户与所述微博评论者对所述评论内容的第二模态特征并用微博群环境向量表示；所述第二模态特征包括：热点度、受关注度、活跃度、活跃相关度、关系度、最大传播度和间接关系度；

步骤4.1：利用式(1)获得矩阵向量

步骤4.2：利用式(2)获得单位矩阵向量

式(2)中，表示矩阵向量的模值；

步骤6：预测待测试微博文本内容的情感状态：