CN109508380A

CN109508380A - 一种结合用户结构相似度进行微博情感分析的方法

Info

Publication number: CN109508380A
Application number: CN201910041751.0A
Authority: CN
Inventors: 杨静; 邹晓梅; 张健沛; 韩宏宇; 张薇
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-03-25
Filing date: 2019-01-16
Publication date: 2019-03-22
Anticipated expiration: 2039-01-16
Also published as: CN109508380B

Abstract

本发明涉及一种结合用户结构相似度进行微博情感分析的方法。方法包括以下步骤：(1)根据微博用户之间的关注关系，计算用户之间的结构相似度，建立用户相似度矩阵，即情绪感染性矩阵，同时建立情绪感染性模型；(2)根据社会学中的情感一致性理论，建立微博之间的情感一致性关系矩阵，同时建立情绪一致性模型；(3)使用前两步生成的模型，建立根据微博间关系矩阵形成的微博情感分析模型；(4)在前三步的基础上，加入使用微博文本内容的情感分析模型；(5)对第四步建立的模型进行优化，求解出微博情感分析器。本发明的优势在于针对微博数据的特点，提出了结合微博数据间关系的方法进行情感分析，有效的提高了微博情感分析的准确率。

Description

一种结合用户结构相似度进行微博情感分析的方法

技术领域

本发明属于大数据分析领域，具体涉及一种结合用户结构相似度进行微博情感分析的方法。

背景技术

随着互联网技术的发展，大量新型的社交平台如Twitter、新浪微博等随之出现。它们吸引着大量用户，用户在这些网站上发表大量包含着他们各种各样的观点的推文、微博。而分析用户观点在各个领域都有重要作用和意义，例如可以通过分析用户观点来对股市进行预测、提高推荐系统的准确率、调查用户对于产品的反馈、帮助政府部门进行舆情监督等。以上所述的分析用户观点的过程就称为情感分析。虽然之前也有一些相关工作，但目前公认的情感分析比较系统的研究工作大部分都是基于Pang在2002的研究。而相对来说，Turney同样在2002提出的无监督学习的方法虽然在实现上更加简单，但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定，继续在无监督学习方向的研究并不是很多的，但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。

Pang于2002年开始通过基于监督学习方法对电影评论文本进行情感倾向性分类，Turney也于2002年通过基于无监督学习对文本情感倾向性分类进行研究。Pang基于文本的N元语法gram和词类POS等特征分别使用朴素贝叶斯Naive Bayes，最大熵Maximum Entropy和支持向量机SVM将文本情感倾向性分为正向和负向两类，将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。Turney在基于点互信息PMI计算文本中抽取的关键词和种子词的相似度来对文本的情感倾向性进行判别，即所谓的SO-PMI算法。

情感分类方法可以分为两类：基于词典的分析方法和基于机器学习的方法。基于词典的分析方法利用情感词典如SentiWordNet，SenticNet等对句子中的词进行情感标记，整个文档的情感是对其句子的词的情感的综合。基于词典的情感分析方法是无监督的，并不需要事先标记的数据集，这种方法的缺点是过分依赖情感词典，且可移植性差，与分析领域有很大关联。基于机器学习的情感分析方法是将情感分析视为文本分类。这种方法从已经标记的文本中提取特征，然后对未知文本进行分类。这类方法通常需要大量的带标记的训练集，分类精度和训练集的规模有很大关系。

但由于这些新兴的社交网络的内容是由用户生成的，其表达方式各异，生成的句子简短，含有大量的噪音来干扰传统的情感分析方法。传统的单纯基于选择不同的文本特征的方法在这种新的情境下并不适用。这些方法假设各个文本之间是相互独立的，在社交网站上，这个假设并不成立，文本之间存在着各样的关系。

发明内容

本发明的发明目的在于结合新涌现的社交网络的特征，提供一种不同于基于文本之间相互独立模型的新型的微博情感分析方法。

本发明为一种结合用户结构相似度进行微博情感分析的方法，具体包括如下步骤：

(1)根据微博用户之间的关注关系，计算用户之间的结构相似度，建立用户相似度矩阵，即情绪感染性矩阵，同时建立情绪感染性模型；

(2)根据社会学中的情感一致性理论，建立微博之间的情感一致性关系矩阵，同时建立情绪一致性模型；

(3)使用前两步生成的模型，建立根据微博间关系矩阵形成的微博情感分析模型；

(4)在前三步的基础上，加入使用微博文本内容的情感分析模型；

(5)对第四步建立的模型进行优化，求解出微博情感分析器。

所述的步骤(1)中建立用户相似度矩阵具体包括如下步骤：

(1.1)对于两个用户u_i和u_j，其结构相似度计算公式为：

(1.2)建立用户结构相似度矩阵S，其第i行第j列表示的是用户u_i和u_j之间的结构相似度，即S_ij＝Sim(u_i,u_j)；

(1.3)根据用户结构相似度矩阵和情绪感染性理论，建立情绪感染性矩阵A_ec：

A_ec＝U^T×S×U；

其中U为用户微博矩阵，其第i行第j列表示的是用户u_i发布了微博d_j；

(1.4)根据用户之间越相似，其表达的情感越有可能相同，建立以下模型：

其中L_ec＝D_ec-A_ec，D_ec是对角阵，

所述的步骤(2)中建立情绪一致性模型具体包括如下步骤：

(2.1)根据情感一致性理论，建立情感一致性矩阵A_sc，其中A_sc＝U^T×U；

(2.2)根据同一用户发布的微博其情感更趋于一致，建立以下模型：

其中L_sc＝D_sc-A_sc，D_sc是对角阵，所述的步骤(3)中微博关系情感分析模型具体包括如下步骤:

(3.1)合并步骤(1)和步骤(2)的模型，生成如下模型：

其中，α₁和α₂分别表示情感一致性和情绪感染性在模型中所占的比例；

(3.2)对(3.1)中的公式进行优化：

(3.3)令A＝α₁A_scij+α₂A_ecij，(3.2)的公式可化为：

其中L＝D-A，D是对角阵，所述的步骤(4)中微博关系情感分析模型具体包括如下步骤：

(4.1)结合微博的文本特征，更新步骤(3.3)的模型，即：

(4.2)对(4.1)中的模型进行正则化处理，加上正则化项||W||₁；此时，待求解模型为：

其中α和β为二者对应的权重。

所述的步骤(5)具体包括如下步骤：

(5.1)将目标函数f(W；X,Y)改写为：

其中，L(W；X,Y)是可微部分，R(W)是不可微部分；

(5.2)将步骤(5.1)看作有限制的凸优化问题，其可微部分可以用近似函数来表示：

其中λ_t是第t次迭代的步长，L(W；X,Y)的在W处的梯度为：

因此原来的优化问题变为：

(5.3)计算第t+1次的W：

其中，

(5.4)重复计算W直到W收敛或者循环次数超过设定值。

本发明的有益效果在于：

1.提出了一种在新兴社交网络上的新假设，即微博文本之间并不是相互独立的。这种新假设更加符合社交网络的情况，能够使模型更精确。

2.根据微博用户之间的关注关系，提出了一种计算用户结构相似度的方法，定义了新的情绪感染性矩阵。建立用户相似度矩阵有助于细化用户之间的关系，相比于根据用户之间的关注关系的方法，相似度能提取更多的隐含信息。

3.在利用微博关系矩阵的基础上，本方法同样使用微博的文本内容。可以对这两个特征赋予不同的权值，从而使分析结果更准确。

具体实施方式

本发明具体包括如下步骤：

(5)对第四步建立的模型进行优化，求解出微博情感分析器。

下面对本发明的实施过程作进一步详细的描述。

步骤1：根据微博用户之间的关注关系，计算用户之间的结构相似度，建立用户相似度矩阵，即情绪感染性矩阵。具体计算步骤为：

步骤1.1：对于两个用户u_i和u_j，其结构相似度计算公式为：

其中表示二者共同的好友数量。表示的是用户u_i的邻居,即与其有直接关注关系的用户。表示二者好友的并集。

步骤1.2：建立用户结构相似度矩阵S，其第i行第j列表示的是用户u_i和u_j之间的结构相似度，即S_ij＝Sim(u_i,u_j)；

步骤1.3：根据用户结构相似度矩阵和情绪感染性理论，建立情绪感染性矩阵A_ec，其中

A_ec＝U^T×S×U

U为用户微博矩阵，其第i行第j列表示的是用户u_i发布了微博d_j。

步骤1.4：根据用户之间越相似，其表达的情感越有可能相同，建立以下模型：

其中L_sc＝D_sc-A_sc，D_sc是对角阵，Y∈R^n×c为每个微博对应的情感标签矩阵，n为微博数量，c为情感种类数目。为矩阵Y的第i行，为矩阵Y的第k列。X∈R^n×m(m表示特征数目)为微博特征矩阵，W∈R^m×c为分类器。

该步骤的目的是使相似度大的用户之间的情感差别尽可能小。

步骤2：根据社会学中的情感一致性理论，建立微博之间的情感一致性关系矩阵。

步骤2.1:首先根据用户发布微博的信息，根据情感一致性理论，建立微博之间的情感一致性关系矩阵A_sc：

A_sc＝U^T×U

步骤2.2：根据情感一致性理论，一个用户发布的微博之间情感更相似，建立情感一致性模型：

其中L_sc＝D_sc-A_sc，D_sc是对角阵，

步骤3：使用前两步生成的模型，建立根据微博间关系矩阵形成的微博情感分析模型。

步骤3.1：合并步骤1和步骤2的模型，即生成：

其中，α₁，α₂分别表示情感一致性和情绪感染性在模型中所占的比例。

步骤3.2：对步骤3.1中的公式进行优化，可化为：

步骤3.3：令A＝α₁A_scij+α₂A_ecij，步骤3.2的公式可化为：

其中L＝D-A，D是对角阵，

步骤4：在前三步的基础上，加入使用微博文本内容的情感分析模型。

步骤4.1：结合微博的文本特征，更新步骤3.3的模型。即：

步骤4.2：对步骤4.1中的模型进行正则化处理，加上正则化项||W||₁。此时，待求解模型为：

α和β为二者对应的权重。

步骤5：对第四步建立的模型进行优化，求解出微博情感分析器。

步骤5.1：将目标函数f(W；X,Y)改写为：

其中，L(W；X,Y)是可微部分，R(W)是不可微部分，因此上式是非光滑的。

步骤5.2：为了解决这个优化问题，可以将步骤5.1看作是有限制的凸优化问题。其可微部分可以用近似函数来表示。

其中λ_t是第t次迭代的步长。L(W；X,Y)的在W处的梯度为：

因此原来的优化问题变为：

步骤5.3：计算第t+1次的W。

其中，

步骤5.4：重复计算W直到W收敛或者循环次数超过设定值。

Claims

1.一种结合用户结构相似度进行微博情感分析的方法，具体包括如下步骤：

(5)对第四步建立的模型进行优化，求解出微博情感分析器。

2.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法，其特征在于所述的步骤(1)中建立用户相似度矩阵具体包括如下步骤：

(1.1)对于两个用户u_i和u_j，其结构相似度计算公式为：

A_ec＝U^T×S×U；

其中L_ec＝D_ec-A_ec，D_ec是对角阵，

3.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法，其特征在于所述的步骤(2)中建立情绪一致性模型具体包括如下步骤：

其中L_sc＝D_sc-A_sc，D_sc是对角阵，

4.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法，其特征在于所述的步骤(3)中微博关系情感分析模型具体包括如下步骤：

(3.1)合并步骤(1)和步骤(2)的模型，生成如下模型：

(3.2)对(3.1)中的公式进行优化：

(3.3)令A＝α₁A_scij+α₂A_ecij，(3.2)的公式可化为：

其中L＝D-A，D是对角阵，

5.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法，其特征在于所述的步骤(4)中微博关系情感分析模型具体包括如下步骤：

(4.1)结合微博的文本特征，更新步骤(3.3)的模型，即：

其中α和β为二者对应的权重。

6.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法，其特征在于所述的步骤(5)具体包括如下步骤：

(5.1)将目标函数f(W；X,Y)改写为：

其中，L(W；X,Y)是可微部分，R(W)是不可微部分；

其中λ_t是第t次迭代的步长，L(W；X,Y)的在W处的梯度为：

因此原来的优化问题变为：

(5.3)计算第t+1次的W：

其中，

(5.4)重复计算W直到W收敛或者循环次数超过设定值。