CN109508380A - 一种结合用户结构相似度进行微博情感分析的方法 - Google Patents
一种结合用户结构相似度进行微博情感分析的方法 Download PDFInfo
- Publication number
- CN109508380A CN109508380A CN201910041751.0A CN201910041751A CN109508380A CN 109508380 A CN109508380 A CN 109508380A CN 201910041751 A CN201910041751 A CN 201910041751A CN 109508380 A CN109508380 A CN 109508380A
- Authority
- CN
- China
- Prior art keywords
- model
- user
- matrix
- microblogging
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种结合用户结构相似度进行微博情感分析的方法。方法包括以下步骤:(1)根据微博用户之间的关注关系,计算用户之间的结构相似度,建立用户相似度矩阵,即情绪感染性矩阵,同时建立情绪感染性模型;(2)根据社会学中的情感一致性理论,建立微博之间的情感一致性关系矩阵,同时建立情绪一致性模型;(3)使用前两步生成的模型,建立根据微博间关系矩阵形成的微博情感分析模型;(4)在前三步的基础上,加入使用微博文本内容的情感分析模型;(5)对第四步建立的模型进行优化,求解出微博情感分析器。本发明的优势在于针对微博数据的特点,提出了结合微博数据间关系的方法进行情感分析,有效的提高了微博情感分析的准确率。
Description
技术领域
本发明属于大数据分析领域,具体涉及一种结合用户结构相似度进行微博情感分析的方法。
背景技术
随着互联网技术的发展,大量新型的社交平台如Twitter、新浪微博等随之出现。它们吸引着大量用户,用户在这些网站上发表大量包含着他们各种各样的观点的推文、微博。而分析用户观点在各个领域都有重要作用和意义,例如可以通过分析用户观点来对股市进行预测、提高推荐系统的准确率、调查用户对于产品的反馈、帮助政府部门进行舆情监督等。以上所述的分析用户观点的过程就称为情感分析。虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作大部分都是基于Pang在2002的研究。而相对来说,Turney同样在2002提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。
Pang于2002年开始通过基于监督学习方法对电影评论文本进行情感倾向性分类,Turney也于2002年通过基于无监督学习对文本情感倾向性分类进行研究。Pang基于文本的N元语法gram和词类POS等特征分别使用朴素贝叶斯Naive Bayes,最大熵Maximum Entropy和支持向量机SVM将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。Turney在基于点互信息PMI计算文本中抽取的关键词和种子词的相似度来对文本的情感倾向性进行判别,即所谓的SO-PMI算法。
情感分类方法可以分为两类:基于词典的分析方法和基于机器学习的方法。基于词典的分析方法利用情感词典如SentiWordNet,SenticNet等对句子中的词进行情感标记,整个文档的情感是对其句子的词的情感的综合。基于词典的情感分析方法是无监督的,并不需要事先标记的数据集,这种方法的缺点是过分依赖情感词典,且可移植性差,与分析领域有很大关联。基于机器学习的情感分析方法是将情感分析视为文本分类。这种方法从已经标记的文本中提取特征,然后对未知文本进行分类。这类方法通常需要大量的带标记的训练集,分类精度和训练集的规模有很大关系。
但由于这些新兴的社交网络的内容是由用户生成的,其表达方式各异,生成的句子简短,含有大量的噪音来干扰传统的情感分析方法。传统的单纯基于选择不同的文本特征的方法在这种新的情境下并不适用。这些方法假设各个文本之间是相互独立的,在社交网站上,这个假设并不成立,文本之间存在着各样的关系。
发明内容
本发明的发明目的在于结合新涌现的社交网络的特征,提供一种不同于基于文本之间相互独立模型的新型的微博情感分析方法。
本发明为一种结合用户结构相似度进行微博情感分析的方法,具体包括如下步骤:
(1)根据微博用户之间的关注关系,计算用户之间的结构相似度,建立用户相似度矩阵,即情绪感染性矩阵,同时建立情绪感染性模型;
(2)根据社会学中的情感一致性理论,建立微博之间的情感一致性关系矩阵,同时建立情绪一致性模型;
(3)使用前两步生成的模型,建立根据微博间关系矩阵形成的微博情感分析模型;
(4)在前三步的基础上,加入使用微博文本内容的情感分析模型;
(5)对第四步建立的模型进行优化,求解出微博情感分析器。
所述的步骤(1)中建立用户相似度矩阵具体包括如下步骤:
(1.1)对于两个用户ui和uj,其结构相似度计算公式为:
(1.2)建立用户结构相似度矩阵S,其第i行第j列表示的是用户ui和uj之间的结构相似度,即Sij=Sim(ui,uj);
(1.3)根据用户结构相似度矩阵和情绪感染性理论,建立情绪感染性矩阵Aec:
Aec=UT×S×U;
其中U为用户微博矩阵,其第i行第j列表示的是用户ui发布了微博dj;
(1.4)根据用户之间越相似,其表达的情感越有可能相同,建立以下模型:
其中Lec=Dec-Aec,Dec是对角阵,
所述的步骤(2)中建立情绪一致性模型具体包括如下步骤:
(2.1)根据情感一致性理论,建立情感一致性矩阵Asc,其中Asc=UT×U;
(2.2)根据同一用户发布的微博其情感更趋于一致,建立以下模型:
其中Lsc=Dsc-Asc,Dsc是对角阵,所述的步骤(3)中微博关系情感分析模型具体包括如下步骤:
(3.1)合并步骤(1)和步骤(2)的模型,生成如下模型:
其中,α1和α2分别表示情感一致性和情绪感染性在模型中所占的比例;
(3.2)对(3.1)中的公式进行优化:
(3.3)令A=α1Ascij+α2Aecij,(3.2)的公式可化为:
其中L=D-A,D是对角阵,所述的步骤(4)中微博关系情感分析模型具体包括如下步骤:
(4.1)结合微博的文本特征,更新步骤(3.3)的模型,即:
(4.2)对(4.1)中的模型进行正则化处理,加上正则化项||W||1;此时,待求解模型为:
其中α和β为二者对应的权重。
所述的步骤(5)具体包括如下步骤:
(5.1)将目标函数f(W;X,Y)改写为:
其中,L(W;X,Y)是可微部分,R(W)是不可微部分;
(5.2)将步骤(5.1)看作有限制的凸优化问题,其可微部分可以用近似函数来表示:
其中λt是第t次迭代的步长,L(W;X,Y)的在W处的梯度为:
因此原来的优化问题变为:
(5.3)计算第t+1次的W:
其中,
(5.4)重复计算W直到W收敛或者循环次数超过设定值。
本发明的有益效果在于:
1.提出了一种在新兴社交网络上的新假设,即微博文本之间并不是相互独立的。这种新假设更加符合社交网络的情况,能够使模型更精确。
2.根据微博用户之间的关注关系,提出了一种计算用户结构相似度的方法,定义了新的情绪感染性矩阵。建立用户相似度矩阵有助于细化用户之间的关系,相比于根据用户之间的关注关系的方法,相似度能提取更多的隐含信息。
3.在利用微博关系矩阵的基础上,本方法同样使用微博的文本内容。可以对这两个特征赋予不同的权值,从而使分析结果更准确。
具体实施方式
本发明具体包括如下步骤:
(1)根据微博用户之间的关注关系,计算用户之间的结构相似度,建立用户相似度矩阵,即情绪感染性矩阵,同时建立情绪感染性模型;
(2)根据社会学中的情感一致性理论,建立微博之间的情感一致性关系矩阵,同时建立情绪一致性模型;
(3)使用前两步生成的模型,建立根据微博间关系矩阵形成的微博情感分析模型;
(4)在前三步的基础上,加入使用微博文本内容的情感分析模型;
(5)对第四步建立的模型进行优化,求解出微博情感分析器。
下面对本发明的实施过程作进一步详细的描述。
步骤1:根据微博用户之间的关注关系,计算用户之间的结构相似度,建立用户相似度矩阵,即情绪感染性矩阵。具体计算步骤为:
步骤1.1:对于两个用户ui和uj,其结构相似度计算公式为:
其中表示二者共同的好友数量。表示的是用户ui的邻居,即与其有直接关注关系的用户。表示二者好友的并集。
步骤1.2:建立用户结构相似度矩阵S,其第i行第j列表示的是用户ui和uj之间的结构相似度,即Sij=Sim(ui,uj);
步骤1.3:根据用户结构相似度矩阵和情绪感染性理论,建立情绪感染性矩阵Aec,其中
Aec=UT×S×U
U为用户微博矩阵,其第i行第j列表示的是用户ui发布了微博dj。
步骤1.4:根据用户之间越相似,其表达的情感越有可能相同,建立以下模型:
其中Lsc=Dsc-Asc,Dsc是对角阵,Y∈Rn×c为每个微博对应的情感标签矩阵,n为微博数量,c为情感种类数目。为矩阵Y的第i行,为矩阵Y的第k列。X∈Rn×m(m表示特征数目)为微博特征矩阵,W∈Rm×c为分类器。
该步骤的目的是使相似度大的用户之间的情感差别尽可能小。
步骤2:根据社会学中的情感一致性理论,建立微博之间的情感一致性关系矩阵。
步骤2.1:首先根据用户发布微博的信息,根据情感一致性理论,建立微博之间的情感一致性关系矩阵Asc:
Asc=UT×U
步骤2.2:根据情感一致性理论,一个用户发布的微博之间情感更相似,建立情感一致性模型:
其中Lsc=Dsc-Asc,Dsc是对角阵,
步骤3:使用前两步生成的模型,建立根据微博间关系矩阵形成的微博情感分析模型。
步骤3.1:合并步骤1和步骤2的模型,即生成:
其中,α1,α2分别表示情感一致性和情绪感染性在模型中所占的比例。
步骤3.2:对步骤3.1中的公式进行优化,可化为:
步骤3.3:令A=α1Ascij+α2Aecij,步骤3.2的公式可化为:
其中L=D-A,D是对角阵,
步骤4:在前三步的基础上,加入使用微博文本内容的情感分析模型。
步骤4.1:结合微博的文本特征,更新步骤3.3的模型。即:
步骤4.2:对步骤4.1中的模型进行正则化处理,加上正则化项||W||1。此时,待求解模型为:
α和β为二者对应的权重。
步骤5:对第四步建立的模型进行优化,求解出微博情感分析器。
步骤5.1:将目标函数f(W;X,Y)改写为:
其中,L(W;X,Y)是可微部分,R(W)是不可微部分,因此上式是非光滑的。
步骤5.2:为了解决这个优化问题,可以将步骤5.1看作是有限制的凸优化问题。其可微部分可以用近似函数来表示。
其中λt是第t次迭代的步长。L(W;X,Y)的在W处的梯度为:
因此原来的优化问题变为:
步骤5.3:计算第t+1次的W。
其中,
步骤5.4:重复计算W直到W收敛或者循环次数超过设定值。
Claims (6)
1.一种结合用户结构相似度进行微博情感分析的方法,具体包括如下步骤:
(1)根据微博用户之间的关注关系,计算用户之间的结构相似度,建立用户相似度矩阵,即情绪感染性矩阵,同时建立情绪感染性模型;
(2)根据社会学中的情感一致性理论,建立微博之间的情感一致性关系矩阵,同时建立情绪一致性模型;
(3)使用前两步生成的模型,建立根据微博间关系矩阵形成的微博情感分析模型;
(4)在前三步的基础上,加入使用微博文本内容的情感分析模型;
(5)对第四步建立的模型进行优化,求解出微博情感分析器。
2.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法,其特征在于所述的步骤(1)中建立用户相似度矩阵具体包括如下步骤:
(1.1)对于两个用户ui和uj,其结构相似度计算公式为:
(1.2)建立用户结构相似度矩阵S,其第i行第j列表示的是用户ui和uj之间的结构相似度,即Sij=Sim(ui,uj);
(1.3)根据用户结构相似度矩阵和情绪感染性理论,建立情绪感染性矩阵Aec:
Aec=UT×S×U;
其中U为用户微博矩阵,其第i行第j列表示的是用户ui发布了微博dj;
(1.4)根据用户之间越相似,其表达的情感越有可能相同,建立以下模型:
其中Lec=Dec-Aec,Dec是对角阵,
3.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法,其特征在于所述的步骤(2)中建立情绪一致性模型具体包括如下步骤:
(2.1)根据情感一致性理论,建立情感一致性矩阵Asc,其中Asc=UT×U;
(2.2)根据同一用户发布的微博其情感更趋于一致,建立以下模型:
其中Lsc=Dsc-Asc,Dsc是对角阵,
4.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法,其特征在于所述的步骤(3)中微博关系情感分析模型具体包括如下步骤:
(3.1)合并步骤(1)和步骤(2)的模型,生成如下模型:
其中,α1和α2分别表示情感一致性和情绪感染性在模型中所占的比例;
(3.2)对(3.1)中的公式进行优化:
(3.3)令A=α1Ascij+α2Aecij,(3.2)的公式可化为:
其中L=D-A,D是对角阵,
5.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法,其特征在于所述的步骤(4)中微博关系情感分析模型具体包括如下步骤:
(4.1)结合微博的文本特征,更新步骤(3.3)的模型,即:
(4.2)对(4.1)中的模型进行正则化处理,加上正则化项||W||1;此时,待求解模型为:
其中α和β为二者对应的权重。
6.根据权利要求1所述的一种结合用户结构相似度进行微博情感分析的方法,其特征在于所述的步骤(5)具体包括如下步骤:
(5.1)将目标函数f(W;X,Y)改写为:
其中,L(W;X,Y)是可微部分,R(W)是不可微部分;
(5.2)将步骤(5.1)看作有限制的凸优化问题,其可微部分可以用近似函数来表示:
其中λt是第t次迭代的步长,L(W;X,Y)的在W处的梯度为:
因此原来的优化问题变为:
(5.3)计算第t+1次的W:
其中,
(5.4)重复计算W直到W收敛或者循环次数超过设定值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810255305 | 2018-03-25 | ||
CN2018102553055 | 2018-03-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109508380A true CN109508380A (zh) | 2019-03-22 |
CN109508380B CN109508380B (zh) | 2021-07-16 |
Family
ID=65757983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910041751.0A Active CN109508380B (zh) | 2018-03-25 | 2019-01-16 | 一种结合用户结构相似度进行微博情感分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508380B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806476A (zh) * | 2021-07-28 | 2021-12-17 | 合肥工业大学 | 综合用户人格特征和社交关系的用户情绪分析方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013059290A1 (en) * | 2011-10-17 | 2013-04-25 | Metavana, Inc. | Sentiment and influence analysis of twitter tweets |
CN104809104A (zh) * | 2015-05-11 | 2015-07-29 | 苏州大学 | 一种微博文本情绪识别方法及系统 |
CN105045822A (zh) * | 2015-06-26 | 2015-11-11 | 淮海工学院 | 一种微博中特定用户的相似用户监控方法 |
CN106202053A (zh) * | 2016-07-22 | 2016-12-07 | 福建师范大学 | 一种社交关系驱动的微博主题情感分析方法 |
-
2019
- 2019-01-16 CN CN201910041751.0A patent/CN109508380B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013059290A1 (en) * | 2011-10-17 | 2013-04-25 | Metavana, Inc. | Sentiment and influence analysis of twitter tweets |
CN104809104A (zh) * | 2015-05-11 | 2015-07-29 | 苏州大学 | 一种微博文本情绪识别方法及系统 |
CN105045822A (zh) * | 2015-06-26 | 2015-11-11 | 淮海工学院 | 一种微博中特定用户的相似用户监控方法 |
CN106202053A (zh) * | 2016-07-22 | 2016-12-07 | 福建师范大学 | 一种社交关系驱动的微博主题情感分析方法 |
Non-Patent Citations (1)
Title |
---|
刘志江: "基于群体智能的微博公众情感预测方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806476A (zh) * | 2021-07-28 | 2021-12-17 | 合肥工业大学 | 综合用户人格特征和社交关系的用户情绪分析方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109508380B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Combining convolution neural network and bidirectional gated recurrent unit for sentence semantic classification | |
Wu et al. | Collaborative multi-domain sentiment classification | |
Kreutzer et al. | Bandit structured prediction for neural sequence-to-sequence learning | |
Zhang et al. | Hotel reviews sentiment analysis based on word vector clustering | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN112069320A (zh) | 一种基于跨度的细粒度情感分析方法 | |
Kim et al. | Pre-training of hidden-unit crfs | |
Li et al. | Transferable discriminant linear regression for cross-corpus speech emotion recognition | |
Lin et al. | Ensemble making few-shot learning stronger | |
Li et al. | BERTtoCNN: Similarity-preserving enhanced knowledge distillation for stance detection | |
Sun et al. | Ta4rec: Recurrent neural networks with time attention factors for session-based recommendations | |
CN109508380A (zh) | 一种结合用户结构相似度进行微博情感分析的方法 | |
CN109902174B (zh) | 一种基于方面依赖的记忆网络的情感极性检测方法 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 | |
Araque et al. | Neural domain adaptation of sentiment lexicons | |
Kim et al. | Multi-pretraining for large-scale text classification | |
Bai et al. | A weakly supervised knowledge attentive network for aspect-level sentiment classification | |
Yin et al. | Character-level attention convolutional neural networks for short-text classification | |
Wróbel et al. | Improving text classification with vectors of reduced precision | |
Yuan et al. | Design of festival sentiment classifier based on social network | |
Hilmiaji et al. | Identifying Emotion on Indonesian Tweets using Convolutional Neural Networks | |
Xu et al. | Cross-media retrieval based on pseudo-label learning and semantic consistency algorithm | |
Zeng et al. | Multifeature interactive fusion model for aspect-based sentiment analysis | |
Long et al. | MCP-LSTM network for sentence-level sentiment classification | |
Wani et al. | BiLSTM and VAE Enhanced Multi-Task Neural Network for Trust-Aware E-Commerce Product Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |