CN105183717A

CN105183717A - 一种基于随机森林和用户关系的osn用户情感分析方法

Info

Publication number: CN105183717A
Application number: CN201510611410.4A
Authority: CN
Inventors: 曹玖新; 马卓; 王瑶; 刘波; 陈高君
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-09-23
Filing date: 2015-09-23
Publication date: 2015-12-23
Anticipated expiration: 2035-09-23
Also published as: CN105183717B

Abstract

本发明公开了一种基于随机森林和用户关系的OSN用户情感分析方法，首先选择已进行情感极性标注的一定数量的微博文本作为训练集，进行文本预处理，同时提取训练集特征向量；然后随机选择一个话题，在该话题下选择一定数量的微博文本作为测试集，进行文本预处理，同时提取测试集特征向量；再将训练集特征向量送到数据挖掘软件Weka中训练、学习，选用随机森林分类算法预测测试集中每条微博文本的情感极性；最后结合用户关系和用户自身文本情感极性预测值，计算测试集中每个用户关于所选话题的情感极性，判断用户关于所选话题的情感倾向。本发明综合用户所发微博的情感极性及他关注用户的微博情感极性，对用户关于某话题的情感倾向进行分析，提高了用户情感分类的准确率。

Description

一种基于随机森林和用户关系的OSN用户情感分析方法

技术领域

本发明涉及一种基于随机森林和用户关系的OSN用户情感分析方法，属于社会计算领域，特别是情感计算领域。

背景技术

随着互联网的飞速发展，社交网络近年来成为一个社会热点事件发布、信息交流的平台。人们乐于在网络中发表自己的观点、表达自己的态度及情感，如对电影的评论，对产品的评价或对热点事件或话题的态度。然而随着在线社交网络的快速发展和用户规模的激增，面对海量的数据，仅仅使用人工方式实现用户对事件、产品的情感倾向分析并不现实。因此需要应用相关技术对用户产生的文本、用户行为记录进行综合分析，得出用户对事件、产品的情感倾向。

用户产生的文本信息包含了很多情感信息和各种情感倾向，因此很多用户情感分析研究都是基于用户文本，有的采用权重计算方法，有的采用机器学习方法。目前很多用户情感分析研究都是仅基于用户文本进行情感倾向分析，很少有研究将用户关系考虑进去。但是社交网络中的用户都是有关联的，相互关联的用户倾向于持有类似的观点或情感，用户关系的加入可能会提高用户情感分类的准确率。

发明内容

发明目的：针对现有技术中存在的问题，本发明提出一种基于随机森林和用户关系(UserRandomForest，简称URF)的OSN用户情感分析方法，利用基于情感词典的随机森林机器学习方法对文本进行情感分类，有效分析文本情感正负性；引入用户关注关系改进传统情感分析，提取用户共同好友数、用户转发行为等因素，综合用户所发微博的情感极性及他关注用户的微博情感极性，对用户对于某话题的情感倾向进行分析；引入文本预处理和文本特征选择，保证了情感分析结果的准确度；同时采用特征降维，避免过度拟合，改进预测性能。

技术方案：为了解决上述问题，本发明提出一种基于随机森林和用户关系的OSN用户情感分析方法，包括如下步骤：

1)选择已进行情感极性标注的一定数量的微博文本作为训练集，进行文本预处理，同时提取训练集特征向量；

2)随机选择一个话题，在该话题下选择一定数量的微博文本作为测试集，进行文本预处理，同时提取测试集特征向量；

3)将步骤1得到的训练集特征向量送到数据挖掘软件Weka中训练、学习，选用随机森林分类算法预测步骤2得到的测试集中每条微博文本的情感极性；

4)结合用户关系和步骤3得到的用户自身文本情感极性预测值，计算测试集中每个用户关于步骤2中所选话题的情感极性；

5)由步骤4得到用户关于步骤2中所选话题的情感极性，判断用户关于步骤2中所选话题的情感倾向。

所述步骤1的数据集中情感极性标注的具体方法为：每条微博的的真实情感极性由多位研究者共同标注，每位研究者凭自己的主观感觉判断情感极性，意见不同时采用少数服从多数的投票方式决定。

所述步骤1和步骤2进行文本预处理的具体方法为：利用中国科学院计算技术研究所推出的汉语词法分析系统ICTCLAS对选择的微博文本进行分词，同时去除停用词和情感无关符号。

在分词处理的过程中，还将常用微博表情符号和微博常用词作为用户词典添加进ICTCLAS分词系统中进行分词。

所述去除停用词的方法为基于停用词表的处理方法。

所述情感无关符号包括#、@和http://。

所述步骤1和步骤2提取特征向量的具体方法为：选取unigram、bigram、情感词、表情符号、带有情感色彩的标点符号、否定词、转折词，并基于词频进行特征降维，删除出现次数小于350次的unigram和bigram，用剩余的所有特征建立向量；其中，将unigram和bigram组合作为特征，如果该词出现则特征权重为1，否则为0；使用正向情感词、负向情感词出现次数来描述情感词特征；使用转折词出现次数来描述转折词特征；使用否定词出现次数来描述否定词特征；使用带有情感的标点符号的出现次数来描述带有情感的标点符号特征；使用正向表情符号、负向表情符号出现次数来描述表情符号特征，以此得到特征权重。

所述步骤4计算每个用户关于话题情感极性的具体方法为：

S(u)＝(1-a)*W_u+a*∑_{v∈following(u)}P_uvW_v(1)

其中，S(u)表示用户u关于话题topic的情感极性，a表示用户u受他人影响的概率，W_u表示用户u关于话题topic所发微博的极性和，P_uv表示用户u和v之间的关系强度，W_v表示用户v关于话题topic所发微博的极性和，following(u)表示用户u关注的所有用户的集合，∑_{v∈following(u)}P_uvW_v表示用户u关注其他用户关于话题topic所发微博的极性和。此外，一篇正向微博的情感极性是+1，一篇负向微博的情感极性是-1。

所述用户u和v的关系强度通过用户u转发用户v微博文本的量以及用户u与用户v共同关注微博用户的量来衡量，具体计算方法为：

用户u转发用户v微博文本的量ZF_uv为：

{ZF}_{u v} = \frac{T_{u v}}{Σ_{i &Element; f o l l o w i n g (u)} T_{u i}} - - - (2)

其中，T_uv表示用户u转发用户v的微博数，following(u)表示用户u关注的所有用户的集合，T_ui表示用户u转发用户i的微博数，∑_{i∈following(u)}T_ui表示用户u转发的所有微博文本的总数。

用户u和用户v共同关注用户的量CF_uv为：

{CF}_{u v} = \frac{| f o l l o w i n g (u) \cap f o l l o w i n g (v) |}{Σ_{i &Element; f o l l o w i n g (u)} | f o l l o w i n g (u) \cap f o l l o w i n g (i) |} - - - (3)

其中，following(u)表示用户u关注的所有用户的集合，following(v)表示用户v关注的所有用户的集合，|following(u)∩following(v)|表示用户u与用户v共同关注的用户数，following(i)表示用户i关注的所有用户的集合，|following(u)∩following(i)|表示用户u与用户i共同关注的用户数，∑_{i∈following(u)}|following(u)∩following(i)|表示用户u与他关注的用户共同关注的用户数总和。

则用户u和v的关系强度P_uv为：

P_{u v} = \frac{{ZF}_{u v} + {CF}_{u v}}{2} - - - (4)

有益效果：本发明采用如上技术方案，具有如下优点：

1、利用基于情感词典的随机森林机器学习方法对文本进行情感分类，有效分析文本情感正负性；

2、引入用户关注关系改进传统情感分析，提取用户共同好友数、用户转发行为等因素，综合用户所发微博的情感极性及他关注用户的微博情感极性，对用户关于某话题的情感倾向进行分析，提高用户情感分类的准确率；

3、引入文本预处理和文本特征选择，保证了情感分析结果的准确度；

4、采用特征降维，避免过度拟合，改进预测性能。

附图说明

图1为本发明的情感分析流程图；

图2为本发明的整体系统框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等同变换均落于本申请所附权利要求所限定的范围。

本发明所述的基于随机森林和用户关系的OSN用户情感分析方法，包括如下步骤：

步骤1：选择已进行情感极性标注的一定数量的微博文本作为训练集，进行文本预处理，同时提取训练集特征向量，计算特征权重，所述每条微博的的真实情感极性由实验室7位研究者共同标注，每位研究者凭自己的主观感觉判断情感极性，意见不同时采用少数服从多数的投票方式决定。

对于文本预处理，主要可以分为三步：

1)进行中文分词，选择一定数量的微博文本，利用中国科学院计算技术研究所推出的汉语词法分析系统ICTCLAS进行分词，为了进一步提高中文分词系统的准确性，同时将一些常用微博表情符号和微博常用词作为用户词典添加进ICTCLAS分词系统中；

2)去除停用词，停用词即功能词，通常没有实际含义，去除停用词可以降低运算的复杂度，在文本预处理中采用了基于停用词表的处理方法去除停用词；

3)去除情感无关符号，情感无关符号通常在微博文本中起辅助作用，一般在情感分析研究中无实际意义，微博中常见的情感无关符号有“#、@、http://”等。

对于特征向量提取，首先选取N-gram(N＝1,2)、情感词、表情符号、带有情感色彩的标点符号、否定词、转折词，然后基于词频进行特征降维，删除出现次数小于预设值的N-gram(N＝1,2)，最后用剩余的所有特征建立向量，具体方法如下：

1)采用词频法进行特征降维。词频是一个词在文档中出现的次数，通常认为一个词在文档中出现的次数少，那么它包含的信息就少，对文档的贡献也相对较小。词频法就是删除文档中出现次数小于某个预设值的词。在此将阈值设为350，删除出现次数小于350的N-gram(N＝1,2)，用剩余的所有特征建立向量；

2)对于N-gram的特征选择，该模型基于如下假设：第N个词的出现只和前面的N-1个词相关，而与其它词无关，整句的概率P_sentence就是各个词出现概率P_wordi的乘积，如果将整句的单词从0开始编号，对于有N_word+1个单词的句子，即整句的概率P_sentence可表示为：

P_{s e n t e n c e} = Π_{i = 0}^{N_{w o r d}} P_{{word}_{i}} - - - (5)

概率P_wordi可以通过从语料中直接统计N个词同时出现的次数得到，假设word_i出现的次数为N_wordi，那么各个词的概率P_wordi可表示为：

P_{{word}_{i}} = \frac{N_{{word}_{i}}}{Σ_{i = 0}^{N} N_{{word}_{i}}} - - - (6)

如果一个词的出现和这句话中的其他词都无关，则称之为unigram，unigram也可看作是N-gram中N＝1的特殊情况。如果一个词的出现仅和它前面一个词有关而和其他词无关，则称之为bigram，同理，bigram也可看作是N-gram中N＝2的特殊情况。

在文本特征选择中采用了组合的N-gram(N＝1,2)作为特征，如果该词出现，则特征权重为1，否则为0；

3)对于情感词的特征选择，重在构建完备的情感词典，在此结合了知网词典(HowNet)、中国台湾大学中文情感词典(NTUSD)、大连理工大学信息检索研究室推出的中文情感词汇本体库构建了一个较为完备的情感词典，通过正向情感词和负向情感词出现的次数来描述此特征；

4)对于转折词的特征选择，基于网络搜索构建了常用转折词表，并选用转折词出现次数来描述此特征；

5)对于否定词的特征选择，基于网络搜索构建了常用否定词表，并选用否定词出现次数来描述此特征；

6)对于带有情感的标点符号的特征选择，选用带有情感的标点符号出现的次数来描述此特征；

7)对于表情符号的特征选择，由于表情符号在新浪微博中以[开心]、[哈哈]、[怒]等这样的文本形式显示，因此可以按情感色彩的不同将常用微博表情符号分为正向和负向两种，并由此构建正向表情符号表和负向表情符号表，在此选用正向表情符号、负向表情符号出现次数来描述此特征。

步骤2：随机选择一个话题topic，在该话题下选择一定数量的微博文本作为测试集，并通过步骤1所述方法提取测试集特征向量；

步骤3：将步骤1得到的训练集特征向量送到数据挖掘软件Weka中训练、学习，选用随机森林分类算法预测步骤2得到的测试集中每条微博文本的情感极性；

步骤4：结合用户关系和步骤3得到的用户自身文本情感极性预测值，计算测试集中每个用户关于步骤2中所选话题的情感极性；

标记步骤3中通过文本情感分析得到的每条微博的极性，一篇正向微博的情感极性是+1，一篇负向微博的情感极性是-1。假设用户u关于话题topic所发微博的极性和为W_u，用户v关于话题topic所发微博的极性和为W_v，用户u和用户v之间的关系强度为P_uv，用户u关注的所有用户的集合为following(u)，那么用户u关注其他用户关于话题topic所发微博的极性和∑_{v∈following(u)}P_uvW_v，若用系数a表示用户u受他人影响的概率，那么即可得到下面的公式1来表示每个用户节点关于话题topic的情感极性：

S(u)＝(1-a)*W_u+a*∑_{v∈following(u)}P_uvW_v(1)

对于公式中的用户关系强度P_uv，OSN用户情感分析方法采用用户u转发用户v微博的量ZF_uv以及用户u和用户v共同关注用户的量CF_uv来衡量。用户u转发用户v微博的量ZF_uv和用户u和用户v共同关注用户的量CF_uv越大，意味着用户关系越紧密，交互强度越大。

用户u转发用户v微博的量ZF_uv的计算方法见公式2：

{ZF}_{u v} = \frac{T_{u v}}{Σ_{i &Element; f o l l o w i n g (u)} T_{u i}} - - - (2)

用户u和用户v共同关注用户的量CF_uv的计算方法见公式3：

{CF}_{u v} = \frac{| f o l l o w i n g (u) \cap f o l l o w i n g (v) |}{Σ_{i &Element; f o l l o w i n g (u)} | f o l l o w i n g (u) \cap f o l l o w i n g (i) |} - - - (3)

用户关系强度P_uv的计算方法见公式4：

P_{u v} = \frac{{ZF}_{u v} + {CF}_{u v}}{2} - - - (4)

步骤5：由步骤4得到用户关于话题topic的情感极性，判断用户关于话题topic的情感倾向，如果S(u)≥0，那么判断在话题topic下用户u的情感是正向的，如果S(u)<0，则判断在话题topic下用户u的情感是负向的。

Claims

1.一种基于随机森林和用户关系的OSN用户情感分析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于随机森林和用户关系的OSN用户情感分析方法，其特征在于，所述步骤1的数据集中，每条微博的的真实情感极性通过少数服从多数的人工投票方式决定。

3.根据权利要求1所述的基于随机森林和用户关系的OSN用户情感分析方法，其特征在于，所述步骤1和步骤2进行文本预处理的具体方法为：利用中国科学院计算技术研究所推出的汉语词法分析系统ICTCLAS对选择的微博文本进行分词，同时去除停用词和情感无关符号。

4.根据权利要求2所述的基于随机森林和用户关系的OSN用户情感分析方法，其特征在于，在分词处理的过程中，还将常用微博表情符号和微博常用词作为用户词典添加进ICTCLAS分词系统中进行分词。

5.根据权利要求2所述的基于随机森林和用户关系的OSN用户情感分析方法，其特征在于，所述去除停用词的方法为基于停用词表的处理方法。

6.根据权利要求2所述的基于随机森林和用户关系的OSN用户情感分析方法，其特征在于，所述情感无关符号包括#、@和http://。

7.根据权利要求1所述的基于随机森林和用户关系的OSN用户情感分析方法，其特征在于，所述步骤1和步骤2提取特征向量的具体方法为：选取unigram、bigram、情感词、表情符号、带有情感色彩的标点符号、否定词、转折词，并基于词频进行特征降维，删除出现次数小于350次的unigram和bigram，用剩余的所有特征建立向量；

其中，将unigram和bigram组合作为特征，如果该词出现则特征权重为1，否则为0；使用正向情感词、负向情感词出现次数来描述情感词特征；使用转折词出现次数来描述转折词特征；使用否定词出现次数来描述否定词特征；使用带有情感的标点符号的出现次数来描述带有情感的标点符号特征；使用正向表情符号、负向表情符号出现次数来描述表情符号特征，以此得到特征权重。

8.根据权利要求1所述的基于随机森林和用户关系的OSN用户情感分析方法，其特征在于，所述步骤4计算每个用户关于话题情感极性的具体方法为：

S(u)＝(1-a)*W_u+a*∑_{v∈following(u)}P_uvW_v(1)

其中，S(u)表示用户u关于话题topic的情感极性，a表示用户u受他人影响的概率，W_u表示用户u关于话题topic所发微博的极性和，P_uv表示用户u和v之间的关系强度，W_v表示用户v关于话题topic所发微博的极性和，following(u)表示用户u关注的所有用户的集合，∑_{v∈following(u)}P_uvW_v表示用户u关注其他用户关于话题topic所发微博的极性和，一篇正向微博的情感极性是+1，一篇负向微博的情感极性是-1。

9.根据权利要求8所述的基于随机森林和用户关系的OSN用户情感分析方法，其特征在于，所述用户u和v的关系强度通过用户u转发用户v微博文本的量以及用户u与用户v共同关注微博用户的量来衡量，具体计算方法为：

用户u转发用户v微博文本的量ZF_uv为：

用户u和用户v共同关注用户的量CF_uv为：

则用户u和v的关系强度P_uv为：

。