CN112000804B

CN112000804B - 一种微博热点话题用户群情感倾向性分析方法

Info

Publication number: CN112000804B
Application number: CN202010833858.1A
Authority: CN
Inventors: 朱奥强; 张顺香; 朱广丽; 孟楠; 徐新燕; 张延�; 朱海洋; 许汗清; 张梦瑶; 张标; 尹畅; 余宏斌
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2022-08-02
Anticipated expiration: 2040-08-18
Also published as: CN112000804A

Abstract

本发明公布一种微博热点话题用户群情感倾向性分析方法，属于情感分析领域，其中，方法的实现包括数据预处理、关键词提取、为微博词集构建、初始情感词集构建、情感强度确定、四元组词典构建、用户情感倾向计算和用户群情感倾向性分析。该方法首先结合微博文本信息和基础词典利用TF‑IDF和K‑means++聚类选择出特定话题下覆盖度广、代表性强的情感倾向明显的情感词，在指定微博文本中计算选定情感词的情感强度，再构建可整合多来源情感词的词典；再利用改进后的情感词典对微博用户文本情感分析，得到用户群的情感倾向。利用本发明的方案能够很好解决特定话题的专有词在通用词典识别不准确，判断结果与实际情况不相符的情况，有很强的实际应用价值和现实意义。

Description

一种微博热点话题用户群情感倾向性分析方法

技术领域

本发明涉及情感分析领域，具体是一种微博热点话题用户群情感倾向性分析方法。

背景技术

在以微博为代表的虚拟社交平台上，对于某一热点话题人们可以自由地以文本、图片和视频等形式发布个人内容，进行信息交流和意见表达。微博因其分享便捷、传播迅速、用户众多的特点，成为人们传递观点和获取信息最为热门的社交平台之一，微博热点话题更是网民关注的焦点。随着时间的推移，热点话题下不断的有新用户加入，新用户对话题的认知很大程度上受到当前用户群情感倾向的影响。因此了解用户群的情感倾向，将有助于获取大众对于有关政策的意见、相关产品的满意程度和各种社会事件的看法等等。

然而，微博热点话题不仅语义丰富而且复杂多变，在不同的微博热点题中，同样的情感词具有的情感强度又不尽相同，并且会出现一些特定话题下具有很强情感强度的网络新词或热点话题下的具有情感的话题特征词，这使得对微博热点话题的情感分析变得相对困难。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的是提供一种微博热点话题用户群情感倾向性分析方法；该方法将基础情感词典与微博热点文本信息相结合，构造特定热点话题下的专属情感词典来对用户群情感倾向性分，提高了在复杂多变的微博预料中用户情感倾向性分析的准确性。

本发明实现发明目的采用如下技术方案：

一种微博热点话题用户群情感倾向性分析方法，具体包括以下步骤：

对爬取的微博信息进行预处理，得到纯文本语料进行存储；结合基础情感词典筛选出常用情感词，构建初始情感词集；利用TF-IDF和聚类算法选择出特定话题下覆盖度广、代表性强的情感倾向明显的情感词，构建情感词元素集；利用情感词情感强度确定方法，在特定微博热点话题下计算选定情感词的情感强度，从而构建四元组情感词典；利用构建的四元组词典对微博用户文本情感分析，得到用户的情感倾向；最后对每个用户的情感倾向进行整合，得到用户群的情感倾向性。考虑到现有情感词典收入的情感词都已固定，但在实际情感分析中，会经常出现一些网络新词或在特定微博热点话题下具有某种情感强度很大的情感词，然而传统词典因为时间等因素没有录入，比如微博评论中经常出现“都是拍脑门拍出来的”、“奥里给”等常见的评论文本，如果将这些词语放入通用情感词典中，则会显示出该词语无极性，而这显然与实际情况不符。

词典情感极性和强度都已经固定，在具体微博话题情感分析中往往依据话题的不同会出现新情感词或者普通情感词情感极性强度不同的情况。

作为优选，所述的预处理方法有如下步骤：

去噪：去除微博中无用的符号和链接如@、#、#+文字+#和//等无用的符号；

分词：使用中科院分词工具ICTCLAS对微博文本进行分词及词性标注；

情感极性标注：常用情感词的极性Pi与情感词典中的极性一致，如发生同一情感词不同情感词典中的标注不一致的情形，使用多人投票方式修正，网络情感新词与表情符号由于数量有限，其极性均采用多人投票方式确定。

作为优选，结合基础情感词典筛选出常用情感词，构建初始情感词集包括：

结合基础情感词典筛选出常用情感词，构建初始情感词集；

手工统计词语i在微博语料中的词频，词语i来自大连理工大学提供的中文情感词汇本体库。

作为优选，所述TF-IDF算法计算公式如下：

TF-IDF＝TF×IDF

其中，TF和IDF分别是词频和逆文档词频，TF和IDF的计算公式如下：

其中,W_i表示第i个词汇，Q_j表示第j篇文本，n_ij表示为第i个词汇在第j篇文本中出现的次数，n_j表示为第j篇文本词汇的总和,m为语料库的文档总数，m_i为语料库中包含词语W_i的文档数量。

作为优选，所述聚类算法是改进后的K-means++算法，采用点互信息来计算词语间的语义距离d，K-mean，对初始化质心进行了优化，克服了K-means算法聚类时收敛慢的缺点，其中两个词语的语义距离d(w_i)计算公式如下：

其中P(w_i,u_j)表示词w_i和词u_j同时出现在一个微博热点话题的概率，P(u_j)表示词u_j单独出现的概率，P(w_j)表示词w_i单独出现的概率，符号lb表示以2为底的对数，表达从信息到概率的量化转换的意思。

作为优选，所述情感词的情感强度计算如下：

将情感元素集中的情感词，利用下式算出情感词W*的情感强度：

I(W*)＝r(W*|S_-)-r(W*|S_+)

其中S_-和S_+分别表示在微博文本信息集U中的正情感词和负情感词集合，r(W*|S_+)表示W*的正向情感权重，r(W*|S_-)表示W*的负向情感权重，情感权重通过下式计算：

其中S*表示S_+或者S_-，α、β∈[0，1]是组合调整参数，根据一定比例用来调剂和P(w^*)对数值的大小防止某一值过大或过小，计算结果中小数被忽视的现象。C_i是W*的第i个字，W*中共有k个字，和P(w^*)则通过下式计算：

其中Freq(S*,C_i)表示属于S*的词的组成字C_i在微博文本信息中U出现的频率，Freq(S*)表示属于S*的所有组成字在微博文本信息U中出现的频率之和，δ为一个较小的数值，具体的，δ可以为一个小于预定阈值的数值；

其中Freq(W^*)表示W^*在U中出现的频率，|U|表示U中词的个数，表示所有的词W_i在U中出现的频率之和。

作为优选，所述四元组情感词典包括：将情感元素集中的每个词确定情感强度并进行情感极性标注，将词与其情感极性、情感强度和权重作为四元组加入情感词典E，得到E为：

E＝<(W₁，P₁，I₁，P₁I₁)，(W₂，P₂，I₂，P₂I₂)，…，(W_i，P_i，I_i，P_iI_i)，…，(W_n，P_n，I_n，P_nI_n)>

作为优选，所述利用四元组词典对微博用户文本情感分析，得到用户的情感倾向过程包括：

对用户的微博信息情感词进行情感分数的赋值，情感词情感权重反映了情感词在文本中的重要程度，而情感强度的绝对值就等于情感权重的值，为了计算方便，以情感强度作为情感分数对微博用户的文本情感词赋值，情感分数的正负表示了情感的正负倾向，情感分数的绝对值表示了情感的强度；

最后对句中的情感词进行情感值的加权，得到了句子的情感倾向分数；如果分数大于0，则表示句子的情感倾向为正，绝对值越大，则表明正倾向越强，如果分数小于0，则表示句子的情感倾向为负，且情感强度随着绝对值的越大越强；微博用户情感分数计算如下：

其中表示用户j的情感分数，D恒等于-1，f表示一句话中否定词的个数，m表示用户j的文本信息中情感词的个数，I_i(Wi)表示用户第i个情感词的情感强度。

作为优选，所述用户群情感倾向性分析包括：将每个用户的情感分数进行情感值的加权，得到了用户群的情感倾向分数；如数大于0，则表示用户群的情感倾向为正，绝对值越大，则表明正倾向越强；如果分数小于0，则表示句子的情感倾向为负，且情感强度随着绝对值的越大越强，具体计算如下：

其中，Sen(group)是用户群的情感倾向性结果。

附图说明

图1是本发明的微博热点话题用户群情感倾向性分析总体框架图；

图2是本发明的选取情感元素集基本流程图。

具体实施方式

以下通过具体实施例对本发明做进一步解释说明。

本发明的一种微博热点话题用户群情感倾向性分析方法，具体步骤如下：

对爬取的微博信息进行预处理，得到纯文本语料进行存储；结合基础情感词典筛选出常用情感词，构建初始情感词集；利用TF-IDF和K-means++聚类选择出特定话题下覆盖度广、代表性强的情感倾向明显的情感词，构建情感词元素集；利用情感词情感强度确定方法，在特定微博热点话题下计算选定情感词的情感强度，从而构建四元组情感词典；利用构建的四元组词典对微博用户文本情感分析，得到用户的情感倾向；最后对每个用户的情感倾向进行整合，得到用户群的情感倾向性。

如图1所示，本发明的一种微博热点话题用户群情感倾向性分析方法，总体分为两大个部分：选取情感词和用户群情感倾向分析。

具体的选取情感词的方法如图2所示：先利用网络爬虫软件，从微博中爬取某一热点话题下，用户的半结构化信息，通过去除微博中无用的符号和链接如@、#、#+文字+#和//等无用的符号，在使用中科院分词工具ICTCLAS对微博文本进行分词及词性标注等预处理。手工统计词语i在语料中的词频，再结合基础词典考虑情感词在语料库中的覆盖程度和情感极性的强弱，当一个词语在语料库中频繁出现且具有较强的情感极性时就将它纳入初始情感元素集。考虑到现有情感词典收入的情感词都已固定，但在实际情感分析中，会经常出现一些网络新词或在特定微博热点话题下具有某种情感强度很大的情感词，然而传统词典因时间等因素没有录入，比如微博评论中经常出现“都是拍脑门拍出来的”、“奥里给”等常见的评论文本，如果将这些词语放入通用情感词典中，则会显示出该词语无极性，而这显然与实际情况不符。因此通过TF-IDF选出微博热点话题下，具有情感极性却没有在传统词典中录入的情感词加入初始化情感元素集。最后通过K-means++聚类对初始情感词元素集进行筛选，得到所需的情感词；

其中TF-IDF算法计算公式如下：

TF-IDF＝TF×IDF

具体用户情感倾向性分析为：考虑到现有的词典情感极性和强度都已经固定，在具体微博话题情感分析中往往依据话题的不同会出现新情感词或者普通情感词情感极性强度不同的情况。本文词典以微博文本为依托，重新确定微博话题下特征词的情感强度和极性，构建了微博热点话题的专属四元组词典E；

四元组词典E，由情感词Wi、情感强度I、极性Pi和权重P_iI_i确定，具体表示为：

E＝＜(W₁，P₁，I₁，P₁I₁)，(W₂，P₂，I₂，P₂I₂)，…，(W_i，P_i，I_i，P_iI_i)，…，(W_n，P_n，I_n，P_nI_n)＞

其中情感强度的确定方式如下：首先获取大规模社交网络文本集U，计算情感词中每个字在该集合中的分布，然后根据情感字的分布计算候选情感词的情感权重，超过阈值的为情感词，最后计算出常用情感词情感强度值，然后按照其值的大小进行排序，情感隶属度值越大的候选词，其情感倾向性程度也就越高，具有越高的情感强度。这样，选取情感隶属度在一定范围内的候选词作为情感新词即可确定，以其相对应的情感隶属度的绝对值作为情感强度值，极性符号作为正向或负向情感的标识，并将其填入四元组其词典。

其中情感强度的计算，考虑每个候选词都有正情感权重r(W*|S_+)和负情感权重r(W*|S_-)，这样其情感隶属度I可表示为两种情感倾向性的综合，具体表示如下：

其中S_-和S_+分别表示在微博文本信息集U中的正情感词和负情感词集合。

利用四元组词典对用户的微博信息情感词进行情感分数的赋值，情感词情感权重反映了情感词在文本中的重要程度，而情感强度的绝对值就等于情感权重的值，为了计算方便，以情感强度作为情感分数对微博用户的文本情感词赋值，情感分数的正负表示了情感的正负倾向，情感分数的绝对值表示了情感的强度；最后对句中的情感词进行情感值的加权，得到了句子的情感倾向分数。微博用户情感分数计算如下：

其中表示用户j的情感分数，D恒等于-1，f表示一句话中否定词的个数，m表示用户j的文本信息中情感词的个数，I_i(W_i)表示用户第i个情感词的情感强度。

将每个用户的情感分数进行情感值的加权，得到了用户群的情感倾向分数；如果分数小于0，则表示句子的情感倾向为负，且情感强度随着绝对值的越大越强，具体计算如下：

其中，Sen(group)是用户群的情感倾向性结果。

以上所述仅是对本发明的较佳实施方式而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施方式所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种微博热点话题用户群情感倾向性分析方法，其特征在于：对爬取的微博信息进行预处理，得到纯文本语料进行存储；结合基础情感词典筛选出常用情感词，构建初始情感词集；利用TF-IDF和聚类算法选择出特定话题下覆盖度广、代表性强的情感倾向明显的情感词，构建情感词元素集；利用情感词情感强度确定方法，在特定微博热点话题下计算选定情感词的情感强度，从而构建四元组情感词典；利用构建的四元组词典对微博用户文本进行情感分析，得到用户的情感倾向；最后对每个用户的情感倾向进行整合，得到用户群的情感倾向性；

所述四元组情感词典包括：将情感元素集中的每个词W_i确定情感强度I_i并进行情感极性标注P_i，将词W_i与其情感极性P_i、情感强度I_i和权重P_iI_i为四元组加入情感词典E，得到E为：E＝＜(W₁，P₁，I₁，P₁I₁),(W₂,P₂,I₂,P₂I₂),…，(W_i,P_i,I_i,P_iI_i)，…，(W_n,P_n,I_n,P_nI_n)＞；

所述利用构建的四元组词典对微博用户文本进行情感分析，得到用户的情感倾向，具体包括：

其中S_en(person_j)表示用户j的情感分数，D恒等于-1，f表示一句话中否定词的个数，m表示用户j的文本信息中情感词的个数，I_i(W_i)表示用户第i个情感词的情感强度；

所述用户群情感倾向性分析包括：将每个用户的情感分数进行情感值的加权，得到了用户群的情感倾向分数；如数大于0，则表示用户群的情感倾向为正，绝对值越大，则表明正倾向越强；如果分数小于0，则表示句子的情感倾向为负，且情感强度随着绝对值的越大越强，具体计算如下：

其中，Sen(group)是用户群的情感倾向性结果。

2.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法，其特征在于：所述的预处理方法有如下步骤：

去噪：去除微博中无用的符号和链接，所述无用的符号包括@、#、#+文字+#和//；

3.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法，其特征在于：结合基础情感词典筛选出常用情感词，构建初始情感词集包括：

结合基础情感词典筛选出常用情感词，构建初始情感词集；

4.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法，其特征在于：所述TF-IDF算法计算公式如下：

TF-IDF＝TF×IDF

5.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法，其特征在于：所述聚类算法是改进后的K-means++算法，所述改进后的K-means++算法采用点互信息来计算词语间的语义距离d，其中两个词语的语义距离d(w_i)计算公式如下：

其中P(w_i,u_j)表示词w_i和词u_j同时出现在一个微博热点话题的概率，P(u_j)表示词u_j单独出现的概率，P(w_i)表示词w_i单独出现的概率；符号lb表示以2为底的对数。

6.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法，其特征在于：所述情感词的情感强度计算如下：

I(W*)＝r(W*|S_-)-r(W*|S_+)

其中S*表示S_+或者S_-，α、β∈[0，1]是组合调整参数，根据一定比例用来调剂P(Ci|S*)和P(w^*)对数值的大小防止某一值过大或过小，计算结果中小数被忽视的现象；C_i是W*的第i个字，W*中共有k个字，P(C_i|S*)和P(w^*)则通过下式计算：

其中Freq(S*,C_i)表示属于S*的词的组成字C_i在微博文本信息中U出现的频率，Freq(S*)表示属于S*的所有组成字在微博文本信息U中出现的频率之和，δ为一个小于预定阈值的数值；

其中Freq(W^*)表示W^*在U中出现的频率，|U|表示U中词的个数，

表示所有的词W_i在U中出现的频率之和。