CN108563638A

CN108563638A - 一种基于主题识别和集成学习的微博情感分析方法

Info

Publication number: CN108563638A
Application number: CN201810333907.8A
Authority: CN
Inventors: 曾子明; 杨倩雯
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-09-21
Anticipated expiration: 2038-04-13
Also published as: CN108563638B

Abstract

本发明公开了一种基于主题识别和集成学习的微博情感分析方法，该方法包括以下步骤：收集微博数据并进行人工标注；通过文本数据处理方法对微博文本进行预处理；通过LDA主题相关性指标选择最优文本主题数并用LDA挖掘文本主题；结合情感词典构建用于微博情感分析的主题特征、情感特征和句式特征；将上述特征作为训练AdaBoost算法的输入特征变量以建立微博情感分析分类器。本发明方法通过深入挖掘了微博文本语义信息，有效提高了文本情感分类精度。

Description

一种基于主题识别和集成学习的微博情感分析方法

技术领域

本发明涉及自然语言处理技术，尤其涉及一种基于主题识别和集成学习的微博情感分析方法。

背景技术

近年来社会化媒体快速发展，越来越多的网络用户选择在社交网络平台如微博、论坛、购物网站等表达个人意见和情感倾向。微博因其传播速度快、社会影响力大而成为网民信息传播、信息获取的重要渠道。对于一些群体性的公共事件，网民倾向于在微博上表达自己的看法和意见。这类事件往往持续时间久，关注人数多，在网络用户中影响巨大，人们通过网络传达出的情绪形成社会舆论，可能会影响事件的发展，甚至可能影响相关个人或组织的决策。微博中这些大量碎片式的用户生成信息可以反映事件的演化过程和公众情绪的波动情况，在微博中跟踪这些突发事件的讨论话题，对微博评论进行分析，可以还原事件的发展过程，实时把控网民情绪，减小公共突发事件对社会的负面影响。因此对微博文本进行情感分析可以辅助政府进行网络舆情监测，维持社会稳定。

目前对情感倾向分析的研究大多都着眼于语句本身，从文本、语法等挖掘能描述情感倾向的特征，如常用的语法特征、句式特征、句内特征等。

在上述方法中，虽然达到了较好的情感分类效果，但是没有挖掘文本的深层语义信息。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于主题识别和集成学习的微博情感分析方法。

本发明解决其技术问题所采用的技术方案是：一种基于主题识别和集成学习的微博情感分析方法，包括以下步骤：

1)从微博平台采集微博文本数据并进行预处理，获得优化文本内容以及优化文本内容词组；所述微博文本数据包括微博正文内容、微博评论内容、微文转发数以及评论数；

所述预处理包括对微博评论的人工标注；所述人工标注为：对每条微博评论的情感倾向进行人工标记，若该条评论情感倾向为正向，则标记为1，否则标记为0；

2)通过LDA(Latent Dirichlet Allocation)主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算，识别微博正文主题信息，获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率，根据每个主题中高分词语之间的语义相似性评估主题质量，确定恰当个数的主题类别，将每条微博正文所属主题类别作为微博用户情感分析的主题特征；

3)依据情感词典提取每条微博评论出现的正向情感词、负向情感词、转折词和否定词，计量正向情感词、负向情感词、转折词和否定词的数量，构建情感特征和句式特征，并结合步骤2)提取的主题特征，构建用于微博情感分析的多特征向量组合；

4)将步骤3)所述的多特征向量组合作为AdaBoost模型的输入特征，选择效果最优特征组合设计情感倾向分析分类器，并根据步骤1)所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器，应用于情感分析工作。

按上述方案，所述步骤1)中文本预处理还包括文本分词、去停用词和无关字符过滤。

按上述方案，所述步骤2)中LDA主题识别采用的评价指标主题相关性为UMass主题相关性：

其中，coherence(V)为主题相关性得分，score(vi,vj,∈)为UMass度量标准计算分数的方法，V表示描述某个主题的词语集合，∈是一个平滑因子，用于确保返回的得分是一个实数；D(vi,vj)表示包含词语vi和vj的微博正文数量，D(vj)表示包含词语vj的微博正文数量。

按上述方案，所述情感词典为根据知网HowNet情感词典并融合网络流行词汇，整理的四个文本文档，包括正向情感词、负向情感词、否定词、转折词。

按上述方案，所述步骤3)中多特征向量组合为：

feature_i＝{topic_i,emotion_i,sentence_i，tendency_i}(1≤i≤M)；

其中，M为该条微博评论条数，i为微博评论序号，topic_i为主题特征，emotion_i为情感特征，sentence_i为句式特征，tendency_i为人工标注的该条微博文本情感倾向；

其中，

emotion_i＝{n_pos_i,n_neg_i}(1≤i≤M)

其中，n_pos_i为该条评论中正向情感词的数量，n_neg_i为负向情感词的数量；

sentence_i＝{n_deny_i,n_tra_i}(1≤i≤M)

其中，n_deny_i为该条评论中否定词的数量，n_tra_i为转折词数量。

本发明产生的有益效果是：

本发明基于主题识别和集成学习的微博情感分析方法能够深入挖掘微博文本语义信息，用LDA模型识别微博主题，将其与定义的情感特征和句式特征变量作为集成学习方法AdaBoost的输入变量进行分类训练，本发明在情感倾向识别上获得了较高的准确率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供一种主题识别和集成学习的微博情感分析方法，包括以下步骤：

步骤1，使用爬虫方法从新浪微博平台采集数据，所述微博数据包括微博正文内容、微博评论内容、微文转发数以及评论数。然后对爬取内容进行预处理，从而获得优化文本内容以及优化文本内容词组，最终获得688条微博正文，1426条微博评论数据；

作为优选，步骤1所述文本预处理方法包括微博正文和评论文本的文本分词、去停用词、过滤无关字符以及微博评论人工标注；

步骤1中所述人工标注为：

对每条微博评论的情感倾向进行人工标记，若该条评论情感倾向为正向，则标记为1，否则标记为0；

步骤2，通过LDA主题模型对步骤1所述优化文本内容以及优化文本内容词语进行建模计算，识别微博正文主题信息，获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率，根据每个主题中高分词语之间的语义相似性评估主题质量，将每条微博正文所属主题类别作为微博用户情感分析的主题特征，确定主题个数为18时主题相关性得分最高，最后选择其中6个主题下的相关评论进行情感识别；

作为优选，步骤2中所述LDA主题识别评价指标主题相关性为UMass主题相关性：

其中，V是描述某个主题的词语集合，∈是一个平滑因子以确保返回的得分是一个实数；D(vi,vj)指包含词语vi和vj的微博正文数量，D(vj)表示包含词语vj的微博正文数量。

步骤3，完善情感词典，依据情感词典提取每条微博评论出现的情感词、转折词、否定词，计量正向情感词、负向情感词、转折词、否定词数量，构建情感特征和句式特征，并结合步骤2提取的主题特征，构建用于微博情感分析的多特征向量组合；

作为优选，步骤3所述情感词典为知网HowNet情感词典并融合网络流行词汇，整理为四个文本文档，包括正向情感词、负向情感词、否定词、转折词；

步骤3所述多特征向量组合为：

feature_i＝{topic_i,emotion_i,sentence_i}(1≤i≤M)

其中，M为微博评论条数，i为微博评论序号，topic_i为主题特征，emotion_i为情感特征，sentence_i为句式特征。

步骤3所述情感特征为：

emotion_i＝{n_pos_i,n_neg_i}(1≤i≤M)

步骤3所述句式特征为：

sentence_i＝{n_deny_i,n_tra_i}(1≤i≤M)

其中，n_deny_i为该条评论中否定词的数量，n_tra_i为转折词数量；

步骤4，根据步骤3所述的情感特征、句式特征以及步骤2所述主题特征作为AdaBoost模型的输入特征，AdaBoost集成分类方法的一种，选择决策树作为AdaBoost的基学习器，将标注后的微博评论数据作为初始训练集训练T个基学习器，根据基学习器的表现对训练样本分布进行调整，分类错误的样本加大其对应的权重，降低正确分类样本的权重，得到新的样本分布，将修改权值的样本分布送给下层分类器进行训练。重复进行，直到基学习器数目达到事先指定的T值，得到T个弱分类器，最后将这T个弱分类器按相应权重融合(boost)起来，作为最后进行情感分类的分类器。并根据步骤1所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器，应用于网络用户情感倾向分析工作。

作为优选，步骤4所述模型输入特征为：

comment_i＝{topic_i,n_pos_i,n_neg_i,n_deny_i,n_tra_i,tendency_i}(1≤i≤M)

其中，M为微博评论条数，i为微博评论序号，topic_i为该条评论所属微博主题，n_pos_i为第i条评论中的正向情感词数量，n_neg_i为负向情感词数量，n_deny_i为句中否定词数量，n_tra_i为句中转折词数量。tendency_i为人工标注的该条文本情感倾向。如：“希望能平安回来”，其输入特征为(1,3,0,0,0,1)，表示属于主题1，正向情感词有三个，负向情感词，否定词，转折词的数量都为0，整条评论的情感倾向为正向；再如：“所以美国很多主题是没有原因只是喜欢虐杀的那种变态杀人狂的电影是真的源自生活啊，可怕”，其输入特征为(5,1,2,1,1,0)，表示属于主题5，正向情感词有1个，负向情感词有2个，1个否定词，1个转折词，整条评论的情感倾向为负向。最后AdaBoost模型在测试集进行分类的正确率达到85％。

与现有技术相比，本发明基于主题识别和集成学习的微博情感分析方法能够深入挖掘微博文本语义信息，用LDA模型识别微博主题，将其与定义的情感特征和句式特征变量作为集成学习方法AdaBoost的输入变量进行分类训练，本发明在情感倾向识别上获得了较高的准确率。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于主题识别和集成学习的微博情感分析方法，其特征在于，包括以下步骤：

2)通过LDA主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算，识别微博正文主题信息，获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率，根据每个主题中高分词语之间的语义相似性评估主题质量，确定恰当个数的主题类别，将每条微博正文所属主题类别作为微博用户情感分析的主题特征；

2.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法，其特征在于，所述步骤1)中文本预处理还包括文本分词、去停用词和无关字符过滤。

3.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法，其特征在于，所述步骤2)中LDA主题识别采用的评价指标主题相关性为UMass主题相关性：

4.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法，其特征在于，所述步骤3)中情感词典为根据知网HowNet情感词典并融合网络流行词汇，整理的四个文本文档，包括正向情感词、负向情感词、否定词、转折词。

5.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法，其特征在于，所述步骤3)中多特征向量组合为：

feature_i＝{topic_i,emotion_i,sentence_i，tendency_i}(1≤i≤M)；

其中，

emotion_i＝{n_pos_i,n_neg_i}(1≤i≤M)

sentence_i＝{n_deny_i,n_tra_i}(1≤i≤M)