CN110727798A

CN110727798A - 一种基于朴素贝叶斯分类的节日情感分析方法

Info

Publication number: CN110727798A
Application number: CN201910975850.6A
Authority: CN
Inventors: 宋禹幡; 胡建路; 原慧琳
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-01-24

Abstract

本发明提供一种基于朴素贝叶斯分类的节日情感分析方法。本发明基于自然语言处理技术，建立微博影响力模型，将微博的评论、转发、点赞数进行权重分配以得到影响值。再从具体的节日方向出发利用朴素贝叶斯分类器对定向的微博数据进行分类，可以探究影响用户节日情感获取的实质因素。相关因子的提取也为舆情分析与控制以及商业营销发展提供理论依据。

Description

一种基于朴素贝叶斯分类的节日情感分析方法

技术领域

本发明涉及情感分析技术领域，尤其涉及一种基于朴素贝叶斯分类的节日情感分析方法。

背景技术

随着互联网技术的发展，人们越来越多地接触到不同类型的文化形式。文化资源经过多层面的输入输出，正进行世界范围的交流融合。然而，近年来，人们在很大程度上忽视了我国传统文化，越来越多的国人崇尚西方节日，更多地提倡外来文化。这一趋势的背后，我国传统文化的弘扬正受到严重的冲击，这也造成了传统文化的快速失落感。而毫无目的的宣传效果并不是很显著。

现阶段的情感分析方法可分为基于情感词典的方法和基于机器学习的方法。前者是利用现有的情感词典根据语义规则，通过情感词典的制定，拆分文本数据的段落并解析句法，然后计算出情感值来描述文本的态度倾向。后者又称基于深度学习的方法，是通过选取文本的一些特征标注训练集和测试集，需要人工标注所要训练的文本，将目标分为不同的种类进行情感极性的判断，进行有监督的机器学习过程，使用朴素贝叶斯(NaiveBayes)、支持向量机(support vector machine,SVM)和最大熵(maximum entropy)等分类器进行文本分类。

目前对于微博文本的情感分类大都集中在用户的评价分析以及对于事件本身热度的舆情分析并结合神经网络对相关事件进行预测，但现有方法没有考虑事件本身对于用户的影响力大小变化，从而导致无法准确地根据事件本身来做用户情感引导。

发明内容

根据上述提出的技术问题，而提供一种基于朴素贝叶斯分类的节日情感分析方法。本发明采用的技术手段如下：

一种基于朴素贝叶斯分类的节日情感分析方法，包括如下步骤：

步骤一、根据预分析节日的发生日期以及与其相关的关键字/词采集用户的多维度原始数据，对采集到的原始数据进行预处理；

步骤二、基于政策因素分析积极情感占比，具体地，将预处理后的数据按照该节日的日期以及该节日往年信息通过朴素贝叶斯分类，进行积极情感占比分析；

步骤三、基于明星效应因素分析积极情感占比，其中，所述明星为微博官方的热度统计数据中热度达到预设指标的用户，具体地，选取预设指标(转发、评论和点赞的互动数量)综合评定后，热度排名靠前的多名明星微博的预处理后的数据，通过朴素贝叶斯分类，进行积极情感占比分析；基于预先给定函数对多维度数据中的待分析内容构建影响力模型，进而计算该明星微博内容的影响力；

步骤四、基于步骤二、步骤三的结论绘制可视化图表，分析影响用户情感获取的实质因素。

进一步地，所述步骤一中，通过爬虫获取数据，具体包括：执行必要的请求参数，包括请求头和查询参数；将目标节日的日期和关键字设置为查询参数，抓取数据直接利用“请求”提供的方法将json数据转换为Python dictionary对象，从中提取所有文本字段的值，并将其放入博客列表中；所述多维度原始数据包括用户ID、昵称、会员信息、微博、微博标签、转发数、评论数、“赞”数。

进一步地，所述步骤二、步骤三中，通过调用Snow-NLP对微博文本进行情感分析，读取爬虫获取的数据，然后执行单词分割和去停词操作。

进一步地，所述步骤三中，基于如下给定函数计算该明星微博内容的影响力：

其中，w₁、w₂分别表示转发及评论数所占都得权重，分别设为0.3、0.3，w₃为点赞数的权重，设为0.4，b_i表示微博的转发评论及点赞分别的数量。

进一步地，根据明星影响力得分与相应年度微博标准化用户数之比，可以得到客观的明星微博影响力，具体地，采用Min-Max归一化方法对微博用户群进行归一化，对网络大小进行标准化，结果映射为[0,1]：

其中x_max为样本数据的最大值，x_min为样本数据的最小值。

本发明具有以下优点：

本发明通过计算定向微博文本的情感倾向，对于目标博文采用朴素贝叶斯分类器，得到文本情感属于正向的概率，从传统节日本身的影响因素出发，探讨政策导向和明星影响力对公众从传统节日中获得积极情绪的重要性。这一出发点可以更为准确地就传统节日这一方面分析出影响公众情感获取的因素。

基于上述理由本发明可在情感分析技术领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述的基于朴素贝叶斯分类器的节日微博情感分析方法的流程图。

图2是明星的微博影响力变化。

图3是微博文本及计算的情感值截图。

图4是政策发布前后的节日相关微博的正向情感占比变化。

图5是政策发布前后的节日微博情感分布值。

图6是明星效应对于网民从节日中获取正向情感的比例变化。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例公开了一种基于朴素贝叶斯分类的节日情感分析方法，包括如下步骤：

步骤一、节日微博数据获取及预处理。

根据预分析节日的发生日期以及与其相关的关键字/词采集用户的多维度原始数据，对采集到的原始数据进行预处理；具体地，通过爬虫获取数据，设定节日日期及名称为时间和关键字定向获取微博文本。具体包括：执行必要的请求参数，包括请求头和查询参数；将目标节日的日期和关键字设置为查询参数，抓取数据直接利用“请求”提供的方法将json数据转换为Python dictionary对象，从中提取所有文本字段的值，并将其放入博客列表中；所述多维度原始数据包括用户ID、昵称、会员信息、微博、微博标签、转发数、评论数、“赞”数；预处理步骤包括去重、删除缺失数据、无关数据和异常数据清洗后的数据等操作。

步骤三、通过明星影响力模型对明星的微博效应值进行计算，并结合微博用户的总人数对结果值进行归一化处理，保证影响力值的有效性。

基于明星效应因素分析积极情感占比，其中，所述明星为微博官方的热度统计数据中热度达到预设指标的用户，具体地，选取预设指标(转发、评论和点赞的互动数量)综合评定后，热度排名靠前的多名明星微博的预处理后的数据，通过朴素贝叶斯分类，进行积极情感占比分析；基于预先给定函数对多维度数据中的待分析内容构建影响力模型，进而计算该明星微博内容的影响力；

所述步骤二、步骤三中，通过调用Snow-NLP对微博文本进行情感分析，读取爬虫获取的数据，然后执行单词分割和去停词操作。

所述步骤三中，基于如下给定函数计算该明星微博内容的影响力：

根据明星影响力得分与相应年度微博标准化用户数之比，可以得到客观的明星微博影响力，具体地，采用Min-Max归一化方法对微博用户群进行归一化，对网络大小进行标准化，结果映射为[0,1]：

其中x_max为样本数据的最大值，x_min为样本数据的最小值。

实施例1

关于节日数据选择，选取中国传统节日端午节、元宵节、清明节以及中秋节等节日的微博正文来进行分析。在此过程中，根据截尾均值理论中消除极端值影响的思想，结合清明节的历史背景及意义，该节日情感大都为负向，因此不在研究范围内，对该节日进行剔除。最后选取端午节、元宵节及中秋节三个节日作为研究对象。

进行节日微博数据获取及预处理。

调用Python的Snow-NLP类库对数据进行情感分析。

Snow-NLP类库支持中文自然语言操作，包括中文分词、词性标注、情感分类、文本分类、关键词文本提取、文本相似度计算等。

调用贝叶斯模型的训练方法，得到分类结果和概率。它配备了汉语积极和消极情绪的训练集，用于训练和预测数据。朴素贝叶斯的文本分类在Snow-NLP python库的运行过程中起着重要的作用。算法如下:

假设输入特征向量X(x₁，x₂，…，x_n)作为待分类的样本,输出是类标记集合Y＝{c₁，c₂，…，c_m}，为了分类样本X，需要计算P(c₁|X)，P(c₂|X)，…，P(c_m|X),X的预测类别表达式是：

P(c_k|X)＝max{P(c₁|X)，P(c₂|X)，…，P(c_m|X)}

c_k是朴素贝叶斯预测的待分类样本类别。假设每个特征属性相互独立，根据贝叶斯定理可以得到条件概率表达式

其中P(C)是类的先验概率，P(C|X)是样本相对于类标记c的类条件概率。以评论"元宵节快乐"为例.如果积极情绪被定义为A，消极情绪定义为B,则

根据朴素贝叶斯分类器的条件独立性假设，每个属性之间是相互独立的，所以

P("元宵节","快乐"|A)＝P("元宵节"|A)×P("快乐"|A)

确定可以作为研究对象的明星列表并建立明星微博影响力模型，由于明星热度具有极大的不确定及不稳定性，首先挖掘不同年份影响力最大的明星，根据官方数据选取当年热度排名前十的明星作为实验对象。本实施例选取预设热度算法计算出的热度排名在前十的用户，以此作为本发明研究对象。并以在近年中热度保持在前列的三位明星举例，收集明星在近五年传统节日中所发微博的转发、评论和点赞的数量。对于转发、评论和点赞三种明星影响力的表达方式，首先转发说明人们明对该说法表示认可，因此通过转发信息来保存该信息；评论说明该信息值得大家关注，想通过评论发布自己的看法，并无其他作用；而点赞说明人们认同说法是一种心理上的赞赏，而且最重要的一点，点赞目前被认为是反应微博热度最真实的数据，因为用户只能点赞一次，但评论和转发可以被执行很多次，所以数据会存在不真实。

综上所述，基于如下给定函数计算该明星微博内容的影响力：

本发明实施例探究三个节日的微博影响力，但由于不是所有明星在每个节日都发布微博，所以在比较不同年份单一明星影响力的变化时，对某一明星在某一年中的所有节日的影响力取平均值，这样既能保证影响力的真实性又能排除明星在某一节日没有发微博导致这一天中没有影响力得分的问题。其微博影响力如图2所示。

从图2结果可以发现，明星的影响力得分总体上呈上升趋势，但仅仅判断明星的微博影响力在上升是不够的，因为微博用户也在逐年增加。只有将微博用户数量作为变量，才能获得更客观的明星影响力。根据中国互联网络信息中心(cnnic)的数据，得到2015-2018年新浪微博用户规模。采用Min-Max归一化方法对微博用户群进行归一化，对网络大小进行标准化，结果映射为[0,1]。

其中x_max为样本数据的最大值，x_min为样本数据的最小值。

在归一化过程中，不期望明星的影响为零，所以取最小值为0。根据明星影响力得分与相应年度微博标准化用户数之比，可以得到客观的明星微博影响力。最后分别给出了明星影响力的归一化，趋势图如图6所示，图中纵坐标表示受明星效应影响的从节日中获取正向情感的用户比例。随着时间的推移，虽然有一些波动，但明星对整体的影响呈现出上升的趋势，这也为下一节中明星在节日中扮演重要角色奠定了基础。

通过情感值计算后，筛选出在当前节日中获取到正向情感的文本。将明星因素加入到其中，计算当年微博文本与明星相关的微博的比重，得到这一因素在这一事件中的影响的重要性。通过调用Python的Snow-NLP类库计算文本的情感值，程序获得0到1之间的返回值。这个值表示文本具有正面情绪的概率。越接近1，用户的积极情绪就越多；相反，越接近0，用户的负面情绪就越可能出现。返回值设置为对应文本的情感值。本实施例中，情绪值大于0.6的被认为是积极情绪，而情绪值在[0,0.6]的被认为是消极情绪。对数据进行整体的可视化分析处理，将政策颁布前后相同时间节点内的节日情感分布做横向比较，结果通过柱形图显示。其次对节日数据加入明星效应进行分析，结果通过折线图表示。部分计算结果如下图3所示。探讨政策和明星效应影响对网民从传统节日中获取正向情感的变化情况，认为情感值在0.6以上的值为含有正向情感的文本。最终得到不同因素影响下的情感分布及占比变化情况。如图4、图5所示。

本发明通过针对性地挖掘微博数据来探究国内政策文件以及明星影响力对于传统节日发展的积极影响。实验结果证明，两种因素分别通过自身的热度，在公众从节日中获取积极情感这一事件中起到越来越大的作用。从而说明，正确的探索出对于传统文化的传承具有重要作用的因素。本发明基于自然语言处理技术，建立微博影响力模型，将微博的评论、转发、点赞数进行权重分配以得到影响值。再从具体的方向出发利用朴素贝叶斯分类器对定向的微博数据进行分类，可以探究影响用户情感获取的实质因素。相关因子的提取也为舆情分析与控制以及商业营销发展提供理论依据。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于朴素贝叶斯分类的节日情感分析方法，其特征在于，包括如下步骤：

步骤三、基于明星效应因素分析积极情感占比，其中，所述明星为微博官方的热度统计数据中热度达到预设指标的用户，具体地，选取预设指标综合评定后，热度排名靠前的多名明星微博的预处理后的数据，通过朴素贝叶斯分类，进行积极情感占比分析；基于预先给定函数对多维度数据中的待分析内容构建影响力模型，进而计算该明星微博内容的影响力，所述预设指标包括转发、评论和点赞的互动数量；

2.根据权利要求1所述的基于朴素贝叶斯分类的节日情感分析方法，其特征在于，所述步骤一中，通过爬虫获取数据，具体包括：执行必要的请求参数，包括请求头和查询参数；将目标节日的日期和关键字设置为查询参数，抓取数据直接利用“请求”提供的方法将json数据转换为Python dictionary对象，从中提取所有文本字段的值，并将其放入博客列表中；所述多维度原始数据包括用户ID、昵称、会员信息、微博、微博标签、转发数、评论数、“赞”数。

3.根据权利要求1或2所述的基于朴素贝叶斯分类的节日情感分析方法，其特征在于，所述步骤二、步骤三中，通过调用Snow-NLP对微博文本进行情感分析，读取爬虫获取的数据，然后执行单词分割和去停词操作。

4.根据权利要求3所述的基于朴素贝叶斯分类的节日情感分析方法，其特征在于，所述步骤三中，基于如下给定函数计算该明星微博内容的影响力：

其中，w₁、w₂分别表示转发及评论数所占的权重，分别设为0.3、0.3，w₃为点赞数的权重，设为0.4，b_i表示微博的转发评论及点赞分别的数量。

5.根据权利要求4所述的基于朴素贝叶斯分类的节日情感分析方法，其特征在于，根据明星影响力得分与相应年度微博标准化用户数之比，可以得到客观的明星微博影响力，具体地，采用Min-Max归一化方法对微博用户群进行归一化，对网络大小进行标准化，结果映射为[0,1]：

其中x_max为样本数据的最大值，x_min为样本数据的最小值。