CN110347822A

CN110347822A - 一种评论文本的情感倾向分析方法及装置

Info

Publication number: CN110347822A
Application number: CN201910476755.1A
Authority: CN
Inventors: 曾政多
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-10-18

Abstract

本发明公开了一种评论文本的情感倾向分析方法及装置，方法包括：读取评论文本；将所述评论文本进行去重处理，得到第一文本集；将第一文本集通过TF‑IDF算法得到特征词的特征向量；将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值；根据情感分析值判断评论文本的情感倾向性，当情感分析值≥0.5且≤1时，则认为所述评论文本属于积极评论，当情感分析值≥0且＜0.5时，则认为所述评论文本属于消极评论。装置包括：评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块；通过基于贝叶斯模型的情感分析模型对评论文本的情感倾向进行有效的分析。该方法和装置主要用于数据挖掘领域。

Description

一种评论文本的情感倾向分析方法及装置

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种评论文本的情感倾向分析方法及装置。

背景技术

近年来互联网平台或者网站的评论多种多样，这些评论往往会影响用户对平台或者网站的情感倾向性。对于普通人来讲，面对海量的评论数据，如果人为逐条来看，既费时又费力。

发明内容

本发明的目的：提供了一种评论文本的情感倾向分析方法及装置，可以对海量的评论文本数据进行情感分析。

本发明解决其技术问题的解决方案是：一种评论文本的情感倾向分析方法，包括：

步骤1、读取评论文本；

步骤2、将所述评论文本进行去重处理，得到第一文本集；

步骤3、将第一文本集通过TF-IDF算法得到特征词的特征向量；

步骤4、将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值；

步骤5、根据情感分析值判断步骤1中读取的评论文本的情感倾向性，当情感分析值≥0.5且≤1时，则认为所述评论文本属于积极评论，当情感分析值≥0且＜0.5时，则认为所述评论文本属于消极评论。

进一步，在步骤4中，基于贝叶斯模型的情感分析模型为：

其中，P(w₁,····,w_n)＝P(w₁,····,w_n∣c₁)·P(c₁)+P(w₁,····,w_n∣c₂)·P(c₂)，C₁和C₂表示为两个类别，w_n表示为特征词的特征向量，n为自然数。

进一步，在步骤2中，第一文本集的得到方法包括：

步骤2.1、创建一个空的list表；

步骤2.2、将评论文本以分隔标点符号进行分行，输出评论文本的行数j；

步骤2.3、读取第i行的评论文本；

步骤2.4、判断第i行的评论文本在list表是否存在，存在则转至步骤2.5，不存在则转至步骤2.6；

步骤2.5、i＝i+1，当i＝j时，则进入步骤2.7，当i≠j时，则返回步骤2.3；

步骤2.6、将第i行的评论文本加入list表数据，i＝i+1,当i＝j时，则进入步骤2.7，当i≠j时，则返回步骤2.3；

步骤2.7、当i＝j时，则将list表保存，并将保存后的list表记为第一文本集；

其中，所述分隔标点符号包括：逗号、分号和句号，i和j均为自然数，i的初始值为1。

进一步，在步骤1中，所述评论文本的读取方法包括：通过爬虫软件从网站讨论区中读取。

一种评论文本的情感倾向性分析装置，包括：评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块；

所述评论文本读取模块用于读取评论文本，并将读取的评论文本传递给去重处理模块；

所述去重处理模块用于将所述评论文本进行去重处理，得到第一文本集，并将第一文本集传递给特征向量得到模块；

所述特征向量得到模块用于将所述第一文本集通过TF-IDF算法得到特征词的特征向量，并将所述特征向量传递给情感分析值计算模块；

所述情感分析值计算模块将所述特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值，并将情感分析值传递给判断模块；

所述判断模块用于根据情感分析值判断步骤1中读取的评论文本的情感倾向性，当情感分析值≥0.5且≤1时，则认为所述评论文本属于积极评论，当情感分析值≥0且＜0.5时，则认为所述评论文本属于消极评论。

进一步，所述基于贝叶斯模型的情感分析模型为：

进一步，所述评论文本读取模块包括爬虫软件，所述爬虫软件用于从网站讨论区中读取评论文本。

本发明的有益效果是：本方法和装置通过基于贝叶斯模型的情感分析模型对评论文本的情感倾向进行有效的分析，该方法和装置可以用于对评论文本的情感进行倾向性分析。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单说明。显然，所描述的附图只是本发明的一部分实施例，而不是全部实施例，本领域的技术人员在不付出创造性劳动的前提下，还可以根据这些附图获得其他设计方案和附图。

图1是情感倾向分析方法的步骤流程图；

图2是第一文本集的得到方法的步骤流程图；

图3是情感倾向性分析装置的连接框图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。另外，文中所提到的所有联接/连接关系，并非单指构件直接相接，而是指可根据具体实施情况，通过添加或减少联接辅件，来组成更优的联接结构。本发明创造中的各个技术特征，在不互相矛盾冲突的前提下可以交互组合。

实施例一，参考图1，一种评论文本的情感倾向分析方法，包括：

步骤S100、读取评论文本；

步骤S200、将所述评论文本进行去重处理，得到第一文本集；

步骤S300、将第一文本集通过TF-IDF算法得到特征词的特征向量；

步骤S400、将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值；

步骤S500、根据情感分析值判断步骤S100中读取的评论文本的情感倾向性，当情感分析值≥0.5且≤1时，则认为所述评论文本属于积极评论，当情感分析值≥0且＜0.5时，则认为所述评论文本属于消极评论。

其中，在步骤S400中，基于贝叶斯模型的情感分析模型为：

其中，P(w₁,····,w_n)＝P(w₁,····,w_n∣c₁)·P(c₁)+P(w₁,…·,w_n∣c₂)·P(c₂)，C₁和C₂表示为两个类别，w_n表示为特征词的特征向量，n为自然数。

参考图2，在步骤S200中，第一文本集的得到方法包括：

步骤S210、创建一个空的list表；

步骤S220、将评论文本以分隔标点符号进行分行，输出评论文本的行数j；

步骤S230、读取第i行的评论文本；

步骤S240、判断第i行的评论文本在list表是否存在，存在则转至步骤S250，不存在则转至步骤S260；

步骤S250、i＝i+1，当i＝j时，则进入步骤S270，当i≠j时，则返回步骤S230；

步骤S260、将第i行的评论文本加入list表数据，i＝i+1,当i＝j时，则进入步骤S270，当i≠j时，则返回步骤S230；

步骤S270、当i＝j时，则将list表保存，并将保存后的list表记为第一文本集；

在步骤S100中，所述评论文本的读取方法包括：通过爬虫软件从网站讨论区中读取。

以将本申请的方法应用在金融贷款类平台的评论为例，其中，评论文本选用的是互联网金融平台用户评价讨论区的文本数据。得到文本数据后，需要进行一些预处理，需要对文本数据使用去重处理，本文使用python语言中的xlrd与xlwt库对表格数据进行处理，通过建立一个新的list表，往里面加入数据，通过遍历数据集与list表中的进行比对，没有重复则加入list的方法来进行去重处理，实现了数据清洗的过程。具体步骤如图2所示。

在步骤S300中，TF-IDF算法(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。TF-IDF算法的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF算法实际上是：TF*IDF。词频(Term Frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。)逆向文件频率(Inverse Document Frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

在步骤S400中，基于贝叶斯模型的情感分析模型为两种类别C₁和C₂的分类问题，特征词的特征为向量w₁,····,w_n，特征向量之间是相互独立的，基本过程为：

其中：P(w₁,····,w_n)＝P(w₁,····,w_n∣c₁)·P(c₁)+P(w₁,····,w_n∣c₂)·P(c₂)

对上述公式进行简化：

其中，分母1可以改写为：

1＝exp[log(P(w₁,····,w_n|c₁)P(c₁))-log(P(w₁,····,w_n|c₁)P(c₁))]。

本申请通过上述方法对金融贷款类平台的评论进行试验，最后生成了一个0-1之间的数值，当情感分析值≥0.5且≤1时，则认为所述评论文本属于积极评论，当情感分析值≥0且＜0.5时，则认为所述评论文本属于消极评论。得到的分析结果如表1所示。

表1。

通过表1可知，本申请的方法基本可以对评论文本进行情感倾向的分析。

参考图3，一种评论文本的情感倾向性分析装置，包括：评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块；

作为优化，所述基于贝叶斯模型的情感分析模型为：

作为优化，所述评论文本读取模块包括爬虫软件，所述爬虫软件用于从网站讨论区中读取评论文本。

所述一种评论文本的情感倾向性分析装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种评论文本的情感倾向性分析装置，可运行的装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种评论文本的情感倾向性分析装置的示例，并不构成对一种评论文本的情感倾向性分析装置的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种评论文本的情感倾向性分析装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种评论文本的情感倾向性分析装置运行装置的控制中心，利用各种接口和线路连接整个一种评论文本的情感倾向性分析装置可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种评论文本的情感倾向性分析装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本方法和装置通过基于贝叶斯模型的情感分析模型对评论文本的情感倾向进行有效的分析，该方法和装置可以用于对评论文本的情感进行倾向性分析。该方法和装置可以用于金融平台、股市等等的大数据挖掘中。

以上对本发明的较佳实施方式进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变型或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种评论文本的情感倾向分析方法，其特征在于，包括：

步骤1、读取评论文本；

步骤2、将所述评论文本进行去重处理，得到第一文本集；

步骤3、将第一文本集通过TF-IDF算法得到特征词的特征向量；

2.根据权利要求1所述的一种评论文本的情感倾向分析方法，其特征在于，在步骤4中，基于贝叶斯模型的情感分析模型为：

3.根据权利要求1所述的一种评论文本的情感倾向分析方法，其特征在于，在步骤2中，第一文本集的得到方法包括：

步骤2.1、创建一个空的list表；

步骤2.3、读取第i行的评论文本；

4.根据权利要求1所述的一种评论文本的情感倾向分析方法，其特征在于，在步骤1中，所述评论文本的读取方法包括：通过爬虫软件从网站讨论区中读取。

5.一种评论文本的情感倾向性分析装置，其特征在于，包括：评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块；

6.根据权利要求5所述的一种评论文本的情感倾向性分析装置，其特征在于，所述基于贝叶斯模型的情感分析模型为：

7.根据权利要求5所述的一种评论文本的情感倾向性分析装置，其特征在于，所述评论文本读取模块包括爬虫软件，所述爬虫软件用于从网站讨论区中读取评论文本。