CN110347822A - 一种评论文本的情感倾向分析方法及装置 - Google Patents

一种评论文本的情感倾向分析方法及装置 Download PDF

Info

Publication number
CN110347822A
CN110347822A CN201910476755.1A CN201910476755A CN110347822A CN 110347822 A CN110347822 A CN 110347822A CN 201910476755 A CN201910476755 A CN 201910476755A CN 110347822 A CN110347822 A CN 110347822A
Authority
CN
China
Prior art keywords
comment text
text
comment
sentiment analysis
sentiment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910476755.1A
Other languages
English (en)
Inventor
曾政多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan University
Original Assignee
Foshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan University filed Critical Foshan University
Priority to CN201910476755.1A priority Critical patent/CN110347822A/zh
Publication of CN110347822A publication Critical patent/CN110347822A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种评论文本的情感倾向分析方法及装置,方法包括:读取评论文本;将所述评论文本进行去重处理,得到第一文本集;将第一文本集通过TF‑IDF算法得到特征词的特征向量;将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值;根据情感分析值判断评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。装置包括:评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块;通过基于贝叶斯模型的情感分析模型对评论文本的情感倾向进行有效的分析。该方法和装置主要用于数据挖掘领域。

Description

一种评论文本的情感倾向分析方法及装置
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种评论文本的情感倾向分析方法及装置。
背景技术
近年来互联网平台或者网站的评论多种多样,这些评论往往会影响用户对平台或者网站的情感倾向性。对于普通人来讲,面对海量的评论数据,如果人为逐条来看,既费时又费力。
发明内容
本发明的目的:提供了一种评论文本的情感倾向分析方法及装置,可以对海量的评论文本数据进行情感分析。
本发明解决其技术问题的解决方案是:一种评论文本的情感倾向分析方法,包括:
步骤1、读取评论文本;
步骤2、将所述评论文本进行去重处理,得到第一文本集;
步骤3、将第一文本集通过TF-IDF算法得到特征词的特征向量;
步骤4、将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值;
步骤5、根据情感分析值判断步骤1中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。
进一步,在步骤4中,基于贝叶斯模型的情感分析模型为:
其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,····,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。
进一步,在步骤2中,第一文本集的得到方法包括:
步骤2.1、创建一个空的list表;
步骤2.2、将评论文本以分隔标点符号进行分行,输出评论文本的行数j;
步骤2.3、读取第i行的评论文本;
步骤2.4、判断第i行的评论文本在list表是否存在,存在则转至步骤2.5,不存在则转至步骤2.6;
步骤2.5、i=i+1,当i=j时,则进入步骤2.7,当i≠j时,则返回步骤2.3;
步骤2.6、将第i行的评论文本加入list表数据,i=i+1,当i=j时,则进入步骤2.7,当i≠j时,则返回步骤2.3;
步骤2.7、当i=j时,则将list表保存,并将保存后的list表记为第一文本集;
其中,所述分隔标点符号包括:逗号、分号和句号,i和j均为自然数,i的初始值为1。
进一步,在步骤1中,所述评论文本的读取方法包括:通过爬虫软件从网站讨论区中读取。
一种评论文本的情感倾向性分析装置,包括:评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块;
所述评论文本读取模块用于读取评论文本,并将读取的评论文本传递给去重处理模块;
所述去重处理模块用于将所述评论文本进行去重处理,得到第一文本集,并将第一文本集传递给特征向量得到模块;
所述特征向量得到模块用于将所述第一文本集通过TF-IDF算法得到特征词的特征向量,并将所述特征向量传递给情感分析值计算模块;
所述情感分析值计算模块将所述特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值,并将情感分析值传递给判断模块;
所述判断模块用于根据情感分析值判断步骤1中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。
进一步,所述基于贝叶斯模型的情感分析模型为:
其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,····,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。
进一步,所述评论文本读取模块包括爬虫软件,所述爬虫软件用于从网站讨论区中读取评论文本。
本发明的有益效果是:本方法和装置通过基于贝叶斯模型的情感分析模型对评论文本的情感倾向进行有效的分析,该方法和装置可以用于对评论文本的情感进行倾向性分析。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单说明。显然,所描述的附图只是本发明的一部分实施例,而不是全部实施例,本领域的技术人员在不付出创造性劳动的前提下,还可以根据这些附图获得其他设计方案和附图。
图1是情感倾向分析方法的步骤流程图;
图2是第一文本集的得到方法的步骤流程图;
图3是情感倾向性分析装置的连接框图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。另外,文中所提到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本发明创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。
实施例一,参考图1,一种评论文本的情感倾向分析方法,包括:
步骤S100、读取评论文本;
步骤S200、将所述评论文本进行去重处理,得到第一文本集;
步骤S300、将第一文本集通过TF-IDF算法得到特征词的特征向量;
步骤S400、将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值;
步骤S500、根据情感分析值判断步骤S100中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。
其中,在步骤S400中,基于贝叶斯模型的情感分析模型为:
其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,…·,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。
参考图2,在步骤S200中,第一文本集的得到方法包括:
步骤S210、创建一个空的list表;
步骤S220、将评论文本以分隔标点符号进行分行,输出评论文本的行数j;
步骤S230、读取第i行的评论文本;
步骤S240、判断第i行的评论文本在list表是否存在,存在则转至步骤S250,不存在则转至步骤S260;
步骤S250、i=i+1,当i=j时,则进入步骤S270,当i≠j时,则返回步骤S230;
步骤S260、将第i行的评论文本加入list表数据,i=i+1,当i=j时,则进入步骤S270,当i≠j时,则返回步骤S230;
步骤S270、当i=j时,则将list表保存,并将保存后的list表记为第一文本集;
其中,所述分隔标点符号包括:逗号、分号和句号,i和j均为自然数,i的初始值为1。
在步骤S100中,所述评论文本的读取方法包括:通过爬虫软件从网站讨论区中读取。
以将本申请的方法应用在金融贷款类平台的评论为例,其中,评论文本选用的是互联网金融平台用户评价讨论区的文本数据。得到文本数据后,需要进行一些预处理,需要对文本数据使用去重处理,本文使用python语言中的xlrd与xlwt库对表格数据进行处理,通过建立一个新的list表,往里面加入数据,通过遍历数据集与list表中的进行比对,没有重复则加入list的方法来进行去重处理,实现了数据清洗的过程。具体步骤如图2所示。
在步骤S300中,TF-IDF算法(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。TF-IDF算法的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF算法实际上是:TF*IDF。词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
在步骤S400中,基于贝叶斯模型的情感分析模型为两种类别C1和C2的分类问题,特征词的特征为向量w1,····,wn,特征向量之间是相互独立的,基本过程为:
其中:P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,····,wn∣c2)·P(c2)
对上述公式进行简化:
其中,分母1可以改写为:
1=exp[log(P(w1,····,wn|c1)P(c1))-log(P(w1,····,wn|c1)P(c1))]。
本申请通过上述方法对金融贷款类平台的评论进行试验,最后生成了一个0-1之间的数值,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。得到的分析结果如表1所示。
表1。
通过表1可知,本申请的方法基本可以对评论文本进行情感倾向的分析。
参考图3,一种评论文本的情感倾向性分析装置,包括:评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块;
所述评论文本读取模块用于读取评论文本,并将读取的评论文本传递给去重处理模块;
所述去重处理模块用于将所述评论文本进行去重处理,得到第一文本集,并将第一文本集传递给特征向量得到模块;
所述特征向量得到模块用于将所述第一文本集通过TF-IDF算法得到特征词的特征向量,并将所述特征向量传递给情感分析值计算模块;
所述情感分析值计算模块将所述特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值,并将情感分析值传递给判断模块;
所述判断模块用于根据情感分析值判断步骤1中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。
作为优化,所述基于贝叶斯模型的情感分析模型为:
其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,····,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。
作为优化,所述评论文本读取模块包括爬虫软件,所述爬虫软件用于从网站讨论区中读取评论文本。
所述一种评论文本的情感倾向性分析装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种评论文本的情感倾向性分析装置,可运行的装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种评论文本的情感倾向性分析装置的示例,并不构成对一种评论文本的情感倾向性分析装置的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种评论文本的情感倾向性分析装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种评论文本的情感倾向性分析装置运行装置的控制中心,利用各种接口和线路连接整个一种评论文本的情感倾向性分析装置可运行装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种评论文本的情感倾向性分析装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本方法和装置通过基于贝叶斯模型的情感分析模型对评论文本的情感倾向进行有效的分析,该方法和装置可以用于对评论文本的情感进行倾向性分析。该方法和装置可以用于金融平台、股市等等的大数据挖掘中。
以上对本发明的较佳实施方式进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变型或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.一种评论文本的情感倾向分析方法,其特征在于,包括:
步骤1、读取评论文本;
步骤2、将所述评论文本进行去重处理,得到第一文本集;
步骤3、将第一文本集通过TF-IDF算法得到特征词的特征向量;
步骤4、将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值;
步骤5、根据情感分析值判断步骤1中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。
2.根据权利要求1所述的一种评论文本的情感倾向分析方法,其特征在于,在步骤4中,基于贝叶斯模型的情感分析模型为:
其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,····,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。
3.根据权利要求1所述的一种评论文本的情感倾向分析方法,其特征在于,在步骤2中,第一文本集的得到方法包括:
步骤2.1、创建一个空的list表;
步骤2.2、将评论文本以分隔标点符号进行分行,输出评论文本的行数j;
步骤2.3、读取第i行的评论文本;
步骤2.4、判断第i行的评论文本在list表是否存在,存在则转至步骤2.5,不存在则转至步骤2.6;
步骤2.5、i=i+1,当i=j时,则进入步骤2.7,当i≠j时,则返回步骤2.3;
步骤2.6、将第i行的评论文本加入list表数据,i=i+1,当i=j时,则进入步骤2.7,当i≠j时,则返回步骤2.3;
步骤2.7、当i=j时,则将list表保存,并将保存后的list表记为第一文本集;
其中,所述分隔标点符号包括:逗号、分号和句号,i和j均为自然数,i的初始值为1。
4.根据权利要求1所述的一种评论文本的情感倾向分析方法,其特征在于,在步骤1中,所述评论文本的读取方法包括:通过爬虫软件从网站讨论区中读取。
5.一种评论文本的情感倾向性分析装置,其特征在于,包括:评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块;
所述评论文本读取模块用于读取评论文本,并将读取的评论文本传递给去重处理模块;
所述去重处理模块用于将所述评论文本进行去重处理,得到第一文本集,并将第一文本集传递给特征向量得到模块;
所述特征向量得到模块用于将所述第一文本集通过TF-IDF算法得到特征词的特征向量,并将所述特征向量传递给情感分析值计算模块;
所述情感分析值计算模块将所述特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值,并将情感分析值传递给判断模块;
所述判断模块用于根据情感分析值判断步骤1中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。
6.根据权利要求5所述的一种评论文本的情感倾向性分析装置,其特征在于,所述基于贝叶斯模型的情感分析模型为:
其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,····,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。
7.根据权利要求5所述的一种评论文本的情感倾向性分析装置,其特征在于,所述评论文本读取模块包括爬虫软件,所述爬虫软件用于从网站讨论区中读取评论文本。
CN201910476755.1A 2019-06-03 2019-06-03 一种评论文本的情感倾向分析方法及装置 Pending CN110347822A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910476755.1A CN110347822A (zh) 2019-06-03 2019-06-03 一种评论文本的情感倾向分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910476755.1A CN110347822A (zh) 2019-06-03 2019-06-03 一种评论文本的情感倾向分析方法及装置

Publications (1)

Publication Number Publication Date
CN110347822A true CN110347822A (zh) 2019-10-18

Family

ID=68181400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910476755.1A Pending CN110347822A (zh) 2019-06-03 2019-06-03 一种评论文本的情感倾向分析方法及装置

Country Status (1)

Country Link
CN (1) CN110347822A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091810A (zh) * 2019-12-19 2020-05-01 佛山科学技术学院 基于语音信息的vr游戏人物表情控制方法及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN107357837A (zh) * 2017-06-22 2017-11-17 华南师范大学 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN107357837A (zh) * 2017-06-22 2017-11-17 华南师范大学 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091810A (zh) * 2019-12-19 2020-05-01 佛山科学技术学院 基于语音信息的vr游戏人物表情控制方法及存储介质

Similar Documents

Publication Publication Date Title
Guo et al. Research and improvement of feature words weight based on TFIDF algorithm
CN106202518B (zh) 基于chi和分类别关联规则算法的短文本分类方法
Lin et al. A novel bug report extraction approach
CN108241741B (zh) 一种文本分类方法、服务器及计算机可读存储介质
CN104391835B (zh) 文本中特征词选择方法及装置
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
CN108304371B (zh) 热点内容挖掘的方法、装置、计算机设备及存储介质
CN109885813A (zh) 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
CN110569289B (zh) 基于大数据的列数据处理方法、设备及介质
CN105740466A (zh) 一种挖掘热点概念之间关联关系的方法和装置
CN111126067B (zh) 实体关系抽取方法及装置
Park et al. Aspect-level news browsing: Understanding news events from multiple viewpoints
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
CN111062212B (zh) 一种基于优化tfidf的特征提取方法及系统
CN114756607A (zh) 参数配置方法及装置
CN107562928B (zh) 一种ccmi文本特征选择方法
US20140105509A1 (en) Systems and methods for comparing images
Yatsko et al. A method for evaluating modern systems of automatic text summarization
CN110347822A (zh) 一种评论文本的情感倾向分析方法及装置
CN111814481B (zh) 购物意图识别方法、装置、终端设备及存储介质
CN115878761B (zh) 事件脉络生成方法、设备及介质
Zhou et al. Feature selection based on term frequency reordering of document level
WO2022257455A1 (zh) 一种相似文本的确定方法、装置、终端设备及存储介质
US9230015B2 (en) Deriving an interestingness measure for a cluster

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191018