CN112347259A

CN112347259A - 一种结合词典与机器学习的评论文本情感分析方法

Info

Publication number: CN112347259A
Application number: CN202011283488.5A
Authority: CN
Inventors: 吕妹园; 张永健; 孙胜娟
Original assignee: Hebei University of Engineering
Current assignee: Hebei University of Engineering
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-09

Abstract

本发明公开一种结合词典与机器学习的文本情感分析方法，其包括以下步骤：S1、获取评论文本；S2、将评论文本做数据清洗和去停用词操作；S3、提取特征词；S4、将特征词转化为词频向量；S5、判断特征词是否为情感词，若特征词不是情感词则用公式(2)计算特征词权重；若特征词是情感词则先判断情感词的前后三个词中是否存在程度副词，若不存在程度副词则用公式(4)计算特征词权重；若存在程度副词则使用公式(6)计算特征词权重；S6、根据获得的特征词权重，使用SVM算法进行情感倾向分类。采用本发明的结合词典与机器学习的文本情感分析方法能实现精确地对评论文本进行情感分类。

Description

一种结合词典与机器学习的评论文本情感分析方法

技术领域

本发明涉及数据分析领域，尤其涉及一种评论文本情感分析方法。

背景技术

旅游作为娱乐休闲活动不仅增强了人民幸福感而且还能促进经济发展。国家统计局发布2019年全年国内游客高达60亿人次；国内旅游收入57251亿元。旅游网站的评论数据较多且默认好评数据排在前面，影响潜在游客产生正确的决策和判断。

传统情感倾向分析的手段有：基于情感词典和基于机器学习的方法。然而，情感分析是一个很模糊的工作，尤其是当情感分析应用于社交网络中的非结构化文本时。一些分析方法，用来研究用户情绪与自动情绪检测算法之间的匹配(如公开的文献：Valdivia A,Luzón M V,Herrera F.Sentiment analysis in tripadvisor[J].IEEE IntelligentSystems,2017,32(4):72-77.)。一些分析方法提出了三组基于统计的特征选择函数和传统的TF-IDF方法，且制定了七组不同的基于规则的方法，分别计算了宏观平均值和微观平均值，结果证明，特征选择函数与权重的结合能够较好地提高算法的整体性能(如公开的文献：Yu C,Zhu X,Feng B,et al.Sentiment Analysis of Japanese Tourism OnlineReviews[J].Journal of Data and Information Science,2019,4(1):89-113.)。一些分析方法则提出了一种提出融合句法规则和深度学习情感分析算法(如公开的文献：何雪琴,杨文忠,吾守尔·斯拉木,杨波,殷亚博,李尧.融合句法规则和CNN的旅游评论情感分析[J].计算机工程与设计,2019,40(11):3306-3312.)。还有一些分析方法利用SnowNLP模块计算情感极值大小，用来判断游客对景点的喜恶(如公开的文献：唐明虎.旅游评论极性分析对景区服务品质影响研究[J].电脑知识与技术,2020,16(20):23-27+31.)等等。

如何进一步精确地对评论文本进行情感分类，是目前本领域亟待解决的问题。

发明内容

本发明的目的在于提供一种结合词典与机器学习的评论文本情感分析方法，该分析方法能实现精确地对评论文本进行情感分类。

为实现上述目的，本发明采用如下技术方案：

一种结合词典与机器学习的评论文本情感分析方法，包括以下步骤：

S1、获取评论文本；

S2、将评论文本做数据清洗和去停用词操作；

S3、提取特征词；

S4、将特征词转化为词频向量；

S5、判断特征词是否为情感词，若特征词不是情感词则用公式(2)计算特征词权重；若特征词是情感词则先判断情感词的前后三个词中是否存在程度副词，若不存在程度副词则用公式(4)计算特征词权重；若存在程度副词则使用公式(6)计算特征词权重；

S6、根据获得的特征词权重，使用SVM算法进行情感倾向分类；

其中，公式(2)为TF-IDF公式，具体如下：

公式(4)具体如下：

公式(6)具体如下：

在所述公式(2)、公式(4)和公式(6)中，W_ij表示评论文本T_i中词语V_j的特征词权重；n_ij表示词语V_j出现在评论文本T_i的数量，N表示评论文本的数量，M_j表示所有评论文本中出现词语V_j的文本数，S_j表示情感词的情感极性值，D_j+m表示情感词前三个词和后三个词共6个词的程度量化值；k为情感词前三个词和后三个词共6个词中程度副词的个数。

作为进一步优选的方案，所述的步骤S2中，基于预先构建的停用词词典进行去停用词操作，所述停用词词典通过以下步骤处理获得：将引用的若干个停用词词典合并去重，再把合并去重后的所述停用词词典中的否定词和程度副词以及总结词、转折词去除。

作为进一步优选的方案，所述的步骤S5中，基于预先构建的程度副词词典进行判断情感词的前后三个词中是否存在程度副词，所述程度副词词典通过以下步骤处理获得：(1)程度副词预处理步骤：先从所述评论文本中提取程度副词，然后去除词性属于形容词的程度副词；(2)程度量化值的设定步骤：将程度副词分为极量、高量、中量、低量四个等级，并为这四个等级赋程度量化值；将否定词添加到程度副词词典中。

作为进一步优选的方案，所述程度副词的极量、高量、中量、低量四个等级的程度量化值对应设为：1.9,1.5,1.1,和0.7；所述否定词的否定量化值设为-1。

作为进一步优选的方案，构建总结词词典及转折词词典，并且将所述转折词词典分为一类转折词和二类转折词，其中，所述一类转折词所在的句子不是情感重心，所述二类转折词所在的句子是情感重心；

在步骤S3中，首先判断评论文本中是否存在总结词，若存在，则直接提取包含总结词句子的特征词；若不存在，则判断句子中是否存在转折词，若存在转折词，则继续判断此转折词是一类转折词还是二类转折词，若是一类转折词则忽略该句；若是二类转折词则提取句子中的特征词；若评论文本中既不存在总结词也不存在转折词，则直接提取全句的特征词。

作为进一步优选的方案，所述总结词词典中的词包括：总之、总而言之、总结一下、反正、总体来说、整体来说、综上所述、简而言之。

作为进一步优选的方案，所述的一类转折词包括：尽管、虽然、即便、就是、几乎、不管、不足的是、只不过，只是有点，也就；

所述的二类转折词包括：但是、可是、重要的是、然而、可、但。

本发明的有益效果是：

1、本发明根据提取出的特征词的类型，对应利用传统的TF-IDF公式(2)和提出的公式(4)和公式(6)(公式(4)和公式(6)在本文中称之为“Word-TFIDF算法”)计算特征权重，并结合SVM机器学习的情感分类方法，提高了计算情感倾向的准确率。

2、本发明通过判断特征词是否为情感词，若否则采用传统的TF-IDF公式(2)计算特征词权重，若是则先判断情感词的前后三个词(共6个词)中是否存在程度副词，若不存在程度副词则用公式(4)计算特征词权重；若存在程度副词则使用公式(6)计算特征词权重；本发明提出的Word-TFIDF算法(即，公式(4)和公式(6))计算特征权重值，充分考虑了情感词对于评论文本情感的贡献，使情感分类更加准确。

3、建立总结词词典和转折词词典，并根据这两个词典对特征词提取进行改进，在对评论文本进行处理时，利用总结词和转折词在语句中的作用，剔除了对于情感分析贡献较小甚至无用的语句，避免了无用的文本影响情感分类结果的情况，缩小了结果的偏差，从而使得情感分类更加准确。

4、本发明通过将引用的若干个停用词词典合并去重，再把合并去重后的停用词词典中的否定词和程度副词以及总结词、转折词去除对以构建一个新的停用词词典，可使得情感分类更加准确。

5、本发明将从所述评论文本中提取的程度副词，去除词性属于形容词后构建出程度副词词典，可使得情感分类更加准确。

附图说明

图1为本发明的特征词提取流程图；

图2为本发明的分析步骤流程图。

具体实施方式

结合以下实施例对本发明作进一步说明。以下实施例中以旅游评论文本为例进行详细说明，当然本发明不限于旅游评论文本，也可以对其他行业的评论文本(如饮食行业等)进行情感分类。

如图2所示，本发明的一种结合词典与机器学习的评论文本情感分析方法，包括以下步骤：

S1、获取评论文本；

S2、将评论文本做数据清洗和去停用词操作；

S3、提取特征词；

S4、将特征词转化为词频向量；

S6、根据获得的特征词权重，使用SVM算法进行情感倾向分类。

上述分析方法通过以下几个部分实现：

1词典处理

1.1停用词词典处理

停用词在文本中不会传递任何信息。连词、介词、标点符号等这些对于情感倾向研究没有任何帮助的文字，就称为停用词。现有的停用词词典大都包含程度副词和否定词以及总结词词典及转折词词典中的词语。如果在去除停用词时删除程度副词和否定词，将会导致分析结果的偏差。本发明将引用的现有的若干个停用词词典合并去重，再把合并去重后的停用词词典中的否定词和程度副词以及总结词、转折词去除，从而构建一个新的适用于情感分析的停用词词典。

1.2程度副词词典处理

(1)程度副词预处理。修饰积极、消极、中性情感词的情感极性大小的词叫做程度副词(表1中用ADV表示)。首先从评论文本中提取符合文中定义的所有程度副词，参考陈颖(陈颖.简论程度副词的程度等级[J].牡丹江师范学院学报(哲学社会科学版),2008(01):59-62.)对程度副词的研究指出的“透顶”等词语是形容词，将程度副词词典中这类形容词删除。

(2)程度量化值的设定。程度副词词典的处理主要是在给在程度副词典的每个程度副词后面添加程度量化值(表1中用M表示)。根据蔺璜(蔺璜,郭姝慧.程度副词的特点范围与分类[J].山西大学学报(哲学社会科学版),2003(02):71-74.)将程度副词分为极量、高量、中量、低量四类，并为这四个等级赋程度量值：1.9,1.5,1.1,和0.7。另外，否定词会改变文本的情感倾向，所以将否定词添加到程度副词词典中，并将其否定量化值设为-1。经过处理后的程度副词词典部分内容如表1所示：

表1程度副词词典

1.3情感词典的处理

通过分析旅游评论文本的词频大小，在现存情感词典的基础上筛选出符合旅游专属领域情感词典(表2中用STW表示)，并利用公知的SO-PMI算法计算情感极值(表2中用S表示)。经处理过后情感词典的部分内容如表2所示：

表2情感词词典

2特征词提取

通常一个句子可以分为简单句和复杂句。简单句就是评论文本将对景点的感受直观的表达出来，如“景点很美还会来！”，而复杂句则是由几个单句以一定的逻辑结构结合在一起的句子，如“城墙和弘济桥非常不错，其它就一般了，但古城内环境不好，路面不平整，卫生状况差，为什么不能搞得好一点呢？”，此句中积极和消极的评论交织在一起，此时用传统的方法进行情感分类略有困难。面临这种情况可以从句子的本身出发，弄清其逻辑结构，分析句子中哪个部分对句子的情感倾向有较大的贡献，哪个部分对句子情感倾向的贡献较小或没有贡献，经过分析对数据进行进一步的处理。

本发明对传统的特征词提取方法进行了改进，具体如下：

若评论文本中含有“总之”、“总体来说”，用户评论的情感重心是在这些总结词之后的。如“一个四面环水的小村落，感觉还是不错的，但毕竟是有人居住的地方，所以不要四处乱转。总结一下近处的可以去，还是不错的。”这句评论文本的情感重点就落在短语“总结一下”后面。

若评论文本中含有转折词，也会改变一个句子的情感重心，如词语“虽然”、“尽管”表示本句不是情感重心，将其标注为一类转折词，也即，所述一类转折词所在的句子不是情感重心；词语“但是”、“可是”表示本句是情感重心，将标注为二类转折词，也即，所述二类转折词所在的句子是情感重心。

综上，构建了总结词及转折词词典，如表3、表4所示。

表3总结词词典

表4转折词词典

当然，总结词词典和转折词词典包括但不限于表3、表4中所列的词。

在表3、表4的基础上提取特征词，对于情感分类的研究，若忽略文本中一些词对情感极性大小的贡献而进行无差别的特征提取，势必影响情感分类的准确性。针对于复杂句式本发明改进了特征提取的方法，首先判断评论文本中是否存在总结词，若存在，则直接提取包含总结词句子的特征词；若不存在，则判断句子中是否存在转折词，若存在转折词，则继续判断此转折词是一类转折词还是二类转折词，若是一类转折词则忽略该句；若是二类转折词则提取句子中的特征词。若评论文本中既不存在总结词也不存在转折词，则直接提取全句的特征词。提取流程如图1所示。

3Word-TFIDF特征权重算法

已知的，具有高TF-IDF值的词语可以表明，此文档与包含有这个词语的文档有很强的关联关系。

传统的TF-IDF的公式：

将公式(1)归一化得：

Word-TFIDF算法计算特征权重的过程如下：

(1)判断某评论文本T_i中某单词V_j是否为情感词，若是则如公式(3)所示：

将公式(3)归一化得：

(2)根据蔺璜(蔺璜,郭姝慧.程度副词的特点范围与分类[J].山西大学学报(哲学社会科学版),2003(02):71-74.)提出的程度副词的粘着性及定位性强，其做状语时不仅不可前移也不能后置只能紧靠在谓语周围，且程度副词只能与一个其他副词连用。因此程度副词与其修饰的情感词的距离不超过3，则判断词语V_j前后距离为3的6个词语是否有程度副词，设6个词中程度副词的个数是k，将非程度副词的程度值为0，而程度副词的程度值赋值参考表1，则如公式(5)所示：

将公式(5)归一化得:

在上述的各个公式中：W_ij表示游客评论文本T_i中词语V_j的特征权重；n_ij表示词语V_j出现在游客评论文本T_i的数量，N表示游客评论文本的数量，M_j表示所有评论文本中出现词语V_j的文本数，S_j表示情感词的情感极性值，D_j+m表示情感词前三个词和后三个词共6个词的程度量化值；k为情感词前三个词和后三个词共6个词中程度副词的个数。

本发明提出的Word-TFIDF算法特征词权重赋值过程如下：

(1)获取评论文本，将评论文本做数据清洗和去停用词操作，按照上述的特征词提取方法提取特征词；

(2)将特征词转化为词频向量；

(3)判断特征词是否为情感词，若否则用传统的公式(2)计算特征词权重；若是情感词则先判断情感词的前后三个词中是否存在程度副词，若不存在则用新公式(4)计算特征词权重；若存在则使用新公式(6)计算特征词权重。

实验结果与分析

1、实验数据

(1)数据获取。针对河北省文旅融合的景点，如广府古城、娲皇宫、赵州桥等景点，对比几大旅游网站的数据发现携程网的评论数据和销量最多，利用携程网的API爬取用户评论。

(2)数据处理。去除关于评论旅游网站本身的文本、重复评论文本及一些乱码，然后利用文中建立的专属情感分析领域的停用词词典去除停用词。

(3)数据标注。选择10000条语料，人工将这10000条语料进行标注，最终得到了6820条积极情感倾向文本，2189条消极倾向文本，991条中性情感倾向文本。

2、实验评估指标

文本以准确率、召回率、F值作为评价指标，评价实验方法的有效性。

设P为准确率，R为召回率、Q_iright是属于某类情感倾向C_i的文本被正确分类的数量，Q_iwrong表示是其他情感倾向的文本被分类到C_i文本的数量，Q_iall表示实际中某情感倾向C_i文本的数量。

准确率是指被正确分类的样本的数量占总样本的比值公式如下：

召回率是指被正确分类到情感倾向C_i中文本的数量与实际上情感倾向C_i文本数量的比值公式如下：

F值的召回率公式如下：

3、实验结果分析

设置了两组对照实验，分别是传统的机器学习(SVM)和情感词典的方法，实验结果如表5所示。

依据实验结果，文中利用的Word-TFIDF计算特征权重，并结合SVM机器学习的情感分类方法，提高了计算情感倾向的准确率。

本发明的方法与传统方法相较优点在于：

(1)在对评论文本进行处理时，利用总结词和转折词在语句中的作用，剔除了对于情感分析贡献较小甚至无用的语句，避免了无用的文本影响情感分类结果的情况，缩小了结果的偏差。

(2)TF-IDF算法认为文档频率越小的词语越重要，文中提出的Word-TFIDF算法计算的特征权重值，充分考虑了情感词对于评论文本情感的贡献，使情感分类更加准确。

表5实验结果比较

旅游评论文本大多很短，风格偏向口语，文本内容大部分都对情感分析无贡献，本发明的一种结合词典和机器学习的方法，针对评论文本逻辑复杂的特点提取文本特征词，基于情感词典、程度副词词典提出了一种Word-TFIDF算法计算特征词权重值，并使用SVM算法进行情感倾向分类，能实现精确地对评论文本进行情感分类。

Claims

1.一种结合词典与机器学习的评论文本情感分析方法，其特征在于，包括以下步骤：

S1、获取评论文本；

S2、将评论文本做数据清洗和去停用词操作；

S3、提取特征词；

S4、将特征词转化为词频向量；

其中，公式(2)为TF-IDF公式，具体如下：

公式(4)具体如下：

公式(6)具体如下：

2.根据权利要求1所述的评论文本情感分析方法，其特征在于，

所述的步骤S2中，基于预先构建的停用词词典进行去停用词操作，所述停用词词典通过以下步骤处理获得：将引用的若干个停用词词典合并去重，再把合并去重后的所述停用词词典中的否定词和程度副词以及总结词、转折词去除。

3.根据权利要求1所述的评论文本情感分析方法，其特征在于，

所述的步骤S5中，基于预先构建的程度副词词典进行判断情感词的前后三个词中是否存在程度副词，所述程度副词词典通过以下步骤处理获得：(1)程度副词预处理步骤：先从所述评论文本中提取程度副词，然后去除词性属于形容词的程度副词；(2)程度量化值的设定步骤：将程度副词分为极量、高量、中量、低量四个等级，并为这四个等级赋程度量化值；将否定词添加到程度副词词典中。

4.根据权利要求3所述的评论文本情感分析方法，其特征在于，

所述程度副词的极量、高量、中量、低量四个等级的程度量化值对应设为：1.9,1.5,1.1,和0.7；所述否定词的否定量化值设为-1。

5.根据权利要求1所述的评论文本情感分析方法，其特征在于，

构建总结词词典及转折词词典，并且将所述转折词词典分为一类转折词和二类转折词，其中，所述一类转折词所在的句子不是情感重心，所述二类转折词所在的句子是情感重心；

6.根据权利要求5所述的评论文本情感分析方法，其特征在于，

所述总结词词典中的词包括：总之、总而言之、总结一下、反正、总体来说、整体来说、综上所述、简而言之。

7.根据权利要求5所述的评论文本情感分析方法，其特征在于，

所述的一类转折词包括：尽管、虽然、即便、就是、几乎、不管、不足的是、只不过，只是有点，也就；