CN111353044B

CN111353044B - 一种基于评论的情感分析方法及系统

Info

Publication number: CN111353044B
Application number: CN202010155795.9A
Authority: CN
Inventors: 刘群; 曹华强; 张刚强; 王如琪
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2022-11-11
Anticipated expiration: 2040-03-09
Also published as: CN111353044A

Abstract

本发明涉及自然语言处理情感分析领域，特别涉及一种基于评论的情感分析方法，该方法包括：获取数据；根据采集的数据构建情感词典，并对情感词典进行初始化；将获取的数据进行清洗，即对数据进行实时解析与预处理得到预处理后数据；将预处理的数据输入到初始化后的情感词典中，对数据的情感进行情感倾向性分类，得到情感分类结果；本发明通过利用词典与规则分类方式来提升相关指标，省却了机器学习模型训练时间优点、另外还不易产生过拟合现象、加入了pagerank算法思想与自定义分类规则集成增强了分类结果准确度。

Description

一种基于评论的情感分析方法及系统

技术领域

本发明涉及自然语言处理情感分析领域，特别涉及一种基于评论的情感分析方法及系统。

背景技术

自21世纪以来，世界范围内的大多数国家都进行了信息化建设，互联网产业得到了飞速的发展，在这大浪潮中电子商务显得格外引人注目；旅游业也充分利用信息通信技术以及互联网平台，让互联网与其自身进行了深度融合，创造新的发展生态。例如，携程网是国内目前优秀的旅游服务网站，拥有大量的用户评价数据，这些海量的主观评论文本数据中无论用户的年龄、地域、性别有何差异，他们总会在评价中使用自然语言来表达自己的情绪，这也导致了如何对这些评价进行处理分析也成为了一个独特的领域。

目前，评论的情感分析方法一般可以通过构造相应的情感词典和利用机器学习算法来对文本进行情感分析、极性分类。授权发明专利号为201610475678.4的《一种基于社交网络数据的情感分析方法》公开了一种使用线性支持向量机模型这种机器学习方法提取训练集上的情感类别特征进行训练，最后得到一个稳定的情感分类模型；然后使用该模型对预测数据集内的情感特征进行预测分析，预测目标数据的情感倾向性。

但是该方法在进行情感倾向性分类时，没有对情感分类模型中的相似性的语句进行情感类别的判断，使得词语类别判断的精确度差；在进行语句词性判断是没有对表情符号进行精确的判别，使得语句的判别准确度差。

发明内容

为解决以上现有技术的问题，本发明为一种基于评论的情感分析方法，该方法包括：

获取实时的评论数据，将实时的评论数据输入到训练好的情感分类模型中，得到情感分类结果，根据分类结果确定游客的喜爱偏好，并将喜爱偏好数据存入系统的存储介质中；

所述情感分类模型的构建过程包括：采用分布式爬虫算法获取评论数据；根据采集的数据与自有语料库构建情感词典；将获取的数据进行实时解析与预处理，得到预处理的数据；利用情感词典对预处理后的数据进行情感倾向性分类，得到训练好的情感分类模型。

优选的，获取数据采用分布式爬虫算法，即根据用户的输入的相关参数进行指定携程旅行景点的客户评论数据的爬取，返回的数据类型为json格式。

优选的，构建情感词典的步骤包括：

步骤1：根据情感词汇本体库筛选正负情感极性以及情感强度，得到基础情感词集B；

步骤2：将常用的颜文字和Emoji进行混合，根据按键值将混合的颜文字和Emoji构造成词典，得到颜文字词典；

步骤3：采用颜文字词典将旅行评论领域数据内的特殊表情符还原为对应的汉字，得到汉字集；

步骤4：对汉字集进行去停用词、分词处理，并计算处理后分词集的tf-idf值，根据tf-idf值对分词集进行筛选，得到词汇集C；

步骤5：B与C取交集，得到种子情感词集S，将种子情感词集加入情感词典Sent-D中；C与B进行取差集运算，得到候选词集CL；

步骤6：采用颜文词典对搜狗全网新闻数据与旅行评论的混合数据进行表情符号还原操作，然后进行去停用词和分词操作；并对得到的词集进行词向量化处理，得到词向量集M-V；

步骤7：利用词向量集M-V计算CL_i与S_j调整后的余弦相似性，按相似性的大小进行降序排列；

步骤8:从排列中选择相似性最高的5个种子情感词，若5个种子情感词的情感极性一致，则直接求CL_i情感词极性及强度pa，若5个种子情感词的情感极性不一致，则取种子情感词极性数较多的候选词集，计算候选词集CL_i情感词极性及强度pa；

步骤9：结合pagerank算法计算CL_i情感词极性及强度pb；

步骤10：利用pa与pb加权计算后取得最后的CL_i情感词极性及强度p；

步骤11：将候选词的词极性以及计算得到的情感强度加入情感词典Sent-D中。

优选的，情感强度计算方法步骤包括：

根据5个种子情感词的情感极性求情感强度；

若情感极性一致，则求得候选词CL_i情感词强度为：

若情感极性不一致，则取种子情感词极性数较多的候选词集，计算情感词强度：

优选的，pagerank算法包括：确定种子集S在情感词汇本体中对应的情感极性矩阵Y；S的情感强度为：X＝(x₁,x₂,...,x_n)，

根据S情感词的情感极性及强度计算S的情感极性向量为:Z＝X×Y；

定义义图G＝<N,M>，|N|＝|S|+|W|，其矩阵M的结点间的无向图链接关系为|W|×|N|；根据调整后余弦相似度将M可分解为|W|×|S|的矩阵U和|W|×|W|的子矩阵V；将种子词集S的正向词置前，负向词置后；对U、V和Z作归一化处理，并进行迭代计算，得到候选词情感强度及极性向量P。

优选的，情感极性包括：正面情感极性及强度用0～10之间的值表示，负面情感词及强度用-10～0之间的值表示。

优选的，情感分类模型包括：

步骤1：对待分类的评论进行颜文字替换、去停用以及分词操作，得到待分类词列表LP；

步骤2：将待分类词列表LP分为i个待分类词子列表，并判断待分类词子列表是否存在于情感词典中；若存在，将待分类词子列表添加到情感列表LS中；若不存在，则进行下一步；

步骤3：采用情感倾向计算公式计算待分类评论的情感倾向St，并根据情感倾向进行分类。

优选的，情感倾向计算公式计为：

一种基于评论的情感分析系统，所述系统包括：数据采集模块、数据清洗模块、数据分析模块以及数据可视化模块；

所述数据采集模块用于从互联网中实时的爬取携程旅行指定景点的客户体验评价数据，并将数据发送给数据清洗模块；

所述数据清洗模块用于将数据采集模块发送的数据进行实时解析与预处理，得到解析后半结构化的评论数据，并将解评论数据发送给数据分析模块；

所述数据分析模块包括情感词典自动构建模块和情感分类模块；

所述情感词典自动构建模块用于构建情感词典，将评论数据输入情感词典构建模块，并结合自有语料库共同利用gensim库的word2vec模型训练出词向量，利用这些向量计算后可得到情感词典；

所述情感分类模块将情感词典的数据进行情感正负向性分类，并将分类结果发送给数据可视化模块；

所述数据可视化模块用于将分类结果进行可视化展现。

本发明在进行词的相似性判定时采用调整后的余弦相似性，提高了词向量位置的作用，使得判断更精确；在对词进行分类时加入了情感强度，使得在进行词分类时其结果更准确；本发明在构建情感词典时通过颜文字和Emoji构建了颜文字词典，使得句子中的颜文字能够更加精确的被识别，提升了类别判断的准确度。

附图说明

图1为本发明的总体流程图；

图2为本发明的系统流程示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明为一种基于评论的情感分析方法，如图1所示，该方法包括：

获取数据采用分布式爬虫算法，即根据用户的输入的相关参数进行指定携程旅行景点的客户评论数据的爬取，返回的数据类型为json格式。

所述对数据进行实时解析的过程包括：将爬取到的html文本，从中选择评论编号字段，评价内容字段，评价时间字段，费用字段构建新的json格式数据；例如会输出这样的(id:1,comment:玩的很高兴,time:20200101,cost:2500)。

其中，id表示评论编号，comment为评价内容字段，time为评价时间字段，cost为该产品价格字段。

所述预处理的过程包括：仅针对评价内容字段，评价内容使用颜文字词典将特殊符号替换为汉字，之后对其进行去停用词,分词等操作。

构建情感词典的步骤包括：

其中，情感词汇本体库为大连理工大学信息检索研究室的情感词汇本体库，基础情感集B的情感强度大于7。

所述颜文字为字符类型的表情，Emoji为图像类型的表情，颜文字词典为将表情对应为相应的汉字的词典。

步骤4：对汉字集进行去停用词、分词处理，计算处理后分词集的tf-idf值，根据tf-idf值对分词集进行筛选，得到词汇集C；

所述tf-idf值进行筛选的判别条件为：tf-idf>0.6，tf-idf(Term Frequency-inverse Document Frequency)用以评估一个单词在该语料中的重要程度。

求一个词在评论中出现的频率的公式为：

其中，tf_i,j表示词i在文本j中出现的频率，n_i,j为词i在文本j中出现的频次,分母

表示所有在文档j中出现的所有词的次数之和；

IDF(Inverse Document Frequency)：逆文档频率。公式如下：

其中，idf_i表示词i的逆文档频率，N表示总的评论数，n_i表示词i出现的总评论数。

tf-idf的计算方法公式为：

tfidf_i,j＝tf_i,j×idf_i

其中，tfidf_i,j表示词i在文本j中的tf-idf值。

步骤5：将基础情感词集B与词汇集C取交集，得到种子情感词集S，将种子情感词集加情感词典Sent-D；词汇集C与基础情感词集B进行差运算，得到候选词集CL；

步骤6：采用颜文词典对搜狗全网新闻数据与旅行评论的混合数据进行表情符号还原操作，并进行去停用词、分词等操作；并对得到的词集进行词向量化处理，得到词向量集M-V；

所述词向量化操作采用python的gensim库提供的word2vec模型工具包，读取语料，待其训练完成后得到语料对应的词向量集。

步骤7：利用词向量集计算候选词集的子集CL_i与种子情感词集的子集S_j的余弦相似性，并按相似性的大小进行降序排列；

计算调整后的余弦相似性表达式为：

其中，CL_i∈CL、S_j∈S，

表示候选词

向量各维度和的平均值构造向量，

表示种子情感词

向量各维度和平均值构造的向量。

计算候选词CL_i在种子情感词集合S中的相似度

然后按其值大小进行排序，取得CL_i在种子情感词集S中

值前5的种子情感词。

步骤8：从排列中选择相似性最高的5个种子情感词，若5个种子情感词的情感极性一致，则直接求CL_i情感词极性及强度pa，若5个种子情感词的情感极性不一致，则取种子情感词极性数较多的候选词集，计算候选词集CL_i情感词极性及强度pa；

步骤9：结合pagerank算法计算出CL_i情感词极性及强度pb；

其中加权计算方法为：

步骤11：将候选词的词极性以及计算得到的情感强度加入情感词典Sent-D中；

其中，Emoji表示情感含义符号数据，tf-idf表示评估一个单词在该语料中的重要程度，Sent-D表示情感词典。

情感强度计算方法步骤包括：

根据5个种子情感词的情感极性求情感强度；

若情感极性一致，则求得候选词CL_i情感词强度为：

其中，n为种子情感词极性数较多方的词个数，Ps表示。

情感分类方法包括：

pagerank算法包括：

确定种子集S在情感词汇本体中对应的情感极性矩阵Y；即

其中，当情感词属于正面情感词时，y_i＝1，反之，y_i＝－1。

S的情感强度为：X＝(x₁,x₂,...,x_n)，

其中，o_i为种子情感词在情感词汇本体库中对应的情感强度

计算S情感词情感极性及强度向量为:Z＝X×Y；

定义义图G＝<N,M>，|N|＝|S|+|W|，其矩阵M的结点间的无向图链接关系为|W|×|N|，M_ij为结点i与结点j间利用步骤6计算的调整后的余弦相似度；根据调整后余弦相似度将M可分解为|W|×|S|的矩阵U和|W|×|W|的子矩阵V，U_ij为CL_i和S_j之间利用步骤6计算的调整后余弦相似度；种子词集S中将正向词置前，负向词置后；V_ij为CL_i和CL_j之间利用S6计算的调整后余弦相似度，对U、V和Z作归一化处理，并进行迭代计算，得到候选词情感强度及极性向量P；迭代计算的表达式为：

P^t＝(1-β)UZ+βVP^t-1

其中，o_i为种子情感词在情感词汇本体库中对应的情感强度，N为结点集合，|S|为种子情感词数，|W|为CL词数，t表示迭代次数，β—衰减因子(通常取值为0.85)，U—相似矩阵，p表示CL的情感极性及强度，P⁰＝0。

情感分类模型包括：

步骤3：采用情感倾向计算公式计算待分类评论的情感倾向St，并更具情感倾向进行分类。

情感倾向计算公式计为：

其中，t_i表示情感词极性，p_i表示情感词强度，St表示该评论的倾向。

一种基于评论的情感分析系统，如图2所示，所述系统包括：数据采集模块、数据清洗模块、数据分析模块以及数据可视化模块；

所述情感词典自动构建模块用于构建情感词典，将解评论数据输入情感词典中，得到训练后的情感词典；

所述情感分类模块用于将情感词典处理后的数据进行情感正负向性分类，并将分类结果发送给数据可视化模块；

所述数据可视化模块用于将分类结果进行可视化展现。

该系统的工作流如下述：

步骤1：用户首先打开情感词典自动构建模块进行情感词典初始化操作，将领域语料路径录入模块当中，模块会自动构建出基于该语料的词典，在之后的运行中，自动构建模块每日都会根据当天所处理的评论数据集更新情感词典。

步骤2：在用户操作下，数据采集模块被激活，采集模块是一个被分布式部署的爬虫程序，它根据用户输入的相关参数进行指定携程旅行景点的客户评论数据的爬取，返回的数据类型为json格式。

步骤3：当json格式的数据成功返回时，数据清洗模块被成功激活，本方案中的清洗方案是用户可模块化定制的，同一个采集模块所返回的数据可经由不同的用户定义数据清洗模块处理。将步骤2返回的数据按用户配置的数据清洗模块进行实时解析与预处理。处理后数据一份会通过开源关系数据库进行持久化并同时将其传入数据分析模块中。

步骤4：步骤3预处理后的评价数据将会被传送到数据分析模块，数据分析模块会读取S0产生的情感词典并籍由分类模块的模型完成情感倾向性分类工作。分类的结果将保存在开源关系数据库mysql中进行持久化。

步骤5：在用户启动了数据可视化模块后，该模块会以30秒为单位，周期性读取开源关系数据库mysql中的结果集并按界面配置的显示图表进行可视化展示。

系统的实施例与方法的实施例相似。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于评论的情感分析方法，其特征在于：获取实时的评论数据，将实时的评论数据输入到训练好的情感分类模型中，得到情感分类结果，根据分类结果确定游客的喜爱偏好，并将喜爱偏好数据存入系统的存储介质中；

所述情感分类模型的构建过程包括：采用分布式爬虫算法获取评论数据；根据采集的数据与自有语料库构建情感词典；将获取的数据进行实时解析与预处理，得到预处理的数据；利用情感词典对预处理后的数据进行情感倾向性分类，得到训练好的情感分类模型；构建情感词典的步骤包括：

步骤6：采用颜文词典对新闻数据与旅行评论的混合数据进行表情符号还原操作，并进行去停用词和分词操作；并对得到的词集进行词向量化处理，得到词向量集M-V；

步骤7：利用词向量集M-V计算CL_i与S_j调整后的余弦相似性，按相似性的大小进行降序排列；CL_i表示候选词集的子集，S_j表示种子情感词集的子集；

步骤9：结合pagerank算法计算CL_i情感词极性及强度pb；

2.根据权利要求1所述的一种基于评论的情感分析方法，其特征在于，所述情感强度计算方法步骤包括：

根据5个种子情感词的情感极性求情感强度；

若情感极性一致，则求得候选词CL_i情感词强度为：

其中，n为种子情感词极性数较多方的词个数，

表示种子情感词S_j的情感强度。

3.根据权利要求1所述的一种基于评论的情感分析方法，其特征在于，所述pagerank算法包括：确定种子集S在情感词汇本体中对应的情感极性矩阵Y；S的情感强度为：X＝(x₁,x₂,...,x_n)，

定义图G＝<N,M>，|N|＝|S|+|W|，矩阵M的结点间的无向图链接关系为|W|×|N|；根据调整后余弦相似度将M分解为|W|×|S|的矩阵U和|W|×|W|的子矩阵V；将种子词集S的正向词置前，负向词置后；对U、V和Z作归一化处理，并进行迭代计算，得到候选词情感强度及极性向量P；

其中，o_i为种子情感词在情感词汇本体库中对应的情感强度，N为结点集合，|S|为种子情感词数，|W|为CL词数。

4.根据权利要求1所述的一种基于评论的情感分析方法，其特征在于，所述情感极性包括：正面情感极性及强度用0～10之间的值表示，负面情感词及强度用-10～0之间的值表示。

5.根据权利要求1所述的一种基于评论的情感分析方法，其特征在于，所述情感分类模型包括：

6.根据权利要求5所述的一种基于评论的情感分析方法，其特征在于，所述情感倾向计算公式计为：

7.一种基于评论的情感分析系统，该系统用于执行权利要求1～6所述的任意一种基于评论的情感分析方法，其特征在于，所述系统包括：数据采集模块、数据清洗模块、数据分析模块以及数据可视化模块；

所述数据采集模块采用分布式爬虫算法从互联网中实时的爬取客户评论数据，并将数据发送给数据清洗模块；

所述数据可视化模块用于将分类结果进行可视化展现。

8.根据权利要求7所述的一种基于评论的情感分析系统，其特征在于，所述情感词典自动构建模块中构建过程包括：

根据情感词汇本体库筛选正负情感极性以及情感强度，得到基础情感词集B；将常用的颜文字和Emoji进行去重处理，得到颜文字词典；采用颜文词典将旅行评论领域数据内的特殊表情符还原为对应的汉字，得到汉字集；对汉字集进行去停用词、分词处理，并计算处理后的分词集的tf-idf值，根据tf-idf值进行筛选得到词汇集C；将B与C取交集，得到词集S，将S加入情感词典Sent-D；C与B进行差集运算得到候选词集CL；采用颜文词典对新闻数据与旅行评论的混合数据进行表情符号还原操作，对操作后得到的数据进行去停用词和分词处理；并对得到的词集进行词向量化操作得到词向量集M-V；利用M-V计算CL_i与S_j的调整后的余弦相似性，并按相似度进行降序排列；从S中取出该候选词相似性最高的5个种子情感词，若其情感极性一致则取其情感强度和的均值作为该候选词情感强度；当其情感极性不一致时选择其多数情感倾向作为该候选词的极性，情感强度计算方式不变；利用pagerank算法思想计算另一组CL_i的情感极性；将上述得到的两组情感极性进行加权求平均值，得到最后的情感极性及强度；将该候选词的词极性及强度加入情感词典Sent-D；

其中，Emoji表示情感含义符号数据，tf-idf表示评估一个单词在该语料中的重要程度，Sent-D表示情感词典，CL表示候选词集。

9.根据权利要求7所述的一种基于评论的情感分析系统，其特征在于，所述情感分类模块进行分类的过程包括：

对待分类的评论进行颜文字替换、去停用以及分词操作，得到待分类词列表LP；将待分类词列表LP分为i个待分类词子列表，并判断待分类词子列表是否存在于情感词典中；若存在，将待分类词子列表添加到情感列表LS中；若不存在，则进行下一步；采用情感倾向计算公式计算待分类评论的情感倾向St，并更具情感倾向进行分类。