CN112861541A

CN112861541A - 一种基于多特征融合的商品评论情感分析方法

Info

Publication number: CN112861541A
Application number: CN202011476049.6A
Authority: CN
Inventors: 王勇; 刘聪; 杨静; 曲连威; 王天一
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-05-28
Anticipated expiration: 2040-12-15
Also published as: CN112861541B

Abstract

本发明提供了一种基于多特征融合的商品评论情感分析方法。对数据集进行噪音过滤，进行文本的分词、词性筛选，统计词频，得到预处理后的文本；对文本中的词语使用word2Vec进行词向量表示；使用基于词语共现度的方法，结合凝聚层次聚类算法挖掘商品评论中的有关属性的情感词；针对描述商品属性的情感词进行情感词典扩充，确定新词的情感倾向；将否定词典、连词词典、程度词典等文本特征、用户特征、商品特征进行多特征进行有机融合来确定文本的情感倾向，以此构建半监督训练集；根据构建的训练集，对文本进行基于SVM的情感分类。本发明提出的基于多特征融合的情感分类方法能够有效提高分类的准确度，在产品跟踪、服务反馈、意见挖掘以及舆情监控等方面有着重要的应用价值。

Description

一种基于多特征融合的商品评论情感分析方法

技术领域

本发明属于自然语言处理领域；具体涉及一种基于多特征融合的商品评论情感分析方法。

背景技术

随着电商平台的飞速发展，生活方式发生了翻天覆地的变化，购买的方式不仅仅局限于传统的面对面交流，而是转移到了互联网上面，近几年，越来越多的用户习惯于网上购物，用户可在网上发表关于商品的意见，随着评论信息的急剧膨胀，用户从海量网络评论资源中捕获并感知这些信息的时间成本也随之成倍增加，这些海量评论文本信息大多包含用户的主观情感，其蕴藏着的丰富的现实意义及商业价值亟待挖掘。

情感分析，又称意见挖掘。其面向目标为未知情感倾向的文本，文本种伴随的表情符号，带有用户表情的图片以及视频。其主要任务是通过对包含情感倾向的目标对象进行挖掘分析，识别用户针对某一问题的褒贬态度和意见。它涉及到自然语言处理、数据挖掘和机器学习、深度学习等技术，以带有主观性情感的文本中的句子、词语为基础，深入剖析文本语义，识别文本的情感倾向。

商品评论的情感分析方法因其能够有效帮助绝大多数的用户根据商品的评论来决定是否购买商品以及帮助商家研究商品口碑、对商品的销量的预测和商品数量的及时调整、以及进行商品推荐成为情感分析领域重要的一部分。由于商品评论的多样性、不确定性，与情感之间存在相应的联系，通过对数据挖掘等方法有效挖掘文本数据集和情感之间蕴含的关联关系具有较高的可行性。

发明内容

本发明提供了一种基于多特征融合的商品评论情感分析方法，该方法能够针对数据集的文本特征、用户特征以及商品特征，提高现有商品评论情感分析的准确率问题。更好的满足在大量和多种特征的数据背景下对情感分析准确率要求等问题。

本发明通过以下技术方案实现：

一种基于多特融合的商品评论情感分析方法，所述方法包括以下步骤：

步骤1：对数据集进行噪音过滤、分词、词性筛选、以及词频和文档频率的统计，得到预处理后的低噪高可用性数据集；

步骤2：对步骤1预处理的数据，使用word2Vec对其进行基于上下文的词向量嵌入，得到基于上下文预测的词向量；

步骤3：对步骤2中的名词的词向量进行基于词语共现度的聚类，获得商品的属性；

步骤4：对步骤3中的属性进行基于商品属性情感词的获取，获得商品的情感词，对已有的情感词典进行情感词扩充，得到扩充的情感词典；

步骤5：对步骤4的扩充的情感词典，构建连词词典、否定词词典、程度词典，得到商品评论的文本特征；

步骤6：对步骤5的词典，结合用户特征，商品特征以及文本特征得到基于多特征融合的文本情感极性计算规则，并在此基础上构建半监督的训练集；

步骤7：对步骤6的训练集，使用SVM方法进行训练，对未知情感的文本进行情感分类，实现对商品评论的情感分析。

进一步的，所属步骤1具体为：对商品评论数据集进行基于表情符号、图片链接等标签的过滤，并将过滤后的结果进行分词，词性的筛选，统计词频和文档频率，词性将作为商品聚类和词典构建的依据，最终得到低噪高可用性的数据集。

进一步的，所述步骤2具体为，将文本分词结果输入到word2Vec模型中进行训练，使用Skip-Gram得到当前词的基于上下文预测的词向量，最终获得所有词语的词向量。

进一步的，所述步骤3包括以下步骤，

步骤3.1：对获取到的分词结果进行名词词性的筛选，通过下列公式进行商品和属性的共现相似度计算：

其中p^t是所有文本，R(w_k|w_l)表示在w_l出现的情况下，w_k出现的概率，P_j是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。

使用凝聚式层次聚类算法对商品属性进行聚类，首先将所有词都看成一个个独立的类簇，将相似度满足初始设定的阈值条件类簇进行合并，离差交错更新类簇相似度，重复进行合并，直到所有类簇均不满足条件为止，剩下的类簇即为商品属性。

进一步的，所述步骤4具体为，将文本中未标注词性的情感词集中起来形成候选情感词典集，计算候选情感词与已标注的情感词之间的语义相似度，获取未标注情感词的极性，通过下列公式进行情感极性的计算：

其中m为正向基础情感词数量，n为负向基础情感词数量，Sim为相似度计算公式，word_i为正向基础情感词，word_j为负向基础情感词。

进一步的，所述步骤5具体为，由于情感词能被其他词语所修饰，所以构建基于修饰词的词典。

1)构建否定词词典，表示当前情感的反向。

2)构建程度副词词典，表示加强或减弱当前情感词的极性，主要包含“超”、“最”、“很”、“较”、“稍”、“欠”六类。

3)构建连词词典，表示情感的转折或者加强，主要包含“但是”，“也”，“不过”等。

进一步的，所述步骤6包括以下步骤，

步骤6.1基于文本特征的情感值计算，基于步骤5得到的文本特征构建词语的组合规则，通过下列公式实现文本特征情感规则的计算：

默认情感词的极性为1或-1，对于程度副词和情感词的组合以及部分连词和情感词的组合有如下规则：

emotion＝extent*word

其中extent表示情感词前面最近的连词或程度副词所占权重。

对于否定词和情感词的组合有如下规则：

emotion＝(-1)ⁿ*word

其中，n为否定词数量。

对于连词、否定词以及程度词的组合，有如下规则：

emotiontext＝(-1)ⁿ*extent1*extent2*word

其中extent1为程度副词权重，extent2为连词权重。

步骤6.2基于用户特征的计算，用户作为文本情感的发布者，在一定程度上对文本的情感产生影响，通过下列公式实现用户特征情感规则的计算：

其中agr表示点赞数，com表示评论数，VIP表示是否是会员。

步骤6.3基于商品特征的计算，通过下列公式实现：

步骤6.4基于以上公式，对用户特征、文本特征、商品特征进行加权得到如下公式：

emotionZong＝α*emotiontext+β*emotionuser+γ*emotiongoods

在上述情感计算规则的基础上对未标注情感的文本进行标注，以此构建半监督训练集。

进一步的，所述步骤7具体为，以TF-IDF作为机器学习算法的特征选择，结合带标签的半监督训练集进行训练，以未分类文本同样进行预处理和TF-IDF 特征作为训练好的模型的输入，得到SVM算法的情感分类结果。

发明的有益效果是：

1.本发明将评论文本特征(连词、否定词、程度词)、用户特征(点赞数、评论数、会员认证)以及商品特征(评分)考虑进来进行训练集情感倾向的计算，以此提高带标签半监督训练集构建的准确度。

2.本发明相对于现有情感分析方法，具有较高准确度、高效率等优势；相对于现有的情感分析算法，引入文本特征、用户特征、商品特征的多特征融合方法，具有更精准的情感挖掘的能力，使改进后的算法考虑的因素更全面。

附图说明

附图1是本发明总体流程图。

附图2是本发明Skip-Gram架构图。

附图3是本发明基于离差交错的凝聚式层次聚类图。

附图4是本发明基于SVM商品评论情感分类的流程图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

主要通过计算文本情感倾向实现文本情感分类，采用基于多特征融合的情感分析算法，通过结合用户特征、商品特征、文本特征计算规则获取文本情感倾向，基于已获取情感标签的文本构建训练集，提高了情感分析的准确度。

一种基于多特征融合的商品评论情感分析方法，其特征在于，所述情感分析方法包括以下步骤：

进一步的，所述步骤3包括以下步骤，

步骤3.2：使用凝聚式层次聚类算法对商品属性进行聚类，首先将所有词都看成一个个独立的类簇，将相似度满足初始设定的阈值条件类簇进行合并，离差交错更新类簇相似度，重复进行合并，直到所有类簇均不满足条件为止，剩下的类簇即为商品属性。

1)构建否定词词典，表示当前情感的反向。

进一步的，所述步骤6包括以下步骤，

emotion＝extent*word

其中extent表示情感词前面最近的连词或程度副词所占权重。

对于否定词和情感词的组合有如下规则：

emotion＝(-1)ⁿ*word

其中，n为否定词数量。

对于连词、否定词以及程度词的组合，有如下规则：

emotiontext＝(-1)ⁿ*extent1*extent2*word

其中extent1为程度副词权重，extent2为连词权重。

其中agr表示点赞数，com表示评论数，VIP表示是否是会员。

步骤6.3基于商品特征的计算，通过下列公式实现：

emotionZong＝α*emotiontext+β*emotionuser+γ*emotiongoods

实施例2

从图1可以看出，采用本发明给出的方法，对已有数据预处理和词频、文档频率的统计，进行情感词典的扩充，使用多特征融合方法构建半监督训练集，最终实现高准确率的情感分析方法，首先在已有数据集进行去噪和预处理，对商品属性进行聚类，并基于已有情感词典进行针对商品属性的情感词扩充，然后通过基于多特征融合的情感分析算法进行情感标签的计算和半监督训练集的构建，最后基于构建好的训练集使用SVM进行分类，这与本发明目标一致。

第一步、多元数据集预处理

由于数据集中包含大量人为的无用信息，会影响分类的精度，因此本发明首先对数据集进行预处理，包含脏数据和噪音的过滤、图片等链接的过滤，对过滤后的结果进行分词处理，保留后续情感词典和本发明多特征融合算法所需要的词性，统计词频和文档频率，最终得到低噪高可用性的数据。

第二步、基于word2Vec词向量嵌入

根据图2所示，由于Skip-Gram能够根据词语的上下文语境构建词语的向量表示，相比于CBOW表示，该方法有较高的准确度，而且能够有效避免维度爆炸的问题，进行词嵌入处理后，得到基于词向量的文本数据。

第三步、基于凝聚式层次聚类算法的商品聚类

根据图3所示，基于词语共现度使用凝聚式层次聚类算法实现商品的聚类，用离差交错的更新类簇相似度的方法能够有效减小因相似度更新造成的误差，通过如下方式进行更新：

newSim＝α*Sim(i,k)+β*Sim(j,k)+γ*Sim(i,j)

其中，α、β、γ为更新类簇的离差交错比例，Sim()为两个类簇之间的相似度，i、j为将要合并的类簇，k为其他现存的类簇。

第四步、情感词典的扩充

考虑到基础情感词典的情感词过少，使用基于语义相似度的方法来计算新词的极性。

其中m为正向基础情感词数量，n为负向基础情感词数量，Sim为相似度计算公式，word_i为正向基础情感词，word_j为负向基础情感词，当该词为正向词，与正向情感词的平均相似度大于负向相似度，上式结果为正，符合预期结果。

第五步、构建基于修饰词的词典

本发明具体从三方面构建修饰词词典：

1)构建否定词词典，将否定词的权重设定为-1，表示当前情感的反向。

2)构建程度副词词典，表示加强或减弱当前情感词的极性，主要包含“超”权重为2.0、“最”权重为1.8、“很”权重为1.5、“较”权重为1.1、“稍”权重为0.7、“欠”权重为0.5六类。

3)构建连词词典，表示情感的转折或者加强，主要包含“但是”等权重为 2.0，“也”等权重为1.5，“不过”等权重为1.3。

第六步、基于多特征融合的情感值计算

由于在实施过程中情感词前面存在多种或多个修饰词，使用如下公式实现文本特征的情感值计算：

emotiontext＝(-1)ⁿ*extent1*extent2*word

其中，由于情感词前面可存在多种不同的否定词，所以对其进行乘方。

由于用户作为文本的发起和传播者，其行为在一定程度上会加强文本的情感倾向，将用户影响考虑进来，实现用户特征的计算：

其中agr表示点赞数，com表示评论数，VIP表示是否是会员，是会员的话其值为2，否则为1.5。

基于商品特征的计算，通过下列公式实现：

当用户评分较高，文本情感为正，可增强情感，反之，增强负面情感。

对用户特征、文本特征、商品特征进行加权得到如下公式：

emotionZong＝α*emotiontext+β*emotionuser+γ*emotiongoods

第七步、基于TF-IDF进行情感分类

根据图4所示，半监督训练集和未分类文本均选择TF-IDF，将未分类文本进行预处理和词嵌入表示，作为SVM训练好的模型的输入，输出文本的标签，该标签作为最终情感分类的结果。

本发明相比于传统的文本情感分析方法，引入文本特征、用户特征、商品特征相结合的方式，能够准确的为半监督训练集打上标签，进而作为分类算法的训练依据，有效提高分类效果，在产品跟踪、服务反馈、意见挖掘以及舆情监控等方面有着深远意义。

Claims

1.一种基于多特征融合的商品评论情感分析方法，其特征在于，所述情感分析方法包括以下步骤：

2.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法，其特征在于，所属步骤1具体为：对商品评论数据集进行基于表情符号、图片链接等标签的过滤，并将过滤后的结果进行分词，词性的筛选，统计词频和文档频率，词性将作为商品聚类和词典构建的依据，最终得到低噪高可用性的数据集。

3.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法，其特征在于，所述步骤2具体为，将文本分词结果输入到word2Vec模型中进行训练，使用Skip-Gram得到当前词的基于上下文预测的词向量，最终获得所有词语的词向量。

4.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法，其特征在于，所述步骤3包括以下步骤，

5.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法，其特征在于，所述步骤4具体为，将文本中未标注词性的情感词集中起来形成候选情感词典集，计算候选情感词与已标注的情感词之间的语义相似度，获取未标注情感词的极性，通过下列公式进行情感极性的计算：

6.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法，其特征在于，所述步骤5具体为，由于情感词能被其他词语所修饰，所以构建基于修饰词的词典。

1)构建否定词词典，表示当前情感的反向。

7.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法，其特征在于，所述步骤6包括以下步骤，

emotion＝extent*word

其中extent表示情感词前面最近的连词或程度副词所占权重。

对于否定词和情感词的组合有如下规则：

emotion＝(-1)ⁿ*word

n为否定词数量。

对于连词、否定词以及程度词的组合，有如下规则：

emotiontext＝(-1)ⁿ*extent1*extent2*word

其中extent1为程度副词权重，extent2为连词权重。

其中agr表示点赞数，com表示评论数，VIP表示是否是会员。

步骤6.3基于商品特征的计算，通过下列公式实现：

emotionZong＝α*emotiontext+β*emotionuser+γ*emotiongoods

8.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法，其特征在于，所述步骤7具体为，以TF-IDF作为机器学习算法的特征选择，结合带标签的半监督训练集进行训练，以未分类文本同样进行预处理和TF-IDF特征作为训练好的模型的输入，得到SVM算法的情感分类结果。