CN110032735B

CN110032735B - 隐含观点情感极性的分析方法

Info

Publication number: CN110032735B
Application number: CN201910218684.5A
Authority: CN
Inventors: 张强; 方钊; 杨善林; 王安宁; 王婉莹; 陆效农
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2023-04-07
Anticipated expiration: 2039-03-21
Also published as: CN110032735A

Abstract

本发明提供一种隐含观点情感极性的分析方法，涉及社交网络分析领域。所述隐含观点情感极性的分析方法包括：S1、获取用户的评论数据，所述评论数据包括：评论文本；S2、对所述评论数据进行预处理，将所述评论文本划分为子句；S3、从所述评论数据中提取产品特征；S4、构建领域依赖的情感词典，并基于所述情感词典从所述子句中提取隐含观点子句；S5、从所述隐含观点子句中提取频繁模式，从所述频繁模式中提取特征模式，从所述特征模式中提取特征隐含观点模式并分析所述特征隐含观点模式的情感极性；S6、进行特征级别情感极性分析和评论级别情感极性分析。本发明可以准确分析隐含观点的情感极性。

Description

隐含观点情感极性的分析方法

技术领域

本发明涉及社交网络分析领域，具体涉及一种隐含观点情感极性的分析方法。

背景技术

随着社交网络的快速发展，越来越多的用户在网上表达自己的意见与观点，尤其是对一些产品做出评价以及发表自己喜好的观点。对于一些公司和制造商来说，这些在线观点可以帮助他们从客户和竞争对手的角度了解其产品的优势和劣势。

用户的观点往往体现出自己的情感状态，现有技术一般采用情感分析技术来实现对观点的情感分析。情感词典以正负词集的形式表示词汇级情感知识，基于情感词典的构建，情感分析技术通过对观点进行分析并提取文本中的情感词，自动识别目标中的情感极性，并以此从观点中得到用户所要表达的情感或挖掘用户的意见。

然而，观点本身可以分为显性观点和隐含观点，对于隐含观点来说，观点的表达不使用任何显性情感词或者使用的是高度模糊的情感词，导致情感分析技术无法准确分析隐含观点的情感极性。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种隐含观点情感极性的分析方法，解决了现有技术无法准确分析隐含观点情感极性的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明解决其技术问题所提供的一种隐含观点情感极性的分析方法，包括以下步骤；

S1、获取用户的评论数据，所述评论数据包括：评论文本；

S2、对所述评论数据进行预处理，将所述评论文本划分为子句；

S3、从所述评论数据中提取产品特征；

S4、构建领域依赖的情感词典，并基于所述情感词典从所述子句中提取隐含观点子句；

S5、从所述隐含观点子句中提取频繁模式，从所述频繁模式中提取特征模式，从所述特征模式中提取特征隐含观点模式并分析所述特征隐含观点模式的情感极性；

S6、进行特征级别情感极性分析和评论级别情感极性分析。

优选的，所述步骤S5包括：

S501、将所述隐含观点子句转化为词序列，从所述词序列中提取频繁模式；

S502、基于所述产品特征从所述频繁模式中提取特征模式；

S503、基于情感极性检验从所述特征模式中提取特征隐含观点模式；

S504、使用扩展的逐点互信息分析所述特征隐含观点模式的情感极性。

优选的，所述步骤S6包括：

S601、提取″产品特征-特征隐含观点模式″集合；

S602、提取所述产品特征的核心特征隐含观点模式；

S603、进行特征级别情感极性分析和评论级别情感极性分析。

优选的，在步骤S502中，所述特征模式的判断方法为：

判断所述频繁模式是否包含所述产品特征，若是，则该频繁模式为特征模式；若否，则该频繁模式为噪音模式。

优选的，在步骤S503中，所述特征隐含观点模式的提取方法为：

基于所述特征模式，提取包含所述产品特征的所有隐含观点子句，构建正子数据集和负子数据集；

基于所述正子数据集和所述负子数据集计算：正子数据集中包含特征模式的子句的数量a、正子数据集中不包含特征模式的子句的数量d、负子数据集中包含特征模式的子句的数量b、负子数据集中不包含特征模式的子句的数量c；

对所述特征模式进行卡方检验：

其中：N＝a+b+c+d；

χ²表示特征隐含观点模式的情感强度；

根据特征隐含观点模式的情感强度，提取特征隐含观点模式。

优选的，在步骤S504中，所述特征隐含观点模式的情感极性的分析方法为：

使用扩展的逐点互信息测量所述特征隐含观点模式的情感极性的正负，如果计算结果大于0，则情感极性为正，标记为1；否则情感极性为负，标记为0，计算公式为：

其中：

polarity_pi表示p_i的情感极性；

p_i表示第i个特征隐含观点模式。

优选的，在步骤S601中，所述″产品特征-特征隐含观点模式″集合的提取方法为：

提取每个隐含观点子句所包含的特征隐含观点模式集合：

其中：

SP_i表示第i个隐含观点子句的特征隐含观点模式集合；

p_j表示第j个特征隐含观点模式；

m_i表示SP_i中特征隐含观点模式的数量；

根据所述产品特征提取特征隐含观点模式，构建″产品特征-特征隐含观点模式″集合：

SFP_i＝[(f₁，P₁)，(f₂，P₂)，...，(f_n，P_n)|f_j∈F]

其中：

SFP_i表示第i个″产品特征-特征隐含观点模式″集合；

f_j表示第j个产品特征；

n表示SFP_i中产品特征的数量；

P_j表示产品特征f_j的特征隐含观点模式集合。

优选的，在步骤S602中，所述核心特征隐含观点模式的提取方法为：

过滤噪音特征隐含观点模式并构建新的″产品特征-特征隐含观点模式″集合：

其中：

表示SFP_i过滤噪音特征隐含观点模式所得的″产品特征-特征隐含观点模式″集合；

f_j表示第j个产品特征；

n表示

中产品特征的数量；

表示P_j过滤噪音特征隐含观点模式所得的特征隐含观点模式集合；

选择具有最高情感强度的特征隐含观点模式作为相应产品特征的核心特征隐含观点模式：

cp_j表示产品特征f_j对应的核心特征隐含观点模式；

此时，将″产品特征-特征隐含观点模式″集合表示为：

S_i＝[(f₁，cp₁)，(f₂，cp₂)，...，(f_n，cp_n)|f_j∈F]

优选的，在步骤S603中，所述特征级别情感极性分析方法为：

在所述隐含观点子句中，所述产品特征的情感极性为：

其中：

f_j表示第j个产品特征；

cp_j表示产品特征f_j对应的核心特征隐含观点模式；

表示cp_j的情感极性；

统计隐含观点评论中包含一个产品特征的所有子句的核心特征隐含观点模式，加权计算每个产品特征的情感极性：

其中：

cp_k表示评论的第k条子句中产品特征f_j的核心特征隐含观点模式；

k表示评论所包含的子句的数量。

优选的，在步骤S604中，所述评论级别情感极性分析方法为：

计算所述隐含观点子句的情感极性：

其中：

clause_k表示该条评论划分的第k条子句；

cp_k，j表示子句clause_k中第j个产品特征的核心特征隐含观点模式；

N表示子句clause_k中产品特征的数量；

结合所有子句的情感强度来确定评论的情感极性：

其中：

polarity(review)表示该条评论的情感极性；

clause_k表示该条评论划分的第k条子句。

(三)有益效果

本发明提供了一种隐含观点情感极性的分析方法。与现有技术相比，具备以下有益效果：

本发明通过获取用户的评论数据并对评论数据进行预处理，从评论数据中提取产品特征，基于构建领域依赖的情感词典提取隐含观点子句，从隐含观点子句中提取频繁模式，从频繁模式中提取特征模式，再从特征模式中提取特征隐含观点模式并分析特征隐含观点模式的情感极性，通过特征级别和评论级别分别对隐含观点的情感极性进行分析，因此本发明不仅可以分析用户对产品的不同产品特征的看法，还可以分析用户对产品的整体看法，所以企业可以更全面的捕获用户需求，发现自己的优势与劣势，以生产消费者更满意的产品，从而获得竞争优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的隐含观点情感极性的分析方法的整体流程图；

图2为本发明实施例所述的隐含观点情感极性的分析方法的步骤S5的流程图；

图3为本发明实施例所述的隐含观点情感极性的分析方法的步骤S6的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种隐含观点情感极性的分析方法，解决了现有技术无法准确分析隐含观点情感极性的问题，实现隐含观点情感极性的准确分析。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过获取用户的评论数据并对评论数据进行预处理，从评论数据中提取产品特征，基于构建领域依赖的情感词典提取隐含观点子句，从隐含观点子句中提取频繁模式，从频繁模式中提取特征模式，再从特征模式中提取特征隐含观点模式并分析特征隐含观点模式的情感极性，通过特征级别和评论级别分别对隐含观点的情感极性进行分析，因此本发明实施例不仅可以分析用户对产品的不同产品特征的看法，还可以分析用户对产品的整体看法，所以企业可以更全面的捕获用户需求，发现自己的优势与劣势，以生产消费者更满意的产品，从而获得竞争优势。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例自行定义了以下两种模式：

特征模式：包含产品特征的频繁模式称之为特征模式。

特征隐含观点模式：一种频繁模式且满足以下两个条件：(1)包含至少一个产品特征(2)表达了正面或负面的情感，英文简写为FBIOP。

本发明实施例提供了一种隐含观点情感极性的分析方法，如图1所示，上述方法包括以下步骤：

S1、获取用户的评论数据，上述评论数据包括：评论文本；

S2、对上述评论数据进行预处理，将上述评论文本划分为子句；

S3、从上述评论数据中提取产品特征；

S4、构建领域依赖的情感词典，并基于上述情感词典从上述子句中提取隐含观点子句；

S6、进行特征级别情感极性分析和评论级别情感极性分析。

本发明实施例在具体实施时，通过获取用户的评论数据并对评论数据进行预处理，从评论数据中提取产品特征，基于构建领域依赖的情感词典提取隐含观点子句，将隐含观点子句转化为词序列并从所述词序列中提取频繁模式，从频繁模式中提取特征模式，再从特征模式中提取特征隐含观点模式并基于扩展的逐点互信息分析特征隐含观点模式的情感极性，通过特征级别和评论级别分别对隐含观点进行情感极性的分析，因此本发明不仅可以分析用户对产品的不同产品特征的看法，还可以分析用户对产品的整体看法，所以企业可以更全面的捕获用户需求，发现自己的优势与劣势，以生产消费者更满意的产品，从而获得竞争优势。

下面对各步骤进行详细描述。

具体的，如图1所示，在步骤S1中，获取用户的评论数据。从某一产品的口碑论坛或电商网站上抓取消费者评论数据，其中，基础数据项包括评论用户、评论时间、评论文本、评论极性。

在步骤S2中，对评论数据进行预处理，具体为：

数据清洗。从网站收集的一些原始评论可能包含一些无意义的符号或垃圾链接。如果评论包含一些关键字，如″http″，″免费″，″删除″等，就将其视为垃圾评论并删除。此外，字数过多的评论可能包含许多干扰实验结果的冗余信息，并且字数过少评论通常包含的信息很少，这对实验结果几乎毫无意义。因此，预先设置一个阈值并将评论的长度限定在这个范围内。

子句分割。具体的，可以使用Stanford解析器对每个评论执行全语法分析，并将其划分为子句。在这个过程中，需要确定评论和子句之间的极性关系。一般而言，评论中的子句表达与评论相同的情感，但是由于转折词的出现，例如″但是″，在评论中转折词之前的子句可能表达与评论相反的情感，如下所示：

评论：这辆车的外观不错，但是味道太大了。

子句1：这辆车的外观不错。

子句2：但是味道太大了。

在此条评论中，子句1表示了正面的情感极性，子句2表示了负面的情感极性，但该评论想要表达的情感极性为负面。这种情况下，需要改变子句1的情感极性。

因此，检测评论语句中的转折词，并将转折词之前的子句的情感极性设置为跟评论情感极性相反。

分词与词性标注。具体的，可以选择Jieba分词(一个使用汉语词法分析系统兼容的开源分词包)将领域专业词汇导入分词词典，以提高分词的效果和准确性。

在步骤S3中，提取产品特征。首先，检测评论语句中的每一个词，如果它满足以下3个条件：(1)该词是名词(2)该词包含至少两个字符(3)该词在评论数据集中出现至少100次，则被当做一个候选产品特征。同时，如果两个词满足上述条件并且构成一个频繁二项集，则他们的结合被当作一个候选产品特征。然后，手动检查这些结果得到一个产品特征集合F，并统计每一个产品特征的频率。

在步骤S4中，首先构建领域依赖的情感词典，具体为：

选择种子情感词，给定每一个Ntusd(现有技术的情感词典)中的情感词，统计其在评论数据中正面样本和负面样本中的出现次数，然后分别选择具有相似频率的h个正面词和h个负面词，构成正面种子情感词PS和负面种子情感词NS，如下所示：

过滤候选情感词，首先选择评论数据中所有词性标签是动词、形容词或副词且出现次数不小于10的词作为候选情感词；然后计算每一个候选情感词与所有种子情感词之间的″平均语义倾向ASO″，如下所示：

其中：w_i表示第i个候选情感词；γ＝{PS ∪ NS}；

并且

删除ASO值小于预定阈值的候选情感词词，并保留ASO值大于预定阈值的候选情感词。

剪枝，手动检查剩余的候选情感词，并删除表达相对模糊情感的一般描述词，如″高″和″大″，以构建领域依赖的情感词典。

基于上述情感词典提取隐含观点数据，隐含观点评论/子句是不包含上述情感词典中的情感词的评论/子句。因此，如果评论/子句不包含情感词，则属于隐含观点评论/子句；否则，属于显性观点评论/子句。

在步骤S5中，从所述隐含观点子句中提取频繁模式，从所述频繁模式中提取特征模式，从所述特征模式中提取特征隐含观点模式并分析所述特征隐含观点模式的情感极性，具体为：

在步骤S501中，提取频繁模式。首先，将所有隐含观点子句转化为一个词序列，每个子句表示为一个包含单词顺序列表的序列。如下所示：

子句：晚上透过天窗可以看到夜空。

序列：{[晚上]，[透过]，[天窗]，[能]，[看到]，[夜空]}

然后，根据词性对词序列里的词进行筛选，保留词性为名词、动词、形容词、连词、副词的词，删除其它词性的词。此外，为了进一步减少噪声词对实验的干扰，手动移除一些停用词。

最后，可以应用PrefixSpan算法从这些词序列中提取频繁模式。

在步骤S502中，提取特征模式。检查频繁模式是否包含给定产品特征集F中存在的产品特征。如果频繁模式包含产品特征，则它是一种特征模式；否则，它是一种噪音模式。为了确保每个特征模式对应于一个产品特征，本发明实施例仅考虑包含一个产品特征的特征模式。

在步骤S503中，提取FBIOP，使用卡方检验来识别所获得的特征模式的极性并根据检验值从获得的特征模式中选择FBIOP。由于每个特征模式都包含特定的产品特征，因此产品特征是进行极性检验时的重要因素。对于每个特征模式，首先提取包含相应产品特征的所有隐式观点子句，以形成正子数据集和负子数据集；然后计算上述子数据集中特征模式的频率并将其表示为辅助矩阵，如下所示：

用于极性测试和测量的辅助矩阵

其中：

a表示正子数据集中包含特征模式的子句的数量；

d表示正子数据集中不包含特征模式的子句的数量；

b表示负子数据集中包含特征模式的子句的数量；

c表示负子数据集中不包含特征模式的子句的数量。

基于该辅助矩阵，对每一个特征模式进行卡方检验，如下所示：

其中：N＝a+b+c+d；

χ²表示特征隐含观点模式的情感强度。

如果卡方检验的测试值大于给定的阈值，则该特征模式为FBIOP。

在步骤S504中，分析特征隐含观点模式的情感极性。

使用扩展的逐点互信息PMI测量FBIOP的情感极性的正负，计算公式为：

其中：

表示p_i的情感极性；

p_i表示第i个FBIOP。

如果

则p_i的情感极性为正，标记为1；否则p_i的情感极性为负，标记为0。

在步骤S6中，进行特征级别情感极性分析和评论级别情感极性分析，具体为：

在步骤S601中，提取″产品特征-FBIOP″集合。首先，对于每一个隐含观点子句，提取其包含的FBIOP：

其中：

SP_i表示第i个隐含观点子句的FBIOP集合；

p_j表示第j个FBIOP；

m_i表示SP_i中FBIOP的数量；

然后，根据产品特征提取FBIOP，构建″产品特征-FBIOP″集合：

SFP_i＝[(f₁，P₁)，(f₂，P₂)，...，(f_n，P_n)|f_j∈F]

其中：

SFP_i表示第i个″产品特征-FBIOP″集合；

f_j表示第j个产品特征；

n表示SFP_i中产品特征的数量；

P_j表示产品特征f_j的FBIOP集合。

在步骤S602中，提取产品特征的核心FBIOP。在识别FBIOP的过程中，一些表达相反情感的FBIOP可能同时被提取。例如，从下面句子中提取的FBIOP中，FBIOP 1表达了负面的情感，FBIOP 2表达了正面的情感。

例句：后视镜不是防眩目的。

FBIOP 1：[后视镜，不是，防，炫目]；

FBIOP 2：[后视镜，防，炫目]。

通过判断可以很容易地看到FBIOP 1是一个有用的FBIOP，而模式2是一个噪声FBIOP。并且，FBIOP 2是FBIOP 1的子模式。为了准确测量产品特征的情感，需要消除这些噪声FBIOP。基于以上观察，噪声FBIOP通常与有用的FBIOP具有包含关系，因此过滤噪声FBIOP以形成如下的新″产品特征-FBIOP″集合：

其中：

表示SFP_i过滤噪音特征隐含观点模式所得的″产品特征-FBIOP″集合；

f_j表示第j个产品特征；

n表示

中产品特征的数量；

然后，选择具有最高情感强度的FBIOP作为相应产品特征的核心FBIOP(cp)：

cp_j表示产品特征f_j对应的核心特征隐含观点模式。

此时，将″产品特征-FBIOP″集合表示为：

S_i＝[(f₁，cp₁)，(f₂，cp₂)，...，(f_n，cp_n)|f_j∈F]

在步骤S603中，从特征级别和评论级别对隐含观点的情感极性进行分析，具体为：

特征级别：

对于隐含观点子句来说，使用每一个产品特征的核心FBIOP作为其情感表达元素，因此可计算产品特征的情感极性为：

其中：

f_j表示第j个产品特征；

cp_j表示产品特征f_j对应的核心特征隐含观点模式；

表示cp_j的情感极性。

对于隐含观点评论来说，首先基于句法分析将评论划分为子句，识别每一个产品特征的核心FBIOP，然后通过加权计算每一个产品特征的情感极性来表示该条评论中产品特征的情感极性：

其中：

k表示评论所包含的子句的数量。

评论级别：每个隐含观点评论的全局极性可以基于其包含的所有子句的极性来获得。具体的：

首先基于句法分析将隐含观点评论分为几个子句，然后计算每个子句的情感强度：

其中：

clause_k表示该条评论划分的第k条子句；

N表示子句clause_k中产品特征的数量。

接下来，结合所有子句的情感强度来确定评论的情感极性，如下所示：

其中：

polarity(review)表示该条评论的情感极性；

clause_k表示该条评论划分的第k条子句。

综上所述，与现有技术相比，具备以下有益效果：

本发明实施例通过获取用户的评论数据并对评论数据进行预处理，从评论数据中提取产品特征，基于构建领域依赖的情感词典提取隐含观点子句，从隐含观点子句中提取频繁模式，从频繁模式中提取特征模式，再从特征模式中提取特征隐含观点模式并分析特征隐含观点模式的情感极性，通过特征级别和评论级别分别对隐含观点的情感极性进行分析，因此本发明不仅可以分析用户对产品的不同产品特征的看法，还可以分析用户对产品的整体看法，所以企业可以更全面的捕获用户需求，发现自己的优势与劣势，以生产消费者更满意的产品，从而获得竞争优势。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。