CN110032735B - 隐含观点情感极性的分析方法 - Google Patents

隐含观点情感极性的分析方法 Download PDF

Info

Publication number
CN110032735B
CN110032735B CN201910218684.5A CN201910218684A CN110032735B CN 110032735 B CN110032735 B CN 110032735B CN 201910218684 A CN201910218684 A CN 201910218684A CN 110032735 B CN110032735 B CN 110032735B
Authority
CN
China
Prior art keywords
characteristic
viewpoint
product
mode
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910218684.5A
Other languages
English (en)
Other versions
CN110032735A (zh
Inventor
张强
方钊
杨善林
王安宁
王婉莹
陆效农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910218684.5A priority Critical patent/CN110032735B/zh
Publication of CN110032735A publication Critical patent/CN110032735A/zh
Application granted granted Critical
Publication of CN110032735B publication Critical patent/CN110032735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种隐含观点情感极性的分析方法,涉及社交网络分析领域。所述隐含观点情感极性的分析方法包括:S1、获取用户的评论数据,所述评论数据包括:评论文本;S2、对所述评论数据进行预处理,将所述评论文本划分为子句;S3、从所述评论数据中提取产品特征;S4、构建领域依赖的情感词典,并基于所述情感词典从所述子句中提取隐含观点子句;S5、从所述隐含观点子句中提取频繁模式,从所述频繁模式中提取特征模式,从所述特征模式中提取特征隐含观点模式并分析所述特征隐含观点模式的情感极性;S6、进行特征级别情感极性分析和评论级别情感极性分析。本发明可以准确分析隐含观点的情感极性。

Description

隐含观点情感极性的分析方法
技术领域
本发明涉及社交网络分析领域,具体涉及一种隐含观点情感极性的分析方法。
背景技术
随着社交网络的快速发展,越来越多的用户在网上表达自己的意见与观点,尤其是对一些产品做出评价以及发表自己喜好的观点。对于一些公司和制造商来说,这些在线观点可以帮助他们从客户和竞争对手的角度了解其产品的优势和劣势。
用户的观点往往体现出自己的情感状态,现有技术一般采用情感分析技术来实现对观点的情感分析。情感词典以正负词集的形式表示词汇级情感知识,基于情感词典的构建,情感分析技术通过对观点进行分析并提取文本中的情感词,自动识别目标中的情感极性,并以此从观点中得到用户所要表达的情感或挖掘用户的意见。
然而,观点本身可以分为显性观点和隐含观点,对于隐含观点来说,观点的表达不使用任何显性情感词或者使用的是高度模糊的情感词,导致情感分析技术无法准确分析隐含观点的情感极性。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种隐含观点情感极性的分析方法,解决了现有技术无法准确分析隐含观点情感极性的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明解决其技术问题所提供的一种隐含观点情感极性的分析方法,包括以下步骤;
S1、获取用户的评论数据,所述评论数据包括:评论文本;
S2、对所述评论数据进行预处理,将所述评论文本划分为子句;
S3、从所述评论数据中提取产品特征;
S4、构建领域依赖的情感词典,并基于所述情感词典从所述子句中提取隐含观点子句;
S5、从所述隐含观点子句中提取频繁模式,从所述频繁模式中提取特征模式,从所述特征模式中提取特征隐含观点模式并分析所述特征隐含观点模式的情感极性;
S6、进行特征级别情感极性分析和评论级别情感极性分析。
优选的,所述步骤S5包括:
S501、将所述隐含观点子句转化为词序列,从所述词序列中提取频繁模式;
S502、基于所述产品特征从所述频繁模式中提取特征模式;
S503、基于情感极性检验从所述特征模式中提取特征隐含观点模式;
S504、使用扩展的逐点互信息分析所述特征隐含观点模式的情感极性。
优选的,所述步骤S6包括:
S601、提取″产品特征-特征隐含观点模式″集合;
S602、提取所述产品特征的核心特征隐含观点模式;
S603、进行特征级别情感极性分析和评论级别情感极性分析。
优选的,在步骤S502中,所述特征模式的判断方法为:
判断所述频繁模式是否包含所述产品特征,若是,则该频繁模式为特征模式;若否,则该频繁模式为噪音模式。
优选的,在步骤S503中,所述特征隐含观点模式的提取方法为:
基于所述特征模式,提取包含所述产品特征的所有隐含观点子句,构建正子数据集和负子数据集;
基于所述正子数据集和所述负子数据集计算:正子数据集中包含特征模式的子句的数量a、正子数据集中不包含特征模式的子句的数量d、负子数据集中包含特征模式的子句的数量b、负子数据集中不包含特征模式的子句的数量c;
对所述特征模式进行卡方检验:
Figure BDA0002002877080000031
其中:N=a+b+c+d;
χ2表示特征隐含观点模式的情感强度;
根据特征隐含观点模式的情感强度,提取特征隐含观点模式。
优选的,在步骤S504中,所述特征隐含观点模式的情感极性的分析方法为:
使用扩展的逐点互信息测量所述特征隐含观点模式的情感极性的正负,如果计算结果大于0,则情感极性为正,标记为1;否则情感极性为负,标记为0,计算公式为:
Figure BDA0002002877080000041
其中:
polaritypi表示pi的情感极性;
pi表示第i个特征隐含观点模式。
优选的,在步骤S601中,所述″产品特征-特征隐含观点模式″集合的提取方法为:
提取每个隐含观点子句所包含的特征隐含观点模式集合:
Figure BDA0002002877080000042
其中:
SPi表示第i个隐含观点子句的特征隐含观点模式集合;
pj表示第j个特征隐含观点模式;
mi表示SPi中特征隐含观点模式的数量;
根据所述产品特征提取特征隐含观点模式,构建″产品特征-特征隐含观点模式″集合:
SFPi=[(f1,P1),(f2,P2),...,(fn,Pn)|fj∈F]
其中:
SFPi表示第i个″产品特征-特征隐含观点模式″集合;
fj表示第j个产品特征;
n表示SFPi中产品特征的数量;
Pj表示产品特征fj的特征隐含观点模式集合。
优选的,在步骤S602中,所述核心特征隐含观点模式的提取方法为:
过滤噪音特征隐含观点模式并构建新的″产品特征-特征隐含观点模式″集合:
Figure BDA0002002877080000051
其中:
Figure BDA0002002877080000052
表示SFPi过滤噪音特征隐含观点模式所得的″产品特征-特征隐含观点模式″集合;
fj表示第j个产品特征;
n表示
Figure BDA0002002877080000053
中产品特征的数量;
Figure BDA0002002877080000054
表示Pj过滤噪音特征隐含观点模式所得的特征隐含观点模式集合;
选择具有最高情感强度的特征隐含观点模式作为相应产品特征的核心特征隐含观点模式:
Figure BDA0002002877080000055
cpj表示产品特征fj对应的核心特征隐含观点模式;
此时,将″产品特征-特征隐含观点模式″集合表示为:
Si=[(f1,cp1),(f2,cp2),...,(fn,cpn)|fj∈F]
优选的,在步骤S603中,所述特征级别情感极性分析方法为:
在所述隐含观点子句中,所述产品特征的情感极性为:
Figure BDA0002002877080000056
其中:
fj表示第j个产品特征;
cpj表示产品特征fj对应的核心特征隐含观点模式;
Figure BDA0002002877080000061
表示cpj的情感极性;
统计隐含观点评论中包含一个产品特征的所有子句的核心特征隐含观点模式,加权计算每个产品特征的情感极性:
Figure BDA0002002877080000062
其中:
cpk表示评论的第k条子句中产品特征fj的核心特征隐含观点模式;
k表示评论所包含的子句的数量。
优选的,在步骤S604中,所述评论级别情感极性分析方法为:
计算所述隐含观点子句的情感极性:
Figure BDA0002002877080000063
其中:
clausek表示该条评论划分的第k条子句;
cpk,j表示子句clausek中第j个产品特征的核心特征隐含观点模式;
N表示子句clausek中产品特征的数量;
结合所有子句的情感强度来确定评论的情感极性:
Figure BDA0002002877080000064
其中:
polarity(review)表示该条评论的情感极性;
clausek表示该条评论划分的第k条子句。
(三)有益效果
本发明提供了一种隐含观点情感极性的分析方法。与现有技术相比,具备以下有益效果:
本发明通过获取用户的评论数据并对评论数据进行预处理,从评论数据中提取产品特征,基于构建领域依赖的情感词典提取隐含观点子句,从隐含观点子句中提取频繁模式,从频繁模式中提取特征模式,再从特征模式中提取特征隐含观点模式并分析特征隐含观点模式的情感极性,通过特征级别和评论级别分别对隐含观点的情感极性进行分析,因此本发明不仅可以分析用户对产品的不同产品特征的看法,还可以分析用户对产品的整体看法,所以企业可以更全面的捕获用户需求,发现自己的优势与劣势,以生产消费者更满意的产品,从而获得竞争优势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的隐含观点情感极性的分析方法的整体流程图;
图2为本发明实施例所述的隐含观点情感极性的分析方法的步骤S5的流程图;
图3为本发明实施例所述的隐含观点情感极性的分析方法的步骤S6的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种隐含观点情感极性的分析方法,解决了现有技术无法准确分析隐含观点情感极性的问题,实现隐含观点情感极性的准确分析。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过获取用户的评论数据并对评论数据进行预处理,从评论数据中提取产品特征,基于构建领域依赖的情感词典提取隐含观点子句,从隐含观点子句中提取频繁模式,从频繁模式中提取特征模式,再从特征模式中提取特征隐含观点模式并分析特征隐含观点模式的情感极性,通过特征级别和评论级别分别对隐含观点的情感极性进行分析,因此本发明实施例不仅可以分析用户对产品的不同产品特征的看法,还可以分析用户对产品的整体看法,所以企业可以更全面的捕获用户需求,发现自己的优势与劣势,以生产消费者更满意的产品,从而获得竞争优势。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例自行定义了以下两种模式:
特征模式:包含产品特征的频繁模式称之为特征模式。
特征隐含观点模式:一种频繁模式且满足以下两个条件:(1)包含至少一个产品特征(2)表达了正面或负面的情感,英文简写为FBIOP。
本发明实施例提供了一种隐含观点情感极性的分析方法,如图1所示,上述方法包括以下步骤:
S1、获取用户的评论数据,上述评论数据包括:评论文本;
S2、对上述评论数据进行预处理,将上述评论文本划分为子句;
S3、从上述评论数据中提取产品特征;
S4、构建领域依赖的情感词典,并基于上述情感词典从上述子句中提取隐含观点子句;
S5、从所述隐含观点子句中提取频繁模式,从所述频繁模式中提取特征模式,从所述特征模式中提取特征隐含观点模式并分析所述特征隐含观点模式的情感极性;
S6、进行特征级别情感极性分析和评论级别情感极性分析。
本发明实施例在具体实施时,通过获取用户的评论数据并对评论数据进行预处理,从评论数据中提取产品特征,基于构建领域依赖的情感词典提取隐含观点子句,将隐含观点子句转化为词序列并从所述词序列中提取频繁模式,从频繁模式中提取特征模式,再从特征模式中提取特征隐含观点模式并基于扩展的逐点互信息分析特征隐含观点模式的情感极性,通过特征级别和评论级别分别对隐含观点进行情感极性的分析,因此本发明不仅可以分析用户对产品的不同产品特征的看法,还可以分析用户对产品的整体看法,所以企业可以更全面的捕获用户需求,发现自己的优势与劣势,以生产消费者更满意的产品,从而获得竞争优势。
下面对各步骤进行详细描述。
具体的,如图1所示,在步骤S1中,获取用户的评论数据。从某一产品的口碑论坛或电商网站上抓取消费者评论数据,其中,基础数据项包括评论用户、评论时间、评论文本、评论极性。
在步骤S2中,对评论数据进行预处理,具体为:
数据清洗。从网站收集的一些原始评论可能包含一些无意义的符号或垃圾链接。如果评论包含一些关键字,如″http″,″免费″,″删除″等,就将其视为垃圾评论并删除。此外,字数过多的评论可能包含许多干扰实验结果的冗余信息,并且字数过少评论通常包含的信息很少,这对实验结果几乎毫无意义。因此,预先设置一个阈值并将评论的长度限定在这个范围内。
子句分割。具体的,可以使用Stanford解析器对每个评论执行全语法分析,并将其划分为子句。在这个过程中,需要确定评论和子句之间的极性关系。一般而言,评论中的子句表达与评论相同的情感,但是由于转折词的出现,例如″但是″,在评论中转折词之前的子句可能表达与评论相反的情感,如下所示:
评论:这辆车的外观不错,但是味道太大了。
子句1:这辆车的外观不错。
子句2:但是味道太大了。
在此条评论中,子句1表示了正面的情感极性,子句2表示了负面的情感极性,但该评论想要表达的情感极性为负面。这种情况下,需要改变子句1的情感极性。
因此,检测评论语句中的转折词,并将转折词之前的子句的情感极性设置为跟评论情感极性相反。
分词与词性标注。具体的,可以选择Jieba分词(一个使用汉语词法分析系统兼容的开源分词包)将领域专业词汇导入分词词典,以提高分词的效果和准确性。
在步骤S3中,提取产品特征。首先,检测评论语句中的每一个词,如果它满足以下3个条件:(1)该词是名词(2)该词包含至少两个字符(3)该词在评论数据集中出现至少100次,则被当做一个候选产品特征。同时,如果两个词满足上述条件并且构成一个频繁二项集,则他们的结合被当作一个候选产品特征。然后,手动检查这些结果得到一个产品特征集合F,并统计每一个产品特征的频率。
在步骤S4中,首先构建领域依赖的情感词典,具体为:
选择种子情感词,给定每一个Ntusd(现有技术的情感词典)中的情感词,统计其在评论数据中正面样本和负面样本中的出现次数,然后分别选择具有相似频率的h个正面词和h个负面词,构成正面种子情感词PS和负面种子情感词NS,如下所示:
Figure BDA0002002877080000121
过滤候选情感词,首先选择评论数据中所有词性标签是动词、形容词或副词且出现次数不小于10的词作为候选情感词;然后计算每一个候选情感词与所有种子情感词之间的″平均语义倾向ASO″,如下所示:
Figure BDA0002002877080000122
其中:wi表示第i个候选情感词;γ={PS ∪ NS};
并且
Figure BDA0002002877080000123
删除ASO值小于预定阈值的候选情感词词,并保留ASO值大于预定阈值的候选情感词。
剪枝,手动检查剩余的候选情感词,并删除表达相对模糊情感的一般描述词,如″高″和″大″,以构建领域依赖的情感词典。
基于上述情感词典提取隐含观点数据,隐含观点评论/子句是不包含上述情感词典中的情感词的评论/子句。因此,如果评论/子句不包含情感词,则属于隐含观点评论/子句;否则,属于显性观点评论/子句。
在步骤S5中,从所述隐含观点子句中提取频繁模式,从所述频繁模式中提取特征模式,从所述特征模式中提取特征隐含观点模式并分析所述特征隐含观点模式的情感极性,具体为:
在步骤S501中,提取频繁模式。首先,将所有隐含观点子句转化为一个词序列,每个子句表示为一个包含单词顺序列表的序列。如下所示:
子句:晚上透过天窗可以看到夜空。
序列:{[晚上],[透过],[天窗],[能],[看到],[夜空]}
然后,根据词性对词序列里的词进行筛选,保留词性为名词、动词、形容词、连词、副词的词,删除其它词性的词。此外,为了进一步减少噪声词对实验的干扰,手动移除一些停用词。
最后,可以应用PrefixSpan算法从这些词序列中提取频繁模式。
在步骤S502中,提取特征模式。检查频繁模式是否包含给定产品特征集F中存在的产品特征。如果频繁模式包含产品特征,则它是一种特征模式;否则,它是一种噪音模式。为了确保每个特征模式对应于一个产品特征,本发明实施例仅考虑包含一个产品特征的特征模式。
在步骤S503中,提取FBIOP,使用卡方检验来识别所获得的特征模式的极性并根据检验值从获得的特征模式中选择FBIOP。由于每个特征模式都包含特定的产品特征,因此产品特征是进行极性检验时的重要因素。对于每个特征模式,首先提取包含相应产品特征的所有隐式观点子句,以形成正子数据集和负子数据集;然后计算上述子数据集中特征模式的频率并将其表示为辅助矩阵,如下所示:
用于极性测试和测量的辅助矩阵
Figure BDA0002002877080000131
其中:
a表示正子数据集中包含特征模式的子句的数量;
d表示正子数据集中不包含特征模式的子句的数量;
b表示负子数据集中包含特征模式的子句的数量;
c表示负子数据集中不包含特征模式的子句的数量。
基于该辅助矩阵,对每一个特征模式进行卡方检验,如下所示:
Figure BDA0002002877080000141
其中:N=a+b+c+d;
χ2表示特征隐含观点模式的情感强度。
如果卡方检验的测试值大于给定的阈值,则该特征模式为FBIOP。
在步骤S504中,分析特征隐含观点模式的情感极性。
使用扩展的逐点互信息PMI测量FBIOP的情感极性的正负,计算公式为:
Figure BDA0002002877080000142
其中:
Figure BDA0002002877080000143
表示pi的情感极性;
pi表示第i个FBIOP。
如果
Figure BDA0002002877080000144
则pi的情感极性为正,标记为1;否则pi的情感极性为负,标记为0。
在步骤S6中,进行特征级别情感极性分析和评论级别情感极性分析,具体为:
在步骤S601中,提取″产品特征-FBIOP″集合。首先,对于每一个隐含观点子句,提取其包含的FBIOP:
Figure BDA0002002877080000151
其中:
SPi表示第i个隐含观点子句的FBIOP集合;
pj表示第j个FBIOP;
mi表示SPi中FBIOP的数量;
然后,根据产品特征提取FBIOP,构建″产品特征-FBIOP″集合:
SFPi=[(f1,P1),(f2,P2),...,(fn,Pn)|fj∈F]
其中:
SFPi表示第i个″产品特征-FBIOP″集合;
fj表示第j个产品特征;
n表示SFPi中产品特征的数量;
Pj表示产品特征fj的FBIOP集合。
在步骤S602中,提取产品特征的核心FBIOP。在识别FBIOP的过程中,一些表达相反情感的FBIOP可能同时被提取。例如,从下面句子中提取的FBIOP中,FBIOP 1表达了负面的情感,FBIOP 2表达了正面的情感。
例句:后视镜不是防眩目的。
FBIOP 1:[后视镜,不是,防,炫目];
FBIOP 2:[后视镜,防,炫目]。
通过判断可以很容易地看到FBIOP 1是一个有用的FBIOP,而模式2是一个噪声FBIOP。并且,FBIOP 2是FBIOP 1的子模式。为了准确测量产品特征的情感,需要消除这些噪声FBIOP。基于以上观察,噪声FBIOP通常与有用的FBIOP具有包含关系,因此过滤噪声FBIOP以形成如下的新″产品特征-FBIOP″集合:
Figure BDA0002002877080000161
其中:
Figure BDA0002002877080000162
表示SFPi过滤噪音特征隐含观点模式所得的″产品特征-FBIOP″集合;
fj表示第j个产品特征;
n表示
Figure BDA0002002877080000163
中产品特征的数量;
Figure BDA0002002877080000164
表示Pj过滤噪音特征隐含观点模式所得的特征隐含观点模式集合;
然后,选择具有最高情感强度的FBIOP作为相应产品特征的核心FBIOP(cp):
Figure BDA0002002877080000165
cpj表示产品特征fj对应的核心特征隐含观点模式。
此时,将″产品特征-FBIOP″集合表示为:
Si=[(f1,cp1),(f2,cp2),...,(fn,cpn)|fj∈F]
在步骤S603中,从特征级别和评论级别对隐含观点的情感极性进行分析,具体为:
特征级别:
对于隐含观点子句来说,使用每一个产品特征的核心FBIOP作为其情感表达元素,因此可计算产品特征的情感极性为:
Figure BDA0002002877080000171
其中:
fj表示第j个产品特征;
cpj表示产品特征fj对应的核心特征隐含观点模式;
Figure BDA0002002877080000172
表示cpj的情感极性。
对于隐含观点评论来说,首先基于句法分析将评论划分为子句,识别每一个产品特征的核心FBIOP,然后通过加权计算每一个产品特征的情感极性来表示该条评论中产品特征的情感极性:
Figure BDA0002002877080000173
其中:
cpk表示评论的第k条子句中产品特征fj的核心特征隐含观点模式;
k表示评论所包含的子句的数量。
评论级别:每个隐含观点评论的全局极性可以基于其包含的所有子句的极性来获得。具体的:
首先基于句法分析将隐含观点评论分为几个子句,然后计算每个子句的情感强度:
Figure BDA0002002877080000174
其中:
clausek表示该条评论划分的第k条子句;
cpk,j表示子句clausek中第j个产品特征的核心特征隐含观点模式;
N表示子句clausek中产品特征的数量。
接下来,结合所有子句的情感强度来确定评论的情感极性,如下所示:
Figure BDA0002002877080000181
其中:
polarity(review)表示该条评论的情感极性;
clausek表示该条评论划分的第k条子句。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例通过获取用户的评论数据并对评论数据进行预处理,从评论数据中提取产品特征,基于构建领域依赖的情感词典提取隐含观点子句,从隐含观点子句中提取频繁模式,从频繁模式中提取特征模式,再从特征模式中提取特征隐含观点模式并分析特征隐含观点模式的情感极性,通过特征级别和评论级别分别对隐含观点的情感极性进行分析,因此本发明不仅可以分析用户对产品的不同产品特征的看法,还可以分析用户对产品的整体看法,所以企业可以更全面的捕获用户需求,发现自己的优势与劣势,以生产消费者更满意的产品,从而获得竞争优势。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种隐含观点情感极性的分析方法,其特征在于,包括以下步骤:
S1、获取用户的评论数据,所述评论数据包括:评论文本;
S2、对所述评论数据进行预处理,将所述评论文本划分为子句;
S3、从所述评论数据中提取产品特征;
S4、构建领域依赖的情感词典,并基于所述情感词典从所述子句中提取隐含观点子句;
S5、从所述隐含观点子句中提取频繁模式,从所述频繁模式中提取特征模式,从所述特征模式中提取特征隐含观点模式并分析所述特征隐含观点模式的情感极性,包括:
S501、将所述隐含观点子句转化为词序列,从所述词序列中提取频繁模式;
S502、基于所述产品特征从所述频繁模式中提取特征模式;
S503、基于情感极性检验从所述特征模式中提取特征隐含观点模式,包括:
基于所述特征模式,提取包含所述产品特征的所有隐含观点子句,构建正子数据集和负子数据集;
基于所述正子数据集和所述负子数据集计算:正子数据集中包含特征模式的子句的数量a、正子数据集中不包含特征模式的子句的数量d、负子数据集中包含特征模式的子句的数量b、负子数据集中不包含特征模式的子句的数量c;
对所述特征模式进行卡方检验:
Figure FDA0003989496080000021
其中:N=a+b+c+d;
χ2表示特征隐含观点模式的情感强度;
根据特征隐含观点模式的情感强度,提取特征隐含观点模式;
S504、使用扩展的逐点互信息分析所述特征隐含观点模式的情感极性;
S6、进行特征级别情感极性分析和评论级别情感极性分析,包括:
S601、提取“产品特征-特征隐含观点模式”集合;
S602、提取所述产品特征的核心特征隐含观点模式;
S603、进行特征级别情感极性分析和评论级别情感极性分析,包括:
在所述隐含观点子句中,所述产品特征的情感极性为:
Figure FDA0003989496080000022
其中:
fj表示第j个产品特征;
cpj表示产品特征fj对应的核心特征隐含观点模式;
Figure FDA0003989496080000023
表示cpj的情感极性;
统计隐含观点评论中包含一个产品特征的所有子句的核心特征隐含观点模式,加权计算每个产品特征的情感极性:
Figure FDA0003989496080000031
其中:
cpk表示评论的第k条子句中产品特征fj的核心特征隐含观点模式;
k表示评论所包含的子句的数量;
所述评论级别情感极性分析方法为:
计算所述隐含观点子句的情感极性:
Figure FDA0003989496080000032
其中:
clausek表示该条评论划分的第k条子句;
cpk,j表示子句clausek中第j个产品特征的核心特征隐含观点模式;
N表示子句clausek中产品特征的数量;
结合所有子句的情感强度来确定评论的情感极性:
Figure FDA0003989496080000033
其中:
polarity(review)表示该条评论的情感极性;
clausek表示该条评论划分的第k条子句。
2.如权利要求1所述的分析方法,其特征在于,在步骤S502中,所述特征模式的判断方法为:
判断所述频繁模式是否包含所述产品特征,若是,则该频繁模式为特征模式;若否,则该频繁模式为噪音模式。
3.如权利要求1所述的分析方法,其特征在于,在步骤S504中,所述特征隐含观点模式的情感极性的分析方法为:
使用扩展的逐点互信息测量所述特征隐含观点模式的情感极性的正负,如果计算结果大于0,则情感极性为正,标记为1;否则情感极性为负,标记为0,计算公式为:
Figure FDA0003989496080000041
其中:
Figure FDA0003989496080000042
表示pi的情感极性;
pi表示第i个特征隐含观点模式。
4.如权利要求3所述的分析方法,其特征在于,在步骤S601中,所述“产品特征-特征隐含观点模式”集合的提取方法为:
提取每个隐含观点子句所包含的特征隐含观点模式集合:
Figure FDA0003989496080000043
其中:
SPi表示第i个隐含观点子句的特征隐含观点模式集合;
pj表示第j个特征隐含观点模式;
mi表示SPi中特征隐含观点模式的数量;
根据所述产品特征提取特征隐含观点模式,构建“产品特征-特征隐含观点模式”集合:
SFPi=[(f1,P1),(f2,P2),…,(fn,Pn)|fj∈F]
其中:
SFPi表示第i个“产品特征-特征隐含观点模式”集合;
fj表示第j个产品特征;
n表示SFPi中产品特征的数量;
Pj表示产品特征fj的特征隐含观点模式集合。
5.如权利要求4所述的分析方法,其特征在于,在步骤S602中,所述核心特征隐含观点模式的提取方法为:
过滤噪音特征隐含观点模式并构建新的“产品特征-特征隐含观点模式”集合:
Figure FDA0003989496080000051
其中:
Figure FDA0003989496080000052
表示SFPi过滤噪音特征隐含观点模式所得的“产品特征-特征隐含观点模式”集合;
fj表示第j个产品特征;
n表示
Figure FDA0003989496080000053
中产品特征的数量;
Figure FDA0003989496080000054
表示Pj过滤噪音特征隐含观点模式所得的特征隐含观点模式集合;
选择具有最高情感强度的特征隐含观点模式作为相应产品特征的核心特征隐含观点模式:
Figure FDA0003989496080000055
cpj表示产品特征fj对应的核心特征隐含观点模式;
此时,将“产品特征-特征隐含观点模式”集合表示为:
Si=[(f1,cp1),(f2,cp2),...,(fn,cpn)|fj∈F]。
CN201910218684.5A 2019-03-21 2019-03-21 隐含观点情感极性的分析方法 Active CN110032735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910218684.5A CN110032735B (zh) 2019-03-21 2019-03-21 隐含观点情感极性的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910218684.5A CN110032735B (zh) 2019-03-21 2019-03-21 隐含观点情感极性的分析方法

Publications (2)

Publication Number Publication Date
CN110032735A CN110032735A (zh) 2019-07-19
CN110032735B true CN110032735B (zh) 2023-04-07

Family

ID=67236366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910218684.5A Active CN110032735B (zh) 2019-03-21 2019-03-21 隐含观点情感极性的分析方法

Country Status (1)

Country Link
CN (1) CN110032735B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190121A (zh) * 2018-09-03 2019-01-11 重庆工商大学 基于汽车本体和词性规则的汽车评论情感分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090048823A1 (en) * 2007-08-16 2009-02-19 The Board Of Trustees Of The University Of Illinois System and methods for opinion mining

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190121A (zh) * 2018-09-03 2019-01-11 重庆工商大学 基于汽车本体和词性规则的汽车评论情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OPEN:一个基于评论的商品特征抽取及情感分析框架;卿勇等;《计算机应用与软件》;20180115(第01期);全文 *

Also Published As

Publication number Publication date
CN110032735A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
US20190057310A1 (en) Expert knowledge platform
Danisman et al. Feeler: Emotion classification of text using vector space model
US7461056B2 (en) Text mining apparatus and associated methods
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN108763214B (zh) 一种针对商品评论的情感词典自动构建方法
CN109376239B (zh) 一种用于中文微博情感分类的特定情感词典的生成方法
WO2006039566A2 (en) Topical sentiments in electronically stored communications
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
CN108363784A (zh) 一种基于文本机器学习的舆情走向预测方法
Ishihara Score-based likelihood ratios for linguistic text evidence with a bag-of-words model
CN111353044A (zh) 一种基于评论的情感分析方法及系统
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
KR101326313B1 (ko) 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
Karo et al. Karonese sentiment analysis: a new dataset and preliminary result
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
Kancharapu et al. A comparative study on word embedding techniques for suicide prediction on COVID-19 tweets using deep learning models
CN109190106B (zh) 情感词典构建系统及构建方法
CN109298796B (zh) 一种词联想方法及装置
CN110110013B (zh) 一种基于时空属性的实体竞争关系数据挖掘方法
Abdi et al. Using an auxiliary dataset to improve emotion estimation in users’ opinions
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
CN110032735B (zh) 隐含观点情感极性的分析方法
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法
Cindo et al. Sentiment Analysis on Twitter By Using Maximum Entropy And Support Vector Machine Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant