CN113449519B - 一种评论情感分析方法、系统、电子设备及存储介质 - Google Patents
一种评论情感分析方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113449519B CN113449519B CN202110690966.2A CN202110690966A CN113449519B CN 113449519 B CN113449519 B CN 113449519B CN 202110690966 A CN202110690966 A CN 202110690966A CN 113449519 B CN113449519 B CN 113449519B
- Authority
- CN
- China
- Prior art keywords
- comment
- attribution
- emotion
- word
- comments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 143
- 238000004458 analytical method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000000007 visual effect Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 description 14
- 238000013145 classification model Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种评论情感分析方法、系统、电子设备及存储介质,其方法技术方案包括获取一评论集合,使用一情感模型对所述评论集合进行情感极性判断,得到对应的情感极性标签;为所述评论集合中的评论计算归因分数向量,并得到对应的归因分数向量集合,所述归因分数向量包括所述评论中每个字的归因分数;根据所述归因分数向量抽取所述评论的关键词;根据所述情感极性标签和所述关键词以可视化的形式进行展示。本申请解决了现有评论情感分析方法无法同时满足不需要标注、与情感极性相关、区分多义词、不限定词范围的问题。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种评论情感分析方法、系统、电子设备及存储介质。
背景技术
随着移动互联网的发展,出现了各种各样的APP帮助人们解决衣食住行等各方面的需求。这些APP为了提升用户体验通常都提供了用户评论的功能。如何通过这些用户的评论来指导产品或者服务的改进是一个十分有挑战且有意义的任务。
情感分析(Sentiment Analysis)是一种常见的分析用户评论的方法,其主要目标是判断用户评论的情感极性(正面、负面等)。目前,主要使用文本分类模型对评论的情感极性进行判断。但是,仅有评论的情感极性无法为改进产品或者服务提供更加深入的洞见。因此,本专利提出了一种基于关键词的评论情感分析方法,该方法能够更加精准的解释导致情感极性的原因,为进一步改善产品或者服务提供有效的洞察。
目前最常见的解释评论情感的方法是基于关键词的。举例来说,如果要快速了解某产品近期导致负面评论的原因,可以对近期的负面评论进行关键词抽取,然后将高频关键词通过可视化的方法展示给用户,这样就能帮助用户快速定位导致负面评论的原因。但上述方法具有下列缺陷:
(1)有监督的关键词抽取方法需要大量的人工标注,其不但成本高昂且无法很好的抽取出未标注类型的关键词;
(2)基于情感词典的关键词抽取只能抽取情感词典中存在的单词,不存在的单词则无法被抽取。此外,该方法也无法对多义词进行识别,例如在评论“不好意思,这个产品真的不好用!”中存在2个“不好”,但只有“不好用”中的“不好”才导致了负面情感,但是基于情感词典的方法无法识别这两种情况。
(3)基于TF-IDF或者TextRank的关键词抽取方法是独立于评论情感的,也就是说抽取的关键词并不一定与评论情感相关。
发明内容
本申请实施例提供了一种评论情感分析方法、系统、电子设备及存储介质,以至少解决现有评论情感分析方法无法同时满足不需要标注、与情感极性相关、区分多义词、不限定词范围的问题。
第一方面,本申请实施例提供了一种评论情感分析方法,包括:情感极性判断步骤,获取一评论集合,使用一情感模型对所述评论集合进行情感极性判断,得到对应的情感极性标签;归因分数计算步骤,为所述评论集合中的评论计算归因分数向量,并得到对应的归因分数向量集合,所述归因分数向量包括所述评论中每个字的归因分数;关键词抽取步骤,根据所述归因分数向量抽取所述评论的关键词;评论情感展示步骤,根据所述情感极性标签和所述关键词以可视化的形式进行展示。
优选的,所述归因分数计算步骤进一步包括:基于积分梯度法计算所述评论的所述归因分数向量,公式为
式中,为所述评论集合中一评论的归因分数向量,/>为情感模型,x为所述评论集合中的一条所述评论,x=(x1,x2,...,xn),其中xi表示评论的第i个字,y为x所对应的情感极性;
将所述归因分数向量进行标准化,公式为
式中,||·||表示向量的L2范数。
优选的,所述关键词抽取步骤进一步包括:使用一分词工具对所述评论集合中的所述评论进行分词,并为所述评论中的每个词计算归因强度和归因纯度,根据所述归因强度和所述归因纯度抽取所述关键词。
优选的,所述归因强度的计算方法为:
式中,si为归因强度,t为所述评论中某个词所包含的字的数量,aij为所述评论中每个字的归因分数。
优选的,所述归因纯度的计算方法为:
第二方面,本申请实施例提供了一种评论情感分析系统,适用于上述一种评论情感分析方法,包括:情感极性判断模块,获取一评论集合,使用一情感模型对所述评论集合进行情感极性判断,得到对应的情感极性标签;归因分数计算模块,为所述评论集合中的评论计算归因分数向量,并得到对应的归因分数向量集合,所述归因分数向量包括所述评论中每个字的归因分数;关键词抽取模块,根据所述归因分数向量抽取所述评论的关键词;评论情感展示模块,根据所述情感极性标签和所述关键词以可视化的形式进行展示。
在其中一些实施例中,所述归因分数计算模块进一步包括:基于积分梯度法计算所述评论的所述归因分数向量,公式为
式中,为所述评论集合中一评论的归因分数向量,/>为情感模型,x为所述评论集合中的一条所述评论,x=(x1,x2,...,xn),其中xi表示评论的第i个字,y为x所对应的情感极性;
将所述归因分数向量进行标准化,公式为
式中,||·||表示向量的L2范数。
在其中一些实施例中,所述关键词抽取模块进一步包括:使用一分词工具对所述评论集合中的所述评论进行分词,并为所述评论中的每个词计算归因强度和归因纯度,根据所述归因强度和所述归因纯度抽取所述关键词。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的一种评论情感分析方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的一种评论情感分析方法。
本申请可应用于深度学习技术领域。相比于相关技术,本申请实施例提供的一种评论情感分析方法,通过归因技术和启发式的规则来寻找与情感极性高度相关的关键词,其克服了已有方法的缺点,包括:
(1)不需要人工进行关键词的标注,从而能够降低成本;
(2)不同于基于情感词典的方法,本发明对关键词没有限制;
(3)可以根据语义来区分多义词,即能确定评论“不好意思,这个产品真的不好用!”中后一个“不好”才是导致负面情感的关键词;
(4)不同于TF-IDF和TextRank,本发明抽取的关键词与评论的情感高度相关。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的评论情感分析方法流程图;
图2为本发明的评论情感分析系统的框架图;
图3为本发明的电子设备的框架图;
以上图中:
1、情感模型训练模块;2、情感极性判断模块;3、归因分数计算模块;4、关键词抽取模块;5、评论情感展示模块;60、总线;61、处理器;62、存储器;63、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前最常见的解释评论情感的方法是基于关键词的。举例来说,如果要快速了解某产品近期导致负面评论的原因,可以对近期的负面评论进行关键词抽取,然后将高频关键词通过可视化的方法展示给用户,这样就能帮助用户快速定位导致负面评论的原因。
本申请实施例定义以下符号以便于描述:
用于判断情感极性的文本分类模型
用于训练评论情感分类的训练集其中/>表示用户的评论集合,/>表示评论/>所对应的情感极性且假设/>可能的取值为“正面”或者“负面”;
和/>分别表示评论/>中情感为“正面”和“负面”的样本集合,/>和/>则是和/>对应的标签集合;
表示未标注的评论集合;
表示从评论集合/>中抽取关键词的算法,/>表示抽取出的关键词。
现有方法的主要流程为:
(1)使用训练集训练分类模型/>
(2)使用训练好的模型对评论集合/>进行情感极性判断,得到情感极性标签为/>
(3)依据对评论集合/>进行划分,划分为“正面”情感评论集合/>和“负面”情感评论集合/>
(4)分别抽取关键词集合和/>
(5)对关键词集合和/>进行过滤,并将过滤后的关键词以可视化的方法(例如:词云)展示给用户。
在现有的关键词抽取方法中,核心是关键词抽取算法f(·),好的关键词抽取方法能够更加精准的体现导致负面评论的原因。下面对用于解释评论情感的关键词抽取方法进行简要介绍。
(1)有监督的关键词抽取方法
有监督的关键词抽取方法中,需要人工对导致负面原因的关键词进行标注,然后使用标注的数据训练一个识别模型,并使用该模型进行关键词的抽取。
(2)无监督的关键词抽取方法
无监督的关键词抽取主要有:情感词典、TF-IDF和TextRank。情感词典是指由人工整理而形成的包含情感词的词典。例如在评论“菜不好吃”中,“不好吃”表示一个负面情感词。若评论中包含情感词典中的单词,则该单词为评论的关键词。TF-IDF是用来评估一个单词在整个语料库中重要性的指标。其主要思想是,如果一个单词在某个评论中出现的频率越高,但是在其他评论中出现的频率越低,那么该词就越重要。具体来说,
TF-IDF=TF*IDF
TF-IDF值就表示该单词的重要性。
TextRank是一种基于图的文本关键词挖掘算法。该算法通过文本中词的相邻关系来构建图,其中图中的节点为单词,边为词的相邻关系(共现)。然后基于网页排序算法PageRank来计算图中单词的重要度,从而抽取出关键词。
近些年,无论是在计算机视觉、自然语言处理还是推荐等领域,深度神经网络模型都展示了极其强大的能力。但是,由于深度神经网络模型的复杂性导致这些模型很难被解释,因此也被称为“黑盒”模型。
归因技术是一种用于解释“黑盒”模型的技术,该技术能够确定输入模型的特征中哪些特征对模型预测至关重要。例如,将文本“这个产品真垃圾!”输入到情感分类模型中,模型会认为这段文本表示一个负面情感。那么,输入中的哪些词使模型做出负面情感这样的判断呢?归因技术就是用于解决这个问题的。
给定一个模型和一条评论x=(x1,x2,...,xn),模型对该评论的情感分类为
那么归因就是确定x中各个单词(或字)对模型预测为y所做的贡献,即
其中,函数F(·)表示归因方法;表示归因分数向量;ai表示单词(或字)xi对模型预测的贡献度,ai>0时表示xi对预测有正面的贡献,ai<0则表示xi对预测有负面的贡献。
举例来说,模型将评论“产品真垃圾!”判定为负面评论。使用归因方法将会得到一个长度为6的归因向量,
其中,“垃圾”的归因分数为0.45和0.37,因此该单词很大程度上导致模型认为该评论为负面。
本申请实施例使用了一种称为“积分梯度法(Integrated Gradients)”的归因技术,该技术主要基于输入样本至基准样本的路径梯度积分来获得归因分数。定义使用积分梯度法的归因为
其中IG(·)代表积分梯度法。
以下,结合附图详细介绍本发明的实施例:
图1为本发明的评论情感分析方法流程图,请参见图1,本发明评论情感分析方法包括如下步骤:
S1:使用一标注好情感极性的训练集训练一情感模型。
在具体实施中,使用标注好情感极性的训练集训练情感模型/>在具体实施中,本申请实施例使用基于BERT的分类模型作为基本的情感分类模型/>但是其他类型的文本分类模型也可以应用于本申请。
S2:获取一评论集合,使用所述情感模型对所述评论集合进行情感极性判断,得到对应的情感极性标签。
在具体实施中,使用训练好的模型对评论集合/>进行情感极性判断,得到对应的情感极性标签/>
S3:为所述评论集合中的评论计算归因分数向量,并得到对应的归因分数向量集合,所述归因分数向量包括所述评论中每个字的归因分数。
在具体实施中,为评论集合中的所有评论计算归因分数并得到对应的归因分数向量集合/>
可选的,基于积分梯度法计算所述评论的所述归因分数向量,公式为
式中,为所述评论集合中一评论的归因分数向量,/>为情感模型,x为所述评论集合中的一条所述评论,x=(x1,X2,...,xn),其中xi表示评论的第i个字,y为x所对应的情感极性;
将所述归因分数向量进行标准化,公式为
式中,||·||表示向量的L2范数。
在具体实施中,从挑选出一条评论x=(x1,x2,...,xn),其中xi表示评论的第i个字;从/>中挑出x所对应的情感极性y;基于积分梯度法计算样本x的归因分数向量标准化归因分数向量/>其中||·||表示向量的L2范数,将标准化的归因分数向量/>加入集合A′中,若X′中的所有样本的归因分数向量均已存在于A′中,则结束,否则循环至开始的从X′挑选出一条评论一步。在具体实施中,本申请实施例使用积分梯度法来获取归因分数,但是其他类型的归因技术也适用于本申请。
S4:根据所述归因分数向量抽取所述评论的关键词。
可选的,使用一分词工具对所述评论集合中的所述评论进行分词,并为所述评论中的每个词计算归因强度和归因纯度,根据所述归因强度和所述归因纯度抽取所述关键词。
可选的,归因强度的计算方法为:
式中,si为归因强度,t为所述评论中某个词所包含的字的数量,aij为所述评论中每个字的归因分数;
所述归因纯度的计算方法为:
在具体实施中,从评论集合X′中抽取评论x=(x1,...,xn),其中n表示评论x包含的字数,从A′中抽取x所对应的归因向量,使用分词工具对x进行分词,得到分词后的评论x=(w1,...,wm),其中m表示x中包含的单词数量。
在具体实施中,为x中的每个单词计算指标“归因强度”。具体来说,假设x中的单词wi中包含了t个字,且对应的归因分数为ai1,...,ait,那么该单词的“归因强度”为
直观上,单词的“归因强度”为组成该单词归因分数的均值。
在具体实施中,为x中的每个单词计算指标“归因纯度”。同样假设x中的单词wi中包含了t个字,且对应的归因分数为ai1,...,ait,那么“归因纯度”为
直观上,单词的“归因纯度”为单词中正向归因分数的占比。
在具体实施中,将长度小于1的单词过滤掉;若单词si≥β,pi≥γ且长度大于1,则认为该单词是导致情感极性的关键词;其中,β和γ是由人工指定的阈值。
S5:根据所述情感极性标签和所述关键词以可视化的形式进行展示。
在具体实施中,将X′中的评论按照情感极性分为X′+和X′-,将X′+和X′-中包含的关键词记为K′+和K′-。
在具体实施中,通过词云等方式将K′+和K′-可视化的展示给用户,为用户提供有效的洞见。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种评论情感分析系统,适用于上述的一种评论情感分析方法。如以下所使用的,术语“单元”、“模块”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件、或者软件和硬件的组合的实现也是可能并被构想的。
图2为根据本发明的评论情感分析系统的框架图,请参见图2,包括:
情感模型训练模块1:使用一标注好情感极性的训练集训练一情感模型。
在具体实施中,使用标注好情感极性的训练集训练情感模型/>在具体实施中,本申请实施例使用基于BERT的分类模型作为基本的情感分类模型/>但是其他类型的文本分类模型也可以应用于本申请。
情感极性判断模块2:获取一评论集合,使用所述情感模型对所述评论集合进行情感极性判断,得到对应的情感极性标签。
在具体实施中,使用训练好的模型对评论集合/>进行情感极性判断,得到对应的情感极性标签/>
归因分数计算模块3:为所述评论集合中的评论计算归因分数向量,并得到对应的归因分数向量集合,所述归因分数向量包括所述评论中每个字的归因分数。
在具体实施中,为评论集合中的所有评论计算归因分数并得到对应的归因分数向量集合/>
可选的,基于积分梯度法计算所述评论的所述归因分数向量,公式为
式中,为所述评论集合中一评论的归因分数向量,/>为情感模型,x为所述评论集合中的一条所述评论,x=(x1,x2,...,xn),其中xi表示评论的第i个字,y为x所对应的情感极性;
将所述归因分数向量进行标准化,公式为
式中,||·||表示向量的L2范数。
在具体实施中,从挑选出一条评论x=(x1,x2,...,xn),其中xi表示评论的第i个字;从/>中挑出x所对应的情感极性y;基于积分梯度法计算样本x的归因分数向量标准化归因分数向量/>其中||·||表示向量的L2范数,将标准化的归因分数向量/>加入集合A′中,若X′中的所有样本的归因分数向量均已存在于A′中,则结束,否则循环至开始的从X′挑选出一条评论一步。在具体实施中,本申请实施例使用积分梯度法来获取归因分数,但是其他类型的归因技术也适用于本申请。
关键词抽取模块4:根据所述归因分数向量抽取所述评论的关键词。
可选的,使用一分词工具对所述评论集合中的所述评论进行分词,并为所述评论中的每个词计算归因强度和归因纯度,根据所述归因强度和所述归因纯度抽取所述关键词。
可选的,归因强度的计算方法为:
式中,si为归因强度,t为所述评论中某个词所包含的字的数量,aij为所述评论中每个字的归因分数;
所述归因纯度的计算方法为:
在具体实施中,从评论集合X′中抽取评论x=(x1,...,xn),其中n表示评论x包含的字数,从A′中抽取x所对应的归因向量,使用分词工具对x进行分词,得到分词后的评论x=(w1,...,wm),其中m表示x中包含的单词数量。
在具体实施中,为x中的每个单词计算指标“归因强度”。具体来说,假设x中的单词wi中包含了t个字,且对应的归因分数为ai1,...,ait,那么该单词的“归因强度”为
直观上,单词的“归因强度”为组成该单词归因分数的均值。
在具体实施中,为x中的每个单词计算指标“归因纯度”。同样假设x中的单词wi中包含了t个字,且对应的归因分数为ai1,...,ait,那么“归因纯度”为
直观上,单词的“归因纯度”为单词中正向归因分数的占比。
在具体实施中,将长度小于1的单词过滤掉;若单词si≥β,pi≥γ且长度大于1,则认为该单词是导致情感极性的关键词;其中,β和γ是由人工指定的阈值。
评论情感展示模块5:根据所述情感极性标签和所述关键词以可视化的形式进行展示。
在具体实施中,将X′中的评论按照情感极性分为X′+和X′-,将X′+和X′-中包含的关键词记为K′+和K′-。
在具体实施中,通过词云等方式将K′+和K′-可视化的展示给用户,为用户提供有效的洞见。
另外,结合图1描述的一种评论情感分析方法可以由电子设备来实现。图3为本发明的电子设备的框架图。
电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。
具体地,上述处理器61可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器62可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器62可在数据处理装置的内部或外部。在特定实施例中,存储器62是非易失性(Non-Volatile)存储器。在特定实施例中,存储器62包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date 0ut Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器61所执行的可能的计算机程序指令。
处理器61通过读取并执行存储器62中存储的计算机程序指令,以实现上述实施例中的任意一种评论情感分析方法。
在其中一些实施例中,电子设备还可包括通信接口63和总线60。其中,如图3所示,处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。
通信端口63可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线60包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线60可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards AssociationLocal Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的一种评论情感分析方法。
另外,结合上述实施例中的一种评论情感分析方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种评论情感分析方法。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种评论情感分析方法,其特征在于,包括:
情感极性判断步骤,获取一评论集合,使用一情感模型对所述评论集合进行情感极性判断,得到对应的情感极性标签;
归因分数计算步骤,为所述评论集合中的评论计算归因分数向量,并得到对应的归因分数向量集合,所述归因分数向量包括所述评论中每个字的归因分数;
关键词抽取步骤,根据所述归因分数向量抽取所述评论的关键词;
评论情感展示步骤,根据所述情感极性标签和所述关键词以可视化的形式进行展示;
其中,所述关键词抽取步骤进一步包括:
使用一分词工具对所述评论集合中的所述评论进行分词,并为所述评论中的每个词计算归因强度和归因纯度,根据所述归因强度和所述归因纯度抽取所述关键词,所述归因强度的计算方法为:
式中,si为归因强度,t为所述评论中某个词所包含的字的数量,aij为所述评论中每个字的归因分数;
所述归因纯度的计算方法为:
2.根据权利要求1所述的评论情感分析方法,其特征在于,所述归因分数计算步骤进一步包括:
基于积分梯度法计算所述评论的所述归因分数向量,公式为
式中,为所述评论集合中一评论的归因分数向量,/>为情感模型,x为所述评论集合中的一条所述评论,x=(x1,x2,…,xn),其中xi表示评论的第i个字,y为x所对应的情感极性;
将所述归因分数向量进行标准化,公式为
式中,||·||表示向量的L2范数。
3.一种评论情感分析系统,其特征在于,包括:
情感极性判断模块,获取一评论集合,使用一情感模型对所述评论集合进行情感极性判断,得到对应的情感极性标签;
归因分数计算模块,为所述评论集合中的评论计算归因分数向量,并得到对应的归因分数向量集合,所述归因分数向量包括所述评论中每个字的归因分数;
关键词抽取模块,根据所述归因分数向量抽取所述评论的关键词;
评论情感展示模块,根据所述情感极性标签和所述关键词以可视化的形式进行展示,
其中,所述关键词抽取模块进一步包括:
使用一分词工具对所述评论集合中的所述评论进行分词,并为所述评论中的每个词计算归因强度和归因纯度,根据所述归因强度和所述归因纯度抽取所述关键词,所述归因强度的计算方法为:
式中,si为归因强度,t为所述评论中某个词所包含的字的数量,aij为所述评论中每个字的归因分数;
所述归因纯度的计算方法为:
4.根据权利要求3所述的评论情感分析系统,其特征在于,所述归因分数计算模块进一步包括:
基于积分梯度法计算所述评论的所述归因分数向量,公式为
式中,为所述评论集合中一评论的归因分数向量,/>为情感模型,x为所述评论集合中的一条所述评论,x=(x1,x2,…,xn),其中xi表示评论的第i个字,y为x所对应的情感极性;
将所述归因分数向量进行标准化,公式为
式中,||·||表示向量的L2范数。
5.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1或2所述的评论情感分析方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1或2所述的评论情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110690966.2A CN113449519B (zh) | 2021-06-22 | 2021-06-22 | 一种评论情感分析方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110690966.2A CN113449519B (zh) | 2021-06-22 | 2021-06-22 | 一种评论情感分析方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449519A CN113449519A (zh) | 2021-09-28 |
CN113449519B true CN113449519B (zh) | 2024-02-20 |
Family
ID=77812083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110690966.2A Active CN113449519B (zh) | 2021-06-22 | 2021-06-22 | 一种评论情感分析方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449519B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111727478A (zh) * | 2018-02-16 | 2020-09-29 | 谷歌有限责任公司 | 使用深度卷积网络从医学文本中自动提取结构化标签并将其用于训练计算机视觉模型 |
CN111859962A (zh) * | 2020-08-03 | 2020-10-30 | 广州威尔森信息科技有限公司 | 一种提取汽车口碑词云所需数据的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606903B2 (en) * | 2017-11-17 | 2020-03-31 | International Business Machines Corporation | Multi-dimensional query based extraction of polarity-aware content |
-
2021
- 2021-06-22 CN CN202110690966.2A patent/CN113449519B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111727478A (zh) * | 2018-02-16 | 2020-09-29 | 谷歌有限责任公司 | 使用深度卷积网络从医学文本中自动提取结构化标签并将其用于训练计算机视觉模型 |
CN111859962A (zh) * | 2020-08-03 | 2020-10-30 | 广州威尔森信息科技有限公司 | 一种提取汽车口碑词云所需数据的方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于深度学习的用户评论情感分析系统设计与实现;文爽;中国优秀硕士学位论文全文数据库 信息科技辑(第8期);第15-26、61页 * |
积分梯度:一种新颖的神经网络可视化方法;苏剑林;PaperWeekly;第1-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113449519A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
WO2019200806A1 (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
US20170192955A1 (en) | System and method for sentiment lexicon expansion | |
CN108959329B (zh) | 一种文本分类方法、装置、介质及设备 | |
CN106776566B (zh) | 情感词汇的识别方法及装置 | |
US10417578B2 (en) | Method and system for predicting requirements of a user for resources over a computer network | |
CN103761225B (zh) | 一种数据驱动的中文词语义相似度计算方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
CN111475651A (zh) | 文本分类方法、计算设备及计算机存储介质 | |
CN113095065B (zh) | 一种中文字向量学习方法及装置 | |
CN112307210B (zh) | 一种文档标签预测方法、系统、介质及电子器件 | |
CN109753646B (zh) | 一种文章属性识别方法以及电子设备 | |
CN112561569B (zh) | 基于双模型的到店预测方法、系统、电子设备及存储介质 | |
CN113449519B (zh) | 一种评论情感分析方法、系统、电子设备及存储介质 | |
CN110929647B (zh) | 一种文本检测方法、装置、设备及存储介质 | |
CN117216275A (zh) | 一种文本处理方法、装置、设备以及存储介质 | |
CN113641724B (zh) | 知识标签挖掘方法、装置、电子设备及存储介质 | |
CN112446204B (zh) | 一种文档标签的确定方法、系统及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |