CN114398911A - 情感分析方法、装置、计算机设备和存储介质 - Google Patents
情感分析方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114398911A CN114398911A CN202210081605.2A CN202210081605A CN114398911A CN 114398911 A CN114398911 A CN 114398911A CN 202210081605 A CN202210081605 A CN 202210081605A CN 114398911 A CN114398911 A CN 114398911A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- emotion
- nouns
- comment
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术,提出一种情感分析方法、装置、计算机设备和存储介质,该方法包括:获取同一个评价对象的不同评论文本;对所有评论文本中的名词进行词频统计,根据词频确定评价对象的评价维度;计算每条评论文本在对应的每个评价维度下的情感分数;对所有评论文本在相同评价维度下的情感分数进行聚类汇总,得到各个不同评价维度所对应的汇总数据;根据不同评价维度对应的汇总数据获取对评价对象的情感分析结果。本申请对评论文本中的名词的词频统计,挖掘出用户对评价对象所关注的评价维度,再对每个评论文本在对应的每个评价维度下的情感分数进行计算,分析出所有用户对该评价对象的各个不同评价维度的情感倾向。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种情感分析方法、装置、计算机设备和存储介质。
背景技术
情感分析又称意见挖掘是自然语言处理领域的重要分支。情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。通过对文本的主客观检测;不同粒度的情感分析;“特征-观点对”提取等,可以识别出文本中的情感倾向,能够帮助企业得知用户的情感倾向,从而有针对性帮助企业改善服务质量,提高客户满意度。
目前服务评价或产品评价方法往往是通过引导客户进行评分的方式,例如直接将服务或产品满意度分为“非常满意”、“较好”、“一般”、“较差”和“恶劣”五个等级,引导用户选择其中一个等级以实现打分,进而对服务或产品进行定量数值型打分评价。这种方式只能笼统地得知用户对服务或产品的总体感知态度,无法详细得知用户对服务或产品在各个层面的情感倾向,进而无法有针对性地改善服务或产品的质量。
发明内容
为了解决现有技术中通过笼统的打分方式从粗粒度的角度笼统分析用户对服务或产品的情感倾向,导致情感分析不够精准的技术问题。本申请提供了一种情感分析方法、装置、计算机设备和存储介质,其主要目的在于分析出所有用户对该评价对象的各个不同评价维度的情感倾向。
为实现上述目的,本申请提供了一种情感分析方法,该方法包括:
获取同一个评价对象的不同评论文本;
对所有评论文本中的名词进行词频统计,根据词频确定评价对象的评价维度;
计算每条评论文本在对应的每个评价维度下的情感分数;
对所有评论文本在相同评价维度下的情感分数进行聚类汇总,得到各个不同评价维度所对应的汇总数据;
根据不同评价维度对应的汇总数据获取对评价对象的情感分析结果。
此外,为实现上述目的,本申请还提供了一种情感分析装置,该装置包括:
评论文本获取模块,用于获取同一个评价对象的不同评论文本;
评价维度确定模块,用于对所有评论文本中的名词进行词频统计,根据词频确定评价对象的评价维度;
第一计算模块,用于计算每条评论文本在对应的每个评价维度下的情感分数;
聚类汇总模块,用于对所有评论文本在相同评价维度下的情感分数进行聚类汇总,得到各个不同评价维度所对应的汇总数据;
情感分析模块,用于根据不同评价维度对应的汇总数据获取对评价对象的情感分析结果。
为实现上述目的,本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时执行如前面任一项的情感分析方法的步骤。
为实现上述目的,本申请还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如前面任一项的情感分析方法的步骤。
本申请提出的情感分析方法、装置、计算机设备和存储介质,通过对评论文本中的名词的词频统计,挖掘出用户对评价对象所关注的评价维度,再对每个评论文本在对应的每个评价维度下的情感分数进行计算,统计出所有用户对该评价对象的各个不同评价维度的情感倾向,相当于是从多个不同的重要维度来分析用户对评价对象的情感或态度,对于改善评价对象具有较大的指导意义。
附图说明
图1为本申请一实施例中情感分析方法的应用场景图;
图2为本申请一实施例中情感分析方法的流程示意图;
图3为本申请一实施例中情感分析装置的结构框图;
图4为本申请一实施例中计算机设备的内部结构框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的情感分析方法,可应用在如图1的应用环境中,其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
图2为本申请一实施例中情感分析方法的流程示意图。参考图2,以该方法应用在图1中的终端设备为例进行说明。该情感分析方法包括以下步骤S100-S500。
S100:获取同一个评价对象的不同评论文本。
具体地,评价对象可以为例如一个产品或一种服务。评论文本是对该产品或服务的评论语句,同一个评价对象可以被不同的评论者评论,因此会产生不同的评论文本。
本实施例的情感分析方法应用于终端设备,终端设备中安装有情感分析系统,该情感分析系统通过终端设备调用服务器的API接口来获取产品系统或服务系统中的在线评论文本,从而将产品系统或服务系统中的在线评论文本读入到情感分析系统中。。服务器为产品系统或服务系统所对应的应用服务器。用户可以通过用户端在线对评价对象进行评论,应用服务器会存储这些评论数据。
另外,本申请也可以应用于对同一类评价对象的评论文本进行情感分析,同一类评价对象具有相似属性或特征。例如,在有的评价对象的评论文本较少的时候,可以对选取的同一类评价对象的评论文本进行爬取,实现统一的情感分析,而不需要对每一个评价对象都单独进行分析,增加评价数据可以提高情感分析的准确性,也可以减少对每一个评价对象都单独进行分析的运算开销。
S200:对所有评论文本中的名词进行词频统计,根据词频确定评价对象的评价维度。
具体地,词频为对应名词在所有评论文本中出现的频率或次数,评价维度为评价者或用户对评价对象所热点关注的维度特征或属性或核心事件。通常用户会从自身所关注的点来对产品或服务进行评价,而且一个用户一般不会涉及到产品或服务的方方面面的各个维度,因此,本实施例是从所有用户评论中通过词频来确定大部分用户所关注的点即评价维度。通过对所有评论文本中的名词的词频进行统计,可以确定评价者对评价对象所评论的评价维度。名词出现的频率越高,则越可能作为评价维度。评价维度可以为提取出的部分名词,也可以是根据提取出的名词关联到的相关名词。
例如,对一个产品的评价维度包括但不局限于产品的质量、材质、颜色、设计、款式。对一种服务的评价维度包括但不局限于服务的态度、服务的质量、服务的有效性、服务的人性度、服务的积极性、服务的效率等。
S300:计算每条评论文本在对应的每个评价维度下的情感分数。
具体地,评价对象的评论维度是综合所有评论文本统计出来的,但是并不是每条评论文本都对所有评论维度都有涉及,因此需要确定每个评论文本所对应的评价维度。然后计算该评论文本在对应的每个评论温度下的情感分数。情感分数表征了该评论文本所对应的评论者对该评价对象在对应的至少一个评价维度下的情感倾向。
不同的评论文本所包含的评价维度可能不同。
例如,同一个评论者,在同一个评论文本中既评论了对某个产品的质量也评论了这个产品的款式。那么该条评论文本则评论了两个维度。因此会分别计算出该条评论文本在产品质量和产品款式两个不同维度的情感分数。
再例如,同一个评论者,在同一个评论文本中对某个服务的态度、有效性和积极性共计三个维度进行了评论,因此,会分别计算该条评论文本在服务的态度、有效性和积极性三个不同维度的情感分数。
S400:对所有评论文本在相同评价维度下的情感分数进行聚类汇总,得到各个不同评价维度所对应的汇总数据。
具体地,本实施例是以评价维度对情感分数进行聚类汇总。例如,评价者A对产品的质量和款式进行了评价,通过计算得到了质量对应的情感分数1和款式对应的情感分数2。
评价者B对产品的颜色和尺寸进行了评价,通过计算得到了颜色对应的情感分数3和尺寸对应的情感分数4。
评价者C对产品的质量和尺寸进行了评价,通过计算得到了质量对应的情感分数5和尺寸对应的情感分数6。
则最终聚类汇总得到的汇总数据为:
质量的汇总数据包括:情感分数1、情感分数5。
款式的汇总数据包括:情感分数2。
颜色的汇总数据包括:情感分数3。
尺寸的汇总数据包括:情感分数4、情感分数6。
S500:根据不同评价维度对应的汇总数据获取对评价对象的情感分析结果。
具体地,情感分析结果包括了每个评价维度对应的情感倾向,即评价者或用户在各个不同的评价维度对评价对象的情感倾向。每个评价维度的汇总数据包括了所有在该评价维度下的情感分数。对每个评价维度下的所有情感分数求均值,根据均值所在的取值范围确定用户对评价对象在该评价维度下的总体情感倾向即为该评价维度下的情感倾向。其中,每个评价维度均对应多个取值范围,每个取值范围对应一个情感倾向。
当然,还可以是输出不同评价维度的汇总数据,由分析人员根据汇总数据来分析用户对评价对象的情感倾向。
本实施例从评价维度对评价对象的情感倾向做统计,可以从细粒度的角度分析出用户对评价对象在不同维度的看法,得到的情感分析结果更加精准和细腻,对于评价对象的改善具有可靠的指导意义。
在一个实施例中,步骤S200具体包括:
提取出每条评论文本中的名词;
对名词进行词频统计;
根据所有名词的词频得到高频名词;
根据高频名词得到评价对象对应的评价维度。
具体地,对每条评论文本进行分词处理,对分词进行词性标注,得到每个分词的词性,分词的词性可以为名词、动词、形容词、副词等。根据词性提取出分词中的名词。
高频名词可以为所有名词的词频数值降序排序中词频数值(出现频率)的排序值小于或者等于第二预设值的名词,例如,所有名词中词频排名前100的名词为高频名词;也可以是根据同义词聚类得到各类同义词的累计词频,将累计词频数值降序排序中同类名词的排序值不高于第一预设值的多类同义词作为高频名词;高频名词还可以为所有名词中词频不低于最低词频阈值的名词。高频名词是是用户的关注点,是评价者所关注的评价对象的属性或特征,因此,根据高频名词可以得到评价对象的评价维度。
在一个具体实施例中,评价维度即为高频名词。
在另外一个具体实施例中,评价维度是根据高频名词关联得到的关联名词。具体地,对同一个事物特别是专业领域的事物的说法和表述可能存在差异,如果同一类的高频名词中没有一个高频名词是该评价对象所在行业领域的行业描述,则根据高频名词匹配获取到行业通用的专业名词作为关联名词,将该关联名词作为对应的评价维度。匹配的方式具体为根据评价对象所在行业领域确定对应的词典,词典中存储了本行业专业名词所对应的口语化词语、通俗词语、俚语等非专业名词,根据高频名词去词典中匹配对应的专业名词。
在一个实施例中,根据所有名词的词频得到高频名词,包括:
对所有名词中的同义词进行聚类;
对同一类的名词的词频进行累加,得到累计词频;
对累计词频进行降序排序;
筛选出排序结果中排序值不高于第一预设值的累计词频作为目标累计词频,将目标累计词频所对应的各类名词作为高频名词。
具体地,中文具有多词同义的特点,因此存在名词不同但表达意义相同的同义词。本实施例对同义词进行文本聚类,将表达意义相同的同义名词聚为一类。具体地,使用Word2Vec模型得到各个名词的词向量,利用聚类模型通过名词的词向量对名词进行聚类。聚类的结果就是将属于同义词的名词聚为一类。
当然也可以根据名词的词向量计算任意两个名词的余弦距离,得到这两个名词的相似度。根据相似度判断这两个名词是否为同义词。
由于每个名词都有对应的词频,因此对同一类的名词的词频进行累加,即可得到同一类的所有名词的累计词频。对累计词频进行降序排序,从排序结果中筛选出排序顺序或排序值不高于第一预设值的累计词频作为目标累计词频。目标累计词频包括至少一个。每个目标累计词频对应一类名词,每一类包括至少一个名词,将所有目标累计词频所对应的所有名词作为高频名词。
本实施例通过文本聚类对不同称呼的关注点进行词频累计,更能精确的找出高频名词,防止由于不同用户对同一个维度的称呼不同导致词频统计分散,进而导致高频词频判断错误的情况发生,本实施例实现了对高频名词的精准判断。
在一个实施例中,根据高频名词得到评价对象对应的评价维度,包括:
从每一类的高频名词中筛选出词频最大的一个名词作为对应的同一类的高频名词的代表名词;
将所有代表名词作为评价对象对应的评价维度。
具体地,同一类的高频名词有至少一个,如果每个高频名词都作为一个评价维度,则会导致评价维度分散和凌乱,因此,对同一类的高频名词选出一个词频最大的高频名词作为代表名词即可代表该同一类所有高频名词。代表名词在同一类中出现的词频最高,因此,代表名词被评论者所使用的频率最高,是通用的说法,更能体现用户对评价对象某个特征或属性的通用称呼。
在一个实施例中,根据所有名词的词频得到高频名词,包括:
对所有名词的词频进行降序排序,
筛选出排序结果中排序值不高于第二预设值的词频作为目标词频,将目标词频所对应的各个名词作为高频名词;
或,
将所有名词中词频不低于最低词频阈值的名词作为高频名词。
根据高频名词得到评价对象对应的评价维度,包括:
将高频名词作为评价对象对应的评价维度;或,对高频名词中的同义词进行聚类,从同一类高频名词中筛选出词频最大的一个高频名词作为对应的同一类的高频名词的代表名词,将所有代表名词作为评价对象对应的评价维度。
在一个实施例中,计算每条评论文本在对应的每个评价维度下的情感分数,包括:
对任意一条评论文本进行分句处理,得到评论文本对应的至少一个评论单元;
确定每个评论单元所对应的评价维度;
提取出任意一个评论单元的形容词和副词,根据情感词典及形容词和副词确定评论单元的情感强度;
确定每个评论单元的情感极性;
根据情感极性和情感强度的乘积得到评论单元对应的情感分数;
根据评论文本所对应的所有评论单元的情感分数,得到对应的评论文本在对应的每个评价维度下的情感分数。
具体地,根据中文标点符号或者英文标点符号对每个评论文本进行分句,得到对应的至少一个评论单元,评论单元为一个评论文本中的一个分句。
人类的情感大致可以分为三种:消极(负面)情感和积极(正面)情感和中性情感;为了对评价单元进行情感计算,首先对评论单元进行情感分类。
由于语言的丰富性,同一个情感词在不同的语言环境下表达的意思可能不同。例如“价格很高”和“性价比很高”二者都含有情感词“高”,但是表达的情感倾向却是不同的,因此需要获取评论单元的情感极性即情感分类。同时由于程度副词的修饰作用,“价格有些高”和“价格太高了”二者表现的情感强度也不一样,因此还需要获取用户表达情感的情感强度。
情感强度是基于预设的情感词典得到的,情感词典包括了情感词以及情感词的得分,得分为情感强度或情感权重。例如,通过情感词典得到副词“非常地”所赋予的权重为5,即情感强度为5。情感权重即情感强度。情感词典具体根据实际应用场景构建。
通过已训练的分类模型对评论单元进行情感极性分类,分类模型是根据人工标注的训练样本进行训练得到的。训练样本包括不同的文本样本以及文本样本的标注,标注为积极情感、消极情感和中性情感中的一个。将评论单元输入至已训练的分类模型可以进行情感极性的预测,得到是这个评论单元是情感极性是表达积极情感、消极情感还是中性情感。
情感分数的计算公式如公式(1)所示:
F=w*i (1)
其中,w:情感权重;i:情感极性。
在一个实施例中,计算每条评论文本在对应的每个评价维度下的情感分数,包括:
对任意一条评论文本进行分句处理,得到评论文本对应的至少一个评论单元;
确定每个评论单元所对应的评价维度;
提取出任意一个评论单元的形容词和副词,根据情感词典及形容词和副词确定评论单元的情感强度;
确定每个评论单元的情感极性;
根据情感极性和情感强度的乘积得到评论单元对应的情感分数;
根据评论文本所对应的所有评论单元的情感分数,得到对应的评论文本在对应的每个评价维度下的情感分数
其中,确定每个评论单元所对应的评价维度,包括:
剔除评论文本中不包含任意一个高频名词的评论单元;
获取未被剔除的评论单元中的高频名词,将高频名词所属聚类的代表名词确定为未被剔除的评论单元所对应的评论维度。
具体地,一个聚类包括至少一个同义词,因此,评论单元中包含了哪个或哪些高频名词,则其聚类对应的代表名词就是该评论单元的评论维度。
若划分的评论单元不包含上述的高频名词,则认为该评论单元是与本次分析无关的句子,可删除。删除的评论单元为用户的无意义评论,例如“我很好”是与对评价对象的评价无关的语句,因此可以删除。删除无意义的评论单元是为了减少无意义的评论单元对情感分数计算的干扰,而且还可以有效减少无效运算,降低运算开销。
若一条评论文本所包含的高频名词少则代表描述的特征少,说明该用户只关注少量的特征,最后分析结果是要结合全部的评论文本来整体分析用户对评价对象的整体情感倾向。
另外,如果出现用户评论没有使用标点符号断句导致一个评论单元包含两个及以上的评论维度的情况发生,则对该评论单元进行语义分析,并根据语义分析结果将该评论单元划分为与评论维度对应的至少两个子评论单元。
分别计算每个子评论单元在对应评论维度的情感分数,即得到该评论单元对应的两个及以上的情感分数。
在一个实施例中,确定每个评论单元的情感极性,包括:
通过已训练的情感极性分类模型对每个评论单元的情感极性进行预测,得到每个评论单元的情感极性。
具体地,情感极性分类模型为一种多分类模型,由标注为积极情感、消极情感和中性情感的不同样本进行训练得到的。情感极性分类模型用于预测每个评论单元的情感极性。情感极性包括积极情感、消极情感和中性情感。
本申请通过对评论文本中的名词的词频统计,挖掘出用户对评价对象所关注的评价维度,再对每个评论文本在对应的每个评价维度下的情感分数进行计算,统计出所有用户对该评价对象的各个不同评价维度的情感倾向,相当于是从多个不同的重要维度来分析用户对评价对象的情感或态度,对于改善评价对象具有较大的指导意义。本申请相比于传统的直接让客户对服务维度进行定性或定量打分,企业可以细粒度或者粗粒度地获取客户对评价对象各方面的情感态度,并以此有针对性地改善评价对象,特别适用于对产品或服务的改善,可以增加服务质量提高产品的质量,提升客户满意度,进而提高客户的忠诚度和用户粘性。
本申请的情感分析方法可应用于各种不同的应用场景,用来分析不同用户对同一个事情或事物的情感倾向。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理,例如本申请的分类模型、分词以及词性识别、同义词聚类都可以使用人工智能技术来实现。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图3为本申请一实施例中情感分析装置的结构框图。参考图3,该情感分析装置包括:
评论文本获取模块100,用于获取同一个评价对象的不同评论文本;
评价维度确定模块200,用于对所有评论文本中的名词进行词频统计,根据词频确定评价对象的评价维度;
第一计算模块300,用于计算每条评论文本在对应的每个评价维度下的情感分数;
聚类汇总模块400,用于对所有评论文本在相同评价维度下的情感分数进行聚类汇总,得到各个不同评价维度所对应的汇总数据;
情感分析模块500,用于根据不同评价维度对应的汇总数据获取对评价对象的情感分析结果。
情感分析装置一般设置于服务器/终端设备中。
在一个实施例中,评价维度确定模块200具体包括:
第一提取模块,用于提取出每条评论文本中的名词;
词频统计模块,用于对名词进行词频统计;
第一筛选模块,用于根据所有名词的词频得到高频名词;
评价维度分析模块,用于根据高频名词得到评价对象对应的评价维度。
在一个实施例中,第一筛选模块具体包括:
聚类模块,用于对所有名词中的同义词进行聚类;
累计模块,用于对同一类的名词的词频进行累加,得到累计词频;
排序模块,用于对累计词频进行降序排序;
子筛选模块,用于筛选出排序结果中排序值不高于第一预设值的累计词频作为目标累计词频,将目标累计词频所对应的各类名词作为高频名词。
在一个实施例中,评价维度分析模块具体包括:
第二筛选模块,用于从每一类的高频名词中筛选出词频最大的一个名词作为对应的同一类的高频名词的代表名词;
评价维度汇总模块,用于将所有代表名词作为评价对象对应的评价维度。
在一个实施例中,第一计算模块300具体包括:
分句模块,用于对任意一条评论文本进行分句处理,得到评论文本对应的至少一个评论单元;
单元维度确定模块,用于确定每个评论单元所对应的评价维度;
情感强度确定模块,用于提取出任意一个评论单元的形容词和副词,根据情感词典及形容词和副词确定评论单元的情感强度;
情感极性确定模块,用于确定每个评论单元的情感极性;
情感分数计算模块,用于根据情感极性和情感强度的乘积得到评论单元对应的情感分数;
情感分数汇总模块,用于根据评论文本所对应的所有评论单元的情感分数,得到对应的评论文本在对应的每个评价维度下的情感分数。
在一个实施例中,第一计算模块300具体包括:
分句模块,用于对任意一条评论文本进行分句处理,得到评论文本对应的至少一个评论单元;
单元维度确定模块,用于确定每个评论单元所对应的评价维度;
情感强度确定模块,用于提取出任意一个评论单元的形容词和副词,根据情感词典及形容词和副词确定评论单元的情感强度;
情感极性确定模块,用于确定每个评论单元的情感极性;
情感分数计算模块,用于根据情感极性和情感强度的乘积得到评论单元对应的情感分数;
情感分数汇总模块,用于根据评论文本所对应的所有评论单元的情感分数,得到对应的评论文本在对应的每个评价维度下的情感分数;
其中,单元维度确定模块具体包括:
剔除模块,用于剔除评论文本中不包含任意一个高频名词的评论单元;
匹配模块,用于获取未被剔除的评论单元中的高频名词,将高频名词所属聚类的代表名词确定为未被剔除的评论单元所对应的评论维度。
在一个实施例中,情感极性确定模块具体用于:
通过已训练的情感极性分类模型对每个评论单元的情感极性进行预测,得到每个评论单元的情感极性。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于情感分析装置的具体限定可以参见上文中对于情感分析方法的限定,在此不再赘述。上述情感分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图4为本申请一实施例中计算机设备的内部结构框图。该计算机设备具体可以是图1中的终端设备。如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质,也可以是易失性存储介质。存储介质存储有操作系统,还可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器实现情感分析方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行情感分析方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序),处理器执行计算机可读指令时实现上述实施例中情感分析方法的步骤,例如图2所示的步骤S100至步骤S500及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机可读指令时实现上述实施例中情感分析装置的各模块/单元的功能,例如图3所示模块100至模块500的功能。为避免重复,这里不再赘述。
处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机可读指令和/或模块,处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
存储器可以集成在处理器中,也可以与处理器分开设置。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中情感分析方法的步骤,例如图2所示的步骤S100至步骤S500及该方法的其它扩展和相关步骤的延伸。或者,计算机可读指令被处理器执行时实现上述实施例中情感分析装置的各模块/单元的功能,例如图3所示模块100至模块500的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指示相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种情感分析方法,其特征在于,所述方法包括:
获取同一个评价对象的不同评论文本;
对所有所述评论文本中的名词进行词频统计,根据所述词频确定所述评价对象的评价维度;
计算每条所述评论文本在对应的每个评价维度下的情感分数;
对所有所述评论文本在相同评价维度下的情感分数进行聚类汇总,得到各个不同评价维度所对应的汇总数据;
根据所述不同评价维度对应的汇总数据获取对所述评价对象的情感分析结果。
2.根据权利要求1所述的方法,其特征在于,所述对所有所述评论文本中的名词进行词频统计,根据所述词频确定所述评价对象的评价维度,包括:
提取出每条所述评论文本中的名词;
对所述名词进行词频统计;
根据所有所述名词的词频得到高频名词;
根据所述高频名词得到所述评价对象对应的评价维度。
3.根据权利要求2所述的方法,其特征在于,所述根据所有所述名词的词频得到高频名词,包括:
对所有所述名词中的同义词进行聚类;
对同一类的名词的词频进行累加,得到累计词频;
对所述累计词频进行降序排序;
筛选出排序结果中排序值不高于第一预设值的累计词频作为目标累计词频,将所述目标累计词频所对应的各类名词作为高频名词。
4.根据权利要求3所述的方法,其特征在于,所述根据所述高频名词得到所述评价对象对应的评价维度,包括:
从每一类的高频名词中筛选出词频最大的一个名词作为对应的同一类的高频名词的代表名词;
将所有所述代表名词作为所述评价对象对应的评价维度。
5.根据权利要求2所述的方法,其特征在于,所述根据所有所述名词的词频得到高频名词,包括:
对所有所述名词的词频进行降序排序,筛选出排序结果中排序值不高于第二预设值的词频作为目标词频,将所述目标词频所对应的各个名词作为高频名词;
或,
将所有所述名词中词频不低于最低词频阈值的名词作为高频名词。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述计算每条所述评论文本在对应的每个评价维度下的情感分数,包括:
对任意一条所述评论文本进行分句处理,得到所述评论文本对应的至少一个评论单元;
确定每个所述评论单元所对应的评价维度;
提取出任意一个所述评论单元的形容词和副词,根据情感词典及所述形容词和副词确定所述评论单元的情感强度;
确定每个所述评论单元的情感极性;
根据所述情感极性和情感强度的乘积得到所述评论单元对应的情感分数;
根据所述评论文本所对应的所有评论单元的情感分数,得到对应的所述评论文本在对应的每个评价维度下的情感分数。
7.根据权利要求6所述的方法,其特征在于,所述确定每个所述评论单元的情感极性,包括:
通过已训练的情感极性分类模型对每个所述评论单元的情感极性进行预测,得到每个所述评论单元的情感极性。
8.一种情感分析装置,其特征在于,所述装置包括:
评论文本获取模块,用于获取同一个评价对象的不同评论文本;
评价维度确定模块,用于对所有所述评论文本中的名词进行词频统计,根据所述词频确定所述评价对象的评价维度;
第一计算模块,用于计算每条所述评论文本在对应的每个评价维度下的情感分数;
聚类汇总模块,用于对所有所述评论文本在相同评价维度下的情感分数进行聚类汇总,得到各个不同评价维度所对应的汇总数据;
情感分析模块,用于根据所述不同评价维度对应的汇总数据获取对所述评价对象的情感分析结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时执行如权利要求1-7任一项所述的情感分析方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的情感分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210081605.2A CN114398911A (zh) | 2022-01-24 | 2022-01-24 | 情感分析方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210081605.2A CN114398911A (zh) | 2022-01-24 | 2022-01-24 | 情感分析方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398911A true CN114398911A (zh) | 2022-04-26 |
Family
ID=81233382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210081605.2A Withdrawn CN114398911A (zh) | 2022-01-24 | 2022-01-24 | 情感分析方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398911A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973946A (zh) * | 2024-03-29 | 2024-05-03 | 云南与同加科技有限公司 | 一种面向教学的数据处理方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN107391493A (zh) * | 2017-08-04 | 2017-11-24 | 青木数字技术股份有限公司 | 一种舆情信息提取方法、装置、终端设备及存储介质 |
CN109522412A (zh) * | 2018-11-14 | 2019-03-26 | 北京神州泰岳软件股份有限公司 | 文本情感分析方法、装置及介质 |
CN110705286A (zh) * | 2019-09-24 | 2020-01-17 | 青木数字技术股份有限公司 | 一种基于评论信息的数据处理方法及装置 |
CN111414753A (zh) * | 2020-03-09 | 2020-07-14 | 中国美术学院 | 产品感性意象词汇提取方法及系统 |
CN111598454A (zh) * | 2020-05-16 | 2020-08-28 | 北京工商大学 | 一种生鲜冷链物流在线评论情感分析方法 |
CN112015857A (zh) * | 2019-05-13 | 2020-12-01 | 中国移动通信集团湖北有限公司 | 用户感知评价方法、装置、电子设备及计算机存储介质 |
CN112861541A (zh) * | 2020-12-15 | 2021-05-28 | 哈尔滨工程大学 | 一种基于多特征融合的商品评论情感分析方法 |
CN113886585A (zh) * | 2021-09-30 | 2022-01-04 | 卓尔智联(武汉)研究院有限公司 | 物品推荐方法、计算机设备及计算机可读存储介质 |
-
2022
- 2022-01-24 CN CN202210081605.2A patent/CN114398911A/zh not_active Withdrawn
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN107391493A (zh) * | 2017-08-04 | 2017-11-24 | 青木数字技术股份有限公司 | 一种舆情信息提取方法、装置、终端设备及存储介质 |
CN109522412A (zh) * | 2018-11-14 | 2019-03-26 | 北京神州泰岳软件股份有限公司 | 文本情感分析方法、装置及介质 |
CN112015857A (zh) * | 2019-05-13 | 2020-12-01 | 中国移动通信集团湖北有限公司 | 用户感知评价方法、装置、电子设备及计算机存储介质 |
CN110705286A (zh) * | 2019-09-24 | 2020-01-17 | 青木数字技术股份有限公司 | 一种基于评论信息的数据处理方法及装置 |
CN111414753A (zh) * | 2020-03-09 | 2020-07-14 | 中国美术学院 | 产品感性意象词汇提取方法及系统 |
CN111598454A (zh) * | 2020-05-16 | 2020-08-28 | 北京工商大学 | 一种生鲜冷链物流在线评论情感分析方法 |
CN112861541A (zh) * | 2020-12-15 | 2021-05-28 | 哈尔滨工程大学 | 一种基于多特征融合的商品评论情感分析方法 |
CN113886585A (zh) * | 2021-09-30 | 2022-01-04 | 卓尔智联(武汉)研究院有限公司 | 物品推荐方法、计算机设备及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973946A (zh) * | 2024-03-29 | 2024-05-03 | 云南与同加科技有限公司 | 一种面向教学的数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093854B2 (en) | Emoji recommendation method and device thereof | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
US7599926B2 (en) | Reputation information processing program, method, and apparatus | |
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
CN110232112B (zh) | 文章中关键词提取方法及装置 | |
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
KR20120109943A (ko) | 문장에 내재한 감정 분석을 위한 감정 분류 방법 | |
US9348901B2 (en) | System and method for rule based classification of a text fragment | |
Syed | Applying sentiment and emotion analysis on brand tweets for digital marketing | |
WO2018227930A1 (zh) | 智能提示答案的方法及装置 | |
JPWO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN114399396A (zh) | 保险产品推荐方法、装置、计算机设备及存储介质 | |
López-Escobedo et al. | Analysis of intertextual distances using multidimensional scaling in the context of authorship attribution | |
CN114398911A (zh) | 情感分析方法、装置、计算机设备和存储介质 | |
CN111222032A (zh) | 舆情分析方法及相关设备 | |
CN112487132A (zh) | 关键词的确定方法和相关设备 | |
CN115827867A (zh) | 文本类型的检测方法及装置 | |
US20220083581A1 (en) | Text classification device, text classification method, and text classification program | |
Qian et al. | Satiindicator: Leveraging user reviews to evaluate user satisfaction of sourceforge projects | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
Huangfu et al. | An improved sentiment analysis algorithm for Chinese news | |
CN114117057A (zh) | 产品反馈信息的关键词提取方法及终端设备 | |
JP5395827B2 (ja) | 苦情検索装置、苦情検索方法、及びそのプログラム | |
Thakur et al. | The SAFE miner: A fine grained aspect level approach for resolving the sentiment | |
Jardim et al. | A Multilingual Lexicon-based Approach for Sentiment Analysis in Social and Cultural Information System Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220426 |