CN115129873A - 评论情感分析方法及相关装置 - Google Patents
评论情感分析方法及相关装置 Download PDFInfo
- Publication number
- CN115129873A CN115129873A CN202210741935.XA CN202210741935A CN115129873A CN 115129873 A CN115129873 A CN 115129873A CN 202210741935 A CN202210741935 A CN 202210741935A CN 115129873 A CN115129873 A CN 115129873A
- Authority
- CN
- China
- Prior art keywords
- comment
- text
- attribute
- representation
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种评论情感分析方法及相关装置,首先,对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;然后,将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征;接着,对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;最后,将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。可以提升对评论进行情感分析的效率和准确性。
Description
技术领域
本申请涉及细粒度情感分析技术领域,特别是一种评论情感分析方法及相关装置。
背景技术
目前,有越来越多的用户会在社交媒体上发表自己对某类产品的使用体验,基于这些舆情大数据,如何进行有效的分析整合,对产品的稳定运营至关重要。不同于整体的情感分析,基于属性的情感分析粒度更细,根据评论信息分析出评论中所提到的属性及对该属性是正向或负向的评价,有助于了解用户群体对产品各个属性的喜好程度,从而进行针对性的改进。现有的方法大都使用机器学习或深度学习的方法进行分析,效率和准确性有待提升。
发明内容
有鉴于此,本申请提供了一种评论情感分析方法及相关装置,可以提升评论情感分析的效率和准确性。
第一方面,本申请实施例提供了一种评论情感分析方法,所述方法包括:
对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;
将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;
对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;
将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。
第二方面,本申请实施例提供一种评论情感分析装置,所述装置包括:
第一预处理单元,用于对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;
比对单元,用于将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;
第二预处理单元,用于对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;
情感分析单元,用于将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。
第三方面,本申请实施例提供了一种电子设备,包括处理器、通信模块、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可见,通过上述评论情感分析方法及相关装置,首先,对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;然后,将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;接着,对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;最后,将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。可以提升对评论进行情感分析的效率和准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种评论情感分析方法的系统架构图;
图2为本申请实施例提供的一种评论情感分析方法的流程示意图;
图3为本申请实施例提供的另一种评论情感分析方法的流程示意图;
图4为本申请实施例提供的一种电子设备的结构示意图;
图5为本申请实施例提供的一种评论情感分析装置的功能单元组成框图;
图6为本申请实施例提供的另一种评论情感分析装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式,以实现设备间的通信,本申请实施例对此不做任何限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面对本申请的背景技术及相关术语进行说明。
背景技术相关:
细粒度情感分析(Aspect Based Sentiment Analysis,ABSA),传统做法会将该任务划分为两个子任务:属性识别,挖掘句子中涉及的属性;属性情感分析,基于每个属性进行分析,识别它们表现出的情感极性。一般可以采用机器学习或深度学习的方法,但是这种传统的方法,系统复杂程度较高,整个阶段有较高的级联错误风险,另外,有些属性可能未提及或隐式提及,无法直接抽取到属性词。
其中,也有通过将每个属性转换为阅读理解的问题,举例来说,比如“针对屏幕显示效果评价是怎么样的”,这样转换成问答对的方式,通过命名实体识别模型如MRC模型来识别这个问答对的正负面情感的答案,但是这种方法的效率较低,在属性较多时需要计算多次才能得到结果。
基于上述技术问题,本申请实施例提供了一种评论情感分析方法及相关装置,可以识别隐式的属性词,减少级联错误,并且能处理大规模的属性,支持属性的灵活扩展,其效率和准确性较高。
下面先结合图1对本申请实施例中一种评论情感分析方法的系统架构进行说明,图1为本申请实施例提供的一种评论情感分析方法的系统架构,该系统架构100包括服务器110,其中该服务器110中搭载了匹配模型111和情感分类模型112,该服务器110接收来自各个渠道的针对目标产品的评论文本,然后通过匹配模型111确定与评论文本最可能相关的候选属性,最后通过情感分类模型112确定候选属性中与评论文本真实相关的候选属性作为目标属性,并确定目标属性的情感极性。
在一种可能的实施例中,该服务器110还可以搭载有效性分类模型113,该有效性分类模型113用于对接收到的评论文本进行有效性分析,筛除无效的评论文本。
其中,上述匹配模型111、情感分类模型112和有效性分类模型113都可以利用训练数据训练得到,该训练数据为经过标注的训练用文本,在标注时可以至少从以下维度进行标注:
评论有效性:整段评论文本是否为有效评论。
评价属性:文本中的属性相关的词或词组。
评价词:对属性的评价词或词组。
属性对:将评价属性和评价词配对标注;对于评价属性未出现的,可标为null。
属性类别标签:根据实体对结合标签体系,进行预定义的多级标签映射。
情感极性:针对每个属性对标注负面和非负面情感极性。
可以理解的是,目标产品存在预设的属性类别标签,这些预设的属性类别标签以及每个属性类别标签下的评价属性和评价词可以组成预设属性表征矩阵,该预设属性表征矩阵内置在上述匹配模型111中。
举例来说,一个完整的标注示例如下:
其中,<asp-1>与</asp-1>标注之间的“运行”为评价属性,<term-1>与</term-1>标注之间的“快”为评价词,<term-2>与</term-2>标注之间的“贵”为评价词,其对应的评价属性为空,1表示该训练用文本为有效评论,0表示情感极性为正面,-1表示情感极性为负面。
可见,通过该细分维度标注的训练数据,可以使匹配模型111、情感分类模型112和有效性分类模型113的输出更加准确,提升对评论情感分析的效率和准确性。
下面结合图2对本申请实施例中的一种评论情感分析方法进行说明,图2为本申请实施例提供的一种评论情感分析方法的流程示意图,具体包括以下步骤:
步骤201,对评论文本进行第一预处理,得到原始评论表征。
其中,本申请实施例中的表征的含义为深度学习领域的术语representation,原始评论表征可以理解为评论文本的语义表示,在此不做赘述。
其中,所述评论文本用于指示用户对目标产品的评价,目标产品可以为电子产品等可以由用户在网络平台发表评论的产品。
其中,可以对所述评论文本进行编码处理,得到评论文本向量,然后对所述评论文本向量进行平均池化处理,得到所述原始评论表征。
在一种可能的实施例中,可以将评论文本向量输入类bert的编码器,对输出进行平均池化后聚合表示,得到原始评论表征,其中,上述类bert的编码器可以为BERT模型(Bidirectional Encoder Representations from Transformer)等,在此不做赘述。
可见,通过对评论文本进行第一预处理,得到原始评论表征,可以为后续的相似性比对提供可靠的参考。
步骤202,将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征。
其中,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集。
为便于理解,下面先对预设属性表征矩阵的构成进行说明,可以先获取目标产品对应的多级分类标签的预设描述文本,然后获取训练数据中每个所述多级分类标签下的至少一个评价对象文本和与所述评价对象文本对应的至少一个评价词文本,所述至少一个评价对象文本通过所述训练数据中的评价对象标签确定,所述与所述评价对象文本对应的至少一个评价词文本通过所述训练数据中的评价词标签确定,最后,将所述每个多级分类标签下的所述评价对象文本、所述评价词文本和所述预设描述文本进行拼接,并进行编码处理和平均池化处理,得到所述预设属性表征矩阵。
可见,通过选取训练数据中的描述信息拼接至预设描述文本,可以使得属性的表征更为完善,提升了原始评论文本与预设属性表征矩阵进行相似度比对时的准确性。
其中,可以将所述原始评论表征与所述预设属性表征矩阵中的每个所述预设属性表征进行相似度比对,以确定第一相似度序列,所述第一相似度序列从高到低排序,然后根据所述第一相似度序列选取至少一个预设属性表征作为所述至少一个候选属性表征。
在一个可能的实施例中,可以构建一个匹配模型,该匹配模型可以采用双塔结构,该匹配模型包括评论编码器,评论文本向量在输入该评论编码器后得到上述原始评论表征,然后将原始评论表征与离线保存在该匹配模型中的预设属性表征矩阵进行相似度比对,得到原始评论表征与每个预设属性表征的相似度距离,然后按照相似度距离由高到低的顺序进行排序得到第一相似度序列,最后,选取排名前几位的预设属性表征作为候选属性表征。
该匹配模型的训练过程可以采用对比训练的方式,即每个训练集由一个正例属性和随机抽取的N个负例属性组成,这样可以尽量拉近与正例属性的相似度距离而推远与负例属性的相似度距离,同时,为了保证高效性,训练的损失函数可以采用Margin RankingLoss,即
需要说明的是,候选属性表征的个数可以根据需求自行设定,选取的数量越多,召回率越准确,但后续计算量越大,举例来说,在手机领域一般有200种预定义的属性,此时选取前10个候选属性特征可以在保证相似度较高的同时后续情感分析的计算量也在较理想的范围。
可见,将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,可以提前选取与评论文本相关的属性大致范围,然后进行针对性地情感分析,可以提升对评论进行情感分析的效率。
步骤203,对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征。
其中,可以对所述评论文本和与所述至少一个候选属性表征对应的候选属性文本进行拼接后编码处理,得到所述目标评论特征。
在一个可能的实施例中,可以先将所有的候选属性表征转化为文本格式,即候选属性文本,然后将评论文本和候选属性文本都转化为向量形式,进行拼接,得到目标评论表征。
步骤204,将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性。
其中,所述目标情感极性包括负面和非负面,上述情感分类模型可以为执行三分类任务的分类模型,分类标签为{未提及,非负面,负面}。
具体的,可以将目标评论表征输入上述情感分类模型,对每个候选属性文本进行分类,将评论文本中未提及的候选属性表征设置未提及标签,将评论文本中提及的候选属性表征确定为目标属性表征,并确定目标属性表征对应的目标属性标签和目标情感极性,举例来说,当评论文本为“电池充电很快,但容易发热”时,最终确定的一个目标属性标签为“电池|充电速度”,对应的目标情感极性为“非负面”,另一个目标属性标签为“电池|发热”,对应的目标情感极性为“负面”,在此不再赘述。
需要说明的是,该情感分类模型可以通过以下方式训练得到,首先,确定训练数据的训练文本表征与所述预设属性表征矩阵中每个所述预设属性表征的第二相似度序列,所述第二相似度序列从低到高排序,然后,根据所述第二相似度序列确定至少一个负例属性表征,并将与所述至少一个负例属性表征一一对应的负例属性文本加入所述训练数据,最后,通过加入所述负例属性文本的训练数据对预设分类模型进行训练,得到所述情感分类模型。
在一个可能的实施例中,由于训练数据中只有预设属性的情感极性的标注,还需要针对每个训练样本动态生成未提及的属性,可以从该训练文本未提及的预设属性集合中随机采样来构成属性负例样本,将该属性负例样本补充至训练数据中,提升情感分类模型的输出准确性。
在一个可能的实施例中,还可以对每个训练样本进行属性匹配计算,即确定每个训练样本与预设属性表征矩阵中每个预设属性表征的第二相似度序列,选取相似度最差的前几个预设属性表征,并将选取的相似度最差的前几个预设属性表征对应的预设属性确定为属性负例样本,将该属性负例样本补充至训练数据中,提升情感分类模型的输出准确性,同时,由于计算了相似度,所以可以解决在预设属性集合较大时,选取的大部分属性都与该训练样本不相关,从而降低了分类难度,导致训练效果不佳的问题。
在一个可能的实施例中,情感分类模型可以为bert模型,具体的训练过程可以采用两段式分类方法,即将训练用评论文本及训练用属性描述分别作为Bert两个段segment1和segment2的输入,利用交叉注意力cross-attention的方式进行充分交互训练。训练损失函数一般采用交叉熵损失函数CrossEntropyLoss、FocalLoss损失函数或带weight参数的CrossEntropyLoss等,在此不做具体限定。
可见,通过将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,可以大大提升对评论文本情感分析的效率和准确性。
下面结合图3对本申请实施例提供的另一种评论情感分析方法进行说明,图3为本申请实施例提供的另一种评论情感分析方法的流程示意图,具体包括以下步骤:
步骤301,将评论文本输入有效性分类模型,确定所述评论文本的有效性。
其中,所述有效性分类模型为通过训练数据训练得到的模型,所述训练数据包括有效性标签,在所述评论文本无效时,删除所述评论文本;在所述评论文本有效时,执行步骤302。
具体的,有效性分类模型可以通过训练数据对预设二分类模型训练得到,由于训练数据从有效性维度进行了标注,所以可以将训练数据用于预设二分类模型的训练,在此不做赘述。
可见,将所述评论文本输入有效性分类模型,确定所述评论文本的有效性,可以排除大量的噪声评论,节省了计算资源,同时提升了单条评论文本的处理效率。
步骤302,对评论文本进行第一预处理,得到原始评论表征。
步骤303,将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征。
步骤304,对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征。
步骤305,将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性。
可见,通过上述评论情感分析方法,首先,对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;然后,将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;接着,对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;最后,将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。可以提升对评论进行情感分析的效率和准确性。
上述未详细说明的步骤可以参见图2中全部或部分方法的描述,在此不做赘述。
下面结合图4对本申请实施例中的一种电子设备进行说明,图4为本申请实施例提供的一种电子设备的结构示意图,如图4所示,该电子设备400包括处理器401、通信接口402和存储器403,所述处理器、通信接口和存储器相互连接,其中,电子设备400还可以包括总线404,处理器401、通信接口402和存储器403之间可以通过总线404相互连接,总线404可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。所述存储器403用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述图2、图4中所描述的全部或部分方法。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,下面结合图5对本申请实施例中的一种评论情感分析装置进行详细说明,图5为本申请实施例提供的一种评论情感分析装置的功能单元组成框图,该评论情感分析装置500包括:
第一预处理单元510,用于对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;
比对单元520,用于将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;
第二预处理单元530,用于对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;
情感分析单元540,用于将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。
可见,通过上述评论情感分析方法及相关装置,首先,对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;然后,将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;接着,对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;最后,将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。可以提升对评论进行情感分析的效率和准确性。
在采用集成的单元的情况下,下面结合图6对本申请实施例中的另一种评论情感分析装置600进行详细说明,所述评论情感分析装置600包括处理单元601和通信单元602,其中,所述处理单元601,用于执行如上述方法实施例中的任一步骤,且在执行诸如发送等数据传输时,可选择的调用所述通信单元602来完成相应操作。
其中,所述评论情感分析装置600还可以包括存储单元603,用于存储程序代码和数据。所述处理单元601可以是处理器,所述通信单元602可以是无线通信模块,存储单元603可以是存储器。
所述处理单元601具体用于:
对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;
将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;
对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;
将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。
可见,通过上述评论情感分析方法及相关装置,首先,对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;然后,将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;接着,对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;最后,将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。可以提升对评论进行情感分析的效率和准确性。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种评论情感分析方法,其特征在于,所述方法包括:
对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;
将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;
对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;
将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。
2.根据权利要求1所述的方法,其特征在于,所述对评论文本进行第一预处理,得到原始评论表征,包括:
对所述评论文本进行编码处理,得到评论文本向量;
对所述评论文本向量进行平均池化处理,得到所述原始评论表征。
3.根据权利要求1所述的方法,其特征在于,将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,包括:
将所述原始评论表征与所述预设属性表征矩阵中的每个所述预设属性表征进行相似度比对,以确定第一相似度序列,所述第一相似度序列从高到低排序;
根据所述第一相似度序列选取至少一个预设属性表征作为所述至少一个候选属性表征。
4.根据权利要求1所述的方法,其特征在于,所述对所述评论文本和与所述至少一个候选属性表征对应的候选属性文本进行第二预处理,得到目标评论表征,包括:
对所述评论文本和与所述至少一个候选属性表征对应的候选属性文本进行拼接后编码处理,得到所述目标评论特征。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述多级分类标签的预设描述文本;
获取训练数据中每个所述多级分类标签下的至少一个评价对象文本和与所述评价对象文本对应的至少一个评价词文本,所述至少一个评价对象文本通过所述训练数据中的评价对象标签确定,所述与所述评价对象文本对应的至少一个评价词文本通过所述训练数据中的评价词标签确定;
将所述每个多级分类标签下的所述评价对象文本、所述评价词文本和所述预设描述文本进行拼接,并进行编码处理和平均池化处理,得到所述预设属性表征矩阵。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定训练数据的训练文本表征与所述预设属性表征矩阵中每个所述预设属性表征的第二相似度序列,所述第二相似度序列从低到高排序;
根据所述第二相似度序列确定至少一个负例属性表征,并将与所述至少一个负例属性表征一一对应的负例属性文本加入所述训练数据;
通过加入所述负例属性文本的训练数据对预设分类模型进行训练,得到所述情感分类模型。
7.根据权利要求1所述的方法,其特征在于,所述对评论文本进行第一预处理,得到原始评论表征之前,所述方法还包括:
将所述评论文本输入有效性分类模型,确定所述评论文本的有效性,所述有效性分类模型为通过训练数据训练得到的模型,所述训练数据包括有效性标签;
在所述评论文本无效时,删除所述评论文本;
在所述评论文本有效时,执行所述对评论文本进行第一预处理,得到评论表征的步骤。
8.一种评论情感分析装置,其特征在于,所述装置包括:
第一预处理单元,用于对评论文本进行第一预处理,得到原始评论表征,所述评论文本用于指示用户对目标产品的评价;
比对单元,用于将所述原始评论表征与预设属性表征矩阵进行相似度比对,以确定至少一个候选属性表征,所述预设属性表征矩阵包括多个预设属性表征,所述多个预设属性表征为所述目标产品的多级分类标签所对应的表征,所述至少一个候选属性表征为所述多个预设属性表征的子集;
第二预处理单元,用于对所述评论文本和与所述至少一个候选属性表征一一对应的候选属性文本进行第二预处理,得到目标评论表征;
情感分析单元,用于将所述目标评论表征输入情感分类模型,确定所述评论文本对应的目标属性标签以及目标情感极性,所述目标情感极性包括负面和非负面。
9.一种电子设备,其特征在于,包括处理器,所述处理器用于执行如权利要求1-8任一项所述的方法中的步骤的指令。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被基带芯片执行时使所述基带芯片执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210741935.XA CN115129873A (zh) | 2022-06-28 | 2022-06-28 | 评论情感分析方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210741935.XA CN115129873A (zh) | 2022-06-28 | 2022-06-28 | 评论情感分析方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115129873A true CN115129873A (zh) | 2022-09-30 |
Family
ID=83379289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210741935.XA Pending CN115129873A (zh) | 2022-06-28 | 2022-06-28 | 评论情感分析方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115129873A (zh) |
-
2022
- 2022-06-28 CN CN202210741935.XA patent/CN115129873A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN112733042B (zh) | 推荐信息的生成方法、相关装置及计算机程序产品 | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN111125354A (zh) | 文本分类方法及装置 | |
WO2021218027A1 (zh) | 智能面试中专业术语的提取方法、装置、设备及介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN112214576B (zh) | 舆情分析方法、装置、终端设备及计算机可读存储介质 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN110909768B (zh) | 一种标注数据获取方法及装置 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 | |
CN114416986A (zh) | 一种文本数据清洗方法、装置及存储介质 | |
CN110929499B (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN115238676A (zh) | 招标需求热点识别方法、装置、存储介质及电子设备 | |
CN115481031A (zh) | 南向网关检测方法、装置、设备及介质 | |
CN115129873A (zh) | 评论情感分析方法及相关装置 | |
CN114064906A (zh) | 情感分类网络训练方法以及情感分类方法 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN113569741A (zh) | 图像试题的答案生成方法、装置、电子设备及可读介质 | |
CN113505293A (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN115270799B (zh) | 命名实体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |