CN112199500A - 针对评论的情感倾向识别方法、装置及电子设备 - Google Patents

针对评论的情感倾向识别方法、装置及电子设备 Download PDF

Info

Publication number
CN112199500A
CN112199500A CN202011065250.5A CN202011065250A CN112199500A CN 112199500 A CN112199500 A CN 112199500A CN 202011065250 A CN202011065250 A CN 202011065250A CN 112199500 A CN112199500 A CN 112199500A
Authority
CN
China
Prior art keywords
emotional tendency
classification
emotional
tendency
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011065250.5A
Other languages
English (en)
Other versions
CN112199500B (zh
Inventor
张思睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cheetah Mobile Technology Co Ltd
Original Assignee
Beijing Cheetah Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cheetah Mobile Technology Co Ltd filed Critical Beijing Cheetah Mobile Technology Co Ltd
Priority to CN202011065250.5A priority Critical patent/CN112199500B/zh
Publication of CN112199500A publication Critical patent/CN112199500A/zh
Application granted granted Critical
Publication of CN112199500B publication Critical patent/CN112199500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了针对评论的情感倾向识别方法、装置及电子设备,应用于自然语言处理技术领域。该方法包括:获取待识别的目标评论;基于预先训练的多个情感倾向分类模型,分别对所述目标评论进行情感分类,得到多个情感分类结果;其中,每一情感倾向分类模型为基于样本评论所训练得到的、用于对评论进行情感倾向分类的模型;对所得到的多个情感分类结果进行融合处理,得到所述目标评论的融合分类结果;基于所述目标评论的融合分类结果,确定所述目标评论所表征的情感倾向。通过本方案,可以识别针对产品的评论所表征的情感倾向。

Description

针对评论的情感倾向识别方法、装置及电子设备
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种针对评论的情感倾向识别方法、装置及电子设备。
背景技术
随着互联网技术的快速发展,网络上产生大量针对产品的评论,如应用商店中针对软件应用的评论、电商平台中针对商品的评论等。一般而言,针对产品的评论中往往表征用户对产品或褒或贬的情感倾向,而获取用户对产品的情感倾向有利于对产品进行改进。
因此,如何识别针对产品的评论所表征的情感倾向,是亟需解决的技术问题。
发明内容
本发明实施例的目的在于提供针对评论的情感倾向识别方法,以识别针对产品的评论所表征的情感倾向。具体技术方案如下:
第一方面,本发明实施例提供了一种针对评论的情感倾向识别方法,所述方法包括:
获取待识别的目标评论;
基于预先训练的多个情感倾向分类模型,分别对所述目标评论进行情感分类,得到多个情感分类结果;其中,每一情感倾向分类模型为基于样本评论所训练得到的、用于对评论进行情感倾向分类的模型;
对所得到的多个情感分类结果进行融合处理,得到所述目标评论的融合分类结果;
基于所述目标评论的融合分类结果,确定所述目标评论所表征的情感倾向。
可选地,所述情感分类结果包括:每一种情感倾向对应的置信度;
所述对所得到的多个情感分类结果进行融合处理,得到所述目标评论的融合分类结果,包括:
针对每一种情感倾向,将多个情感分类结果中该种情感倾向的置信度进行取平均,得到该种情感倾向对应的融合置信度;
或者,
针对每一种情感倾向,利用各个情感倾向分类模型对应的权重,对多个情感分类结果中该种情感倾向的置信度进行加权求和,得到该种情感倾向对应的融合置信度。
可选地,所述基于所述目标评论的融合分类结果,确定所述目标评论所表征的情感倾向,包括:
从多种情感倾向对应的融合置信度中,选取最高的融合置信度;
确定所述最高的融合置信度对应的情感倾向,作为所述目标评论所表征的情感倾向。
可选地,所述多个情感倾向分类模型为:多个不同类型的情感倾向分类模型;
所述多个不同类型的情感倾向分类模型为以下情感倾向分类模型中的至少两种:
基于支持向量机SVM分类模型训练的情感倾向分类模型;
基于逻辑回归LR分类模型训练的情感倾向分类模型;
基于梯度提升树GBDT分类模型训练的情感倾向分类模型。
可选地,所述基于预先训练的多个情感倾向分类模型,分别对所述目标评论进行情感分类,得到多个情感分类结果,包括:
确定所述目标评论中所包含的关键分词,其中,所述关键分词为用于描述情感倾向的词汇;
生成所述关键分词的词向量,并基于所述关键分词的词向量,生成表示所述目标评论的句向量;
将所述句向量分别输入至预先训练的多个情感倾向分类模型,得到多个情感分类结果。
可选地,所述确定所述目标评论中所包含的关键分词,包括:
对所述目标评论进行文本分割,得到所述目标评论的多个分词;
从所得到的多个分词中,确定包含于预先建立的关键词词典的分词,作为关键分词;其中,关键词词典为包含用于描述情感倾向的词汇的词典。
可选地,所述基于所述关键分词的词向量,生成表示所述目标评论的句向量,包括:
基于所述关键分词的词向量和非关键分词的词向量,计算所述待分类评论的句向量,其中,所述非关键分词为所述目标评论所包含的分词中除所述关键分词以外的分词。
可选地,所述基于所述关键分词的词向量和非关键分词的词向量,计算所述待分类评论的句向量,包括:
计算所述目标评论的词长度与所述关键分词的词向量的乘积,得到第一词向量;对所述第一词向量和所述非关键分词的词向量进行加权平均,以生成所述目标评论的句向量;或者,
计算预设倍数、所述目标评论的词长度和所述关键分词的词向量三者的乘积,得到第二词向量;对所述第二词向量和所述非关键分词的词向量进行加权平均,以生成所述目标评论的句向量。
第二方面,本发明实施例提供了一种针对评论的情感倾向识别装置,所述装置包括:
评论获取模块,用于获取待识别的目标评论;
评论分类模块,用于基于预先训练的多个情感倾向分类模型,分别对所述目标评论进行情感分类,得到多个情感分类结果;其中,每一情感倾向分类模型为基于样本评论所训练得到的、用于对评论进行情感倾向分类的模型;
结果融合模块,用于对所得到的多个情感分类结果进行融合处理,得到所述目标评论的融合分类结果;
倾向确定模块,用于基于所述目标评论的融合分类结果,确定所述目标评论所表征的情感倾向。
可选地,所述情感分类结果包括:每一种情感倾向对应的置信度;
所述结果融合模块,具体用于针对每一种情感倾向,将多个情感分类结果中该种情感倾向的置信度进行取平均,得到该种情感倾向对应的融合置信度;或者,针对每一种情感倾向,利用各个情感倾向分类模型对应的权重,对多个情感分类结果中该种情感倾向的置信度进行加权求和,得到该种情感倾向对应的融合置信度。
可选地,所述倾向确定模块,具体用于从多种情感倾向对应的融合置信度中,选取最高的融合置信度,并且确定所述最高的融合置信度对应的情感倾向,作为所述目标评论所表征的情感倾向。
可选地,所述多个情感倾向分类模型为:多个不同类型的情感倾向分类模型;
所述多个不同类型的情感倾向分类模型为以下情感倾向分类模型中的至少两种:
基于支持向量机SVM分类模型训练的情感倾向分类模型;
基于逻辑回归LR分类模型训练的情感倾向分类模型;
基于梯度提升树GBDT分类模型训练的情感倾向分类模型。
可选地,所述评论分类模块,包括:
分词确定子模块,用于确定所述目标评论中所包含的关键分词,其中,所述关键分词为用于描述情感倾向的词汇;
向量生成子模块,用于生成所述关键分词的词向量,并基于所述关键分词的词向量,生成表示所述目标评论的句向量;
向量输入子模块,用于将所述句向量分别输入至预先训练的多个情感倾向分类模型,得到多个情感分类结果。
可选地,所述分词确定子模块,具体用于对所述目标评论进行文本分割,得到所述目标评论的多个分词,并且从所得到的多个分词中,确定包含于预先建立的关键词词典的分词,作为关键分词;其中,关键词词典为包含用于描述情感倾向的词汇的词典。
可选地,所述向量生成子模块,包括:
向量生成单元,用于基于所述关键分词的词向量和非关键分词的词向量,计算所述待分类评论的句向量,其中,所述非关键分词为所述目标评论所包含的分词中除所述关键分词以外的分词。
可选地,所述向量生成单元,具体用于计算所述目标评论的词长度与所述关键分词的词向量的乘积,得到第一词向量;对所述第一词向量和所述非关键分词的词向量进行加权平均,以生成所述目标评论的句向量;或者,计算预设倍数、所述目标评论的词长度和所述关键分词的词向量三者的乘积,得到第二词向量;对所述第二词向量和所述非关键分词的词向量进行加权平均,以生成所述目标评论的句向量。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所提供的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所提供的方法步骤。
本发明实施例有益效果:
本发明实施例所提供的针对评论的情感倾向识别方法中,获取待识别的目标评论;基于预先训练的多个情感倾向分类模型,分别对目标评论进行情感分类,得到多个情感分类结果;其中,每一情感倾向分类模型为基于样本评论所训练得到的、用于对评论进行情感倾向分类的模型;对所得到的多个情感分类结果进行融合处理,得到目标评论的融合分类结果;基于目标评论的融合分类结果,确定目标评论所表征的情感倾向。由于可以通过多个情感倾向分类模型对目标评论进行情感分类,并进一步的对所得到的多个情感分类结果进行融合处理,从而可以基于融合后的融合分类结果确定出目标评论所表征的情感倾向。可见,通过本方案,可以识别针对产品的评论所表征的情感倾向。
另外,目标评论所表征的情感倾向是基于多个情感倾向分类模型所得到的,从而可以避免基于单一情感倾向分类模型对目标评论进行情感分类出错,导致最终所的得到的情感倾向不准确的情况的发生,从而进一步的可以提高识别情感倾向的准确度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明一个实施例提供的针对评论的情感倾向识别方法的流程图;
图2为本发明一个实施例提供的针对评论的情感倾向识别方法的另一流程图;
图3为本发明一个实施例提供的情感倾向分类模型训练过程示意图;
图4为本发明一个实施例提供的针对评论的情感倾向识别装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了识别出针对产品的评论所表征的情感倾向,本发明实施例提供了针对评论的情感倾向识别方法、装置及电子设备。
下面首先对本发明实施例所提供的一种针对评论的情感倾向识别方法进行介绍。
其中,本发明实施例所提供的一种针对评论的情感倾向识别方法应用于电子设备。在具体应用中,该电子设备可以为服务器,也可以为智能手机、平板电脑等终端设备。
在本发明的一个实施例中,提供一种针对评论的情感倾向识别方法,如图1所示,该方法包括以下步骤:
S101:获取待识别的目标评论。
其中,当需要对已发布的产品进行舆情分析时,电子设备可以从产品的评论界面获取针对产品的目标评论。例如:产品为软件应用时,从提供该软件应用下载服务的应用商店展示的该应用软件的评论页中,获取针对该软件应用的目标评论;又如,产品为商品时,从提供该商品购买服务的电商平台展示的该商品的评论页中,获取针对该商品的目标评论。
上述目标评论可以为评论界面中用户发表的任意评论,也可以为对评论界面中用户发表的评论进行筛选后的评论,具体的筛选规则可以根据实际需求确定,如筛选出包含特定词汇的评论,进而将筛选出的评论作为目标评论。
S102:基于预先训练的多个情感倾向分类模型,分别对目标评论进行情感分类,得到多个情感分类结果;其中,每一情感倾向分类模型为基于样本评论所训练得到的、用于对评论进行情感倾向分类的模型。
其中,在对目标评论进行情感分类前,可以基于样本评论训练多个情感倾向分类模型。每一情感倾向分类模型所能够输出的情感倾向的种类为多种,且多个情感倾向分类模型对应相同的情感倾向。其中,该多种情感倾向可以根据实际情况设定,示例性的,多种情感倾向可以包括满意和不满意两种情感倾向;或者,多种情感倾向可以包括非常满意、满意、不满意和非常不满意四种情感倾向。
在一种实现方式中,关于情感倾向分类模型的训练方式,可以包括:
获取预先收集的用户针对产品的多个样本评论,以及每一样本评论的标定内容;其中,每一样本评论的标定内容用于表征该样本评论所表征的情感倾向,且标定内容可以通过人工等方式确定得到;
以每一样本评论和标定内容作为训练数据,对初始的情感倾向分类模型进行训练,得到训练完成的情感倾向分类模型。
上述多个样本评论可以为针对同类产品的多个样本评论。收集样本评论的方式可以存在多种,示例性的,通过爬虫程序爬取不同产品评论页所产生评论,作为样本评论,或者,从服务端中所存储的针对产品的评论数据库中获取评论,作为作为样本评论。
具体而言,以每一样本评论和标定内容作为训练数据,对初始的情感倾向分类模型进行训练的过程可以包括:将每一样本评论的句向量输入至初始的情感倾向分类模型,得到该样本评论的情感倾向预测结果;基于各个样本评论的情感倾向预测结果和标定内容的差异,计算损失值;若损失值小于预定损失阈值,则判定该情感倾向分类模型收敛,得到训练完成的情感倾向分类模型,若损失值不小于预定损失值时,调节所述情感倾向分类模型的网络参数,并返回将每一样本评论的句向量输入至初始的情感倾向分类模型,得到该样本评论的情感倾向预测结果的步骤,从而对该情感倾向分类模型进行继续训练。其中,关于样本评论的句向量的生成方式,可以参照后续的关于目标评论的句向量的生成方式,在此不做赘述。
上述多个情感倾向分类模型可以为多个同一类型的情感倾向分类模型,也可以为多个不同类型的情感倾向分类模型,还可以为既包含多个同一类型的情感倾向分类模型,也包含多个不同类型的情感倾向分类模型。
示例性的,在上述多个情感倾向分类模型为多个不同类型的情感倾向分类模型的情况下,上述多个不同类型的情感倾向分类模型为以下情感倾向分类模型中的至少两种:
基于SVM(Support Vector Machine,支持向量机)分类模型训练的情感倾向分类模型;
基于LR(Logistic Regression,逻辑回归)分类模型训练的情感倾向分类模型;
基于GBDT(Gradient Boosting Decison Tree,梯度提升树)分类模型训练的情感倾向分类模型。
上述每个情感倾向分类模型输出的情感分类结果可以为确定一种情感倾向,也可以是多个情感倾向的置信度。
S103:对所得到的多个情感分类结果进行融合处理,得到目标评论的融合分类结果。
其中,为了提高情感倾向识别的准确度,可以将多个情感倾向分类模型输出的情感分类结果进行融合处理,使得到的融合分类结果可以更全面、准确。
上述多个情感分类结果具体的融合方式可以与情感分类结果的具体形式相关。如在每一情感倾向分类模型输出的情感分类结果为确定的一种情感倾向的情况下,其融合方式可以是从多个情感倾向分类模型输出的情感倾向中票选出出现次数最多的情感倾向,作为融合分类结果。而当每一情感倾向分类模型输出的情感分类结果为多个情感倾向的置信度的情况下,可以基于融合每个情感倾向的置信度,得到融合分类结果。
S104:基于目标评论的融合分类结果,确定目标评论所表征的情感倾向。
其中,在融合分类结果为确定的情感倾向的情况下,该情感倾向即为目标评论所表征的情感倾向。在融合分类结果为多种情感倾向的置信度的情况下,则可以根据每中情感倾向的置信度确定出目标评论所表征的情感倾向。
本发明实施例所提供方案中,由于可以通过多个情感倾向分类模型对目标评论进行情感分类,并进一步的对所得到的多个情感分类结果进行融合处理,从而可以基于融合后的融合分类结果确定出目标评论所表征的情感倾向。可见,通过本方案,可以识别针对产品的评论所表征的情感倾向。
另外,目标评论所表征的情感倾向是基于多个情感倾向分类模型所得到的,从而可以避免基于单一情感倾向分类模型对目标评论进行情感分类出错,导致最终所的得到的情感倾向不准确的情况的发生,从而进一步的可以提高识别情感倾向的准确度。
可选地,在本发明的另一实施例中,当情感分类结果包括每一种情感倾向对应的置信度的情况下,上述的S103可以按照以下两种方式中的一种方式实现:
第一种方式:针对每一种情感倾向,将多个情感分类结果中该种情感倾向的置信度进行取平均,得到该种情感倾向对应的融合置信度。
本方式中,可以将每一情感倾向分类模型得到的同一种情感倾向的置信度相加,得到每一种情感倾向的总置信度,进而可以除以情感倾向分类模型的数量,得到每一种情感倾向的置信度平均值,将其作为融合置信度。
示例性的,多个情感倾向分类模型包括情感倾向分类模型A和感倾向分类模型B,情感分类结果包含两种情感倾向“满意”和“不满意”。情感倾向分类模型A输出的“满意”置信度为80%,输出的“不满意”置信度为20%,而情感倾向分类模型B输出的“满意”置信度为60%,输出的“不满意”置信度为40%。针对“满意”而言,其置信度=(80%+60%)/2=70%;针对“不满意”而言,其置信度=(20%+40%)/2=30%。第二种方式:针对每一种情感倾向,利用各个情感倾向分类模型对应的权重,对多个情感分类结果中该种情感倾向的置信度进行加权求和,得到该种情感倾向对应的融合置信度。
本方式中,每一情感倾向分类模型预先被配置有对应的权重,该权重表示在多个情感倾向分类模型该情感倾向分类模型的所输出结果的相对准确率。
在每一情感倾向分类模型输出情感分类结果后,针对每一种情感倾向的置信度,按照各情感倾向分类模型的权重,进行加权求和,作为该情感倾向对应的融合置信度。
示例性的,多个情感倾向分类模型包括情感倾向分类模型A和感倾向分类模型B,其中,感倾向分类模型A的权重为0.4,感倾向分类模型B的权重为0,6。情感分类结果包含两种情感倾向“满意”和“不满意”。情感倾向分类模型A输出的“满意”置信度为80%,输出的“不满意”置信度为20%,而情感倾向分类模型B输出的“满意”置信度为60%,输出的“不满意”置信度为40%。针对“满意”而言,其置信度=0.4×80%+0.6×60%=68%;针对“不满意”而言,其置信度=0.4×20%+0.6×40%=32%。
其中,每一情感倾向分类模型预先被配置有对应的权重可以是结合经验和需求确定的,也可以在训练各情感倾向分类模型时,基于训练数据建立各情感倾向分类模型的多元多维线性回归模型,通过各训练数据不断修正各情感倾向分类模型的权重,进而使得各情感倾向分类模型的权重更准确,提高了最终融合置信度的准确度。
示例性的,存在情感倾向分类模型A、情感倾向分类模型B和情感倾向分类模型C,原始的多元多维线性回归模型可以表示为:
k1x1+k2x2+k3x3=P
其中,k1表示情感倾向分类模型A的权重,k2表示情感倾向分类模型B的权重、k3表示情感倾向分类模型C的权重,x1表示情感倾向分类模型A输出情感倾向的置信度,x2表示情感倾向分类模型B输出情感倾向的置信度、x3表示情感倾向分类模型C输出情感倾向的置信度,其中,P表示每一次样本评论的标定内容。在训练各情感倾向分类模型时,每输入一个样本评论,情感倾向分类模型A、情感倾向分类模型B和情感倾向分类模型C分别输出x1、x2和x3,而P为该样本评论的标定内容,也是已知的,因此,可以基于多次的训练不断修正k1、k2和k3,使得各情感倾向分类模型的权重更准确,提高了最终融合置信度的准确度。
另外,当情感分类结果包括每一种情感倾向对应的置信度的情况下,上述步骤S104可以包括如下步骤:
从多种情感倾向对应的融合置信度中,选取最高的融合置信度;确定最高的融合置信度对应的情感倾向,作为目标评论所表征的情感倾向。
当融合置信度为多种情感倾向的置信度时,可以从多种情感倾向中选取融合置信度中置信度最高的情感倾向。该选取出的情感倾向则为综合多个情感倾向分类模型所得到的目标评论所表征的情感倾向。
本实施例所提供方案中,可以将多个情感倾向分类模型输入的各情感倾向的置信度进行融合,使得融合后的融合置信度的更加准确,进而后续根据融合置信度确定出的情感倾向也更准确。
基于图1的实施例,如图2所示,在本发明的另一实施例中,上述的S102可以包括如下步骤:
S102A:确定目标评论中所包含的关键分词,其中,关键分词为用于描述情感倾向的词汇;
其中,在确定关键分词之前,可以对目标评论进行数据处理,以去除目标评论中的表情等特殊字符。
上述关键分词为用于描述情感倾向的词汇,如“很好”、“不错”、“喜欢”、“很差”、“太差了”、“不喜欢”等。
一句评论所表征的情感倾向在一定程度是往往是基于该评论中所包含的关键分词所确定的,如当目标评论中出现“很好”、“不错”、“喜欢”等词汇时,很大概率该目标评论所表征的情感倾向是“满意”的,反之,当目标评论中出现“很差”、“太差了”、“不喜欢”,则该目标评论所表征的情感倾向是“不满”。因此,为了提高情感倾向识别的准确度,可以基于目标评论中关键分词进行确定。
为了准确的确定出目标评论中所包含的关键分词,预先建立关键词典,其中关键词典中包含表示情感倾向的分词。关键词典可以基于结巴分词自定义词典进行建立。例如,将结巴分词自定义词典中自定义关键词部分作为关键词典。
当获取到目标评论后,可以查找出目标评论中出现在关键词词典中的分词,即为目标评论的关键分词。
S102B:生成关键分词的词向量,并基于关键分词的词向量,生成表示目标评论的句向量;
其中,生成的词向量的维度可以基于经验和场景进行确定。在预先确定出词向量的维度后,可以基于样本集对词向量模型进行训练,使得所得到的词向量模型可以适用于当前为评论中关键分词生成词向量的场景。
当需要生成关键分词的词向量时,将关键分词输入至预先训练的词向量模型,从而得到该关键分词的词向量。上述词向量模型可以为word2vec词向量模型,也可以为GloVe(Global vectors for word representation,字表示的全局向量)词向量模型。选择何种模型可以集合实际需求确定。
在生成关键分词的词向量后,可以基于该词向量生成表示目标评论的句向量,其中,表示目标评论的句向量和关键分词的词向量的维度相同。
S102C:将句向量分别输入至预先训练的多个情感倾向分类模型,得到多个情感分类结果。
将生成的句向量分别作为输入参数输入预先训练的多个情感倾向分类模型,以对目标评论进行情感分类。
本实施例所提供方案中,通过表示情感倾向的关键分词词向量生成表示目标评论的句向量,可以使生成的句向量与情感倾向关联,从而使情感倾向分类模型得到的情感分类结果更加准确。
可选地,在本发明的另一实施例中,上述的S102A可以包括如下步骤:
对目标评论进行文本分割,得到目标评论的多个分词;从所得到的多个分词中,确定包含于预先建立的关键词词典的分词,作为关键分词;其中,关键词词典为包含用于描述情感倾向的词汇的词典。
其中,可以先使用通用词典对目标评论进行文本分割,得到组成目标评论的多个分词。为了从所得到的分词筛选出表示情感倾向的分词,可以使用预先建立的包含用于描述情感倾向的词汇的关键词典,对得到的多个分词进行筛选,将包含于关键词词典的分词,作为关键分词。
本实施例所提供方案中,可以先对目标评论进行文本分割,再从分割得到的多个分词确定关键分词,通过了一种从目标评论中确定出表示情感倾向的关键分词的方案,为后续生成目标评论的句向量提供了基础,并使生成的句向量与情感倾向关联,从而使情感倾向分类模型得到的情感分类结果更加准确。
可选地,在本发明的另一实施例中,上述的S102B可以包括如下步骤:
基于关键分词的词向量和非关键分词的词向量,计算待分类评论的句向量,其中,非关键分词为目标评论所包含的分词中除关键分词以外的分词。
其中,可以预先构建出引入结巴分词自定义词典的关键词词典,该关键词词典中包含自定义的关键分词,该自定义的关键分词可以是结合实际所使用的场景、经验以及样本集进行确定,同时,结巴分词自定义词典中还存在通用词典。当获取到目标评论后,可以筛选出包含于结巴分词自定义词典中的关键分词,和包含于通用词典中的非关键分词。
进而按照相同的维度生成关键分词的词向量和非关键分词的词向量,可以对关键分词的词向量和非关键分词的词向量进行向量间的运行,以计算待分类评论的句向量。
本实施例所提供方案中,可以基于关键分词的词向量和非关键分词的词向量计算待分类评论的句向量,可以使生成的词向量所携带的信息更全面,使后续基于句向量进行情感分类所得到的情感分类结果更准确。
可选的,在可以按照以下两种方式中的一种方式实现上述步骤:
第一种方式:计算目标评论的词长度与关键分词的词向量的乘积,得到第一词向量;对第一词向量和非关键分词的词向量进行加权平均,以生成目标评论的句向量。
本方式中,目标评论的词长度为目标评论所分割出分词的数量,即关键分词和非关键分词的数量和。通过词长度与关键分词的词向量相乘可以增强关键分词的词向量在句向量中的占比,避免关键分词携带的情感倾向被非关键分词所覆盖,使得后续进行情感分类更准确。
第二种方式:计算预设倍数、目标评论的词长度和关键分词的词向量三者的乘积,得到第二词向量;对第二词向量和非关键分词的词向量进行加权平均,以生成目标评论的句向量。
本方式中,通过预设倍数进一步提高了关键分词的词向量在句向量中的占比,进一步的提高了情感分类的准确度。其中,预设倍数可以基于实际需求和经验进行确定,如可以为3倍。
可选地,在本发明的另一实施例中,如图3所示,提供一种情感倾向分类模型训练过程示意图,包括如下过程:
样本评论集合:获取样本评论集合,对样本评论集合中每一样本评论进行数据处理,以去除每一样本评论中的特殊字符,进而确定各样本评论中的关键分词和非关键分词,得到包含各样本评论中的关键分词和非关键分词的词汇集合;
词向量训练:通过词汇集合对word2vec词向量模型进行训练,具体的,基于词汇集合建立word2vec词向量模型的词向量空间,在词向量空间不同的词汇使用不同的词向量表示,且语义相近的词汇所使用的词向量的也接近。进而在该词向量空间中生成每个关键分词和非关键分词的词向量;
句向量生成:针对每一样本评论,对该样本评论中的关键分词的词向量和非关键分词的词向量进行加权平均,得到该条样本评论的句向量;
模型训练:将生成的句向量分别输入基于SVM分类模型训练的情感倾向分类模型、基于LR分类模型训练的情感倾向分类模型和基于GBDT分类模型训练的情感倾向分类模型,分别得到三份预测结果;
多元多维线性回归模型生成:将每一情感倾向分类模型输出的情感倾向置信度输入至多元多维线性回归模型,根据各情感倾向分类模型输出的情感倾向置信度和样本评论的标定内容计算多元多维线性回归模型中对应情感倾向分类模型的权重;
验证:在训练完情感倾向分类模型的训练后,还可以对情感倾向分类模型使用验证集进行验证。
相应于上述实施例所提供的针对评论的情感倾向识别方法,如图4所示,本发明实施例还提供了一种针对评论的情感倾向识别装置,装置包括:
评论获取模块401,用于获取待识别的目标评论;
评论分类模块402,用于基于预先训练的多个情感倾向分类模型,分别对目标评论进行情感分类,得到多个情感分类结果;其中,每一情感倾向分类模型为基于样本评论所训练得到的、用于对评论进行情感倾向分类的模型;
结果融合模块403,用于对所得到的多个情感分类结果进行融合处理,得到目标评论的融合分类结果;
倾向确定模块404,用于基于目标评论的融合分类结果,确定目标评论所表征的情感倾向。
进一步的,情感分类结果包括:每一种情感倾向对应的置信度;
结果融合模块,具体用于针对每一种情感倾向,将多个情感分类结果中该种情感倾向的置信度进行取平均,得到该种情感倾向对应的融合置信度;或者,针对每一种情感倾向,利用各个情感倾向分类模型对应的权重,对多个情感分类结果中该种情感倾向的置信度进行加权求和,得到该种情感倾向对应的融合置信度。
进一步的,倾向确定模块,具体用于从多种情感倾向对应的融合置信度中,选取最高的融合置信度,并且确定最高的融合置信度对应的情感倾向,作为目标评论所表征的情感倾向。
进一步的,多个情感倾向分类模型为:多个不同类型的情感倾向分类模型;
多个不同类型的情感倾向分类模型为以下情感倾向分类模型中的至少两种:
基于支持向量机SVM分类模型训练的情感倾向分类模型;
基于逻辑回归LR分类模型训练的情感倾向分类模型;
基于梯度提升树GBDT分类模型训练的情感倾向分类模型。
进一步的,评论分类模块,包括:
分词确定子模块,用于确定目标评论中所包含的关键分词,其中,关键分词为用于描述情感倾向的词汇;
向量生成子模块,用于生成关键分词的词向量,并基于关键分词的词向量,生成表示目标评论的句向量;
向量输入子模块,用于将句向量分别输入至预先训练的多个情感倾向分类模型,得到多个情感分类结果。
进一步的,分词确定子模块,具体用于对目标评论进行文本分割,得到目标评论的多个分词,并且从所得到的多个分词中,确定包含于预先建立的关键词词典的分词,作为关键分词;其中,关键词词典为包含用于描述情感倾向的词汇的词典。
进一步的,向量生成子模块,包括:
向量生成单元,用于基于关键分词的词向量和非关键分词的词向量,计算待分类评论的句向量,其中,非关键分词为目标评论所包含的分词中除关键分词以外的分词。
进一步的,向量生成单元,具体用于计算目标评论的词长度与关键分词的词向量的乘积,得到第一词向量;对第一词向量和非关键分词的词向量进行加权平均,以生成目标评论的句向量;或者,计算预设倍数、目标评论的词长度和关键分词的词向量三者的乘积,得到第二词向量;对第二词向量和非关键分词的词向量进行加权平均,以生成目标评论的句向量。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现上述针对评论的情感倾向识别方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一针对评论的情感倾向识别方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一针对评论的情感倾向识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种针对评论的情感倾向识别方法,其特征在于,所述方法包括:
获取待识别的目标评论;
基于预先训练的多个情感倾向分类模型,分别对所述目标评论进行情感分类,得到多个情感分类结果;其中,每一情感倾向分类模型为基于样本评论所训练得到的、用于对评论进行情感倾向分类的模型;
对所得到的多个情感分类结果进行融合处理,得到所述目标评论的融合分类结果;
基于所述目标评论的融合分类结果,确定所述目标评论所表征的情感倾向。
2.根据权利要求1所述的方法,其特征在于,所述情感分类结果包括:每一种情感倾向对应的置信度;
所述对所得到的多个情感分类结果进行融合处理,得到所述目标评论的融合分类结果,包括:
针对每一种情感倾向,将多个情感分类结果中该种情感倾向的置信度进行取平均,得到该种情感倾向对应的融合置信度;
或者,
针对每一种情感倾向,利用各个情感倾向分类模型对应的权重,对多个情感分类结果中该种情感倾向的置信度进行加权求和,得到该种情感倾向对应的融合置信度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标评论的融合分类结果,确定所述目标评论所表征的情感倾向,包括:
从多种情感倾向对应的融合置信度中,选取最高的融合置信度;
确定所述最高的融合置信度对应的情感倾向,作为所述目标评论所表征的情感倾向。
4.根据权利要求1所述的方法,其特征在于,所述多个情感倾向分类模型为:多个不同类型的情感倾向分类模型;
所述多个不同类型的情感倾向分类模型为以下情感倾向分类模型中的至少两种:
基于支持向量机SVM分类模型训练的情感倾向分类模型;
基于逻辑回归LR分类模型训练的情感倾向分类模型;
基于梯度提升树GBDT分类模型训练的情感倾向分类模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于预先训练的多个情感倾向分类模型,分别对所述目标评论进行情感分类,得到多个情感分类结果,包括:
确定所述目标评论中所包含的关键分词,其中,所述关键分词为用于描述情感倾向的词汇;
生成所述关键分词的词向量,并基于所述关键分词的词向量,生成表示所述目标评论的句向量;
将所述句向量分别输入至预先训练的多个情感倾向分类模型,得到多个情感分类结果。
6.根据权利要求5所述的方法,其特征在于,所述确定所述目标评论中所包含的关键分词,包括:
对所述目标评论进行文本分割,得到所述目标评论的多个分词;
从所得到的多个分词中,确定包含于预先建立的关键词词典的分词,作为关键分词;其中,关键词词典为包含用于描述情感倾向的词汇的词典。
7.根据权利要求5或6所述的方法,其特征在于,所述基于所述关键分词的词向量,生成表示所述目标评论的句向量,包括:
基于所述关键分词的词向量和非关键分词的词向量,计算所述待分类评论的句向量,其中,所述非关键分词为所述目标评论所包含的分词中除所述关键分词以外的分词。
8.一种针对评论的情感倾向识别装置,其特征在于,所述装置包括:
评论获取模块,用于获取待识别的目标评论;
评论分类模块,用于基于预先训练的多个情感倾向分类模型,分别对所述目标评论进行情感分类,得到多个情感分类结果;其中,每一情感倾向分类模型为基于样本评论所训练得到的、用于对评论进行情感倾向分类的模型;
结果融合模块,用于对所得到的多个情感分类结果进行融合处理,得到所述目标评论的融合分类结果;
倾向确定模块,用于基于所述目标评论的融合分类结果,确定所述目标评论所表征的情感倾向。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202011065250.5A 2020-09-30 2020-09-30 针对评论的情感倾向识别方法、装置及电子设备 Active CN112199500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011065250.5A CN112199500B (zh) 2020-09-30 2020-09-30 针对评论的情感倾向识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011065250.5A CN112199500B (zh) 2020-09-30 2020-09-30 针对评论的情感倾向识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112199500A true CN112199500A (zh) 2021-01-08
CN112199500B CN112199500B (zh) 2024-07-23

Family

ID=74012870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011065250.5A Active CN112199500B (zh) 2020-09-30 2020-09-30 针对评论的情感倾向识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112199500B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268562A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 文本情感识别方法、装置、设备及存储介质
CN115794988A (zh) * 2022-09-13 2023-03-14 广东美云智数科技有限公司 用于提取文本的观点的方法、装置以及计算机存储介质
CN118505320A (zh) * 2024-07-18 2024-08-16 山东海量信息技术研究院 一种数据处理方法、设备、产品及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776931A (zh) * 2016-12-01 2017-05-31 珠海市魅族科技有限公司 一种评论数据的处理方法及处理装置
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN110413780A (zh) * 2019-07-16 2019-11-05 合肥工业大学 文本情感分析方法、装置、存储介质及电子设备
CN111198939A (zh) * 2019-12-27 2020-05-26 北京健康之家科技有限公司 语句相似度的分析方法、装置及计算机设备
CN111414754A (zh) * 2020-03-19 2020-07-14 中国建设银行股份有限公司 一种事件的情感分析方法、装置、服务器及存储介质
CN111666757A (zh) * 2019-02-21 2020-09-15 北京京东尚科信息技术有限公司 商品评论情感倾向分析方法、装置、设备和可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776931A (zh) * 2016-12-01 2017-05-31 珠海市魅族科技有限公司 一种评论数据的处理方法及处理装置
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN111666757A (zh) * 2019-02-21 2020-09-15 北京京东尚科信息技术有限公司 商品评论情感倾向分析方法、装置、设备和可读存储介质
CN110413780A (zh) * 2019-07-16 2019-11-05 合肥工业大学 文本情感分析方法、装置、存储介质及电子设备
CN111198939A (zh) * 2019-12-27 2020-05-26 北京健康之家科技有限公司 语句相似度的分析方法、装置及计算机设备
CN111414754A (zh) * 2020-03-19 2020-07-14 中国建设银行股份有限公司 一种事件的情感分析方法、装置、服务器及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268562A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 文本情感识别方法、装置、设备及存储介质
CN113268562B (zh) * 2021-05-24 2022-05-13 平安科技(深圳)有限公司 文本情感识别方法、装置、设备及存储介质
CN115794988A (zh) * 2022-09-13 2023-03-14 广东美云智数科技有限公司 用于提取文本的观点的方法、装置以及计算机存储介质
CN118505320A (zh) * 2024-07-18 2024-08-16 山东海量信息技术研究院 一种数据处理方法、设备、产品及介质

Also Published As

Publication number Publication date
CN112199500B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
CN108985830B (zh) 基于异质信息网络的推荐评分方法、装置
CN108829808B (zh) 一种页面个性化排序方法、装置及电子设备
CN108073568B (zh) 关键词提取方法和装置
CN105989040B (zh) 智能问答的方法、装置及系统
CN112199500B (zh) 针对评论的情感倾向识别方法、装置及电子设备
CN106919551B (zh) 一种情感词极性的分析方法、装置及设备
CN108920665B (zh) 基于网络结构和评论文本的推荐评分方法及装置
CN108335131B (zh) 一种预估用户年龄段的方法、装置及电子设备
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
US20230325424A1 (en) Systems and methods for generating codes and code books based using cosine proximity
CN113343091A (zh) 面向产业和企业的科技服务推荐计算方法、介质及程序
CN112667780A (zh) 一种评论信息的生成方法、装置、电子设备及存储介质
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
US11531927B2 (en) Categorical data transformation and clustering for machine learning using natural language processing
CN104699844A (zh) 为广告确定视频标签的方法及装置
CN110275953B (zh) 人格分类方法及装置
CN116127367A (zh) 服务评价的审核方法、装置以及计算机可读存储介质
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
CN117436446A (zh) 基于弱监督的农业社会化销售服务用户评价数据分析方法
CN117290596A (zh) 用于多模态数据模型的推荐标签生成方法、装置、设备及介质
CN116883179A (zh) 金融产品投资策略的确定方法、装置、处理器及电子设备
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN113434630B (zh) 客服服务评估方法、装置、终端设备及介质
CN114969439A (zh) 一种模型训练、信息检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant