CN110704622A - 文本情感分类方法、装置及电子设备 - Google Patents

文本情感分类方法、装置及电子设备 Download PDF

Info

Publication number
CN110704622A
CN110704622A CN201910922802.0A CN201910922802A CN110704622A CN 110704622 A CN110704622 A CN 110704622A CN 201910922802 A CN201910922802 A CN 201910922802A CN 110704622 A CN110704622 A CN 110704622A
Authority
CN
China
Prior art keywords
text
target
classified
emotion classification
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910922802.0A
Other languages
English (en)
Inventor
李嘉琛
付骁弈
姜旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910922802.0A priority Critical patent/CN110704622A/zh
Publication of CN110704622A publication Critical patent/CN110704622A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本情感分类方法、装置及电子设备,涉及自然语言处理技术领域,该方法包括:对待分类文本进行实体识别,得到目标识别结果;根据目标识别结果对待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;将目标输入数据输入预先训练好的多角度情感分类模型,得到待分类文本的目标情感分类结果;目标情感分类结果包括各角度对应的情感极性。待分类文本中实体词语与角度之间存在一定的对应关系,基于该对应关系和注意力机制所得到的目标情感分类结果,综合考虑到了每个实体词语对各个角度的情感分类的影响,与现有技术中将一个多角度的分类任务分解成多个独立的分类任务相比,提高了情感分类结果的准确度。

Description

文本情感分类方法、装置及电子设备
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种文本情感分类方法、装置及电子设备。
背景技术
互联网上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息,例如影评或店铺点评。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论信息来了解大众舆论对于某一事件或产品的看法。
对于一篇评论文本,情感的分类往往是复杂的,例如影评或店铺点评,消费者会从不同的角度去给予好评、中评或差评,因此细分角度的情感分析对于营销方面有着重要的意义。
现有的文本情感分类方法是将一个多角度的分类任务分解成多个独立的分类任务,这样得到的情感分类结果准确度较低,无法满足实际应用需求。
发明内容
本发明的目的在于提供一种文本情感分类方法、装置及电子设备,以提高情感分类结果的准确度。
本发明实施例提供了一种文本情感分类方法,包括:
对待分类文本进行实体识别,得到目标识别结果;其中,所述目标识别结果包括所述待分类文本中的各个实体词语和每个所述实体词语与预先设定的多个角度之间的目标对应关系;
根据所述目标识别结果对所述待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;所述目标输入数据包括所述待分类文本对应的目标词向量和目标注意力矩阵;
将所述目标输入数据输入预先训练好的多角度情感分类模型,得到所述待分类文本的目标情感分类结果;其中,所述多角度情感分类模型是基于注意力机制的分类模型;所述目标情感分类结果包括各所述角度对应的情感极性。
进一步地,所述对待分类文本进行实体识别,得到目标识别结果,包括:
利用预先训练好的实体识别模型对待分类文本进行实体识别,得到目标识别结果;所述实体识别模型包括以下中的任一种:条件随机场CRF模型、长短期记忆LSTM模型、基于Transformer的双向编码器表征BERT模型和自定义的规则模型。
进一步地,所述根据所述目标识别结果对所述待分类文本进行基于注意力机制的词向量表示,得到目标输入数据,包括:
根据所述待分类文本中的各个实体词语对所述待分类文本进行词向量表示,得到目标词向量;
根据所述目标对应关系对所述待分类文本进行注意力矩阵表示,得到目标注意力矩阵;
将所述目标词向量和所述目标注意力矩阵确定为目标输入数据。
进一步地,所述多角度情感分类模型包括基于注意力机制的深度学习模型。
进一步地,所述方法还包括:
获取包括多个第一训练文本的识别数据集;
对所述识别数据集中的每个第一训练文本进行实体和角度的标注,得到第一标注数据集;
利用所述识别数据集和所述第一标注数据集对待训练的实体识别模型进行训练,得到训练好的实体识别模型。
进一步地,所述方法还包括:
获取分类数据集,所述分类数据集包括多个第二训练文本、以及对每个所述第二训练文本进行实体识别的实体识别结果;
对于每个所述第二训练文本,根据该第二训练文本的实体识别结果对该第二训练文本进行注意力机制的词向量表示,得到该第二训练文本的训练输入数据;
对所述分类数据集中的每个第二训练文本进行多个所述角度的情感极性标注,得到第二标注数据集;
利用各所述第二训练文本的训练输入数据和所述第二标注数据集对待训练的多角度情感分类模型进行训练,得到训练好的多角度情感分类模型。
本发明实施例还提供了一种文本情感分类装置,包括:
识别模块,用于对待分类文本进行实体识别,得到目标识别结果;其中,所述目标识别结果包括所述待分类文本中的各个实体词语和每个所述实体词语与预先设定的多个角度之间的目标对应关系;
转换模块,用于根据所述目标识别结果对所述待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;所述目标输入数据包括所述待分类文本对应的目标词向量和目标注意力矩阵;
分类模块,用于将所述目标输入数据输入预先训练好的多角度情感分类模型,得到所述待分类文本的目标情感分类结果;其中,所述多角度情感分类模型是基于注意力机制的分类模型;所述目标情感分类结果包括各所述角度对应的情感极性。
进一步地,所述转换模块具体用于:
根据所述待分类文本中的各个实体词语对所述待分类文本进行词向量表示,得到目标词向量;
根据所述目标对应关系对所述待分类文本进行注意力矩阵表示,得到目标注意力矩阵;
将所述目标词向量和所述目标注意力矩阵确定为目标输入数据。
本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的文本情感分类方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的文本情感分类方法。
本发明实施例提供的文本情感分类方法、装置及电子设备中,该方法包括:对待分类文本进行实体识别,得到目标识别结果;其中,目标识别结果包括待分类文本中的各个实体词语和每个实体词语与预先设定的多个角度之间的目标对应关系;根据目标识别结果对待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;目标输入数据包括待分类文本对应的目标词向量和目标注意力矩阵;将目标输入数据输入预先训练好的多角度情感分类模型,得到待分类文本的目标情感分类结果;其中,多角度情感分类模型是基于注意力机制的分类模型;目标情感分类结果包括各角度对应的情感极性。待分类文本中实体词语与角度之间存在一定的对应关系,基于该对应关系和注意力机制所得到的目标情感分类结果,综合考虑到了每个实体词语对各个角度的情感分类的影响,与现有技术中将一个多角度的分类任务分解成多个独立的分类任务相比,提高了情感分类结果的准确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本情感分类方法的流程示意图;
图2为本发明实施例提供的一种文本情感分类方法中训练实体识别模型的流程示意图;
图3为本发明实施例提供的一种文本情感分类方法中训练多角度情感分类模型的流程示意图;
图4为本发明实施例提供的一种文本情感分类装置的结构示意图;
图5为本发明实施例提供的另一种文本情感分类装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
文本的情感极性一般是划分为正面、中性和负面。角度情感分类问题是要从更细粒度的角度对文本做情感分析,例如餐厅评价的文本涉及到的角度可能有菜品味道、服务态度、价格等等,每一个角度涉及到情感极性包括正面、中性、负面和未提及。目前现有的文本情感分类方法是将一个多角度的分类任务分解成多个独立的分类任务,这样得到的情感分类结果准确度较低。发明人发现,现有技术中没有考虑到评论的角度往往会与评论文本中某些词语相关联,而这些词语反应了评论者的情感态度,基于此,本发明实施例提供的一种文本情感分类方法、装置及电子设备,可以提高情感分类结果的准确度。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种文本情感分类方法进行详细介绍。
本发明实施例提供了一种文本情感分类方法,该方法可以由具有数据处理能力的电子设备执行,该电子设备可以但不限于为以下中的任一种:台式电脑、笔记本电脑、平板电脑和智能手机等。
参见图1所示的一种文本情感分类方法的流程示意图,该方法主要包括以下步骤:
步骤S102,对待分类文本进行实体识别,得到目标识别结果;其中,目标识别结果包括待分类文本中的各个实体词语和每个实体词语与预先设定的多个角度之间的目标对应关系。
上述待分类文本可以是影评、店铺点评等点评文本,例如餐厅评价文本。实体是知识库所表示成的图中的一个节点,表示物理世界中的物体或者概念。例如“北京”可以表示图中的一个实体,也即实体词语为“北京”。实体的实体类型存储了相关信息的人员、组织、对象类型或概念。实体类型描述正在被掌控的信息的类型,比如北京、上海均是地点类型。NER(Named Entity Recognition,命名实体识别)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等;命名实体是指一种现实世界中的人或物,例如人、地点、组织、产品等等可以被命名的实体;命名实体既可以是具体的实体,也可以是抽象的概念。
上述预先设定的角度与待分类文本所属的文本类型有关,文本类型可以包括影评、店铺点评等,其中,店铺点评包括餐厅评价、理发店评价、摄影店评价等,例如,当待分类文本的文本类型为餐厅评价时,预先设定的角度包括卫生、包装、性价比、口感和总体感受等;又如,当待分类文本的文本类型为影评时,预先设定的角度包括摄影、剧情、视听语言和剪辑等。
可选地,利用预先训练好的实体识别模型对待分类文本进行实体识别,得到目标识别结果;该实体识别模型包括以下中的任一种:CRF(Conditional Random Field,条件随机场)模型、LSTM(long-short term memory,长短期记忆)模型、预训练的语言模型和自定义的规则模型。
其中,CRF模型是一种统计算法,用于序列标注任务。LSTM模型是一种循环神经网络模型,适用于处理时间序列数据,常用于文本分类任务;Bi-LSTM是使用两层LSTM分别从序列的正向和反向提取文本的信息。预训练的语言模型:通常在自然语言处理任务中使用预训练模型可以提升效果;预训练的语言模型会使用大量的语料数据,使用算法训练出词汇表中所有字的特征(在机器学习中,特征是用于描述事物的关键性因素)。预训练的语言模型可以表达一种语言的语义特征,例如针对中文,预训练的语言模型包括从大量微博文本训练的微博词向量模型或BERT(Bidirectional Encoder Representations fromTransformers,基于Transformer的双向编码器表征)模型,不同模型分别针对不同的应用场景。
具体地,上述实体识别模型与待分类文本的文本类型对应,该实体识别模型训练时所选取的训练文本的文本类型与待分类文本的文本类型相同。
步骤S104,根据上述目标识别结果对待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;目标输入数据包括待分类文本对应的目标词向量和目标注意力矩阵。
注意力机制为一种特征提取方法;在文本分类任务中,加入注意力机制可以令多角度情感分类模型在训练中为不同的词语学习到不同的权重(权重矩阵,也即多角度情感分类模型中的超参数),注意力机制可以理解为训练多角度情感分类模型“注意到”对分类结果有影响的词语。
在一些可能的实施例中,上述步骤S104包括:根据待分类文本中的各个实体词语对待分类文本进行词向量表示,得到目标词向量;根据上述目标对应关系对待分类文本进行注意力矩阵表示,得到目标注意力矩阵;将目标词向量和目标注意力矩阵确定为目标输入数据。
对待分类文本进行词向量表示,得到目标词向量的过程,可以参照现有技术,例如将待分类文本输入BERT模型来进行词向量表示,BERT模型会输出词向量嵌入矩阵(目标词向量),假设输入的点评段落(待分类文本)是10个字,那么会得到一个10*768的矩阵(768是BERT模型常用的参数设置)。根据目标对应关系对待分类文本进行注意力矩阵表示所得到的目标注意力矩阵,与预先设定的角度的数量和待分类文本的字数有关,角度的数量可以对应目标注意力矩阵的行数,待分类文本的字数可以对应目标注意力矩阵的列数。
假设一个情感分类任务有5个角度(卫生、包装、性价比、口感和总体感受),对于一个10个字点评文本就可以构建出5×10的目标注意力矩阵。例如,对于待分类文本“不会很甜,我很喜欢。”,待分类文本的目标对应关系如下表1所示。
表1
卫生 0 0 0 0 0 0 0 0 0 0
包装 0 0 0 0 0 0 0 0 0 0
性价比 0 0 0 0 0 0 0 0 0 0
口感 1 1 1 1 0 0 0 0 0 0
总体感受 0 0 0 0 0 1 1 1 1 0
上述表1中,待分类文本中每个字在对应的角度处为1,在未对应的角度处为0。则,该表1对应的目标注意力矩阵可以为下述的5×10的矩阵:
Figure BDA0002217597050000091
步骤S106,将上述目标输入数据输入预先训练好的多角度情感分类模型,得到待分类文本的目标情感分类结果;其中,多角度情感分类模型是基于注意力机制的分类模型;目标情感分类结果包括各角度对应的情感极性。
首先介绍一下分类模型:分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
本申请中多角度情感分类模型输出的类别为情感极性,情感极性可以包括正面、中性、负面和未提及等。例如,上述表1对应的待分类文本的目标情感分类结果可以为:卫生-未提及、包装-未提及、性价比-未提及、口感-正面以及总体感受-正面。
可选地,上述多角度情感分类模型可以包括基于注意力机制的深度学习模型,深度学习模型在具有较大数据量(训练样本较多)的情况下,比传统的机器学习模型的分类效果更好。例如该多角度情感分类模型采用基于注意力机制的BERT模型。
本发明实施例中,该方法包括:对待分类文本进行实体识别,得到目标识别结果;其中,目标识别结果包括待分类文本中的各个实体词语和每个实体词语与预先设定的多个角度之间的目标对应关系;根据目标识别结果对待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;目标输入数据包括待分类文本对应的目标词向量和目标注意力矩阵;将目标输入数据输入预先训练好的多角度情感分类模型,得到待分类文本的目标情感分类结果;其中,多角度情感分类模型是基于注意力机制的分类模型;目标情感分类结果包括各角度对应的情感极性。待分类文本中实体词语与角度之间存在一定的对应关系,基于该对应关系和注意力机制所得到的目标情感分类结果,综合考虑到了每个实体词语对各个角度的情感分类的影响,与现有技术中将一个多角度的分类任务分解成多个独立的分类任务相比,提高了情感分类结果的准确度。
本发明实施例还提供了一种实体识别模型的训练方法,参见图2所示的一种文本情感分类方法中训练实体识别模型的流程示意图,通过以下步骤训练得到实体识别模型:
步骤S202,获取包括多个第一训练文本的识别数据集。
由于角度是针对文本类型来设定的,不同文本类型的训练文本所设定的角度是不同的,因此识别数据集中的第一训练文本可以选取相同文本类型的训练文本,这样后续训练出的实体识别模型仅用于对该文本类型的待分类文本进行实体识别。
步骤S204,对上述识别数据集中的每个第一训练文本进行实体和角度的标注,得到第一标注数据集。
首先介绍一下与标注相关的序列标注:序列标注是指给一个序列(如文本)每个单元的数据(实体词语)标注一个类别标签,常用于分词、词性标注、命名实体识别等任务。例如一个简单的序列标注任务事先定义了标签:人名(PER)、组织(ORG)和其他(O),序列标注模型会为一句话(序列)——“小明在北京大学就读”——打上标签,如下表2所示:
表2
PER PER O ORG ORG ORG ORG O O
具体地,本实施例中,可以仅在识别数据集中标注角度相关的实体。例如训练文本为:
“吼吼吼,萌死人的棒棒糖,中了A平台的霸王餐,太可爱了。一直就好奇这个棒棒糖是怎么个东西,A平台给了我这个土老冒一个见识的机会。看介绍棒棒糖是用某国糖做的,不会很甜,中间的照片是糯米的,能食用,真是太高端大气上档次了,还可以买蝴蝶结扎口,送人可以买礼盒。我是先打的卖家电话,加了微信,给卖家传的照片。等了几天,卖家就告诉我可以取货了,去B地那取的。虽然连卖家的面都没见到,但是还是谢谢卖家送我这么可爱的东西,太喜欢了,这哪舍得吃啊。”
上述训练文本的标注结果,如下表3所示:
表3
角度 实体词
卫生 ---(未提及就不需要标注)
口感 不会很甜
性价比 中了大众点评的霸王餐
包装 真是太高端大气上档次了
总体感受 太喜欢了
步骤S206,利用上述识别数据集和第一标注数据集对待训练的实体识别模型进行训练,得到训练好的实体识别模型。
将识别数据集和第一标注数据集输入待训练的实体识别模型中进行训练,通过实体识别模型的不断迭代训练来调整模型结构,从而后续可以通过训练好的实体识别模型对待分类文本进行识别,识别出待分类文本中的实体词语及其对应的角度。
本实施例中,通过获取包括多个第一训练文本的识别数据集和对每个第一训练文本进行实体和角度标注的第一标注数据集,实现了对实体识别模型的训练。
本发明实施例还提供了一种多角度情感分类模型的训练方法,参见图3所示的一种文本情感分类方法中训练多角度情感分类模型的流程示意图,通过以下步骤训练得到多角度情感分类模型:
步骤S302,获取分类数据集,分类数据集包括多个第二训练文本、以及对每个第二训练文本进行实体识别的实体识别结果。
步骤S304,对于每个第二训练文本,根据该第二训练文本的实体识别结果对该第二训练文本进行注意力机制的词向量表示,得到该第二训练文本的训练输入数据。
步骤S306,对分类数据集中的每个第二训练文本进行多个角度的情感极性标注,得到第二标注数据集。
本实施例中采用有监督模型,因此需要对第二训练文本进行多个角度的情感极性标注(也即分类结果标注)。有监督模型是指:一般训练分类模型时,会有训练集和测试集,假设希望能有一个模型来判别一篇美食点评是否有负面情绪,如果训练集中不仅包含训练数据(如一万篇美食点评的文本),还有一列标签来标记每一条训练数据的目标分类结果(每一篇文本是正面、中性或负面),则这是一个有监督的模型。
步骤S308,利用各第二训练文本的训练输入数据和第二标注数据集对待训练的多角度情感分类模型进行训练,得到训练好的多角度情感分类模型。
上述多角度情感分类模型包括权重矩阵,权重矩阵为自定义的超参数,在多角度情感分类模型的训练过程中会不断调整该权重矩阵,从而后续可以通过训练好的多角度情感分类模型对待分类文本进行情感分类,输出每个角度对应的情感极性预测结果。
在输入文本的预测过程中,将权重矩阵与输入文本的注意力矩阵相乘,这样可以使模型不会完全丢失未对应的信息;后续再对输入文本的编码结果(编码后的词向量)做矩阵乘积,从而得到输入文本的情感极性预测结果。具体地,若权重矩阵中每个词语在未对应的角度处为0,在对应的角度处为1,则该模型会直接忽略未对应的词语;通过对权重矩阵进行调整,如在未对应的角度处为0.2,在对应的角度处为0.8,会使得模型不会完全丢失未对应的词语。
本实施例中,通过获取各第二训练文本的训练输入数据和第二标注数据集,实现了对多角度情感分类模型的训练。
对应于上述的文本情感分类方法,本发明实施例还提供了一种文本情感分类装置。参见图4所示的一种文本情感分类装置的结构示意图,该装置包括:
识别模块42,用于对待分类文本进行实体识别,得到目标识别结果;其中,目标识别结果包括待分类文本中的各个实体词语和每个实体词语与预先设定的多个角度之间的目标对应关系;
转换模块44,用于根据目标识别结果对待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;目标输入数据包括待分类文本对应的目标词向量和目标注意力矩阵;
分类模块46,用于将目标输入数据输入预先训练好的多角度情感分类模型,得到待分类文本的目标情感分类结果;其中,多角度情感分类模型是基于注意力机制的分类模型;目标情感分类结果包括各角度对应的情感极性。
本发明实施例中,识别模块42对待分类文本进行实体识别,得到目标识别结果;其中,目标识别结果包括待分类文本中的各个实体词语和每个实体词语与预先设定的多个角度之间的目标对应关系;转换模块44根据目标识别结果对待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;目标输入数据包括待分类文本对应的目标词向量和目标注意力矩阵;分类模块46将目标输入数据输入预先训练好的多角度情感分类模型,得到待分类文本的目标情感分类结果;其中,多角度情感分类模型是基于注意力机制的分类模型;目标情感分类结果包括各角度对应的情感极性。待分类文本中实体词语与角度之间存在一定的对应关系,基于该对应关系和注意力机制所得到的目标情感分类结果,综合考虑到了每个实体词语对各个角度的情感分类的影响,与现有技术中将一个多角度的分类任务分解成多个独立的分类任务相比,提高了情感分类结果的准确度。
可选地,上述识别模块42具体用于:利用预先训练好的实体识别模型对待分类文本进行实体识别,得到目标识别结果;实体识别模型包括以下中的任一种:CRF模型、LSTM模型、BERT模型和自定义的规则模型。
可选地,上述转换模块44具体用于:根据待分类文本中的各个实体词语对待分类文本进行词向量表示,得到目标词向量;根据目标对应关系对待分类文本进行注意力矩阵表示,得到目标注意力矩阵;将目标词向量和目标注意力矩阵确定为目标输入数据。
可选地,上述多角度情感分类模型包括基于注意力机制的深度学习模型。
可选地,参见图5所示的另一种文本情感分类装置的结构示意图,在图4的基础上,上述装置还包括:
第一训练模块52,用于获取包括多个第一训练文本的识别数据集;对识别数据集中的每个第一训练文本进行实体和角度的标注,得到第一标注数据集;利用识别数据集和第一标注数据集对待训练的实体识别模型进行训练,得到训练好的实体识别模型。
可选地,如图5所示,上述装置还包括:
第二训练模块54,用于获取分类数据集,分类数据集包括多个第二训练文本、以及对每个第二训练文本进行实体识别的实体识别结果;对于每个第二训练文本,根据该第二训练文本的实体识别结果对该第二训练文本进行注意力机制的词向量表示,得到该第二训练文本的训练输入数据;对分类数据集中的每个第二训练文本进行多个角度的情感极性标注,得到第二标注数据集;利用各第二训练文本的训练输入数据和第二标注数据集对待训练的多角度情感分类模型进行训练,得到训练好的多角度情感分类模型。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
参见图6,本发明实施例还提供一种电子设备100,包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,RandomAccessMemory),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前面方法实施例中所述的文本情感分类方法。该计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种文本情感分类方法,其特征在于,包括:
对待分类文本进行实体识别,得到目标识别结果;其中,所述目标识别结果包括所述待分类文本中的各个实体词语和每个所述实体词语与预先设定的多个角度之间的目标对应关系;
根据所述目标识别结果对所述待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;所述目标输入数据包括所述待分类文本对应的目标词向量和目标注意力矩阵;
将所述目标输入数据输入预先训练好的多角度情感分类模型,得到所述待分类文本的目标情感分类结果;其中,所述多角度情感分类模型是基于注意力机制的分类模型;所述目标情感分类结果包括各所述角度对应的情感极性。
2.根据权利要求1所述的方法,其特征在于,所述对待分类文本进行实体识别,得到目标识别结果,包括:
利用预先训练好的实体识别模型对待分类文本进行实体识别,得到目标识别结果;所述实体识别模型包括以下中的任一种:条件随机场CRF模型、长短期记忆LSTM模型、基于Transformer的双向编码器表征BERT模型和自定义的规则模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标识别结果对所述待分类文本进行基于注意力机制的词向量表示,得到目标输入数据,包括:
根据所述待分类文本中的各个实体词语对所述待分类文本进行词向量表示,得到目标词向量;
根据所述目标对应关系对所述待分类文本进行注意力矩阵表示,得到目标注意力矩阵;
将所述目标词向量和所述目标注意力矩阵确定为目标输入数据。
4.根据权利要求1所述的方法,其特征在于,所述多角度情感分类模型包括基于注意力机制的深度学习模型。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取包括多个第一训练文本的识别数据集;
对所述识别数据集中的每个第一训练文本进行实体和角度的标注,得到第一标注数据集;
利用所述识别数据集和所述第一标注数据集对待训练的实体识别模型进行训练,得到训练好的实体识别模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取分类数据集,所述分类数据集包括多个第二训练文本、以及对每个所述第二训练文本进行实体识别的实体识别结果;
对于每个所述第二训练文本,根据该第二训练文本的实体识别结果对该第二训练文本进行注意力机制的词向量表示,得到该第二训练文本的训练输入数据;
对所述分类数据集中的每个第二训练文本进行多个所述角度的情感极性标注,得到第二标注数据集;
利用各所述第二训练文本的训练输入数据和所述第二标注数据集对待训练的多角度情感分类模型进行训练,得到训练好的多角度情感分类模型。
7.一种文本情感分类装置,其特征在于,包括:
识别模块,用于对待分类文本进行实体识别,得到目标识别结果;其中,所述目标识别结果包括所述待分类文本中的各个实体词语和每个所述实体词语与预先设定的多个角度之间的目标对应关系;
转换模块,用于根据所述目标识别结果对所述待分类文本进行基于注意力机制的词向量表示,得到目标输入数据;所述目标输入数据包括所述待分类文本对应的目标词向量和目标注意力矩阵;
分类模块,用于将所述目标输入数据输入预先训练好的多角度情感分类模型,得到所述待分类文本的目标情感分类结果;其中,所述多角度情感分类模型是基于注意力机制的分类模型;所述目标情感分类结果包括各所述角度对应的情感极性。
8.根据权利要求7所述的装置,其特征在于,所述转换模块具体用于:
根据所述待分类文本中的各个实体词语对所述待分类文本进行词向量表示,得到目标词向量;
根据所述目标对应关系对所述待分类文本进行注意力矩阵表示,得到目标注意力矩阵;
将所述目标词向量和所述目标注意力矩阵确定为目标输入数据。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-6中任一项所述的方法。
CN201910922802.0A 2019-09-27 2019-09-27 文本情感分类方法、装置及电子设备 Pending CN110704622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910922802.0A CN110704622A (zh) 2019-09-27 2019-09-27 文本情感分类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910922802.0A CN110704622A (zh) 2019-09-27 2019-09-27 文本情感分类方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN110704622A true CN110704622A (zh) 2020-01-17

Family

ID=69198202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910922802.0A Pending CN110704622A (zh) 2019-09-27 2019-09-27 文本情感分类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110704622A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291187A (zh) * 2020-01-22 2020-06-16 北京芯盾时代科技有限公司 一种情感分析方法、装置、电子设备及存储介质
CN111400440A (zh) * 2020-02-28 2020-07-10 深圳市华海同创科技有限公司 一种意图识别的方法及装置
CN111552810A (zh) * 2020-04-24 2020-08-18 深圳数联天下智能科技有限公司 实体抽取与分类方法、装置、计算机设备和存储介质
CN112148878A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 情感数据处理方法及装置
CN112241453A (zh) * 2020-10-20 2021-01-19 虎博网络技术(上海)有限公司 情感属性确定方法、装置及电子设备
CN112287105A (zh) * 2020-09-30 2021-01-29 昆明理工大学 融合标题和正文双向互注意力的涉法新闻相关性分析方法
CN112559749A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 在线教育师生智能匹配方法、装置及存储介质
CN112784583A (zh) * 2021-01-26 2021-05-11 浙江香侬慧语科技有限责任公司 一种多角度情感分析方法、系统、存储介质及设备
CN112860841A (zh) * 2021-01-21 2021-05-28 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN112926737A (zh) * 2021-03-01 2021-06-08 创新奇智(上海)科技有限公司 一种模型训练方法、数据处理方法、装置及电子设备
CN113139116A (zh) * 2020-01-19 2021-07-20 北京中科闻歌科技股份有限公司 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
CN113326359A (zh) * 2020-02-28 2021-08-31 浙江大搜车软件技术有限公司 一种对话应答及应答策略匹配模型的训练方法和装置
CN113343711A (zh) * 2021-06-29 2021-09-03 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
WO2021217843A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN113762381A (zh) * 2021-09-07 2021-12-07 上海明略人工智能(集团)有限公司 一种情感分类方法、系统、电子设备及介质
CN113806541A (zh) * 2021-09-16 2021-12-17 北京百度网讯科技有限公司 情感分类的方法和情感分类模型的训练方法、装置
CN114358013A (zh) * 2021-12-15 2022-04-15 苏州臻璇数据信息技术有限公司 情感类型的识别方法和装置
CN114510934A (zh) * 2022-02-18 2022-05-17 上海喜马拉雅科技有限公司 一种文本处理方法、装置、服务器及存储介质
CN115329757A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 一种产品创新概念挖掘方法、装置、存储介质及终端设备
CN116257623A (zh) * 2022-09-07 2023-06-13 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170052946A1 (en) * 2014-06-06 2017-02-23 Siyu Gu Semantic understanding based emoji input method and device
CN109492229A (zh) * 2018-11-23 2019-03-19 中国科学技术大学 一种跨领域情感分类方法和相关装置
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法
CN110096587A (zh) * 2019-01-11 2019-08-06 杭州电子科技大学 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型
CN110110323A (zh) * 2019-04-10 2019-08-09 北京明略软件系统有限公司 一种文本情感分类方法和装置、计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170052946A1 (en) * 2014-06-06 2017-02-23 Siyu Gu Semantic understanding based emoji input method and device
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN109492229A (zh) * 2018-11-23 2019-03-19 中国科学技术大学 一种跨领域情感分类方法和相关装置
CN110096587A (zh) * 2019-01-11 2019-08-06 杭州电子科技大学 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法
CN110110323A (zh) * 2019-04-10 2019-08-09 北京明略软件系统有限公司 一种文本情感分类方法和装置、计算机可读存储介质
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139116B (zh) * 2020-01-19 2024-03-01 北京中科闻歌科技股份有限公司 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
CN113139116A (zh) * 2020-01-19 2021-07-20 北京中科闻歌科技股份有限公司 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
CN111291187B (zh) * 2020-01-22 2023-08-08 北京芯盾时代科技有限公司 一种情感分析方法、装置、电子设备及存储介质
CN111291187A (zh) * 2020-01-22 2020-06-16 北京芯盾时代科技有限公司 一种情感分析方法、装置、电子设备及存储介质
CN111400440A (zh) * 2020-02-28 2020-07-10 深圳市华海同创科技有限公司 一种意图识别的方法及装置
CN113326359A (zh) * 2020-02-28 2021-08-31 浙江大搜车软件技术有限公司 一种对话应答及应答策略匹配模型的训练方法和装置
CN111552810B (zh) * 2020-04-24 2024-03-19 深圳数联天下智能科技有限公司 实体抽取与分类方法、装置、计算机设备和存储介质
CN111552810A (zh) * 2020-04-24 2020-08-18 深圳数联天下智能科技有限公司 实体抽取与分类方法、装置、计算机设备和存储介质
WO2021217843A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN112148878A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 情感数据处理方法及装置
CN112287105A (zh) * 2020-09-30 2021-01-29 昆明理工大学 融合标题和正文双向互注意力的涉法新闻相关性分析方法
CN112287105B (zh) * 2020-09-30 2023-09-12 昆明理工大学 融合标题和正文双向互注意力的涉法新闻相关性分析方法
CN112241453A (zh) * 2020-10-20 2021-01-19 虎博网络技术(上海)有限公司 情感属性确定方法、装置及电子设备
CN112241453B (zh) * 2020-10-20 2023-10-13 虎博网络技术(上海)有限公司 情感属性确定方法、装置及电子设备
CN112559749B (zh) * 2020-12-18 2024-04-09 深圳赛安特技术服务有限公司 在线教育师生智能匹配方法、装置及存储介质
CN112559749A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 在线教育师生智能匹配方法、装置及存储介质
CN112860841A (zh) * 2021-01-21 2021-05-28 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN112860841B (zh) * 2021-01-21 2023-10-24 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN112784583A (zh) * 2021-01-26 2021-05-11 浙江香侬慧语科技有限责任公司 一种多角度情感分析方法、系统、存储介质及设备
CN112926737A (zh) * 2021-03-01 2021-06-08 创新奇智(上海)科技有限公司 一种模型训练方法、数据处理方法、装置及电子设备
CN113343711A (zh) * 2021-06-29 2021-09-03 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113343711B (zh) * 2021-06-29 2024-05-10 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113762381B (zh) * 2021-09-07 2023-12-19 上海明略人工智能(集团)有限公司 一种情感分类方法、系统、电子设备及介质
CN113762381A (zh) * 2021-09-07 2021-12-07 上海明略人工智能(集团)有限公司 一种情感分类方法、系统、电子设备及介质
CN113806541A (zh) * 2021-09-16 2021-12-17 北京百度网讯科技有限公司 情感分类的方法和情感分类模型的训练方法、装置
CN114358013A (zh) * 2021-12-15 2022-04-15 苏州臻璇数据信息技术有限公司 情感类型的识别方法和装置
CN114510934A (zh) * 2022-02-18 2022-05-17 上海喜马拉雅科技有限公司 一种文本处理方法、装置、服务器及存储介质
CN114510934B (zh) * 2022-02-18 2024-09-13 上海喜马拉雅科技有限公司 一种文本处理方法、装置、服务器及存储介质
CN116257623A (zh) * 2022-09-07 2023-06-13 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备
CN116257623B (zh) * 2022-09-07 2023-11-28 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备
CN115329757A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 一种产品创新概念挖掘方法、装置、存储介质及终端设备

Similar Documents

Publication Publication Date Title
CN110704622A (zh) 文本情感分类方法、装置及电子设备
US11436414B2 (en) Device and text representation method applied to sentence embedding
Wang et al. Mapping customer needs to design parameters in the front end of product design by applying deep learning
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
CN112231569B (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN111680159A (zh) 数据处理方法、装置及电子设备
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN108984555B (zh) 用户状态挖掘和信息推荐方法、装置以及设备
CN110781273B (zh) 文本数据处理方法、装置、电子设备及存储介质
CN111967264B (zh) 一种命名实体识别方法
CN106506327B (zh) 一种垃圾邮件识别方法及装置
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
WO2018023356A1 (en) Machine translation method and apparatus
US11874798B2 (en) Smart dataset collection system
CN109766553A (zh) 一种基于多正则化结合的胶囊模型的中文分词方法
CN112559749A (zh) 在线教育师生智能匹配方法、装置及存储介质
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN112597300A (zh) 文本聚类方法、装置、终端设备及存储介质
CN111339775A (zh) 命名实体识别方法、装置、终端设备及存储介质
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN107247753A (zh) 一种相似用户选取方法及装置
Xu et al. Dual attention network for product compatibility and function satisfiability analysis
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN110275953B (zh) 人格分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117