CN110717325B - 文本的情感分析方法、装置、电子设备及存储介质 - Google Patents

文本的情感分析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110717325B
CN110717325B CN201910833655.XA CN201910833655A CN110717325B CN 110717325 B CN110717325 B CN 110717325B CN 201910833655 A CN201910833655 A CN 201910833655A CN 110717325 B CN110717325 B CN 110717325B
Authority
CN
China
Prior art keywords
clause
character
vector
target text
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910833655.XA
Other languages
English (en)
Other versions
CN110717325A (zh
Inventor
雷家欢
张庆
罗恒亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910833655.XA priority Critical patent/CN110717325B/zh
Publication of CN110717325A publication Critical patent/CN110717325A/zh
Application granted granted Critical
Publication of CN110717325B publication Critical patent/CN110717325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本的情感分析方法、装置、电子设备及存储介质,该方法包括:根据对目标文本进行分割得到的子句序列中的字符和字符的上下文信息,确定字符对应的字符向量;根据同一个子句中的字符对应的字符向量和子句的上下文信息,确定子句对应的子句向量;将子句对应的子句向量、对目标文本对应的用户信息编码得到的用户特征向量和对目标文本对应的产品信息编码得到的产品特征向量融合为子句对应的子句整体向量;对每个子句对应的子句整体向量进行上下文的序列标注处理,得到每个子句对应的情感极性。本申请实施例同时考虑了上下文信息、用户信息和产品信息进行情感极性的识别,提高了情感分析结果的准确性。

Description

文本的情感分析方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术领域,特别是涉及一种文本的情感分析方法、装置、电子设备及存储介质。
背景技术
针对用户评价进行情感分析是电商平台获取用户反馈的重要途径之一。通过对情感极性(好评、差评或中性)的分析,可以得知用户对产品的体验,进而针对性进行改进或向用户推荐相应商品。
现有技术中,针对用户评价的情感分析的方法主要是:1)通过词典进行分析:通过构建情感词典,提取出目标评论文本中的情感词,根据情感词的个数与权重判断目标评论文本的情感极性;2)通过人造特征结合分类器进行分析:将目标评论映射为人造特征,再输入到以传统机器学习为基础的分类器中来判断目标文本的情感极性;3)通过神经网络进行分析:无需构建情感词典和人为特征,直接将目标文本输入已经训练好的神经网络中进行情感极性的判断。
上述方式均是将整体的评论文本作为分析目标,对评论文本进行整体分析,导致情感分析结果的准确性较低。
发明内容
本申请实施例提供一种文本的情感分析方法、装置、电子设备及存储介质,以提高情感分析结果的准确性。
为了解决上述问题,第一方面,本申请实施例提供了一种文本的情感分析方法,包括:
根据对目标文本进行分割得到的子句序列中的字符和所述字符在所述目标文本中的上下文信息,确定所述字符对应的字符向量;
根据同一个子句中的字符对应的字符向量和所述子句在所述目标文本中的上下文信息,确定所述子句对应的子句向量;
将所述子句对应的子句向量、用户特征向量和产品特征向量融合为所述子句对应的子句整体向量,其中,所述用户特征向量是对所述目标文本对应的用户信息进行编码得到,所述产品特征向量是对所述目标文本对应的产品信息进行编码得到;
对每个子句对应的所述子句整体向量进行上下文的序列标注处理,得到所述子句序列中每个子句对应的情感极性。
可选的,所述根据所述子句序列中的字符和所述字符在所述目标文本中的上下文信息,确定所述字符对应的字符向量,包括:
对对目标文本进行分割得到的子句序列中的字符进行字符粒度的编码和位置编码,得到子句序列中的字符对应的字符初始向量;
根据所述字符对应的字符初始向量和所述目标文本中的其他字符对应的字符初始向量,确定所述字符的上下文信息;
将所述字符的字符初始向量和所述字符的上下文信息进行融合,得到所述字符对应的字符向量。
可选的,所述根据同一个子句中的字符对应的字符向量和所述子句在所述目标文本中的上下文信息,确定所述子句对应的子句向量,包括:
对属于同一个子句的字符向量进行池化处理,得到所述子句的子句初始向量;
通过双向的长短期记忆网络对所述子句序列中每个子句的所述子句初始向量进行上下文学习处理,得到每个子句的前向向量和后向向量;
将所述每个子句的前向向量和后向向量拼接为每个子句对应的子句向量。
可选的,所述对每个子句对应的所述子句整体向量进行上下文的序列标注处理,得到所述子句序列中每个子句对应的情感极性,包括:
针对每个子句,通过条件随机场确定当前子句的相邻子句的情感转移概率;
根据当前子句的子句整体向量和所述情感转移概率,通过所述条件随机场确定当前子句对应的情感极性。
可选的,所述将所述子句对应的子句向量、用户特征向量和产品特征向量融合为所述子句对应的子句整体向量,包括:
将所述子句对应的子句向量、所述用户特征向量和所述产品特征向量通过注意力机制融合为所述子句对应的子句整体向量。
可选的,所述对目标文本进行分割的步骤,包括:
对所述目标文本中的字符进行序列标注处理,得到所述目标文本中的字符对应的语义标签;
根据各个字符的语义标签,将所述目标文本分割为一个或多个子句,得到所述目标文本的子句序列。
可选的,所述用户信息包括个人简介信息和购买记录信息,所述产品信息包括产品介绍信息和购买人群分布。
第二方面,本申请实施例提供了一种文本的情感分析装置,包括:
字符粒度语义提取模块,用于根据对目标文本进行分割得到的子句序列中的字符和所述字符在所述目标文本中的上下文信息,确定所述字符对应的字符向量;
子句粒度语义提取模块,用于根据同一个子句中的字符对应的字符向量和所述子句在所述目标文本中的上下文信息,确定所述子句对应的子句向量;
向量融合模块,用于将所述子句对应的子句向量、用户特征向量和产品特征向量融合为所述子句对应的子句整体向量,其中,所述用户特征向量是对所述目标文本对应的用户信息进行编码得到,所述产品特征向量是对所述目标文本对应的产品信息进行编码得到;
情感极性确定模块,用于对每个子句对应的所述子句整体向量进行上下文的序列标注处理,得到所述子句序列中每个子句对应的情感极性。
可选的,所述字符粒度语义提取模块包括:
编码单元,用于对所述子句序列中的字符进行字符粒度的编码和位置编码,得到子句序列中的字符对应的字符初始向量;
上下文信息确定单元,用于根据所述字符对应的字符初始向量和所述目标文本中的其他字符对应的字符初始向量,确定所述字符的上下文信息;
字符向量确定单元,用于将所述字符的字符初始向量和所述字符的上下文信息进行融合,得到所述字符对应的字符向量。
可选的,所述子句粒度语义提取模块包括:
池化处理单元,用于对属于同一个子句的字符向量进行池化处理,得到所述子句的子句初始向量;
上下文学习单元,用于通过双向的长短期记忆网络对所述子句序列中每个子句的所述子句初始向量进行上下文学习处理,得到每个子句的前向向量和后向向量;
拼接单元,用于将所述每个子句的前向向量和后向向量拼接为每个子句对应的子句向量。
可选的,所述情感极性确定模块包括:
情感转移概率确定单元,用于针对每个子句,通过条件随机场确定当前子句的相邻子句的情感转移概率;
情感极性确定单元,用于根据当前子句的子句整体向量和所述情感转移概率,通过所述条件随机场确定当前子句对应的情感极性。
可选的,所述向量融合模块具体用于:
将所述子句对应的子句向量、所述用户特征向量和所述产品特征向量通过注意力机制融合为所述子句对应的子句整体向量。
可选的,所述装置还包括:
文本分割模块,用于对所述目标文本中的字符进行序列标注处理,得到所述目标文本中的字符对应的语义标签;根据各个字符的语义标签,将所述目标文本分割为一个或多个子句,得到所述目标文本的子句序列。
可选的,所述用户信息包括个人简介信息和购买记录信息,所述产品信息包括产品介绍信息和购买人群分布。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的文本的情感分析方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的文本的情感分析方法的步骤。
本申请实施例公开的文本的情感分析方法、装置、电子设备及存储介质,通过根据对目标文本进行分割得到的子句序列中的字符和字符在目标文本中的上下文信息确定字符对应的字符向量,根据同一个子句中的字符对应的字符向量和子句在目标文本中的上下文信息,确定子句对应的子句向量,将子句对应的子句向量、用户特征向量和产品特征向量融合为子句对应的子句整体向量,对每个子句对应的子句整体向量进行上下文的序列标注处理,得到子句序列中每个子句对应的情感极性,由于在进行字符的语义提取和子句的语义提取时均考虑了上下文信息,而且考虑了用户信息、产品信息以及相邻子句的情感极性来对目标子句进行情感极性的识别,能够提高情感分析结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的文本的情感分析方法的流程图;
图2是本申请实施例中的情感分析模型的层次结构示意图;
图3是本申请实施例二的文本的情感分析装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本实施例公开的一种文本的情感分析方法,如图1所示,该方法包括:步骤110至步骤140。
步骤110,根据对目标文本进行分割得到的子句序列中的字符和所述字符在所述目标文本中的上下文信息,确定所述字符对应的字符向量。
其中,所述目标文本是用户针对一个产品的评论文本,可以包括一个整句或多个整句。
获取对目标文本进行分割得到的子句序列,对所述子句序列中的每个字符分别进行字符粒度的语义提取,并结合字符在目标文本中的上下文信息,得到每个字符对应的字符向量。其中,所述对目标文本进行分割的步骤可以由实现所述文本的情感分析方法的文本的情感分析装置在该步骤之前实施,也可以由其他执行主体进行实施,在确定字符向量时,只需在子句序列的存储位置获取目标文本对应的子句序列即可。
在本申请的一个实施例中,所述对目标文本进行分割的步骤,包括:对所述目标文本中的字符进行序列标注处理,得到所述目标文本中的字符对应的语义标签;根据各个字符的语义标签,将所述目标文本分割为一个或多个子句,得到所述目标文本的子句序列。
其中,语义标签可以是预先制定的起始、中止或中间等句子跨度指示符。
基于序列标注技术对目标文本中的每个字符进行序列标注处理,得到目标文本中的每个字符对应的语义标签,根据语义标签的连接关系,将对应的相邻字符进行拼接,得到目标文本中的一个或多个子句,所述一个或多个子句组成子句序列。
在本申请的一个实施例中,根据对目标文本进行分割得到的子句序列中的字符和所述字符在所述目标文本中的上下文信息,确定所述字符对应的字符向量,包括:对所述子句序列中的字符进行字符粒度的编码和位置编码,得到子句序列中的字符对应的字符初始向量;根据所述字符对应的字符初始向量和所述目标文本中的其他字符对应的字符初始向量,确定所述字符的上下文信息;将所述字符的字符初始向量和所述字符的上下文信息进行融合,得到所述字符对应的字符向量。
其中,编码是将字符转换为计算机可以进行运算的数字。字符的字符初始向量表示字符的语义和字符所在的子句和在该子句中的位置,是一个稠密向量。字符对应的字符向量是字符初始向量结合了字符所在目标文本中的上下文信息。字符初始向量和字符向量的维度不限,例如可以是300维的向量。
确定每个字符所在的子句和在该子句中的位置,对每个字符进行字符粒度的编码和位置编码,得到子句序列中的每个字符对应的字符初始向量,该字符初始向量只能简单表达字符的字面意思,没有结合上下文信息,为了更准确表达字符的语义,针对一个字符,可以根据该字符对应的字符初始向量和目标文本中的其他字符对应的字符初始向量,来确定该字符的上下文信息,并将该字符的字符初始向量和上下文信息进行融合,得到字符对应的字符向量。这样可以针对整个目标文本的内容来对每个字符进行针对性的编码,得到的字符向量更加符合字符所在目标文本中的语义,从而可以提高最终情感分析结果的准确性。
例如,‘苹果’这个词在‘苹果手机真的不错’和‘这个苹果真好吃’两句中是不同的意思,根据字符的字符初始向量和字符的上下文信息就可以达到同一个‘苹果’这个词会有不同的编码输出,实现基于上下文的编码能力。
上述确定字符的上下文信息以及将字符初始向量与字符的上下文信息进行融合的操作可以使用BERT(Bidirectional Encoder Representations fromTransformers,Transformer的双向编码器表征)模型来实现。BERT基于所有层中的左、右语境进行联合调整,来预训练深层双向表征。
BERT采用Transformer的编码器作为主体模型结构。Transformer舍弃了RNN的循环式网络结构,完全基于注意力机制来对一段文本进行建模。Transformer所使用的注意力机制的核心思想是计算一句话中的每个词对于这句话中所有词的相互关系,然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。再利用这些相互关系来调整每个词的重要性(权重)就可以获得每个词新的表征。这个新的表征不但蕴含了该词本身,还蕴含了其他词与这个词的关系,因此和单纯的词向量相比是一个更加全局的表达。Transformer通过对输入的文本不断进行这样的注意力机制层和普通的非线性层交叠来得到最终的文本表达。
步骤120,根据同一个子句中的字符对应的字符向量和所述子句在所述目标文本中的上下文信息,确定所述子句对应的子句向量。
首先,将同一个子句中的所有字符对应的字符向量融合为一个向量,然后再结合该子句在目标文本中的上下文信息,得到该子句对应的子句向量。
在本申请的一个实施例中,所述根据同一个子句中的字符对应的字符向量和所述子句在所述目标文本中的上下文信息,确定所述子句对应的子句向量,包括:对属于同一个子句的字符向量进行池化处理,得到所述子句的子句初始向量;通过双向的长短期记忆网络对所述子句序列中每个子句的所述子句初始向量进行上下文学习处理,得到每个子句的前向向量和后向向量;将所述每个子句的前向向量和后向向量拼接为每个子句对应的子句向量。
其中,池化处理例如可以采用平均池化处理或者最大池化处理。子句初始向量是子句中的字符对应的字符向量融合后的向量,没有该子句的上下文信息。子句向量是子句的子句初始向量与该子句的上下文信息结合后能够准确表达子句意思的向量。长短期记忆网络(Long Short-Term Memory,LSTM)是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
首先,通过对属于同一个子句的字符向量进行池化处理,将该子句中所有字符的字符向量融合为该子句对应的子句初始向量,使得子句初始向量能够表达整个子句的意思。例如,一个子句由6个字组成,一个字符向量为300维的向量,则该子句中会有6个300维的字符向量,通过池化处理,将6个300维的字符向量合并为一个同等维度的向量,该向量为子句初始向量,可以表达整个子句的意思。子句序列中每个子句对应一对双向的长短期记忆网络单元,各对双向的长短期记忆网络单元按照子句顺序连接,通过双向的长短期记忆网络对子句序列中每个子句的子句初始向量进行上下文学习处理,即基于子句序列中所有子句的意思对每个子句的子句初始向量进行修正,得到每个子句的前向向量和后向向量,对每个子句的前向向量和后向向量进行拼接,得到每个子句对应的子句向量。通过双向的长短期记忆网络能够较好的学习到每个子句的上下文信息,从而得到的子句向量更加符合子句在目标文本中的意思表达,可以进一步提高情感分析结果的准确性。
步骤130,将所述子句对应的子句向量、用户特征向量和产品特征向量融合为所述子句对应的子句整体向量,其中,所述用户特征向量是对所述目标文本对应的用户信息进行编码得到,所述产品特征向量是对所述目标文本对应的产品信息进行编码得到。
其中,子句整体向量是子句向量与用户特征向量和产品特征向量融合后的结果向量。所述用户信息包括个人简介信息和购买记录信息,还可以包括其他用户相关信息。所述产品信息包括产品介绍信息和购买人群分布等。所述购买人群分布可以是购买人群的年龄分布、地区分布和/或职业分布等。
针对每个子句分别进行处理,对每个子句对应的子句向量、用户特征向量和产品特征向量进行融合,得到每个子句分别对应的子句整体向量。具体的融合方式可以是拼接或者是基于注意力机制的融合,还可以是其他融合方式。
其中,对所述目标文本对应的用户信息进行编码得到用户特征向量以及对目标文本对应的产品信息进行编码得到产品特征向量的步骤可以由实现所述文本的情感分析方法的文本的情感分析装置在该步骤之前实施,也可以由其他执行主体进行实施,在使用用户特征向量和产品特征向量时,只需在目标文本对应的用户特征向量和产品特征向量的存储位置获取目标文本对应的用户特征向量和产品特征向量即可。在对目标文本中的用户信息和产品信息进行编码时,首先确定目标文本的用户及目标文本所针对的产品,所述用户即目标文本的作者,获取所述用户的用户信息以及所述产品的产品信息,之后分别对所述用户信息和产品信息进行编码,得到用户信息对应的用户特征向量和产品信息对应的产品特征向量。
在本申请的一个实施例中,所述将所述子句对应的子句向量、用户特征向量和产品特征向量融合为所述子句对应的子句整体向量,包括:将所述子句对应的子句向量、所述用户特征向量和所述产品特征向量通过注意力机制融合为所述子句对应的子句整体向量。
其中,注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。在深度学习中,注意力可以广泛的借助重要性权重向量来实现:在预测或推断一个元素时,如图片中的像素点或句中的一个词,使用注意力向量来判断它与其他元素有多强的关联性,然后对加权后的向量求和以逼近最后的目标值。
针对每个子句,将该子句对应的子句向量、用户特征向量和产品特征向量通过注意力机制融合为该子句对应的子句整体向量,即每个子句都与用户特征向量及产品特征向量进行融合。通过注意力机制对子句对应的子句向量、用户特征向量和产品特征向量进行融合,得到的子句整体向量包含多维特征,而且通过注意力机制融合得到的子句整体向量可以更好的表达子句意思,而且同时考虑了用户特征和产品特征,可以进一步提高情感分析结果的准确性。
步骤140,对每个子句对应的所述子句整体向量进行上下文的序列标注处理,得到所述子句序列中每个子句对应的情感极性。
通过基于上下文的序列标注技术,对每个子句对应的子句整体向量进行情感极性的标注,从而得到子句序列中每个子句对应的情感极性。基于上下文的序列标注技术例如可以是最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)或者条件随机场(Conditional Random Field,CRF)。情感极性也称为情感倾向性,在本申请实施例中,目标文本一般是用户对某一产品的评论文本,则情感极性是用户对所评价的产品的情感倾向性,例如可以是好评、中评或差评。
在本申请的一个实施例中,所述对每个子句对应的所述子句整体向量进行上下文的序列标注处理,得到所述子句序列中每个子句对应的情感极性,包括:针对每个子句,通过条件随机场确定当前子句的相邻子句的情感转移概率;根据当前子句的子句整体向量和所述情感转移概率,通过所述条件随机场确定当前子句对应的情感极性。
其中,条件随机场是给定一组输入随机变量条件下,另一组输出随机变量的条件概率的分布模型,其特点是假设输出随机变量构成马尔科夫随机场。条件随机场主要用于序列标注问题。
针对每个子句,在确定该子句的情感极性时,结合该子句的前一个子句的情感极性来确定。在确定一个子句的情感极性时,通过条件随机场确定该子句的前一个子句对该子句的情感转移概率,并基于该子句的子句整体向量和所述情感转移概率,来确定该子句的情感极性。通过条件随机场在预测目标子句情感极性的时候不仅考虑到子句对应的表达特征,同时考虑到相邻子句的情感转移概率,使得确定的情感极性更加符合用户的情感特征,从而进一步提高了情感分析结果的准确性。
上述步骤110-步骤140可以通过如图2所示的情感分析模型来实现,如图2所示,情感分析模型包括输入层、编码层、字符粒度语义提取层、池化层、子句粒度语义提取层、序列标注层和输出层。输入层用于根据子句的划分接收子句序列中每个子句的各个字符,针对每个子句中的字符输入数量为预设字符数量,预设字符数量足够大,在一个子句的字符数量小于预设字符数量时,后面的字符输入位置可以为空白值,而当一个子句的字符数量大于预设字符数量时,可以将大于预设字符数量的字符截断。编码层用于将字符转换为编码,变成计算机可以进行运算的数字,一般来说字符会编码为300维的一个矢量,即字符初始向量,用这个矢量来表示这个字符的意思,在这一层得到的编码表达字符意思的效果不好,一般会进行进一步的语义提取,即通过下一层的字符粒度语义提取层进行进一步的语义提取。字符粒度语义提取层用于对编码层输出的代表整个目标文本的所有字符初始向量进行复杂运算,最终在该层输出的字符向量可以对每个字符都有很好的语义表达,即可以针对整个目标文本的内容来对目标词汇进行针对性的编码,可以采用BERT模型来实现,主要采用自注意力单元,能够有效的将上下文信息与当前目标字符进行融合。池化层用于对字符粒度语义提取层输出的属于同一个子句的所有字符向量通过池化处理合并为一个同等维度的向量,即子句初始向量,该子句初始向量可以表达整个子句的意思。子句粒度语义提取层用于通过双向的长短期记忆网络进行子句粒度上的上下文学习,就是基于子句序列中所有子句的意思,对池化层输出的子句初始向量进行修正,得到考虑了上下文信息的子句向量。序列标注层用于对子句粒度语义提取层输出的子句向量和用户特征向量及产品特征向量融合得到的子句整体向量采用序列标注的方法进行情感极性的判断,在预测目标子句情感极性的时候不仅考虑到子句对应的表达特征,同时考虑了相邻子句的情感转移概率。如图2所示,在情感分析模型中,子句的最大输入数量为预设子句数量,即n,针对每个子句,有对应的输入层的输入单元、编码层的编码单元、字符粒度语义提取层的语义提取单元、池化层的池化单元、子句粒度语义提取层的双向的LSTM单元、序列标注层的序列标注单元和输出层的输出单元,其中,输入单元以输入两个字符为例,池化单元以平均池化为例。
本申请实施例公开的文本的情感分析方法,通过根据对目标文本进行分割得到的子句序列中的字符和字符在目标文本中的上下文信息确定字符对应的字符向量,根据同一个子句中的字符对应的字符向量和子句在目标文本中的上下文信息,确定子句对应的子句向量,将子句对应的子句向量、用户特征向量和产品特征向量融合为子句对应的子句整体向量,对每个子句对应的子句整体向量进行上下文的序列标注处理,得到子句序列中每个子句对应的情感极性,由于在进行字符的语义提取和子句的语义提取时均考虑了上下文信息,而且考虑了用户信息、产品信息以及相邻子句的情感极性来对目标子句进行情感极性的识别,能够提高情感分析结果的准确性。
实施例二
本实施例公开的一种文本的情感分析装置,如图3所示,所述文本的情感分析装置300包括:
字符粒度语义提取模块310,用于根据对目标文本进行分割得到的子句序列中的字符和所述字符在所述目标文本中的上下文信息,确定所述字符对应的字符向量;
子句粒度语义提取模块320,用于根据同一个子句中的字符对应的字符向量和所述子句在所述目标文本中的上下文信息,确定所述子句对应的子句向量;
向量融合模块330,用于将所述子句对应的子句向量、所述户特征向量和产品特征向量融合为所述子句对应的子句整体向量,其中,所述用户特征向量是对所述目标文本对应的用户信息进行编码得到,所述产品特征向量是对所述目标文本对应的产品信息进行编码得到;
情感极性确定模块340,用于对每个子句对应的所述子句整体向量进行上下文的序列标注处理,得到所述子句序列中每个子句对应的情感极性。
可选的,所述字符粒度语义提取模块包括:
编码单元,用于对所述子句序列中的字符进行字符粒度的编码和位置编码,得到子句序列中的字符对应的字符初始向量;
上下文信息确定单元,用于根据所述字符对应的字符初始向量和所述目标文本中的其他字符对应的字符初始向量,确定所述字符的上下文信息;
字符向量确定单元,用于将所述字符的字符初始向量和所述字符的上下文信息进行融合,得到所述字符对应的字符向量。
可选的,所述子句粒度语义提取模块包括:
池化处理单元,用于对属于同一个子句的字符向量进行池化处理,得到所述子句的子句初始向量;
上下文学习单元,用于通过双向的长短期记忆网络对所述子句序列中每个子句的所述子句初始向量进行上下文学习处理,得到每个子句的前向向量和后向向量;
拼接单元,用于将所述每个子句的前向向量和后向向量拼接为每个子句对应的子句向量。
可选的,所述情感极性确定模块包括:
情感转移概率确定单元,用于针对每个子句,通过条件随机场确定当前子句的相邻子句的情感转移概率;
情感极性确定单元,用于根据当前子句的子句整体向量和所述情感转移概率,通过所述条件随机场确定当前子句对应的情感极性。
可选的,所述向量融合模块具体用于:
将所述子句对应的子句向量、所述用户特征向量和所述产品特征向量通过注意力机制融合为所述子句对应的子句整体向量。
可选的,所述装置还包括:
文本分割模块,用于对所述目标文本中的字符进行序列标注处理,得到所述目标文本中的字符对应的语义标签;根据各个字符的语义标签,将所述目标文本分割为一个或多个子句,得到所述目标文本的子句序列。
可选的,所述用户信息包括个人简介信息和购买记录信息,所述产品信息包括产品介绍信息和购买人群分布。
本申请实施例提供的文本的情感分析装置,用于实现本申请实施例一中所述的文本的情感分析方法的各步骤,装置的各模块的具体实施方式参见相应步骤,此处不再赘述。
本申请实施例公开的文本的情感分析装置,通过字符粒度语义提取模块根据对目标文本进行分割得到的子句序列中的字符和字符在目标文本中的上下文信息确定字符对应的字符向量,子句粒度语义提取模块根据同一个子句中的字符对应的字符向量和子句在目标文本中的上下文信息,确定子句对应的子句向量,向量融合模块将子句对应的子句向量、用户特征向量和产品特征向量融合为子句对应的子句整体向量,情感极性确定模块对每个子句对应的子句整体向量进行上下文的序列标注处理,得到子句序列中每个子句对应的情感极性,由于在进行字符的语义提取和子句的语义提取时均考虑了上下文信息,而且考虑了用户信息、产品信息以及相邻子句的情感极性来对目标子句进行情感极性的识别,能够提高情感分析结果的准确性。
相应的,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一所述的文本的情感分析方法。所述电子设备可以为服务器、PC机、移动终端、个人数字助理、平板电脑等。
本申请实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一所述的文本的情感分析方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请实施例提供的一种文本的情感分析方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (9)

1.一种文本的情感分析方法,包括:
根据对目标文本进行分割得到的子句序列中的字符和所述字符在所述目标文本中的上下文信息,确定所述字符对应的字符向量;
根据同一个子句中的字符对应的字符向量和所述子句在所述目标文本中的上下文信息,确定所述子句对应的子句向量;
将所述子句对应的子句向量、用户特征向量和产品特征向量融合为所述子句对应的子句整体向量,其中,所述用户特征向量是对所述目标文本对应的用户信息进行编码得到,所述产品特征向量是对所述目标文本对应的产品信息进行编码得到;
对每个子句对应的所述子句整体向量进行上下文的序列标注处理,得到所述子句序列中每个子句对应的情感极性;
其中,所述根据对目标文本进行分割得到的子句序列中的字符和所述字符在所述目标文本中的上下文信息,确定所述字符对应的字符向量,包括:
对所述子句序列中的字符进行字符粒度的编码和位置编码,得到子句序列中的字符对应的字符初始向量;
根据所述字符对应的字符初始向量和所述目标文本中的其他字符对应的字符初始向量,确定所述字符的上下文信息;
将所述字符的字符初始向量和所述字符的上下文信息进行融合,得到所述字符对应的字符向量。
2.根据权利要求1所述的方法,所述根据同一个子句中的字符对应的字符向量和所述子句在所述目标文本中的上下文信息,确定所述子句对应的子句向量,包括:
对属于同一个子句的字符向量进行池化处理,得到所述子句的子句初始向量;
通过双向的长短期记忆网络对所述子句序列中每个子句的所述子句初始向量进行上下文学习处理,得到每个子句的前向向量和后向向量;
将所述每个子句的前向向量和后向向量拼接为每个子句对应的子句向量。
3.根据权利要求1所述的方法,所述对每个子句对应的所述子句整体向量进行上下文的序列标注处理,得到所述子句序列中每个子句对应的情感极性,包括:
针对每个子句,通过条件随机场确定当前子句的相邻子句的情感转移概率;
根据当前子句的子句整体向量和所述情感转移概率,通过所述条件随机场确定当前子句对应的情感极性。
4.根据权利要求1所述的方法,所述将所述子句对应的子句向量、用户特征向量和产品特征向量融合为所述子句对应的子句整体向量,包括:
将所述子句对应的子句向量、所述用户特征向量和所述产品特征向量通过注意力机制融合为所述子句对应的子句整体向量。
5.根据权利要求1所述的方法,所述对目标文本进行分割的步骤,包括:
对所述目标文本中的字符进行序列标注处理,得到所述目标文本中的字符对应的语义标签;
根据各个字符的语义标签,将所述目标文本分割为一个或多个子句,得到所述目标文本的子句序列。
6.根据权利要求1所述的方法,所述用户信息包括个人简介信息和购买记录信息,所述产品信息包括产品介绍信息和购买人群分布。
7.一种文本的情感分析装置,包括:
字符粒度语义提取模块,用于根据对目标文本进行分割得到的子句序列中的字符和所述字符在所述目标文本中的上下文信息,确定所述字符对应的字符向量;
子句粒度语义提取模块,用于根据同一个子句中的字符对应的字符向量和所述子句在所述目标文本中的上下文信息,确定所述子句对应的子句向量;
向量融合模块,用于将所述子句对应的子句向量、用户特征向量和产品特征向量融合为所述子句对应的子句整体向量,其中,所述用户特征向量是对所述目标文本对应的用户信息进行编码得到,所述产品特征向量是对所述目标文本对应的产品信息进行编码得到;
情感极性确定模块,用于对每个子句对应的所述子句整体向量进行上下文的序列标注处理,得到所述子句序列中每个子句对应的情感极性;
其中,所述字符粒度语义提取模块,包括:
编码子模块,用于对所述子句序列中的字符进行字符粒度的编码和位置编码,得到子句序列中的字符对应的字符初始向量;
确定子模块,用于根据所述字符对应的字符初始向量和所述目标文本中的其他字符对应的字符初始向量,确定所述字符的上下文信息;
融合子模块,用于将所述字符的字符初始向量和所述字符的上下文信息进行融合,得到所述字符对应的字符向量。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的文本的情感分析方法。
9.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至6任意一项所述的文本的情感分析方法的步骤。
CN201910833655.XA 2019-09-04 2019-09-04 文本的情感分析方法、装置、电子设备及存储介质 Active CN110717325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833655.XA CN110717325B (zh) 2019-09-04 2019-09-04 文本的情感分析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833655.XA CN110717325B (zh) 2019-09-04 2019-09-04 文本的情感分析方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110717325A CN110717325A (zh) 2020-01-21
CN110717325B true CN110717325B (zh) 2020-11-13

Family

ID=69209606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833655.XA Active CN110717325B (zh) 2019-09-04 2019-09-04 文本的情感分析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110717325B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242083B (zh) * 2020-01-21 2024-01-26 腾讯云计算(北京)有限责任公司 基于人工智能的文本处理方法、装置、设备、介质
CN111444709B (zh) * 2020-03-09 2022-08-12 腾讯科技(深圳)有限公司 文本分类方法、装置、存储介质及设备
CN111581335B (zh) * 2020-05-14 2023-11-24 腾讯科技(深圳)有限公司 一种文本表示方法及装置
CN111738015B (zh) * 2020-06-22 2024-04-12 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质
CN112100337B (zh) * 2020-10-15 2024-03-05 平安科技(深圳)有限公司 交互对话中的情绪识别方法及装置
CN112329434B (zh) * 2020-11-26 2024-04-12 北京百度网讯科技有限公司 文本信息识别方法、装置、电子设备和存储介质
CN112784573B (zh) * 2021-01-25 2023-12-19 中南民族大学 文本情感内容分析方法、装置、设备及存储介质
CN113935329B (zh) * 2021-10-13 2022-12-13 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN114357158B (zh) * 2021-12-09 2024-04-09 南京中孚信息技术有限公司 基于句粒度语义和相对位置编码的长文本分类技术

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN108984724A (zh) * 2018-07-10 2018-12-11 凯尔博特信息科技(昆山)有限公司 利用高维表示提高特定属性情感分类准确率方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855B (zh) * 2013-04-12 2019-04-26 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统
CN106547735B (zh) * 2016-10-25 2020-07-07 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN108984724A (zh) * 2018-07-10 2018-12-11 凯尔博特信息科技(昆山)有限公司 利用高维表示提高特定属性情感分类准确率方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于条件随机场的中文微博情感分析研究;梁礼欣;《中国优秀硕士学位论文全文数据库信息科技辑》;20161215(第12期);第I138-374页 *

Also Published As

Publication number Publication date
CN110717325A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN110717325B (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN110705206B (zh) 一种文本信息的处理方法及相关装置
CN108228576B (zh) 文本翻译方法及装置
CN112348111B (zh) 视频中的多模态特征融合方法、装置、电子设备及介质
CN111325571B (zh) 一种多任务学习的商品评论标签自动生成方法、装置及系统
EP3885966B1 (en) Method and device for generating natural language description information
CN113469298B (zh) 模型训练方法及资源推荐方法
CN108628868B (zh) 文本分类方法和装置
CN111291172A (zh) 用于处理文本的方法和装置
CN113051380B (zh) 信息生成方法、装置、电子设备和存储介质
CN111738807B (zh) 用于推荐目标对象的方法、计算设备和计算机存储介质
CN115526166A (zh) 一种图文情感推断方法、系统、存储介质及设备
CN116610781A (zh) 任务模型训练方法以及装置
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN112667803A (zh) 一种文本情感分类方法及装置
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN114036283A (zh) 一种文本匹配的方法、装置、设备和可读存储介质
CN114722817A (zh) 事件处理方法及装置
CN113535946A (zh) 基于深度学习的文本鉴别方法、装置、设备及存储介质
CN114329068B (zh) 一种数据处理方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant