CN112686056A - 一种情感分类方法 - Google Patents

一种情感分类方法 Download PDF

Info

Publication number
CN112686056A
CN112686056A CN202110301286.7A CN202110301286A CN112686056A CN 112686056 A CN112686056 A CN 112686056A CN 202110301286 A CN202110301286 A CN 202110301286A CN 112686056 A CN112686056 A CN 112686056A
Authority
CN
China
Prior art keywords
context
semantic
representation
target
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110301286.7A
Other languages
English (en)
Other versions
CN112686056B (zh
Inventor
陈锦鹏
薛云
黄伟豪
代安安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202110301286.7A priority Critical patent/CN112686056B/zh
Publication of CN112686056A publication Critical patent/CN112686056A/zh
Application granted granted Critical
Publication of CN112686056B publication Critical patent/CN112686056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种情感分类方法,包括:获取上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵;根据上下文对应的词嵌入矩阵、目标词对应的词嵌入矩阵和第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示;根据目标词语义增强的上下文表示、上下文语义增强的目标词表示和语义选择模型,得到语义选择后的上下文表示;根据语义整合模型,提取目标句子对应的句法依存树中的句法表示;根据语义选择后的上下文表示、句法表示和第二语义激活模型,得到目标词对应的情感分类结果。相对于现有技术,本发明充分捕捉了上下文中与目标词相关的语义信息,又综合考虑上下文、目标词与句法之间的联系,提高了情感分类的准确性。

Description

一种情感分类方法
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种情感分类方法。
背景技术
由于用户留在论坛或电商平台上的评论对商家分析用户观点等方面具有重要意义,因此,情感分析受到越来越多的关注。情感分析是自然语言处理(Natural LanguageProcessing,NLP)中的重要任务,其目的在于对带有情感色彩的主观性文本进行分析。
目前,有很多方法用于对句子或文档的整体进行情感极性分类,然而,在一个句子或者文档中通常会具有不同的目标词,目标词的情感极性可能是不同的。如果直接进行整体的情感极性分类,就会导致对目标词的情感极性判断出现错误。因此,针对目标词的属性级情感分类方法越来越为重要。
现有技术中存在一些将神经网络与注意力机制相结合的方法用以进行属性级的情感分类,这些方法虽然能够克服浅层学习模型的缺陷,但是依旧存在如下问题:一方面,其不能充分捕捉上下文中与目标词相关的语义信息,在语义关系较远或者词序发生变化时易造成错误判断;另一方面,其没有考虑上下文和目标词与句法之间的联系,且由于缺乏句法的约束技术,可能会将句法上不相关的上下文单词识别为判断目标词情感分类的线索,降低了情感分类的准确性。
发明内容
为克服相关技术中存在的问题,本发明实施例提供了一种情感分类方法,包括如下步骤:
获取目标句子对应的词嵌入矩阵;其中,所述目标句子对应的词嵌入矩阵包括上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵;
根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示;
根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型,得到语义选择后的上下文表示;
获取所述目标句子对应的句法依存树,根据预设的语义整合模型,提取所述目标句子对应的句法依存树中的句法表示;
根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型,得到所述目标词对应的情感分类结果。
可选的,所述根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示,包括步骤:
根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的隐藏状态提取模型,得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵;
获取所述上下文与所述目标词之间的公共信息矩阵,根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的语义信息交互模型,得到目标词语义增强的上下文表示和上下文语义增强的目标词表示。
可选的,所述根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的隐藏状态提取模型,得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵,包括步骤:
对所述目标词对应的词嵌入矩阵进行平均池化,得到平均目标词向量;
根据所述平均目标词向量和所述上下文对应的词嵌入矩阵,得到融入目标词信息的上下文对应的词嵌入矩阵;
将所述目标词对应的词嵌入矩阵和所述融入目标词信息的上下文对应的词嵌入矩阵分别输入预设的GRU神经网络模型中,得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵。
可选的,所述获取所述上下文与所述目标词之间的公共信息矩阵,根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的语义信息交互模型,得到目标词语义增强的上下文表示和上下文语义增强的目标词表示,包括步骤:
根据所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的公共信息矩阵计算公式,得到所述公共信息矩阵;
根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的目标词语义增强计算公式,得到所述目标词语义增强的上下文表示;
根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的上下文语义增强计算公式,得到所述上下文语义增强的目标词表示。
可选的,所述根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型,得到语义选择后的上下文表示,包括步骤:
对所述上下文增强的目标词表示进行平均池化,得到目标词查询向量;
将所述目标词查询向量分别输入若干个单层注意力模型,得到若干个注意力系数矩阵;
获取若干个所述注意力系数矩阵相加后的平均值,得到语义选择抑制参数;
根据所述语义选择抑制参数和所述上下文对应的隐藏状态矩阵,得到所述语义选择后的上下文表示。
可选的,所述根据预设的语义整合模型,提取所述目标句子对应的句法依存树中的句法表示,包括步骤:
根据所述句法依存树,得到所述目标句子中的单词对应的邻接矩阵,其中,所述邻接矩阵表示所述目标句子中的单词的邻接关系;
将所述邻接矩阵输入预设的图卷积神经网络模型,得到所述目标句子的句法表示。
可选的,所述将所述邻接矩阵输入预设的图卷积神经网络模型,得到所述目标句子的句法表示,包括步骤:
将所述邻接矩阵和上一层的输出结果输入至预设图卷积运算公式中,得到当前层的输出结果,重复执行输入操作,直至得到所述预设的图卷积神经网络模型的输出层的输出结果,获取所述目标句子的句法表示。
可选的,所述根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型,得到所述目标词对应的情感分类结果,包括步骤:
提取所述语义选择后的上下文表示的局部特征和所述句法表示中的局部特征,得到目标语义表示和目标句法表示;
根据所述目标语义表示、所述目标句法表示和预设的情感极性分类函数,得到所述目标词对应的情感分类结果。
可选的,所述提取所述语义选择后的上下文表示的局部特征和所述句法表示中的局部特征,得到目标语义表示和目标句法表示,包括步骤:
将所述语义选择后的上下文表示输入预设的第一局部特征提取网络,得到所述语义选择后的上下文表示的局部特征;
将所述句法表示输入预设的第二局部特征提取网络,得到所述句法表示的局部特征;
对所述语义选择后的上下文表示的局部特征和所述句法表示的局部特征进行最大池化操作,得到所述目标语义表示和目标句法表示。
可选的,在根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示之前,包括步骤:
获取用于训练语义认知模型的训练集;其中,所述语义认知模型包括第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型;
基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述语义认知模型,更新所述语义认知模型内的训练参数,直至满足训练终止条件,得到训练好的语义认知模型。
本发明实施例通过获取目标句子对应的词嵌入矩阵;其中,所述目标句子对应的词嵌入矩阵包括上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵;根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示;根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型,得到语义选择后的上下文表示;获取所述目标句子对应的句法依存树,根据预设的语义整合模型,提取所述目标句子对应的句法依存树中的句法表示;根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型,得到所述目标词对应的情感分类结果。通过上述第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型模拟了双侧大脑的语义认知过程,使本方法既能够更充分捕捉上下文中与目标词相关的语义信息,减少无关信息的影响,又能综合考虑上下文和目标词与句法之间的联系,将句法信息融入在句法表示中,从而提升情感分类的准确性,并且,由于是分别进行语义信息和句法信息的提取,还能够有效避免信息的混杂,进一步改善情感分类的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明一个示例性实施例提供的情感分类方法的流程示意图;
图2为本发明一个示例性实施例提供的情感分类方法中S102的流程示意图;
图3为本发明一个示例性实施例提供的情感分类方法中S1021的流程示意图;
图4为本发明一个示例性实施例提供的情感分类方法中S1022的流程示意图;
图5为本发明一个示例性实施例提供的语义信息交互模型的内部结构示意图;
图6为本发明一个示例性实施例提供的情感分类方法中S103的流程示意图;
图7为本发明一个示例性实施例提供的多层平均注意力模型的内部结构示意图;
图8为本发明一个示例性实施例提供的情感分类方法中S104的流程示意图;
图9为本发明一个示例性实施例提供的句法依存树的示意图;
图10为本发明一个示例性实施例提供的邻接矩阵的示意图;
图11为本发明一个示例性实施例提供的情感分类方法中S105的流程示意图;
图12为本发明另一个示例性实施例提供的情感分类方法的流程示意图;
图13为本发明一个示例性实施例提供的语义认知模型的内部结构示意图;
图14为本发明一个示例性实施例提供的多层平均注意力中的层数对语义认知模型的准确率的影响结果示意图;
图15为本发明另一个示例性实施例提供的多层平均注意力中的层数对语义认知模型的准确率的影响结果示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语 “如果”/“若” 可以被解释成为 “在……时” 或“当……时” 或 “响应于确定”。
请参阅图1,图1为本发明一个示例性实施例提供的情感分类方法的流程示意图,所述方法由情感分类设备执行,包括如下步骤:
S101:获取目标句子对应的词嵌入矩阵;其中,所述目标句子对应的词嵌入矩阵包括上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵。
在本申请实施例中,所述目标句子中包括上下文和目标词。所述上下文中包括多个单词,所述目标词中包括至少一个单词。
所述上下文可以表示为
Figure 948132DEST_PATH_IMAGE001
,所述目标词可以表示为
Figure 599693DEST_PATH_IMAGE002
,其中,
Figure 113851DEST_PATH_IMAGE003
分别表示上下文中的单词,且上下文中一 共包括n个单词,
Figure 492748DEST_PATH_IMAGE004
分别表示目标词中的单词,且目标词中一共包括m个单词。
情感分类设备对上下文和目标词进行词嵌入处理,获取上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵。
其中,词嵌入处理是一种将文本进行数字化表示的处理方式,其能够将单词映射到高维的向量中以实现对单词的表示。若将多个单词分别映射到高维向量,那么得到的就是一个由多个高维向量组成的词嵌入矩阵。
在本申请实施例中,上下文对应的词嵌入矩阵表示为
Figure 41542DEST_PATH_IMAGE005
, 目标词对应的词嵌入矩阵表示为
Figure 598425DEST_PATH_IMAGE006
,其中,
Figure 599879DEST_PATH_IMAGE007
分别表示 上下文中每个单词对应的高维向量,
Figure 533200DEST_PATH_IMAGE008
分别表示目标词中每个单词对应的高维向 量,
Figure 670920DEST_PATH_IMAGE009
表示上下文对应的词嵌入矩阵为n行
Figure 398705DEST_PATH_IMAGE010
列的矩阵,
Figure 153034DEST_PATH_IMAGE011
表示上下文对应的词 嵌入矩阵为m行
Figure 873734DEST_PATH_IMAGE010
列,
Figure 131540DEST_PATH_IMAGE012
表示每个单词对应的高维向量的维度。
在一个可选的实施例中,进行词嵌入处理的方式可以是通过现有的词嵌入工具,例如GloVe或word2vec等,在本申请实施例中,基于GloVe的并行化处理以及利于处理大数据集的优势,采用GloVe对上下文和目标词进行词嵌入转换,获取上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵。
S102:根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示。
情感分类设备将所述上下文对应的词嵌入矩阵和所述目标词对应的词嵌入矩阵输入值预设的第一语义激活模型,得到目标词语义增强的上下文表示和上下文语义增强的目标词表示。
在本申请实施例中,所述第一语义激活模型用于将目标词的信息融入至上下文中,初步建立起目标词与上下文之间的关联。
所述第一语义激活模型也可以称之为左半球语义激活模型(Left HemisphereSemantic Activation, LH-SA),其是预先训练好并设置在情感分类设备中的模型,具体地,第一语义激活模型的训练过程可以在情感分类设备中进行,也可以在其他外部设备中进行,并在训练完成后移植至情感分类设备中。
在一个可选的实施例中,为更好地建立目标词与上下文之间的关联,使其交互过程中既不会损失自身的重要信息,由能够融入有用的相关信息,请参阅图2,步骤S102包括步骤S1021~S1022,具体如下:
S1021:根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的隐藏状态提取模型,得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵。
情感分类设备将所述上下文对应的词嵌入矩阵和所述目标词对应的词嵌入矩阵输入至预设的隐藏状态提取模型,得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵。
在本申请实施例中,所述预设的隐藏状态提取模型用于提取上下文和目标词中隐藏的状态信息,从而获取到含有更多语义信息的上下文对应的隐藏状态矩阵和目标词对应的隐藏状态矩阵。
在一个可选的实施例中,隐藏状态提取模型可以为任意一种循环神经网络模型,例如:LSTM长短期记忆网络模型、Bi-LSTM双向长短期记忆网络模型(Bidirectional LongShort-Term Memory networks,)、GRU神经网络模型或者Bi-GRU神经网络模型等。
具体地,为了提取到更为丰富的隐藏状态信息,请参阅图3,步骤S1021包括步骤S10211~S10213,如下:
S10211:对所述目标词对应的词嵌入矩阵进行平均池化,得到平均目标词向量。
情感分类设备根据目标词对应的词嵌入矩阵和预设的第一平均池化公式,得到平均目标词向量。
其中,预设的第一平均池化公式如下:
Figure 30226DEST_PATH_IMAGE013
Figure 6272DEST_PATH_IMAGE014
表示目标词中第i个单词对应的高维向量,m表示目标词中共有m个单词,
Figure 15817DEST_PATH_IMAGE015
表示平均目标词向量,
Figure 393708DEST_PATH_IMAGE016
表示平均目标词向量为1行
Figure 463296DEST_PATH_IMAGE010
列的向量。
S10212:根据所述平均目标词向量和所述上下文对应的词嵌入矩阵,得到融入目标词信息的上下文对应的词嵌入矩阵。
情感分类设备根据所述平均目标词向量和所述上下文对应的词嵌入矩阵,得到融 入目标词信息的上下文对应的词嵌入矩阵
Figure 175906DEST_PATH_IMAGE017
其中,
Figure 989141DEST_PATH_IMAGE018
表示融入目标词信息的上下文对应的词嵌入矩阵中的n个高 维向量,
Figure 221539DEST_PATH_IMAGE018
由上下文对应的词嵌入矩阵中的
Figure 727607DEST_PATH_IMAGE007
分别与
Figure 412666DEST_PATH_IMAGE015
拼接而 成,
Figure 29592DEST_PATH_IMAGE019
表示融入目标词信息的上下文对应的词嵌入矩阵为n行
Figure 116497DEST_PATH_IMAGE020
列的矩阵。
S10213:将所述目标词对应的词嵌入矩阵和所述融入目标词信息的上下文对应的词嵌入矩阵分别输入预设的GRU神经网络模型中,得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵。
预设的GRU神经网络模型一种门控循环神经网络模型,其相较于LSTM长短期记忆网络模型缺少一个门控,参数也更好,因此,采用预设的GRU神经网络模型能够高效地不做到上下文和目标词的隐藏信息。
本申请实施例中,所述GRU神经网络模型训练过程可以在情感分类设备中进行,也可以在其他外部设备中进行,并在训练完成后移植至情感分类设备中。
具体地,情感分类设备将所述目标词对应的词嵌入矩阵
Figure 793466DEST_PATH_IMAGE021
和所述融入目标词信息 的上下文对应的词嵌入矩阵
Figure 215089DEST_PATH_IMAGE022
分别输入预设的GRU神经网络模型中,得到所述上下文对应 的隐藏状态矩阵
Figure 370126DEST_PATH_IMAGE023
和所述目标词对应的隐藏状态矩阵
Figure 577117DEST_PATH_IMAGE024
其中,
Figure 424987DEST_PATH_IMAGE025
Figure 84639DEST_PATH_IMAGE026
Figure 43367DEST_PATH_IMAGE027
表示预设的GRU 神经网络模型,
Figure 573706DEST_PATH_IMAGE028
表示预设的GRU神经网络模型输出的上下文对应的隐藏状态矩阵
Figure 841745DEST_PATH_IMAGE029
是n行
Figure 988693DEST_PATH_IMAGE030
列的隐藏状态矩阵,所述目标词对应的隐藏状态矩阵
Figure 751112DEST_PATH_IMAGE031
均是m行
Figure 667116DEST_PATH_IMAGE030
列的隐藏状态 矩阵。
需要说明的是,关于GRU神经网络内部的运算公式均为现有技术,在此不进行展开说明。
S1022:获取所述上下文与所述目标词之间的公共信息矩阵,根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的语义信息交互模型,得到目标词语义增强的上下文表示和上下文语义增强的目标词表示。
情感分类设备首先获取所述上下文与所述目标词之间的公共信息矩阵。其中,所述公共信息矩阵是与上下文和目标词均相关的矩阵,其能够实现上下文信息与目标词信息交互的过程中,不会丧失与自身相关的重要信息,又能够加入与彼此相关的有用信息。
之后,情感分类设备将所述公共信息矩阵、所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵输入预设的语义信息交互模型,得到目标词语义增强的上下文表示和上下文语义增强的目标词表示。
其中,预设的第一语义激活模型中包括语义信息交互模型,语义信息交互模型(Information Interaction Module,IIM)其是预先训练好并设置在情感分类设备中的模型,具体地,语义信息交互模型的训练过程可以在情感分类设备中进行,也可以在其他外部设备中进行,并在训练完成后移植至情感分类设备中。
在一个可选的实施例中,请参阅图4,步骤S1022包括步骤S10221~S10223,具体如下:
S10221:根据所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的公共信息矩阵计算公式,得到所述公共信息矩阵。
情感分类设备根据所述上下文对应的隐藏状态矩阵
Figure 591209DEST_PATH_IMAGE023
、所述目标词对应的隐藏 状态矩阵
Figure 225453DEST_PATH_IMAGE024
和预设的公共信息矩阵计算公式,得到所述公共信息矩阵
Figure 525984DEST_PATH_IMAGE032
其中,预设的公共信息矩阵计算公式如下:
Figure 562073DEST_PATH_IMAGE033
Figure 906336DEST_PATH_IMAGE034
是一种现有的线性整流函数(Rectified Linear Unit,relu),
Figure 762296DEST_PATH_IMAGE035
表示
Figure 866519DEST_PATH_IMAGE036
是一个
Figure 225956DEST_PATH_IMAGE030
Figure 757431DEST_PATH_IMAGE030
列的可训练参数矩阵,
Figure 100688DEST_PATH_IMAGE037
表示目标词对应的隐藏状 态矩阵
Figure 257869DEST_PATH_IMAGE031
的转置,
Figure 2971DEST_PATH_IMAGE038
表示公共信息矩阵是一个n行m列的矩阵,
Figure 705348DEST_PATH_IMAGE039
,其中,
Figure 270321DEST_PATH_IMAGE041
表示公共信息矩阵中包括的各行向量。
S10222:根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的目标词语义增强计算公式,得到所述目标词语义增强的上下文表示。
情感分类设备根据所述公共信息矩阵
Figure 716346DEST_PATH_IMAGE032
、所述上下文对应的隐藏状态矩阵
Figure 315955DEST_PATH_IMAGE023
、 所述目标词对应的隐藏状态矩阵
Figure 189233DEST_PATH_IMAGE024
和预设的目标词语义增强计算公式,得到所述目标词 语义增强的上下文表示
Figure 756349DEST_PATH_IMAGE042
其中,预设的目标词语义增强计算公式如下:
Figure 740486DEST_PATH_IMAGE043
Figure 460180DEST_PATH_IMAGE044
,表示目标词语义增强的上下文表示
Figure 504359DEST_PATH_IMAGE045
是一个n行
Figure 309504DEST_PATH_IMAGE046
列的矩阵;
Figure 97332DEST_PATH_IMAGE047
,表示
Figure 671533DEST_PATH_IMAGE048
是一个
Figure 886613DEST_PATH_IMAGE046
Figure 162743DEST_PATH_IMAGE046
列的可训练参数矩阵,
Figure 754261DEST_PATH_IMAGE049
,表示
Figure 182968DEST_PATH_IMAGE050
是一个
Figure 303371DEST_PATH_IMAGE046
Figure 83108DEST_PATH_IMAGE046
列的可训练参数矩阵,
Figure 212738DEST_PATH_IMAGE051
含义均相同,不再赘述。
S10223:根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的上下文语义增强计算公式,得到所述上下文语义增强的目标词表示。
情感分类设备根据所述公共信息矩阵
Figure 495952DEST_PATH_IMAGE032
、所述上下文对应的隐藏状态矩阵
Figure 567682DEST_PATH_IMAGE023
、所述目标词对应的隐藏状态矩阵
Figure 569136DEST_PATH_IMAGE024
和预设的上下文语义增强计算公式,得到所述上下文 语义增强的目标词表示
Figure 502457DEST_PATH_IMAGE052
其中,预设的目标词语义增强计算公式如下:
Figure 640177DEST_PATH_IMAGE053
Figure 633541DEST_PATH_IMAGE054
,表示目标词语义增强的目标词表示
Figure 122291DEST_PATH_IMAGE055
是一个m行
Figure 593724DEST_PATH_IMAGE046
列的矩阵;
Figure 851530DEST_PATH_IMAGE047
,表示
Figure 265063DEST_PATH_IMAGE048
是一个
Figure 975530DEST_PATH_IMAGE046
Figure 250653DEST_PATH_IMAGE046
列的可训练参数矩阵;
Figure 628545DEST_PATH_IMAGE049
,表示
Figure 698132DEST_PATH_IMAGE050
是一个
Figure 161475DEST_PATH_IMAGE046
Figure 974710DEST_PATH_IMAGE046
列的可训练参数矩阵;
Figure 207108DEST_PATH_IMAGE056
含义均相同,不再赘述;
Figure 708583DEST_PATH_IMAGE057
表示公共信息矩阵
Figure 659221DEST_PATH_IMAGE058
的转置。
请参阅图5,其为本发明一个示例性实施例提供的语义信息交互模型的内部结构示意图。图5中更加形象化地展现了语义信息交互模型的内部处理过程。
S103:根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型,得到语义选择后的上下文表示。
预设的语义选择模型(Semantic Selection, SS)是一种语义交互过程,在情感分类设备基于预设的第一语义激活模型,获取到目标词语义增强的上下文表示和上下文语义增强的目标词表示之后,情感分类设备进一步将目标词语义增强的上下文表示和上下文语义增强的目标词表示输入至预设的语义选择模型,模拟了大脑的语义选择决策过程,从而实现从多个竞争信息中选择目标信息,并抑制无关信息。
在本申请实施例中,预设的语义选择模型是预先训练好并设置在情感分类设备中的模型,具体地,语义选择模型的训练过程可以在情感分类设备中进行,也可以在其他外部设备中进行,并在训练完成后移植至情感分类设备中。
在一个可选的实施例中,为实现更准确地语义选择,请参阅图6,步骤S103包括步骤S1031~S1034,具体如下:
S1031:对所述上下文增强的目标词表示进行平均池化,得到目标词查询向量。
情感分类设备根据上下文增强的目标词表示
Figure 276147DEST_PATH_IMAGE052
和预设的第二平均池化公式,得 到目标词查询向量
Figure 363052DEST_PATH_IMAGE059
其中,预设的第二平均池化公式如下:
Figure 40021DEST_PATH_IMAGE060
上下文增强的目标词表示
Figure 212376DEST_PATH_IMAGE061
Figure 367414DEST_PATH_IMAGE062
表示m个单词分别 对应的上下文增强的词向量表示,
Figure 574405DEST_PATH_IMAGE063
表示第i个单词对应的上下文增强的词向量表示,m为 上下文增强的目标词表示中单词的数量,
Figure 405963DEST_PATH_IMAGE064
表示目标词查询向量
Figure 65615DEST_PATH_IMAGE059
是一个1行
Figure 24343DEST_PATH_IMAGE065
列的 向量。
S1032:将所述目标词查询向量分别输入若干个单层注意力模型,得到若干个注意力系数矩阵。
在本申请实施例中,多层平均注意力模型(Multi-layered Average Attention,MLA-ATT)中包括若干个单层注意力模型,基于注意力机制的原理,利用其实现语义选择的认知过程。
其中,每个单层注意力模型也均是预先训练好并设置在情感分类设备中的模型,具体地,单层注意力模型的训练过程可以在情感分类设备中进行,也可以在其他外部设备中进行,并在训练完成后移植至情感分类设备中。
情感分类设备根据所述目标词查询向量
Figure 85840DEST_PATH_IMAGE059
和预设的单层注意力计算公式,得到若 干个注意力系数矩阵
Figure 104612DEST_PATH_IMAGE066
其中,预设的单层注意力计算公式如下:
Figure 251560DEST_PATH_IMAGE067
Figure 748400DEST_PATH_IMAGE068
其中,
Figure 664403DEST_PATH_IMAGE069
Figure 103344DEST_PATH_IMAGE070
表示是本申请实施例中的超参数,可以理解为多层平均注意力 模型共含有
Figure 472008DEST_PATH_IMAGE070
个单层注意力模型,也可以理解为对目标词查询向量共执行了
Figure 772540DEST_PATH_IMAGE070
次注意力 选择操作。
Figure 543050DEST_PATH_IMAGE071
表示现有的双曲正切函数;
Figure 903624DEST_PATH_IMAGE072
表示目标词语义增强的上下文表示;
Figure 25163DEST_PATH_IMAGE073
,表示
Figure 863806DEST_PATH_IMAGE074
是第k个单层注意力模型中
Figure 3670DEST_PATH_IMAGE075
Figure 535145DEST_PATH_IMAGE075
列的可训练参数矩阵;
Figure 878402DEST_PATH_IMAGE076
表示 目标词查询向量
Figure 786315DEST_PATH_IMAGE077
的转置;
Figure 531417DEST_PATH_IMAGE078
表示
Figure 233794DEST_PATH_IMAGE079
是一个1行
Figure 64347DEST_PATH_IMAGE075
列的全一向量,
Figure 244792DEST_PATH_IMAGE080
表示
Figure 359248DEST_PATH_IMAGE081
是一个1行n列的全一向量;
Figure 232526DEST_PATH_IMAGE082
表示
Figure 550375DEST_PATH_IMAGE081
的转置;
Figure 534511DEST_PATH_IMAGE083
,表示
Figure 254205DEST_PATH_IMAGE084
是第k个单层注意力 模型中1行
Figure 298385DEST_PATH_IMAGE075
列的可训练向量;
Figure 103530DEST_PATH_IMAGE085
表示
Figure 891357DEST_PATH_IMAGE086
是一个南岸行
Figure 714826DEST_PATH_IMAGE075
列的矩阵;
Figure 929906DEST_PATH_IMAGE087
表示现有的softmax激活函数;
Figure 956768DEST_PATH_IMAGE088
Figure 548286DEST_PATH_IMAGE089
表示
Figure 976994DEST_PATH_IMAGE090
是第k个n行
Figure 362976DEST_PATH_IMAGE075
列的注意力系数矩阵。
S1033:获取若干个所述注意力系数矩阵相加后的平均值,得到语义选择抑制参数。
情感分类设备根据若干个注意力系数矩阵
Figure 142713DEST_PATH_IMAGE090
和预设的求和平均公式,得到语义 选择抑制参数。
其中,预设的求和平均公式如下:
Figure 272343DEST_PATH_IMAGE091
Figure 804824DEST_PATH_IMAGE070
和k的含义与步骤S1032中的相同不再赘述,
Figure 627287DEST_PATH_IMAGE092
表示语义选择抑制参数,
Figure 628741DEST_PATH_IMAGE092
Figure 296483DEST_PATH_IMAGE093
表示
Figure 699782DEST_PATH_IMAGE092
是一个n行
Figure 693146DEST_PATH_IMAGE075
列的矩阵。
S1034:根据所述语义选择抑制参数和所述上下文对应的隐藏状态矩阵,得到所述语义选择后的上下文表示。
情感分类设备根据所述语义选择抑制参数
Figure 181896DEST_PATH_IMAGE092
和所述上下文对应的隐藏状态矩阵
Figure 918908DEST_PATH_IMAGE094
,得到语义选择后的上下文表示
Figure 176714DEST_PATH_IMAGE095
具体地,情感分类设备将语义选择抑制参数
Figure 324667DEST_PATH_IMAGE092
和上下文对应的隐藏状态矩阵
Figure 300714DEST_PATH_IMAGE094
进行点积操作,得到语义选择后的上下文表示
Figure 575837DEST_PATH_IMAGE095
Figure 688150DEST_PATH_IMAGE096
其中,
Figure 23316DEST_PATH_IMAGE097
表示矩阵之间的点积操作;
Figure 221079DEST_PATH_IMAGE095
Figure 299894DEST_PATH_IMAGE098
表示
Figure 532292DEST_PATH_IMAGE095
是一个n行
Figure 22048DEST_PATH_IMAGE075
列的矩阵。
请参阅图7,其为本发明一个示例性实施例提供的多层平均注意力模型的内部结构示意图。图7中更加形象化地展现了多层平均注意力模型的内部处理过程。
S104:获取所述目标句子对应的句法依存树,根据预设的语义整合模型,提取所述目标句子对应的句法依存树中的句法表示。
情感分类设备先获取所述目标句子对应的句法依存树,再根据句法依存树和预设的语义整合模型,提取目标句子对应的句法依存树中的句法表示。
在本申请实施例中,预设的语义整合模型(Semantic Integration, SI)用于提取目标句子对应的句法依存树中的句法表示,综合考虑上下文、目标词与句法之间的联系,把句法信息更好地融入至句法表示里。
所述语义整合模型是预先训练好并设置在情感分类设备中的模型,具体地,语义整合模型的训练过程可以在情感分类设备中进行,也可以在其他外部设备中进行,并在训练完成后移植至情感分类设备中。
所述句法依存树能够形象的体现出目标句子中单词的依存关系,在本申请实施例中,可以通过spaCy进行句法依存树的获取。
在一个可选的实施例中,请参阅图8,为更准确地获取句法表示,步骤S104包括步骤S1041~S1042,具体如下:
S1041:根据所述句法依存树,得到所述目标句子中的单词对应的邻接矩阵,其中,所述邻接矩阵表示所述目标句子中的单词的邻接关系。
情感分类设备根据句法依存树,得到所述目标句子中的单词对应的邻接矩阵。
其中,邻接矩阵表示所述目标句子中的单词的邻接关系。
请参阅图9和图10,图9为本发明一个示例性实施例提供的句法依存树的示意图,图10为本发明一个示例性实施例提供的邻接矩阵的示意图。
图9中所示的句法依存树中展现了目标句子“The price is reasonablealthough the service is poor”中单词的依存关系。图10为图9中所示的句法依存树对应的邻接矩阵。对于存在依存关系的两个单词,邻接矩阵中对应的值为1,不存在依存关系的两个单词,邻接矩阵中对应的值为0,单词与自身默认存在依存关系。
S1042:将所述邻接矩阵输入预设的图卷积神经网络模型,得到所述目标句子的句法表示。
预设的语义整合模型中包括图卷积神经网络模型。
所述图卷积神经网络(GCN)用于对图结构类型的数据进行处理,其中图结构即拓扑结构,也可以称之为非欧几里得结构,常见的图结构包括例如社交网络、信息网络等,能够很更好地整合句子中的句法,得到目标句子中的句法表示。
具体地,情感分类设备将所述邻接矩阵和上一层的输出结果输入至预设图卷积运 算公式中,得到当前层的输出结果,重复执行输入操作,直至得到所述预设的图卷积神经网 络模型的输出层的输出结果,获取所述目标句子的句法表示
Figure 972686DEST_PATH_IMAGE099
其中,预设图卷积运算公式如下:
Figure 589612DEST_PATH_IMAGE100
Figure 942096DEST_PATH_IMAGE101
Figure 353486DEST_PATH_IMAGE102
表示邻接矩阵的第i行第j列的值;
Figure 525842DEST_PATH_IMAGE103
表示第
Figure 946459DEST_PATH_IMAGE104
层的权重,是一个可训练参数,
Figure 887870DEST_PATH_IMAGE105
表示
Figure 735740DEST_PATH_IMAGE103
是一个
Figure 644659DEST_PATH_IMAGE075
Figure 603388DEST_PATH_IMAGE075
列的矩阵;
Figure 664885DEST_PATH_IMAGE106
表示预设的图卷积神经网络模型中第j 个单词的第
Figure 683656DEST_PATH_IMAGE107
层的输出结果;
Figure 565025DEST_PATH_IMAGE108
表示预设的图卷积神经网络模型中第i个单词的第
Figure 327444DEST_PATH_IMAGE104
层 的中间结果;
Figure 243448DEST_PATH_IMAGE109
表示第i个单词在句法依存树中的深度,
Figure 433121DEST_PATH_IMAGE110
表示第
Figure 316632DEST_PATH_IMAGE104
层的偏置, 是一个可训练参数;
Figure 617163DEST_PATH_IMAGE111
表示预设的图卷积神经网络模型中的激活函数;
Figure 387673DEST_PATH_IMAGE112
表示预设的 图卷积神经网络模型中第i个单词的第
Figure 748247DEST_PATH_IMAGE104
层的输出结果。
S105:根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型,得到所述目标词对应的情感分类结果。
预设的第二语义激活模型也可以称之为右半球语义激活模型(Right HemisphereSemantic Activation, RH-SA),其是一种粗略式的语义激活模型,其能够处理无语义关系或语义关系较远的单词。
所述预设的第二语义激活模型是一种预先训练好并设置在情感分类设备中的模型,具体地,第二语义激活模型的训练过程可以在情感分类设备中进行,也可以在其他外部设备中进行,并在训练完成后移植至情感分类设备中。
情感分类设备将语义选择后的上下文表示和句法表示输入预设的第二语义激活模型,得到所述目标词对应的情感分类结果。
在一个可选的实施例中,请参阅图11,为提高情感分类结果的准确性,步骤S105包括步骤S1051~S1052,具体如下:
S1051:提取所述语义选择后的上下文表示和所述句法表示中的局部特征,得到目标语义表示和目标句法表示。
情感分类设备提取所述语义选择后的上下文表示
Figure 604208DEST_PATH_IMAGE095
和所述句法表示中的局部特 征
Figure 974009DEST_PATH_IMAGE099
,得到目标语义表示
Figure 864605DEST_PATH_IMAGE113
和目标句法表示
Figure 396080DEST_PATH_IMAGE114
具体地,情感分类设备将所述语义选择后的上下文
Figure 739337DEST_PATH_IMAGE095
表示输入预设的第一局部特 征提取网络,得到所述语义选择后的上下文表示的局部特征
Figure 834201DEST_PATH_IMAGE115
在一个可选的实施例中,预设的第一局部特征提取网络为现有的CNN卷积神经网络。
其中,语义选择后的上下文表示的局部特征
Figure 579303DEST_PATH_IMAGE116
Figure 281680DEST_PATH_IMAGE117
含 义均相同,不再赘述;
Figure 112233DEST_PATH_IMAGE118
表示卷积操作;
Figure 558257DEST_PATH_IMAGE119
表示第一局部特征提取网络中的第
Figure 672713DEST_PATH_IMAGE120
个可训练 的卷积核;
Figure 545991DEST_PATH_IMAGE121
表示第一局部特征提取网络中的第
Figure 598260DEST_PATH_IMAGE120
个可训练的偏置。
之后,情感分类设备将所述句法表示
Figure 847976DEST_PATH_IMAGE099
输入预设的第二局部特征提取网络,得到 所述句法表示的局部特征
Figure 833250DEST_PATH_IMAGE122
在一个可选的实施例中,预设的第二局部特征提取网络为现有的CNN卷积神经网络。
其中,句法表示的局部特征
Figure 877429DEST_PATH_IMAGE123
Figure 416995DEST_PATH_IMAGE124
含义均相同,不再 赘述;
Figure 204822DEST_PATH_IMAGE118
表示卷积操作;
Figure 779023DEST_PATH_IMAGE125
表示第二局部特征提取网络中的第
Figure 243371DEST_PATH_IMAGE126
个可训练的卷积核;
Figure 535812DEST_PATH_IMAGE127
表示第二局部特征提取网络中的第
Figure 861752DEST_PATH_IMAGE126
个可训练的偏置。
对于第一局部特征提取网络和第二局部特征提取网络中的卷积步长可以进行合理化设置,在此不进行限定。
最后,情感分类设备对所述语义选择后的上下文表示的局部特征
Figure 821617DEST_PATH_IMAGE115
和所述句法 表示的局部特征
Figure 207599DEST_PATH_IMAGE122
进行最大池化操作,得到所述目标语义表示
Figure 721757DEST_PATH_IMAGE128
和目标句法表示
Figure 585808DEST_PATH_IMAGE129
其中,
Figure 134601DEST_PATH_IMAGE130
Figure 940752DEST_PATH_IMAGE131
Figure 942206DEST_PATH_IMAGE132
表示最大池化操作(Max pooling);
Figure 875527DEST_PATH_IMAGE133
表示第一局部特征提取网络内卷积 核的数量,第二局部特征提取网络内卷积核数量也为
Figure 278826DEST_PATH_IMAGE133
Figure 6611DEST_PATH_IMAGE134
表示拼接操作。
S1052:根据所述目标语义表示、所述目标句法表示和预设的情感极性分类函数,得到所述目标词对应的情感分类结果。
情感分类设备根据目标语义表示
Figure 495361DEST_PATH_IMAGE128
、目标句法表示
Figure 232373DEST_PATH_IMAGE129
和预设的情感极性分类函 数,得到所述目标词对应的情感分类结果
Figure 755758DEST_PATH_IMAGE135
预设的情感极性分类函数如下:
Figure 654444DEST_PATH_IMAGE136
Figure 879758DEST_PATH_IMAGE137
其中,
Figure 154881DEST_PATH_IMAGE138
表示将两个向量前后拼接;
Figure 267194DEST_PATH_IMAGE139
表示将目标语义表示和目标句法表示拼接 后的结果;
Figure 602360DEST_PATH_IMAGE140
表示现有的softmax激活函数;
Figure 800124DEST_PATH_IMAGE141
表示情感分类的种类数量;
Figure 878938DEST_PATH_IMAGE142
Figure 845757DEST_PATH_IMAGE143
均为可训练参数;i表示一个累加变量。
本发明实施例通过获取目标句子对应的词嵌入矩阵;其中,所述目标句子对应的词嵌入矩阵包括上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵;根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示;根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型,得到语义选择后的上下文表示;获取所述目标句子对应的句法依存树,根据预设的语义整合模型,提取所述目标句子对应的句法依存树中的句法表示;根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型,得到所述目标词对应的情感分类结果。通过上述第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型模拟了双侧大脑的语义认知过程,使本方法既能够更充分捕捉上下文中与目标词相关的语义信息,减少无关信息的影响,又能综合考虑上下文和目标词与句法之间的联系,将句法信息融入在句法表示中,从而提升情感分类的准确性,并且,由于是分别进行语义信息和句法信息的提取,还能够有效避免信息的混杂,进一步改善情感分类的效果。
在另一个实施例中,请参阅图12,所述情感分类方法还包括步骤S106~S107,具体如下:
S106:获取用于训练所述语义认知模型的训练集;其中,所述语义认知模型包括第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型。
情感分类设备获取训练语义认知模型的训练集。其中,语义认知模型(BSSCN)包括第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型。
关于第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型已上述说明,不再赘述。
S107:基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述语义认知模型,更新所述语义认知模型内的训练参数,直至满足训练终止条件,得到训练好的语义认知模型。
情感分类设备基于训练集、预设的反向传播算法和预设的损失函数迭代训练语义认知模型,更新语义认知模型内的训练参数,直至满足训练终止条件,得到训练好的语义认知模型。
其中,训练参数包括第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型中所有可训练参数。
在本申请实施例中,预设的损失函数为
Figure 617404DEST_PATH_IMAGE144
正则化的交叉熵函数,具体如下:
Figure 302463DEST_PATH_IMAGE145
预设的反向传播算法中计算梯度和更新参数的公式如下:
Figure 180376DEST_PATH_IMAGE146
Figure 267280DEST_PATH_IMAGE147
表示训练集中目标词的真实情感分类结果,
Figure 944249DEST_PATH_IMAGE148
为预设的情感分类结果,
Figure 116605DEST_PATH_IMAGE149
Figure 537222DEST_PATH_IMAGE144
正 则项的权重,
Figure 478633DEST_PATH_IMAGE150
为学习率,i表示情感分类的类别的下标表示,
Figure 326503DEST_PATH_IMAGE151
表示可训练参数,
Figure 986155DEST_PATH_IMAGE152
表 示关于
Figure 194151DEST_PATH_IMAGE151
的损失函数,
Figure 255648DEST_PATH_IMAGE153
表示计算出的梯度。
在本实施例中,通过训练集对语义认知模型进行训练,能够尽可能地优化语义认知模型中的每个模型的可训练参数,提高情感分类的准确性。
请参阅图13,其为本发明一个示例性实施例提供的语义认知模型的内部结构示意图。图13中更加形象化地展现了语义认知模型(BSSCN)的内部处理过程。
下面将对本申请实施例提出的情感分类方法进行实验论证,论证过程如下:
一、数据集及实验设置:
选取SemEval 2014 Task4数据集里的Laptop14评论数据集(数据集1)和Restaurant14(数据集2)和、Dong等人收集并公开的ACL 14 上的Twitter数据集(数据集3),这些数据集里的每个评论都由句子、句子里的上下文和目标词以及目标词对应的情感标签(情感分为消极、中性、积极三类)组成。
三个数据集的分布统计结果如表1所示:
Figure 274419DEST_PATH_IMAGE154
在实验中,我们使用300维的Glove词向量来初始化上下文及目标词,获取上下文 对应的词嵌入矩阵和目标词对应的词嵌入矩阵,所有的参数矩阵通过均匀分布
Figure 421367DEST_PATH_IMAGE155
来初始化产生,偏置的初始值均为0。模型采用Adam优化器。为了防止过拟 合,我们还设置了Dropout rate为0.5。除此之外,我们设置学习率为0.0005,
Figure 183787DEST_PATH_IMAGE156
正则项的 权重设置为0.0001。
二、基线模型:
为验证模型的有效性,我们将BSSCN与以下描述的几种最新方法做对比:
1、基于句法的模型Syntax-aware models:
(1)模型1:LSTM+SynATT,提出将注意力机制与句法信息相结合以提高注意力机制的效果。
(2)模型2:ASGCN,同时利用依存树距离和句法信息构图,在此基础上使用GCN,提高了模型效果。
(3)模型3:CDT,结合GCN与Bi-LSTM模型,以获取句子的结构信息和上下文信息,之后将这两个信息用于情感分析。
(4)模型4:TD-GAT,利用了词之间的依赖关系并结合GAT,更加有针对性的进行属性级情感分析。
(5)模型5:BiGCN,提出使用词汇图来获取全局单词共现信息,并在每个词汇图与句法图建立概念层次结构以单独处理多种功能关系,并使两者协同工作。
2、基于注意力的模型Attention-based models:
(1)模型6:ATAE-LSTM,通过拼接目标词与上下文,然后通过LSTM编码,学习不同的目标词在上下文的句子表示,最后通过注意力机制获取最终的句子表示。
(2)模型7:IAN,提出一种交互注意力捕获上下文与目标词的联系,使得最终的表示里更好地考虑了目标词信息。
(3)模型8:RAM,提出一种多跳注意力以更好地获取远距离的上下文与目标词之间的联系。
(4)模型9:MGAN,提出一种同时使用细粒度和粗粒度注意力的多粒度注意力机制来捕获目标词和上下文之间的单词级别的交互信息。
(5)模型10:IACapsNet,使用胶囊网络来处理重叠的情感特征,并将交互注意力引入胶囊网络中。
3、类人认知模型Human-likecognition models:
(1)模型11:HSCN,提出模拟人类阅读认知的三个过程(pre-reading, activereading, andpost-reading)的情感分析模型,并设计对应的功能模块。
(2)模型12:HHAS,首次利用先验情感知识和强化学习来模拟人类阅读认知过程并用于属性级情感分析。
三、对比结果与分析:
在实验中,使用准确率(Accuracy)和宏观综合值(MacroF1)作为评价指标来验证模型。我们将对比模型分为三大类,基于句法的模型、基于注意力的模型和类人认知模型,并分别与它们对比,为评估结果的稳定性,我们还运行了10次本申请实施例提出的语义认知模型(BSSCN模型),并计算了均值和标准差,语义认知模型在Laptop14、 Restaurant14、Twitter等3个数据集结果如表2所示。结果显示语义认知模型在准确率和MacroF1分数大多优于其他对比模型,这证明了语义认知模型的有效性。
对比于其它基于句法的模型,语义认知模型的准确率和MacroF1分数均有明显提升。CDT模型相比于LSTM+SynATT、ASGCN等几个模型,其对于句法信息的融合更为深入,并且最终只取目标词位置的输出作为情感表示可以去除其它无关信息的影响,所以效果优于其它模型,而语义认知模型选择将语义信息与句法信息分开计算以避免信息相互干扰,最后拼接作为最终表示用于情感分类。相比于这部分里面表现最好的CDT模型,语义认知模型在这3个数据集分别提高了0.55%,0.29%和0.48%。这说明了对于句法信息的利用方式和信息的处理上,语义认知模型表现的更优秀。
在基于注意力模型部分,语义认知模型表现出最好的性能。IACapsNet模型对比于ATAE-LSTM、IAN、MGAN等基线模型,加入胶囊网络来保持句子的整体结构信息,因此效果优于其它基线模型。而我们的语义认知模型则即改进注意力机制以获取与目标词更相关的上下文信息,又加入了句法信息,并分开计算,这样既可以获取目标词的相关语义信息,也可以保持句子结构信息。语义认知模型相比于表现最好的IACapsNet模型,在3个数据集上分别提高了0.94%,0.80%和0.13%,MacroF1分数均有明显提升。
对比于其它类人感知模型,语义认知模型整体表现更为优秀。HSCN模型模拟人类阅读认知的3个过程,并在回读阶段调整语义偏差。HHSN模型在HSCN的基础之上,重新设计了类人阅读认知3个过程,并以情感信息为先验知识,以强化学习来优化回读阶段,以增强目标词相关的语义表示。但这两个模型都只考虑了句子的语义信息,而语义认知模型既考虑了语义信息,还考虑句子的句法信息,实验结果证明我们想法的有效性。语义认知模型比使用了Elmo词嵌入的HHSN模型在Laptop和Twitter数据集分别提升了0.24%,2.74%。
语义认知模型在Rest14上表现最好,Laptop14次之,Twitter效果最差。可能是因为Laptop14和Rest14对于句法信息较敏感,而Twitter的口语化表达较多,且含有大量未登录词,所以导致效果最低。我们将在消融实验部分验证这些猜想。
Figure 99790DEST_PATH_IMAGE157
表2的验证结果单位为(%),最优结果用粗体标出,”-”表示对应的方法没有给出该结果,”*”表示使用了Elmo词嵌入,未特殊说明的方法均使用Glove词嵌入,每个方法后面的括号内的数字表示方法提出的年份。本模型结果后的括号内表示均值及标准差。
四、消融学习及分析:
为了分析语义认知模型(BSSCN模型)各个子模型(也可以称之为模块)的影响和验证上一个小节的猜想,我们分别去除了语义信息交互模型(IIM模型)、多层平均注意力模型(MLA-ATT模型)、含GCN的语义整合模型(SI模型)、第二语义激活模型(RH-SA模型)。我们在表3展示了实验结果。结果显示,总体上来看,MLA-ATT模型对于模型性能的影响最大,这是因为这个模型主要负责选择目标词相关语义信息,并抑制无关语义信息,而提取目标词的语义信息的效率会直接影响情感分类的效率。除此之外,我们还可以看到RH-SA对3个数据集均有明显影响,验证了模拟粗略式的语义激活的RH-SA模型确实可以补充和完善语义表示。IIM的消融结果表明在进行信息选择前先进行信息交互有利于提取更多目标词相关的语义表示。而对于Twitter我们可以观察到对它影响最小的是消除了能补充句法信息的含GCN的SI模型,这也证明了Twitter确实相比于其它两个数据集对句法信息不敏感的猜想。但我们的模型同时考虑了语义信息与句法信息,并分开处理,最后拼接融合,才能3个数据集上获得最佳性能。
Figure 289463DEST_PATH_IMAGE158
上方表3的消融实验结果单位为(%),最优结果用粗体标出。
MLA-ATT层数分析及案例分析:
在这一个小节里面,我们探索了多层平均注意力模型(MLA-ATT模型)的层数K对于实验结果的影响。除此之外,我们还将举例并可视化MLA-ATT模型过程,以说明其有效性。为此我们在Laptop14,Restaurant14和Twitter数据集上分别测试了本文BSSCN模型在的性能,以准确率为评价指标,实验结果图14所示:
从图中我们可以明显观察到,图14中的图表的横坐标为多层平均注意力模型的层 数,用k表示,当
Figure 658127DEST_PATH_IMAGE159
时,三个数据集下的模型都可以取得最高的准确率(77.74%,82.59%, 75.14%),这表明了MLA-ATT的对多个注意力层求平均的思想确实能够提升模型的性能,尤 其是在
Figure 958659DEST_PATH_IMAGE159
时。我们猜测这可能和注意力机制的计算缺陷有关,注意力机制是基于两个词 的词嵌入计算的,这就导致了有可能会使得两个句法关系较远或者语义关系较远的词被分 配错误的权重,故我们选择了一个案例“The price is reasonable although the service is poor”,以“price”为目标词,以并可视化其注意力计算过程以验证这个猜测, 结果如图15所示。
从图15中我们可以看到在MLA-ATT计算过程中的第5层,对于目标“price”,它把主要的注意力权重分配给了目标“service”的情感词“poor”,而给了自己的情感词“reasonable”分配了一个极小的权重,这无疑会导致最终的情感分类结果出现误差。我们推断出现分配错误的原因一个可能是词嵌入的影响,导致根据语义计算上出现错误,另一个可能是因为训练时参数矩阵的初始化及更新的影响。但我们可以看到这种错误出现的次数只要能够小于正确分配的次数,就能减小偏差,从而改善模型性能。所以我们使用一种多层相加然后求平均的思想来消除偏差。图15中的最后输出也验证了这种想法的可行性。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种情感分类方法,其特征在于,包括步骤:
获取目标句子对应的词嵌入矩阵;其中,所述目标句子对应的词嵌入矩阵包括上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵;
根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示;
根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型,得到语义选择后的上下文表示;
获取所述目标句子对应的句法依存树,根据预设的语义整合模型,提取所述目标句子对应的句法依存树中的句法表示;
根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型,得到所述目标词对应的情感分类结果。
2.根据权利要求1所述的情感分类方法,其特征在于,所述根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示,包括步骤:
根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的隐藏状态提取模型,得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵;
获取所述上下文与所述目标词之间的公共信息矩阵,根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的语义信息交互模型,得到目标词语义增强的上下文表示和上下文语义增强的目标词表示。
3.根据权利要求2所述的情感分类方法,其特征在于,所述根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的隐藏状态提取模型,得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵,包括步骤:
对所述目标词对应的词嵌入矩阵进行平均池化,得到平均目标词向量;
根据所述平均目标词向量和所述上下文对应的词嵌入矩阵,得到融入目标词信息的上下文对应的词嵌入矩阵;
将所述目标词对应的词嵌入矩阵和所述融入目标词信息的上下文对应的词嵌入矩阵分别输入预设的GRU神经网络模型中,得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵。
4.根据权利要求2所述的情感分类方法,其特征在于,所述获取所述上下文与所述目标词之间的公共信息矩阵,根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的语义信息交互模型,得到目标词语义增强的上下文表示和上下文语义增强的目标词表示,包括步骤:
根据所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的公共信息矩阵计算公式,得到所述公共信息矩阵;
根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的目标词语义增强计算公式,得到所述目标词语义增强的上下文表示;
根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的上下文语义增强计算公式,得到所述上下文语义增强的目标词表示。
5.根据权利要求1所述的情感分类方法,其特征在于,所述根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型,得到语义选择后的上下文表示,包括步骤:
对所述上下文增强的目标词表示进行平均池化,得到目标词查询向量;
将所述目标词查询向量分别输入若干个单层注意力模型,得到若干个注意力系数矩阵;
获取若干个所述注意力系数矩阵相加后的平均值,得到语义选择抑制参数;
根据所述语义选择抑制参数和所述上下文对应的隐藏状态矩阵,得到所述语义选择后的上下文表示。
6.根据权利要求1所述的情感分类方法,其特征在于,所述根据预设的语义整合模型,提取所述目标句子对应的句法依存树中的句法表示,包括步骤:
根据所述句法依存树,得到所述目标句子中的单词对应的邻接矩阵,其中,所述邻接矩阵表示所述目标句子中的单词的邻接关系;
将所述邻接矩阵输入预设的图卷积神经网络模型,得到所述目标句子的句法表示。
7.根据权利要求6所述的情感分类方法,其特征在于,所述将所述邻接矩阵输入预设的图卷积神经网络模型,得到所述目标句子的句法表示,包括步骤:
将所述邻接矩阵和上一层的输出结果输入至预设图卷积运算公式中,得到当前层的输出结果,重复执行输入操作,直至得到所述预设的图卷积神经网络模型的输出层的输出结果,获取所述目标句子的句法表示。
8.根据权利要求1所述的情感分类方法,其特征在于,所述根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型,得到所述目标词对应的情感分类结果,包括步骤:
提取所述语义选择后的上下文表示的局部特征和所述句法表示中的局部特征,得到目标语义表示和目标句法表示;
根据所述目标语义表示、所述目标句法表示和预设的情感极性分类函数,得到所述目标词对应的情感分类结果。
9.根据权利要求8所述的情感分类方法,其特征在于,所述提取所述语义选择后的上下文表示的局部特征和所述句法表示中的局部特征,得到目标语义表示和目标句法表示,包括步骤:
将所述语义选择后的上下文表示输入预设的第一局部特征提取网络,得到所述语义选择后的上下文表示的局部特征;
将所述句法表示输入预设的第二局部特征提取网络,得到所述句法表示的局部特征;
对所述语义选择后的上下文表示的局部特征和所述句法表示的局部特征进行最大池化操作,得到所述目标语义表示和目标句法表示。
10.根据权利要求1所述的情感分类方法,其特征在于,在根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型,获取目标词语义增强的上下文表示和上下文语义增强的目标词表示之前,包括步骤:
获取用于训练语义认知模型的训练集;其中,所述语义认知模型包括第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型;
基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述语义认知模型,更新所述语义认知模型内的训练参数,直至满足训练终止条件,得到训练好的语义认知模型。
CN202110301286.7A 2021-03-22 2021-03-22 一种情感分类方法 Active CN112686056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110301286.7A CN112686056B (zh) 2021-03-22 2021-03-22 一种情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110301286.7A CN112686056B (zh) 2021-03-22 2021-03-22 一种情感分类方法

Publications (2)

Publication Number Publication Date
CN112686056A true CN112686056A (zh) 2021-04-20
CN112686056B CN112686056B (zh) 2021-07-06

Family

ID=75455733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110301286.7A Active CN112686056B (zh) 2021-03-22 2021-03-22 一种情感分类方法

Country Status (1)

Country Link
CN (1) CN112686056B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883741A (zh) * 2021-04-29 2021-06-01 华南师范大学 基于双通道图神经网络的特定目标情感分类方法
CN113254637A (zh) * 2021-05-07 2021-08-13 山东师范大学 一种融合语法的方面级文本情感分类方法及系统
CN113449110A (zh) * 2021-08-30 2021-09-28 华南师范大学 情感分类方法、装置、存储介质及计算机设备
CN114297390A (zh) * 2021-12-30 2022-04-08 江南大学 一种长尾分布场景下的方面类别识别方法及系统
CN114722808A (zh) * 2022-03-14 2022-07-08 天津大学 基于多上下文和多词段图卷积网络的特定目标情感识别模型

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
US20170308267A1 (en) * 2016-04-26 2017-10-26 International Business Machines Corporation Contextual determination of emotion icons
CN107491531A (zh) * 2017-08-18 2017-12-19 华南师范大学 基于集成学习框架的中文网络评论情感分类方法
CN109408823A (zh) * 2018-10-31 2019-03-01 华南师范大学 一种基于多通道模型的特定目标情感分析方法
US20200104313A1 (en) * 2018-09-19 2020-04-02 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN111813895A (zh) * 2020-08-07 2020-10-23 深圳职业技术学院 一种基于层次注意力机制和门机制的属性级别情感分析方法
CN112131383A (zh) * 2020-08-26 2020-12-25 华南师范大学 特定目标的情感极性分类方法
CN112417157A (zh) * 2020-12-15 2021-02-26 华南师范大学 一种基于深度学习网络的文本属性词的情感分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
US20170308267A1 (en) * 2016-04-26 2017-10-26 International Business Machines Corporation Contextual determination of emotion icons
CN107491531A (zh) * 2017-08-18 2017-12-19 华南师范大学 基于集成学习框架的中文网络评论情感分类方法
US20200104313A1 (en) * 2018-09-19 2020-04-02 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning
CN109408823A (zh) * 2018-10-31 2019-03-01 华南师范大学 一种基于多通道模型的特定目标情感分析方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN111813895A (zh) * 2020-08-07 2020-10-23 深圳职业技术学院 一种基于层次注意力机制和门机制的属性级别情感分析方法
CN112131383A (zh) * 2020-08-26 2020-12-25 华南师范大学 特定目标的情感极性分类方法
CN112417157A (zh) * 2020-12-15 2021-02-26 华南师范大学 一种基于深度学习网络的文本属性词的情感分类方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883741A (zh) * 2021-04-29 2021-06-01 华南师范大学 基于双通道图神经网络的特定目标情感分类方法
CN112883741B (zh) * 2021-04-29 2021-07-27 华南师范大学 基于双通道图神经网络的特定目标情感分类方法
CN113254637A (zh) * 2021-05-07 2021-08-13 山东师范大学 一种融合语法的方面级文本情感分类方法及系统
CN113449110A (zh) * 2021-08-30 2021-09-28 华南师范大学 情感分类方法、装置、存储介质及计算机设备
CN113449110B (zh) * 2021-08-30 2021-12-07 华南师范大学 情感分类方法、装置、存储介质及计算机设备
CN114297390A (zh) * 2021-12-30 2022-04-08 江南大学 一种长尾分布场景下的方面类别识别方法及系统
CN114297390B (zh) * 2021-12-30 2024-04-02 江南大学 一种长尾分布场景下的方面类别识别方法及系统
CN114722808A (zh) * 2022-03-14 2022-07-08 天津大学 基于多上下文和多词段图卷积网络的特定目标情感识别模型

Also Published As

Publication number Publication date
CN112686056B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN112686056B (zh) 一种情感分类方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
Abdullah et al. SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning
CN110096711B (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN106844368A (zh) 用于人机对话的方法、神经网络系统和用户设备
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN107704456B (zh) 识别控制方法以及识别控制装置
Xiao et al. Behavioral coding of therapist language in addiction counseling using recurrent neural networks.
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN109992779A (zh) 一种基于cnn的情感分析方法、装置、设备及存储介质
CN106782501A (zh) 基于人工智能的语音特征提取方法和装置
CN107798349A (zh) 一种基于深度稀疏自编码机的迁移学习方法
Guan et al. Autoattend: Automated attention representation search
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN115329779A (zh) 一种多人对话情感识别方法
CN112905772B (zh) 语义相关性分析方法、装置及相关产品
Halvardsson et al. Interpretation of swedish sign language using convolutional neural networks and transfer learning
Wu et al. Speech emotion recognition using sequential capsule networks
CN113656564A (zh) 一种基于图神经网络的电网业务对话数据情感检测方法
CN113157919A (zh) 语句文本方面级情感分类方法及系统
CN114254645A (zh) 一种人工智能辅助写作系统
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant