CN115510226A

CN115510226A - 一种基于图神经网络的情感分类方法

Info

Publication number: CN115510226A
Application number: CN202211070367.1A
Authority: CN
Inventors: 廖清; 汤思雨; 柴合言; 王晔; 高翠芸; 方滨兴
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-23
Anticipated expiration: 2042-09-02
Also published as: CN115510226B

Abstract

本申请属于自然语言处理技术领域，公开了一种基于图神经网络的情感分类方法。通过利用BERT编码器得到文本句的上下文表示；基于句法依赖树，构建初始邻接矩阵；使用Glove词向量模型将初始邻接矩阵映射成初始化邻接矩阵表示；构建根选择分数向量和初始化邻接矩阵表示输入到结构归纳器中，获取潜在图以及语义图；将潜在图和语义图输入到图卷积神经网络中得到潜在图表示和语义图表示，将其结合交互得到经过语义信息增强的潜在图表示和与潜在图交互后的语义图表示；进一步获取用于情感分析的特征表示，经过平均池化操作得到最终特征表示，输入到图卷积网络的线性层，得到文本句的情感极性。实现更好的关联方面词与意见词，提高情感分类的准确性。

Description

一种基于图神经网络的情感分类方法

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种基于图神经网络的情感分类方法。

背景技术

情感分类是自然语言处理技术领域中热门的文本分类问题，而方面级情感分析则是更加细粒度的情感分类，其主要目标是确定文本中给定具体方面词所对应的情感极性，例如积极、消极或中立。通过分析社交媒体中这些用户产生的数据，可以自动监控舆论并协助作出决策。为了将方面词和对应表达情感的意见词联系，目前的深度学习方法通常使用图卷积网络利用文本的句法依赖树对文本进行情感分析。现有的方面级情感分析方法主要分为基于各种注意力机制的深度学习方法和基于图神经网络的深度学习方法。其中基于各种注意力机制的深度学习方法将注意力机制和长短期记忆网络(LSTM)、循环神经网络(RNN)等结合，来生成特定于方面词的句子表示。但是由于社交媒体文本的句法复杂性和文本中多方面词问题，具有缺陷的注意力机制很容易受句子噪音的影响，无法成功注意到对应意见词。

更多研究者专注于探索基于图神经网络的深度学习方法，主要是可以利用输入的句子通过归纳方法自动地生成动态的为任务量身定做的潜在图。然而现有的方法使用动态生成潜在图，潜在图缺失句法依赖树的远距离句法连接关系和句法关系标签信息；其次由于归纳得到潜在图的过程中缺乏约束，导致图无法正确地关联方面词和对应的意见词，从而降低了情感分类模型的性能。

发明内容

为此，本申请的实施例提供了一种基于图神经网络的情感分类方法，实现了更好的关联方面词与意见词，提高情感分类的准确率。

第一方面，本申请提供一种基于图神经网络的情感分类方法。

本申请是通过以下技术方案得以实现的：

一种基于图神经网络的情感分类方法，所述方法包括：

将获取的文本句输入BERT编码器中，得到所述文本句的上下文表示；

基于文本句的句法依赖树，构建所述文本句的初始邻接矩阵；

使用Glove词向量模型将所述初始邻接矩阵映射成非负的初始化邻接矩阵表示；

构建根选择分数向量，将所述根选择分数向量和所述初始化邻接矩阵表示输入到结构归纳器中，基于拉普拉斯变体矩阵来计算边际概率，基于所述边际概率得到所述文本句的归纳后的潜在图G^lat以及基于多头注意力机制得到所述文本句的语义图G^sem；

将所述潜在图G^lat和所述语义图G^sem输入到图神经网络中分别得到潜在图表示

和语义图表示

结合所述潜在图表示

和所述语义图表示

得到经过语义信息增强的潜在图表示H_g-lat和与潜在图交互后的语义图表示；

基于所述语义信息增强的潜在图表示H_g-lat和所述与潜在图交互后的语义图表示H_g-sem，通过设计掩码矩阵得到用于情感分析的特征表示，将所述特征表示进行平均池化操作得到最终特征表示，将所述最终特征表示输入到图神经网络的线性层，得到所述文本句的方面词的情感极性。

在本申请一较佳的示例中可以进一步设置为，所述将获取的文本句输入BERT编码器中的步骤还包括：

将所述文本句与所述文本句的方面词结合，并在其中加入第一预设符号和第二预设符号，得到所述文本句的方面对。

在本申请一较佳的示例中可以进一步设置为，

将单词作为节点和句法依赖树中单词之间的依赖关系类型作为边，构建所述文本句的初始邻接矩阵A_ij：

其中，r_ij表示文本句中第i个单词w_i和第j个单词w_j之间的依赖关系类型，i，j＝1…n，W₁ ^a表示线性映射层的权重，

表示softmax层的权重，

表示线性映射层的偏置，

表示softmax层的偏置。

在本申请一较佳的示例中可以进一步设置为，所述构建根选择分数向量表示为：

r_i＝exp(W^rh_i+b^r)，i＝1…n

其中，W^r表示计算潜在结构根的神经网络层的权重，b^r表示计算潜在结构根的神经网络的偏置，h_i表示输入文本句中第i个词的上下文特征。

在本申请一较佳的示例中可以进一步设置为，所述基于拉普拉斯变体矩阵来计算边际概率的步骤中拉普拉斯变体矩阵表示为：

边际概率表示为：

其中，r_i表示文本句中的第i个单词被选择为潜在结构根的概率分数，P_ij表示第i个单词与第j个单词之间的潜在依赖连接的边际概率，

表示拉普拉斯变体矩阵的对角线，

表示拉普拉斯变体矩阵的第j行第i列。

在本申请一较佳的示例中可以进一步设置为，在所述构建根选择分数向量，将所述根选择分数向量和所述初始化邻接矩阵表示输入到结构归纳器中，基于拉普拉斯变体矩阵来计算边际概率的步骤中引入根细化策略，具体公式为：

其中，

为第i个单词为结构根的概率，p_i∈{0，1}表示第i个单词是否是方面词。在本申请一较佳的示例中可以进一步设置为，所述基于多头注意力机制得到所述文本句的语义图G^sem的过程表示为：

其中，K为多头自注意力机制的注意头数量，对于自注意力Q＝K，

分别为模型的可训练参数，D_H为BERT编码器输出的向量维度，G^sem即为语义图。

在本申请一较佳的示例中可以进一步设置为，所述基于所述语义信息增强的潜在图表示H_g-lat和所述与潜在图交互后的语义图表示H_g-sem，通过设计掩码矩阵得到用于情感分析的特征表示，将所述特征表示进行平均池化操作得到最终特征表示的步骤包括：

通过注意力机制获取与语义相关的潜在表征表示z：

z＝αH_g-sem

采用掩码机制将潜在表征表示z中的方面词对应位置设置为1，非方面词位置设置为0，再通过平均池化操作聚合多词词组的表征得到最终特征表示：

z^ABSA＝aver(mask⊙z);

其中，α表示标准化后的注意力分数，aver(·)表示平均池化函数，z^ABSA为方面级情感分析任务的最终特征表示。

在本申请一较佳的示例中可以进一步设置为，将所述潜在图G^lat和所述语义图G^scm输入到图神经网络中分别得到潜在图表示

和语义图表示

的步骤包括：

使用情感字典细化策略对潜在图表示进行约束，

获取文本句对应的情感词典向量：

将潜在图表示H_g-latR^n×d映射为Γ^g-lat∈R^n×1：

得到情感细化策略的损失函数：

L_s＝(Γ^g-lat-lex^senti)²

其中，lex^senti为情感词典向量，分量

为文本句中第i个单词的情感分数，

为潜在图表示H_g-latR^n×d的第i个单词的分量，L_s为情感细化策略的损失函数，Γ^g-lat表示潜在图表示映射而成的中间向量。

在本申请一较佳的示例中可以进一步设置为，所述文本句的方面词的情感极性表示为：

其中，

表示情感极性，w_p和b_p分别为线性层的可训练权重和偏置，z^ABSA为方面级情感分析任务的最终特征表示，soft max(·)表示归一化指数函数。

综上所述，与现有技术相比，本申请实施例提供的技术方案带来的有益效果至少包括：

本申请基于文本句的句法依赖树，为潜在图的结构归纳器提供文本句的初始邻接矩阵，解决了潜在图缺少句法树中依赖类型信息的问题，使得归纳后的潜在图可以感知到更多的句法关系信息；在图卷积神经网络的LatentGCN模块中使用情感字典细化策略对潜在图表示进行约束，经过指导后的潜在图表示可以融合丰富的情感信息和语义信息，潜在图得到更好的约束，使得方面词能够正确的关联意见词；经过多头注意力的语义图在图卷积过程中为潜在图补充语义信息，可以提高情感分类的准确率。

附图说明

图1为本申请一示例性实施例提供的一种基于图神经网络的情感分类方法的流程示意图。

具体实施方式

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

下面结合说明书附图对本申请实施例作进一步详细描述。

在本申请的一个实施例中，提供一种基于图神经网络的情感分类方法，如图1所示，主要步骤描述如下：

S10：将获取的文本句输入BERT编码器中，得到所述文本句的上下文表示。

进一步的，将文本句与文本句的方面词结合，并在其中加入第一预设符号和第二预设符号，得到所述文本句的方面对。

本实施例中使用BERT编码器得到输入的文本句的上下文表示。上下文表示即为上下文的单词表示。将待分类的文本句S＝{w₁，w₂，…，w_n}与该文本句的方面词A＝{w_i，…，w_j}结合，将方面词嵌入到文本句中，同时在其中加入BERT编码器需要的第一预设符号和第二预设符号，具体的第一预设符号为[CLS]符号和第二预设符号为[SEP]符号，得到文本句的方面对X＝([CLS]w₁，w₂…，w_n[SEP]w_i，...，w_j[SEP])，其中文本句中有n个单词，方面词中包含i-j个单词。在文本句中加入[CLS]符号和[SEP]符号，可以更好的融合文本句中各个词之间的语义信息，有利于后续的分类任务。将待分类的文本句的方面对输入到BERT编码器中，通过BERT编码器的预训练语言模型捕获文本的上下文特征，输出编码成d维的上下文表示H，其过程可以用以下公式进行形式化定义：

H＝BERT(X)，

其中，H表示BERT编码器的输出的上下文表示，

H中的每一个元素表示输入文本句中一个词的上下文特征。

S20：基于文本句的句法依赖树，构建所述文本句的初始邻接矩阵。

优选的，本实施例中通过将单词作为节点和句法依赖树中单词之间的依赖关系类型作为边，构建所述文本句的初始关系邻接矩阵A_ij：

其中，A_ij为可感知句法依赖类型的初始化邻接矩阵表示，i，j＝1…n，r_ij表示文本句中第i个单词w_i和第j个单词w_j之间的依赖关系类型，W₁ ^a表示线性映射层的权重，

表示softmax层的权重，

表示线性映射层的偏置，

表示softmax层的偏置。

具体的，基于句子的句法依赖树，将文本句中的单词表示为节点，将句法依赖树中单词之间的依赖关系类型表示为边，构建待分类的文本句的初始关系邻接矩阵，表示所有节点的之间的依赖关系。所有节点的之间的依赖关系为R＝{r_ij}，其中r_ij表示文本句中第i个单词w_i和第j个单词w_j之间的依赖关系类型，例如：nsubj，adjmod。

S30：使用Glove词向量模型将所述初始关系邻接矩阵映射成非负的初始化邻接矩阵表示。

具体的，对依赖关系R进行编码，使用Glove词向量模型将初始关系邻接矩阵中每一对r_ij转化为一个d维的依赖关系嵌入，接着映射成能够输入到潜在图归纳器的非负的初始化邻接矩阵表示A，A∈R^n×n。

S40：构建根选择分数向量，将所述根选择分数向量和所述初始化邻接矩阵表示输入到结构归纳器中，基于拉普拉斯变体矩阵来计算边际概率，基于所述边际概率得到所述文本句的归纳后的潜在图G^lat以及基于多头注意力机制得到所述文本句的语义图G^sem；

具体的，本实施例中构建的根选择分数向量r，r∈R^1×n，具体过程如以下公式所示：

r_i＝exp(W^rh_i+b^r)，i＝1…n

其中，r_i表示文本句中的第i个单词被选择为潜在结构根的概率分数，r_i组合构成根选择分数向量，用来在归纳过程中保持以方面词为根，h_i表示第i个单词的上下文特征，W^r表示计算潜在结构根的神经网络层的权重，b^r表示计算潜在结构根的神经网络的偏置。使用句法树的依赖关系邻接矩阵对结构归纳器进行初始化操作，可以增加潜在图缺失的句法依赖标签信息。

进一步，将根选择分数向量r和初始化邻接矩阵表示A输入到结构归纳器中。为了得到归纳后的潜在图，本实施例中使用矩阵树定理的变体来加权计算潜在图中的全部依赖结构的总和。具体的，矩阵树定理的变体为拉普拉斯变体矩阵

具体公式如下：

其中，r_i表示文本句中的第i个单词被选择为潜在结构根的概率分数，A_ij表示上述所求的可感知句法依赖类型的初始化邻接矩阵表示，A_i′j表示矩阵的第i′行，if i＝j表示矩阵的对角线。

然后使用用于生成依赖结构的树归纳器解析依赖，该算法基于初始化邻接矩阵表示A和拉普拉斯变体矩阵

来计算边际概率以求得文本句的解析树。边际概率的计算公式具体如下：

其中，P_ij表示第i个单词和第j个单词之间的潜在依赖连接的边际概率，即节点i，j之间是否具有潜在依赖连接的概率，

表示拉普拉斯变体矩阵的对角线，

表示拉普拉斯变体矩阵的第j行第i列。由边际概率P_ij组成的加权邻接矩阵P，P∈R^n×n即为潜在图G^lat。

优选的，在上述过程中的结构归纳器中引入根细化策略，具体的公式如下所示：

其中，

为第i个单词为结构根的概率。

根细化策略的L_r是通过交叉熵损失函数得到的，在训练过程中通过最小化L_r可以调整潜在依赖结构以方面词为根，具体为：

其中，p_i∈{0，1}表示第i个单词是否是方面词，L_r表示根细化策略的损失函数，L_s为情感细化策略的损失函数。引入根细化策略，可以减少无关噪音，尽量保证依赖结构为方面词为根，更好的建立方面词与意见词之间的连接。

自注意力机制可以得到文本句中任意两个单词之间的语义相似度分数，以单词作为节点，将任意两个单词之间的注意力分数作为边，可以得到文本句的语义图。具体过程如下所示的公式表示：

其中，K为多头注意力机制的注意力头数量，本发明中取K＝2，对于自注意力Q＝K，W^K∈R^n×n，W^Q∈R^n×n分别为模型的可训练参数，D_H为BERT编码器输出的向量维度，G^sem表示语义图，G^sem，k表示第k个注意力头的注意力矩阵。使用多头注意力机制得到注意力分数可以避免偶然性，得到的结果具有准确性和更高的通用性。

S50：将所述潜在图G^lat和所述语义图G^sem输入到图卷积神经网络中分别得到潜在图表示

和语义图表示

结合所述潜在图表示

和所述语义图表示

得到经过语义信息增强的潜在图表示H_g-lat和与潜在图交互后的语义图表示H_g-sem；

需要进行说明的是，本实施例中训练一个细粒度迭代交互的图卷积网络combineGCN，包括LatentGCN模块和SematicGCN模块两部分，两个GCN模块共享网络参数，可以用来利用语义图为潜在图补充语义信息。具体的，将BERT编码器编码后的文本句的上下文表示H作为图卷积神经网络GCN初始化节点输入，将上下文表示H和潜在图G^lat输入LatentGCN模块得到潜在图表示

将上下文表示H和语义图G^sem输入SematicGCN模块得到语义图表示

接着结合LatentGCN模块输出的潜在图表示

和SematicGCN模块输出的语义图表示

得到图卷积网络combineGCN的输出

并通过sigmoid激活后的潜在图表示

来控制潜在图表示

和语义图表示

的交互程度。另外，在combineGCN迭代到下一层前，本实施例中使用当前层输入h_l-1得到控制因子w₁，具体的当前层输入h_l-1是BERT编码器输出的文本句的上下文表示H。可以避免图卷积网络combineGCN随着迭代变得平滑并且由于深度增加而损失信息。经过控制因子w₁控制，combineGCN的输出

和当前层输入h_l-1共同得到经过细粒度调整后的combineGCN的第l层的输出h_l，具体公式可以通过以下公式进行表示：

ω_l＝σ(h_l-1)

其中，h_l-1为当前层输入，初始化为h₀为BERT编码器输出的上下文表示H，h_l为combineGCN的第l层的输出，1∈[1，L]。

和

为线性层的可训练权重和偏置，ρ∈[0，1]是包含先验知识的超参数，用来控制语义图和潜在图的交互程度。W_l是combineGCN第l层的可训练参数，被潜在图G^lat和语义图G^sem所共享，这样可以使得潜在图G^lat在迭代过程中逐渐融合语义图G^sem的信息，并最终输出有语义信息增强的潜在图表示H_L，记为H_g-lat，同时输出最后一层的与潜在图交互的语义图表示

记为H_g-sem。

为解决这个问题，本实施例中使用情感词典细化策略在LatentGCN模块中，对潜在图表示进行约束，重新制定损失函数，使得方面词能更好地关联意见词，潜在图可以更好的工作。具体的，本实施例中，使用SenticNet 6情感词典，给定一个文本句，在SenticNet 6情感词典中的单词会被标记对应的情感分数，若不存在与情感词典中的单词标记则标记为0，以此获得文本句对应的情感词典向量lex^senti，lex^senti∈R^n×n，同时将潜在图表示H_g-latR^n×d映射为

Γ^g-lat∈R^n×1。具体以下公式所示：

L_s＝(Γ^g-lat-lex^senti)²

其中，lex^senti为情感词典向量，分量

为文本句中第i个单词的情感分数，

为潜在图表示H_g-latR^n×d的第i个单词的分量，L_s为情感细化策略的损失函数。Γ^g-lat表示潜在图表示映射而成的中间向量。

将情感细化策略的损失函数L_s加入到原先只有情感分类任务的交叉熵损失之后，通过最小化损失，使得理想情况下lex^senti更接近Γ^g-lat，使得模型更多注意到文本句中表达情感的意见词，进一步提高方面级情感分析的准确度。

最终图卷积神经网络最终损失函数为：

其中，

是为方面级情感分析任务定义的交叉熵损失：

Θ代表模型全部可训练的参数，λ、μ₁、μ₂是对应损失项的系数，L_r为根细化策略的损失函数，D包含了所有的句子方面对，y_(s，a)为其中一个句子方面对中方面词的实际情感极性。使用带情感词典细化策略的约束图卷积神经网络，使用从情感词典中得到的文本句的额外情感信息，来辅助图卷积神经网络更好的使文本句中方面词联系到意见词。

S60：基于所述语义信息增强的潜在图表示H_g-lat和所述与潜在图交互后的语义图表示H_g-sem，通过设计掩码矩阵得到用于情感分析的特征表示，将所述特征表示进行平均池化操作得到最终特征表示，将所述最终特征表示输入到图卷积网络的线性层，得到所述文本句的方面词的情感极性。

具体的，经过上述图卷积神经网络的迭代之后，得到了富含更多有用信息的有语义信息增强的潜在图表示H_g-lat和潜在图交互的语义图表示H_g-sem。接下来使用注意力机制来获取与语义相关的更丰富的潜在表征表示z，具体公式如下所示：

z＝αH_g-sem，

其中，α表示标准化后的注意力分数。

进一步地，为了获得与方面词相关的表示，采用掩码机制得到用于方面级情感分析的特征表示，具体的通过设计掩码矩阵，将潜在表征表示z中的表示方面词的单词对应的位置设置为1，非表示方面词的单词对应的位置设置为0。同时因为表示当面的单词中存在多词词组，本实施例中采用平均池化操作对多词词组的表征进行聚合，得到最终特征表示：

z^ABSA＝aver(mask⊙z)

其中，aver(·)表示平均池化函数，z^ABSA为方面级情感分析任务的最终特征表示。

然后将最终特征表示z^ABSA输入到图卷积神经网络的线性层，经过soft max(·)归一化指数函数预测对文本句中的方面词的情感极性

情感极性

表示为：

其中，w_p和b_p分别为线性层的可训练权重和偏置。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将本申请所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。