CN112560432B

CN112560432B - 基于图注意力网络的文本情感分析方法

Info

Publication number: CN112560432B
Application number: CN202011458024.3A
Authority: CN
Inventors: 施荣华; 金鑫; 胡超
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-08-11
Anticipated expiration: 2040-12-11
Also published as: CN112560432A

Abstract

本发明提供了一种基于图注意力网络的文本情感分析方法，包括：步骤1，从Semeval 2014 Task 4数据集中获取文本集合和感情标签集合；步骤2，按比例在文本集合和感情标签集合中进行随机选取，得到训练集和测试集；步骤3，通过Biaffine依赖解析器对训练集中的句子进行句法依存关系分析，根据句子的句法依存关系构建句法依存图；步骤4，将训练集输入BERT预训练模型，通过BERT预训练模型将训练集中的词转化为词向量。本发明通过Biaffine依赖解析器对句子间的句法依存关系进行分析，通过BERT预训练模型获得词向量表示，通过图注意力网络模型对文本进行情感分析，充分利用了文本中复杂的句法结构，提高了文本情感分析的准确率。

Description

基于图注意力网络的文本情感分析方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于图注意力网络的文本情感分析方法。

背景技术

近年来，随着互联网的迅猛发展，人们习惯在社交网络或电商网站表达自身的情感或观点，使得互联网上涌现出大量的网络评价，一条网络评论可能包括对同一实体的多方面的评价，使得对文本情感分析有了更进一步的要求，方面级别的情感分析(ABSA)是对文本情感分析中的一项细粒度任务，旨在对出现实体的不同方面进行情感分析，为其他自然语言处理任务提供重要的情感信息，也是自然语言处理领域的研究热点之一。

研究学者对方面级文本情感分析做了大量的研究，早期对文本情感分析的研究多是利用提取和学习文本特征，以构建分类模型，包括支持向量机、决策树、朴素贝叶斯分类器等，上述方法虽然取得一定效果，但需耗费大量的人力、物力设计语义和语法特征，方法性能极大程度依赖这些特征。与传统方法相比较，研究学者逐渐将目光转移到深度学习模型上来。基于深度学习的文本情感分类方法通常采用Word2Vec模型或者BERT预训练模型将每个词语都训练表示成一个实数向量，从而获取到低维文本特征标识，再构建神经网络模型加以训练，最后得到文本的情感极向。基本方法包括:卷积神经网络(CNN)、递归神经网络(RNN)、长短时记忆网络(LSTM)等，其中大多数都是利用LSTM编码上下文以获取上下文信息。上述方法都按相同的权重去计算不同单词对最后分类结果的影响，而未考虑到不同方面情况下上下文对情感分类的影响程度不同的情况。

虽然注意力机制(Attention)的提出，一定程度上解决神经网络对每个单词都是同等考虑的问题。但是基于注意力机制的这些方法很大程度上有助于方面级别的情感分析，它们不足以捕捉句子中方面之间的句法依赖关系。注意力机制可能导致给定的方面错误地将句法上不相关的上下文词作为描述词，对句法结构的效果尚未得到充分利用。难以表达文本中复杂的句法结构，使得文本情感分类的准确率仍存在提高的空间。

发明内容

本发明提供了一种基于图注意力网络的文本情感分析方法，其目的是为了解决传统的情感分析方法难以捕捉句子中方面之间的句法依赖关系和难以表达文本中复杂的句法结构，且文本情感分类的准确率较低的问题。

为了达到上述目的，本发明的实施例提供了一种基于图注意力网络的文本情感分析方法，包括：

步骤1，从Semeval 2014Task 4数据集中获取文本集合和感情标签集合；

步骤2，按比例在文本集合和感情标签集合中进行随机选取，得到训练集和测试集；

步骤3，通过Biaffine依赖解析器对训练集中的句子进行句法依存关系分析，根据句子的句法依存关系构建句法依存图；

步骤4，将训练集输入BERT预训练模型，通过BERT预训练模型将训练集中的词转化为词向量；

步骤5，根据句法依存图搭建邻接矩阵；

步骤6，根据邻接矩阵搭建图注意力网络模型；

步骤7，将词向量嵌入到图注意力网络模型中相对应的节点中，将词向量作为节点的初始化状态；

步骤8，对图注意力网络模型进行更新，将图注意力网络模型中的节点和与节点邻接的向量按注意力权重进行聚合，得到更新后的节点的向量序列，将节点的向量序列作为图注意力网络模型中相对应节点的临时状态；

步骤9，将图注意力网络模型节点的初始化状态输入GRU模型中进行保存，得到图注意力网络模型节点的保存状态；

步骤10，将图注意力网络模型节点的临时状态和图注意力网络模型节点的保存状态进行节点状态聚合，得到图注意力网络模型节点的最终状态；

步骤11，将图注意力网络模型节点的最终状态通过Softmax函数进行激活，得到文本情感趋向；

步骤12，对图注意力网络模型进行多层训练，构建损失函数；

步骤13，根据损失函数对注意力权重进行调整，当损失函数值小于所记录的损失函数的最小值时，更新损失函数值最小值并将对应的图注意力网络模型参数进行记录，得到最优的图注意力网络模型；

步骤14，通过最优的图注意力网络模型对文本进行情感分析。

其中，所述步骤3具体包括：

通过Biaffine依赖解析器对训练集中的句子进行语法依存分析操作，将一个句子划分成词的线性序列并转化为根据句子语法依赖的图形结构，得到句法依存图，通过句法依存图将存在修饰关系的词相连接。

其中，所述步骤4具体包括：

将训练集输入BERT预训练模型，通过BERT预训练模型的Transformer架构将训练集中的词语转化为维度为300的词向量。

其中，所述步骤5具体包括：

根据句法依存图中的具有非对称的二元关系的节点构建具有对称关系的邻接矩阵，当邻接矩阵为1时，邻接矩阵中对应坐标的两节点之间有有向弧相连接，当邻接矩阵为0时，邻接矩阵中对应坐标的两节点之间无有向弧相连接。

其中，所述步骤6具体包括：

将邻接矩阵的节点作为图注意力网络模型的节点，节点之间的有向弧作为图注意力网络模型的边，搭建图注意力网络模型。

其中，所述步骤7具体包括：

将维度为300的词向量嵌入至图注意力网络模型中对应的节点，作为图注意力网络模型中的节点的初始化状态。

其中，所述步骤8具体包括：

更新图注意力网络层，如下所示：

其中，α_ij表示节点j到i的注意力系数，N表示节点的个数，W表示在每个节点上应用的线性变换权重矩阵，表示节点i对应的实体向量，/>表示节点j对应的实体向量，/>表示节点k对应的实体向量，N_i表示节点i的邻居节点；

通过多头注意力机制对各个节点进行上下文信息捕获，通过注意力权重将各个节点周围的节点的表达以加权和的形式聚合到相对应的节点，对于K个独立注意力机制下的计算结果，采用K平均来替代连接，如下所示：

其中，表示节点i更新的值，k表示为多个注意力机制中的第k个，||表示将多个注意力头学习到的特征进行拼接，σ表示激活函数，/>表示节点i对节点j的注意力系数，W^k表示输入节点的线性变换权重矩阵。

其中，所述步骤9具体包括：

通过GRU对节点当前状态进行建模，搭建GRU模型，将节点的初始化状态输入GRU模型，结合节点t时刻的输入x_t来更新重置门和控制门的状态，如下所示：

r_t＝σ(W_z.[h_t-1,x_t]) (3)

z_t＝σ(W_r.[h_t-1,x_t]) (4)

其中，σ表示sigmod函数，通过数据从0-1的变换来充当门控信号，r_t表示t时刻控制重置的门控，z_t表示t时刻控制更新的门控，h_t-1表示t-1时刻的节点状态，表示t时刻的候选集，*表示矩阵的乘积，[]表示两个向量相连，tanh表示为双曲正切函数。

其中，所述步骤9还包括：

通过同一个门控z同时进行遗忘和选择记忆，门控信号z的范围为0-1，当门控信号越靠近1，代表数据的重要性更高，如下所示：

其中，1-z表示遗忘门，(1-z)Θh_t-1表示忘记t-1时刻节点状态中一些不重要的信息，表示对t时刻的候选集中重要的信息进行选择；

将整个图注意力网络模型的前馈过程表示为：

H_l+1＝GRU(GAT(H_l)，H_l) (7)

其中，H_l+1表示第L+1层节点状态，H_l表示第L层节点状态。

其中，所述步骤11、所述步骤12、所述步骤13和所述步骤14具体包括：

模型训练，采用L₂正则化方法调节最小化交叉熵损失函数训练图注意力网络模型，通过线性变换将目标节点的状态映射到分类空间，通过Softmax函数计算目标节点的情感分类k的概率，如下所示：

其中，W表示线性变换的权重矩阵，h_t表示目标节点状态，b表示线性变换的偏差，y表示情感类别的集合。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于图注意力网络的文本情感分析方法，通过Biaffine依赖解析器对句子间的句法依存关系进行分析，通过BERT预训练模型获得词向量表示，通过图注意力网络模型对文本进行情感分析，充分的利用了文本中复杂的句法结构，提高了文本情感分析的准确率。

附图说明

图1为本发明的流程图；

图2为本发明的具体操作示意图；

图3为本发明的多头注意力机制示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的情感分析方法难以捕捉句子中方面之间的句法依赖关系和难以表达文本中复杂的句法结构，且文本情感分类的准确率较低的问题，提供了一种基于图注意力网络的文本情感分析方法。

如图1至图3所示，本发明的实施例提供了一种基于图注意力网络的文本情感分析方法，包括：步骤1，从Semeval 2014Task 4数据集中获取文本集合和感情标签集合；步骤2，按比例在文本集合和感情标签集合中进行随机选取，得到训练集和测试集；步骤3，通过Biaffine依赖解析器对训练集中的句子进行句法依存关系分析，根据句子的句法依存关系构建句法依存图；步骤4，将训练集输入BERT预训练模型，通过BERT预训练模型将训练集中的词转化为词向量；步骤5，根据句法依存图搭建邻接矩阵；步骤6，根据邻接矩阵搭建图注意力网络模型；步骤7，将词向量嵌入到图注意力网络模型中相对应的节点中，将词向量作为节点的初始化状态；步骤8，对图注意力网络模型进行更新，将图注意力网络模型中的节点和与节点邻接的向量按注意力权重进行聚合，得到更新后的节点的向量序列，将节点的向量序列作为图注意力网络模型中相对应节点的临时状态；步骤9，将图注意力网络模型节点的初始化状态输入GRU模型中进行保存，得到图注意力网络模型节点的保存状态；步骤10，将图注意力网络模型节点的临时状态和图注意力网络模型节点的保存状态进行节点状态聚合，得到图注意力网络模型节点的最终状态；步骤11，将图注意力网络模型节点的最终状态通过Softmax函数进行激活，得到文本情感趋向；步骤12，对图注意力网络模型进行多层训练，构建损失函数；步骤13，根据损失函数对注意力权重进行调整，当损失函数值小于所记录的损失函数的最小值时，更新损失函数值最小值并将对应的图注意力网络模型参数进行记录，得到最优的图注意力网络模型；步骤14，通过最优的图注意力网络模型对文本进行情感分析。

其中，所述步骤3具体包括：通过Biaffine依赖解析器对训练集中的句子进行语法依存分析操作，将一个句子划分成词的线性序列并转化为根据句子语法依赖的图形结构，得到句法依存图，通过句法依存图将存在修饰关系的词相连接。

本发明的上述实施例所述的基于图注意力网络的文本情感分析方法，由于文本数据中存在一个句子有多个方面的评价，需对不同方面进行文本情感分析操作，使用Biaffine依赖解析器获取句法依存图，将一个句子划分成词的线性序列转化为根据其语法依赖的图形结构，句法依存图将每个方面所包涵的词相连接，减少了无关信息的干扰以及不同方面之间的词性影响，依据句子的依存关系用一个有向图进行准确的描述。

其中，所述步骤4具体包括：将训练集输入BERT预训练模型，通过BERT预训练模型的Transformer架构将训练集中的词语转化为维度为300的词向量。

本发明的上述实施例所述的基于图注意力网络的文本情感分析方法，通过BERT预训练模型的Transformer架构，使得词语的语义信息得到了极大程度的反映。

其中，所述步骤5具体包括：根据句法依存图中的具有非对称的二元关系的节点构建具有对称关系的邻接矩阵，当邻接矩阵为1时，邻接矩阵中对应坐标的两节点之间有有向弧相连接，当邻接矩阵为0时，邻接矩阵中对应坐标的两节点之间无有向弧相连接。

其中，所述步骤6具体包括：将邻接矩阵的节点作为图注意力网络模型的节点，节点之间的有向弧作为图注意力网络模型的边，搭建图注意力网络模型。

本发明的上述实施例所述的基于图注意力网络的文本情感分析方法，句法依存图中的节点和有向弧分别与图注意力网络模型中的节点和边一一对应。

其中，所述步骤7具体包括：将维度为300的词向量嵌入至图注意力网络模型中对应的节点，作为图注意力网络模型中的节点的初始化状态。

其中，所述步骤8具体包括：更新图注意力网络层，如下所示：

本发明的上述实施例所述的基于图注意力网络的文本情感分析方法，通过引入多头注意力机制以捕获上下文信息从而稳定学习过程。

其中，所述步骤9具体包括：通过GRU对节点当前状态进行建模，搭建GRU模型，将节点的初始化状态输入GRU模型，结合节点t时刻的输入x_t来更新重置门和控制门的状态，如下所示：

r_t＝σ(W_z.[h_t-1,x_t]) (3)

z_t＝σ(W_r.[h_t-1,x_t]) (4)

其中，所述步骤9还包括：通过同一个门控z同时进行遗忘和选择记忆，门控信号z的范围为0-1，当门控信号越靠近1，代表数据的重要性更高，如下所示：

将整个图注意力网络模型的前馈过程表示为：

H_l+1＝GRU(GAT(H_l)，H_l) (7)

其中，H_l+1表示第L+1层节点状态，H_l表示第L层节点状态。

本发明的上述实施例所述的基于图注意力网络的文本情感分析方法，使用GRU对节点当前状态进行建模，将节点的初始化状态输入GRU模型中进行保存，将节点的临时状态和保存后的节点状态进行节点状态聚合，得到最终的节点状态，提高了图注意力网络的收敛性。

其中，所述步骤11、所述步骤12、所述步骤13和所述步骤14具体包括：模型训练，采用L₂正则化方法调节最小化交叉熵损失函数训练图注意力网络模型，通过线性变换将目标节点的状态映射到分类空间，通过Softmax函数计算目标节点的情感分类k的概率，如下所示：

本发明的上述实施例所述的基于图注意力网络的文本情感分析方法，通过Biaffine依赖解析器对句子间的句法依存关系进行分析并构建句法依存图，根据句法依存图构建邻接矩阵，根据邻接矩阵构建图注意力网络模型，通过BERT预训练模型将词转换为词向量嵌入至图注意力网络模型中并将词向量作为图注意力网络模型节点的初始化状态，对图注意力网络模型进行更新，根据注意力权重将图注意力网络模型的节点以及节点邻域的向量聚合，得到新的向量序列，并将新的向量序列作为图注意力网络模型节点的临时状态，将图注意力网络模型节点的初始化状态输入搭建的GRU模型中进行保存，得到图注意力网络模型节点的保存状态，将图注意力网络模型节点的临时状态和图注意力网络模型节点的保存状态进行节点状态聚合，得到图注意力网络模型节点的最终状态，通过Softmax函数对图注意力网络模型节点的最终状态进行激活得到文本情感趋向，对图注意力网络模型进行多层训练，构建损失函数，调整注意力权重，得到最优的图注意力网络模型，通过最优的图注意力网络模型对文本进行情感分析，所述基于图注意力网络的文本情感分析方法，通过Biaffine依赖解析器对句子间的句法依存关系进行分析，通过BERT预训练模型获得词向量表示，通过图注意力网络模型对文本进行情感分析，充分的表达了文本中复杂的句法结构，提高了文本情感分析的准确率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于图注意力网络的文本情感分析方法，其特征在于，包括：

步骤1，从Semeval2014Task4数据集中获取文本集合和感情标签集合；

步骤5，根据句法依存图搭建邻接矩阵；所述步骤5具体包括：根据句法依存图中的具有非对称的二元关系的节点构建具有对称关系的邻接矩阵，当邻接矩阵为1时，邻接矩阵中对应坐标的两节点之间有有向弧相连接，当邻接矩阵为0时，邻接矩阵中对应坐标的两节点之间无有向弧相连接；

步骤6，根据邻接矩阵搭建图注意力网络模型；所述步骤6具体包括：将邻接矩阵的节点作为图注意力网络模型的节点，节点之间的有向弧作为图注意力网络模型的边，搭建图注意力网络模型；

步骤7，将词向量嵌入到图注意力网络模型中相对应的节点中，将词向量作为节点的初始化状态；所述步骤7具体包括：将维度为300的词向量嵌入至图注意力网络模型中对应的节点，作为图注意力网络模型中的节点的初始化状态；

步骤8，对图注意力网络模型进行更新，将图注意力网络模型中的节点和与节点邻接的向量按注意力权重进行聚合，得到更新后的节点的向量序列，将节点的向量序列作为图注意力网络模型中相对应节点的临时状态；所述步骤8具体包括：更新图注意力网络层，如下所示：

其中，表示节点i更新的值，k表示为多个注意力机制中的第k个，||表示将多个注意力头学习到的特征进行拼接，σ表示激活函数，/>表示节点i对节点j的注意力系数，W^k表示输入节点的线性变换权重矩阵；

步骤9，搭建GRU模型，将图注意力网络模型节点的初始化状态输入GRU模型中进行保存，得到图注意力网络模型节点的保存状态；

2.根据权利要求1所述的基于图注意力网络的文本情感分析方法，其特征在于，所述步骤3具体包括：

通过Biaffine依赖解析器对训练集中的句子进行语法依存分析，将一个句子划分成词的线性序列并转化为根据句子语法依赖的图形结构，得到句法依存图，通过句法依存图将存在修饰关系的词相连接。

3.根据权利要求1所述的基于图注意力网络的文本情感分析方法，其特征在于，所述步骤4具体包括：

4.根据权利要求1所述的基于图注意力网络的文本情感分析方法，其特征在于，所述步骤9具体包括：

r_t＝σ(W_z.[h_t-1,x_t])(3)

z_t＝σ(W_r.[h_t-1,x_t])(4)

5.根据权利要求4所述的基于图注意力网络的文本情感分析方法，其特征在于，所述步骤9还包括：

将整个图注意力网络模型的前馈过程表示为：

H_l+1＝GRU(GAT(H_l)，H_l)(7)

其中，H_l+1表示第L+1层节点状态，H_l表示第L层节点状态。

6.根据权利要求5所述的基于图注意力网络的文本情感分析方法，其特征在于，所述步骤11、所述步骤12、所述步骤13和所述步骤14具体包括：