CN114417823A

CN114417823A - 一种基于句法和图卷积网络的方面级情感分析方法及装置

Info

Publication number: CN114417823A
Application number: CN202210023639.6A
Authority: CN
Inventors: 张益嘉; 张芙瑶; 鲁明羽
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-04-29
Anticipated expiration: 2042-01-10
Also published as: CN114417823B

Abstract

本发明公开了一种基于句法依赖和图卷积网络的方面级情感分析方法及装置，涉及自然语言处理技术领域。本发明使用的方面融合图卷积网络模型能融入更多的语义信息，更好的利用句子中的句法信息和单词依赖性，从而提高模型的训练质量。首先，通过引入依赖树和依赖位置图来增强每个句子实例的句法依赖。然后，使用两个图卷积网络融合依赖树和依赖位置图以生成方面的交互情感特征。最后，通过注意力机制充分整合卷积层和掩蔽层的状态向量中与方面语义相关的重要特征。本发明解决了情感分析领域容易忽略的依赖树拓扑结构与依赖距离之间存在密切关系的问题，不仅增强了情感分类的效果，对于其他涉及到图卷积的分类任务也有较好的帮助。

Description

一种基于句法和图卷积网络的方面级情感分析方法及装置

技术领域

本发明属于自然语言处理的技术领域，涉及一种基于句法依赖和图卷积网络的方面级情感分析方法及装置。

背景技术

为了进行更完整的情感分析，系统需要发现文本评论的各个方面对象，并确定文本针对每个方面(一条评论语句中可能包含多个方面词)所表达的情感信息，这就是方面级情感分析(Aspect-level Sentiment Analysis，ABSA)技术，ABSA是细粒度的情感分析任务，近年来受到了越来越多的关注和研究。随着社交媒体的迅猛发展，网络评论的数量呈爆炸式增长，越来越多的人愿意在网络上表达自己的态度和情感；同时，用户在浏览评论时也更加关注一些细粒度的信息，对评论进行方面级情感分析能够帮助用户更好的做出决策。

一些早期的ABSA工作集中在使用机器学习算法来捕捉基于内容和句法结构的丰富特征的情感极性，随着深度学习理论和方法的逐步成熟，研究人员开始使用深度学习神经网络模型进行ABSA。不考虑句法模型的神经模型可分为几种类型：基于LSTM(LongShort-Term Memory，长短期记忆网络)的模型，基于CNN(Convolutional NeuralNetworks，卷积神经网络)的模型，基于记忆的方法等。但这些模型将一个句子表示为一个单词序列，忽略了单词之间的句法关系，使得它们很难找到远离预期单词的单词。

语法信息允许依赖信息保存在长句子中，并有助于融合方面和意见词之间的信息。近年来，一些研究使用基于图的模型来组合句子句法结构，如使用GCN(GraphConvolutional Network，图卷积网络)结合句法依赖树来捕获语法信息和单词依赖性的特定方面，其性能优于不考虑句法关系的模型。但是，这类模型也存在不容忽视的缺点：这类模型只考虑了依赖树的拓扑结构，或者说词与词之间的实际距离，没有充分发挥依赖树的优势，且忽略了上下文之间的依赖距离关系。

发明内容

为了解决以往方面级情感分析方法过度依赖于方面与上下文之间的语法关系，从而导致无法通过句法更准确的识别方面词情感的问题，本发明提出了一种基于句法依赖和图卷积网络的方面级情感分析方法及装置，充分整合了依赖树的拓扑结构和依赖距离，从而充分发挥了依赖树的优势，且有效利用了上下文之间的依赖距离关系。

本发明的技术方案：

一方面，本发明提供了一种基于句法依赖和图卷积网络的方面级情感分析方法，具体步骤如下：

获取情感分析数据集，将所述情感分析数据集中的句子构造成依赖树和依赖位置图；

针对所述情感分析数据集中的句子，使用GloVe预训练模型初始化词向量，并将得到的词向量输入双向长短时记忆网络，得到所述句子的上下文表示；

将所述上下文表示分别输入至邻近权重卷积层和双重图卷积层；

所述邻近权重卷积层中，通过所述依赖树计算上下文词的依赖距离，计算出不同词的依赖邻近权重，基于邻近权重卷积得到隐藏状态向量；所述邻近权重卷积在卷积计算之前分配所述依赖邻近权重；

所述双重图卷积层中，使用两个图卷积网络分别融合所述依赖树和所述依赖位置图，用带有归一化因子的图卷积计算每个节点的表示，并根据其邻域的隐藏表示来更新每个节点的表示，将这两个整合了不同依赖关系的矩阵分别作为两组图卷积网络，从不同的输入中捕获图卷积网络层的最终表示；结合所述双重图卷积层输出的两种最终表示，提取依赖位置特征和依赖特征之间的交互关系；再使用方面掩蔽层来掩蔽非方面词表示，输出隐藏状态向量；

使用注意力机制，融合所述邻近权重卷积层和所述掩蔽层输出的隐藏状态向量，得到基于方面的表示，将所述基于方面的表示传递到全连接的softmax层，得到不同情绪极性上的概率分布。

进一步地，将所述情感分析数据集中的句子构造成依赖树和依赖位置图，包括：

使用句法依赖解析器将情感分析数据集中的句子构造成有向依赖树；

基于所述有向依赖树构造邻接矩阵，将所述邻接矩阵的所有对角元素设置为1，如果两个词之间存在依赖关系，则将所述邻接矩阵中的相应位置记为1；

根据方面词计算所述邻接矩阵的每个元素的相对位置权重：

其中|·|是一个绝对值函数，p^b是方面的起始位置，w_i表示第i个上下文单词，{a^s}是方面的词集；

是方面词集中的一个方面词；

将所述有向依赖树的邻接矩阵沿对角线对称得到的依赖图与相对位置权重相结合，得到依赖位置图的邻接矩阵：

其中，

为由依赖树沿对角线对称得到的普通依赖图；

为普通依赖图

的相对位置权重。

进一步地，所述依赖邻近权重为：

其中p_i为依赖邻近权重，d_i是句子中从单词到方面的依赖距离，i是句子中任一字的位置下标，τ是方面词的起始位值，m是方面词的数量，n是句子的总字数；

相应地，所述邻近权重卷积的依赖邻近权重分配为：

其中，r_i＝p_ih_i和

表示句子中第i个字的邻近加权表示，h_i代表第第i个字的隐藏向量表示，t是核长的一半，l是核长，d_h是单向LSTM中隐藏状态向量的维数，

表示从卷积层得到的特征表示，

和

分别为卷积核的权重和偏差。

进一步地，通过所述依赖树计算上下文词的依赖距离，包括：

当方面包含多个单词时，最小化上下文和所有方面单词之间的依赖距离。

进一步地，结合所述双重图卷积层输出的两种最终表示，提取依赖位置特征和依赖特征之间的交互关系，按照下式执行：

其中γ为依赖系数特征，h^G、h^T分别为所述双重图卷积层输出的两种最终表示。

进一步地，注意力机制中注意权重分配过程如下：

其中，u_it和α_t分别为注意力权重计算的中间计算结果，

和q_i分别为掩蔽层和卷积层输出的最终隐藏状态向量，W_w和U_w是随机初始化的权重，b_w是可训练参数，

是u_it的转置；

使用公式

得到相应的注意力权重。

又一方面，本发明还提供了一种基于句法依赖和图卷积网络的方面级情感分析装置，所述装置包括：

预处理单元，用于获取情感分析数据集，将所述情感分析数据集中的句子构造成依赖树和依赖位置图；

上下文表示获取单元，用于针对所述情感分析数据集中的句子，使用GloVe预训练模型初始化词向量，并将得到的词向量输入双向长短时记忆网络，得到所述句子的上下文表示；并将所述上下文表示分别输入至邻近权重卷积层和双重图卷积层；

邻近权重卷积单元，用于在所述邻近权重卷积层中，通过所述依赖树计算上下文词的依赖距离，计算出不同词的依赖邻近权重，基于邻近权重卷积得到隐藏状态向量；所述邻近权重卷积在卷积计算之前分配所述依赖邻近权重；

双重图卷积单元，用于在所述双重图卷积层中，使用两个图卷积网络分别融合所述依赖树和所述依赖位置图，用带有归一化因子的图卷积计算每个节点的表示，并根据其邻域的隐藏表示来更新每个节点的表示，将这两个整合了不同依赖关系的矩阵分别作为两组图卷积网络，从不同的输入中捕获图卷积网络层的最终表示；

掩蔽单元，用于结合所述双重图卷积单元输出的两种最终表示，提取依赖位置特征和依赖特征之间的交互关系；再使用方面掩蔽层来掩蔽非方面词表示，输出隐藏状态向量；

注意力单元，用于使用注意力机制，融合所述邻近权重卷积单元和所述掩蔽单元输出的隐藏状态向量，得到基于方面的表示；

情感分析单元，用于将所述注意力单元得到的基于方面的表示传递到全连接的softmax层，得到不同情绪极性上的概率分布。

又一方面，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如上述基于句法依赖和图卷积网络的方面级情感分析方法。

与现有技术相比，本发明的有益效果是：

本发明中构建了依赖树以及依赖位置图来增强每个实例的语法依赖关系，提出了一种方面融合图卷积网络模型(AFGCN)，该模型将注意机制相结合，充分整合卷积层和掩蔽层的隐藏状态向量中与方面语义相关的显著特征，充分结合了依赖树的拓扑结构和依赖距离。同时，本发明中的注意力机制模块，在卷积层和掩蔽层的隐藏状态向量中充分整合与方面语义相关的显著特征。

本发明不仅可以更好地捕捉观点特征，充分结合依赖树的拓扑结构和依赖距离，还能更好的捕捉句子内部方面词和上下文的相关性，有利于方面词所对应情感更准确的分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中AFGCN模型的框架示意图；

图2为本发明实施例中一种基于句法依赖和图卷积网络的方面级情感分析方法的流程示意图；

图3为图1中依赖树(左)和依赖位置图(右)的局部放大图；

图4为本发明实施例中Bi-LSTM原理图；

图5为本发明实施例中句法依赖关系图；

图6为本发明实施例中图卷积网络的原理图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明公开了一种基于句法依赖和图卷积网络的方面级情感分析方法，利用AFGCN模型进行方面级情感分析。

如图1所示，本发明提出的AFGCN模型充分融合了依赖树的拓扑结构和依赖距离，能够更好地捕捉观点特征。受位置机制的启发，该AFGCN模型在基于Bi-LSTM(Bi-directional Long Short-Term Memory，全称双向长短时记忆网络)的架构中可以聚合有效特征，并使用上下文词与方面的句法邻近度(句子中不同词之间依赖距离相近的程度)来确定不同单词在句子中的重要性。同时，本发明分别在依赖树和依赖位置图上应用了GCN(Graph Convolutional Network，图卷积网络)，通过GCN使用远程多词关系(指GCN可以为距离较远的词建立拓扑关联)和句法信息，将句法相关的词与方面词建立关联。GCN网络的输出经过方面掩蔽层，该方面掩蔽层能够过滤掉非方面词以获得聚焦的方面词特征，之后，特定于方面的特征被输入注意力机制，从而更好的捕捉句子内部方面词和上下文的相关性。在所有上述操作之后，上下文和方面的表示集中通过线性层以获得最终输出，从而更好地完成方面级情感分析的任务。

在利用该AFGCN模型进行方面级情感分析时，首先，预处理数据集，引入依赖树和依赖位置图来增强每个实例的语法依赖，在嵌入层使用GloVe预训练模型来生成词向量，GloVe预训练模型是2014年斯坦福NLP研究组提出的一种新的生成词向量的方法；将生成的词向量输入到Bi-LSTM，学习评论语句的上下文信息；然后，将Bi-LSTM的输出(句子的上下文表示)分别馈入邻近权重卷积层和双重图卷积层(使用两个图卷积网络融合依赖树和依赖位置图来生成方面的交互情感特征)；再将GCN层的最终表示输入方面掩蔽层，以突出方面词的关键特征；最后，使用一种新的注意机制来充分整合邻近权重卷积层和方面掩蔽层的隐藏状态向量中与方面语义相关的重要特征；再通过一层提取关键特征的全连接层，最后输出不同情感极性上的概率分布。

具体地，如图2所示，其示出了本发明实施例中一种基于句法依赖和图卷积网络的方面级情感分析方法的流程图，该方法包括：

S1、预处理情感分析数据集，得到情感分析数据集中句子的依赖树和依赖位置图：

在具体实施中，本发明实施例使用了表1所示的数据集。

表1

使用句法依赖解析器spacy(spacy是世界上最快的工业级自然语言处理工具，支持多种自然语言处理基本功能。)将给定数据集中的句子构造成有向依赖树(如图3所示)。然后基于有向依赖树构造邻接矩阵，并将矩阵的所有对角元素设置为1，如果两个词之间存在依赖关系，则将矩阵中的相应位置记为1，进而得到邻接矩阵

为了突出上下文和方面之间的关系，本发明根据方面词计算邻接矩阵中每个元素的相对位置权重：

其中，

是依赖树的相对位置权重，|·|是一个绝对值函数，p^b是方面的起始位置，{a^s}是方面的词集，

代表方面词集中具体的一个方面词。

为了建立上下文词之间更紧密的依赖关系，本发明整合了由依赖树沿对角线对称得到的普通依赖图

及该普通依赖图的相对位置权重

推导出依赖位置图(如图3所示)的邻接矩阵

公式如下：

S2、使用预训练的GloVe模型对情感分析数据集中的句子进行初始化词向量，将得到的词向量用于Bi-LSTM以生成句子隐藏状态向量(即，句子的上下文表示)：

首先假设SemEval-2014数据集中有一个包含n个单词和m个方面的句子，即s＝{w₀,w₁,...,w_a,w_a+1,...,w_a+m-1,...,w_n-1}，其中w_i表示第i个上下文单词，w_a表示方面单词的起始标记。每个单词都被嵌入到一个带有矩阵

向量的低维实值向量中，其中|N|是字典的大小，而d_i是一个单词向量的维度。

本发明使用预先训练好的GloVe模型来初始化单词向量，并将得到的单词嵌入应用到Bi-LSTM来生成句子隐藏状态向量h_t。图4所示，Bi-LSTM是在LSTM的基础上，结合了输入序列在前向和后向两个方向上的信息，通过Bi-LSTM可以更好的捕捉双向的语义依赖。采用Bi-LSTM是因为Bi-LSTM相较于RNN和LSTM来说功能更加强大，能够学习到上下文信息并解决梯度爆炸和梯度消失等问题。由于输入表示已经包含方面信息，因此特定于方面的上下文表示可以通过从两个方向链接隐藏状态来获得：

其中

是正向LSTM的隐藏状态，

是反向LSTM的隐藏状态。最终生成的新向量能在更高级别更好更深入的反应句子的语义含义。

S3、引入权重卷积模块，在卷积计算之前分配邻近权重：

以往的基于依赖树的模型主要关注依赖树的拓扑结构或依赖树的距离。然而很少有模型将它们一起应用，这限制了这些模型在识别关键上下文词方面的有效性。在本发明提出的AFGCN模型中，句法依赖信息被形式化为一个相邻的权重，它描述了上下文和方面之间的接近性。如图5所示：“But the staff was so horrible to us.”在方面词“staff”与情感词“horrible”之间的实际距离为3，但依赖距离为1。直观上看，依赖距离比普通距离更有利于基于方面的情绪分类。

通过S1得到的依赖树计算上下文词的依赖距离：方面和情感词之间的最短依赖路径的长度。如果该方面包含多个单词，则将最小化上下文和所有方面单词之间的依赖距离。句子的依赖邻近权重由如下公式计算：

其中邻近权重p_i∈R，d_i是句子中从单词到方面的依赖距离，i是句子中任一字的位置下标，τ是方面词的起始位值，m是方面词的数量，n是句子的总字数。

本发明还引入了邻近权重卷积。与最初的卷积定义不同，邻近权重卷积在卷积计算之前分配邻近度权值，它本质上是一个核长为l的一维卷积，邻近权重卷积过程分配为：

其中r_i＝p_ih_i和

h_i代表第第i个字的隐藏向量表示，

表示句子中第i个字的邻近加权表示，t是核长的一半，d_h是单向LSTM中隐藏状态向量的维数，

表示从卷积层得到的特征表示，

和

分别为卷积核的权重和偏差。

S4、使用两个图卷积网络分别融合依赖树和依赖位置图：

为了利用句法依赖性，本发明使用两个图卷积网络分别融合依赖树和依赖位置图，生成不同方面的交互式情绪特征。图6所示的是一个图卷积网络的原理图，即通过线性变换以及非线性变换让图中的节点在空间域中相连、达成层级结构，进而进行卷积。用带有归一化因子的图卷积计算每个节点的表示，并根据其邻域的隐藏表示对每个节点的表示进行更新：

其中，

是从前一个GCN层演化而来的第j个令牌的表示。P(·)是一个集成了位置感知转换的PairNorm函数。M_ij包括M^G和M^T，将这两个整合不同依赖关系的矩阵分别作为两组GCN的输入。D_i是依赖树中第i个标记的度。W^l和b^l分别为可训练参数。

S5、构建方面掩蔽层，掩蔽非方面词表示：

结合S4中两种最终表示，使用同时考虑了句法依赖性和长期的多词关系的组合方法，来提取依赖位置特征和依赖特征之间的交互关系。从不同的输入中捕获GCN层依赖位置图和依赖树的最终表示，分别为h^G和h^T，其中h^G是M^G的表示，h^T是M^T的表示。因此，本发明实施例中结合这两种表示提取依赖位置特征和依赖特征之间的交互关系：

其中γ为依赖系数特征。该组合方法同时考虑了句法依赖性和长期的多词关系，使用方面掩蔽来掩盖非方面词的表示，以突出方面词的关键特征。换句话说，保留GCN层输出的方面词的最终表示，并将非方面词的最终表示设置为0。

S6、使用注意力机制，融合卷积层和掩蔽层的隐藏状态向量，表示被传递到全连接的softmax层，输出不同情感极性上的概率分布：

本发明实施例中通过一种新的注意力机制来融合卷积层和掩蔽层隐藏状态向量中与方面语义相关的显著特征，并相应地为每个上下文词设置准确的注意权重。注意权重分配过程表述如下：

其中，

和q_i分别为掩蔽层和卷积层输出的最终隐藏状态向量。W_w和U_w是随机初始化的权重，b_w是可训练参数，

是u_it的转置。然后使用公式

得到相应的注意力权重。

最后，基于方面的表示r被传递到一个完全连接的Softmax层，其输出是不同情绪极性上的概率分布：

p＝softmaxW_pr+b_p) (10)

其中W_p和b_p是情绪分类器层的可学习参数。

采用标准梯度下降算法训练模型，最小化所有训练样本的交叉熵损失：

其中J为训练样本的数量，p_i和

为第i个样本的真实值和预测标签，Θ表示所有可训练参数，λ为l₂-正则化系数。

表2为本发明实施例中方法(AFGCN)与基线模型的精确率和F1值(％)比较结果。每个数据集上的最佳结果都用粗体表示。

表2

本发明实施例与目前九种高性能的预测模型(SVM，ATAE-LSTM，Mem-Net，RAM，TNet-LF，TD-GAT，ASGCN，kumaGCN，BiGCN)进行了多轮实验比较，分类结果如表2所示。表2展示了本发明的模型和基线模型的结果对比，从表2可以看出，本发明方法在精确率(accuracy)和F1值(由准确率(precision)和召回率(recall)计算所得)等指标上的效果更好，且更稳定，标准差更小。计算公式如下：

其中TP(True Positive)代表真阳性：预测为正，实际也为正；FP(FalsePositive)代表假阳性：预测为正，实际为负；FN(False Negative)代表假阴性：预测与负、实际为正；TN(True Negative)代表真阴性：预测为负、实际也为负。

在5个基准数据集上的实验结果表明，本发明提出的模型在方面级情感分析中的有效性。

对应本发明中的一种基于句法依赖和图卷积网络的方面级情感分析方法，本发明还提供了一种基于句法依赖和图卷积网络的方面级情感分析装置，该装置包括：

对于本发明实施例的一种基于句法依赖和图卷积网络的方面级情感分析装置而言，由于其与上面实施例中的一种基于句法依赖和图卷积网络的方面级情感分析方法相对应，所以描述的比较简单，相关相似之处请参见上面实施例中一种基于句法依赖和图卷积网络的方面级情感分析方法部分的说明即可，此处不再详述。

本发明实施例还公开了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如上文任一实施例所提供的基于句法依赖和图卷积网络的方面级情感分析方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。