CN115936077B

CN115936077B - 基于依赖树的方面级情感分析交互卷积网络

Info

Publication number: CN115936077B
Application number: CN202211730845.7A
Authority: CN
Inventors: 陈建峡; 毛磊; 余天赐; 司浩英
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-09-15
Anticipated expiration: 2042-12-30
Also published as: CN115936077A

Abstract

本发明公开了基于依赖树的方面级情感分析交互卷积网络，包括输入编码层，其特征在于，还包括注意力层、依赖树层、图卷积层、交互网络层、以及输出层，所述图卷积层，用于根据句法结构图表示和句子隐藏状态向量表示的自注意力分数，利用Att‑GCN模型计算输出；交互网络层，用于输入Att‑GCN模型的输出，并进行交互操作；计算最终方面词表示的输出；计算输出和输出输出层根据和进行拼接操作，再进行分类获得分类概率。本发明使用交互网络层，减少因为卷积导致的信息丢失的影响。同时，让分散的句子信息更加的集中。

Description

基于依赖树的方面级情感分析交互卷积网络

技术领域

本发明涉及神经网络分类技术领域，具体涉及基于依赖树的方面级情感分析交互卷积网络。

背景技术

基于方面的情感分析(ABSA)旨在确定句子中给定方面术语的情感极性，其中情感极性包括正面、负面和中性。例如，在句子“The service is pretty good,but the foodtastes bad.”中，方面词“service”的情感极性是正面的，但对于方面词“food”来说，其情感极性是负面的。换而言之，在一个句子中需要对不同的情感方面进行分析，来区别不同方面词之间的情感极性。这种更深入的分析在理解特定的方面词情感极性上具有重要的意义。

基于方面情感分析的关键点之一是建立方面词与观点词之间的联系。已有的研究方法主要是对方面词及其相关意见词之间的依赖关系进行建模。例如，AT-LSTM[1]和RAM[2]模型强调了利用注意力机制对方面词与上下文之间的相关性进行建模。因为人类语言的复杂性，使用注意力机制可能会导致方面词和意见词之间的关系受到影响,这使得注意力机制的使用受到一定的限制。

随着图神经网络(GNN)的迅猛发展，目前很多ABSA研究方法通过图神经网络(GNN)结合句子的句法结构信息，来处理方面词和意见词之间的联系[3-5]。例如，ASGCN[3]模型将句法信息整合到图卷积网络中；CDT[4]模型将句法信息结合到词嵌入中，通过双向长短期记忆网络(Bi-LSTM)，使用图卷积网络(GCN)[5]来增强学习到的方面词的表示。但是，在这两项研究中，相邻节点被赋予了相同的权重，没有区别开相邻节点对当前节点不同的重要性。因此，其中的噪声信息会对模型的准确性造成一定的影响。

另外，基于图神经网络的方面级情感分析很多都结合了句子的句法信息，却没有充分的利用句法信息。就复杂的句子结构而言，方面词节点和其情感词节点通过多个子代节点相连。例如在图1中，单词“service”是“is”的子代节点，同时，单词“good”也是“is”的子代节点。那么，方面词“service”和观点词“good”，就是通过子代节点与子代节点之间相连。在这个过程中，可能会引入不相关的节点信息，产生噪声影响，这也是目前研究中的一个挑战。

发明内容

本发明的目的在于针对现有技术存在的上述问题，提供基于依赖树的方面级情感分析交互卷积网络。

为了实现上述的目的，本发明采用以下技术措施：

基于依赖树的方面级情感分析交互卷积网络，包括输入编码层，还包括注意力层、依赖树层、图卷积层、交互网络层、以及输出层，

所述输入编码层，用于接收外部输入的句子单词表示s，生成句子隐藏状态向量表示H和关于方面词的上下文隐藏状态向量表示C；

所述注意力层，用于计算出方面词隐藏状态向量表示H_a的注意力分数asp_att和句子隐藏状态向量表示H的自注意力分数self_att；

所述依赖树层，用于根据句子单词表示生成依赖树，并获得对应的句法结构图表示d^syn，将依赖树按照语法距离分隔获得句法结构子图表示

所述图卷积层，用于根据d^syn和self_att，利用Att-GCN模型计算输出A_d；根据和asp_att，利用Att-GCN模型计算输出{A_d1，A_d2，A_d3}；

所述交互网络层，用于将A_d、A_d1、A_d2、A_d3输入到Att-GCN网络进行交互操作，获得输出以及/>计算最终方面词表示的输出/>将/>和C进行平均池化后进行交互获得输出/>将/>和A_asp进行平均池化后进行交互获得输出其中，[；]代表横向维度上的拼接，

所述输出层，用于根据和/>进行拼接操作，再进行分类获得分类概率{α1，α2，α3}。

如上所述输入编码层根据句子单词表示s生成句子向量表示x，基于以下公式计算句子隐藏状态向量表示H中对应的第i个单词隐藏状态向量h_i：

其中，i代表序号，x_i代表句子向量表示x中的第i个句子单词向量，代表不同处理数据方向的单向门控循环神经网络GRU，/>和/>代表x_i经过/>和/>处理后的单词隐藏状态向量，[；]代表横向维度上的拼接，

关于方面词的上下文隐藏状态向量表示C基于以下公式：

C＝unmask(H)

其中，unmask函数是将句子隐藏状态向量集合H中的方面词对应的单词隐藏状态向量进行置0操作。

如上所述方面词隐藏状态向量表示H_a的注意力分数asp_att基于以下公式计算：

H_a＝mask(H)

其中，H_a代表方面词隐藏状态向量表示，H代表着句子隐藏状态向量表示，T代表着向量矩阵的转置操作，softmax()代表归一化指数函数，d_w表示H的横向维度，mask函数将方面词的上下文隐藏状态向量进行置0。

如上所述句子隐藏状态向量表示H的自注意力分数self_att基于以下公式：

如上所述Att-GCN模型基于以下公式：

H^d＝GCN(H，D^syn)

其中，H^d代表句子隐藏状态向量表示H和相关句法结构图表示D^syn经过图卷积神经网络GCN处理之后的中间向量矩阵，相关句法结构图表示相关注意力分数att∈{self_att，asp_att}。

如上所述输出A_d基于以下步骤获得：

将D^syn选择为d^syn，att选择self_att，将句子隐藏状态向量表示H和D^syn输入到Att-GCN模型中，输出a_d作为输出A_d；

所述输出{A_d1，A_d2，A_d3}基于以下步骤获得：

D^syn遍历选择为att选择asp_att，将句子隐藏状态向量表示H和D^syn输入到Att-GCN模型中，对应的三个输出a_d分别作为输出{A_d1，A_d2，A_d3}。

如上所述Att-GCN网络基于以下公式：

其中：分别为第l层Att-GCN网络的四个输入，/> 分别是第l层Att-GCN网络的四个输入对应的四个输出，也即第l+1层Att-GCN网络的四个输入，对于第l层Att-GCN网络的四个输入/> 分别为A_d、A_d1、A_d2、A_d3，

W_l为第l层Att-GCN网络的权重参数向量矩阵，

b_l为第l层Att-GCN网络的偏置项向量矩阵，

d代表句子向量表示的维数，

最后一层ATT-GCN网络的输出分别记为z表示最后一层ATT-GCN的序号。

如上所述交互网络层中平均池化后的交互基于以下公式：

其中，f^c是关于方面词的上下文隐藏状态向量表示C的平均池化后的输出，是输出A_d的平均池化后的输出，/>是最终方面词表示的输出A_asp的平均池化后的输出。

如上所述分类概率{α1，α2，α3}基于以下公式获得：

out′＝softmax(Linear(out))

output＝out′

softmax()代表归一化指数函数，Linear()代表线性函数；

out为拼接后的输出；

out′为最终的输出；

output为各个标签的分类概率{α1，α2，α3}，其中，α1，α2，α3∈[0，1]，α1+α2+α3＝1。

如上所述ATT-GCN网络的损失函数L(p(y)，q(y))基于以下公式：

其中，p(y)为样本真实分布，即句子单词表示中标注的数据标签；

q(y)为样本预测分布，即样本数据y的各个标签的分类概率output；

∑代表着求和，y代表输入的样本数据，即句子向量表示x，λ为正则化参数；

代表加入的L₂正则化公式，θ代表Att-GCN网络中学习参数。

本发明相对于现有技术，具有以下有益效果：

1)构建和使用依赖树的子树，结合方面表示的注意力分数，减少不相关情感词汇引起的噪声影响，聚焦于方面词和其对应的相关情感词。

2)使用交互网络，减少因为卷积导致的信息丢失的影响。同时，让分散的句子信息更加的集中。

3)实验结果证明，本发明的方法是一种基于方面级情感分析的竞争性替代方法，在公共数据集上取得了优于基线方法的效果。

附图说明

图1是本发明的完整系统架构图。其中{w₁，w₂，w₃，w₄，w₅}代表句子单词表示。{h₁，h₂，h₃，h₄，h₅}代表句子隐藏状态向量表示。{c₁，c₂，c₃}代表上下文隐藏状态向量表示。ATT-GCN代表ATT-GCN网络。

图2是本发明中计算方面词注意力分数和自注意力分数的结构图。其中{h₁，h₂，h₃，h₄，h₅}代表句子隐藏状态向量表示。句子隐藏状态向量表示分别赋值给K，Q和V。

图3是通过语法解析器解析过后的语法依赖树图，其中，(a)为依赖树结构图；(b)为子图依赖树结构图，数字是根据语法距离标记的数字距离，关系表示：det：限定词。nsubj：名词主语。conj：连接两个并列的词。cc：并列关系。acomp：形容词的补充。advmod：状语。词性解释：DET：限定词。NOUN：名词。AUX：非主要动词和助词。ADV：副词。ADJ：形容词。CCONJ：连词。VERB：动词。

图4是将GCN的输出和注意力分数整合起来之后形成的Att-GCN的结构图。其中，{h₁，h₂，h₃，h₄，h₅}代表句子隐藏状态向量表示。ATT-GCN代表ATT-GCN网络。

图5是本发明中使用的交互网络的结构图。

图6是本发明在不同数据集下，Att-GCN层数对模型的精度影响的对比图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实例对本发明作进一步的详细描述，此处所描述的实施示例仅用于说明和解释本发明，并非是对本发明的限制。

基于依赖树的方面级情感分析交互卷积网络，包括输入编码层、注意力层、依赖树层、图卷积层、交互网络层、以及输出层。

1)输入编码层：接收外部输入的句子单词表示s＝{w₁，w₂，...，w_m}，通过使用词嵌入方法，将句子单词表示s＝{w₁，w₂，...，w_m}映射为句子向量表示x＝{x₁，x₂，...，x_m}，w₁，w₂，...，w_m代表句子单词表示中的第1个单词，第2个单词，...，第m个单词。方面词可能是句子单词表示中的1个单词或者多个单词，上下文单词是指除了方面词以外的其他单词。在输入的每个句子单词表示中，有对应的数据标签[-1，0，1]。“-1”表示句子的情感倾向为“负向”，“0”表示句子的情感强倾向为“中性”，“1”表示句子的情感倾向为“负向”。

之后将句子向量表示x＝{x₁，x₂，...，x_m}输入到双向门控循环神经网络(Bi-GRU)获取句子隐藏状态向量表示代表句子隐藏状态向量表示中的单词隐藏状态向量表示，h_i为句子隐藏状态向量表示H中的第i个单词隐藏状态向量，/>代表向量矩阵，d代表句子向量表示的维数，保存句子向量表示中每个单词向量的顺序信息。双向门控循环神经网络(Bi-GRU)是两个不同处理数据方向的单向门控循环神经网络(GRU)叠加产生。

i代表序号i∈{1～m}，h_i代表句子隐藏状态向量表示H中对应的第i个单词隐藏状态向量。

双向门控循环神经网络(Bi-GRU)对句子向量表示x的处理用下列公式(1-3)表示：

i代表序号i∈{1～m}，x_i代表句子向量表示x中的第i个句子单词向量。

代表不同处理数据方向的单向门控循环神经网络GRU。

和/>代表x_i经过/>和/>处理后的单词隐藏状态向量。

[；]代表横向维度上的拼接，h_i代表和/>拼接后得到的单词隐藏状态向量。

之后从句子隐藏状态向量表示H中抽取出其中关于方面词的上下文隐藏状态向量表示C。例如：“这个餐厅的服务很好。”其中，“服务”代表方面词，其他单词代表着方面词的上下文单词。上下文隐藏状态向量表示C可以通过下列公式(4)获取：

C＝unmask(H) (4)

unmask函数是将句子隐藏状态向量集合H中的方面词对应的单词隐藏状态向量进行置0操作。

获取到的上下文隐藏状态向量表示C＝{c₁，c₂，...，0，0，...，c_p}。

代表上下文隐藏状态向量中的上下文单词隐藏状态向量。0代表被置0操作的方面词对应的H中的单词隐藏状态向量。

c₁，c₂，...，c_p表示句子隐藏状态向量表示H中的第1个上下文单词对应的单词隐藏状态向量，第2个上下文单词对应的单词隐藏状态向量，...，第p个上下文单词对应的单词隐藏状态向量。

2)注意力层：计算出方面词隐藏状态向量表示H_a的注意力分数asp_att和句子隐藏状态向量表示H的自注意力分数self_att。

注意力机制是一种常用于捕捉一个句子中的方面词和上下文单词之间关联的一种方法，同时也会减少句子中单词之间的长期依赖问题。本发明中采用了注意力机制来计算出了两个注意力分数：句子中方面词的注意力分数和句子的自注意分数，如图2所示。

图2中的给出了一个点积注意力机制的结构图，计算的过程使用以下公式(5)：

softmax()代表归一化指数函数。

其中给定一个键二维矩阵K，一个查询二维矩阵Q和一个设定二维矩阵V。K，Q和V都代表着一个二维矩阵

d_w表示二维矩阵的横向维度，T代表着向量矩阵的转置操作。

(1)关于方面词隐藏状态向量表示H_a的注意力分数asp_att

关于方面词隐藏状态向量表示H_a的注意力分数asp_att的计算，例如上面提到的“服务”是方面词，其他单词代表着方面词的上下文单词。首先本发明从输入编码层获取到的句子隐藏状态向量表示H中获取关于方面词隐藏状态向量表示H_a。H_a可以通过下列公式(6)获取：

H_a＝mask(H) (6)

其中mask函数是将句子隐藏状态向量集合H中的不是方面词对应的H中的单词隐藏状态向量表示进行置0操作，即将方面词的上下文隐藏状态向量进行置0。

获取H_a＝{0，0，...，a₁，...，a_j，...，0}，其中

其中0代表着被置0操作后的上下文单词。

a₁～a_j为句子隐藏状态向量表示H中的第1个方面词的单词隐藏状态向量～第j个方面词的单词隐藏状态向量。

代表向量矩阵，d代表初始向量矩阵的维数，2d表示两倍的初始向量矩阵的维数。

之后，将H_a赋值给Q，H赋值给K和V。最后通过注意力机制Attention(Q，K，V)公式的计算，得到关于方面词隐藏状态向量表示H_a的注意力分数asp_att(aspect-attention)。计算过程如下(7)：

其中，H_a代表方面词隐藏状态向量表示，H代表着句子隐藏状态向量表示。T代表着向量矩阵的转置操作。softmax()代表归一化指数函数，d_w表示H的横向维度。

(2)句子的自注意力分数计算

关于自注意力分数计算的方式，将句子隐藏状态向量表示H分别赋值给K，Q和V。然后通过注意力机制Attention(Q，K，V)公式的计算，得到关于句子隐藏状态向量表示H的自注意力分数self_att(self-attention)。计算过程如下(8)：

其中，H代表着句子隐藏状态向量表示。T代表着向量矩阵的转置操作。softmax()代表归一化指数函数，d_w表示H的横向维度。

经过注意力层的处理，获取到句子隐藏状态向量表示H的自注意力分数self_att和方面词隐藏状态向量表示H_a的注意力分数asp_att。

3)依赖树层：将根据句子单词表示的依赖树结构获取句子的句法信息。同时，依赖树按照方面词的语法距离来构建依赖树的子树。

句子单词表示的句法信息中包含了大量的有效信息，在进行句子的情感分析的时候，会经常使用到句法信息。抽取句子的句法信息，就需要用到语法解析器。句子经过语法解析器，会抽取句子单词表示中每个单词的依存关系。根据每个单词的依存关系，一个句子就可以够成一个依赖树。

获取到句子的依赖树后，通过将依赖树转换为依赖图，就得到了一个句子的句法结构图表示d^syn。然后，依赖树按照方面词的语法距离来构建依赖树的子树。如图5所示，本发明将依赖树表示按照语法距离进行分割，将句法结构图表示d^syn分为三张句法结构子图表示

获得的句法结构子图表示为减少了方面词到观点词之间不相关单词的介入，也因此减少了噪声数据的影响。例如上面提到的“这个餐厅的服务很好。”，其中，“服务”代表方面词，“很好”就代表着观点词。之后，本发明需要将得到的句法结构图表示d^syn和三张句法结构子图表示/>同注意力层得到的注意力分数self_att和asp_att进行整合，整合过程如公式(9-10)所示。注意力分数self_att和asp_att会加强了句子中的单词与方面词之间的联系。

4)图卷积层：获取最有效的句子信息。

如图4所示，本发明ASAI-DT模型对图卷积神经网络GCN做了一定的改动后得到Att-GCN模型，以适应模型抽取有效信息的功能。

本发明使用图卷积神经网络GCN来抽取句子隐藏状态向量表示H、句法结构图表示d^syn、以及句法结构子图表示中的有效信息。之后将抽取的有效信息加上注意力层计算出的自注意力分数self_att和注意力分数asp_att，来增强与方面词有关联的单词的获取。如图4所示，整合过程如下(9-10)：

H^d＝GCN(H，D^syn) (9)

其中：

H为句子隐藏状态向量表示。

D^syn表示相关句法结构图表示，相关句法结构图表示

H^d代表句子隐藏状态向量表示H和相关句法结构图表示D^syn经过图卷积神经网络GCN处理之后的中间向量矩阵。

att表示为相关注意力分数，相关注意力分数∈{句子隐藏状态向量表示H的自注意力分数self_att，方面词隐藏状态向量表示H_a的注意力分数asp_att}。

表示向量矩阵的相乘。

a_d代表中间向量矩阵和相关注意力分数进行矩阵相乘之后的输出。

在计算时，D^syn选择为d^syn，att选择self_att，先将句子隐藏状态向量表示H和D^syn句法结构图表示输入到Att-GCN模型中。Att-GCN模型就是将公式(9-10)合并起来，结构图如图4所示，通过Att-GCN模型之后得到一个输出a_d为A_d。

接着，D^syn遍历选择为att选择asp_att，先将句子隐藏状态向量表示H和D^syn输入到Att-GCN模型中。Att-GCN模型就是将公式(9-10)合并起来，结构图如图4所示，通过Att-GCN模型之后，同样的输入到得到三个输出a_d分别为{A_d1，A_d2，A_d3}。

5)交互网络层：整合获得的句子的有效信息。

为了更好的融合抽取的有效信息，本发明采用了一个简单而有效的交叉网络结构，将两个向量矩阵进行交互融合，如图5所示。

交叉网络的公式(11)如下：

为交互网络的第l层Att-GCN网络的第一个交互矩阵的输入，l表示层数，随着初始设定的值进行改变。

为第l层Att-GCN网络的第二个交互矩阵的输入，同时在之后的层数中X₀都作为第二个交互矩阵的输入。

为第l层Att-GCN网络的输出，同时也是l+1层Att-GCN网络的第一个交互矩阵的输入。即将l+1层的X_l替换为X_l+1。同时l+1层中的X₀不变。

为第l层Att-GCN网络的权重参数向量矩阵。

为第l层Att-GCN网络的偏置项向量矩阵。

代表与句子向量表示相同的矩阵表示，d代表句子向量表示的维数，T代表转置操作。

(1)多层卷积操作

在GCN层中，本发明设置了多层的Att-GCN网络进行卷积操作。在各层Att-GCN网络之间会进行一个交互的操作。对Att-GCN模型得到的A_d和{A_d1，A_d2，A_d3}同句子隐藏状态向量表示H进行交互操作。交互过程如下(12-13)：

其中：分别为第l层Att-GCN网络的四个输入，/> 分别是第l层Att-GCN网络的四个输入对应的四个输出，也即第l+1层Att-GCN网络的四个输入，对于第l层Att-GCN网络的四个输入/> 分别为A_d、A_d1、A_d2、A_d3。

为第l层Att-GCN网络的权重参数向量矩阵。

为第l层Att-GCN网络的偏置项向量矩阵。

T代表着向量矩阵的转置操作。

代表与句子向量表示相同的矩阵表示，d代表句子向量表示的维数。

经过多层ATT-GCN网络之后，最后一层ATT-GCN网络的输出分别记为和、z表示最后一层ATT-GCN的序号。

将得到的三个输出进行一个拼接。拼接过程如下(14)：

[；]代表着横向维度上的拼接。

z表示最后一层ATT-GCN的层数。

拼接过后得到一个关于最终方面词表示的输出

代表与句子向量表示相同的矩阵表示，d代表句子向量表示的维数，6d表示6倍的句子向量表示的维数。

不仅减少了噪声数据的影响，同时在A_asp中也获取到了与方面词最有关联的句子的词联系。

(2)平均池化

本发明在获得图卷积的两个输出和/>之后，通过一个平均池化层，将/>和/>进行平均池化处理。同时，将输入编码层获取到的上下文隐藏状态向量表示/>进行同样的平均池化处理。其中，/>代表与句子向量表示相同的矩阵表示，d代表句子向量表示的维数，2d表示2倍的句子向量表示的维数，6d表示6倍的句子向量表示的维数。处理过程如下(15)：

f′＝Average pooling(f) (15)

f为平均池化处理的输入。

Average pooling()表示为平均池化处理。

f′为平均池化处理之后的输出。

本发明将A_asp和C分别作为平均池化处理的输入f，依次得到输出/> 和o为平均池化后的维度，/>代表与句子向量表示相同的矩阵表示。

(3)交互处理

平均池化后，为了减少有效信息的丢失。本发明将得到的上下文隐藏状态向量表示C平均池化后的数据f^c，同得到句子的平均池化表示和方面词的平均池化表示/>一起送入到交互网络中。在这里本文中去除了原始交叉网络方程中权重参数向量矩阵W_l和偏置项向量矩阵b_l，交互的过程如下(16-17)：

为/>和f^c交互后的输出。

为/>和/>交互后的输出。

T代表着向量矩阵的转置操作。

+表示两个向量矩阵的加和，“·”表示两个向量矩阵的相乘。

o为平均池化后的维度，代表向量矩阵。

6)输出层：输出最后的结果。

在输出层中，先将交互网络层得到的两个输出和/>进行拼接操作，之后送入到分类器中。输出过程如公式(18-19)所示：

out′＝softmax(Linear(out))

output＝out′ (19)

softmax()代表归一化指数函数，Linear()代表线性函数。

为拼接后的输出。

为最终的输出。

output为各个标签的分类概率{α1，α2，α3}，其中，α1，α2，α3∈[0，1]，分别表示一个计算输出概率。同时α1+α2+α3＝1。

o为平均池化后的维度，2o为2倍平均池化后的维度，代表与句子向量表示相同的矩阵表示。

[；]代表着横向维度上的拼接

本发明ATT-GCN网络的损失函数是交叉熵损失函数(CrossEntropy Loss)，一种处理分类问题中常用的损失函数，具体公式(20)如下：

p(y)为样本真实分布，即句子单词表示中标注的数据标签[-1，0，1]。

q(y)为样本预测分布。即样本数据y的各个标签的分类概率output为{α1，α2，α3}

∑代表着求和，y代表输入的样本数据，即句子向量表示x，λ为正则化参数。

代表加入的L₂正则化公式，θ代表Att-GCN网络中学习参数，随着Att-GCN网络的训练自动迭代更新。

L(p(y)，q(y))表示根据样本数据计算出来的损失结果。对本模型方面级情感分析交互卷积网络中的参数进自动更新。

同时也加入了L₂正则化进行约束，L₂正则化控制模型的复杂度，减少模型的过拟合。

4.1.2评价指标

本发明采用交叉熵作为损失函数，一种常用于处理分类问题中的损失函数。在损失函数中使用的是L₂正则化权重。加入了L₂正则化进行约束，L₂正则化控制模型的复杂度，减少模型的过拟合。同时使用Adma[4]优化器来更新本模型方面级情感分析交互卷积网络中参数。本发明采用准确率和Macro-F1作为评估模型性能的评价指标。准确率和Macro-F1的指标越高，模型的性能就越好。

4.1.3参数设置

具体的超参数设置如表2所示。

表2超参数设置表

4.2与其他模型比较的实验结果

为了证明本发明提出方法的有效性，本发明与以下的方法进行了对比，且实验结果如表3所示。

(1)AS-GCN通过GCN来学习ABSA的句法信息和单词依赖。

(2)CDT利用依赖树模型上的卷积来学习句子特征的表示。

(3)BiGCN对句法图和词法图进行层次化的建模，来达到ABSA的情感预测。

(4)kumaGCN结合依赖图和潜在图的信息来学习句法特征，以达到模型效果的提升。

(5)DGEDT结合依赖图的表示和transformer的平面表示，提出了一种依赖图增强的dual-transformer模型。

4.3实验结果分析

本实验以近几年表现不错的模型为基准。与基线方法相比，本发明的结果如表3所示。可以观察到，本发明的准确性和Macro-F1优于大多数的基准方法。说明本文模型使用方面注意力机制和子依赖树集成到GCN之后，使得GCN的性能得到了一定的提升。同时，在捕获方面词和观点词之间的依赖关系上，也优于使用依赖树和GCN的模型，如模型CTD，BiGCN和kumaGCN。实验结果表明，本发明可以有效提高模型的准确率和表达能力。

表3模型实验比较结果表

4.4Att-GCN层数研究

本发明通过Att-GCN网络的层数对模型精度的影响进行分析实验，结果如6所示。

本文对三个公共数据集Lap14、Rest14和Twitter进行实验测试，通过Att-GCN的层数来确定实验结果的精度。其中三个数据集的Twitter来源于论文【Li,D.,etal."AdaptiveRecursive Neural Network for Targetdependent Twitter SentimentClassification."Meeting of the Association for Computational Linguistics2014.】，数据集Lap14和Rest14来源于论文【Pontiki,M.,Papageorgiou,H.,Galanis,D.,Androutsopoulos,I.,Pavlopoulos,J.,Manandhar,S.:Semeval-2014task 4:Aspectbased sentiment analysis.In:SemEval,vol.2014,p.27(2014)】从图6中可知，实验设置对应的Att-GCN网络的层数：3、4、5、6、7、8和10层。Att-GCN网络最优的层数为3层。

需要指出的是，本发明中所描述的具体实施例仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例作各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims

1.基于依赖树的方面级情感分析交互卷积网络，包括输入编码层，其特征在于，还包括注意力层、依赖树层、图卷积层、交互网络层、以及输出层，

所述图卷积层，用于根据d^syn和self_att，利用Att-GCN模型计算输出A_d；根据和asp_att，利用Att-GCN模型计算输出{A_d1,A_d2,A_d3}；

所述交互网络层，用于将A_d、A_d1、A_d2、A_d3输入到Att-GCN网络进行交互操作，获得输出以及/>计算最终方面词表示的输出/> 将/>和C进行平均池化后进行交互获得输出/>将/>和A_asp进行平均池化后进行交互获得输出/>其中，[；]代表横向维度上的拼接；

所述输出层，用于根据和/>进行拼接操作，再进行分类获得分类概率{α1,α2,α3}，

所述Att-GCN模型基于以下公式：

H^d＝GCN(H,D^syn)

其中，H^d代表句子隐藏状态向量表示H和相关句法结构图表示D^syn经过图卷积神经网络GCN处理之后的中间向量矩阵，相关句法结构图表示相关注意力分数att∈{self_att，asp_att}，/>表示向量矩阵的相乘，

所述Att-GCN网络基于以下公式：

其中：分别为第l层Att-GCN网络的四个输入，/> 分别是第l层Att-GCN网络的四个输入对应的四个输出，也即第l+1层Att-GCN网络的四个输入，对于第1层Att-GCN网络的四个输入/> 分别为A_d、A_d1、A_d2、A_d3，

W_l为第l层Att-GCN网络的权重参数向量矩阵，

b_l为第l层Att-GCN网络的偏置项向量矩阵，

d代表句子向量表示的维数，

T代表着向量矩阵的转置操作，

2.根据权利要求1所述基于依赖树的方面级情感分析交互卷积网络，其特征在于，所述输入编码层根据句子单词表示s生成句子向量表示x，基于以下公式计算句子隐藏状态向量表示H中对应的第i个单词隐藏状态向量h_i：

其中，i代表序号，x_i代表句子向量表示x中的第i个句子单词向量，代表不同处理数据方向的单向门控循环神经网络GRU，/>和/>代表x_i经过/>和/>处理后的单词隐藏状态向量，

关于方面词的上下文隐藏状态向量表示C基于以下公式：

C＝unmask(H)

3.根据权利要求2所述基于依赖树的方面级情感分析交互卷积网络，其特征在于，所述方面词隐藏状态向量表示H_a的注意力分数asp_att基于以下公式计算：

H_a＝mask(H)

4.根据权利要求3所述基于依赖树的方面级情感分析交互卷积网络，其特征在于，所述句子隐藏状态向量表示H的自注意力分数self_att基于以下公式：

5.根据权利要求4所述基于依赖树的方面级情感分析交互卷积网络，其特征在于，所述输出A_d基于以下步骤获得：

所述输出{A_d1,A_d2,A_d3}基于以下步骤获得：

D^syn遍历选择为att选择asp_att，将句子隐藏状态向量表示H和D^syn输入到Att-GCN模型中，对应的三个输出a_d分别作为输出{A_d1,A_d2,A_d3}。

6.根据权利要求5所述基于依赖树的方面级情感分析交互卷积网络，其特征在于，所述交互网络层中平均池化后的交互基于以下公式：

7.根据权利要求6所述基于依赖树的方面级情感分析交互卷积网络，其特征在于，所述分类概率{α1,α2,α3}基于以下公式获得：

out′＝softmax(Linear(out))

output＝out′

sfotmax()代表归一化指数函数，Linear()代表线性函数；

out为拼接后的输出；

out′为最终的输出；

output为各个标签的分类概率{α1,α2,α3}，其中，α1,α2,α3∈[0,1]，α1+α2+α3＝1。

8.根据权利要求7所述基于依赖树的方面级情感分析交互卷积网络，其特征在于，所述ATT-GCN网络的损失函数L(p(y),q(y))基于以下公式：

代表加入的L₂正则化公式，θ代表Att-GCN网络中学习参数。