CN112633010B

CN112633010B - 基于多头注意力和图卷积网络的方面级情感分析方法及系统

Info

Publication number: CN112633010B
Application number: CN202011598554.8A
Authority: CN
Inventors: 刘培玉; 徐广涛; 朱振方; 徐富永; 刘慧伶
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-08-04
Anticipated expiration: 2040-12-29
Also published as: CN112633010A

Abstract

本公开提出了基于多头注意力和图卷积网络的方面级情感分析方法及系统，包括：将输入文本进行处理获得上下文化表示；针对获得的上下文化表示，使用多头自注意机制捕捉上下文语义信息，之后通过一个卷积变换层转换多头自注意力层收集到的信息，同时，针对获得的上下文化表示，使用注意力增强的图卷积网络捕捉句子依存树中的结构信息并更新每个单词节点的特征表示，进行方面词输出；将得到的方面词输出进行池化操作，并将转换多头自注意力层收集到的信息后的输出送入多头交互注意力中，得到多头交互注意力的输出；得到最终的情感极性预测结果。

Description

基于多头注意力和图卷积网络的方面级情感分析方法及系统

技术领域

本公开属于方面级别文本情感分析技术领域，尤其涉及基于多头注意力和图卷积网络的方面级情感分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着互联网的不断发展，越来越多的文本信息充斥着网络空间的每一个角落，例如各大社交网络(推特、脸书、QQ、微信等)和电商平台(京东、淘宝、苏宁、美团等)。为了能够掌握各大社交网络的舆论走向、净化网络空间环境，为了了解各电商平台产品的用户反馈、及时地改进产品缺陷，方面级文本情感分类任务应运而生。

面对互联网中如此庞大的文本信息，仅仅依靠人工处理是不现实的。近年来，随着深度学习的发展，越来越多的基于神经网络的模型被应用到方面级情感分析任务上。目前主要包括基于注意力机制和基于图卷积网络的神经网络模型。

基于注意力机制的方法主要是通过注意力机制来建模方面词和观点词之间的关系。首先通过神经网络建模上下文语义信息，之后通过注意力机制为每个上下文中的词分配权重信息，建立方面词与上下文词之间的联系，通过高权重值来使模型关注到句子中为判断情感极性提供关键信息的位置。这种方法的优点是无需依赖人工特征，大大节省了人工成本，且模型可以自动地判断句子中每个字与方面地相关性。但是，随着基于注意力机制的神经网络模型地不断发展，人们发现注意力机制在处理复杂句子结构信息时往往无法正确地关注到句子的关键位置。其次，在模型学习的过程中，对于高频词汇往往会给予更多的关注，导致在处理一些出现频率较低的数据信息时往往会误判。

基于图卷积网络的模型主要是通过利用句子结构信息来建立方面词和观点词之间的依赖关系。首先需要为每个句子建立一个依存树，然后利用图卷积网络捕捉依存树当中的句法信息，建立方面词和观点词之间的联系。然而这种方法高度依赖依存树结构的解析性能，当依存树当中没有包含方面词和观点词之间的结构信息时，模型便无法做出准确的预测。其次，由于依存树当中不只包含方面词和观点词之间的联系，还包含句子中其它结构信息。当通过图卷积网络更新句子表示的过程中，会将一些无关的噪声信息也包含进来，影响了判断的准确性。此外，在更新节点的过程中传统的图卷积网络没有考虑各相邻节点地权重占比问题，导致一些不重要的节点被给予了过多的关注。

发明内容

为克服上述现有技术的不足，本公开提供了基于多头注意力和图卷积网络的方面级情感分析方法，通过结合句子的语义信息和句法信息，该方法可以更加准确且稳定地判断各类数据集中方面词的情感极性。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

第一方面，基于多头注意力和图卷积网络的方面级情感分析方法，包括：

将输入文本进行处理获得上下文化表示；

针对获得的上下文化表示，使用多头自注意机制捕捉上下文语义信息，之后通过一个卷积变换层转换多头自注意力层收集到的信息，同时，针对获得的上下文化表示，使用注意力增强的图卷积网络捕捉句子依存树中的结构信息并更新每个单词节点的特征表示，进行方面词输出；

将得到的方面词输出进行池化操作，并将转换多头自注意力层收集到的信息后的输出送入多头交互注意力中，得到多头交互注意力的输出；

得到最终的情感极性预测结果。

进一步的技术方案，将输入文本首先转换为词向量嵌入，再将得到的文本嵌入转化为上下文化表示。

进一步的技术方案，还包括：多头交互注意力的输出与方面池化输出进行拼接操作，将拼接后的特征向量作为方面级情感分析的特征。

进一步的技术方案，采用两种嵌入方式，一种是Glove嵌入，一种是BERT嵌入。

优选的，对于BERT嵌入，使用预训练的BERT-Large的全词遮盖变体，BERT使用的切词方式为Wordpiece Tokenizer，会将某些单词切成几个子词的集合，之后随机选择子词遮盖进行预测训练。先将这些子词相加，与依存树相匹配。

进一步的技术方案，针对Glove嵌入，使用双向LSTM获得输入句子的上下文化表示，对于BERT嵌入使用BERT模型自带的编码器获得句子的上下文化表示。

进一步的技术方案，使用多头自注意机制捕捉上下文语义信息时，使用多个注意力头来并行地从输入信息中计算各方面的信息，并在最后将多方面信息结合在一起，得到输入句子的语义表示，其中每个注意力头关注于输入信息的不同方面。

进一步的技术方案，在预测句子的方面情感极性时利用到句子的句法信息，具体为：构建L层AEGCN来捕捉句法信息，首先，给每个句子构建依存树，然后通过依存树获得每个句子的邻接矩阵，矩阵的大小n代表的是句子的长度，邻接矩阵中每个元素的含义实际上就是句子中每个单词与句子中所有单词在句法上是否相邻，若是则为1，不是为0，得到邻接矩阵A后可以利用其来捕捉句子的句法信息。

第二方面，基于多头注意力和图卷积网络的方面级情感分析系统，包括：

输入文本处理模块，用于将输入文本进行处理获得上下文化表示；

语义信息和句法信息获取模块，用于针对获得的上下文化表示，使用多头自注意机制捕捉上下文语义信息，之后通过一个卷积变换层转换多头自注意力层收集到的信息，同时，针对获得的上下文化表示，使用注意力增强的图卷积网络捕捉句子依存树中的结构信息并更新每个单词节点的特征表示，进行方面词输出；

情感极性预测模块，用于将得到的方面词输出进行池化操作，并将转换多头自注意力层收集到的信息后的输出送入多头交互注意力中，得到多头交互注意力的输出；

得到最终的情感极性预测结果。

以上一个或多个技术方案存在以下有益效果：

本公开技术方案利用多头注意力机制构建一个交互层，交互层用来把语义捕捉模块和句法捕捉模块获得的信进行交互，整合注意力编码层建模的语义信息和图卷积网络捕捉到的句法信息以获得更优的特征表示。其次，在传统的图卷积网络的基础上添加了句法捕捉模块，增强其捕捉句法信息的能力。通过结合句子的语义信息和句法信息，该的方法可以更加准确且稳定地判断各类数据集中方面词的情感极性。

本公开技术方案解决了传统的图卷积网络无法为相邻节点分配不同权重的问题，使得图卷积网络在更新节点表示的过程中，可以合理地考虑到不同的相邻节点对当前节点的重要性。同时，本方法通过引入多头交互注意力机制作为交互层可以有效地结合句子的句法信息和语义信息，提高了不同数据集上情感极性判断的准确性和稳定性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例网络模型图；

图2为本公开实施例中的单层AEGCN示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了基于多头注意力和图卷积网络的方面级情感分析方法，主要流程如下所示：

S1：将输入文本转换为词向量嵌入。在这里采用两种嵌入方式，一种是Glove嵌入，一种是BERT嵌入；

S2：将S1中得到的文本嵌入转化为上下文化表示。针对Glove嵌入使用双向LSTM获得输入句子的上下文化表示。对于BERT嵌入使用BERT模型自带的编码器获得句子的上下文化表示。

S3：将S2获得的上下文化表示分别输入语义捕捉模块和句法捕捉模块。语义捕捉模块包括多头自注意力机制和卷积变换。句法捕捉模块包括图卷积网络。在语义捕捉模块使用多头自注意机制捕捉上下文语义信息，之后通过一个卷积变换层转换多头自注意力层收集到的信息，卷积变换的作用是进一步提取特征信息，是对前面多头自注意力提取的信息的进一步整理，转换后仍是语义信息。在句法捕捉模块使用2层注意力增强的图卷积网络捕捉句子依存树中的结构信息并更新每个单词节点的特征表示。

S4：将S3中句法捕捉模块得到的方面词输出进行池化操作，并将其与语义捕捉模块的输出一同送入多头交互注意力中，得到多头交互注意力的输出。

S5：将多头交互注意力的输出与语义捕捉模块的方面池化输出进行拼接操作，将拼接后的特征向量作为方面级情感分析的特征。

S6：利用全连接层和softmax层对步骤S5中的输出进行处理，得到最终的情感极性预测结果。

最后的softmax层的输出为一个三维行向量，每一个维度的数值分别对应“积极”，“中立”，“消极”这三个情感极性的概率，选取数值最大的所对应的情感极性作为预测结果。

例如：[0.1,0.8,0.1]，第二列数值最大，则选取第二列所对应的情感极性“中立”，作为预测结果。

基于本发明的主要思想，详细地介绍了基于多头注意力和图卷积网络的方面级情感分析方法的实施过程，其具体包括以下步骤：

S1：将输入文本转换为词向量嵌入。在这里采用两种嵌入方式，一种是Glove嵌入，一种是BERT嵌入。对于第一种嵌入方式，通过预训练的GloVe嵌入矩阵将每个单词匹配到对应的嵌入向量/>其中d_m代表词向量的嵌入维度,|V|代表词汇表的大小。

对于第二种嵌入方式，本公开技术方案使用的是预训练的BERT-Large的全词遮盖变体。原因是BERT使用的切词方式为Wordpiece Tokenizer，会将某些单词切成几个子词的集合，之后随机选择子词遮盖进行预测训练。而为了和依存树相匹配，需要先将这些子词相加。因此相较于随机子词遮盖的方式获得的词向量，采用全词遮盖的方式获得的词向量与模型更契合。

S2：将S1中得到的文本嵌入转化为上下文化表示。针对Glove嵌入，使用双向LSTM获得输入句子的上下文化表示。对于BERT嵌入，使用BERT模型自带的编码器获得句子的上下文化表示。对于Glove嵌入，将S1中获得的句子矩阵输入到BiLSTM中获得句子的上下文化表示其中d_hid代表BiLSTM输出的隐藏状态向量维度，n代表句子长度。对于BERT嵌入，将BERT编码层中最后一层Transformer的输出表示作为输入文本的上下文化表示。

S3：将S2获得的上下文化表示分别输入语义捕捉模块和句法捕捉模块。在语义捕捉模块使用多头自注意机制捕捉上下文语义信息，之后通过一个卷积变换层转换多头自注意力层收集到的信息。在句法捕捉模块使用注意力增强的图卷积网络捕捉句子依存树中的结构信息并更新每个单词节点的特征表示。

对于语义捕捉模块：引入了多头注意力机制(MHA)，使用多个注意力头来并行地从输入信息中计算各方面的信息，并在最后将多方面信息结合在一起，得到输入句子的语义表示。其中每个注意力头关注于输入信息的不同方面。上下文的语义表示如下所示:

H^M＝MHA(H^c，H^c) (4)

head_i＝Attention_i(k，q) (6)

其中，代表向量连接，/>是一个参数矩阵,head_i代表第i个注意力头的输出。

f是计算和评估k_i和q_j的语义关系的函数,代表要学习的权重矩阵。

之后将多头注意力的输出进行了两次卷积操作，使用的卷积核的大小为1。两次卷积操作实质上就是两层全连接层的嵌套，在第一层全连接层中使用的激活函数为Relu，第二层全连接层使用的是线性激活函数。形式上，给定输入序列h，卷积变换(CT)定义为:

其中*代表卷积操作。和/>分别代表两个卷积核的权重。/>和/>为两个卷积核的偏置。

给定了多头注意力层的输出将经过卷积变换后得到注意力编码层最后的输出表示为/>

H^A＝CT(H^M) (10)

对于句法捕捉模块：为了在预测句子的方面情感极性时利用到句子的句法信息，构建了L层AEGCN来捕捉句法信息。首先，给每个句子构建了依存树，然后通过依存树获得每个句子的邻接矩阵矩阵的大小n代表的是句子的长度。邻接矩阵中每个元素的含义实际上就是句子中每个单词与句子中所有单词在句法上是否相邻，若是则为1，不是为0。例：矩阵中第i行第j列元素a_ij代表的是句子中第i个词和第j个词在依存树中是否相邻，若为1则表示相邻，若为0则表示不相邻。特别的，邻接矩阵的对角线元素全为1，即每个单词都与它本身相邻。得到邻接矩阵A后就可以利用其来捕捉句子的句法信息了。

将每层AEGCN的输出表示为(l∈[1，L])，每层AEGCN的输出都是下一层AEGCN的输入。特别的，为了便于理解将第一层AEGCN的输入表示为/>若将节点i的所有相邻节点表示为则第l层AEGCN的第i个节点的输出可以表示为：

其中，权重W^l和偏置b^l是需要学习的参数，A_ij代表的是邻接矩阵，代表第l层AEGCN中节点i与相邻节点的归一化注意力系数。最后一层AEGCN的输出为

S4：将S3中句法捕捉模块得到的方面词输出进行池化操作，并将其与语义捕捉模块的输出一同送入多头交互注意力中，得到多头交互注意力的输出。为了进一步加强语义信息和句法信息之间的联系，引入了多头交互注意力机制(MHIA)。MHIA是一种query和key不同的多头注意力形式，通过query和key之间的信息交互获得更加全面丰富的特征表示，有利于基于方面的情感分类。因此使用MHIA来整合语义信息和句法信息，以便两者能够完全交互，获得更全面的特征表示用于最后的情感分类。具体地，将最后一层AEGCN的方面输出表示为其中m代表方面词的长度。那么多头交互注意力的输出h^MI表示为：

h^MI＝MHIA(H^A，H^La) (11)

S5：将多头交互注意力的输出与语义捕捉模块的方面池化输出进行拼接操作，将拼接后的特征向量作为方面级情感分析的特征。如图1所示，在输出层将注意力编码层的方面输出进行平均池化操作，并将其与多头交互注意力的输出进行拼接操作作为模型最后的特征表示。若将注意力编码层的方面输出表示为则最后输出的特征表示h^o为:

S6：利用全连接层和softmax层对步骤S5中的输出进行处理，得到最终的情感极性预测结果。最后将最终得到的特征向量表示送入一个全连接的softmax层，得到概率分布并利用此概率分布得到最终预测的情感极性。

P＝soft max(W_ph^o+b_p) (15)

其中W_p和b_p分别为需要学习的权重矩阵和偏置，d_p表示情感极性的类别个数。

得到情感极性的概率分布P后，通过标准梯度下降算法进行训练模型，目标函数定义为带有L₂正则项的交叉熵损失：

其中D代表训练的数据集，代表真值标签，/>代表P中第/>个元素。θ为所有需要训练的参数，λ代表L₂正则项的系数。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例子一中所述方法的具体步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述实施例子一中所述方法的具体步骤。

实施例四

本实施例的目的是提供基于多头注意力和图卷积网络的方面级情感分析系统，包括：

得到最终的情感极性预测结果。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

本领域技术人员应该明白，上述本公开的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于多头注意力和图卷积网络的方面级情感分析方法，其特征是，包括：

将输入文本进行处理获得上下文化表示；

得到最终的情感极性预测结果；

具体包括以下步骤：

S1：将输入文本转换为词向量嵌入；在这里采用两种嵌入方式，一种是Glove嵌入，一种是BERT嵌入；对于第一种嵌入方式，通过预训练的GloVe嵌入矩阵将每个单词匹配到对应的嵌入向量/>，其中/>代表词向量的嵌入维度,|V|代表词汇表的大小；

对于第二种嵌入方式，使用的是预训练的BERT-Large的全词遮盖变体；原因是BERT使用的切词方式为Wordpiece Tokenizer，会将某些单词切成几个子词的集合，之后随机选择子词遮盖进行预测训练；而为了和依存树相匹配，需要先将这些子词相加；因此相较于随机子词遮盖的方式获得的词向量，采用全词遮盖的方式获得的词向量与模型更契合；

S2：将S1中得到的文本嵌入转化为上下文化表示；针对Glove嵌入，使用双向LSTM获得输入句子的上下文化表示；对于BERT嵌入，使用BERT模型自带的编码器获得句子的上下文化表示；对于Glove嵌入，将S1中获得的句子矩阵输入到BiLSTM中获得句子的上下文化表示；其中/>代表BiLSTM输出的隐藏状态向量维度，n代表句子长度；对于BERT嵌入，将BERT编码层中最后一层Transformer的输出表示作为输入文本的上下文化表示；

S3：将S2获得的上下文化表示分别输入语义捕捉模块和句法捕捉模块；在语义捕捉模块使用多头自注意机制捕捉上下文语义信息，之后通过一个卷积变换层转换多头自注意力层收集到的信息；在句法捕捉模块使用注意力增强的图卷积网络捕捉句子依存树中的结构信息并更新每个单词节点的特征表示；

对于语义捕捉模块：引入了多头注意力机制MHA，使用多个注意力头来并行地从输入信息中计算各方面的信息，并在最后将多方面信息结合在一起，得到输入句子的语义表示；其中每个注意力头关注于输入信息的不同方面；上下文的语义表示如下所示:

（4）

（5）

（6）

其中，代表向量连接，/>是一个参数矩阵,/>代表第i个注意力头的输出；

（7）

f是计算和评估和/>的语义关系的函数,/>代表要学习的权重矩阵；

之后将多头注意力的输出进行了两次卷积操作，使用的卷积核的大小为1；两次卷积操作实质上就是两层全连接层的嵌套，在第一层全连接层中使用的激活函数为Relu，第二层全连接层使用的是线性激活函数；形式上，给定输入序列h，卷积变换CT定义为:

（9）

其中代表卷积操作；/>和/>分别代表两个卷积核的权重；/>和/>为两个卷积核的偏置；

给定了多头注意力层的输出，将经过卷积变换后得到注意力编码层最后的输出表示为/>：

（10）

对于句法捕捉模块：为了在预测句子的方面情感极性时利用到句子的句法信息，构建了L层AEGCN来捕捉句法信息；首先，给每个句子构建了依存树，然后通过依存树获得每个句子的邻接矩阵；矩阵的大小n代表的是句子的长度；邻接矩阵中每个元素的含义实际上就是句子中每个单词与句子中所有单词在句法上是否相邻，若是则为1，不是为0；矩阵中第i行第j列元素/>代表的是句子中第i个词和第j个词在依存树中是否相邻，若为1则表示相邻，若为0则表示不相邻；邻接矩阵的对角线元素全为1，即每个单词都与它本身相邻；得到邻接矩阵A后就利用其来捕捉句子的句法信息了；

将每层AEGCN的输出表示为(l∈[1，L])，每层AEGCN的输出都是下一层AEGCN的输入；为了便于理解将第一层AEGCN的输入/>表示为；若将节点i的所有相邻节点表示为/>，则第l层AEGCN的第i个节点的输出表示为：

（1）

（2）

（3）

其中，权重和偏置/>是需要学习的参数，/>代表的是邻接矩阵，/>代表第l层AEGCN中节点i与相邻节点的归一化注意力系数；最后一层AEGCN的输出为；

S4：将S3中句法捕捉模块得到的方面词输出进行池化操作，并将其与语义捕捉模块的输出一同送入多头交互注意力中，得到多头交互注意力的输出；为了进一步加强语义信息和句法信息之间的联系，引入了多头交互注意力机制MHIA；MHIA是一种query和key不同的多头注意力形式，通过query和key之间的信息交互获得更加全面丰富的特征表示，有利于基于方面的情感分类；因此使用MHIA来整合语义信息和句法信息，以便两者能够完全交互，获得更全面的特征表示用于最后的情感分类；具体地，将最后一层AEGCN的方面输出表示为，其中m代表方面词的长度；那么多头交互注意力的输出/>表示为：

（11）

S5：将多头交互注意力的输出与语义捕捉模块的方面池化输出进行拼接操作，将拼接后的特征向量作为方面级情感分析的特征；在输出层将注意力编码层的方面输出进行平均池化操作，并将其与多头交互注意力的输出进行拼接操作作为模型最后的特征表示；若将注意力编码层的方面输出表示为，则最后输出的特征表示/>为:

（12）

（13）

（14）

S6：利用全连接层和softmax层对步骤S5中的输出进行处理，得到最终的情感极性预测结果；最后将最终得到的特征向量表示送入一个全连接的softmax层，得到概率分布，并利用此概率分布得到最终预测的情感极性；

（15）

其中和/>分别为需要学习的权重矩阵和偏置，/>表示情感极性的类别个数；

得到情感极性的概率分布后，通过标准梯度下降算法进行训练模型，目标函数定义为带有/>正则项的交叉熵损失：

（16）

其中D代表训练的数据集，代表真值标签，/>代表P中第/>个元素；/>为所有需要训练的参数，/>代表/>正则项的系数。

2.如权利要求1所述的基于多头注意力和图卷积网络的方面级情感分析方法，其特征是，将输入文本首先转换为词向量嵌入，再将得到的文本嵌入转化为上下文化表示。

3.如权利要求1所述的基于多头注意力和图卷积网络的方面级情感分析方法，其特征是，还包括：多头交互注意力的输出与方面池化输出进行拼接操作，将拼接后的特征向量作为方面级情感分析的特征。

4.如权利要求1所述的基于多头注意力和图卷积网络的方面级情感分析方法，其特征是，采用两种嵌入方式，一种是Glove嵌入，一种是BERT嵌入；

对于BERT嵌入，使用预训练的BERT-Large的全词遮盖变体， BERT使用的切词方式为Wordpiece Tokenizer，会将某些单词切成几个子词的集合，之后随机选择子词遮盖进行预测训练；先将这些子词相加，与依存树相匹配。

5.如权利要求4所述的基于多头注意力和图卷积网络的方面级情感分析方法，其特征是，针对Glove嵌入，使用双向LSTM获得输入句子的上下文化表示，对于BERT嵌入使用BERT模型自带的编码器获得句子的上下文化表示。

6.如权利要求1所述的基于多头注意力和图卷积网络的方面级情感分析方法，其特征是，使用多头自注意机制捕捉上下文语义信息时，使用多个注意力头来并行地从输入信息中计算各方面的信息，并在最后将多方面信息结合在一起，得到输入句子的语义表示，其中每个注意力头关注于输入信息的不同方面。

7.如权利要求1所述的基于多头注意力和图卷积网络的方面级情感分析方法，其特征是，在预测句子的方面情感极性时利用到句子的句法信息，具体为：构建L层AEGCN来捕捉句法信息，首先，给每个句子构建依存树，然后通过依存树获得每个句子的邻接矩阵，矩阵的大小n代表的是句子的长度，邻接矩阵中每个元素的含义实际上就是句子中每个单词与句子中所有单词在句法上是否相邻，若是则为1，不是为0，得到邻接矩阵A后利用其来捕捉句子的句法信息。

8.基于多头注意力和图卷积网络的方面级情感分析系统，应用于如权利要求1所述的基于多头注意力和图卷积网络的方面级情感分析方法；其特征是，包括：

得到最终的情感极性预测结果。

9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的具体步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-7任一所述的方法的具体步骤。