CN116468030A

CN116468030A - 一种基于多任务神经网络的端到端方面级情感分析方法

Info

Publication number: CN116468030A
Application number: CN202210007182.XA
Authority: CN
Inventors: 梁燕; 刘超
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2023-07-21

Abstract

本发明为一种基于多任务神经网络端到端方面级情感分析方法，该方法以多任务神经网络为基础，集方面术语提取、意见术语提取、方面术语情感分类三种子任务为一体。该方法同时融合了句子的语义信息和语法信息，并且能够使各个子任务产生深度的显性交互关系。本发明中，首先利用Bi‑LSTM和GCN对句子进行编码，然后建立起各个子任务独有的参数学习层以及用于子任务之间交互的参数共享层，最后将所有输出进行联合学习。在多任务联合学习下，端到端方面级情感分析的评价指标以及本发明中涉及到的方面级情感分析子任务的评价指标均得到提升，进而说明本发明的有效性和创新性。

Description

一种基于多任务神经网络的端到端方面级情感分析方法

技术领域

本发明属于计算机语言处理、情感分析方向，主要涉及一种关于端到端方面级情感分析的方法。

背景技术

随着信息技术的蓬勃发展，许多人在Twitter、微博、知乎等社交平台以及淘宝、京东、亚马逊等电子商务平台发文以表达他们的意见或者观点，这些方式使得网络成为最普遍和最重要的信息来源。在民众对消费娱乐、时事热点、民生问题等各个层面表达意见的同时，这些含有民众情感倾向的文本资源也将成为舆情监督、政府管理、商品运营等机构制定策略的重要依据。对于互联网中涌现出的大量文本信息，如何高效地利用人工智能等相关技术并且挖掘出文本数据中所蕴含的情感价值显得尤为重要。

情感作为人的一种特殊反映，表达了对外界客观事物的态度。人们习惯于通过表情、肢体语言、文字等各种形式来表达自己的情感，而文字是最重要的思想表达的途经之一，也是互联网时代下传达信息的主要载体。情感分析(Sentiment Analysis，SA)，又被称为意见挖掘(Opinion Mining，OM)，是自然语言处理(Natural Language Processing，NLP)的一项重要子任务，旨在从文本中提取情感倾向和意见表达。此外，新的情感分析技术也开始将文本信息和其它形式的信息相互融合，如视觉数据、语音数据等，而本课题致力于研究文本情感分析的相关技术和任务。根据研究对象的差异，可将情感分析划分为文档级(Document-level)、句子级(Sentence-level)和方面级(Aspect-level)，目的均在于将文档、句子和方面所表达的积极、消极或中性的情感倾向进行分类。方面级情感分析(Aspect-Based Sentiment Analysis,ABSA)旨在分析特定目标或者方面词在当前句子中的情感极性，属于细粒度情感分析任务。不同于文档级和句子级情感分析，方面级情感分析考虑了句子中不同方面所表达的情感倾向，是一种更深层次、更精细化的情感分析，因此也广泛受到研究人员的关注。在方面级情感分析中，早期的研究人员通常使用基于词典和有监督的机器学习这类传统方法。这些方法需要耗费大量人力去进行高质量的特征选择和提取，且不能捕捉方面词和上下文的语义信息。随着深度学习技术广泛应用于各种自然语言处理任务中，也促进了神经网络模型和相关技术在方面级情感分析任务中的发展。如基于卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、注意力机制(Attention Mechanism)等的大量方法被提出。不同于需要依赖人工特征的传统方法，基于深度学习的方面级情感分析模型在词向量表达、特征提取、特征融合等多个方面均有优秀的表现。虽然深度学习模型在方面级情感分析任务中弥补了传统机器学习模型需要人工特征的不足，但现有模型仍然存在许多缺陷。例如在方面术语情感分类任务中，部分模型特征提取不足，没有利用好方面术语在情感分类中的作用，也缺乏考虑模型的全局意识。又如在端到端方面级情感分析中缺乏考虑不同子任务之间的显示联系，忽略了依存句法对模型性能的影响等。因此，本文针对端到端方面级情感分析任务进行研究并提出更加高效的模型。

发明内容

本发明目的在于提出一种神经网络模型，用于端到端方面级情感分析，在该模型的学习下，端到端方面级情感分析中的各项评价指标均能得到提升。

为了达成上述目的，本发明采用的解决方案是提出一种基于多任务神经网络的端到端方面级情感分析方法。包括以下步骤：

步骤1：将数据集进行划分，并且将数据集中的句子统一成当前数据集中句子最大长度，同时获取输入句子的词向量

步骤2：将步骤1中的词向量使用Bi-LSTM进行句子的语义编码和使用GCN结合句法依存树进行句子的语法编码。

步骤3：利用步骤2中得到的句子表达分别构建方面术语提取、意见术语提取和方面术语情感分类子任务。在三个子任务中共享编码层的全部权重参数，并且在各自的子任务中享有单独的权重。

步骤4：分别在步骤3的结果上建立三个子任务的输出。

步骤5：将三个子任务的输出进行联合训练。

进一步地，步骤1的具体方法为：

统计数据集中全部句子的长度，并且将所有句子的长度都统一为当前数据集中最大句子长度，不够长度的句子末端用0补齐。给定句子S＝{w₁,w₂,…,w_n}，其中n为句子长度。本方法使用Glove将其映射为一组高维词向量。设词向量查找矩阵为其中D_v是词向量维数，|V|为Glove词汇表大小。输入句子S经向量化后可得到向量表示X＝{x₁,x₂,…,x_n}，其中/>

进一步地，步骤2的具体方法为：

(1)、Bi-LSTM编码

设t时刻输入为x_t，h_t-1表示前一个时刻的输出，则当前时刻输出h_t更新如下：

i_t＝σ(x_tUⁱ+h_t-1Wⁱ+b_i) (1)

f_t＝σ(x_tU^f+h_t-1W^f+b_f) (2)

o_t＝σ(x_tU^o+h_t-1W^o+b_o) (3)

h_t＝o_t⊙tanh(c_t) (6)

其中，i、f和o分别为输入门、遗忘门和输出门。σ为s型函数，⊙为向量元素乘法。Uⁱ、Wⁱ、U^f、W^f、U^o、W^o、U^c和W^c为可训练权重，b_i、b_f、b_o和b_c为偏置项。在序列建模任务中，当前单词的语义信息同时受到过去上下文和未来上下文影响，因此，通过引入第二个隐藏层来扩展单向LSTM，其中隐藏层的信息以相反时间顺序流动。如下所示：

其中，和/>分别表示信息正向流动和反向流动的输出，(；)表示向量元素拼接。将输入向量X经过Bi-LSTM编码后，得到句子特征表示H_B＝{h₁,h₂,…,h_n}。

(2)、GCN编码

对于给定节点的图G＝{V,A}，其中是图中的全部节点，对应于句子中的每个单词，/>为全部节点的邻接矩阵。若两个节点v_i、v_j所对应单词之间有语法依赖关系，则邻接矩阵A_ij＝1，反之则A_ij＝0。对于L层的GCN，l∈{1,2,…,L}，则节点v_i的第l层输出可以表示为：

其中，为节点v_i的第l-1层输出，W^l为权重矩阵，b^l为偏置项，σ为ReLU函数。由于图卷积过程只对当前节点的直接邻居信息进行编码，因此L层的GCN最终输出为：

为了同时对语义信息和语法信息进行建模，将Bi-LSTM的输出H_B和GCN的输出H_L拼接起来生成最终编码层表示H＝{H_B；H_L}。

进一步地，步骤3为分别建立各个子任务：

(1)、方面术语提取任务

方面术语提取任务目的在于标记出句子中的方面术语边界，本发明使用非线性函数来剥离与方面术语无关的特征，具体如下：

其中，h_i表示第i个单词的编码层输出，W^ae为可训练参数，b^ae为偏置项，σ为非线性函数，本发明使用ReLU函数。

(2)、意见术语提取任务

意见术语提取任务目的在于标记出句子中的意见术语边界，本发明使用非线性函数来剥离与意见术语无关的特征，具体如下：

其中，h_i表示第i个单词的编码层输出，W^oe为可训练参数，b^oe为偏置项，σ为非线性函数，本发明使用ReLU函数。

(3)、方面术语情感分类任务

为了匹配上述两个子任务中的特征关系，本发明利用方面术语提取任务中的方面术语边界信息引导注意力机制来捕获方面术语情感分类任务中的意见术语边界。对于ATE中任意位置i而言，其输出为与ASC中任意位置j所得的注意力得分如下：

其中，为意见术语提取任务的输出，W^e为可训练参数，b^e为偏置项。考虑到方面术语附近的单词更容易成为意见术语，因此在上述公式中添加了位置向量来帮助计算注意力得分。定义位置i和位置j之间的相对距离为：

并将其映射为向量。然后得出注意力归一化得分为：

经注意力加权后的方面术语情感分类任务输出为：

通常来说，由多个处理层组成的计算模型能够学习具有多个抽象层次的数据表示因此本方法中采用多个计算层堆叠的方式进行特征融合。堆叠方式和上述方式相同。

进一步地，步骤4将建立三个子任务的输出：

(1)、方面术语提取任务

按照{B,I,O}标记方案将句子中每个单词进行标记，标记后的输出为：

其中，为可训练参数，/>为偏置项。由此可得出方面术语提取的交叉熵损失loss_ae为：

其中，n为句子长度，C^ae为标签类别数，为真实标签，/>为预测标签。

(2)、意见术语提取任务

其中，为可训练参数，/>为偏置项。由此可得出方面术语提取的交叉熵损失loss_oe为：

其中，n为句子长度，C^oe为标签类别数，为真实标签，/>为预测标签。

(3)、方面术语情感分类任务

为了增强序列标记任务的结果，采用CRF作为ASC的输出层。对于输出最终的预测结果/>而言，输出序列的概率计算如下：

其中，y'表示为序列中的任意标签，为权重参数，/>为偏置项。因此，在方面术语情感分类任务上的损失函数为：

loss_sc＝-logP(Y^sc|H^sc) (21)

进一步地，步骤5将对三个子任务进行联合训练，将模型的最终损失函数表示为：

loss_absa＝loss_ae+loss_oe+loss_sc (22)

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明所涉的一种基于多任务神经网络的端到端方面级情感分析方法整体流程图。

图2为本发明的端到端方面级情感分析模型框架图。

具体实施方式

本发明为一种基于多任务神经网络的端到端方面级情感分析方法，下面结合附图，对本发明的具体实施方式进行详细描述。

1.图1为本发明所涉一种基于多任务神经网络的端到端方面级情感分析方法整体流程图，下面结合图1进一步描述。本发明主要包括的步骤：

步骤4：分别在步骤3的结果上建立三个子任务的输出。

步骤5：将三个子任务的输出进行联合训练。

2.图2为本发明端到端方面级情感分析模型框架图，下面结合图2对本发明的结构原理作进一步说明。由图可知本发明的方法模型一共有4层，分别是嵌入层、编码层、多任务层、输出层，各层具体内容如下：

(1)嵌入层

统计数据集中全部句子的长度，并且将所有句子的长度都统一为当前数据集中最大句子长度，不够长度的句子末端用0补齐。给定句子S＝{w₁,w₂,…,w_n}，其中n为句子长度。本模型使用Glove将其映射为一组高维词向量。设词向量查找矩阵为其中D_v是词向量维数，|V|为Glove词汇表大小。输入句子S经向量化后可得到向量表示X＝{x₁,x₂,…,x_n}，其中/>

(2)编码层

为了让模型在学习过程中能够同时参考句子的语义信息和语法信息，本模型将分别使用Bi-LSTM和GCN两个网络来生成句子的语义表示和语法表示，然后将二者拼接起来以便后续任务学习。

1)、Bi-LSTM编码

对于具有上下文依赖关系的文本而言，循环神经网络能够轻易捕捉到其语义特征。然而标准RNN存在梯度消失或者爆炸的问题，为了克服这一问题，本模型使用Bi-LSTM来构建句子的隐藏表示。LSTM包含三个门单元和一个记忆单元，利用自适应门控机制决定保持前一状态的信息和当前输入数据特征的比例。设t时刻输入为x_t，h_t-1表示前一个时刻的输出，则当前时刻输出h_t更新如下：

i_t＝σ(x_tUⁱ+h_t-1Wⁱ+b_i) (1)

f_t＝σ(x_tU^f+h_t-1W^f+b_f) (2)

o_t＝σ(x_tU^o+h_t-1W^o+b_o) (3)

h_t＝o_t⊙tanh(c_t) (6)

2)、GCN编码

在方面级情感分析任务中，若需要准确识别出方面术语、意见术语以及确定方面术语所对应的情感极性仅靠句子语义信息是不够的。句子的语法信息对于提高模型性能也是很关键的因素。例如，句子中方面术语通常由名词充当，意见术语通常由形容词充当，而通过语法分析能够识别出句子中的哪些词语具有语法依赖关系。本模型使用Spacy英文文本处理工具库中的依赖解析器生成句子的语法依存树。为了充分发挥语法结构的作用，使用GCN对语法依存树进行编码，以获取句子中有用信息的语法依赖关系。对于给定节点的图G＝{V,A}，其中是图中的全部节点，对应于句子中的每个单词，/>为全部节点的邻接矩阵。若两个节点v_i、v_j所对应单词之间有语法依赖关系，则邻接矩阵A_ij＝1，反之则A_ij＝0。对于L层的GCN，l∈{1,2,…,L}，则节点v_i的第l层输出/>可以表示为：

(3)多任务层

为了在端到端方面级情感分析任务中同时检测出方面术语和其对应的情感极性，本模型通过构建多任务层将方面术语和情感属性嵌入到模型中。通过多任务层的监督训练能够显性的利用各个任务的相关知识，在多任务层中，模型能够从不同视角、不同层次去学习句子中隐藏的信息，利用方面术语提取任务和意见术语提取任务对方面术语和术语的边界进行编码，然后再通过方面术语情感分类任务中特定的深度上下文感知结构建立起两个任务之间的显性关系。

1)、方面术语提取任务

方面术语提取任务目的在于标记出句子中的方面术语边界，本模型使用非线性函数来剥离与方面术语无关的特征，具体如下：

其中，h_i表示第i个单词的编码层输出，W^ae为可训练参数，b^ae为偏置项，σ为非线性函数，本模型使用ReLU函数。

2)、意见术语提取任务

意见术语提取任务目的在于标记出句子中的意见术语边界，本模型使用非线性函数来剥离与意见术语无关的特征，具体如下：

其中，h_i表示第i个单词的编码层输出，W^oe为可训练参数，b^oe为偏置项，σ为非线性函数，本模型使用ReLU函数。

3)、方面术语情感分类任务

为了匹配上述两个子任务中的特征关系，本模型利用方面术语提取任务中的方面术语边界信息引导注意力机制来捕获方面术语情感分类任务中的意见术语边界。对于ATE中任意位置i而言，其输出为与ASC中任意位置j所得的注意力得分如下：

并将其映射为向量。然后得出注意力归一化得分为：

经注意力加权后的方面术语情感分类任务输出为：

通常来说，由多个处理层组成的计算模型能够学习具有多个抽象层次的数据表示，在本模型中，一层中的注意层本质上是一个加权平均合成函数，它不足以处理语言中复杂的计算性，如否定、强化和对立。多个计算层允许模型学习具有多个抽象层次的文本表示。每个层检索重要的上下文单词，并将前一级的表示转换为更高、更抽象的表示。有了足够多的这种转换的组合，就可以学习面向方面的非常复杂的句子表示功能。因此本模型中采用多个计算层堆叠的方式进行特征融合。

(4)输出层

1)、方面术语提取任务

2)、意见术语提取任务

3)、方面术语情感分类任务

为了增强序列标记任务的结果，采用CRF作为ASC的输出层。CRF追求全局最可能的标签序列，被广泛用作序列标记模型的输出层。对于输出最终的预测结果/>而言，输出序列的概率计算如下：

loss_sc＝-logP(Y^sc|H^sc) (21)

最后，将对三个子任务进行联合训练，将模型的最终损失函数表示为：

loss_absa＝loss_ae+loss_oe+loss_sc (22)

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多任务神经网络的端到端方面级情感分析方法，其特征在于，所述方法的具体步骤包括：

步骤1：将数据集进行划分，并且将数据集中的句子统一成当前数据集中句子最大长度，同时获取输入句子的词向量。

步骤2：使用Bi-LSTM进行句子的语义编码和使用GCN结合句法依存树进行句子的语法编码。

步骤3：分别构建方面术语提取、意见术语提取和方面术语情感分类子任务。在三个子任务中共享编码层的全部权重参数，并且在各自的子任务中享有单独的权重。

步骤4：建立三个子任务的输出。

步骤5：将三个子任务的输出进行联合训练。

2.根据权利要求1所述的基于多任务神经网络的端到端方面级情感分析方法，其特征在于，所述步骤2采用了Bi-LSTM和GCN同时对句子进行编码。其中，Bi-LSTM对句子进行语义层面编码，GCN结合句法依存树对句子进行语法层面编码，然后将两种编码拼接起来。步骤2的具体方法为：

(1)在Bi-LSTM编码中，设t时刻输入为x_t，h_t-1表示前一个时刻的输出，则当前时刻输出h_t更新如下：

i_t＝σ(x_tUⁱ+h_t-1Wⁱ+b_i) (1)

f_t＝σ(x_tU^f+h_t-1W^f+b_f) (2)

o_t＝σ(x_tU^o+h_t-1W^o+b_o) (3)

h_t＝o_t⊙tanh(c_t) (6)

其中，i、f和o分别为输入门、遗忘门和输出门。σ为s型函数，⊙为向量元素乘法。式子(1)-(4)中U^x、W^x、b_x均为可训练参数。Bi-LSTM输出为：

(2)在GCN编码中，对于给定节点的图G＝{V,A}，其中是图中的全部节点，对应于句子中的每个单词，/>为全部节点的邻接矩阵。若两个节点v_i、v_j所对应单词之间有语法依赖关系，则邻接矩阵A_ij＝1，反之则A_ij＝0。对于L层的GCN，l∈{1,2,…,L}，则节点v_i的第l层输出/>可以表示为：

3.根据权利要求1所述的基于多任务神经网络的端到端方面级情感分析方法，其特征在于，所述步骤3的具体方法为：

(1)方面术语提取任务具体表示如下：

其中，h_i表示第i个单词的编码层输出，W^ae为可训练参数，b^ae为偏置项，σ为ReLU函数。

(2)意见术语提取任务具体表示如下：

其中，h_i表示第i个单词的编码层输出，W^oe为可训练参数，b^oe为偏置项，σ为ReLU函数。

(3)方面术语情感分类任务在于标记出句子中方面术语的情感极性，对于ATE中任意位置i而言，其输出为与方面术语情感分类任务中任意位置j所得的注意力得分如下：

其中，为意见术语提取任务的输出，W^e为可训练参数，b^e为偏置项。定义位置i和位置j之间的相对距离为：

并将其映射为向量。然后得出注意力归一化得分为：

经注意力加权后的方面术语情感分类任务表示为：

再通过多个计算层的堆叠，堆叠方式和上述步骤一样。