CN112579778B

CN112579778B - 基于多层次的特征注意力的方面级情感分类方法

Info

Publication number: CN112579778B
Application number: CN202011540950.5A
Authority: CN
Inventors: 唐宏; 周磊; 向俊玲; 刘双
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-08-26
Anticipated expiration: 2040-12-23
Also published as: CN112579778A

Abstract

本发明属于自然语言处理领域，具体涉及一种基于多层次的特征注意力的方面级情感分类方法，该方法包括：对输入的文本和文本方面词进行编码；对待预测情感极性的方面词进行相对位置编码，并与文本编码进行信息融合；采用双向LSTM对编码信息进行预处理；将预处理后的编码信息分别进行交互和注意力机制处理，得到的交互信息和文本全局的注意力信息；采用CNN提取注意力信息的局部特征信息；将文本全局特征注意力信息、文本局部特征注意力信息和句子级特征注意力信息进行交互，采用归一化指数函数进行情感极性的预测。本发明融合文本的局部特征以及全局特征，有效挖掘文本中所表达的情感信息，能够显著的提高文本方面级别情感分析的准确率。

Description

基于多层次的特征注意力的方面级情感分类方法

技术领域

本发明属于自然语言处理、深度学习、方面级情感分析领域，具体涉及一种基于多层次的特征注意力的方面级情感分类方法。

背景技术

随着互联网的广泛普及，近年来，信息传播渠道迅猛发展，日新月异。同时手机网民规模不断扩大，越来越多的人通过互联网进行沟通交流，因此互联网上产生了大量的用户对于诸如人物、事件、产品等有价值的评论信息，这些评论信息充分的表达了人们的情感色彩和情感倾向，将这些文本数据进行情感分析并统计，对于社会和商业等领域都具有重要意义。目前文本情感分析分为多个粒度级别，其中细粒度的方面级文本情感分析是研究的重中之重。

在早期的研究中，方面级情感分析被当作一般的情感分析任务，采用传统的机器学习的方法以及基于词典和规则的方法类建立分类模型，但该方法需要对输入文本进行大量的预处理以及复杂的特征提取，这会花费大量的时间和精力，且模型的推广能力较差。随着深度学习技术的发展，其在各类自然语言处理任务中都取得了重大的突破，根据深度学习技术设计了一系列的神经网络自动生成对象和内容的低维度表示方法，在方面级情感分析任务中取得了比传统方法更好的效果。但深度学习的方法在自然语言处理领域中仍然存在一些问题，特别是在方面级的情感分析任务中。

对于方面级的文本情感分析，如何建立文本词信息和方面词信息之间的语义关系，目前的建模方法只是对文本词信息和方面词信息进行单独建模，忽略了文本词信息与方面词信息之间的语义相关性。方面级的文本情感分析中如果确定建模方面词在文本中的位置信息，相较于传统的方法，是将位置信息作为最后分类时考虑的信息，在建模文本词信息时就联合建模位置信息，但是该方法不能突出方面词与情感词之间的关系，使得最终的分类结果不精确。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于多层次的特征注意力的方面级情感分类方法，该方法包括：

S1：获取文本数据的文本信息和方面次信息，对文本信息和方法词信息分别进行词嵌入编码，得到文本词向量和方面词向量；

S2：将待预测情感极性的方面词进行相对位置编码，将位置编码与文本词向量进行融合，得到融合位置信息的文本词向量；

S3：采用双向门控循环单元网络LSTM分别对融合位置信息的文本词向量和方面词向量进行预处理，得到融合位置信息的文本词序列和方面词序列；

S4：将融合位置信息的文本词序列和方面词序列进行交互处理，得到文本词序列和方面词序列的交互信息；

S5：提取交互信息的句子级别的注意力信息；

S6：对方面词序列进行平均池化处理，采用注意力机制将池化后的方面词序列和融合位置信息的文本词序列进行处理，得到全局注意力的文本特征信息；

S7：采用卷积神经网络CNN提取全局注意力的文本特征信息的局部特征，得到文本局部的特征注意力信息；

S8：将句子级别的注意力信息、全局注意力的文本特征信息和文本局部的特征注意力信息进行融合，得到融合信息；

S9：采用全连接层和softmax归一化指数函数对融合信息进行编码处理，得到最终的分类结果。

优选的，得到文本词向量和方面词向量的具体过程包括：

步骤1：获取输入文本数据的集合信息s＝{s₁,s₂,s₃,…,s_n}，提取输入文本数据的集合信息中待预测极性的方面词，对方面词进行集合，得到待预测极性的方面词集合信息t＝{t₁,t₂,t₃,…,t_m}；

步骤2：采用预训练的word2vec模型对待预测极性的方面词集合信息进行处理，生成文本词向量编码

和方面词向量编码

优选的，得到融合位置信息的文本词向量的过程包括：采用相对位置编码函数对文本词向量编码和方面词向量编码进行相对位置编码，得到位置嵌入矩阵；在模型的训练过程中对位置嵌入矩阵进行初始化和更新，得到文本位置向量；将文本向量与文本位置向量连接，得到融入位置信息的文本向量。

优选的，得到融合位置信息的文本词序列和方面词序列的过程包括：将融入位置信息的文本词向量x_i与方面词向量v_t分别输入各自的双向LSTM网络中，得到融入位置信息的文本词序列H_x和方面词序列H_t；所述双向LSTM网络由遗忘门f_t和输入门i_t以及输出门o_t组成，遗忘门f_t决定隐藏状态需要丢弃哪些信息，输入门i_t决定要将哪些隐藏状态更新为新的状态，输出门o_t决定要输出哪些更新后的隐藏状态。

进一步的，双向LSTM网络的计算公式为：

词向量x_i经过双向LSTM后的矩阵为：

优选的，提取交互信息的句子级别的注意力信息的过程包括：

S51：将交互信息I通过列softmax得到方面词-句子的注意力信息α_ij；将交互信息I通过行softmax得到得到句子-方面词级别的注意力信息β_ij；

S52：将句子-方面词级别的注意力信息β_ij按列求平均，得到方面词级别的注意力信息

S53：根据方面词级别的注意力信息

和方面词-句子的注意力信息α_ij计算句子级别注意力信息。

优选的，得到全局注意力的文本特征信息的过程包括：

S61：将方面词序列信息H_t通过平均池化操作得到池化后的方面词信息H_tav；

S62：根据池化后的方面词信息H_tavg计算方面词信息在上下文中的重要程度；

S63：根据方面词信息在上下文中的重要程度，采用注意力机制对池化后的方面词信息H_tavg和融入位置信息的文本词序列H_x进行处理，得到上下文对方面词的全局注意力信息δ_i；

S64：根据上下文对方面词的全局注意力信息δ_i计算单词的注意力权值，得到全局注意力的文本特征信息H_r。

进一步的，计算全局注意力信息δ_i和全局注意力的文本特征信息H_r的公式为：

优选的，得到文本局部的特征注意力信息的公式为：

C_x＝CNN(H_r)

c_i＝g(w×s_i:i+k-1+b)

优选的，融合信息的公式：

分类结果公式：

p＝softmax(Wr+b)

本发明将位置信息融入的文本特征，充分考虑了各词之间位置距离的关系对分类精度的影响；本发明采用双向LSTM网络，充分考虑了文本之间的相互依赖关系的影响，提高了情感分类性能；本发明采用CNN网络，来获取文本的局部特征以提高情感分类的性能；本发明采用了注意力机制来提升各个情感词的贡献程度，得到基于多层次的特征注意力的方面级情感分析模型，能够较好的提升文本方面级情感识别效果。

附图说明

图1为本发明的基于多层次特征注意力的方面级情感分析的模型；

图2为本发明采用的LSTM机制图；

图3为本发明的双向LSTM模型结构图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于多层次的特征注意力的方面级情感分类方法，如图1所示，该方法包括：

S5：提取交互信息的句子级别的注意力信息；

提取融合位置信息的词向量编码、方面词向量编码过程包括：

和方面词向量编码

其中n表示文本包含的单词数，m表示方面词包含的单词数，d_w表示词向量的维度。

得到融合位置信息的文本词向量的过程包括：

S21：采用相对位置编码函数对文本词向量编码和方面词向量编码进行相对位置编码，得到位置嵌入矩阵。相对位置编码函数为：

其中，j_s表示方面词的第一个词的索引，j_s表示方面词最后一个词的索引；pos_i表示文本中第i个词与当前方面词的相对偏移量。

S22：文本的位置嵌入向量是通过查找位置嵌入矩阵

来获得的，并在模型的训练过程中对位置嵌入矩阵进行初始化和更新，文本的位置嵌入向量表示为

S23：将文本向量与文本位置向量连接起来得到融入位置信息的文本向量，表示为x_i＝[v_i；p_i]，其中d_p为位置嵌入的维数，N为句子的长度，v_i是文本第i个词的向量表示，分号表示连接符号。

word2vec为预训练的词向量模型，该模型是一个将单词转换成向量形式的工具，本实例中使用的是300维的word2vec模型进行文本词向量的训练，最后会表示为一个维度为[maxlen,300]的文本词向量矩阵，maxlen表示句子的最大长度。

采用双向LSTM确定文本中上下文的相互依赖关系并得到融合位置信息的文本词序列和方面词序列，其步骤包括：

S41：将融合位置信息的词向量编码x_i输入到双向LSTM中，融合位置信息的文本词序列H_x；

S42：将方面词向量编v_t输入到双向LSTM中，得到方面词序列H_t。

其中，LSTM网络由遗忘门f_t和输入门i_t以及输出门o_t构成，其机制图如图2所示。遗忘门f_t决定隐藏状态需要丢弃哪些信息，输入门i_t决定了要将哪些隐藏状态更新为新的状态，输出门o_t决定了要输出哪些更新后的隐藏状态；双向LSTM解决了传统循环神经网络梯度消失以及梯度爆炸的问题，而且能够记住句子中上下文的长期依赖关系，在进行情感分类的时候可以通过双向LSTM来考虑上下文的信息。

采用双向LSTM捕捉文本中上下文的相互依赖关系，如图3，包括：

将词向量x_i作为双向LSTM的输入，假设LSTM的输出大小为d_m维，每个文本的特征向量都使用以下公式通过LSTM单元：

f_t＝σ(W_fx_i+U_fh_t-1+b_f)

i_t＝σ(W_ix_i+U_ih_t-1+b_i)

o_t＝σ(W_ox_i+U_oh_t-1+b_o)

h_t＝o_ttanh(c_t)

其中，f_t为LSTM单元t时刻遗忘门的输出，i_t为输入门的输出，o_t为输出门的输出。W_f、W_i、W_o、b_f、b_i、b_o分别为遗忘门、输入门和输出门的权重矩阵和偏置项。h_t-1为t-1时刻的隐藏层输出，

是通过LSTM单元得到的新的上下文记忆信息，c_t表示更新的LSTM网络单元的记忆内容，h_t表示当前时刻的隐藏层的输出。

分别将融入位置信息的词向量x_i，方面词向量v_t输入双向LSTM计算公式为：

其中，

表示向量拼接操作，融入位置信息的词向量x_i，方面词向量v_t经过双向LSTM后的矩阵为：

其中，

表示前向LSTM计算，

表示后向LSTM计算，

表示矩阵H_x的维度是n×2d_h，

表示矩阵H_t的维度m×2d_h，H_x为融入位置信息的词向量序列，H_t方面词向量序列。

提取交互信息的句子级别的注意力信息的过程包括：

S51：将融入位置信息的文本词序列H_x和方面词序列H_t进行交互，得到文本与方面词的交互信息，表示为

其中T表示向量的转置。

S52：将交互信息I通过列softmax得到方面词-句子的注意力信息α_ij；将交互信息I通过行softmax得到得到句子-方面词级别的注意力信息β_ij。其表达式分别为：

其中，Σ_i表示对列进行求和，Σ_j表示对行进行求和。

S53：将句子-方面词级别的注意力信息β_ij按列求平均，得到方面词级别的注意力信息

其表达式为：

其中，N表示句子-方面词级别的注意力信息的数量，β_ij表示句子-方面词级别的注意力信息。

S53：根据方面词级别的注意力信息

和方面词-句子的注意力信息α_ij计算句子级别注意力信息。句子级别注意力信息的表达式为：

其中，T表示向量的转置。

得到全局注意力的文本特征信息的过程包括：

S61：将方面词序列信息H_t通过平均池化操作得到池化后的方面词信息H_tavg。池化后的方面词信息的表达式为：

其中，

表示第i个词序列，

表示对第i个词序列中的每个向量进行累加，m表示每个词序列的长度。

S62：根据池化后的方面词信息H_tavg计算方面词信息在上下文中的重要程度。其表达式为：

其中，W_a和b_a分别表示权值矩阵和偏置，tanh表示双曲正切函数函数，

是H_tavg的转置。

63：根据方面词信息在上下文中的重要程度，采用注意力机制对池化后的方面词信息H_tavg和融入位置信息的文本词序列H_x进行处理，得到上下文对方面词的全局注意力信息δ_i。

其中，score表示得分函数，它是用来计算方面词信息在上下文中的重要程度的。

S64：根据上下文对方面词的全局注意力信息δ_i计算单词的注意力权值，得到全局注意力的文本特征信息H_r。得到全局注意力的文本特征信息H_r的公式为：

其中，

表示融入位置信息的文本词序列，H_tavg表示池化后的方面词信息。

得到文本局部的特征注意力信息的过程包括：

步骤1：将全局注意力的文本特征信息H_r输入到一个CNN网络，得到文本局部注意力特征信息C_x，其计算公式为：

C_x＝CNN(H_r)

c_i＝g(w×s_i:i+k-1+b)

步骤2：将全局注意力信息δ_i经过CNN网络后的矩阵表示为：

其中，c_i表示特征映射中第i个特征值；g表示非线性激活函数，这里采用的是双曲正切函数tanh；b表示偏置量；W为CNN网络中的权重矩阵；s_i:i+k-1表示文本序列中第i个词到第i+k-1个词的长度；

表示矩阵C_x的维度为2d_n×(n-k+1)维。

在本实例中采用的是一层的CNN网络，其卷积层中有100个大小分别为4，5，6，7的卷积核，该卷积有100个文本特征；最后使用非线性整流单元ReLU作为激活函数，将激活值做为文本特征表示。

人们在使用文字进行情感表达的时候，每个词所占的情感比重都不一样，并非所有文本词对情感分类都同样重要，我门要关注的是文本中的情感词，提取这部分情感词的特征对最后的情感分类会产生直接影响。注意力机制(Attention Mechanism)能将注意力集中在与分类对象相关的最重要部分。通过注意力机制可以给每情感词输出一个注意力分数，比较重要的情感词对最后情感分类的结果影响较大，所以分配的注意力权重大，这样就能体现不同情感词特征对最后情感分类结果的影响程度。

得到最终的分类结果的过程包括：

步骤1：将文本全局的特征注意力信息H_r和句子级别的注意力信息γ以及文本局部的特征注意力信息C_x进行融合，得到融合后的信息r，表示为：

其中，

表示拼接操作，·表示向量间的点积。

步骤2：将得到的融合信息r作为最终的分类特征，通过一个全连接层，分类特征会转换为与情感类别向量维度相同的向量，将其输入到softmax函数中，得到最终的分类结果p，其表达式为：

p＝W_pr+b_p

其中，W_p为全连接层的权重矩阵，b_p为全连接层的偏置项，C表示情感分类的类别数，y_i表示预测第i个情感类别的概率。

本发明采用最小化交叉熵函数与Adma优化器对基于多层次特征注意力的方面级情感分析模型进行训练优化。在训练过程中，将最小化交叉熵函数与L2正则化项作为训练的损失函数Loss，其损失函数的表达式为：

其中，D为训练数据的数量，

表示第j个样本属于第i个情绪类别的预测概率，

表示第j个样本属于第i个情绪类别的真实概率，λ‖θ‖²表示最小化交叉熵的正则项，其中λ为L2正则化项的系数并在模型的训练中迭代跟新，同时使用Adam优化器来优化网络学习参数，采用Dropout来防止过拟合；其中，Adam表示适应性矩估计，Dropout表示深度神经网络层的一种选择层。在完成模型的训练之后，将所需要识别的文本输入模型之中，即可对文本中各方面词目标表达的情感进行识别。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层次的特征注意力的方面级情感分类方法，其特征在于，包括：

S1：获取文本数据的文本信息和方面词信息，对文本信息和方面词信息分别进行词嵌入编码，得到文本词向量和方面词向量；

S5：提取交互信息的句子级别的注意力信息；

S51：将交互信息I通过列softmax得到方面词-句子的注意力信息α_ij；将交互信息I通过行softmax得到句子-方面词级别的注意力信息β_ij；

S53：根据方面词级别的注意力信息

和方面词-句子的注意力信息α_ij计算句子级别注意力信息；

S61：将方面词序列信息H_t通过平均池化操作得到池化后的方面词信息H_tavg；

S64：根据上下文对方面词的全局注意力信息δ_i计算单词的注意力权值，得到全局注意力的文本特征信息H_r；

2.根据权利要求1所述的一种基于多层次的特征注意力的方面级情感分类方法，其特征在于，得到文本词向量和方面词向量的具体过程包括：

和方面词向量编码

其中，s_n表示输入文本数据集合中的文本信息，n表示文本包含的单词数，t_m表示待预测极性的方面词集合的文本信息，m表示方面词包含的单词数，d_w表示词向量的维度。

3.根据权利要求1所述的一种基于多层次的特征注意力的方面级情感分类方法，其特征在于，得到融合位置信息的文本词向量的过程包括：采用相对位置编码函数对文本词向量编码和方面词向量编码进行相对位置编码，得到位置嵌入矩阵；在模型的训练过程中对位置嵌入矩阵进行初始化和更新，得到文本位置向量；将文本向量与文本位置向量连接，得到融入位置信息的文本向量。

4.根据权利要求1所述的一种基于多层次的特征注意力的方面级情感分类方法，其特征在于，得到融合位置信息的文本词序列和方面词序列的过程包括：将融入位置信息的文本词向量x_i与方面词向量v_t分别输入各自的双向LSTM网络中，得到融入位置信息的文本词序列H_x和方面词序列H_t；所述双向LSTM网络由遗忘门f_t和输入门i_t以及输出门o_t组成，遗忘门f_t决定隐藏状态需要丢弃哪些信息，输入门i_t决定要将哪些隐藏状态更新为新的状态，输出门o_t决定要输出哪些更新后的隐藏状态。

5.根据权利要求4所述的一种基于多层次的特征注意力的方面级情感分类方法，其特征在于，双向LSTM网络的计算公式为：