CN112199504A

CN112199504A - 一种融合外部知识与交互注意力机制的视角级文本情感分类方法及系统

Info

Publication number: CN112199504A
Application number: CN202011184688.5A
Authority: CN
Inventors: 廖祥文; 曾梦美; 邓立明; 陈甘霖; 陈开志
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-08
Anticipated expiration: 2040-10-30
Also published as: CN112199504B

Abstract

本发明涉及一种融合外部知识与交互注意力机制的视角级文本情感分类方法及系统，包括步骤：构建带有外部知识的文本序列内容，同时引入哨兵向量改善外部知识对模型的误导作用；构建带有交互信息及位置信息的记忆内容；构建记忆内容的多层注意力表示，并将注意力结果与门控循环单元非线性结合，最终形成视角级文本情感特征表示；采用分类函数得到文本最终的情感分类结果。本发明能够对视角级文本进行特征化处理，并通过BiLSTM从文本中提取语义特征，然后通过多层注意力机制，得到最终的分类结果。

Description

一种融合外部知识与交互注意力机制的视角级文本情感分类方法及系统

技术领域

本发明涉及文本处理技术领域，特别是一种融合外部知识与交互注意力机制的视角级文本情感分类方法及系统。

背景技术

视角级文本情感分析旨在研究评论文本关于给定视角词的情感极性(如积极、消极和中性)。作为情感分析中的一项细粒度任务，视角级文本情感分析能够提供比文档级或句子级的情感分析更全面、更深入的分析，其可广泛应用于产品定价、竞争情报、股市预测等领域，具有重要的理论研究意义和实际应用价值。如图1，文本中有两个视角词“salmon”和“waiter”，该文本关于视角词“salmon”的情感极性是积极的，而关于视角词“waiter”的情感极性是消极的。视角级文本情感分析可以准确把握用户对产品的各个方面的情感态度，而以句子为导向的文本情感分析却无法捕捉到针对视角词的中细粒度情感。因此视角级文本情感分析逐渐受到了广泛关注，成为研究热点之一。

近年来，国内外已有很多针对视角级文本情感分析任务开展的相关研究，并且取得了一定的研究成果。现有的相关研究方法主要可以分为两类：基于传统机器学习的方法和基于神经网络的学习方法。

基于传统机器学习的视角级文本情感分析方法通过输入大量的标注语料以及这些标注语料的情感标签，训练和这些语料相关的评论数据的情感分类器，如支持向量机(Support Vector Machine，SVM)、最大熵(Maximum Entropy Model，MaxEnt)、KNN(K-Nearest Neighbor algorithm，K最邻近方法)等，然后通过这些训练好的分类器来预测新的文本数据的情感。这类方法虽然在视角级文本情感分析领域取得一定成效，但是需要大量的特征工程，耗时耗力，性能很大程度上受限于人工特征的质量，且模型复杂、泛化能力较差。

随着深度学习的快速发展，基于多层神经网络的表示学习模型在语义表示与情感分析运用方面更具优势。许多研究者们也将这些模型用于视角级文本情感分析。一些研究人员提出将深度学习与传统的方法相结合处理视角级文本情感分类问题，如将循环神经网络(RNN)和句法分析树相结合等，这些方法相比传统的方法取得了比较好的性能，但是还是依赖了情感词典、句法分析等传统手段，性能还有待提升。为了摆脱传统的方法，有研究人员引入一个深度记忆网络来进行视角级文本情感分类，通过双向长短时记忆网络并结合位置信息来构造记忆块，然后计算多重注意力的结果，最后利用门限控制单元进行非线性的结合来得到文本的情感特征表示。该类方法虽然能够更好地处理复杂的句子，但是对文本中单词在不同语境下可能有不同含义欠缺考虑。因此人们希望能够找到一种更加高效的视角级文本情感分类方法，进而提高视角级文本情感分类的性能和降低资源的消耗。

发明内容

有鉴于此，本发明的目的是提出一种融合外部知识与交互注意力机制的视角级文本情感分类方法及系统，能够对视角级文本进行特征化处理，并通过BiLSTM从文本中提取语义特征，然后通过多层注意力机制，得到最终的分类结果。

本发明采用以下方案实现：一种融合外部知识与交互注意力机制的视角级文本情感分类方法，具体包括以下步骤：

构建带有外部知识的文本序列内容，同时引入哨兵向量改善外部知识对模型的误导作用；

构建带有交互信息及位置信息的记忆内容；

构建记忆内容的多层注意力表示，并将注意力结果与门控循环单元非线性结合，最终形成视角级文本情感特征表示；

采用分类函数得到文本最终的情感分类结果。

进一步地，所述构建带有外部知识的文本序列内容，同时引入哨兵向量改善外部知识对模型的误导作用具体为：

首先通过Glove模型将分词处理后的文本数据转换为向量表示；

接着利用BiLSTM从文本提取语义特征；

利用动态注意力机制将BiLSTM的隐藏向量表示

与外部同义词的向量表示相结合，同时引入哨兵向量来改善外部知识对模型的误导作用，得到与外部知识结合的单词向量表示

进一步地，所述引入哨兵向量来改善外部知识对模型的误导作用，得到与外部知识结合的单词向量表示

具体为：

通过下式计算哨兵向量s_t：

式中，σ(*)表示logistic sigmoid函数，W_b、U_b表示待学习的权重参数矩阵，x_t表示当前输入的文本内容，

表示上一隐藏状态的输出；

通过下式计算同义词向量t_k和哨兵向量s_t的注意权重

β_t：

其中，

式中，t_kb、s_kb、b_t、b_s表示待学习的权重参数向量，W_t、W_s、W_ht、W_hs表示待学习的权重参数矩阵；

通过下式计算结合外部知识的单词向量表示

其中，

式中，k表示同义词，Syn_vi表示同义词向量集合。

进一步地，所述构建带有交互信息及位置信息的记忆内容具体包括以下步骤：

首先对结合外部知识的单词向量表示

和视角词向量

进行平均池化：

式中，c_avg表示平均单词向量表示，t_avg表示平均视角词向量表示，n表示输入文本的单词总数，m表示视角词的单词个数；

通过下式计算视角对文本注意力的文本表示S_i的注意力权重α_i和文本对视角注意力的文本表示A_i的注意力权重β_i：

其中，

式中，

W_t、W_c表示待学习的权重参数矩阵，b_t、b_c表示待学习的权重参数向量；

通过下式计算交互注意力层的最终文本表示

其中，

式中，λ表示控制S_i和A_i重要程度的超参数；

将上下文单词与视角词的位置距离定义为二者之间的单词数；将第i个单词对视角词的贡献程度定义为第i个单词的位置权重w_i，计算如下式所示：

其中，

式中，t表示视角词的位置，t_max表示输入文本的单词总数，m_i为融合了交互信息与位置注意力权重的记忆内容。

进一步地，所述构建记忆内容的多层注意力表示，并将注意力结果与门控循环单元非线性结合，最终形成视角级文本情感特征表示具体为：

首先计算融合了交互信息与位置信息的记忆内容中每个记忆块m_j的注意力得分

其中，

式中，N表示记忆块数，e_t-1表示门控循环单元第t-1层的输出向量，

表示待学习的权重参数矩阵，

表示待学习的权重参数向量，v_t表示视角词向量；

利用门限控制单元根据注意力得分更新每一层的输出向量e_t，将上一轮的计算结果e_t-1与本轮的注意力得分

非线性地结合，将最后一层的输出向量e_t作为视角级文本情感特征表示，计算公式如下：

式中，r、z表示门函数，W_r、W_z、W_x、W_g、U_r、U_z表示待学习的权重参数矩阵。

进一步地，所述采用分类函数得到文本最终的情感分类结果具体为：采用softmax函数对得到的视角级文本情感特征表示e_t进行逐一计算，将概率最大的类别作为对应文本表示的情感类别预测值，计算公式如下：

y＝softmax(W_oe_t+b_o)；

式中，y表示情感类别预测值，W_o表示需要学习的权重参数矩阵，b_o表示需要学习的权重参数向量。

本发明还提供了一种融合外部知识与交互注意力机制的视角级文本情感分类系统，包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：本发明能够对视角级文本进行特征化处理，并通过BiLSTM从文本中提取语义特征，然后通过多层注意力机制，得到最终的分类结果，鸡儿提高视角级文本情感分类的性能和降低资源的消耗。

附图说明

图1为本发明背景技术中文本不同视角词的情感极性样例。

图2为本发明实施例的同一形容词描述不同视角词的情感极性样例。

图3为本发明实施例的原理框图。

图4为本发明实施例的交互注意力层示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图3所示，本实施例提供了一种融合外部知识与交互注意力机制的视角级文本情感分类方法，具体包括以下步骤：

步骤S1：构建带有外部知识的文本序列内容，同时引入哨兵向量改善外部知识对模型的误导作用；由于神经网络的输入数据一般为向量，以便模型的端到端训练，因此需要对文本数据进行向量化表示。为了便于数据的处理和分析，本实施例具体采用以下操作：

接着利用BiLSTM从文本提取语义特征；解决长短时记忆网络(LSTM)无法编码从后到前的信息的问题，从而更好的捕捉双向的语义依赖。BiLSTM模型通过输入门、遗忘门和输出门进行参数化，控制递归操作中的信息流。为了简洁起见，下面省略了BiLSTM的技术细节，这些细节可以在许多相关的工作中找到，简洁操作描述如下：

其中

和

分别为单词向量v_i的前向隐藏状态和后向隐藏状态。H^*为隐藏向量序列，其中n表示句子的长度。

由于一个单词在不同的语境下可能会表现出不同的含义，特别是在专注于情感分类任务时，不同的含义就显得尤为重要。因此将外部知识加入到文本表示中，利用动态注意力机制将BiLSTM的隐藏向量表示

其中，所述引入哨兵向量来改善外部知识对模型的误导作用，得到与外部知识结合的单词向量表示

具体为：

通过下式计算哨兵向量s_t：

式中，σ(*)表示logisticsigmoid函数，W_b、U_b表示待学习的权重参数矩阵，x_t表示当前输入的文本内容，

表示上一隐藏状态的输出；

通过下式计算同义词向量t_k和哨兵向量s_t的注意权重

β_t：

其中，

通过下式计算结合外部知识的单词向量表示

其中，

式中，k表示同义词，Syn_vi表示同义词向量集合。

步骤S2：构建带有交互信息及位置信息的记忆内容；同一形容词在描述不同的视角词时所表现出的情感极性可能是不同的，所以结合视角词与具体的上下文的关系，即视角词与上下文进行交互才能得到正确的语义情感分类。如图2，在例1中，“short”用于描述“battery life”时，所表现出来的情感极性是消极的；而在例2中，“short”用于描述“spoon”时，所表现出来的情感极性是中性的。本实施例首先通过交互注意力机制得到视角词对文本注意力的文本表示和文本对视角词注意力的文本表示，再将它们结合起来得到具有交互信息的单词向量表示。

具体为：首先对结合外部知识的单词向量表示

和视角词向量

进行平均池化：

其中，

式中，

通过下式计算交互注意力层的最终文本表示

其中，

式中，λ表示控制S_i和A_i重要程度的超参数；

每个单词对文本的语义含义的贡献是不同的，一个更靠近视角词的上下文单词应该比一个远离视角词的上下文单词更重要，对视角级情感分类的影响更大，因此在得到具有交互信息的单词向量表示后将位置注意力引入到每个单词进行加权。将上下文单词与视角词的位置距离定义为二者之间的单词数；将第i个单词对视角词的贡献程度定义为第i个单词的位置权重w_i，计算如下式所示：

其中，

步骤S3：构建记忆内容的多层注意力表示，并将注意力结果与门控循环单元非线性结合，最终形成视角级文本情感特征表示；本实施例首先通过计算每个记忆内容的注意力得分，然后利用门控循环单元将每层的注意力得分与上一层的输出结果非线性结合，并将最后一层的输出作为文本的情感特征表示。具体为：

其中，

表示待学习的权重参数矩阵，

表示待学习的权重参数向量，v_t表示视角词向量；

利用门限控制单元(Gated Recurrent Unit，GRU)根据注意力得分更新每一层的输出向量e_t，将上一轮的计算结果e_t-1与本轮的注意力得分

步骤S4：采用分类函数得到文本最终的情感分类结果。具体为：采用softmax函数对得到的视角级文本情感特征表示e_t进行逐一计算，将概率最大的类别作为对应文本表示的情感类别预测值，计算公式如下：

y＝softmax(W_oe_t+b_o)；

在整个算法的训练阶段，利用训练集文本表示进行情感类别的预测并计算预测结果与实际情感标签的误差，利用随机梯度下降法和反向传播对整个系统的参数进行更新与优化；模型训练完成后，对测试集文本表示进行情感类别的预测，并输出预测值。

本实施例还提供了一种融合外部知识与交互注意力机制的视角级文本情感分类系统，包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本实施例还提供了一种融合外部知识与交互注意力机制的视角级文本情感分类系统，将上述的方法按照功能块划分为：融合外部知识的文本语义信息获取模块1，用于构建带有外部知识的文本序列内容，同时引入哨兵向量改善外部知识对模型的误导作用；交互与位置注意力模块2，用于构建带有交互信息及位置信息的记忆内容；循环注意力模块3，构建记忆内容的多层注意力表示，并将注意力结果与门控循环单元(GRU)非线性结合，最终形成视角级文本情感特征表示；情感类别输出模块4，利用分类函数得到最终的情感分类结果。下面分别详细描述各模块配置。

其中，所述融合外部知识的文本语义信息获取模块利用Glove模型将分词处理后的文本数据转换为向量表示，利用BiLSTM从文本提取语义特征，然后利用带有哨兵向量的动态注意力机制结合外部同义词。

其中，所述交互与位置注意力模块是通过视角对文本注意力以及文本对视角注意力得到视角与文本的交互信息，然后通过每个单词到视角词的位置信息来判断每个单词对视角词的贡献程度，从而构建带有交互信息和位置信息的记忆内容。该模块的示意图如图4所示。

其中，所述循环注意力模块，通过计算每个记忆内容的注意力得分，利用门限循环单元将每层的注意力得分与上一层的输出结果非线性结合，并将最后一层作为文本的情感特征表示。

其中，所述的情感类别输出模块采用softmax函数对得到的文本情感特征表示进行处理，将概率最大的类别作为该文本表示的情感类别预测值。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。