CN111144130A

CN111144130A - 一种基于上下文感知的混合神经网络的细粒度情感分类方法

Info

Publication number: CN111144130A
Application number: CN201911372752.XA
Authority: CN
Inventors: 任建华; 李静; 汪赫瑜
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-12

Abstract

本发明公开了一种基于上下文感知的混合神经网络的细粒度情感分类方法，步骤为：在对每个子句中的单词编码时，采用一个双向的Bi‑LSTM，在单词级注意机制中引入上下文向量；子句级使用卷积层从子句上提取局部特征，通过最大池操作聚集所有局部特征，得到一个固定大小的句子向量；将句子向量输入到softmax分类器进行分类，获得最高概率的标签代表预测的方面情感极性。本发明的基于上下文感知的混合神经网络的细粒度情感分类方法在单词级注意机制中引入上下文向量，这样所得到的每条子句向量的表示都充分考虑了上下文信息。本发明在子句级使用卷积神经网络来达到相同的功能，但计算成本将大大降低。

Description

一种基于上下文感知的混合神经网络的细粒度情感分类方法

技术领域

本发明属于语言处理的技术领域，尤其涉及一种基于上下文感知的混合神经网络的细粒度情感分类方法。

背景技术

近年来，由于情感分类固有的挑战和广泛的应用在自然语言处理和数据挖掘领域受到了越来越多研究者的关注。方面情感分类是一种更细粒度的情感分类任务，给定一条句子和句子中出现的某几个方面，它的目的是分析出该句子在给定方面上的情感极性(积极、中立、消极)。例如，句子：“衣服是漂亮的，但价格实在是太高了”，在“衣服”方面，情感极性为“积极”，而在“价格”方面，情感极性为“消极”。可以看出，从不同的方面对同一条句子进行分析，可能有不同的情感极性。

方面情感分类是情感分析的一个分支，其研究方法可分为传统的机器学习方法和神经网络方法。早期基于方面情感分类的方法主要集中于设计一组特征(例如，词包、情感词汇)训练分类器(例如，Support Vector Machine，SVM)的监督学习方法。然而，这些模型的性能高度依赖于特征的质量，特征工程是劳动密集型的，几乎达到了性能瓶颈。

随着深度学习技术的发展，一些研究人员设计了有效的基于对应词向量的神经网络方法用来更好地表示文本。考虑到文本是一个序列模型，提出了一种基于递归单元的递归神经网络(Recursive Neural Network，RNN)模型。该模型关注每个单词，并存储前面文本中显示的每个单词的语义。例如，Tang等人(Duyu Tang，Bing Qin，Xiaocheng Feng，andTing Liu.Effective lstms for target-dependent sentiment classification.arXivpreprint arXiv:1512.01100，2015.)使用两个依赖于方面的LSTM(Long Short-TermMemory)网络分别表示文本和方面，并采用前馈网络对期望方面的情感进行分类。但是，由于该RNN模型对后一个词的重视程度要高于前一个词，因此不能很好地区分每个词之间的重要性。之后，卷积神经网络(Convolutional Neural Networks，CNNs)被用于方面情感分类任务。例如，Xue(Wei Xue and Tao Li.Aspect based sentiment analysis with gatedconvolutional networks.arXiv preprint arXiv:1805.07043，2018.)提出了一种基于CNNs和门控机制的简单、易于并行化的模型；Li等人(Xin Li，Lidong Bing，Wai Lam，andBei Shi.Transformation networks for target-oriented sentimentclassification.arXiv print arXiv:1805.01086，2018.)应用了一种转换网络(TNet)，该网络利用CNNs提取显著特征，并使用一个组件来生成特定方面的表示。结果表明，CNNs的模型取得了很好的结果，但是它们只提取局部特征，不能发现每个单词之间的顺序相关性。

最近，神经网络方法在情感分类方面显示出了良好的效果，如Socher等人的递归神经网络(Richard Socher，Jeffrey Pennington，Eric H.Huang，Andrew Y.Ng，andChristopher D.Manning.Semi-supervised recursive autoencoders for predictingsentiment distributions.In Proceedings of EMNLP2011，pages 151–161，2011.)、递归NTN(R.Socher，A.Perelygin，J.Y.Wu，J.Chuang，C.D.Manning，A.Y.Ng，andC.Potts.Recursive deep models for semantic compositionality over a sentimenttreebank.2013.)和Tai等人(Kai Sheng Tai，Richard Socher，and ChristopherD.Manning.Improved semantic representations from tree-structured long short-term memory networks.In Proceedings of ACL-2015，pages 1556–1566，2015.)的Tree-LSTM。虽然，以上基于神经网络的方法只考虑了上下文而没有考虑方面信息，但这也为研究方面情感极性分类做出了贡献。

之后，为了将方面信息合并到模型中，Tang等人(Duyu Tang，Bing Qin，XiaochengFeng，and Ting Liu.Effective lstms for target-dependent sentimentclassification.In Proceedings of COLING-2016，pages 3298–3307，2016a.)提出了用两个长短时记忆网络(LSTM)建模具有方面的左右上下文。Wang等人(Yequan Wang，MinlieHuang，Xiaoyan Zhu，and LiZhao.Attention-based LSTM for aspect-level sentimentclassification.In Proceedings of EMNLP-2016，pages 606–615，2016.)提出了一种基于注意力的LSTM，以探索方面情感分类中方面和情感极性的潜在相关性。Tang等人(DuyuTang，Bing Qin，and Ting Liu.Aspect level sentiment classification with deepmemory network.In Proceedings of EMNLP-2016，pages 214–224，2016b.)设计了由多个计算层组成的深度记忆网络来整合方面信息。Chen等人(Peng Chen，Zhongqian Sun，Lidong Bing，and Wei Yang.Recurrent attention network on memory for aspectsentiment analysis.In Proceedings of EMNLP-2017，pages 452–461，2017.)也提出了一种深度记忆网络来整合方面信息，但多重注意的结果与递归神经网络的联合是非线性结合的。Ma等人(Dehong Ma，Sujian Li，Xiaodong Zhang，and Houfeng Wang.Interactiveattention networks for aspect-level sentiment classification.In Proceedingsof IJCAI-2017，pages 4068–4074，2017.)提出了一种交互式学习方法，在上下文和方面中交互式地学习注意力。

现有技术在单词级特定方面的注意机制中，使用多个Bi-LSTM同时对所有子句进行编码时，每条子句被独立编码，没有考虑上下文信息。另外，子句级特定方面的注意机制使用的是和单词级特定方面的注意机制相同的方法，都是使用的Bi-LSTM分别对单词和子句进行编码，由于Bi-LSTM的参数多，结构复杂，所以计算成本高。

发明内容

基于以上现有技术的不足，本发明所解决的技术问题在于提供一种基于上下文感知的混合神经网络的细粒度情感分类方法，在单词级注意机制中引入上下文向量，所得到的每条子句向量都充分考虑了上下文信息，在子句级使用卷积神经网络来达到相同的功能，计算成本大大降低。

为了解决上述技术问题，本发明通过以下技术方案来实现：

本发明的基于上下文感知的混合神经网络的细粒度情感分类方法，包括以下步骤：

步骤S1：在对每个子句中的单词编码时，采用一个双向的Bi-LSTM，在单词级注意机制中引入上下文向量；

步骤S2：子句级使用卷积层从子句上提取局部特征，通过最大池操作聚集所有局部特征，得到一个固定大小的句子向量；

步骤S3：将句子向量输入到softmax分类器进行分类，获得最高概率的标签代表预测的方面情感极性。

优选的，在所述步骤S1中，Bi-LSTM包含从单词I_i,1到

读子句c_i的前向LSTM

和从单词

到I_i,1读子句cⁱ的后向LSTM

i∈[1,C]，j∈[1,N_i]

i∈[1,C]，j∈[N_i,1]

通过连接前向隐藏状态

和后向隐藏状态

获得给定单词I_ij的表示h_ij，它概括了以单词I_ij为中心的整个子句的信息，即：

在单词级注意机制中引入上下文向量t_i：

u_ij＝tanh(W_w·[h_ij；e_aspect]+w_tt_i+b_w)

其中，[h_ij；e_aspect]表示h_ij与e_aspect垂直连接，W_w和b_w分别表示中间矩阵和偏移值，上下文向量t_i表示在求解第i条子句的权重时，以求和的形式将前面的i-1条(c₁,c₂,...,c_i-1)句子的信息考虑进来，

表示子句i中所有单词的权重向量；

子句向量c_i表示为基于权重的所有单词的加权和：

可选的，在所述步骤S2中，采用不同大小的卷积核来处理句子中的所有子句，长度为C的句子表示如下：

其中，

表示连接操作，c_i:i+j指的是子句c_i,c_i+1,...,c_i+j的连接，对h个子句的窗口进行卷积运算将产生一个新的特征，特征m_i是由一个子句s_i:i+h-1的窗口生成：

m_i＝f(w·m_i:i+h-1+b)

其中，b表示一个偏置项，f为一个非线性函数，此滤波器应用于句子中每个可能的子句窗口，以生成一个特征图：

m＝[m₁,m₂,...,m_n-h+1]

在特征图上使用一个最大池操作，并以最大值

作为对应于特定滤波器的特征；通过将所有的

连接起来得到整个句子的高级向量化表示s，它可以被视为整个句子特征提取的表示。

可选的，在所述步骤S3中，将句子表示s输入给一个softmax分类器：

o＝W_l·s+b_l

其中，o表示输出，W_l表示权重矩阵，b_l表示偏置，具有情感极性k∈[1,K]的标签句子的概率为：

其中，θ表示所有的参数，最后，获得最高概率的标签代表预测的方面情感极性。

由上，本发明的基于上下文感知的混合神经网络的细粒度情感分类方法至少具有如下有益效果：

(1)为了避免每条子句被独立编码，在细粒度情感分类问题的单词级特定方面的注意机制中引入上下文向量t_i，使得到的每条子句向量的表示c_i都充分考虑了上下文信息，这具有一定的可解释性。

(2)针对在单词级和子句级都使用Bi-LSTM对单词和子句进行编码所带来的计算成本和误码率高的情况，本发明在子句级使用卷积层从子句上提取局部特征，然后通过最大池操作聚集所有局部特征，从而得到一个固定大小的句子向量，最后将该句子向量输入到softmax分类器进行分类。使用卷积神经网络可以达到与子句级特定方面注意机制相同的功能，但计算成本将大大降低。

(3)通过采用句子级语篇分割技术将一条句子分割为几个子句，利用单词嵌入、位置嵌入和方面嵌入的信息分别对每个子句进行处理，得到每个子句中单词的向量表示；利用多个Bi-LSTM层对所有的子句进行编码，并使用注意机制强调每个子句中单词的重要程度，与此同时，为了加强对上下文的理解，全面获取整条句子的上下文信息，还在单词级注意层中引入上下文向量；使用多个不同大小的卷积核从多个子句中获得整条句子的上下文信息。在SemEval-2014的笔记本和餐馆数据集上的实验结果表明，本发明所提出的方法能够获得了更好的分类结果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为单词级特定方面的注意力机制的整体体系结构图；

图2为子句级特定方面的注意力机制的整体体系结构图；

图3为本发明的基于上下文感知的混合神经网络的细粒度情感分类方法的整体概述图；

图4为本发明的基于上下文感知的混合神经网络的细粒度情感分类方法的整体体系结构图，其中(a)为单字级特定方面注意模块；(b)为CNN卷积模块和softmax分类模块。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

在本发明中，首先介绍一种子句识别方法，它可以将一个句子分割成几个子句。在此基础上，本发明的基于上下文感知的混合神经网络的细粒度情感分类方法(CAHNN)，该模型将CNN和RNN的优点结合在一起，实现了全局特征与局部特征的有效融合，为了能够加强对上下文的理解，还在注意机制中引入了上下文向量，从而使得模型能够全面地捕获整条句子的信息。图3显示了所提出CAHNN模型的整体概述图。

子句识别在自然语言处理领域中是一项非常重要的问题，它可以被看作是语篇分割的一个子问题，在自然语言处理领域中得到了广泛的研究。语篇分割是将给定的文本分割成称为基本语篇单元(elementary discourse units，EDUs)的非重叠片段，每个EDU都可以看作一个子句。本发明使用句子级的语篇分割，将一个句子分割成EDUs(Radu Soricutand Daniel Marcu.Sentence level discourse parsing using syntactic and lexicalinformation.In Proceedings of NAACL-2003,2003.)。现存的语篇理论有多种，每种理论在语篇切分准则和语篇单位大小上都有其特殊性。本发明采用修辞结构理论(RhetoricalStructure Theory，RST)(W.MANN.Rhetorical structure theory:Toward a functionaltheory of text organization.Text,8(3):243–281,1988.)，因为它定义了良好的EDUs，并进行句子级的语篇分割来检测EDUs作为子句。例如，经过句子级的语篇分割之后，[Theroom is very beautiful][and the platform is especially top notch，][but thespace is too small][and I don’t like the ambience.]被分割成了四个互不重叠的子句。

本发明的基于上下文感知的混合神经网络的细粒度情感分类方法(CAHNN)，该模型能够提取与特定方面相对应的信息词，并全面地捕获了整条句子的信息。图4显示了该方法的总体架构，主要由三个部分组成：单字级特定方面注意模块、CNN卷积模块和softmax分类模块。

单字级特定方面注意模块

单词嵌入层

假设一条句子被分割为C个子句c_i，每个子句包含N_i个单词。I_ij表示第i个子句中的第j个单词。给定一个含有单词I_ij的子句c_i，单词I_ij的向量表示

由单词嵌入和位置嵌入组成，即:

其中，

表示单词嵌入矩阵，

表示位置嵌入矩阵。

方面类别由实体和属性组成。具体地说，长度为L₁的实体串e_entity表示为{x₁,x₂,...,x_L1}，其中x_n∈R^d'表示实体串中第n个单词的d'维向量。长度为L₂的属性串e_attribute表示为{z₁,z₂,...,z_L2}。由于常用的词嵌入表示呈现出线性结构，使得通过向量表示的元素加法来有意义地组合单词成为可能，因此使用实体和属性嵌入的和来获得更紧凑的方面表示，即：

然后，受Tang等人研究的启发，将方面表示添加到每个单词的嵌入中，形成针对每个单词j的方面增强嵌入，即：

i∈[1,C]，j∈[1,N_i]

其中，

表示连接操作，C表示子句的数目，N_i表示子句c_i中单词的数目。

Bi-LSTM与单词注意层

在对每个子句中的单词编码时，采用一个双向的Bi-LSTM。在一个特定的时间范围内，Bi-LSTM能够有效地利用过去的特征(通过前向状态)和未来的特征(通过后向状态)汇总来自词语两个方向的信息来获得单词的表示。Bi-LSTM包含从单词I_i,1到

读子句c_i的前向LSTM

和从单词

到I_i,1读子句cⁱ的后向LSTM

i∈[1,C]，j∈[1,N_i]

i∈[1,C]，j∈[N_i,1]

通过连接前向隐藏状态

和后向隐藏状态

传统的LSTM模型无法体现子句中不同单词的重要程度。为了解决这个问题，本发明设计了一种注意机制，使该模型针对某一特定方面将注意力集中在子句中的这类词上。而且，由于Bi-LSTM是独立地对每条子句进行编码，忽略了不同子句之间的联系，为了实现对一个子句进行编码时能整合其它子句的信息，还在单词级注意机制中引入上下文向量t_i。

u_ij＝tanh(W_w·[h_ij；e_aspect]+w_tt_i+b_w)

表示子句i中所有单词的权重向量。

然后，子句向量c_i表示为基于权重的所有单词的加权和：

CNN卷积模块

通过上式得到一条句子中所有子句的向量表示c_i，然后，采用不同大小的卷积核来处理句子中的所有子句，长度为C的句子表示如下：

其中，

表示连接操作，c_i:i+j指的是子句c_i,c_i+1,...,c_i+j的连接，对h个子句的窗口进行卷积运算将产生一个新的特征。例如，特征m_i是由一个子句s_i:i+h-1的窗口生成：

m_i＝f(w·m_i:i+h-1+b)

m＝[m₁,m₂,...,m_n-h+1]

然后，在特征图上使用一个最大池操作，并以最大值

作为对应于特定滤波器的特征。该方法不仅使用最高的值来捕获每个特征图的最重要的特征，而且，该池方案自然处理了句子的长度。最后，通过将所有的

softmax分类模块

为了进行方面情感分类，将句子表示s输入给一个softmax分类器：

o＝W_l·s+b_l

由单词级特定方面的注意力机制得到子句向量c_i，类似于单词编码层使用Bi-LSTM对子句进行编码，以便在表示中整合上下文信息，即有：

i∈[1,C]

i∈[1,C]

同理，通过整合

和

得到子句c_i的表示如下：

其中，h_i总结了以子句c_i为中心的整条句子的信息。

子句注意层：图2显示了子句级注意模块的详细信息，图中的[h₁,h₂,…,h_C]代表子句向量的表示，用每一个子句表示h_i和方面表示e_aspect可以计算得到注意权重α_i：

m_i＝tanh(W_c·[h_i；e_aspect]+b_c)

其中，1≤i≤C，W_c是一个中间矩阵，b_c是一个偏移值。

通过计算子句表示的权值，可以得到基于注意向量α_i的句子表示s，

其中，θ表示所有的参数。最后，获得最高概率的标签代表预测的方面情感极性。

模型训练

本发明使用交叉熵损失函数对所提出的模型进行训练，端到端的给定一组训练数据x_t，e_t，y_t，其中，x_t表示要被预测的第t个文本，e_t表示相对应的方面，y_t表示对于方面e_t和文本x_t真实情感极性的one-hot表示。用黑盒φ(x,e)表示所提出的模型，它的输出为情感极性的概率。模型训练的目标是最小化损失函数：

其中，M表示训练样本数目，K表示类别数目，l是L₂正则化的偏置参数。公式中的模型参数使用Adam优化器(Diederik P Kingma and Jimmy Ba.Adam:A method forstochastic optimization.arXiv preprint arXiv:1412.6980,2014.)进行优化，所有的矩阵和向量参数使用均匀分布

随机初始化。其中，r和c'分别表示矩阵中的行和列的数量。此外，为了防止训练过程中出现过拟合，在双向的LSTM中使用丢弃规则。

实验

本发明实验环境为Ubuntu 16.04 LTS操作系统，Inter(R)Corei7-6800K@3.40GHZCPU，16G内存，实验基于深度学习框架Tensorflow1.12.0实现，实验所用开发语言为Python3.6。为了验证本发明所提出模型的分类性能，实验中使用SemEval-2014的笔记本和餐馆数据集进行了测试。

数据集

为了验证所提出模型CAHNN的有效性，在SemEval-2014 Task 4(Maria Pontiki,Dimitris Galanis,John Pavlopoulos,Harris Papageorgiou,Ion Androutsopoulos,andSuresh Manandhar.Semeval-2014task 4:Aspect based sentiment analysis.SemEval,pages 27–35,2014.)上进行了实验。SemEval-2014数据集由两种类别的评论组成：笔记本和餐馆。评论标签有三种情感极性：积极、中立和消极。实验过程中将训练集中的10％用作开发数据集，以实现对算法参数进行微调。数据集的统计信息如表1所示：

表1数据集的统计信息

参数设置

实验中，使用的嵌入表是由Glove(Jeffrey Pennington,Richard Socher,andChristopher Manning.Glove:Global vectors for word representation.In EMNLP,pages 1532–1543,2014.)预先训练得到，词嵌入和位置嵌入在训练过程中优化。词汇表外的单词通过从均匀分布U(-0.25，0.25)中采样来初始化。词向量的维度为300。实验中使用Adam优化器训练模型。初始学习率设置为0.01，L₂正则化项的权重设置为10-4，丢弃率设置为0.5。LSTM隐藏状态的维度和输出表示为50。

评价指标

为了评估方面情感分类的性能，用Accuracy作为评估指标，其计算式如下：

其中，T表示正确预测的样本数目，N表示总的样本数目。Accuracy衡量了正确预测的样本数目在总的样本数目中所占的比例。Accuracy的值越高，表明系统的性能越好。

在本发明中，Bi-LSTM独立地对每个子句进行编码，忽略了不同子句之间的联系，为了实现对一个子句进行编码时能整合其它子句的信息，在单词级注意机制中引入上下文向量t_i，即：

u_ij＝tanh(W_w·[h_ij；e_aspect]+w_tt_i+b_w)

为了解决在单词级特定方面注意机制和子句级特定方面注意机制中同时使用参数多、结构复杂的Bi-LSTM所带来的计算成本高问题，在子句级用卷积神经网络来代替，达到相同的功能。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。