CN111079409B - 一种利用上下文和方面记忆信息的情感分类方法 - Google Patents
一种利用上下文和方面记忆信息的情感分类方法 Download PDFInfo
- Publication number
- CN111079409B CN111079409B CN201911291726.4A CN201911291726A CN111079409B CN 111079409 B CN111079409 B CN 111079409B CN 201911291726 A CN201911291726 A CN 201911291726A CN 111079409 B CN111079409 B CN 111079409B
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- sentence
- layer
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种利用上下文和方面记忆信息的情感分类方法,涉及情感分析技术领域。本发明通过选择待进行情感分析的数据集,建立基于方面的情感分析模型,通过交叉熵损失函数与L2正则化项的和来训练基于方面的情感分析模型,将待进行情感分析的数据集通过训练好的基于方面的情感分析模型,实现文本的情感分析。本发明提出的网络模型来提取方面的情感极性,该模型构建并结合了上下文记忆构建、方面记忆更新和情感分类模块来解决方面级别的情感分类任务,将多头注意力机制应用到基于方面的情感分析中,并考虑两种应用方法,由于多头注意力机制中每一头的权值是不共享的,因此该模型可以学习不同子空间的特征表示,从而做出更准确的预测。
Description
技术领域
本发明涉及情感分析技术领域,尤其涉及一种利用上下文和方面记忆信息的情感分类方法。
背景技术
情感分析(Sentiment analysis)又称为意见挖掘、主观性分析等,是自然语言处理的任务之一。它是对带有情感色彩的内容进行归纳和推理的一个过程。随着网络时代的发展,越来越多的人热衷于在网络上发表自己的情感、观点和态度,情感分析就是将这些观点态度提取出来的一个过程。由于在网络上产生的大量数据都是以文本的形式存在的,所以基于文本的情感分析是至关重要的。情感分析可以分为三个层次粒度:文档级别(document-level)、句子级别(sentence-level)和方面级别(aspect-level)。文档级别的情感分类是为含有一个意见的文档确定一个整体的情感极性。句子级别的情感分析是为一个句子确定一个情感极性。与文档级别和句子级别的情感分类不同的是,方面级别的情感分析既要考虑句子的内容,又考虑句子的目标信息,因为情感总是有目标的。目前很多方法都尝试提取出表达意见文本的整体的情感极性,而忽略了其中的实体,方面或者目标。方面级别的情感分析是具有挑战的,它是一种细粒度的任务。基于方面的情感分析是通过输入的句子的方面来判断句子中关于每个方面的情感极性。输入的句子可以是商品评论,社交网络评论等带有方面的句子。例如在句子“食物出奇的好吃,餐厅的装饰也很不错”中,“食物”和“装饰”就是句子的提到的两个方面。在这个句子中它们的情感极性都是积极的。
解决基于方面的情感分析主要有三种方法。第一种是传统的使用情感词典和规则进行情感分析的方法。但是在很多情况下分类的效果受限于情感词典的质量,而情感词典的构建费时又费力。第二种是使用机器学习进行情感分析的方法。以往,研究人员通常使用朴素贝叶斯(NB)或支持向量机(SVM)等分类模型。这些方法是基于在高维稀疏数据结构上训练的浅层模型。因此,这些分类模型侧重于设计有效的手工特征,以获得更好的性能。然而。特征工程是一项非常困难、耗时和专业的工作。第三种是深度学习方法。深度神经网络模型的优点是可以自动地从数据中学习文本特征或表示形式,而无需预先仔细设计特征。并且在捕获方面和上下文单词之间语义关系的扩展性上,他们比基于机器学习的方法更强。在情感分析方面,研究人员提出了各种深度神经网络模型。这些模型可以获得稠密的、低维的词嵌入,从而产生更好的句子表示。下面将详细介绍基于方面情感分析的深度学习模型。
在情感分析领域中,长短期记忆网络(LSTM)已经得到了广泛的应用。该模型擅长对自然语言建模,很好地解决了自然语言句子向量化的难题。LSTM是循环神经网络(RNN)的一种变体,其包含了输入门、输出门、遗忘门和细胞状态,解决了RNN中长序列依赖问题。但是,在解决基于方面的情感分析任务时,标准的LSTM模型以顺序的方式工作,并使用相同的操作获取每个上下文单词的向量,因此它不能显式地捕捉每个上下文单词的重要性。同时该模型还面临的一个问题是:当它捕捉到一个远离目标的情感特征后,它需要一个字一个字地传播给目标,在这种情况下,它可能会失去这个特征。
近年来,LSTM与注意力机制结合的模型逐渐成为解决基于方面的情感分析的主流方式。Wang等人提出的AE-LSTM和ATAE-LSTM模型都是在长短期记忆网络的基础上又增加了注意力机制(attention mechanism)。AE-LSTM将方面嵌入向量与句子中的每个词嵌入向量相连接的结果作为网络的输入。ATAE-LSTM是AE-LSTM的扩展。它不仅在输入时将方面嵌入向量到每个单词嵌入向量中,而且在网络中将方面嵌入向量连接到LSTM隐藏状态上,之后再将连接向量交给注意力层。这两种方法虽然在基于方面的数据集上取得了一定的效果,但是仅仅通过连接方面的嵌入向量处理方面信息是远远不够的,这样并不能充分利用方面的信息。而且当一个attention集中在多个单词上时,模型可能会可能隐藏每个被关注的词的特征。MemNet模型将记忆网络引入了基于方面的情感分析任务中,将多层注意力机制和词嵌入层构成了记忆网络。MemNet模型在词嵌入上应用了多层注意力来显式地捕获上下文单词的重要性,并使用这些信息来构建句子的特征,最后使用特征表示来预测句子的情感极性。记忆网络利用了记忆组件保存了句子信息,实现了长期记忆的效果。但是当上下文的单词的情感对给定方面敏感时,它的性能会下降。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种利用上下文和方面记忆信息的情感分类方法,对文本实现方面级别的情感分析。
为解决上述技术问题,本发明所采取的技术方案是:一种利用上下文和方面记忆信息的情感分类方法,包括以下步骤:
步骤1、选择待进行情感分析的数据集;
步骤2、建立基于方面的情感分析模型;
所述基于方面的情感分析模型包括上下文记忆构建模块,方面记忆更新模块和情感分类模块;
所述上下文记忆构建模块包括词嵌入层、位置相关层和BiLSTM层;
所述词嵌入层将每个单词映射成词嵌入向量之后,将句子和方面用嵌入向量表示;设定输入的句子是s={w1,w2,...,wn},其中,wn为句子中的第n个单词,n是句子的长度,方面是a={wt,...,wt+k},其中,k是方面中单词的个数,即方面的长度,且t+k<n,即方面是句子的子集;将每个单词映射成词嵌入向量之后,句子向量表示为vs={e1,e2,...,en};当方面包含单个的单词时,使用方面单词的嵌入向量et来表示方面向量va,当方面包含多个单词时,使用et到et+k这k个嵌入向量均值池化的结果来表示方面向量va;
所述位置相关层计算句子中每个单词与方面之间的距离,进而得出在句子中每个单词的位置权重,使得靠近方面的单词所占的比重增大,而远离方面的单词所占的比重减小;对于给定的方面和句子中第i个单词的位置关系通过位置相关系数gi表示,如下公式所示:
其中,t是方面中第一个单词的位置,N是一个超参数,n是句子的长度,k是方面的长度;在数据集中,长度小于最大长度的语句的末尾填充零,所以当i>n时,位置相关系数gi=0;
为了使方面的信息被完全考虑,使句子中每个单词的词嵌入向量ei和方面向量va上进行相乘再连接的操作来融合文本和方面的信息,计算公式如下所示:
f(ei,va)=[ei;ei⊙va] (2)
其中,符号“⊙”表示点乘操作,符号“;”表示连接操作;
则位置相关层的输出如公式所示:
xi=f(ei,va)*ga,i∈[1,n] (3)
其中,xi表示结合了位置权重以及方面信息的词向量;
所述BiLSTM层接收位置相关层的输出,得到句子中给定单词的特征表示;
所述BiLSTM层采用双向LSTMs模型连接句子中单词前后两个方向的特征表示,得到句子中给定单词的特征表示;第i个单词前向LSTM的细胞状态和隐藏状态是从它前一个位置的细胞状态隐藏状态和当前的输入向量xi得到的;第i个单词后向LSTM的细胞状态和隐藏状态是从它后一个位置的细胞状态隐藏状态和xi得到的;前向和后向LSTMs表示为:
其中,g(LSTM)表示LSTM的计算;
连接句子中单词前后两个方向的输出表示为:
其中,符号“||”表示连接操作,hi表示单词i的最终隐藏状态;
所述方面记忆更新模块包括hop个计算层,每个计算层均包括多头注意力层和更新方面记忆层;
所述多头注意力层使用多头自注意力机制或多头编码解码注意力机制为每个单词特征表示设置权重,然后将这些单词的特征表示和权重聚合起来得到考虑了上下文单词之间相关性的输出或考虑了方面和上下文单词之间相关性的输出,进而得到最终的句子表示;
使用多头自注意力机制的具体方法为:
首先,对句子中每个单词的隐藏状态hi和方面向量va使用相乘再连接的方式将方面向量的信息编码到文本表示中,得到新的单词向量ui,计算公式如下所示:
ui=[hi;hi⊙va] (7)
为了使得生成的每个句子表示都含有上下文和其需要预测的方面的含义,对生成的向量矩阵u使用多头自注意力机制;使用向量矩阵u得到query矩阵Q∈Rn×d,key矩阵K∈Rn ×d和value矩阵V∈Rn×d,其中,d是单词向量ui的维度;然后使用不同的参数矩阵Wi Q∈Rn×d/h,Wi K∈Rn×d/h和Wi V∈Rn×d/h,把得到的Q,K,V矩阵做h次线性转换,其中h是一个超参数;将每个新生成的Q与K的转置KT相乘,除以再进行softmax的操作得到句子中单词与单词之间对应的权重,然后将这个权重再乘以每个新生成的V,得到考虑过单词上下文的输出;
headi=Attention(QWi Q,KWi K,VWi V) (8)
最后将h次注意力的结果拼接在一起形成的向量再做一次线性转换,如下公式所示:
M=Concat(head1,...,headh)WO (8)
其中,headi表示第i次注意力操作,Attention(Q,K,V)表示一次注意力操作,Concat表示连接操作,Concat(head1,...,headh)表示将h次的注意力结果连接起来,WO是参数矩阵;
最后将结果M经过一个线性层和softmax操作,并且将输出与hi加权,得到最终句子的表示r,如下公式所示:
其中,Wh是参数矩阵;
使用多头编码解码注意力机制的具体方法为:
使用隐藏状态hi和方面向量va相乘的结果{hi⊙va}得到Q矩阵,使用隐藏状态{hi}得到K和V矩阵;把得到的Q,K,V矩阵做h次线性转换,然后把新生成的Q与K的转置KT相乘,除以再进行softmax的操作得到单词对应方面的权重,然后将结果再乘以新生成的V,得到考虑了方面和上下文单词之间相关性的输出;将h次注意力的结果拼接在一起形成的向量再做一次线性转换;最后将结果经过一个线性层和softmax操作,并且将输出与hi加权,得到最终句子表示r;
所述更新方面记忆层将注意力层输出的句子表示r与方面向量va相加,从而得到新的方面向量v'a,如下公式所示:
v’a=r+va (13)
然后将新的方面向量v'a作为下一个计算层的方面向量,将方面向量v'a重新通过下一个计算层的多头注意力层和更新方面记忆层,直到达到预设的最大的hop数量,hop是一个超参数,需要对其预设定值;
所述情感分类模块是将在方面记忆更新模块中进行多次更新方面记忆之后输出的方面向量v'a输入到线性层和softmax层来预测方面情感。
步骤3、通过交叉熵损失函数与L2正则化项的和来训练基于方面的情感分析模型,如下公式所示:
其中,T是训练集所包含的句子数量,C是所有情感类别的集合,(s,a)表示句子和对应的方面,pc(s,a)表示给定句子s和方面a下的预测的分类概率,yc(s,a)是真实情感类别对应的独热码向量,λ是正则化项的权重,θ是模型中的所有权值参数。
步骤4、将待进行情感分析的数据集通过训练好的基于方面的情感分析模型,实现文本的情感分析。
采用上述技术方案所产生的有益效果在于:本发明提供的一种利用上下文和方面记忆信息的情感分类方法,(1)提出一种新的网络模型来提取方面的情感极性。该模型构建并结合了上下文记忆构建、方面记忆更新和情感分类模块来解决方面级别的情感分类任务。(2)将多头注意力机制应用到基于方面的情感分析中,并考虑两种应用方法。由于多头注意力机制中每一头的权值是不共享的,因此该模型可以学习不同子空间的特征表示,从而做出更准确的预测。
附图说明
图1为本发明实施例提供的基于方面的情感分析模型CAMN的基本框架;
图2为本发明实施例提供的多头自注意力机制的结构示意图;
图3为本发明实施例提供的多头编码解码注意力机制的结构示意图;
图4为本发明实施例提供的CAMN-SA模型中hop个计算层的影响对比图;
图5为本发明实施例提供的CAMN-ED模型中hop个计算层的影响对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
步骤1、选择待进行情感分析的数据集;
本实施例使用的数据集是SemEval2014的laptop和restaurant数据集以及一个twitter数据集。在SemEval2014的两个数据集上,当句子的类别是“conflict”时,表示句子包含多种情感极性,因此删除了类别是“conflict”的例子。所以最终使用的情感类别标签是“positive”,“negative”和“neutral”。为了防止训练过拟合,随机将训练集的20%划分为验证集,数据集的划分细节如表1所示。
表1数据集
步骤2、建立基于方面的情感分析模型;
基于方面的情感分析模型,如图1所示,包括上下文记忆构建模块,方面记忆更新模块和情感分类模块,其中CAMN包含两种模型分别为CAMN-SA和CAMN-ED;
所述基于方面的情感分析模型包括上下文记忆构建模块,方面记忆更新模块和情感分类模块;
所述上下文记忆构建模块包括词嵌入层、位置相关层和BiLSTM层;
所述词嵌入层将每个单词映射成词嵌入向量之后,将句子和方面用嵌入向量表示;设定输入的句子是s={w1,w2,...,wn},其中,wn为句子中的第n个单词,n是句子的长度,方面是a={wt,...,wt+k},其中,k是方面中单词的个数,即方面的长度,且t+k<n,即方面是句子的子集;将每个单词映射成词嵌入向量之后,句子向量表示为vs={e1,e2,...,en};当方面包含单个的单词时,使用方面单词的嵌入向量et来表示方面向量va,当方面包含多个单词时,使用et到et+k这k个嵌入向量均值池化的结果来表示方面向量va;
所述位置相关层计算句子中每个单词与方面之间的距离,进而得出在句子中每个单词的位置权重,使得靠近方面的单词所占的比重增大,而远离方面的单词所占的比重减小;对于给定的方面和句子中第i个单词的位置关系通过位置相关系数gi表示,如下公式所示:
其中,t是方面中第一个单词的位置,N是一个超参数,n是句子的长度,k是方面的长度;在数据集中,长度小于最大长度的语句的末尾填充零,所以当i>n时,位置相关系数gi=0;
为了使方面的信息被完全考虑,使句子中每个单词的词嵌入向量ei和方面向量va上进行相乘再连接的操作来融合文本和方面的信息,计算公式如下所示:
f(ei,va)=[ei;ei⊙va] (11)
其中,符号“⊙”表示点乘操作,符号“;”表示连接操作;
则位置相关层的输出如公式所示:
xi=f(ei,va)*ga,i∈[1,n] (12)
其中,xi表示结合了位置权重以及方面信息的词向量;
所述BiLSTM层接收位置相关层的输出,得到句子中给定单词的特征表示;
所述BiLSTM层采用双向LSTMs模型连接句子中单词前后两个方向的特征表示,得到句子中给定单词的特征表示;第i个单词前向LSTM的细胞状态和隐藏状态是从它前一个位置的细胞状态隐藏状态和当前的输入向量xi得到的;第i个单词后向LSTM的细胞状态和隐藏状态是从它后一个位置的细胞状态隐藏状态和xi得到的;前向和后向LSTMs表示为:
其中,g(LSTM)表示LSTM的计算;
连接句子中单词前后两个方向的输出表示为:
其中,符号“||”表示连接操作,hi表示单词i的最终隐藏状态;
所述方面记忆更新模块包括hop个计算层,每个计算层均包括多头注意力层和更新方面记忆层;
所述多头注意力层使用多头自注意力机制或多头编码解码注意力机制为每个单词特征表示设置权重,然后将这些单词的特征表示和权重聚合起来得到考虑了上下文单词之间相关性的输出或考虑了方面和上下文单词之间相关性的输出,进而得到最终的句子表示;
使用多头自注意力机制的具体方法如图2所示:
首先,对句子中每个单词的隐藏状态hi和方面向量va使用相乘再连接的方式将方面向量的信息编码到文本表示中,得到新的单词向量ui,计算公式如下所示:
ui=[hi;hi⊙va] (16)
为了使得生成的每个句子表示都含有上下文和其需要预测的方面的含义,对生成的向量矩阵u使用多头自注意力机制;使用向量矩阵u得到query矩阵Q∈Rn×d,key矩阵K∈Rn ×d和value矩阵V∈Rn×d,其中,d是单词向量ui的维度;然后使用不同的参数矩阵Wi Q∈Rn×d/h,Wi K∈Rn×d/h和WiV∈Rn×d/h,把得到的Q,K,V矩阵做h次线性转换,其中h是一个超参数;将每个新生成的Q与K的转置KT相乘,除以再进行softmax的操作得到句子中单词与单词之间对应的权重,然后将这个权重再乘以每个新生成的V,得到考虑了上下文单词之间相关性的输出;
headi=Attention(QWi Q,KWi K,VWi V) (8)
最后将h次注意力的结果拼接在一起形成的向量再做一次线性转换,如下公式所示:
M=Concat(head1,...,headh)WO (17)
其中,headi表示第i次注意力操作,Attention(Q,K,V)表示一次注意力操作,Concat表示连接操作,Concat(head1,...,headh)表示将h次的注意力结果连接起来,WO是参数矩阵;
最后将结果M经过一个线性层和softmax操作,并且将输出与hi加权,得到最终句子的表示r,如下公式所示:
其中,Wh是参数矩阵;
使用多头编码解码注意力机制的具体方法如图3所示:
使用隐藏状态hi和方面向量va相乘的结果{hi⊙va}得到Q矩阵,使用隐藏状态{hi}得到K和V矩阵;把得到的Q,K,V矩阵做h次线性转换,然后把新生成的Q与K的转置KT相乘,除以再进行softmax的操作得到单词对应方面的权重,然后将结果再乘以新生成的V,得到考虑了方面和上下文单词之间相关性的输出;将h次注意力的结果拼接在一起形成的向量再做一次线性转换;最后将结果经过一个线性层和softmax操作,并且将输出与hi加权,得到最终句子表示r;
所述更新方面记忆层将注意力层输出的句子表示r与方面向量va相加,从而得到新的方面向量v'a,如下公式所示:
v’a=r+va (13)
然后将新的方面向量v'a作为下一个计算层的方面向量,将方面向量v'a重新通过下一个计算层的多头注意力层和更新方面记忆层,直到达到预设的最大的hop数量,hop是一个超参数,需要对其预设定值。
所述情感分类模块是将在方面记忆更新模块中进行多次更新方面记忆之后输出的方面向量v'a输入到线性层和softmax层来预测方面情感。
步骤3、通过交叉熵损失函数与L2正则化项的和来训练,基于方面的情感分析模型,如下公式所示:
其中,T是训练集所包含的句子数量,C是所有情感类别的集合,(s,a)表示句子和对应的方面,pc(s,a)表示给定句子s和方面a下的预测的分类概率,yc(s,a)是真实情感类别对应的独热码向量,λ是正则化项的权重,θ是模型中的所有权值参数。
步骤4、将待进行情感分析的数据集通过训练好的基于方面的情感分析模型,实现文本的情感分析。
本实施例还将本发明建立的基于方面的情感分析模型与其他基于方面的情感分析模型相比较;
本实施例中,使用的词向量是由Glove预先训练的300维词向量。使用均匀分布U(-0.25,0.25随机化了词汇表之外的单词的嵌入向量。BiLSTM隐藏状态的维度设置为300,嵌入层和BiLSTM层之前的丢失率(dropout rate)均设置为0.5,多头注意机制之前的dropout设置为0.1。使用Adam作为优化器,并将学习率设为0.001。将参数N的值设置为40,h的值设置为2。模型使用准确度作为分类性能的评价指标。
本实施例将本发明的基于方面的情感分析模型与一些现有的基于方面的情感分析的模型进行了比较。结果如表2所示,本发明的两个模型的性能优于大部分的模型。在三个数据集上,本发明的两个模型都比其他的神经网络模型都有很大的提升。因为本发明的模型都利用了双向的LSTM来捕捉信息,它是由前向输入和后向输入共同来决定特征表示。并且本发明的模型不仅利用了方面信息,还通过多层的多头注意力机制捕获与方面相关的重要的特征表示。在更新方面记忆时,CAMN-SA使用了多层的多头注意力机制和自注意力机制来计算句子中单词向量与单词向量之间的相关权重。CAMN-ED使用了多层的多头注意力机制和编码解码注意力机制来计算上下文向量与方面向量之间的相关权重,得到结合方面词的上下文向量的表示。这些部分都对分类性能的提升起到重要的作用。
表2实验结果
影响模型性能的一个重要的参数是方面记忆更新模块的层数。在CAMN-SA模型中我们设置的hop数量是5,在CAMN-ED模型设置的hop数量是4。本实施例中,用1到8层来评估本发明的模型。结果如图4和图5所示。两个模型在三个数据集上,一层注意力的表现都不如使用更多层的好,这说明在复杂的情况下,一层注意力可能不足以捕捉情感信息。通常情况下,多个计算层可以帮助提高性能。在CAMN-SA模型中,当计算层是5或者6时,模型的准确率达到了最好;在CAMN-ED模型中,计算层是4或者5时,模型的效果达到了最好。从图可以看出性能没有继续随着计算层的增加而增加的。原因可能是随着参数的增加,模型的泛化性能降低。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (3)
1.一种利用上下文和方面记忆信息的情感分类方法,其特征在于,包括以下步骤:
步骤1、选择待进行情感分析的数据集;
步骤2、建立基于方面的情感分析模型;
所述基于方面的情感分析模型包括上下文记忆构建模块,方面记忆更新模块和情感分类模块;
所述上下文记忆构建模块包括词嵌入层、位置相关层和BiLSTM层;
所述词嵌入层将每个单词映射成词嵌入向量之后,将句子和方面用嵌入向量表示;设定输入的句子是s={w1,w2,...,wn},其中,wn为句子中的第n个单词,n是句子的长度,方面是a={wt,...,wt+k},其中,k是方面中单词的个数,即方面的长度,且t+k<n,即方面是句子的子集;将每个单词映射成词嵌入向量之后,句子向量表示为vs={e1,e2,...,en};当方面包含单个的单词时,使用方面单词的嵌入向量et来表示方面向量va,当方面包含多个单词时,使用et到et+k这k个嵌入向量均值池化的结果来表示方面向量va;
所述位置相关层计算句子中每个单词与方面之间的距离,进而得出在句子中每个单词的位置权重,使得靠近方面的单词所占的比重增大,而远离方面的单词所占的比重减小;对于给定的方面和句子中第i个单词的位置关系通过位置相关系数gi表示,如下公式所示:
其中,t是方面中第一个单词的位置,N是一个超参数,n是句子的长度,k是方面的长度;在数据集中,长度小于最大长度的语句的末尾填充零,所以当i>n时,位置相关系数gi=0;
为了使方面的信息被完全考虑,使句子中每个单词的词嵌入向量ei和方面向量va上进行相乘再连接的操作来融合文本和方面的信息,计算公式如下所示:
f(ei,va)=[ei;ei⊙va] (2)
其中,符号“⊙”表示点乘操作,符号“;”表示连接操作;
则位置相关层的输出如公式所示:
xi=f(ei,va)*ga,i∈[1,n] (3)
其中,xi表示结合了位置权重以及方面信息的词向量;
所述BiLSTM层接收位置相关层的输出,得到句子中给定单词的特征表示;
所述BiLSTM层采用双向LSTMs模型连接句子中单词前后两个方向的特征表示,得到句子中给定单词的特征表示;第i个单词前向LSTM的细胞状态和隐藏状态是从它前一个位置的细胞状态隐藏状态和当前的输入向量xi得到的;第i个单词后向LSTM的细胞状态和隐藏状态是从它后一个位置的细胞状态隐藏状态和xi得到的;前向和后向LSTMs表示为:
其中,g(LSTM)表示LSTM的计算;
连接句子中单词前后两个方向的输出表示为:
其中,符号“||”表示连接操作,hi表示单词i的最终隐藏状态;
所述方面记忆更新模块包括hop个计算层,每个计算层均包括多头注意力层和更新方面记忆层;
所述多头注意力层使用多头自注意力机制或多头编码解码注意力机制为每个单词特征表示设置权重,然后将这些单词的特征表示和权重聚合起来得到考虑了上下文单词之间相关性的输出或考虑了方面和上下文单词之间相关性的输出,进而得到最终的句子表示;
所述更新方面记忆层将注意力层输出的句子表示r与方面向量va相加,从而得到新的方面向量v′a,如下公式所示:
v′a=r+va (13)
将新的方面向量v′a作为下一个计算层的方面向量,将方面向量v′a重新通过下一个计算层的多头注意力层和更新方面记忆层,直到达到预设的最大的hop数量,hop是一个超参数,需要对其预设定值;
所述情感分类模块是将在方面记忆更新模块中进行多次更新方面记忆之后输出的方面向量v′a输入到线性层和softmax层来预测方面情感;
步骤3、通过交叉熵损失函数与L2正则化项的和来训练基于方面的情感分析模型,如下公式所示:
其中,T是训练集所包含的句子数量,C是所有情感类别的集合,(s,a)表示句子和对应的方面,pc(s,a)表示给定句子s和方面a下的预测的分类概率,yc(s,a)是真实情感类别对应的独热码向量,λ是正则化项的权重,θ是模型中的所有权值参数;
步骤4、将待进行情感分析的数据集通过训练好的基于方面的情感分析模型,实现文本的情感分析。
2.根据权利要求1所述的一种利用上下文和方面记忆信息的情感分类方法,其特征在于,所述步骤2中使用多头自注意力机制的具体方法为:
对句子中每个单词的隐藏状态hi和方面向量va使用相乘再连接的方式将方面向量的信息编码到文本表示中,得到新的单词向量ui,计算公式如下所示:
ui=[hi;hi⊙va] (8)
为了使得生成的每个句子表示都含有上下文和其需要预测的方面的含义,对生成的向量矩阵u使用多头自注意力机制;使用向量矩阵u得到query矩阵Q∈Rn×d,key矩阵K∈Rn×d和value矩阵V∈Rn×d,其中,d是单词向量ui的维度;然后使用不同的参数矩阵Wi Q∈Rn×d/h,Wi K∈Rn×d/h和Wi V∈Rn×d/h,把得到的Q,K,V矩阵做h次线性转换,其中h是一个超参数;将每个新生成的Q与K的转置KT相乘,除以再进行softmax的操作得到句子中单词与单词之间对应的权重,然后将这个权重再乘以每个新生成的V,得到考虑了上下文单词之间相关性的输出;
headi=Attention(QWi Q,KWi K,VWi V) (8)
最后将h次注意力的结果拼接在一起形成的向量再做一次线性转换,如下公式所示:
M=Concat(head1,...,headh)WO (9)
其中,headi表示第i次注意力操作,Attention(Q,K,V)表示一次注意力操作,Concat表示连接操作,Concat(head1,...,headh)表示将h次的注意力结果连接起来,WO是参数矩阵;
最后将结果M经过一个线性层和softmax操作,并且将输出与隐藏状态hi加权,得到最终句子的表示r,如下公式所示:
其中,Wh是参数矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291726.4A CN111079409B (zh) | 2019-12-16 | 2019-12-16 | 一种利用上下文和方面记忆信息的情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291726.4A CN111079409B (zh) | 2019-12-16 | 2019-12-16 | 一种利用上下文和方面记忆信息的情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079409A CN111079409A (zh) | 2020-04-28 |
CN111079409B true CN111079409B (zh) | 2023-04-25 |
Family
ID=70314682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911291726.4A Active CN111079409B (zh) | 2019-12-16 | 2019-12-16 | 一种利用上下文和方面记忆信息的情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079409B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037179B (zh) * | 2020-08-11 | 2021-05-11 | 深圳大学 | 一种脑疾病诊断模型的生成方法、系统及设备 |
CN112307757B (zh) * | 2020-10-28 | 2023-07-28 | 中国平安人寿保险股份有限公司 | 基于辅助任务的情感分析方法、装置、设备及存储介质 |
CN112434161B (zh) * | 2020-11-24 | 2023-01-03 | 哈尔滨工程大学 | 一种采用双向长短期记忆网络的方面级情感分析方法 |
CN112464281B (zh) * | 2020-11-29 | 2022-11-18 | 深圳市索迪统计科技有限公司 | 基于隐私分组和情感识别的网络信息分析方法 |
CN112559683A (zh) * | 2020-12-11 | 2021-03-26 | 苏州元启创人工智能科技有限公司 | 基于多模态数据及多交互记忆网络的方面级情感分析方法 |
CN112784532B (zh) * | 2021-01-29 | 2022-09-02 | 电子科技大学 | 用于短文本情感分类的多头注意力记忆系统 |
CN113792541B (zh) * | 2021-09-24 | 2023-08-11 | 福州大学 | 一种引入互信息正则化器的方面级情感分析方法 |
CN116975301A (zh) * | 2023-09-22 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、电子设备和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133038A (zh) * | 2018-01-10 | 2018-06-08 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
-
2019
- 2019-12-16 CN CN201911291726.4A patent/CN111079409B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133038A (zh) * | 2018-01-10 | 2018-06-08 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
Non-Patent Citations (2)
Title |
---|
吕艳霞 ; 刘波男 ; 王翠荣 ; 王聪 ; 万聪.面向概念漂移数据流的自适应增量集成分类算法.小型微型计算机系统.2019,(第012期),全文. * |
武婷 ; 曹春萍.融合位置权重的基于注意力交叉注意力的长短期记忆方面情感分析模型.计算机应用.2019,(第008期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111079409A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079409B (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
Long et al. | Sentiment analysis of text based on bidirectional LSTM with multi-head attention | |
Rojas‐Barahona | Deep learning for sentiment analysis | |
Meng et al. | Aspect based sentiment analysis with feature enhanced attention CNN-BiLSTM | |
Zhang et al. | Sentiment classification using comprehensive attention recurrent models | |
Zhang et al. | Combining convolution neural network and bidirectional gated recurrent unit for sentence semantic classification | |
Diao et al. | A multi-dimension question answering network for sarcasm detection | |
Zhou et al. | Learning with annotation of various degrees | |
CN116384371A (zh) | 一种基于bert和依存句法联合实体及关系抽取方法 | |
Penghua et al. | Bidirectional-GRU based on attention mechanism for aspect-level sentiment analysis | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
Fahfouh et al. | A contextual relationship model for deceptive opinion spam detection | |
Wang et al. | Application of an emotional classification model in e-commerce text based on an improved transformer model | |
Mingyu et al. | AFR-BERT: attention-based mechanism feature relevance fusion multimodal sentiment analysis model | |
CN116562286A (zh) | 一种基于混合图注意力的智能配置事件抽取方法 | |
Vo et al. | Handling negative mentions on social media channels using deep learning | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
Liu et al. | Learning term embeddings for lexical taxonomies | |
Zeng et al. | Learning cross-modality features for image caption generation | |
Wen et al. | A hybrid Chinese word segmentation model for quality management-related texts based on transfer learning | |
Pattanayak et al. | Natural language processing using recurrent neural networks | |
CN113792144A (zh) | 基于半监督的图卷积神经网络的文本分类方法 | |
Ibrahiem et al. | Convolutional Neural Network Multi-Emotion Classifiers | |
Gao et al. | Label Smoothing for Enhanced Text Sentiment Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |