CN111079409A - 一种利用上下文和方面记忆信息的情感分类方法 - Google Patents

一种利用上下文和方面记忆信息的情感分类方法 Download PDF

Info

Publication number
CN111079409A
CN111079409A CN201911291726.4A CN201911291726A CN111079409A CN 111079409 A CN111079409 A CN 111079409A CN 201911291726 A CN201911291726 A CN 201911291726A CN 111079409 A CN111079409 A CN 111079409A
Authority
CN
China
Prior art keywords
word
vector
sentence
layer
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911291726.4A
Other languages
English (en)
Other versions
CN111079409B (zh
Inventor
魏方娜
吕艳霞
郑莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University Qinhuangdao Branch
Original Assignee
Northeastern University Qinhuangdao Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University Qinhuangdao Branch filed Critical Northeastern University Qinhuangdao Branch
Priority to CN201911291726.4A priority Critical patent/CN111079409B/zh
Publication of CN111079409A publication Critical patent/CN111079409A/zh
Application granted granted Critical
Publication of CN111079409B publication Critical patent/CN111079409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种利用上下文和方面记忆信息的情感分类方法,涉及情感分析技术领域。本发明通过选择待进行情感分析的数据集,建立基于方面的情感分析模型,通过交叉熵损失函数与L2正则化项的和来训练基于方面的情感分析模型,将待进行情感分析的数据集通过训练好的基于方面的情感分析模型,实现文本的情感分析。本发明提出的网络模型来提取方面的情感极性,该模型构建并结合了上下文记忆构建、方面记忆更新和情感分类模块来解决方面级别的情感分类任务,将多头注意力机制应用到基于方面的情感分析中,并考虑两种应用方法,由于多头注意力机制中每一头的权值是不共享的,因此该模型可以学习不同子空间的特征表示,从而做出更准确的预测。

Description

一种利用上下文和方面记忆信息的情感分类方法
技术领域
本发明涉及情感分析技术领域,尤其涉及一种利用上下文和方面记忆信息的情感分类方法。
背景技术
情感分析(Sentiment analysis)又称为意见挖掘、主观性分析等,是自然语言处理的任务之一。它是对带有情感色彩的内容进行归纳和推理的一个过程。随着网络时代的发展,越来越多的人热衷于在网络上发表自己的情感、观点和态度,情感分析就是将这些观点态度提取出来的一个过程。由于在网络上产生的大量数据都是以文本的形式存在的,所以基于文本的情感分析是至关重要的。情感分析可以分为三个层次粒度:文档级别(document-level)、句子级别(sentence-level)和方面级别(aspect-level)。文档级别的情感分类是为含有一个意见的文档确定一个整体的情感极性。句子级别的情感分析是为一个句子确定一个情感极性。与文档级别和句子级别的情感分类不同的是,方面级别的情感分析既要考虑句子的内容,又考虑句子的目标信息,因为情感总是有目标的。目前很多方法都尝试提取出表达意见文本的整体的情感极性,而忽略了其中的实体,方面或者目标。方面级别的情感分析是具有挑战的,它是一种细粒度的任务。基于方面的情感分析是通过输入的句子的方面来判断句子中关于每个方面的情感极性。输入的句子可以是商品评论,社交网络评论等带有方面的句子。例如在句子“食物出奇的好吃,餐厅的装饰也很不错”中,“食物”和“装饰”就是句子的提到的两个方面。在这个句子中它们的情感极性都是积极的。
解决基于方面的情感分析主要有三种方法。第一种是传统的使用情感词典和规则进行情感分析的方法。但是在很多情况下分类的效果受限于情感词典的质量,而情感词典的构建费时又费力。第二种是使用机器学习进行情感分析的方法。以往,研究人员通常使用朴素贝叶斯(NB)或支持向量机(SVM)等分类模型。这些方法是基于在高维稀疏数据结构上训练的浅层模型。因此,这些分类模型侧重于设计有效的手工特征,以获得更好的性能。然而。特征工程是一项非常困难、耗时和专业的工作。第三种是深度学习方法。深度神经网络模型的优点是可以自动地从数据中学习文本特征或表示形式,而无需预先仔细设计特征。并且在捕获方面和上下文单词之间语义关系的扩展性上,他们比基于机器学习的方法更强。在情感分析方面,研究人员提出了各种深度神经网络模型。这些模型可以获得稠密的、低维的词嵌入,从而产生更好的句子表示。下面将详细介绍基于方面情感分析的深度学习模型。
在情感分析领域中,长短期记忆网络(LSTM)已经得到了广泛的应用。该模型擅长对自然语言建模,很好地解决了自然语言句子向量化的难题。LSTM是循环神经网络(RNN)的一种变体,其包含了输入门、输出门、遗忘门和细胞状态,解决了RNN中长序列依赖问题。但是,在解决基于方面的情感分析任务时,标准的LSTM模型以顺序的方式工作,并使用相同的操作获取每个上下文单词的向量,因此它不能显式地捕捉每个上下文单词的重要性。同时该模型还面临的一个问题是:当它捕捉到一个远离目标的情感特征后,它需要一个字一个字地传播给目标,在这种情况下,它可能会失去这个特征。
近年来,LSTM与注意力机制结合的模型逐渐成为解决基于方面的情感分析的主流方式。Wang等人提出的AE-LSTM和ATAE-LSTM模型都是在长短期记忆网络的基础上又增加了注意力机制(attention mechanism)。AE-LSTM将方面嵌入向量与句子中的每个词嵌入向量相连接的结果作为网络的输入。ATAE-LSTM是AE-LSTM的扩展。它不仅在输入时将方面嵌入向量到每个单词嵌入向量中,而且在网络中将方面嵌入向量连接到LSTM隐藏状态上,之后再将连接向量交给注意力层。这两种方法虽然在基于方面的数据集上取得了一定的效果,但是仅仅通过连接方面的嵌入向量处理方面信息是远远不够的,这样并不能充分利用方面的信息。而且当一个attention集中在多个单词上时,模型可能会可能隐藏每个被关注的词的特征。MemNet模型将记忆网络引入了基于方面的情感分析任务中,将多层注意力机制和词嵌入层构成了记忆网络。MemNet模型在词嵌入上应用了多层注意力来显式地捕获上下文单词的重要性,并使用这些信息来构建句子的特征,最后使用特征表示来预测句子的情感极性。记忆网络利用了记忆组件保存了句子信息,实现了长期记忆的效果。但是当上下文的单词的情感对给定方面敏感时,它的性能会下降。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种利用上下文和方面记忆信息的情感分类方法,对文本实现方面级别的情感分析。
为解决上述技术问题,本发明所采取的技术方案是:一种利用上下文和方面记忆信息的情感分类方法,包括以下步骤:
步骤1、选择待进行情感分析的数据集;
步骤2、建立基于方面的情感分析模型;
所述基于方面的情感分析模型包括上下文记忆构建模块,方面记忆更新模块和情感分类模块;
所述上下文记忆构建模块包括词嵌入层、位置相关层和BiLSTM层;
所述词嵌入层将每个单词映射成词嵌入向量之后,将句子和方面用嵌入向量表示;设定输入的句子是s={w1,w2,...,wn},其中,wn为句子中的第n个单词,n是句子的长度,方面是a={wt,...,wt+k},其中,k是方面中单词的个数,即方面的长度,且t+k<n,即方面是句子的子集;将每个单词映射成词嵌入向量之后,句子向量表示为vs={e1,e2,...,en};当方面包含单个的单词时,使用方面单词的嵌入向量et来表示方面向量va,当方面包含多个单词时,使用et到et+k这k个嵌入向量均值池化的结果来表示方面向量va
所述位置相关层计算句子中每个单词与方面之间的距离,进而得出在句子中每个单词的位置权重,使得靠近方面的单词所占的比重增大,而远离方面的单词所占的比重减小;对于给定的方面和句子中第i个单词的位置关系通过位置相关系数gi表示,如下公式所示:
Figure BDA0002319259360000031
其中,t是方面中第一个单词的位置,N是一个超参数,n是句子的长度,k是方面的长度;在数据集中,长度小于最大长度的语句的末尾填充零,所以当i>n时,位置相关系数gi=0;
为了使方面的信息被完全考虑,使句子中每个单词的词嵌入向量ei和方面向量va上进行相乘再连接的操作来融合文本和方面的信息,计算公式如下所示:
f(ei,va)=[ei;ei⊙va] (2)
其中,符号“⊙”表示点乘操作,符号“;”表示连接操作;
则位置相关层的输出如公式所示:
xi=f(ei,va)*ga,i∈[1,n] (3)
其中,xi表示结合了位置权重以及方面信息的词向量;
所述BiLSTM层接收位置相关层的输出,得到句子中给定单词的特征表示;
所述BiLSTM层采用双向LSTMs模型连接句子中单词前后两个方向的特征表示,得到句子中给定单词的特征表示;第i个单词前向LSTM的细胞状态
Figure BDA0002319259360000032
和隐藏状态
Figure BDA0002319259360000033
是从它前一个位置的细胞状态
Figure BDA0002319259360000034
隐藏状态
Figure BDA0002319259360000035
和当前的输入向量xi得到的;第i个单词后向LSTM的细胞状态
Figure BDA0002319259360000036
和隐藏状态
Figure BDA0002319259360000037
是从它后一个位置的细胞状态
Figure BDA0002319259360000038
隐藏状态
Figure BDA0002319259360000039
和xi得到的;前向和后向LSTMs表示为:
Figure BDA0002319259360000041
Figure BDA0002319259360000042
其中,g(LSTM)表示LSTM的计算;
连接句子中单词前后两个方向的输出表示为:
Figure BDA0002319259360000043
其中,符号“||”表示连接操作,hi表示单词i的最终隐藏状态;
所述方面记忆更新模块包括hop个计算层,每个计算层均包括多头注意力层和更新方面记忆层;
所述多头注意力层使用多头自注意力机制或多头编码解码注意力机制为每个单词特征表示设置权重,然后将这些单词的特征表示和权重聚合起来得到考虑了上下文单词之间相关性的输出或考虑了方面和上下文单词之间相关性的输出,进而得到最终的句子表示;
使用多头自注意力机制的具体方法为:
首先,对句子中每个单词的隐藏状态hi和方面向量va使用相乘再连接的方式将方面向量的信息编码到文本表示中,得到新的单词向量ui,计算公式如下所示:
ui=[hi;hi⊙va] (7)
为了使得生成的每个句子表示都含有上下文和其需要预测的方面的含义,对生成的向量矩阵u使用多头自注意力机制;使用向量矩阵u得到query矩阵Q∈Rn×d,key矩阵K∈Rn ×d和value矩阵V∈Rn×d,其中,d是单词向量ui的维度;然后使用不同的参数矩阵Wi Q∈Rn×d/h,Wi K∈Rn×d/h和Wi V∈Rn×d/h,把得到的Q,K,V矩阵做h次线性转换,其中h是一个超参数;将每个新生成的Q与K的转置KT相乘,除以
Figure BDA0002319259360000044
再进行softmax的操作得到句子中单词与单词之间对应的权重,然后将这个权重再乘以每个新生成的V,得到考虑过单词上下文的输出;
headi=Attention(QWi Q,KWi K,VWi V) (8)
Figure BDA0002319259360000045
最后将h次注意力的结果拼接在一起形成的向量再做一次线性转换,如下公式所示:
M=Concat(head1,...,headh)WO (8)
其中,headi表示第i次注意力操作,Attention(Q,K,V)表示一次注意力操作,Concat表示连接操作,Concat(head1,...,headh)表示将h次的注意力结果连接起来,WO是参数矩阵;
最后将结果M经过一个线性层和softmax操作,并且将输出与hi加权,得到最终句子的表示r,如下公式所示:
Figure BDA0002319259360000051
Figure BDA0002319259360000052
其中,Wh是参数矩阵;
使用多头编码解码注意力机制的具体方法为:
使用隐藏状态hi和方面向量va相乘的结果{hi⊙va}得到Q矩阵,使用隐藏状态{hi}得到K和V矩阵;把得到的Q,K,V矩阵做h次线性转换,然后把新生成的Q与K的转置KT相乘,除以
Figure BDA0002319259360000053
再进行softmax的操作得到单词对应方面的权重,然后将结果再乘以新生成的V,得到考虑了方面和上下文单词之间相关性的输出;将h次注意力的结果拼接在一起形成的向量再做一次线性转换;最后将结果经过一个线性层和softmax操作,并且将输出与hi加权,得到最终句子表示r;
所述更新方面记忆层将注意力层输出的句子表示r与方面向量va相加,从而得到新的方面向量v'a,如下公式所示:
v’a=r+va (13)
然后将新的方面向量v'a作为下一个计算层的方面向量,将方面向量v'a重新通过下一个计算层的多头注意力层和更新方面记忆层,直到达到预设的最大的hop数量,hop是一个超参数,需要对其预设定值;
所述情感分类模块是将在方面记忆更新模块中进行多次更新方面记忆之后输出的方面向量v'a输入到线性层和softmax层来预测方面情感。
步骤3、通过交叉熵损失函数与L2正则化项的和来训练基于方面的情感分析模型,如下公式所示:
Figure BDA0002319259360000061
其中,T是训练集所包含的句子数量,C是所有情感类别的集合,(s,a)表示句子和对应的方面,pc(s,a)表示给定句子s和方面a下的预测的分类概率,yc(s,a)是真实情感类别对应的独热码向量,λ是正则化项的权重,θ是模型中的所有权值参数。
步骤4、将待进行情感分析的数据集通过训练好的基于方面的情感分析模型,实现文本的情感分析。
采用上述技术方案所产生的有益效果在于:本发明提供的一种利用上下文和方面记忆信息的情感分类方法,(1)提出一种新的网络模型来提取方面的情感极性。该模型构建并结合了上下文记忆构建、方面记忆更新和情感分类模块来解决方面级别的情感分类任务。(2)将多头注意力机制应用到基于方面的情感分析中,并考虑两种应用方法。由于多头注意力机制中每一头的权值是不共享的,因此该模型可以学习不同子空间的特征表示,从而做出更准确的预测。
附图说明
图1为本发明实施例提供的基于方面的情感分析模型CAMN的基本框架;
图2为本发明实施例提供的多头自注意力机制的结构示意图;
图3为本发明实施例提供的多头编码解码注意力机制的结构示意图;
图4为本发明实施例提供的CAMN-SA模型中hop个计算层的影响对比图;
图5为本发明实施例提供的CAMN-ED模型中hop个计算层的影响对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
步骤1、选择待进行情感分析的数据集;
本实施例使用的数据集是SemEval2014的laptop和restaurant数据集以及一个twitter数据集。在SemEval2014的两个数据集上,当句子的类别是“conflict”时,表示句子包含多种情感极性,因此删除了类别是“conflict”的例子。所以最终使用的情感类别标签是“positive”,“negative”和“neutral”。为了防止训练过拟合,随机将训练集的20%划分为验证集,数据集的划分细节如表1所示。
表1数据集
Figure BDA0002319259360000071
步骤2、建立基于方面的情感分析模型;
基于方面的情感分析模型,如图1所示,包括上下文记忆构建模块,方面记忆更新模块和情感分类模块,其中CAMN包含两种模型分别为CAMN-SA和CAMN-ED;
所述基于方面的情感分析模型包括上下文记忆构建模块,方面记忆更新模块和情感分类模块;
所述上下文记忆构建模块包括词嵌入层、位置相关层和BiLSTM层;
所述词嵌入层将每个单词映射成词嵌入向量之后,将句子和方面用嵌入向量表示;设定输入的句子是s={w1,w2,...,wn},其中,wn为句子中的第n个单词,n是句子的长度,方面是a={wt,...,wt+k},其中,k是方面中单词的个数,即方面的长度,且t+k<n,即方面是句子的子集;将每个单词映射成词嵌入向量之后,句子向量表示为vs={e1,e2,...,en};当方面包含单个的单词时,使用方面单词的嵌入向量et来表示方面向量va,当方面包含多个单词时,使用et到et+k这k个嵌入向量均值池化的结果来表示方面向量va
所述位置相关层计算句子中每个单词与方面之间的距离,进而得出在句子中每个单词的位置权重,使得靠近方面的单词所占的比重增大,而远离方面的单词所占的比重减小;对于给定的方面和句子中第i个单词的位置关系通过位置相关系数gi表示,如下公式所示:
Figure BDA0002319259360000072
其中,t是方面中第一个单词的位置,N是一个超参数,n是句子的长度,k是方面的长度;在数据集中,长度小于最大长度的语句的末尾填充零,所以当i>n时,位置相关系数gi=0;
为了使方面的信息被完全考虑,使句子中每个单词的词嵌入向量ei和方面向量va上进行相乘再连接的操作来融合文本和方面的信息,计算公式如下所示:
f(ei,va)=[ei;ei⊙va] (11)
其中,符号“⊙”表示点乘操作,符号“;”表示连接操作;
则位置相关层的输出如公式所示:
xi=f(ei,va)*ga,i∈[1,n] (12)
其中,xi表示结合了位置权重以及方面信息的词向量;
所述BiLSTM层接收位置相关层的输出,得到句子中给定单词的特征表示;
所述BiLSTM层采用双向LSTMs模型连接句子中单词前后两个方向的特征表示,得到句子中给定单词的特征表示;第i个单词前向LSTM的细胞状态
Figure BDA0002319259360000081
和隐藏状态
Figure BDA0002319259360000082
是从它前一个位置的细胞状态
Figure BDA0002319259360000083
隐藏状态
Figure BDA0002319259360000084
和当前的输入向量xi得到的;第i个单词后向LSTM的细胞状态
Figure BDA0002319259360000085
和隐藏状态
Figure BDA0002319259360000086
是从它后一个位置的细胞状态
Figure BDA0002319259360000087
隐藏状态
Figure BDA0002319259360000088
和xi得到的;前向和后向LSTMs表示为:
Figure BDA0002319259360000089
Figure BDA00023192593600000810
其中,g(LSTM)表示LSTM的计算;
连接句子中单词前后两个方向的输出表示为:
Figure BDA00023192593600000811
其中,符号“||”表示连接操作,hi表示单词i的最终隐藏状态;
所述方面记忆更新模块包括hop个计算层,每个计算层均包括多头注意力层和更新方面记忆层;
所述多头注意力层使用多头自注意力机制或多头编码解码注意力机制为每个单词特征表示设置权重,然后将这些单词的特征表示和权重聚合起来得到考虑了上下文单词之间相关性的输出或考虑了方面和上下文单词之间相关性的输出,进而得到最终的句子表示;
使用多头自注意力机制的具体方法如图2所示:
首先,对句子中每个单词的隐藏状态hi和方面向量va使用相乘再连接的方式将方面向量的信息编码到文本表示中,得到新的单词向量ui,计算公式如下所示:
ui=[hi;hi⊙va] (16)
为了使得生成的每个句子表示都含有上下文和其需要预测的方面的含义,对生成的向量矩阵u使用多头自注意力机制;使用向量矩阵u得到query矩阵Q∈Rn×d,key矩阵K∈Rn ×d和value矩阵V∈Rn×d,其中,d是单词向量ui的维度;然后使用不同的参数矩阵Wi Q∈Rn×d/h,Wi K∈Rn×d/h和WiV∈Rn×d/h,把得到的Q,K,V矩阵做h次线性转换,其中h是一个超参数;将每个新生成的Q与K的转置KT相乘,除以
Figure BDA0002319259360000091
再进行softmax的操作得到句子中单词与单词之间对应的权重,然后将这个权重再乘以每个新生成的V,得到考虑了上下文单词之间相关性的输出;
headi=Attention(QWi Q,KWi K,VWi V) (8)
Figure BDA0002319259360000092
最后将h次注意力的结果拼接在一起形成的向量再做一次线性转换,如下公式所示:
M=Concat(head1,...,headh)WO (17)
其中,headi表示第i次注意力操作,Attention(Q,K,V)表示一次注意力操作,Concat表示连接操作,Concat(head1,...,headh)表示将h次的注意力结果连接起来,WO是参数矩阵;
最后将结果M经过一个线性层和softmax操作,并且将输出与hi加权,得到最终句子的表示r,如下公式所示:
Figure BDA0002319259360000093
Figure BDA0002319259360000094
其中,Wh是参数矩阵;
使用多头编码解码注意力机制的具体方法如图3所示:
使用隐藏状态hi和方面向量va相乘的结果{hi⊙va}得到Q矩阵,使用隐藏状态{hi}得到K和V矩阵;把得到的Q,K,V矩阵做h次线性转换,然后把新生成的Q与K的转置KT相乘,除以
Figure BDA0002319259360000101
再进行softmax的操作得到单词对应方面的权重,然后将结果再乘以新生成的V,得到考虑了方面和上下文单词之间相关性的输出;将h次注意力的结果拼接在一起形成的向量再做一次线性转换;最后将结果经过一个线性层和softmax操作,并且将输出与hi加权,得到最终句子表示r;
所述更新方面记忆层将注意力层输出的句子表示r与方面向量va相加,从而得到新的方面向量v'a,如下公式所示:
v’a=r+va (13)
然后将新的方面向量v'a作为下一个计算层的方面向量,将方面向量v'a重新通过下一个计算层的多头注意力层和更新方面记忆层,直到达到预设的最大的hop数量,hop是一个超参数,需要对其预设定值。
所述情感分类模块是将在方面记忆更新模块中进行多次更新方面记忆之后输出的方面向量v'a输入到线性层和softmax层来预测方面情感。
步骤3、通过交叉熵损失函数与L2正则化项的和来训练,基于方面的情感分析模型,如下公式所示:
Figure BDA0002319259360000102
其中,T是训练集所包含的句子数量,C是所有情感类别的集合,(s,a)表示句子和对应的方面,pc(s,a)表示给定句子s和方面a下的预测的分类概率,yc(s,a)是真实情感类别对应的独热码向量,λ是正则化项的权重,θ是模型中的所有权值参数。
步骤4、将待进行情感分析的数据集通过训练好的基于方面的情感分析模型,实现文本的情感分析。
本实施例还将本发明建立的基于方面的情感分析模型与其他基于方面的情感分析模型相比较;
本实施例中,使用的词向量是由Glove预先训练的300维词向量。使用均匀分布U(-0.25,0.25随机化了词汇表之外的单词的嵌入向量。BiLSTM隐藏状态的维度设置为300,嵌入层和BiLSTM层之前的丢失率(dropout rate)均设置为0.5,多头注意机制之前的dropout设置为0.1。使用Adam作为优化器,并将学习率设为0.001。将参数N的值设置为40,h的值设置为2。模型使用准确度作为分类性能的评价指标。
本实施例将本发明的基于方面的情感分析模型与一些现有的基于方面的情感分析的模型进行了比较。结果如表2所示,本发明的两个模型的性能优于大部分的模型。在三个数据集上,本发明的两个模型都比其他的神经网络模型都有很大的提升。因为本发明的模型都利用了双向的LSTM来捕捉信息,它是由前向输入和后向输入共同来决定特征表示。并且本发明的模型不仅利用了方面信息,还通过多层的多头注意力机制捕获与方面相关的重要的特征表示。在更新方面记忆时,CAMN-SA使用了多层的多头注意力机制和自注意力机制来计算句子中单词向量与单词向量之间的相关权重。CAMN-ED使用了多层的多头注意力机制和编码解码注意力机制来计算上下文向量与方面向量之间的相关权重,得到结合方面词的上下文向量的表示。这些部分都对分类性能的提升起到重要的作用。
表2实验结果
Figure BDA0002319259360000111
影响模型性能的一个重要的参数是方面记忆更新模块的层数。在CAMN-SA模型中我们设置的hop数量是5,在CAMN-ED模型设置的hop数量是4。本实施例中,用1到8层来评估本发明的模型。结果如图4和图5所示。两个模型在三个数据集上,一层注意力的表现都不如使用更多层的好,这说明在复杂的情况下,一层注意力可能不足以捕捉情感信息。通常情况下,多个计算层可以帮助提高性能。在CAMN-SA模型中,当计算层是5或者6时,模型的准确率达到了最好;在CAMN-ED模型中,计算层是4或者5时,模型的效果达到了最好。从图可以看出性能没有继续随着计算层的增加而增加的。原因可能是随着参数的增加,模型的泛化性能降低。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (3)

1.一种利用上下文和方面记忆信息的情感分类方法,其特征在于,包括以下步骤:
步骤1、选择待进行情感分析的数据集;
步骤2、建立基于方面的情感分析模型;
所述基于方面的情感分析模型包括上下文记忆构建模块,方面记忆更新模块和情感分类模块;
所述上下文记忆构建模块包括词嵌入层、位置相关层和BiLSTM层;
所述词嵌入层将每个单词映射成词嵌入向量之后,将句子和方面用嵌入向量表示;设定输入的句子是s={w1,w2,...,wn},其中,wn为句子中的第n个单词,n是句子的长度,方面是a={wt,...,wt+k},其中,k是方面中单词的个数,即方面的长度,且t+k<n,即方面是句子的子集;将每个单词映射成词嵌入向量之后,句子向量表示为vs={e1,e2,...,en};当方面包含单个的单词时,使用方面单词的嵌入向量et来表示方面向量va,当方面包含多个单词时,使用et到et+k这k个嵌入向量均值池化的结果来表示方面向量va
所述位置相关层计算句子中每个单词与方面之间的距离,进而得出在句子中每个单词的位置权重,使得靠近方面的单词所占的比重增大,而远离方面的单词所占的比重减小;对于给定的方面和句子中第i个单词的位置关系通过位置相关系数gi表示,如下公式所示:
Figure FDA0002319259350000011
其中,t是方面中第一个单词的位置,N是一个超参数,n是句子的长度,k是方面的长度;在数据集中,长度小于最大长度的语句的末尾填充零,所以当i>n时,位置相关系数gi=0;
为了使方面的信息被完全考虑,使句子中每个单词的词嵌入向量ei和方面向量va上进行相乘再连接的操作来融合文本和方面的信息,计算公式如下所示:
f(ei,va)=[ei;ei⊙va] (2)
其中,符号“⊙”表示点乘操作,符号“;”表示连接操作;
则位置相关层的输出如公式所示:
xi=f(ei,va)*ga,i∈[1,n] (3)
其中,xi表示结合了位置权重以及方面信息的词向量;
所述BiLSTM层接收位置相关层的输出,得到句子中给定单词的特征表示;
所述BiLSTM层采用双向LSTMs模型连接句子中单词前后两个方向的特征表示,得到句子中给定单词的特征表示;第i个单词前向LSTM的细胞状态
Figure FDA0002319259350000021
和隐藏状态
Figure FDA0002319259350000022
是从它前一个位置的细胞状态
Figure FDA0002319259350000023
隐藏状态
Figure FDA0002319259350000024
和当前的输入向量xi得到的;第i个单词后向LSTM的细胞状态
Figure FDA0002319259350000025
和隐藏状态
Figure FDA0002319259350000026
是从它后一个位置的细胞状态
Figure FDA0002319259350000027
隐藏状态
Figure FDA0002319259350000028
和xi得到的;前向和后向LSTMs表示为:
Figure FDA0002319259350000029
Figure FDA00023192593500000210
其中,g(LSTM)表示LSTM的计算;
连接句子中单词前后两个方向的输出表示为:
Figure FDA00023192593500000211
其中,符号“||”表示连接操作,hi表示单词i的最终隐藏状态;
所述方面记忆更新模块包括hop个计算层,每个计算层均包括多头注意力层和更新方面记忆层;
所述多头注意力层使用多头自注意力机制或多头编码解码注意力机制为每个单词特征表示设置权重,然后将这些单词的特征表示和权重聚合起来得到考虑了上下文单词之间相关性的输出或考虑了方面和上下文单词之间相关性的输出,进而得到最终的句子表示;
所述更新方面记忆层将注意力层输出的句子表示r与方面向量va相加,从而得到新的方面向量v′a,如下公式所示:
v′a=r+va (13)
将新的方面向量v′a作为下一个计算层的方面向量,将方面向量v′a重新通过下一个计算层的多头注意力层和更新方面记忆层,直到达到预设的最大的hop数量,hop是一个超参数,需要对其预设定值;
所述情感分类模块是将在方面记忆更新模块中进行多次更新方面记忆之后输出的方面向量v′a输入到线性层和softmax层来预测方面情感;
步骤3、通过交叉熵损失函数与L2正则化项的和来训练基于方面的情感分析模型,如下公式所示:
Figure FDA0002319259350000031
其中,T是训练集所包含的句子数量,C是所有情感类别的集合,(s,a)表示句子和对应的方面,pc(s,a)表示给定句子s和方面a下的预测的分类概率,yc(s,a)是真实情感类别对应的独热码向量,λ是正则化项的权重,θ是模型中的所有权值参数;
步骤4、将待进行情感分析的数据集通过训练好的基于方面的情感分析模型,实现文本的情感分析。
2.根据权利要求1所述的一种利用上下文和方面记忆信息的情感分类方法,其特征在于,所述步骤2中使用多头自注意力机制的具体方法为:
对句子中每个单词的隐藏状态hi和方面向量va使用相乘再连接的方式将方面向量的信息编码到文本表示中,得到新的单词向量ui,计算公式如下所示:
ui=[hi;hi⊙va] (8)
为了使得生成的每个句子表示都含有上下文和其需要预测的方面的含义,对生成的向量矩阵u使用多头自注意力机制;使用向量矩阵u得到query矩阵Q∈Rn×d,key矩阵K∈Rn×d和value矩阵V∈Rn×d,其中,d是单词向量ui的维度;然后使用不同的参数矩阵Wi Q∈Rn×d/h,Wi K∈Rn×d/h和Wi V∈Rn×d/h,把得到的Q,K,V矩阵做h次线性转换,其中h是一个超参数;将每个新生成的Q与K的转置KT相乘,除以
Figure FDA0002319259350000032
再进行softmax的操作得到句子中单词与单词之间对应的权重,然后将这个权重再乘以每个新生成的V,得到考虑了上下文单词之间相关性的输出;
headi=Attention(QWi Q,KWi K,VWi V) (8)
Figure FDA0002319259350000033
最后将h次注意力的结果拼接在一起形成的向量再做一次线性转换,如下公式所示:
M=Concat(head1,...,headh)WO (9)
其中,headi表示第i次注意力操作,Attention(Q,K,V)表示一次注意力操作,Concat表示连接操作,Concat(head1,...,headh)表示将h次的注意力结果连接起来,WO是参数矩阵;
最后将结果M经过一个线性层和softmax操作,并且将输出与隐藏状态hi加权,得到最终句子的表示r,如下公式所示:
Figure FDA0002319259350000041
Figure FDA0002319259350000042
其中,Wh是参数矩阵。
3.根据权利要求1所述的一种利用上下文和方面记忆信息的情感分类方法,其特征在于,所述步骤2中使用多头编码解码注意力机制的具体方法为:
使用隐藏状态hi和方面向量va相乘的结果{hi⊙va}得到Q矩阵,使用隐藏状态{hi}得到K和V矩阵;把得到的Q,K,V矩阵做h次线性转换,然后把新生成的Q与K的转置KT相乘,除以
Figure FDA0002319259350000043
再进行softmax的操作得到单词对应方面的权重,然后将结果再乘以新生成的V,得到考虑了方面和上下文单词之间相关性的输出;将h次注意力的结果拼接在一起形成的向量再做一次线性转换;最后将结果经过一个线性层和softmax操作,并且将输出与hi加权,得到最终句子表示r。
CN201911291726.4A 2019-12-16 2019-12-16 一种利用上下文和方面记忆信息的情感分类方法 Active CN111079409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911291726.4A CN111079409B (zh) 2019-12-16 2019-12-16 一种利用上下文和方面记忆信息的情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911291726.4A CN111079409B (zh) 2019-12-16 2019-12-16 一种利用上下文和方面记忆信息的情感分类方法

Publications (2)

Publication Number Publication Date
CN111079409A true CN111079409A (zh) 2020-04-28
CN111079409B CN111079409B (zh) 2023-04-25

Family

ID=70314682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911291726.4A Active CN111079409B (zh) 2019-12-16 2019-12-16 一种利用上下文和方面记忆信息的情感分类方法

Country Status (1)

Country Link
CN (1) CN111079409B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037179A (zh) * 2020-08-11 2020-12-04 深圳大学 一种脑疾病诊断模型的生成方法、系统及设备
CN112307757A (zh) * 2020-10-28 2021-02-02 中国平安人寿保险股份有限公司 基于辅助任务的情感分析方法、装置、设备及存储介质
CN112434161A (zh) * 2020-11-24 2021-03-02 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112464281A (zh) * 2020-11-29 2021-03-09 哈尔滨工程大学 基于隐私分组和情感识别的网络信息分析方法
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法
CN112784532A (zh) * 2021-01-29 2021-05-11 电子科技大学 用于短文本情感分类的多头注意力记忆网络
CN113792541A (zh) * 2021-09-24 2021-12-14 福州大学 一种引入互信息正则化器的方面级情感分析方法
CN116975301A (zh) * 2023-09-22 2023-10-31 腾讯科技(深圳)有限公司 文本聚类方法、装置、电子设备和计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133038B (zh) * 2018-01-10 2022-03-22 重庆邮电大学 一种基于动态记忆网络的实体级别情感分类系统及方法
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037179A (zh) * 2020-08-11 2020-12-04 深圳大学 一种脑疾病诊断模型的生成方法、系统及设备
CN112307757A (zh) * 2020-10-28 2021-02-02 中国平安人寿保险股份有限公司 基于辅助任务的情感分析方法、装置、设备及存储介质
CN112307757B (zh) * 2020-10-28 2023-07-28 中国平安人寿保险股份有限公司 基于辅助任务的情感分析方法、装置、设备及存储介质
CN112434161B (zh) * 2020-11-24 2023-01-03 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112434161A (zh) * 2020-11-24 2021-03-02 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112464281A (zh) * 2020-11-29 2021-03-09 哈尔滨工程大学 基于隐私分组和情感识别的网络信息分析方法
CN112464281B (zh) * 2020-11-29 2022-11-18 深圳市索迪统计科技有限公司 基于隐私分组和情感识别的网络信息分析方法
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法
CN112784532B (zh) * 2021-01-29 2022-09-02 电子科技大学 用于短文本情感分类的多头注意力记忆系统
CN112784532A (zh) * 2021-01-29 2021-05-11 电子科技大学 用于短文本情感分类的多头注意力记忆网络
CN113792541A (zh) * 2021-09-24 2021-12-14 福州大学 一种引入互信息正则化器的方面级情感分析方法
CN113792541B (zh) * 2021-09-24 2023-08-11 福州大学 一种引入互信息正则化器的方面级情感分析方法
CN116975301A (zh) * 2023-09-22 2023-10-31 腾讯科技(深圳)有限公司 文本聚类方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN111079409B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN113239181B (zh) 基于深度学习的科技文献引文推荐方法
Wang et al. An LSTM approach to short text sentiment classification with word embeddings
CN110046304B (zh) 一种用户推荐方法和装置
Shrestha et al. Deep learning sentiment analysis of amazon. com reviews and ratings
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
Lin et al. Heterogeneous knowledge-based attentive neural networks for short-term music recommendations
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
Zhang et al. An emotional classification method of Chinese short comment text based on ELECTRA
CN110659411A (zh) 一种基于神经注意力自编码器的个性化推荐方法
Chen et al. Deep neural networks for multi-class sentiment classification
Sadr et al. Improving the performance of text sentiment analysis using deep convolutional neural network integrated with hierarchical attention layer
Xu et al. BERT gated multi-window attention network for relation extraction
Chen et al. Multi-grained attention representation with ALBERT for aspect-level sentiment classification
Liu et al. Hierarchical graph convolutional networks for structured long document classification
Wang et al. Sentiment analysis of commodity reviews based on ALBERT-LSTM
Wang et al. Application of an emotional classification model in e-commerce text based on an improved transformer model
Mingyu et al. AFR-BERT: Attention-based mechanism feature relevance fusion multimodal sentiment analysis model
Wang et al. Knowledge graph embedding with interactive guidance from entity descriptions
Li et al. BERTtoCNN: Similarity-preserving enhanced knowledge distillation for stance detection
Sun et al. Emotional conversation generation based on a Bayesian deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant