CN110781306A - 一种英文文本的方面层情感分类方法及系统 - Google Patents

一种英文文本的方面层情感分类方法及系统 Download PDF

Info

Publication number
CN110781306A
CN110781306A CN201911063343.1A CN201911063343A CN110781306A CN 110781306 A CN110781306 A CN 110781306A CN 201911063343 A CN201911063343 A CN 201911063343A CN 110781306 A CN110781306 A CN 110781306A
Authority
CN
China
Prior art keywords
emotion
word
words
vectors
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911063343.1A
Other languages
English (en)
Other versions
CN110781306B (zh
Inventor
刘方爱
周子玉
侯剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
CERNET Corp
Original Assignee
Shandong Normal University
CERNET Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University, CERNET Corp filed Critical Shandong Normal University
Priority to CN201911063343.1A priority Critical patent/CN110781306B/zh
Publication of CN110781306A publication Critical patent/CN110781306A/zh
Application granted granted Critical
Publication of CN110781306B publication Critical patent/CN110781306B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供英文文本的方面层情感分类方法及系统。其中,该方法包括对英文文本所包含的单词进行词性分析,得到单词的词性向量;初始化英文文本所包含的所有单词,得到单词的词嵌入向量;通过查找单词与情感的对应关系情感表,得到各个句子的情感向量,再将单词的词嵌入向量与句子的情感向量进行连接后输入至TD‑LSTM模型中,输出单词的情感向量;将单词的词性向量、单词的情感向量和单词的词嵌入向量进行连接合成,并输入至多头位置自注意力模块,得到上下文和方面的隐藏向量;再将上下文和方面的隐藏向量输入至共注意力模块中,得到上下文的特征表示和方面的特征表示并组合起来并输入至SoftMax函数中输出英文文本的方面层情感类别。

Description

一种英文文本的方面层情感分类方法及系统
技术领域
本公开属于文本数据处理领域,尤其涉及一种英文文本的方面层情感分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着互联网的发展以及人们生活质量的提高,用户产生的信息变得越来越多样化。这些信息中的大部分是关于服务、消费,而且也或多或少的包含用户的情感表达。有效的处理和挖掘这些信息对于企业是非常重要的,它通过用户的反馈来帮助企业改进产品并提高服务,从而促进用户的消费。
方面层情感分类是自然语言处理的一个重要分支。与文档和句子层情感分类相比,方面层情感分类是困难的,因为它需要考虑句子中的多个方面。例如,一个评论句子“虽然价格比较合理,但是服务特别差。”。通过单词“合理”和“差”,我们可以判断方面“价格”的情感极性是积极的,而方面“服务”的情感极性是消极的。早期的工作主要提取一些特征,然后利用无监督和监督的机器学习算法来建立一个情感分类器。虽然有一定的效果,但是特征的质量限制了分类器的性能。随着神经网络在各种领域的成功应用,神经网络也被用于情感分类。神经网络主要有:卷积神经网络(CNN)、循环神经网络(RNN)以及RNN的各种变体,长短期记忆网络(LSTM)、门控循环单元(GRU)等。与CNN相比,RNN可以更好的捕捉上下文之间的语义关系,因此在自然语言处理领域得到了广泛的应用。受注意力机制在计算机视觉领域的成功应用的启发,许多研究人员将注意力机制和LSTM结合到一起并取得了一些提高。后来,大量的工作使用基于注意力的LSTM网络来处理方面层情感分类。
发明人发现,LSTM虽然可以捕捉上下文之间的依赖,但大量的工作显示,LSTM在建模长距离依赖和并行编码上受到限制。
发明内容
本公开提供一种英文文本的方面层情感分类方法及系统,其引入了单词的词性和情感向量,使模型更加关注具有形容词词性的单词以及它的情感向量。然后,通过共注意力模块交互的提取上下文和方面术语的重要特征,从而可以有效的识别情感极性。
为了实现上述目的,本公开采用如下技术方案:
本公开的第一个方面提供一种英文文本的方面层情感分类方法。
一种英文文本的方面层情感分类方法,包括:
对英文文本所包含的单词进行词性分析,得到单词的词性向量;
初始化英文文本所包含的所有单词,得到单词的词嵌入向量;通过查找单词与情感的对应关系情感表,得到各个句子的情感向量,再将单词的词嵌入向量与句子的情感向量进行连接后输入至TD-LSTM模型中,输出单词的情感向量;
将单词的词性向量、单词的情感向量和单词的词嵌入向量进行连接合成,并输入至多头位置自注意力模块,得到上下文和方面的隐藏向量;再将上下文和方面的隐藏向量输入至共注意力模块中,得到上下文的特征表示和方面的特征表示;
将上下文的特征表示和方面的特征表示组合起来并输入至SoftMax函数中输出英文文本的方面层情感类别。
本公开的第二方面提供一种英文文本的方面层情感分类系统。
一种英文文本的方面层情感分类系统,包括:
词性向量获取模块,其用于对英文文本所包含的单词进行词性分析,得到单词的词性向量;
情感向量获取模块,其用于初始化英文文本所包含的所有单词,得到单词的词嵌入向量;通过查找单词与情感的对应关系情感表,得到各个句子的情感向量,再将单词的词嵌入向量与句子的情感向量进行连接后输入至TD-LSTM模型中,输出单词的情感向量;
上下文和方面的特征表示模块,其用于将单词的词性向量、单词的情感向量和单词的词嵌入向量进行连接合成,并输入至多头位置自注意力模块,得到上下文和方面的隐藏向量;再将上下文和方面的隐藏向量输入至共注意力模块中,得到上下文的特征表示和方面的特征表示;
方面层情感类别输出模块,其用于将上下文的特征表示和方面的特征表示组合起来并输入至SoftMax函数中输出英文文本的方面层情感类别。
本公开的第三方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的英文文本的方面层情感分类方法中步骤。
本公开的第四方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的英文文本的方面层情感分类方法中步骤。
本公开的有益效果是:
(1)本公开引入单词的词性和情感向量,使模型更加关注具有形容词词性的单词以及它的情感向量,然后,利用共注意力模块来交互的提取上下文和方面术语的重要特征,最后,将特征组合用于识别情感极性。
(2)本公开利用多头位置自注意力来获取语义信息,多头位置自注意力不但能捕捉更长距离的依赖而且可以并行计算,从而减少时间消耗;
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开实施例的英文文本的方面层情感分类方法流程图;
图2是本公开实施例的单词情感向量获取过程;
图3是本公开实施例的多头位置自注意力模块示意图;
图4是本公开实施例的下文的隐藏向量和方面的隐藏向量获取原理图;
图5是本公开实施例的英文文本的方面层情感分类原理图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
发明人发现评论句子中的“合理”和“差”都是形容词,而“合理”这个词语的情感极性是积极,“差”的情感极性是消极。通过“合理”和“差”的情感极性就可以判断句子中方面的情感极性,这说明单词的词性和情感极性对方面层情感分类至关重要。
实施例1
如图1所示,本实施例的一种英文文本的方面层情感分类方法,包括:
S101:对英文文本所包含的单词进行词性分析,获得英文文本所包含句子的词性向量。
在具体实施中,给定由n个单词组成的评论句子S={w1,w2,...,wa-1,wa,wa+1,...wn-1,wn}。其中,wa是句子的方面。将句子S输入Natural Language Toolkits(自然语言处理工具包,它是一个Python库用于识别和标记英文文本中各个词的词性)来获得句子词性向量{ti}。其中,ti是每个单词的类别号。类别号是每种词性的索引号。由于{ti}是一个离散的整数值向量,因此需要使用一个可训练的嵌入矩阵Wt对{ti}进行转换。因此,词性向量为:
m=tiWt
其中,
Figure BDA0002256413440000051
Vt是类别号,d为维度。
具体来说,本实施例对SemEval2014数据集进行大量分析:例如给定一个句子“这台笔记本电脑的外观非常好,但是运行速度非常慢。”。方面“外观”的情感极性是积极的,而方面“速度”的情感极性却是消极的。从这句话中,我们可以很快就找出推断“外观”和“速度”方面情感极性的单词分别是“好”和“慢”。通过分析这句话中每个单词的词性就可以得出“好”和“慢”都是形容词,而“这”是代词,“笔记本电脑”是名词,“但是”是连词。发明人发现具有形容词词性的单词对判断方面层情感分类具有很大的作用。因此,引入了注意力机制来增大形容词词性的注意力。最终,句子S的词性向量M表示如下:
M=miβi
Figure BDA0002256413440000061
其中,mi是单词i的词性向量,mj是单词j的词性向量,βi为单词i的词性注意力权重。
S102:初始化英文文本所包含的所有单词,得到单词的词嵌入向量;通过查找单词与情感的对应关系情感表,得到各个句子的情感向量,再将单词的词嵌入向量与句子的情感向量进行连接后输入至TD-LSTM模型中,输出单词的情感向量。
例如,单词favorite作为名词是“收藏夹”的意思,它的积极情感分数和消极情感分数都是0。作为名词,favorite是一个具有中性情感极性的词。作为形容词是“最喜爱的”意思,它的积极情感分数可能为0.75,而消极情感分数可能不存在。通过分析,发明人发现单词在不同的词性下,它的情感极性是不同的。因此,要引入词性来生成情感向量。
如图2所示,将句子S输入Natural Language Toolkits获得一个词性序列pos={pos1,pos2,...,posn}。需要注意的是,这里的词性序列是每一个单词的词性,而不是步骤S101中的类别号{ti}。句子S的情感向量通过查找情感表来获取
Figure BDA0002256413440000062
其中,情感表由词性、词条编号、正向情感值、负向情感值、同义词词条名和注释组成。
利用预训练的单词表示语言模型BERT初始化单词的向量;设单词的词嵌入其中,va是一个方面它包含多个单词的隐藏向量va={va1,va2,...,vam}。Vw是词汇表的大小,dw是单词嵌入的维度。
其中,BERT:Bidirectional Encoder Representation from Transformers BERT模型进一步增加词向量模型的泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。
在其他实施例中,其他的初始化方法,例如GloVe,也可对单词的向量进行初始化。
将单词嵌入与情感向量进行连接得到vst={vst1,vst2,...,vstn-1,vstn},其中
Figure BDA0002256413440000072
然后,将连接后的vst输入TD-LSTM模型中。其中,TD-LSTM的基本思想是根据目标词之前和之后的上下文分别建模,实际上,使用的是两个LSTM模型,左边的LSTM输入的是目标词之前的上下文加上目标词,右边的LSTM输入的是目标之后的上下文加上目标词。最后,将左右两边的语义信息连接起来进行分类。左边LSTM和右边LSTM分别获取单词wm前面上下文vstL={vst1,vst2,...,vstm-1,vstm}和后面上下文vstR={vstm,vstm+1,...,vstn-1,vstn}的隐藏向量hL,hR
最后,连接左右两边的隐藏向量,然后输入到一个线性层来生成单词wm的情感向量sentiF。
sentiFm=[hL;hR]*WsentiF
其中,
Figure BDA0002256413440000073
dh为隐藏向量的维度,ds为单词情感向量的维度。
S103:将单词的词性向量、单词的情感向量和单词的词嵌入向量进行连接合成,并输入至多头位置自注意力模块,得到上下文和方面的隐藏向量;再将上下文和方面的隐藏向量输入至共注意力模块中,得到上下文的特征表示和方面的特征表示。
将单词的嵌入、词性向量、情感向量连接起来作为多头位置自注意力模块的输入。
Ci={vi;Mi,sentiFi}
其中,i∈[1,n],dp为单词词性向量的维度。
获取语义信息的多头位置自注意力模块,如图3所示,为了捕捉长距离的依赖来获取更好的语义信息并且减少计算复杂性。利用一个多头位置自注意力来计算隐藏向量。注意力函数是给定一组查询序列Q={q1,q2,...,qn-1,qn}和一组键-值序列K={k1,k2,...,kn-1,kn},V={v1,v2,...,vn-1,vn},然后计算查询和每一个键-值对的加权求和。形式上,把FQ作为一组查询,FK和FV作为一组键-值。它们是由多个查询、键-值组成的矩阵。每个矩阵利用全连接层被映射为特征
Figure BDA0002256413440000082
其中,n为序列长度,dk为特征的维度。自注意力被定义如下:
多头位置自注意力通过不同的转换矩阵并行的关注不同位置上的特征。多头自注意力连接不同头的输出,然后利用一个线性层将这个连接映射到一个固定的维度。多头位置自注意力的计算如下:
J=concat(h1,h2,...,hl)Wo
hi=Attention(FWi Q,FWi K,FWi V)
其中,Wo和Wi是需要学习的参数,其中Wi的上标Q、F和V分别表示查询、键、键值。然而,自注意力操作中可能存在传输损耗。因此,将残差F连接到J,然后应用层规范化。原来的J被转换成O。
O=LayerNorm(J+F)
自注意力机制可以捕捉长期依赖,但它忽视了位置信息。为了更有效的利用序列的顺序,定义一个矩阵来获取F的位置信息。本专利使用不同频率的正余弦函数来计算位置信息。
Figure BDA0002256413440000092
Figure BDA0002256413440000093
其中,pos是位置,j是维度。然后,通过两个卷积层和一个ReLU激活函数将位置编码添加到多头位置自注意力。
Of=ReLU((O+P)W1+b1)W2+b2
其中,W1和W2是一个参数矩阵,需要在训练的过程中学习。b1和b2是偏置。
将单词的表示C和方面嵌入va分别输入两个多头位置自注意力模块来获取隐藏向量Hc和Ha
Figure BDA0002256413440000094
Figure BDA0002256413440000095
在本实施例中,如图4所示。通过两个位置自注意力模块,得到上下文的隐藏向量Hc和方面的隐藏向量Ha,但是它们的隐藏向量的维度不同。为了进行下一步计算,将Hc和Ha映射到一个维度为p的共同空间。然后,共注意力模块被应用到共同空间上来提取交互特征。
共注意力模块是基于Hc∈Rn×p,Ha∈Rm×p生成两个注意特征图,一个被用于注意上下文,另一个被用于注意方面术语。为了得到这两个特征,我们通过一个多元素函数构建一个相似矩阵X。X由Hc、Ha、Ha·Hc计算。
X=Wm[Ha,Hc,Ha·Hc]
其中,Wm是一个参数矩阵,它通过训练得到。·代表点乘操作,X∈Rn×m表示相似矩阵。在X上,从两个方向来获取注意特征图和注意向量。
上下文到方面术语注意力。它的目的是找出方面术语中与上下文最相关的单词。Xa被获取是通过SoftMax函数对X的每一行进行归一化。最终,方面的特征表示如下:
A=XaHa
方面术语到上下文的注意力。它的目的是找出哪个上下文单词与方面术语最相似,这也是预测方面情感极性的关键。Xc是通过SoftMax函数对X的每一列进行归一化。最终,上下文的特征表示如下:
Figure BDA0002256413440000101
共注意力模块是基于Hc∈Rn×p,Ha∈Rm×p生成两个注意特征图,一个被用于注意上下文,另一个被用于注意方面术语。
Figure BDA0002256413440000102
表示Xc的转置矩阵;HcT表示Hc的转置矩阵。
S104:将上下文的特征表示和方面的特征表示组合起来并输入至SoftMax函数中输出英文文本的方面层情感类别,如图5所示。
实施例2
本实施例提供一种英文文本的方面层情感分类系统,其包括:
(1)词性向量获取模块,其用于对英文文本所包含的单词进行词性分析,得到单词的词性向量;
在具体实施中,给定由n个单词组成的评论句子S={w1,w2,...,wa-1,wa,wa+1,...wn-1,wn}。其中,wa是句子的方面。将句子S输入Natural Language Toolkits(自然语言处理工具包,它是一个Python库用于识别和标记英文文本中各个词的词性)来获得句子词性向量{ti}。其中,ti是每个单词的类别号。类别号是每种词性的索引号。由于{ti}是一个离散的整数值向量,因此需要使用一个可训练的嵌入矩阵Wt对{ti}进行转换。因此,词性向量为:
m=tiWt
其中,
Figure BDA0002256413440000111
Vt是类别号,d为维度。
具体来说,本实施例对SemEval2014数据集进行大量分析:例如给定一个句子“这台笔记本电脑的外观非常好,但是运行速度非常慢。”。方面“外观”的情感极性是积极的,而方面“速度”的情感极性却是消极的。从这句话中,我们可以很快就找出推断“外观”和“速度”方面情感极性的单词分别是“好”和“慢”。通过分析这句话中每个单词的词性就可以得出“好”和“慢”都是形容词,而“这”是代词,“笔记本电脑”是名词,“但是”是连词。发明人发现具有形容词词性的单词对判断方面层情感分类具有很大的作用。因此,引入了注意力机制来增大形容词词性的注意力。最终,句子S的词性向量M表示如下:
M=miβi
Figure BDA0002256413440000112
其中,mi是单词i的词性向量,mj是单词j的词性向量,βi为单词i的词性注意力权重。
(2)情感向量获取模块,其用于初始化英文文本所包含的所有单词,得到单词的词嵌入向量;通过查找单词与情感的对应关系情感表,得到各个句子的情感向量,再将单词的词嵌入向量与句子的情感向量进行连接后输入至TD-LSTM模型中,输出单词的情感向量;
例如,单词favorite作为名词是“收藏夹”的意思,它的积极情感分数和消极情感分数都是0。作为名词,favorite是一个具有中性情感极性的词。作为形容词是“最喜爱的”意思,它的积极情感分数可能为0.75,而消极情感分数可能不存在。通过分析,发明人发现单词在不同的词性下,它的情感极性是不同的。因此,要引入词性来生成情感向量。
如图2所示,将句子S输入Natural Language Toolkits获得一个词性序列pos={pos1,pos2,...,posn}。需要注意的是,这里的词性序列是每一个单词的词性,而不是步骤S101中的类别号{ti}。句子S的情感向量通过查找情感表来获取其中,情感表由词性、词条编号、正向情感值、负向情感值、同义词词条名和注释组成。
利用预训练的单词表示语言模型BERT初始化单词的向量;设单词的词嵌入
Figure BDA0002256413440000122
其中,va是一个方面它包含多个单词的隐藏向量va={va1,va2,...,vam}。Vw是词汇表的大小,dw是单词嵌入的维度,m和n均为正整数。
其中,BERT:Bidirectional Encoder Representation from Transformers BERT模型进一步增加词向量模型的泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。
在其他实施例中,其他的初始化方法,例如GloVe,也可对单词的向量进行初始化。
将单词嵌入与情感向量进行连接得到vst={vst1,vst2,...,vstn-1,vstn},其中
Figure BDA0002256413440000123
然后,将连接后的vst输入TD-LSTM模型中。其中,TD-LSTM的基本思想是根据目标词之前和之后的上下文分别建模,实际上,使用的是两个LSTM模型,左边的LSTM输入的是目标词之前的上下文加上目标词,右边的LSTM输入的是目标之后的上下文加上目标词。最后,将左右两边的语义信息连接起来进行分类。左边LSTM和右边LSTM分别获取单词wm前面上下文vstL={vst1,vst2,...,vstm-1,vstm}和后面上下文vstR={vstm,vstm+1,...,vstn-1,vstn}的隐藏向量hL,hR
最后,连接左右两边的隐藏向量,然后输入到一个线性层来生成单词wm的情感向量sentiF。
sentiFm=[hL;hR]*WsentiF
其中,
Figure BDA0002256413440000131
dh为隐藏向量的维度,ds为单词情感向量的维度。
(3)上下文和方面的特征表示模块,其用于将单词的词性向量、单词的情感向量和单词的词嵌入向量进行连接合成,并输入至多头位置自注意力模块,得到上下文和方面的隐藏向量;再将上下文和方面的隐藏向量输入至共注意力模块中,得到上下文的特征表示和方面的特征表示;
将单词的嵌入、词性向量、情感向量连接起来作为多头位置自注意力模块的输入。
Ci={vi;Mi,sentiFi}
其中,i∈[1,n],
Figure BDA0002256413440000132
dp为单词词性向量的维度。
获取语义信息的多头位置自注意力模块,如图3所示,为了捕捉长距离的依赖来获取更好的语义信息并且减少计算复杂性。利用一个多头位置自注意力来计算隐藏向量。注意力函数是给定一组查询序列Q={q1,q2,...,qn-1,qn}和一组键-值序列K={k1,k2,...,kn-1,kn},V={v1,v2,...,vn-1,vn},然后计算查询和每一个键-值对的加权求和。形式上,把FQ,FK,FV作为一组查询、一组键-值。它们是由多个查询、键-值组成的矩阵。每个矩阵利用全连接层被映射为特征
Figure BDA0002256413440000141
其中,n为序列长度,dk为特征的维度。自注意力被定义如下:
Figure BDA0002256413440000142
多头位置自注意力通过不同的转换矩阵并行的关注不同位置上的特征。多头自注意力连接不同头的输出,然后利用一个线性层将这个连接映射到一个固定的维度。多头位置自注意力的计算如下:
J=concat(h1,h2,...,hl)Wo
hi=Attention(FWi Q,FWi K,FWi V)
其中,Wo和Wi是需要学习的参数,其中Wi的上标Q、F和V分别表示查询、键、键值。然而,自注意力操作中可能存在传输损耗。因此,将残差F连接到J,然后应用层规范化。原来的J被转换成O。
O=LayerNorm(J+F)
自注意力机制可以捕捉长期依赖,但它忽视了位置信息。为了更有效的利用序列的顺序,定义一个矩阵
Figure BDA0002256413440000143
来获取F的位置信息。本专利使用不同频率的正余弦函数来计算位置信息。
Figure BDA0002256413440000145
其中,pos是位置,j是维度。然后,通过两个卷积层和一个ReLU激活函数将位置编码添加到多头位置自注意力。
Of=ReLU((O+P)W1+b1)W2+b2
其中,W1和W2是一个参数矩阵,需要在训练的过程中学习。b1和b2是偏置。
将单词的表示C和方面嵌入va分别输入两个多头位置自注意力模块来获取隐藏向量Hc和Ha
Figure BDA0002256413440000151
Figure BDA0002256413440000152
在本实施例中,如图4所示。通过两个位置自注意力模块,得到上下文的隐藏向量Hc和方面的隐藏向量Ha,但是它们的隐藏向量的维度不同。为了进行下一步计算,将Hc和Ha映射到一个维度为p的共同空间。然后,共注意力模块被应用到共同空间上来提取交互特征。
共注意力模块是基于Hc∈Rn×p,Ha∈Rm×p生成两个注意特征图,一个被用于注意上下文,另一个被用于注意方面术语。为了得到这两个特征,我们通过一个多元素函数构建一个相似矩阵X。X由Hc、Ha、Ha·Hc计算。
X=Wm[Ha,Hc,Ha·Hc]
其中,Wm是一个参数矩阵,它通过训练得到。·代表点乘操作,X∈Rn×m表示相似矩阵。在X上,从两个方向来获取注意特征图和注意向量。
上下文到方面术语注意力。它的目的是找出方面术语中与上下文最相关的单词。Xa被获取是通过SoftMax函数对X的每一行进行归一化。最终,方面的特征表示如下:
A=XaHa
方面术语到上下文的注意力。它的目的是找出哪个上下文单词与方面术语最相似,这也是预测方面情感极性的关键。Xc是通过SoftMax函数对X的每一列进行归一化。最终,上下文的特征表示如下:
Figure BDA0002256413440000153
共注意力模块是基于Hc∈Rn×p,Ha∈Rm×p生成两个注意特征图,一个被用于注意上下文,另一个被用于注意方面术语。
Figure BDA0002256413440000161
表示Xc的转置矩阵;HcT表示Hc的转置矩阵。
(4)方面层情感类别输出模块,其用于将上下文的特征表示和方面的特征表示组合起来并输入至SoftMax函数中输出英文文本的方面层情感类别。
实施例3
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如图1所示的英文文本的方面层情感分类方法中步骤。
实施例4
本实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所示的英文文本的方面层情感分类方法中步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种英文文本的方面层情感分类方法,其特征在于,包括:
对英文文本所包含的单词进行词性分析,得到单词的词性向量;
初始化英文文本所包含的所有单词,得到单词的词嵌入向量;通过查找单词与情感的对应关系情感表,得到各个句子的情感向量,再将单词的词嵌入向量与句子的情感向量进行连接后输入至TD-LSTM模型中,输出单词的情感向量;
将单词的词性向量、单词的情感向量和单词的词嵌入向量进行连接合成,并输入至多头位置自注意力模块,得到上下文和方面的隐藏向量;再将上下文和方面的隐藏向量输入至共注意力模块中,得到上下文的特征表示和方面的特征表示;
将上下文的特征表示和方面的特征表示组合起来并输入至SoftMax函数中输出英文文本的方面层情感类别。
2.如权利要求1所述的英文文本的方面层情感分类方法,其特征在于,将英文文本输入至自然语言处理工具包中分析词汇的词性,进而获得英文文本所包含句子的词性向量。
3.如权利要求1所述的英文文本的方面层情感分类方法,其特征在于,句子的词性向量M为:
M=miβi
其中,mi是单词i的词性向量,mj是单词j的词性向量,βi为单词i的词性注意力权重。
4.如权利要求1所述的英文文本的方面层情感分类方法,其特征在于,共注意力模块是基于Hc∈Rn×p,Ha∈Rm×p生成两个注意特征图,一个被用于注意上下文,另一个被用于注意方面术语;
X=Wm[Ha,Hc,Ha·Hc];
A=XaHa
Figure FDA0002256413430000021
其中,Hc和Ha分别为上下文和方面的隐藏向量;Wm是一个参数矩阵,它通过训练得到;·代表点乘操作,X∈Rn×m表示相似矩阵;Xa是通过SoftMax函数对X的每一行进行归一化得到的矩阵;Xc是通过SoftMax函数对X的每一列进行归一化得到的矩阵;A为方面的特征;B为上下文的特征表示;
Figure FDA0002256413430000022
表示Xc的转置矩阵;HcT表示Hc的转置矩阵。
5.一种英文文本的方面层情感分类系统,其特征在于,包括:
词性向量获取模块,其用于对英文文本所包含的单词进行词性分析,得到单词的词性向量;
情感向量获取模块,其用于初始化英文文本所包含的所有单词,得到单词的词嵌入向量;通过查找单词与情感的对应关系情感表,得到各个句子的情感向量,再将单词的词嵌入向量与句子的情感向量进行连接后输入至TD-LSTM模型中,输出单词的情感向量;
上下文和方面的特征表示模块,其用于将单词的词性向量、单词的情感向量和单词的词嵌入向量进行连接合成,并输入至多头位置自注意力模块,得到上下文和方面的隐藏向量;再将上下文和方面的隐藏向量输入至共注意力模块中,得到上下文的特征表示和方面的特征表示;
方面层情感类别输出模块,其用于将上下文的特征表示和方面的特征表示组合起来并输入至SoftMax函数中输出英文文本的方面层情感类别。
6.如权利要求5所述的英文文本的方面层情感分类系统,其特征在于,在所述词性向量获取模块中,将英文文本输入至自然语言处理工具包中分析词汇的词性,进而获得英文文本所包含句子的词性向量。
7.如权利要求5所述的英文文本的方面层情感分类系统,其特征在于,在所述词性向量获取模块中,句子的词性向量M为:
M=miβi
Figure FDA0002256413430000031
其中,mi是单词i的词性向量,mj是单词j的词性向量,βi为单词i的词性注意力权重。
8.如权利要求5所述的英文文本的方面层情感分类系统,其特征在于,在所述上下文和方面的特征表示模块中,共注意力模块是基于Hc∈Rn×p,Ha∈Rm×p生成两个注意特征图,一个被用于注意上下文,另一个被用于注意方面术语;
X=Wm[Ha,Hc,Ha·Hc];
A=XaHa
Figure FDA0002256413430000032
其中,Hc和Ha分别为上下文和方面的隐藏向量;Wm是一个参数矩阵,它通过训练得到;·代表点乘操作,X∈Rn×m表示相似矩阵;Xa是通过SoftMax函数对X的每一行进行归一化得到的矩阵;Xc是通过SoftMax函数对X的每一列进行归一化得到的矩阵;A为方面的特征;B为上下文的特征表示;
Figure FDA0002256413430000033
表示Xc的转置矩阵;HcT表示Hc的转置矩阵。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的英文文本的方面层情感分类方法中步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的英文文本的方面层情感分类方法中步骤。
CN201911063343.1A 2019-10-31 2019-10-31 一种英文文本的方面层情感分类方法及系统 Expired - Fee Related CN110781306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911063343.1A CN110781306B (zh) 2019-10-31 2019-10-31 一种英文文本的方面层情感分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911063343.1A CN110781306B (zh) 2019-10-31 2019-10-31 一种英文文本的方面层情感分类方法及系统

Publications (2)

Publication Number Publication Date
CN110781306A true CN110781306A (zh) 2020-02-11
CN110781306B CN110781306B (zh) 2022-06-28

Family

ID=69388606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911063343.1A Expired - Fee Related CN110781306B (zh) 2019-10-31 2019-10-31 一种英文文本的方面层情感分类方法及系统

Country Status (1)

Country Link
CN (1) CN110781306B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339772A (zh) * 2020-03-16 2020-06-26 大连外国语大学 俄语文本情感分析方法、电子设备和存储介质
CN112070139A (zh) * 2020-08-31 2020-12-11 三峡大学 基于bert与改进lstm的文本分类方法
CN112579778A (zh) * 2020-12-23 2021-03-30 重庆邮电大学 基于多层次的特征注意力的方面级情感分类方法
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113536800A (zh) * 2020-04-13 2021-10-22 北京金山数字娱乐科技有限公司 一种词向量表示方法及装置
CN113641792A (zh) * 2021-08-13 2021-11-12 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及系统
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质
CN114676704A (zh) * 2022-05-30 2022-06-28 华南师范大学 句子情感分析方法、装置、设备以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308523A1 (en) * 2014-11-24 2017-10-26 Agency For Science, Technology And Research A method and system for sentiment classification and emotion classification
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN108566627A (zh) * 2017-11-27 2018-09-21 浙江鹏信信息科技股份有限公司 一种利用深度学习识别诈骗短信的方法及系统
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN109992774A (zh) * 2019-03-25 2019-07-09 北京理工大学 基于词属性注意力机制的关键短语识别方法
CN110008339A (zh) * 2019-03-22 2019-07-12 武汉大学 一种用于目标情感分类的深度记忆网络模型及其分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308523A1 (en) * 2014-11-24 2017-10-26 Agency For Science, Technology And Research A method and system for sentiment classification and emotion classification
CN108566627A (zh) * 2017-11-27 2018-09-21 浙江鹏信信息科技股份有限公司 一种利用深度学习识别诈骗短信的方法及系统
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN110008339A (zh) * 2019-03-22 2019-07-12 武汉大学 一种用于目标情感分类的深度记忆网络模型及其分类方法
CN109992774A (zh) * 2019-03-25 2019-07-09 北京理工大学 基于词属性注意力机制的关键短语识别方法
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MEZEREON: "利用双向注意流进行机器理解", 《简书:HTTP://EVENTS.JIANSHU.IO/P/699839DDE13》 *
MINJOON SEO等: "Bidirectional Attention Flow for Machine Comprehension", 《HTTPS://ARXIV.ORG/ABS/1611.01603》 *
QIAO LIU等: "Content Attention Model for Aspect Based Sentiment Analysis", 《WWW’18:PROCEEDINGS OF THE 2018WORLD WIDE WEB CONFERENCE》 *
Z.ZHOU等: "R-Transformer Network Based on Position and Self-Attention Mechanism for Aspect-Level Sentiment Classification", 《IEEE ACCESS》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339772A (zh) * 2020-03-16 2020-06-26 大连外国语大学 俄语文本情感分析方法、电子设备和存储介质
CN111339772B (zh) * 2020-03-16 2023-11-14 大连外国语大学 俄语文本情感分析方法、电子设备和存储介质
CN113536800A (zh) * 2020-04-13 2021-10-22 北京金山数字娱乐科技有限公司 一种词向量表示方法及装置
CN112070139A (zh) * 2020-08-31 2020-12-11 三峡大学 基于bert与改进lstm的文本分类方法
CN112070139B (zh) * 2020-08-31 2023-12-26 三峡大学 基于bert与改进lstm的文本分类方法
CN112579778A (zh) * 2020-12-23 2021-03-30 重庆邮电大学 基于多层次的特征注意力的方面级情感分类方法
CN112579778B (zh) * 2020-12-23 2022-08-26 重庆邮电大学 基于多层次的特征注意力的方面级情感分类方法
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113641792A (zh) * 2021-08-13 2021-11-12 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及系统
CN113641792B (zh) * 2021-08-13 2023-11-21 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及系统
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质
CN114676704A (zh) * 2022-05-30 2022-06-28 华南师范大学 句子情感分析方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN110781306B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN110781306B (zh) 一种英文文本的方面层情感分类方法及系统
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
Gallant et al. Representing objects, relations, and sequences
CN108959482B (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
WO2021204014A1 (zh) 一种模型训练的方法及相关装置
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN109740158B (zh) 一种文本语义解析方法及装置
CN110390397A (zh) 一种文本蕴含识别方法及装置
CN110990555A (zh) 端到端检索式对话方法与系统及计算机设备
Zhang et al. Exploring pairwise relationships adaptively from linguistic context in image captioning
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Mai et al. A unimodal representation learning and recurrent decomposition fusion structure for utterance-level multimodal embedding learning
Zhao et al. Leveraging pre-trained language model for summary generation on short text
CN114417823A (zh) 一种基于句法和图卷积网络的方面级情感分析方法及装置
Jia et al. Semantic association enhancement transformer with relative position for image captioning
Zhang et al. Learning hierarchical document graphs from multilevel sentence relations
CN113204679B (zh) 一种代码查询模型的生成方法和计算机设备
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN110059314B (zh) 一种基于增强学习的关系抽取方法
CN113641789A (zh) 基于分层融合多头注意力网络和卷积网络的观点检索方法及系统
CN113157892A (zh) 用户意图处理方法、装置、计算机设备及存储介质
Qi et al. Bie—Modernism with Cultural Calculations in Multiple Dimensions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220628

CF01 Termination of patent right due to non-payment of annual fee