CN112528168B

CN112528168B - 基于可形变自注意力机制的社交网络文本情感分析方法

Info

Publication number: CN112528168B
Application number: CN202011540244.0A
Authority: CN
Inventors: 马千里; 闫江月
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-03-29
Anticipated expiration: 2040-12-23
Also published as: CN112528168A

Abstract

本发明公开了一种基于可形变自注意力机制的社交网络文本情感分析方法，用于分析用户话语的情感。步骤如下：将用户话语文本数据中的每个句子切分为词，将每个词用词向量表示；将词向量序列输入双向循环神经网络(Bi‑LSTM)中得到每个词的编码表示；利用可形变自注意力机制，将词的编码表示转化为多种具有不同上下文范围的句子编码表示；将多种句子编码表示融合得到一个句子编码表示；将融合的句子编码表示输入到前馈神经网络(FFN)中分类，输出结果；根据模型输出结果和数据真实结果，最小化交叉熵损失函数迭代训练模型更新参数；将待分类的社交网络文本输入到经过训练的模型得到情感分析结果。

Description

基于可形变自注意力机制的社交网络文本情感分析方法

技术领域

本发明涉及自然语言处理中的社交网络文本情感分析技术领域，具体涉及一种基于可形变自注意力机制的社交网络文本情感分析方法。

背景技术

互联网中基于用户关系而成的内容生产与交换的平台即社交网络，人们彼此之间可以分享意见观点。利用文本情感分析方法，可以自动化的提取用户对一些事物如产品、服务、事件等的情感偏向，从而帮助用户更好的挑选自己喜欢的产品，帮助商家提供更加优质的产品和服务等。利用舆情情感分析还可以预测民众对社会事件的态度，情绪的变化趋势，从而有利于企业和政府机构即时做出相应调整等。社交网络文本情感分析是自然语言处理中很重要的研究领域，在如今互联网的迅速发展下，有着重要的实践和应用价值。

在文本情感分析的局部上下文特征提取方面，国内外目前的方法都是提取固定尺度的上下文特征或者只考虑全局的上下文特征。然而，文本中局部上下文信息很重要，且不同的词所需要的局部上下文大小是不一样的。一些人使用卷积神经网络(CNN)，该方法采用固定大小的卷积核提取几种尺度的上下文特征(具体参见：R.Johnson and T.Zhang,“Deeppyramid convolutional neural networks for text categorization,”inProc.Annu.Meeting Assoc.Comput.Linguistics,2017.)。有些人使用自注意力模型模型(具体参见：Z.Lin,M.Feng,C.N.dos Santos,M.Yu,B.Xiang,B.Zhou,and Y.Bengio,“Astructured self-attentive sentence embedding,”2017.)，然而，RNN由于顺序的编码每一个词，它没有直接建模多尺度的上下文特征，自注意力模型提取的是全局的上下文特征。有一些局部自注意力模型也考虑了局部上下文特征，具体参见：T.Shen,T.Zhou,G.Long,J.Jiang,and C.Zhang,“Tensorized self-attention:Efficiently modeling pairwiseand global dependencies together,”in Proc.Conf.North Amer.ChapterAssoc.Comput.Linguistics,2019,pp.1256–1266.)，但是这种模型提取的上下文特征也是固定尺度的。目前国内外的方法都没有很好的针对不同的词学习不同的尺度的局部上下文特征，提取的都是固定尺度或者全局尺度的上下文。考虑到这一点，目前亟待提出一种基于可形变自注意力机制的社交网络文本情感分析方法。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于可形变自注意力机制的社交网络文本情感分析方法，可根据不同词自适应提取不同尺度局部上下文特征，该方法先计算出每个词所需要的局部上下文大小，然后利用可形变自注意力机制对每个词在所学得的局部上下文大小内进行特征的提取，接着融合多种范围的局部上下文特征，得到最终的输入特征表示。

本发明的目的可以通过采取如下技术方案达到：

一种基于可形变自注意力机制的社交网络文本情感分析方法，所述的社交网络文本情感分析方法包括以下步骤：

S1、将用户话语文本数据中的每个句子切分为词，切分后的词序列表示为w＝(w₁,w₂,…,w_i,…,w_N)，并将每个词用词向量序列表示为

其中，w_i是第i个词，

是第i个词的词向量，1≤i≤N，N为词的个数，emb为词向量维度大小,

为由所有emb维向量组成的实数向量空间；

S2、将词向量序列

输入双向循环神经网络(Bi-LSTM)中得到每个词的编码表示H＝(h₁,h₂,…,h_i,…,h_N),其中

是第i个词的编码表示，

为由所有2d维向量组成的实数向量空间，1≤i≤N，d为单向LSTM隐层单元的维度大小，2d为Bi-LSTM隐层单元的维度大小；

S3、利用可形变自注意力机制，将每个词的编码表示H＝(h₁,h₂,…,h_i,…,h_N)转化为多种具有不同上下文范围的句子编码表示F＝(F¹；F²；…；F^l；…；F^L),其中，l∈{1,2,…,L}，

是具有第l种上下文范围的句子编码表示,

为由所有N×d维矩阵组成的实数矩阵向量空间，L为不同上下文范围的个数；

S4、将多种句子编码表示F＝(F¹；F²；…；F^l；…；F^L)融合得到一个句子编码表示

S5、将融合的句子编码表示输入到前馈神经网络(FFN)中分类，输出结果；

S6、根据前馈神经网络(FFN)输出结果和数据真实结果，最小化交叉熵损失函数迭代训练，更新双向循环神经网络(Bi-LSTM)、可形变自注意力机制、前馈神经网络(FFN)中涉及的参数；

S7、将待分类的社交网络文本数据重复步骤S1-S5，得到从前馈神经网络(FFN)输出的情感分析结果。

进一步地，所述的步骤S3过程如下：

S31、将词的编码表示H按照下式映射到不同的子空间：

其中

是将H映射到第l个子空间的3个可以训练的权重矩阵，

代表所有由2d×d维矩阵组成的实数矩阵向量空间，Q^l,K^l,V^l是H在第l个子空间映射后得到的3个不同的表示，l∈{1,2,…,L}，L为子空间的个数，它的值也等于不同上下文范围的个数，接下来计算每个子空间下对应的注意力分数矩阵{S¹,S²,…,S^l,…,S^L},其中S^l是第l个子空间下对应的注意力分数矩阵，每个S^l计算公式如下：

S32、在第l个子空间学习上下文半径在R_l-1～R_l的上下文半径向量

R_l-1和R_l是预定义的上下文半径常量，为两个实数且R_l-1<R_l，R₀＝1，

为所有由N维向量组成的实数向量空间，上下文半径向量的第i个元素

代表第i个词学习到的上下文半径，

代表实数空间；

S33、为了限制注意力机制的关注范围，计算上下文半径为R的带宽掩码矩阵

代表所有由N×N维矩阵组成的实数矩阵向量空间，矩阵每个元素M(R)_i,i′的计算公式如下：

其中，M(R)_i,i′是矩阵M(R)第i行第i′列的元素，i′∈{1,2,…,N}；

S34、使用可形变自注意力机制学习上下文半径大小为R_l-1～R_l的可形变注意力权重矩阵

第i个词在第l个子空间的可形变注意力权重矩阵计算公式如下：

其中

是可形变注意力权重矩阵

的第i行，q枚举

上取整和下取整得到的2个整数，

是第l个子空间的注意力分数矩阵S^l的第i行，M(q)_i,·是上下文半径为q的带宽掩码矩阵M(q)的第i行，函数K(·,·)的计算公式如下：

K(a,b)＝max(0,1-|a-b|)

其中，a,b为任意两个实数；

S35、得到多种具有不同上下文范围的句子编码表示F＝(F¹；F²；…；F^l；…；F^L)，每一种句子编码表示F^l计算公式如下：

进一步地，所述的步骤S32中，上下文半径向量g^l计算公式如下：

其中，

分别是要计算第l个上下文半径时所需要学习的权重矩阵、权重向量、偏置向量，σ(·)为sigmoid激活函数。

进一步地，所述的步骤S4将多种句子编码表示F＝(F¹；F²；…；F^l；…；F^L)融合得到一个句子编码表示

其中，

代表所有由L×N×d维张量组成的实数张量空间，过程如下：

S41、计算每种上下文范围的句子编码表示和其他范围的句子编码表示的关系矩阵P，P的第l行第i列的元素

计算公式如下：

p_l,i＝tanh(e_l,i)⊙(1-σ(d_l,i)*2)

其中，

是除第l种上下文范围句子编码表示的其他范围的句子编码表示,l′∈{1,2,…,L},

是F^l的第i行，

是

的第i行，

都为计算的中间结果,⊙、·、*分别是按元素乘积，点乘和普通乘法，tanh(·)是正切函数，

是l₁范数；

S42、计算第l个范围的上下文特征与其他范围的上下文特征融合后的特征向量表示

它的第i个元素

计算公式如下：

将L个范围的特征拼接得到

计算融合了多种范围的句子编码表示

pooling(·)为最大池化函数。

进一步地，所述的文本数据包括中文数据和/或英文数据。

本发明相对于现有技术具有如下的优点及效果：

1、与卷积神经网络采用一些固定大小的卷积核或局部自注意力机制采用固定的注意力范围不同，这些方法对所有的词提取固定尺度的上下文特征，本发明提出的可形变自注意力机制可以根据不同的词调整上下文尺度的大小，从而提取该词最优的局部特征。

2、和传统的自注意力机制计算整个句子全局的上下文特征不同，由于词的含义可以由词本身和它的局部上下文决定，本发明方法提取的是局部上下文特征，减少了计算全局上下文特征过程中的冗余特征，可以得到更加精简的局部特征。

附图说明

图1是本发明实施例公开的一种基于可形变自注意力机制的社交网络文本情感分析方法的流程图；

图2是本发明实施例公开的一种基于可形变自注意力机制的社交网络文本情感分析方法模型概要图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1是本实施例公开的基于可形变自注意力机制的社交网络文本情感分析方法的流程图，如图1所示，该方法包括以下步骤：

S1、将用户话语文本数据中的每个句子切分为词。数据可以是中文数据也可以是英文数据，在这里以英文数据为例。这个句子是社交网络中用户对电影的评价，情感分类标签为消极。如图2所示将句子“The film has little insight into history.”切分为词，得到切分后的词序列：[The,file,has,little,insight,into,history]，将每个词用词向量表示

N为词的个数，这里为7，1≤i≤7，每个词向量维度大小为emb维,这里为300维；

S2、将词向量序列

输入双向循环神经网络(Bi-LSTM)中得到每个词的编码表示H＝(h₁,h₂,…,h₇),其中

S3、利用可形变自注意力机制，将每个词的编码表示H＝(h₁,h₂,…,h₇)转化为3种具有不同上下文范围的句子编码表示F＝(F¹；F²；F³),其中

S3.1、将词的编码表示H按照下式映射到不同的子空间：

其中

是将H映射到第l个子空间的3个可以训练的权重矩阵，Q^l,K^l,V^l是H在第l个子空间映射后得到的3个不同的表示，如图2所示，子空间的个数L＝3,H被映射到3个子空间得到了Q¹,K¹,V¹,Q²,K²,V²,Q³,K³,V³，接下来计算每个子空间下对应的注意力分数矩阵{S¹,S²,S³},每个S^l计算公式如下：

S3.2、如图2所示，在第1个子空间学习上下文半径在R₀～R₁的上下文半径向量

向量的第i个元素

代表第i个词学习到的上下文半径，这里R₀＝1，R₁＝2,R₂＝4,R₃＝6，g¹的7个元素分别为[1.2,2.3,2.2,1.3,2.4,1.1,1.3]，以第1个子空间为例，对第4个词“little”，网络学习的该词上下文半径为1.3，四舍五入后上下文半径近似为1，即该词上下文为它的前1个词和后1个词，学习到的短语为“has little insight”，对第5个词“insight”，学得上下文半径为2.4，四舍五入后上下文半径近似为2，学得上下文短语为“has little insight into history”，通过这种方式，网络根据不同的词调整了上下文尺度的大小，从而可以学习到不同长度的短语信息，下面依然以第1个子空间的计算为例，第2、3个子空间的计算同理；

S3.3、第一个子空间的上下文半径向量计算公式如下：

其中，

分别是要计算第1个上下文半径时所需要学习的权重矩阵、权重向量、偏置向量，σ(·)为sigmoid激活函数。

S3.4、为了限制注意力机制的关注范围，计算上下文半径为R的带宽掩码矩阵

矩阵每个元素M(R)_i,i′的计算公式如下：

其中，M(R)_i,i′是矩阵M(R)第i行第i′列的元素,1≤i′≤7；

S3.5、如图2所示，使用可形变自注意力机制学习上下文半径大小为1～2的可形变注意力权重矩阵

第i个词在第1个子空间的可形变注意力权重矩阵计算公式如下：

以第4个词的计算为例，其中

是可形变注意力权重矩阵

的第4行，

q枚举

上取整和下取整得到的2个整数，这里是1和2两个整数，

是第1个子空间的注意力分数矩阵S¹的第4行，M(q)_4,·是上下文半径为q的带宽掩码矩阵M(q)的第4行，对第4个词，这里要计算M(1)_4,·和M(2)_4,·。函数K(·,·)的计算公式如下：

K(a,b)＝max(0,1-|a-b|)

其中，a,b为任意两个实数，对第4个词，需要计算K(1.3,1)和K(1.3,2)。

S3.6、如图2所示，得到3种具有不同上下文范围的句子编码表示F＝(F¹；F²；F³)，每一种句子编码表示F^l计算公式如下：

S4、将多种句子编码表示F＝(F¹；F²；F³)融合得到一个句子编码表示

S4.1、计算每种上下文范围的句子编码表示和其他范围的句子编码表示的关系矩阵P，P的第l行第i列的元素

计算公式如下：

p_l,i＝tanh(e_l,i)⊙(1-σ(d_l,i)*2)

其中，

是除第l种上下文范围句子编码表示的其他范围的句子编码表示，l′∈{1,2,3}，

是F^l的第i行，

是

的第i行，e_l,i,

都为计算的中间结果，⊙、·、*分别是按元素乘积，点乘和普通乘法，tanh(·)是正切函数，

是l₁范数。

S4.2、计算第l个范围的上下文特征与其他范围的上下文特征融合后的特征向量

它的第i个元素

计算公式如下：

将3个范围的特征拼接得到

计算融合了多种范围的句子编码表示

pooling(·)为最大池化函数。

S5、将融合的句子编码表示F′输入到前馈神经网络(FFN)中分类，输出结果。

综上所述，本实施例提出的基于可形变自注意力机制的方法先对每个词都计算一个最优的上下文大小，然后在多个不同的子空间提取多种范围的局部上下文特征，它可以根据不同的词调整计算的范围。接着，多个子空间得到的局部特征句子编码融合为一个句子编码，再输入到前馈神经网络(FFN)中。相对于传统的模型对每个词采用固定尺度学习，如卷积网络和局部注意力机制对每个词都使用固定大小的卷积核或采用固定的注意力范围，本发明可以提取更加准确的局部上下文信息，引导模型理解句子的含义，达到很好的分析效果，从而帮助用户更好的挑选喜欢的电影和产品等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。