CN112528168A - 基于可形变自注意力机制的社交网络文本情感分析方法 - Google Patents

基于可形变自注意力机制的社交网络文本情感分析方法 Download PDF

Info

Publication number
CN112528168A
CN112528168A CN202011540244.0A CN202011540244A CN112528168A CN 112528168 A CN112528168 A CN 112528168A CN 202011540244 A CN202011540244 A CN 202011540244A CN 112528168 A CN112528168 A CN 112528168A
Authority
CN
China
Prior art keywords
context
word
sentence
matrix
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011540244.0A
Other languages
English (en)
Other versions
CN112528168B (zh
Inventor
马千里
闫江月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011540244.0A priority Critical patent/CN112528168B/zh
Publication of CN112528168A publication Critical patent/CN112528168A/zh
Application granted granted Critical
Publication of CN112528168B publication Critical patent/CN112528168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于可形变自注意力机制的社交网络文本情感分析方法,用于分析用户话语的情感。步骤如下:将用户话语文本数据中的每个句子切分为词,将每个词用词向量表示;将词向量序列输入双向循环神经网络(Bi‑LSTM)中得到每个词的编码表示;利用可形变自注意力机制,将词的编码表示转化为多种具有不同上下文范围的句子编码表示;将多种句子编码表示融合得到一个句子编码表示;将融合的句子编码表示输入到前馈神经网络(FFN)中分类,输出结果;根据模型输出结果和数据真实结果,最小化交叉熵损失函数迭代训练模型更新参数;将待分类的社交网络文本输入到经过训练的模型得到情感分析结果。

Description

基于可形变自注意力机制的社交网络文本情感分析方法
技术领域
本发明涉及自然语言处理中的社交网络文本情感分析技术领域,具体涉及一种基于可形变自注意力机制的社交网络文本情感分析方法。
背景技术
互联网中基于用户关系而成的内容生产与交换的平台即社交网络,人们彼此之间可以分享意见观点。利用文本情感分析方法,可以自动化的提取用户对一些事物如产品、服务、事件等的情感偏向,从而帮助用户更好的挑选自己喜欢的产品,帮助商家提供更加优质的产品和服务等。利用舆情情感分析还可以预测民众对社会事件的态度,情绪的变化趋势,从而有利于企业和政府机构即时做出相应调整等。社交网络文本情感分析是自然语言处理中很重要的研究领域,在如今互联网的迅速发展下,有着重要的实践和应用价值。
在文本情感分析的局部上下文特征提取方面,国内外目前的方法都是提取固定尺度的上下文特征或者只考虑全局的上下文特征。然而,文本中局部上下文信息很重要,且不同的词所需要的局部上下文大小是不一样的。一些人使用卷积神经网络(CNN),该方法采用固定大小的卷积核提取几种尺度的上下文特征(具体参见:R.Johnson and T.Zhang,“Deeppyramid convolutional neural networks for text categorization,”inProc.Annu.Meeting Assoc.Comput.Linguistics,2017.)。有些人使用自注意力模型模型(具体参见:Z.Lin,M.Feng,C.N.dos Santos,M.Yu,B.Xiang,B.Zhou,and Y.Bengio,“Astructured self-attentive sentence embedding,”2017.),然而,RNN由于顺序的编码每一个词,它没有直接建模多尺度的上下文特征,自注意力模型提取的是全局的上下文特征。有一些局部自注意力模型也考虑了局部上下文特征,具体参见:T.Shen,T.Zhou,G.Long,J.Jiang,and C.Zhang,“Tensorized self-attention:Efficiently modeling pairwiseand global dependencies together,”in Proc.Conf.North Amer.ChapterAssoc.Comput.Linguistics,2019,pp.1256–1266.),但是这种模型提取的上下文特征也是固定尺度的。目前国内外的方法都没有很好的针对不同的词学习不同的尺度的局部上下文特征,提取的都是固定尺度或者全局尺度的上下文。考虑到这一点,目前亟待提出一种基于可形变自注意力机制的社交网络文本情感分析方法。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于可形变自注意力机制的社交网络文本情感分析方法,可根据不同词自适应提取不同尺度局部上下文特征,该方法先计算出每个词所需要的局部上下文大小,然后利用可形变自注意力机制对每个词在所学得的局部上下文大小内进行特征的提取,接着融合多种范围的局部上下文特征,得到最终的输入特征表示。
本发明的目的可以通过采取如下技术方案达到:
一种基于可形变自注意力机制的社交网络文本情感分析方法,所述的社交网络文本情感分析方法包括以下步骤:
S1、将用户话语文本数据中的每个句子切分为词,切分后的词序列表示为w=(w1,w2,…,wi,…,wN),并将每个词用词向量序列表示为
Figure BDA0002854365740000021
Figure BDA0002854365740000022
其中,wi是第i个词,
Figure BDA0002854365740000023
是第i个词的词向量,1≤i≤N,N为词的个数,emb为词向量维度大小,
Figure BDA0002854365740000024
为由所有emb维向量组成的实数向量空间;
S2、将词向量序列
Figure BDA0002854365740000031
输入双向循环神经网络(Bi-LSTM)中得到每个词的编码表示H=(h1,h2,…,hi,…,hN),其中
Figure BDA0002854365740000032
Figure BDA0002854365740000033
是第i个词的编码表示,
Figure BDA0002854365740000034
为由所有2d维向量组成的实数向量空间,1≤i≤N,d为单向LSTM隐层单元的维度大小,2d为Bi-LSTM隐层单元的维度大小;
S3、利用可形变自注意力机制,将每个词的编码表示H=(h1,h2,…,hi,…,hN)转化为多种具有不同上下文范围的句子编码表示F=(F1;F2;…;Fl;…;FL),其中,l∈{1,2,…,L},
Figure BDA0002854365740000035
是具有第l种上下文范围的句子编码表示,
Figure BDA0002854365740000036
为由所有N×d维矩阵组成的实数矩阵向量空间,L为不同上下文范围的个数;
S4、将多种句子编码表示F=(F1;F2;…;Fl;…;FL)融合得到一个句子编码表示
Figure BDA0002854365740000037
S5、将融合的句子编码表示输入到前馈神经网络(FFN)中分类,输出结果;
S6、根据前馈神经网络(FFN)输出结果和数据真实结果,最小化交叉熵损失函数迭代训练,更新双向循环神经网络(Bi-LSTM)、可形变自注意力机制、前馈神经网络(FFN)中涉及的参数;
S7、将待分类的社交网络文本数据重复步骤S1-S5,得到从前馈神经网络(FFN)输出的情感分析结果。
进一步地,所述的步骤S3过程如下:
S31、将词的编码表示H按照下式映射到不同的子空间:
Figure BDA0002854365740000038
其中
Figure BDA0002854365740000039
是将H映射到第l个子空间的3个可以训练的权重矩阵,
Figure BDA00028543657400000310
代表所有由2d×d维矩阵组成的实数矩阵向量空间,Ql,Kl,Vl是H在第l个子空间映射后得到的3个不同的表示,l∈{1,2,…,L},L为子空间的个数,它的值也等于不同上下文范围的个数,接下来计算每个子空间下对应的注意力分数矩阵{S1,S2,…,Sl,…,SL},其中Sl是第l个子空间下对应的注意力分数矩阵,每个Sl计算公式如下:
Figure BDA0002854365740000041
S32、在第l个子空间学习上下文半径在Rl-1~Rl的上下文半径向量
Figure BDA0002854365740000042
Figure BDA0002854365740000043
Rl-1和Rl是预定义的上下文半径常量,为两个实数且Rl-1<Rl,R0=1,
Figure BDA0002854365740000044
为所有由N维向量组成的实数向量空间,上下文半径向量的第i个元素
Figure BDA0002854365740000045
代表第i个词学习到的上下文半径,
Figure BDA0002854365740000046
代表实数空间;
S33、为了限制注意力机制的关注范围,计算上下文半径为R的带宽掩码矩阵
Figure BDA0002854365740000047
Figure BDA0002854365740000048
代表所有由N×N维矩阵组成的实数矩阵向量空间,矩阵每个元素M(R)i,i′的计算公式如下:
Figure BDA0002854365740000049
其中,M(R)i,i′是矩阵M(R)第i行第i′列的元素,i′∈{1,2,…,N};
S34、使用可形变自注意力机制学习上下文半径大小为Rl-1~Rl的可形变注意力权重矩阵
Figure BDA00028543657400000410
第i个词在第l个子空间的可形变注意力权重矩阵计算公式如下:
Figure BDA00028543657400000411
其中
Figure BDA00028543657400000412
是可形变注意力权重矩阵
Figure BDA00028543657400000413
的第i行,q枚举
Figure BDA00028543657400000414
上取整和下取整得到的2个整数,
Figure BDA00028543657400000415
是第l个子空间的注意力分数矩阵Sl的第i行,M(q)i,·是上下文半径为q的带宽掩码矩阵M(q)的第i行,函数K(·,·)的计算公式如下:
K(a,b)=max(0,1-|a-b|)
其中,a,b为任意两个实数;
S35、得到多种具有不同上下文范围的句子编码表示F=(F1;F2;…;Fl;…;FL),每一种句子编码表示Fl计算公式如下:
Figure BDA0002854365740000051
进一步地,所述的步骤S32中,上下文半径向量gl计算公式如下:
Figure BDA0002854365740000052
其中,
Figure BDA0002854365740000053
分别是要计算第l个上下文半径时所需要学习的权重矩阵、权重向量、偏置向量,σ(·)为sigmoid激活函数。
进一步地,所述的步骤S4将多种句子编码表示F=(F1;F2;…;Fl;…;FL)融合得到一个句子编码表示
Figure BDA0002854365740000054
其中,
Figure BDA0002854365740000055
代表所有由L×N×d维张量组成的实数张量空间,过程如下:
S41、计算每种上下文范围的句子编码表示和其他范围的句子编码表示的关系矩阵P,P的第l行第i列的元素
Figure BDA0002854365740000056
计算公式如下:
pl,i=tanh(el,i)⊙(1-σ(dl,i)*2)
Figure BDA0002854365740000057
Figure BDA0002854365740000058
其中,
Figure BDA0002854365740000059
是除第l种上下文范围句子编码表示的其他范围的句子编码表示,l′∈{1,2,…,L},
Figure BDA00028543657400000510
是Fl的第i行,
Figure BDA00028543657400000511
Figure BDA00028543657400000512
的第i行,
Figure BDA00028543657400000513
都为计算的中间结果,⊙、·、*分别是按元素乘积,点乘和普通乘法,tanh(·)是正切函数,
Figure BDA00028543657400000518
是l1范数;
S42、计算第l个范围的上下文特征与其他范围的上下文特征融合后的特征向量表示
Figure BDA00028543657400000514
它的第i个元素
Figure BDA00028543657400000515
计算公式如下:
Figure BDA00028543657400000516
将L个范围的特征拼接得到
Figure BDA00028543657400000517
计算融合了多种范围的句子编码表示
Figure BDA0002854365740000061
pooling(·)为最大池化函数。
进一步地,所述的文本数据包括中文数据和/或英文数据。
本发明相对于现有技术具有如下的优点及效果:
1、与卷积神经网络采用一些固定大小的卷积核或局部自注意力机制采用固定的注意力范围不同,这些方法对所有的词提取固定尺度的上下文特征,本发明提出的可形变自注意力机制可以根据不同的词调整上下文尺度的大小,从而提取该词最优的局部特征。
2、和传统的自注意力机制计算整个句子全局的上下文特征不同,由于词的含义可以由词本身和它的局部上下文决定,本发明方法提取的是局部上下文特征,减少了计算全局上下文特征过程中的冗余特征,可以得到更加精简的局部特征。
附图说明
图1是本发明实施例公开的一种基于可形变自注意力机制的社交网络文本情感分析方法的流程图;
图2是本发明实施例公开的一种基于可形变自注意力机制的社交网络文本情感分析方法模型概要图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1是本实施例公开的基于可形变自注意力机制的社交网络文本情感分析方法的流程图,如图1所示,该方法包括以下步骤:
S1、将用户话语文本数据中的每个句子切分为词。数据可以是中文数据也可以是英文数据,在这里以英文数据为例。这个句子是社交网络中用户对电影的评价,情感分类标签为消极。如图2所示将句子“The film has little insight into history.”切分为词,得到切分后的词序列:[The,file,has,little,insight,into,history],将每个词用词向量表示
Figure BDA0002854365740000071
Figure BDA0002854365740000072
N为词的个数,这里为7,1≤i≤7,每个词向量维度大小为emb维,这里为300维;
S2、将词向量序列
Figure BDA0002854365740000073
输入双向循环神经网络(Bi-LSTM)中得到每个词的编码表示H=(h1,h2,…,h7),其中
Figure BDA0002854365740000074
S3、利用可形变自注意力机制,将每个词的编码表示H=(h1,h2,…,h7)转化为3种具有不同上下文范围的句子编码表示F=(F1;F2;F3),其中
Figure BDA0002854365740000075
Figure BDA0002854365740000076
S3.1、将词的编码表示H按照下式映射到不同的子空间:
Figure BDA0002854365740000077
其中
Figure BDA0002854365740000078
是将H映射到第l个子空间的3个可以训练的权重矩阵,Ql,Kl,Vl是H在第l个子空间映射后得到的3个不同的表示,如图2所示,子空间的个数L=3,H被映射到3个子空间得到了Q1,K1,V1,Q2,K2,V2,Q3,K3,V3,接下来计算每个子空间下对应的注意力分数矩阵{S1,S2,S3},每个Sl计算公式如下:
Figure BDA0002854365740000079
S3.2、如图2所示,在第1个子空间学习上下文半径在R0~R1的上下文半径向量
Figure BDA00028543657400000710
向量的第i个元素
Figure BDA00028543657400000711
代表第i个词学习到的上下文半径,这里R0=1,R1=2,R2=4,R3=6,g1的7个元素分别为[1.2,2.3,2.2,1.3,2.4,1.1,1.3],以第1个子空间为例,对第4个词“little”,网络学习的该词上下文半径为1.3,四舍五入后上下文半径近似为1,即该词上下文为它的前1个词和后1个词,学习到的短语为“has little insight”,对第5个词“insight”,学得上下文半径为2.4,四舍五入后上下文半径近似为2,学得上下文短语为“has little insight into history”,通过这种方式,网络根据不同的词调整了上下文尺度的大小,从而可以学习到不同长度的短语信息,下面依然以第1个子空间的计算为例,第2、3个子空间的计算同理;
S3.3、第一个子空间的上下文半径向量计算公式如下:
Figure BDA0002854365740000081
其中,
Figure BDA0002854365740000082
分别是要计算第1个上下文半径时所需要学习的权重矩阵、权重向量、偏置向量,σ(·)为sigmoid激活函数。
S3.4、为了限制注意力机制的关注范围,计算上下文半径为R的带宽掩码矩阵
Figure BDA0002854365740000083
矩阵每个元素M(R)i,i′的计算公式如下:
Figure BDA0002854365740000084
其中,M(R)i,i′是矩阵M(R)第i行第i′列的元素,1≤i′≤7;
S3.5、如图2所示,使用可形变自注意力机制学习上下文半径大小为1~2的可形变注意力权重矩阵
Figure BDA0002854365740000085
第i个词在第1个子空间的可形变注意力权重矩阵计算公式如下:
Figure BDA0002854365740000086
以第4个词的计算为例,其中
Figure BDA0002854365740000087
是可形变注意力权重矩阵
Figure BDA0002854365740000088
的第4行,
Figure BDA0002854365740000089
q枚举
Figure BDA00028543657400000810
上取整和下取整得到的2个整数,这里是1和2两个整数,
Figure BDA00028543657400000811
是第1个子空间的注意力分数矩阵S1的第4行,M(q)4,·是上下文半径为q的带宽掩码矩阵M(q)的第4行,对第4个词,这里要计算M(1)4,·和M(2)4,·。函数K(·,·)的计算公式如下:
K(a,b)=max(0,1-|a-b|)
其中,a,b为任意两个实数,对第4个词,需要计算K(1.3,1)和K(1.3,2)。
S3.6、如图2所示,得到3种具有不同上下文范围的句子编码表示F=(F1;F2;F3),每一种句子编码表示Fl计算公式如下:
Figure BDA0002854365740000091
S4、将多种句子编码表示F=(F1;F2;F3)融合得到一个句子编码表示
Figure BDA0002854365740000092
S4.1、计算每种上下文范围的句子编码表示和其他范围的句子编码表示的关系矩阵P,P的第l行第i列的元素
Figure BDA0002854365740000093
计算公式如下:
pl,i=tanh(el,i)⊙(1-σ(dl,i)*2)
Figure BDA0002854365740000094
Figure BDA0002854365740000095
其中,
Figure BDA0002854365740000096
是除第l种上下文范围句子编码表示的其他范围的句子编码表示,l′∈{1,2,3},
Figure BDA0002854365740000097
是Fl的第i行,
Figure BDA0002854365740000098
Figure BDA0002854365740000099
的第i行,el,i,
Figure BDA00028543657400000910
都为计算的中间结果,⊙、·、*分别是按元素乘积,点乘和普通乘法,tanh(·)是正切函数,
Figure BDA00028543657400000916
是l1范数。
S4.2、计算第l个范围的上下文特征与其他范围的上下文特征融合后的特征向量
Figure BDA00028543657400000911
它的第i个元素
Figure BDA00028543657400000912
计算公式如下:
Figure BDA00028543657400000913
将3个范围的特征拼接得到
Figure BDA00028543657400000914
计算融合了多种范围的句子编码表示
Figure BDA00028543657400000915
pooling(·)为最大池化函数。
S5、将融合的句子编码表示F′输入到前馈神经网络(FFN)中分类,输出结果。
综上所述,本实施例提出的基于可形变自注意力机制的方法先对每个词都计算一个最优的上下文大小,然后在多个不同的子空间提取多种范围的局部上下文特征,它可以根据不同的词调整计算的范围。接着,多个子空间得到的局部特征句子编码融合为一个句子编码,再输入到前馈神经网络(FFN)中。相对于传统的模型对每个词采用固定尺度学习,如卷积网络和局部注意力机制对每个词都使用固定大小的卷积核或采用固定的注意力范围,本发明可以提取更加准确的局部上下文信息,引导模型理解句子的含义,达到很好的分析效果,从而帮助用户更好的挑选喜欢的电影和产品等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于可形变自注意力机制的社交网络文本情感分析方法,其特征在于,所述的社交网络文本情感分析方法包括以下步骤:
S1、将用户话语文本数据中的每个句子切分为词,切分后的词序列表示为w=(w1,w2,…,wi,…,wN),并将每个词用词向量序列表示为
Figure FDA0002854365730000011
Figure FDA0002854365730000012
其中,wi是第i个词,
Figure FDA0002854365730000013
是第i个词的词向量,1≤i≤N,N为词的个数,emb为词向量维度大小,
Figure FDA0002854365730000014
为由所有emb维向量组成的实数向量空间;
S2、将词向量序列
Figure FDA0002854365730000015
输入双向循环神经网络中得到每个词的编码表示H=(h1,h2,…,hi,…,hN),其中,双向循环神经网络简称Bi-LSTM,
Figure FDA0002854365730000016
是第i个词的编码表示,
Figure FDA0002854365730000017
为由所有2d维向量组成的实数向量空间,1≤i≤N,d为单向LSTM隐层单元的维度大小,2d为Bi-LSTM隐层单元的维度大小;
S3、利用可形变自注意力机制,将每个词的编码表示H=(h1,h2,…,hi,…,hN)转化为多种具有不同上下文范围的句子编码表示F=(F1;F2;…;Fl;…;FL),其中,l∈{1,2,…,L},
Figure FDA0002854365730000018
是具有第l种上下文范围的句子编码表示,
Figure FDA0002854365730000019
为由所有N×d维矩阵组成的实数矩阵向量空间,L为不同上下文范围的个数;
S4、将多种句子编码表示F=(F1;F2;…;Fl;…;FL)融合得到一个句子编码表示
Figure FDA00028543657300000110
S5、将融合的句子编码表示输入到前馈神经网络中分类,输出结果;
S6、根据前馈神经网络输出结果和数据真实结果,最小化交叉熵损失函数迭代训练,更新双向循环神经网络、可形变自注意力机制、前馈神经网络中涉及的参数;
S7、将待分类的社交网络文本数据重复步骤S1-S5,得到从前馈神经网络输出的情感分析结果。
2.根据权利要求1所述的一种基于可形变自注意力机制的文本分类方法,其特征在于,所述的步骤S3过程如下:
S31、将词的编码表示H按照下式映射到不同的子空间:
Figure FDA0002854365730000021
其中
Figure FDA0002854365730000022
是将H映射到第l个子空间的3个可以训练的权重矩阵,
Figure FDA0002854365730000023
代表所有由2d×d维矩阵组成的实数矩阵向量空间,Ql,Kl,Vl是H在第l个子空间映射后得到的3个不同的表示,l∈{1,2,…,L},L为子空间的个数,它的值也等于不同上下文范围的个数,接下来计算每个子空间下对应的注意力分数矩阵{S1,S2,…,Sl,…,SL},其中Sl是第l个子空间下对应的注意力分数矩阵,每个Sl计算公式如下:
Figure FDA0002854365730000024
S32、在第l个子空间学习上下文半径在Rl-1~Rl的上下文半径向量
Figure FDA0002854365730000025
Figure FDA0002854365730000026
Rl-1和Rl是预定义的上下文半径常量,为两个实数且Rl-1<Rl,R0=1,
Figure FDA0002854365730000027
为所有由N维向量组成的实数向量空间,上下文半径向量的第i个元素
Figure FDA0002854365730000028
代表第i个词学习到的上下文半径,
Figure FDA0002854365730000029
代表实数空间;
S33、为了限制注意力机制的关注范围,计算上下文半径为R的带宽掩码矩阵
Figure FDA00028543657300000210
Figure FDA00028543657300000211
代表所有由N×N维矩阵组成的实数矩阵向量空间,矩阵每个元素M(R)i,i′的计算公式如下:
Figure FDA0002854365730000031
其中,M(R)i,i′是矩阵M(R)第i行第i′列的元素,i′∈{1,2,…,N};
S34、使用可形变自注意力机制学习上下文半径大小为Rl-1~Rl的可形变注意力权重矩阵
Figure FDA0002854365730000032
第i个词在第l个子空间的可形变注意力权重矩阵计算公式如下:
Figure FDA0002854365730000033
其中
Figure FDA0002854365730000034
是可形变注意力权重矩阵
Figure FDA0002854365730000035
的第i行,q枚举
Figure FDA0002854365730000036
上取整和下取整得到的2个整数,
Figure FDA0002854365730000037
是第l个子空间的注意力分数矩阵Sl的第i行,M(q)i,·是上下文半径为q的带宽掩码矩阵M(q)的第i行,函数K(·,·)的计算公式如下:
K(a,b)=max(0,1-|a-b|)
其中,a,b为任意两个实数;
S35、得到多种具有不同上下文范围的句子编码表示F=(F1;F2;…;Fl;…;FL),每一种句子编码表示Fl计算公式如下:
Figure FDA0002854365730000038
3.根据权利要求2所述的一种基于可形变自注意力机制的文本分类方法,其特征在于,所述的步骤S32中,上下文半径向量gl计算公式如下:
Figure FDA0002854365730000039
其中,
Figure FDA00028543657300000310
分别是要计算第l个上下文半径时所需要学习的权重矩阵、权重向量、偏置向量,σ(·)为sigmoid激活函数;
4.根据权利要求1所述的一种基于可形变自注意力机制的文本分类方法,其特征在于,所述的步骤S4将多种句子编码表示F=(F1;F2;…;Fl;…;FL)融合得到一个句子编码表示
Figure FDA0002854365730000041
其中,
Figure FDA0002854365730000042
代表所有由L×N×d维张量组成的实数张量空间,过程如下:
S41、计算每种上下文范围的句子编码表示和其他范围的句子编码表示的关系矩阵P,P的第l行第i列的元素
Figure FDA0002854365730000043
计算公式如下:
pl,i=tanh(el,i)⊙(1-σ(dl,i)*2)
Figure FDA0002854365730000044
Figure FDA0002854365730000045
其中,
Figure FDA0002854365730000046
是除第l种上下文范围句子编码表示的其他范围的句子编码表示,l′∈{1,2,…,L},
Figure FDA0002854365730000047
是Fl的第i行,
Figure FDA0002854365730000048
Figure FDA0002854365730000049
的第i行,
Figure FDA00028543657300000410
都为计算的中间结果,⊙、·、*分别是按元素乘积,点乘和普通乘法,tanh(·)是正切函数,
Figure FDA00028543657300000416
是l1范数;
S42、计算第l个范围的上下文特征与其他范围的上下文特征融合后的特征向量表示
Figure FDA00028543657300000411
它的第i个元素
Figure FDA00028543657300000412
计算公式如下:
Figure FDA00028543657300000413
将L个范围的特征拼接得到
Figure FDA00028543657300000414
计算融合了多种范围的句子编码表示
Figure FDA00028543657300000415
pooling(·)为最大池化函数。
5.根据权利要求1至4任一所述的一种基于可形变自注意力机制的社交网络文本情感分析方法,其特征在于,所述的文本数据包括中文数据和/或英文数据。
CN202011540244.0A 2020-12-23 2020-12-23 基于可形变自注意力机制的社交网络文本情感分析方法 Active CN112528168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011540244.0A CN112528168B (zh) 2020-12-23 2020-12-23 基于可形变自注意力机制的社交网络文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011540244.0A CN112528168B (zh) 2020-12-23 2020-12-23 基于可形变自注意力机制的社交网络文本情感分析方法

Publications (2)

Publication Number Publication Date
CN112528168A true CN112528168A (zh) 2021-03-19
CN112528168B CN112528168B (zh) 2022-03-29

Family

ID=74976038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011540244.0A Active CN112528168B (zh) 2020-12-23 2020-12-23 基于可形变自注意力机制的社交网络文本情感分析方法

Country Status (1)

Country Link
CN (1) CN112528168B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553052A (zh) * 2021-06-09 2021-10-26 麒麟软件有限公司 使用Attention编码表示自动识别与安全相关的代码提交的方法
CN113673222A (zh) * 2021-07-12 2021-11-19 华南理工大学 基于双向协同网络的社交媒体文本细粒度情感分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN109918503A (zh) * 2019-01-29 2019-06-21 华南理工大学 基于动态窗口自注意力机制提取语义特征的槽填充方法
WO2020068831A1 (en) * 2018-09-26 2020-04-02 Visa International Service Association Dynamic graph representation learning via attention networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020068831A1 (en) * 2018-09-26 2020-04-02 Visa International Service Association Dynamic graph representation learning via attention networks
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN109918503A (zh) * 2019-01-29 2019-06-21 华南理工大学 基于动态窗口自注意力机制提取语义特征的槽填充方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GOEL, P. 等: "Multilingual Data Analysis to Classify Sentiment Analysis for Tweets Using NLP and Classification Algorithm", 《ADVANCES IN DATA AND INFORMATION SCIENCES. PROCEEDINGS OF ICDIS 2019. LECTURE NOTES IN NETWORKS AND SYSTEMS (LNNS 94)》 *
孙敏 等: "基于BGRU和自注意力机制的情感分析", 《江汉大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553052A (zh) * 2021-06-09 2021-10-26 麒麟软件有限公司 使用Attention编码表示自动识别与安全相关的代码提交的方法
CN113553052B (zh) * 2021-06-09 2022-07-08 麒麟软件有限公司 使用Attention编码表示自动识别与安全相关的代码提交的方法
CN113673222A (zh) * 2021-07-12 2021-11-19 华南理工大学 基于双向协同网络的社交媒体文本细粒度情感分析方法
CN113673222B (zh) * 2021-07-12 2022-09-20 华南理工大学 基于双向协同网络的社交媒体文本细粒度情感分析方法

Also Published As

Publication number Publication date
CN112528168B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109543180B (zh) 一种基于注意力机制的文本情感分析方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109829299B (zh) 一种基于深度自编码器的未知攻击识别方法
CN110597947A (zh) 一种基于全局和局部注意力交互的阅读理解系统及方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN111104513B (zh) 一种游戏平台用户问答业务的短文本分类方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆系统
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111767744B (zh) 文本风格迁移系统的训练方法及装置
CN115422362B (zh) 一种基于人工智能的文本匹配方法
CN113901820A (zh) 一种基于bert模型的中文三元组抽取方法
CN115617959A (zh) 问题解答方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant