CN111507101A - 一种基于多层次语义胶囊路由的反讽检测方法 - Google Patents

一种基于多层次语义胶囊路由的反讽检测方法 Download PDF

Info

Publication number
CN111507101A
CN111507101A CN202010141031.4A CN202010141031A CN111507101A CN 111507101 A CN111507101 A CN 111507101A CN 202010141031 A CN202010141031 A CN 202010141031A CN 111507101 A CN111507101 A CN 111507101A
Authority
CN
China
Prior art keywords
capsule
semantic
level
level semantic
hidden layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010141031.4A
Other languages
English (en)
Other versions
CN111507101B (zh
Inventor
姜明
吴俊磊
张旻
汤景凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010141031.4A priority Critical patent/CN111507101B/zh
Publication of CN111507101A publication Critical patent/CN111507101A/zh
Application granted granted Critical
Publication of CN111507101B publication Critical patent/CN111507101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多层次语义胶囊路由的反讽检测方法。本发明步骤:使用GloVe对网络评论和上下文进行词向量嵌入,分别获得网络评论和上下文的文本特征;并将文本特征输入到Transformer模型中进行向量的转换,分别获得网络评论和上下文的隐藏层特征;通过CNN把网络评论的隐藏层特征转化为网络评论的池化特征;把池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅰ;把网络评论的隐藏层特征与SenticNet中获得的情感权重相结合,获得新的隐藏层特征Ⅱ;把隐藏层特征Ⅰ和Ⅱ作为低层次的语义胶囊,进行EM路由获得高层次的语义胶囊;最后把高层次的语义胶囊通过SoftMax函数获得最后的分类结果。本发明有效解决了反讽检测分类效果不佳等问题。

Description

一种基于多层次语义胶囊路由的反讽检测方法
技术领域
本发明涉及自然语言处理的反讽检测领域,具体涉及基于多层次语义胶囊路由的反讽检测方法。
背景技术
自动讽刺检测的文献分别集中于文本的词法、句法和语义层面的分析或者通过上下文假设、背景或常识来捕获用户的风格和个性描述。但是,在一组表示反讽的文本中,通常包含言语和情景两种类型的反讽文本。我们提出了一个基于多层次语义胶囊路由的反讽检测方法,用于在线社交媒体评论的反讽检测。对于前者,我们认为单个句子包含强烈的情感变化。因此,我们往句子上的每个单词上都通过SenticNet附加了情感权重。同样,有的时候单个句子无法判断是否包含反讽。为了让句子和上下文进行信息交互,我们使用局部注意力机制,从上下文获取用户的个性特征,从而对句子进行反讽检测。最后,我们通过语义胶囊路由来实现两种反讽检测方式的结合。
发明内容
本发明的目的是针对现有技术的不足,以解决反讽检测分类效果不佳等问题,提供一种基于多层次语义胶囊路由的反讽检测方法。
为实现以上的技术目的,本发明将采取以下技术方案:
一种基于多层次语义胶囊路由的反讽检测方法,按照如下步骤进行:
步骤(1)使用GloVe对网络评论和上下文进行词向量嵌入,分别获得网络评论的文本特征和上下文的文本特征;
步骤(2)分别将网络评论和上下文的文本特征输入到Transformer模型中进行向量的转换,分别获得网络评论和上下文隐藏层特征;
步骤(3)通过CNN把获得网络评论的隐藏层特征转化为网络评论的池化特征;
步骤(4)把池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅰ;
步骤(5)把网络评论的隐藏层特征与SenticNet中获得情感权重相结合,获得新的隐藏层特征Ⅱ;
步骤(6)把隐藏层特征Ⅰ和Ⅱ作为低层次的语义胶囊,进行EM路由获得高层次的语义胶囊;
步骤(7)把高层次的语义胶囊通过SoftMax获得最后的分类结果。
其中步骤(2),Transformer模型在得到文本的词向量的过程中,还需要获得文本词向量的相对位置。
本发明进一步限定的技术方案为:
进一步的,步骤(1)具体为:使用glove.840B.300d的词向量文件把SARC数据集中的网络评论和上下文进行词向量嵌入,获得一个维度为300维的词向量矩阵;
进一步的,步骤(2)具体为:把网络评论和上下文的文本特征输入到Transformer模型中获得上下文相关的网络评论和上下文的隐藏层特征;
进一步的,步骤(3)中,利用CNN网络模型对步骤(2)获得网络评论的隐藏层特征进行Max-pooling操作,获得网络评论的池化特征;
进一步的,步骤(4)包括:使用网络评论的池化特征对上下文的词向量特征进行权重的偏移。具体来说,我们使用了缩放点积的注意力机制,可以将它描述为将query和key映射到单词级的权重上。
query是上下文的隐藏层特征的平均向量,以及网络评论的池化特征的平均向量,通过可训练的参数转化为dk维:
Figure BDA0002399094640000021
Figure BDA0002399094640000031
key包括上下文的隐藏层特征和网络评论的池化特征,通过可训练的参数转化为dk维:
Figure BDA0002399094640000032
Figure BDA0002399094640000033
其中,
Figure BDA0002399094640000034
是上下文的隐藏层特征,
Figure BDA0002399094640000035
是网络评论的池化特征,它们的向量维度都是2dl
Figure BDA0002399094640000036
的向量维度是2dl*dk
网络评论到上下文的交互注意力权重可以计算如下:
Figure BDA0002399094640000037
Figure BDA0002399094640000038
为了确保
Figure BDA0002399094640000039
的每个维度之间的参数差距比较大,引入
Figure BDA00023990946400000310
作为比例因子。
根据公式(12)获得新的隐藏层特征Ⅰ。
Figure BDA00023990946400000311
进一步的,步骤(5)包括:使用SenticNet获得网络评论中每个单词对应的情感权重,然后使用注意力机制把网络评论的情感权重与步骤(2)中获得的网络评论的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅱ。
进一步的,步骤(6)包括:把步骤(4)和步骤(5)的输出的隐藏层特征Ⅰ和隐藏层特征Ⅱ作为输入,创建低层次的语义胶囊。低层次的语义胶囊i包含激活概率和高层次输出两个部分;
进一步的,步骤(7)包括:对步骤(6)中得到的低层次的语义胶囊i进行EM路由,获得高层次的语义胶囊j。
首先,利用公式(13)、公式(14)和公式(15)计算出低层次语义胶囊i到高层次语义胶囊j的均值和方差:
Voteij=GiWij#(13)
Figure BDA0002399094640000041
Figure BDA0002399094640000042
其中,权重矩阵Wij是可训练的参数;Gi表示低层次的语义胶囊i的高层次输出,它是可训练的参数,它的初始值是低层次语义胶囊的输入;Rij表示低层次的语义胶囊i到高层次的语义胶囊j的分配概率;
Figure BDA0002399094640000043
表示低层次语义胶囊i到高层次的语义胶囊j的输出d维的均值;
Figure BDA0002399094640000044
表示低层次语义胶囊i到高层次的语义胶囊j的d维的方差。
然后,根据步骤6-1计算出的低层次的语义胶囊i到高层次的语义胶囊j的均值和方差来计算分配概率。低层次的语义胶囊i到高层次的语义胶囊j的概率密度如公式(16)所示:
Figure BDA0002399094640000045
其次,低层次的语义胶囊i到高层次的语义胶囊j的分配概率如公式(17):
Figure BDA0002399094640000051
最后,根据分配概率来更新低层次语义胶囊j的高层次输出。
对于计算低层次语义胶囊i的激活概率,我们根据低层次语义胶囊i到高层次的语义胶囊j的均值和方差,我们使用公式(17)和公式(18)来计算低层次语义胶囊i到高层次语义胶囊j的激活概率:
Figure BDA0002399094640000052
Figure BDA0002399094640000053
其中,βu和βv都是可训练的参数;λ是一个固定值,被设置为1e-3;aj是低层次语义胶囊i到高层次的语义胶囊j的激活概率。
因此,整个EM路由算法步骤可以总结为:
1:设置低层次的语义胶囊i到高层次的语义胶囊j的分配概率的初始值为:
Figure BDA0002399094640000054
J表示高层次的语义胶囊j的数量;
2:计算上下文的低层次的语义胶囊i的激活概率为:
Figure BDA0002399094640000055
Figure BDA0002399094640000056
其中ai中的i表示低层次语义胶囊i,
Figure BDA0002399094640000057
中的i表示网络评论中的单词;
3:计算网络评论的低层次的语义胶囊i的激活概率为:
Figure BDA0002399094640000058
Figure BDA0002399094640000059
这里i的含义与步骤2一致;
4:重复进行r次迭代:
Figure BDA00023990946400000510
Figure BDA00023990946400000511
其中,M步骤的具体流程如下:
1:根据低层次语义胶囊i到高层次语义胶囊j的激活概率,来更新低层次的语义胶囊i到高层次的语义胶囊j的分配概率:R'ij=Rij*ai,其中i和j分别表示低层次语义胶囊和高层次语义胶囊。
2:根据公式(13)、(14)和(15)计算均值μj和方差σj
3:根据公式(18)和(19)计算激活概率aj
E步骤的流程如下:
1:根据公式(16)和(17)计算高层次语义胶囊j的概率密度pj,然后根据pj来低层次的语义胶囊i到高层次的语义胶囊j的分配概率Rij
进一步的,步骤(8)包括:把高层次的语义胶囊通过SoftMax输出最后的分类结果。
本发明有益效果如下:
本发明有效解决了现有的反讽检测方法过于片面的问题。这个问题具体表现为目前的反讽检测方法只针对于当个网络评论进行反讽检测,或只结合上下文信息进行反讽检测。当网络评论中的情感变化幅度比较大时,加入上下文信息反而会导致结果出错;又当网络评论信息不充分时,无法检测出用户是否使用了讽刺和反语的修辞手法。但是,本发明提出的反讽检测方法同时考虑了这两种情况,我们首先利用SenticNet对网络评论进行情感权重的偏移,获取到了解决第一种情况的语义胶囊。然后,我们又通过CNN把网络评论和上下文信息进行融合,获得了用于第二种情况的语义胶囊。之后,我们用两种语义胶囊组成了低层次的语义胶囊层。最后,我们通过EM路由的方式,获得了高层次的语义胶囊层,使用SoftMax函数输出反讽检测的结果。
附图说明
图1是本发明工艺实施方案的具体流程图;
图2是本发明的模型流程示意图;
具体实施方式
附图非限制性的公开了本发明所涉及优选实施例的流程示意图;以下将结合附图详细的说明本发明的技术方案。
步骤(1)具体实现如下:使用glove.840B.300d的词向量文件把SARC数据集中的网络评论和上下文进行词向量嵌入,获得一个维度为300维的词向量矩阵;
步骤(2)具体实现如下:
将步骤(1)中获得的上下文的文本特征和网络评论的文本特征输入到Transformer中获得上下文的隐藏层特征和网络评论的隐藏层特征,Transformer模型序列化传导模型不同于传统的模型(LSTM或GRU),它可以获得有效地获取长文本的上下文相关的文本特征,它原理如下具体实现如下:
大部分神经序列转导模型都有一个编码器-解码器结构。这里,编码器映射一个用符号表示的输入序列x1,…,xn到一个连续的表示z=(z1,…,zn)。根据z,解码器生成符号的一个输出序列(y1,…,ym),一次一个元素。在每一步中,模型都是自回归的,当生成下一个时,消耗先前生成的符号作为附加输入。
Transformer模型中编码器和解码器都使用self-attention堆叠和point-wise、完全连接的层。Attention函数可以描述为将query和一组key-value对映射到输出,其中query、key、value和输出都是向量。输出为value的加权和,其中分配给每个value的权重通过query与相应key的兼容函数来计算。
这里的attention为“缩放版的点积attention”。输入由query、dk维的key和dv维的value组成。我们计算query和所有key的点积、用
Figure BDA0002399094640000071
相除,然后应用一个SoftMax函数以获得值的权重。在实践中,我们同时计算一组query的attention函数,并将它们组合成一个矩阵Q。key和value也一起打包成矩阵K和V。计算输出矩阵为:
Figure BDA0002399094640000072
多头注意力机制允许模型的不同表示子空间联合关注不同位置的信息。如果只有一个注意力头部,它的平均值会削弱这个信息。
MultiHead(Q,K,V)=Concat(head1,…,headn)WO#(24)
其中
Figure BDA0002399094640000081
WO是可训练的参数。
除了attention子层之外,编码器和解码器中的每个层都包含一个完全连接的前馈网络,该前馈网络单独且相同地应用于每个位置。它由两个线性变换组成,之间有一个ReLU激活。
FFN(x)=max(0,xW1+b1)W2+b2#(25)
其中,x是输入,W1,W2是可训练的权重参数,b1,b2是可训练的偏置参数。
由于Transformer不包含循环和卷积,为了让模型利用序列的顺序,模型必须注入序列中关于词符相对或者绝对位置的一些信息。为此,模型将“位置编码”添加到编码器和解码器堆栈底部的输入嵌入中。位置编码和嵌入的维度dmodel相同,所以它们俩可以相加。有多种位置编码可以选择,例如通过学习得到的位置编码和固定的位置编码。在这项工作中,模型使用不同频率的正弦和余弦函数:
Figure BDA0002399094640000082
Figure BDA0002399094640000083
其中pos是位置,i是维度,dmodel表示模型的维度。
在步骤(3)中,将步骤(2)获得的网络评论的隐藏层特征,使用CNN进行特征提取,然后通过Max-Pooling获得网络评论的池化特征。
在步骤(4)中,使用步骤(3)中获得的网络评论的池化特征,对上下文的隐藏层特征进行权重偏移。具体来说,我们使用了缩放点积的注意力机制,将注意力机制描述为将query和key映射到单词级别的权重上。
query包括上下文的隐藏层特征的平均向量,以及网络评论的池化特征的平均向量,通过可训练的参数转化为dk维:
Figure BDA0002399094640000091
Figure BDA0002399094640000092
key包括上下文的隐藏层特征和网络评论的池化特征,通过可训练的参数转化为dk维:
Figure BDA0002399094640000093
Figure BDA0002399094640000094
其中,
Figure BDA0002399094640000095
是上下文的隐藏层特征,
Figure BDA0002399094640000096
是网络评论的池化特征,它们的向量维度都是2dl
Figure BDA0002399094640000097
的向量维度是2dl*dk
网络评论到上下文的交互注意力权重可以计算如下:
Figure BDA0002399094640000098
Figure BDA0002399094640000099
为了确保
Figure BDA00023990946400000910
的每个维度之间的参数差距比较大,我们引入
Figure BDA00023990946400000911
作为比例因子。
在步骤(5)中,使用SenticNet获得网络评论中每个单词对应的情感权重,然后使用注意力机制把网络评论的情感权重与步骤(2)中获得的网络评论的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅱ。
在步骤(6)中,把步骤(4)和步骤(5)的输出的隐藏层特征Ⅰ和隐藏层特征Ⅱ作为输入,创建低层次的语义胶囊。低层次的语义胶囊i包含激活概率和高层次输出两个部分。
在步骤(7)中,为了获得高层次的语义胶囊j,我们对低层次的语义胶囊i进行EM路由,它的具体过程实现如下:
首先,我们利用公式(13)、公式(14)和公式(15)计算出低层次语义胶囊i到高层次语义胶囊j的均值和方差:
Voteij=GiWij#(13)
Figure BDA0002399094640000101
Figure BDA0002399094640000102
其中,权重矩阵Wij是可训练的参数;Gi表示低层次的语义胶囊i的高层次输出,它是可训练的参数,它的初始值是低层次语义胶囊的输入;Rij表示低层次的语义胶囊i到高层次的语义胶囊j的分配概率;
Figure BDA0002399094640000103
表示低层次语义胶囊i到高层次的语义胶囊j的输出d维的均值;
Figure BDA0002399094640000104
表示低层次语义胶囊i到高层次的语义胶囊j的d维的方差。
我们根据6-1计算出的低层次的语义胶囊i到高层次的语义胶囊j的均值和方差来计算分配概率。低层次的语义胶囊i到高层次的语义胶囊j的概率密度如公式(16)所示:
Figure BDA0002399094640000105
其次,低层次的语义胶囊i到高层次的语义胶囊j的分配概率如公式(17):
Figure BDA0002399094640000111
最后,根据分配概率来更新低层次语义胶囊j的高层次输出。
根据低层次语义胶囊i到高层次的语义胶囊j的均值和方差,我们使用公式(17)和公式(18)来计算低层次语义胶囊i到高层次语义胶囊j的激活概率:
Figure BDA0002399094640000112
Figure BDA0002399094640000113
其中,βu和βv都是可训练的参数;λ是一个固定值,被设置为1e-3;aj是低层次语义胶囊i到高层次的语义胶囊j的激活概率。
因此,整个EM路由算法步骤可以总结为:
1:设置低层次的语义胶囊i到高层次的语义胶囊j的分配概率的初始值为:
Figure BDA0002399094640000114
J表示高层次的语义胶囊j的数量;
2:计算上下文的低层次的语义胶囊i的激活概率为:
Figure BDA0002399094640000115
Figure BDA0002399094640000116
其中ai中的i表示低层次语义胶囊i,
Figure BDA0002399094640000117
中的i表示网络评论中的单词;
3:计算网络评论的低层次的语义胶囊i的激活概率为:
Figure BDA0002399094640000118
Figure BDA0002399094640000119
这里i的含义与步骤2一致;
4:重复进行r次迭代:
Figure BDA00023990946400001110
Figure BDA00023990946400001111
其中,M步骤的具体流程如下:
1:根据低层次语义胶囊i到高层次语义胶囊j的激活概率,来更新低层次的语义胶囊i到高层次的语义胶囊j的分配概率:R'ij=Rij*ai,其中i和j分别表示低层次语义胶囊和高层次语义胶囊。
2:根据公式(13)、(14)和(15)计算均值μj和方差σj
3:根据公式(18)和(19)计算激活概率aj
E步骤的流程如下:
1:根据公式(16)和(17)计算高层次语义胶囊j的概率密度pj,然后根据pj来低层次的语义胶囊i到高层次的语义胶囊j的分配概率Rij
在步骤(8)中,把高层次的语义胶囊j通过SoftMax函数输出最后的分类结果。

Claims (7)

1.一种基于多层次语义胶囊路由的反讽检测方法,其特征在于包括如下步骤:
步骤(1)使用GloVe对网络评论和上下文进行词向量嵌入,分别获得网络评论的文本特征和上下文的文本特征;
步骤(2)分别将网络评论和上下文的文本特征输入到Transformer模型中进行向量的转换,分别获得网络评论的隐藏层特征和上下文的隐藏层特征;
步骤(3)通过CNN把网络评论的隐藏层特征转化为网络评论的池化特征;
步骤(4)把池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅰ;
步骤(5)把网络评论的隐藏层特征与SenticNet中获得的情感权重相结合,获得新的隐藏层特征Ⅱ;
步骤(6)把隐藏层特征Ⅰ和Ⅱ作为低层次的语义胶囊,进行EM路由获得高层次的语义胶囊;
步骤(7)最后把高层次的语义胶囊通过SoftMax函数获得最后的分类结果。
2.根据权利要求1或2所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(1)具体:使用glove.840B.300d的词向量文件把SARC数据集中的网络评论和上下文进行词向量嵌入,获得一个维度为300维的词向量矩阵。
3.根据权利要求2所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(3)中,利用CNN网络模型对步骤(2)获得的网络评论的隐藏层特征进行Max-pooling操作,获得网络评论的池化特征。
4.根据权利要求3所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(4)所述的把网络评论的池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅰ,具体实现如下:
4-1.使用网络评论的池化特征对上下文的隐藏层特征进行词向量的偏移,具体:使用缩放点积的注意力机制,将注意力机制描述为将query和key映射到单词级别的权重上;
query包括上下文的隐藏层特征的平均向量,以及网络评论的池化特征的平均向量,通过可训练的参数转化为dk维:
Figure FDA0002399094630000021
Figure FDA0002399094630000022
key包括上下文的隐藏层特征和网络评论的池化特征,通过可训练的参数转化为dk维:
Figure FDA0002399094630000023
Figure FDA0002399094630000024
其中,
Figure FDA0002399094630000025
是上下文的隐藏层特征,
Figure FDA0002399094630000026
是网络评论的池化特征,它们的向量维度都是2dl
Figure FDA0002399094630000027
Figure FDA0002399094630000028
的向量维度是2dl*dk
4-2.网络评论和上下文的交互注意力权重计算如下:
Figure FDA0002399094630000029
Figure FDA00023990946300000210
为了确保
Figure FDA00023990946300000211
的每个维度之间的参数差距比较大,引入
Figure FDA00023990946300000212
作为比例因子;
4-3.根据公式(12)获得新的隐藏层特征Ⅰ;
Figure FDA00023990946300000213
5.根据权利要求4所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(5)把池化特征与SenticNet中获得的情感权重相结合,获得新的隐藏层特征Ⅱ,具体如下:
使用SenticNet获得网络评论中每个单词对应的情感权重,然后使用注意力机制把网络评论的情感权重与步骤(2)中获得的网络评论的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅱ。
6.根据权利要求5所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(6):把步骤(4)和步骤(5)的输出的隐藏层特征Ⅰ和隐藏层特征Ⅱ作为输入,创建低层次的语义胶囊;低层次的语义胶囊i包含激活概率和高层次输出两个部分;为了获得高层次的语义胶囊j,对低层次的语义胶囊i进行EM路由,它的具体过程实现如下:
6-1.首先利用公式(13)、公式(14)和公式(15)计算出低层次语义胶囊i到高层次语义胶囊j的均值和方差:
Voteij=GiWij#(13)
Figure FDA0002399094630000031
Figure FDA0002399094630000032
其中,权重矩阵Wij是可训练的参数;Gi表示低层次的语义胶囊i的高层次输出,它是可训练的参数,它的初始值是低层次语义胶囊的输入;Rij表示低层次的语义胶囊i到高层次的语义胶囊j的分配概率;
Figure FDA0002399094630000033
表示低层次语义胶囊i到高层次的语义胶囊j的输出d维的均值;
Figure FDA0002399094630000034
表示低层次语义胶囊i到高层次的语义胶囊j的d维的方差;
6-2.根据步骤6-1计算出的低层次的语义胶囊i到高层次的语义胶囊j的均值和方差来计算分配概率;低层次的语义胶囊i到高层次的语义胶囊j的概率密度如公式(16)所示:
Figure FDA0002399094630000041
其次,低层次的语义胶囊i到高层次的语义胶囊j的分配概率如公式(17):
Figure FDA0002399094630000042
最后,根据分配概率来更新低层次语义胶囊j的高层次输出;
6-3.根据低层次语义胶囊i到高层次的语义胶囊j的均值和方差,使用公式(17)和公式(18)来计算低层次语义胶囊i到高层次语义胶囊j的激活概率:
Figure FDA0002399094630000043
Figure FDA0002399094630000044
其中,βu和βv都是可训练的参数;λ是一个固定值,被设置为1e-3;aj是低层次语义胶囊i到高层次的语义胶囊j的激活概率。
7.根据权利要求6所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于对低层次的语义胶囊i进行EM路由,获得高层次的语义胶囊j,整体流程如下:
①设置低层次的语义胶囊i到高层次的语义胶囊j的分配概率的初始值为:
Figure FDA0002399094630000045
J表示高层次的语义胶囊j的数量;
②计算上下文的低层次的语义胶囊i的激活概率为:
Figure FDA0002399094630000046
Figure FDA0002399094630000047
其中ai中的i表示低层次语义胶囊i,
Figure FDA0002399094630000048
中的i表示网络评论中的单词;
③计算网络评论的低层次的语义胶囊i的激活概率为:
Figure FDA0002399094630000051
Figure FDA0002399094630000052
这里i的含义与步骤②一致;
④对下面的公式(20)和公式(21)分别重复进行r次迭代:
Figure FDA0002399094630000053
Figure FDA0002399094630000054
其中公式(20)的具体实现流程如下:
(1)根据低层次语义胶囊i到高层次语义胶囊j的激活概率,来更新低层次的语义胶囊i到高层次的语义胶囊j的分配概率:R'ij=Rij*ai,其中i和j分别表示低层次语义胶囊和高层次语义胶囊;
(2)根据公式(13)、(14)和(15)计算均值μj和方差σj
(3)根据公式(18)和(19)计算激活概率aj
其中公式(21)的具体实现流程如下:
根据公式(16)和(17)计算高层次语义胶囊j的概率密度pj,然后根据pj来低层次的语义胶囊i到高层次的语义胶囊j的分配概率Rij
CN202010141031.4A 2020-03-03 2020-03-03 一种基于多层次语义胶囊路由的反讽检测方法 Active CN111507101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010141031.4A CN111507101B (zh) 2020-03-03 2020-03-03 一种基于多层次语义胶囊路由的反讽检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010141031.4A CN111507101B (zh) 2020-03-03 2020-03-03 一种基于多层次语义胶囊路由的反讽检测方法

Publications (2)

Publication Number Publication Date
CN111507101A true CN111507101A (zh) 2020-08-07
CN111507101B CN111507101B (zh) 2020-12-15

Family

ID=71868984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010141031.4A Active CN111507101B (zh) 2020-03-03 2020-03-03 一种基于多层次语义胶囊路由的反讽检测方法

Country Status (1)

Country Link
CN (1) CN111507101B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069804A (zh) * 2020-09-08 2020-12-11 天津大学 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997370A (zh) * 2015-08-07 2017-08-01 谷歌公司 基于作者的文本分类和转换
CN110059741A (zh) * 2019-04-15 2019-07-26 西安电子科技大学 基于语义胶囊融合网络的图像识别方法
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110765269A (zh) * 2019-10-30 2020-02-07 华南理工大学 基于动态词向量和层级神经网络的文档级情感分类方法
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
CN110825848A (zh) * 2019-06-10 2020-02-21 北京理工大学 一种基于短语向量的文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997370A (zh) * 2015-08-07 2017-08-01 谷歌公司 基于作者的文本分类和转换
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
CN110059741A (zh) * 2019-04-15 2019-07-26 西安电子科技大学 基于语义胶囊融合网络的图像识别方法
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110825848A (zh) * 2019-06-10 2020-02-21 北京理工大学 一种基于短语向量的文本分类方法
CN110765269A (zh) * 2019-10-30 2020-02-07 华南理工大学 基于动态词向量和层级神经网络的文档级情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANFENG ZHAO 等: ""Speech emotion recognition using deep 1D & 2D CNN LSTM networks"", 《BIOMEDICAL SIGNAL PROCESSING AND CONTROL》 *
任智慧 等: ""基于LSTM网络的序列标注中文分词法"", 《计算机应用研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069804A (zh) * 2020-09-08 2020-12-11 天津大学 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法
CN112069804B (zh) * 2020-09-08 2023-12-19 天津大学 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112287197B (zh) * 2020-09-23 2022-07-19 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法

Also Published As

Publication number Publication date
CN111507101B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN113010693B (zh) 融合指针生成网络的知识图谱智能问答方法
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN106991085A (zh) 一种实体的简称生成方法及装置
Srikanth et al. Extractive text summarization using dynamic clustering and co-reference on BERT
CN113987187B (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN110781306A (zh) 一种英文文本的方面层情感分类方法及系统
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CA3135717A1 (en) System and method for transferable natural language interface
CN111507101B (zh) 一种基于多层次语义胶囊路由的反讽检测方法
CN107679225A (zh) 一种基于关键词的回复生成方法
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN114372475A (zh) 一种基于RoBERTa模型的网络舆情情感分析方法及系统
CN114385806A (zh) 一种基于深度学习的文本摘要方法及系统
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
Ma et al. Deformable self-attention for text classification
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN113012822A (zh) 一种基于生成式对话技术的医疗问答系统
Rhyu et al. Translating melody to chord: Structured and flexible harmonization of melody with transformer
CN115018941A (zh) 一种基于改进版文本解析器的文本至图像生成算法
Touati-Hamad et al. Arabic quran verses authentication using deep learning and word embeddings
CN117236323B (zh) 一种基于大数据的信息处理方法及系统
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN117453885A (zh) 提问信息处理方法、装置、设备、存储介质及产品
CN112463935A (zh) 一种带有强泛化知识选择的开放域对话生成方法及模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200807

Assignee: Hangzhou Yuanchuan New Technology Co.,Ltd.

Assignor: HANGZHOU DIANZI University

Contract record no.: X2021330000781

Denomination of invention: An irony detection method based on multi-level semantic capsule routing

Granted publication date: 20201215

License type: Common License

Record date: 20211206

EE01 Entry into force of recordation of patent licensing contract