CN111507101A

CN111507101A - 一种基于多层次语义胶囊路由的反讽检测方法

Info

Publication number: CN111507101A
Application number: CN202010141031.4A
Authority: CN
Inventors: 姜明; 吴俊磊; 张旻; 汤景凡
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-08-07
Anticipated expiration: 2040-03-03
Also published as: CN111507101B

Abstract

本发明公开了一种基于多层次语义胶囊路由的反讽检测方法。本发明步骤：使用GloVe对网络评论和上下文进行词向量嵌入，分别获得网络评论和上下文的文本特征；并将文本特征输入到Transformer模型中进行向量的转换，分别获得网络评论和上下文的隐藏层特征；通过CNN把网络评论的隐藏层特征转化为网络评论的池化特征；把池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移，获得新的隐藏层特征Ⅰ；把网络评论的隐藏层特征与SenticNet中获得的情感权重相结合，获得新的隐藏层特征Ⅱ；把隐藏层特征Ⅰ和Ⅱ作为低层次的语义胶囊，进行EM路由获得高层次的语义胶囊；最后把高层次的语义胶囊通过SoftMax函数获得最后的分类结果。本发明有效解决了反讽检测分类效果不佳等问题。

Description

一种基于多层次语义胶囊路由的反讽检测方法

技术领域

本发明涉及自然语言处理的反讽检测领域，具体涉及基于多层次语义胶囊路由的反讽检测方法。

背景技术

自动讽刺检测的文献分别集中于文本的词法、句法和语义层面的分析或者通过上下文假设、背景或常识来捕获用户的风格和个性描述。但是，在一组表示反讽的文本中，通常包含言语和情景两种类型的反讽文本。我们提出了一个基于多层次语义胶囊路由的反讽检测方法，用于在线社交媒体评论的反讽检测。对于前者，我们认为单个句子包含强烈的情感变化。因此，我们往句子上的每个单词上都通过SenticNet附加了情感权重。同样，有的时候单个句子无法判断是否包含反讽。为了让句子和上下文进行信息交互，我们使用局部注意力机制，从上下文获取用户的个性特征，从而对句子进行反讽检测。最后，我们通过语义胶囊路由来实现两种反讽检测方式的结合。

发明内容

本发明的目的是针对现有技术的不足，以解决反讽检测分类效果不佳等问题，提供一种基于多层次语义胶囊路由的反讽检测方法。

为实现以上的技术目的，本发明将采取以下技术方案：

一种基于多层次语义胶囊路由的反讽检测方法，按照如下步骤进行：

步骤(1)使用GloVe对网络评论和上下文进行词向量嵌入，分别获得网络评论的文本特征和上下文的文本特征；

步骤(2)分别将网络评论和上下文的文本特征输入到Transformer模型中进行向量的转换，分别获得网络评论和上下文隐藏层特征；

步骤(3)通过CNN把获得网络评论的隐藏层特征转化为网络评论的池化特征；

步骤(4)把池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移，获得新的隐藏层特征Ⅰ；

步骤(5)把网络评论的隐藏层特征与SenticNet中获得情感权重相结合，获得新的隐藏层特征Ⅱ；

步骤(6)把隐藏层特征Ⅰ和Ⅱ作为低层次的语义胶囊，进行EM路由获得高层次的语义胶囊；

步骤(7)把高层次的语义胶囊通过SoftMax获得最后的分类结果。

其中步骤(2)，Transformer模型在得到文本的词向量的过程中，还需要获得文本词向量的相对位置。

本发明进一步限定的技术方案为：

进一步的，步骤(1)具体为：使用glove.840B.300d的词向量文件把SARC数据集中的网络评论和上下文进行词向量嵌入，获得一个维度为300维的词向量矩阵；

进一步的，步骤(2)具体为：把网络评论和上下文的文本特征输入到Transformer模型中获得上下文相关的网络评论和上下文的隐藏层特征；

进一步的，步骤(3)中，利用CNN网络模型对步骤(2)获得网络评论的隐藏层特征进行Max-pooling操作，获得网络评论的池化特征；

进一步的，步骤(4)包括：使用网络评论的池化特征对上下文的词向量特征进行权重的偏移。具体来说，我们使用了缩放点积的注意力机制，可以将它描述为将query和key映射到单词级的权重上。

query是上下文的隐藏层特征的平均向量，以及网络评论的池化特征的平均向量，通过可训练的参数转化为d_k维：

key包括上下文的隐藏层特征和网络评论的池化特征，通过可训练的参数转化为d_k维：

其中，

是上下文的隐藏层特征，

是网络评论的池化特征，它们的向量维度都是2d_l；

的向量维度是2d_l＊d_k。

网络评论到上下文的交互注意力权重可以计算如下：

为了确保

的每个维度之间的参数差距比较大，引入

作为比例因子。

根据公式(12)获得新的隐藏层特征Ⅰ。

进一步的，步骤(5)包括：使用SenticNet获得网络评论中每个单词对应的情感权重，然后使用注意力机制把网络评论的情感权重与步骤(2)中获得的网络评论的隐藏层特征进行权重偏移，获得新的隐藏层特征Ⅱ。

进一步的，步骤(6)包括：把步骤(4)和步骤(5)的输出的隐藏层特征Ⅰ和隐藏层特征Ⅱ作为输入，创建低层次的语义胶囊。低层次的语义胶囊i包含激活概率和高层次输出两个部分；

进一步的，步骤(7)包括：对步骤(6)中得到的低层次的语义胶囊i进行EM路由，获得高层次的语义胶囊j。

首先，利用公式(13)、公式(14)和公式(15)计算出低层次语义胶囊i到高层次语义胶囊j的均值和方差：

Vote_ij＝G_iW_ij#(13)

其中，权重矩阵W_ij是可训练的参数；G_i表示低层次的语义胶囊i的高层次输出，它是可训练的参数，它的初始值是低层次语义胶囊的输入；R_ij表示低层次的语义胶囊i到高层次的语义胶囊j的分配概率；

表示低层次语义胶囊i到高层次的语义胶囊j的输出d维的均值；

表示低层次语义胶囊i到高层次的语义胶囊j的d维的方差。

然后，根据步骤6-1计算出的低层次的语义胶囊i到高层次的语义胶囊j的均值和方差来计算分配概率。低层次的语义胶囊i到高层次的语义胶囊j的概率密度如公式(16)所示：

其次，低层次的语义胶囊i到高层次的语义胶囊j的分配概率如公式(17)：

最后，根据分配概率来更新低层次语义胶囊j的高层次输出。

对于计算低层次语义胶囊i的激活概率，我们根据低层次语义胶囊i到高层次的语义胶囊j的均值和方差，我们使用公式(17)和公式(18)来计算低层次语义胶囊i到高层次语义胶囊j的激活概率：

其中，β_u和β_v都是可训练的参数；λ是一个固定值，被设置为1e-3；a_j是低层次语义胶囊i到高层次的语义胶囊j的激活概率。

因此，整个EM路由算法步骤可以总结为：

1:设置低层次的语义胶囊i到高层次的语义胶囊j的分配概率的初始值为：

J表示高层次的语义胶囊j的数量；

2：计算上下文的低层次的语义胶囊i的激活概率为：

其中a_i中的i表示低层次语义胶囊i，

中的i表示网络评论中的单词；

3：计算网络评论的低层次的语义胶囊i的激活概率为：

这里i的含义与步骤2一致；

4：重复进行r次迭代：

其中，M步骤的具体流程如下：

1：根据低层次语义胶囊i到高层次语义胶囊j的激活概率，来更新低层次的语义胶囊i到高层次的语义胶囊j的分配概率：R'_ij＝R_ij＊a_i,其中i和j分别表示低层次语义胶囊和高层次语义胶囊。

2：根据公式(13)、(14)和(15)计算均值μ_j和方差σ_j；

3：根据公式(18)和(19)计算激活概率a_j。

E步骤的流程如下：

1：根据公式(16)和(17)计算高层次语义胶囊j的概率密度p_j，然后根据p_j来低层次的语义胶囊i到高层次的语义胶囊j的分配概率R_ij。

进一步的，步骤(8)包括：把高层次的语义胶囊通过SoftMax输出最后的分类结果。

本发明有益效果如下：

本发明有效解决了现有的反讽检测方法过于片面的问题。这个问题具体表现为目前的反讽检测方法只针对于当个网络评论进行反讽检测，或只结合上下文信息进行反讽检测。当网络评论中的情感变化幅度比较大时，加入上下文信息反而会导致结果出错；又当网络评论信息不充分时，无法检测出用户是否使用了讽刺和反语的修辞手法。但是，本发明提出的反讽检测方法同时考虑了这两种情况，我们首先利用SenticNet对网络评论进行情感权重的偏移，获取到了解决第一种情况的语义胶囊。然后，我们又通过CNN把网络评论和上下文信息进行融合，获得了用于第二种情况的语义胶囊。之后，我们用两种语义胶囊组成了低层次的语义胶囊层。最后，我们通过EM路由的方式，获得了高层次的语义胶囊层，使用SoftMax函数输出反讽检测的结果。

附图说明

图1是本发明工艺实施方案的具体流程图；

图2是本发明的模型流程示意图；

具体实施方式

附图非限制性的公开了本发明所涉及优选实施例的流程示意图；以下将结合附图详细的说明本发明的技术方案。

步骤(1)具体实现如下：使用glove.840B.300d的词向量文件把SARC数据集中的网络评论和上下文进行词向量嵌入，获得一个维度为300维的词向量矩阵；

步骤(2)具体实现如下：

将步骤(1)中获得的上下文的文本特征和网络评论的文本特征输入到Transformer中获得上下文的隐藏层特征和网络评论的隐藏层特征，Transformer模型序列化传导模型不同于传统的模型(LSTM或GRU),它可以获得有效地获取长文本的上下文相关的文本特征，它原理如下具体实现如下：

大部分神经序列转导模型都有一个编码器-解码器结构。这里，编码器映射一个用符号表示的输入序列x₁,…,x_n到一个连续的表示z＝(z₁,…,z_n)。根据z，解码器生成符号的一个输出序列(y₁,…,y_m)，一次一个元素。在每一步中，模型都是自回归的，当生成下一个时，消耗先前生成的符号作为附加输入。

Transformer模型中编码器和解码器都使用self-attention堆叠和point-wise、完全连接的层。Attention函数可以描述为将query和一组key-value对映射到输出，其中query、key、value和输出都是向量。输出为value的加权和，其中分配给每个value的权重通过query与相应key的兼容函数来计算。

这里的attention为“缩放版的点积attention”。输入由query、d_k维的key和d_v维的value组成。我们计算query和所有key的点积、用

相除，然后应用一个SoftMax函数以获得值的权重。在实践中，我们同时计算一组query的attention函数，并将它们组合成一个矩阵Q。key和value也一起打包成矩阵K和V。计算输出矩阵为：

多头注意力机制允许模型的不同表示子空间联合关注不同位置的信息。如果只有一个注意力头部，它的平均值会削弱这个信息。

MultiHead(Q,K,V)＝Concat(head₁,…,head_n)W^O#(24)

其中

W^O是可训练的参数。

除了attention子层之外，编码器和解码器中的每个层都包含一个完全连接的前馈网络，该前馈网络单独且相同地应用于每个位置。它由两个线性变换组成，之间有一个ReLU激活。

FFN(x)＝max(0,xW₁+b₁)W₂+b₂#(25)

其中，x是输入，W₁,W₂是可训练的权重参数，b₁,b₂是可训练的偏置参数。

由于Transformer不包含循环和卷积，为了让模型利用序列的顺序，模型必须注入序列中关于词符相对或者绝对位置的一些信息。为此，模型将“位置编码”添加到编码器和解码器堆栈底部的输入嵌入中。位置编码和嵌入的维度d_model相同，所以它们俩可以相加。有多种位置编码可以选择，例如通过学习得到的位置编码和固定的位置编码。在这项工作中，模型使用不同频率的正弦和余弦函数：

其中pos是位置，i是维度，d_model表示模型的维度。

在步骤(3)中，将步骤(2)获得的网络评论的隐藏层特征，使用CNN进行特征提取，然后通过Max-Pooling获得网络评论的池化特征。

在步骤(4)中，使用步骤(3)中获得的网络评论的池化特征，对上下文的隐藏层特征进行权重偏移。具体来说，我们使用了缩放点积的注意力机制，将注意力机制描述为将query和key映射到单词级别的权重上。

query包括上下文的隐藏层特征的平均向量，以及网络评论的池化特征的平均向量，通过可训练的参数转化为d_k维：

其中，

是上下文的隐藏层特征，

是网络评论的池化特征，它们的向量维度都是2d_l；

的向量维度是2d_l＊d_k。

网络评论到上下文的交互注意力权重可以计算如下：

为了确保

的每个维度之间的参数差距比较大，我们引入

作为比例因子。

在步骤(5)中，使用SenticNet获得网络评论中每个单词对应的情感权重，然后使用注意力机制把网络评论的情感权重与步骤(2)中获得的网络评论的隐藏层特征进行权重偏移，获得新的隐藏层特征Ⅱ。

在步骤(6)中，把步骤(4)和步骤(5)的输出的隐藏层特征Ⅰ和隐藏层特征Ⅱ作为输入，创建低层次的语义胶囊。低层次的语义胶囊i包含激活概率和高层次输出两个部分。

在步骤(7)中，为了获得高层次的语义胶囊j，我们对低层次的语义胶囊i进行EM路由，它的具体过程实现如下：

首先，我们利用公式(13)、公式(14)和公式(15)计算出低层次语义胶囊i到高层次语义胶囊j的均值和方差：

Vote_ij＝G_iW_ij#(13)

表示低层次语义胶囊i到高层次的语义胶囊j的d维的方差。

我们根据6-1计算出的低层次的语义胶囊i到高层次的语义胶囊j的均值和方差来计算分配概率。低层次的语义胶囊i到高层次的语义胶囊j的概率密度如公式(16)所示：

最后，根据分配概率来更新低层次语义胶囊j的高层次输出。

根据低层次语义胶囊i到高层次的语义胶囊j的均值和方差，我们使用公式(17)和公式(18)来计算低层次语义胶囊i到高层次语义胶囊j的激活概率：

因此，整个EM路由算法步骤可以总结为：

J表示高层次的语义胶囊j的数量；

2：计算上下文的低层次的语义胶囊i的激活概率为：

其中a_i中的i表示低层次语义胶囊i，

中的i表示网络评论中的单词；

3：计算网络评论的低层次的语义胶囊i的激活概率为：

这里i的含义与步骤2一致；

4：重复进行r次迭代：

其中，M步骤的具体流程如下：

2：根据公式(13)、(14)和(15)计算均值μ_j和方差σ_j；

3：根据公式(18)和(19)计算激活概率a_j。

E步骤的流程如下：

在步骤(8)中，把高层次的语义胶囊j通过SoftMax函数输出最后的分类结果。

Claims

1.一种基于多层次语义胶囊路由的反讽检测方法，其特征在于包括如下步骤：

步骤(2)分别将网络评论和上下文的文本特征输入到Transformer模型中进行向量的转换，分别获得网络评论的隐藏层特征和上下文的隐藏层特征；

步骤(3)通过CNN把网络评论的隐藏层特征转化为网络评论的池化特征；

步骤(5)把网络评论的隐藏层特征与SenticNet中获得的情感权重相结合，获得新的隐藏层特征Ⅱ；

步骤(7)最后把高层次的语义胶囊通过SoftMax函数获得最后的分类结果。

2.根据权利要求1或2所述的一种基于多层次语义胶囊路由的反讽检测方法，其特征在于步骤(1)具体：使用glove.840B.300d的词向量文件把SARC数据集中的网络评论和上下文进行词向量嵌入，获得一个维度为300维的词向量矩阵。

3.根据权利要求2所述的一种基于多层次语义胶囊路由的反讽检测方法，其特征在于步骤(3)中，利用CNN网络模型对步骤(2)获得的网络评论的隐藏层特征进行Max-pooling操作，获得网络评论的池化特征。

4.根据权利要求3所述的一种基于多层次语义胶囊路由的反讽检测方法，其特征在于步骤(4)所述的把网络评论的池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移，获得新的隐藏层特征Ⅰ，具体实现如下：

4-1.使用网络评论的池化特征对上下文的隐藏层特征进行词向量的偏移，具体：使用缩放点积的注意力机制，将注意力机制描述为将query和key映射到单词级别的权重上；

其中，

是上下文的隐藏层特征，

是网络评论的池化特征，它们的向量维度都是2d_l；

的向量维度是2d_l*d_k；

4-2.网络评论和上下文的交互注意力权重计算如下：

为了确保

的每个维度之间的参数差距比较大，引入

作为比例因子；

4-3.根据公式(12)获得新的隐藏层特征Ⅰ；

5.根据权利要求4所述的一种基于多层次语义胶囊路由的反讽检测方法，其特征在于步骤(5)把池化特征与SenticNet中获得的情感权重相结合，获得新的隐藏层特征Ⅱ，具体如下：

使用SenticNet获得网络评论中每个单词对应的情感权重，然后使用注意力机制把网络评论的情感权重与步骤(2)中获得的网络评论的隐藏层特征进行权重偏移，获得新的隐藏层特征Ⅱ。

6.根据权利要求5所述的一种基于多层次语义胶囊路由的反讽检测方法，其特征在于步骤(6)：把步骤(4)和步骤(5)的输出的隐藏层特征Ⅰ和隐藏层特征Ⅱ作为输入，创建低层次的语义胶囊；低层次的语义胶囊i包含激活概率和高层次输出两个部分；为了获得高层次的语义胶囊j，对低层次的语义胶囊i进行EM路由，它的具体过程实现如下：

6-1.首先利用公式(13)、公式(14)和公式(15)计算出低层次语义胶囊i到高层次语义胶囊j的均值和方差：

Vote_ij＝G_iW_ij#(13)