CN113535894B

CN113535894B - 基于条件融合的多模态反讽检测方法

Info

Publication number: CN113535894B
Application number: CN202110659973.6A
Authority: CN
Inventors: 姜明; 王晶晶; 张旻
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2022-09-13
Anticipated expiration: 2041-06-15
Also published as: CN113535894A

Abstract

本发明公开了一种基于条件融合的多模态反讽检测方法。本发明具体步骤：步骤1、对需要进行反讽检测的数据文本进行预训练；对数据文本对应的视频和音频进行编码，得到视频特征和音频特征；步骤2、将处理好的数据文本馈送到编码器TE中；将数据的视频特征和音频特征通过多头注意力机制获得与情感相关的语境信息；步骤3、将语境信息以增量参数的形式加入到编码器的层归一化的增益g和偏置b中，将视频、音频特征融合到文本特征中，获得融合后的语义编码；步骤4、将语义编码通过softmax层进行讽刺的极性分类；本发明方法具有更好的鲁棒性和检测能力，解决了评论文本中的反讽检测问题。

Description

基于条件融合的多模态反讽检测方法

技术领域

本发明涉及反讽检测领域，具体涉及一种基于条件融合的多模态反讽检测方法。

背景技术

情感分析结果会受到很多因素的影响，当文本存在反语或讽刺内容时，就会翻转句子的情感极性，这就需要使用反讽检测方法，其旨在检测文本中是否含有讽刺内容。

现有的研究大多是基于单一文本模态进行的，模型通过寻找句子中相互矛盾的情感来检测讽刺。在很多场景中，通过文本模态的语言表达不足以找到讽刺的语义线索，而通过与文本对应的视频、语音模态结合可以挖掘出讽刺语义。

发明内容

本发明的目的是针对现有的反讽检测方法的不足，提出了一种基于多层Transformer编码器架构的多模态反讽检测模型(CF-MSD)。为了让多模态特征信息能更有效的融合，针对Transformer编码器的归一化层提出了一种条件归一化方法，将视频、语音特征通过多头注意力机制获得与情感相关的语境信息，然后以增量参数的形式加入到原始归一化层的增益g(gain)和偏置b(bias)中，再通过Transformer编码器的层层迭代，将视频、语音等模态特征融合到文本模态特征中，得到融合后的语义编码，用以来判断目标对话是否含有讽刺。

本发明具体实现步骤如下：

步骤1、对需要进行反讽检测的数据文本进行预训练；对数据文本对应的视频和音频进行编码，得到视频特征和音频特征；

步骤2、将处理好的数据文本发送到编码器TE中；将数据的视频特征和音频特征通过多头注意力机制获得与情感相关的语境信息；

步骤3、将语境信息以增量参数的形式加入到编码器的层归一化的增益g和偏置b中，将视频、音频特征融合到文本特征中，获得融合后的语义编码；

步骤4、将语义编码通过softmax层进行讽刺的极性分类；

步骤1具体实现如下：

1.1对于数据文本，每条训练数据都包含上下文对话Context和目标对话Target，将上下文对话和目标对话联合作为Transformer编码器的输入X，计算方式如下：

X＝Context+Target (1)

1.2使用Ekphrasis分词工具对输入X进行分词，然后预训练一个Word2vec模型来学习每个词的语义特征以获得词向量表示；

1.3对于数据文本对应的音频，通过使用librosa库，提取音频的基础特征；每段音频被切成不重合的小窗，提出不同特征拼接后将每段小窗取平均，对于整段音频就能够得到一个283维的向量；

1.4对于数据文本对应的视频，在抽帧后放入一个由ImageNet预训练好的Resnet-152网络进行提取，然后对视频抽帧取平均，获得一个2048维的向量。

进一步的，步骤2具体实现如下：

2.1输入序列X发送到Transformer编码器，首先会先经过第一层的多头注意力机制，该多头注意力机制将Head数设置为12，从而生成12个不同的特征矩阵；由于最后的输出矩阵要与输入矩阵大小一致，因此，得到的特征矩阵会按第二个维度拼接起来；然后经过第二层全连接层后得到多头注意力机制层的输出矩阵Z；最后，将Z与X融合得到矩阵R₁，用于后面层归一化的操作；其计算过程如下：

Z＝MultiHead(Q,K,V)＝[head₁；...；head_h]W^O (2)

R₁＝Z+X (5)

其中，

分别是查询Q、键K、值V以及多头注意力机制输出矩阵的投影矩阵，h是多有注意力机制的头数，head_i是第i个注意力的输出；

2.2在每个Transformer编码器(TE)的子层中都使用两个关系记忆模块RM；RM的核心内容是使用了多头注意力机制，将来自层归一化的输入向量R_t作为查询Q，视频特征和音频特征联合成F＝{f₁,f₂,…,f_n}作为键K和值V，通过Query和Key的相似度来获得关键的特征信息H_t，并将特征信息通过MLP变换为△g_t和△b_t，此△g_t和△b_t将在下一小节中作为条件融入到原始层归一化的g和b中；其次，将RM模块集成到Transformer编码器中，随着多个Transformer编码器的层层叠加，RM模块会不断地从上一层的交互信息中保存有效信息并进一步提取更深层次的抽象信息用于调节Transforme编码器中文本模态的语境信息提取；其计算过程如下：

H_t＝f_multi-head(R_t,F) (6)

△g_t＝f_mlp(H_t) (7)

△b_t＝f_mlp(H_t) (8)

其中，R_t为层归一化的输入向量，当t＝1时，R₁＝Z+X；当t＝0时，R₀＝X，即第一次的Query为输入序列X。

进一步的，步骤3具体实现如下：

3.1在Transformer编码器使用的是层归一化LN，特征x通过μ和σ，得到归一化后的值为x′，公式可表示为：

其中，μ和σ分别表示归一化统计量均值和方差，ε是一个很小的小数，防止除0；

在层归一化LN，也需要一组参数来保证归一化操作不会破坏之前的信息，这组参数叫做增益g(gain)和偏置b(bias)，LN的输出可表示为：

f_LN(x′)＝g☉x′+b (10)

合并上述两个公式，LN层最终输出可表示为：

将辅助特征信息△g_t和△b_t集成到Transformer编码器中原始LN的g和b中去，形成条件LN；为了防止扰乱原来的预训练权重，两个变换矩阵全零初始化，这样在初始状态，模型依然保持跟原来的预训练模型一致；公式如下：

在该Transformer编码器中，特征x为层归一化的输入向量R_t，则通过LN之后获得的特征结果如下：

其中，R_t为上一层的输出；μ和σ是分别是平均值和方差；

在Transformer编码器中，RM模块会集成到所有的编码层中，将编码层中的归一化都加入条件输入形成条件归一化层，用来动态调节TE中的编码过程。

进一步的，步骤4具体实现如下：

4.1当多个Transformer编码器的层层叠加时，上一层编码器的输出直接用作下一层编码器的输入；由于训练分类器需要向量表示，在最后一层编码器的输出S上应用了全局平均池化；池化向量G∈R^d用作单层前馈网络的输入，其输出层是计算任务P＝{0,1}的两类上的概率分布，公式可表示为：

O＝softmax(max(0,GW₁+b₁)W₂+b₂) (15)

其中

是P上的概率分布，

是应用在G上的隐藏层的权重矩阵，

是输出层的权重矩阵；采用加权交叉熵作为网络训练的损失函数。

本发明的优点及有益效果如下：

本发明主要是为了解决评论文本中的反讽检测问题。在情感分析的过程中经常遇到反讽表达。反讽属于非正式表达方式，作为一种特殊的修辞手法，在情感分析过程中容易被忽略。如果句子中没有明确冲突的情感词作为判别依据，就需要从外部信息入手，通过推断用户背景等上下文的方式进行反讽检测。一旦忽略反讽表达背后的真实态度，就会对句子的情感倾向造成误判。

基于上下文无关的文本(即，反讽检测只对单一的目标语句)进行的反讽检测模型的应用场景非常有限，这是因为目标语句中是否含有讽刺含义离不开上下文语境信息，因此，利用对话中的上下文语境信息可以有效的提高反讽检测的准确性(基于上下文有关的反讽检测)。另一方面，除了上下文语境信息之外，其他模态的信息也会为反讽检测提供非常重要的辅助信息。首先，说话者的语调通常会有明显的变化，这仅当听到说话人的声音时，才能发现原本看似简单的文本其实是包含讽刺含义。其次，讽刺的另一个标志是对特定单词的过度强调。

本发明提出了一种条件归一化的方法将提取的多模态特征信息进行有效的融合。具体而言，该模型的核心模块包含两个部分，Tranformer编码器(TE，TransformerEncoder)和集成到TE中的关系记忆模块(RM，Renational Memory)。关系记忆模块用于其他模态和文本模态进行建模，提取与TE模块的隐层状态信息(语境信息)相关的其他跨模态(视频和音频)交互信息。TE模块用于对文本模态进行建模，通过多层叠加的编码器来提取文本中的深层次语境信息，本文提出将每层编码层中的无条件归一化替换成条件归一化的方法融合RM模块的跨模态交互信息和文本的隐层信息。条件归一化的融合方式可以有效地融合其他模态特征与文本模态特征，且不会影响文本模态中提取到的某些核心信息。最后通过获取的语义编码来判断目标对话是否含有讽刺。

附图说明

图1是本发明所述方法的流程框图。

图2是本发明所述模型方法的架构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，基于上下文感知嵌入的细粒度情感分析方法，包括以下步骤：

步骤1、对需要进行反讽检测的数据文本进行预训练；对数据文本对应的视频和音频进行编码，得到视频特征和音频特征。

步骤2、将处理好的数据文本发送到编码器TE中；将数据的视频特征和音频特征通过多头注意力机制获得与情感相关的语境信息。

步骤3、将语境信息以增量参数的形式加入到编码器的层归一化的增益g和偏置b中，将视频、音频特征融合到文本特征中，获得融合后的语义编码。

步骤4、将语义编码通过softmax层进行讽刺的极性分类。

步骤1具体实现如下：

1.1对于数据文本，每条训练数据都包含上下文对话(Context)和目标对话(Target)，本文将上下文对话和目标对话联合作为模型的输入X，计算方式如下：

X＝Context+Target

1.2使用Ekphrasis分词工具对输入X进行分词，然后预训练一个Word2vec模型来学习每个词的语义特征以获得词向量表示。

1.3对于数据文本对应的音频，通过使用librosa库，提取了音频的基础特征，如MFCC，过零率等。每段音频被切成不重合的小窗，提出不同特征拼接后将每段小窗取平均，对于整段音频就可以得到一个283维的向量。

1.4对于数据文本对应的视频，在抽帧后放入一个由ImageNet预训练好的Resnet-152网络进行提取，然后，对视频抽帧取平均，获得一个2048维的向量。

进一步的，步骤2具体实现如下：

2.1模型将输入序列X发送到编码器中，会先经过第一层的多头注意力机制(本方法中将Head数设置为12来生成12个不同的特征矩阵)，由于最后的输出矩阵要与输入矩阵大小一致，因此，得到的特征矩阵会按第二个维度拼接起来，然后经过第二层全连接层后得到多头注意力机制层的输出矩阵Z，最后，将Z与X融合得到矩阵R₁，用于后面层归一化的操作。其计算过程如下：

Z＝MultiHead(Q,K,V)＝[head₁；...；head_h]W^O

R₁＝Z+X

其中，

分别是查询Q、键K、值V以及多头注意力机制输出矩阵的投影矩阵，h是多有注意力机制的头数，head_i是第i个注意力的输出。

2.2在每个TE层的子层中都使用了两个关系记忆模块(RM)。RM的核心内容是使用了多头注意力机制，将来自层归一化的输入向量R_t作为查询Q(Query)，视频特征和音频特征联合成F＝{f₁,f₂,…,f_n}作为键K(Key)和值V(Value)，通过Query和Key的相似度来获得关键的特征信息H_t，并将特征信息通过MLP变换为△g_t和△b_t，此△g_t和△b_t将在下一小节中作为条件融入到原始层归一化的g和b中。其次，将RM模块集成到TE模块中，随着TE模块中编码器的层层叠加，RM模块会不断地从上一层的交互信息中保存有效信息并进一步提取更深层次的抽象信息用于调节编码器中文本模态的语境信息提取。其计算过程如下：

H_t＝f_multi-head(R_t,F)

△g_t＝f_mlp(H_t)

△b_t＝f_mlp(H_t)

其中，R_t为层归一化的输入向量，例如，当t＝1时，R₁＝Z+X，特别的，当t＝0时，R₀＝X，即第一次的Query为输入序列X。

进一步的，步骤3具体实现如下：

3.1在TE中使用的是层归一化(LN，Layer Normalization)，LN是一个独立于batchsize的算法，所以无论样本数多少都不会影响参与LN计算的数据量。可以计算LN的归一化统计量均值μ和方差σ，统计量的计算是和样本数量没有关系的，它的数量只取决于隐层节点的数量，所以只要隐层节点的数量足够多，就能保证LN的归一化统计量足够具有代表性。特征x通过μ和σ，可以得到归一化后的值为x′，公式可表示为：

其中，ε是一个很小的小数，防止除0。

在LN中，也需要一组参数来保证归一化操作不会破坏之前的信息，这组参数叫做增益g(gain)和偏置b(bias)，LN的输出可表示为：

f_LN(x′)＝g☉x′+b

合并上述两个公式，LN层最终输出可表示为：

对于Transformer编码器来说，已经有现成的、无条件的g和b了，它们都是长度固定的向量。本文将辅助特征信息△g_t和△b_t集成到TE中无条件LN的g和b中去，形成条件LN。为了防止扰乱原来的预训练权重，两个变换矩阵可以全零初始化，这样在初始状态，模型依然保持跟原来的预训练模型一致。公式如下：

在此模型中，特征x为归一化层的输入向量R_t，则通过LN之后获得的特征结果如下：

其中，R_t为上一层的输出；μ和v是分别是平均值和方差。

在TE中，RM模块会集成到所有的编码层中，将编码层中的归一化都加入条件输入形成条件归一化层，用来动态调节TE中的编码过程。

进一步的，步骤4具体实现如下：

4.1当在TE中堆叠多个编码器时，编码器的输入直接用作下一个编码器的输入。由于训练分类器需要向量表示，在最后一个编码器的输出S上应用了全局平均池化。池化向量G∈R^d用作单层前馈网络的输入，其输出层是计算任务P＝{0,1}的两类上的概率分布，公式可表示为：

O＝softmax(max(0,GW₁+b₁)W₂+b₂)

其中

是P上的概率分布，

是应用在G上的隐藏层的权重矩阵，

是输出层的权重矩阵。针对实验语料库的不平衡性，考虑到训练集中每个类的分布情况，采用加权交叉熵作为网络训练的损失函数。公式可表示为：

其中

是数据集，

是损失函数，f是由θ参数化的模型。我们使用Adam作为更新规则，Noam作为学习速率衰减的模式。

Claims

1.基于条件融合的多模态反讽检测方法，其特征在于包括如下步骤：

步骤4、将语义编码通过softmax层进行讽刺的极性分类；

步骤1具体实现如下：

X＝Context+Target (1)

1.4对于数据文本对应的视频，在抽帧后放入一个由ImageNet预训练好的Resnet-152网络进行提取，然后对视频抽帧取平均，获得一个2048维的向量；

步骤2具体实现如下：

Z＝MultiHead(Q,K,V)＝[head₁；...；head_h]W^O (2)

R₁＝Z+X (5)

其中，

分别是查询Q、键K、值V以及多头注意力机制输出矩阵的投影矩阵，h是多头注意力机制的头数，head_i是第i个注意力的输出；

2.2在每个Transformer编码器的子层中都使用两个关系记忆模块RM；RM的核心内容是使用了多头注意力机制，将来自层归一化的输入向量R_t作为查询Q，视频特征和音频特征联合成F＝{f₁,f₂,…,f_n}作为键K和值V，通过Query和Key的相似度来获得关键的特征信息H_t，并将特征信息通过MLP变换为△g_t和△b_t，此△g_t和△b_t将作为条件融入到原始层归一化的g和b中；其次，将RM模块集成到Transformer编码器中，随着多个Transformer编码器的层层叠加，RM模块会不断地从上一层的交互信息中保存有效信息并进一步提取更深层次的抽象信息用于调节Transforme编码器中文本模态的语境信息提取；其计算过程如下：

H_t＝f_multi-head(R_t,F) (6)

△g_t＝f_mlp(H_t) (7)

△b_t＝f_mlp(H_t) (8)

2.根据权利要求1所述的基于条件融合的多模态反讽检测方法，其特征在于步骤3具体实现如下：