CN113806609B

CN113806609B - 一种基于mit和fsm的多模态情感分析方法

Info

Publication number: CN113806609B
Application number: CN202111128257.1A
Authority: CN
Inventors: 李祖贺; 郭青冰; 王艳军; 马江涛; 王凤琴; 张秋闻; 黄伟; 钱晓亮; 张焕龙
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-07-12
Anticipated expiration: 2041-09-26
Also published as: CN113806609A

Abstract

本发明提出了一种基于MIT和FSM的多模态情感分析方法，用以解决现有多模态情感分析方法在融合多模态信息时的技术性问题；其步骤为：首先，分别对文本模态数据、语音模态数据和视频模态数据进行预处理，提取文本特征向量、语音特征向量和视频特征向量；其次，将三个特征向量依次进行组合后分别输入Multimodal Interactive Transformer中进行辅助学习，分别得到三个学习后的特征矩阵；最后，将三个学习后的特征矩阵输入Feature Soft Mapping中映射到统一的语义空间中进行融合，得到融合特征；并将融合特征输入分类层，获取情感预测结果。本发明所提出的多模态情感分析模型能够充分考虑多种模态信息之间的关联，有助于在数据融合后进行情感分类。

Description

一种基于MIT和FSM的多模态情感分析方法

技术领域

本发明涉及多模态情感分析技术领域，特别是指一种基于MIT和FSM的多模态情感分析方法。

背景技术

在创新2.0的时代背景下，多模态数据成为网络中的主流数据，不同情感粒度的多模态信息被情感主体并行地向外传播，这使得基于文本词性分析的传统情感分析方法难以适应而导致失败。多模态数据的融合已经成为制约多模态情感分析领域发展的瓶颈，必须设计一种在传统情感分析基础上加入多模态数据融合的新方法，保证多模态情感分析算法的鲁棒性。

目前多模态融合算法研究主要分为两类：基于特征融合方法和基于决策融合方法。基于特征融合方法将各模态的特征向量融合为一个多模态特征向量后再进行情感判断，这种方法能够抓取低级表征信息之间的关联。基于决策融合独立学习不同模态的信息进行局部情感分析，再将结果进行融合以获得最终的决策。这种融合方法能够针对各个模态语义空间的不同各自设计特征提取方法，以获取最优局部决策。上述方法存在两个明显问题：(1)多模态数据融合后仅能融合低级表征信息，无法捕获不同主体之间的情感互动；(2)不同模态之间存在语义空间屏障，无法令多模态信息之间进行语义交融。

因此，必须寻找一种既能捕获不同主体之间情感互动，又能打破语义空间屏障进行语义交融的融合方法，来保证多模态情感分析算法的性能。

发明内容

针对现有多模态情感分析方法在融合多模态信息时的技术性问题，本发明提出一种基于MIT和FSM的多模态情感分析方法，利用Multimodal Interactive Transformer能够捕捉模态之间的关联，Feature Soft Mapping机制能够将特征向量映射到统一的语义空间中，以打破语义空间屏障实现多模态信息的融合；结合两者所提出的多模态情感分析模型能够充分考虑多种模态信息之间的关联，有助于在数据融合后进行情感分类。

本发明的技术方案是这样实现的：

一种基于MIT和FSM的多模态情感分析方法，其步骤如下：

步骤一：分别对文本模态数据、语音模态数据和视频模态数据进行预处理，提取文本特征向量、语音特征向量和视频特征向量；

步骤二：从文本特征向量、语音特征向量和视频特征向量对应的模态中选择一个模态作为主要模态，其余两个模态作为辅助模态进行组合，得到三个组合，并将三个组合分别输入Multimodal Interactive Transformer中进行辅助学习，分别得到三个学习后的特征矩阵；

步骤三：将三个学习后的特征矩阵输入FeatureSoft Mapping中映射到统一的语义空间中进行融合，得到融合特征；

步骤四：将融合特征输入分类层，获取情感预测结果。

优选地，所述对文本模态数据进行预处理，提取文本特征向量的方法为：将文本模态数据进行分词处理，获取有效单词，并统计有效单词出现的频次作为共现矩阵X的元素x_(i,j)；使用GloVe模型将共现矩阵X嵌入到300维的文本特征向量中；其中，共现矩阵X的维度为z×z，z为独立词汇的个数，x_(i,j)表示单词i和单词j出现在同一个窗口中的次数。

优选地，所述对语音模态数据进行预处理，提取语音特征向量的方法为：将语音模态数据以40ms为时间刻度，把连续的音频信号在时间刻度内的多个采样点集合为一个讯框，通过一个高通滤波器对音频信号进行预强化以补偿语音信号中的高频部分，利用傅里叶变化将音频信号从时域转化到频域；在每个梅尔刻度上提取对数能量以后再进行离散傅里叶反变换，获取80维的语音特征向量。

优选地，所述对视频模态数据进行预处理，提取视频特征向量的方法为：将视频模态数据的每一帧图像的大小都缩放到112×112，对于RGB三通道的视频数据来说，每一帧图像的大小为112×112×3；使用大小为3×3×3的卷积核提取每一帧图像的特征，且将卷积核移动的步幅设置为7；三个通道的卷积结果相加，得到每帧图像提取出的大小为256维的视频特征向量。

优选地，所述将文本特征向量、语音特征向量和视频特征向量作为一个整体分别输入Multimodal Interactive Transformer中进行辅助学习的方法为：

A.文本特征向量对应的模态为主要模态x，语音特征向量和视频特征向量对应的模态为辅助模态y和z；

S2.1、将主要模态x的Key向量和Value向量记为K_x与V_x，将辅助模态y和z的Query向量分别记为Q_y与Q_z；

S2.2、计算K_x与Q_y的标准内积来获取主要模态x与辅助模态y的相似度权重，并对主要模态x与辅助模态y的相似度权重使用Softmax函数进行归一化，再利用归一化后的相似度权重对V_x进行加权求和；具体计算公式为：

其中，d表示特征向量的维度；

S2.3、计算每一次操作后的head：

其中，head_i'表示第i'个head的计算结果，

表示第i'个head计算时Q_y的权重，

表示第i'个head计算时K_x的权重，

表示第i'个head计算时V_x的权重，i'＝1,2,…,h，h为步骤S2.2的操作次数；

S2.4、将h次的结果进行拼接和线性变化即可得到主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果，表达式为：

MHGA(Q_y,K_x,V_x)＝Concat(head₁,...,head_h)W^O；

其中，Concat(·)为拼接操作，W^O表示给拼接后的值赋予的权重；

S2.5、将K_x、V_x和Q_z按照步骤S2.2至S2.4的操作方法，获得主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果；

S2.6、将主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果记为张量t₁，将主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果记为张量t₂；

S2.7、使用笛卡尔积的跟随向量场定义二维张量融合网络，表示为：

其中，坐标(t₁，t₂)是由两个张量嵌入维度[t₁ 1]^T和[t₂ 1]^T定义的笛卡尔平面中的一个点，利用如下公式计算两个张量的融合结果：

其中，t表示融合后的张量；

S2.8、将融合后的张量t输入由全连接层和非线性激活函数组成的前向传播层进行一次残差变化和归一化变换，得到文本特征向量对应的学习后的特征矩阵F_text：

F_text＝LayerNorm(t+Sublayer(t))；

其中，LayerNorm(·)为归一化变换函数，Sublayer(·)为残差变化函数；

B.语音特征向量对应的模态为主要模态x，文本特征向量和视频特征向量对应的模态为辅助模态y和z；按照步骤S2.1至S2.8的操作方式执行，得到语音特征向量对应的学习后的特征矩阵F_audio；

C.视频特征向量对应的模态为主要模态x，文本特征向量和语音特征向量对应的模态为辅助模态y和z；按照步骤S2.1至S2.8的操作方式执行，得到视频特征向量对应的学习后的特征矩阵F_video。

优选地，所述将三个学习后的特征向量输入Feature Soft Mapping中映射到统一的语义空间中进行融合的方法为：

S3.1、分别对特征矩阵F_text、F_audio、F_video进行尺寸变换，得到三个新的特征矩阵，分别为M₁、M₂、M₃，其中，M₁、M₂、M₃的维度大小均为2k×k；

S3.2、利用大小为1×2k的向量v_q分别与每个新的特征矩阵M_q相乘后再利用Softmax函数进行归一化处理，得到大小为1×k的向量a_q：

a_q＝softmax(v_qM_q)；

其中，q∈{1,2,3}；

S3.3、将所有向量a_q进行加权求和，并将求和结果进行整合，得到大小为k的向量m：

其中，w_q为权重；

S3.4、m为视频序列上单个节点上的计算结果，将整个视频序列的所有节点的结果进行堆叠得到融合特征：

其中，s为融合特征，m_j'为第j'个节点的向量，j'＝0,1,…,N，N为视频的节点数，Stacking(·)为拼接操作。

优选地，所述情感预测结果的表达式为：

y～p＝w_s(LayerNorm(s))；

其中，y～p为预测分类结果，w_s为分类层的权重，LayerNorm(·)表示归一化变换函数。

与现有技术相比，本发明产生的有益效果为：本发明从三个模态的原始数据中提取特征向量；将三个模态的特征向量分别复制三份，按作用不同记为Query(Q)向量、Key(K)向量、Value(V)向量；分别选择一个模态作为主要模态x，两个模态作为辅助模态y、z进行组合，将三个组合传入三个Multimodal Interactive Transformer框架中；将MultimodalInteractive Transformer框架输出的结果传入Feature Soft Mapping中进行融合；将融合后的结果传入分类层获取最终情感预测结果。本发明将Guided-Attention技术引入到Transformer编码框架中，给多模态融合方法的研究指出了一个新的研究思路；FeatureSoft Mapping机制将特征向量映射到统一的语义空间，能够在融合时有效获取多模态语义交融信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体模型示意图。

图2为本发明所述Multimodal Interactive Transformer框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于MIT和FSM的多模态情感分析方法，引入Guided-Attention思路改良传统Transformer编码框架，所得到的MultimodalInteractive Transformer框架不但能够融合低级表征信息，还能够捕获不同主体之间的情感互动，给多模态融合方法的研究指出了一个新的研究思路；提出Feature SoftMapping机制，Feature Soft Mapping机制将特征向量映射到统一的语义空间中，打破不同模态之间的语义空间屏障，能够在融合时有效令多模态信息之间进行语义交融；具体步骤如下：

步骤一：从完整视频中提取视频中的文字、声音和视频画面，获得了文本模态数据、语音模态数据和视频模态数据这三种数据；分别对文本模态数据、语音模态数据和视频模态数据进行预处理，提取文本特征向量、语音特征向量和视频特征向量；对于文本模态数据的处理过程分为两个部分：首先要对原始文本数据进行分析，构造一个针对词的共现矩阵；然后基于矩阵的分布表示，利用单词之间的关联对共现矩阵进行分解从而得到单词的表示向量。具体来讲，将文本模态数据进行分词处理，获取有效单词，并统计有效单词出现的频次作为共现矩阵X的元素x_(i,j)；使用GloVe模型将共现矩阵X嵌入到300维的文本特征向量中；其中，共现矩阵X的维度为z×z，z为独立词汇的个数，x_(i,j)表示单词i和单词j出现在同一个窗口中的次数。

对于语音模态数据的处理是将语音模态数据以40ms为时间刻度，把连续的音频信号在时间刻度内的多个采样点集合为一个讯框，通过一个高通滤波器对音频信号进行预强化以补偿语音信号中的高频部分，利用傅里叶变化将音频信号从时域转化到频域来观察能量部分状况；接下来将每个讯框获得的频谱经过梅尔滤波器过滤掉人耳无法分辨的频率信息，在每个梅尔刻度上提取对数能量以后再进行离散傅里叶反变换，获取80维的语音特征向量。

对于视频模态数据逐帧进行处理，将视频模态数据的每一帧图像的大小都缩放到112×112，对于RGB三通道的视频数据来说，每一帧图像的大小为112×112×3；使用大小为3×3×3的卷积核提取每一帧图像的特征，且将卷积核移动的步幅设置为7((112-7)/7+1＝16)；三个通道的卷积结果相加，得到每帧图像提取出的大小为256维的视频特征向量(16*16＝256)。

Multimodal Interactive Transformer中的实现步骤为：

其中，d表示特征向量的维度；

S2.3、上述操作一共进行h次，每次视为一个head，为了使内积不会过大，通常会将计算出的相似度权重除以K的维度，且每个head中线性变换的参数W都是不相同的；计算每一次操作后的head：

其中，head_i'表示第i'个head的计算结果，

表示第i'个head计算时Q_y的权重，

表示第i'个head计算时K_x的权重，

MHGA(Q_y,K_x,V_x)＝Concat(head₁,...,head_h)W^O；

S2.6、将主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果记为张量t₁，将主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果记为张量t₂；张量t₁、t₂均为一维张量。

S2.7、将主要模态x分别与辅助模态y、z经过Multi-Head Guided-Attention后的两个张量t₁、t₂传入二维张量融合网络(TFN)融合获取低级表征融合信息；使用笛卡尔积的跟随向量场定义二维张量融合网络，表示为：

其中，t表示融合后的张量，张量t为二维张量。

S2.8、将融合后的张量传入到由全连接层和非线性激活函数组成的前向传播层(FFN)；将融合后的张量t输入由全连接层和非线性激活函数组成的前向传播层进行一次残差变化和归一化变换，得到文本特征向量对应的学习后的特征矩阵F_text：

F_text＝LayerNorm(t+Sublayer(t))；

其中，LayerNorm(·)为归一化变换函数，Sublayer(·)为残差变化函数。

三个数据模态通过三个结构一样的Multimodal Interactive Transformer来处理，输出三个二维张量(也就是矩阵)。

步骤三：将三个学习后的特征矩阵输入Feature Soft Mapping中映射到统一的语义空间中进行融合，得到融合特征；

Feature Soft Mapping机制实现的方法为：

a_q＝softmax(v_qM_q)；

其中，q∈{1,2,3}；

其中，w_q为权重；

步骤四：将融合特征输入分类层，获取情感预测结果。所述情感预测结果的表达式为：

y～p＝w_s(LayerNorm(s))；

本发明的实施步骤如下：从三个模态的原始数据中提取特征向量；将三个模态的特征向量分别复制三份，按作用不同记为Query(Q)向量、Key(K)向量、Value(V)向量；分别选择一个模态作为主要模态x，两个模态作为辅助模态y、z进行组合，将三个组合分别输入Multimodal Interactive Transformer框架中；将结果传入Feature Soft Mapping中进行融合；将融合后的结果传入分类层获取最终情感预测结果。

采用定量评价方式来评价本发明的有效性，本发明方法和各种代表性方法在CMU-MOSEI数据集上的准确率和F1分数比较结果如表1所示。准确率是指样本预测结果中情感分类正确的数量与全部样本数量的比值，其值越大说明预测效果越好。F1分数是精确率和召回率的调和平均数，其值越大说明预测效果越好。本发明方法与MV-LSTM、Graph-MFN、RAVEN、CIM-MTL相比，在情感2分类准确率和F1分数方面都取得了更好的表现。

表1本发明方法与其他方法在CMU-MOSEI数据集上的比较结果

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于MIT和FSM的多模态情感分析方法，其特征在于，其步骤如下：

辅助学习的方法为：

其中，d表示特征向量的维度；

S2.3、计算每一次操作后的head：

head_i'＝Guided-Attention(Q_yW_i' ^Q,K_xW_i' ^k,V_xW_i' ^V)；

其中，head_i'表示第i'个head的计算结果，W_i' ^Q表示第i'个head计算时Q_y的权重，W_i' ^k表示第i'个head计算时K_x的权重，W_i' ^V表示第i'个head计算时V_x的权重，i'＝1,2,…,h，h为步骤S2.2的操作次数；

MHGA(Q_y,K_x,V_x)＝Concat(head₁,...,head_h)W^O；

其中，t表示融合后的张量；

F_text＝LayerNorm(t+Sublayer(t))；

C.视频特征向量对应的模态为主要模态x，文本特征向量和语音特征向量对应的模态为辅助模态y和z；按照步骤S2.1至S2.8的操作方式执行，得到视频特征向量对应的学习后的特征矩阵F_video；

步骤三：将三个学习后的特征矩阵输入FeatureSoft Mapping中映射到统一的语义空间中进行融合，得到融合特征；融合方法为：

a_q＝softmax(v_qM_q)；

其中，q∈{1,2,3}；

其中，w_q为权重；

其中，s为融合特征，m_j'为第j'个节点的向量，j'＝0,1,…,N，N为视频的节点数，Stacking(·)为拼接操作；

步骤四：将融合特征输入分类层，获取情感预测结果。

2.根据权利要求1所述的基于MIT和FSM的多模态情感分析方法，其特征在于，所述对文本模态数据进行预处理，提取文本特征向量的方法为：将文本模态数据进行分词处理，获取有效单词，并统计有效单词出现的频次作为共现矩阵X的元素x_(i,j)；使用GloVe模型将共现矩阵X嵌入到300维的文本特征向量中；其中，共现矩阵X的维度为z×z，z为独立词汇的个数，x_(i,j)表示单词i和单词j出现在同一个窗口中的次数。

3.根据权利要求1所述的基于MIT和FSM的多模态情感分析方法，其特征在于，所述对语音模态数据进行预处理，提取语音特征向量的方法为：将语音模态数据以40ms为时间刻度，把连续的音频信号在时间刻度内的多个采样点集合为一个讯框，通过一个高通滤波器对音频信号进行预强化以补偿语音信号中的高频部分，利用傅里叶变化将音频信号从时域转化到频域；在每个梅尔刻度上提取对数能量以后再进行离散傅里叶反变换，获取80维的语音特征向量。

4.根据权利要求1所述的基于MIT和FSM的多模态情感分析方法，其特征在于，所述对视频模态数据进行预处理，提取视频特征向量的方法为：将视频模态数据的每一帧图像的大小都缩放到112×112，对于RGB三通道的视频数据来说，每一帧图像的大小为112×112×3；使用大小为3×3×3的卷积核提取每一帧图像的特征，且将卷积核移动的步幅设置为7；三个通道的卷积结果相加，得到每帧图像提取出的大小为256维的视频特征向量。

5.根据权利要求1所述的基于MIT和FSM的多模态情感分析方法，其特征在于，所述情感预测结果的表达式为：

y～p＝w_s(LayerNorm(s))；