CN115659242A

CN115659242A - 一种基于模态增强卷积图的多模态情感分类方法

Info

Publication number: CN115659242A
Application number: CN202211377291.7A
Authority: CN
Inventors: 孔万增; 倪斌斌; 唐佳佳; 杨宇涛; 戴玮成; 朱莉
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-01-31

Abstract

本发明公开一种基于模态增强卷积图的多模态情感分类方法。本发明提出了一个新的模态增强融合框架，它基于图卷积神经网络，为融合未对齐的多模态序列提供了一个有效的方法。在文本模态的帮助下，首先使用多模态增强模块来增强视觉和听觉模态以获得具有更强情感鉴别性的模态信息，从而帮助后续的聚合过程。此外，还构建了文本驱动的多模态特征图来进行模态融合，这可以有效地处理图卷积聚合过程中各模态之间的不平衡问题。最后将模态增强卷积图中提取的融合信息整合到文本表征中，从而动态地将原始文本表征向最准确的多模态语义空间转化。相比于现有多模态融合方法，本发明的结果更优。

Description

一种基于模态增强卷积图的多模态情感分类方法

技术领域

本发明属于自然语言处理、语音、视觉交叉领域内的多模态情感识别领域，具体涉及一种基于模态增强卷积图的多模态情感分类方法，具体是通过一种基于文本驱动的图卷积网络以及注意力机制的融合网络技术，去判断被试情感状态的方法。

背景技术

随着多媒体技术的快速发展，多模态情感分析已经成为一个热门话题，如何对不同模态的数据进行高效的情感分析是人工智能的一大挑战。与单个模态的情感分析相比，多模态情感分析可以帮助更有效、更准确地理解数据背后的情感，因此被广泛用于情感分析任务中。一般来说，不同的模态作为一种补充，可以更好地弥补语义和情感的分歧。

然而，以前的研究在多模态学习任务中得到的融合结构是一个三元对称结构，其中双向跨模态的建模方式是相同的。值得注意的是，在以前的许多研究中发现分布在三种模态中的关键信息是不平衡的，其中文本模态与其他模态(视觉和听觉)相比包含更多的情感信息。因此，在不考虑这三种模态的相对重要性的前提下，并不能正确地整合它们，从而影响最终的任务表现。

发明内容

本发明的第一个目的是针对现有技术的不足，提出一种基于模态增强卷积图的多模态情感分类方法。本发明提出了一个新的模态增强融合框架，基于图卷积神经网络，为融合未对齐的多模态序列提供了一个有效的方法。在文本模态的帮助下，首先使用多模态增强模块来增强视觉和听觉模态以获得具有更强情感鉴别性的模态信息，从而帮助后续的聚合过程。此外，还构建了文本驱动的多模态特征图来进行模态融合，这可以有效地处理图卷积聚合过程中各模态之间的不平衡问题。最后，将模态增强卷积图中提取的融合信息整合到文本表征中，从而动态地将原始文本表征向最准确的多模态语义空间转化。

本发明所采用的技术方案是：

一种基于模态增强卷积图的多模态情感分类方法，包括以下步骤：

步骤(1)、获取多模态数据

所述多模态数据包括语音模态、视频模态、文本模态；

多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息，从而增强情感分析的任务表现；

步骤(2)、多模态信息数据预处理，抽取初级表征

为了多模态数据在特征层面上进行多模态融合操作，采用不同的网络抽取每一个模态数据的初级特征表示，具体是：

2-1将语音模态和视频模态数据均使用一维卷积网络将它们卷积到相同的时间维度，得到一维卷积处理后的视觉模态M'_v和语音模态M'_a，再使用双向长短期记忆网络(LSTM)处理得到当前模态的初级表征形态，表示为：

其中a、v分别表示语音模态和视频模态；M'_s表示模态s的一维卷积处理后数据；

2-2将文本模态数据通过BERT Embedding(一种基于Transformer的双向编码器表示)转换成初级特征形态，表示为：

X_t＝BERT Emedding(m₀,m₁,…,m_n+1)#(2)

其中t表示文本模态；m_n+1表示第n+1个文本数据；

步骤(3)、利用多模态增强，获取与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息；具体是：

3-1将文本模态初级表征数据X_t和其他模态初级表征数据X_s，s∈{a,v}通过矩阵点乘运算一起映射到一个跨模态情感交互空间，即构建一个联合的跨模态情感表示空间，表示为：

X_m＝X_t⊙X_s,s∈{a,v}#(3)

其中⊙表示矩阵点乘运算。

3-2由于其他模态数据的信息在跨模态联合表示空间中与文本模态一起被丰富起来，利用L2范数归一化联合表示数据，用以计算文本模态对其他两种模态的影响，表示为：

X′_m＝||X_m||₂#(4)

3-3对联合表示数据进行归一化后，用以改变输入时其他模态数据X_s在其原始语义空间中的位置，最后得到文本丰富处理后的其他模态数据X'_s，表示为：

X′_s＝X′_m+X_s，s∈{a,v}#(5)

上述操作可以在一定程度上丰富语音模态和视频模态内部的情感信息，从而获得具有更多情感状态判别能力的模态。

步骤(4)、构造多模态卷积图进行模态融合

为了捕捉跨模态的情感信息，构建一个谱域图卷积网络编码多模态语境信息，进行文本驱动的跨模态融合。

所述谱域图卷积网络包括2N个多模态无向图，其中N表示文本模态的数量，具体包括N个文本-语音模态图G_ta＝(V_ta,E_ta)，以及N个文本-视觉图G_tv＝(V_tv,E_tv)。V_ts,s∈{v,a}表示文本模态分别与语音模态、视频模态的话语节点，图中的节点数量可以根据模态的时间维度自由划分。

s∈{v,a}，是一个包含不同模态关系的集合，它表示时域和特征域中的情感语境。

每个多模态无向图的构建方法如下：

文本模态、语音模态、视频模态的节点表示为

i表示数据在数据集中的索引,i∈{0,1,2……,n}。

为了捕捉不同节点之间的相关性，使用余弦距离计算每个多模态无向图节点之间的边缘权重，具体表示如下：

基于上述节点和边缘权重的基本信息，构建多个浅层双模无向图，以计算文本模态与其他两个模态之间的相关性。具体来说，无向图G＝(V,E)的重述图拉普拉斯矩阵

其中

表示邻接矩阵，

表示图G的对角线矩阵，I表示单位矩阵，

表示邻接矩阵与单位矩阵的和。

不同层的图卷积迭代可以表示为：

其中α和β均表示大于0小于1的两个不同超参数，σ表示激活函数，W(l)是可学习权重矩阵，I表示常数映射；设置

其中η也是一个超参数。第一层H(0)的残差连接被添加到表征

常数映射I被添加到权重矩阵W(l)。

当每张图迭代完成后，将每张图的特征按特征维度拼接即可得到文本驱动下的多模态情感融合信息：

区别于现有平行输入，本发明将文本作为最重要的模态，进行有效地融合从而能有效地应对多模态学习中存在的固有问题——模态间信息不平衡的问题。

步骤(5)、多模态情感分类操作；

利用线性转换层将h_s转移到文本模态X_t的语义空间，然后将得到的数据进行LayerNorm归一化，以及Dropout操作，防止训练的时候过拟合。

h′_s＝Dropout(LayerNorm(h_s+X_t))#(10)

然后，线性变换层的输出被进一步传送到BertEncoder，BertEncoder是拥有12层Transformer Layers的双向编码器：

h″_s＝BERT(h′_s)#(11)

请注意，最后一层的输出向量的第一个标记是指[CLS]，它包含了分类任务所需的信息。最后用一个线性层来分析得到的h″_s，利用得到的y来达到最终的情感预测。

y＝Wh″_s+b#(12)

其中W为线性网络的权重矩阵，b为线性网络的偏置向量。

作为优选，损失函数使用均方误差(MSE)。

本发明的第二个目的是提供一种实现上述方法的基于模态增强卷积图的多模态情感分类系统，包括：

多模态数据获取模块，用以获取多模态数据，其包括语音模态、视频模态、文本模态；

初级表征抽取模块，用于对多模态信息数据进行预处理，并抽取多模态初级表征数据；

复杂情感上下文相关信息提取模块，用以利用多模态增强，获取与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息；

多模态融合模块，利用谱域图卷积网络编码多模态语境信息，进行文本驱动的跨模态融合，得到文本驱动下的多模态情感融合信息h_s；

多模态情感分类模块，用于对文本驱动下的多模态情感融合信息h_s进行多模态情感分类。

本发明的第三个目的是提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的方法。

本发明的第四个目的是提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述的方法。

本发明的有益效果是：

本发明提出一个文本驱动的多模态融合框架，用于多模态情感分析任务。多模态增强模块有助于在构建多模态图和聚合多模态信息之前丰富模态信息并去除冗余信息，从而改善图卷积期间的多模态信息不平衡。本发明进一步构建了多模态转换词表征，动态地捕捉不同非语言语境中的变化，是对当前情感识别领域的多模态融合框架的有效补充。

附图说明

图1为本发明方法模块流程图；

图2为本发明方法多模态增强流程图；

图3为本发明方法多模态融合流程图。

具体实施方式

下面结合具体实施例和附图对本发明做进一步的分析。

本发明一种基于模态增强卷积图的多模态情感分析方法，如图1-2所示，可在不同的情感分类场景下使用，例如利用视频模态、音频模态和文本模态对Youtube视频数据集中被试所说的每一句话进行情感分类。具体是：

步骤(1)、获取多模态信息数据

在被试执行特定情感任务下，记录被试的文本模态数据、语音模态数据以及视频模态数据。

步骤(2)、抽取多模态信息变换初级表征

多模态情感分析的任务是预测一个给定的多模态输入(视频片段)的情感强度、极性或情感标签。视频包括三种模态：t(文本)，a(声音)，v(视觉)：

T_m和d_m代表序列长度(例如，帧数)和模态m的特征向量大小。

使用BERT对输入句子进行编码。原始句子M_t＝(w₁,…,w_n)，首先在句子的开头和结尾分别添加[CLS]和[SEP]，然后对句子进行嵌入，得到的文本模式为X_t＝(m₀,m₁,…,m_n+1)。

对于语音模态数据以及视频模态数据，首先将它们卷积到同一时间维度：

M′_s＝Conv1D(M_s)，s∈{a,v}#(1)

得到处理后的视觉模态M'_v和语音模态M'_a模态，使用双向长短时记忆(LSTM)网络来编码语音模态和视频模态中的情绪信息。

步骤(3)、多模态增强模块

多模态增强模块可以计算出与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息。如图2所示，首先，在多模态增强模块中，输入的文本模态和语音模态(或视频模态)通过矩阵点乘运算一起映射到一个跨模态情感交互空间，即构建一个联合的跨模态情感表示空间，表示为：

X_m＝X_t⊙X_s,s∈{a,v}#(3)

语音模态(或视频模态)的信息在跨模态联合表示空间中与文本模态一起被丰富起来。其次，L2归一化被用来归一化联合表示数据，目的是计算文本模态对其他两种模态的影响，表示为：

X′_m＝||X_m||₂#(4)

对联合表示数据进行归一化后，用以改变输入时其他模态数据X_s在其原始语义空间中的位置，最后得到文本丰富处理后的其他模态数据X'_s，表示为：

X′_s＝X′_m+X_s，s∈{a,v}#(5)

步骤(4)、图卷积融合模块构造多模态卷积图进行模态融合

在图卷积融合模块中，构建了2N个无向图(N是训练集中文本/视频/语音模态的数量)，其中包括N个文本-语音模态图G_ta＝(V_ta,E_ta)，以及N个文本-视觉图G_tv＝(V_tv,E_tv)。V_ts,s∈{v,a}表示两种模态的情感语境节点，图中的节点数量可以根据模态的时间维度自由划分。

s∈{v,a}，是一个包含不同模态关系的集合，它表示时域和特征域中的情感语境。构建每个多模态无向图的方法如下：

如图3所示，将增强后的语音模态和视频模态，以及经过初级变换后的文本模态输入图卷积融合模块。

三个模态的节点表示为

i表示数据在数据集中的索引,i∈{0,1,2……,n}，由输入的模态信息X_t，X'_a，X'_v，初始化。也就是说，每个句子所对应的模态信息被作为节点。可以根据时间维度来划分节点的数量，每个图中的节点数量可以是，初始化为模态的数量。

为了捕捉不同节点之间的相关性，使用余弦距离来计算每个图节点之间的权重。具体表示如下：

基于上述节点和边缘权重的基本信息，构建多个浅层双模无向图，去计算文本模态与其他两个模态之间的相关性。具体来说，先构建无向图G＝(V,E)的重述图拉普拉斯矩阵

再将每张多模态图进行迭代，计算出多模态融合信息H。

本发明只需要每张多模态图迭代一次后，再将每张图得到的特征按特征维度拼接起来就可以得到最终的多模态融合信息为：

其中

表示拼接操作。

当每张图迭代完成后，就会得到文本驱动下的多模态情感融合信息，区别于此前人们的平行输入，本发明将文本作为最重要的模态，进行有效地融合从而能有效地应对多模态学习中存在的固有问题——模态间信息不平衡的问题

步骤(5)、多模态情感分类操作

然后，利用线性转换层将h_s转移到文本模态X_t的语义空间。然后将得到的数据进行LayerNorm归一化，以及Dropout操作，防止训练的时候过拟合。

h′_s＝Dropout(LayerNorm(h_s+X_t))#(7)

h″_s＝BERT(h′_s)#(8)

请注意，最后一层的输出向量的第一个标记是指[CLS]，它包含了分类任务所需的信息。

然后，用一个线性层来分析得到的h″_s，利用得到的y来达到最终的情感预测。

y＝Wh″_s+b#(9)

其中W为线性网络的权重矩阵，b为线性网络的偏置向量。

在这个情感分析任务中使用均方误差(MSE)作为损失函数，因为它是一个回归任务。

图3为三个模态A、V以及T的多模态融合流程图。

如表1所示，本发明与八种基础多模态融合方法同时在两个多模态情感数据库CMU-MOSI、CMU-MOSEI上进行情感状态判别任务，t为文本数据(text)，v为视觉数据(video)，a为语音模态数据(audio)。

使用的一组衡量标准是：平均绝对误差(MAE)，预测值和真实值之间的平均绝对差异。皮尔逊相关(Corr)，衡量预测偏差的程度，表示在-3和+3之间的七个范围内，正确落入同一范围的预测比例，以及为正/负和非负/负分类结果计算的二元分类准确性(Acc-2)和F1分数。比较衡量多个现有多模态融合方法可知，本发明的结果都优于现有融合模型，证明了本发明所提出方法的有效性。

表1