CN115659242A - 一种基于模态增强卷积图的多模态情感分类方法 - Google Patents
一种基于模态增强卷积图的多模态情感分类方法 Download PDFInfo
- Publication number
- CN115659242A CN115659242A CN202211377291.7A CN202211377291A CN115659242A CN 115659242 A CN115659242 A CN 115659242A CN 202211377291 A CN202211377291 A CN 202211377291A CN 115659242 A CN115659242 A CN 115659242A
- Authority
- CN
- China
- Prior art keywords
- modal
- mode
- text
- data
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种基于模态增强卷积图的多模态情感分类方法。本发明提出了一个新的模态增强融合框架,它基于图卷积神经网络,为融合未对齐的多模态序列提供了一个有效的方法。在文本模态的帮助下,首先使用多模态增强模块来增强视觉和听觉模态以获得具有更强情感鉴别性的模态信息,从而帮助后续的聚合过程。此外,还构建了文本驱动的多模态特征图来进行模态融合,这可以有效地处理图卷积聚合过程中各模态之间的不平衡问题。最后将模态增强卷积图中提取的融合信息整合到文本表征中,从而动态地将原始文本表征向最准确的多模态语义空间转化。相比于现有多模态融合方法,本发明的结果更优。
Description
技术领域
本发明属于自然语言处理、语音、视觉交叉领域内的多模态情感识别领域,具体涉及一种基于模态增强卷积图的多模态情感分类方法,具体是通过一种基于文本驱动的图卷积网络以及注意力机制的融合网络技术,去判断被试情感状态的方法。
背景技术
随着多媒体技术的快速发展,多模态情感分析已经成为一个热门话题,如何对不同模态的数据进行高效的情感分析是人工智能的一大挑战。与单个模态的情感分析相比,多模态情感分析可以帮助更有效、更准确地理解数据背后的情感,因此被广泛用于情感分析任务中。一般来说,不同的模态作为一种补充,可以更好地弥补语义和情感的分歧。
然而,以前的研究在多模态学习任务中得到的融合结构是一个三元对称结构,其中双向跨模态的建模方式是相同的。值得注意的是,在以前的许多研究中发现分布在三种模态中的关键信息是不平衡的,其中文本模态与其他模态(视觉和听觉)相比包含更多的情感信息。因此,在不考虑这三种模态的相对重要性的前提下,并不能正确地整合它们,从而影响最终的任务表现。
发明内容
本发明的第一个目的是针对现有技术的不足,提出一种基于模态增强卷积图的多模态情感分类方法。本发明提出了一个新的模态增强融合框架,基于图卷积神经网络,为融合未对齐的多模态序列提供了一个有效的方法。在文本模态的帮助下,首先使用多模态增强模块来增强视觉和听觉模态以获得具有更强情感鉴别性的模态信息,从而帮助后续的聚合过程。此外,还构建了文本驱动的多模态特征图来进行模态融合,这可以有效地处理图卷积聚合过程中各模态之间的不平衡问题。最后,将模态增强卷积图中提取的融合信息整合到文本表征中,从而动态地将原始文本表征向最准确的多模态语义空间转化。
本发明所采用的技术方案是:
一种基于模态增强卷积图的多模态情感分类方法,包括以下步骤:
步骤(1)、获取多模态数据
所述多模态数据包括语音模态、视频模态、文本模态;
多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息,从而增强情感分析的任务表现;
步骤(2)、多模态信息数据预处理,抽取初级表征
为了多模态数据在特征层面上进行多模态融合操作,采用不同的网络抽取每一个模态数据的初级特征表示,具体是:
2-1将语音模态和视频模态数据均使用一维卷积网络将它们卷积到相同的时间维度,得到一维卷积处理后的视觉模态M'v和语音模态M'a,再使用双向长短期记忆网络(LSTM)处理得到当前模态的初级表征形态,表示为:
其中a、v分别表示语音模态和视频模态;M's表示模态s的一维卷积处理后数据;
2-2将文本模态数据通过BERT Embedding(一种基于Transformer的双向编码器表示)转换成初级特征形态,表示为:
Xt=BERT Emedding(m0,m1,…,mn+1)#(2)
其中t表示文本模态;mn+1表示第n+1个文本数据;
步骤(3)、利用多模态增强,获取与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息;具体是:
3-1将文本模态初级表征数据Xt和其他模态初级表征数据Xs,s∈{a,v}通过矩阵点乘运算一起映射到一个跨模态情感交互空间,即构建一个联合的跨模态情感表示空间,表示为:
Xm=Xt⊙Xs,s∈{a,v}#(3)
其中⊙表示矩阵点乘运算。
3-2由于其他模态数据的信息在跨模态联合表示空间中与文本模态一起被丰富起来,利用L2范数归一化联合表示数据,用以计算文本模态对其他两种模态的影响,表示为:
X′m=||Xm||2#(4)
3-3对联合表示数据进行归一化后,用以改变输入时其他模态数据Xs在其原始语义空间中的位置,最后得到文本丰富处理后的其他模态数据X's,表示为:
X′s=X′m+Xs,s∈{a,v}#(5)
上述操作可以在一定程度上丰富语音模态和视频模态内部的情感信息,从而获得具有更多情感状态判别能力的模态。
步骤(4)、构造多模态卷积图进行模态融合
为了捕捉跨模态的情感信息,构建一个谱域图卷积网络编码多模态语境信息,进行文本驱动的跨模态融合。
所述谱域图卷积网络包括2N个多模态无向图,其中N表示文本模态的数量,具体包括N个文本-语音模态图Gta=(Vta,Eta),以及N个文本-视觉图Gtv=(Vtv,Etv)。Vts,s∈{v,a}表示文本模态分别与语音模态、视频模态的话语节点,图中的节点数量可以根据模态的时间维度自由划分。s∈{v,a},是一个包含不同模态关系的集合,它表示时域和特征域中的情感语境。
每个多模态无向图的构建方法如下:
为了捕捉不同节点之间的相关性,使用余弦距离计算每个多模态无向图节点之间的边缘权重,具体表示如下:
不同层的图卷积迭代可以表示为:
其中α和β均表示大于0小于1的两个不同超参数,σ表示激活函数,W(l)是可学习权重矩阵,I表示常数映射;设置其中η也是一个超参数。第一层H(0)的残差连接被添加到表征常数映射I被添加到权重矩阵W(l)。
当每张图迭代完成后,将每张图的特征按特征维度拼接即可得到文本驱动下的多模态情感融合信息:
区别于现有平行输入,本发明将文本作为最重要的模态,进行有效地融合从而能有效地应对多模态学习中存在的固有问题——模态间信息不平衡的问题。
步骤(5)、多模态情感分类操作;
利用线性转换层将hs转移到文本模态Xt的语义空间,然后将得到的数据进行LayerNorm归一化,以及Dropout操作,防止训练的时候过拟合。
h′s=Dropout(LayerNorm(hs+Xt))#(10)
然后,线性变换层的输出被进一步传送到BertEncoder,BertEncoder是拥有12层Transformer Layers的双向编码器:
h″s=BERT(h′s)#(11)
请注意,最后一层的输出向量的第一个标记是指[CLS],它包含了分类任务所需的信息。最后用一个线性层来分析得到的h″s,利用得到的y来达到最终的情感预测。
y=Wh″s+b#(12)
其中W为线性网络的权重矩阵,b为线性网络的偏置向量。
作为优选,损失函数使用均方误差(MSE)。
本发明的第二个目的是提供一种实现上述方法的基于模态增强卷积图的多模态情感分类系统,包括:
多模态数据获取模块,用以获取多模态数据,其包括语音模态、视频模态、文本模态;
初级表征抽取模块,用于对多模态信息数据进行预处理,并抽取多模态初级表征数据;
复杂情感上下文相关信息提取模块,用以利用多模态增强,获取与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息;
多模态融合模块,利用谱域图卷积网络编码多模态语境信息,进行文本驱动的跨模态融合,得到文本驱动下的多模态情感融合信息hs;
多模态情感分类模块,用于对文本驱动下的多模态情感融合信息hs进行多模态情感分类。
本发明的第三个目的是提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的方法。
本发明的第四个目的是提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述的方法。
本发明的有益效果是:
本发明提出一个文本驱动的多模态融合框架,用于多模态情感分析任务。多模态增强模块有助于在构建多模态图和聚合多模态信息之前丰富模态信息并去除冗余信息,从而改善图卷积期间的多模态信息不平衡。本发明进一步构建了多模态转换词表征,动态地捕捉不同非语言语境中的变化,是对当前情感识别领域的多模态融合框架的有效补充。
附图说明
图1为本发明方法模块流程图;
图2为本发明方法多模态增强流程图;
图3为本发明方法多模态融合流程图。
具体实施方式
下面结合具体实施例和附图对本发明做进一步的分析。
本发明一种基于模态增强卷积图的多模态情感分析方法,如图1-2所示,可在不同的情感分类场景下使用,例如利用视频模态、音频模态和文本模态对Youtube视频数据集中被试所说的每一句话进行情感分类。具体是:
步骤(1)、获取多模态信息数据
在被试执行特定情感任务下,记录被试的文本模态数据、语音模态数据以及视频模态数据。
步骤(2)、抽取多模态信息变换初级表征
多模态情感分析的任务是预测一个给定的多模态输入(视频片段)的情感强度、极性或情感标签。视频包括三种模态:t(文本),a(声音),v(视觉): Tm和dm代表序列长度(例如,帧数)和模态m的特征向量大小。
使用BERT对输入句子进行编码。原始句子Mt=(w1,…,wn),首先在句子的开头和结尾分别添加[CLS]和[SEP],然后对句子进行嵌入,得到的文本模式为Xt=(m0,m1,…,mn+1)。
对于语音模态数据以及视频模态数据,首先将它们卷积到同一时间维度:
M′s=Conv1D(Ms),s∈{a,v}#(1)
得到处理后的视觉模态M'v和语音模态M'a模态,使用双向长短时记忆(LSTM)网络来编码语音模态和视频模态中的情绪信息。
步骤(3)、多模态增强模块
多模态增强模块可以计算出与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息。如图2所示,首先,在多模态增强模块中,输入的文本模态和语音模态(或视频模态)通过矩阵点乘运算一起映射到一个跨模态情感交互空间,即构建一个联合的跨模态情感表示空间,表示为:
Xm=Xt⊙Xs,s∈{a,v}#(3)
语音模态(或视频模态)的信息在跨模态联合表示空间中与文本模态一起被丰富起来。其次,L2归一化被用来归一化联合表示数据,目的是计算文本模态对其他两种模态的影响,表示为:
X′m=||Xm||2#(4)
对联合表示数据进行归一化后,用以改变输入时其他模态数据Xs在其原始语义空间中的位置,最后得到文本丰富处理后的其他模态数据X's,表示为:
X′s=X′m+Xs,s∈{a,v}#(5)
上述操作可以在一定程度上丰富语音模态和视频模态内部的情感信息,从而获得具有更多情感状态判别能力的模态。
步骤(4)、图卷积融合模块构造多模态卷积图进行模态融合
在图卷积融合模块中,构建了2N个无向图(N是训练集中文本/视频/语音模态的数量),其中包括N个文本-语音模态图Gta=(Vta,Eta),以及N个文本-视觉图Gtv=(Vtv,Etv)。Vts,s∈{v,a}表示两种模态的情感语境节点,图中的节点数量可以根据模态的时间维度自由划分。s∈{v,a},是一个包含不同模态关系的集合,它表示时域和特征域中的情感语境。构建每个多模态无向图的方法如下:
如图3所示,将增强后的语音模态和视频模态,以及经过初级变换后的文本模态输入图卷积融合模块。
三个模态的节点表示为i表示数据在数据集中的索引,i∈{0,1,2……,n},由输入的模态信息Xt,X'a,X'v,初始化。也就是说,每个句子所对应的模态信息被作为节点。可以根据时间维度来划分节点的数量,每个图中的节点数量可以是,初始化为模态的数量。
为了捕捉不同节点之间的相关性,使用余弦距离来计算每个图节点之间的权重。具体表示如下:
基于上述节点和边缘权重的基本信息,构建多个浅层双模无向图,去计算文本模态与其他两个模态之间的相关性。具体来说,先构建无向图G=(V,E)的重述图拉普拉斯矩阵再将每张多模态图进行迭代,计算出多模态融合信息H。
本发明只需要每张多模态图迭代一次后,再将每张图得到的特征按特征维度拼接起来就可以得到最终的多模态融合信息为:
当每张图迭代完成后,就会得到文本驱动下的多模态情感融合信息,区别于此前人们的平行输入,本发明将文本作为最重要的模态,进行有效地融合从而能有效地应对多模态学习中存在的固有问题——模态间信息不平衡的问题
步骤(5)、多模态情感分类操作
然后,利用线性转换层将hs转移到文本模态Xt的语义空间。然后将得到的数据进行LayerNorm归一化,以及Dropout操作,防止训练的时候过拟合。
h′s=Dropout(LayerNorm(hs+Xt))#(7)
然后,线性变换层的输出被进一步传送到BertEncoder,BertEncoder是拥有12层Transformer Layers的双向编码器:
h″s=BERT(h′s)#(8)
请注意,最后一层的输出向量的第一个标记是指[CLS],它包含了分类任务所需的信息。
然后,用一个线性层来分析得到的h″s,利用得到的y来达到最终的情感预测。
y=Wh″s+b#(9)
其中W为线性网络的权重矩阵,b为线性网络的偏置向量。
在这个情感分析任务中使用均方误差(MSE)作为损失函数,因为它是一个回归任务。
图3为三个模态A、V以及T的多模态融合流程图。
如表1所示,本发明与八种基础多模态融合方法同时在两个多模态情感数据库CMU-MOSI、CMU-MOSEI上进行情感状态判别任务,t为文本数据(text),v为视觉数据(video),a为语音模态数据(audio)。
使用的一组衡量标准是:平均绝对误差(MAE),预测值和真实值之间的平均绝对差异。皮尔逊相关(Corr),衡量预测偏差的程度,表示在-3和+3之间的七个范围内,正确落入同一范围的预测比例,以及为正/负和非负/负分类结果计算的二元分类准确性(Acc-2)和F1分数。比较衡量多个现有多模态融合方法可知,本发明的结果都优于现有融合模型,证明了本发明所提出方法的有效性。
表1
Claims (9)
1.一种基于模态增强卷积图的多模态情感分类方法,其特征在于包括以下步骤:
步骤(1)、获取多模态数据;所述多模态数据包括语音模态、视频模态、文本模态;
步骤(2)、多模态信息数据预处理,抽取初级表征;
步骤(3)、利用多模态增强,获取与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息;具体是:
3-1将文本模态初级特征数据Xt和其他模态初级特征数据Xs,s∈{a,v}通过矩阵点乘运算映射到一个跨模态情感交互空间,即构建一个联合的跨模态情感表示空间,表示为:
Xm=Xt⊙Xs,s∈{a,v}#(3)
其中⊙表示矩阵点乘运算;a、v分别表示语音模态和视频模态;
3-2由于其他模态数据的信息在跨模态联合表示空间中与文本模态一起被丰富起来,利用L2范数归一化联合表示数据,用以计算文本模态对其他两种模态的影响,表示为:
X′m=||Xm||2#(4)
3-3利用归一化后联合表示数据改变输入时其他模态数据Xs在其原始语义空间中的位置,得到文本丰富处理后的其他模态数据X's,表示为:
X's=X'm+Xs,s∈{a,v}#(5)
步骤(4)、构造多模态卷积图进行模态融合
为了捕捉跨模态的情感信息,构建一个谱域图卷积网络编码多模态语境信息,进行文本驱动的跨模态融合,得到文本驱动下的多模态情感融合信息hs;
所述谱域图卷积网络包括2N个多模态无向图,其中N表示文本模态的数量,具体包括N个文本-语音模态图Gta=(Vta,Eta),以及N个文本-视觉图Gtv=(Vtv,Etv);Vts,s∈{v,a}表示文本模态分别与语音模态、视频模态的话语节点;是一个包含不同模态关系的集合,表示时域和特征域中的情感语境;
步骤(5)、对文本驱动下的多模态情感融合信息hs进行多模态情感分类。
3.根据权利要求1所述方法,其特征在于步骤(4)每个多模态无向图的构建方法如下:
为了捕捉不同节点之间的相关性,使用余弦距离计算每个多模态无向图节点之间的边缘权重,具体表示如下:
不同层的图卷积迭代表示为:
其中α和β均表示大于0小于1的两个不同超参数,σ表示激活函数,W(l)是可学习权重矩阵,I表示常数映射;设置其中η也是一个超参数;第一层H(0)的残差连接被添加到表征常数映射I被添加到权重矩阵W(l);
当每张图迭代完成后,将每张图的特征按特征维度拼接即可得到文本驱动下的多模态情感融合信息:
hs=hta⊕htv#(9)。
4.根据权利要求1所述方法,其特征在于步骤(5)具体是:
5-1利用线性转换层将hs转移到文本模态初级特征数据Xt的语义空间,然后将得到的数据进行LayerNorm归一化,以及Dropout操作,防止训练的时候过拟合;
h′s=Dropout(LayerNorm(hs+Xt))#(10)
5-2线性变换层的输出被进一步传送到BertEncoder:
h″s=BERT(h′s)#(11)
最后用一个线性网络分析得到的h″s,利用得到的y来达到最终的情感预测;
y=Wh″s+b#(12)
其中W为线性网络的权重矩阵,b为线性网络的偏置向量。
5.根据权利要求4所述方法,其特征在于是拥有12层Transformer Layers的双向编码器。
6.根据权利要求4所述方法,其特征在于所述BertEncoder损失函数使用均方误差MSE。
7.一种实现权利要求1-6所述方法的基于模态增强卷积图的多模态情感分类系统,其特征在于包括:
多模态数据获取模块,用以获取多模态数据,其包括语音模态、视频模态、文本模态;
初级表征抽取模块,用于对多模态信息数据进行预处理,并抽取多模态初级表征数据;
复杂情感上下文相关信息提取模块,用以利用多模态增强,获取与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息;
多模态融合模块,利用谱域图卷积网络编码多模态语境信息,进行文本驱动的跨模态融合,得到文本驱动下的多模态情感融合信息hs;
多模态情感分类模块,用于对文本驱动下的多模态情感融合信息hs进行多模态情感分类。
8.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-6任一项所述的方法。
9.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211377291.7A CN115659242A (zh) | 2022-11-04 | 2022-11-04 | 一种基于模态增强卷积图的多模态情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211377291.7A CN115659242A (zh) | 2022-11-04 | 2022-11-04 | 一种基于模态增强卷积图的多模态情感分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115659242A true CN115659242A (zh) | 2023-01-31 |
Family
ID=85016056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211377291.7A Pending CN115659242A (zh) | 2022-11-04 | 2022-11-04 | 一种基于模态增强卷积图的多模态情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659242A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304984A (zh) * | 2023-03-14 | 2023-06-23 | 烟台大学 | 基于对比学习的多模态意图识别方法及系统 |
-
2022
- 2022-11-04 CN CN202211377291.7A patent/CN115659242A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304984A (zh) * | 2023-03-14 | 2023-06-23 | 烟台大学 | 基于对比学习的多模态意图识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
CN113420807A (zh) | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 | |
CN109933792B (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN111382565A (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN114896434B (zh) | 一种基于中心相似度学习的哈希码生成方法及装置 | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN116561592B (zh) | 文本情感识别模型的训练方法和文本情感识别方法及装置 | |
CN114417097A (zh) | 一种基于时间卷积与自注意力的情感预测方法及系统 | |
CN116662500A (zh) | 一种基于bert模型与外部知识图谱的问答系统构建方法 | |
CN115130591A (zh) | 一种基于交叉监督的多模态数据分类方法及装置 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN116246279A (zh) | 一种基于clip背景知识的图文特征融合方法 | |
CN115775349A (zh) | 基于多模态融合的假新闻检测方法和装置 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN116127954A (zh) | 一种基于词典的新工科专业中文知识概念抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |