CN114998698A - 动态时域卷积网络驱动的多模态情感识别方法 - Google Patents

动态时域卷积网络驱动的多模态情感识别方法 Download PDF

Info

Publication number
CN114998698A
CN114998698A CN202210640854.0A CN202210640854A CN114998698A CN 114998698 A CN114998698 A CN 114998698A CN 202210640854 A CN202210640854 A CN 202210640854A CN 114998698 A CN114998698 A CN 114998698A
Authority
CN
China
Prior art keywords
convolution
network
features
time domain
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210640854.0A
Other languages
English (en)
Inventor
孙强
党鑫豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202210640854.0A priority Critical patent/CN114998698A/zh
Publication of CN114998698A publication Critical patent/CN114998698A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了动态时域卷积网络驱动的多模态情感识别方法,利用三种模态特征生成查询向量,通过注意力机制增强各模态特征,明确捕捉到各模态特征中与模态间交互作用相关的信息,使模型更容易地建模不同模态之间的交互作用;通过具有动态卷积特性的时域卷积网络来学习查询向量,不仅使查询向量的学习过程更加充分合理,而且通过动态卷积,使查询向量的生成随输入特征动态变化,更贴合目标任务;给出的时域卷积网络通过动态卷积的方式来生成卷积核,使卷积核随输入特征呈现动态变化,与输入特征更适配,有助于更灵活地建模多模态特征之间的交互作用;这种具有动态卷积特性的时域卷积网络还能够融合来自不同模态的特征,产生有效的多模态融合特征。

Description

动态时域卷积网络驱动的多模态情感识别方法
技术领域
本发明属于模式识别技术领域,具体涉及一种动态时域卷积网络驱动的多模态情感识别方法。
背景技术
情感识别,是一个通过分析个人对某些事物表达看法、观点、情感和态度等,进而识别出主观情感的研究领域。随着生活水平的提高,人们越来越注重精神层面的质量,而情感作为人类的一种心理反应,是最能直接体现个人精神质量的研究对象。此外,情感识别已经广泛地应用于医疗、教育、自动驾驶、人机交互等领域并发挥了重要作用。因此,情感识别具有很大的应用前景和商业价值。
传统的单模态情感识别方法虽取得了不错的效果,但单一模态所包含的情感信息往往是稀疏的,导致提取到的特征存在信息不全面的问题,因此基于单模态信息的情感识别方法在一些复杂场景下很难实现鲁棒的识别效果,而多模态情感识别方法通过分析不同模态之间的差异和建模它们之间的相关性,提取模态间的互补信息,使提取的特征所包含的情感信息更丰富,识别准确率更高。
发明内容
本发明的目的是提供一种动态时域卷积网络驱动的多模态情感识别方法,相关的卷积核可随特征动态变化,能更灵活地建模多模态特征之间的交互作用,从而可以更准确地识别出用户的情感状态。
本发明所采用的技术方案是动态时域卷积网络驱动的多模态情感识别方法,具体按照以下步骤实施:
步骤1、从视频数据库中提取多个视频样本,通过多模态软件开发工具包从每个视频样本中分别提取音频模态特征xa、图像模态特征xv和文本模态特征xl,以及对应的情感类别标签;
步骤2、分别建立三个时域卷积神经网络,将每个视频样本的音频模态特征xa、图像模态特征xv和文本模态特征xl送入对应的时域卷积神经网络中,滤除各模态特征的冗余噪声,对各模态特征做时域关系上的建模,得到包含上下文信息的音频特征
Figure BDA0003683990820000021
图像特征
Figure BDA0003683990820000022
和文本特征
Figure BDA0003683990820000023
步骤3、构建具有动态卷积特性的时域卷积网络,将音频特征
Figure BDA0003683990820000024
图像特征
Figure BDA0003683990820000025
和文本特征
Figure BDA0003683990820000026
按特征向量维度拼接在一起,并输入具有动态卷积特性的时域卷积网络进行压缩,得到一个压缩特征xkey
步骤4、将音频特征
Figure BDA0003683990820000027
图像特征
Figure BDA0003683990820000028
和文本特征
Figure BDA0003683990820000029
作为输入特征,并将压缩特征xkey作为查询向量,分别执行一个注意力操作,得到注意力音频特征
Figure BDA00036839908200000210
注意力图像特征
Figure BDA00036839908200000211
和注意力文本特征
Figure BDA00036839908200000212
步骤5、将注意力音频特征
Figure BDA00036839908200000213
注意力图像特征
Figure BDA00036839908200000214
和注意力文本特征
Figure BDA00036839908200000215
分别送入一个自注意力网络,输出自注意力音频特征
Figure BDA00036839908200000216
自注意力图像特征
Figure BDA00036839908200000217
和自注意力文本特征
Figure BDA00036839908200000218
步骤6、将自注意力音频特征
Figure BDA00036839908200000219
自注意力图像特征
Figure BDA00036839908200000220
和自注意力文本特征
Figure BDA00036839908200000221
按特征向量维度拼接,得到拼接特征
Figure BDA00036839908200000222
将拼接特征
Figure BDA00036839908200000223
输入具有动态卷积特性的时域卷积网络进行特征融合,得到一个多模态融合特征xfusion
步骤7、将多模态融合特征xfusion送入一个三层的全连接神经网络进行情感分类;
步骤8、将模型预测到的情感类别与步骤1中的情感类别标签进行对比,并通过反向传播算法去更新三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络中的参数,然后不断重复步骤1-步骤7,直至模型能正确预测出情感类别,输出更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络;
步骤9、通过更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络从视频中识别人物的情感。
本发明的特点还在于:
步骤1中视频数据库包括CMU-MOSEI和IEMOCAP两种多模态情感分析数据集。
步骤3具有动态卷积特性的时域卷积网络由五个卷积层堆叠组成,每个卷积层由两个卷积神经网络组成,每个卷积神经网络的卷积核由动态卷积网络生成。
步骤3中输入具有动态卷积特性的时域卷积网络进行压缩具体过程为:
步骤a、将输入特征xinput输入动态卷积网络,得到动态卷积核
Figure BDA0003683990820000031
其中dout为输出的特征向量维度,3d为输入的特征向量维度,ksize为卷积核大小;
步骤b、以xinput作为输入特征,k作为卷积核,进行一次膨胀卷积操作,得到输出特征
Figure BDA0003683990820000032
步骤c、以
Figure BDA0003683990820000033
作为输入特征重复步骤a、步骤b,重复4次之后将得到的输出特征
Figure BDA0003683990820000041
作为压缩特征xkey
步骤4中执行一个注意力操作具体过程为:
将音频特征
Figure BDA0003683990820000042
图像特征
Figure BDA0003683990820000043
和文本特征
Figure BDA0003683990820000044
分别送入一个注意力网络,其中注意力网络的查询向量由压缩特征xkey进行替换,计算公式如下所示:
Figure BDA0003683990820000045
α=softmax(xkeyKT) (2)
Figure BDA0003683990820000046
其中,m∈{a、v、l},K、V表示键值对向量,Wk表示键向量的权重矩阵,Wv表示值向量的权重矩阵,α表示注意力分数,softmax(·)表示softmax函数,KT为键向量K的转置。
步骤6的具体过程为:
步骤A、将拼接特征xavl输入动态卷积网络,得到动态卷积核
Figure BDA0003683990820000047
其中
Figure BDA0003683990820000048
为输出特征的向量维度,3d为输入特征的向量维度,
Figure BDA0003683990820000049
为卷积核大小;
步骤B、以拼接特征xavl作为输入特征,kfusion作为卷积核,进行一次膨胀卷积操作,得到输出特征
Figure BDA00036839908200000410
步骤C、以
Figure BDA00036839908200000411
作为输入特征重复步骤A、步骤B,重复4次之后将得到的输出特征
Figure BDA00036839908200000412
作为多模态融合特征
Figure BDA00036839908200000413
本发明给出的动态时域卷积网络驱动的多模态情感识别方法的有益效果是:
1)本发明没有采用循环神经网络及其变体对多模态特征序列作时域关系上的建模,而是选择使用时域卷积网络建模时域关系,这样不仅能够大幅度减少网络的参数量,同时还能够对特征序列作并行处理,从而降低了网络计算时间。此外,卷积运算具有滤波的作用,能够有效滤除多模态特征中的冗余噪声;
2)为了使模型能更充分地聚焦在与情感相关的信息上,本发明提出了一种动态时域卷积网络驱动的注意力机制。以往的研究方法所使用的注意力机制中查询向量大多采用一个简单的非线性变换得到。需要指出的是,作为注意力机制的核心组件,仅通过一个单层的全连接层来学习是明显不够的。因此,本发明通过一种具有动态卷积特性的时域卷积网络来学习查询向量,不仅使查询向量的学习过程更加充分合理,而且通过动态卷积,使查询向量的生成随输入特征动态变化,更贴合目标任务;
3)本发明通过三个模态的特征来生成查询向量,然后通过注意力机制实现各模态特征的增强,能明确捕捉到各模态特征中与模态间交互作用相关的信息,从而使模型能更容易地建模不同模态之间的交互作用;
4)本发明提出一种具有动态卷积特性的时域卷积网络来融合不同模态的特征,由于不同模态特征之间的交互作用是随时域动态变化的,而时域卷积网络在融合不同模态特征的同时,可以对不同模态特征进行时域关系上的建模,与现有其他研究方法分别建模多模态间的交互作用和时域关系的做法相比,本发明提出的融合方法更加有效。此外,常规时域卷积网络的卷积核的参数在模型训练完之后就固定不变,这样在识别一个新的样本时缺乏灵活性,而本发明给出的时域卷积网络通过动态卷积的方式来生成卷积核,使卷积核能随输入特征呈现动态变化,与输入特征更适配,有助于更灵活地建模多模态特征之间的交互作用;
5)通过实验分析和验证,本发明给出的动态时域卷积网络合理有效,能够在多模态情感识别任务上取得很大的性能提升。
附图说明
图1是本发明动态时域卷积网络驱动的多模态情感识别方法流程图;
图2是时域卷积网络结构图;
图3是动态卷积网络结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明动态时域卷积网络驱动的多模态情感识别方法,如图1所示,具体按照以下步骤实施:
步骤1、从CMU-MOSEI和IEMOCAP两种数据集中提取多个视频样本,通过多模态软件开发工具包从每个视频样本中分别提取音频模态特征xa、图像模态特征xv和文本模态特征xl,以及对应的情感类别标签;
步骤2、分别建立三个时域卷积神经网络,如图2所示,将每个视频样本的音频模态特征xa、图像模态特征xv和文本模态特征xl送入对应的时域卷积神经网络中,滤除各模态特征的冗余噪声,对各模态特征做时域关系上的建模,得到包含上下文信息的音频特征
Figure BDA0003683990820000061
图像特征
Figure BDA0003683990820000062
和文本特征
Figure BDA0003683990820000063
步骤3、构建具有动态卷积特性的时域卷积网络,具有动态卷积特性的时域卷积网络由五个卷积层堆叠组成,每个卷积层由两个卷积神经网络组成,每个卷积神经网络的卷积核由动态卷积网络生成,动态卷积的结构如图3所示;
将音频特征
Figure BDA0003683990820000064
图像特征
Figure BDA0003683990820000065
和文本特征
Figure BDA0003683990820000066
按特征向量维度拼接在一起,作为输入特征xinput
步骤a、将输入特征xinput输入动态卷积网络,得到动态卷积核
Figure BDA0003683990820000071
其中dout为输出的特征向量维度,3d为输入的特征向量维度,ksize为卷积核大小;
步骤b、以xinput作为输入特征,k作为卷积核,进行一次膨胀卷积操作,得到输出特征
Figure BDA0003683990820000072
步骤c、以
Figure BDA0003683990820000073
作为输入特征重复步骤a、步骤b,重复4次之后将得到的输出特征
Figure BDA0003683990820000074
作为压缩特征xkey
步骤4、将音频特征
Figure BDA0003683990820000075
图像特征
Figure BDA0003683990820000076
和文本特征
Figure BDA0003683990820000077
作为输入特征,并将压缩特征xkey作为查询向量,分别执行一个注意力操作,得到注意力音频特征
Figure BDA0003683990820000078
注意力图像特征
Figure BDA0003683990820000079
和注意力文本特征
Figure BDA00036839908200000710
具体为:
将音频特征
Figure BDA00036839908200000711
图像特征
Figure BDA00036839908200000712
和文本特征
Figure BDA00036839908200000713
分别送入一个注意力网络,其中注意力网络的查询向量由压缩特征xkey进行替换,计算公式如下所示:
Figure BDA00036839908200000714
α=softmax(xkeyKT) (2)
Figure BDA00036839908200000715
其中m∈{a、v、l},K、V表示键值对向量,Wk表示键向量的权重矩阵,Wv表示值向量的权重矩阵,α表示注意力分数,softmax(·)表示softmax函数,KT为键向量K的转置。
步骤5、将注意力音频特征
Figure BDA00036839908200000716
注意力图像特征
Figure BDA00036839908200000717
和注意力文本特征
Figure BDA00036839908200000718
分别送入一个自注意力网络,输出自注意力音频特征
Figure BDA00036839908200000719
自注意力图像特征
Figure BDA00036839908200000720
和自注意力文本特征
Figure BDA00036839908200000721
步骤6、将自注意力音频特征
Figure BDA00036839908200000722
自注意力图像特征
Figure BDA00036839908200000723
和自注意力文本特征
Figure BDA00036839908200000724
按特征向量维度拼接,得到拼接特征
Figure BDA00036839908200000725
将拼接特征
Figure BDA0003683990820000081
输入具有动态卷积特性的时域卷积网络进行特征融合,得到一个多模态融合特征xfusion
步骤A、将拼接特征xavl输入动态卷积网络,得到动态卷积核
Figure BDA0003683990820000082
其中
Figure BDA0003683990820000083
为输出特征的向量维度,3d为输入特征的向量维度,
Figure BDA0003683990820000084
为卷积核大小;
步骤B、以拼接特征xavl作为输入特征,kfusion作为卷积核,进行一次膨胀卷积操作,得到输出特征
Figure BDA0003683990820000085
步骤C、以
Figure BDA0003683990820000086
作为输入特征重复步骤A、步骤B,重复4次之后将得到的输出特征
Figure BDA0003683990820000087
作为多模态融合特征
Figure BDA0003683990820000088
步骤7、将多模态融合特征xfusion送入一个三层全连接神经网络执行情感分类。
步骤8、将模型预测到的情感类别与步骤1中的情感类别标签进行对比,并通过反向传播算法去更新三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络中的参数,然后不断重复步骤1-步骤7,直至模型能正确预测出情感类别(迭代收敛),输出更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络;
步骤9、按照步骤1-7中的方法,将待识别的视频替代视频样本,通过更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络识别待识别的视频情感。
本发明开展的实验在CMU-MOSI、CMU-MOSEI两个数据集上进行,并对本发明的性能进行评估与分析。
实验结果对比如下:
针对模型预测的情感类别与原始情感类别,分别计算F1分数(F1 score)、两类准确率(Acc2)、平均绝对误差损失(MAE)和皮尔逊相关系数(Corr),然后与已有的方法进行比较。在CMU-MOSI、CMU-MOSEI两个数据集上分别对不同的情感识别模型进行性能对比,在CMU-MOSI数据集上不同网络模型的性能对比结果如表1所示,在CMU-MOSEI数据集上不同网络模型的性能对比如表2所示:
表1
Figure BDA0003683990820000091
表2
Figure BDA0003683990820000092
由以上实验数据可知,本发明动态时域卷积网络驱动的多模态情感识别方法整体上是优于现有经典方法的。这验证了本发明能够有效地缓解多模态特征中冗余噪声的干扰,使模型充分提取到不同模态之间的关键情感信息,更有效地实现多模态情感识别。
通过上述方式,本发明动态时域卷积网络驱动的多模态情感识别方法,更准确地识别出用户的情感状态。此外,本发明通过动态时域卷积网络来融合不同模态的特征,能有效地缓解特征中冗余噪声的干扰。同时,卷积核随特征动态变化,能更灵活地建模多模态特征之间的交互作用。

Claims (6)

1.动态时域卷积网络驱动的多模态情感识别方法,其特征在于,具体按照以下步骤实施:
步骤1、从视频数据库中提取多个视频样本,通过多模态软件开发工具包从每个视频样本中分别提取音频模态特征xa、图像模态特征xv和文本模态特征xl,以及对应的情感类别标签;
步骤2、分别建立三个时域卷积神经网络,将每个视频样本的音频模态特征xa、图像模态特征xv和文本模态特征xl送入对应的时域卷积神经网络中,滤除各模态特征的冗余噪声,对各模态特征做时域关系上的建模,得到包含上下文信息的音频特征
Figure FDA0003683990810000011
图像特征
Figure FDA0003683990810000012
和文本特征
Figure FDA0003683990810000013
步骤3、构建具有动态卷积特性的时域卷积网络,将音频特征
Figure FDA0003683990810000014
图像特征
Figure FDA0003683990810000015
和文本特征
Figure FDA0003683990810000016
按特征向量维度拼接在一起,并输入具有动态卷积特性的时域卷积网络进行压缩,得到一个压缩特征xkey
步骤4、将音频特征
Figure FDA0003683990810000017
图像特征
Figure FDA0003683990810000018
和文本特征
Figure FDA0003683990810000019
作为输入特征,并将压缩特征xkey作为查询向量,分别执行一个注意力操作,得到注意力音频特征
Figure FDA00036839908100000110
注意力图像特征
Figure FDA00036839908100000111
和注意力文本特征
Figure FDA00036839908100000112
步骤5、将注意力音频特征
Figure FDA00036839908100000113
注意力图像特征
Figure FDA00036839908100000114
和注意力文本特征
Figure FDA00036839908100000115
分别送入一个自注意力网络,输出自注意力音频特征
Figure FDA00036839908100000116
自注意力图像特征
Figure FDA00036839908100000117
和自注意力文本特征
Figure FDA00036839908100000118
步骤6、将自注意力音频特征
Figure FDA00036839908100000119
自注意力图像特征
Figure FDA00036839908100000120
和自注意力文本特征
Figure FDA00036839908100000121
按特征向量维度拼接,得到拼接特征
Figure FDA00036839908100000122
将拼接特征
Figure FDA00036839908100000123
输入到具有动态卷积特性的时域卷积网络执行多模态特征融合,得到一个融合特征xfusion
步骤7、将多模态融合特征xfusion送入一个三层的全连接神经网络执行情感类别预测;
步骤8、将模型预测到的情感类别与步骤1中的情感类别标签进行对比,并通过反向传播算法去更新三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络中的参数,然后不断重复步骤1-步骤7,直至模型能正确预测出情感类别,输出更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络;
步骤9、通过更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络识别待识别的视频情感。
2.根据权利要求1所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤1中所述视频数据库包括CMU-MOSEI和IEMOCAP两种多模态情感分析数据集。
3.根据权利要求1所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤3所述具有动态卷积特性的时域卷积网络由五个卷积层堆叠组成,每个卷积层由两个卷积神经网络组成,每个卷积神经网络的卷积核由动态卷积网络生成。
4.根据权利要求3所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤3中将特征输入到具有动态卷积特性的时域卷积网络执行压缩的具体过程为:
步骤a、将输入特征xinput输入动态卷积网络,得到动态卷积核
Figure FDA0003683990810000021
其中dout为输出的特征向量维度,3d为输入的特征向量维度,ksize为卷积核大小;
步骤b、以xinput作为输入特征,k作为卷积核,进行一次膨胀卷积操作,得到输出特征
Figure FDA0003683990810000031
步骤c、以
Figure FDA0003683990810000032
作为输入特征重复步骤a、步骤b,重复4次之后将得到的输出特征
Figure FDA0003683990810000033
作为压缩特征xkey
5.根据权利要求1所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤4中所述执行一个注意力操作的具体过程为:
将音频特征
Figure FDA0003683990810000034
图像特征
Figure FDA0003683990810000035
和文本特征
Figure FDA0003683990810000036
分别送入一个注意力网络,其中注意力网络的查询向量由压缩特征xkey进行替换,计算公式如下:
Figure FDA0003683990810000037
α=softmax(xkeyKT) (2)
Figure FDA0003683990810000038
其中,m∈{a、v、l},K、V表示键值对向量,Wk表示键向量的权重矩阵,Wv表示值向量的权重矩阵,α表示注意力分数,softmax(·)表示softmax函数,KT为键向量K的转置。
6.根据权利要求3所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤6的具体过程为:
步骤A、将拼接特征xavl输入动态卷积网络,得到动态卷积核
Figure FDA0003683990810000039
其中
Figure FDA00036839908100000310
为输出特征的向量维度,3d为输入特征的向量维度,
Figure FDA00036839908100000311
为卷积核大小;
步骤B、以拼接特征xavl作为输入特征,kfusion作为卷积核,进行一次膨胀卷积操作,得到输出特征
Figure FDA00036839908100000312
步骤C、以
Figure FDA00036839908100000313
作为输入特征重复步骤A、步骤B,重复4次之后将得到的输出特征
Figure FDA00036839908100000314
作为多模态融合特征
Figure FDA00036839908100000315
CN202210640854.0A 2022-06-08 2022-06-08 动态时域卷积网络驱动的多模态情感识别方法 Pending CN114998698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210640854.0A CN114998698A (zh) 2022-06-08 2022-06-08 动态时域卷积网络驱动的多模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210640854.0A CN114998698A (zh) 2022-06-08 2022-06-08 动态时域卷积网络驱动的多模态情感识别方法

Publications (1)

Publication Number Publication Date
CN114998698A true CN114998698A (zh) 2022-09-02

Family

ID=83033311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210640854.0A Pending CN114998698A (zh) 2022-06-08 2022-06-08 动态时域卷积网络驱动的多模态情感识别方法

Country Status (1)

Country Link
CN (1) CN114998698A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424108A (zh) * 2022-11-08 2022-12-02 四川大学 一种基于视听融合感知的认知功能障碍评测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424108A (zh) * 2022-11-08 2022-12-02 四川大学 一种基于视听融合感知的认知功能障碍评测方法

Similar Documents

Publication Publication Date Title
CN112784801A (zh) 基于文本和图片的双模态胃部疾病分类方法及装置
CN113762322A (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN113806609B (zh) 一种基于mit和fsm的多模态情感分析方法
Han et al. Cross-modality co-attention networks for visual question answering
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
CN111563373B (zh) 聚焦属性相关文本的属性级情感分类方法
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
Huang et al. TeFNA: Text-centered fusion network with crossmodal attention for multimodal sentiment analysis
Gao et al. Generalized pyramid co-attention with learnable aggregation net for video question answering
CN114998698A (zh) 动态时域卷积网络驱动的多模态情感识别方法
CN112541541B (zh) 基于多元素分层深度融合的轻量级多模态情感分析方法
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
Hu et al. Audio–text retrieval based on contrastive learning and collaborative attention mechanism
CN115858728A (zh) 一种基于多模态数据的情感分析方法
Yang et al. Stacked temporal attention: Improving first-person action recognition by emphasizing discriminative clips
CN113792167A (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法
CN116821381B (zh) 一种基于空间线索的语音-图像跨模态检索方法及装置
Huang et al. TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis
Luo et al. Mutual Cross-Attention in Dyadic Fusion Networks for Audio-Video Emotion Recognition
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN117540007B (zh) 基于相似模态补全的多模态情感分析方法、系统和设备
Duan et al. Multimodal Apparent Personality Traits Analysis of Short Video using Swin Transformer and Bi-directional Long Short-Term Memory Network
CN113705197B (zh) 一种基于位置增强的细粒度情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination