CN114998698A - 动态时域卷积网络驱动的多模态情感识别方法 - Google Patents
动态时域卷积网络驱动的多模态情感识别方法 Download PDFInfo
- Publication number
- CN114998698A CN114998698A CN202210640854.0A CN202210640854A CN114998698A CN 114998698 A CN114998698 A CN 114998698A CN 202210640854 A CN202210640854 A CN 202210640854A CN 114998698 A CN114998698 A CN 114998698A
- Authority
- CN
- China
- Prior art keywords
- convolution
- network
- features
- time domain
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了动态时域卷积网络驱动的多模态情感识别方法,利用三种模态特征生成查询向量,通过注意力机制增强各模态特征,明确捕捉到各模态特征中与模态间交互作用相关的信息,使模型更容易地建模不同模态之间的交互作用;通过具有动态卷积特性的时域卷积网络来学习查询向量,不仅使查询向量的学习过程更加充分合理,而且通过动态卷积,使查询向量的生成随输入特征动态变化,更贴合目标任务;给出的时域卷积网络通过动态卷积的方式来生成卷积核,使卷积核随输入特征呈现动态变化,与输入特征更适配,有助于更灵活地建模多模态特征之间的交互作用;这种具有动态卷积特性的时域卷积网络还能够融合来自不同模态的特征,产生有效的多模态融合特征。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种动态时域卷积网络驱动的多模态情感识别方法。
背景技术
情感识别,是一个通过分析个人对某些事物表达看法、观点、情感和态度等,进而识别出主观情感的研究领域。随着生活水平的提高,人们越来越注重精神层面的质量,而情感作为人类的一种心理反应,是最能直接体现个人精神质量的研究对象。此外,情感识别已经广泛地应用于医疗、教育、自动驾驶、人机交互等领域并发挥了重要作用。因此,情感识别具有很大的应用前景和商业价值。
传统的单模态情感识别方法虽取得了不错的效果,但单一模态所包含的情感信息往往是稀疏的,导致提取到的特征存在信息不全面的问题,因此基于单模态信息的情感识别方法在一些复杂场景下很难实现鲁棒的识别效果,而多模态情感识别方法通过分析不同模态之间的差异和建模它们之间的相关性,提取模态间的互补信息,使提取的特征所包含的情感信息更丰富,识别准确率更高。
发明内容
本发明的目的是提供一种动态时域卷积网络驱动的多模态情感识别方法,相关的卷积核可随特征动态变化,能更灵活地建模多模态特征之间的交互作用,从而可以更准确地识别出用户的情感状态。
本发明所采用的技术方案是动态时域卷积网络驱动的多模态情感识别方法,具体按照以下步骤实施:
步骤1、从视频数据库中提取多个视频样本,通过多模态软件开发工具包从每个视频样本中分别提取音频模态特征xa、图像模态特征xv和文本模态特征xl,以及对应的情感类别标签;
步骤2、分别建立三个时域卷积神经网络,将每个视频样本的音频模态特征xa、图像模态特征xv和文本模态特征xl送入对应的时域卷积神经网络中,滤除各模态特征的冗余噪声,对各模态特征做时域关系上的建模,得到包含上下文信息的音频特征图像特征和文本特征
步骤7、将多模态融合特征xfusion送入一个三层的全连接神经网络进行情感分类;
步骤8、将模型预测到的情感类别与步骤1中的情感类别标签进行对比,并通过反向传播算法去更新三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络中的参数,然后不断重复步骤1-步骤7,直至模型能正确预测出情感类别,输出更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络;
步骤9、通过更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络从视频中识别人物的情感。
本发明的特点还在于:
步骤1中视频数据库包括CMU-MOSEI和IEMOCAP两种多模态情感分析数据集。
步骤3具有动态卷积特性的时域卷积网络由五个卷积层堆叠组成,每个卷积层由两个卷积神经网络组成,每个卷积神经网络的卷积核由动态卷积网络生成。
步骤3中输入具有动态卷积特性的时域卷积网络进行压缩具体过程为:
步骤4中执行一个注意力操作具体过程为:
α=softmax(xkeyKT) (2)
其中,m∈{a、v、l},K、V表示键值对向量,Wk表示键向量的权重矩阵,Wv表示值向量的权重矩阵,α表示注意力分数,softmax(·)表示softmax函数,KT为键向量K的转置。
步骤6的具体过程为:
本发明给出的动态时域卷积网络驱动的多模态情感识别方法的有益效果是:
1)本发明没有采用循环神经网络及其变体对多模态特征序列作时域关系上的建模,而是选择使用时域卷积网络建模时域关系,这样不仅能够大幅度减少网络的参数量,同时还能够对特征序列作并行处理,从而降低了网络计算时间。此外,卷积运算具有滤波的作用,能够有效滤除多模态特征中的冗余噪声;
2)为了使模型能更充分地聚焦在与情感相关的信息上,本发明提出了一种动态时域卷积网络驱动的注意力机制。以往的研究方法所使用的注意力机制中查询向量大多采用一个简单的非线性变换得到。需要指出的是,作为注意力机制的核心组件,仅通过一个单层的全连接层来学习是明显不够的。因此,本发明通过一种具有动态卷积特性的时域卷积网络来学习查询向量,不仅使查询向量的学习过程更加充分合理,而且通过动态卷积,使查询向量的生成随输入特征动态变化,更贴合目标任务;
3)本发明通过三个模态的特征来生成查询向量,然后通过注意力机制实现各模态特征的增强,能明确捕捉到各模态特征中与模态间交互作用相关的信息,从而使模型能更容易地建模不同模态之间的交互作用;
4)本发明提出一种具有动态卷积特性的时域卷积网络来融合不同模态的特征,由于不同模态特征之间的交互作用是随时域动态变化的,而时域卷积网络在融合不同模态特征的同时,可以对不同模态特征进行时域关系上的建模,与现有其他研究方法分别建模多模态间的交互作用和时域关系的做法相比,本发明提出的融合方法更加有效。此外,常规时域卷积网络的卷积核的参数在模型训练完之后就固定不变,这样在识别一个新的样本时缺乏灵活性,而本发明给出的时域卷积网络通过动态卷积的方式来生成卷积核,使卷积核能随输入特征呈现动态变化,与输入特征更适配,有助于更灵活地建模多模态特征之间的交互作用;
5)通过实验分析和验证,本发明给出的动态时域卷积网络合理有效,能够在多模态情感识别任务上取得很大的性能提升。
附图说明
图1是本发明动态时域卷积网络驱动的多模态情感识别方法流程图;
图2是时域卷积网络结构图;
图3是动态卷积网络结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明动态时域卷积网络驱动的多模态情感识别方法,如图1所示,具体按照以下步骤实施:
步骤1、从CMU-MOSEI和IEMOCAP两种数据集中提取多个视频样本,通过多模态软件开发工具包从每个视频样本中分别提取音频模态特征xa、图像模态特征xv和文本模态特征xl,以及对应的情感类别标签;
步骤2、分别建立三个时域卷积神经网络,如图2所示,将每个视频样本的音频模态特征xa、图像模态特征xv和文本模态特征xl送入对应的时域卷积神经网络中,滤除各模态特征的冗余噪声,对各模态特征做时域关系上的建模,得到包含上下文信息的音频特征图像特征和文本特征
步骤3、构建具有动态卷积特性的时域卷积网络,具有动态卷积特性的时域卷积网络由五个卷积层堆叠组成,每个卷积层由两个卷积神经网络组成,每个卷积神经网络的卷积核由动态卷积网络生成,动态卷积的结构如图3所示;
α=softmax(xkeyKT) (2)
其中m∈{a、v、l},K、V表示键值对向量,Wk表示键向量的权重矩阵,Wv表示值向量的权重矩阵,α表示注意力分数,softmax(·)表示softmax函数,KT为键向量K的转置。
步骤7、将多模态融合特征xfusion送入一个三层全连接神经网络执行情感分类。
步骤8、将模型预测到的情感类别与步骤1中的情感类别标签进行对比,并通过反向传播算法去更新三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络中的参数,然后不断重复步骤1-步骤7,直至模型能正确预测出情感类别(迭代收敛),输出更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络;
步骤9、按照步骤1-7中的方法,将待识别的视频替代视频样本,通过更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络识别待识别的视频情感。
本发明开展的实验在CMU-MOSI、CMU-MOSEI两个数据集上进行,并对本发明的性能进行评估与分析。
实验结果对比如下:
针对模型预测的情感类别与原始情感类别,分别计算F1分数(F1 score)、两类准确率(Acc2)、平均绝对误差损失(MAE)和皮尔逊相关系数(Corr),然后与已有的方法进行比较。在CMU-MOSI、CMU-MOSEI两个数据集上分别对不同的情感识别模型进行性能对比,在CMU-MOSI数据集上不同网络模型的性能对比结果如表1所示,在CMU-MOSEI数据集上不同网络模型的性能对比如表2所示:
表1
表2
由以上实验数据可知,本发明动态时域卷积网络驱动的多模态情感识别方法整体上是优于现有经典方法的。这验证了本发明能够有效地缓解多模态特征中冗余噪声的干扰,使模型充分提取到不同模态之间的关键情感信息,更有效地实现多模态情感识别。
通过上述方式,本发明动态时域卷积网络驱动的多模态情感识别方法,更准确地识别出用户的情感状态。此外,本发明通过动态时域卷积网络来融合不同模态的特征,能有效地缓解特征中冗余噪声的干扰。同时,卷积核随特征动态变化,能更灵活地建模多模态特征之间的交互作用。
Claims (6)
1.动态时域卷积网络驱动的多模态情感识别方法,其特征在于,具体按照以下步骤实施:
步骤1、从视频数据库中提取多个视频样本,通过多模态软件开发工具包从每个视频样本中分别提取音频模态特征xa、图像模态特征xv和文本模态特征xl,以及对应的情感类别标签;
步骤2、分别建立三个时域卷积神经网络,将每个视频样本的音频模态特征xa、图像模态特征xv和文本模态特征xl送入对应的时域卷积神经网络中,滤除各模态特征的冗余噪声,对各模态特征做时域关系上的建模,得到包含上下文信息的音频特征图像特征和文本特征
步骤7、将多模态融合特征xfusion送入一个三层的全连接神经网络执行情感类别预测;
步骤8、将模型预测到的情感类别与步骤1中的情感类别标签进行对比,并通过反向传播算法去更新三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络中的参数,然后不断重复步骤1-步骤7,直至模型能正确预测出情感类别,输出更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络;
步骤9、通过更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络识别待识别的视频情感。
2.根据权利要求1所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤1中所述视频数据库包括CMU-MOSEI和IEMOCAP两种多模态情感分析数据集。
3.根据权利要求1所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤3所述具有动态卷积特性的时域卷积网络由五个卷积层堆叠组成,每个卷积层由两个卷积神经网络组成,每个卷积神经网络的卷积核由动态卷积网络生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210640854.0A CN114998698A (zh) | 2022-06-08 | 2022-06-08 | 动态时域卷积网络驱动的多模态情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210640854.0A CN114998698A (zh) | 2022-06-08 | 2022-06-08 | 动态时域卷积网络驱动的多模态情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114998698A true CN114998698A (zh) | 2022-09-02 |
Family
ID=83033311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210640854.0A Pending CN114998698A (zh) | 2022-06-08 | 2022-06-08 | 动态时域卷积网络驱动的多模态情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998698A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424108A (zh) * | 2022-11-08 | 2022-12-02 | 四川大学 | 一种基于视听融合感知的认知功能障碍评测方法 |
-
2022
- 2022-06-08 CN CN202210640854.0A patent/CN114998698A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424108A (zh) * | 2022-11-08 | 2022-12-02 | 四川大学 | 一种基于视听融合感知的认知功能障碍评测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784801A (zh) | 基于文本和图片的双模态胃部疾病分类方法及装置 | |
CN113762322A (zh) | 基于多模态表示的视频分类方法、装置和设备及存储介质 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN113806609B (zh) | 一种基于mit和fsm的多模态情感分析方法 | |
Han et al. | Cross-modality co-attention networks for visual question answering | |
CN114339450A (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN111563373B (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
Huang et al. | TeFNA: Text-centered fusion network with crossmodal attention for multimodal sentiment analysis | |
Gao et al. | Generalized pyramid co-attention with learnable aggregation net for video question answering | |
CN114998698A (zh) | 动态时域卷积网络驱动的多模态情感识别方法 | |
CN112541541B (zh) | 基于多元素分层深度融合的轻量级多模态情感分析方法 | |
CN117132923A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
Hu et al. | Audio–text retrieval based on contrastive learning and collaborative attention mechanism | |
CN115858728A (zh) | 一种基于多模态数据的情感分析方法 | |
Yang et al. | Stacked temporal attention: Improving first-person action recognition by emphasizing discriminative clips | |
CN113792167A (zh) | 一种基于注意力机制和模态依赖的跨媒体交叉检索方法 | |
CN116821381B (zh) | 一种基于空间线索的语音-图像跨模态检索方法及装置 | |
Huang et al. | TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis | |
Luo et al. | Mutual Cross-Attention in Dyadic Fusion Networks for Audio-Video Emotion Recognition | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN117540007B (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
Duan et al. | Multimodal Apparent Personality Traits Analysis of Short Video using Swin Transformer and Bi-directional Long Short-Term Memory Network | |
CN113705197B (zh) | 一种基于位置增强的细粒度情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |