CN116168324A - 基于循环交互Transformer与维度交叉融合的视频情感识别方法 - Google Patents

基于循环交互Transformer与维度交叉融合的视频情感识别方法 Download PDF

Info

Publication number
CN116168324A
CN116168324A CN202310128601.XA CN202310128601A CN116168324A CN 116168324 A CN116168324 A CN 116168324A CN 202310128601 A CN202310128601 A CN 202310128601A CN 116168324 A CN116168324 A CN 116168324A
Authority
CN
China
Prior art keywords
interaction
cyclic
dimension
feature
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310128601.XA
Other languages
English (en)
Inventor
龚沛朱
刘晋
吴中岱
韩冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Shanghai Ship and Shipping Research Institute Co Ltd
Original Assignee
Shanghai Maritime University
Shanghai Ship and Shipping Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University, Shanghai Ship and Shipping Research Institute Co Ltd filed Critical Shanghai Maritime University
Priority to CN202310128601.XA priority Critical patent/CN116168324A/zh
Publication of CN116168324A publication Critical patent/CN116168324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于循环交互Transformer与维度交叉融合的视频情感识别方法,解决了视频情感识别过程中,多模态特征表达不准确,交互不充分及交互过程对时序依赖敏感度高的问题,其技术方案要点是使用模态特定嵌入层,针对视频中的多模态信息分别提取高层的抽象特征,将抽象特征传入提出的循环交互Transformer网络中,设计一种循环交互注意力机制促进多模态特征充分交互,并提出一种维度交叉融合方法,将高维信息通过因子分解方法沿长,宽,通道三个维度分别映射到不同的子空间中,本发明的一种基于循环交互Transformer与维度交叉融合的视频情感识别方法,有利于增强关键信息的表达力及模型的鲁棒性,能充分利用多模态中存在的有效信息,提升了情感识别的识别率。

Description

基于循环交互Transformer与维度交叉融合的视频情感识别 方法
技术领域
本发明涉及多模态情感计算技术,特别涉及一种基于循环交互Transformer与维度交叉融合的视频情感识别方法。
背景技术
情感计算,又名主观性分析,通常是指利用统计学知识和深度学习技术研究旨在确定场景中某对象对于某一主题或事件的观点态度,判断其情绪状态。目前,已有大量研究分别对文本,音频,视频等模态进行情感分析。然而单单针对单种模态的数据,如文本,进行情感分析往往会有数据不全面、易受噪声污染等一系列缺陷,因此将多种模态数据结合进行有效表达和分析成了现今趋势。
在多模态情感计算任务中往往涉及多种模态的原始数据,如图像,文本,音频等。由于不同的模态具有不同的统计属性,并且分布在不同的特征空间,大量的研究已分别为单模态特征表示设计了各种深度学习方法。例如,图像数据通常由分层的空间网络处理,而文本数据则由序列网络编码。然而,高层语义概念和低层数据之间的差异导致了模态内嵌入之间的语义差距。为了缩小此差距,自监督嵌入模型被引入来表示不同模态的数据。在大量未标记数据上进行预训练后,自监督嵌入模型具有很强的泛化能力。然而此过程中,由长距离依赖引起的表征的不一致问题往往被忽视,这对模态内语义信息的维护是不利的。
多模态情感计算模型的输入通常由多个序列组成,这些序列以严格的时间顺序排列进行互动。在序列任务中,通常会结合递归神经网络与注意力机制来捕获时间序列上的动态交互。然而,这种按照时间步将多模态数据严格对齐的计算方法会导致较早出现的信息被更晚出现的信息所干扰,甚至覆盖。为了解决这个问题,记忆网络通过构建了一个具有复杂结构的存储单元来实现关键信息回溯,但它仍无法解决多模态信息交互对时序依赖敏感度高的问题。
根据多模态信息融合时期不同,可分为特征级融合和决策级融合。特征级融合是指将多模态特征(文本、图像、音频等)进行组合,然后作为分类器回归器的输入。特征级融合的优势在于早期阶段各种多模态特征之间的相关性可以潜在地提供更好的完成任务;而缺点是就是需要对特征进行统一化处理。而在决策级融合中,各模态的特征学习依旧是各自分开的,只是在最后进行预测时,会添加一个融合机制,该机制的作用是通过数据的标签学习得到一个权重矩阵,该权重矩阵可以判断每次分类的过程中,哪一种模态的表示信息应该占据更大的比重。决策级融合方式的优点在于,每个模态都可以选用自己最适合的特征抽取器来抽取特征表示向量,但其缺陷是模态之间的信息交互太过表面化。
当前的视频多模态情感识别任务中,仍存在多模态信息特征表达不准确问题,多模态信息交互不充分问题及多模态信息交互对时序依赖敏感度高的问题。
发明内容
本发明的目的是提供一种基于循环交互Transformer与维度交叉融合的视频情感识别方法,能充分利用多模态中存在的有效信息,提升了情感识别的识别率。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种基于循环交互Transformer与维度交叉融合的视频情感识别方法,包括有以下步骤:
S1、基于视频中的多模态情感数据,使用预训练的自监督神经网络模型作为模态特定嵌入层,分别对图像、音频和文本数据进行特征提取;
S2、基于嵌入修正算法将提取的多模态特征向量修正转化为统一表征;
S3、通过循环交互注意力机制获取修正后多模态特征向量的跨模态信息,引入并构建循环矩阵;
S4、在循环交互注意力机制的基础上增加残差连接与前馈层,封装为循环交互注意力模块,堆叠多个循环交互注意力模块以构建循环交互Transfomer网络,获取跨模态信息,完成多模态特征交互;
S5、基于维度交叉融合,将得到的交互结果通过因子分解法沿长、宽、通道三个维度分别映射到不同的子空间中,得到最终融合结果,用于识别预测。
作为优选,步骤S1中进行特征提取的特征提取器均进行预训练,通过迁移学习获取;
图像信息的特征提取器结构,基于自监督神经网络模型Fab-Net,在大规模人脸数据集上进行预训练;
音频信息的特征提取器结构,基于自监督神经网络模型Wav2Vec,在大规模语音识别数据集上进行预训练;
文本信息的特征提取器结构,基于自监督神经网络模型RoBERTa,在大规模文本数据集上进行预训练。
作为优选,步骤S2中嵌入修正算法具体为:
输入{Xi}i∈A,V,表示音频(A)或图像(V)序列;
初始化特殊记号CLS←[];
进行分句切片,形成语句序列Seq←[s1,s2,…,sm];
将特殊记号CLS与原始数据序列进行拼接Concate([CLS],Seq);
对序列位置进行编码Pos=[p0,p1,p2,…,pn];
将位置信息融入数据序列
Figure BDA0004082975730000041
迭代M次;
获取查询向量Q,Q=WQ·Iseq、键向量K,K=WK·Iseq、值向量V,V=WV·Iseq,其中WQ,WK,WV为可学习的权重参数;
计算查询向量Q与键向量K的相似性
Figure BDA0004082975730000042
获得最终的模态信息特征向量Oseq
Figure BDA0004082975730000043
返回Oseq
作为优选,步骤S3中的循环矩阵构建方法具体为:
对文本序列数据OT,将文本序列数据记为
Figure BDA0004082975730000044
其中n为序列长度,则可构造循环矩阵:
Figure BDA0004082975730000045
其中mat_T(.)为循环矩阵构造方法。
作为优选,步骤S3中的循环交互注意力机制具体为:
实现文本数据与
Figure BDA0004082975730000046
与音频数据/>
Figure BDA0004082975730000047
之间的交互,其中N(.)表示特征向量的长度,d(.)表示特征通道数,将文本模态作为目标模态,借助循环交互注意力机制CIT从音频模态中获取跨模态信息的过程为:
Figure BDA0004082975730000051
其中
Figure BDA0004082975730000052
表示查询向量,由文本特征序列OT计算所得,/>
Figure BDA0004082975730000053
是可学习参数权重;/>
Figure BDA0004082975730000054
表示键向量,由音频特征序列OA计算所得,/>
Figure BDA0004082975730000055
是可学习参数权重;
Figure BDA0004082975730000056
表示值向量,由音频特征序列OA计算所得,/>
Figure BDA0004082975730000057
是可学习参数权重;mat_T(QT)i表示循环矩阵的行向量。
作为优选,以文本模态作为目标模态,通过循环交互Transformer网络从音频模态中获取跨模态信息的完整过程可表示为
Figure BDA0004082975730000058
Figure BDA0004082975730000059
Figure BDA00040829757300000510
其中MLP表示全连接神经网络,
Figure BDA00040829757300000511
表示第i层的带有多头的循环交互注意力机制。
作为优选,步骤S5中的维度交叉融合方法具体为:
包含三个分支,每个分支负责捕捉输入特征图的空间维度高H或宽W与通道维度C之间的交叉特征及依赖关系;
在分支一中向高度H与通道C构成的平面进行投射,探索(H,C)之间的交互,首先将μ沿着H轴逆时针旋转90°,得到旋转后的新特征张量表示为
Figure BDA00040829757300000512
随后对μ1的第1维度进行综合池化,缩减得到张量/>
Figure BDA00040829757300000513
经过一个卷积层和全连接层,并通过sigmoid激活函数得到注意力权重矩阵/>
Figure BDA00040829757300000514
其中每个元素的值都在0-1之间;
在分支二中向宽度W与高度H构成的平面进行投射,探索(W,H)之间的交互,首先将μ沿着W轴逆时针旋转90°,得到旋转后的新特征张量表示为
Figure BDA0004082975730000061
与分支①类似的,对μ2的第1维度进行综合池化,缩减得到张量/>
Figure BDA0004082975730000062
并经过一个卷积层和全连接层,通过sigmoid激活函数得到注意力权重矩阵/>
Figure BDA0004082975730000063
其中每个元素的值都在0-1之间;
在分支三中向宽度W与通道C构成的平面进行投射,探索(W,C)之间的交互,该分支不需旋转,对μ的第1维度进行综合池化,缩减得到张量
Figure BDA0004082975730000064
并经过一个卷积层和全连接层,通过sigmoid激活函数得到注意力权重矩阵/>
Figure BDA0004082975730000065
其中每个元素的值都在0-1之间;
对三个分支的结果进行对位相加取平均,得到最终的融合结果。
作为优选,张量的计算具体为:
Figure BDA0004082975730000066
μmax=MaxPool1d(μ),μavg=AvgPool1d(μ)
其中Concate(.)表示拼接,MaxPool1d(.)表示一维最大池化,AvgPool1d(.)表示一维平均池化;
最终的融合结果具体为:
Figure BDA0004082975730000071
其中rotate(.)表示旋转,σ表示sigmoid非线性激活函数,ψ123分别表示三个不同的二维卷积层。
综上所述,本发明具有以下有益效果:
使用模态特定嵌入层,针对视频中的多模态信息,包括图像,音频和文本分别提取高层的抽象特征,将抽象特征传入提出的循环交互Transformer网络中,该网络基于原始的Transformer神经网络框架,设计了一种循环交互注意力机制促进多模态特征充分交互,通过构建循环矩阵,从而尽可能探索出所有多模态特征交互的组合,同时也削弱了多模态交互对时序的敏感度,提出了一种维度交叉融合方法,将高维信息通过因子分解方法沿长,宽,通道三个维度分别映射到不同的子空间中,从而解决视频情感分析中多模态特征冗余问题,并有利于增强关键信息的表达力及模型的鲁棒性,充分利用了多模态中存在的有效信息,提升了情感识别的识别率。
附图说明
图1为本方法的流程示意图;
图2为本发明中嵌入修正算法的示意图;
图3为本发明中循环交互注意力机制的结构图;
图4是本发明中循环交互Transformer的网络结构图;
图5是本发明中维度交叉融合的结构示意图;
图6是本发明在情感识别数据集IEMOCAP上的识别混淆矩阵图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
根据一个或多个实施例,公开了一种基于循环交互Transformer与维度交叉融合的视频情感识别方法,如图1所示,包括有以下步骤:
S1、基于视频中的多模态情感数据,使用预训练的自监督神经网络模型作为模态特定嵌入层,分别对图像、音频和文本数据进行特征提取。
进行特征提取的特征提取器均进行预训练,通过迁移学习获取。具体的:
图像信息的特征提取器结构,基于自监督神经网络模型Fab-Net,在大规模人脸数据集上进行预训练;具体的,本实例中的自监督神经网络模型Fab-Net是在VoxCeleb数据集上进行预训练的,以学习人脸属性作为辅助任务,包括关键点检测、面部肌肉动作,表情等,其嵌入向量的维度为256,最大序列长度为300。
音频信息的特征提取器结构,基于自监督神经网络模型Wav2Vec,在大规模语音识别数据集上进行预训练;具体的,本实例中的自监督神经网络模型Wav2Vec在librisspeech数据集上进行预训练,该网络包含3.35M参数,其嵌入大小为512,最大序列长度为935。
文本信息的特征提取器结构,基于自监督神经网络模型RoBERTa,在大规模文本数据集上进行预训练;具体的,本实例中的自监督神经网络模型RoBERTa由24层Transformer编码器组成,模型包含355M参数,在英文文本数据集CC-NEWS,OPENWEBTEXT和STORIES上进行预训练,其嵌入向量维度为1024,最大序列长度为512。
S2、基于嵌入修正算法将提取的多模态特征向量修正转化为统一表征,有利于多模态信息的跨模态交互以及融合。
如图2所示,该嵌入修正算法中引入了一个特殊标记CLS,并利用多头自注意力机制将模态内部特征信息进行统一编码。
其中,嵌入修正算法具体为:
输入{Xi}i∈A,V,表示音频(A)或图像(V)序列;
初始化特殊记号CLS←[];
进行分句切片,形成语句序列Seq←[s1,s2,…,sm];
将特殊记号CLS与原始数据序列进行拼接Concate([CLS],Seq);
对序列位置进行编码Pos=[p0,p1,p2,…,pn];
将位置信息融入数据序列
Figure BDA0004082975730000091
迭代M次;
获取查询向量Q,Q=WQ·Iseq、键向量K,K=WK·Iseq、值向量V,V=WV·Iseq,其中WQ,WK,WV为可学习的权重参数;
计算查询向量Q与键向量K的相似性
Figure BDA0004082975730000092
获得最终的模态信息特征向量Oseq
Figure BDA0004082975730000093
返回Oseq
S3、通过循环交互注意力机制获取修正后多模态特征向量的跨模态信息,引入并构建循环矩阵;修正后的多模态特征向量通过该机制,可以借助跨模态特征强化当前模态特征的表达能力,并通过引入与构建循环矩阵以削弱多模态特征对于时序的依赖性。
其中,
如图3所示,循环矩阵构建方法具体为:
以文本序列数据为例,对文本序列数据OT,将文本序列数据记为
Figure BDA0004082975730000101
其中n为序列长度,则可构造循环矩阵:
Figure BDA0004082975730000102
其中mat_T(.)为循环矩阵构造方法。
循环交互注意力机制具体为:
以文本数据与音频数据为例,实现文本数据与
Figure BDA0004082975730000103
与音频数据
Figure BDA0004082975730000104
之间的交互,其中N(.)表示特征向量的长度,d(.)表示特征通道数,将文本模态作为目标模态,借助循环交互注意力机制CIT从音频模态中获取跨模态信息的过程为:/>
Figure BDA0004082975730000105
其中
Figure BDA0004082975730000106
表示查询向量,由文本特征序列OT计算所得,/>
Figure BDA0004082975730000107
是可学习参数权重;/>
Figure BDA0004082975730000108
表示键向量,由音频特征序列OA计算所得,/>
Figure BDA0004082975730000109
是可学习参数权重;
Figure BDA00040829757300001010
表示值向量,由音频特征序列OA计算所得,/>
Figure BDA00040829757300001011
是可学习参数权重;mat_T(QT)i表示循环矩阵的行向量。
S4、在循环交互注意力机制的基础上增加残差连接与前馈层,封装为循环交互注意力模块,堆叠多个循环交互注意力模块以构建循环交互Transfomer网络,获取跨模态信息,完成多模态特征交互。其中每个模块在抽象高级语义特征的同时也最大限度保留了上一层的低级语义信息,这样细粒度的特征表达能够有效提升模型效果。
如图4所示,循环交互Transformer网络的具体计算方法为:
以文本模态作为目标模态,通过循环交互Transformer网络从音频模态中获取跨模态信息的完整过程可表示为
Figure BDA0004082975730000111
Figure BDA0004082975730000112
Figure BDA0004082975730000113
其中MLP表示全连接神经网络,
Figure BDA0004082975730000114
表示第i层的带有多头的循环交互注意力机制。
S5、基于维度交叉融合,将得到的交互结果通过因子分解法沿长、宽、通道三个维度分别映射到不同的子空间中,得到最终融合结果,用于识别预测。从而解决视频情感分析中多模态特征冗余问题,并有利于增强关键信息的表达力及模型的鲁棒性。
如图5所示,设计了一种维度交叉融合方法,维度交叉融合方法具体为:
包含三个分支,每个分支负责捕捉输入特征图的空间维度高H或宽W与通道维度C之间的交叉特征及依赖关系;
图5中从左至右,具体地,当输入特征张量表示为
Figure BDA0004082975730000115
在分支一中向高度H与通道C构成的平面进行投射,探索(H,C)之间的交互,首先将μ沿着H轴逆时针旋转90°,得到旋转后的新特征张量表示为/>
Figure BDA0004082975730000116
随后对μ1的第1维度进行综合池化,缩减得到张量/>
Figure BDA0004082975730000121
经过一个卷积层和全连接层,并通过sigmoid激活函数得到注意力权重矩阵/>
Figure BDA0004082975730000122
其中每个元素的值都在0-1之间;
在分支二中向宽度W与高度H构成的平面进行投射,探索(W,H)之间的交互,首先将μ沿着W轴逆时针旋转90°,得到旋转后的新特征张量表示为
Figure BDA0004082975730000123
与分支①类似的,对μ2的第1维度进行综合池化,缩减得到张量/>
Figure BDA0004082975730000124
并经过一个卷积层和全连接层,通过sigmoid激活函数得到注意力权重矩阵/>
Figure BDA0004082975730000125
其中每个元素的值都在0-1之间;
在分支三中向宽度W与通道C构成的平面进行投射,探索(W,C)之间的交互,该分支不需旋转,对μ的第1维度进行综合池化,缩减得到张量
Figure BDA0004082975730000126
并经过一个卷积层和全连接层,通过sigmoid激活函数得到注意力权重矩阵/>
Figure BDA0004082975730000127
其中每个元素的值都在0-1之间;
对三个分支的结果进行对位相加取平均,得到最终的融合结果。
张量的计算具体为:
Figure BDA0004082975730000128
μmax=MaxPool1d(μ),μavg=AvgPool1d(μ)
其中Concate(.)表示拼接,MaxPool1d(.)表示一维最大池化,AvgPool1d(.)表示一维平均池化;
最终的融合结果具体为:
Figure BDA0004082975730000131
其中rotate(.)表示旋转,σ表示sigmoid非线性激活函数,ψ123分别表示三个不同的二维卷积层。
为表述清楚,现举一实例:
本实例种使用了公开情感计算数据集IEMOCAP。该数据集包含了五组对话和十个男女演员,其中每一组对话都会由两个固定的演员进行。IEMOCAP包含大约12个小时的视听数据,包括视频,语音,转录的文本以及面部表情。数据集标签包括愤怒,快乐,悲伤,中性,兴奋,沮丧,恐惧,惊讶7种类别。
由于该数据集在每种类别之间的分布是不均匀的,因此选取了其中四个最为常见的标签,即快乐(Happy),悲伤(Sad),生气(Anger)和平淡(Neutral)。将数据集分为训练集,验证集和测试集,将前四组对话用作训练和验证,最后一个对话进行测试。因此,测试集中的两个演员是不会在训练集合验证集中出现的。这种分割方式也使得在评估情感分析效果时排除了与说话人有关的干扰。其统计信息见表1:
数据集 类别数 训练集数量 验证集数量 测试集数量
IEMOCAP 4 2,717 789 938
表1
根据IEMOCAP数据集的数据量和种类数,本实例中的模型参数具体呈现在表2:
批量大小 32
初始学习率 3.00E-04
学习率策略 Adam
自注意力块数量 2
跨模态注意力块数量 2
自注意力头数量 4
跨模态注意力头数量 4
Dropout率 0.1
训练轮数 20
表2
表3为多模态情感识别模型的精度比较
Figure BDA0004082975730000141
表3
从表3可以看出本发明设计的模型在准确率Acc和F1-score评价指标上的表现都优于现有模型。其中CTC表示联结主义时间分类机制,将CTC与模型结合能使该模型在无监督的情况下进行端到端的训练并推断出语音与文本之间的对齐关系。
如图6所示,展现了本发明涉及模型在IEMOCAP数据集上的准确率混淆矩阵。从图中可以看出,快乐(Happy)拥有最高的识别准确率达到83.3,最难识别的是平淡(Neutral)。此外,生气(Angry)最有可能被误判为快乐(Happy),我们推测或许是因为这两种表情的面部肌肉变化幅度都比较大。
通过本发明中提出的方法能够充分利用视频中各种模态信息进行交互,并有效融合,同时提升了对情感识别的准确性。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (8)

1.一种基于循环交互Transformer与维度交叉融合的视频情感识别方法,其特征是,包括有以下步骤:
S1、基于视频中的多模态情感数据,使用预训练的自监督神经网络模型作为模态特定嵌入层,分别对图像、音频和文本数据进行特征提取;
S2、基于嵌入修正算法将提取的多模态特征向量修正转化为统一表征;
S3、通过循环交互注意力机制获取修正后多模态特征向量的跨模态信息,引入并构建循环矩阵;
S4、在循环交互注意力机制的基础上增加残差连接与前馈层,封装为循环交互注意力模块,堆叠多个循环交互注意力模块以构建循环交互Transfomer网络,获取跨模态信息,完成多模态特征交互;
S5、基于维度交叉融合,将得到的交互结果通过因子分解法沿长、宽、通道三个维度分别映射到不同的子空间中,得到最终融合结果,用于识别预测。
2.根据权利要求1所述的基于循环交互Transformer与维度交叉融合的视频情感识别方法,其特征是:步骤S1中进行特征提取的特征提取器均进行预训练,通过迁移学习获取;
图像信息的特征提取器结构,基于自监督神经网络模型Fab-Net,在大规模人脸数据集上进行预训练;
音频信息的特征提取器结构,基于自监督神经网络模型Wav2Vec,在大规模语音识别数据集上进行预训练;
文本信息的特征提取器结构,基于自监督神经网络模型RoBERTa,在大规模文本数据集上进行预训练。
3.根据权利要求1所述的基于循环交互Transformer与维度交叉融合的视频情感识别方法,其特征是,步骤S2中嵌入修正算法具体为:
输入{Xi}i∈A,V,表示音频(A)或图像(V)序列;
初始化特殊记号CLS←[];
进行分句切片,形成语句序列Seq←[s1,s2,...,sm];
将特殊记号CLS与原始数据序列进行拼接Concate([CLS],Seq);
对序列位置进行编码Pos=[p0,p1,p2,...,pn];
将位置信息融入数据序列
Figure FDA0004082975720000021
迭代M次;
获取查询向量Q,Q=WQ·Iseq、键向量K,K=WK·Iseq、值向量V,V=WV·Iseq,其中WQ,WK,WV为可学习的权重参数;
计算查询向量Q与键向量K的相似性
Figure FDA0004082975720000022
获得最终的模态信息特征向量
Figure FDA0004082975720000023
Figure FDA0004082975720000024
/>
返回Oseq
4.根据权利要求1所述的基于循环交互Transformer与维度交叉融合的视频情感识别方法,其特征是,步骤S3中的循环矩阵构建方法具体为:
对文本序列数据OT,将文本序列数据记为
Figure FDA0004082975720000025
其中n为序列长度,则可构造循环矩阵:
Figure FDA0004082975720000031
其中mat_T(.)为循环矩阵构造方法。
5.根据权利要求1所述的基于循环交互Transformer与维度交叉融合的视频情感识别方法,其特征是,步骤S3中的循环交互注意力机制具体为:
实现文本数据与
Figure FDA0004082975720000032
与音频数据/>
Figure FDA0004082975720000033
之间的交互,其中N(.)表示特征向量的长度,d(.)表示特征通道数,将文本模态作为目标模态,借助循环交互注意力机制CIT从音频模态中获取跨模态信息的过程为:
Figure FDA0004082975720000034
其中
Figure FDA0004082975720000035
表示查询向量,由文本特征序列OT计算所得,/>
Figure FDA0004082975720000036
是可学习参数权重;/>
Figure FDA0004082975720000037
表示键向量,由音频特征序列OA计算所得,/>
Figure FDA0004082975720000038
是可学习参数权重;
Figure FDA0004082975720000039
表示值向量,由音频特征序列OA计算所得,/>
Figure FDA00040829757200000310
是可学习参数权重;mat_T(QT)i表示循环矩阵的行向量。
6.根据权利要求5所述的基于循环交互Transformer与维度交叉融合的视频情感识别方法,其特征是:以文本模态作为目标模态,通过循环交互Transformer网络从音频模态中获取跨模态信息的完整过程可表示为
Figure FDA00040829757200000311
Figure FDA00040829757200000312
Figure FDA0004082975720000041
其中MLP表示全连接神经网络,
Figure FDA0004082975720000042
表示第i层的带有多头的循环交互注意力机制。
7.根据权利要求1所述的基于循环交互Transformer与维度交叉融合的视频情感识别方法,其特征是,步骤S5中的维度交叉融合方法具体为:
包含三个分支,每个分支负责捕捉输入特征图的空间维度高H或宽W与通道维度C之间的交叉特征及依赖关系;
在分支一中向高度H与通道C构成的平面进行投射,探索(H,C)之间的交互,首先将μ沿着H轴逆时针旋转90°,得到旋转后的新特征张量表示为
Figure FDA0004082975720000043
随后对μ1的第1维度进行综合池化,缩减得到张量/>
Figure FDA0004082975720000044
经过一个卷积层和全连接层,并通过sigmoid激活函数得到注意力权重矩阵/>
Figure FDA0004082975720000045
其中每个元素的值都在0-1之间;
在分支二中向宽度W与高度H构成的平面进行投射,探索(W,H)之间的交互,首先将μ沿着W轴逆时针旋转90°,得到旋转后的新特征张量表示为
Figure FDA0004082975720000046
与分支①类似的,对μ2的第1维度进行综合池化,缩减得到张量/>
Figure FDA0004082975720000047
并经过一个卷积层和全连接层,通过sigmoid激活函数得到注意力权重矩阵/>
Figure FDA0004082975720000048
其中每个元素的值都在0-1之间;
在分支三中向宽度W与通道C构成的平面进行投射,探索(W,C)之间的交互,该分支不需旋转,对μ的第1维度进行综合池化,缩减得到张量
Figure FDA0004082975720000049
并经过一个卷积层和全连接层,通过sigmoid激活函数得到注意力权重矩阵/>
Figure FDA00040829757200000410
其中每个元素的值都在0-1之间;
对三个分支的结果进行对位相加取平均,得到最终的融合结果。
8.根据权利要求7所述的基于循环交互Transformer与维度交叉融合的视频情感识别方法,其特征是:
张量的计算具体为:
Figure FDA0004082975720000051
μmax=MaxPool1d(μ),μavg=AvgPool1d(μ)
其中Concate(.)表示拼接,MaxPool1d(.)表示一维最大池化,AvgPool1d(.)表示一维平均池化;
最终的融合结果具体为:
Figure FDA0004082975720000052
其中rotate(.)表示旋转,σ表示sigmoid非线性激活函数,ψ1,ψ2,ψ3分别表示三个不同的二维卷积层。
CN202310128601.XA 2023-02-17 2023-02-17 基于循环交互Transformer与维度交叉融合的视频情感识别方法 Pending CN116168324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310128601.XA CN116168324A (zh) 2023-02-17 2023-02-17 基于循环交互Transformer与维度交叉融合的视频情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310128601.XA CN116168324A (zh) 2023-02-17 2023-02-17 基于循环交互Transformer与维度交叉融合的视频情感识别方法

Publications (1)

Publication Number Publication Date
CN116168324A true CN116168324A (zh) 2023-05-26

Family

ID=86421566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310128601.XA Pending CN116168324A (zh) 2023-02-17 2023-02-17 基于循环交互Transformer与维度交叉融合的视频情感识别方法

Country Status (1)

Country Link
CN (1) CN116168324A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197472A (zh) * 2023-11-07 2023-12-08 四川农业大学 基于鼻出血内窥镜影像的高效师生半监督分割方法及装置
CN117235605A (zh) * 2023-11-10 2023-12-15 湖南马栏山视频先进技术研究院有限公司 一种基于多模态注意力融合的敏感信息分类方法及装置
CN117234369A (zh) * 2023-08-21 2023-12-15 华院计算技术(上海)股份有限公司 数字人交互方法及系统、计算机可读存储介质、数字人设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117234369A (zh) * 2023-08-21 2023-12-15 华院计算技术(上海)股份有限公司 数字人交互方法及系统、计算机可读存储介质、数字人设备
CN117197472A (zh) * 2023-11-07 2023-12-08 四川农业大学 基于鼻出血内窥镜影像的高效师生半监督分割方法及装置
CN117197472B (zh) * 2023-11-07 2024-03-08 四川农业大学 基于鼻出血内窥镜影像的高效师生半监督分割方法及装置
CN117235605A (zh) * 2023-11-10 2023-12-15 湖南马栏山视频先进技术研究院有限公司 一种基于多模态注意力融合的敏感信息分类方法及装置
CN117235605B (zh) * 2023-11-10 2024-02-02 湖南马栏山视频先进技术研究院有限公司 一种基于多模态注意力融合的敏感信息分类方法及装置

Similar Documents

Publication Publication Date Title
CN111325323B (zh) 一种融合全局信息和局部信息的输变电场景描述自动生成方法
CN116168324A (zh) 基于循环交互Transformer与维度交叉融合的视频情感识别方法
CN115471851B (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN111931795B (zh) 基于子空间稀疏特征融合的多模态情感识别方法及系统
CN111523534A (zh) 一种图像描述的方法
Chao et al. Audio visual emotion recognition with temporal alignment and perception attention
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN114359946A (zh) 一种基于残差注意力Transformer的光学乐谱图像识别方法
CN113423004B (zh) 基于解耦译码的视频字幕生成方法和系统
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
CN115810351B (zh) 一种基于视听融合的管制员语音识别方法及装置
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN111460883A (zh) 基于深度强化学习的视频行为自动描述方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN112434514A (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN114020897A (zh) 一种对话情感识别方法及相关装置
CN113688871A (zh) 基于Transformer的视频多标签动作识别方法
CN117390407A (zh) 变电站设备的故障识别方法、系统、介质和设备
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及系统
CN115310560A (zh) 一种基于模态空间同化和对比学习的多模态情感分类方法
CN113780350B (zh) 一种基于ViLBERT和BiLSTM的图像描述方法
CN115858728A (zh) 一种基于多模态数据的情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination