CN116758451A - 基于多尺度和全局交叉注意力的视听情感识别方法及系统 - Google Patents
基于多尺度和全局交叉注意力的视听情感识别方法及系统 Download PDFInfo
- Publication number
- CN116758451A CN116758451A CN202310601381.8A CN202310601381A CN116758451A CN 116758451 A CN116758451 A CN 116758451A CN 202310601381 A CN202310601381 A CN 202310601381A CN 116758451 A CN116758451 A CN 116758451A
- Authority
- CN
- China
- Prior art keywords
- emotion
- scale
- audio
- video
- modality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000008451 emotion Effects 0.000 claims abstract description 84
- 230000004927 fusion Effects 0.000 claims abstract description 56
- 230000003993 interaction Effects 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 9
- 230000006872 improvement Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 230000008921 facial expression Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008433 psychological processes and functions Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于情感计算技术领域,提供了基于多尺度和全局交叉注意力的视听情感识别方法及系统,通过多尺度卷积注意力模块,提取不同上下文尺度的模态关键情感特征,弥补了单一尺度特征不足以表达人类复杂情感的缺陷。通过全局交叉注意力模块,同时考虑模态间和模态内的交互,从而学习更丰富的模态交互信息,并且减少了融合特征中的冗余。最后又设计了多尺度特征学习模块,从融合特征中进一步学习对两个模态共同有意义的情感信息。通过以上改进,最终所提出的方法能够实现更好的情感识别准确率和更高效的情感识别效率。
Description
技术领域
本发明属于情感计算技术领域,尤其涉及基于多尺度和全局交叉注意力的视听情感识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
尽管许多研究使用了更复杂的模态组合,但由于面部表情和语音是人类表达情绪最自然和最常见的方式,视频和音频仍是完成这项任务的主要模态。
现有的基于视听情感识别的研究工作,主要是在前期设计特征提取网络,分别提取视频和音频模态的高级情感特征,再使用特征融合方法,包括早期融合、中期融合和晚期融合,将两个模态的情感信息融合,以完成最终的情感分类。
虽然随着深度学习的发展,视听情感识别任务取得了显著进展。对于视频模态的特征提取任务来说,主流的方法有两种,一种是使用三维卷积神经网络直接提取视频模态的时空特征,如C.Guanghui使用C3D-Sports-1M模型初始化的三维卷积神经网络来提取视频模态的时空特征表示;另一种方法是首先使用二维卷积神经网络提取视频模态的空间特征,再使用一维卷积神经网络或循环神经网络在时间维度上对视频序列进行建模,进一步提取视频模态的时间特征,如D.H.Kim提出一种面部表情识别网络,该网络通过二维卷积神经网络学习面部表情的空间特征,再使用长短期记忆网络(LSTM)进一步学习面部表情空间特征表示的时间特征。
对于音频模态的特征提取任务,也有几种主流的处理方法,一种是像P.Tzirakis那样,将原始语音波形或手工制作的低级特征(例如梅尔倒谱系数),馈送到一维卷积神经网络或循环神经网络,以进一步提取高级情感特征;另一种处理方法是像M.B.Er那样,将语音转换成类似于RGB图像的二维频谱图,然后使用处理图像的方法提取音频模态特征。
但是,人类情感表达是一个复杂的心理过程,现有工作使用单一尺度的网络模型提取模态数据的固定尺寸局部特征表示,不足以充分表达情感信息。另外,对于模态特征融合任务来说,尽管人类非常善于从多模态情感信息中识别情感,但计算机则不同。如果只是简单的将多个模态数据级联输入到计算机中进行情感识别,那么得到的融合特征表示将忽略不同模态之间的互补信息,并且将存在大量重复和冗余,这会恶化情感识别系统,导致“1+1<2”的负面影响。现有工作虽然试图使用基于注意力的融合方法来解决上述问题,例如J.Huang利用Transformer模型进行模态特征融合,通过多模态融合模块中包含的多头注意力层捕捉视听模态之间的交互,并将音频模态特征集成到视频模态特征中,以获得融合特征表示。但所使用的特征融合方法并不能充分捕捉模态之间的互补关系,并且得到的融合特征表示存在一定的冗余。
另外,目前虽然也有多模态情感识别方法试图捕获更丰富的模态内和模态间的交互信息,但是其是使用了多次注意力机制才得到的,导致提取的特征存在重复和冗余,并且其注意力会集中于自身的位置,模型的表达能力差,对于视听情感的识别的效率低。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于多尺度和全局交叉注意力的视听情感识别方法及系统,其针对上述现有工作中在模态特征提取和特征融合部分的局限性,对其分别进行了改进,通过多尺度卷积注意力模块,提取不同上下文尺度的模态关键情感特征,弥补了单一尺度特征不足以表达人类复杂情感的缺陷。通过全局交叉注意力模块,同时考虑模态间和模态内的交互,从而学习更丰富的模态交互信息,并且减少了融合特征中的冗余。最后又设计了多尺度特征学习模块,从融合特征中进一步学习对两个模态共同有意义的情感信息。通过以上改进,最终所提出的方法能够实现更好的情感识别准确率和更高效的情感识别效率。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于多尺度和全局交叉注意力的视听情感识别方法,包括如下步骤:
获取视频模态数据和音频模态数据;
基于视频模态数据和视频模态特征提取模块得到视频模态多尺度情感特征;
基于音频模态数据和音频模态特征提取模块得到音频模态高级情感特征表示;
通过全局交叉注意力模块,基于视频模态多尺度情感特征和音频模态高级情感特征表示,同时学习模态间和模态内的交互信息,得到包含模态间和模态内交互信息的融合特征表示;通过多尺度特征学习模块进一步捕获融合特征表示中对两个模态特征都有意义的多尺度情感信息;
将对两个模态特征有共同意义的多尺度情感信息,经过全局池化操作后级联,得到最终的融合特征,并送入softmax层得到情感识别结果。
本发明的第二个方面提供基于多尺度和全局交叉注意力的视听情感识别系统,包括:
数据获取模块,其用于获取视频模态数据和音频模态数据;
视频特征提取模块,其用于基于视频模态数据和视频模态特征提取模块得到视频模态多尺度情感特征;
音频特征提取模块,其用于基于音频模态数据和音频模态特征提取模块得到音频模态高级情感特征表示;
特征融合模块,其用于通过全局交叉注意力模块,基于视频模态多尺度情感特征和音频模态高级情感特征表示,同时学习模态间和模态内的交互信息,得到包含模态间和模态内交互信息的融合特征表示;通过多尺度特征学习模块进一步捕获融合特征表示中对两个模态特征都有意义的多尺度情感信息;
情感识别模块,其用于将对两个模态特征都有意义的多尺度情感信息,经过全局池化操作后级联,得到最终的融合特征,并送入softmax层得到情感识别结果。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明分别提取视频模态的多尺度情感特征和音频模态高级特征;同时学习模态间和模态内的交互信息;学习对两个模态共同有意义的多尺度情感信息;将两个特征级联得到最终的融合特征;通过softmax层得到最终的情感分类结果。本通过提取模态多尺度情感特征,弥补了单一尺度特征不足以表达人类复杂情感的缺陷;在进行特征融合时考虑了更丰富的模态交互信息,还进一步学习了对两个模态共同有意义的多尺度情感信息;最终实现更准确、高效的完成情感分类任务。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明提供实施例提供的基于多尺度卷积和全局交叉注意力的视听情感识别方法的总体框图;
图2是本发明提供实施例提供的多尺度卷积注意力模块结构图;
图3是本发明提供实施例提供的全局交叉注意模块结构图;
图4是本发明提供实施例提供的多尺度特征学习模块结构图。
其中,k表示卷积核大小;outchannels表示输出通道数。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释
自动情感识别:是情感计算领域的一个新兴分支,旨在通过各种人工智能技术识别和检测人类的情感状态,已经广泛应用于人机交互等领域。自动情感识别任务可以通过分析来自语音、面部表情、身体动作、文本、心理信号等模态数据中的一个或多个组合来实现。然而,先前的研究表明,仅使用一个模态的数据进行情感识别是低效的,多模态情感识别通过利用多个模态数据,能够实现更好的识别性能和鲁棒效果。
如图1所示,本发明由视频、音频模态特征提取、模态特征融合和情感分类三个部分组成。首先,在视频模态的特征提取部分,通过预训练的二维卷积神经网络和多尺度卷积注意力模块提取多尺度的关键视频模态特征。在音频模态的特征提取部分,提取梅尔倒谱系数作为音频模态低级特征后,进一步通过一维时间卷积块提取音频模态的高级特征。其次,分两步实现视频模态和音频模态的特征融合。在第一步中,通过全局交叉注意力模块,充分考虑模态内和模态间的交互信息,获得两个模态的一对融合特征。然后,第二步通过多尺度特征学习模块进一步捕获融合特征中对两个模态特征都有意义的多尺度情感信息。
实施例一
本实施例提供基于多尺度和全局交叉注意力的视听情感识别方法,包括如下步骤:
步骤1:对视频和音频模态数据进行预处理操作,得到处理后各样本的数据向量;
步骤1中,所述对视频和音频模态数据进行预处理操作,具体包括:
步骤101:对视频数据进行预处理工作,对每个视频数据样本进行裁剪或零填充。
对每个视频数据样本进行裁剪或零填充到一个统一时长x秒,然后进行分帧操作,从每个视频片段中选取k个均匀分布的视频帧,并将大小调整为224*224,再通过随机裁剪、水平翻转、随机旋转和归一化方法对数据进行增强得到视频帧数据Xframe。
本实例使用的是RAVDESS数据集,因此裁剪或填充到RAVDESS数据集的平均时长3.6秒,然后进行分帧操作,从每个视频片段中选取15个均匀分布的视频帧,并将大小调整为224*224,再通过随机裁剪、水平翻转、随机旋转和归一化方法对数据进行增强。
步骤102:对音频模态进行预处理操作,具体包括:
对每个音频数据样本进行裁剪或零填充到一个统一时长x秒,然后以16kHz进行重采样操作,并通过添加随机噪声对数据进行增强。
本实施例中,对每个音频数据样本进行裁剪或零填充到RAVDESS数据集的平均时长3.6秒,然后以16kHz进行重采样操作,并通过添加随机噪声对数据进行增强。
步骤2:将步骤1得到的视频模态和音频模态的数据向量分别输入视频模态和音频模态特征提取模块,分别提取视频模态的多尺度情感特征和音频模态的高级特征表示;
所述视频模态特征提取模块包括两个部分,第一部分使用预训练的二维卷积神经网络学习视频模态的深度空间特征;第二部分使用多尺度卷积注意力模块进一步在时间维度上提取视频模态的多尺度关键情感信息。
将经过步骤101得到的视频帧数据Xframe输入到预训练二维卷积神经网络EfficientFace中,以提取视频模态的空间情感特征Xs,计算过程如下:
Xs=EffcientFace(Xframe)∈RC×H×W
其中,Xs为学习到的视频模态空间特征,C、H和W分别为视频模态数据的通道数、高度和宽度。
将视频空间特征Xs的高度和宽度维度展平,得到Xs∈RC×(H*W),再将k个连续帧堆叠在一起得到将/>送入多尺度卷积注意力模块,进一步在时间维度上提取多尺度关键情感信息。
具体地,多尺度卷积注意力模块结构图如图2所示,所述多尺度卷积注意力模块由一个卷积核大小为1的一维卷积块,两个卷积核大小为3的一维卷积块,两个卷积核大小为5的一维卷积块和一个时间注意力层构成。每一个一维卷积块由卷积层、批量归一化层和ReLU激活层构成。其中,卷积核大小为1的一维卷积块主要用于通道维度映射,将模态特征映射到一个统一的通道维度空间。卷积核大小为3和5的一维卷积块用于学习在时间维度上不同上下文尺度的局部特征表示,并通过残差连接和级联操作得到融合不同上下文尺度的情感特征表示。最后,在时间维度上使用批归一化层、最大池化层和多头自注意力层,以实现特征的压缩降维,并从特征中去除冗余信息。重复相同的操作两次,以获得最终的多尺度关键视频模态特征Xv。
所述音频模态特征提取模块包括两个部分,第一部分提取音频数据的梅尔倒谱系数作为音频模态低级特征;第二部分使用一维时间卷积块进一步提取音频的高级情感特征。
具体来说,提取预处理后音频数据的10维MFCC特征,记作Xmfcc,然后使用一维卷积块进一步提取音频模态的高级情感特征,每个一维卷积块由卷积层、批量归一化层、ReLU激活层和最大池化层组成,计算过程如下:
Xa=MaxPool1D(ReLU(BN1D(Conv1D(Xmfcc))))
Xa=MaxPool1D(ReLU(BN1D(Conv1D(Xa))))
其中,BN1D为一维批量归一化层,ReLU为ReLU激活层,MaxPool1D为一维最大池化层,Xa表示学习到的高级音频特征。
本实施例中,所述一维卷积神经网络的具体参数配置如表1所示:
表1一维卷积神经网络的具体参数配置
Conv1D(i=10,o=64,k=3) |
BN1D |
ReLU |
MaxPool1D(k=2) |
Conv1D(i=64,o=128,k=3) |
BN1D |
ReLU |
MaxPool1D(k=2) |
其中,i表示输入通道数,o表示输出通道数,k表示卷积核大小。
步骤3:经过两个模态的特征提取模块,得到了视频模态特征Xv和音频模态特征Xa,然后将其送入全局交叉注意力模块,通过全局交叉注意力模块,充分学习视频和音频模态间和模态内的交互信息,得到一对融合特征表示;
全局交叉注意力模块结构图如图3所示,所述全局交叉注意力模块是基于多头点积注意力机制设计的,具体来说:
(1)将经过特征提取模块得到的视频模态特征Xv和音频模态特征Xa在特征维度上进行级联,得到联合特征表示J:
J=Concat(Xv,Xa)
其中,和/>Nv为视频模态特征维数,Na为音频模态特征维数,C为通道数,NJ为联合特征表示的维数并且NJ=Nv+Na。
(2)将联合特征表示作为查询Q,将每个模态的特征Xv和Xa作为键Kv和Ka,送入全局交叉注意模块以获得融合的注意力得分,具体为:
分别送入多头自注意力机制,就能学习到对于查询(也就是联合特征)而言每个模态特征(也就是键)的重要性,这个重要性信息也就是全局交互信息。
具体计算如下:
其中,h是多头注意力机制的头部数量,并且/>是注意力头的比例因子,表示视频模态融合注意力得分,/>表示音频模态融合注意力得分,Wq和Wk为可学习参数。
(3)在得到融合的注意力分数后,通过聚合融合注意力得分的方式来获得模态注意力权重,具体计算过程如下:
其中,Hv和Ha分别表示视频模态和音频模态注意力权重。
(4)将视频模态和音频模态注意力权重代入各自的模态特征表示中,以获得一对包含模态间和模态内交互信息的融合特征表示,具体计算过程如下:
其中,Xva和Xav分别表示了学习了模态间和模态内交互信息的视觉融合特征和音频融合特征。
(5)为了避免原始模态特征的丢失,还设计了残差结构以获得最终的一对融合特征表示V和A,具体计算过程如下所示:
V=Xva+Xv
A=Xav+Xa
步骤4:将步骤3得到的一对融合特征表示表示V和A后,进一步将其输入多尺度特征学习模块,学习对于两个模态共同有意义的多尺度情感信息;
所述学习对于两个模态共同有意义的多尺度情感信息为:之前所使用的特征提取网络是应用在单个模态分支中的,其提取出的情感特征只是对于单个模态而言的,后面由于进行了多模态融合,使得模态数据中又加入了一些互补信息,这时候再对融合模态数据进行特征提取,便能够学习到一些融合特征中对于两个模态而言都有利于情感分类的多模态情感信息。
例如:有些人的情绪表达可能在面部表情和声调变化方面并不十分剧烈。从单独的视频模态或音频模态中提取的特征可能无法准确识别情感。然而,当将这两个模态结合起来在融合特征中观察时,就有可能放大情绪变化的特征,找到在融合特征中有助于情感分类的信息。多尺度特征学习模块结构如图4所示,步骤4中,所述的多尺度特征学习模块,由卷积核大小为3和卷积核大小为5的一维卷积块组成,每个卷积块包括卷积层、批量归一化层和最大池化层,具体包括:
通过卷积核大小3和5的一维卷积块学习模态融合特征表示V和A中,对于两个模态共同有意义的不同上下文尺度的情感特征。
通过级联操作和残差连接进行不同尺度信息的融合,得到最终的融合特征表示V*和A*。
步骤5:将步骤4得到的两个特征经过全局池化操作后级联,得到最终的融合特征,并送入softmax层得到情感分类结果。
最后,将最终的融合特征表示V*和A*经过全局平均池化操作后级联,得到一个统一的联合特征表示Z=[V*,A*],再将联合特征表示Z通过softmax层进行最终的情感分类,并使用交叉熵损失对模型进行端到端优化。
本发明在RAVDESS多模态开源数据集上进行了验证,实验结果如表2所示:
表2本发明和单模态数据验证结果
从表2中的数据可以看出,本发明提出的视听情感识别模型相较于单模态的情感识别模型在识别准确率上取得了很大程度的提升。
实施例二
本实施例提供基于多尺度和全局交叉注意力的视听情感识别系统,包括:
数据获取模块,其用于获取视频模态数据和音频模态数据;
视频特征提取模块,其用于基于视频模态数据和视频模态特征提取模块得到视频模态多尺度情感特征;
音频特征提取模块,其用于基于音频模态数据和音频模态特征提取模块得到音频模态高级情感特征表示;
特征融合模块,其用于通过全局交叉注意力模块,基于视频模态多尺度情感特征和音频模态高级情感特征表示,同时学习模态间和模态内的交互信息,得到包含模态间和模态内交互信息的融合特征表示;通过多尺度特征学习模块进一步捕获融合特征表示中对两个模态特征都有意义的多尺度情感信息。
情感识别模块,其用于将对两个模态特征都有意义的多尺度情感信息,经过全局池化操作后级联,得到最终的融合特征,并送入softmax层得到情感识别结果。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如实施例一所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于多尺度和全局交叉注意力的视听情感识别方法,其特征在于,包括如下步骤:
获取视频模态数据和音频模态数据;
基于视频模态数据和视频模态特征提取模块得到视频模态多尺度情感特征;
基于音频模态数据和音频模态特征提取模块得到音频模态高级情感特征表示;
通过全局交叉注意力模块,基于视频模态多尺度情感特征和音频模态高级情感特征表示,同时学习模态间和模态内的交互信息,得到包含模态间和模态内交互信息的融合特征表示;通过多尺度特征学习模块进一步捕获融合特征表示中对两个模态特征都有意义的多尺度情感信息;
将对两个模态特征有共同意义的多尺度情感信息,经过全局池化操作后级联,得到最终的融合特征,并送入softmax层得到情感识别结果。
2.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法,其特征在于,所述基于视频模态数据和视频模态特征提取模块得到视频模态多尺度情感特征,包括:
所述视频模态特征提取模块包括两个部分,第一部分使用预训练的二维卷积神经网络学习视频模态的深度空间特征;第二部分使用多尺度卷积注意力模块进一步在时间维度上提取视频模态的多尺度关键情感信息。
3.如权利要求2所述的基于多尺度和全局交叉注意力的视听情感识别方法,其特征在于,所述使用多尺度卷积注意力模块进一步在时间维度上提取视频模态的多尺度关键情感信息,具体包括:
所述多尺度卷积注意力模块由第一卷积块、第二卷积块、第三卷积块以及时间注意力层构成;
通过第一卷积块在通道维度映射,将模态特征映射到一个统一的通道维度空间;通过第二卷积块和第三卷积块在时间维度上学习不同上下文尺度的局部特征表示,最后,通过时间注意力层在时间维度上进行特征的压缩降维,获得多尺度关键情感信息。
4.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法,其特征在于,所述基于音频模态数据和音频模态特征提取模块得到音频模态高级情感特征表示,包括:
所述音频模态特征提取模块包括两个部分,第一部分提取音频数据的梅尔倒谱系数作为音频模态低级特征;第二部分使用一维时间卷积块进一步提取音频模态高级情感特征表示。
5.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法,其特征在于,所述获取视频模态数据和音频模态数据,还包括对视频和音频模态数据进行预处理操作,具体包括:
对每个视频数据样本进行裁剪或零填充,然后进行分帧操作,从每个视频片段中选取k个均匀分布的视频帧,经过大小调整后,再通过随机裁剪、水平翻转、随机旋转和归一化方法对数据进行增强;
对每个音频数据样本进行裁剪或零填充,然后进行重采样操作,并通过添加随机噪声对数据进行增强。
6.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法,其特征在于,所述通过全局交叉注意力模块,基于视频模态多尺度情感特征和音频模态高级情感特征表示,同时学习模态间和模态内的交互信息,得到包含模态间和模态内交互信息的融合特征表示,具体包括:
将视频模态多尺度情感特征和音频模态高级情感特征表示在特征维度上进行级联,得到联合特征表示;
将视频模态和音频模态特征用作键,送入全局交叉注意模块以获得融合的注意力得分;
通过聚合融合注意力得分的方式来获得视频模态和音频模态注意力权重;
将视频模态和音频模态注意力权重代入各自的模态特征表示中,以获得一对包含模态间和模态内交互信息的融合特征表示。
7.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法,其特征在于,所述多尺度特征学习模块由卷积核大小为3和卷积核大小为5的一维卷积块组成,每个卷积块包括卷积层、批量归一化层和最大池化层。
8.基于多尺度和全局交叉注意力的视听情感识别系统,其特征在于,包括:
数据获取模块,其用于获取视频模态数据和音频模态数据;
视频特征提取模块,其用于基于视频模态数据和视频模态特征提取模块得到视频模态多尺度情感特征;
音频特征提取模块,其用于基于音频模态数据和音频模态特征提取模块得到音频模态高级情感特征表示;
特征融合模块,其用于通过全局交叉注意力模块,基于视频模态多尺度情感特征和音频模态高级情感特征表示,同时学习模态间和模态内的交互信息,得到包含模态间和模态内交互信息的融合特征表示;通过多尺度特征学习模块进一步捕获融合特征表示中对两个模态特征都有意义的多尺度情感信息;
情感识别模块,其用于将对两个模态特征都有意义的多尺度情感信息,经过全局池化操作后级联,得到最终的融合特征,并送入softmax层得到情感识别结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310601381.8A CN116758451A (zh) | 2023-05-24 | 2023-05-24 | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310601381.8A CN116758451A (zh) | 2023-05-24 | 2023-05-24 | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116758451A true CN116758451A (zh) | 2023-09-15 |
Family
ID=87950519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310601381.8A Pending CN116758451A (zh) | 2023-05-24 | 2023-05-24 | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758451A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153197A (zh) * | 2023-10-27 | 2023-12-01 | 云南师范大学 | 语音情感识别方法、设备以及计算机可读存储介质 |
-
2023
- 2023-05-24 CN CN202310601381.8A patent/CN116758451A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153197A (zh) * | 2023-10-27 | 2023-12-01 | 云南师范大学 | 语音情感识别方法、设备以及计算机可读存储介质 |
CN117153197B (zh) * | 2023-10-27 | 2024-01-02 | 云南师范大学 | 语音情感识别方法、设备以及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN103218842B (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
CN109460737A (zh) | 一种基于增强式残差神经网络的多模态语音情感识别方法 | |
CN111583964B (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
CN111161715B (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN112686048A (zh) | 基于语音、语义、面部表情融合的情绪识别方法及装置 | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
CN112418166A (zh) | 一种基于多模态信息的情感分布学习方法 | |
Dweik et al. | Read my lips: Artificial intelligence word-level arabic lipreading system | |
Serbaya | Analyzing the role of emotional intelligence on the performance of small and medium enterprises (SMEs) using ai-based convolutional neural networks (CNNs) | |
CN114863572B (zh) | 一种多通道异构传感器的肌电手势识别方法 | |
Hu et al. | Speech Emotion Recognition Based on Attention MCNN Combined With Gender Information | |
CN114944002B (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
CN116467416A (zh) | 一种基于图神经网络的多模态对话情感识别方法及系统 | |
CN116167015A (zh) | 一种基于联合交叉注意力机制的维度情感分析方法 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN113420783B (zh) | 一种基于图文匹配的智能人机交互方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |