CN116758451A

CN116758451A - 基于多尺度和全局交叉注意力的视听情感识别方法及系统

Info

Publication number: CN116758451A
Application number: CN202310601381.8A
Authority: CN
Inventors: 张鹏; 赵晖; 李美娟; 陈弈达; 李健; 汪付强; 刘祥志; 张建强; 吴晓明
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-09-15

Abstract

本发明属于情感计算技术领域，提供了基于多尺度和全局交叉注意力的视听情感识别方法及系统，通过多尺度卷积注意力模块，提取不同上下文尺度的模态关键情感特征，弥补了单一尺度特征不足以表达人类复杂情感的缺陷。通过全局交叉注意力模块，同时考虑模态间和模态内的交互，从而学习更丰富的模态交互信息，并且减少了融合特征中的冗余。最后又设计了多尺度特征学习模块，从融合特征中进一步学习对两个模态共同有意义的情感信息。通过以上改进，最终所提出的方法能够实现更好的情感识别准确率和更高效的情感识别效率。

Description

基于多尺度和全局交叉注意力的视听情感识别方法及系统

技术领域

本发明属于情感计算技术领域，尤其涉及基于多尺度和全局交叉注意力的视听情感识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

尽管许多研究使用了更复杂的模态组合，但由于面部表情和语音是人类表达情绪最自然和最常见的方式，视频和音频仍是完成这项任务的主要模态。

现有的基于视听情感识别的研究工作，主要是在前期设计特征提取网络，分别提取视频和音频模态的高级情感特征，再使用特征融合方法，包括早期融合、中期融合和晚期融合，将两个模态的情感信息融合，以完成最终的情感分类。

虽然随着深度学习的发展，视听情感识别任务取得了显著进展。对于视频模态的特征提取任务来说，主流的方法有两种，一种是使用三维卷积神经网络直接提取视频模态的时空特征，如C.Guanghui使用C3D-Sports-1M模型初始化的三维卷积神经网络来提取视频模态的时空特征表示；另一种方法是首先使用二维卷积神经网络提取视频模态的空间特征，再使用一维卷积神经网络或循环神经网络在时间维度上对视频序列进行建模，进一步提取视频模态的时间特征，如D.H.Kim提出一种面部表情识别网络，该网络通过二维卷积神经网络学习面部表情的空间特征，再使用长短期记忆网络(LSTM)进一步学习面部表情空间特征表示的时间特征。

对于音频模态的特征提取任务，也有几种主流的处理方法，一种是像P.Tzirakis那样，将原始语音波形或手工制作的低级特征(例如梅尔倒谱系数)，馈送到一维卷积神经网络或循环神经网络，以进一步提取高级情感特征；另一种处理方法是像M.B.Er那样，将语音转换成类似于RGB图像的二维频谱图，然后使用处理图像的方法提取音频模态特征。

但是，人类情感表达是一个复杂的心理过程，现有工作使用单一尺度的网络模型提取模态数据的固定尺寸局部特征表示，不足以充分表达情感信息。另外，对于模态特征融合任务来说，尽管人类非常善于从多模态情感信息中识别情感，但计算机则不同。如果只是简单的将多个模态数据级联输入到计算机中进行情感识别，那么得到的融合特征表示将忽略不同模态之间的互补信息，并且将存在大量重复和冗余，这会恶化情感识别系统，导致“1+1<2”的负面影响。现有工作虽然试图使用基于注意力的融合方法来解决上述问题，例如J.Huang利用Transformer模型进行模态特征融合，通过多模态融合模块中包含的多头注意力层捕捉视听模态之间的交互，并将音频模态特征集成到视频模态特征中，以获得融合特征表示。但所使用的特征融合方法并不能充分捕捉模态之间的互补关系，并且得到的融合特征表示存在一定的冗余。

另外，目前虽然也有多模态情感识别方法试图捕获更丰富的模态内和模态间的交互信息，但是其是使用了多次注意力机制才得到的，导致提取的特征存在重复和冗余，并且其注意力会集中于自身的位置，模型的表达能力差，对于视听情感的识别的效率低。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于多尺度和全局交叉注意力的视听情感识别方法及系统，其针对上述现有工作中在模态特征提取和特征融合部分的局限性，对其分别进行了改进，通过多尺度卷积注意力模块，提取不同上下文尺度的模态关键情感特征，弥补了单一尺度特征不足以表达人类复杂情感的缺陷。通过全局交叉注意力模块，同时考虑模态间和模态内的交互，从而学习更丰富的模态交互信息，并且减少了融合特征中的冗余。最后又设计了多尺度特征学习模块，从融合特征中进一步学习对两个模态共同有意义的情感信息。通过以上改进，最终所提出的方法能够实现更好的情感识别准确率和更高效的情感识别效率。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于多尺度和全局交叉注意力的视听情感识别方法，包括如下步骤：

获取视频模态数据和音频模态数据；

基于视频模态数据和视频模态特征提取模块得到视频模态多尺度情感特征；

基于音频模态数据和音频模态特征提取模块得到音频模态高级情感特征表示；

通过全局交叉注意力模块，基于视频模态多尺度情感特征和音频模态高级情感特征表示，同时学习模态间和模态内的交互信息，得到包含模态间和模态内交互信息的融合特征表示；通过多尺度特征学习模块进一步捕获融合特征表示中对两个模态特征都有意义的多尺度情感信息；

将对两个模态特征有共同意义的多尺度情感信息，经过全局池化操作后级联，得到最终的融合特征，并送入softmax层得到情感识别结果。

本发明的第二个方面提供基于多尺度和全局交叉注意力的视听情感识别系统，包括：

数据获取模块，其用于获取视频模态数据和音频模态数据；

视频特征提取模块，其用于基于视频模态数据和视频模态特征提取模块得到视频模态多尺度情感特征；

音频特征提取模块，其用于基于音频模态数据和音频模态特征提取模块得到音频模态高级情感特征表示；

特征融合模块，其用于通过全局交叉注意力模块，基于视频模态多尺度情感特征和音频模态高级情感特征表示，同时学习模态间和模态内的交互信息，得到包含模态间和模态内交互信息的融合特征表示；通过多尺度特征学习模块进一步捕获融合特征表示中对两个模态特征都有意义的多尺度情感信息；

情感识别模块，其用于将对两个模态特征都有意义的多尺度情感信息，经过全局池化操作后级联，得到最终的融合特征，并送入softmax层得到情感识别结果。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明分别提取视频模态的多尺度情感特征和音频模态高级特征；同时学习模态间和模态内的交互信息；学习对两个模态共同有意义的多尺度情感信息；将两个特征级联得到最终的融合特征；通过softmax层得到最终的情感分类结果。本通过提取模态多尺度情感特征，弥补了单一尺度特征不足以表达人类复杂情感的缺陷；在进行特征融合时考虑了更丰富的模态交互信息，还进一步学习了对两个模态共同有意义的多尺度情感信息；最终实现更准确、高效的完成情感分类任务。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明提供实施例提供的基于多尺度卷积和全局交叉注意力的视听情感识别方法的总体框图；

图2是本发明提供实施例提供的多尺度卷积注意力模块结构图；

图3是本发明提供实施例提供的全局交叉注意模块结构图；

图4是本发明提供实施例提供的多尺度特征学习模块结构图。

其中，k表示卷积核大小；outchannels表示输出通道数。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释

自动情感识别：是情感计算领域的一个新兴分支，旨在通过各种人工智能技术识别和检测人类的情感状态，已经广泛应用于人机交互等领域。自动情感识别任务可以通过分析来自语音、面部表情、身体动作、文本、心理信号等模态数据中的一个或多个组合来实现。然而，先前的研究表明，仅使用一个模态的数据进行情感识别是低效的，多模态情感识别通过利用多个模态数据，能够实现更好的识别性能和鲁棒效果。

如图1所示，本发明由视频、音频模态特征提取、模态特征融合和情感分类三个部分组成。首先，在视频模态的特征提取部分，通过预训练的二维卷积神经网络和多尺度卷积注意力模块提取多尺度的关键视频模态特征。在音频模态的特征提取部分，提取梅尔倒谱系数作为音频模态低级特征后，进一步通过一维时间卷积块提取音频模态的高级特征。其次，分两步实现视频模态和音频模态的特征融合。在第一步中，通过全局交叉注意力模块，充分考虑模态内和模态间的交互信息，获得两个模态的一对融合特征。然后，第二步通过多尺度特征学习模块进一步捕获融合特征中对两个模态特征都有意义的多尺度情感信息。

实施例一

本实施例提供基于多尺度和全局交叉注意力的视听情感识别方法，包括如下步骤：

步骤1：对视频和音频模态数据进行预处理操作，得到处理后各样本的数据向量；

步骤1中，所述对视频和音频模态数据进行预处理操作，具体包括：

步骤101：对视频数据进行预处理工作，对每个视频数据样本进行裁剪或零填充。

对每个视频数据样本进行裁剪或零填充到一个统一时长x秒，然后进行分帧操作，从每个视频片段中选取k个均匀分布的视频帧，并将大小调整为224*224，再通过随机裁剪、水平翻转、随机旋转和归一化方法对数据进行增强得到视频帧数据X_frame。

本实例使用的是RAVDESS数据集，因此裁剪或填充到RAVDESS数据集的平均时长3.6秒，然后进行分帧操作，从每个视频片段中选取15个均匀分布的视频帧，并将大小调整为224*224，再通过随机裁剪、水平翻转、随机旋转和归一化方法对数据进行增强。

步骤102：对音频模态进行预处理操作，具体包括：

对每个音频数据样本进行裁剪或零填充到一个统一时长x秒，然后以16kHz进行重采样操作，并通过添加随机噪声对数据进行增强。

本实施例中，对每个音频数据样本进行裁剪或零填充到RAVDESS数据集的平均时长3.6秒，然后以16kHz进行重采样操作，并通过添加随机噪声对数据进行增强。

步骤2：将步骤1得到的视频模态和音频模态的数据向量分别输入视频模态和音频模态特征提取模块，分别提取视频模态的多尺度情感特征和音频模态的高级特征表示；

所述视频模态特征提取模块包括两个部分，第一部分使用预训练的二维卷积神经网络学习视频模态的深度空间特征；第二部分使用多尺度卷积注意力模块进一步在时间维度上提取视频模态的多尺度关键情感信息。

将经过步骤101得到的视频帧数据X_frame输入到预训练二维卷积神经网络EfficientFace中，以提取视频模态的空间情感特征X_s，计算过程如下：

X_s＝EffcientFace(X_frame)∈R^C×H×W

其中，X_s为学习到的视频模态空间特征，C、H和W分别为视频模态数据的通道数、高度和宽度。

将视频空间特征X_s的高度和宽度维度展平，得到X_s∈R^C×(H*W)，再将k个连续帧堆叠在一起得到将/>送入多尺度卷积注意力模块，进一步在时间维度上提取多尺度关键情感信息。

具体地，多尺度卷积注意力模块结构图如图2所示，所述多尺度卷积注意力模块由一个卷积核大小为1的一维卷积块，两个卷积核大小为3的一维卷积块，两个卷积核大小为5的一维卷积块和一个时间注意力层构成。每一个一维卷积块由卷积层、批量归一化层和ReLU激活层构成。其中，卷积核大小为1的一维卷积块主要用于通道维度映射，将模态特征映射到一个统一的通道维度空间。卷积核大小为3和5的一维卷积块用于学习在时间维度上不同上下文尺度的局部特征表示，并通过残差连接和级联操作得到融合不同上下文尺度的情感特征表示。最后，在时间维度上使用批归一化层、最大池化层和多头自注意力层，以实现特征的压缩降维，并从特征中去除冗余信息。重复相同的操作两次，以获得最终的多尺度关键视频模态特征X_v。

所述音频模态特征提取模块包括两个部分，第一部分提取音频数据的梅尔倒谱系数作为音频模态低级特征；第二部分使用一维时间卷积块进一步提取音频的高级情感特征。

具体来说，提取预处理后音频数据的10维MFCC特征，记作X_mfcc，然后使用一维卷积块进一步提取音频模态的高级情感特征，每个一维卷积块由卷积层、批量归一化层、ReLU激活层和最大池化层组成，计算过程如下：

X_a＝MaxPool1D(ReLU(BN1D(Conv1D(X_mfcc))))

X_a＝MaxPool1D(ReLU(BN1D(Conv1D(X_a))))

其中，BN1D为一维批量归一化层，ReLU为ReLU激活层，MaxPool1D为一维最大池化层，X_a表示学习到的高级音频特征。

本实施例中，所述一维卷积神经网络的具体参数配置如表1所示：

表1一维卷积神经网络的具体参数配置

Conv1D(i＝10,o＝64,k＝3)
	BN1D
ReLU
	MaxPool1D(k＝2)
Conv1D(i＝64,o＝128,k＝3)
	BN1D
ReLU
	MaxPool1D(k＝2)

其中，i表示输入通道数，o表示输出通道数，k表示卷积核大小。

步骤3：经过两个模态的特征提取模块，得到了视频模态特征X_v和音频模态特征X_a，然后将其送入全局交叉注意力模块，通过全局交叉注意力模块，充分学习视频和音频模态间和模态内的交互信息，得到一对融合特征表示；

全局交叉注意力模块结构图如图3所示，所述全局交叉注意力模块是基于多头点积注意力机制设计的，具体来说：

(1)将经过特征提取模块得到的视频模态特征X_v和音频模态特征X_a在特征维度上进行级联，得到联合特征表示J：

J＝Concat(X_v,X_a)

其中，和/>N_v为视频模态特征维数，N_a为音频模态特征维数，C为通道数，N_J为联合特征表示的维数并且N_J＝N_v+N_a。

(2)将联合特征表示作为查询Q，将每个模态的特征X_v和X_a作为键K_v和K_a，送入全局交叉注意模块以获得融合的注意力得分，具体为：

分别送入多头自注意力机制，就能学习到对于查询(也就是联合特征)而言每个模态特征(也就是键)的重要性，这个重要性信息也就是全局交互信息。

具体计算如下：

其中，h是多头注意力机制的头部数量，并且/>是注意力头的比例因子，表示视频模态融合注意力得分，/>表示音频模态融合注意力得分，W_q和W_k为可学习参数。

(3)在得到融合的注意力分数后，通过聚合融合注意力得分的方式来获得模态注意力权重，具体计算过程如下：

其中，H_v和H_a分别表示视频模态和音频模态注意力权重。

(4)将视频模态和音频模态注意力权重代入各自的模态特征表示中，以获得一对包含模态间和模态内交互信息的融合特征表示，具体计算过程如下：

其中，X_va和X_av分别表示了学习了模态间和模态内交互信息的视觉融合特征和音频融合特征。

(5)为了避免原始模态特征的丢失，还设计了残差结构以获得最终的一对融合特征表示V和A，具体计算过程如下所示：

V＝X_va+X_v

A＝X_av+X_a

步骤4：将步骤3得到的一对融合特征表示表示V和A后，进一步将其输入多尺度特征学习模块，学习对于两个模态共同有意义的多尺度情感信息；

所述学习对于两个模态共同有意义的多尺度情感信息为：之前所使用的特征提取网络是应用在单个模态分支中的，其提取出的情感特征只是对于单个模态而言的，后面由于进行了多模态融合，使得模态数据中又加入了一些互补信息，这时候再对融合模态数据进行特征提取，便能够学习到一些融合特征中对于两个模态而言都有利于情感分类的多模态情感信息。

例如：有些人的情绪表达可能在面部表情和声调变化方面并不十分剧烈。从单独的视频模态或音频模态中提取的特征可能无法准确识别情感。然而，当将这两个模态结合起来在融合特征中观察时，就有可能放大情绪变化的特征，找到在融合特征中有助于情感分类的信息。多尺度特征学习模块结构如图4所示，步骤4中，所述的多尺度特征学习模块，由卷积核大小为3和卷积核大小为5的一维卷积块组成，每个卷积块包括卷积层、批量归一化层和最大池化层，具体包括：

通过卷积核大小3和5的一维卷积块学习模态融合特征表示V和A中，对于两个模态共同有意义的不同上下文尺度的情感特征。

通过级联操作和残差连接进行不同尺度信息的融合，得到最终的融合特征表示V^*和A^*。

步骤5：将步骤4得到的两个特征经过全局池化操作后级联，得到最终的融合特征，并送入softmax层得到情感分类结果。

最后，将最终的融合特征表示V^*和A^*经过全局平均池化操作后级联，得到一个统一的联合特征表示Z＝[V^*,A^*]，再将联合特征表示Z通过softmax层进行最终的情感分类，并使用交叉熵损失对模型进行端到端优化。

本发明在RAVDESS多模态开源数据集上进行了验证，实验结果如表2所示:

表2本发明和单模态数据验证结果

从表2中的数据可以看出，本发明提出的视听情感识别模型相较于单模态的情感识别模型在识别准确率上取得了很大程度的提升。

实施例二

本实施例提供基于多尺度和全局交叉注意力的视听情感识别系统，包括：

数据获取模块，其用于获取视频模态数据和音频模态数据；

特征融合模块，其用于通过全局交叉注意力模块，基于视频模态多尺度情感特征和音频模态高级情感特征表示，同时学习模态间和模态内的交互信息，得到包含模态间和模态内交互信息的融合特征表示；通过多尺度特征学习模块进一步捕获融合特征表示中对两个模态特征都有意义的多尺度情感信息。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多尺度和全局交叉注意力的视听情感识别方法，其特征在于，包括如下步骤：

获取视频模态数据和音频模态数据；

2.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法，其特征在于，所述基于视频模态数据和视频模态特征提取模块得到视频模态多尺度情感特征，包括：

3.如权利要求2所述的基于多尺度和全局交叉注意力的视听情感识别方法，其特征在于，所述使用多尺度卷积注意力模块进一步在时间维度上提取视频模态的多尺度关键情感信息，具体包括：

所述多尺度卷积注意力模块由第一卷积块、第二卷积块、第三卷积块以及时间注意力层构成；

通过第一卷积块在通道维度映射，将模态特征映射到一个统一的通道维度空间；通过第二卷积块和第三卷积块在时间维度上学习不同上下文尺度的局部特征表示，最后，通过时间注意力层在时间维度上进行特征的压缩降维，获得多尺度关键情感信息。

4.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法，其特征在于，所述基于音频模态数据和音频模态特征提取模块得到音频模态高级情感特征表示，包括：

所述音频模态特征提取模块包括两个部分，第一部分提取音频数据的梅尔倒谱系数作为音频模态低级特征；第二部分使用一维时间卷积块进一步提取音频模态高级情感特征表示。

5.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法，其特征在于，所述获取视频模态数据和音频模态数据，还包括对视频和音频模态数据进行预处理操作，具体包括：

对每个视频数据样本进行裁剪或零填充，然后进行分帧操作，从每个视频片段中选取k个均匀分布的视频帧，经过大小调整后，再通过随机裁剪、水平翻转、随机旋转和归一化方法对数据进行增强；

对每个音频数据样本进行裁剪或零填充，然后进行重采样操作，并通过添加随机噪声对数据进行增强。

6.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法，其特征在于，所述通过全局交叉注意力模块，基于视频模态多尺度情感特征和音频模态高级情感特征表示，同时学习模态间和模态内的交互信息，得到包含模态间和模态内交互信息的融合特征表示，具体包括：

将视频模态多尺度情感特征和音频模态高级情感特征表示在特征维度上进行级联，得到联合特征表示；

将视频模态和音频模态特征用作键，送入全局交叉注意模块以获得融合的注意力得分；

通过聚合融合注意力得分的方式来获得视频模态和音频模态注意力权重；

将视频模态和音频模态注意力权重代入各自的模态特征表示中，以获得一对包含模态间和模态内交互信息的融合特征表示。

7.如权利要求1所述的基于多尺度和全局交叉注意力的视听情感识别方法，其特征在于，所述多尺度特征学习模块由卷积核大小为3和卷积核大小为5的一维卷积块组成，每个卷积块包括卷积层、批量归一化层和最大池化层。

8.基于多尺度和全局交叉注意力的视听情感识别系统，其特征在于，包括：

数据获取模块，其用于获取视频模态数据和音频模态数据；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于多尺度和全局交叉注意力的视听情感识别方法中的步骤。